CN110990778A

CN110990778A - 多元回归分析装置和多元回归分析方法

Info

Publication number: CN110990778A
Application number: CN201910920553.1A
Authority: CN
Inventors: 坪内隆浩
Original assignee: Toyota Motor Corp
Current assignee: Toyota Motor Corp
Priority date: 2018-10-03
Filing date: 2019-09-27
Publication date: 2020-04-10
Anticipated expiration: 2039-09-27
Also published as: JP7056497B2; CN110990778B; JP2020057261A; US11790277B2; US20200111029A1

Abstract

多元回归分析装置和多元回归分析方法。提供了一种能够准确地执行多元回归分析的多元回归分析装置。多元回归分析装置包括确定单元、划分单元、分析单元和回归方程获取单元。确定单元确定能有效作为在执行多个数据集合的分层时的参数的多个解释变量之一作为分层解释变量。划分单元使用分层解释变量针对每个层来划分多个数据集合。分析单元对已经划分的多个数据集合的每个组执行多元回归分析。获取单元获取综合多元回归方程，在综合多元回归方程中综合了多元回归分析的结果。

Description

多元回归分析装置和多元回归分析方法

技术领域

本公开涉及多元回归分析装置和多元回归分析方法，并且更具体地，涉及用于对多个数据集合执行多元回归分析的多元回归分析装置和多元回归分析方法，所述多个数据集合中的每个包括多个解释变量和目标变量。

背景技术

日本未审查专利申请公开第2016-031714号公开了一种多元回归分析装置，该多元回归分析装置被配置为根据至少两种类型的解释变量来预测时间序列数据的目标变量。在日本未审查专利申请公开第2016-031714号中公开的多元回归分析装置中，除了这些解释变量之外，已经经受了微分运算的数据、从现有解释变量导出的数据还被进一步添加为新的微分解释变量。因此，在日本未审查专利申请公开第2016-031714号中公开的技术中，可以在直接使用多元回归分析的框架的同时提高预测时间序列数据的目标变量的准确度。

发明内容

在日本未审查专利申请公开第2016-031714号中公开的技术中，由于添加了新的微分解释变量，因此用于多元回归分析的解释变量的数量增加。当解释变量的数量如上所述地增加时，由于要处理的特征量(维度)太大而无法有效地执行回归，这可能导致泛化性能降低(这通常被称为“维数灾难”)。因此，即使当解释变量的数量较大时，也要求准确地执行多元回归分析。

本公开提供了一种能够准确地执行多元回归分析的多元回归分析装置和多元回归分析方法。

根据本公开的多元回归分析装置是被配置为对多个数据集合执行多元回归分析的多元回归分析装置，所述多个数据集合中的每个包括多个解释变量和目标变量，所述多元回归分析装置包括：确定单元，所述确定单元被配置为确定能有效作为在执行所述多个数据集合的分层时的参数的所述多个解释变量之一作为分层解释变量；划分单元，所述划分单元被配置为使用所述分层解释变量针对每个层来划分所述多个数据集合；分析单元，所述分析单元被配置为对已经划分的所述多个数据集合的每个组执行多元回归分析；以及获取单元，所述获取单元被配置为获取综合多元回归方程，在所述综合多元回归方程中综合了所述多元回归分析的结果。

此外，根据本公开的多元回归分析方法是用于对多个数据集合执行多元回归分析的多元回归分析方法，所述多个数据集合中的每个包括多个解释变量和目标变量，所述多元回归分析方法包括：确定能有效作为在执行所述多个数据集合的分层时的参数的所述多个解释变量之一作为分层解释变量；使用所述分层解释变量针对每个层划分所述多个数据集合；对已经划分的所述多个数据集合的每个组执行多元回归分析；以及获取综合多元回归方程，在所述综合多元回归方程中综合了所述多元回归分析的结果。

本公开被配置为自动对多个数据集合执行分层，对已经分层的数据集合的每个组执行多元回归分析，以及获取综合了这些结果的综合多元回归方程。以这种方式，分别对已经分层的数据集合的每个组执行多元回归分析，从而可以准确地执行多元回归分析。

此外，优选地，所述多元回归分析装置包括：计算单元，所述计算单元被配置为计算所述多个解释变量中的每个对所述目标变量的贡献率；以及提取单元，所述提取单元被配置为从所述多个解释变量中提取数量满足预定条件并且所计算的贡献率高的解释变量，其中，所述确定单元根据所提取的解释变量来确定所述分层解释变量。

本公开被配置为在预先将解释变量的数量缩减到相应的贡献率高的解释变量之后确定分层解释变量。因此，可以减少确定它们是否可以用作分层解释变量的解释变量的数量，从而可以提高确定分层解释变量的速度。

此外，优选地，所述计算单元使用非线性回归方法来计算所述贡献率。

根据本公开，使用非线性回归方法来计算贡献率，从而可以有效地确定有效的分层解释变量。

此外，优选地，所述计算单元使用随机森林来计算所述贡献率。

本公开的上述配置使得可以进一步提高确定分层解释变量的速度。

此外，优选地，当存在用于所述分层解释变量的多个候选者时，所述确定单元确定在执行单一回归分析时的确定系数最低的候选者作为所述分层解释变量。

本公开的上述配置使得可以将有利于非线性回归的解释变量确定为分层解释变量。因此，可以进一步提高确定分层解释变量的准确度，即多元回归分析的准确度。

根据本公开，可以提供能够准确地执行多元回归分析的多元回归分析装置和多元回归分析方法。

将从以下给出的详细描述和附图来更全面地理解本公开的上述和其他目的、特征和优点，所述附图仅以说明的方式给出，因此不应被视为限制本公开。

附图说明

图1是示出根据第一实施例的分析系统的图；

图2是示出根据第一实施例的多元回归分析装置的配置的图；

图3是用于说明分层解释变量的图；

图4是用于说明分层解释变量的图；

图5是示出由根据第一实施例的多元回归分析装置执行的多元回归分析方法的流程图；

图6是用于说明由根据第一实施例的数据获取单元获取的数据集合的图；

图7是用于说明在随机森林的回归分析中使用的决策树的图；

图8是示出根据第一实施例的提取解释变量的处理细节的流程图；

图9是用于说明解释变量按照贡献率的降序排列的状态的图；

图10是指示由根据第一实施例的确定单元执行的确定分层解释变量的方法的流程图；

图11是指示由根据第一实施例的确定单元执行的确定分层解释变量的方法的流程图；

图12是用于说明确定分层解释变量的具体示例的图；

图13是示出由根据第一实施例的划分单元执行的划分数据集合的处理的图；

图14是用于说明图5中所示的S160-S182的处理的具体示例的图；

图15是用于说明根据第一实施例的使用综合多元回归方程的多元回归分析的结果的图；

图16是指示由根据第二实施例的确定单元执行的确定分层解释变量的方法的流程图；

图17是示出由根据第二实施例的划分单元执行的划分数据集合的处理的图；以及

图18是用于说明由根据第二实施例的划分单元针对每个层划分的数据集合的图。

具体实施方式

(第一实施例)

在下文中，将参考附图来解释本公开的实施例。在整个附图中，相同的元件由相同的附图标记表示，并且根据需要省略重复的描述。

图1是示出根据第一实施例的分析系统1的图。分析系统1包括多个传感器20和多元回归分析装置100。传感器20和多元回归分析装置100可以彼此连接，使得它们可以经由有线或无线网络2彼此通信。分析系统1可以例如安装在车辆上，但是分析系统1的配置不限于此。

多个传感器20中的每个检测关于分析系统1的评估目标的各种状态。当分析系统1安装在车辆上时，传感器20检测车辆中的各种状态(物理量)。例如，当分析系统1在引擎的台架评估(benchevaluation)的时候对排气系统的催化剂进行分析时，传感器20在催化剂的各种材料条件下检测催化剂的废气NOx浓度、加速器开度、汽油供应量、催化剂的进气温度、催化剂的进气浓度、催化剂温度等。此外，例如当分析系统1执行关于锂离子电池的台架评估的分析时，传感器20在锂离子电池的各种材料条件下检测电池输出、电流、电流变化量、在过去固定时间段内的连续充电(放电)量、电池的温度、充电量等。

多元回归分析装置100对多个数据集合执行多元回归分析，多个数据集合中的每个包括多个解释变量和目标变量。稍后将参考图6说明数据集合。多元回归分析装置100使用由传感器20检测到的状态之一作为目标变量并且将其他状态作为解释变量来执行多元回归分析。在上述示例中，当分析系统1在引擎的台架评估的时候对排气系统的催化剂进行分析时，催化剂的废气NOx浓度可以用作目标变量，而加速器开度、汽油供应量、催化剂的进气温度、催化剂的进气浓度、催化剂温度等可以用作解释变量。此外，当分析系统1执行关于锂电池的台架评估的分析时，电池输出可以用作目标变量，而电流、电流变化量、在过去固定时间段内的连续充电(放电)量、电池的温度、充电量等可以用作解释变量。

根据第一实施例的多元回归分析装置100从多个解释变量当中确定可有效作为在执行多个数据集合的分层(区域划分)时的参数的解释变量作为分层解释变量。稍后将说明分层解释变量。多元回归分析装置100使用分层解释变量针对每个层划分多个数据集合。

此外，多元回归分析装置100对已经划分的多个数据集合的每个组执行多元回归分析。此外，多元回归分析装置100获取综合了多元回归分析的结果的综合多元回归方程。因此，根据第一实施例的多元回归分析装置100自动执行分层并且对已经分层的多个数据集合的每个组执行多元回归分析，从而即使当存在许多解释变量时，也可以准确地执行多元回归分析。其细节将在稍后说明。

图2是示出根据第一实施例的多元回归分析装置100的配置的图。多元回归分析装置100包括控制单元102、存储单元104、通信单元106和接口单元108(IF)作为主要硬件配置。控制单元102、存储单元104、通信单元106和接口单元108经由数据总线等彼此连接。

控制单元102例如是诸如中央处理单元(CPU)的处理器。控制单元102包括作为执行控制处理、操作处理等的操作装置的功能。存储单元104例如是诸如存储器或硬盘之类的存储设备。存储单元104例如是只读存储器(ROM)或随机存取存储器(RAM)。存储单元104包括存储由控制单元102执行的控制程序、操作程序等的功能。此外，存储单元104包括临时存储处理数据等的功能。存储单元104可以包括数据库。

通信单元106执行为经由网络2与诸如传感器20之类的另一装置进行通信所需的处理。通信单元106可以包括通信端口、路由器、防火墙等。接口单元108包括例如用户界面(UI)。接口单元108包括诸如键盘、触摸板或鼠标之类的输入设备以及诸如显示器或扬声器之类的输出设备。接口单元108接受由用户(操作员)输入数据的操作，并且将信息输出给用户。

此外，多元回归分析装置100包括数据获取单元112、贡献率计算单元114、提取单元116、确定单元118、划分单元120、分析单元122、回归方程获取单元124和结果显示单元126(在下文中它们被称为“每个组件”)。数据获取单元112、贡献率计算单元114、提取单元116和确定单元118分别用作数据获取装置、贡献率计算装置、提取装置和确定装置。此外，划分单元120、分析单元122、回归方程获取单元124和结果显示单元126分别用作划分装置、分析装置、回归方程获取装置和结果显示装置。

例如，可以通过控制单元102的控制使程序被执行来获得每个组件。更具体地，可以通过控制单元102执行存储在存储单元104中的程序来获得每个组件。替选地，可以通过将需要的程序存储在期望的非易失性存储介质中并且根据需要安装该程序来获得每个组件。此外，每个组件不限于通过程序由软件来获得，并且可以通过例如硬件、固件和软件的任意组合来获得。此外，可以通过使用例如诸如现场可编程门阵列(FPGA)或微计算机之类的用户可编程集成电路来获得每个组件。在这种情况下，可以通过使用该集成电路来获得构成上述每个组件的程序。对于稍后将描述的其他实施例也是如此。虽然稍后将说明各个组件的具体功能，但是下面将说明每个组件的功能的概要。

数据获取单元112获取多个数据集合。贡献率计算单元114计算组成数据集合的多个解释变量中的每个对目标变量的贡献率。提取单元116从多个解释变量当中提取数量满足预定条件并且由贡献率计算单元114计算的相应贡献率高的解释变量。

确定单元118根据由提取单元116提取的相应贡献率高的解释变量来确定可有效作为在执行多个数据集合的分层时的参数的解释变量作为分层解释变量。划分单元120使用分层解释变量针对每个层划分多个数据集合。“分层解释变量”指的是这样的解释变量：当利用分层解释变量的特定阈值作为边界来划分(分配)多个数据集合时，针对每个层划分多个数据集合。

图3和图4是各自说明分层解释变量的图。在图3和图4中所示的示例中，每个数据集合包括目标变量(由y表示)和解释变量(由X1-XM表示)。“M”是等于或大于2的整数，其指示解释变量的数量。在图3和图4中所示的示例中，每个空心圆圈(白色圆圈)指示数据集合。

图3是在纵轴指示目标变量y并且横轴指示解释变量Xk1的情况下的数据集合的分布图。在这种情况下，解释变量Xk1大于阈值Xth1的数据集合中的目标变量y的所有值都小于y1。此外，解释变量Xk1大于阈值Xth1的数据集合中的目标变量y的所有值都大于y1。换句话说，目标变量y小于y1的数据集合中的解释变量Xk1的所有值都小于Xth1，并且目标变量y大于y1的数据集合中的解释变量Xk1的所有值都大于Xth1。以这种方式，通过解释变量Xk1中的阈值Xth1针对每个层对数据集合进行分类。因此，解释变量Xk1可以成为分层解释变量，因为该解释变量Xk1可有效作为在执行多个数据集合的分层时的参数。

图4是在纵轴指示目标变量y并且横轴指示解释变量Xk2的情况下的数据集合的分布图。在这种情况下，并非解释变量Xk2小于阈值Xth2的数据集合中的目标变量y的所有值都小于y1，并且目标变量y的一些值大于y1，如由箭头A1指示的数据集合。此外，并非解释变量Xk2大于阈值Xth2的数据集合中的目标变量y的所有值都大于y1。目标变量y的一些值小于y1，如由箭头A2指示的数据集合。换句话说，并非目标变量y小于y1的数据集合中的解释变量Xk2的所有值都小于Xth2。此外，并非目标变量y大于y1的数据集合中的解释变量Xk2的所有值都大于Xth2。也就是说，一些数据集合中的目标变量(和解释变量)落入另一个层级(部分)内(即，跨越阈值)。以这种方式，在解释变量Xk2中的阈值Xth2中，不是针对每个层对数据集合进行分类。因此，解释变量Xk2不能有效作为分层解释变量。

分析单元122(图2)独立地对已经被划分单元120划分的多个数据集合的每个组进行多元回归分析。回归方程获取单元124获取综合了多元回归分析结果的综合多元回归方程。综合多元回归方程将在稍后说明。结果显示单元126显示使用综合多元回归方程执行多元回归分析的结果。

图5是示出由根据第一实施例的多元回归分析装置100执行的多元回归分析方法的流程图。首先，数据获取单元112获取N个数据集合(步骤S102)。具体地，数据获取单元112获取指示由多个传感器20检测到的状态的值。数据获取单元112在评估目标的特定材料条件等下使用由多个传感器20检测到的状态之一作为目标变量并且使用其他状态作为解释变量来获取一个数据集合。然后，数据获取单元112以与另一个材料条件下的方式类似的方式获取一个数据集合。以这种方式，数据获取单元112获取N个数据集合。组成数据集合的目标变量和解释变量不限于由传感器20检测。

图6是用于说明由根据第一实施例的数据获取单元112获取的数据集合的图。图6中所示的数据集合的数量N是26(N＝26)。此外，每个数据集合包括目标变量y和318(M＝318)个解释变量X001-X318。在图6中所示的示例中，数据集合#1-#26从目标变量y最小的数据集合起(按照目标变量y的升序)排列。

接下来，贡献率计算单元114计算所有M个解释变量对目标变量y的贡献率(重要度)(步骤S104)。具体地，贡献率计算单元114使用机器学习算法来计算贡献率。更具体地，贡献率计算单元114使用机器学习的非线性回归方法来计算贡献率。非线性回归方法包括例如随机森林、支持向量回归、多项逻辑回归等。当使用非线性回归方法的随机森林时，计算贡献率的速度比使用其他方法时的速度更快。因此，下面将说明使用随机森林的示例。

贡献率计算单元114使用随机森林对多个数据集合执行目标变量y的回归分析，其中随机森林将每个解释变量用于条件分支。在该实施例中，使用随机森林的回归分析的结果不是用于目标变量y的回归，而是仅用于解释变量的贡献率(重要度)的计算，如稍后将说明的。贡献率计算单元114对用于在使用该随机森林进行回归分析时生成的决策树的第一分支的许多解释变量中的每个进行计数。

图7是用于说明在随机森林的回归分析中使用的决策树的图。在决策树Tree_1(树1)中，解释变量X002用于第一分支。在这种情况下，贡献率计算单元114增加解释变量X002用于第一分支的次数。此外，在决策树Tree_2(树2)中，解释变量X132用于第一分支。在这种情况下，贡献率计算单元114增加解释变量X132用于第一分支的次数。

如上所述，对于所有决策树Tree_1(树1)-Tree_T(树T)，对每个解释变量用于第一分支的次数进行计数。因此，贡献率计算单元114计算每个解释变量Xk用于第一分支的次数Nk。符号T是决策树的数量。然后，贡献率计算单元114通过εk＝Nk/T*100[％]来计算每个解释变量Xk的贡献率εk。贡献率计算单元114计算M个解释变量中的每个的贡献率。贡献率计算单元114可以使用另一种方法来计算贡献率。

接下来，提取单元116提取通过S104的处理计算出的相应贡献率高的解释变量(步骤S110)。具体地，提取单元116通过图8中所示的方法来提取数量满足预定条件的解释变量。

图8是示出根据第一实施例的提取解释变量的处理的细节的流程图。首先，提取单元116从最高的贡献率起将贡献率相加，并且计算贡献率之和超过预定阈值Th1的解释变量的数量M1(步骤S112)。虽然Th1例如是80[％]，但是Th1不限于此。接下来，提取单元116确定M1是否大于N-1(即，“数据集合的数量”-1)(步骤S114)。当M1大于N-1时(S114中的“是”)，提取单元116从贡献率最高的解释变量中提取(N-1)个解释变量(步骤S116)。另一方面，当M1不大于N-1时(S114中的“否”)，提取单元116从贡献率最高的解释变量中提取M1个解释变量(步骤S118)。虽然要提取的解释变量的数量的上限在本实施例中被设置为(N-1)个，但是可以不设置该上限。

图9是示出解释变量按照贡献率的降序排列的状态的图。在图9中所示的示例中，在S104的处理中，随机森林的决策树的数量被设置为100000(T＝100000)。例如，解释变量X002用于第一分支的次数是3905，因此贡献率是3.9％。在图9中所示的示例中，相应贡献率高的解释变量是贡献率从高到低的X002、X132、X133，....。由于在图9中所示的示例中M1>N-1，所以提取单元116提取相应贡献率高的N-1个(即，25个)解释变量。

接下来，确定单元118根据在S110中提取的相应贡献率高的解释变量来确定分层解释变量(图5中的步骤S120)。具体地，确定单元118通过由图10和图11中的流程图所示的方法来确定分层解释变量。

图10和图11是指示由根据第一实施例的确定单元118执行的确定分层解释变量的方法的流程图。首先，确定单元118按照目标变量y的升序来排列N个数据集合(步骤S122)。具体地，虽然确定单元118按照如图6中所示的目标变量y的升序来排列N个数据集合，但是与图6中所示的示例不同，这些数据集合由在S110的处理中提取的解释变量形成。

确定单元118将划分数量n的初始值设置为n＝N/2(当N是奇数时该值被四舍五入(bring forward))(步骤S124)，其中划分数量n用来在稍后将说明的S126的处理中划分N个数据集合。也就是说，划分数量n的初始值是数据集合的数量N的中间值。由于在图6中所示的示例中N＝26，所以划分数量n的初始值是13。将划分数量n的初始值设置为数据集合的数量N的中间值的原因是为了避免已被分类到一个层中的数据集合的数量与已被分类到另一个层中的数据集合的数量大大不同的情况。如果已被分类到一个层中的数据集合的数量与已被分类到另一个层中的数据集合的数量大大不同，则可能无法使用其数量比另一个数据集合更小的数据集合来适当地执行多元回归分析。

接下来，确定单元118按照划分数量n来划分数据集合(步骤S126)。具体地，确定单元118将N个数据集合划分为目标变量y小的n个数据集和目标变量y大的(N-n)个数据集合。在S110的处理中提取的任意解释变量由Xk来表示。

接下来，确定单元118针对目标变量y小的n个数据集合(LOW(低)数据集合)，获取特定解释变量Xk的最大值LOWmax和最小值LOWmin(步骤S130)。以类似的方式，确定单元118针对目标变量大的(N-n)个数据集合(HIGH(高)数据集合)，获取解释变量Xk的最大值HIGHmax和最小值HIGHmin(步骤S132)。LOWmax和LOWmin中的每个是组成LOW(低)数据集合的任何一个数据集合中的解释变量Xk的值。以类似的方式，HIGHmax和HIGHmin中的每个是组成HIGH(高)数据集合的任何一个数据集合中的解释变量Xk的值。

接下来，确定单元118确定解释变量是否满足正斜率分层条件“HIGHmin–LOWmax>0并且LOWmin–HIGHmax<0”或负斜率分层条件“HIGHmin–LOWmax<0并且LOWmin–HIGHmax>0”(步骤S134)。如图3中所示，正斜率分层条件指的是：在目标变量y小的层级(部分)中所有数据集合中的解释变量Xk等于或小于阈值Xth，并且在目标变量y大的层级(部分)中所有数据集合中的解释变量Xk大于阈值Xth。因此，如图3中所示，数据集合被划分(分层)到右上区域和左下区域。另一方面，例如，如图4中所示，当解释变量不满足正斜率分层条件时，数据集合没有被分类(分层)到右上区域和左下区域。此外，如稍后描述的图14中所示，负斜率分层条件指的是：在目标变量y小的层级(部分)中所有数据集合中的解释变量Xk大于阈值Xth，并且在目标变量y大的层级(部分)中所有数据集合中的解释变量Xk等于或小于阈值Xth。

当解释变量满足正斜率分层条件或负斜率分层条件时(S134中的“是”)，确定单元118确定解释变量Xk是分层解释变量的候选者(步骤S136)。另一方面，当解释变量不满足正斜率分层条件或负斜率分层条件时(S134中的“否”)，确定单元118确定解释变量Xk不是分层解释变量的候选者(步骤S138)。然后，确定单元118对在S110的处理中提取的所有解释变量Xk执行S130-S138的处理(步骤S140)。

接下来，确定单元118确定分层解释变量的候选者的数量是否为0(步骤S142)。当分层解释变量的候选者的数量为0时(S142中的“是”)，划分数量n的数量递增并且递减1(步骤S144)。因此，生成在中间值(初始值)前后的两个划分数量n(即，生成比中间值大1的值和比中间值小1的值)。例如，当划分数量n为13时，生成n＝14和n＝12。在S144的第二和后续处理中，在先前处理中递增的划分数量(例如，n＝14)进一步递增，而在先前处理中递减的划分数量(例如，n＝12)进一步递减。也就是说，当重复S144时，两个划分数量n远离数据集合的数量N的中间值(初始值)。

然后，确定单元118确定较大(递增的)划分数量n是否已变得大于N*0.7或者较小(递减的)划分数量n是否已变得小于N*0.3(步骤S146)。当较大的划分数量n已变得大于N*0.7或者较小的划分数量n已变得小于N*0.3时(S146中的“是”)，确定单元118结束确定分层解释变量的处理。然后，不执行图5中的S160和以下处理的处理。以这种方式，由于以下原因设置确定分层解释变量的处理次数(划分数量的递增和递减)的上限。也就是说，如果划分数量n过度地远离数据集合的数量N的中间值，则当通过S160的处理来划分数据集合时，落入一个组中的数据集合的数量变大，而落入另一个组中的数据集合的数量变小，这使得难以通过S180的处理对另一个组(即，数据集合的数量变小的组)适当地执行多元回归分析。

另一方面，当较大的划分数量n不大于N*0.7并且较小的划分数量n不小于N*0.3时(S146中的“否”)，处理返回到S126。然后，确定单元118对较大的划分数量n(例如，n＝14)和较小的划分数量n(例如，n＝12)中的每个执行S126-S142的处理。

另一方面，当候选者数量不是0时(S142中的“否”)，确定单元118将单一回归分析的确定系数R²最低的解释变量确定为分层解释变量Xs(步骤S148)。当候选者数量为1时，确定单元118将一个候选者的解释变量确定为分层解释变量Xs。对于解释变量Xk的单一回归分析是这样的回归分析，其中一个解释变量Xk用作解释变量，而目标变量y用作目标变量。“单一回归分析的确定系数R²低的解释变量”指的是它不利于线性回归。以这种方式，该解释变量Xk已经在S110的处理中确定其贡献率高而不管该解释变量Xk不利于线性回归的事实意味着它很可能对非线性回归(即分层)有效。因此，该解释变量Xk被确定为分层解释变量Xs。然而，请注意，这并不意味着分层解释变量不能用于稍后将要说明的线性回归。稍后将说明非线性回归与分层之间的关系。

图12是用于说明确定分层解释变量的具体示例的图。在图12中所示的示例中，示出了当划分数量n＝16时确定解释变量X002、X132和X133的结果。

关于解释变量X002，HIGH(高)数据集合中的解释变量Xk的最小值HIGHmin(2.576)与LOW(低)数据集合中的解释变量Xk的最大值LOWmax(42.438)之间的差是-39.9064(<0)。此外，LOW(低)数据集合中的解释变量Xk的最小值LOWmin(15.772)与HIGH(高)数据集合中的解释变量Xk的最大值HIGHmax(15.750)之间的差是0.02215(>0)。因此，确定单元118确定解释变量X002满足负斜率分层条件。

关于解释变量X132，HIGH(高)数据集合中的解释变量Xk的最小值HIGHmin(-12.095)与LOW(低)数据集合中的解释变量Xk的最大值LOWmax(-12.189)之间的差为0.0937(>0)。此外，LOW(低)数据集合中的解释变量Xk的最小值LOWmin(-13.076)与HIGH(高)数据集合中的解释变量Xk的最大值HIGHmax(-11.555)之间的差为-1.521(<0)。因此，确定单元118确定解释变量X132满足正斜率分层条件。

关于解释变量X133，HIGH(高)数据集合中的解释变量Xk的最小值HIGHmin(11.555)与LOW(低)数据集合中的解释变量Xk的最大值LOWmax(13.076)之间的差为-1.521(<0)。此外，LOW(低)数据集合中的解释变量Xk的最小值LOWmin(12.189)与HIGH(高)数据集合中的解释变量Xk的最大值HIGHmax(12.095)之间的差为0.0937(>0)。因此，确定单元118确定解释变量X133满足负斜率分层条件。

解释变量X022、X132和X133的单一回归分析的确定系数R²分别为0.576、0.577和0.571。因此，由于确定系数R²最低的解释变量是X133，所以解释变量X133被确定为分层解释变量。

接下来，划分单元120使用在S120的处理中确定的分层解释变量Xs针对每个层来划分多个数据集合(图5中的步骤S160)。具体地，如稍后将描述的，划分单元120根据解释变量是否大于分层解释变量Xs的特定阈值将N个数据集合划分为两个组。

图13是示出由根据第一实施例的划分单元120执行的划分数据集合的处理的图。首先，划分单元120获取在S120的处理中确定的分层解释变量Xs在S130和S132(图10)中的结果(步骤S162)。在图12中所示的示例中，获取当划分数量n＝16时的分层解释变量X133的LOWmax、LOWmin、HIGHmax和HIGHmin。接下来，划分单元120确定分层解释变量Xs是否满足在S134的处理中的正斜率分层条件(步骤S164)。当分层解释变量Xs满足正斜率分层条件时(S164中的“是”)，划分单元120将阈值Xth设置为LOWmax和HIGHmin的平均值，即，Xth＝(LOWmax+HIGHmin)/2(步骤S166)。

另一方面，当分层解释变量Xs满足负斜率分层条件时(S164中的“否”)，划分单元120将阈值Xth设置为LOWmin和HIGHmax的平均值，即，Xth＝(LOWmin+HIGHmax)/2(步骤S168)。阈值Xth可以不是LOWmax和HIGHmin的精确平均值或LOWmin和HIGHmax的精确平均值，而是可以是这些平均值的近似值。即，Xth可以是LOWmax与HIGHmin之间的值(S166)或LOWmin与HIGHmax之间的值(S168)。也就是说，Xth落入LOWmax<Xth<HIGHmin(S166)或HIGHmax<Xth<LOWmin(S168)内就足够了。

接下来，划分单元120使用分层解释变量Xs和阈值Xth来划分数据集合(步骤S170)。具体地，划分单元120将数据集合划分(分类)为Xs>Xth的组#1和Xs≤Xth的组#2。因此，针对每个层划分多个数据集合。在图12中所示的示例中，关于分层解释变量X133，阈值Xth被确定为12.1。然后，将X133的值大于12.1的数据集合分配给(分类为)组#1，并且将X133的值等于或小于12.1的数据集合分配给(分类为)组#2。在这种情况下，由于在图12中所示的示例中满足负斜率分层条件，所以目标变量y小的所有n个数据集合被分类为组#1，而目标变量y大的所有(N-n)个数据集合被分类为组#2。

接下来，分析单元122对针对每个层划分的多个数据集合的每个组执行多元回归分析(图5中的步骤S180)。具体地，分析单元122使用组#1的数据集合来执行多元回归分析。以类似的方式，分析单元122使用组#2的数据集合来执行多元回归分析。在这种情况下，分析单元122彼此独立地执行对于组#1的多元回归分析和对于组#2的多元回归分析。

更具体地，分析单元122对于组#1计算多元回归方程f₁＝x₁₁a₁₁+x₁₂a₁₂+...+x_1pa_1p+b₁。此外，分析单元122对于组#2计算多元回归方程f₂＝x₂₁a₂₁+x₂₂a₂₂+...+x_2qa_2q+b₂。这里，x_ij是解释变量之一，a_ij是x_ij的系数，而b_i是截距(intercept)。此外，p是要在对于组#1的多元回归分析中使用的解释变量的数量。此外，q是要在对于组#2的多元回归分析中使用的解释变量的数量。

通过求解通过将每个组的每个数据集合中的目标变量y和解释变量Xk应用于多元回归方程而获得的系数a_ij和截距bi的联立方程，可以计算多元回归方程的系数和截距中的每个。为了使得能够求解系数和截距，数据集合的数量(联立方程的数量)需要等于或大于系数和截距的总数量。因此，当分析单元122对每个组执行多元回归分析时，解释变量Xk的数量被缩减到“(形成每个组的数据集合的数量)-1”。在图12中所示的示例中，组#1的数据集合的数量是16。因此，当分析单元122执行关于组#1的多元回归分析时，解释变量Xk的数量被缩减到15。以类似的方式，组#2的数据集合的数量是10。因此，当分析单元122执行关于组#2的多元回归分析时，解释变量Xk的数量被缩减到9。当缩减解释变量Xk的数量时，可以从通过S104的处理计算的贡献率最高的解释变量中依次选择要用于多元回归分析的解释变量Xk。替选地，可以从在S110的处理中提取的解释变量Xk中选择要用于多元回归分析的解释变量Xk。在这种情况下，可以从在S110的处理中提取的解释变量Xk当中选择单一回归分析的确定系数R²高的解释变量Xk作为要用于多元回归分析的解释变量Xk。

接下来，回归方程获取单元124使用S180的结果来获取综合多元回归方程(步骤S182)。具体地，回归方程获取单元124通过以下表达式(1)来综合两个多元回归方程f₁和f₂，以获取综合多元回归方程。符号Y指示目标变量的预测值。

图14是用于说明图5中所示的S160-S182的处理的具体示例的图。图14示出了图12中所示的示例中的处理的具体示例。首先，在S160的处理中，N＝26个数据集合被划分为组#1(由白色圆圈指示)和组#2(由黑色圆圈指示)。在这种情况下，如上所述，按照分层解释变量Xs(X133)的阈值Xth(＝12.1)，对于每个层将N＝26个数据集合划分为组#1(16个数据集合)和组#2(10个数据集合)。在S180的处理中，分别对组#1和组#2执行多元回归分析#1和多元回归分析#2。

作为多元回归分析#1的结果，可以获得多元回归方程f₁＝X056*2.405+X079*(-0.77)+X150*20.454+X305*(-0.042)+X306*0.026+6.203。此外，作为多元回归分析#2的结果，可以获得多元回归方程f₂＝X051*(-0.511)+X056*21.903+X090*192.249+X147*(-53.719)+X195*186.77-106.245。然后，通过S182的处理来获取如表达式(1)中所示的综合了多元回归方程f₁和多元回归方程f₂的综合多元回归方程。也就是说，当X133>12.1时，目标变量的预测值Y遵循多元回归方程f₁，而当X133≤12.1时，目标变量的预测值Y遵循多元回归方程f₂。

接下来，结果显示单元126显示使用综合多元回归方程的多元回归分析的结果(步骤S184)。具体地，如图15中所示，结果显示单元126控制接口单元108并且以用户能够在视觉上识别这些结果的方式显示多元回归分析的结果。

图15是用于说明根据第一实施例的使用综合多元回归方程的多元回归分析的结果的图。在图15中，横轴指示目标变量的预测值Y，而纵轴指示目标变量的实际值y。直线表示Y＝y。如图15中所示，组#1中的数据集合(由白色圆圈指示)在小于y＝y1的区域中分布在Y＝y附近。此外，组#2中的数据集合(由黑色圆圈指示)在大于y＝y1的区域中分布在Y＝y附近。然后，将确定系数R²显示为使用综合多元回归方程的多元回归分析的准确度。由于R²＝0.9826，可以说使用综合多元回归方程的多元回归分析的准确度相对较高。

如上所述，根据该实施例的多元回归分析装置100自动对多个数据集合执行分层，对已经分层的数据集合的每个组执行多元回归分析，并且获取综合了这些结果的综合多元回归方程。以这种方式，分别对已经分层的数据集合的每个组执行多元回归分析，从而即使当存在多个解释变量时，也可以准确地执行多元回归分析。因此，即使当解释变量的数量很大时，也可以防止估算公式的泛化性能降低(维数灾难)。

此外，如根据第一实施例的S104-S110(图5)的处理中所示，在预先将解释变量的数量缩减到相应贡献率高的解释变量之后确定分层解释变量，由此可以减少确定它们是否可以用作分层解释变量的解释变量的数量。因此，可以提高确定分层解释变量的速度。

此外，如稍后将描述的，通过使用非线性回归方法来计算贡献率，可以有效地确定有效分层解释变量。分层指的是，当数据集合的目标变量y的线性度根据解释变量是否超过特定解释变量的特定值(阈值)而变得不同时，根据解释变量是否超过解释变量的阈值对数据集合进行分组。因此，如从表达式(1)中将理解的，用于针对每个层对数据集合进行分组的解释变量(分层解释变量)相对于目标变量具有不连续性，即非线性。因此，确定它们是否可以用作分层解释变量的解释变量可以是使用非线性回归方法计算的相应贡献率高的那些解释变量，从而可以有效地确定有效分层解释变量。换句话说，通过使用非线性回归方法，可以以这样的方式计算贡献率，使得可有效用于分层的解释变量的贡献率变高。此外，如上所述，当使用非线性回归方法的随机森林时，计算贡献率的速度变快。因此，通过使用随机森林来计算解释变量的贡献率，可以进一步提高确定分层解释变量的速度。

在仅使用诸如脊线(Ridge)、套索(Lasso)或弹性网络(Elastic Net)之类的线性回归方法的回归方法中，可能无法掌握可有效用于分层(区域划分)的解释变量的重要性。另一方面，非线性回归方法使得能够掌握可有效用于分层(区域划分)的解释变量的重要性，而难以获得每个解释变量的线性影响趋势。因此，在非线性回归方法中，人类难以直观地根据解释变量的变化来掌握目标变量的变化。

另一方面，根据该实施例的多元回归分析装置100使用非线性回归方法确定可有效用于分层的解释变量以执行数据集合的分层，并且对已经分层的数据集合的每个组执行线性回归(多元回归分析)。因此，通过使用根据本实施例的多元回归分析装置100，可以解决上述线性回归方法和非线性回归方法的问题。

(第二实施例)

接下来，将说明第二实施例。第二实施例与第一实施例的不同之处在于，在第二实施例中确定多个分层解释变量。由于根据第二实施例的多元回归分析装置100的配置基本上类似于图2中所示的配置，因此将省略其描述。此外，除了几点之外，由多元回归分析装置100执行的多元回归分析方法基本上类似于图5中所示的方法。在以下描述中，将说明与第一实施例中的处理(S120和S160)不同的第二实施例的处理。注意，在以下描述中，示出了确定两个分层解释变量的示例。

图16是示出由根据第二实施例的确定单元118执行的确定分层解释变量的方法的流程图。图16示出了在图10中所示的处理之后的阶段执行的处理。即，根据第二实施例的确定单元118执行图10和

图16中所示的处理。

确定单元118对通过S110的处理提取的所有解释变量Xk执行S130-S138的处理(步骤S240)。接下来，确定单元118确定分层解释变量的候选者的数量是否为0(步骤S242)。当分层解释变量的候选者的数量为0时(S242中的“是”)，确定单元118执行S144和S146(图11)的处理。

另一方面，当分层解释变量的候选者的数量不是0时(S242中的“否”)，确定单元118确定分层解释变量的候选者的数量是否等于或大于2(步骤S244)。当分层解释变量的候选者的数量等于或大于2时(S244中的“是”)，确定单元118将单一回归分析的确定系数R²小的两个解释变量确定为分层解释变量Xs(步骤S248)。当分层解释变量的候选者的数量为2时，确定单元118将作为2个候选者的解释变量Xk确定为分层解释变量Xs。因此，确定了2个分层解释变量Xs1和Xs2。

另一方面，当分层解释变量的候选者的数量不等于或大于2时，即，当候选者的数量为1时(S244中的“否”)，确定单元118将作为一个候选者的解释变量Xk确定为分层解释变量Xs(步骤S250)。然后，确定单元118重复图11、图10和图16中所示的S144-S240的处理。之后，确定单元118确定分层解释变量的候选者的数量是否为0(步骤S252)。当候选者的数量为0时(S252中的“是”)，确定单元118执行S144和S146(图11)的处理。另一方面，当候选者的数量不为0时(S252中的“否”)，确定单元118将单一回归分析的确定系数R²最低的解释变量确定为另一个分层解释变量Xs(步骤S254)。因此，确定了2个分层解释变量Xs1和Xs2，其中一个是在S250的处理中确定的分层解释变量。

图17是示出由根据第二实施例的划分单元120执行的划分数据集合的处理的图。划分单元120获取在S120的处理中确定的分层解释变量Xs1和Xs2在S130和S132中的结果(步骤S262)。接下来，划分单元120对分层解释变量Xs1和Xs2中的每一个执行图13中所示的S164-S168的处理，以计算阈值Xth1和Xth2(步骤S264)。阈值Xth1是分层解释变量Xs1中的阈值，而阈值Xth2是分层解释变量Xs2中的阈值。

接下来，划分单元120使用分层解释变量Xs1的阈值Xth1和分层解释变量Xs2的阈值Xth2来划分数据集合(步骤S266)。具体地，划分单元120将Xs1>Xth1和Xs2>Xth2的数据集合分配给组#1。此外，划分单元120将Xs1≤Xth1和Xs2>Xth2的数据集合分配给组#2。此外，划分单元120将Xs1>Xth1和Xs2≤Xth2的数据集合分配给组#3。此外，划分单元120将Xs1≤Xth1和Xs2≤Xth2的数据集合分配给组#4。以这种方式，数据集合被分配给4(＝2²)个组。

图18是用于说明由根据第二实施例的划分单元120针对每个层划分的数据集合的图。在图18中所示的示例中，假设数据集合的数量是200(N＝200)。将60个数据集合分配给组#1。将40个数据集合分配给组#2。将将50个数据集合分配给组#3。将50个数据集合分配给组#4。以这种方式，当数据集合的数量相对较大时，即使当存在多个分层解释变量时，针对每个层划分的数据集合的数量也可足以执行多元回归分析。

然后，分析单元122对组#1-#4中的每个组执行多元回归分析，以获得四个多元回归方程(图5中的S180)。回归方程获取单元124通过类似于表达式(1)中的方法对四个多元回归方程进行综合，从而获取综合多元回归方程(图5中的S182)。然后，结果显示单元126显示使用综合多元回归方程的多元回归分析的结果(图5中的S184)。

虽然已经在上述第二实施例中描述了使用两个分层解释变量的情况，但是在确定了三个分层解释变量的情况下也执行类似的处理。当使用三个分层解释变量时，S244的处理被替换为确定分层解释变量的候选者的数量是否为3个或更大，而S248的处理被替换为将单一回归分析的确定系数R²低的3个解释变量确定为图16中的分层解释变量Xs的处理。此外，当分层解释变量的候选者的数量不等于或大于3时，确定单元118将一个或两个解释变量确定为分层解释变量Xs(该处理对应于S250的处理)，并且通过与图16中所示的处理相类似的处理来确定剩余的分层解释变量。然后，划分单元120执行与图17中所示的处理相类似的处理，并且将数据集合划分为8(＝2³)个组。然后，分析单元122对8个组中的每个组执行多元回归分析，从而获得8个多元回归方程(图5中的S180)。回归方程获取单元124通过与表达式(1)中的方法相类似的方法对8个多元回归方程进行综合，从而获取综合多元回归方程(图5中的S182)。然后，结果显示单元126显示使用综合多元回归方程的多元回归分析的结果(图5中的S184)。

如第二实施例中所述，分层解释变量的数量不限于一个，而是可以是多个。通过使用多个分层解释变量，可以更精细地针对每个层来划分数据集合，从而可以比第一实施例中更准确地执行多元回归分析。当数据集合的数量小时，可能的是，针对每个层划分的每个组的数据集合的数量可以小于为执行多元回归分析所需的数据集合的数量。因此，当数据集合的数量相对较大时，设置多个分层解释变量、即将数据集合划分为4个层或8个层可能是有效的。

(修改示例)

本公开不限于前述实施例，并且在不偏离本公开的精神的情况下可以适当地省略。例如，在上述流程图中，可以适当地改变多个处理的顺序。此外，在上述流程图中，可以省略多个处理中的一个。

例如，可以省略图5中所示的S104-S110的处理。也就是说，不需要如S104-S110的处理中那样在要处理的解释变量被预先缩减到相应贡献率较高的解释变量之后确定分层解释变量。在这种情况下，S140(图11)中的“所有解释变量Xk”可以是组成数据集合的所有解释变量(在图6中所示的示例中为318个解释变量)，而不是通过S110的处理提取的解释变量(在图9中所示的示例中为25个解释变量)。如上所述，通过执行第一实施例中的S104-S110的处理，可以提高确定分层解释变量的速度。

此外，尽管在前述实施例中在S104的处理中使用非线性回归方法来计算贡献率，但是本公开不限于该配置。也就是说，当计算解释变量的贡献率时，可以不使用非线性回归方法。然而，如上所述，通过使用非线性回归方法来计算贡献率，可以有效地确定有效分层解释变量。

此外，虽然在前述实施例中的S182的处理中获取一个综合多元回归方程，但是本公开不限于该配置。可以获取多个综合多元回归方程，并且可以选择确定系数最高的多元回归方程之一作为用于实际回归分析的方程。具体地，如图16中所示，确定多个分层解释变量，并且使用相应分层解释变量针对每个层将多个数据集合划分为2个组或4个组。例如，当使用2个分层解释变量Xs1和Xs2时，生成组的3个集合(通过使用分层解释变量Xs1获得的2个组、通过使用分层解释变量Xs2获得的2个组以及通过使用分层解释变量Xs1和Xs2获得的4个组)。以这种方式，获取与相应集合对应的多个综合多元回归方程。因此，可以选择回归分析的准确度较高的综合多元回归方程作为要用于实际分析的综合多元回归方程。

此外，在以上示例中，可以使用任何类型的非暂态计算机可读介质来存储程序并且将程序提供给计算机。非暂态计算机可读介质包括任何类型的有形存储介质。非暂态计算机可读介质的示例包括磁存储介质(诸如软盘、磁带、硬盘驱动器等)、光磁存储介质(例如，磁光盘)、CD-ROM、CD-R、CD-R/W和半导体存储器(诸如掩模ROM、PROM(可编程ROM)、EPROM(可擦除PROM)、闪速ROM、RAM等)。可以使用任何类型的暂态计算机可读介质将程序提供给计算机。暂态计算机可读介质的示例包括电信号、光信号和电磁波。暂态计算机可读介质可以经由有线通信线路(例如电线和光纤)或无线通信线路将程序提供给计算机。

根据如此描述的公开内容，明显的是，本公开的实施例可以以多种方式变化。不应将这些变化视为偏离本公开的精神和范围，并且对于本领域技术人员明显的是，所有这些修改旨在包括在所附权利要求的范围内。

Claims

1.一种被配置为对多个数据集合执行多元回归分析的多元回归分析装置，所述多个数据集合中的每个包括多个解释变量和目标变量，所述多元回归分析装置包括：

确定单元，所述确定单元被配置为确定能有效作为在执行所述多个数据集合的分层时的参数的所述多个解释变量之一作为分层解释变量；

划分单元，所述划分单元被配置为使用所述分层解释变量针对每个层来划分所述多个数据集合；

分析单元，所述分析单元被配置为对已经划分的所述多个数据集合的每个组执行多元回归分析；以及

获取单元，所述获取单元被配置为获取综合多元回归方程，在所述综合多元回归方程中综合了所述多元回归分析的结果。

2.根据权利要求1所述的多元回归分析装置，还包括：

计算单元，所述计算单元被配置为计算所述多个解释变量中的每个对所述目标变量的贡献率；以及

提取单元，所述提取单元被配置为从所述多个解释变量中提取数量满足预定条件并且所计算的贡献率高的解释变量，

其中，所述确定单元根据所提取的解释变量来确定所述分层解释变量。

3.根据权利要求2所述的多元回归分析装置，其中，所述计算单元使用非线性回归方法来计算所述贡献率。

4.根据权利要求3所述的多元回归分析装置，其中，所述计算单元使用随机森林来计算所述贡献率。

5.根据权利要求3或4所述的多元回归分析装置，其中，当存在用于所述分层解释变量的多个候选者时，所述确定单元确定在执行单一回归分析时的确定系数最低的候选者作为所述分层解释变量。

6.一种用于对多个数据集合执行多元回归分析的多元回归分析方法，所述多个数据集合中的每个包括多个解释变量和目标变量，所述多元回归分析方法包括：

确定能有效作为在执行所述多个数据集合的分层时的参数的所述多个解释变量之一作为分层解释变量；

使用所述分层解释变量针对每个层划分所述多个数据集合；

对已经划分的所述多个数据集合的每个组执行多元回归分析；以及

获取综合多元回归方程，在所述综合多元回归方程中综合了所述多元回归分析的结果。