CN111310930B - 优化装置、优化方法和非暂态计算机可读存储介质 - Google Patents

优化装置、优化方法和非暂态计算机可读存储介质 Download PDF

Info

Publication number
CN111310930B
CN111310930B CN201911226680.8A CN201911226680A CN111310930B CN 111310930 B CN111310930 B CN 111310930B CN 201911226680 A CN201911226680 A CN 201911226680A CN 111310930 B CN111310930 B CN 111310930B
Authority
CN
China
Prior art keywords
data
multiple regression
unit
subsets
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911226680.8A
Other languages
English (en)
Other versions
CN111310930A (zh
Inventor
大轮拓也
松冈英俊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Publication of CN111310930A publication Critical patent/CN111310930A/zh
Application granted granted Critical
Publication of CN111310930B publication Critical patent/CN111310930B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F30/00Computer-aided design [CAD]
    • G06F30/20Design optimisation, verification or simulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2111/00Details relating to CAD techniques
    • G06F2111/10Numerical modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Geometry (AREA)
  • Computational Linguistics (AREA)
  • Complex Calculations (AREA)
  • Machine Translation (AREA)

Abstract

提供了优化装置、优化方法和非暂态计算机可读存储介质。该方法包括:将包含目标变量和解释变量的学习数据划分为多个数据子集;对所划分的子集中的每一个中的第一数据执行正则化处理,并提取等于零的第一元素;提取第一多元回归与第二多元回归之间的误差比等于或大于预定值的每个模型作为候选,第一多元回归是对第二数据进行多元回归的结果,第二数据是所划分的子集中的每一个中的测试数据并且用于计算学习数据的误差比,第二多元回归是对通过从第二数据中排除第一元素而获得的第三数据进行多元回归的结果;以及输出用零替换在候选中取零达预定次数或大于预定次数的元素的模型。

Description

优化装置、优化方法和非暂态计算机可读存储介质
技术领域
本文讨论的实施方式涉及优化装置、用于存储优化程序的非暂态计算机可读存储介质以及优化方法。
背景技术
迄今为止,在根据学习数据创建学习模型(以下也简称为“模型”)的监督学习中,学习数据通常需要具有关于数据特性的稀疏性,以用于通过使用多元回归(y=Xβ+ξ)来估计真实模型(β)。
在多元回归等式中,y是在学习数据中包含的目标变量,并且例如是用于学习的图像数据中的图像的含义(在描绘了数字“2”的图像中的“2”)。然后,X是学习数据中包含的解释变量,并且例如是用于学习的图像数据中的图像(像素)。此外,β是学习模型,并且ξ是学习数据中包含的噪声。
图11是用于描述为什么多元回归需要稀疏性的说明视图。如图11所示,在情况C1中,去除了噪声,并且与y=“2”相对应的像素以外的像素为“0”。因此,模型(β)在多元回归中必然看到的位置限于与y=“2”相对应的x的像素。因此,获得了其中y=“2”成立的高准确度模型。相反,在情况C2中,模型(β)不理想地在多元回归中还看到噪声(ξ),并且获得准确度低的模型。
为了满足稀疏性的这个要求,通过执行提取数据稀疏的部分(例如,大部分值是常数(≈0))的稀疏估计,从学习数据中去除噪声等。在涉及这样的稀疏估计的学习中,解决了以下公式(1)中指定的优化问题,在公式(1)中将归一化项与预测误差相加。
但是,公式(1)在非确定性多项式时间方面是困难的(NP-hard),并且难以在实际时间中获得解。为了解决这个问题,已知一种通过网格搜索或L1正则化来执行稀疏估计的方法。
网格搜索涉及对β的所有0分量执行穷举搜索并预先创建搜索候选列表。然后,仅使用在所创建的列表中的搜索候选(L)来执行正态回归(minβ∈L||y-Xβ||2 2)。
另一方面,L1正则化是用于解决优化问题的技术,其中如以下公式(2)中指定,归一化项被松弛到L1范数。
发明内容
技术问题
然而,上述现有技术具有难以高速准确地执行稀疏估计的问题。例如,在网格搜索中,当增加搜索候选的数量以便确保一定程度的准确性时,搜索候选的数量呈指数增加,从而导致大量的计算时间。同时,L1正则化由于归一化项被松弛到L1范数而产生近似解,并且在一些情况下取决于例如数据偏差准确度可能劣化。
在一个方面,目的是提供能够高速准确地执行稀疏估计的优化装置、优化程序和优化方法。
技术问题的解决方案
根据实施方式的一个方面,一种优化方法包括:将包含目标变量和解释变量的学习数据划分为多个数据子集;对第一数据执行正则化处理,并提取等于零的第一元素,所述第一数据用于在所划分的数据子集中的每一个中的学习数据的结构提取;提取第一多元回归与第二多元回归之间的误差比等于或大于预定值的每个模型作为候选模型,第一多元回归是对第二数据进行多元回归的结果,第二数据是所划分的数据子集中的每一个中的测试数据并且用于计算学习数据的误差比,第二多元回归是对通过从第二数据中排除第一元素而获得的第三数据进行多元回归的结果;以及输出用零替换在所提取的候选模型中取零达预定次数或大于预定次数的元素的模型。
本发明的目的和优点将借助于权利要求书中特别指出的元素和组合来实现并达成。
要理解的是,前述的总体描述和下面的详细描述二者均是示例性和说明性的,并且不限制本发明。
发明的有益效果
根据本公开内容的实施方式,可以高速且高度准确地执行稀疏估计。
附图说明
图1是示出根据实施方式的优化装置的功能配置的框图;
图2是示出根据实施方式的优化装置的操作示例的流程图;
图3是用于描述学习数据的划分的说明图;
图4是用于描述操作代理和数据流的说明图;
图5是用于描述对训练数据进行退火的说明图;
图6是用于说明在排除了j∈R的情况下的多元回归的说明图;
图7是用于描述操作代理和数据流的说明图;
图8是用于描述将元素设置为0的说明图;
图9是用于描述操作代理和数据流的说明图;
图10是示出用于执行优化程序的计算机的配置示例的图;以及
图11是用于描述为何在多元回归中要求稀疏性的说明图。
具体实施方式
下文中,参照附图,提供对根据实施方式的优化装置、优化方法和优化程序的描述。在实施方式中,具有相同功能的部件由相同的附图标记来表示,并且省略其冗余描述。在以下实施方式中描述的优化装置、优化方法和优化程序仅是示例,并且不旨在限制实施方式。另外,以下实施方式在不矛盾的程度上可以被适当地组合。
[优化装置的功能配置]
图1是示出根据实施方式的优化装置的功能配置的框图。图1中所示的优化装置1接收包含目标变量和解释变量的学习数据。然后,优化装置1对所接收的学习数据执行计算处理,以解决关于公式(1)的优化问题从而提取数据稀疏的部分(例如,大部分值是常数(≈0))的稀疏估计。
例如,优化装置1将包含目标变量和解释变量的输入学习数据划分为包含相等数量的元素的k个子集(在下文中,称为k划分)。接下来,优化装置1对训练(训练(training))数据执行L0正则化的正则化处理,并且提取等于0的元素,训练数据要用于在K划分的数据子集中的每一个中的学习数据的结构提取。例如,优化装置1基于训练数据通过对以伊辛(ising)格式表达的公式(1)的数据进行退火(anneal)来执行L0正则化的正则化处理,并提取等于零的元素。以这种方式,优化装置1能够通过对以伊辛格式表达的数据进行退火来以实际速度优化直接L0正则化。
接下来,优化装置1获得对划分的数据子集中的每一个中的用于验证的测试(测试(test))数据进行多元回归的结果,以及对通过从测试数据中排除等于0的元素而获得的数据进行多元回归的结果。然后,优化装置1提取所获得的两个多元回归结果之间的误差比等于或大于预定值(p)的模型作为候选模型。优化装置1输出用零替换在候选模型中取零达预定次数或大于预定次数的元素的模型,候选模型是通过对所有K划分的数据子集迭代上述处理而提取的。
以这种方式,优化装置1能够通过在不松弛到L1范数的情况下执行L0正则化的正则化处理来避免数据偏差地提取稀疏性,从而以高准确度执行稀疏估计。关于用于实现如上所述的稀疏估计的功能配置,例如,优化装置1被配置如下。
例如,优化装置1是诸如服务器计算机的计算机。优化装置1可以由单个计算机实现,或者由包括多个计算机的计算机系统实现。换句话说,可以通过包括分布有处理的多个计算机的信息处理系统来实现以下描述的优化装置1的配置。但是,本实施方式以优化装置1为单个计算机的情况为例进行描述。
如图1所示,优化装置1包括输入单元10、位数计算单元11、数据划分单元12、伊辛模型退火单元13、稀疏结构反映单元14、多元回归单元15、模型候选确定单元16、稀疏结构确定单元17和输出单元18。
输入单元10是接收例如学习数据和参数的用于计算的数据的输入的处理单元。输入单元10将输入的学习数据存储在学习数据表21中,并且将输入参数存储在参数表20中。
学习数据例如是包含目标变量(y)和解释变量(X)的用于创建模型的教导数据,目标变量(y)诸如是用于学习的图像数据中的图像的含义,解释变量(X)诸如是用于学习的图像数据中的图像(像素)。这些参数是用于计算的各种参数。
例如,存储在参数表20中的参数包括:序列长度(l),其用于通过用于以伊辛格式表达的二元展开的整数近似;以及序列(a0,...,al),其用于模型的整数近似。序列长度(l)例如是1或大于1的整数,并且可以是由用户设置的值,或者可替选地是由位数计算单元11计算的值(稍后将详细描述)。同时,序列(a0,...,al)例如包括由用户设置的实数。
另外,参数包括正则化项的系数(λ1,λ2)、学习数据划分的数量(K)以及学习数据中训练数据/测试数据的比率(q:训练数据的比例)。正则化项的系数(λ1,λ2)例如是由用户设置的0或大于0的实数。学习数据划分的数量(K)例如是由用户设置的1或大于1的整数。当对数据进行划分使得划分之后包含在每个数据子集中的系数的上限和下限满足预定条件时,除了划分的数量(k)(将在后面详细描述)之外,还可以包括指示处理的迭代的数量的迭代数量itrmax(1或大于1的整数)。学习数据中的训练数据/测试数据的比率(q:训练数据的比例)是例如由用户设置的0至1的范围内的实数,q=0.8等是经常使用的值。
参数还包括用于确定模型候选的阈值(p)和用于确定最终模型的阈值(N)。阈值(p)是例如由用户设置的0至1的范围内的实数。阈值(N)例如是由用户设置的1或大于1的整数。
位数计算单元11是这样的处理单元:其计算在伊辛模型退火单元13中的数据的位数,并且计算被定义为n(l+2)的位数,其中n是学习数据(X)中的行数并且l是整数近似的序列长度。这里,位数计算单元11计算l,l是满足n(l+2)≤Nb的最大整数,其中Nb是伊辛模型退火单元13中的上限位数。然后,位数计算单元11将所计算的l的值存储在参数表20中作为用于通过二元展开的整数近似的序列长度(l)。因此,优化装置1能够通过使用序列长度(l)来执行整数近似,整数近似使数据尽可能接近退火中的上限位数(Nb)。
数据划分单元12是执行K划分以基于参数表20中的学习数据划分的数量(K)将存储在学习数据表21中的学习数据划分成包含相等数量的元素的k个数据子集的处理单元。换句话说,数据划分单元12是划分单元的示例。
例如,数据划分单元12随机地对学习数据中的行进行混洗(shuffle),并且将数据划分为每个均包含相等数量的元素的k个子集,以获得数据子集。接下来,数据划分单元12将通过K划分获得的数据子集存储在划分数据表22中。
在这方面,数据划分单元12可以执行前述的K划分,使得在学习数据划分之后包含在每个数据子集中的系数的上限和下限满足预定条件。
例如,在K划分期间,数据划分单元12检查包含在每个数据子集中的系数的上限和下限是否满足预定条件。在一个示例中,对于包含在学习数据(X)中的x,数据划分单元12检查maxa,b,c,dx(i) abx(i) cd-mina,b,c,dx(i) abx(i) cd是否落入在伊辛模型退火单元13中的上限位数的整数值的范围内(例如16位整数值)。如果不满足预定条件,则数据划分单元12再次随机执行K划分,并且对划分进行迭代直到满足条件(达到被设置为在参数表20中的itrmax的上限的迭代次数)。因此,数据划分单元12能够对数据进行划分,使得系数的上限和下限落入在伊辛模型退火单元13中的上限位数的整数值的范围内。
伊辛模型退火单元13是执行以下处理的处理单元:对存储在划分数据表22中的数据子集中的每一个中的训练数据执行L0正则化的正则化处理,并提取等于零的元素。换句话说,伊辛模型退火单元13是正则化处理单元的示例。
例如,伊辛模型退火单元13读取存储在划分数据表22中的数据子集中的每一个,并且通过基于参数表20中的训练数据/测试数据的比率(q)对数据子集进行分割以得到训练数据。接下来,伊辛模型退火单元13基于训练数据通过对其中通过整数近似以伊辛格式表达公式(1)中的β的数据进行退火来执行L0正则化的正则化处理,并提取等于零的元素(βj=0)。然后,伊辛模型退火单元13将提取的等于0的元素(βj=0)存储在稀疏候选记录表23中。
例如,伊辛模型退火单元13准备σ(j)i和τj∈{0,1}作为以伊辛格式表达公式(1)的伊辛位。在此,σ(j)i是用于表达模型(β)的伊辛位。然后,τj是用于表达L0正则化项的伊辛位。
此后,伊辛模型退火单元13通过使用f(σ(j) 0,...,σ(j) l)的二元展开来执行βj的整数近似。例如,如公式(3)所示,伊辛模型退火单元13通过使用参数表20中的序列(a0,...,al)来表达模型(β)。
注意,本文可用的序列的具体示例是二元、一元、顺序和斐波那契。二元:ai=2i,一元:ai≡1,顺序:ai=i,斐波那契:ai=ai-1+ai-2
此外,伊辛模型退火单元13将Σi(1-τji (j)相加来表达根据以上过程,如以下公式(4)所示,伊辛模型退火单元13以伊辛格式表达公式(1)。
随后,伊辛模型退火单元13通过执行退火处理(例如,数字退火(DA))来优化如公式(4)中的基于伊辛格式的训练数据表达的数据。接着,伊辛模型退火单元13从通过优化获得的L0正则化的结果中提取等于0的元素(βj=0)。此后,伊辛模型退火单元13将等于零的元素(βj=0)记录在稀疏候选记录表23中。
稀疏结构反映单元14是基于稀疏候选记录表23中记录的等于零的元素和稀疏结构确定单元17的确定结果来执行将稀疏结构反映到存储在学习数据表21中的学习数据的处理的处理单元。例如,稀疏结构反映单元14将等于零的每个元素(模型β)设置为βj=0。
多元回归单元15是这样的处理单元:通过对存储在划分数据表22中的数据子集执行多元回归(minβ||y-Xβ||2 2)来执行估计模型(β)的处理。多元回归单元15将多元回归的结果(模型(β))存储在多元回归结果记录表24中。
例如,多元回归单元15对在划分数据表22中存储的数据子集中的每一个中的用于验证的测试数据执行多元回归,并将该多元回归的结果(β)存储在多元回归结果记录表24中。此外,多元回归单元15基于记录在稀疏候选记录表23中的等于0的元素(βj=0)对通过由稀疏结构反映单元14从测试数据排除等于零的元素(排除j∈R)获得的数据执行多元回归,并且将该多元回归的结果(β)存储在多元回归结果记录表24中。
模型候选确定单元16是这样的处理单元:基于多元回归结果记录表24中存储的多元回归的两个结果(β,β)之间的误差比来确定是否将β设置为候选模型。例如,关于对用于验证的测试数据进行多元回归的结果(β)与对通过从测试数据排除等于0的元素获得的数据进行多元回归的结果(β)之间的误差比,模型候选确定单元16计算以下公式(5)是否成立。然后,当误差比等于或大于参数表20中的阈值(p)时(当公式(5)成立时),模型候选确定单元16将β设置为候选模型并且将β存储在候选模型表25中。换句话说,模型候选确定单元16是误差比计算单元的示例。
稀疏结构确定单元17是这样的处理单元:其基于存储在候选模型表25中的候选模型(β)执行确定最终稀疏结构的处理。例如,稀疏结构确定单元17确定针对其中β j=0成立的β的数量等于或大于参数表20中的阈值(N)的元素是最终稀疏结构。
稀疏结构反映单元14响应于稀疏结构确定单元17的确定结果输出模型,在该模型中用零替换被确定为稀疏结构的元素。换句话说,稀疏结构反映单元14是输出单元的示例。
多元回归单元15用零替换由稀疏结构反映单元14最终确定为稀疏结构的元素,并且通过排除其中βj=0成立的j的多元回归获得最终模型(β)的特定值。
输出单元18是这样的处理单元:其输出由多元回归单元15利用多元回归获得的最终模型(β)的特定值作为处理结果。
[处理序列]
接下来,描述由优化装置1执行的优化方法中的处理序列。图2是示出根据实施方式的优化装置1的操作示例的流程图。
如图2所示,在处理开始时,数据划分单元12对包含目标变量(y)和解释变量(X)的学习数据执行K划分(S1)。
图3是用于描述学习数据的划分的说明图。如图3所示,数据划分单元12随机地对学习数据中的目标变量(y)和解释变量(X)的行进行混洗,并且执行K划分,以将数据划分为k个子集,每个子集包含相等数量的元素。因此,数据划分单元12获得数据子集(y(1),X(1)),...,(y(K),X(K))。
图4是用于描述操作代理和数据流的说明图。更具体地,在图4中,图2中与S1至S4有关的操作代理和数据流用粗体字和线表示。如图4所示,在S1中,数据划分单元12将所获得的数据子集(y(1),X(1)),...,(y(K),X(K))存储在划分数据表22中。
接下来,优化装置1针对数据子集中的每一个(y(i),X(i))(对于i=1,...,K,i<-i+1)执行S2至S7中的循环处理。
在循环处理开始时,伊辛模型退火单元13对训练数据((y(i),X(i))训练)执行应用L0正则化的退火(数字退火:DA),训练数据是每个数据子集(y(i),X(i))的q×100%。
图5是用于描述对训练数据进行退火的说明图。如图5所示,基于参数表20中的训练数据/测试的比率(q),将数据子集(y(i),X(i))分割为训练数据和测试数据。然后,伊辛模型退火单元13对训练数据执行数字退火,并提取等于0的元素(βj=0)。
之后,伊辛模型退火单元13将通过退火获得的β中等于0的元素记录在稀疏候选记录表23中(S4)。例如,如图4所示,伊辛模型退火单元13将其中“βj=0”成立的j记录在稀疏候选记录表23中。
然后,多元回归单元15关于包含部分用0替换的元素的β和包含所有元素的β对数据子集中的测试数据((y(i),X(i))测试)执行多元回归(S5)。
例如,在S5中,多元回归单元15通过对测试数据((y(i),X(i))测试)执行正态多元回归(minβ||y-Xβ||2 2)来获得模型(β)。
另外,多元回归单元15通过对具有部分排除(排除j∈R)的测试数据((y(i),X(i))测试)执行多元回归(minβ ||y-Xβ||2 2)来获得模型(β)。
图6是用于描述在排除了j∈R的情况下的多元回归的说明图。如图6所示,在排除了j∈R的情况下的多元回归中,对从中排除了由伊辛模型退火单元13提取的每个等于0的元素(j)的测试数据((y(i),X(i))测试)执行多元回归。
图7是用于描述操作代理和数据流的说明图。更具体地,在图7中,图2中与S5和S6有关的操作代理和数据流用粗体字和线表示。
如图7所示,在S5中,多元回归单元15通过对测试数据((y(i),X(i))测试)进行正态多元回归来获得模型(β)。另外,多元回归单元15通过对具有部分排除(排除j∈R)的测试数据((y(i),X(i))测试)进行多元回归来获得模型(β)。然后,多元回归单元15将所获得的模型(β,β)存储在多元回归结果记录表24中。
此后,基于存储在多元回归结果记录表24中的多元回归的两个结果(β,β)之间的误差比,该模型候选确定单元16将误差比等于或大于该阈值的模型β作为候选模型(S6)保留在候选模型表25中。
在对所有数据子集执行了循环处理之后,优化装置1终止S2至S7中的上述循环处理。通过该处理,保留作为由候选模型确定单元16针对所有数据子集的确定结果的模型候选的模型β被存储在候选模型表25中。
循环处理之后,稀疏结构确定单元17确定存储在候选模型表25中并且保留作为模型候选的模型β中取0的次数等于或大于参数表20中的阈值(N)的每个元素是最终稀疏结构。稀疏结构反映单元14基于稀疏结构确定单元17的确定结果,输出具有最终稀疏结构的模型,即,被确定为稀疏结构的元素被设置为0的模型(S8)。
图8是用于描述将元素设置为0的说明图。如图8所示,在β(1)至β(K)中,β1等于0的β的数目等于或大于N。这样的β1被确定为最终稀疏结构,并且被设置为β1=0。
接下来,多元回归单元15将由稀疏结构反映单元14最终确定为稀疏结构的元素设置为0,并且通过在排除了其中βj=0成立的j的元素的情况下的多元回归获得最终模型(β)的特定值。然后,输出单元18将由多元回归单元15利用多元回归获得的最终模型(β)的值输出作为处理结果(S9)。
图9是用于描述操作代理和数据流的说明图。更具体地,在图9中,图2中与S8和S9有关的操作代理和数据流用粗体字和线表示。如图9所示,多元回归单元15通过对学习数据表21中的学习数据(y,X)进行多元回归来获得最终模型(β)的特定值,在学习数据表21中通过稀疏结构反映单元14被最终确定为稀疏结构的元素被设置为0(利用部分排除)。然后,输出单元18输出由多元回归单元15获得的β的值。
[效果]
如上所述,优化装置1包括数据划分单元12、伊辛模型退火单元13、模型候选确定单元16和稀疏结构反映单元14。数据划分单元12将从输入单元10输入的并且包含目标变量和解释变量的学习数据划分为多个数据子集。伊辛模型退火单元13对要用于在所划分的数据子集中的每一个中的学习数据的结构提取的训练数据(第一数据)执行L0正则化的正则化处理,并提取等于零的元素(第一元素)。例如,伊辛模型退火单元13基于训练数据通过对其中通过整数近似以伊辛格式表达β的数据进行退火来执行L0正则化的正则化处理,并提取βj=0成立的元素。
模型候选确定单元16提取模型(β)作为候选模型,在该模型(β)中,对划分的数据子集中的每一个中的测试数据(第二数据)进行多元回归的结果与对通过从测试数据中排除βj=0成立的元素而获得的数据进行多元回归的结果之间的误差比等于或大于预定值(p)。稀疏结构反映单元14输出用零替换在所提取的候选模型(β)中取零达预定次数(N)或大于预定次数的元素的模型。
以这种方式,优化装置1能够通过在不松弛到L1范数的情况下执行L0正则化的正则化处理来避免数据偏差地提取稀疏性,从而以高准确度执行稀疏估计。另外,优化装置1能够基于训练数据通过对以伊辛格式表达的数据进行退火来以实际速度优化直接L0正则化。
此外,当l表示在用于以伊辛格式表达的二元展开中要使用的序列长度、Nb表示退火中的上限位数并且n表示学习数据中的行数时,优化装置1中的位数计算单元11将要用于二元展开的序列长度设置为l,l是满足n(l+2)≤Nb的最大整数。l越大,二元展开中整数近似的近似准确度越高。因此,优化装置1能够通过利用l执行整数近似来以更高的准确度执行退火,整数近似使数据尽可能接近退火中的上限位数(Nb)。
数据划分单元12执行K划分为k个数据子集,使得在学习数据划分之后包含在数据子集中的每一个中的系数的上限和下限满足预定条件。对于学习数据划分后的每个数据子集(x),当伊辛模型退火单元13通过退火执行L0正则化时,系数的上限/下限被给出为maxa,b,c,dx(i) abx(i) cd/mina,b,c,dx(i) abx(i) cd。在伊辛模型退火单元13中,这些系数被要求落入上限位数(Nb:例如16位)的整数值的范围内。因此,当数据划分单元12对学习数据进行划分,使得系数的上限和下限满足预定条件时,或者例如,maxa,b,c,dx(i) abx(i) cd-mina,b,c,dx(i) abx(i) cd落入16位整数值的范围内时,伊辛模型退火单元13能够在上限位数的整数值的范围内执行退火。
[其他]
附图中所示的装置的组成元件是功能上概念性的元件,并且不一定如图所示地物理配置。装置的组成元件被分开或集成的具体形式不限于图示的形式,并且其全部或部分可以根据例如负荷和使用条件的各种因素在功能上或物理上分开或集成在任何单元中。例如,用作输入单元10、位数计算单元11、数据划分单元12、伊辛模型退火单元13、稀疏结构反映单元14、多元回归单元15、模型候选确定单元16、稀疏结构确定单元17和输出单元18的处理单元可以被适当地集成。另一方面,可以将由每个处理单元执行的处理适当地划分到要由多个处理单元执行的处理的子单元中。由处理单元执行的处理功能的全部或给定的一些可以由中央处理单元(CPU)和要由CPU分析和执行的程序来实现,或者可以由有线逻辑模块实现为硬件。
[优化程序]
另外,还可以通过在计算机系统诸如个人计算机或工作站上执行准备的程序来实现在以上实施方式中描述的各种处理。因此,下面描述执行优化程序的计算机系统的示例。图10是示出执行优化程序的计算机的配置的示例的图。
如图10所示,计算机400具有CPU 410、硬盘驱动器(HDD)420和随机存取存储器(RAM)440。这些单元400至440经由总线500彼此耦接。
HDD 420预先存储优化程序420A,该优化程序420A发挥与输入单元10、位数计算单元11、数据划分单元12、伊辛模型退火单元13、稀疏结构反映单元14、多元回归单元15、模型候选确定单元16、稀疏结构确定单元17和输出单元18的功能相同的功能。要注意,可以根据需要将优化程序420A分开。
HDD 420还存储各种信息。例如,HDD 420存储操作系统(OS)、各种程序以及与参数表20、学习数据表21、划分数据表22、稀疏候选记录表23、多元回归结果记录表24和候选模型表25有关的各种信息。
通过从HDD 420读取优化程序420A并执行优化程序420A,CPU 410操作执行上述实施方式中的处理单元的处理。换句话说,这些处理执行与输入单元10、位数计算单元11、数据划分单元12、伊辛模型退火单元13、稀疏结构反映单元14、多元回归单元15、模型候选确定单元16、稀疏结构确定单元17和输出单元18的操作相同的操作。
前述优化程序420A可以被存储在将被插入到计算机400中的“便携式物理介质”中,便携式物理介质例如是软盘(FD)、紧致盘只读存储器(CD-ROM)、数字通用盘(DVD)、磁光盘或集成电路(IC)卡。然后,计算机400可以从这样的介质中读取优化程序420A并执行优化程序420A。
否则,优化程序420A可以被存储在经由公共网络、因特网、局域网(LAN)、广域网(WAN)等耦接至计算机400的“另一计算机(或服务器)”等中。然后,计算机400可以从计算机或服务器读取优化程序420A并执行优化程序420A。
此外,将关于上述实施方式公开以下附录。
(附录1)一种优化装置,包括:
划分单元,其将包含目标变量和解释变量的学习数据划分为多个数据子集;
正则化处理单元,其对第一数据执行正则化处理,并提取等于零的第一元素,所述第一数据要用于在所划分的数据子集中的每一个中的学习数据的结构提取;
误差比计算单元,其提取第一多元回归与第二多元回归之间的误差比等于或大于预定值的每个模型作为候选模型,第一多元回归是对第二数据进行多元回归的结果,所述第二数据是所划分的数据子集中的每一个中的测试数据并且用于计算学习数据的误差比,第二多元回归是对通过从第二数据中排除第一元素而获得的第三数据进行多元回归的结果;以及
输出单元,其输出用零替换在所提取的候选模型中取零达预定次数或大于预定次数的元素的模型。
(附录2)根据附录1所述的优化装置,其中,正则化处理单元基于第一数据通过对以伊辛格式表达的数据进行退火来执行正则化处理。
(附录3)根据附录2所述的优化装置,还包括计算单元,该计算单元在当l表示在用于以伊辛格式表达的二元展开中要使用的序列长度、Nb表示退火中的上限位数并且n表示学习数据中的行数时,将要用于二元展开的序列长度设置为l,所述l是满足n(l+2)≤Nb的最大整数。
(附录4)根据附录1至3中任一项所述的优化装置,其中,划分单元将学习数据划分为数据子集,使得在学习数据划分之后包含在数据子集中的每一个中的系数的上限和下限满足预定条件。
(附录5)一种使计算机执行处理的优化方法,处理包括:
将包含目标变量和解释变量的学习数据划分为多个数据子集;
对第一数据执行正则化处理,并提取等于零的第一元素,第一数据要用于在所划分的数据子集中的每一个中的学习数据的结构提取;
提取第一多元回归与第二多元回归之间的误差比等于或大于预定值的每个模型作为候选模型,第一多元回归是对第二数据进行多元回归的结果,第二数据是所划分的数据子集中的每一个中的测试数据并且用于计算学习数据的误差比,第二多元回归是对通过从第二数据中排除第一元素而获得的第三数据进行多元回归的结果;以及
输出用零替换在所提取的候选模型中取零达预定次数或大于预定次数的元素的模型。
(附录6)根据附录5所述的优化方法,其中,提取第一元素涉及:基于第一数据通过对以伊辛格式表达的数据进行退火来执行正则化处理。
(附录7)根据附录6所述的优化方法,还使所述计算机执行包括以下操作的处理:当l表示在用于以伊辛格式表达的二元展开中要使用的序列长度、Nb表示退火中的上限位数并且n表示学习数据中的行数时,将要用于二元展开的序列长度设置为l,l是满足n(l+2)≤Nb的最大整数。
(附录8)根据附录5至7中任一项所述的优化方法,其中,划分涉及:将学习数据划分为数据子集,使得在学习数据划分之后包含在数据子集中的每一个中的系数的上限和下限满足预定条件。
(附录9)一种使计算机执行处理的优化程序,处理包括:
将包含目标变量和解释变量的学习数据划分为多个数据子集;
对第一数据执行正则化处理,并提取等于零的第一元素,第一数据要用于在所划分的数据子集中的每一个中的学习数据的结构提取;
提取第一多元回归与第二多元回归之间的误差比等于或大于预定值的每个模型作为候选模型,第一多元回归是对第二数据进行多元回归的结果,第二数据是所划分的数据子集中的每一个中的测试数据并且用于计算学习数据的误差比,第二多元回归是对通过从第二数据中排除第一元素而获得的第三数据进行多元回归的结果;以及
输出用零替换在所提取的候选模型中取零达预定次数或大于预定次数的元素的模型。
(附录10)根据附录9所述的优化程序,其中,提取第一元素涉及:基于第一数据通过对以伊辛格式表达的数据进行退火来执行正则化处理。
(附录11)根据附录10所述的优化程序,其中,程序还使计算机执行包括以下操作的处理:当l表示在用于以所述伊辛格式表达的二元展开中要使用的序列长度、Nb表示退火中的上限位数并且n表示学习数据中的行数时,将要用于二元展开的序列长度设置为l,l是满足n(l+2)≤Nb的最大整数。
(附录12)根据附录9至11中任一项所述的优化程序,其中,划分涉及:将学习数据划分为数据子集,使得在学习数据划分之后包含在数据子集中的每一个中的系数的上限和下限满足预定条件。
本文中提供的所有示例和条件语言旨在用于教导目的,以帮助读者理解本发明和由发明人对本领域进一步贡献的概念,而不应被解释为限于这样的具体叙述的示例和条件,说明书中这样的示例的组织也不涉及本发明的优势和劣势的展示。虽然已经详细地描述了本发明的一个或更多个实施方式,但是应当理解的是,在不脱离本发明的精神和范围的情况下,可以对本发明做出各种改变、替换和变换。
[引用列表]
[专利文献]
[PTL 1]国际专利申请第2016-531343号的日本国家公布
[PTL 2]日本特许专利公布第2016-123853号
[PTL 3]日本特许专利公布第2005-222422号
[非专利文献]
[NPL 1]Tibshirani,R.(1996),“Regression Shrinkage and Selection viathe Lasso”,皇家统计学会杂志,Ser.B,58,267-288页。
[附图标记列表]
1 优化装置
10 输入单元
11 位数计算单元
12 数据划分单元
13 伊辛模型退火单元
14 稀疏结构反映单元
15 多元回归单元
16 模型候选确定单元
17 稀疏结构确定单元
18 输出单元
20 参数表21学习数据表
22 划分数据表
23 稀疏候选记录表
24 多元回归结果记录表
25 候选模型表
400 计算机
410 CPU
420 HDD
420A 优化程序
440 RAM
500 总线
C1,C2 情况

Claims (5)

1.一种稀疏估计的优化装置,包括:
划分单元,其将包含目标变量和解释变量的学习数据划分为多个数据子集;
正则化处理单元,其对第一数据执行正则化处理,并提取等于零的第一元素,所述第一数据是所划分的多个数据子集中的每个数据子集中的训练数据并且要用于在所划分的数据子集中的每一个中的学习数据的结构提取;
误差比计算单元,其提取第一多元回归与第二多元回归之间的误差比等于或大于预定值的每个模型作为候选模型,所述第一多元回归是对第二数据进行多元回归的结果,所述第二数据是所划分的多个数据子集中的每一个中的测试数据并且用于计算所述学习数据的误差比,所述第二多元回归是对通过从所述第二数据中排除所述第一元素而获得的第三数据进行多元回归的结果;
输出单元,其输出用零替换在所提取的候选模型中取零达预定次数或大于预定次数的元素的模型;以及
计算单元,其将要用于以伊辛格式表达的二元展开的序列长度设置为l,其中,l是满足n(l+2)≤Nb的最大整数,其中l表示所述二元展开中要使用的序列长度、Nb表示所述退火中的上限位数并且n表示所述学习数据中的行数。
2.根据权利要求1所述的优化装置,其中,
所述正则化处理单元基于所述第一数据通过对以所述伊辛格式表达的数据进行退火来执行所述正则化处理。
3.根据权利要求1或2所述的优化装置,其中,
所述划分单元将所述学习数据划分为所述数据子集,使得在所述学习数据划分之后包含在所述数据子集中的每一个中的系数的上限和下限满足预定条件。
4.一种稀疏估计的优化方法,包括:
将包含目标变量和解释变量的学习数据划分为多个数据子集;
对第一数据执行正则化处理,并提取等于零的第一元素,所述第一数据是所划分的多个数据子集中的每个数据子集中的训练数据并且要用于在所划分的数据子集中的每一个中的学习数据的结构提取;
提取第一多元回归与第二多元回归之间的误差比等于或大于预定值的每个模型作为候选模型,所述第一多元回归是对第二数据进行多元回归的结果,所述第二数据是所划分的多个数据子集中的每一个中的测试数据并且用于计算所述学习数据的误差比,所述第二多元回归是对通过从所述第二数据中排除所述第一元素而获得的第三数据进行多元回归的结果;
输出用零替换在所提取的候选模型中取零达预定次数或大于预定次数的元素的模型;以及
将要用于以伊辛格式表达的二元展开的序列长度设置为l,其中,l是满足n(l+2)≤Nb的最大整数,其中l表示所述二元展开中要使用的序列长度、Nb表示所述退火中的上限位数并且n表示所述学习数据中的行数。
5.一种用于存储优化程序的非暂态计算机可读存储介质,所述优化程序使处理器执行用于对象识别的处理,所述处理包括:
将包含目标变量和解释变量的学习数据划分为多个数据子集;
对第一数据执行正则化处理,并提取等于零的第一元素,所述第一数据是所划分的多个数据子集中的每个数据子集中的训练数据并且要用于在所划分的数据子集中的每一个中的学习数据的结构提取;
提取第一多元回归与第二多元回归之间的误差比等于或大于预定值的每个模型作为候选模型,所述第一多元回归是对第二数据进行多元回归的结果,所述第二数据是所划分的多个数据子集中的每一个中的测试数据并且用于计算所述学习数据的误差比,所述第二多元回归是对通过从所述第二数据中排除所述第一元素而获得的第三数据进行多元回归的结果;
输出用零替换在所提取的候选模型中取零达预定次数或大于预定次数的元素的模型;以及
将要用于以伊辛格式表达的二元展开的序列长度设置为l,其中,l是满足n(l+2)≤Nb的最大整数,其中l表示所述二元展开中要使用的序列长度、Nb表示所述退火中的上限位数并且n表示所述学习数据中的行数。
CN201911226680.8A 2018-12-11 2019-12-04 优化装置、优化方法和非暂态计算机可读存储介质 Active CN111310930B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018231731A JP7131356B2 (ja) 2018-12-11 2018-12-11 最適化装置、最適化プログラムおよび最適化方法
JP2018-231731 2018-12-11

Publications (2)

Publication Number Publication Date
CN111310930A CN111310930A (zh) 2020-06-19
CN111310930B true CN111310930B (zh) 2023-07-21

Family

ID=68696305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911226680.8A Active CN111310930B (zh) 2018-12-11 2019-12-04 优化装置、优化方法和非暂态计算机可读存储介质

Country Status (4)

Country Link
US (1) US11556849B2 (zh)
EP (1) EP3667571A1 (zh)
JP (1) JP7131356B2 (zh)
CN (1) CN111310930B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111724203B (zh) * 2020-06-15 2024-02-27 中山世达模型制造有限公司 基于多重回归模型的产品加工价格预估方法及系统
JP2023010414A (ja) 2021-07-09 2023-01-20 富士通株式会社 モデル生成プログラム、モデル生成方法、および情報処理装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101893884A (zh) * 2010-06-30 2010-11-24 浙江大学 密炼机的橡胶混炼过程中质量指标数据的软测量方法
CN108108820A (zh) * 2017-12-20 2018-06-01 第四范式(北京)技术有限公司 用于选择机器学习样本的特征的方法及系统
CN108369659A (zh) * 2015-09-30 2018-08-03 扎斯特有限公司 用于识别具有目标性质的实体的系统和方法
CN108629419A (zh) * 2017-03-21 2018-10-09 发那科株式会社 机器学习装置以及热位移修正装置
CN108764568A (zh) * 2018-05-28 2018-11-06 哈尔滨工业大学 一种基于lstm网络的数据预测模型调优方法及装置

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005222422A (ja) 2004-02-06 2005-08-18 Ishihara Sangyo Kaisha Ltd データ解析方法及びそのシステム
JP2014160456A (ja) 2013-02-20 2014-09-04 Nec Corp 疎変数最適化装置、疎変数最適化方法および疎変数最適化プログラム
JP6465876B2 (ja) 2013-06-28 2019-02-06 ディー−ウェイブ システムズ インコーポレイテッド データの量子処理のためのシステムおよび方法
US9846214B2 (en) 2014-12-29 2017-12-19 Toshiba Medical Systems Corporation Magnetic resonance image reconstruction for undersampled data acquisitions
US11423323B2 (en) 2015-09-02 2022-08-23 Qualcomm Incorporated Generating a sparse feature vector for classification
US20210357555A1 (en) * 2018-09-14 2021-11-18 Northwestern University Data-driven representation and clustering discretization method and system for design optimization and/or performance prediction of material systems and applications of same

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101893884A (zh) * 2010-06-30 2010-11-24 浙江大学 密炼机的橡胶混炼过程中质量指标数据的软测量方法
CN108369659A (zh) * 2015-09-30 2018-08-03 扎斯特有限公司 用于识别具有目标性质的实体的系统和方法
CN108629419A (zh) * 2017-03-21 2018-10-09 发那科株式会社 机器学习装置以及热位移修正装置
CN108108820A (zh) * 2017-12-20 2018-06-01 第四范式(北京)技术有限公司 用于选择机器学习样本的特征的方法及系统
CN108764568A (zh) * 2018-05-28 2018-11-06 哈尔滨工业大学 一种基于lstm网络的数据预测模型调优方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Hartmut Neven.Training a Binary Classifier with the Quantum Adiabatic Algorithm.《cornell university library》.2008,第1-10页. *

Also Published As

Publication number Publication date
EP3667571A1 (en) 2020-06-17
US11556849B2 (en) 2023-01-17
US20200184375A1 (en) 2020-06-11
JP7131356B2 (ja) 2022-09-06
CN111310930A (zh) 2020-06-19
JP2020095397A (ja) 2020-06-18

Similar Documents

Publication Publication Date Title
EP2991003A2 (en) Method and apparatus for classification
CN111310930B (zh) 优化装置、优化方法和非暂态计算机可读存储介质
JP6816481B2 (ja) 削減条件特定方法、削減条件特定プログラム及び削減条件特定装置
CN113435545A (zh) 图像处理模型的训练方法及装置
US11023562B2 (en) Analysis method, analysis device, and recording medium
KR20210034462A (ko) 픽셀 별 주석을 생성하는 생성적 적대 신경망(gan)을 학습시키는 방법
JP7085158B2 (ja) ニューラルネットワーク学習装置、ニューラルネットワーク学習方法、プログラム
CN114613450A (zh) 药物分子的性质预测方法、装置、存储介质及计算机设备
KR102153161B1 (ko) 확률 그래프 기반의 서열 데이터 연관성 학습 방법 및 시스템
US11410065B2 (en) Storage medium, model output method, and model output device
US20220004868A1 (en) Acoustic model learning apparatus, model learning apparatus, method and program for the same
JP2017220001A (ja) 予測装置、予測方法及びプログラム
CN115907775A (zh) 基于深度学习的个人征信评级方法及其应用
JP2019185207A (ja) モデル学習装置、モデル学習方法、プログラム
US20210342642A1 (en) Machine learning training dataset optimization
JP7452623B2 (ja) 学習装置、情報処理装置、学習方法、情報処理方法及びプログラム
US11295229B1 (en) Scalable generation of multidimensional features for machine learning
US20230273771A1 (en) Secret decision tree test apparatus, secret decision tree test system, secret decision tree test method, and program
JP6984729B2 (ja) 意味推定システム、方法およびプログラム
JP6988991B2 (ja) 意味推定システム、方法およびプログラム
CN113742525A (zh) 自监督视频哈希学习方法、系统、电子设备及存储介质
US10360509B2 (en) Apparatus and method for generating an optimal set of choices
WO2023223509A1 (ja) 学習装置、学習方法及び学習プログラム
US20240126835A1 (en) Computer-readable recording medium storing sampling program, sampling method, and information processing device
JP7420148B2 (ja) 学習装置、学習方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant