CN114556380A - 机器学习程序、机器学习方法以及机器学习装置 - Google Patents
机器学习程序、机器学习方法以及机器学习装置 Download PDFInfo
- Publication number
- CN114556380A CN114556380A CN201980101036.XA CN201980101036A CN114556380A CN 114556380 A CN114556380 A CN 114556380A CN 201980101036 A CN201980101036 A CN 201980101036A CN 114556380 A CN114556380 A CN 114556380A
- Authority
- CN
- China
- Prior art keywords
- data
- value
- learning
- variable
- machine learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/24765—Rule-based classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/01—Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及机器学习程序、机器学习方法以及机器学习装置。进行训练数据的离散化,以便模型精度提高。关于将标签信息与多个数据项目的数据项目值的组合建立关联的多个学习数据,对每个数据项目将数据项目值转换为基于规定的基准离散化后的离散化数据值。使用转换后的多个学习数据执行学习将离散化数据值作为输入进行关于标签信息的判定的模型的学习处理。从学习处理的执行结果获取示出多个数据项目中的用于判定的两个以上的数据项目的组合的不同的多个特征信息、和示出多个特征信息各自的重要性的指标值。基于指标值选择一个以上的特征信息,基于选择出的一个以上的特征信息来变更用于数据项目值的离散化的基准。
Description
技术领域
本发明涉及机器学习程序、机器学习方法以及机器学习装置。
背景技术
作为利用计算机的大规模数据分析,存在进行机器学习的情况。在机器学习中,将示出已知的事例的多个样本输入至计算机。计算机分析多个样本,学习将重要因素(存在称为说明变量、独立变量的情况)与结果(存在称为目标变量、从属变量的情况)之间的关系一般化的模型。通过使用学习后的模型,能够预测未知的事例的结果。
有在机器学习前对训练数据进行前处理以便模型的精度提高的情况。作为一个前处理,存在使说明变量可取的值的个数减少的“离散化”。在离散化中,将具有可取的值较多的“连续值”的说明变量转换为具有可取的值较少的“离散值”的说明变量。在离散化中,例如,将连续值的范围分割为多个区间,对连续值分配与其所属的区间对应的离散值。
提出了考虑到某说明变量的值与目标变量的值的对应关系来动态地决定用于将该说明变量离散化的多个区间的熵基离散化。在熵基离散化中,从训练数据中包含的说明变量的值的分布中,检测出具有相同的目标变量的值的样本密集的区间。通过考虑到目标变量的值的分布来进行说明变量的离散化,期待模型的精度提高。
非专利文献1:Usama M.Fayyad and Keki B.Irani,"Multi-IntervalDiscretization of Continuous-Valued Attributes for Classification Learning",Proc.of the 13th International Joint Conference on Artificial Intelligence(IJCAI-93),pp.1022-1029,1993-08-28.
在针对训练数据的以往的离散化技术中,以说明变量为单位进行离散化,用于将某说明变量离散化的离散化方法与用于将其它的说明变量离散化的离散化方法独立地决定。例如,某说明变量的连续值的范围的分割方法与其它的说明变量的连续值的范围的分割方法独立地决定。
因此,从模型精度的提高的观点来看,在作为针对训练数据的前处理的离散化上存在改善的余地。例如,在两个以上的说明变量的组合中研究目标变量的值的分布时,存在能够对这两个以上的说明变量分别设定适当的分割点的情况。此时的问题是,从训练数据中包含的各种说明变量中,应该对怎样的说明变量的组合进行离散化处理。
发明内容
在一个方面中,本发明的目的在于,提供进行训练数据的离散化以便模型精度提高的机器学习程序、机器学习方法以及机器学习装置。
在一个方式中,提供使计算机执行以下的处理的机器学习程序。对于分别是将标签信息与多个数据项目的数据项目值的组合建立关联的数据的多个学习数据,对每个数据项目将数据项目值转换为基于规定的基准离散化后的离散化数据值。使用转换后的多个学习数据执行学习处理,上述学习处理是学习将多个数据项目的离散化数据值作为输入进行关于标签信息的判定的模型的处理。从学习处理的执行结果获取不同的多个特征信息和指标值,上述不同的多个特征信息分别示出多个数据项目中的用于判定的两个以上的数据项目的组合,上述指标值示出多个特征信息各自的重要性。基于指标值选择多个特征信息中的一个以上的特征信息,基于选择出的一个以上的特征信息来变更用于数据项目值的离散化的基准。
另外,在一个方式中,提供计算机所执行的机器学习方法。另外,在一个方式中,提供具有存储部和处理部的机器学习装置。
在一个方面中,进行训练数据的离散化,以便模型精度提高。
通过与表示作为本发明的例子所优选的实施方式的附图相关的以下的说明,本发明的上述以及其他的目的、特征以及优点变得清楚。
附图说明
图1是对第一实施方式的机器学习装置的例子进行说明的图。
图2是示出第二实施方式的机器学习装置的硬件例的图。
图3是示出训练数据表的例子的图。
图4是示出前处理后的训练数据表的例子的图。
图5是示出Wide Learning的例子的图。
图6是示出基于熵的离散化的例子的图。
图7是示出样本的分布与离散化的关系例的图。
图8是示出用于离散化的说明变量的组的选择例的图。
图9是示出多个说明变量的离散化例的图。
图10是示出多个说明变量的离散化例的图(接续)。
图11是示出机器学习装置的功能例的框图。
图12是示出机器学习的过程示例的流程图。
图13是示出单变量离散化的过程示例的流程图。
图14是示出Wide Learning的过程示例的流程图。
图15是示出变量选择的过程示例的流程图。
图16是示出变量选择的其他的过程示例的流程图。
图17是示出效果验证的结果的图。
图18是示出多变量离散化的过程示例的流程图。
具体实施方式
以下,参照附图,对本实施方式进行说明。
[第一实施方式]
对第一实施方式进行说明。
图1是对第一实施方式的机器学习装置的例子进行说明的图。
第一实施方式的机器学习装置10对学习数据进行前处理,使用前处理后的学习数据进行机器学习,学习用于预测未知的结果的模型。机器学习装置10也可以是客户端装置,也可以是服务器装置。也能够将机器学习装置10称为计算机、信息处理装置。
机器学习装置10具有存储部11以及处理部12。存储部11也可以是RAM(RandomAccess Memory:随机存取存储器)等易失性半导体存储器,也可以是HDD(Hard DiskDrive:硬盘驱动器)、闪存等非易失性存储。处理部12例如是CPU(Central ProcessingUnit:中央处理单元)、GPU(Graphics Processing Unit:图形处理单元)、DSP(DigitalSignal Processor:数字信号处理器)等处理器。但是,处理部12也可以包含ASIC(Application Specific Integrated Circuit:专用集成电路)、FPGA(FieldProgrammable Gate Array:现场可编程门阵列)等特定用途的电子电路。处理器执行存储于RAM等存储器(也可以为存储部11)的程序。也存在将多个处理器的集合称为“多处理器”或者仅称为“处理器”的情况。
存储部11存储包含前处理前的多个学习数据的学习数据集合13。也能够将各个学习数据称为记录、样本,也能够将学习数据集合13称为训练数据。多个学习数据分别是将标签信息13c与数据项目13a、13b等多个数据项目的数据项目值的组合建立关联的数据。也能够将多个数据项目分别称为说明变量、特征量,也能够将标签信息13c称为目标变量、教师标签。多个数据项目的至少一部分取“连续值”的数据项目值。“连续值”是整数、实数等可取的值的个数较多的数据项目的数据项目值。标签信息13c例如是能够通过是或者否规定的二值分类信息。
处理部12对学习数据集合13进行前处理,生成包含前处理后的多个学习数据的学习数据集合14。也能够将学习数据集合14称为前处理后的训练数据。在从学习数据集合13向学习数据集合14的转换中进行“离散化”。在离散化中,处理部12对每个数据项目基于规定的基准将作为“连续值”的原来的数据项目值转换为作为“离散值”的离散化数据值。“离散值”是与离散化前相比可取的值的个数减少的值。
作为规定的基准,处理部12将原来的数据项目值分类至少量的类别,并转换为示出原来的数据项目值所属的类别的离散化数据值。例如,处理部12将原来的数据项目值可取的数值范围分割为多个区间,并转换为示出原来的数据项目值所属的区间的离散化数据值。例如,考虑如不足20的区间1、20以上且不足50的区间2、50以上的区间3那样分割数值范围。数值范围的分割方法等数据项目值的分类方法成为离散化的“基准”。如后述那样,处理部12能够调整离散化的基准。
处理部12使用前处理后的学习数据集合14,执行学习模型15的学习处理。模型15是将多个数据项目的离散化数据值作为输入,进行关于标签信息13c的判定的模型。作为学习模型15的机器学习算法,能够使用各种算法。例如,模型15包含根据学习数据集合14中包含的多个数据项目中的一部分的数据项目的离散化数据值的组合来预测标签信息13c的值的多个判定规则。例如,可考虑某判定规则是在数据项目13a为“3”并且数据项目13b为“2”的情况下,将标签信息13c预测为“是”的规则。另外,例如,模型15包含示出多个判定规则各自的重要性的指标值。
处理部12根据上述的学习处理的执行结果,获取包含多个特征信息的特征信息集合16、和包含多个指标值的指标值集合17。多个特征信息分别示出学习数据集合14中包含的多个数据项目中的用于关于标签信息13c的判定的两个以上的数据项目的组合。特征信息集合16中包含的多个特征信息示出不同的数据项目的组合。例如,一个特征信息所示的数据项目的组合是模型15中包含的一个判定规则所规定的离散化数据值的条件中使用的数据项目的组合。例如,在某判定规则规定了数据项目13a为“3”并且数据项目13b为“2”这一条件的情况下,生成示出数据项目13a和数据项目13b的组合的特征信息。多个指标值与多个特征信息对应,示出各个特征信息的重要性。例如,作为指标值,使用在模型15中与一个判定规则建立对应的指标值。
处理部12基于指标值集合17中包含的指标值,选择特征信息集合16中包含的多个特征信息中的一个以上的特征信息。例如,处理部12从与示出较高的重要性的指标值建立对应的特征信息中优先选择。但是,处理部12也可以选择特征信息,使得在选择出的一个以上的特征信息中相同的数据项目不出现超过规定次数。例如,处理部12从特征信息集合16选择一个以上的特征信息,使得相同的数据项目最高仅出现一次。
处理部12基于选择出的一个以上的特征信息,来变更用于作为前处理的离散化的基准。例如,处理部12变更数据项目值可取的数值范围的分割方法等,变更数据项目值的分类方法。通过变更离散化的基准,从而通过前处理将学习数据集合13转换为与学习数据集合14不同的学习数据集合。例如,处理部12使用新的前处理后的学习数据集合重新执行学习处理,学习新的模型。处理部12也可以将重新学习的模型作为机器学习结果输出。另外,处理部12也可以多次重复离散化的基准的变更与学习处理的重新执行。
这里,处理部12考虑到选择出的特征信息所示的两个以上的数据项目的组合来变更离散化的基准。例如,处理部12在两个以上的数据项目的组合所示的多维空间中,计算标签信息13c的分布。处理部12从多维空间中检测标签信息13c的值相同的学习数据相对密集的区域,调整该两个以上的数据项目各自的离散化的基准,使得检测到的区域的边界变得明确。通过组合两个以上的数据项目并进行离散化,来期待与以数据项目为单位进行离散化的情况相比,数据项目值的分类方法变得适当。此外,初次的离散化也可以以数据项目为单位进行。
根据第一实施方式的机器学习装置10,使用以规定的基准进行了离散化的学习数据来执行学习处理,基于该学习处理的执行结果判定重要的数据项目的组合。而且,考虑到重要的数据项目的组合来变更离散化的基准。在第一实施方式中,作为前处理进行数据项目的离散化,因此与不进行离散化的情况相比,能够抑制过度学习并学习通用性较高的模型,能够使模型的精度提高。
另外,离散化的基准的变更后,组合两个以上的数据项目并进行离散化,因此能够在多维空间上考虑到学习数据的分布。因此,与以数据项目为单位进行离散化的情况相比,能够更适当地将数据项目值分类,能够使模型的精度提高。另外,由于限定于重要的数据项目的组合并进行离散化,因此与对各种数据项目的组合穷举地进行离散化的情况相比,能够减少前处理、学习处理的负荷。另外,能够抑制数据项目值的分类被过度细分化,能够抑制过度学习并使模型的精度提高。另外,由于基于学习处理的执行结果选择数据项目的组合,因此能够减少遗漏对模型的精度的影响较大的重要的数据项目的组合的风险。
[第二实施方式]
接下来,对第二实施方式进行说明。
第二实施方式的机器学习装置使用训练数据通过机器学习来学习从多个说明变量的值的组合预测目标变量的值的模型。在第二实施方式中,作为机器学习算法使用WideLearning(广泛学习,注册商标)。第二实施方式的机器学习装置也可以是客户端装置,也可以是服务器装置。另外,也能够将第二实施方式的机器学习装置称为计算机、信息处理装置。
图2是示出第二实施方式的机器学习装置的硬件例的图。
机器学习装置100具有CPU101、RAM102、HDD103、图像接口104、输入接口105、介质读取器106以及通信接口107。机器学习装置100所具有的这些单元连接于总线。机器学习装置100与第一实施方式的机器学习装置10对应。CPU101与第一实施方式的处理部12对应。RAM102或者HDD103与第一实施方式的存储部11对应。
CPU101是执行程序的命令的处理器。CPU101将存储于HDD103的程序、数据的至少一部分加载至RAM102,并执行程序。CPU101也可以具备多个处理器核,机器学习装置100也可以具备多个处理器。存在将多个处理器的集合称为“多处理器”或者仅称为“处理器”的情况。
RAM102是暂时地存储CPU101所执行的程序、CPU101用于运算的数据的易失性半导体存储器。机器学习装置100也可以具备RAM以外的种类的存储器,也可以具备多个存储器。
HDD103是存储OS(Operating System:操作系统)、中间件、应用程序软件等软件的程序、以及数据的非易失性存储。机器学习装置100也可以具备闪存、SSD(Solid StateDrive:固态硬盘)等其他的种类的存储,也可以具备多个存储。
图像接口104根据来自CPU101的命令,将图像输出至连接于机器学习装置100的显示装置111。作为显示装置111,能够使用CRT(Cathode Ray Tube:阴极射线管)显示器、液晶显示器(LCD:Liquid Crystal Display)、有机EL(OEL:Organic Electro-Luminescence:有机电致发光)显示器、投影仪等任意种类的显示装置。也可以在机器学习装置100连接有打印机等显示装置111以外的输出设备。
输入接口105从连接于机器学习装置100的输入设备112受理输入信号。作为输入设备112,能够使用鼠标、触摸面板、触摸板、键盘等任意种类的输入设备。也可以在机器学习装置100连接有多个种类的输入设备。
介质读取器106是读取记录于记录介质113的程序、数据的读取装置。作为记录介质113,能够使用软盘(FD:Flexible Disk)、HDD等磁盘、CD(Compact Disc)、DVD(DigitalVersatile Disc)等光盘、半导体存储器等任意种类的记录介质。介质读取器106例如将从记录介质113读取到的程序、数据复制至RAM102、HDD103等其他的记录介质。读取到的程序例如由CPU101执行。此外,记录介质113也可以是便携式记录介质,存在用于程序、数据的分发的情况。另外,存在将记录介质113、HDD103称为计算机可读取的记录介质的情况。
通信接口107连接于网络114,经由网络114与其他的信息处理装置通信。通信接口107也可以是连接于交换机、路由器等有线通信装置的有线通信接口,也可以是连接于基站、接入点等无线通信装置的无线通信接口。
接下来,对用于机器学习的训练数据进行说明。
图3是示出训练数据表的例子的图。
训练数据表131存储包含与多个样本对应的多个记录的训练数据。存储于训练数据表131的训练数据是在产品制造时在生产线中收集到的数据。训练数据表131中包含的各样本包含ID、多个说明变量的值以及目标变量的值。
ID是识别样本的识别符。说明变量是可能与次品的产生有关联的指标。存在将说明变量称为特征量的情况。在说明变量中包含温度、药品量。说明变量的值在产品制造时使用传感器设备测定。温度是在制造时测定的产品的温度。药品量是用于产品的制造的特定的药品的量。目标变量是示出制造出的产品是否是次品的标志。标志=1示出产品是次品,标志=0示出产品是良品。产品是否是次品通过产品制造之后的检查来判定。
目标变量的值也可以通过对流经生产线的一部分的产品进行取样并手工检查来收集。另外,目标变量的值也可以通过对流经生产线的一部分的产品进行取样并以精密检查机器检查来收集。在第二实施方式中,学习示出多个说明变量的值与产品的优劣之间的关系的模型。通过利用学习的模型,能够根据对流经生产线的各产品测定出的传感器数据简易地检测有可能是次品的产品。
这里,对训练数据进行用于使机器学习的精度提高的前处理。在前处理中包含“离散化”。在第二实施方式中,将减少说明变量可取的值的个数称为离散化。将温度、药品量等具有可取的值较多的“连续值”的说明变量转换为具有可取的值为少量的“离散值”的说明变量。通过将某说明变量可取的值的范围分割为两个以上的区间,来进行离散化。
对于特定的机器学习算法,离散化的模型的精度提高的效果特别大。例如,若针对后述的Wide Learning进行离散化的前处理,则模型精度较大地提高。另外,对于随机森林等其他的几种机器学习算法,也存在模型精度提高的情况。
图4是示出前处理后的训练数据表的例子的图。
通过对训练数据表131进行离散化的前处理而生成训练数据表132。训练数据表132与训练数据表131相同地,存储包含与多个样本对应的多个记录的训练数据。但是,向训练数据表132的各样本追加了几种说明变量。
训练数据表132的各样本包含与温度对应的区间1、区间2以及区间3的说明变量、和与药品量对应的区间4、区间5以及区间6的说明变量。区间1、区间2以及区间3的说明变量是示出温度的值是否属于该区间的标志。区间4、区间5以及区间6的说明变量是示出药品量的值是否属于该区间的标志。标志=1示出值属于该区间,标志=0示出值不属于该区间。这里通过离散化,将温度可取的值分割为三个区间,将药品量可取的值分割为三个区间。对每个样本,区间1、区间2以及区间3中的任意一个标志为1,另外两个标志为0。另外,对每个样本,区间4、区间5以及区间6中的任意一个标志为1,另外两个标志为0。
但是,也可以代替对通过离散化分割出的区间分别追加新的说明变量,而对区间分别分配数值,追加取示出所属的区间的数值的说明变量。例如,也可以追加在温度的值属于区间1的情况下取“1”,在属于区间2的情况下取“2”,在属于区间3的情况下取“3”的说明变量。另外,也可以追加在药品量的值属于区间4的情况下取“1”,在属于区间5的情况下取“2”,在属于区间6的情况下取“3”的说明变量。另外,温度、药品量等离散化前的说明变量既可以留下,也可以删除。对于将说明变量可取的值的范围分割为两个以上的区间的方法后述。
接下来,对作为机器学习算法的Wide Learning进行说明。
图5是示出Wide Learning的例子的图。
在Wide Learning中,穷举地生成示出有可能在少量的说明变量的值的组合与目标变量的值之间成立的假说的组块,从这些大量的组块中采用示出在训练数据的基础上可靠性较高的假说的组块。采用的组块的集合成为模型。组块所示的假说是若某说明变量的值为特定的值则目标变量的值为特定的值这样的含意的逻辑命题。也存在假说的假定部分是关于两个以上的说明变量的条件的逻辑积的情况。
训练数据中包含的样本中的相当于假说的假定部分的说明变量的值匹配,并且相当于假说的结论部分的目标变量的值匹配的样本的数量为该假说的命中数。可以说,示出命中数越多的假说的组块可靠性越高。另外,相当于假说的假定部分的说明变量的值匹配的样本中的相当于假说的结论部分的目标变量的值匹配的样本的比例为该假说的命中率。可以说,示出命中率越高的假说的组块可靠性越高。为了提高组块的通用性而抑制过度学习,优选一个组块中包含的说明变量的个数被限制为阈值以下。另外,优选采用命中数为阈值以上并且命中率为阈值以上的组块作为有效的假说。
作为一个例子,考虑使用存储于训练数据表133的训练数据进行Wide Learning。训练数据表133的训练数据中包含的各样本包含性别、有无执照、有无婚姻等说明变量的值,并包含示出有无购入的目标变量的值。性别是“男”或者“女”的二值数据。有无执照是“持有”或者“未持有”的二值数据。有无婚姻是“已婚”或者“未婚”的二值数据。有无购入是“购入”或者“未购入”的二值数据。
在Wide Learning中,列举多个说明变量各自可取的值以及目标变量可取的值。这里,对性别、执照、有无婚姻以及有无购入列举上述的值。接下来,从多个说明变量中选择阈值以下的个数的说明变量。例如,选择一个以上且三个以下的说明变量。然后,从选择出的说明变量分别选择一个值,从目标变量选择一个值,从而生成示出一个假说的一个组块。通过穷举地进行说明变量的选择以及值的选择,从而穷举地生成示出各种假说的组块。
这里,从训练数据表133生成包含组块141-1~141-8、142-1~142-8、143-1~143-8的多个组块。组块141-1~141-8包含一个说明变量。组块142-1~142-8包含两个说明变量。组块143-1~143-8包含三个说明变量。
组块141-1示出若性别为“男”则“购入”这一假说。组块141-2示出若性别为“男”则“未购入”这一假说。组块141-3示出若性别为“女”则“购入”这一假说。组块141-4示出若性别为“女”则“未购入”这一假说。组块141-5示出若执照为“持有”则“购入”这一假说。组块141-6示出若执照为“持有”则“未购入”这一假说。组块141-7示出若执照为“未持有”则“购入”这一假说。组块141-8示出若执照为“未持有”则“未购入”这一假说。
组块142-1示出若性别为“男”并且执照为“持有”则“购入”这一假说。组块142-2示出若性别为“男”并且执照为“持有”则“未购入”这一假说。组块142-3示出若性别为“男”并且执照为“未持有”则“购入”这一假说。组块142-4示出若性别为“男”并且执照为“未持有”则“未购入”这一假说。组块142-5示出若性别为“男”并且婚姻为“已婚”则“购入”这一假说。组块142-6示出若性别为“男”并且婚姻为“已婚”则“未购入”这一假说。组块142-7示出若性别为“男”并且婚姻为“未婚”则“购入”这一假说。组块142-8示出若性别为“男”并且婚姻为“未婚”则“未购入”这一假说。
组块143-1示出若性别为“男”并且执照为“持有”并且婚姻为“已婚”则“购入”这一假说。组块143-2示出若性别为“男”并且执照为“持有”并且婚姻为“已婚”则“未购入”这一假说。组块143-3示出若性别为“男”并且执照为“未持有”并且婚姻为“已婚”则“购入”这一假说。组块143-4示出若性别为“男”并且执照为“未持有”并且婚姻为“已婚”则“未购入”这一假说。组块143-5示出若性别为“男”并且执照为“持有”并且婚姻为“未婚”则“购入”这一假说。组块143-6示出若性别为“男”并且执照为“持有”并且婚姻为“未婚”则“未购入”这一假说。组块143-7示出若性别为“男”并且执照为“未持有”并且婚姻为“未婚”则“购入”这一假说。组块143-8示出若性别为“男”并且执照为“未持有”并且婚姻为“未婚”则“未购入”这一假说。
对这样的组块141-1~141-8、142-1~142-8、143-1~143-8分别计算命中数、命中率。例如,对于组块142-1,设为性别为“男”并且执照为“持有”的样本存在100个,其中“购入”的样本存在60个。那么,组块142-1的命中数为60而命中率为60%。相同地,对于组块143-1,设为性别为“男”并且执照为“持有”并且婚姻为“已婚”的样本存在10个,其中“购入”的样本存在9个。那么,组块143-1的命中数为9而命中率为90%。对于组块143-8,设为性别为“男”并且执照为“未持有”并且婚姻为“未婚”的样本存在20个,其中“未购入”的样本存在18个。那么,组块143-8的命中数为18而命中率为90%。
采用命中数为阈值以上并且命中率为阈值以上的组块作为有效的组块。但是,也可以采用命中数为阈值以上的组块全部作为有效的组块,也可以采用命中率为阈值以上的组块全部作为有效的组块。另外,也可以不设置基于命中数、命中率的阈值,而按命中数、命中率从高到低的顺序将规定量的组块采用为有效的组块。对有效的组块分别计算重要度。重要度也可以是命中数、命中率、与命中数或者命中率成比例的指标等。但是,在第二实施方式中,使用通过逻辑回归分析计算的权重。
如数学公式(1)所示,对某样本x使用S型函数计算概率p(x)。概率p(x)是比0大且比1小的实数。概率p(x)与样本x的目标变量的推断值对应。概率p(x)越接近1,则表示目标变量的值为1(例如次品)的可能性越高,概率p(x)越接近0,则表示目标变量的值为0(例如良品)的可能性越高。数学公式(1)的z(x)如数学公式(2)那样定义。z(x)相当于与样本x存在关系的一个以上的组块的推断结果的线形和。z(x)可取的值的范围为-∞至+∞。通过数学公式(1)的S型函数,将该z(x)转换为具有0至1的范围的概率p(x)。
[式1]
[式2]
在数学公式(2)中,α是作为常数项的系数,βi是作为第i个组块的权重的系数,chunki(x)是对样本x的第i个组块的输出。在第i个组块的说明变量的值与样本x的说明变量的值不匹配的情况下,chunki(x)输出“0”。在该情况下,第i个组块与样本x无关系,对z(x)的值不产生影响。在第i个组块的说明变量的值与样本x的说明变量的值匹配的情况下,chunki(x)输出“1”或者“-1”。在第i个组块的目标变量的推断值为“1”(例如次品)的情况下,chunki(x)输出“1”。在第i个组块的目标变量的推断值为“0”(例如良品)的情况下,chunki(x)输出“-1”。
z(x)的值越大,则越多的与样本x存在关系的组块将目标变量的值推断为“1”。z(x)的值越小,则越多与样本x存在关系的组块将目标变量的值推断为“0”。但是,通过改变系数α、βi,z(x)的值变化。转换自z(x)的概率p(x)与样本x的目标变量的真值的差为误差。因此,通过回归分析决定系数α、βi,使得关于大量样本的误差的合计值最小。这样决定的系数βi是第i个组块的重要度。
接下来,对作为训练数据的前处理进行的离散化进行说明。
在离散化中,将说明变量的值的范围分割为两个以上的区间,通过将属于相同区间的值视作相同,来对说明变量的值取近似而使其可取的值的个数减少。
作为离散化的一个简单的方法,可考虑将说明变量的值的范围等间隔地分割的方法。例如,可考虑将训练数据中包含的说明变量的值按升序排序,计算从最小值至最大值的范围,将该范围除以规定的区间数来决定每一个区间的宽度,将从最小值至最大值的范围按该宽度划分的方法。另外,作为离散化的一个简单的方法,可考虑将说明变量的值的范围等频度地分割的方法。例如,将训练数据中包含的样本按说明变量的值的升序排序,对样本总数计数,将样本总数除以规定的区间来计算每一个区间的样本数,将排序后的样本按该样本数划分的方法。
然而,基于等间隔或者等频度的离散化仅着眼于说明变量的值的分布,而未着眼于样本所具有的目标变量的值。考虑到目标变量的值,容易通过机器学习发现对目标变量的值造成影响的说明变量的值的边界。即,通过考虑目标变量的值,而机器学习的学习结果的精度提高。因此,可考虑基于熵的离散化。
图6示出基于熵的离散化的例子的图。
在基于熵的离散化(熵基离散化)中,将训练数据中包含的样本按说明变量的值的升序排序,检测具有相同的目标变量的值的样本集中的区间。优选在相同的区间中,目标变量的值尽可能均匀。目标变量的值为“1”的样本的集群与目标变量的值为“0”的样本的集群尽可能不分割。目标变量的值为“1”的样本和目标变量的值为“0”的样本混合存在的集合尽可能根据目标变量的值分开。在基于熵的离散化中,根据具有相同的目标变量的值的样本的分布,来决定多个区间的边界。存在将邻接的两个区间的边界称为切点的情况。
例如,若着眼于示出药品量的说明变量,则训练数据中包含的多个样本按药品量的升序排序。由此,在示出药品量的一维的直线上排列多个样本。在该直线上,决定切点151,使得目标变量的值的偏倚最大。由此,分割前的数值范围被分割为药品量不足切点151的区间152(区间X)、和药品量为切点151以上的区间153(区间Y)。区间152是目标变量的值为“1”(次品)的样本较多的区间,区间153是目标变量的值为“0”(良品)的样本较多的区间。决定切点151,使得区间152的样本的目标变量的值偏向“1”,区间153的样本的目标变量的值偏向“0”。
属于分割前的范围的样本的总数为SIZE,属于分割后的区间152的样本的数量为sizeA,属于分割后的区间153的样本的数量为sizeB。SIZE=sizeA+sizeB。在分割后的区间152、153各自中,也能够进一步递归地设定切点。只要能够高效地产生目标变量的值偏倚的区间就重复进行递归分割。
使用数学公式对基于熵的离散化的计算方法进行说明。从分割前的数值范围中临时选择一个切点cut。于是,分割前的样本集合all被分割为具有不足切点cut的说明变量的值的样本集合A、和具有切点cut以上的说明变量的值的样本集合B。
样本集合A的熵H(A)如数学公式(3)那样计算。数学公式(3)的P(A)是属于样本集合A的样本中的目标变量的值为“1”的样本的比例。另外,样本集合B的熵H(B)如数学公式(4)那样计算。数学公式(4)的P(B)是属于样本集合B的样本中的目标变量的值为“1”的样本的比例。切点cut下的熵H(cut)是如数学公式(5)那样根据样本集合A、B的样本数的比将熵H(A)、H(B)加权平均而得的。探索该熵H(cut)为最小的切点cut。
[式3]
H(A)=-P(A)log2P(A) (3)
[式4]
H(B)=-P(B)log2P(B) (4)
[式5]
若探索了熵最小的切点cut,则接下来,判定是否以该切点cut分割区间。首先,如数学公式(6)那样计算分割前的样本集合all的熵H(all)。数学公式(6)的P(all)是属于样本集合all的样本中的目标变量的值为“1”的样本的比例。接下来,如数学公式(7)所示,计算熵H(all)与熵H(cut)的差作为增益。另外,如数学公式(8)那样计算Δ。数学公式(8)的k0是存在于样本集合all中的不同的目标变量的个数(教师标签的类别数)。kA是样本集合A的教师标签的类别数,kB是样本集合B的教师标签的类别数。在目标变量的值为“1”或者“0”的二值的情况下,k0=kA=kB=2的情况较多。
[式6]
H(all)=-P(all)log2P(all) (6)
[式7]
gain=H(all)-H(cut) (7)
[式8]
然后,如数学公式(9)那样,使用样本集合all的样本数SIZE和由数学公式(8)定义的Δ来计算阈值,比较由数学公式(7)定义的增益与阈值。在增益与阈值相比较大的情况下,采用切点cut,判定为通过切点cut分割区间。在增益为阈值以下的情况下,不采用切点cut,判定为不通过切点cut分割区间。在采用了新的切点的情况下,将属于分割后的区间的样本的集合视为样本集合all,递归地执行上述的分割判定。在对分割后的全部的区间进行分割判定,且判定为不进一步将区间细分化的时刻,离散化结束。
[式9]
这里,对针对每个说明变量进行离散化的情况的问题点进行说明。
图7是示出样本的分布与离散化的关系例的图。
这里,作为说明变量着眼于药品量和温度。图表160是在由示出药品量的横轴与示出温度的纵轴形成的二维空间配置了样本的分布图。若着眼于药品量,则样本间的药品量的分布是将图表160中包含的样本投影于横轴后的分布。另外,若着眼于温度,则样本间的温度的分布是将图表160中包含的样本投影于纵轴后的分布。
若对药品量进行基于熵的离散化,则检测到切点161。在药品量不足切点161的区间,目标变量的值为“0”的样本占大部分。在药品量为切点161以上的区间,目标变量的值为“0”的样本和目标变量的值为“1”的样本以一定比例混合存在。就投影于横轴的分布而言,药品量为切点161以上的区间由于不存在目标变量的值偏倚的集群,因此不进一步细分化。
另外,若对温度进行基于熵的离散化,则检测到切点163、164。在温度不足切点164的区间,目标变量的值为“0”的样本和目标变量的值为“1”的样本以一定比例混合存在。在温度为切点164以上并且不足切点163的区间,目标变量的值为“0”的样本占大部分。在温度为切点163以上的区间,目标变量的值为“0”的样本和目标变量的值为“1”的样本以一定比例混合存在。
若这样设定切点161、163、164,则由药品量和温度形成的二维空间被分割为区域165-1~165-6。药品量不足切点161并且温度为切点163以上的样本属于区域165-1。药品量不足切点161并且温度不足切点163并且温度为切点164以上的样本属于区域165-2。药品量不足切点161并且温度不足切点164的样本属于区域165-3。药品量为切点161以上并且温度为切点163以上的样本属于区域165-4。药品量为切点161以上并且温度不足切点163并且温度为切点164以上的样本属于区域165-5。药品量为切点161以上并且温度不足切点164的样本属于区域165-6。
然而,区域165-4、165-6细分化不充分。区域165-4具有以下偏倚,即,在药品量较小的部分区域中目标变量的值为“1”的样本占大部分,在药品量较大的部分区域中目标变量的值为“0”的样本占大部分。区域165-6具有以下偏倚,即,在药品量较小的部分区域中目标变量的值为“0”的样本占大部分,在药品量较大的部分区域中目标变量的值为“1”的样本占大部分。若对药品量追加一个切点,则目标变量的值为“1”的样本与目标变量的值为“0”的样本的边界的精度提高。
这样,若以说明变量为单位进行离散化,一维地评价目标变量的值的分布,则存在遗漏优选的切点的可能性。与此相对,通过考虑到两个以上的说明变量的组合进行离散化,多维地评价目标变量的值的分布,而容易检测目标变量的值不同的样本之间的边界。其结果是,有可能提高通过机器学习生成的模型的精度。
但是,如何缩小在离散化中考虑的说明变量的组合成为问题。若穷举地考虑各种说明变量的组合,则存在对某说明变量设定多个切点,而说明变量可取的值的范围过度地细分化的担忧。若将区间过度地细分化,则离散化的效果减退,存在因过度学习而生成过度依赖训练数据的模型。另外,若将区间过度地细分化,则训练数据的前处理以及之后的机器学习的负荷变高。另外,对目标变量的值造成影响的重要的说明变量是训练数据中包含的说明变量的一部分,因此并不是多个切点全部都有助于模型精度的提高。
因此,在第二实施方式中,临时执行Wide Learning,基于Wide Learning的学习结果推断重要的说明变量的组。然后,缩小至重要的说明变量的组并进行离散化,再次执行Wide Learning。由此,能够高效地检测重要的切点而高效地使模型精度提高。
图8是示出用于离散化的说明变量的组的选择例的图。
机器学习装置100对训练数据进行每个说明变量的离散化作为前处理,使用前处理后的训练数据执行第一次的Wide Learning。但是,也可以使用未进行离散化的训练数据执行第一次的Wide Learning。机器学习装置100从第一次的Wide Learning的学习结果生成组块表134。组块表134存储示出有效的假说的多个组块的信息。在组块的信息中,包含有相当于假说的假定部分的说明变量的值的组合、和通过上述的方法计算出的组块的重要度。登记至组块表134的多个组块按重要度的降序排序。
例如,第一组块是对变量A的值为3以上并且变量B的值为4以上的样本推断目标变量的值的组块,其重要度为2.33。第二组块是对变量C的值为3以上并且变量D的值为4以上的样本推断目标变量的值的组块,其重要度为1.18。第三组块是对变量A的值为0.2以下并且变量B的值为3以上的样本推断目标变量的值的组块,其重要度为0.92。第四组块是对变量A的值为0.2以下并且变量B的值为一个以上的样本推断目标变量的值的组块,其重要度为0.86。第五组块是对变量A的值为2以下并且变量D的值为2以下的样本推断目标变量的值的组块,其重要度为0.77。第六组块是对变量A的值为0.2以下并且变量D的值为0.1以下的样本推断目标变量的值的组块,其重要度为0.63。
此外,在图8的例子中登记至组块表134的组块全部具有两个说明变量,但每一个组块的说明变量的个数不一定相同。在Wide Learning中将每一个组块的说明变量的个数限制为三个的情况下,在组块表134中,有可能混合存在说明变量的个数为一个组块、为两个的组块、以及为三个的组块。在以下的处理中参照的组块的说明变量的个数为两个以上即可,说明变量的个数可以不均匀。
机器学习装置100将在组块表134中出现的说明变量的组推断为重要的说明变量的组。但是,为了抑制对相同的说明变量设定多个切点,一个说明变量仅成为一次离散化的对象。基于重要度或者出现次数挑选设为离散化的对象的说明变量的组。
在重要度基准下,机器学习装置100从组块表134生成重要度表135。重要度表135将说明变量的组与重要度建立对应。重要度表135的说明变量的组是在组块表134中出现的说明变量的组。重要度表135的说明变量的组为两个以上的说明变量的集合即可,也可以说明变量的个数不均匀。重要度表135的重要度是对包含某说明变量的组的一个以上的组块赋予的重要度中的最高的重要度。重要度表135的说明变量的组按重要度的降序排序。
例如,组块表134的第一组块、第三组块以及第四组块包含变量A和变量B的组。因此,对变量A和变量B的组,与最大的重要度亦即重要度2.33建立对应。另外,组块表134的第二组块包含变量C和变量D的组。因此,对变量C和变量D的组,与重要度1.18建立对应。另外,组块表134的第五组块以及第六组块包含变量A和变量D的组。因此,对变量A和变量D的组,与最大的重要度亦即重要度0.77建立对应。
在出现次数基准下,机器学习装置100从组块表134生成出现次数表136。出现次数表136将说明变量的组与出现次数建立对应。出现次数表136的说明变量的组是在组块表134中出现的说明变量的组。出现次数表136的说明变量的组为两个以上的说明变量的集合即可,也可以说明变量的个数不均匀。出现次数表136的出现次数是在组块表134中出现的组块中的包含某说明变量的组的组块的个数。出现次数表136的说明变量的组按出现次数的降序排序。
例如,组块表134的第一组块、第三组块以及第四组块包含变量A和变量B的组。因此,对变量A和变量B的组与出现次数3建立对应。另外,组块表134的第五组块以及第六组块包含变量A和变量D的组。因此,对变量A和变量D的组与出现次数2建立对应。另外,组块表134的第二组块包含变量C和变量D的组。因此,对变量C和变量D的组与出现次数1建立对应。
机器学习装置100基于重要度表135或者出现次数表136,生成列举了设为离散化的对象的说明变量的组的对象变量表137。在对象变量表137中,相同的说明变量仅出现一次。
在重要度基准下,机器学习装置100从重要度表135按重要度从高到低的顺序提取说明变量的组。在提取出的说明变量的组中包含的全部的说明变量为未使用的情况下,机器学习装置100采用提取出的说明变量的组并登记至对象变量表137。在提取出的说明变量的组中包含的至少一个说明变量为已使用的情况下,机器学习装置100放弃提取出的说明变量的组。
例如,从重要度表135提取变量A和变量B的组。由于变量A与变量B均为未使用,因此将变量A和变量B的组登记至对象变量表137。接下来,从重要度表135提取变量C和变量D的组。由于变量C与变量D均为未使用,因此将变量C和变量D的组登记至对象变量表137。接下来,从重要度表135提取变量A和变量D的组。由于变量A为已使用,因此放弃变量A和变量D的组并不登记至对象变量表137。根据重要度基准,能够不遗漏重要度较高的说明变量的组合地离散化。
在出现次数基准下,机器学习装置100从出现次数表136按出现次数从多到少的顺序提取说明变量的组。在提取出的说明变量的组中包含的全部的说明变量为未使用的情况下,机器学习装置100采用提取出的说明变量的组并登记至对象变量表137。在提取出的说明变量的组中包含的至少一个说明变量为已使用的情况下,机器学习装置100放弃提取出的说明变量的组。
例如,从出现次数表136提取变量A和变量B的组。由于变量A与变量B均为未使用,因此将变量A和变量B的组登记至对象变量表137。接下来,从出现次数表136提取变量A和变量D的组。由于变量A为已使用,因此放弃变量A和变量D的组并不登记至对象变量表137。接下来,从出现次数表136提取变量C和变量D的组。由于变量C与变量D均为未使用,因此将变量C和变量D的组登记至对象变量表137。根据出现次数基准,能够将与目标变量的值相关性较强的说明变量的组合离散化。
接下来,对针对多个说明变量的组的基于熵的离散化进行说明。
图9是示出多个说明变量的离散化例的图。
多个说明变量的离散化与单一的说明变量的离散化相同地,根据数学公式(3)~(9)进行。但是,在多个说明变量的离散化中,包含从组合的多个说明变量中选择接下来追加切点的一个说明变量。
具体而言,对多个说明变量分别根据数学公式(3)~(5)探索熵最小的切点。从与多个说明变量对应的多个切点中选择熵最小的切点。由此,决定接下来所着眼于的说明变量和追加的切点的候补。若决定一个说明变量的一个切点,则根据数学公式(6)~(9),判定是否采用该切点。在该切点的增益超过阈值的情况下采用该切点,在增益为阈值以下的情况下不采用该切点。若对一个说明变量追加一个切点,则分割通过多个说明变量形成的多维空间的区域。分层地执行上述的区域分割,直到不产生进一步的切点的追加以及区域分割。
例如,考虑将药品量与温度两个说明变量组合来进行离散化。图7所示的图表160的二维空间如下那样被细分化为多个区域。首先,训练数据中包含的多个样本的药品量按升序排序。另外,训练数据中包含的多个样本的温度按升序排序。
接下来,针对药品量根据目标变量的值的偏倚探索熵最小的切点。与之独立地,针对温度根据目标变量的值的偏倚探索熵最小的切点。这里,药品量的切点161的熵设为与温度的切点相比较小。另外,切点161的增益设为与阈值相比较大。于是,对药品量追加切点161。由此,图表160的二维空间被分割为药品量不足切点161的区域166-1、和药品量为切点161以上的区域。
接下来,着眼于区域166-1,使用属于区域166-1的样本,针对药品量探索熵最小的切点,针对温度探索熵最小的切点。属于区域166-1的样本的集合相当于上述的样本集合all。在区域166-1中目标变量的值为“0”的样本占大部分,因此不采用任何的切点。因此,对区域166-1不进行进一步的分割判定。
接下来,着眼于区域166-1外的区域,使用属于区域166-1外的区域的样本,针对药品量探索熵最小的切点,针对温度探索熵最小的切点。属于区域166-1外的区域的样本,即药品量为切点161以上的样本的集合相当于上述的样本集合all。这里,温度的切点163的熵设为与药品量的切点相比较小。另外,切点163的增益设为与阈值相比较大。于是,对温度追加切点163。由此,区域166-1外的区域被分割为温度为切点163以上的区域166-2、和温度不足切点163的区域166-3。
图10是示出多个说明变量的离散化例的图(接续)。
接下来,着眼于区域166-3,使用属于区域166-3的样本,针对药品量探索熵最小的切点,针对温度探索熵最小的切点。属于区域166-3的样本的集合相当于上述的样本集合all。这里,温度的切点164的熵设为与药品量的切点相比较小。另外,切点164的增益设为与阈值相比较大。于是,对温度追加切点164。由此,区域166-3被分割为温度为切点164以上的区域166-6、和温度不足切点164的区域。
接下来,着眼于区域166-2,使用属于区域166-2的样本,针对药品量探索熵最小的切点,针对温度探索熵最小的切点。属于区域166-2的样本的集合相当于上述的样本集合all。这里,药品量的切点162的熵设为与温度的切点相比较小。另外,切点162的增益设为与阈值相比较大。于是,对药品量追加切点162。由此,区域166-2被分割为药品量不足切点162的区域166-4、和药品量为切点162以上的区域166-5。
相同地,区域166-3中的区域166-6外的区域被切点162分割为区域166-7和区域166-8。在区域166-4、166-8中,由于目标变量的值为“1”的样本占大部分,因此不采用任何切点。因此,对区域166-4、166-8不进行进一步的分割判定。另外,在区域166-5、166-6、166-7中,由于目标变量的值为“0”的样本占大部分,因此不采用任何切点。因此,对区域166-5、166-6、166-7不进行进一步的分割判定。
由此,离散化结束。通过离散化,对药品量设定切点161、162,对温度设定切点163、164。药品量的值的范围被切点161、162分割为三个区间,温度的值的范围被切点163、164分割为三个区间。其结果是,例如,如图4所示,向训练数据追加6个说明变量。
接下来,对机器学习装置100的功能以及处理过程进行说明。
图11是示出机器学习装置的功能例的框图。
机器学习装置100具有训练数据存储部121、模型存储部122、前处理部123以及机器学习部124。例如使用RAM102或者HDD103的存储区域来实现训练数据存储部121以及模型存储部122。例如使用程序来实现前处理部123以及机器学习部124。
训练数据存储部121存储训练数据表131。模型存储部122存储通过Wide Learning学习后的模型。模型包含分别示出将一个以上的说明变量的值与目标变量的值建立对应的假说的多个组块。对多个组块分别赋予重要度。
前处理部123对存储于训练数据存储部121的训练数据表131所示的训练数据进行前处理,生成示出前处理后的训练数据的训练数据表132。前处理部123将训练数据表132提供至机器学习部124。在前处理中包含说明变量的值的离散化。前处理部123包含单变量离散化部125、变量选择部126以及多变量离散化部127。
单变量离散化部125对训练数据中包含的多个说明变量分别进行基于熵的离散化作为临时的前处理。单变量离散化部125例如对训练数据追加示出某原始的说明变量的值是否属于特定的区间的辅助性的标志型的说明变量。单变量离散化部125将进行了每个说明变量的离散化的训练数据提供至机器学习部124。但是,也可以不进行临时的前处理而将原始的训练数据提供至机器学习部124。
变量选择部126从机器学习部124获取基于进行了临时的前处理的训练数据学习后的临时的模型。临时的模型包含分别赋予了重要度的多个组块。各组块包含在假说中使用的说明变量的组合。变量选择部126对从机器学习部124获取的临时的模型进行分析,生成列举了在与目标变量的关系上重要的可能性较高的说明变量的组的对象变量表137。
多变量离散化部127参照变量选择部126生成的对象变量表137,对至少一部分的说明变量进行基于熵的离散化作为前处理。成为离散化的对象的训练数据是存储于训练数据存储部121的原始的训练数据,即进行临时的前处理前的训练数据。
多变量离散化部127针对在对象变量表137中列举的每个说明变量的组,进行分割由该说明变量的组形成的多维空间的分割处理。多变量离散化部127经过分割处理,对该说明变量的组中包含的两个以上的说明变量分别设定一个以上的切点,通过切点将各说明变量的值的范围分割为两个以上的区间。多变量离散化部127例如对训练数据追加示出某原始的说明变量的值是否属于特定的区间的辅助性的标志型的说明变量。多变量离散化部127将进行了组合了多个说明变量的离散化的训练数据提供至机器学习部124。
机器学习部124使用从前处理部123获取的训练数据来执行Wide Learning,将学习后的模型存储于模型存储部122。机器学习部124既可以进一步将学习的模型显示于显示装置111,也可以发送至其他的信息处理装置。这里,机器学习部124从前处理部123获取进行了临时的前处理的训练数据或者未进行前处理的训练数据,将针对该训练数据的WideLearning的学习结果作为临时的学习结果提供至前处理部123。之后,机器学习部124从前处理部123获取进行了正规的前处理的训练数据,生成针对该训练数据的正规的学习结果。
图12是示出机器学习的过程示例的流程图。
(S10)前处理部123从训练数据存储部121获取训练数据。
(S11)单变量离散化部125对步骤S10的训练数据进行单变量离散化作为前处理。单变量离散化的详细内容后述。
(S12)机器学习部124使用进行了步骤S11的前处理的训练数据执行WideLearning。Wide Learning的详细内容后述。
(S13)变量选择部126获取通过步骤S12的Wide Learning学习后的模型。变量选择部126对学习后的模型进行分析,选择成为离散化对象的重要的说明变量的组。变量选择的详细内容后述。
(S14)多变量离散化部127对步骤S10的训练数据进行多变量离散化作为前处理。多变量离散化对在步骤S13中选择出的说明变量的组进行。多变量离散化的详细内容后述。
(S15)机器学习部124使用进行了步骤S14的前处理的训练数据,执行与步骤S12相同的Wide Learning。
(S16)机器学习部124输出通过步骤S15的Wide Learning学习后的模型。例如,机器学习部124将学习后的模型储存于模型存储部122。另外,例如,机器学习部124将学习后的模型中包含的组块显示于显示装置111。另外,例如,机器学习部124将学习后的模型发送至其他的信息处理装置。
图13是示出单变量离散化的过程示例的流程图。
单变量离散化在上述的步骤S11中执行。
(S20)单变量离散化部125选择一个训练数据中的说明变量。这里选择的说明变量是整数型、实数型等可取的值的个数较多的“连续值”型的说明变量。可取的值的个数较少的说明变量可以不设为以下的处理的对象。
(S21)单变量离散化部125从训练数据中包含的多个样本分别提取步骤S20的说明变量的值,将说明变量的值按升序排序。
(S22)单变量离散化部125选择在步骤S21中排序的说明变量的最小值至最大值的范围中的一个还未进行以下的步骤S23~S26的判定的区间。首先,将最小值至最大值的范围整体视为一个区间。在该范围被分割的情况下,分割后的区间成为选择对象。
(S23)单变量离散化部125在步骤S22中选择出的区间中检测数学公式(5)的熵最小的切点。
(S24)单变量离散化部125针对在步骤S23中检测到的切点,计算数学公式(7)的增益以及数学公式(9)的阈值。
(S25)单变量离散化部125判断在步骤S24中计算出的增益是否超过在步骤S24中计算出的阈值。在增益超过阈值的情况下进入步骤S26,在增益为阈值以下的情况下进入步骤S27。
(S26)单变量离散化部125采用在步骤S23中检测到的切点,将在步骤S22中选择出的区间分割为两个。此外,在增益为阈值以下的情况下不采用切点,步骤S22的区间不进一步分割。
(S27)单变量离散化部125判断是否对全部的区间进行了步骤S23~S26的判定。在对全部的区间进行了判定的情况下进入步骤S28,在存在未判定的区间的情况下返回步骤S22。
(S28)单变量离散化部125确定从在步骤S20中选择出的说明变量的值的范围分割出的区间。然后,单变量离散化部125对训练数据追加示出说明变量的值是否属于各区间的新的说明变量。
(S29)单变量离散化部125判断是否对最初的训练数据中包含的原始的说明变量全部进行了选择。在选择了全部的说明变量的情况下单变量离散化结束,在存在未选择的说明变量的情况下返回步骤S20。
图14是示出Wide Learning的过程示例的流程图。
Wide Learning在上述的步骤S12、S15中执行。
(S30)机器学习部124从训练数据提取多个说明变量以及目标变量,列举说明变量以及目标变量分别可取的值。
(S31)机器学习部124从在步骤S30中提取出的多个说明变量中选择规定个以下的说明变量。规定个数预先决定为三个。机器学习部124从选择出的一个以上的说明变量分别选择一个值,从目标变量选择一个值。机器学习部124生成示出若满足选择出的一个以上的说明变量的值的组合则满足选择出的目标变量的值这一假说的组块。
(S32)机器学习部124从训练数据中包含的多个样本中检索说明变量的值与在步骤S31中生成的组块匹配的样本。
(S33)机器学习部124计算在步骤S32中检索到的样本中的目标变量的值与步骤S31的组块匹配的样本的个数作为命中数。另外,机器学习部124对在步骤S32中检索到的样本的个数进行计数,计算命中数相对于该个数的比例作为命中率。
(S34)机器学习部124判断是否在步骤S33中计算出的命中数为规定的阈值以上,并且在步骤S33中计算出的命中率为规定的阈值以上。命中数的阈值预先决定为10个等,命中率的阈值预先决定为80%等。在满足条件的情况下进入步骤S35,在不满足条件的情况下进入步骤S36。此外,也可以仅对命中数与命中率的任意一方进行判定。
(S35)机器学习部124采用在步骤S31中生成的组块作为示出有效的假说的有效的组块。
(S36)机器学习部124判断是否对说明变量的值以及目标变量的值的组合全部进行了选择。在选择了全部的组合的情况下进入步骤S37,在存在未选择的组合的情况下返回步骤S31。
(S37)机器学习部124对训练数据中包含的多个样本分别确定有效的多个组块中的与该样本相应的组块。相应的组块是说明变量的值匹配的组块。
(S38)机器学习部124通过数学公式(1)、(2)的逻辑回归分析计算对各组块应用的权重。机器学习部124采用通过逻辑回归分析计算出的权重作为各组块的重要度。
(S39)机器学习部124将有效的多个组块按重要度的降序排序。机器学习部124对组块附加重要度并输出。
接下来,对变量选择的两种方法进行说明。
图15是示出变量选择的过程示例的流程图。
该变量选择可在上述的步骤S13中执行。
(S40)变量选择部126从重要度较高的一方选择一个组块。这里选择的组块是使用了两个以上的说明变量的组块。说明变量仅为一个的组块可以不设为以下的处理的对象。
(S41)变量选择部126从组块提取在假说的假定部分出现的说明变量的组。关于说明变量的值可以忽略。
(S42)变量选择部126判断在步骤S41中提取出的说明变量的组是否已出现过。在相同的说明变量的组已出现过的情况下进入步骤S44,在除此以外的情况下进入步骤S43。
(S43)变量选择部126对在步骤S41中提取出的说明变量的组与在步骤S40中选择出的组块的重要度建立对应。
(S44)变量选择部126判断是否对学习后的模型中包含的全部的组块进行了选择。在选择了全部的组块的情况下进入步骤S45,在存在未选择的组块的情况下返回步骤S40。
(S45)变量选择部126从重要度较高的一方选择一个说明变量的组。
(S46)变量选择部126判断在步骤S45中选择出的说明变量的组中是否包含作为离散化对象已经采用过的说明变量。在包含已经采用过的说明变量的情况下进入步骤S48,在除此以外的情况下进入步骤S47。
(S47)变量选择部126采用在步骤S45中选择出的说明变量的组作为用于多变量离散化的离散化对象。
(S48)变量选择部126判断是否对在步骤S40~S43中提取出的说明变量的组全部进行了选择。在选择了全部的说明变量的组的情况下进入步骤S49,在存在未选择的说明变量的组的情况下返回步骤S45。
(S49)变量选择部126示出列举了在步骤S47中采用为离散化对象的说明变量的组的列表,并输出该列表。
图16是示出变量选择的其他的过程示例的流程图。
该变量选择可在上述的步骤S13中执行。在步骤S13中执行图15的过程与图16的过程的任意一方。
(S50)变量选择部126从学习后的模型中包含的多个组块分别提取在假说的假定部分出现的说明变量的组。
(S51)变量选择部126对在步骤S50中提取出的说明变量的组按相同的组彼此进行归纳,并针对每个说明变量的组对出现次数进行计数。
(S52)变量选择部126将说明变量的组按出现次数的降序排序。
(S53)变量选择部126从出现次数较多的一方选择一个说明变量的组。
(S54)变量选择部126判断在步骤S53中选择出的说明变量的组中是否包含作为离散化对象已经采用过的说明变量。在包含已经采用过的说明变量的情况下进入步骤S56,在除此以外的情况下进入步骤S55。
(S55)变量选择部126采用在步骤S53中选择出的说明变量的组作为用于多变量离散化的离散化对象。
(S56)变量选择部126判断是否对在步骤S50~S52中提取出的说明变量的组全部进行了选择。在选择了全部的说明变量的组的情况下进入步骤S57,在存在未选择的说明变量的组的情况下返回步骤S53。
(S57)变量选择部126生成列举了在步骤S55中采用为离散化对象的说明变量的组的列表,并输出该列表。
在图15以及图16所示的处理中,关于组块的选择顺序,以重要度从高到低的顺序(图15)或者出现次数从多到少的顺序(图16)选择组块。但是,作为其他的方式,例如,也可以基于组块的命中数、命中率,按命中数、命中率从高到低的顺序选择组块,执行变量选择。
关于在第二实施方式中进行了说明的离散化(前处理),进行了相对于比较例的效果的验证。验证的条件如下。此外,在下面的说明中,存在将在第二实施方式中进行了说明的离散化记载为建议的方法的情况。
·使用abalone(https://archive.ics.uci.edu/ml/datasets/Abalone)、wine(https://archive.ics.uci.edu/ml/datasets/wine)这两种作为验证用的数据集。
·作为机器学习算法,使用随机森林(RF)、和在第二实施方式中进行了说明的Wide Learning(WL)这两种。
·将数据集的80%作为训练用的数据集利用,将剩余的20%作为标签推断的精度评价用的数据集利用。
·也在离散化处理中的切点的决定中利用训练用的数据集。
·将训练用的数据集中的75%作为切点的决定中的学习用的数据集利用,将剩余的25%作为切点的决定中的评价用的数据集利用。此外,切点的决定中的评价用的数据集在比较例的情况下,被利用于切点的最佳化处理。
·首先,使用训练用的数据集(数据集的80%)执行切点的决定。接下来,设为执行基于决定的切点的离散化处理来执行学习和判定,计算判定精度。
此外,abalone是将鲍鱼的性别、各种尺寸以及年龄建立对应的数据集。在本验证中,实施判定鲍鱼的年龄是否为10岁以上的判定。abalone的数据集的件数在进行本验证的时刻为正例2081件、负例2096件、共计4177件。
另外,wine是将红酒的度数、甜度等示出红酒的状态的数据项目与红酒的结算金额建立对应的数据集。在本验证中,实施判定红酒的结算金额是否比规定金额高的判定。wine的数据集的件数在进行本验证的时刻为正例855件、负例744件、共计1599件。
图17是示出效果验证的结果的图。
验证结果表171示出效果验证的结果。在图17中,cut、qcut、mdlp以及mmdlpAll示出比较例的判定精度。另外,count_max以及weight(abs)_max示出建议的方法的判定精度。
cut是指将说明变量的值的范围等间隔地分割的方法。qcut是指将说明变量的值的范围等频度地分割的方法。mdlp是指以单一的说明变量进行熵基离散化的方法。mmdlpAll是指针对多个说明变量的组合进行熵基离散化的方法。
count_max是指使用图16进行了说明的建议的方法。weight(abs)_max是指使用图15进行了说明的建议的方法。
图17所示的判定精度示出相对于对评价用的数据集的判定处理的全部尝试而言,判定成功的比率。在判定精度所示的数值为1的情况下,是指全部尝试为正确,数值越大则表示判定精度越高。
RF是指使用随机森林的情况的判定精度。WL是指使用Wide Learning的情况的判定精度。
若参照图17,则可知实施了基于建议的方法的前处理的情况的判定精度高于基于作为比较例实施的任意方法的精度。另外,在作为机器学习算法利用了随机森林的情况下,实施了基于建议的方法的前处理的情况的判定精度高于绝大多数的比较例的精度。因此,可知基于建议的方法的前处理的有效性并不限定于机器学习算法为Wide Learning的情况。
图18是示出多变量离散化的过程示例的流程图。
多变量离散化在上述的步骤S14中执行。
(S60)多变量离散化部127选择由变量选择部126采用为离散化对象的说明变量的组中的一个说明变量的组。
(S61)多变量离散化部127从训练数据中包含的多个样本分别提取构成在步骤S60中选择出的说明变量的组的说明变量的值。多变量离散化部127对每个说明变量将其值按升序排序。
(S62)多变量离散化部127对每个说明变量确定在步骤S61中排序的最小值至最大值的范围,确定由在步骤S60中选择出的说明变量的组形成的多维空间。多变量离散化部127选择多维空间中的一个还未进行以下的步骤S63~S67的判定的区域。首先,将由说明变量的组形成的多维空间整体视为一个区域。在多维空间被分割的情况下,分割后的区域成为选择对象。
(S63)多变量离散化部127确定每个说明变量的区间作为在步骤S62中选择出的区域的范围。多变量离散化部127对每个说明变量检测在该区间中数学公式(5)的熵最小的切点。
(S64)多变量离散化部127选择在步骤S63中检测到的每个说明变量的切点中的数学公式(5)的熵最小的切点。另外,多变量离散化部127选择该切点所属的说明变量。
(S65)多变量离散化部127针对在步骤S64中选择出的切点计算数学公式(7)的增益以及数学公式(9)的阈值。
(S66)多变量离散化部127判断在步骤S65中计算出的增益是否超过在步骤S65中计算出的阈值。在增益超过阈值的情况下进入步骤S67,在增益为阈值以下的情况下进入步骤S68。
(S67)多变量离散化部127采用在步骤S64中选择出的切点,将在步骤S62中选择出的区域分割为两个。此外,在增益为阈值以下的情况下,不采用切点,步骤S62的区域不进一步分割。
(S68)多变量离散化部127判断是否对全部的区域进行了步骤S63~S67的判定。在对全部的区域进行了判定的情况下进入步骤S69,在存在未判定的区域的情况下返回步骤S62。
(S69)多变量离散化部127对每个说明变量确定分割后的区间。多变量离散化部127对训练数据追加针对每个说明变量示出该说明变量的值是否属于各区间的新的说明变量。
(S70)多变量离散化部127判断是否对最初的训练数据中包含的原始的说明变量全部进行了选择。在选择了全部的说明变量的情况下多变量离散化结束,在存在未选择的说明变量的情况下返回步骤S60。
根据第二实施方式的机器学习装置100,对简易地进行了前处理的训练数据或者未进行前处理的训练数据执行临时的机器学习。对通过临时的机器学习而学习后的模型进行分析,判断与目标变量的相关性较强的重要的说明变量的组。然后,限定为重要的说明变量的组,进行检测切点并设定说明变量的值的区间的离散化作为前处理,对进行了该前处理的训练数据执行机器学习。
在使用Wide Learning作为机器学习算法的情况下,能够生成示出对人而言容易理解的假说的模型,容易确认模型的预测结果的根据,容易接受预测结果。另外,由于作为前处理进行说明变量的离散化,因此与不进行离散化的情况相比抑制过度学习,能够学习通用性较高的模型。另外,由于进行基于熵的离散化,因此考虑到目标变量的值的分布来设定说明变量的值的区间。因此,容易检测目标变量的值变化的边界,学习后的模型的精度提高。
另外,由于组合两个以上的说明变量进行离散化,因此在多维空间上考虑目标变量的值的分布。因此,与对每个说明变量进行离散化的情况相比,能够减少遗漏重要的切点的风险。另外,由于限定为重要的说明变量的组地进行离散化,因此与对各种说明变量的组穷举地进行离散化的情况相比,能够减少前处理、机器学习的负荷。另外,能够抑制说明变量的值的范围被过度地细分化,能够抑制过度学习并提高模型精度。另外,由于基于临时的机器学习的学习结果选择说明变量的组,因此能够减少遗漏对模型精度造成影响的重要的切点的风险。
关于上述内容,仅示出本发明的原理。对本领域技术人员来说能够进一步地进行多种变形、变更,本发明不限定于上述所示和说明的准确的结构以及应用例,对应的全部的变形例以及等效物视为基于附加的权利要求及其等效物的本发明的范围。
附图标记说明
10机器学习装置;11存储部;12处理部;13、14学习数据集合;13a、13b数据项目;13c标签信息;15模型;16特征信息集合;17指标值集合。
Claims (8)
1.一种机器学习程序,使计算机执行以下处理:
对于分别是将标签信息与多个数据项目的数据项目值的组合建立关联的数据的多个学习数据,对每个数据项目将上述数据项目值转换为基于规定的基准离散化后的离散化数据值;
使用转换后的上述多个学习数据执行学习处理,上述学习处理是学习将上述多个数据项目的上述离散化数据值作为输入进行关于上述标签信息的判定的模型的处理;
从上述学习处理的执行结果获取不同的多个特征信息和指标值,上述不同的多个特征信息分别示出上述多个数据项目中的用于上述判定的两个以上的数据项目的组合,上述指标值示出上述多个特征信息各自的重要性;
基于上述指标值选择上述多个特征信息中的一个以上的特征信息,基于选择出的上述一个以上的特征信息来变更用于上述数据项目值的离散化的基准。
2.根据权利要求1所述的机器学习程序,其中,
一个数据项目的上述数据项目值的离散化包含将上述一个数据项目可取的上述数据项目值的范围分割为两个以上的区间,
在用于离散化的基准的变更中,对选择出的一个特征信息所示的上述两个以上的数据项目的组合计算上述数据项目值的多维分布,基于计算出的上述多维分布来变更上述两个以上的数据项目各自的上述两个以上的区间。
3.根据权利要求2所述的机器学习程序,其中,
在上述两个以上的区间的变更中,根据上述标签信息为相同的学习数据的密度将上述多维分布分割为多个区域,基于上述多个区域之间的边界来决定对上述两个以上的数据项目各自可取的上述数据项目值的范围的分割点。
4.根据权利要求1所述的机器学习程序,其中,
上述模型包含:多个判定规则,分别将上述多个数据项目中的一部分的数据项目满足的上述离散化数据值的条件与上述标签信息的推断值建立对应;和上述指标值,示出上述多个判定规则各自的重要性,
通过从上述模型中包含的上述多个判定规则提取在上述条件中使用的上述一部分的数据项目来获取上述多个特征信息。
5.根据权利要求1所述的机器学习程序,其中,
在用于离散化的基准的变更中,选择上述一个以上的特征信息,使得在上述一个以上的特征信息中包含相同的数据项目的特征信息的个数为阈值以下。
6.根据权利要求1所述的机器学习程序,其中,使上述计算机进一步执行以下处理:
对每个数据项目将上述数据项目值转换为基于上述变更后的基准离散化后的其他的离散化数据值,使用重新转换后的上述多个学习数据执行上述学习处理,并输出学习后的上述模型。
7.一种机器学习方法,计算机进行以下处理:
对于分别是将标签信息与多个数据项目的数据项目值的组合建立关联的数据的多个学习数据,对每个数据项目将上述数据项目值转换为基于规定的基准离散化后的离散化数据值;
使用转换后的上述多个学习数据执行学习处理,上述学习处理是学习将上述多个数据项目的上述离散化数据值作为输入进行关于上述标签信息的判定的模型的处理;
从上述学习处理的执行结果获取不同的多个特征信息和指标值,上述不同的多个特征信息分别示出上述多个数据项目中的用于上述判定的两个以上的数据项目的组合,上述指标值示出上述多个特征信息各自的重要性的指标值;
基于上述指标值选择上述多个特征信息中的一个以上的特征信息,基于选择出的上述一个以上的特征信息来变更用于上述数据项目值的离散化的基准。
8.一种机器学习装置,具有:
存储部,存储多个学习数据,该多个学习数据分别是将标签信息与多个数据项目的数据项目值的组合建立关联的数据;以及
处理部,对于上述多个学习数据,对每个数据项目将上述数据项目值转换为基于规定的基准离散化后的离散化数据值,使用转换后的上述多个学习数据执行学习将上述多个数据项目的上述离散化数据值作为输入进行作为关于上述标签信息的判定的模型的学习处理,从上述学习处理的执行结果获取分别示出上述多个数据项目中的用于上述判定的两个以上的数据项目的组合的不同的多个特征信息、和示出上述多个特征信息各自的重要性的指标值,基于上述指标值选择上述多个特征信息中的一个以上的特征信息,基于选择出的上述一个以上的特征信息来变更用于上述数据项目值的离散化的基准。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2019/040906 WO2021075029A1 (ja) | 2019-10-17 | 2019-10-17 | 機械学習プログラム、機械学習方法および機械学習装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114556380A true CN114556380A (zh) | 2022-05-27 |
Family
ID=75537764
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201980101036.XA Pending CN114556380A (zh) | 2019-10-17 | 2019-10-17 | 机器学习程序、机器学习方法以及机器学习装置 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20220207302A1 (zh) |
EP (1) | EP4047531A4 (zh) |
JP (1) | JP7421136B2 (zh) |
CN (1) | CN114556380A (zh) |
WO (1) | WO2021075029A1 (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11681610B2 (en) * | 2020-05-13 | 2023-06-20 | Data-Core Systems, Inc. | Synthesizing data based on topic modeling for training and testing machine learning systems |
JP2024125909A (ja) * | 2023-03-06 | 2024-09-19 | 横河電機株式会社 | 情報提供装置、情報提供方法及び情報提供プログラム |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6422512B2 (ja) * | 2015-01-29 | 2018-11-14 | 株式会社日立製作所 | 計算機システム及びグラフィカルモデルの管理方法 |
CN113610239B (zh) * | 2016-09-27 | 2024-04-12 | 第四范式(北京)技术有限公司 | 针对机器学习的特征处理方法及特征处理系统 |
JP6974712B2 (ja) * | 2017-10-24 | 2021-12-01 | 富士通株式会社 | 探索方法、探索装置および探索プログラム |
US20190133480A1 (en) * | 2017-11-08 | 2019-05-09 | Koninklijke Philips N.V. | Discretized embeddings of physiological waveforms |
CN108444708B (zh) * | 2018-04-16 | 2021-02-12 | 长安大学 | 基于卷积神经网络的滚动轴承智能诊断模型的建立方法 |
CN110297469B (zh) * | 2019-05-17 | 2022-02-18 | 同济大学 | 基于重采样的集成特征选择算法的生产线故障判断方法 |
-
2019
- 2019-10-17 JP JP2021552063A patent/JP7421136B2/ja active Active
- 2019-10-17 EP EP19949449.3A patent/EP4047531A4/en active Pending
- 2019-10-17 CN CN201980101036.XA patent/CN114556380A/zh active Pending
- 2019-10-17 WO PCT/JP2019/040906 patent/WO2021075029A1/ja unknown
-
2022
- 2022-03-17 US US17/697,670 patent/US20220207302A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
JPWO2021075029A1 (zh) | 2021-04-22 |
EP4047531A1 (en) | 2022-08-24 |
WO2021075029A1 (ja) | 2021-04-22 |
JP7421136B2 (ja) | 2024-01-24 |
US20220207302A1 (en) | 2022-06-30 |
EP4047531A4 (en) | 2022-10-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Chen et al. | PME: projected metric embedding on heterogeneous networks for link prediction | |
Wei et al. | Generalized linear rule models | |
US20180082215A1 (en) | Information processing apparatus and information processing method | |
US8015129B2 (en) | Parsimonious multi-resolution value-item lists | |
JP7267964B2 (ja) | 生成装置、生成方法および生成プログラム | |
CN106780552B (zh) | 基于局部区域联合跟踪检测学习的抗遮挡目标跟踪方法 | |
Kececioglu et al. | Accuracy estimation and parameter advising for protein multiple sequence alignment | |
US20220207302A1 (en) | Machine learning method and machine learning apparatus | |
CN113591879A (zh) | 基于自监督学习的深度多视图聚类方法、网络、装置及存储介质 | |
WO2024036709A1 (zh) | 一种异常数据检测方法及装置 | |
EP3929928A1 (en) | Associating pedigree scores and similarity scores for plant feature prediction | |
Seo et al. | CBFS: High performance feature selection algorithm based on feature clearness | |
Zhang et al. | A multi-label learning based kernel automatic recommendation method for support vector machine | |
Kurban et al. | Using data to build a better EM: EM* for big data | |
Chen et al. | Approximating median absolute deviation with bounded error | |
JP2005322161A (ja) | 選択装置、選択方法、プログラム、及び記録媒体 | |
Liang et al. | A sequential three-way classification model based on risk preference and decision correction | |
US11048730B2 (en) | Data clustering apparatus and method based on range query using CF tree | |
CN111582313A (zh) | 样本数据生成方法、装置及电子设备 | |
CN110837853A (zh) | 一种快速分类模型构建方法 | |
CN115185920A (zh) | 一种日志类型的检测方法、装置及设备 | |
CN115081716A (zh) | 一种企业违约风险的预测方法、计算机设备及存储介质 | |
Zhang et al. | An incremental anomaly detection model for virtual machines | |
WO2024189865A1 (ja) | 出力プログラム、出力方法および情報処理装置 | |
Ingram et al. | Glint: An MDS Framework for Costly Distance Functions. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |