CN114175053A

CN114175053A - 转换装置、转换方法、程序以及信息记录介质

Info

Publication number: CN114175053A
Application number: CN202080053229.5A
Authority: CN
Inventors: 山本阳一朗
Original assignee: RIKEN
Current assignee: RIKEN
Priority date: 2019-07-25
Filing date: 2020-07-10
Publication date: 2022-03-11
Also published as: JP6856950B2; JP2021022031A; WO2021015016A1; EP4006789A1; EP4006789A4; US20220261641A1

Abstract

转换装置(1001)通过转换模型(1101)将给予的输入向量转换为特征向量。在这里，为了学习转换模型(1101)，分割部(1002)将多个训练向量随机地分割为多个组。另一方面，第一分类部(1003)通过第一分类模型(1201)，将通过转换模型(1101)从多个训练向量分别转换而成的特征向量分类到多个组中的任意一个组。并且，第一学习部(1004)通过由多个训练向量以及分别分割多个训练向量而成的组构成的第一教师数据，学习转换模型(1101)和第一分类模型(1201)。

Description

转换装置、转换方法、程序以及信息记录介质

技术领域

本发明涉及适合学习将给予的向量转换为特征向量的转换模型的转换装置、转换方法、程序以及信息记录介质。

背景技术

以往，提出了将给予的输入向量转换为特征向量的技术。

例如，专利文献1所公开的网络学习装置为了不使用大量的监督数据而稳定地学习网络，

学习将输入信号转换为第一信号的第一网络，

学习将第一信号转换为第二信号的第二网络，

学习将第二信号转换为输出信号的第三网络，

学习第一网络作为第一自动编码器的编码部分，该第一自动编码器的编码部分将训练用输入信号编码为训练用第一信号并解码为训练用输入信号，

将与训练用第一信号对应的训练用第二信号作为教师数据通过反向传播学习第二网络，

通过第二自动编码器的编码部分生成训练用第二信号，该第二自动编码器的编码部分将训练用第三信号编码为训练用第二信号并解码为训练用第三信号。

在专利文献1所公开的技术中，第一网络将由输入信号构成的输入向量转换为由第一信号构成的特征向量。

专利文献1：日本特开2018-156451号公报

在上述技术中，在网络的学习中利用了教师数据。即，教师数据的训练向量属于预先准备的多个类中的任意一个类，各训练向量附带有表示针对该训练向量的正确答案的标签。即，该标签能够认为是该训练向量所属的类所附带的识别名。

然而，也可能存在不存在这样的标签，而仅存在成为样本的训练向量的状况。在这样的状况下，需要所谓的无监督学习。

因此，期望用于学习用于在没有训练向量属于哪个正确答案类的知识的情况下，将输入向量转换为特征向量的转换模型的技术。

这里得到的特征向量被用作分类、分析等后级处理中的输入，但为了高速并且高精度地推进后级处理的计算，期望特征量的稀疏性较高，即在特征向量中包含值为零的要素的比例较高。

发明内容

本发明用于解决上述的技术问题，其目的在于提供一种适合学习将给予的输入向量转换为特征向量的转换模型的转换装置、转换方法、程序以及信息记录介质。

本发明的转换装置是通过转换模型将给予的输入向量转换为特征向量的转换装置，其中，

将多个训练向量随机地分割为多个组，

通过第一分类模型，将通过上述转换模型从上述多个训练向量分别转换而成的特征向量分类到上述多个组中的任意一个组，

通过第一教师数据学习上述转换模型和上述第一分类模型，上述第一教师数据由上述多个训练向量和分别分割上述多个训练向量而成的组构成。

根据本发明，能够提供适合学习将给予的输入向量转换为特征向量的转换模型的转换装置、转换方法、程序以及信息记录介质。

附图说明

图1是表示本发明的实施方式的转换装置的基本结构的说明图。

图2是表示对本发明的实施方式的转换装置追加了附加要素的结构的说明图。

图3是表示由本发明的实施方式的转换装置的基本结构执行的处理的流程图。

图4是表示由本发明的实施方式的转换装置的进行类分类的结构执行的处理的流程图。

具体实施方式

以下，对本发明的实施方式进行说明。此外，本实施方式用于进行说明，并不限制本发明的范围。因此，若是本领域技术人员，则能够采用将本实施方式的各要素或所有要素置换为与其等同的结构后的实施方式。另外，在各实施例中说明的要素也能够根据用途而适当地省略。这样，根据本发明的原理构成的实施方式均被包含于本发明的范围。

(结构)

本实施方式的转换装置典型地通过计算机执行程序来实现。该计算机与各种输出装置、输入装置连接，与这些设备收发信息。

由计算机执行的程序除了能够通过可通信地与该计算机连接的服务器分发、销售以外，也可以在记录于CD-ROM(Compact Disk Read Only Memory：光盘只读存储器)、闪存、EEPROM(Electrically Erasable Programmable ROM：电可擦除可编程ROM)等非暂时性(non-transitory)的信息记录介质后，分发、销售该信息记录介质等。

程序安装于计算机所具有的硬盘、固态驱动器、闪存、EEPROM等非暂时性的信息记录介质。于是，通过该计算机，实现本实施方式中的信息处理装置。一般而言，计算机的CPU(Central Processing Unit：中央处理器)在计算机的OS(Operating System：操作系统)的管理下，在从信息记录介质向RAM(Random Access Memory：随机存取存储器)读出程序后，解释、执行该程序所包含的代码。但是，在能够将信息记录介质映射到CPU可访问的存储器空间内的体系结构中，也存在不需要向RAM的显式的程序的加载的情况。此外，在程序的执行过程中所需的各种信息能够预先暂时(temporary)记录于RAM内。

并且，如上述那样，计算机具备GPU(Graphics Processing Unit：图形处理单元)，优选具备用于高速地进行各种图像处理计算的GPU。通过使用GPU以及Tensor Flow等库，能够在CPU的控制下，利用各种人工智能处理中的学习功能、分类功能。

此外，也能够不是通过通用的计算机来实现本实施方式的信息处理装置，而使用专用的电子电路来构成本实施方式的信息处理装置。在该方式中，也能够将程序作为用于生成电子电路的布线图、时序图等的素材来利用。在这样的方式中，满足由程序规定的规格的电子电路由FPGA(Field Programmable Gate Array：现场可编程门阵列)、ASIC(Application Specific Integrated Circuit：专用集成电路)构成，该电子电路作为负担由该程序规定的功能的专用设备发挥作用，来实现本实施方式的信息处理装置。

以下，为了容易理解，假设通过计算机执行程序来实现转换装置的方式，对转换装置进行说明。

(转换装置的基本结构)

图1是表示本发明的实施方式的转换装置的基本结构的说明图。图2是表示对本发明的实施方式的转换装置追加了附加要素的结构的说明图。以下，参照这些图对概要进行说明。

如图1、图2所示，转换装置1001具备分割部1002、第一分类部1003、第一学习部1004。

另外，对图1、图2对比可知，作为可省略的结构所涉及的要素，转换装置1001能够具备第二分类部1005、第二学习部1006。

如该图所示，转换装置1001通过转换模型1101将输入给予的输入向量转换为特征向量。

对于转换装置1001所使用的转换模型1101，需要预先进行学习。图3是表示由本发明的实施方式的转换装置的基本结构执行的处理的流程图。图4是表示由本发明的实施方式的转换装置的进行类分类的结构执行的处理的流程图。以下，参照图3、图4进行说明。

如图3、图4所示，转换装置1001中的处理能够分为转换模型1101的学习阶段(步骤S2001-S2004)、类分类(第二分类模型1202)的学习阶段(步骤S2005-S2006)、类分类的利用阶段(步骤S2007～S2009)这三个阶段，并且能够分别独立地执行。在这里，转换模型1101的学习阶段由图1、图2双方执行，但在图1中省略类分类(第二分类模型1202)的学习阶段以及类分类的利用阶段(步骤S2009)。

首先，在转换模型1101的学习中，转换装置1001接受多个训练向量v₁、v₂、…、v_N作为输入向量的典型例(步骤S2001)。此外，作为可省略的方式，如图2、图4所示，也能够从多个类C₁、C₂、…、C_L中一并接受多个训练向量v₁、v₂、…、v_N分别应属于的正确答案类C_c(1)、C_c(2)、…、C_c(N)的类标签c(1)、c(2)、…、c(N)。另一方面，在图1、图3的基本结构中，不要类标签的接受。

接着，转换装置1001的分割部1002将多个训练向量v₁、v₂、…、v_N随机地分割为多个组G₁、G₂、…、G_M(步骤S2002)。该分割能够通过对训练向量v₁、v₂、…、v_N中的每个训练向量赋予相当于分割目的地的组的下标的随机标签(组标签)g(1)、g(2)、…、g(N)来表现。组的数量M为2以上的任意数。

以下，为了容易理解，设为对于整数i＝1,2,…,N中的每个数，训练向量v_i被分类到组G_g(i)(对训练向量v_i附带随机标签g(i))。即，以下的关系成立。

v₁∈G_g(1),v₂∈G_g(2),…,v_N∈G_g(N)

另外，在可省略的结构中，设为训练向量v_i属于类C_c(i)(对训练向量v_i附带正确答案标签c(i))。即，以下的关系成立。

v₁∈C_c(1),v₂∈C_c(2),…,v_N∈C_c(N)

转换装置1001通过转换模型1101将给予的输入向量x转换为特征向量p(x)。作为转换模型1101，除了CNN(Convolutional Neural Network：卷积神经网络)以外，也能够采用不使用卷积的任意的神经网络等各种模型。

那么，第一分类部1003通过第一分类模型1201，将从被给予给转换装置1001的输入向量x转换成的特征向量p(x)分类到多个组G₁、G₂、…、G_M中的任意一个组。实际上，第一分类部1003对于给予的特征向量p(x)，输出应分类有该特征向量p(x)的组的下标(标签)。作为第一分类模型，除了一般的逻辑回归以外，也能够采用岭回归、套索回归、SVM(SupportVector Machine：支持向量机)、随机森林、神经网络等。

然后，转换装置1001中的第一学习部1004生成由多个训练向量和分别分割多个训练向量而成的组构成的第一教师数据(步骤S2003)：

(v₁,g(1))、

(v₂,g(2))、

…、

(v_N,g(N))。

第一教师数据将各训练向量与随机标签(组标签)建立对应关系。

然后，转换装置1001中的第一学习部1004通过该第一教师数据学习转换装置1001中的转换模型1101以及第一分类部1003中的第一分类模型1201(步骤S2004)。

像这样，进行转换装置1001中的转换模型1101的学习。之后，若对转换装置1001给予输入向量x，则转换装置1001输出特征向量p(x)。

如上述那样，以下是在图1中被省略的结构。因此，适当地参照图2进行说明。即，在该结构下，多个训练向量v₁、v₂、…、v_N分别属于多个类C₁、C₂、…、C_L中的任意一个类。

以下，对针对被给予给转换装置1001的输入向量输出该输入向量应属于的类的类分类的学习阶段进行说明。

在这里，第二分类部1005通过第二分类模型1202，将从被给予给转换装置1001的输入向量x转换成的特征向量p(x)分类到多个类C₁、C₂、…、C_L中的任意一个类。实际上，第二分类部1005对于给予的特征向量p(x)，输出应分类有该特征向量p(x)的类的下标(类标签)。作为第二分类模型1202，与第一分类模型1201相同，除了一般的逻辑回归以外，也能够采用岭回归、套索回归、SVM(Support Vector Machine)、随机森林、神经网络等。此外，第一分类模型1201和第二分类模型1202也能够采用相同构造的神经网络。

在这里，转换装置1001的第二学习部1006生成由多个训练向量分别所属的类、以及通过转换装置1001利用由第一学习部1004学习的转换模型1101分别转换多个训练向量而成的特征向量构成的第二教师数据(步骤S2005)：

(p(v₁),c(1))、

(p(v₂),c(2))、

…、

(p(v_N),c(N))。

在步骤S2004中的转换模型1101以及第一分类模型1201的学习中，将训练向量转换为特征向量。因此，由学习完毕的转换模型1101将训练向量v_i(i＝1,2,…,N)转换成的特征向量p(v_i)在步骤S2004中的处理中计算完毕。在这里，将该计算完毕的特征向量p(v_i)和对原始训练向量v_i附带的正确答案标签c(i)作为第二教师数据来利用。

然后，第二学习部1006学习第二分类部1005中的第二分类模型1202(步骤S2006)。

在本实施方式的转换装置1001中，在第二学习部1006中的学习中，更新第二分类模型1202，但不更新转换模型1101的方面具有特征。

此外，作为第二教师数据，也能够采用：

(v₁,c(1))、

(v₂,c(2))、

…、

(v_N,c(N))。

在该情况下，也可以不更新转换装置1001中的学习完毕的转换模型1101，而更新第二分类模型1202。

那么，在学习第二分类模型1202之后，能够移至利用类分类的阶段。即，将新的输入向量y给予给转换装置1001(步骤S2007)，

转换装置1001通过学习的转换模型1101，将新的输入向量y转换为新的特征向量p(y)(步骤S2008)，

第二分类部1005通过学习的第二分类模型1202，通过求出针对新的特征向量p(y)的标签，来分类到多个类C₁、C₂、…、C_L中的任意一个类(步骤S2009)。

即，输入向量y被分类到分类有特征向量p(y)的类。

此外，在本图中，仅执行一次类分类的利用阶段(步骤S2007～S2009)，但能够每当给予输入向量，执行任意的次数。

另外，如图3所示，作为通过步骤S2001-S2004学习转换模型，通过步骤S2007～S2008将输入向量转换为特征向量，能够省略类分类的要素。在该情况下，能够执行任意次数的向特征向量的转换。

根据发明人的实验，可知本实施方式的转换装置1001的分类与在使用以往的自动编码器的分类中，利用如下数据作为教师数据的情况相比，提高了精度以及获得的特征向量的稀疏性。

(v₁,c(1))、

(v₂,c(2))、

…、

(v_N,c(N))

在以往的自动编码器中，产生针对教师数据的过度学习，相对于此，在本实施方式的转换装置1001中，在学习转换模型1101时不参照教师数据，所以认为抑制了过度学习。

以下，对转换模型1101的方式分别进行说明。转换模型1101将输入向量转换为特征向量，压缩信息。因此，一般地，输入向量的维数低于特征向量的维数。

在本转换装置1001中，能够采用与此相同地，通过对输入向量进行降维，来转换为特征向量的转换模型1101。优选特征向量的维数为随机标签的种类数量以上，即组的数量M以上。

另外，在将输入向量分类到类的方式中，期望特征向量的维数为正确答案标签的种类数量以上，即类的数量L以上。

此外，对于随机标签的种类数量M和正确答案标签的种类数量L的大小，根据对象而性能不同。在该情况下，能够预先通过实验求出适当的参数。

此外，分割部1002将训练向量随机地分割到多个组中的每个组的概率可以相互相等，也可以不一致。即，各组所包含的训练向量的数量可以一致，也可以不同。对于这些，能够预先通过实验求出适当的概率分配wo。

另一方面，在本转换装置1001中，可知特征向量的稀疏性良好。因此，也可以通过增大输入向量的维数，来转换为特征向量。即，特征向量的维数多于输入向量的维数。

本实施方式的转换装置1001能够作为置换以往为了获得特征向量而使用的自动编码器的结构来广泛利用。

此外，在自动编码器中，在由前半部分的编码部对输入向量进行降维来获得特征向量后，由后半部分的解码部对该特征向量进行增维来获得输出向量，并进行输入向量与输出向量之差变小的学习。因此，在对通过自动编码器的编码部进行维数压缩的示例应用本实施方式的转换装置1001时，也能够将编码部的滤波器结构保持原样地利用于转换装置1001的转换模型1101。

(转换装置的实验例)

对于分类10种事物的照片的CIFAR-10，进行了比较自动编码器和本实施方式的转换装置1001的实验。

作为输入图像，利用32像素×32像素×RGB 3层的彩色图像，所以输入向量为3072维数。

转换装置1001的滤波器结构如下。

input_img＝Input((x_train.shape[1],x_train.shape[2],x_train.shape[3]))；

x1＝Conv2D(8,(2,2),strides＝(2,2),activation＝'relu',padding＝'same')(input_img)；

encoded＝Flatten()(x1)；

x2＝Reshape((16,16,8),input_shape＝(2048,))(encoded)；

x3＝Conv2D(8,(2,2),strides＝(2,2),activation＝'relu',padding＝'same')(x2)；

x4＝Flatten()(x3)；

last＝Dense(L,activation＝'softmax')(x4)；

在本实验中的转换装置1001中，通过输出层数8、内核尺寸以及步长2×2、激活函数relu、无池化、无丢弃(no dropout)的最简单的CNN，将输入向量压缩成2048维数(encoded)，得到特征向量。即，上述中的直到获得encoded为止，相当于转换模型。

然后，将获得的特征向量二维化(x2)，并经由输出层数8、内核尺寸以及步长2×2、激活函数relu、无池化、无丢弃的最简单的CNN之后(x3)，在完全结合后，采用激活函数softmax，分成L种的组(last)。即，从encoded经由x3、x4到last，相当于第一分类模型1201。

另外，在本实验中，作为第二分类模型1202使用一般的逻辑回归，将2048维数的特征向量分类为10种的类。

以往例的自动编码器的编码器部的滤波器结构与转换装置1001中的转换模型相同，解码部的滤波器结构与此相反。另外，在自动编码器的学习完毕后，为了分类特征向量，进行了逻辑回归的学习。

另外，设为教师数据的数量为5万，在学习完毕后给予的输入数据的数量为1万，调查了特征向量的判定精度、稀疏性以及用于分类特征向量的逻辑回归的学习所需的时间(100次试验平均值)。

于是，在自动编码器中，得到如下的结果。

判定精度 38.2％

特征向量中的零要素比例 11.8％

逻辑回归的学习时间 6745.6秒

对于将随机标签的种类数量、即组数M设为2，将特征向量二分割为数量相同(各25000)的组的情况下的转换装置1001，得到如下的结果。

判定精度 44.8％

特征向量中的零要素比例 55.1％

逻辑回归的学习时间 643.1秒

对于将组数M设为2，将特征向量二分割为不同的要素数量(1万和4万)的组的情况下的转换装置1001，得到如下的结果。

判定精度 44.7％

特征向量中的零要素比例 59.7％

逻辑回归的学习时间 378.8秒

对于将组数L设为10，将特征向量十分割为不同的要素数量(2500、3000、3500、4000、4500、5550、6000、6500、7000、7500)的组的情况下的转换装置1001，得到如下的结果。

判定精度 45.2％

特征向量中的零要素比例 49.7％

逻辑回归的学习时间 798.4秒

根据上述的结果可知，关于特征向量的稀疏性、以及基于获得的特征向量的判定精度，本实施方式的转换装置1001更为优异。另外，在本实施方式的转换装置1001中，由于获得的特征向量较稀疏，所以逻辑回归所需的学习时间也以非常短的时间结束。

像这样，通过CIFAR-10所涉及的实验，能够确认本实施方式的转换装置1001的性能。

(总结)

如以上说明的那样，本实施方式的转换装置是通过转换模型将给予的输入向量转换为特征向量的转换装置，其中，具备：

分割部，将多个训练向量随机地分割为多个组；

第一分类部，通过第一分类模型，将通过上述转换模型从上述多个训练向量分别转换而成的特征向量分类到上述多个组中的任意一个组；以及

第一学习部，通过第一教师数据学习上述转换模型和上述第一分类模型，上述第一教师数据由上述多个训练向量和分别分割上述多个训练向量而成的组构成。

另外，在本实施方式的转换装置中，能够构成为：

上述多个训练向量分别属于多个类中的任意一个类，

上述转换装置具备：

第二分类部，通过第二分类模型将给予的向量分类到上述多个类中的任意一个类；以及

第二学习部，通过第二教师数据学习上述第二分类模型，上述第二教师数据由上述多个训练向量分别所属的类和通过上述学习的转换模型分别转换上述多个训练向量而成的特征向量构成，

若在学习上述第二分类模型之后，给予新的输入向量，则上述转换装置通过如下操作将上述新的输入向量分类到分类有新的特征向量的类：

上述转换装置通过上述学习的转换模型，将上述新的输入向量转换为上述新的特征向量；

上述第二分类部通过上述学习的第二分类模型，将上述新的特征向量分类到上述多个类中的任意一个类。

另外，在本实施方式的转换装置中，能够构成为：

上述转换装置通过对上述给予的输入向量进行降维，来转换为上述特征向量，

上述特征向量的维数大于上述多个类的数量。

另外，在本实施方式的转换装置中，能够构成为：

上述转换装置通过对上述给予的输入向量进行降维，来转换为上述特征向量。

另外，在本实施方式的转换装置中，能够构成为：

上述特征向量的维数大于上述多个组的数量。

另外，在本实施方式的转换装置中，能够构成为：

上述转换装置通过增大上述给予的输入向量的维数，来转换为上述特征向量。

本实施方式的转换方法是由通过转换模型将给予的输入向量转换为特征向量的转换装置执行的转换方法，其中，具备：

分割工序，将多个训练向量随机地分割为多个组；

第一分类工序，通过第一分类模型，将通过上述转换模型从上述多个训练向量分别转换而成的特征向量分类到上述多个组中的任意一个组；以及

第一学习工序，通过第一教师数据学习上述转换模型和上述第一分类模型，上述第一教师数据由上述多个训练向量和分别分割上述多个训练向量而成的组构成。

本实施方式的程序使通过转换模型将给予的输入向量转换为特征向量的计算机作为如下部件发挥作用：

分割部，将多个训练向量随机地分割为多个组；

该程序能够记录于非暂时性的计算机可读取的信息记录介质来分发、销售。另外，能够经由计算机通信网等暂时性的传送介质来分发、销售。

本发明能够不脱离本发明的广义的精神和范围来进行各种实施方式以及变形。另外，上述的实施方式用于说明本发明，并不限定本发明的范围。即，本发明的范围不通过实施方式来表示，而通过权利要求书来表示。而且，在权利要求书以及与其等同的发明的意义的范围内实施的各种变形都视为在本发明的范围内。

在本申请中，主张以在令和1年(2019年)7月25日(星期四)向日本申请的专利申请特愿2019－136728为基础的优先权，只要指定国的法律允许，将该基础申请的内容纳入到本申请。

产业上的可利用性

附图标记说明：1001…转换装置；1002…分割部；1003…第一分类部；1004…第一学习部；1005…第二分类部；1006…第二学习部；1101…转换模型；1201…第一分类模型；1202…第二分类模型。

Claims

1.一种转换装置，通过转换模型将给予的输入向量转换为特征向量，上述转换装置的特征在于，具备：

分割部，将多个训练向量随机地分割为多个组；

2.根据权利要求1所述的转换装置，其特征在于，

上述多个训练向量分别属于多个类中的任意一个类，

上述转换装置具备：

3.根据权利要求2所述的转换装置，其特征在于，

上述特征向量的维数大于上述多个类的数量。

4.根据权利要求1或2所述的转换装置，其特征在于，

5.根据权利要求4所述的转换装置，其特征在于，

上述特征向量的维数大于上述多个组的数量。

6.根据权利要求1或2所述的转换装置，其特征在于，

7.根据权利要求1或2所述的转换装置，其特征在于，

上述分割部将上述多个训练向量随机地分割到多个组中的每个组的概率相互不相等。

8.一种转换方法，是由通过转换模型将给予的输入向量转换为特征向量的转换装置执行的转换方法，上述转换方法的特征在于，具备：

分割工序，将多个训练向量随机地分割为多个组；

9.一种程序，其特征在于，

使通过转换模型将给予的输入向量转换为特征向量的计算机作为如下部件发挥作用：

分割部，将多个训练向量随机地分割为多个组；

10.一种非暂时性的计算机可读取的信息记录介质，记录有权利要求9所述的程序。