CN114916238A - 学习系统、学习方法和程序 - Google Patents
学习系统、学习方法和程序 Download PDFInfo
- Publication number
- CN114916238A CN114916238A CN202080041868.XA CN202080041868A CN114916238A CN 114916238 A CN114916238 A CN 114916238A CN 202080041868 A CN202080041868 A CN 202080041868A CN 114916238 A CN114916238 A CN 114916238A
- Authority
- CN
- China
- Prior art keywords
- loss
- learning model
- data
- image
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/20—Ensemble learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Image Analysis (AREA)
- Feedback Control In General (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
学习系统(S)的第1计算单元(302)在多标签的查询数据被输入到学习模型的情况下,根据学习模型的输出和作为目标的输出来计算第1损失。特征量取得单元(303)取得根据学习模型的参数计算出的、查询数据的特征量以及与所述查询数据对应的支持数据的特征量。第2计算单元(304)根据查询数据的特征量和支持数据的特征量来计算第2损失。调整单元(305)根据第1损失和第2损失来调整参数。
Description
技术领域
本公开涉及学习系统、学习方法和程序。
背景技术
以往,在图像分析、自然语言处理等各种各样的领域中,利用了机器学习。在有示教机器学习中,准备训练数据需要花费工夫,因此要求以更少的训练数据提高学习模型的精度。例如,在非专利文献1中记载了根据非常少的训练数据来生成可识别未知标签的数据的学习模型的被称为Few-Shot Object Detection的方法。
现有技术文献
非专利文献
非专利文献1:Leonid Karlinsky,Joseph Shtok,Sivan Harary,Eli Schwartz,Amit Aides,Rogerio Feris,Raja Giryes,and Alex M Bronstein.RepMet:Representative-based metric learning for classification and few-shot objectdetection.In CVPR,2019.
发明内容
发明要解决的课题
多标签的数据存在多个标签的组合,因此准备训练数据特别花费工夫。但是,非专利文献1的方法将单标签的数据作为对象,因此无法应用于多标签的数据。因此,在以往的方法中,如果不准备更多的训练数据,则无法提高可识别多标签的数据的学习模型的精度。
本公开的目的之一在于,能够以较少的训练数据提高可识别多标签的数据的学习模型的精度。
用于解决课题的手段
本公开的一个方式的学习系统具有:第1计算单元,在多标签的查询数据被输入到学习模型的情况下,该第1计算单元根据所述学习模型的输出和作为目标的输出来计算第1损失;特征量取得单元,其取得根据所述学习模型的参数计算出的、所述查询数据的特征量以及与所述查询数据对应的支持数据的特征量;第2计算单元,其根据所述查询数据的特征量和所述支持数据的特征量来计算第2损失;以及调整单元,其根据所述第1损失和所述第2损失来调整所述参数。
发明效果
根据本公开,能够以较少的训练数据提高可识别多标签的数据的学习模型的精度。
附图说明
图1是示出学习系统的整体结构的一例的图。
图2是示出网站上登载的图像的一例的图。
图3是示出学习系统的功能的一例的功能框图。
图4是示出学习终端的功能的整体像的一例的图。
图5是示出数据集的一例的图。
图6是示出各个标签的分布的一例的图。
图7是示出各个类别的分布的一例的图。
图8是示出各个集中包含的查询图像和支持图像的一例的图。
图9是示出在学习系统中执行的处理的一例的流程图。
具体实施方式
[1.学习系统的整体结构]
以下,说明本公开的学习系统的实施方式的一例。图1是示出学习系统的整体结构的一例的图。如图1所示,学习系统S包含服务器10、生成者终端20和学习终端30,它们与互联网或LAN等网络N连接。另外,在图1中,服务器10、生成者终端20和学习终端30分别各示出了1台,但它们也可以是多台。
服务器10是服务器计算机。服务器10包含控制部11、存储部12和通信部13。控制部11包含至少一个处理器。存储部12包含RAM等易失性存储器和硬盘等非易失性存储器。通信部13包含有线通信用的通信接口和无线通信用的通信接口中的至少一方。
生成者终端20是生成者操作的计算机。生成者是生成被输入到学习模型的数据的人。在本实施方式中,作为该数据的一例,对图像进行说明。因此,在本实施方式中记载为图像的部位能够替换为数据。输入到学习模型的数据不限于图像。关于其他数据的例子,在后述的变形例中进行说明。
例如,生成者终端20是个人计算机、智能手机或平板终端。生成者终端20包含控制部21、存储部22、通信部23、操作部24和显示部25。控制部21、存储部22和通信部23的物理结构也可以分别与控制部11、存储部12和通信部13相同。操作部24是鼠标或触摸面板等输入器件。显示部25是液晶显示器或有机EL显示器。
学习终端30是执行学习模型的学习的计算机。例如,学习终端30是个人计算机、智能手机或平板终端。学习终端30包含控制部31、存储部32、通信部33、操作部34和显示部35。控制部31、存储部32、通信部33、操作部34和显示部35的物理结构也可以分别与控制部11、存储部12、通信部13、操作部24和显示部25相同。
另外,认为存储到存储部12、22、32中进行说明的程序和数据也可以经由网络N提供。此外,服务器10、生成者终端20和学习终端30各自的硬件结构不限于上述的例子,能够应用各种硬件。例如,也可以包含读取计算机能读取的信息存储介质的读取部(例如,光盘驱动器或存储卡槽)、用于与外部设备进行数据的输入/输出的输入/输出部(例如,USB端口)中的至少一方。例如,信息存储介质中存储的程序和数据中的至少一方也可以经由读取部和输入/输出部中的至少一方供给。
[2.学习系统的概要]
在本实施方式中,以经由网站销售的商品的图像被输入到学习模型的情况为例,说明学习系统S的处理。例如,生成者是销售商品的店铺的店员。生成者通过生成者终端20中安装的图像编辑软件编辑商品的照片,并且生成要登载在网站上的图像。
在图像编辑软件中,对商品的照片合成人工对象。对象是图像的结构要素。作为被摄体的商品也是对象之一。在图像编辑软件中被合成的对象是电子图像。例如,生成者以商品的促销为目的,对商品的照片合成数字文本、数字帧和色条中的至少1个。
数字文本是在图像编辑软件中被合成的文本。数字文本与自然文本不同。自然文本是商品自身中包含的文本。换言之,自然文本是编辑前的照片中包含的文本。例如,自然文本是印刷在商品上的商品名或品牌名。
数字帧是在图像编辑软件中被合成的帧。在本实施方式中,对存在1像素的数字帧和2像素以上的数字帧的情况进行说明,但数字帧可以是任意的粗细。数字帧与自然帧不同。自然帧是商品自身中包含的帧。换言之,自然帧是编辑前的照片中包含的帧。例如,自然帧是商品的箱的边缘。
色条是表示商品的颜色变化的图像。色条包含多种颜色中的各个颜色的条。例如,在具有10色的颜色变化的西服的情况下,色条包含10色的条。当生成者生成通过编辑商品的照片而获得的图像时,将编辑完成的图像上传到服务器10。所上传的图像存储到服务器10的图像数据库中,并登载在网站上。
图2是示出网站上登载的图像的一例的图。在图2中,作为图像的一例,说明正方形的缩略图。如图2所示,图像I1是对鞋的照片合成数字文本DT10和2像素以上的数字帧DF11而成的。图像I2拍摄有作为咖啡箱的边缘的自然帧NF20和打印在包装上的商品名的自然文本NT21。图像I2也可以是对数字文本等进行合成而成的。
图像I3是对包的图像合成1像素的数字帧DF30和数字文本DT31而成的。图像I4是对手套的图像合成数字文本DT40而成的。图像I5是对西服的图像合成数字文本DT50和由9色的条构成的色条CB51而成的。
如本实施方式那样,在生成者能够自由地编辑图像的情况下,有时会上传设计差、无法提高顾客的购买欲望的图像。相反,有时也上传设计好、提高顾客的购买欲望的图像。因此,重要的是确定对图像所实施的编辑内容(所人工装饰的部分)。
因此,学习终端30生成学习模型,该学习模型执行对图像所实施的编辑内容的标注。学习模型是利用了机器学习的模型。机器学习本身能够利用各种方法,例如能够利用卷积神经网络或者递归型神经网络。本实施方式的学习模型设为有示教模型或半有示教模型,但也可以利用无示教模型。
如本实施方式那样,进行标注的学习模型有时也被称为分类学习器。标注是指对所输入的图像赋予标签。标签是图像的分类。在本实施方式中,标签表示对图像所实施的编辑内容。作为标签的一例,说明下述的标签0~标签6,但标签不限于本实施方式的例子,能够设定任意的标签。
(标签0)图像不包含任何编辑内容,(标签1)图像包含数字文本,(标签2)图像包含自然文本,(标签3)图像包含2像素以上的数字帧,(标签4)图像包含1像素的数字帧,(标签5)图像包含自然帧,(标签6)图像包含色条。另外,标签0是指不符合标签1~标签6中的任意一个。
在本实施方式中,学习模型的输出包含表示图像是否分别属于标签0~6的7个二进制的值。列举以向量形式表述学习模型的输出的情况为例,但学习模型的输出也可以是任意的形式。例如,学习模型的输出也可以是排列形式、矩阵形式或单一的数值。此外,例如,学习模型的输出也可以不是上述7个值,而是表示图像所属的标签的0~6的数值。在该情况下,如果是属于标签2和标签5的图像,则学习模型的输出成为2和5的数值的组合。
例如,某个标签的值为0意味着不属于该标签。某个标签的值为1意味着属于该标签。例如,如果学习模型的输出为[0,1,0,0,1,0,0],则意味着图像属于标签1和标签4。另外,学习模型的输出也可以不是0或1的二进制,也可以存在中间值。中间值表示属于标签的概率(或然性)。例如,如果某个标签的值为0.9,则意味着属于该标签的概率为90%。
在图像数据库DB中,单标签的图像和多标签的图像混合存在。单标签是指图像仅属于1个标签。如果是图2的例子,则图像I4是单标签的图像。多标签是指图像属于多个标签。如果是图2的例子,则图像I1、I2、I4和I5是多标签图像。在本实施方式中,图像不属于标签0和标签1~6双方,但图像有时属于标签1~6的任意组合。因此,根据图像的不同,有时属于标签1~6中的3个以上。
如在现有技术中说明的那样,当想要生成能够与多标签对应的学习模型时,由于存在多个标签的组合,因此准备训练数据非常费事。因此,难以生成能够与多标签对应的学习模型。并且,本实施方式那样的图像由于以下的2个理由,难以进行标注。
作为第1个理由,可举出图像数据库DB中存储的图像的不仅受欢迎的商品、而且几乎不受欢迎的商品占大多数。这样的分布被称为长尾分布。具有长尾分布的总体存在多种多样的图像。因此,即使准备了多个训练数据,由于在该训练数据中存在多种多样的图案作为商品的形状,因此学习模型也难以识别图像的特征。
作为第2个理由,图像数据库DB中存储的图像的商品的外观占大部分,数字文本等部分如微粒那样不显眼。因此,学习模型难以识别数字文本等特征。多标签的图像需要识别一些如微粒那样不显眼的特征,因此更加困难。这样的问题也可以称为fine-grainedmulti-label classification问题。并且,本实施方式那样的图像也可以举出难以区分数字文本和自然文本、以及难以区分数字帧和自然帧作为问题。
因此,本实施方式的学习系统S通过应用以contrastive learning的方法为基础的Few-Shot learning,生成能够与多标签对应的学习模型。由此,即使将长尾分布的图像作为对象并且将如微粒子那样不显眼的特征作为对象(即使存在上述第1理由和第2理由),也能够以更少的训练数据提高学习模型的精度。之后,说明学习系统S的详细内容。
[3.学习系统的功能]
图3是示出学习系统S的功能的一例的功能框图。在图3中,说明服务器10和学习终端30的功能,省略生成者终端20的功能。生成者终端20包含根据生成者的操作来编辑图像的功能以及上传编辑完成的图像的功能。
[3-1.服务器的功能]
在服务器10中,实现数据存储部100。数据存储部100基于存储部12来实现。数据存储部100存储学习模型的学习所需的数据。例如,数据存储部100存储图像数据库DB。如参照图2所说明的那样,在图像数据库DB中存储有由多个生成者各自上传的图像。在图像数据库DB中,还存储有仅被修剪为规定的尺寸而未进行人工装饰的图像(属于标签0的图像)。
在本实施方式中,图像数据库DB中存储的图像的格式(例如,尺寸、分辨率、颜色的位数、扩展名)被确定,但在图像数据库DB中,也可以存储任意格式的图像。此外,图像数据库DB中存储的图像在被下载到学习终端30之后,由学习终端30的用户赋予标签,但也可以将被赋予了标签的图像存储到图像数据库DB中。
[3-2.学习终端的功能]
图4是示出学习终端30的功能的整体像的一例的图。以下,参照图4,说明图3所示的学习终端30的功能。在学习终端30中,实现数据存储部300、数据取得部301、第1计算部302、特征量取得部303、第2计算部304和调整部305。数据存储部300基于存储部32来实现,数据取得部301、第1计算部302、特征量取得部303、第2计算部304和调整部305分别基于控制部31来实现。
[数据存储部]
数据存储部300存储学习模型M1、M2的学习所需的数据。在以下的说明中,在不区分学习模型M1和学习模型M2时,简称作学习模型M。例如,数据存储部300存储学习用的数据集DS。在数据集DS中存储有被赋予了作为正解的标签的多个图像的每一个。
图5是示出数据集DS的一例的图。如图5所示,在数据集DS中存储有图像与作为正解的标签的多个对。该对用于学习模型M的参数的调整。该对有时被称为训练数据、示教数据或正解数据。作为正解的标签包含表示是否分别属于标签0~标签6的值。即,作为正解的标签是作为目标的输出(学习模型M应输出的内容)。
在本实施方式中,说明图像数据库DB的一部分图像存储到数据集DS中的情况,但也可以将图像数据库DB的全部图像存储到数据集DS中。例如,学习终端30的用户接入服务器10,下载图像数据库DB的一部分图像。用户使显示部35显示所下载的图像并赋予作为正解的标签,生成数据集DS。
例如,在图像数据库DB中存储有2亿张左右的图像,用户从其中随机采样4~5万张左右的图像并赋予标签。本实施方式的图像原则上能够自由地编辑,因此既存在生成者容易进行的编辑,也存在不太好的编辑。因此,所随机采样的图像的标签有时具有长尾分布。
图6是示出各个标签的分布的一例的图。图6的纵轴表示标签0~标签6的每一个,横轴表示每个标签的图像的总数(样本数)。例如,当随机采样了标签1和标签4的多标签的图像时,通过该1张图像,标签1和标签4各自的图像的总数每次增加1。在图6的例子中,标签1的图像非常多,标签5的图像非常少。图6的分布由于图像的总数不均等而不平衡,因此是长尾分布。
图7是示出各个类别的分布的一例的图。类别在某些分类的意义上是与标签相似的概念,但类别分类问题与标签分类问题不同。在本实施方式中,类别分类问题在子集之间没有重叠,总体必然属于任意1个子集。标签分类问题在子集之间存在重叠,或者存在不属于任何子集的情况。
如本实施方式那样,在单标签的图像和多标签的图像混合存在的情况下,至少1个标签相当于类别。图像属于任意一个类别,不属于其他类别。例如,多标签的图像属于某个标签和其他标签,但不属于某个类别和其他类别。如果所随机采样的图像的总体中的标签的组合存在41种,则在该总体中存在41个类别。
在图7的例子中,图像的总数仅表示阈值(例如,100个)以上的类别的分布。因此,实际上,也存在图像的总数小于阈值的类别。图7的纵轴表示图像的总数为阈值以上的15个类别的每一个,横轴表示每个类别的图像的总数。在图7的例子中,仅表示标签1的类别的图像非常多,表示标签2和标签3的组合的类别的图像非常少。因此,图7的分布与图6的分布同样,由于图像的总数不均匀而不平衡,因此是长尾分布。
另外,在图6和图7中,为了便于说明长尾分布,以对4万~5万张左右的图像赋予了标签的情况为例进行了列举,但用户赋予标签的图像的数量也可以比其少。例如,用户也可以随机采样几张~几千张左右的图像,赋予正解的标签。
此外,将作为正解的标签赋予给图像的方法不限于上述的例子,能够利用任意的方法。例如,用户也可以利用公知的聚类方法,对图像赋予正解的标签。此外,例如,用户也可以利用学习了单标签的图像的学习模型M来对图像赋予正解的标签。
数据存储部300不仅存储数据集DS,还存储学习模型M(学习模型M的实际数据)。学习模型M包含程序和参数。学习模型M的程序和参数的格式自身能够利用在机器学习中被利用的各种各样的格式。例如,学习模型M的程序包含定义了多个层中的各个层中的处理(卷积、嵌入向量的计算、池化等)的代码。此外,例如,学习模型M的参数包含权重系数和偏差。学习模型M的参数被学习模型M的程序参考。
如图3和图4所示,在本实施方式中,数据存储部300存储查询图像xQ用的学习模型M1和支持图像xS用的学习模型M2。学习模型M1是第1学习模型的一例。学习模型M2是第2学习模型的一例。查询图像xQ输入到学习模型M1。支持图像xS输入到第2学习模型M2。之后叙述查询图像xQ和支持图像xS的详细情况。
学习模型M1的参数和学习模型M2的参数被共享。即,学习模型M1的参数与学习模型M2的参数相同。学习模型M1的程序和学习模型M2的程序相同,层等内部结构也相同。即,学习模型M1和学习模型M2中的任意一方是另一方的副本。
另外,数据存储部300中存储的数据不限于上述的例子。数据存储部300存储学习模型M的学习所需的数据即可。例如,数据存储部300也可以将数据集DS分割为训练用数据集、验证用数据集和测试用数据集这3个来存储。此外,例如,数据存储部300也可以存储与图像数据库DB相同的数据库。
[数据取得部]
数据取得部301取得在学习模型M的学习中使用的图像。在本实施方式中,数据取得部301从多标签中的具有长尾分布的图像组中取得查询图像xQ和支持图像xS。另外,数据取得部301也可以从不具有长尾分布的图像组中取得查询图像xQ和支持图像xS。
图像组是多个图像的集合。在本实施方式中,该图像组存储到具有长尾分布的图像数据库DB中。如果存在一定程度的数据集DS的样本数量,则数据集DS有时也具有长尾分布,因此数据集DS中存储的多个图像的集合也可以相当于上述图像组。
长尾分布是如参照了图6和图7的分布。长尾分布的定义本身只要遵循一般定义即可。例如,在最多的标签或类别的图像的总数与最少的标签或类别的图像的总数之差为阈值以上的情况下,是长尾分布。此外,例如,在上位a(a为2以上的整数)个标签或类别的图像的总数的合计值与下位b个(b为2以上的整数)标签或类别的图像的总数的合计值之差为阈值以上的情况下,是长尾分布。
本实施方式的学习模型M是识别图像中包含的对象的模型,因此作为查询数据的一例,说明多标签的查询图像xQ。此外,作为支持数据的一例,具有与查询图像xQ对应的支持图像xS。查询图像xQ和支持图像xS分别是在Few-shot learning中被利用的图像。
查询图像xQ是未使学习模型M学习的新类别的图像。查询图像xQ有时也被称为测试图像。支持图像xS是与查询图像xQ相同类别、或者与查询图像xQ不同类别的图像。例如,当利用一般的物体识别的训练数据集来使学习模型M学习了一般的类别时,欲利用查询图像xQ和支持图像xS来使其学习的类别原则上没有被学习模型M学习。
在本实施方式中,数据取得部301随机采样并取得图像数据库DB中存储的图像组,将包含各个图像和作为正解的标签的对存储到数据集DS中。如图4所示,数据取得部301随机采样数据集DS中存储的图像组,取得查询图像xQ和支持图像xS。
数据取得部301按照每个集,从数据集DS中随机取得查询图像xQ和支持图像xS。集是Few-shot learning中的一系列处理的过程。在Few-shot learning中,反复几个集。例如,按照每个集,存在至少1张查询图像xQ和至少1张支持图像xS的图像集。
本实施方式的Few-shot learning遵循被称为N-Way K-shot的设定。N表示每1个集的类别的数量。K表示每1个集的图像数量。N和K是自然数。一般而言,N越小,则学习模型M的精度越高,K越高,则学习模型M的精度越高。在本实施方式中,说明N是1且K是5的情况(即,1-Way 5-shot的情况),但N和K也可以是任意的值。
在本实施方式中,说明存在与在多标签中能够想到的标签的组合中的、一部分组合对应的集的情况,但也可以存在所有的集。以下,列举存在分别与图7所示的15个类别对应的15个集的情况为例进行说明。集的数量不限于15个,也可以是任意的数量。在本实施方式中,虽然对在集间类别不重复的情况进行说明,但也可以在集间类别重复。
图8是示出各个集中包含的查询图像xQ和支持图像xS的一例的图。如图8所示,相对于集1~15分别存在1张查询图像xQ和5张支持图像xS的图像集。另外,查询图像xQ可以为2张以上。此外,查询图像xQ的数量和支持图像xS的数量可以相同。即,针对1个集,也可以存在5张查询图像xQ。
例如,集1是用于学习图7的分布中的、图像的总数为最多的类别(仅标签1的类别)的图像的集。数据取得部301从数据集DS中随机采样6张该类别的图像(标签为[0,1,0,0,0,0,0]的图像)。数据取得部301将6张中的1张设为查询图像xQ、将剩余的5张设为支持图像xS。
此外,例如,集2是用于学习图像的总数第二多的类别(标签1和标签2的类别)的图像的集。数据取得部301从数据集DS中随机采样6张该类别的图像(标签为[0,1,1,0,0,0,0]的图像)。数据取得部301将6张中的1张设为查询图像xQ、将剩余的5张设为支持图像xS。
关于其他集3~15也同样如此,数据取得部301按照每个集,随机采样6张与该集对应的类别的图像,并作为查询图像xQ和样品图像来取得。即,数据取得部301取得6张与该集对应的类别的图像,作为某个集的查询图像xQ和支持图像xS的图像集。
另外,在N的值为2以上的情况下,1个集中包含多个类别各自的支持图像xS。在该情况下,在1个集中可以仅包含多个类别中的任意一个类别的查询图像xQ,也可以包含与多个类别分别对应的多个查询图像xQ。即使在N的值为2以上的情况下,查询图像xQ也不限于1张。
此外,集的数量可以由用户指定,也可以根据图像数据库DB或数据集DS中的统计值来自动地决定。例如,也可以是,用户指定使学习模型M学习的类别,并设定与该类别的数量对应的集。此外,例如,也可以自动地确定在图像数据库DB或数据集DS中图像的总数为阈值以上的类别,设定与该数量对应的集。数据取得部301取得与集对应的数量的图像即可。
[第1计算部]
第1计算部302在多标签的查询图像xQ被输入到学习模型M1的情况下,根据学习模型M1的输出和作为目标的输出来计算第1损失LBCE。即,第1计算部302根据学习模型M1的参数来计算第1损失LBCE。
学习模型M1的输出是指从学习模型M1得到的实际的输出。作为目标的输出是学习模型M1应输出的内容。在本实施方式中,数据集DS中存储的作为正解的标签相当于作为目标的输出。
第1损失LBCE表示学习模型M1的输出与作为目标的输出的误差(差异)。第1损失LBCE是能够测量学习模型M1的精度的指标。第1损失LBCE较高意味着误差大且精度低。第1损失LBCE较低意味着误差小且精度高。在本实施方式中,说明第1损失LBCE为多标签交叉熵损失的情况,但第1损失LBCE能够利用任意的方法来计算。第1损失LBCE能够根据规定的损失函数来计算即可。
以下,将某个集中包含的各个查询图像xo的集合记作大写的XQ。在本实施方式中,某个集的查询图像xQ的集合XQ由1张查询图像xQ构成。在本实施方式中,说明N-Way K-shot中的N为1的情况,但也设想了N为2以上的情况,因此在该情况下,有时将查询图像记作xQ i。i为N以下的自然数。为i∈{1,……,N},并且为xQ i∈XQ。
如图4所示,例如,第1计算部302将某个集的查询图像xQ输入到学习模型M1。该学习模型M1是后述的由调整部305进行参数调整之前的模型,例如也可以是被称为ResNet50的学习完成的模型。即,该学习模型M1也可以不是在本实施方式中想要识别的数字文本等对象,而是学习了一般的对象的特征的模型。
例如,当向学习模型M1输入了查询图像xo时,通过嵌入函数f(x)计算该查询图像xQ的作为嵌入向量的f(xQ)。另外,f(x)的x表示任意的图像。嵌入函数f(x)可以是学习模型M1的程序的一部分,也可以是由学习模型M1调用的外部程序。嵌入向量由后述的特征量取得部303取得。
第1计算部302根据作为嵌入向量的f(xo),利用sigmoid函数σ(z)=1/(1+e-z)以取得各类别的二进制的输出。例如,第1计算部302根据下述的数学式1和数学式2来计算第1损失LBCE。另外,下述的数学式1和数学式2是损失函数的一例,损失函数自身能够利用任意的函数。如果利用多标签交叉熵损失以外的损失,则利用与该损失对应的损失函数即可。
[数学式1]
LBCE(σ(z),yQ)={l1,…,lN}T
[数学式2]
数学式2的yQ n是查询图像xQ的各二进制标签,且是yQ n∈yQ。yQ是与各输入对应的标签的组合。与查询图像xQ对应的实际的输出与该查询图像xQ的作为目标的输出的误差越小,则第1损失LBCE越小,该误差越大,则第1损失LBCE越大。
本实施方式的学习模型M能够识别3个以上的标签,按照标签的每个组合(即,针对每个集),存在包含查询图像xQ和支持图像xS的图像集。由于存在3个以上的标签,因此作为标签的组合,存在2个以上。
第1计算部302按照标签的每个组合(即,按照每个集),根据与该组合对应的查询图像xQ来计算第1损失LBCE。各个集的第1损失LBCE的计算方法如上述所说明的那样。在本实施方式中,由于存在15个集,因此第1计算部302计算与15个集分别对应的第1损失LBCE。
在本实施方式的学习模型M中,学习了识别对象的多个标签以外的其他标签的模型的最后层被替换为与所述多个标签对应的层。最后层是输出层。例如,利用ResNet50来将学习了一般的物体的形状的学习模型M的最后层替换为与多标签对应的层(如果是本实施方式,则是输出标签0~标签6的7个值的层)。由此,输出作为学习模型M的识别对象的标签的组合。第1计算部302根据被替换为与多个标签对应的层的学习模型M的输出和作为目标的输出来计算第1损失LBCE。
[特征量取得部]
特征量取得部303取得根据学习模型M的参数计算出的、查询图像xQ的特征量以及与查询图像xQ对应的支持图像xS的特征量。该参数是学习模型M的目前的参数。即,该参数是后述的调整部305的调整前的参数。利用ResNet50等来进行事先学习,则根据事先学习后的参数来取得特征量。
特征量是指表示图像的特征的信息。在本实施方式中,说明嵌入向量相当于特征量的情况。因此,在本实施方式中记作嵌入向量的部位可以替换为特征量。特征量能够以任意的形式表述,不限于向量形式。特征量可以以排列形式、矩阵形式或单一的数值等其他形式表述。
如图4所示,在本实施方式中,准备学习模型M1、M2。特征量取得部303取得根据学习模型M1的参数计算出的查询图像xQ的嵌入向量、以及根据学习模型M2的参数计算出的支持图像xS的嵌入向量。特征量取得部303在查询图像xQ被输入到学习模型M1的情况下,取得由学习模型M1计算出的查询图像xQ的嵌入向量。特征量取得部303在支持图像xS被输入到学习模型M2的情况下,取得由学习模型M2计算出的支持图像xS的嵌入向量。
在本实施方式中,由于针对1个集存在多个支持图像xS,因此特征量取得部303取得多个支持图像xS各自的嵌入向量。由于K的值为5,针对1个集存在5张支持图像xS,因此特征量取得部303将5张支持图像xS分别输入到学习模型M2,取得5个嵌入向量。如果N的值为2以上,则特征量取得部303取得与N的数量对应的支持图像xS的嵌入向量即可。
特征量取得部303按照标签的每个组合(即,按照每个集)取得与该组合对应的查询图像xQ的嵌入向量以及与该组合对应的支持图像xS的嵌入向量。在本实施方式中,由于存在15个集,因此特征量取得部303取得与15个集分别对应的、1张查询图像xQ的嵌入向量以及5张支持图像xS各自的嵌入向量。
[第2计算部]
第2计算部304根据查询图像xQ的嵌入向量和支持图像xS的嵌入向量来计算第2损失LCL。
第2损失LCL表示查询图像xQ的嵌入向量与支持图像xS的嵌入向量的误差(差异)。第2损失LCL是能够测量学习模型M1、M2的精度的指标。第2损失LCL较高意味着误差大且精度低。第2损失LCL较低意味着误差小且精度高。在本实施方式中,说明第2损失LCL为对比损失的情况,但第2损失LCL能够利用任意的方法来计算。第2损失LCL能够根据规定的损失函数来计算即可。
对比损失是在contrastive learning中被利用的损失。contrastive learning用于学习图像对相似、还是不相似。例如,某个图像对{X1,X2}的嵌入向量对的欧几里得距离被用作距离度量DW。
例如,当将表示图像对的类似性的类似性标签设为Y∈{0,1}时,对比损失根据下述的数学式3来计算。Y为0意味着图像X1与图像X2相似(为相同的标签)。Y为1意味着图像X1与图像X2不相似(为不同的标签)。另外,下述的数学式3是损失函数的一例,损失函数本身能够利用任意的函数。下述数学式3中的M是用于调整Y为1的情况下的损失的常数。
[数学式3]
替代对2个图像的类似性进行比较,输入分别根据支持图像xS和查询图像xQ计算出的2个嵌入向量,以将如上所述的对比学习应用于本实施方式。在本实施方式中,由于它们具有相同的标签,因此类似性标签Y为0。例如,第2计算部304根据下述的数学式4来计算第2损失LCL。在数学式4中的f(xS)的上侧画线而得到的值是支持图像xS的嵌入向量的平均值。另外,下述的数学式4是损失函数的一例,损失函数本身能够利用任意的函数。
[数学式4]
在本实施方式中,查询图像xQ和支持图像xS的至少1个标签相同。说明这些全部标签相同的情况,但这些标签也可以部分一致而不完全一致。第2计算部304以查询图像xQ的嵌入向量与支持图像xS的嵌入向量的差异越大则第2损失LCL越大的方式,计算第2损失LCL。嵌入向量的差异也可以用距离以外的指标来表述。该差异与第2损失LCL的关系被定义为损失函数。
在本实施方式中,由于N为2以上,针对1个集存在多个支持图像xS,因此第2计算部304根据多个支持图像xS各自的嵌入向量来计算平均特征量(如果为数学式4,则是在f(xS)的上侧画线而得到的值),根据查询图像xQ的嵌入向量和平均嵌入向量来取得第2损失LCL。平均嵌入向量也可以不是5张支持图像xS的单纯平均,而进行某种加权。如果N的值为2以上,则也可以跨越类别之间来计算平均特征量。
第2计算部304按照标签的每个组合(即,针对每个集),根据与该组合对应的查询图像xQ的嵌入向量、以及与该组合对应的支持图像xS的嵌入向量来计算第2损失LCL。在本实施方式中,由于存在15个集,因此第2计算部304根据与15个集分别对应的、1张查询图像xQ的嵌入向量、以及5张支持图像xS各自的嵌入向量来计算第2损失LCL。
[调整部]
调整部305根据第1损失LBCE和第2损失LCL来调整学习模型M的参数。调整参数与执行学习模型M的学习是相同的意思。根据损失调整参数的方法本身能够利用各种各样的方法,例如可以利用反向误差传播法或梯度下降法。调整部305调整学习模型M的参数,以使第1损失LBCE和第2损失LCL分别减小。
当调整学习模型M的参数以使第1损失LBCE减小时,学习模型M的输出与作为正解的标签的误差减小。即,学习模型M输出正解的概率升高。换言之,学习模型M的输出与作为正解的标签接近。
当调整学习模型M的参数以使第2损失LCL减小时,学习模型M计算嵌入向量,以使查询图像xQ的嵌入向量与类似于查询图像xQ的支持图像xS的嵌入向量差异减小。
与本实施方式相反,如果利用不与查询图像xo类似的支持图像xS,则当调整学习模型M的参数以使第2损失LCL减小时,学习模型M计算嵌入向量,以使查询图像xo的嵌入向量与不类似于查询图像xQ的支持图像xS的嵌入向量的差异增大。
在本实施方式中,调整部305根据第1损失LBCE和第2损失LCL来计算整体损失Ltotal,根据整体损失Ltotal来调整学习模型M的参数。整体损失Ltotal根据下述的式5来计算。另外,下述的数学式5是损失函数的一例,损失函数本身能够利用任意的函数。例如,也可以不是下述的数学式5那样的单纯平均,而是通过利用了权重系数的加权平均来计算整体损失Ltotal。
[数学式5]
Ltotal=LCL+LBCE
在本实施方式中,存在学习模型M1和学习模型M2,在它们之间共享参数。因此,调整部305分别调整学习模型M1的参数和学习模型M2的参数。在本实施方式中,调整部305利用整体损失Ltotal来调整学习模型M1的参数,将调整完成的学习模型M1的参数复制到学习模型M2中。
另外,与上述相反,调整部305也可以利用整体损失Ltotal来调整学习模型M2的参数,将调整完成的学习模型M2的参数复制到学习模型M1中。此外,调整部305也可以不进行参数的复制,而利用整体损失Ltotal来调整学习模型M1的参数,并利用相同的整体损失Ltotal来调整学习模型M2的参数。即使这样,其结果,也共享参数。
在本实施方式中,调整部305根据按照标签的每个组合(即,针对每个集)计算出的第1损失LBCE和第2损失LCL来调整学习模型M的参数。在本实施方式中,由于存在15个集,因此调整部305根据与15个集分别对应的15个损失的对(第1损失LBCE和第2损失LCL的对),来调整学习模型M的参数。
例如,调整部305计算与15个集分别对应的15个整体损失Ltotal。调整部305针对15个整体损失Ltotal的每一个,利用反向误差传播法等来调整学习模型M的参数。调整部305也可以在将15个整体损失Ltotal中的全部或一部分汇总为1个损失之后,调整学习模型M的参数。
另外,调整部305也可以不计算整体损失Ltotal,而调整学习模型M的参数。例如,调整部305也可以在调整学习模型M的参数以使第1损失LBCE减小后,调整该参数,以使第2损失LCL减小。此外,例如,调整部305也可以在调整学习模型M的参数以使第2损失LCL减小后,调整该参数,以使第1损失LBCE减小。
此外,调整部305也可以在将某个集中的第1损失LBCE和其他集中的第1损失LBCE汇总为1个损失后,调整学习模型M的参数。调整部305也可以在将某个集中的2损失LCL和其他集中的第2损失LCL汇总为1个损失后,调整学习模型M的参数。
[4.在学习系统中执行的处理]
图9是示出在学习系统S中执行的处理的一例的流程图。在本实施方式中,学习终端30执行学习模型M的学习,因此图9示出在学习终端30中执行的处理的一例。控制部31依照存储部32所存储的程序来工作,由此执行该处理。该处理是由图3所示的功能框执行的处理的一例。
另外,数据集DS预先存储到存储部32中。此外,处理对象的集的顺序以及与各个集对应的类别是预先指定的。例如,假设与图7所示的长尾分布中的15个类的每一个对应的集按照图像的总数从多到少的顺序(在图7的示例中,从仅有标签1的类别到标签2和标签3的类别的顺序)被指定为处理对象的集。
如图9所示,学习终端30从数据集DS中随机采样处理对象的集的1张查询图像xQ和5张支持图像xS(S1)。学习终端30向学习模型M1输入处理对象的集的查询图像xQ(S2)。学习终端30根据数据集DS、学习模型M1的实际的输出和查询图像xQ的作为正解的标签来计算查询图像xQ的第1损失LBCE(S3)。
学习终端30向学习模型M2输入处理对象的集的5张支持图像xS的每一个(S4)。学习终端30取得由学习模型M1计算出的查询图像xQ的嵌入向量和由学习模型M2计算出的5张支持图像xS各自的嵌入向量(S5)。学习终端30计算5张支持图像xS的嵌入向量的平均值(S6)。
学习终端30根据查询图像xQ的嵌入向量和在S6中计算出的平均值来计算第2损失LCL(S7)。学习终端30根据第1损失LBCE和第2损失LCL来计算整体损失Ltotal(S8)。学习终端30根据整体损失Ltotal来调整学习模型M1和学习模型M2各自的参数(S9)。
学习终端30判定是否执行了全部集的处理(S10)。在存在未执行处理的集的情况下(S10;否),返回S1的处理,下一集成为处理对象。在判定为针对全部集执行了处理的情况下(S10;是),学习终端30判定是否反复进行了规定次数的学习(S11)。该次数是被称为纪元的次数。
在没有判定为反复进行了规定次数的学习的情况下(S11;否),学习终端30反复进行学习模型M1和学习模型M2各自的参数的调整(S12)。在S12中,针对15个集分别反复进行S1~S9的处理。另一方面,在判定为反复进行了规定次数的学习的情况下(S11;是),本处理结束。
根据实施方式的学习系统S,通过根据第1损失LBCE和第2损失LCL来调整学习模型M的参数,能够以较少的训练数据提高可识别多标签的数据的学习模型M的精度。例如,当欲仅利用作为多标签交叉熵损失的第1损失LBCE来调整学习模型M的参数时,需要准备庞大的训练数据。此外,例如,若仅利用基于few-shot learning的对比损失即第2损失LCL来调整学习模型M的参数,则能够减少训练数据的数量,但由于上述的第1问题和第2问题等,有时无法充分提高能够与多标签对应的学习模型M的精度。
通过并用第1损失LBCE和第2损失LCL,能够兼顾训练数据的减少和学习模型M的精度提高。根据发明者们的独自研究,确认了长尾分布中的图像的总数比较少的标签(图6中的标签0、4、5、6)的标注精度特别提高。此外,通过实现训练数据的减少,能够节省生成学习模型M时的用户的工夫。
此外,学习系统S通过以查询图像xQ的嵌入向量与至少1个标签相同的支持图像xS的嵌入向量的差异越大则第2损失LCL越大的方式计算第2损失LCL,能够使学习模型M学习相似的图像彼此的特征。例如,通过调整学习模型M的参数,以使查询图像xQ的嵌入向量与支持图像xS的嵌入向量接近,能够提高学习模型M的精度。
此外,学习系统S通过根据查询图像xQ的嵌入向量和多个支持图像xS各自的嵌入向量的平均值来取得第2损失LCL,能够使支持图像xS的数量增加,有效地提高学习模型M的精度。即,在增加了支持图像xS的张数的情况下,也能够准确地计算第2损失LCL。此外,通过将多个支持图像xS的嵌入向量汇总为1个平均值来计算1个第2损失LCL即可,无需计算多个第2损失LCL,因此能够减轻学习终端30的处理负荷,使学习高速化。
此外,学习系统S通过根据第1损失LBCE和第2损失LCL来计算整体损失Ltotal并调整参数,能够利用综合考虑了第1损失LBCE和第2损失LCL的1个指标来有效地提高学习模型M的精度。此外,通过将第1损失LBCE和第2损失LCL汇总为1个整体损失Ltotal,能够简化学习时所需的处理。即,通过将2个损失汇总为1个,能够也将学习的处理汇总为1个。其结果,能够减轻学习终端30的处理负荷,使学习高速化。
此外,学习系统S按照标签的每个组合(即,针对每个集),存在包含查询图像xQ和支持图像xS的图像集,根据按照标签的每个组合而计算出的第1损失LBCE和第2损失LCL来调整学习模型M的参数,由此能够使学习模型M学习各种各样的标签的组合的特征,提高学习模型M的精度。此外,在多标签中的标签的组合较多的情况下,也能够生成可识别该组合的学习模型M。
此外,学习系统S通过向学习模型M1输入查询图像xQ,并向学习模型M2输入支持图像xS,能够并列执行嵌入向量的计算,能够使学习处理高速化。
此外,学习系统S通过从多标签中的具有长尾分布的数据组中取得查询图像xQ和支持图像xS,即使作为学习模型M的处理对象的总体具有长尾分布,也能够减少训练数据,并最大限度地提高学习模型M的精度。例如,通过在图像的总数多的类别和图像的总数少的类别中使在学习中利用的图像的数量(1个集中包含的图像的数量)相同,能够使学习模型M毫无遗漏地学习所有类别的特征。
此外,在学习系统S中,学习模型M通过将学习了识别对象的多个标签以外的其他标签的模型的最后层替换为与多个标签对应的层,能够在学习的开始时准备具有某个程度的精度的学习模型M,并提高最终得到的学习模型M的精度。例如,在利用一般的ResNet50执行了事先学习的情况下,通过事先学习而得到的学习模型M能够以某个程度识别出一般的对象的特征。即,该学习模型M如果关注于图像内的某处,则能够以某个程度识别出是否能够对对象进行分类。通过利用这样的学习模型M来进行如本实施方式的学习,能够得到更高精度的学习模型M。此外,能够减少直到得到具有某个程度的精度的学习模型M为止所需的学习的执行次数,并减轻学习终端30的处理负荷,从而使学习高速化。
此外,学习系统S通过将学习模型M的处理对象的数据设为图像,能够以较少的训练数据提高可识别多标签的图像的学习模型M的精度。
[5.变形例]
另外,本公开不限于以上所说明的实施方式。能够在不脱离本公开的主旨的范围内适当地变更。
(1)例如,调整部305也可以根据第1损失LBCE、第2损失LCL和由用户指定的权重系数来计算整体损失Ltotal。用户能够指定第1损失LBCE和第2损失LCL中的至少一方的权重系数。用户可以指定这些双方的权重系数,也可以指定仅任意一方的权重系数。由用户指定的权重系数存储到数据存储部300中。调整部305取得对第1损失LBCE第2损失LCL分别乘以权重系数后相加所得的值作为整体损失Ltotal。取得整体损失Ltotal之后的调整部305的处理与实施方式相同。
根据变形例(1),通过根据第1损失LBCE、第2损失LCL和由生成者指定的权重系数来计算整体损失Ltotal,能够有效地提高学习模型M的精度。例如,能够如以下这样根据用户的目的分开使用权重系数,即,在想要使长尾分布中的主要的等级优先学习的情况下,提高第1损失LBCE的权重系数,在想要使长尾分布中的次要的等级优先学习的情况下,提高第2损失LCL的权重系数。
(2)此外,例如,第2计算部304也可以根据查询图像xQ的嵌入向量、支持图像xS的嵌入向量以及与查询图像xQ与支持图像xS之间的标签的类似性对应的系数,来取得第2损失LCL。标签的类似性是指相同的标签的数量或比例。意味着相同的标签的数量或比例越多或越高,则标签的类似性越高。
在实施方式中,说明了查询图像xQ的标签与支持图像xS的标签完全一致的情况(查询图像xQ的类别与支持图像xS的类别相同的情况),但在本变形例中,说明查询图像xQ的标签与支持图像xS的标签部分一致而不完全一致的情况(查询图像xQ的类别与支持图像xS的类别类似的情况)。
例如,假设查询图像xQ是属于标签1、标签2和标签4的3个标签的多标签的图像。假设支持图像xS是属于标签1、标签3和标签4的3个标签的多标签的图像。在该情况下,由于在查询图像xQ与支持图像xS之间,3个标签中的2个一致,因此与类似性对应的系数设为0.67。第2计算部304通过对数学式4乘以该系数,计算第2损失LCL。
在查询图像xQ与支持图像xS之间,相同的标签的数量或比例越多或越高,则系数越大。标签的数量或比例与系数的关系预先通过数学式或表等数据来决定即可。第2计算部304在计算某个集中的2损失LCL的情况下,在该集的查询图像xQ与支持图像xS之间确定相同标签的数量或比例,取得与该数量或比例对应的系数。第2计算部304根据该系数来计算第2损失LCL。
根据变形例(2),通过根据与查询图像xQ与支持图像xS之间的标签的类似性对应的系数来取得第2损失LCL,能够以较少的训练数据更加有效地提高学习模型M的精度。例如,有时难以寻找与某个图像完全相同的标签的其他图像,如果是类似的标签的图像,则有时能够容易地获得。在该情况下,通过根据与标签的类似性对应的系数来取得第2损失LCL,即使不获得完全相同的标签的其他图像,也能够节省用户的工夫。
(3)此外,例如,也可以组合上述变形。
此外,例如,也可以在不取得多个支持图像xS各自的嵌入向量的平均值的情况下,执行参数的调整。在该情况下,调整部305也可以按照每个支持图像xS,根据查询图像xQ的第1损失LBCE和该支持图像xS的第2损失LCL来计算整体损失Ltotal,执行参数的调整。
此外,例如,在图4中,对2个学习模型M1、M2进行了说明,但是学习模型M也可以仅为1个。在该情况下,向1个学习模型M分别输入查询图像xQ和支持图像xS。此外,例如,学习模型M可以为3个以上。在该情况下,也可以按照N张支持图像xS准备学习模型M。另外,在学习模型M为3个以上的情况下,也共享参数。
此外,例如,说明了根据第1损失LBCE和第2损失LCL来调整学习模型M的参数的情况,但学习系统S也可以不计算第1损失LBCE,而仅根据第2损失LCL来调整学习模型M的参数。与此相反,学习系统S也可以不计算第2损失LCL,而仅根据第1损失LBCE来调整学习模型M的参数。这是因为,由此,也能够生成某个程度的精度的学习模型M。
此外,例如,学习模型M的识别对象也可以是图像中包含的任意对象,不限于数字文本等。例如,学习模型M也可以识别拍摄了狗、猫等多个对象的多标签的图像。即,由学习模型M标注的标签不限于数字文本等,也可以是图像内的被摄体。标签只要是图像内的对象的某种分类即可。
此外,例如,输入到学习模型M的数据不限于图像。即,学习系统S也能够应用于进行图像识别以外的识别的学习模型M。例如,学习系统S也可以是进行语音识别的学习模型M。在该情况下,输入到学习模型M的数据是语音数据。此外,例如,学习系统S也能够应用于自然语言处理中的学习模型M。在该情况下,输入到学习模型M的数据是文档数据。此外,例如,在进行人的行动或自然界的现象这样的各种各样的识别的学习模型M中也能够应用学习系统S。输入到学习模型M的数据是与学习模型M的用途对应的数据即可。
此外,例如,学习终端30中包含的功能的全部或一部分也可以通过其他计算机来实现。例如,数据取得部301、第1计算部302、特征量取得部303、第2计算部304和调整部305也可以分别包含于服务器10。在该情况下,这些各功能基于控制部11来实现。此外,例如,这些各功能也可以由多个计算机来分担。在学习系统S中,也可以仅包含1台计算机。此外,例如,作为存储到数据存储部100、300中而说明的数据也可以存储到与服务器10或学习终端30不同的其他计算机或信息存储介质中。
Claims (13)
1.一种学习系统,其具有:
第1计算单元,在多标签的查询数据被输入到学习模型的情况下,该第1计算单元根据所述学习模型的输出和作为目标的输出来计算第1损失;
特征量取得单元,其取得根据所述学习模型的参数计算出的、所述查询数据的特征量以及与所述查询数据对应的支持数据的特征量;
第2计算单元,其根据所述查询数据的特征量和所述支持数据的特征量来计算第2损失;以及
调整单元,其根据所述第1损失和所述第2损失来调整所述参数。
2.根据权利要求1所述的学习系统,其中,
所述查询数据和所述支持数据的至少1个标签是相同的,
所述第2计算单元以所述查询数据的特征量与所述支持数据的特征量的差异越大则所述第2损失越大的方式,计算所述第2损失。
3.根据权利要求1或2所述的学习系统,其中,
所述特征量取得单元取得多个所述支持数据各自的特征量,
所述第2计算单元根据所述多个所述支持数据各自的特征量来计算平均特征量,根据所述查询数据的特征量和所述平均特征量来取得所述第2损失。
4.根据权利要求1~3中的任意一项所述的学习系统,其中,
所述调整单元根据所述第1损失和所述第2损失来计算整体损失,根据所述整体损失来调整所述参数。
5.根据权利要求4所述的学习系统,其中,
所述调整单元根据所述第1损失、所述第2损失和由生成者指定的权重系数来计算所述整体损失。
6.根据权利要求1~5中的任意一项所述的学习系统,其中,
所述学习模型能够识别3个以上的标签,
按照所述标签的每个组合存在包含所述查询数据和所述支持数据的数据集,
所述第1计算单元按照所述标签的每个组合,根据与该组合对应的所述查询数据来计算所述第1损失,
所述特征量取得单元按照所述标签的每个组合,取得与该组合对应的所述查询数据的特征量以及与该组合对应的所述支持数据的特征量,
所述第2计算单元按照所述标签的每个组合,根据与该组合对应的所述查询数据的特征量以及与该组合对应的所述支持数据的特征量来计算所述第2损失,
所述调整单元根据按照所述标签的每个组合而计算出的所述第1损失和所述第2损失来调整所述参数。
7.根据权利要求1~6中的任意一项所述的学习系统,其中,
所述查询数据被输入到第1学习模型,
所述支持数据被输入到第2学习模型,
所述第1学习模型的所述参数和所述第2学习模型的所述参数被共享,
所述第1计算单元根据所述第1学习模型的所述参数来计算所述第1损失,
所述特征量取得单元取得根据所述第1学习模型的所述参数而计算出的所述查询数据的特征量以及根据所述第2学习模型的所述参数而计算出的所述支持数据的特征量,
所述调整单元分别调整所述第1学习模型的所述参数和所述第2学习模型的所述参数。
8.根据权利要求1~7中的任意一项所述的学习系统,其中,
所述查询数据和所述支持数据的至少1个标签是相同的,
所述第2计算单元根据所述查询数据的特征量、所述支持数据的特征量、以及与所述查询数据和所述支持数据之间的标签的类似性对应的系数来取得所述第2损失。
9.根据权利要求1~8中的任意一项所述的学习系统,其中,
所述学习系统还包含数据取得单元,该数据取得单元从多标签中的具有长尾分布的数据组中取得所述查询数据和所述支持数据。
10.根据权利要求1~9中的任意一项所述的学习系统,其中,
在所述学习模型中,学习了识别对象的多个标签以外的其他标签的模型的最后层被替换为与所述多个标签对应的层,
所述第1计算单元根据被替换为与所述多个标签对应的层的所述学习模型的输出和作为所述目标的输出来计算所述第1损失。
11.根据权利要求1~10中的任意一项所述的学习系统,其中,
所述学习模型是识别图像中包含的对象的模型,
所述查询数据是多标签的查询图像,
所述支持数据是与所述查询图像对应的支持图像。
12.一种学习方法,包含以下步骤:
第1计算步骤,在多标签的查询数据被输入到学习模型的情况下,根据所述学习模型的输出和作为目标的输出来计算第1损失;
特征量取得步骤,取得根据所述学习模型的参数计算出的、所述查询数据的特征量以及与所述查询数据对应的支持数据的特征量;
第2计算步骤,根据所述查询数据的特征量和所述支持数据的特征量来计算第2损失;以及
调整步骤,根据所述第1损失和所述第2损失来调整所述参数。
13.一种程序,其使计算机作为以下单元发挥功能:
第1计算单元,在多标签的查询数据被输入到学习模型的情况下,该第1计算单元根据所述学习模型的输出和作为目标的输出来计算第1损失;
特征量取得单元,其取得根据所述学习模型的参数计算出的、所述查询数据的特征量以及与所述查询数据对应的支持数据的特征量;
第2计算单元,其根据所述查询数据的特征量和所述支持数据的特征量来计算第2损失;以及
调整单元,其根据所述第1损失和所述第2损失来调整所述参数。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2020/045416 WO2022123619A1 (ja) | 2020-12-07 | 2020-12-07 | 学習システム、学習方法、及びプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114916238A true CN114916238A (zh) | 2022-08-16 |
Family
ID=80448007
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202080041868.XA Pending CN114916238A (zh) | 2020-12-07 | 2020-12-07 | 学习系统、学习方法和程序 |
Country Status (6)
Country | Link |
---|---|
US (1) | US20220398504A1 (zh) |
EP (1) | EP4040346A4 (zh) |
JP (1) | JP6995262B1 (zh) |
CN (1) | CN114916238A (zh) |
TW (1) | TWI804090B (zh) |
WO (1) | WO2022123619A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114691886A (zh) * | 2022-03-16 | 2022-07-01 | 华中科技大学 | 一种关系增强的知识图谱嵌入方法及系统 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200380362A1 (en) * | 2018-02-23 | 2020-12-03 | Asml Netherlands B.V. | Methods for training machine learning model for computation lithography |
CN111985581B (zh) * | 2020-09-09 | 2022-07-05 | 福州大学 | 一种基于样本级注意力网络的少样本学习方法 |
-
2020
- 2020-12-07 CN CN202080041868.XA patent/CN114916238A/zh active Pending
- 2020-12-07 EP EP20938500.4A patent/EP4040346A4/en active Pending
- 2020-12-07 JP JP2021563294A patent/JP6995262B1/ja active Active
- 2020-12-07 WO PCT/JP2020/045416 patent/WO2022123619A1/ja unknown
- 2020-12-07 US US17/616,674 patent/US20220398504A1/en active Pending
-
2021
- 2021-12-07 TW TW110145679A patent/TWI804090B/zh active
Also Published As
Publication number | Publication date |
---|---|
EP4040346A1 (en) | 2022-08-10 |
EP4040346A4 (en) | 2022-08-10 |
TWI804090B (zh) | 2023-06-01 |
JPWO2022123619A1 (zh) | 2022-06-16 |
JP6995262B1 (ja) | 2022-01-14 |
TW202232388A (zh) | 2022-08-16 |
US20220398504A1 (en) | 2022-12-15 |
WO2022123619A1 (ja) | 2022-06-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11657602B2 (en) | Font identification from imagery | |
US20210004589A1 (en) | Scene and user-input context aided visual search | |
US20200193552A1 (en) | Sparse learning for computer vision | |
CN108629224B (zh) | 信息呈现方法和装置 | |
US8977629B2 (en) | Image-based popularity prediction | |
US10963692B1 (en) | Deep learning based document image embeddings for layout classification and retrieval | |
US12019707B2 (en) | Systems, methods, and storage media for training a model for image evaluation | |
CN112258260A (zh) | 基于用户特征的页面展示方法、装置、介质及电子设备 | |
Wright et al. | Artfid: Quantitative evaluation of neural style transfer | |
CN113657087B (zh) | 信息的匹配方法及装置 | |
CN108984555A (zh) | 用户状态挖掘和信息推荐方法、装置以及设备 | |
Papadopoulos et al. | Multimodal Quasi-AutoRegression: Forecasting the visual popularity of new fashion products | |
US10891522B2 (en) | System for support vector machine prediction | |
CN114916238A (zh) | 学习系统、学习方法和程序 | |
US11036970B2 (en) | Hybrid deep learning method for gender classification | |
JP2023018101A (ja) | 学習装置、機械学習モデル及び学習方法 | |
CN115660756A (zh) | 一种电商商品的价格监测方法、装置、设备和介质 | |
CN114283300A (zh) | 标签确定方法及装置、模型训练方法及装置 | |
Yang et al. | Nondestructive prediction of physicochemical properties of kimchi sauce with artificial and convolutional neural networks | |
CN113822302A (zh) | 一种目标检测模型的训练方法及装置 | |
Lopes et al. | EvoDesigner: aiding the exploration of innovative graphic design solutions | |
Sreedharan et al. | NutriFoodNet: A High-Accuracy Convolutional Neural Network for Automated Food Image Recognition and Nutrient Estimation. | |
TW201624386A (zh) | 商品上架方法 | |
Wang et al. | A feature extraction and similarity metric-learning framework for urban model retrieval | |
CN113988979A (zh) | 一种基于条件相似性语义匹配的多维度商品信息推荐方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |