CN114902244A - 信息处理方法以及信息处理系统 - Google Patents

信息处理方法以及信息处理系统 Download PDF

Info

Publication number
CN114902244A
CN114902244A CN202080090589.2A CN202080090589A CN114902244A CN 114902244 A CN114902244 A CN 114902244A CN 202080090589 A CN202080090589 A CN 202080090589A CN 114902244 A CN114902244 A CN 114902244A
Authority
CN
China
Prior art keywords
inference
model
information
discrimination
result
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080090589.2A
Other languages
English (en)
Inventor
奥野智行
中田洋平
石井育规
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Intellectual Property Corp of America
Original Assignee
Panasonic Intellectual Property Corp of America
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Intellectual Property Corp of America filed Critical Panasonic Intellectual Property Corp of America
Publication of CN114902244A publication Critical patent/CN114902244A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0495Quantised networks; Sparse networks; Compressed networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0895Weakly supervised learning, e.g. semi-supervised or self-supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/094Adversarial learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

向第一模型输入第一数据,取得第一结果(S101),向第二模型输入第一数据,取得第二结果(S102),取得关于被输入到判别模型的第一结果的判别信息与表示是第一模型的输出的正确答案信息之间的误差(S103),取得关于被输入到判别模型的第二结果的判别信息与表示是第二模型的输出的正确答案信息之间的误差(S104),以减小误差的方式通过机器学习训练判别模型(S105),向第二模型输入第二数据,取得第三结果(S106),取得关于被输入到判别模型的第三结果的判别信息与表示是第一模型的输出的正确答案信息之间的误差(S107),以减小误差的方式通过机器学习训练第二模型(S108)。

Description

信息处理方法以及信息处理系统
技术领域
本发明涉及信息处理方法以及信息处理系统。
背景技术
存在基于系统的计算资源以及性能规格来变更用于机器学习处理的设定的技术(参照专利文献1)。由此,即使计算资源以及性能规格被制约,推理性能也被维持在一定程度。
现有技术文献
专利文献
专利文献1:美国专利申请公开第2016/0328644号说明书
发明内容
发明要解决的课题
然而,在上述文献所公开的技术中,存在以下问题:即使推理性能被维持,也存在基于由设定变更前的机器学习处理得到的推理模型的推理结果与基于由设定变更后的机器学习处理得到的推理模型的推理结果不同的情况。
因此,本发明提供一种信息处理方法等,减少在两个推理模型之间产生的推理结果的差异。
用于解决课题的手段
本发明一形态的信息处理方法是由处理器使用存储器执行的信息处理方法,在所述信息处理方法中,向第一推理模型输入第一数据,取得第一推理结果,向第二推理模型输入所述第一数据,取得第二推理结果,向输出对被输入的信息是所述第一推理模型的输出、还是所述第二推理模型的输出进行了判别的判别信息的判别模型输入所述第一推理结果,取得关于被输入的所述第一推理结果的所述判别信息即第一判别信息,取得第一误差,所述第一误差表示所述第一判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,向所述判别模型输入所述第二推理结果,取得关于被输入的所述第二推理结果的所述判别信息即第二判别信息,取得第二误差,所述第二误差表示所述第二判别信息与表示是所述第二推理模型的输出的正确答案信息之间的差分,以减小所述第一误差以及所述第二误差的方式,通过机器学习训练所述判别模型,向所述第二推理模型输入第二数据,取得第三推理结果,向训练后的所述判别模型输入所述第三推理结果,取得关于被输入的所述第三推理结果的所述判别信息即第三判别信息,取得第三误差,所述第三误差表示所述第三判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,以减小所述第三误差的方式,通过机器学习训练所述第二推理模型
另外,这些总括性或具体形态,也可以由系统、装置、集成电路、计算机程序或计算机可读取的CD-ROM等的记录介质实现,也可以由系统、装置、集成电路、计算机程序以及记录介质的任意组合实现。
发明效果
本发明的信息处理方法能够减小两个推理模型之间产生的推理结果的差异。
附图说明
图1是示出实施方式1的处理系统的功能结构的方框图。
图2是示出实施方式1的处理系统的判别模型的训练的说明图。
图3是示出实施方式1的处理系统的判别模型的训练所使用的正确答案信息的说明图。
图4是示出实施方式1的处理系统的识别模型的训练的说明图。
图5是示出实施方式1的处理系统的识别模型的训练所使用的正确答案信息的说明图。
图6是示出实施方式1的处理系统执行的处理的流程图。
图7是示出实施方式1的推理系统的功能结构的方框图。
图8是示出实施方式1的推理系统执行的处理的流程图。
图9是示出实施方式2的处理系统的功能结构的方框图。
图10是示出实施方式2的处理系统的识别模型的训练的说明图。
图11是示出实施方式2的处理系统执行的处理的流程图。
图12是示出实施方式3的处理系统的功能结构的方框图。
图13是示出实施方式3的处理系统的判别模型的训练的说明图。
图14是示出实施方式3的处理系统的判别模型的训练所使用的正确答案信息的说明图。
图15是示出实施方式3的处理系统的识别模型的训练的说明图。
图16是示出实施方式3的处理系统的识别模型的训练所使用的正确答案信息的说明图。
图17是示出实施方式3的处理系统执行的处理的流程图。
图18是示出实施方式4的处理系统的功能结构的方框图。
图19是示出实施方式4的处理系统的功能结构的另一个例子的方框图。
图20是用于说明实施方式4的噪声赋予部赋予的噪声的赋予方法的示意图。
图21是示出实施方式4的处理系统执行的处理的流程图。
图22是示出实施方式4的处理系统执行的处理的另一个例子的流程图。
图23是示出实施方式5的处理系统的功能结构的方框图。
图24是用于说明实施方式5的噪声赋予部赋予的噪声的示意图。
图25是用于说明实施方式5的噪声赋予部赋予的噪声的赋予方法的示意图。
图26是示出实施方式5的处理系统执行的处理的流程图。
具体实施方式
近年来,研究有在IoT(Internet ofThings,物联网)设备中安装由Deep Learning(深度学习)等机器学习训练的推理模型。但是,基于成本以及隐私的观点,该推理模型并不在云计算环境或者使用了GPU(Graphical Processing Unit,图形处理单元)的环境,而是需求通过运算能力以及存储器容量等计算资源被限制的设备上的处理器进行动作。为了在这样的计算资源被限制的处理器上进行推理,考虑了使用使推理模型量化等方法来使推理模型轻量化。
例如上述专利文献1所公开的技术基于系统的计算资源以及性能规格来变更用于机器学习处理的设定。由此,即使计算资源以及性能规格被制约推理性能也被维持在一定程度。
但是,即使推理性能被维持,也存在轻量化前的推理模型的动作与轻量化后的推理模型的动作之间产生差异的情况。换言之,存在轻量化前的推理模型的推理结果与轻量化后的推理模型的推理结果之间产生差异的情况。
因此,本发明的一形态的信息处理方法,是由处理器使用存储器执行的信息处理方法,在所述信息处理方法中,向第一推理模型输入第一数据,取得第一推理结果,向第二推理模型输入所述第一数据,取得第二推理结果,向输出对被输入的信息是所述第一推理模型的输出、还是所述第二推理模型的输出进行了判别的判别信息的判别模型输入所述第一推理结果,取得关于被输入的所述第一推理结果的所述判别信息即第一判别信息,取得第一误差,所述第一误差表示所述第一判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,向所述判别模型输入所述第二推理结果,取得关于被输入的所述第二推理结果的所述判别信息即第二判别信息,取得第二误差,所述第二误差表示所述第二判别信息与表示是所述第二推理模型的输出的正确答案信息之间的差分,以减小所述第一误差以及所述第二误差的方式,通过机器学习训练所述判别模型,向所述第二推理模型输入第二数据,取得第三推理结果,向训练后的所述判别模型输入所述第三推理结果,取得关于被输入的所述第三推理结果的所述判别信息即第三判别信息,取得第三误差,所述第三误差表示所述第三判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,以减小所述第三误差的方式,通过机器学习训练所述第二推理模型。
根据上述形态,上述信息处理方法在训练了能够适当地对是第一推理结果以及第二推理结果中的哪一个进行判别的判别模型的基础上,使用训练后的该判别模型,以第二推理结果被判别为是第一推理结果的方式训练第二推理模型。其结果,第二推理模型以输出与第一推理模型相同的推理结果的方式被训练。即,上述信息处理方法能够减小第一推理模型与第二推理模型之间产生的推理结果的差异。因而,能够减小两个推理模型之间产生的推理结果的差异。具体而言,能够减小基于第一推理模型来得到新的第二推理模型的情况下会产生的推理结果的差异。如此,上述信息处理方法能够减小基于推理模型来得到新的推理模型的情况下会产生的推理结果的差异。
例如,也可以是,向训练后的所述第二推理模型输入其他的所述第二数据,取得其他的所述第三推理结果,基于取得的其他的所述第三推理结果,进一步训练所述第二推理模型。
根据上述形态,使用新的第一数据进一步对训练后的第二推理模型进行训练(换言之,递归地重复训练),因此能够进一步减小基于第一推理模型来得到新的第二推理模型的情况下会产生的推理结果的差异。由此,上述信息处理方法能够进一步减小两个推理模型之间产生的推理结果的差异。
此外,本发明的一形态的信息处理方法,是由处理器使用存储器执行的信息处理方法,在所述信息处理方法中,向第一推理模型输入第一数据,取得第一推理结果,向第二推理模型输入所述第一数据,取得第二推理结果,向输出对被输入的信息是所述第一推理模型的输出、还是所述第二推理模型的输出进行了判别的判别信息的判别模型输入所述第一推理结果,取得关于被输入的所述第一推理结果的所述判别信息即第一判别信息,取得第一误差,所述第一误差表示所述第一判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,向所述判别模型输入所述第二推理结果,取得关于被输入的所述第二推理结果的所述判别信息即第二判别信息,取得第二误差,所述第二误差表示所述第二判别信息与表示是所述第二推理模型的输出的正确答案信息之间的差分,以减小所述第一误差以及所述第二误差的方式,通过机器学习训练所述判别模型,向所述第二推理模型输入第二数据,取得第三推理结果,向训练后的所述判别模型输入所述第三推理结果,取得关于被输入的所述第三推理结果的所述判别信息即第三判别信息,取得第三误差,所述第三误差表示所述第三判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,以减小所述第三误差的方式,通过机器学习训练第三推理模型,通过对训练后的所述第三推理模型进行转换的转换处理,更新所述第二推理模型。
根据上述形态,上述信息处理方法在训练了能够适当地对是第一推理结果以及第二推理结果中的哪一个进行判别的判别模型的基础上,使用训练后的该判别模型以第二推理结果被判别为是第一推理结果的方式训练第三推理模型。并且,通过转换处理从训练后的第三推理模型得到第二推理模型,从而更新第二推理模型。其结果,第二推理模型以与第一推理模型输出相同的推理结果的方式被训练。即,上述信息处理方法能够减小第一推理模型与第二推理模型之间产生的推理结果的差异。因而,能够减小两个推理模型之间产生的推理结果的差异。具体而言,能够减小基于第一推理模型来得到新的第二推理模型的情况下会产生的推理结果的差异。如此,上述信息处理方法能够减小基于推理模型来得到新的推理模型的情况下会产生的推理结果的差异。
例如,也可以是,向更新后的所述第二推理模型输入其他的所述第二数据,取得其他的所述第三推理结果,基于取得的其他的所述第三推理结果,通过机器学习进一步训练所述第三推理模型,通过进一步训练后的所述第三推理模型的所述转换处理,进一步更新所述第二推理模型。
根据上述形态,使用新的第一数据进一步对训练后的第三推理模型进行训练而得到第二推理模型(换言之,递归地重复训练),因此能够进一步减小基于第一推理模型来得到新的第二推理模型的情况下会产生的推理结果的差异。由此,上述信息处理方法能够进一步减小两个推理模型之间产生的推理结果的差异。
例如,也可以是,所述第一推理模型、所述第二推理模型以及所述第三推理模型是神经网络模型,所述转换处理包含使所述神经网络模型轻量化的处理。
根据上述形态,通过使作为第三推理模型的神经网络模型轻量化来得到第二推理模型。由此,能够减小基于第一推理模型来得到轻量化后的新的第二推理模型的情况下会产生的推理结果的差异。由此,上述信息处理方法能够减小基于推理模型来得到轻量化后的新的推理模型的情况下上述两个推理模型之间产生的差异。因而,即使在IoT设备等计算资源被限制的环境中,也能够在维持推理性能的同时应用与第一推理模型的动作相近的第二推理模型。
例如,也可以是,所述轻量化的处理包含使所述神经网络模型量化的处理。
根据上述形态,通过使作为第三推理模型的神经网络模型量化来得到第二推理模型。因此,不变更网络构造就能够使神经网络模型轻量化,并能够抑制轻量化前后的推理性能以及推理结果(动作)的变动。
例如,也可以是,所述量化的处理包含将所述神经网络模型的系数从浮动小数点形式向固定小数点形式转换的处理。
根据上述形态,通过将作为第三推理模型的神经网络模型的系数(权重)从浮动小数点形式转换为固定小数点形式来得到第二推理模型。因此,能够在抑制推理性能以及推理结果(动作)的变动的同时,使其适应一般的安装环境。
例如,也可以是,所述轻量化的处理包含减少所述神经网络模型的节点的处理、或者减少所述神经网络模型的节点的连接的处理。
根据上述形态,通过进行作为第三推理模型的神经网络模型的节点的减少或者节点的连接的减少来得到第二推理模型。因此,由于节点数以及节点的连接的减少与计算量的减少直接相连,因此能够使第二推理模型适应计算资源的制约严格的环境。
例如,也可以是,所述信息处理方法进一步,向所述判别模型输入通过向所述第一推理模型输入所述第一数据而得到的特征量并取得第四推理结果,在所述判别模型的训练中,进一步使用表示所述第一推理结果与所述第四推理结果之间的差分的第四误差而通过机器学习进一步训练所述判别模型。
根据上述形态,进一步使用基于判别模型的对于从第一推理模型得到的特征量的推理结果(第四推理结果)与第一推理结果之间的差分来训练判别模型。由此,减小判别模型的推理结果与第一推理模型的推理结果的差异,由此,能够进一步减小基于第一推理模型来得到新的第二推理模型的情况下会产生的推理结果的差异。由此,上述信息处理方法能够进一步减小两个推理模型之间产生的推理结果的差异。
例如,也可以是,所述信息处理方法进一步,对所述第二推理结果赋予噪声,在所述第二判别信息的取得中,向所述判别模型输入被赋予了所述噪声的所述第二推理结果并取得所述第二判别信息。
根据上述形态,能够抑制判别模型可以容易地区分第一推理结果与第二推理结果的情况。在判别模型的训练推进的情况下,存在第一推理结果与第二推理结果的判别变得容易,使用了判别信息的第二推理模型的训练停滞的情况。但是,根据上述形态,至少第二推理结果被赋予噪声,因此基于判别模型的判别变得困难。其结果,能够抑制第二推理模型的训练停滞。
例如,也可以是,所述噪声基于所述第二推理结果的离散幅度而被决定。
根据上述形态,能够在残留推理结果的特征的同时,抑制判别模型将推理结果的离散幅度作为特征来判别推理结果。
例如,也可以是,所述噪声包含高斯噪声,所述高斯噪声的分布的振幅基于所述高斯噪声的标准偏差与所述第二推理结果的离散幅度而被决定。
根据上述形态,能够控制通过高斯噪声覆盖离散幅度的范围。因而,能够在判别模型无法判别的范围内决定高斯噪声,并能够抑制噪声的过量或不足。
例如,也可以是,所述高斯噪声的分布的振幅按所述第二推理结果的单元成分的每个规定的范围而被决定。
例如,也可以是,所述高斯噪声的分布的振幅按所述第二推理结果的通道成分的每个规定的范围而被决定。
根据上述形态,振幅按各成分的每个规定的范围而被决定,因此能够按各成分的每个规定的范围来决定噪声。因而,能够按各成分的每个规定的范围,分别赋予使判别模型变得判别困难那样的噪声。
例如,也可以是,所述噪声被赋予给具有规定的单元成分的所述第二推理结果的一部分。
例如,也可以是,所述噪声被赋予给具有规定的通道成分的所述第二推理结果的一部分。
根据上述形态,能够按各成分的每个规定的范围,分别赋予使判别模型变得判别困难那样的噪声。
例如,也可以是,所述信息处理方法进一步,对所述第二推理结果赋予噪声,在所述第二判别信息的取得中,向所述判别模型输入被赋予了所述噪声的所述第二推理结果并取得所述第二判别信息,所述噪声包含高斯噪声,所述高斯噪声基于所述第二推理结果的离散幅度而被决定,所述离散幅度基于所述转换处理中的转换设定而被决定。
根据上述形态,考虑转换的内容而决定离散幅度并且噪声基于该离散幅度而被决定,因此能够赋予适合于转换后的推理模型输出的推理结果的噪声。因而,能够抑制由推理模型的转换产生的推理结果的离散化导致的对判别模型的判别处理的影响的效果。
例如,也可以是,所述第一数据以及所述第二数据是图像数据。
根据上述形态,在基于对于图像数据的推理所使用的推理模型来得到新的推理模型的情况下,能够减小上述两个推理模型之间产生的推理结果的差异。
此外,本发明的一形态的信息处理系统,具备:取得部,取得第三数据;以及推理部,向第二推理模型输入所述取得部取得的所述第三数据,取得并输出第二推理结果,所述第二推理模型是通过如下方式得到的第二推理模型:向第一推理模型输入第一数据,取得第一推理结果,向第二推理模型输入所述第一数据,取得第二推理结果,向输出对被输入的信息是所述第一推理模型的输出、还是所述第二推理模型的输出进行了判别的判别信息的判别模型输入所述第一推理结果,取得关于被输入的所述第一推理结果的所述判别信息即第一判别信息,取得第一误差,所述第一误差表示所述第一判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,向所述判别模型输入所述第二推理结果,取得关于被输入的所述第二推理结果的所述判别信息即第二判别信息,取得第二误差,所述第二误差表示所述第二判别信息与表示是所述第二推理模型的输出的正确答案信息之间的差分,以减小所述第一误差以及所述第二误差的方式,通过机器学习训练所述判别模型,向所述第二推理模型输入第二数据,取得第三推理结果,向训练后的所述判别模型输入所述第三推理结果,取得关于被输入的所述第三推理结果的所述判别信息即第三判别信息,取得第三误差,所述第三误差表示所述第二判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,以减小所述第三误差的方式,通过机器学习训练所述第二推理模型。
根据上述形态,信息处理系统能够基于现有的推理模型,使用以减小推理结果的差异的方式生成的新的推理模型来执行推理处理,并输出推理结果。
此外,本发明的一形态的信息处理系统具备:取得部,取得第三数据;以及推理部,向第二推理模型输入所述取得部取得的所述第三数据,取得并输出第二推理结果,所述第二推理模型是通过如下方式得到的第二推理模型:向第一推理模型输入第一数据,取得第一推理结果,向第二推理模型输入所述第一数据,取得第二推理结果,向输出对被输入的信息是所述第一推理模型的输出、还是所述第二推理模型的输出进行了判别的判别信息的判别模型输入所述第一推理结果,取得关于被输入的所述第一推理结果的所述判别信息即第一判别信息,取得第一误差,所述第一误差表示所述第一判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,向所述判别模型输入所述第二推理结果,取得关于被输入的所述第二推理结果的所述判别信息即第二判别信息,取得第二误差,所述第二误差表示所述第二判别信息与表示是所述第二推理模型的输出的正确答案信息之间的差分,以减小所述第一误差以及所述第二误差的方式,通过机器学习训练所述判别模型,向所述第二推理模型输入第二数据,取得第三推理结果,向训练后的所述判别模型输入所述第三推理结果,取得关于被输入的所述第三推理结果的所述判别信息即第三判别信息,取得第三误差,所述第三误差表示第三判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,以减小所述第三误差的方式,通过机器学习训练第三推理模型,通过对训练后的所述第三推理模型进行转换的转换处理,更新所述第二推理模型。
根据上述形态,信息处理系统能够基于现有的推理模型,使用以减小推理结果的差异的方式生成的新的推理模型来执行推理处理,并输出推理结果。
另外,这些总括性或具体形态,也可以由系统、装置、集成电路、计算机程序或计算机可读取的CD-ROM等的记录介质实现,也可以由系统、装置、集成电路、计算机程序以及记录介质的任意组合实现。
以下,对于实施方式,参照附图进行具体说明。
另外,以下说明的实施方式,都示出总括性或具体例子。以下的实施方式所示的数值、形状、材料、构成要素、构成要素的配置位置以及连接方式、步骤、步骤的顺序等是一个例子,其主旨并非是限定本发明。并且,对于以下的实施方式的构成要素中的示出最上位概念的实施方案中没有记载的构成要素,作为任意的构成要素而被说明。
(实施方式1)
本实施方式中,对减小基于推理模型来得到新的推理模型的情况下会产生的推理结果的差异的信息处理方法以及信息处理系统进行说明。以下,也将信息处理方法仅称作处理方法,将信息处理系统仅称作处理系统。
图1是示出本实施方式的处理系统10的功能结构的方框图。处理系统10是用于得到新的推理模型的系统,所述新的推理模型构成为与现有的推理模型输出相同的推理结果。
如图1所示,处理系统10具备识别部11、判别部12、计算部13、判别训练部14、以及识别训练部15。处理系统10所具备的各功能部可以通过处理器(例如CPU(CentralProcessing Unit,中央处理器))(不图示)使用存储器执行规定的程序来实现。另外,处理系统10可以作为一个装置而实现,由能够相互通信的多个装置实现。
识别部11是使用作为推理模型的识别模型来识别被输入的数据(也称作输入数据)的功能部。识别模型例如是神经网络模型。输入数据例如是图像数据,以这种情况为例进行说明,但输入数据可以使用从麦克风输出的语音数据、从LiDAR(Light Detection andRanging,激光探测及测距)等雷达输出的点群数据、从压力传感器输出的压力数据、从温度传感器或者湿度传感器输出的温度数据或者湿度数据、或者从气味传感器输出的气味数据等能够取得正确答案数据的传感数据。输入数据相当于第一数据以及第二数据。
识别部11取得网络A以及B作为对输入数据进行识别的识别模型所使用的神经网络。更具体而言,识别部11取得网络A以及B各自所含的系数。使用了网络A的识别模型相当于“现有的推理模型”,也称作第一推理模型。使用了网络B的识别模型相当于以与现有的推理模型输出相同的推理结果的方式构成的新的推理模型,也称作第二推理模型。使用了网络B的识别模型以与使用了网络A的识别模型输出相同的识别结果的方式通过识别训练部15而被训练(后述)。
识别部11输出表示使用网络A的识别模型对输入数据进行识别而得到的结果的识别结果(也称作第一推理结果)。此外,识别部11输出表示使用网络B对输入数据进行识别而得到的结果的识别结果(也称作第二推理结果)。此外,识别部11输出表示被识别训练部15训练后并使用网络B的识别模型对输入数据进行识别而得到的结果的识别结果(也称作第三推理结果)。
上述识别结果是表示对作为输入数据的图像数据进行识别而得到的结果的信息,例如包含映入图像数据中的物品或状况,或者表示它们的属性的信息。此外,上述识别结果也可以包含表示输入数据的特征的信息即特征量。此外,上述识别结果也可以是识别模型的处理的中间数据,也可以是上述特征量为中间数据。
判别部12是取得识别部11的识别结果,并对取得的识别信息是由使用网络A的识别模型识别的结果、还是由使用网络B的识别模型识别的结果进行判别的功能部。判别部12使用推理模型(也称作判别模型)来进行上述判别。判别模型例如是神经网络模型。
判别部12从识别部11取得由使用网络A的识别模型识别的结果(也称作基于网络A的识别结果)、以及由使用网络B的识别模型识别的结果(也称作基于网络B的识别结果)。判别部12将从识别部11得到的识别结果输入到判别模型,并取得关于输入的识别结果的判别信息。判别信息是表示输入的识别结果是基于网络A的识别结果、还是基于网络B的识别结果的信息,例如是概率地表示是基于网络A的识别结果、还是基于网络B的识别结果的信息。
计算部13是计算判别部12输出的判别信息与正确答案信息之间的误差的功能部。计算部13取得表示示出针对基于网络A的识别结果而判别部12所判别的结果的判别信息与正确答案信息之间的差分的误差信息(也称作第一误差)。这里,正确答案信息是表示判别信息是基于网络A的识别结果的信息。此外,误差信息通过使用判别信息与正确答案信息,由计算部13所保有的损失函数进行运算而被计算。损失函数例如是利用了判别信息与正确答案信息各自所包含的概率的误差平方和的函数,以这种情况为例进行说明,但并不限定于此。
此外,计算部13取得表示示出针对基于网络B的识别结果而判别部12所判别的结果的判别信息与正确答案信息之间的差分的误差信息(也称作第二误差)。这里,正确答案信息是表示判别信息是基于网络B的识别结果的信息。此外,关于误差信息与使用网络A的情况相同。
此外,计算部13取得表示示出针对基于训练后的网络B的识别结果(相当于第三推理结果)而判别部12所判别的结果的判别信息与正确答案信息之间的差分的误差信息(也称作第三误差)。这里,正确答案是表示信息判别信息是基于网络A的识别结果的信息。
判别训练部14是通过机器学习来训练判别模型的功能部。判别训练部14取得计算部13计算出的第一误差以及第二误差,并以减小第一误差以及第二误差的方式通过机器学习训练判别模型。判别训练部14参照计算部13保有的损失函数,对如何调整判别模型所含的系数则第一误差以及第二误差变小进行判断,以第一误差以及第二误差变小的方式更新判别模型所含的系数。损失函数可以采用使用误差平方和的方法等公知技术。
识别训练部15是通过机器学习来训练使用网络B的识别模型的功能部。识别训练部15取得计算部13计算出的第三误差,以减小第三误差的方式通过机器学习训练使用网络B的识别模型。识别训练部15参照计算部13保有的损失函数,对如何调整网络B所含的系数则第三误差变小进行判断,以第三误差变小的方式更新网络B所含的系数。此时,识别训练部15不使判别模型所含的系数变化而使其固定。通过系数的更新而被训练的网络B被输入到识别部11。
而且,识别部11通过向由识别训练部15更新后的使用网络B的识别模型输入新的输入数据,来取得新的识别结果。并且,通过将取得的识别结果用作上述识别信息,判别部12、计算部13、判别训练部14以及识别训练部15执行与上述相同的处理,从而处理系统10进一步训练网络B。
以下,对基于处理系统10的网络B的更新的概要进行说明。网络B的更新通过判别模型的训练与使用网络B的识别模型的训练被重复执行而实现。以下,对于(1)判别模型的训练、(2)使用网络B的识别模型的训练进行说明。
(1)判别模型的训练
图2是示出本实施方式的处理系统10的判别模型的训练的说明图。图3是示出本实施方式的处理系统10的判别模型的训练所使用的正确答案信息的说明图。
识别部11在输入图像被输入时,执行分别通过使用网络A的识别模型与使用网络B的识别模型来识别图像的识别处理,并输出识别结果。识别结果例如是“狗:70%,猫:30%”这样的信息。上述识别结果的意思是:映入输入图像中的被拍摄体是狗的概率为70%,被拍摄体是猫的概率为30%。以下也相同。识别部11输出的识别结果由判别部12提供。
判别部12通过使用网络D的判别模型对由识别部11提供的识别结果是由使用网络A的识别模型识别的识别结果、还是由使用网络B的识别模型识别的识别结果进行判别。判别信息例如是“A:70%、B:30%”的信息。上述识别结果的意思是:是由使用网络A的识别模型识别的识别结果的概率为70%,是由使用网络B的识别模型识别的识别结果的概率为30%。
计算部13关于网络A计算判别部12输出的判别信息与正确答案信息之间的误差。具体而言,计算部13在得到了“A:70%,B:30%”这一判别信息作为对于使用网络A的识别模型中的识别结果的判别结果的情况下,对该判别信息与表示使用网络A的识别模型中的识别结果的正确答案信息“A:100%,B:0%”进行比较(参照图3)。并且,计算部13得到由判别信息与正确答案信息中的网络A涉及的概率之差(1-0.7)的平方即0.09计算的误差。
此外,计算部13关于网络B与上述同样,计算判别部12输出的判别信息与正确答案信息之间的误差。即,计算部13在得到了“A:70%,B:30%”这一判别信息作为对于使用网络B的识别模型中的识别结果的判别结果的情况下,与表示使用网络B的识别模型中的识别结果的正确答案信息的“A:0%,B:100%”进行比较(参照图3)。并且,计算部13得到由判别信息与正确答案信息中的网络B涉及的概率之差(1-0.3)的平方即0.49计算的误差。
判别训练部14以减小由计算部13计算的误差的方式,调整网络D所含的系数。此时,判别训练部14参照损失函数,以通过系数的调整而上述误差变小的方式来调整上述系数。如此,判别训练部14通过调整网络D的系数来更新网络D。
(2)使用网络B的识别模型的训练
图4是示出本实施方式的处理系统10的识别模型的训练的说明图。图5是示出本实施方式的处理系统10的识别模型的训练所使用的正确答案信息的说明图。
如图4所示,在识别部11被输入输入图像时,识别部11执行通过使用网络B的识别模型识别图像的识别处理,并输出识别结果。识别结果例如是“狗:80%,猫:20%”这一信息。识别部11输出的识别结果被向判别部12提供。
判别部12通过使用网络D的判别对由模型识别部11提供的识别结果是由网络A的识别模型识别的识别结果、还是由使用网络B的识别模型识别的识别结果进行判别。例如得到“A:20%,B:80%”这一判别信息作为判别结果。
计算部13计算判别部12输出的判别信息与正确答案信息之间的差分。具体而言,计算部13在得到“A:20%,B:80%”这一判别信息作为对于使用网络B的识别模型中的识别结果的判别结果的情况下,与表示使用网络A的识别模型中的识别结果的正确答案信息的“A:100%,B:0%”进行比较(参照图5)。并且,计算部13得到由判别信息与正确答案信息中的网络A涉及的概率之差(1-0.2)的平方即0.64计算的误差。
并且,识别训练部15以减小由计算部13计算的误差的方式,调整网络B所含的系数。此时,识别训练部15不使网络D所含的系数变化而使其固定。
识别训练部15在调整网络B所含的系数时参照损失函数,以通过系数的调整而减小上述误差的方式调整上述系数。如此,识别训练部15通过调整网络B的系数来更新网络B。
对于如上构造的处理系统10执行的处理进行说明。
图6是示出本实施方式的处理系统10执行的处理(也称作处理方法)的流程图。
在步骤S101中,识别部11向使用网络A的识别模型输入输入数据,并取得基于网络A的识别结果。
在步骤S102中,识别部11向使用网络B的识别模型输入输入数据,并取得基于网络B的识别结果。
在步骤S103中,判别部12通过将步骤S101中识别部11取得的基于网络A的识别结果输入到判别模型来取得判别信息。此外,计算部13计算判别部12取得的判别信息与正确答案信息之间的误差。上述正确答案信息是表示被输入的识别结果是基于网络A的识别结果的信息。
在步骤S104中,判别部12通过将步骤S102中识别部11取得的基于网络B的识别结果输入到判别模型来取得判别信息。此外,计算部13计算判别部12取得的判别信息与正确答案信息之间的误差。上述正确答案信息是表示被输入的识别结果是基于网络B的识别结果的信息。
在步骤S105中,判别训练部14使用步骤S103以及S104中计算的误差,以判别模型能够准确地判别被输入到判别模型的识别结果是基于网络A或者B中的哪一个的识别结果的方式,更新判别模型的网络的系数。由此,判别模型被训练。
在步骤S106中,识别部11向使用网络B的识别模型输入输入数据,并取得基于网络B的识别结果。
在步骤S107中,判别部12通过将步骤S106中识别部11取得的基于网络B的识别结果输入到判别模型来取得判别信息。此外,计算部13计算判别部12取得的判别信息与正确答案信息之间的误差。上述正确答案信息是表示被输入的识别结果是基于网络A的识别结果的信息。
在步骤S108中,识别训练部15使用步骤S107中计算的误差,以由判别部12判别为基于网络B的识别结果是网络A的识别结果的方式,更新网络B的系数。
根据以上的一系列处理,处理系统10在训练了能够适当地对是基于网络A的识别结果以及基于网络B的识别结果中的哪一个进行判别的判别模型的基础上,使用训练后的该判别模型,以基于网络B的识别结果被判别为是网络A的识别结果的方式更新网络B的系数,由此,对使用网络B的识别模型进行训练。其结果,使用网络B的识别模型以与使用网络A的识别模型输出相同的推理结果的方式被训练。如此,处理系统10能够减小基于使用网络A的识别模型来得到使用网络B的识别模型的情况下会产生的识别结果的差异。
接着,对于通过处理系统10得到的使用网络B的推理系统20进行说明。也将推理系统称作信息处理系统。
图7是示出本实施方式的推理系统20的功能结构的方框图。
如图7所示,推理系统20具备取得部21、以及推理部22。推理系统20所具备的各功能部可以通过处理器(例如CPU)(不图示)使用存储器执行规定的程序实现。
取得部21是取得被输入的数据(也称作输入数据)的功能部。输入数据与被输入到处理系统10的数据同样,例如是图像数据。取得部21将取得的输入数据向推理部22提供。输入数据相当于第三数据。
推理部22是将取得部21取得的输入数据向推理模型(相当于第二推理模型)输入,并且取得并输出推理结果的功能部。推理部22为了得到推理结果所使用的推理模型是通过处理系统10训练后的、使用网络B的识别模型。
图8是示出本实施方式的推理系统20执行的处理的流程图。
如图8所示,在步骤S201中,取得部21取得输入数据。
在步骤S202中,推理部22将取得部21取得的输入数据向推理模型输入,并且取得并输出推理结果。
如此,推理系统20能够使用基于现有的推理模型并以减小推理结果的差异的方式生成的新的推理模型来执行推理处理,并输出推理结果。
如以上所述,本实施方式的信息处理方法在进行了能够适当地对是第一推理结果以及第二推理结果中的哪一个进行判别的判别模型的训练的基础上,使用训练后的该判别模型以第二推理结果被判别为是第一推理结果的方式训练第二推理模型。其结果,第二推理模型以与第一推理模型输出相同的推理结果的方式被训练。即,上述信息处理方法能够减小第一推理模型与第二推理模型之间产生的推理结果的差异。因而,能够减小两个推理模型之间产生的推理结果的差异。具体而言,能够减小基于第一推理模型来得到新的第二推理模型的情况下会产生的推理结果的差异。如此,上述信息处理方法能够减小基于推理模型来得到新的推理模型的情况下会产生的推理结果的差异。
此外,使用新的第一数据进一步训练训练后的第二推理模型(换言之,递归地重复训练),因此能够进一步减小基于第一推理模型来得到新的第二推理模型的情况下会产生的推理结果的差异。由此,上述信息处理方法能够进一步减小两个推理模型之间产生的推理结果的差异。
此外,在基于对于图像数据的推理所使用的推理模型来得到新的推理模型的情况下,能够减小上述两个推理模型之间产生的推理结果的差异。
此外,信息处理系统能够使用基于现有的推理模型并以减小推理结果的差异的方式生成的新的推理模型来执行推理处理,并输出推理结果。
(实施方式2)
在本实施方式中,对于减小基于推理模型来得到新的推理模型的情况下会产生的推理结果的差异的信息处理方法以及信息处理系统,对与实施方式1中的不同的结构进行说明。另外,对与实施方式1中的相同的构成要素标注相同的附图标记,省略详细的说明。
图9是示出本实施方式的处理系统10A的功能结构的方框图。本实施方式的处理系统10A是为了得到以与现有的推理模型输出相同的推理结果的方式构成的新的推理模型的系统。
这里,现有的推理模型的形式与新的推理模型的形式不同。具体而言,构成现有的推理模型的网络的系数由浮动小数点形式表现,构成新的推理模型的网络的系数由固定小数点形式表现。在这种情况下,处理系统10A可以认为是用于通过使由浮动小数点形式表现的现有的推理模型量化,从而得到由固定小数点形式表现的新的网络的系统。
如图9所示,处理系统10A具备识别部11、判别部12、计算部13、判别训练部14、识别训练部15A、以及转换部16。处理系统10A所具备的各功能部与实施方式1中的同样,可以由处理器(例如CPU)(不图示)使用存储器执行规定的程序实现。
处理系统10A的构成要素中,识别部11、判别部12、计算部13、以及判别训练部14与实施方式1的处理系统10中的相同。对于识别训练部15A与转换部16以下详细地说明。
识别训练部15A是通过机器学习训练使用网络B1的识别模型的功能部。识别训练部15A取得计算部13计算的第三误差,以减小第三误差的方式,通过机器学习训练使用网络B1的识别模型。识别训练部15A参照计算部13保有的损失函数,对如何调整网络B1所含的系数则第三误差变小进行判断,以第三误差变小的方式更新网络B1所含的系数。此时,识别训练部15A不使判别模型所含的系数变化而使其固定。识别训练部15A将训练后的网络B1向转换部16提供。
转换部16是通过对于网络B1的系数进行转换处理来得到网络B的功能部。转换部16取得由识别训练部15A训练的网络B1并通过对网络B1的系数实施规定的转换处理来更新网络B。
而且,识别部11通过向更新后的、使用网络B的识别模型输入新的输入数据来取得新的识别结果。并且,通过将取得的识别结果用作上述识别信息,判别部12、计算部13、判别训练部14、识别训练部15A以及转换部16执行与上述相同的处理,从而处理系统10A进一步更新网络B。
另外,转换处理例如包含使网络B1轻量化的处理。轻量化的处理例如包含使网络B1量化的处理。例如,在网络B1是神经网络模型的情况下,量化的处理可以包含将神经网络模型的系数从浮动小数点形式向固定小数点形式转换的处理。此外,轻量化的处理可以包含减少神经网络模型的节点的处理、或者减少神经网络模型的节点的连接的处理。
图10是示出本实施方式的处理系统10A的识别模型的训练的说明图。
从输入图像被输入到识别部11至由计算部13计算误差为止的处理实施方式1的处理系统10中的相同。
在由计算部13计算误差后,识别训练部15A以减小由计算部13计算的误差的方式,调整网络B1所含的系数。此时,识别训练部15A不变更网络D所含的系数而将其固定。
识别训练部15A在调整网络B1所含的系数时,参照损失函数,以通过系数的调整而减小上述误差的方式调整上述系数。如此,识别训练部15A通过调整网络B1的系数来更新网络B。
转换部16取得由识别训练部15A训练后的网络B1,进行对于网络B1的系数的转换处理,从而得到新的网络B。
对于如上构成的处理系统10A执行的处理进行说明。
图11是示出本实施方式的处理系统10A执行的处理(也称作处理方法)的流程图。
图11所示的步骤S101~步骤S107所含的处理与实施方式1的处理系统10处理相同(参照图6)。
在步骤S121中,识别训练部15A使用步骤S107中计算的误差,以基于网络B的识别结果被判别部12判别为是网络A的识别结果方式,更新网络B1的系数。
在步骤S122中,转换部16取得步骤S121中由识别训练部15A更新了系数的网络B1,并通过转换网络B1的系数来取得网络B。
在步骤S123中,转换部16根据步骤S122中取得的网络B来更新被输入到识别部11的网络。
根据以上的一系列处理,处理系统10A在进行了能够适当地对是基于网络A的识别结果以及基于网络B的识别结果中的哪一个进行判别的判别模型的训练的基础上,使用训练后的该判别模型,以基于网络B的识别结果被判别为是网络A的识别结果的方式更新网络B1的系数,由此,对使用网络B1的识别模型进行训练。而且,通过转换处理由更新后的网络B1得到网络B,从而更新使用网络B的识别模型。其结果,使用网络B的识别模型以与使用网络A的识别模型输出相同的推理结果的方式被训练。如此,处理系统10A能够减小基于使用网络A的识别模型来得到使用网络B的识别模型的情况下会产生的识别结果的差异。
如以上所述,本实施方式的信息处理方法在进行了能够适当地对是第一推理结果以及第二推理结果中的哪一个进行判别的判别模型的训练的基础上,使用训练后的该判别模型以第二推理结果被判别为是第一推理结果的方式,训练第三推理模型。并且,通过转换处理由训练后第三推理模型得到第二推理模型,从而更新第二推理模型。其结果,第二推理模型以与第一推理模型输出相同的推理结果的方式被训练。即,上述信息处理方法能够减小第一推理模型与第二推理模型之间产生的推理结果的差异。因而,能够减小两个推理模型之间产生的推理结果的差异。具体而言,能够减小基于第一推理模型来得到新的第二推理模型的情况下会产生的推理结果的差异。如此,上述信息处理方法能够减小基于推理模型来得到新的推理模型的情况下会产生的推理结果的差异。
此外,使用新的第一数据进一步训练训练后的第三推理模型并得到第二推理模型(换言之,递归地重复训练),因此能够进一步减小基于第一推理模型来得到新的第二推理模型的情况下会产生的推理结果的差异。由此,上述信息处理方法能够进一步减小两个推理模型之间产生的推理结果的差异。
此外,通过使作为第三推理模型的神经网络模型轻量化来得到第二推理模型。由此,能够减小基于第一推理模型来得到轻量化后的新的第二推理模型的情况下会产生的推理结果的差异。由此,上述信息处理方法能够减小基于推理模型来得到轻量化后的新的推理模型的情况下,上述两个推理模型之间产生的差异。因而,即使在IoT设备等计算资源被限制的环境中,也能够在维持推理性能的同时应用与第一推理模型的动作接近的第二推理模型。
此外,通过使作为第三推理模型的神经网络模型量化来得到第二推理模型。因此,不变更网络构造就能够使神经网络模型轻量化,并且能够抑制轻量化前后的推理性能以及推理结果(动作)的变动。
此外,通过将作为第三推理模型的神经网络模型的系数从浮动小数点形式转换为固定小数点形式来得到第二推理模型。因此,能够在抑制推理性能以及推理结果(动作)的变动的同时,使其适应一般的安装环境。
此外,通过进行作为第三推理模型的神经网络模型的节点的减少或者节点的连接的减少来得到第二推理模型。因此,由于节点数以及节点的连接的减少与计算量的减少直接相连,因此能够使第二推理模型适应于计算资源的制约严格的环境。
(实施方式3)
在本实施方式中,对于减小基于推理模型来得到新的推理模型的情况下会产生的推理结果的差异的信息处理方法以及信息处理系统,对与实施方式1中的不同的结构进行说明。另外,对与实施方式1中的相同的构成要素标注相同的附图标记,省略详细的说明。
图12是示出本实施方式的处理系统10B的功能结构的方框图。本实施方式的处理系统10B是用于参照现有的推理模型而得到输出与该现有的推理模型相同的推理结果的新的推理模型的系统。
图12是示出本实施方式的处理系统10B的功能结构的方框图。
如图12所示,具备识别部11B、判别部12B、第一计算部13B、判别训练部14B、识别训练部15B、以及第二计算部18。处理系统10B所具备的各功能部处理器(例如CPU)(不图示)可以使用存储器执行规定的程序来实现。另外,处理系统10B可以作为一个装置实现,也可以由相互通信可能的多个装置实现。
识别部11B与实施方式1的识别部11同样,是使用作为推理模型的识别模型来识别输入数据的功能部,输出基于网络A以及B的识别结果(即第一推理结果、第二推理结果以及第三推理结果)。
此外,识别部11B将基于网络A的识别结果(即第一推理结果)向第二计算部18提供,并且,将作为基于网络A的识别结果而得到的特征图向判别部12B输出。
判别部12B与实施方式1的判别部12同样,将从识别部11B得到的识别结果向判别模型输入,取得关于被输入的识别结果的判别信息。此外,判别部12B取得识别部11B输出的特征图,并向判别模型输入特征图,从而将被输出的识别结果向第二计算部18输出。
第一计算部13B是与实施方式1的计算部13相同的功能部。
第二计算部18从识别部11B取得基于网络A的识别结果,此外,取得基于以特征图为输入的判别模型的识别结果。并且,第二计算部18计算取得的两个识别结果之间的误差(相当于第四误差)。
判别训练部14B与实施方式1的判别训练部14同样,是通过机器学习训练判别模型的功能部。判别训练部14B取得计算部13计算的第一误差以及第二误差,此外,取得第二计算部18计算的第三误差。并且,判别训练部14B以减小第一误差、第二误差以及第三误差的方式,通过机器学习训练判别模型。
识别训练部15B与实施方式1的识别训练部15同样,是通过机器学习训练识别模型的功能部。识别训练部15B取得第一计算部13B计算的第三误差,此外,取得第二计算部18计算的第四误差。并且,识别训练部15B以减小第三误差以及第四误差的方式,通过机器学习训练使用网络B的识别模型。
以下,对于基于处理系统10B的网络B的更新的概要进行说明。网络B的更新通过判别模型的训练以及使用网络B的识别模型的训练被重复执行而实现。以下,对于(1)判别模型的训练、(2)使用网络B的识别模型的训练进行说明。
(1)判别模型的训练
图13是示出本实施方式的处理系统10B的判别模型的训练的说明图。图14是示出本实施方式的处理系统10B的判别模型的训练所使用的正确答案信息的说明图。
识别部11B与实施方式1的识别部11同样,在输入图像被输入时,执行分别通过使用网络A的识别模型以及使用网络B的识别模型来识别图像的识别处理,并输出识别结果。而且,识别部11B向判别部12B提供特征图,所述特征图是作为使用网络A对输入数据进行识别的结果而得到的。
判别部12B与实施方式1的判别部12同样,通过使用网络D的判别模型对从识别部11B提供的识别结果是由使用网络A的识别模型识别的识别结果、还是由使用网络B的识别模型识别的识别结果进行判别,并向第一计算部13B提供表示该判别结果的判别信息。而且,判别部12B向判别模型输入从识别部11B提供的特征图并向第二计算部18提供得到的识别结果。上述识别结果是表示对被输入的特征图进行识别的结果的信息,例如包含映入成为特征图的生成来源的输入数据即图像数据中的物品或状况、或者表示它们的属性的信息。
第一计算部13B与实施方式1的计算部13同样,计算判别部12输出的判别信息与正确答案信息之间的差分(第一误差以及第二误差)。
第二计算部18从识别部11B取得基于网络A的识别结果,此外,从判别部12B取得基于判别模型的对于特征图的识别结果。并且,第二计算部18计算取得的两个的识别结果的误差(相当于第四误差)。在基于网络A的识别结果是“狗:90%,猫:10%”这一信息,基于判别模型的识别结果是“狗:80%,猫:20%”这一信息的情况下,能够得到由(0.9-0.8)的平方即0.01计算的误差。基于网络A的识别结果作为用于训练判别模型的正确答案信息被处理(参照图14)。
判别训练部14B是通过机器学习训练判别模型的功能部。判别训练部14B以减小由第一计算部13B以及第二计算部18计算的误差(第一误差、第二误差、以及第四误差)的方式,调整网络D所含的系数。此时,判别训练部14B参照损失函数,以通过系数的调整而减少上述误差的方式调整上述系数。如此,判别训练部14B通过调整来更新网络D的系数,训练判别模型。
(2)使用网络B的识别模型的训练
图15是示出本实施方式的处理系统10B的识别模型的训练的说明图。图16是示出本实施方式的处理系统10B的识别模型的训练所使用的正确答案信息的说明图。
识别部11B在输入图像被输入时,执行通过使用网络B的识别模型来识别图像的识别处理,并输出识别结果。识别结果例如是“狗:80%,猫:20%”这一信息。识别部11B输出的识别结果被提供给判别部12B。
判别部12B与实施方式1的识别部11同样,通过使用网络D的判别模型对由识别部11B提供的识别结果是由使用网络A的识别模型识别的识别结果、还是由使用网络B的识别模型识别的识别结果进行判别。此外,判别部12B将向判别模型输入由识别部11B提供的特征图而得到的识别结果向第二计算部18提供。
第一计算部13B计算判别部12输出的判别信息与正确答案信息之间的差分(第三误差)。
第二计算部18从识别部11B取得基于网络A的识别结果,此外,从判别部12B取得基于判别模型的以特征图为输入的识别结果。并且,第二计算部18计算取得的两个识别结果的误差(相当于第四误差)。在基于网络A的识别结果是“狗:90%,猫:10%”这一信息,基于判别模型的识别结果是“狗:80%,猫:20%”这一信息的情况下,能够得到由(0.9-0.8)的平方即0.01计算的误差。基于网络A的识别结果作为用于训练网络B的正确答案信息被处理(参照图16)。
识别训练部15B以减小由第一计算部13B以及第二计算部18计算的误差(第三误差、以及第四误差)的方式,调整网络B所含的系数。此时,识别训练部15B不变更网络D所含的系数而使其固定。
识别训练部15B在调整网络B所含的系数调整时,参照损失函数,以通过系数的调整而减小上述误差的方式调整上述系数。如此,识别训练部15B通过调整网络B的系数来更新网络B。
对于如上构成的处理系统10B执行的处理进行说明。
图17是示出本实施方式的处理系统10B执行的处理的流程图。
图17所示的步骤S101~步骤S104所含的处理与实施方式1的处理系统10的处理相同(参照图6)。
在步骤S141中,识别部11B取得作为基于网络A的识别结果的特征图。
在步骤S142中,判别部12B向判别模型输入特征图,取得使用判别模型的特征图的识别结果。
在步骤S143中,第二计算部18计算基于网络A的识别结果与特征图的识别结果之间的误差。
在步骤S105A中,判别训练部14B以能够准确地对是基于网络A或者B中的哪一个的识别结果进行判别,并且,判别模型进行与网络A相同的识别的方式,更新判别模型的网络的系数。
步骤S106以及S107所含的处理与实施方式1的处理系统10的处理相同(参照图6)。
在步骤S151中,识别部11B取得作为基于网络A的识别结果的特征图。
在步骤S152中,判别部12B向判别模型输入特征图,并取得使用判别模型的特征图的识别结果。
在步骤S153中,第二计算部18计算基于网络A的识别结果与特征图的识别结果之间的误差。
在步骤S108A中,识别训练部15B以基于网络B的识别结果被判别为是网络A的识别结果,并且,判别模型进行与网络A相同的判别的方式,更新网络B的系数。
另外,本实施方式的处理系统10B也可以进一步具备实施方式2的转换部16。
如上述,本实施方式的信息处理方法进一步使用基于判别模型的对于从第一推理模型得到的特征量的推理结果(第四推理结果)与第一推理结果之间的差分来训练判别模型。由此,减小判别模型的推理结果与第一推理模型的推理结果之间的差异,由此,能够进一步减小基于第一推理模型来得到新的第二推理模型的情况下会产生的推理结果的差异。由此,上述信息处理方法能够进一步减小两个推理模型之间产生的推理结果的差异。
另外,在上述实施方式3的使用网络B的识别模型的训练中,设为利用使用网络A的识别模型,但训练的方式并不限定于此。例如,也可以是没有使用网络A的识别模型而训练使用网络B的识别模型。在这种情况下,作为处理的构成与实施方式2使用网络B的识别模型的训练实质上相同。另外,判别模型用使用网络A的识别模型的识别结果而被训练。
(实施方式4)
在本实施方式中,对于减小基于推理模型来得到新的推理模型的情况下会产生的推理结果的差异的信息处理方法以及信息处理系统,对与实施方式1~3的结构不同的结构进行说明。另外,对与实施方式1~3的结构相同的构成要素标注相同的附图标记,省略详细的说明。
图18以及图19是示出本实施方式的处理系统10C的功能结构的方框图。处理系统10C在识别部11、判别部12、计算部13、判别训练部14、以及识别训练部15之外还具备噪声赋予部19。
噪声赋予部19对推理结果赋予噪声。例如,噪声赋予部19如图18所示,对使用网络A的识别模型的识别结果以及使用网络B的识别模型的识别结果赋予噪声。例如,在轻量化的处理是量化的处理的情况下,噪声也可以是高斯噪声。此外,例如,在轻量化的处理是进行节点的减少或者节点的连接的减少的处理的情况下,噪声也可以是通过使与删除的节点相连的权重或者与删除的连接相关的权重的一部复活而产生的噪声。另外,噪声的种类并不限定于此。被赋予噪声的识别结果被输入到判别部12。
另外,噪声赋予部19也可以仅对第二推理结果赋予噪声。例如,噪声赋予部19如图19所示,对使用网络B的识别模型的识别结果赋予噪声。被赋予噪声的识别结果2被输入到判别部1。在这种情况下,第一推理结果即使用网络A的识别模型的识别结果不被赋予噪声而原样地被输入到判别部12。
接着,参照图20,对于推理结果是特征量(特征图)的情况下的噪声的赋予方法进行说明。图20用于说明本实施方式的噪声赋予部19赋予的噪声的赋予方法的示意图。
噪声赋予部19对推理结果的整体赋予噪声。例如,如图20的P1所述,推理结果的全部的单元成分以及通道成分被赋予噪声。图20中,单元成分表示为单元E、单元的高度成分与宽度成分表示为高度H与宽度W、通道成分表示为通道C。
另外,噪声赋予部19也可以对推理结果的一部分赋予噪声。具体而言,噪声赋予部19也可以对具有规定的单元成分的推理结果的一部分赋予噪声。例如,如图20的P2所示,相当于推理结果中的规定的单元成分的推理结果的一部分被赋予噪声。另外,规定的单元成分也可以随机地被决定。
此外,噪声赋予部19也可以对具有规定的通道成分的推理结果的一部分赋予噪声。例如,如图20的P3所示,相当于推理结果中的规定的通道成分的推理结果的一部分被赋予噪声。另外,规定的通道成分也可以随机地被决定。
对于如上构成的处理系统10C执行的处理进行说明。
图21是示出本实施方式的处理系统10C执行的处理的流程图。
图21所示的步骤S101~步骤S108的处理与实施方式1的处理系统10的处理相同(参照图6)。在步骤S102与S103之间新追加步骤S161以及S162。
在步骤S161中,噪声赋予部19对使用网络A的识别模型的识别结果赋予噪声。
在步骤S162中,噪声赋予部19对使用网络B的识别模型的识别结果赋予噪声。
另外,在仅使用网络B的识别模型的识别结果被赋予噪声的情况下,如图22所示,也可以省略步骤S161。
如上述,在本实施方式的信息处理方法中,对第二推理结果赋予噪声,在第二判别信息的取得中,向判别模型输入被赋予了噪声的第二推理结果并取得第二判别信息。由此,能够抑制判别模型变得容易区分第一推理结果与第二推理结果。在判别模型的训练推进的情况下,存在第一推理结果与第二推理结果的判别变得容易,使用判别信息的第二推理模型的训练停滞的情况。但是,根据本实施方式,至少第二推理结果被赋予噪声,因此基于判别模型判别变得困难。其结果,能够抑制第二推理模型的训练停滞。
(实施方式5)
在本实施方式中,对于减小基于推理模型来得到新的推理模型的情况下会产生的推理结果的差异的信息处理方法以及信息处理系统,对与实施方式1~4的结构不同的结构进行说明。另外,对与实施方式1~4的结构相同的构成要素标注相同的附图标记,省略详细的说明。
图23是示出本实施方式的处理系统10D的功能结构的方框图。处理系统10D在识别部11、判别部12、计算部13、判别训练部14、识别训练部15A、以及转换部16之外还具备噪声赋予部19D。
噪声赋予部19D对第二推理结果赋予噪声。噪声赋予部19D基于第二推理结果的离散幅度决定赋予的噪声。具体而言,噪声赋予部19D基于高斯噪声标准偏差与离散幅度决定高斯噪声的分布的振幅。例如,噪声赋予部19D以相当于高斯噪声的标准偏差的2倍的值的宽度为第二推理结果的离散幅度以上的方式,决定高斯噪声的分布的振幅。参照图24对于详细进行说明。图24是用于说明本实施方式的噪声赋予部19D赋予的噪声的示意图。
图24示出第二推理结果的值以及分别相对于该值的高斯噪声的分布。在图24中,横轴是第二推理结果的值,纵轴是值的数量(换言之,值的出现频度)。值之间的距离为离散幅度Δ。高斯噪声的分布的振幅例如是2σ。在以振幅表现相当于振幅的值的宽度的情况下,噪声赋予部19D例如以2σ≥Δ的方式决定高斯噪声。另外,上述的振幅是一个例子,只要能够使判别模型对第一推理结果与第二推理结果的判别变得困难,该值就不被限定。
进而,参照图25,对于推理结果为特征量(特征图)的情况下的高斯噪声的分布的振幅的决定方法进行说明。图25是用于说明本实施方式的噪声赋予部19D赋予的噪声的赋予方法的示意图。
噪声赋予部19D对于推理结果的整体决定振幅。例如,对于推理结果的全部的单元成分以及通道成分一致地决定振幅,使用决定的振幅,如图25的P4所示,噪声被赋予。在图25中,与图20同样,单元成分表示为单元E、单元的高度成分与宽度成分表示为高度H与宽度W、通道成分表示为通道C。
另外,噪声赋予部19D也可以按推理结果的每一部分决定振幅。具体而言,噪声赋予部19D也可以按推理结果的单元成分中的每个规定的范围决定振幅。例如使用按推理结果的单元成分中的每个规定的范围决定的振幅,如图25的P5所示,按单元成分中的每个规定的范围被赋予不同的分布的高斯噪声。
此外,噪声赋予部19D也可以按推理结果的通道成分中的每个规定的范围决定振幅。例如,使用按推理结果的通道成分中的每个规定的范围决定的振幅,如图25的P6所示,按通道成分中的每个规定的范围被赋予不同的分布的高斯噪声。
此外,基于离散幅度决定的噪声也可以是与高斯噪声不同的噪声。具体而言,也可以是如上述的,通过使与删除的节点相连的权重或者与删除的连接相关的权重的一部分复活而产生的噪声。
另外,噪声赋予部19D只要能够取得第一推理结果的离散幅度,就也可以使用上述的方法对第一推理结果赋予噪声。此外,被赋予给第一推理结果的噪声也可以被赋予与离散幅度无关地决定的噪声(例如,预先设定的振幅的高斯噪声)。
此外,被赋予噪声的范围如实施方式4可以是推理结果的整体,也可以是具有规定的单元成分的推理结果的一部分,还可以是具有规定的通道成分的推理结果的一部分。
进而,噪声赋予部19D基于转换部16的转换处理中的转换设定决定离散幅度。具体而言,噪声赋予部19D基于轻量化的处理中的轻量化设定决定离散幅度。例如,在进行量化的处理的情况下,基于量化后的比特数决定离散幅度。此外,在进行节点的减少或者节点的连接的减少的处理的情况下,基于识别模型的中的哪个节点被减少决定离散幅度。
对于如上构成的处理系统10D执行的处理进行说明。
图26是示出本实施方式的处理系统10D执行的处理的流程图。
图26所示的步骤S101~步骤S107、步骤S121~S123的处理与实施方式2的处理系统10A的处理相同(图11参照)。在步骤S102与S103之间新追加步骤S171,在步骤S121与S122之间新追加步骤S172。
在步骤S171中,噪声赋予部19D对使用网络B的识别模型的识别结果赋予被决定的振幅的噪声。在后述的振幅的决定处理尚未执行的情况下,赋予初始设定的振幅的噪声。
另外,如实施方式4的图18的流程图的步骤S161,使用网络A的识别模型的识别结果也可以被赋予噪声。
在步骤S172中,噪声赋予部19D决定系数转换的离散幅度与噪声的振幅。具体而言,噪声赋予部19D基于转换部16的转换设定决定离散幅度。此外,噪声赋予部19D基于决定的离散幅度决定噪声的振幅。如此,步骤S172中决定的噪声的振幅被用作步骤S171中被赋予的噪声的振幅。
如上,在本实施方式的信息处理方法中,推理结果的离散幅度基于转换处理的转换设定被决定。由此,考虑转换的内容决定离散幅度并且噪声基于该离散幅度而被决定,因此能够赋予适合于转换后的推理模型输出的推理结果的噪声。因而,能够有效地抑制由于推理模型的转换而产生的推理结果的离散化导致的对于判别模型的判别处理的影响。
另外,离散幅度也可以从推理结果推断。例如,噪声赋予部19D分析第二推理结果中的数据的分布,基于该分布推断离散幅度。在这种情况下,即使无法得到转换设定也能够基于推理结果的离散幅度决定噪声。
另外,上述实施方式中,也可以是,各构成要素由专用的硬件构成,或者通过执行适合各构成要素的软件程序来实现。也可以是,各构成要素通过CPU或者处理器等程序执行部读出并执行记录于硬盘或者半导体存储器等记录介质中的软件程序来实现。这里,实现上述实施方式的信息处理系统等的软件是如下的程序。
即,该程序使计算机执行以下信息处理方法,所示信息处理方法是由处理器使用存储器执行的信息处理方法,在所述信息处理方法中,向第一推理模型输入第一数据,取得第一推理结果,向第二推理模型输入所述第一数据,取得第二推理结果,向输出对被输入的信息是所述第一推理模型的输出、还是所述第二推理模型的输出进行了判别的判别信息的判别模型输入所述第一推理结果,取得关于被输入的所述第一推理结果的所述判别信息即第一判别信息,取得第一误差,所述第一误差表示所述第一判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,向所述判别模型输入所述第二推理结果,取得关于被输入的所述第二推理结果的所述判别信息即第二判别信息,取得第二误差,所述第二误差表示所述第二判别信息与表示是所述第二推理模型的输出的正确答案信息之间的差分,以减小所述第一误差以及所述第二误差的方式,通过机器学习训练所述判别模型,向所述第二推理模型输入第二数据,取得第三推理结果,向训练后的所述判别模型输入所述第三推理结果,取得关于被输入的所述第三推理结果的所述判别信息即第三判别信息,取得第三误差,所述第三误差表示所述第三判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,以减小所述第三误差的方式,通过机器学习训练所述第二推理模型。
此外,该程序使计算机执行以下信息处理方法,所示信息处理方法是由处理器使用存储器执行的信息处理方法,在所述信息处理方法中,向第一推理模型输入第一数据,取得第一推理结果,向第二推理模型输入所述第一数据,取得第二推理结果,向输出对被输入的信息是所述第一推理模型的输出、还是所述第二推理模型的输出进行了判别的判别信息的判别模型输入所述第一推理结果,取得关于被输入的所述第一推理结果的所述判别信息即第一判别信息,取得第一误差,所述第一误差表示所述第一判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,向所述判别模型输入所述第二推理结果,取得关于被输入的所述第二推理结果的所述判别信息即第二判别信息,取得第二误差,所述第二误差表示所述第二判别信息与表示是所述第二推理模型的输出的正确答案信息之间的差分,以减小所述第一误差以及所述第二误差的方式,通过机器学习训练所述判别模型,向所述第二推理模型输入第二数据,取得第三推理结果,向训练后的所述判别模型输入所述第三推理结果,取得关于被输入的所述第三推理结果的所述判别信息即第三判别信息,取得第三误差,所述第三误差表示所述第三判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,以减小所述第三误差的方式,通过机器学习训练第三推理模型,通过对训练后的所述第三推理模型进行转换的转换处理,更新所述第二推理模型。
以上,对于一个或多个形态所涉及的合约管理系统等,基于实施方式进行了说明,但是,本发明并不限于该实施方式。只要不脱离本发明的主旨,本领域技术人员对本实施方式执行想到的各种变形,或组合不同的实施方式的构成要素来构成的方式,也可以包含在一个或多个形态的范围内。
产业上的可利用性
本发明能够利用于基于现有的推理模型来生成新的推理模型的系统。
附图标记说明
10、10A、10B、10C、10D处理系统
11、11B识别部
12、12B判别部
13计算部
13B第一计算部
14、14B判别训练部
15、15A、15B识别训练部
16转换部
18第二计算部
19、19D噪声赋予部
20推理系统
21取得部
22推理部
A、B、B1、D网络

Claims (20)

1.一种信息处理方法,是由处理器使用存储器执行的信息处理方法,
在所述信息处理方法中,
向第一推理模型输入第一数据,取得第一推理结果,
向第二推理模型输入所述第一数据,取得第二推理结果,
向输出对被输入的信息是所述第一推理模型的输出、还是所述第二推理模型的输出进行了判别的判别信息的判别模型输入所述第一推理结果,取得关于被输入的所述第一推理结果的所述判别信息即第一判别信息,
取得第一误差,所述第一误差表示所述第一判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,
向所述判别模型输入所述第二推理结果,取得关于被输入的所述第二推理结果的所述判别信息即第二判别信息,
取得第二误差,所述第二误差表示所述第二判别信息与表示是所述第二推理模型的输出的正确答案信息之间的差分,
以减小所述第一误差以及所述第二误差的方式,通过机器学习训练所述判别模型,
向所述第二推理模型输入第二数据,取得第三推理结果,
向训练后的所述判别模型输入所述第三推理结果,取得关于被输入的所述第三推理结果的所述判别信息即第三判别信息,
取得第三误差,所述第三误差表示所述第三判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,
以减小所述第三误差的方式,通过机器学习训练所述第二推理模型。
2.根据权利要求1所述的信息处理方法,
向训练后的所述第二推理模型输入其他的所述第二数据,取得其他的所述第三推理结果,
基于取得的其他的所述第三推理结果,进一步训练所述第二推理模型。
3.一种信息处理方法,是由处理器使用存储器执行的信息处理方法,
在所述信息处理方法中,
向第一推理模型输入第一数据,取得第一推理结果,
向第二推理模型输入所述第一数据,取得第二推理结果,
向输出对被输入的信息是所述第一推理模型的输出、还是所述第二推理模型的输出进行了判别的判别信息的判别模型输入所述第一推理结果,取得关于被输入的所述第一推理结果的所述判别信息即第一判别信息,
取得第一误差,所述第一误差表示所述第一判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,
向所述判别模型输入所述第二推理结果,取得关于被输入的所述第二推理结果的所述判别信息即第二判别信息,
取得第二误差,所述第二误差表示所述第二判别信息与表示是所述第二推理模型的输出的正确答案信息之间的差分,
以减小所述第一误差以及所述第二误差的方式,通过机器学习训练所述判别模型,
向所述第二推理模型输入第二数据,取得第三推理结果,
向训练后的所述判别模型输入所述第三推理结果,取得关于被输入的所述第三推理结果的所述判别信息即第三判别信息,
取得第三误差,所述第三误差表示所述第三判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,
以减小所述第三误差的方式,通过机器学习训练第三推理模型,
通过对训练后的所述第三推理模型进行转换的转换处理,更新所述第二推理模型。
4.根据权利要求3所述的信息处理方法,
向更新后的所述第二推理模型输入其他的所述第二数据,取得其他的所述第三推理结果,
基于取得的其他的所述第三推理结果,通过机器学习进一步训练所述第三推理模型,
通过进一步训练后的所述第三推理模型的所述转换处理,进一步更新所述第二推理模型。
5.根据权利要求3或4所述的信息处理方法,
所述第一推理模型、所述第二推理模型以及所述第三推理模型是神经网络模型,
所述转换处理包含使所述神经网络模型轻量化的处理。
6.根据权利要求5所述的信息处理方法,
所述轻量化的处理包含使所述神经网络模型量化的处理。
7.根据权利要求6所述的信息处理方法,
所述量化的处理包含将所述神经网络模型的系数从浮动小数点形式向固定小数点形式转换的处理。
8.根据权利要求5至7中任一项所述的信息处理方法,
所述轻量化的处理包含减少所述神经网络模型的节点的处理、或者减少所述神经网络模型的节点的连接的处理。
9.根据权利要求1至8中任一项所述的信息处理方法,
所述信息处理方法进一步,
向所述判别模型输入通过向所述第一推理模型输入所述第一数据而得到的特征量并取得第四推理结果,
在所述判别模型的训练中,进一步使用表示所述第一推理结果与所述第四推理结果之间的差分的第四误差而通过机器学习进一步训练所述判别模型。
10.根据权利要求1至9中任一项所述的信息处理方法,
所述信息处理方法进一步,对所述第二推理结果赋予噪声,
在所述第二判别信息的取得中,向所述判别模型输入被赋予了所述噪声的所述第二推理结果并取得所述第二判别信息。
11.根据权利要求10所述的信息处理方法,
所述噪声基于所述第二推理结果的离散幅度而被决定。
12.根据权利要求11所述的信息处理方法,
所述噪声包含高斯噪声,
所述高斯噪声的分布的振幅基于所述高斯噪声的标准偏差与所述第二推理结果的离散幅度而被决定。
13.根据权利要求12所述的信息处理方法,
所述高斯噪声的分布的振幅按所述第二推理结果的单元成分中的每个规定的范围而被决定。
14.根据权利要求12或13所述的信息处理方法,
所述高斯噪声的分布的振幅按所述第二推理结果的通道成分中的每个规定的范围而被决定。
15.根据权利要求10至14中任一项所述的信息处理方法,
所述噪声被赋予给具有规定的单元成分的所述第二推理结果的一部分。
16.根据权利要求10至15中任一项所述的信息处理方法,
所述噪声被赋予给具有规定的通道成分的所述第二推理结果的一部分。
17.根据权利要求3至8中任一项所述的信息处理方法,
所述信息处理方法进一步,对所述第二推理结果赋予噪声,
在所述第二判别信息的取得中,向所述判别模型输入被赋予了所述噪声的所述第二推理结果并取得所述第二判别信息,
所述噪声包含高斯噪声,
所述高斯噪声基于所述第二推理结果的离散幅度而被决定,
所述离散幅度基于所述转换处理中的转换设定而被决定。
18.根据权利要求1至17中任一项所述的信息处理方法,
所述第一数据以及所述第二数据是图像数据。
19.一种信息处理系统,具备:
取得部,取得第三数据;以及
推理部,向第二推理模型输入所述取得部取得的所述第三数据,取得并输出第二推理结果,
所述第二推理模型是通过如下方式得到的第二推理模型:
向第一推理模型输入第一数据,取得第一推理结果,
向第二推理模型输入所述第一数据,取得第二推理结果,
向输出对被输入的信息是所述第一推理模型的输出、还是所述第二推理模型的输出进行了判别的判别信息的判别模型输入所述第一推理结果,取得关于被输入的所述第一推理结果的所述判别信息即第一判别信息,
取得第一误差,所述第一误差表示所述第一判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,
向所述判别模型输入所述第二推理结果,取得关于被输入的所述第二推理结果的所述判别信息即第二判别信息,
取得第二误差,所述第二误差表示所述第二判别信息与表示是所述第二推理模型的输出的正确答案信息之间的差分,
以减小所述第一误差以及所述第二误差的方式,通过机器学习训练所述判别模型,
向所述第二推理模型输入第二数据,取得第三推理结果,
向训练后的所述判别模型输入所述第三推理结果,取得关于被输入的所述第三推理结果的所述判别信息即第三判别信息,
取得第三误差,所述第三误差表示所述第二判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,
以减小所述第三误差的方式,通过机器学习训练所述第二推理模型。
20.一种信息处理系统,具备:
取得部,取得第三数据;以及
推理部,向第二推理模型输入所述取得部取得的所述第三数据,取得并输出第二推理结果,
所述第二推理模型是通过如下方式得到的第二推理模型:
向第一推理模型输入第一数据,取得第一推理结果,
向第二推理模型输入所述第一数据,取得第二推理结果,
向输出对被输入的信息是所述第一推理模型的输出、还是所述第二推理模型的输出进行了判别的判别信息的判别模型输入所述第一推理结果,取得关于被输入的所述第一推理结果的所述判别信息即第一判别信息,
取得第一误差,所述第一误差表示所述第一判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,
向所述判别模型输入所述第二推理结果,取得关于被输入的所述第二推理结果的所述判别信息即第二判别信息,
取得第二误差,所述第二误差表示所述第二判别信息与表示是所述第二推理模型的输出的正确答案信息之间的差分,
以减小所述第一误差以及所述第二误差的方式,通过机器学习训练所述判别模型,
向所述第二推理模型输入第二数据,取得第三推理结果,
向训练后的所述判别模型输入所述第三推理结果,取得关于被输入的所述第三推理结果的所述判别信息即第三判别信息,
取得第三误差,所述第三误差表示第三判别信息与表示是所述第一推理模型的输出的正确答案信息之间的差分,
以减小所述第三误差的方式,通过机器学习训练第三推理模型,
通过对训练后的所述第三推理模型进行转换的转换处理,更新所述第二推理模型。
CN202080090589.2A 2019-12-30 2020-12-17 信息处理方法以及信息处理系统 Pending CN114902244A (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201962954934P 2019-12-30 2019-12-30
US62/954,934 2019-12-30
JP2020-128062 2020-07-29
JP2020128062 2020-07-29
PCT/JP2020/047284 WO2021137294A1 (ja) 2019-12-30 2020-12-17 情報処理方法、および情報処理システム

Publications (1)

Publication Number Publication Date
CN114902244A true CN114902244A (zh) 2022-08-12

Family

ID=76685910

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080090589.2A Pending CN114902244A (zh) 2019-12-30 2020-12-17 信息处理方法以及信息处理系统

Country Status (5)

Country Link
US (1) US20220327362A1 (zh)
EP (1) EP4086814A4 (zh)
JP (1) JPWO2021137294A1 (zh)
CN (1) CN114902244A (zh)
WO (1) WO2021137294A1 (zh)

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160328644A1 (en) 2015-05-08 2016-11-10 Qualcomm Incorporated Adaptive selection of artificial neural networks

Also Published As

Publication number Publication date
EP4086814A4 (en) 2023-03-01
WO2021137294A1 (ja) 2021-07-08
EP4086814A1 (en) 2022-11-09
US20220327362A1 (en) 2022-10-13
JPWO2021137294A1 (zh) 2021-07-08

Similar Documents

Publication Publication Date Title
CN112567460A (zh) 异常探测装置、概率分布学习装置、自编码器学习装置、数据变换装置、程序
WO2018207334A1 (ja) 画像認識装置、画像認識方法および画像認識プログラム
CN111523640A (zh) 神经网络模型的训练方法和装置
Heinz et al. Iterative excitation signal design for nonlinear dynamic black-box models
JP7110929B2 (ja) 知識補完プログラム、知識補完方法および知識補完装置
JP6824795B2 (ja) 修正装置、修正方法および修正プログラム
CN114902244A (zh) 信息处理方法以及信息处理系统
US11526690B2 (en) Learning device, learning method, and computer program product
Bergmann et al. Gaussian process regression for nonlinear time-varying system identification
US20220405561A1 (en) Electronic device and controlling method of electronic device
US20200356850A1 (en) Fusion of neural networks
US20220269988A1 (en) Abnormality degree calculation system and abnormality degree calculation method
US20220300784A1 (en) Computer-readable recording medium having stored therein machine-learning program, method for machine learning, and calculating machine
CN110852361B (zh) 基于改进深度神经网络的图像分类方法、装置与电子设备
CN115769230A (zh) 信息处理方法以及信息处理系统
JP6954346B2 (ja) パラメータ推定装置、パラメータ推定方法、及びプログラム
KR20230015186A (ko) 신경망의 양자화를 위한 포화 비율 기반 양자화 범위의 결정 방법 및 장치
WO2022196227A1 (ja) 情報処理方法、情報処理システム、および、プログラム
US20230214646A1 (en) Method and system for searching deep neural network architecture
CN113792784B (zh) 用于用户聚类的方法、电子设备和存储介质
EP3940601A1 (en) Information processing apparatus, information processing method, and information program
WO2024052996A1 (ja) 学習装置、変換装置、学習方法、変換方法及びプログラム
WO2020044567A1 (ja) データ処理システムおよびデータ処理方法
KR20230034525A (ko) 설계 가능한 생성적 적대 신경망을 적용한 도메인 적응 최적화 설계 시스템 및 그 방법
CN117795528A (zh) 用于量化神经网络参数的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination