CN111886121A

CN111886121A - 注射成型机系统

Info

Publication number: CN111886121A
Application number: CN201980020714.XA
Authority: CN
Inventors: 平野峻之; 佐伯明彦; 盛井彰; 大西浩
Original assignee: Japan Steel Works Ltd
Current assignee: Japan Steel Works Ltd
Priority date: 2018-03-23
Filing date: 2019-03-22
Publication date: 2020-11-03
Also published as: JP7265318B2; US20210001526A1; JP2019166702A; DE112019001512T5; WO2019182145A1

Abstract

提供了一种注射成型机系统(1)，所述注射成型机系统通过代理(6)来执行对在注射成型机(2)中的成型条件的控制，所述代理包括执行强化学习的机器学习装置。在本学习中，将从所述注射成型机(2)获得的物理数据和指示在成型制品中的成型缺陷的类型的缺陷类型用作状态，将成型条件用作动作，并且将指示所述成型缺陷的缺陷水平的缺陷状态用作奖励。

Description

注射成型机系统

技术领域

本发明涉及一种利用机器学习的注射成型机系统。

背景技术

通常，注射成型机具有注射装置和合模装置。例如，注射装置由加热筒和设置在加热筒中以能够沿旋转方向和轴向被驱动的螺杆构成。另一方面，例如，合模装置由附接有固定模的固定盘、附接有可移动模的可移动盘以及用于相对于固定模打开或关闭可移动模的模紧固机构构成。旋转地驱动螺杆，并且向加热筒供应树脂材料，由此，在加热筒的尖端处对熔化的树脂材料进行测量并且将其注射到紧固过的模的腔中以对其进行填充。通过在已经使树脂材料冷却并且固化之后打开可移动模来获得具有规定形状的成型产品。

通常，诸如注射速度、注射冲程、筒温度、模紧固力和保压时间的成型条件因不同的成型产品而不同。通常通过重复地执行注射成型来调整成型条件以制造好的成型产品。对成型条件的这种调整(称为“成型条件确定”)通常需要熟练的操作员。当已经出现了成型失败时，操作员判断其种类(更具体地，缺陷类型，诸如，凹痕、毛刺或空隙)，并且根据缺陷类型来调整成型条件。例如，如果成型产品有凹痕，则操作员调整注射速度、注射冲程、保压等。

引文列表

专利文献

PTL 1：JP-A-2017-30152

PTL 2：JP-A-2017-30221

PTL 1提出了一种注射成型机系统，在该注射成型机系统中，通过机器学习器来调整成型条件，该机器学习器通过所谓的强化学习来进行学习。在PTL 1中公开的机器学习器在通过强化学习来进行学习的同时作为代理控制注射成型机。

通常，在强化学习中，如果代理在控制目标处于规定状态(State)时选择了动作(Action)，则控制目标的状态转变到另一状态，并且代理接收奖励(Reward)。向代理提供了值函数，该值函数指示如果代理继续根据规定策略(Policy)来确定动作则代理将能够接收到的未来奖励(即，累积奖励)。值函数包括仅由状态表达的状态值函数、指示在特定状态下的规定动作的值的动作值函数等。代理重复进行学习以更新这种值函数并且使累积奖励最大化。

在专利文献1中描述的代理执行学习，同时将与注射成型相关的物理量用作状态，将操纵条件(即，成型条件)处理为动作，并且接收所计算的奖励。代理可以在计算奖励时处理各种评估目标；例如，代理可以将成型质量(好/不好)用作评估目标。在这种情况下，如果成型产品好，则代理接收到正奖励，而如果成型产品具有成型缺陷，则接收到负奖励。如果已经充分地进行了对评估函数的学习，则如果选择了使评估函数的输出最大化的动作(即，成型条件)，则可以获得在规定状态下的最佳成型条件。

PTL 2提出了一种通过被称为监督学习的学习来对注射成型机进行异常诊断的异常诊断设备。在PTL 2中公开的异常诊断设备采用具有诸如SVM或神经网络的算法的机器学习器，并且将注射成型机中的内部或外部状态数据用作输入数据，并且将注射成型机的异常或正常数据用作输出数据(即，教学信号)。内部或外部状态数据的示例是：驱动单元的载荷、轴的频率特性、树脂压力和警报生成历史。如果已经充分地进行了异常诊断设备的学习，则可以恰当地判断针对规定状态数据注射成型机是否操作正常。

发明内容

本发明要解决的技术问题

一旦操作员已经确定了注射成型机的成型条件，就可以通过使注射成型机连续地操作来批量生产成型产品。然而，如果在特定成型条件下重复执行注射成型，则可能出现成型缺陷。换句话说，由于外部环境的变化(例如，外部温度的变化或机器温度的变化)所引起的、注射成型机的状态的变化或者诸如螺杆、防逆流环、肘杆或衬套的机械组件由于老化而产生的磨损，即使在相同的成型条件下，也可能出现成型缺陷。即使已经出现了成型缺陷，如果操作员可以很快找到成型缺陷，则也可以重新调整成型条件。然而，如果像夜间操作的情况一样在注射成型机附近没有操作者，则成型缺陷会继续存在。

解决上述现象的一种示例措施是：通过在PTL 1中描述的代理来自动地调整成型条件。如果已经恰当地并且充分地学习了值函数，则可以根据注射成型机的当前状态来计算最佳成型条件，并且成型失败原则上不会继续存在。然而，在PTL 1中描述的代理所处理的状态(State)仅是与注射成型相关的物理量。如果每个物理量都是目标，则代理理论上可以适应每个事件。如果将从成型产品的图像数据计算出的所有物理量，诸如成型产品的重量和尺寸以及外观、长度、角度、面积、体积等，用作状态，则代理可以输出最佳成型条件作为动作(Action)。

然而，在将大量物理量用作状态的情况下，过多的计算机资源是必要的。此外，计算量急剧增加，并且在有限的时间内基本上不可能恰当地学习值函数。根据熟练的操作人员调整成型条件的方法可以对此有所预期。在调整成型条件时，熟练的操作员不能同时地调整所有条件(即，注射速度、注射冲程、筒温度、保压时间、保压等)。操作员判断缺陷类型，根据缺陷类型来选择要调整的成型条件，并且判断是增大还是减小那些成型条件中的每个成型条件的值。即，操作员根据缺陷类型来选择要调整的成型条件。这使得能够快速调整成型条件。相反，在PTL 1中描述的代理不具有选择成型条件所需的信息。因此，代理需要学习大量的信息以能够通过使用其它物理数据来做出等效于这种选择的判断。

另一种措施是：通过利用在PTL 2中描述的方法来调整成型条件。更具体地，通过使用神经网络等来将与注射成型机相关的各种物理条件提供给控制设备作为输入数据，并且将当时最佳的成型条件提供给控制设备作为训练数据。随着控制设备的学习的进行，当接收到与注射成型机相关的当前物理数据时，控制设备应该开始输出最佳成型条件。然而，最佳成型条件通常是未知的，并且无法获得学习所需的大量训练数据。因此，执行监督学习的机器学习器无法调整成型条件。

本发明的目的是提供一种注射成型机系统，该注射成型机系统不会过度地消耗计算机资源，不需要太多的时间和成本来进行学习，并且可以快速地调整成型条件。

问题的解决方案

[1]根据本发明的第一方面，一种注射成型机系统包括：代理，该代理具有机器学习器，该机器学习器执行对以下操作的强化学习：根据值函数来确定动作，同时接收各种状态下所进行的动作的奖励并且学习该值函数，以及注射成型机，该注射成型机被配置为在规定成型条件下制造成型产品；并且该注射成型机系统配置为使用代理来调整成型条件，其中，机器学习器被配置为：使用从注射成型机获得的物理数据和表示成型产品的成型缺陷的种类的缺陷类型作为状态；使用成型条件作为动作；并且使用指示成型缺陷的缺陷程度的检测状态作为奖励。

[2]根据本发明的第二方面，在第一方面中，该注射成型机系统进一步包括：缺陷判断装置，该缺陷判断装置被配置为对成型产品进行测量；以及分类器，该分类器被配置为通过监督学习来执行学习，其中，机器学习器被配置为：当包括通过使用缺陷判断装置所测量的成型产品的测量数据的输入数据被输入到已经执行了学习的分类器时，使用从分类器获得的输出数据作为缺陷类型和缺陷状态。

[3]根据本发明的第三方面，在第二方面中，分类器被配置为通过使用多个实际产品数据集和多个准数据集(quasi-data set)来进行所述学习，该多个实际产品数据集各自包括实际成型产品的测量数据、缺陷类型和缺陷状态，以及其中，准数据集包括通过修改实际产品数据集获得的测量数据、缺陷类型和缺陷状态。

发明的有利效果

上述第一方面使得可以借助于代理来将注射成型机系统的成型条件调整为最佳成型条件。为了使代理能够恰当地进行学习以能够将成型条件调整为最佳成型条件，将从注射成型机获得的物理数据和表示成型产品的成型缺陷的种类的缺陷类型用作状态(State)。将成型条件用作动作(Action)，并且指示成型缺陷的缺陷程度的缺陷状态作为奖励(Reward)。由于状态包括缺陷类型，因此代理根据缺陷类型来选择要调整的成型条件，并且按照与熟练的操作员采用的相同方式来确定是增大还是减小所选择的成型条件的值。利用上述配置，代理可以在相对较短的时间内进行学习，并且因此可以提高学习效率以及降低学习成本。因此，代理在学习期间不会过度地消耗计算机资源。因此，根据该方面的注射成型机系统不会过度地消耗计算机资源，不需要太多的时间和成本来进行学习，并且可以快速地调整成型条件。

根据上述第二方面，注射成型机系统配备有对成型产品进行测量的缺陷判断装置和通过监督学习来进行学习的分类器。当通过使用缺陷判断装置测量的成型产品的测量数据被输入到分类器时，机器学习器使用从分类器获得的输出数据作为缺陷类型和缺陷状态。即，分类器基于成型产品的测量数据来输出缺陷类型和缺陷状态并且将它们传递至代理。换句话说，信息从分类器被传递至代理，而无需操作员参与。因此，在每个成型循环中，可以根据循环的状态(State)来获得最佳成型条件(Action)。因此，可以在注射成型机连续地操作的同时自动地调整成型条件。缺陷判断装置的示例是摄像头。在将摄像头用作缺陷判断装置的情况下，由摄像头获得的图像数据用作测量数据的示例。

根据上述第三方面，分类器通过使用多个实际产品数据集以及多个准数据集来进行学习，该多个实际产品数据集各自包括实际成型产品的测量数据、缺陷类型和缺陷状态。每个准数据集包括通过修改实际产品数据集获得的测量数据、缺陷类型和缺陷状态。通常，通过监督学习来进行学习的机器学习器需要大量数据集以恰当地进行学习。然而，无法大量获得具有缺陷失败的实际样品。即，通常，无法大量获得各自包括实际成型产品的测量数据、缺陷类型和缺陷状态的实际产品数据集。相反，在该方面中，由于通过修改实际产品数据集来获得准数据集，可以相对容易地获得学习所需的大量数据集。因此，提高了分类器的学习效率，并且因此分类器可以高精度地输出成型产品的缺陷类型和缺陷状态。

附图说明

图1是示意性地示出了根据本发明的实施例的注射成型机系统的框图。

图2是用于描述在根据本发明的实施例的注射成型机系统中由生成器执行的过程以及由操作员执行的工作的流程图。

图3是示出了根据本发明的实施例的注射成型机系统的分类器的示意图。

图4是示意性地示出了根据本发明的实施例的注射成型机系统的框图，该注射成型机系统设置有采用actor-critic算法的代理。

具体实施方式

根据实施例的注射成型机系统1是利用机器学习(即，所谓的AI)来调整注射成型机2的成型条件的系统。如按照简化形式在图1中示出的，与传统的注射成型机一样，注射成型机2由合模装置、注射装置等构成。用于取出注射成型机2已经产生的模具产品的取料装置3和用于对已经取出的成型产品进行拍摄的摄像头4被安装在注射成型机2附近。每当注射成型机2产生成型产品时，摄像头4获取成型产品的图像数据。

用于在注射成型机系统1中调整成型条件的AI系统构造在规定计算机上，并且具有多个功能块。首先，AI系统具有调整注射成型机2的成型条件的代理6。该代理6具有通过强化学习来进行学习的机器学习器。稍后将详细描述代理6。

包括AI系统的其它功能块是分类器7和生成器8。如稍后描述的，分类器7具有通过监督学习来进行学习的机器学习器。分类器7被配置为判断成型产品是否有缺陷并且输出缺陷的种类(即，缺陷类型和缺陷的状态，即，缺陷的程度)。为了使分类器7执行监督学习，有必要为分类器7准备大量数据集，即，输入数据和输出数据(即，数据集)。为此，生成器8生成包括准数据的大量准数据集作为数据集。下面将描述为了准备大量数据集而待由操作员进行的工作和待由生成器8执行的过程。

作为数据集的输入数据和输出数据的组合可以包括任何种类的数据；数据的任何组合都是可能的，只要其允许分类器7判断成型产品并且输出缺陷类型和缺陷状态即可。本实施例采用数据集的组合，其中，输入数据是成型产品的图像数据，并且输出数据是缺陷类型和缺陷状态。通过摄像头4来获得图像数据。该图像数据可以是任何种类；图像数据可以是从两个或三个方向获得的多个图像数据集或从单个方向获得的图像数据。此外，图像数据可以由通过从不同方向投射光束获得的多个图像数据组成。不管采用什么条件，都可以通过摄像头4来针对所有成型产品在统一条件下获得图像数据。

输出数据中的缺陷类型包括指示针对各个类型的缺陷的出现/未出现缺陷的多个数据，并且包括指示出现/未出现凹痕的1/0数据、指示出现/未出现毛刺的1/0数据等。缺陷状态是指示缺陷的程度的数据，与缺陷类型无关。即，缺陷状态是仅与缺陷的程度相关并且与缺陷类型是凹痕还是空隙无关的数据。该数据可以由任何数值表达。例如，好的产品、具有低程度缺陷的产品和具有高程度缺陷的产品的缺陷状态可以分别被定义为数值“1.0”、“-0.3”和“-0.7”。

在图2中示出的步骤S1中，操作员准备好的成型产品的样品和不同缺陷类型的缺陷成型产品的样品。例如，操作员准备具有凹痕的一个或多个缺陷产品以及具有毛刺的一个或多个缺陷产品；操作员针对其他缺陷类型中的每个准备一个或多个样品。操作员确定表示每个所准备的缺陷产品样品的缺陷状态的数值(步骤S2)。然后，操作员获取每个好产品样品和每个缺陷产品样品的图像数据(步骤S3)。各自由图像数据以及缺陷类型和缺陷状态的组合构成的如此获得的数据集是从实际好产品和实际缺陷产品的样品获得的，并且与上述术语“实际产品数据集”对应。

生成器8通过计算修改实际产品数据集，来生成大量准数据集(步骤S4)。针对每种缺陷类型生成准数据集。例如，针对其缺陷类型为“凹痕”的缺陷产品，生成器8修改“凹痕”的实际产品数据集。更具体地，生成器8通过以下方式来修改图像文件：通过平行转化的图像处理来移动实际凹痕的位置或通过放大/缩小的图像处理来改变凹痕的大小。在放大或缩小凹痕的大小时，生成器8还根据凹痕的大小来改变缺陷状态值。生成器8按照上述方式来获取准数据集。针对其它缺陷类型，生成器8按照相同的方式来生成准数据集。如上所述的任何已知技术都可以用作用于通过图像处理来自动地修改图像数据的技术。在生成器8中执行的处理可以采用使用诸如GAN的机器学习的方法。

分类器7是执行监督学习的机器学习器，并且对在分类器7中采用的算法的类型没有限制。例如，分类器7可以采用SVM、最小二乘法、逐步法等。然而，优选地是：采用能够表达非线性输入-输出关系的算法，因为期望其中输入数据是图像数据并且输出数据包括缺陷类型和缺陷状态的数据集的输入-输出关系为非线性的。在本实施例中，分类器7由神经网络形成。如在图3中示出的，分类器7具有多层的神经网络，并且按照以下方式被配置：向输入层中的神经元应用图像数据，并且从输出层中的神经元输出缺陷类型和缺陷状态。

向分类器7应用图像数据作为输入，并且向分类器7应用对应的缺陷类型和缺陷状态作为教学信号，以使分类器7通过使用包括实际产品数据集和准数据集的大量数据集来进行学习。之后，当成型产品的图像数据被输入到分类器7时，已经恰当地进行学习的分类器7可以准确地输出缺陷类型和缺陷状态。在注射成型机系统1中，每当注射成型机2执行注射成型时，通过取料装置3来取出成型产品并且通过摄像头4来对成型产品进行拍摄。将由摄像头4获得的图像数据被发送至分类器7，并且分类器7输出缺陷类型和缺陷状态。

将描述在本实施例中采用的代理6。通常，执行强化学习的机器学习器控制控制目标或环境，并且被称为“代理(agent)”。该代理基于控制目标的状态s_t(State)来确定动作a_t(Action)，并且控制目标从状态s_t转变到另一状态s_t+1。此时，代理从控制目标接收到奖励r_t(Reward)。代理进行学习以确定使要接收的未来奖励r_t的累积达到最大程度的动作a_t。为了实现上述目的，许多代理设置有规定值函数并且通过学习来对其进行更新。当给出规定状态s_t时，代理在已经进行学习的状态下确定使值函数的值最大化的动作a_t。值函数可以是任何种类。学习算法可以是已知的算法，诸如Q学习、SARSA技术、TD学习、蒙特卡罗法或Actor-critic方法。即，本发明的特征不是值函数或算法的种类，而是在于什么数据包括由本实施例中采用的代理6处理的状态s_t、动作a_t和奖励r_t。

待由根据本实施例的代理6处理的动作a_t包括成型条件，诸如注射速度、注射冲程和筒温度。这是因为：当给出规定状态s_t时，代理6可以确定最佳成型条件作为动作a_t。待由根据本实施例的代理6处理的状态s_t包括从注射成型机2获得的各种物理数据。这些物理数据包括结合注射成型机2获得的各种数据，诸如注射压力、树脂温度和外部温度。状态s_t可以包括除了这些物理数据之外的数据，并且在必要时，可以向状态s_t添加其它数据。顺便提及，这种状态s_t不足以使代理6确定最佳成型条件。为了使得能够选择要调整的成型条件，待由根据本实施例的代理6处理的状态s_t包括从分类器7输出的缺陷类型作为状态s_t。

由于状态s_t包括缺陷类型，因此，代理6可以根据缺陷类型来判断应该使哪种成型条件成为调整目标，并且因此，可以恰当地确定最佳成型条件作为在给定状态s_t下的动作a_t。向根据本实施例的代理6给出的奖励r_t是从分类器7输出的缺陷状态。代理6可以通过使用上述状态s_t、动作a_t和奖励r_t来执行强化学习。通过利用技术人员的知识，可以针对每种缺陷类型按照基于规则的方式来减少要成为调整目标的成型条件。例如，针对毛刺缺陷，可以通过向代理6给出以下规则来使代理6进行学习：任意地增加喷射速度和保压的动作选择概率。又例如，可以通过以下方式来使代理6进行学习：针对如在本实施例的附图等中示出的算法根据缺陷类型来提供动作分支应该如何发生。

将描述通过Actor-critic方法来使根据本实施例的代理6执行强化学习的示例。在这种情况下，如在图4中示出的，代理6由行动器10和评估器11构成。为了通过Actor-critic方法来确定动作，在评估器11中设置状态值函数V(s_t)作为值函数。状态值函数V(s_t)是指示状态st的良好程度的函数。可以按照任何方式来配置状态值函数V(s_t)。例如，状态值函数V(s_t)可以由存储与状态s_t的相应值对应的V值的矩阵或表示输入-输出关系的SVM或神经网络形成。可以根据任何算法来更新通过强化学习更新的状态值函数V(s_t)。例如，在通过TD学习方法来更新状态值函数V(s_t)的情况下，可以根据下面的表达式1来计算状态值函数V(s_t)。

[表达式1]

V(s_t)←V(s_t)+α[r_t+γV(s_t+1)-V(s_t)] (表达式1)

其中

学习系数α：0≤α≤1；并且

折扣率γ：0≤γ≤1。

当在注射成型机2中给出具有规定缺陷类型和物理数据的规定状态s_t时，通过确定成型条件作为动作a_t并且执行注射成型来获得成型产品。分类器7判断成型产品的缺陷状态，并且评估器11接收该缺陷状态作为奖励r_t。然后，针对包括作为分类器7的判断结果的缺陷类型的状态确定另一些成型条件，并且注射成型机2执行注射成型。当重复地执行这种成型操作时，可以根据表达式1来更新状态值函数V(s_t)。

另一方面，行动器10设置有策略π(s_t,a_t；w_t)，该策略π(s_t,a_t；w_t)指示当给出状态st时应该决定什么动作a_t。策略π(s_t,a_t；w_t)是表示在状态s_t下决定动作a_t的概率的概率分布函数，并且w_t是确定策略π(s_t,a_t；w_t)的调整参数。例如，在将策略π(s_t,a_t；w_t)表达为正态分布N(μ,σ)的情况下，其中，μ是平均值，并且σ是标准差，可以说：对调整参数w_t的调整实质上是指对作为w_t的函数的平均值μ和标准差σ的调整。当通过学习对调整参数w_t进行调整来使策略π(s_t,a_t；w_t)成为恰当的概率分布函数时，在给定状态s_t下决定恰当的动作a_t的概率变得较高，并且决定不恰当的动作a_t的概率变得较低。调整参数w_t的示例调整方法是以下方法。首先，通过等式2-1来将策略π(s_t,a_t；w_t)的适当程度定义为适当性e_t。然后，通过使用折扣率β的等式2-2来定义具有历史D_t的适当性。结果，可以根据使用接收到的奖励r_t作为缺陷状态以及状态值函数V(s_t)的表达式2-3来更新调整参数w_t。

[公式(表达式)2]

D_t＝e_t+βD_t-1 (公式2-2)

其中，折扣率β：0≤β≤1。

w_t←w_t+αδ_tD_t (表达式2-3)

其中

学习系数α：0≤α≤1；并且

TD误差δ_t：δ_t＝r_t+γV(s_t+1)-V(s_t)。

随着重复地执行学习过程，状态值函数V(s_t)和策略π(s_t,a_t；w_t)两者都收敛，并且TD误差δ_t接近0。即，建立了代理6已经通过强化学习进行学习的状态。当由在该状态下已经提出的策略π(s_t,a_t；w_t)给出状态s_t时，可以计算最佳动作a_t(即，最佳成型条件)。

根据本实施例的代理6可以具有与上述描述不同的配置。例如，将动作值函数Q(s_t,a_t)用作值函数，并且可以通过动作值函数Q(s_t,a_t)来确定最佳动作a_t，即最佳成型条件。动作值函数Q(s_t,a_t)是指示规定动作a_t的良好程度的评估函数。与状态值函数V(s_t)一样，还可以按照各种方式来配置动作值函数Q(s_t,a_t)。例如，动作值函数Q(s_t,a_t)可以由其中设定了与状态s_t值和动作a_t值的集合对应的Q值的矩阵，即Q表，来形成。通过Q学习，可以根据下面的表达式来更新动作值函数Q(s_t,a_t)：

[表达式3]

其中

学习系数α：0≤α≤1；并且

折扣率γ：0≤γ≤1。

随着重复地执行注射成型和学习过程，动作值函数Q(s_t,a_t)收敛，并且可以使用所学习的动作值函数Q(s_t,a_t)来确定最佳成型条件。即，当给出规定状态s_t时，搜索使动作值函数Q(s_t,a_t)最大化的动作a_t。这种动作a_t是最佳成型条件。

在动作值函数Q(s_t,a_t)由Q表形成的情况下，将状态s_t和动作a_t中的每一个作为离散值处理。虽然如果使Q表矩阵很大则可以基本上将它们中的每一个作为连续值处理，但是这导致沉重的计算负荷。相反，如果动作值函数Q(s_t,a_t)由例如所谓的函数逼近器，诸如神经网络，来形成，则可以将状态s_t和动作a_t中的每一个作为连续值处理，并且计算负荷可以相对较轻。

本发明不限于上述实施例，并且在本发明的范围内，可以进行各种修改。例如，本发明不限于上述实施例，并且可以适当地进行修改、改进等。此外，根据上述实施例的每个构成元件或每组构成元件的材料、形状、尺寸、数量、位置等可以按照期望的方式来确定，即，不受任何限制，只要可以实现本发明即可。

例如，虽然已经在学习收敛的假设下描述了上述实施例，但是在某些算法中，不需要确保收敛到最终状态。此外，如在Actor-critic示例中描述的，算法可以按照显式方式来更新策略。如在Q学习示例中描述的，可以将算法限制在值函数的更新内。

对于另一示例，解释了在上述实施例中通过重复地执行实际成型来学习值函数。即，解释了在重复地执行实际成型的同时执行学习(在线学习)。然而，可以提前离线学习值函数。即使未重复地执行实际成型，如果可以提前获取有关状态s_t、动作a_t以及奖励r_t之间的关系的一定量的数据，则也可以使用那些数据来学习值函数。如果如上所述在对值函数的学习已经进行到一定程度的状态下执行实际成型的同时执行对值函数的学习，则可以实现早期收敛。

作为另一修改，可以修改对分类器7的输入数据。虽然按照对分类器7的输入数据仅是成型产品的图像数据的方式描述了实施例，但是可以向分类器7给出与成型产品相关的物理数据，诸如成型产品的重量、成型产品的色度和成型产品的折射率，作为输入数据。这使得可以判断更多种类的缺陷类型。

此外，可以将根据本实施例的注射成型机系统修改为具有多个注射成型机的系统。即，在要通过多个成型机来制造相同成型产品的情况下，可以在代理之间交换信息。可以通过交换信息并且执行群体强化学习来提高学习效率。

此外，由代理6处理的状态s_t和动作a_t可以是任何种类的数据。被处理为动作a_t的成型条件可以是喷射速度、喷射冲程、筒温度等的实际值。可以处理成型条件的变化。即，可以处理喷射速度的变化量、喷射冲程的变化量、筒温度的变化量等。此外，当处理状态s_t、动作a_t和奖励r_t中的每个的数据时，可以通过提前对其进行归一化以使其具有0至1的数值范围来转换该数据，或者可以将其转换成具有-1至1的数值范围。

更进一步地，在本实施例中，例如，将由摄像头4获得的图像数据用于对成型产品的缺陷判断。然而，在根据本发明的注射成型机系统中，只要可以测量成型产品的外观等，就可以将除了摄像头4之外的缺陷判断装置和由该缺陷判断装置测量的测量数据用于例如对成型产品的缺陷判断。

本申请基于2018年3月23日提交的日本专利申请第2018-055633号，其公开内容通过引用的方式并入本文。

工业适用性

根据本发明的注射成型机系统使得可以避免过度消耗计算机资源，减少学习所需的时间和成本，并且快速地调整成型条件。提供这些优点的本发明可以被应用于例如执行树脂材料的注射成型的系统。

附图标记列表

1:注射成型机系统

2:注射成型机

3:取料装置

4:摄像头(缺陷判断装置)

6:代理

7:分类器

8:生成器

10:行动器

11:评估器

Claims

1.一种注射成型机系统，包括：

代理，所述代理具有机器学习器，所述机器学习器执行对以下的强化学习：根据值函数来确定动作，同时接收各种状态下进行的动作的奖励并且学习所述值函数，以及

注射成型机，所述注射成型机被配置为在规定成型条件下制造成型产品；并且

所述注射成型机系统被配置为使用所述代理来调整所述成型条件，

其中，所述机器学习器被配置为：

使用从所述注射成型机获得的物理数据和表示所述成型产品的成型缺陷的种类的缺陷类型作为所述状态；

使用所述成型条件作为所述动作；并且

使用指示成型缺陷的缺陷程度的检测状态作为所述奖励。

2.根据权利要求1所述的注射成型机系统，进一步包括：

缺陷判断装置，所述缺陷判断装置被配置为对所述成型产品进行测量；以及

分类器，所述分类器被配置为通过监督学习来执行学习，

其中，所述机器学习器被配置为：当包括通过使用所述缺陷判断装置测量的所述成型产品的测量数据的输入数据被输入到已经执行了所述学习的所述分类器时，使用从所述分类器获得的输出数据作为所述缺陷类型和所述缺陷状态。

3.根据权利要求2所述的注射成型机系统，

其中，所述分类器被配置为通过使用多个实际产品数据集和多个准数据集来进行所述学习，所述多个实际产品数据集每个都包括所述实际成型产品的所述测量数据、所述缺陷类型和所述缺陷状态，以及

其中，所述准数据集包括通过修改所述实际产品数据集获得的所述测量数据、所述缺陷类型和所述缺陷状态。