JP7439459B2 - Machine learning device, conveyance device, image forming device, machine learning method, and program - Google Patents
Machine learning device, conveyance device, image forming device, machine learning method, and program Download PDFInfo
- Publication number
- JP7439459B2 JP7439459B2 JP2019197580A JP2019197580A JP7439459B2 JP 7439459 B2 JP7439459 B2 JP 7439459B2 JP 2019197580 A JP2019197580 A JP 2019197580A JP 2019197580 A JP2019197580 A JP 2019197580A JP 7439459 B2 JP7439459 B2 JP 7439459B2
- Authority
- JP
- Japan
- Prior art keywords
- conveyance
- reward
- state quantity
- conveying
- transport
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000010801 machine learning Methods 0.000 title claims description 131
- 230000032258 transport Effects 0.000 claims description 309
- 230000009471 action Effects 0.000 claims description 169
- 230000006870 function Effects 0.000 claims description 103
- 238000011144 upstream manufacturing Methods 0.000 claims description 62
- 230000000704 physical effect Effects 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 18
- 238000004088 simulation Methods 0.000 claims description 16
- 238000001514 detection method Methods 0.000 claims description 9
- 230000003287 optical effect Effects 0.000 claims description 9
- 239000004744 fabric Substances 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 41
- 230000002787 reinforcement Effects 0.000 description 26
- 238000012546 transfer Methods 0.000 description 12
- 230000010365 information processing Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 9
- 230000000875 corresponding effect Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000015572 biosynthetic process Effects 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013135 deep learning Methods 0.000 description 3
- 238000013461 design Methods 0.000 description 3
- 238000010438 heat treatment Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 238000012805 post-processing Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000002093 peripheral effect Effects 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 238000007599 discharging Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000004080 punching Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 238000007665 sagging Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Landscapes
- Delivering By Means Of Belts And Rollers (AREA)
Description
本発明は、機械学習装置、搬送装置、画像形成装置、機械学習方法、およびプログラムに関する。 The present invention relates to a machine learning device, a transport device, an image forming device, a machine learning method, and a program.
従来、用紙、フィルム、布等の対象物を搬送する搬送装置を備えた装置が知られている。このような装置として、たとえば、プリンター、複写機、ファクシミリ、およびこれらの複合機(MFP:Multifunction Peripheral)などの画像形成装置が知られている。 2. Description of the Related Art Conventionally, devices equipped with a conveyance device for conveying objects such as paper, film, cloth, etc. are known. As such devices, image forming devices such as printers, copiers, facsimile machines, and multifunction peripherals (MFPs) of these devices are known.
このような画像形成装置を用いる商業印刷機器分野においては、ユーザーのニーズに合った出力物(印刷物)の提供が求められている。そのため、画像形成(印刷)に使用される媒体、画像形成装置に対する要望は多岐にわたる。これらの要望に対応するためには、個別の状況に応じて画像形成装置を制御する必要がある。しかしながら、現在は、人手による設計に頼っているため、あらゆる要望には応えられていない。人手による設計では、最悪条件、代表的な条件を満たす設計にならざるを得ない。 In the field of commercial printing equipment that uses such image forming apparatuses, there is a need to provide output products (printed materials) that meet the needs of users. Therefore, there are various demands on media and image forming apparatuses used for image formation (printing). In order to meet these demands, it is necessary to control image forming apparatuses according to individual situations. However, since it currently relies on manual design, it cannot meet all requests. Manual design has no choice but to create a design that satisfies the worst and typical conditions.
たとえば、搬送装置内において用紙を搬送するローラーは、用紙の種類、ローラーの劣化に応じて回転速度が変わる。用紙をダメージ無く搬送し、さらに搬送路内の用紙の撓みに関する制約を満たすためには、適切にローラーの回転速度を設定する必要がある。 For example, the rotational speed of a roller that conveys paper within a conveying device changes depending on the type of paper and the deterioration of the roller. In order to convey the paper without damage and to satisfy the constraints regarding the deflection of the paper in the conveyance path, it is necessary to appropriately set the rotational speed of the rollers.
特許文献1(特開2014-201409号公報)には、第1の搬送ローラーと、これに隣り合う下流側の第2の搬送ローラーと、第1の搬送ローラーおよび第2の搬送ローラーをそれぞれ回転駆動する第1の駆動モーターおよび第2の駆動モーターと、用紙の撓み量を検出する撓み検出部と、第2の駆動モーターのトルク量を検出するトルク検出部と、制御モードに応じて第1の駆動モーターおよび第2の駆動モーターをそれぞれ制御する制御部とを備える画像形成装置が開示されている。制御部は、先行の用紙について検出された撓み量またはトルク量に基づいて、後続の用紙の搬送時における第1の搬送ローラーと第2の搬送ローラーとの用紙搬送速度の相対速度差を調整する。 Patent Document 1 (Japanese Unexamined Patent Application Publication No. 2014-201409) describes a first conveyance roller, a second conveyance roller adjacent to this on the downstream side, and a first conveyance roller and a second conveyance roller that rotate, respectively. A first drive motor and a second drive motor to be driven, a deflection detection section that detects the amount of deflection of the paper, a torque detection section that detects the amount of torque of the second drive motor, and a first drive motor that detects the amount of deflection of the paper. An image forming apparatus is disclosed that includes a control section that controls a first drive motor and a second drive motor, respectively. The control unit adjusts a relative speed difference in paper transport speed between the first transport roller and the second transport roller when transporting the subsequent paper based on the amount of deflection or torque detected for the preceding paper. .
また、近年のコンピュータの能力向上にともない、機械学習が注目を浴びている。たとえば、特許文献2(特開2017-034844号公報)には、電動機制御における電流ゲインのパラメーを最適化することにより、モーターの応答性の向上、送りムラの改善、および精度を向上させることを目的とした機械学習装置が開示されている。 Additionally, machine learning is attracting attention as computer capabilities have improved in recent years. For example, Patent Document 2 (Japanese Unexamined Patent Publication No. 2017-034844) discloses that by optimizing the current gain parameter in motor control, the response of the motor can be improved, uneven feeding can be improved, and accuracy can be improved. A machine learning device for the purpose is disclosed.
用紙等の対象物を搬送する搬送装置内には、複数のローラー(搬送手段)が設置されている。このため、各ローラーの回転速度の組み合わせは膨大にある。したがって、ローラーの回転速度の組み合わせ(すなわち、モーター等の駆動手段のパラメーター)を最適化することは、非常に困難である。 A plurality of rollers (transport means) are installed in a transport device that transports objects such as sheets of paper. For this reason, there are a huge number of combinations of rotational speeds for each roller. Therefore, it is very difficult to optimize the combination of rotational speeds of the rollers (ie, the parameters of the drive means such as motors).
本開示は、上記の問題点に鑑みなされたものであって、その目的は、搬送手段を駆動する駆動手段のパラメーターの値を最適化することが可能な機械学習装置、搬送装置、画像形成装置、機械学習方法、およびプログラムを提供することにある。 The present disclosure has been made in view of the above-mentioned problems, and an object of the present disclosure is to provide a machine learning device, a transportation device, and an image forming device that can optimize the values of parameters of a driving device that drives a transportation device. , machine learning methods, and programs.
本開示のある局面に従うと、機械学習装置は、搬送対象物の撓み量または引っ張り量を表す状態量を、搬送装置の搬送路の複数の区間において取得する状態量取得手段を備える。搬送装置は、複数の搬送手段によって搬送対象物を順に挟持して、搬送対象物を搬送路の上流から下流へと搬送する。機械学習装置は、状態量に基づいて報酬を付与する報酬付与手段と、各搬送手段を駆動する各駆動手段のパラメーターのセットの価値をセット毎に表す行動価値関数を、報酬に基づき更新する機械学習を行う学習手段と、更新後の行動価値関数に基づいて複数のセットから1つのセットを決定し、かつ、決定されたセットのパラメーターで搬送手段を駆動するように駆動手段に対して指示する決定手段とをさらに備える。 According to an aspect of the present disclosure, a machine learning device includes a state quantity acquisition unit that acquires a state quantity representing a deflection amount or a tension amount of a conveyance target object in a plurality of sections of a conveyance path of a conveyance device. The conveyance device sequentially holds an object to be conveyed by a plurality of conveyance means and conveys the object from upstream to downstream on a conveyance path. The machine learning device is a machine that updates an action value function that represents the value of a set of parameters of each drive means that drives each transport means based on the reward. determining one set from the plurality of sets based on the learning means that performs learning and the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set. and determining means.
好ましくは、状態量取得手段は、選択されたセットのパラメーターに基づいて搬送手段を駆動したときの状態量をさらに取得する。報酬付与手段は、さらに取得された状態量に基づいて報酬をさらに付与する。学習手段は、さらに付与された報酬に基づき、行動価値関数をさらに更新する。 Preferably, the state quantity acquisition means further acquires the state quantity when the conveying means is driven based on the selected set of parameters. The reward granting means further grants a reward based on the acquired state amount. The learning means further updates the action value function based on the given reward.
好ましくは、セットは、速度、駆動のタイミング、停止のタイミング、変速のタイミング、および駆動電流の値の少なくとも1つを含む。 Preferably, the set includes at least one of speed, drive timing, stop timing, shift timing, and drive current value.
好ましくは、状態量取得手段は、搬送手段による搬送対象物の搬送速度、または搬送路中の搬送対象物の位置に基づき、状態量を取得する。 Preferably, the state quantity acquisition means acquires the state quantity based on the conveyance speed of the conveyance target object by the conveyance means or the position of the conveyance target object in the conveyance path.
好ましくは、搬送装置をシミュレートするシミュレーターと通信する。状態量取得手段は、シミュレーターからの出力に基づき、状態量を取得する。 Preferably, it communicates with a simulator that simulates the transport device. The state quantity acquisition means acquires the state quantity based on the output from the simulator.
好ましくは、行動価値関数は、Qテーブルである。決定手段は、取得された状態量とQテーブルとに基づいて複数のセットから1つのセットを決定する。 Preferably, the action value function is a Q-table. The determining means determines one set from the plurality of sets based on the acquired state quantity and Q table.
好ましくは、複数の搬送手段は、第1の搬送手段と、第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含む。複数の区間のうち第1の搬送手段と第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされている場合、報酬付与手段は、第1の搬送手段と第2の搬送手段との間の区間における状態量が所定の撓み量以下の撓み量を表しているときに、正の報酬を付与する。 Preferably, the plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means. When a setting is made to allow a predetermined amount of deflection in the section between the first conveying means and the second conveying means among the plurality of sections, the reward giving means A positive reward is given when the state quantity in the section between the vehicle and the conveying means represents a deflection amount that is less than or equal to a predetermined deflection amount.
好ましくは、複数の搬送手段は、第1の搬送手段と、第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含む。複数の区間のうち第1の搬送手段と第2の搬送手段との間の区間において、搬送対象物の撓みを許容しない設定がなされている場合、報酬付与手段は、第1の搬送手段と第2の搬送手段との間の区間における状態量が引っ張り量を表しているときに、正の報酬を付与する。 Preferably, the plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means. If the section between the first conveyance means and the second conveyance means among the plurality of sections is set not to allow deflection of the conveyed object, the reward giving means A positive reward is given when the state quantity in the section between the second transport means and the second transport means represents the amount of tension.
好ましくは、報酬付与手段は、状態量と、搬送手段の状態とに基づいて報酬を付与する。 Preferably, the reward giving means gives the reward based on the state quantity and the state of the transport means.
好ましくは、複数の搬送手段のうちの所定の搬送手段は、複数の搬送対象物を格納した格納手段から搬送対象物を1つずつ搬送路に搬送する。報酬付与手段は、複数の区間のうち、搬送対象物の後端が所定の搬送手段に到達する前の位置における状態量が引っ張り量を表しており、かつ搬送対象物の後端が所定の搬送手段を通過する際に所定の搬送手段が停止している場合、正の報酬を付与する。 Preferably, a predetermined transport means among the plurality of transport means transports the objects to be transported one by one from a storage means storing a plurality of objects to be transported to the transport path. The reward giving means is such that a state quantity at a position before the rear end of the conveyance target reaches a predetermined conveyance means among the plurality of sections represents the amount of tension, and when the rear end of the conveyance target reaches the predetermined conveyance means. If the predetermined transport means is stopped when passing through the means, a positive reward is given.
好ましくは、複数の搬送手段は、第1の搬送手段と、第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含む。複数の区間のうち第1の搬送手段と第2の搬送手段との間の区間において、搬送対象物の撓みと、第2の搬送手段において搬送方向への搬送対象物への力の発生とが許容されていない場合、報酬付与手段は、第1の搬送手段と第2の搬送手段との間の区間における状態量が引っ張り量および撓み量のいずれも表していないときに、正の報酬を付与する。 Preferably, the plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means. In the section between the first conveyance means and the second conveyance means among the plurality of sections, the object to be conveyed is deflected and the second conveyance means generates a force on the object to be conveyed in the conveyance direction. If not allowed, the reward giving means gives a positive reward when the state amount in the section between the first conveying means and the second conveying means does not represent either the amount of tension or the amount of deflection. do.
好ましくは、複数の搬送手段は、第1の搬送手段と、第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含む。第2の搬送手段が搬送対象物を引っ張った状態で搬送することにより第1の搬送手段を搬送対象物が通過する時間を早くすることが可能な場合に、報酬付与手段は、第2の搬送手段が搬送対象物を引っ張った状態で搬送しているときに、正の報酬を付与する。 Preferably, the plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means. If it is possible to speed up the time for the object to be transported through the first transport means by transporting the object in a state where the second transport means pulls the object, the reward giving means A positive reward is given when the means is conveying the conveyed object while pulling it.
好ましくは、複数の搬送手段は、第1の搬送手段と、第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含む。第1の搬送手段と第2の搬送手段とで同時に搬送対象物を搬送している場合、複数の区間のうち第1の搬送手段と第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされているとき、報酬付与手段は、第1の搬送手段の搬送速度が第2の搬送手段の搬送速度以上であることを条件に、正の報酬を付与する。 Preferably, the plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means. When the object to be transported is simultaneously transported by the first transport means and the second transport means, a predetermined deflection occurs in the section between the first transport means and the second transport means among the plurality of sections. When the setting is made to allow the amount, the reward giving means gives a positive reward on the condition that the conveyance speed of the first conveyance means is equal to or higher than the conveyance speed of the second conveyance means.
好ましくは、複数の搬送手段は、第1の搬送手段と、第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含む。第1の搬送手段と第2の搬送手段とで同時に搬送対象物を搬送している場合、複数の区間のうち第1の搬送手段と第2の搬送手段との間の区間において、搬送対象物の撓みを許容しない設定がなされている場合、報酬付与手段は、第1の搬送手段の搬送速度が第2の搬送手段の搬送速度以下であることを条件に、正の報酬を付与する。 Preferably, the plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means. When the first conveying means and the second conveying means are simultaneously conveying the conveyed object, in the section between the first conveying means and the second conveying means among the plurality of sections, the conveyed object If the setting is such that the deflection is not allowed, the reward giving means gives a positive reward on the condition that the conveyance speed of the first conveyance means is equal to or lower than the conveyance speed of the second conveyance means.
好ましくは、搬送対象物は用紙である。
好ましくは、搬送対象物は布である。
Preferably, the object to be transported is paper.
Preferably, the object to be transported is cloth.
好ましくは、学習手段は、報酬と搬送対象物の物性とに基づき、各駆動手段のパラメーターの値を更新する機械学習を行う。 Preferably, the learning means performs machine learning to update the parameter values of each drive means based on the reward and the physical properties of the conveyed object.
好ましくは、物性は剛度である。
好ましくは、複数の搬送手段は、第1の搬送手段と、第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含む。第1の搬送手段と第2の搬送手段とで同時に搬送対象物を搬送している場合、報酬付与手段は、搬送対象物の剛度が所定値以上であり、かつ、第1の搬送手段の搬送速度と第2の搬送手段の搬送速度とが同じであることを条件に、正の報酬を付与する。
Preferably, the physical property is stiffness.
Preferably, the plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means. When the object to be transported is simultaneously transported by the first transport means and the second transport means, the remuneration means is configured such that the stiffness of the transport object is equal to or higher than a predetermined value, and the first transport means transports the object. A positive reward is given on the condition that the speed and the transport speed of the second transport means are the same.
好ましくは、複数の搬送手段は、第1の搬送手段と、第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含む。第1の搬送手段と第2の搬送手段とで同時に搬送対象物を搬送しており、かつ複数の区間のうち第1の搬送手段と第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされている場合、報酬付与手段は、搬送対象物の剛度が所定値未満であり、第1の搬送手段と第2の搬送手段との間の区間における状態量が所定の撓み量以下の撓み量を表しているときに、正の報酬を付与する。 Preferably, the plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means. The object to be transported is simultaneously transported by the first transport means and the second transport means, and a predetermined deflection occurs in the section between the first transport means and the second transport means among the plurality of sections. When the setting is made to allow the amount, the reward giving means determines that the stiffness of the conveyed object is less than a predetermined value and the state quantity in the section between the first conveying means and the second conveying means is a predetermined value. A positive reward is given when the amount of deflection is less than or equal to the amount of deflection.
好ましくは、物性は坪量である。
好ましくは、複数の搬送手段は、第1の搬送手段と、第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含む。第1の搬送手段と第2の搬送手段とで同時に搬送対象物を搬送している場合、報酬付与手段は、搬送対象物の坪量が所定値以上であり、かつ、第1の搬送手段の搬送速度と第2の搬送手段の搬送速度とが同じであることを条件に、正の報酬を付与する。
Preferably, the physical property is basis weight.
Preferably, the plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means. When the first conveying means and the second conveying means are conveying the conveyed object at the same time, the reward giving means determines that the basis weight of the conveyed object is equal to or greater than a predetermined value and that the first conveying means A positive reward is given on the condition that the transport speed and the transport speed of the second transport means are the same.
好ましくは、複数の搬送手段は、第1の搬送手段と、第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含む。第1の搬送手段と第2の搬送手段とで同時に搬送対象物を搬送しており、かつ複数の区間のうち第1の搬送手段と第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされている場合、報酬付与手段は、搬送対象物の坪量が所定値未満であり、第1の搬送手段と第2の搬送手段との間の区間における状態量が所定の撓み量以下の撓み量を表しているときに、正の報酬を付与する。 Preferably, the plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means. The object to be transported is simultaneously transported by the first transport means and the second transport means, and a predetermined deflection occurs in the section between the first transport means and the second transport means among the plurality of sections. If the setting is made to allow the amount, the reward giving means determines that the basis weight of the object to be transported is less than a predetermined value and the state quantity in the section between the first transport means and the second transport means is a predetermined value. A positive reward is given when the amount of deflection is less than or equal to the amount of deflection.
好ましくは、搬送手段は、ローラー対である。
好ましくは、所定の撓み量は、搬送対象物の厚み方向の搬送路の幅未満の値である。
Preferably, the conveying means is a pair of rollers.
Preferably, the predetermined amount of deflection is less than the width of the conveyance path in the thickness direction of the object to be conveyed.
好ましくは、所定の撓み量は、撓み量が0よりも大きい所定の値である。
好ましくは、状態量取得手段は、搬送装置に設けられた機械式のセンサーのシミュレーションモデルを用いて撓み量を取得する。
Preferably, the predetermined amount of deflection is a predetermined value greater than zero.
Preferably, the state quantity acquisition means acquires the amount of deflection using a simulation model of a mechanical sensor provided in the transport device.
好ましくは、状態量取得手段は、搬送装置に設けられた機械式のセンサーからの出力に基づいて、撓み量を取得する。 Preferably, the state quantity acquisition means acquires the amount of deflection based on an output from a mechanical sensor provided in the transport device.
好ましくは、状態量取得手段は、搬送装置に設けられた光学式のセンサーのシミュレーションモデルを用いて撓み量を取得する。 Preferably, the state quantity acquisition means acquires the amount of deflection using a simulation model of an optical sensor provided in the transport device.
好ましくは、状態量取得手段は、搬送装置に設けられた光学式のセンサーからの出力に基づいて、撓み量を取得する。 Preferably, the state quantity acquisition means acquires the amount of deflection based on an output from an optical sensor provided in the transport device.
好ましくは、状態量取得手段は、搬送対象物の位置に基づき搬送対象物の長さを取得する。状態量取得手段は、取得された長さよりも搬送対象物の基準長さが長い場合には、取得された長さと基準長さとの差分を撓み量とする。 Preferably, the state quantity acquisition means acquires the length of the object to be transported based on the position of the object to be transported. If the reference length of the object to be transported is longer than the obtained length, the state quantity obtaining means determines the difference between the obtained length and the reference length as the amount of deflection.
好ましくは、状態量取得手段は、搬送装置に設けられた負荷検出手段のシミュレーションモデルを用いて搬送手段の負荷を取得する。状態量取得手段は、負荷に基づいて、引っ張り量を取得する。 Preferably, the state quantity acquisition means acquires the load of the conveyance means using a simulation model of a load detection means provided in the conveyance apparatus. The state quantity acquisition means acquires the amount of tension based on the load.
好ましくは、状態量取得手段は、搬送装置に設けられた負荷検出手段によって検出された負荷に基づいて、引っ張り量を取得する。 Preferably, the state quantity acquisition means acquires the amount of tension based on the load detected by the load detection means provided in the conveying device.
好ましくは、状態量取得手段は、搬送装置に設けられた光学式のセンサーのシミュレーションモデルを用いて引っ張り量を取得する。 Preferably, the state quantity acquisition means acquires the amount of tension using a simulation model of an optical sensor provided in the transport device.
好ましくは、状態量取得手段は、搬送装置に設けられた光学式のセンサーからの出力に基づいて、引っ張り量を取得する。 Preferably, the state quantity acquisition means acquires the amount of tension based on an output from an optical sensor provided in the conveyance device.
好ましくは、複数の搬送手段は、第1の搬送手段と、第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含む。状態量取得手段は、搬送対象物の位置に基づき搬送対象物の長さを取得する。状態量取得手段は、取得された長さと搬送対象物の基準長さとの差分がなく、かつ第2の搬送手段の搬送速度が第1の搬送手段の搬送速度以上である場合、搬送対象物が引っ張られた状態と判断する。 Preferably, the plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means. The state quantity acquisition means acquires the length of the object to be transported based on the position of the object to be transported. The state quantity acquisition means determines that when there is no difference between the acquired length and the reference length of the object to be conveyed, and the conveyance speed of the second conveyance means is equal to or higher than the conveyance speed of the first conveyance means, the object to be conveyed is It is considered to be in a pulled state.
好ましくは、機械学習装置は、搬送手段の搬送対象物の搬送速度が、前回の機械学習時によって設定された搬送速度と異なった場合に、機械学習を再度実行する。 Preferably, the machine learning device performs machine learning again when the transport speed of the object to be transported by the transport means is different from the transport speed set during the previous machine learning.
好ましくは、機械学習装置は、機械学習の結果としてのパラメーターを含む更新用の制御プログラムを、搬送装置の動作を制御するコントローラーに送信する。 Preferably, the machine learning device transmits a control program for updating that includes parameters as a result of machine learning to a controller that controls the operation of the transport device.
本開示の他の局面に従うと、搬送装置は、上記機械学習装置を備える。
本開示のさらに他の局面に従うと、画像形成装置は、上記機械学習装置を備える。
According to another aspect of the present disclosure, a transport device includes the machine learning device described above.
According to yet another aspect of the present disclosure, an image forming apparatus includes the machine learning device described above.
本開示のさらに他の局面に従うと、機械学習方法は、搬送対象物の撓み量または引っ張り量を表す状態量を、搬送装置の搬送路の複数の位置において取得するステップを備える。搬送装置は、複数の搬送手段によって搬送対象物を順に挟持して、搬送対象物を搬送路の上流から下流へと搬送する。機械学習方法は、状態量に基づいて報酬を付与するステップと、各搬送手段を駆動する各駆動手段のパラメーターのセットの価値をセット毎に表す行動価値関数を、報酬に基づき更新するステップと、更新後の行動価値関数に基づいて複数のセットから1つのセットを決定し、かつ、決定されたセットのパラメーターで搬送手段を駆動するように駆動手段に対して指示するステップとをさらに備える。 According to still another aspect of the present disclosure, the machine learning method includes the step of acquiring state quantities representing the amount of deflection or the amount of tension of the conveyance target at a plurality of positions on the conveyance path of the conveyance device. The conveyance device sequentially holds an object to be conveyed by a plurality of conveyance means and conveys the object from upstream to downstream on a conveyance path. The machine learning method includes a step of providing a reward based on a state quantity, a step of updating an action value function representing the value of a set of parameters of each driving means that drives each transport means based on the reward, The method further includes the step of determining one set from the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set.
本開示のさらに他の局面に従うと、コンピュータを動作させるプログラムは、搬送対象物の撓み量または引っ張り量を表す状態量を、搬送装置の搬送路の複数の位置において取得するステップをコンピュータのプロセッサに実行させる。搬送装置は、複数の搬送手段によって搬送対象物を順に挟持して、搬送対象物を搬送路の上流から下流へと搬送する。プログラムは、状態量に基づいて報酬を付与するステップと、各搬送手段を駆動する各駆動手段のパラメーターのセットの価値をセット毎に表す行動価値関数を、報酬に基づき更新するステップと、更新後の行動価値関数に基づいて複数のセットから1つのセットを決定し、かつ、決定されたセットのパラメーターで搬送手段を駆動するように駆動手段に対して指示するステップとを、プロセッサにさらに実行させる、プログラム。 According to still another aspect of the present disclosure, a program for operating a computer causes the processor of the computer to acquire state quantities representing the amount of deflection or the amount of tension of the conveyance target at a plurality of positions on the conveyance path of the conveyance device. Let it run. The conveyance device sequentially holds an object to be conveyed by a plurality of conveyance means and conveys the object from upstream to downstream on a conveyance path. The program includes a step of giving a reward based on the state quantity, a step of updating an action value function representing the value of a set of parameters of each driving means that drives each conveyance means based on the reward, and a step of determining one set from the plurality of sets based on the action value function of the set, and instructing the driving means to drive the conveying means with the parameters of the determined set. ,program.
本開示によれば、搬送手段を駆動する駆動手段のパラメーターの値を最適化を得ることができる。 According to the present disclosure, it is possible to optimize the values of the parameters of the driving means for driving the conveying means.
実施の形態におけるシステムについて、以下、図を参照しながら説明する。以下に説明する実施の形態において、個数、量などに言及する場合、特に記載がある場合を除き、本開示の範囲は必ずしもその個数、量などに限定されない。同一の部品、相当部品に対しては、同一の参照番号を付し、重複する説明は繰り返さない場合がある。 A system in an embodiment will be described below with reference to the drawings. In the embodiments described below, when referring to the number, amount, etc., the scope of the present disclosure is not necessarily limited to the number, amount, etc. unless otherwise specified. Identical or equivalent parts will be given the same reference numbers, and duplicate descriptions may not be repeated.
図面においては、実際の寸法の比率に従って図示しておらず、構造の理解を容易にするために、構造が明確となるように比率を変更して図示している箇所がある。なお、以下で説明される各変形例は、適宜選択的に組み合わされてもよい。 In the drawings, some parts are not shown according to the actual size ratio, but are shown with the ratio changed to make the structure clearer, in order to make the structure easier to understand. Note that each modification described below may be selectively combined as appropriate.
また、以下では、対象物を搬送装置を備えた機器として、画像形成装置を例に挙げて限定するが、これに限定されるものではない。対象物としては、用紙、フィルム、布等が挙げられる。 Furthermore, in the following description, an image forming apparatus will be used as an example of a device equipped with a transport device as a target object, but the present invention is not limited thereto. Examples of the object include paper, film, cloth, and the like.
なお、画像形成装置としてはは、たとえば、カラープリンタ、モノクロプリンタ、FAX、複合機(MFP:Multi-Functional Peripheral)が挙げられる。 Note that examples of the image forming apparatus include a color printer, a monochrome printer, a FAX, and a multi-functional peripheral (MFP).
<A.機械学習>
本実施の形態にかかる学習システムの具体例を説明する前に、本例で用いる機械学習の概要について、以下に簡単に説明する。
<A. Machine learning>
Before describing a specific example of the learning system according to this embodiment, an overview of machine learning used in this example will be briefly described below.
機械学習の一例として、深層学習と、強化学習とが知られている。強化学習としては、たとえばQ学習、TD学習が知られている。 Deep learning and reinforcement learning are known as examples of machine learning. For example, Q learning and TD learning are known as reinforcement learning.
また、深層学習と強化学習とを用いた機械学習は、「深層強化学習(DQN:Deep Q-Network)」と称される。深層強化学習は、強化学習の行動価値関数の表現にディープラーニングを用いる手法である。深層強化学習は、強化学習の一種である。 Furthermore, machine learning using deep learning and reinforcement learning is called "deep reinforcement learning (DQN: Deep Q-Network)." Deep reinforcement learning is a method that uses deep learning to express the action value function of reinforcement learning. Deep reinforcement learning is a type of reinforcement learning.
本実施の形態の例では、強化学習について説明する。特に、Q学習(より詳しくは、行動価値関数の一種であるQテーブルを用いた学習)を例に挙げて説明する。なお、強化学習は、Qテーブルを用いる構成に限定されず、深層強化学習であってもよい。また、状態に基づき行動を選択し、選択された行動に基づき報酬を付与する学習であれば、学習方法は、特に限定されるものではない。 In this embodiment, reinforcement learning will be explained. In particular, Q learning (more specifically, learning using a Q table, which is a type of action value function) will be explained as an example. Note that reinforcement learning is not limited to a configuration using a Q table, and may be deep reinforcement learning. Furthermore, the learning method is not particularly limited as long as it is learning in which an action is selected based on the state and a reward is given based on the selected action.
図1は、強化学習の概要を説明するための模式図である。
図1を参照して、エージェントは、あるタイミングにおいて、環境の状態sを観測する。次に、エージェントは、状態sと方策πとに基づいて、行動aを決定する。方策πは、行動を決定するためのルールである。方策πを最適化することは、行動選択を最適化することになる。次に、エージェントは、行動aに基づき、環境から報酬rを得る。
FIG. 1 is a schematic diagram for explaining an overview of reinforcement learning.
Referring to FIG. 1, an agent observes the state s of the environment at a certain timing. Next, the agent determines action a based on state s and policy π. Policy π is a rule for determining behavior. Optimizing policy π amounts to optimizing action selection. Next, the agent obtains a reward r from the environment based on action a.
さらに、エージェントは、最終状態に至るまで、状態sの取得と、方策πに基づいた行動aの決定(選択)と、決定された行動aに基づく報酬rの取得とを繰り返す。すなわち、エージェントは、行動選択(詳しくは、パラメータ)が最適化されるまで、上述した処理を繰り返す。 Furthermore, the agent repeats the acquisition of the state s, the determination (selection) of the action a based on the policy π, and the acquisition of the reward r based on the determined action a until the agent reaches the final state. That is, the agent repeats the above-described process until the behavior selection (specifically, the parameters) is optimized.
強化学習では、典型的には、以下の式(1)で表される状態価値関数V(s)が利用される。 Reinforcement learning typically uses a state value function V(s) expressed by the following equation (1).
V(s)=Σ π(a|s)Q(s,a) … (1)
詳しくは、式(1)は、aについて全ての項の和をとることを示す式である。式(1)において、π(a|s)は、確率的方策を表している。π(a|s)は、状態sにおいて行動aを選択する確率を表している。一方、Q(s,a)は、行動価値関数を表している。
V(s)=Σ π(a|s)Q(s,a)...(1)
Specifically, equation (1) is an equation that indicates the sum of all terms for a. In equation (1), π(a|s) represents a stochastic policy. π(a|s) represents the probability of selecting action a in state s. On the other hand, Q(s, a) represents an action value function.
強化学習のうち、行動価値関数Q(s,a)に着目する方式(価値ベース(価値反復))がQ学習と称されている。また、強化学習のうち、確率的方策π(a|s)に着目する方式(方策ベース(方策反復))は、方策勾配法と称されている。 Among reinforcement learning, a method (value-based (value repetition)) that focuses on the behavior value function Q(s, a) is called Q-learning. Further, among reinforcement learning, a method (policy-based (policy repetition)) that focuses on a stochastic policy π(a|s) is called a policy gradient method.
Q学習では、エージェントが行動aを選択する度に、以下の式(2)にしたがって、行動価値関数Q(s,a)が更新される。 In Q-learning, each time the agent selects action a, the action value function Q(s, a) is updated according to the following equation (2).
Q(st,at)←Q(st,at)+α{rt+1+γmaxaQ(st+1,at+1)-Q(st,at)} … (2)
Q(st,at)は状態stにおいて行動atを行うことにより得られる報酬の期待値を表している。rt+1は、時刻t+1で行動atに対し与えられる即時の報酬である。αは、学習のスピードを決める学習率(0<α<1)である。γは、割引率(0<γ<1)である。なお、割引率は、Qテーブルが発散しないようにするためのものである。
Q(s t , a t )←Q(s t , at )+α{r t+1 +γmax a Q(s t+1 ,a t+1 )−Q(s t , at )} … (2)
Q(s t , a t ) represents the expected value of reward obtained by performing action a t in state s t . r t+1 is the immediate reward given for action at at
<B.システム構成>
図2は、本実施の形態に係る学習システム1000を表した図である。
<B. System configuration>
FIG. 2 is a diagram showing a learning system 1000 according to this embodiment.
図2を参照して、学習システム1000は、ユーザーが利用する(ユーザー側、エッジ側)の画像形成装置1と、クラウド側の情報処理装置とで構成される。学習システム1000では、クラウド上でQ学習が実行される。詳しくは、画像形成装置1は、クラウドに対して、画像形成装置1にて検出されたデーターをアップロードする。これにより、画像形成装置1の状態をクラウド上で再現し、クラウド上でQ学習を実行する。より詳しくは、以下のとおりである。
Referring to FIG. 2, learning system 1000 includes an
クラウド上では、エミュレーターとして機能と、シミュレーターとして機能と、強化学習を実行する機能(AI機能)とが、1つ以上の情報処理装置によって実行される。たとえば、エミュレーターとして機能と、シミュレーターとして機能と、強化学習を実行する機能とが別々の情報処理装置によって実行される。これに限定されず、エミュレーターとして機能と、シミュレーターとして機能とが1つの情報処理装置で実行され、強化学習が別の情報処理装置で実行されてもよい。また、シミュレーターとしての機能と、強化学習を実行する機能とが、同じ情報処理装置で実行されてもよい。 On the cloud, one or more information processing devices perform an emulator function, a simulator function, and a reinforcement learning function (AI function). For example, a function as an emulator, a function as a simulator, and a function to perform reinforcement learning are performed by separate information processing devices. The present invention is not limited to this, and the functions as an emulator and a simulator may be executed by one information processing device, and reinforcement learning may be executed by another information processing device. Further, the function as a simulator and the function to perform reinforcement learning may be performed by the same information processing device.
シミュレーターは、メカニカルシミュレータである。シミュレーターは、外から見た画像形成装置1の動作を再現する。
The simulator is a mechanical simulator. The simulator reproduces the operation of the
シミュレーターは、画像形成装置1に相当するシミュレーションモデルによって、画像形成装置1の動作をシミュレートする。製造メーカーは、ユーザーからの画像形成装置1に関する個別要求(カスタマイズ要求)を受け付けると、当該個別要求に基づいたシミュレーションモデルを生成する。
The simulator simulates the operation of the
より詳しくは、シミュレーションモデルは、エミュレーターによって提供される部品モデルを利用して生成される。 More specifically, the simulation model is generated using a component model provided by an emulator.
エミュレーターは、定着装置のエミュレーター部品、プロセスのエミュレーター部品、搬送装置のエミュレーター部品等のモデルを含む。エミュレーター、画像形成装置1の中身の動作まで再現する。各部品のモデルは、画像形成装置1の各機器状態に応じて更新される。
The emulator includes models such as fixing device emulator parts, process emulator parts, and conveyance device emulator parts. The emulator reproduces even the internal operations of the
学習システム1000では、シミュレーターと、強化学習を実行する情報処理装置(以下、「学習装置」とも称する)とが協働して、画像形成装置1の搬送装置を駆動する駆動手段(典型的には、モーター)の各種のパラメーターを決定する。詳しくは、本例では、学習装置が、行動価値関数Q(s,a)の一例であるQテーブル内のパラメーターを学習により決定する。 In the learning system 1000, a simulator and an information processing device (hereinafter also referred to as a “learning device”) that executes reinforcement learning cooperate with each other, and a driving unit (typically, , motor). Specifically, in this example, the learning device determines the parameters in the Q table, which is an example of the action value function Q(s, a), through learning.
より詳しくは、Q学習に先立ち、実機である画像形成装置1は、画像形成装置1内で検出された各種のデータ(「センシングデータ」とも称する)をクラウドにアップロードする。クラウド側では、当該センシングデーターを利用してエミュレーター内の各部品を示すモデルが更新される。詳しくは、モデルのパラメーターが更新される。また、センシングデーター利用して、シミュレーターの各種の設定値が更新される。これにより、シミュレーターが、実機である画像形成装置1の状態をより反映したものとなる。なお、シミュレーターは、エミュレーターで定義された各種の部品(パラメーターがセンシングデーターによって更新された部品)を含んでいる。
More specifically, prior to Q-learning, the
Q学習が終了すると、決定されたパラメーターに基づいて、画像形成装置1用のファームウェアを更新するためのプログラムが、クラウド上の情報処理装置にて生成される。生成された更新用のプログラムは、画像形成装置1に送られる。
When the Q learning is completed, a program for updating the firmware for the
画像形成装置1では、更新用のプログラムにより、画像形成装置1の制御装置内のファームウェアが更新される。
In the
<C.画像形成装置のハードウェア構成>
(c1.内部構造)
図3は、画像形成装置1の内部構造を示す概略図である。図3を参照して、画像形成装置1は、上述したように、本体部10と、後処理装置20とを備えている。
<C. Hardware configuration of image forming apparatus>
(c1. Internal structure)
FIG. 3 is a schematic diagram showing the internal structure of the
本体部10は、画像形成ユニット11と、スキャナーユニット12と、自動原稿搬送ユニット13と、2つの給紙カセット14と、搬送路15と、メディアセンサー16と、反転搬送路17と、操作パネル34と、給紙ローラー113とを備えている。なお、自動原稿搬送ユニットは、ADF(auto document feeder)とも称される。
The
本体部10は、画像形成装置1の動作を制御するコントローラー31をさらに備えている。なお、本例では、本体部10は、いわゆるタンデム方式のカラープリンタである。本体部10は、印刷設定に基づいて画像形成を実行する。
The
自動原稿搬送ユニット13は、原稿台上に載置された原稿を、原稿読取部の読取位置に自動的に搬送する。スキャナーユニット12は、自動原稿搬送ユニット13により搬送された原稿の画像を読み取り、画像データーを生成する。また、スキャナーユニット12は、自動原稿搬送ユニット13を用いずにユーザーがプラテン上に置いた原稿の画像も読み取り、画像データーを生成する。スキャナーユニット12によって取得された原稿の画像データーは、メモリ(典型的には、図4に示す固定記憶装置32)に記憶される。
The automatic
給紙カセット14には、用紙P等のシートが収容される。給紙ローラー113は、図3の例の場合には用紙Pを搬送路15に沿って上方へ送る。給紙カセット14は、底上げ板142と、センサー143とを備える。センサー143は、給紙カセット内の規制板(図示せず)位置を検知し、かつ用紙のサイズを検知する。なお、用紙以外のシートとしては、たとえば、封筒、OHP(Overhead projector)フィルム、布が挙げられる。
The
搬送路15は、片面印刷および両面印刷のときに使用される。反転搬送路17は、両面印刷のときに使用される。
The
画像形成ユニット11は、スキャナーユニット12が生成した画像データー、または、外部の装置から取得した印刷データーに基づいて、給紙カセット14により供給される用紙Pに対し画像形成を行なう。
The
画像形成ユニット11は、中間転写ベルト101と、テンションローラー102と、駆動ローラー103と、イエローの画像形成部104Yと、マゼンタの画像形成部104Mと、シアンの画像形成部104C,ブラックの画像形成部104Kと、画像濃度センサー105と、1次転写装置111と、2次転写装置115と、レジストローラー対116と、加熱ローラー121と加圧ローラー122とからなる定着装置120とを有している。テンションローラー102と駆動ローラー103とで、中間転写ベルト101を保持し、かつ図のA方向に中間転写ベルト101を回転駆動させる。レジストローラー対116は、給紙ローラー113によって搬送された用紙Pをさらに下流に搬送する。
The
メディアセンサー16は、搬送路15に設置される。メディアセンサー16によって、紙種自動検出機能(用紙の種類を自動検出する機能)が実現される。メディアセンサー16は、給紙ローラー113と、レジストローラー対116との間に設置されている。
The
メディアセンサー16は、たとえば、用紙に光を照射する発光部と、用紙で反射した反射光を受光する受光部とを有する光学式のセンサーである。メディアセンサー16としての光学式のセンサーは、受光した光の電圧値から、紙の坪量を判定する。メディアセンサー16として、用紙の厚さを検出する変位センサー、用紙の含水量を検出する静電容量センサー、用紙の表面性を撮像するカメラ、超音波センサー等の用紙の特性を検出するものが該当する。典型的には、給紙カセット14に用紙がセットされた後、最初の1枚目の用紙が給紙カセット14から給紙されたときに、メディアセンサー16によって用紙の種類が判別される。
The
メディアセンサー16から坪量の情報がコントローラー31に送られる。これにより、コントローラー31は、用紙の種類を判定する。
Basis weight information is sent from the
なお、後処理装置20は、パンチ処理装置220と、平綴じ処理部250と、中綴じ処理部260と、排出トレイ271と、排出トレイ272と、下部の排出トレイ273とをさらに備える。
The
(c2.ハードウェア構成)
図4は、画像形成装置1のハードウェア構成の一例を説明するためのブロック図である。
(c2. Hardware configuration)
FIG. 4 is a block diagram for explaining an example of the hardware configuration of the
図4を参照して、本体部10は、コントローラー31と、固定記憶装置32と、短距離無線IF(Inter Face)33と、スキャナーユニット12と、操作パネル34と、給紙カセット14と、メディアセンサー16と、画像形成ユニット11と、プリンタコントローラー35と、ネットワークIF36と、ワイヤレスIF37とを有する。コントローラー31には、各部11,12,14,16,32~37がバス30を介して接続されている。
Referring to FIG. 4, the
コントローラー31は、画像形成装置1の動作を制御する。コントローラー31は、CPU(Central Processing Unit)311と、制御プログラムの格納されたROM(Read Only Memory)312と、作業用のS-RAM(Static Random Access Memory)313と、画像形成に関わる各種の設定を記憶するバッテリバックアップされたNV-RAM(Non-Volatile RAM:不揮発性メモリ)314と、時計IC(Integrated Circuit)315とを有する。各部311~315は、バス30を介して接続されている。また、コントローラー31は、典型的には、制御基盤として本体部10に内蔵される。
操作パネル34は、各種の入力を行うキー、および表示部を有する。操作パネル34は、典型的には、タッチスクリーンと、ハードウェアキーとで構成される。なお、タッチスクリーンは、ディスプレイの上にタッチパネルが重畳されたデバイスである。
The
ネットワークIF36は、ネットワークを介して接続されたPC3、サーバー(図示せず)および他の画像形成装置(図示せず)をはじめとする外部装置との間で各種の情報を送受信する。
The network IF 36 transmits and receives various information to and from external devices connected via the network, including the
プリンタコントローラー35は、ネットワークIF36により受信したプリントデータから複写画像を生成する。画像形成ユニット11は、複写画像を用紙上に形成する。
The
なお、固定記憶装置32は、典型的には、ハードディスク装置である。固定記憶装置32には、各種のデーターが記憶されている。なお、固定記憶装置32は、フラッシュメモリであってもよい。
Note that the fixed
(c3.搬送装置)
図5は、搬送装置の一部の構成を表した模式図である。なお、搬送装置とは、画像形成装置1内にて、搬送対象物である用紙Pを搬送するための機構である。搬送装置は、複数の搬送ユニットを含む。各搬送ユニットは、搬送手段としてのローラー対と、ローラー対を駆動する駆動手段としてのモーターとを含む。なお、ローラー対は、典型的には、駆動ローラーと、駆動ローラーの回転に従動して回転する従動ローラーとを含む。
(c3. Conveyance device)
FIG. 5 is a schematic diagram showing the configuration of a part of the transport device. Note that the conveyance device is a mechanism for conveying paper P, which is an object to be conveyed, within the
図5を参照して、搬送装置39は、複数のローラー対を含む。たとえば、搬送装置39は、給紙ローラー対と、タイミングローラー対と、定着ローラー対と、排紙ローラー対とを含む。
Referring to FIG. 5,
給紙ローラー対の駆動ローラーは、給紙クラッチによって移動可能に構成されている。給紙クラッチがオンの状態では、給紙ローラー対の駆動ローラーは従動ローラーに当接する。給紙クラッチがオフの状態では、給紙ローラー対の駆動ローラーは従動ローラーから離間する。 The drive rollers of the paper feed roller pair are configured to be movable by a paper feed clutch. When the paper feed clutch is on, the drive roller of the paper feed roller pair comes into contact with the driven roller. When the paper feed clutch is off, the drive roller of the paper feed roller pair is separated from the driven roller.
タイミングローラー対については、タイミングクラッチがオンの状態で駆動ローラーが回転し、タイミングクラッチがオフの状態で駆動ローラーが停止する。 Regarding the timing roller pair, the drive roller rotates when the timing clutch is on, and the drive roller stops when the timing clutch is off.
定着ローラー対は、定着クラッチ(図示せず)によって移動可能に構成されている。定着クラッチがオンの状態では、定着ローラー対の駆動ローラーは従動ローラーに当接する。定着クラッチがオフの状態では、定着ローラー対の駆動ローラーは従動ローラーから離間する。 The fixing roller pair is configured to be movable by a fixing clutch (not shown). When the fixing clutch is on, the driving roller of the fixing roller pair comes into contact with the driven roller. When the fixing clutch is off, the driving roller of the fixing roller pair is separated from the driven roller.
排紙ローラー対は、排紙クラッチ(図示せず)によって移動可能に構成されている。排紙クラッチがオンの状態では、排紙ローラー対の駆動ローラーは従動ローラーに当接する。排紙クラッチがオフの状態では、排紙ローラー対の駆動ローラーは従動ローラーから離間する。 The paper ejection roller pair is configured to be movable by a paper ejection clutch (not shown). When the paper ejection clutch is on, the drive roller of the paper ejection roller pair comes into contact with the driven roller. When the paper ejection clutch is off, the driving roller of the paper ejection roller pair is separated from the driven roller.
給紙ローラーおよびタイミングローラーは、メインモーターによって回転駆動する。定着ローラーは、定着モーターによって回転駆動する。排紙ローラーは、排紙モーターによって回転駆動する。各モーターの回転速度等は、コントローラー31から指示される。
The paper feed roller and timing roller are rotationally driven by a main motor. The fixing roller is rotationally driven by a fixing motor. The paper ejection roller is rotationally driven by a paper ejection motor. The rotational speed and the like of each motor are instructed by the
搬送路15には、用紙Pの位置を検出するための複数のセンサー#1,#2,…#20が設置されている。なお、センサーの数を上記のような数としたのは、図面を簡略化するためであり、センサーの数は、これに限定されるものではない。ただし、隣り合うセンサー同士の距離が、連続して搬送される用紙P同士の間の距離(ピッチ)以下にすることが好ましい。用紙Pの通過を1枚毎に検出するためである。
A plurality of
なお、センサーによる検出信号は、コントローラー31に送られる。コントローラー31は、各センサーからの出力に基づき、用紙Pの位置を判断する。
Note that a detection signal from the sensor is sent to the
このような搬送装置39の動作およびセンシング結果の出力は、Q学習のために、クラウド上のシミュレーターにても再現される。
The operation of the
図6は、Q学習で用いられるデーターを説明するための模式図である。
図6を参照して、Q学習では、センサー#1,#2,…#20の出力(オンまたはオフ)を、状態sとする。また、Q学習では、メインモーター、定着モーター、排紙モーターの速度、駆動のタイミング、停止のタイミング、変速のタイミング、および駆動電流の値を、学習対象のパラメーターとする。また、Q学習では、給紙クラッチおよびタイミングクラッチのオンまたはオフも学習対象とパラメーターとなる。
FIG. 6 is a schematic diagram for explaining data used in Q-learning.
Referring to FIG. 6, in Q learning, the outputs (on or off) of
行動aは、「Qテーブルを参照して行動を決定(選択)し、決定された行動に対応付けられたパラメーター(詳しくは、パラメーターのセット)で各モーターを駆動すること」に該当する。また、行動aにより、報酬rが得られる。 Action a corresponds to "determining (selecting) an action with reference to the Q table, and driving each motor with a parameter (specifically, a set of parameters) associated with the determined action." In addition, a reward r can be obtained by action a.
本例では、対象物である用紙Pの撓み量または引っ張り量を表す状態量(以下、「用紙状態量」と称する)に基づき、報酬rが付与される。用紙Pの区間(搬送路中の区間)に応じて、引っ張った状態であることが好ましかったり、撓みが許容されたり、撓みが許容されなかったりする。このため、搬送経路の複数の区間にて用紙状態量を取得し、用紙状態量に基づき報酬rを付与する。 In this example, a reward r is given based on a state quantity (hereinafter referred to as a "paper state quantity") representing the amount of deflection or tension of the paper P, which is the object. Depending on the section of the paper P (section on the conveyance path), it is preferable that the paper P be in a stretched state, that flexing is allowed, or that sagging is not allowed. For this reason, the paper state quantity is acquired in a plurality of sections of the conveyance path, and the reward r is given based on the paper state quantity.
上述したように、本例では画像形成装置1のシミュレーターを用いるため、搬送装置39の構成もシミュレーター上で再現される。機械学習時は、センサーを用いた用紙Pの位置の検出も、シミュレーターにて行われる。
As described above, since the simulator of the
より詳しくは、最初は用紙状態量を実機である画像形成装置1から取得し、その後は、シミュレーターにて用紙状態量を算出する。シミュレーターにて算出された用紙状態量との各々に対して、報酬rの算出(付与)がなされる。
More specifically, first, the paper state quantity is obtained from the
また、学習装置は、搬送路15中の用紙Pの位置の代わりに、搬送装置39による用紙Pの搬送速度、または搬送路15中の用紙Pの位置に基づき、用紙状態量(撓み量または引っ張り量)を算出してもよい。なお、搬送速度とは、ローラーの回転速度(回転数)と、ローラーの半径との積として表される。
Furthermore, the learning device determines the amount of paper condition (the amount of deflection or tension) based on the transport speed of the paper P by the
図7は、搬送装置39の変形例を説明するための模式図である。
図7を参照して、搬送装置39Aは、図5に示した搬送装置39の複数のセンサーの一部を仮想センサーに置き換えた図である。
FIG. 7 is a schematic diagram for explaining a modification of the
Referring to FIG. 7, a
実機である画像形成装置1においては、多数のセンサーを搬送路15に配置することは、コストがかかりすぎる。そこで、センサーを仮想化する。仮想化したセンサーに用紙Pが到達したか否かは、用紙Pの位置と搬送速度とに基づき判断する。用紙Pの位置を逐次更新していくことで、センサー位置への用紙Pの到達を判断する。
In the
<D.ハードウェア構成>
図8は、学習装置500のハードウェア構成の典型例を表した図である。図8を参照して、学習装置500は、主たる構成要素として、プログラムを実行するCPU581と、CPU581によるプログラムの実行により生成されたデーター、又は入力装置を介して入力されたデーターを揮発的に格納するRAM582と、データーを不揮発的に格納するROM583と、データーを不揮発的に格納するHDD584と、ディスプレイ585と、操作キー586と、通信IF(Interface)587と、電源回路588とを含む。各構成要素は、相互にデーターバスによって接続されている。
<D. Hardware configuration>
FIG. 8 is a diagram showing a typical example of the hardware configuration of the
電源回路588は、コンセントを介して受信した商用電源の電圧を降圧し、学習装置500の各部に電源供給を行なう回路である。
The
通信IF587は、他の情報処理装置(クラウド上の機器、またはエッジ側の機器)の機器との間の通信を行なためのインターフェイスである。 The communication IF 587 is an interface for communicating with other information processing devices (devices on the cloud or devices on the edge side).
操作キー586は、学習装置500のユーザーが学習装置500へデーターを入力するための用いるキー(キーボード)である。
The
学習装置500における処理は、各ハードウェアおよびCPU581により実行されるソフトウェアによって実現される。
Processing in the
同図に示される学習装置500を構成する各構成要素は、一般的なものである。したがって、本発明の本質的な部分は、RAM582、HDD584、記憶媒体に格納されたソフトウェア、あるいはネットワークを介してダウンロード可能なソフトウェアであるともいえる。なお、学習装置500の各ハードウェアの動作は周知であるので、詳細な説明は繰り返さない。
Each component constituting the
また、シミュレーター800も学習装置500と同様のハードウェア構成を有する。したがって、ここでは、シミュレーター800のハードウェア構成については、繰り返し説明しない。
Further, the
<E.Qテーブル>
図9は、Qテーブルの概要を説明するための模式図である。
<E. Q table>
FIG. 9 is a schematic diagram for explaining the outline of the Q table.
図9を参照して、Qテーブル535には、各センサー#1~#20のオンとオフとの全ての組み合わせ(220個の組み合わせ)に対して、状態番号#1~#1048576が対応付けられている。
Referring to FIG. 9, in the Q table 535,
行動aは、8つのグループの行動a1~a8に大別される。行動a1~a8は、給紙クラッチのオンおよびオフと、タイミングクラッチのオンおよびオフと、排紙クラッチのオンおよびオフとの8(=23)つの組み合わせに基づき規定されている。たとえば、行動a1は、給紙クラッチと、タイミングクラッチと、排紙クラッチとの各々がオフである場合を表している。 Action a is roughly divided into eight groups of actions a1 to a8. Actions a1 to a8 are defined based on eight (=2 3 ) combinations of paper feed clutch on and off, timing clutch on and off, and paper discharge clutch on and off. For example, action a1 represents a case in which each of the paper feed clutch, timing clutch, and paper discharge clutch is off.
ただし、搬送装置39には、上記のクラッチ以外のクラッチも存在する。それゆえ、実際には、行動aは、さらに多くの数の行動に大別され得る。
However, the
行動a1は、典型的には、複数の行動a1_1~a1_nで構成されている。なお、nは、2以上の自然数である。同様に、行動a2も、複数の行動a2_1~a2_nで構成されている他の各行動a3~a8についても、同様に、n個の行動を含む。 Action a1 typically includes a plurality of actions a1_1 to a1_n. Note that n is a natural number of 2 or more. Similarly, the action a2 includes n actions as well as each of the other actions a3 to a8, which are composed of a plurality of actions a2_1 to a2_n.
たとえば行動a2における行動a2_1~a2_nは、少なくとも、クラッチがオン状態の搬送用のローラー対およびクラッチが存在しない搬送用のローラー対の各々の回転速度、駆動のタイミング、停止のタイミング、変速のタイミング、および駆動電流の値の組み合わせに対応している。 For example, actions a2_1 to a2_n in action a2 include at least the rotational speed, drive timing, stop timing, and shift timing of each of the conveying roller pair with the clutch in the on state and the conveying roller pair without the clutch, and drive current values.
行動a2について例を挙げて説明すると、以下のとおりである。仮に、行動a2において、クラッチがオン状態の搬送用のローラー対が2つあり、クラッチが存在しない搬送用のローラー対が1つあったとする。なお、クラッチがオン状態の搬送用のローラー対の1つは、給紙クラッチである。この場合、3つの駆動手段(モーター)が駆動される。このため、3つのモーターの駆動パラメーターに基づき、行動a2が分類される。 Action a2 will be explained below using an example. Assume that in action a2, there are two pairs of conveying rollers with clutches in the ON state, and one pair of conveying rollers with no clutch. Note that one of the conveyance roller pairs with the clutch in the on state is the paper feed clutch. In this case, three drive means (motors) are driven. Therefore, action a2 is classified based on the drive parameters of the three motors.
1つのモーターについて、少なくとも、回転速度、駆動のタイミング、停止のタイミング、変速のタイミング、および駆動電流の値の5個のパラメーターがある。仮に各パラメーターの設定区分が10個あるとすると、1つのモーターについて、100000(=105)とおりの組み合わせが存在することになる。 There are at least five parameters for one motor: rotational speed, drive timing, stop timing, speed change timing, and drive current value. Assuming that there are 10 setting categories for each parameter, there will be 100,000 (=10 5 ) combinations for one motor.
よって、他の2つのモーターのパラメーターの設定区分も上記と同様とすると、3つのモーターでは、100000×100000×10000(=1015)とおりの組み合わせが存在することになる。この場合、行動a2_nの値は、1015となる。 Therefore, assuming that the parameter settings for the other two motors are the same as above, there are 100,000×100,000×10,000 (=10 15 ) combinations of the three motors. In this case, the value of action a2_n is 10 15 .
各パラメーターの設定区分は、基準値に対して、たとえば、±5,±10,…といったように設定可能である。なお、プラスマイナスで示した値は、例示であって、これに限定されるものではない。 The setting classification of each parameter can be set, for example, ±5, ±10, . . . with respect to the reference value. Note that the values indicated by plus or minus are merely examples, and the values are not limited thereto.
以上のように、Qテーブル535では、各行動の価値が、各行動に対応付けて格納されている。詳しくは、Qテーブル535では、モーターを駆動するパラメーター(設定パラメーター)のセットの価値が、セット毎に示されている。Qテーブル535では、1つのセットの価値が1つの数値として表されている。 As described above, in the Q table 535, the value of each action is stored in association with each action. Specifically, in the Q table 535, the value of a set of parameters (setting parameters) for driving the motor is shown for each set. In the Q table 535, the value of one set is represented as one numerical value.
なお、Qテーブルの行動aの各数値の初期値は、学習開始前に予め設定されている。
次に、図9に示したQテーブルを利用した行動aの選択について説明する。つまり、Qテーブルを利用したパラメーターの設定について説明する。さらに、Qテーブル内の数値(すなわち、パラメーター)の更新についても説明する。
Note that the initial value of each numerical value of behavior a in the Q table is set in advance before learning starts.
Next, the selection of action a using the Q table shown in FIG. 9 will be explained. In other words, parameter settings using the Q table will be explained. Furthermore, updating of numerical values (ie, parameters) in the Q table will also be explained.
たとえば、用紙Pが搬送され、状態sが状態#2となったとする。この場合、学習装置500は、状態#2に対応する行動a1_1~a1_n,a2_1~a2_n,…,a8_1~a8_nのうちから、価値の最も高い行動aを選択する。具体的には、学習装置500は、状態#2に対応する行動a1_1~a1_n,a2_1~a2_n,…,a8_1~a8_nのうちから、最も高い数値を選択する。
For example, assume that paper P is transported and state s becomes
上記の例のように行動a2_nの値が1015である場合には、1015個の中から数値の最も高い行動aを選択する。ただし、学習装置500は、最も数値が高い行動aを常に選択するのではなく、ε-greedy法を用いて他の数値の行動aを選択する。
If the value of action a2_n is 10 15 as in the above example, action a with the highest value is selected from among 10 15 . However, the
学習装置500は、行動aが選択されると、選択された行動a(たとえば、行動a3_51)として規定された各種のパラメーターの数値(回転速度、駆動のタイミング、停止のタイミング、変速のタイミング、および駆動電流の値)を用いて、シミュレーター内で搬送装置を駆動させる。
When action a is selected,
学習装置500は、状態stにおいて選択された行動a(以下、行動at)に基づき、報酬rt+1を付与する。具体的には、行動atの結果(次の状態st+1)に基づき検出されるセンサーの出力に基づき、用紙Pの撓み量まはた引っ張り量を表す用紙状態量を算出する。
The
学習装置500は、算出された用紙状態量に基づき、正または負の報酬を付与する。具体的には、たとえば行動a3_51が選択されていた場合、学習装置500は、行動a3_51の数値(表の数値)を、用紙状態量に基づき決定された報酬を加算(報酬がマイナスのときは減算)することにより更新する。
The
ところで、搬送路15の区間に応じて、撓みが許される区間もあれば、撓みが許されない区間もある。また、搬送路15には、用紙Pが引っ張り状態にあることが好ましい区間もある。そこで、学習装置500は、搬送路の区間を考慮し、報酬を付与する。報酬の付与の例いついては後述する。
By the way, depending on the section of the
学習装置500は、たとえば、用紙Pの位置に基づき算出された長さよりも用紙Pの基準長さが長い場合には、当該算出された長さと当該基準長さとの差分を撓み量として取得する。また、学習装置500は、用紙Pの基準長さよりも用紙Pの位置に基づき算出された長さが長い場合には、当該算出された長さと当該基準長さとの差分を引っ張り量として取得する。
For example, if the reference length of the paper P is longer than the length calculated based on the position of the paper P, the
また、学習装置500は、用紙Pの位置に基づき算出された長さと、用紙Pの基準長さとの差分がなく、かつローラーの搬送速度が当該ローラーよりも1つ上流側のローラーの搬送速度以上である場合に、用紙Pが引っ張られた状態にあると判断する。
Further, the
なお、学習装置500は、用紙Pの撓み量を、たとえば、エミュレーター内のカメラ部品モデル(光学式のセンサ部品モデル)による撮像結果に基づき算出してもよい。あるいは、学習装置500は、用紙Pの撓み量を、たとえば、エミュレーター内の撓み機械式のセンサー部品モデル(アクチュエーター部品モデル等)によって計測してもよい。
Note that the
また、学習装置500は、搬送装置のエミュレーター部品にて搬送装置にかかる負荷を検出することによって、用紙Pの引っ張り量を算出してもよい。あるいは、学習装置500は、エミュレーター内のカメラ部品モデルによる撮像結果に基づき、用紙Pの引っ張り量を算出してもよい。
Further, the
なお、上述したように、学習装置500は、実機である画像形成装置1からセンシングデーターを取得する。この際、用紙Pの位置を検出するセンサー(図5参照)からの出力に基づき、学習装置500は、学習開始前に、画像形成装置1から、上述した手法により撓み量または引っ張り量を取得することができる。このような用紙状態量は、シミュレーターの設定時に反映される。
Note that, as described above, the
<F.機能的構成>
図10は、画像形成装置1の機能的構成を説明するための機能ブロック図である。
<F. Functional configuration>
FIG. 10 is a functional block diagram for explaining the functional configuration of the
図10を参照して、画像形成装置1は、コントローラー(制御部)31と、ネットワークIF(Interface)36と、搬送装置39とを備える。
Referring to FIG. 10,
コントローラー31は、ファームウェアを記憶している。コントローラー31は、ファームウェア等を用いて、画像形成装置1の全体的な動作を制御する。たとえば、コントローラー31は、モーターの回転速度を制御する。
The
搬送装置39は、複数の搬送ユニット391_1,391_2,…を備える。各搬送ユニット391_1,391_2,…は、搬送部(搬送手段、ローラー対)398と、駆動部(モーター)399とを備える。搬送装置39は、ファームウェアの設定に基づき、動作する。たとえば、駆動部399は、ファームウェアにおいて設定された各種パラメーター(回転速度、駆動のタイミング、停止のタイミング、変速のタイミング、および駆動電流の値等)にしたがって、駆動する。
The
ネットワークIF36は、外部のネットワークと通信するための通信インターフェイスである。画像形成装置1は、ネットワークIF36により、クラウド900上の各機器(学習装置500、エミュレーター700、シミュレーター800)と通信を行うことができる。詳しくは、ネットワークIF36は、送信部361と、受信部362とを備える。
Network IF 36 is a communication interface for communicating with an external network. The
送信部361は、クラウド900上のエミュレーター700およびシミュレーター800にデーターを送信する。具体的には、送信部361は、学習装置500に対して、上述したセンシングデーターを送信する。送信部361は、センシングデーターとして、たとえば画像形成装置1を数分間稼働させたときのデーターをエミュレーター700およびシミュレーター800に送信する。当該データーには、位置検出用のセンサー(図5参照)の出力の他、回転速度、駆動のタイミング、停止のタイミング、変速のタイミング、および駆動電流の値等も含まれる。また、当該データーは、用紙Pの撓み量または引っ張り量を示した用紙状態量も含み得る。
The
学習装置500は、画像形成装置1のファームウェアを更新するための更新用プログラムを画像形成装置1に対して送信する。更新用プログラムは、Q学習によって得られた最適な行動aの各種のパラメーター(回転速度、駆動のタイミング、停止のタイミング、変速のタイミング、および駆動電流の値等)の数値を含んでいる。
画像形成装置1は、更新プログラムを学習装置500から受信すると、ファームウェアを当該更新用プログラムにて更新する。
Upon receiving the update program from the
図11は、学習装置500の構成と、シミュレーターの構成とを説明するための機能ブロック図である。
FIG. 11 is a functional block diagram for explaining the configuration of the
図11を参照して、学習装置500は、状態観測部510と、報酬付与部520と、学習部530と、意思決定部540と、更新用プログラム作成部550と、更新用プログラム送信部560とを備える。状態観測部510は、状態量取得部515を含む。学習部530は、Qテーブル535を有する。Qテーブル535には、状態sと行動atとが関連付けられている。また、行動atには、パラメーターのセット(複数のパラメーターからなる組)が関連付けられている。
Referring to FIG. 11,
シミュレーター800は、画像形成装置1をシミュレーション用にモデル化した画像形成装置モデル805を有する。画像形成装置モデル805は、コントローラー31をシミュレーション用にモデル化したコントローラーモデル810と、搬送装置39をシミュレーション用にモデル化した搬送装置モデル820とを含む。
The
搬送装置モデル820は、複数の搬送ユニット391_1,391_2,…をシミュレーション用にモデル化した搬送ユニットモデル821_1,821_2,…を含む。各搬送ユニットモデルは、搬送部398(ローラー対)をモデル化した搬送部モデル8212と、駆動部399をモデル化した駆動部モデル8214とを有する。
The
搬送装置モデル820は、複数のセンサー(図5参照)をシミュレーション用にモデル化したセンサーモデル825_1,825_2,…をさらに有する。
The
状態観測部510は、シミュレーター800から状態s(シミュレーター800からの出力データ)を取得する。状態sは、センサーからのオンまたはオフの出力の他、上述した各種のデーターを取得する。
The
状態観測部510の状態量取得部515は、用紙Pの撓み量または引っ張り量を表す用紙状態量を、搬送装置(搬送装置モデル)の搬送路の複数の区間において取得する。典型的には、状態量取得部515は、搬送部モデル8212(ローラー対,搬送手段)による用紙Pの搬送速度、または搬送路15中の用紙Pの位置に基づき、上記用紙状態量を取得する。
The state
報酬付与部520は、状態観測部からの状態変数(用紙状態量を含む)に基づいて報酬rを付与する。典型的には、報酬付与部520は、用紙状態量と、搬送部モデル8212の状態とに基づいて報酬rを付与する。報酬rの付与例については、後述する。
The
学習部530は、付与された報酬rに基づき、Qテーブルの対応する行動aの数値(すなわち、価値)を更新する。詳しくは、学習部530は、各搬送部モデル8212を駆動する各駆動部モデル8214(モーター,駆動手段)のパラメーターのセットの価値をセット毎に表したQテーブル535を、得られた報酬rに基づき更新する機械学習を行う。パラメーターのセットは、各駆動部モデル8214の速度、駆動のタイミング、停止のタイミング、変速のタイミング、および駆動電流の値の少なくとも1つを含む。
The
意思決定部540は、更新後のQテーブル535に基づいて複数のセットから1つのセットを決定し、かつ、選択されたセットのパラメーターで搬送部モデル8212を駆動するように駆動部モデルに8214に対して指示する。
The
具体的には、意思決定部540は、Qテーブル535を参照し、状態sに応じた複数の行動aのうち、数値(価値)が最も高い行動aを選択する。なお、意思決定部540は、ε-greedy法を用いることにより、最も数値が高い行動a以外の行動aも選択するようにする。意思決定部540は、選択した行動aに対応付けられたセット(パラメータのセット)で搬送部モデル8212を駆動するように、駆動部モデルに8214に対して指示する。
Specifically, the
学習装置500は、上記のような一連の処理を最終状態となるまで繰り返す。すなわち、状態量取得部515は、選択されたセット(選択された行動aに対応付けられたパラメーターのセット)のパラメーターに基づいて搬送部モデル8212を駆動したときの状態sをさらに取得する。報酬付与部520は、当該取得された用紙状態量に基づいて報酬rをさらに付与する。学習部530は、さらに付与された報酬に基づき、Qテーブルをさらに更新する。なお、「最終状態」としては、たとえば、シミュレーター800に指示するパラメーターの値が一定となった場合が挙げられる。
The
以上のように、学習装置500は、搬送装置をシミュレートするシミュレーター800と通信する。状態量取得部515は、シミュレーター800からの出力に基づき、状態sを取得する。報酬付与部520は、状態sに基づいて報酬rを付与する。学習部530は、各搬送部モデル8212を駆動する各駆動部モデル8214のパラメータのセットの価値をセット毎に表すQテーブル535を、報酬rに基づき更新する機械学習を行う。
As described above, the
意思決定部540は、更新後のQテーブルに基づいて複数のセット(パラメーターのセット)から1つのセットを決定し、かつ、決定されたセットのパラメーターで搬送部モデル8212を駆動するように駆動部モデル8214に対して指示する。詳しくは、意思決定部540は、取得された状態sとQテーブル535とに基づいて複数のセット(パラメーターセット)から1つのセットを決定し、かつ、決定されたセットのパラメーターで搬送部モデル8212を駆動するように駆動部モデル8214に対して指示する。
The
再び、図9を参照して意思決定部540からシミュレーター800に指示されるパラメーターについて具体例を挙げて説明する。
Again, with reference to FIG. 9, the parameters instructed by the
ある局面において、状態観測部510がシミュレーター800から取得した、画像形成装置モデル805(詳しくは、搬送装置モデル820)の状態s(詳しくは、状態st)が状態#2であったとする。この場合、報酬付与部520は、状態#2に基づき、報酬rを付与する。
In a certain situation, it is assumed that the state s (specifically, state s t ) of the image forming apparatus model 805 (specifically, the transport device model 820) that the
学習部530は、当該報酬rに基づき、シミュレーター800に対して、直近に指示した行動aの価値を更新する。すなわち、学習部530は、Qテーブル535内における、状態#2と当該行動aとに対応する欄の数値を更新する。
The
たとえば、直近の行動が行動a2_2であった場合、学習部530は、状態#2の数値群(行)における行動a2_2の数値を更新する。すなわち、学習部530は、状態#2の行と行動a2_2の列とが交差する1つの数値を更新する。
For example, if the most recent action is action a2_2, the
意思決定部540は、現在の状態stと現在のQテーブル535(更新されている場合には更新後のQテーブル535)とに基づき、次の行動atを決定(選択)する。さらに、意思決定部540は、決定された行動atに対応付けられたパラメーターをシミュレーター800に通知する。
The
たとえば、意思決定部540は、典型的には、状態#2において最も数値の高い行動(すなわち、価値の高い)を選択する。なお、上述したように、ε-greedy法を用いて、行動aの選択にランダム性を持たせる。すなわち、意思決定部540は、最も数値の高い行動aを敢えて選択しない処理も実行する。
For example, the
意思決定部540からの指示がなされると、シミュレーター800の駆動部モデル8214は、指示されたパラメーターで搬送部モデル8212を駆動する。これにより、状態観測部510では、次の状態st+1が観測される。さらに、行動atに基づく報酬rt+1が得られる。詳しくは、報酬付与部520によって、行動atに対する報酬rt+1の付与が行われる。
When an instruction is given from the
以後、上述した報酬の付与と、Qテーブル535の更新と、シミュレーター800に対するパラメーターの通知とが繰り返される。
Thereafter, the above-described awarding of rewards, updating of Q table 535, and notification of parameters to
上記の構成によれば、実機である画像形成装置1のを駆動するローラーのパラメータの値を最適化することができる。また、上述したように、学習装置500は、画像形成装置1のファームウェアを更新するための更新用プログラムを画像形成装置1に対して送信する。したがって、好適な設定にて画像形成装置1の搬送系を動作させることができる。
According to the above configuration, it is possible to optimize the parameter values of the rollers that drive the
<G.用紙状態に基づく報酬付与の例>
(g1.第1の例)
図12は、搬送路15の幅Wが通常の箇所を用紙Pが通過している状態を表した模式図である。なお、「幅」とは、用紙Pの厚み方向の隙間を意味する。
<G. Example of remuneration based on paper condition>
(g1. 1st example)
FIG. 12 is a schematic diagram showing a state in which the paper P passes through a portion of the
図12を参照して、搬送装置39は、ローラー対401と、ローラー対401の下流側の次の搬送手段であるローラー対402とを含む。ローラー対401は、駆動ローラー4011と、従動ローラー4012とを有する。ローラー対402は、駆動ローラー4021と、従動ローラー4022とを有する。用紙Pは、矢印の方向(下流の方向)に搬送される。
Referring to FIG. 12, the conveying
図13は、用紙Pが撓んでいる状態を表した模式図である。
図13を参照して、ローラー対401とローラー対402との間で用紙Pが撓んでいる。たとえば、上流側のローラー対401の回転速度が下流側のローラー対402の回転速度よりも早い場合には、このように用紙Pが撓んだ状態となる。
FIG. 13 is a schematic diagram showing a state in which the paper P is bent.
Referring to FIG. 13, paper P is bent between
図14は、用紙Pが引っ張られて状態を表した模式図である。
図14を参照して、ローラー対401とローラー対402との間で用紙Pが引っ張られている。たとえば、下流側のローラー対402の回転速度が上流側のローラー対401の回転速度よりも早い場合には、このように用紙Pが引っ張られた状態となる。
FIG. 14 is a schematic diagram showing a state in which the paper P is pulled.
Referring to FIG. 14, paper P is being pulled between
本例では、ローラー対401とローラー対402との間の区間において、所定の撓み量を許容する設定がなされている。この場合、報酬付与部520は、ローラー対401とローラー対402との間の区間における用紙状態量(撓み量または引っ張り量)が当該所定の撓み量以下の撓み量を表しているときに、正の報酬を付与する。
In this example, settings are made to allow a predetermined amount of deflection in the section between the
所定の撓み量は、本例では、用紙Pの厚み方向の搬送路15の幅未満の値である。また、所定の撓み量は、撓み量が0よりも大きい所定の値である。
In this example, the predetermined amount of deflection is a value less than the width of the
なお、当該箇所における所定の撓み量を許容する設定は、報酬付与部520において予め登録されている。以下においても、用紙状態量(撓み量または引っ張り量)についての設定は、報酬付与部520において予め登録されているものとする。
Note that the setting for allowing a predetermined amount of deflection at the location is registered in advance in the
(g2.第2の例)
図15は、幅が狭い箇所を用紙Pが通過している状態を表した模式図である。
(g2. Second example)
FIG. 15 is a schematic diagram showing a state in which the paper P passes through a narrow area.
図15を参照して、搬送装置39は、ローラー対403と、ローラー対403の下流側の次の搬送手段であるローラー対404とを含む。ローラー対403は、駆動ローラー4031と、従動ローラー4032とを有する。ローラー対404は、駆動ローラー4041と、従動ローラー4042とを有する。用紙Pは、矢印の方向(下流の方向)に搬送される。
Referring to FIG. 15, the conveying
搬送路15の幅Wが狭いため、ローラー対403とローラー対404との間の区間において、用紙Pの撓みを許容しない設定がなされている。この場合、報酬付与部520は、ローラー対430とローラー対440との間の区間における用紙状態量が引っ張り量を表しているときに、正の報酬を付与する。
Since the width W of the
(g3.第3の例)
図16は、画像形成装置1の給紙カセット14から用紙Pが搬送路15に供給されている状態を表した模式図である。
(g3. Third example)
FIG. 16 is a schematic diagram showing a state in which paper P is being supplied to the
図16を参照して、給紙ローラー113およびローラー対406は、複数の用紙Pを格納した給紙カセット14から用紙Pを1つずつ搬送路15に搬送する。
Referring to FIG. 16,
報酬付与部520は、用紙Pの後端が給紙ローラー113に到達する前の位置における用紙状態量が引っ張り量を表しており、かつ用紙Pの後端が給紙ローラー113を通過する際に給紙ローラー113が停止している場合、正の報酬を付与する。
The
(g4.第4の例)
図17は、画像形成装置1において印刷済みの用紙Pが排出トレイ271に排出されている状態を表した模式図である。
(g4. Fourth example)
FIG. 17 is a schematic diagram showing a state in which printed paper P is discharged to the
図17を参照して、搬送装置39は、ローラー対407と、ローラー対407の下流側の次の搬送手段であるローラー対408とを含む。ローラー対407は、駆動ローラー4071と、従動ローラー4072とを有する。ローラー対408は、駆動ローラー4081と、従動ローラー4082とを有する。用紙Pは、矢印の方向(下流の方向)に搬送(排出)される。
Referring to FIG. 17, the conveying
用紙Pを排出トレイ271に排出する場合には、ローラー対408が用紙Pを引っ張った状態で搬送することによりローラー対407を用紙Pが通過する時間を早くすることが可能である。したがって、この場合には、報酬付与部520、ローラー対408が用紙Pを引っ張った状態で搬送しているときに、正の報酬を付与する。
When discharging the paper P to the
(g5.第5の例)
用紙Pは、レジストローラー対116から、駆動ローラー103および2次転写装置(2次転写ローラー)115のニップ領域に送られ、画像が転写される(図13参照)。さらに、加熱ローラー121と加圧ローラー122とからなる定着装置120によって、画像を用紙Pに定着させる。
(g5. Fifth example)
The paper P is sent from the
レジストローラー対116と、駆動ローラー103および2次転写装置115との間では、用紙Pに撓みも引っ張りもないことが精度の高い画像形成を行うために必要である。
Between the
そこで、報酬付与部520は、レジストローラー対116と2次転写装置115との間の区間における用紙状態量が引っ張り量および撓み量のいずれも表していないときに、正の報酬を付与する。
Therefore, the
このように、報酬付与部520は、2つのローラー対(またはローラー)の間の区間において、用紙Pの撓みと、搬送方向への用紙Pへの力の発生とが許容されていない場合、上流側のローラーと下流側のローラー対(上流側のローラー対の次のローラー対)との間の区間における用紙状態量が引っ張り量および撓み量のいずれも表していないときに、正の報酬を付与する。 In this way, if the deflection of the paper P and the generation of force on the paper P in the transport direction are not allowed in the section between the two roller pairs (or rollers), the reward giving unit 520 A positive reward is given when the paper state amount in the section between the side roller and the downstream roller pair (the roller pair next to the upstream roller pair) does not represent either the amount of tension or the amount of deflection. do.
(g6.第6の例)
上流側のローラー対と下流側のローラー対(上流側のローラー対の次のローラー対)とで同時に用紙Pを搬送している場合、当該上流側のローラー対と下流側のローラー対との間の区間において、所定の撓み量を許容する設定がなされているとき、報酬付与部520は、上流側のローラー対の搬送速度が下流側のローラー対の搬送速度以上であることを条件に、正の報酬を付与する。
(g6. 6th example)
When paper P is conveyed simultaneously by an upstream roller pair and a downstream roller pair (the next roller pair after the upstream roller pair), there is a gap between the upstream roller pair and the downstream roller pair. When the setting is made to allow a predetermined amount of deflection in the section of will be given a reward.
(g7.第7の例)
上流側のローラー対と下流側のローラー対(上流側のローラー対の次のローラー対)とで同時に用紙Pを搬送している場合、当該上流側のローラー対と下流側のローラー対との間の区間において、用紙Pの撓みを許容しない設定がなされている場合、報酬付与部520は、当該上流側のローラー対の搬送速度が当該下流側のローラー対の搬送速度以下であることを条件に、正の報酬を付与する。
(g7. Seventh example)
When paper P is conveyed simultaneously by an upstream roller pair and a downstream roller pair (the next roller pair after the upstream roller pair), there is a gap between the upstream roller pair and the downstream roller pair. If the setting is such that the paper P is not allowed to bend in the section, the
<G.制御構造>
図18は、Q学習の処理の手順を表したフロー図である。
<G. Control structure>
FIG. 18 is a flow diagram showing the procedure of Q learning processing.
図18を参照して、ステップS1において、学習装置500は、取得された状態stと、現在のQテーブル535とを参照して、次の行動atを決定する。具体的には、意思決定部540(図11参照)が、Qテーブル内の数値に基づき行動atを選択し、選択された行動atに関連付けられたパラメーターをシミュレーター800に通知する。
Referring to FIG. 18, in step S1, the
ステップS2において、シミュレーター800は、ステップS1にて決定された行動atに基づき行動する。具体的には、シミュレーター800は、意思決定部540から通知されたパラメーターにて駆動部モデル8214を駆動する。
In step S2, the
ステップS3において、状態観測部510は、ステップS2で通知したパラメーターにて駆動部モデル8214を駆動させたときの状態st+1を、シミュレーター800から取得する。
In step S3, the
ステップS4において、報酬付与部520は、撓み量および引っ張り量を表した用紙状態量に基づき、選択された行動aに対して報酬rt+1を付与する。ステップS5において、学習部530は、付与された報酬rt+1に基づき、Qテーブル535を更新する。詳しくは、学習部530は、選択された行動atの価値を、報酬rt+1を付与することによりり更新する。
In step S4, the
図19は、撓み量に関する報酬の付与例を説明するためのフロー図である。
ステップS11において、学習装置500において、区間毎における撓み量の目標値を事前に設定しておく。ステップS12において、学習装置500は、シミュレーター800から取得した状態sに基づき、撓み量を計測する。なお、撓み量自体がシミュレーター800から送信される構成であってもよい。
FIG. 19 is a flowchart for explaining an example of giving compensation regarding the amount of deflection.
In step S11, in the
ステップS13において、学習装置500は、目標値と計測値とを比較する。計測値がゼロ以下の場合、ステップS14において、選択された行動に対して、報酬付与部520は、一例として“-1”の報酬を付与する。計測値がゼロよりも大きく、かつ目標値以下の場合、ステップS15において、選択された行動に対して、報酬付与部520は、一例として“+1”の報酬を付与する。計測値が目標値よりも大きい場合、ステップS16において、選択された行動に対して、報酬付与部520は、一例として“-1”の報酬を付与する。
In step S13, the
図20は、許容できる撓み量を区間毎に判断するための処理を説明するためのフロー図である。なお、説明を簡略化するため、区間が3つである場合を例に挙げて説明する。 FIG. 20 is a flow diagram for explaining processing for determining the allowable amount of deflection for each section. Note that to simplify the explanation, an example will be described in which there are three sections.
図20を参照して、ステップS21において、事前に区間を設定しておく。ステップS22において、学習装置500は、用紙Pに撓みが発生している場合、撓みが発生している区間を状態sに基づき判定する。
Referring to FIG. 20, in step S21, sections are set in advance. In step S22, if the paper P is warped, the
撓みが発生している区間が区間Aである場合、ステップS23において、撓みの許容量を3mmに設定する。学習装置500は、区間Aでは、撓み量と許容量(3mm)とを比較することにより、報酬の付与を行う。同様に、撓みが発生している区間が区間Bである場合、ステップS24において、撓みの許容量を5mmに設定する。学習装置500は、区間Bでは、撓み量と許容量(5mm)とを比較することにより、報酬の付与を行う。また、撓みが発生している区間が区間Cである場合、ステップS25において、撓みの許容量を2mmに設定する。学習装置500は、区間Cでは、撓み量と許容量(2mm)とを比較することにより、報酬の付与を行う。
When the section where the deflection occurs is section A, the allowable amount of deflection is set to 3 mm in step S23. In section A, the
図21は、引っ張り量に関する報酬の付与例を説明するためのフロー図である。
ステップS31において、学習装置500において、区間毎における引っ張り量の目標値を事前に設定しておく。ステップS32において、学習装置500は、シミュレーター800から取得した状態sに基づき、引っ張り量を計測する。なお、引っ張り量自体がシミュレーター800から送信される構成であってもよい。
FIG. 21 is a flowchart illustrating an example of awarding rewards related to the amount of pull.
In step S31, in the
ステップS33において、学習装置500は、目標値と計測値とを比較する。計測値が目標値よりも小さい場合、ステップS34において、選択された行動に対して、報酬付与部520は、一例として“-1”の報酬を付与する。計測値がゼロよりも小さく、かつ目標値以上である場合、ステップS35において、選択された行動に対して、報酬付与部520は、一例として“+1”の報酬を付与する。計測値がゼロ以上の場合、ステップS16において、選択された行動に対して、報酬付与部520は、一例として“-1”の報酬を付与する。
In step S33, the
<I.変形例>
(i1.物性を考慮した学習)
学習部530が、報酬と用紙Pの物性とに基づき、各モーターのパラメーターの値を更新してもよい。すなわち、用紙Pの物性をさらに考慮して機械学習を行うように、学習装置500を構成してもよい。この場合、Qテーブル535を物性を考慮したテーブルとして構成すればよい。物性としては、たとえば、剛度、坪量が挙げられる。物性を考慮することにより、より最適なパラメーターの設定が可能となる。
<I. Modified example>
(i1. Learning considering physical properties)
The
物性の一例として剛度を考慮する場合について説明すると、以下のとおりである。
上流側のローラー対と下流側のローラー対(上流側のローラー対の次のローラー対)とで同時に用紙Pを搬送している場合、報酬付与部520は、用紙Pの剛度が所定値以上であり、かつ、上流側のローラー対の搬送速度と下流側のローラー対の搬送速度とが同じであることを条件に、正の報酬を付与する。
A case in which stiffness is considered as an example of physical property will be explained as follows.
When the upstream roller pair and the downstream roller pair (the next roller pair after the upstream roller pair) are simultaneously transporting the paper P, the
また、上流側のローラー対と下流側のローラー対(上流側のローラー対の次のローラー対)とで同時に前記搬送対象物を搬送しており、かつ上流側のローラー対と下流側のローラー対との間の区間において、所定の撓み量を許容する設定がなされている場合、報酬付与部520は、用紙Pの剛度が所定値未満であり、上流側のローラー対と下流側のローラー対との間の区間における用紙状態量が所定の撓み量以下の撓み量を表しているときに、正の報酬を付与する。 Further, the object to be conveyed is simultaneously conveyed by an upstream roller pair and a downstream roller pair (the next roller pair after the upstream roller pair), and the upstream roller pair and the downstream roller pair If the setting is made to allow a predetermined amount of deflection in the section between A positive reward is given when the paper state quantity in the section between 2 and 3 represents a deflection amount that is less than or equal to a predetermined deflection amount.
物性の一例として坪量を考慮する場合について説明すると、以下のとおりである。
上流側のローラー対と下流側のローラー対(上流側のローラー対の次のローラー対)とで同時に用紙Pを搬送している場合、報酬付与部520は、用紙Pの坪量が所定値以上であり、かつ、上流側のローラー対の搬送速度と下流側のローラー対の搬送速度とが同じであることを条件に、正の報酬を付与する。
The case where basis weight is considered as an example of physical properties is as follows.
When the upstream roller pair and the downstream roller pair (the next roller pair after the upstream roller pair) are conveying the paper P at the same time, the
また、上流側のローラー対と下流側のローラー対(上流側のローラー対の次のローラー対)とで同時に前記搬送対象物を搬送しており、かつ上流側のローラー対と下流側のローラー対との間の区間において、所定の撓み量を許容する設定がなされている場合、報酬付与部520は、用紙Pの坪量が所定値未満であり、上流側のローラー対と下流側のローラー対との間の区間における用紙状態量が上記所定の撓み量以下の撓み量を表しているときに、正の報酬を付与する。 Further, the object to be conveyed is simultaneously conveyed by an upstream roller pair and a downstream roller pair (the next roller pair after the upstream roller pair), and the upstream roller pair and the downstream roller pair If the setting is made to allow a predetermined amount of deflection in the section between A positive reward is given when the paper state quantity in the section between .
(i2.再学習)
学習後において、ユーザーが実機である画像形成装置1を利用しているときに、いずれかのローラー対の用紙Pの搬送速度が、前回の学習時によって設定された搬送速度と異なった場合に、機械学習を再度実行するように、学習装置500を構成することが好ましい。
(i2. Relearning)
After learning, when the user is using the actual
たとえば、ローラー対の用紙Pの搬送速度が、前回の学習時によって設定された搬送速度から基準値以上、上回ったり、あるいは下回った場合に、機械学習を再度実行するように、学習装置500を構成することが好ましい。
For example, the
あるいは、ローラー対の用紙Pの搬送速度が、前回の学習時によって設定された搬送速度から基準割合以上、早くなったり、あるいは遅くなったりした場合に、機械学習を再度実行するように、学習装置500を構成することが好ましい。 Alternatively, the learning device can be configured to perform machine learning again when the conveyance speed of the paper P in the roller pair increases or decreases by more than a standard percentage from the conveyance speed set during the previous learning. 500 is preferred.
(i3.画像形成装置1内での機械学習)
図22は、画像形成装置1内で強化学習を実施する構成を説明するための模式図である。
(i3. Machine learning within image forming apparatus 1)
FIG. 22 is a schematic diagram for explaining a configuration for implementing reinforcement learning within the
図22を参照して、画像形成装置1は、エミュレーター700と、シミュレーター800と、学習装置500とを備える。このような構成によれば、クラウド900上の情報処理装置(具体的には、サーバー)によって、強化学習を行う必要がなくなる。
Referring to FIG. 22,
なお、画像形成装置ではなく、搬送装置で上記の強化学習を行ってもよい。すなわち、画像形成の機能を有するか否かに関わらず、搬送対象物を搬送する装置内で強化学習を行ってもよい。 Note that the above-mentioned reinforcement learning may be performed in the conveyance device instead of the image forming device. That is, reinforcement learning may be performed within a device that transports an object, regardless of whether it has an image forming function or not.
また、上述した学習方法をプログラムによって提供することもできる。情報処理装置が当該プログラムを実行することにより、学習装置500として機能する。
Moreover, the learning method described above can also be provided by a program. The information processing device functions as the
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は、上記した説明ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。 The embodiments disclosed this time should be considered to be illustrative in all respects and not restrictive. The scope of the present invention is indicated by the claims rather than the above description, and it is intended that all changes within the meaning and range equivalent to the claims are included.
1 画像形成装置、10 本体部、11 画像形成ユニット、12 スキャナーユニット、13 自動原稿搬送ユニット、14 給紙カセット、15 搬送路、16 メディアセンサー、17 反転搬送路、20 後処理装置、30 バス、31 コントローラー、32 固定記憶装置、34 操作パネル、35 プリンタコントローラー、39,39A 搬送装置、101 中間転写ベルト、102 テンションローラー、103,4011,4021,4031,4041,4071,4081 駆動ローラー、104C,104K,104M,104Y 画像形成部、105 画像濃度センサー、111 1次転写装置、115 2次転写装置、113 給紙ローラー、116 レジストローラー対、120 定着装置、121 加熱ローラー、122 加圧ローラー、142 底上げ板、143 センサー、220 パンチ処理装置、250 平綴じ処理部、260 中綴じ処理部、271,272,273 排出トレイ、361 送信部、362 受信部、391 搬送ユニット、398 搬送部、399 駆動部、401,402,403,404,406,407,408,430,440 ローラー対、500 学習装置、510 状態観測部、515 状態量取得部、520 報酬付与部、530 学習部、535 Qテーブル、540 意思決定部、550 更新用プログラム作成部、560 更新用プログラム送信部、582 RAM、583 ROM、585 ディスプレイ、586 操作キー、588 電源回路、700 エミュレーター、800 シミュレーター、805 画像形成装置モデル、810 コントローラーモデル、820 搬送装置モデル、821 搬送ユニットモデル、825 センサーモデル、900 クラウド、1000 学習システム、4012,4022,4032,4042,4072,4082 従動ローラー、8212 搬送部モデル、8214 駆動部モデル、P 用紙、W 幅。 1 image forming apparatus, 10 main unit, 11 image forming unit, 12 scanner unit, 13 automatic document transport unit, 14 paper feed cassette, 15 transport path, 16 media sensor, 17 reversing transport path, 20 post-processing device, 30 bus, 31 controller, 32 fixed storage device, 34 operation panel, 35 printer controller, 39, 39A conveyance device, 101 intermediate transfer belt, 102 tension roller, 103, 4011, 4021, 4031, 4041, 4071, 4081 drive roller, 104C, 104K , 104M, 104Y image forming section, 105 image density sensor, 111 primary transfer device, 115 secondary transfer device, 113 paper feed roller, 116 registration roller pair, 120 fixing device, 121 heating roller, 122 pressure roller, 142 bottom raiser board, 143 sensor, 220 punch processing device, 250 side stitching processing section, 260 saddle stitching processing section, 271, 272, 273 discharge tray, 361 transmitting section, 362 receiving section, 391 transport unit, 398 transport section, 399 drive section, 401, 402, 403, 404, 406, 407, 408, 430, 440 roller pair, 500 learning device, 510 state observation unit, 515 state quantity acquisition unit, 520 reward provision unit, 530 learning unit, 535 Q table, 540 intention determination unit, 550 update program creation unit, 560 update program transmission unit, 582 RAM, 583 ROM, 585 display, 586 operation keys, 588 power supply circuit, 700 emulator, 800 simulator, 805 image forming device model, 810 controller model, 820 transport device model, 821 transport unit model, 825 sensor model, 900 cloud, 1000 learning system, 4012, 4022, 4032, 4042, 4072, 4082 driven roller, 8212 transport unit model, 8214 drive unit model, P paper, W width .
Claims (58)
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記状態量取得手段は、前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされている場合、前記報酬付与手段は、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記所定の撓み量以下の前記撓み量を表しているときに、正の報酬を付与する、機械学習装置。 The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The state quantity acquisition means acquires the state quantity based on the conveyance speed of the conveyance target object by the conveyance means or the position of the conveyance target object in the conveyance path,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When a setting is made to allow a predetermined amount of deflection in the section between the first conveying means and the second conveying means among the plurality of sections, the reward giving means A machine learning device that provides a positive reward when the state quantity in the section between the transport means and the second transport means represents the amount of deflection that is equal to or less than the predetermined amount of deflection.
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記状態量取得手段は、前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みを許容しない設定がなされている場合、前記報酬付与手段は、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記引っ張り量を表しているときに、正の報酬を付与する、機械学習装置。 The conveying device includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyed object in a plurality of sections of the conveyance path of the conveyance device, and the conveyance device sequentially conveys the conveyed object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function representing the value of a set of parameters of each driving means that drives each of the conveying means for each set based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The state quantity acquisition means acquires the state quantity based on the conveyance speed of the conveyance target object by the conveyance means or the position of the conveyance target object in the conveyance path,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
In a section between the first conveying means and the second conveying means among the plurality of sections, when a setting is made in which the deflection of the conveyed object is not allowed, the reward giving means A machine learning device that provides a positive reward when the state amount in the section between the first conveyance means and the second conveyance means represents the amount of tension .
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記状態量取得手段は、前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得し、
前記報酬付与手段は、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段のうちの所定の搬送手段は、複数の前記搬送対象物を格納した格納手段から前記搬送対象物を1つずつ前記搬送路に搬送し、
前記報酬付与手段は、前記複数の区間のうち、前記搬送対象物の後端が前記所定の搬送手段に到達する前の位置における前記状態量が前記引っ張り量を表しており、かつ前記搬送対象物の後端が前記所定の搬送手段を通過する際に前記所定の搬送手段が停止している場合、正の報酬を付与する、機械学習装置。 The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The state quantity acquisition means acquires the state quantity based on the conveyance speed of the conveyance target object by the conveyance means or the position of the conveyance target object in the conveyance path,
The reward granting means grants the reward based on the state quantity and the state of the transport means,
A predetermined transport means among the plurality of transport means transports the transport objects one by one from a storage means storing a plurality of transport objects to the transport path,
The reward giving means is configured such that the state quantity at a position before the rear end of the conveyance object reaches the predetermined conveyance means among the plurality of sections represents the pulling amount, and A machine learning device that provides a positive reward when the predetermined transport means is stopped when the rear end of the vehicle passes through the predetermined transport means .
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記状態量取得手段は、前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得し、
前記報酬付与手段は、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みと、前記第2の搬送手段において搬送方向への前記搬送対象物への力の発生とが許容されていない場合、前記報酬付与手段は、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記引っ張り量および前記撓み量のいずれも表していないときに、正の報酬を付与する、機械学習装置。 The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The state quantity acquisition means acquires the state quantity based on the conveyance speed of the conveyance target object by the conveyance means or the position of the conveyance target object in the conveyance path,
The reward granting means grants the reward based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
In the section between the first conveying means and the second conveying means among the plurality of sections, the object to be conveyed is deflected, and the object to be conveyed in the conveying direction in the second conveying means is If the generation of force is not permitted, the reward giving means determines whether the state quantity in the section between the first conveyance means and the second conveyance means is equal to the amount of tension or the amount of deflection. A machine learning device that gives positive rewards when the user does not represent the same .
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記状態量取得手段は、前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得し、
前記報酬付与手段は、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第2の搬送手段が前記搬送対象物を引っ張った状態で搬送することにより前記第1の搬送手段を前記搬送対象物が通過する時間を早くすることが可能な場合に、前記報酬付与手段は、前記第2の搬送手段が前記搬送対象物を引っ張った状態で搬送しているときに、正の報酬を付与する、機械学習装置。 The conveying device includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyed object in a plurality of sections of the conveyance path of the conveyance device, and the conveyance device sequentially conveys the conveyed object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function representing the value of a set of parameters of each driving means that drives each of the conveying means for each set based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The state quantity acquisition means acquires the state quantity based on the conveyance speed of the conveyance target object by the conveyance means or the position of the conveyance target object in the conveyance path,
The reward granting means grants the reward based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
In the case where it is possible to speed up the time for the object to be transported through the first transport means by transporting the object in a pulled state by the second transport means, the reward granting means , a machine learning device that gives a positive reward when the second conveying means conveys the conveyed object in a pulled state .
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記状態量取得手段は、前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得し、
前記報酬付与手段は、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされているとき、前記報酬付与手段は、前記第1の搬送手段の搬送速度が前記第2の搬送手段の搬送速度以上であることを条件に、正の報酬を付与する、機械学習装置。 The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The state quantity acquisition means acquires the state quantity based on the conveyance speed of the conveyance target object by the conveyance means or the position of the conveyance target object in the conveyance path,
The reward giving means gives the reward based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the first conveyance means and the second conveyance means are conveying the object at the same time, the distance between the first conveyance means and the second conveyance means among the plurality of sections is When the setting is made to allow a predetermined amount of deflection in the section, the remuneration granting means provides, on the condition that the conveyance speed of the first conveyance means is equal to or higher than the conveyance speed of the second conveyance means, A machine learning device that gives positive rewards .
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記状態量取得手段は、前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得し、
前記報酬付与手段は、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みを許容しない設定がなされている場合、前記報酬付与手段は、前記第1の搬送手段の搬送速度が前記第2の搬送手段の搬送速度以下であることを条件に、正の報酬を付与する、機械学習装置。 The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The state quantity acquisition means acquires the state quantity based on the conveyance speed of the conveyance target object by the conveyance means or the position of the conveyance target object in the conveyance path,
The reward giving means gives the reward based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the first conveyance means and the second conveyance means are conveying the object at the same time, the distance between the first conveyance means and the second conveyance means among the plurality of sections is If a setting is made in which the deflection of the conveyed object is not allowed in the section, the remuneration granting means sets the condition that the conveying speed of the first conveying means is equal to or less than the conveying speed of the second conveying means. A machine learning device that gives positive rewards to people .
搬送対象物の撓み量または引っ張り量を表す状態量を、搬送装置の搬送路の複数の区間において取得する状態量取得手段を備え、前記搬送装置は、複数の搬送手段によって前記搬送対象物を順に挟持して、前記搬送対象物を前記搬送路の上流から下流へと搬送し、
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記機械学習装置は、前記搬送装置をシミュレートするシミュレーターと通信し、
前記状態量取得手段は、前記シミュレーターからの出力に基づき、前記状態量を取得し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされている場合、前記報酬付与手段は、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記所定の撓み量以下の前記撓み量を表しているときに、正の報酬を付与する、機械学習装置。 A machine learning device,
The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The machine learning device communicates with a simulator that simulates the transport device,
The state quantity acquisition means acquires the state quantity based on the output from the simulator,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When a setting is made to allow a predetermined amount of deflection in the section between the first conveying means and the second conveying means among the plurality of sections, the reward giving means A machine learning device that provides a positive reward when the state quantity in the section between the transport means and the second transport means represents the amount of deflection that is equal to or less than the predetermined amount of deflection.
搬送対象物の撓み量または引っ張り量を表す状態量を、搬送装置の搬送路の複数の区間において取得する状態量取得手段を備え、前記搬送装置は、複数の搬送手段によって前記搬送対象物を順に挟持して、前記搬送対象物を前記搬送路の上流から下流へと搬送し、
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記機械学習装置は、前記搬送装置をシミュレートするシミュレーターと通信し、
前記状態量取得手段は、前記シミュレーターからの出力に基づき、前記状態量を取得し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みを許容しない設定がなされている場合、前記報酬付与手段は、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記引っ張り量を表しているときに、正の報酬を付与する、機械学習装置。 A machine learning device,
The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The machine learning device communicates with a simulator that simulates the transport device,
The state quantity acquisition means acquires the state quantity based on the output from the simulator,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
In a section between the first conveying means and the second conveying means among the plurality of sections, when a setting is made in which the deflection of the conveyed object is not allowed, the reward giving means A machine learning device that provides a positive reward when the state amount in the section between the first conveyance means and the second conveyance means represents the amount of tension .
搬送対象物の撓み量または引っ張り量を表す状態量を、搬送装置の搬送路の複数の区間において取得する状態量取得手段を備え、前記搬送装置は、複数の搬送手段によって前記搬送対象物を順に挟持して、前記搬送対象物を前記搬送路の上流から下流へと搬送し、
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記機械学習装置は、前記搬送装置をシミュレートするシミュレーターと通信し、
前記状態量取得手段は、前記シミュレーターからの出力に基づき、前記状態量を取得し、
前記報酬付与手段は、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段のうちの所定の搬送手段は、複数の前記搬送対象物を格納した格納手段から前記搬送対象物を1つずつ前記搬送路に搬送し、
前記報酬付与手段は、前記複数の区間のうち、前記搬送対象物の後端が前記所定の搬送手段に到達する前の位置における前記状態量が前記引っ張り量を表しており、かつ前記搬送対象物の後端が前記所定の搬送手段を通過する際に前記所定の搬送手段が停止している場合、正の報酬を付与する、機械学習装置。 A machine learning device,
The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The machine learning device communicates with a simulator that simulates the transport device,
The state quantity acquisition means acquires the state quantity based on the output from the simulator,
The reward granting means grants the reward based on the state quantity and the state of the transport means,
A predetermined transport means among the plurality of transport means transports the transport objects one by one from a storage means storing a plurality of transport objects to the transport path,
The reward giving means is configured such that the state quantity at a position before the rear end of the conveyance object reaches the predetermined conveyance means among the plurality of sections represents the pulling amount, and A machine learning device that provides a positive reward when the predetermined transport means is stopped when the rear end of the vehicle passes through the predetermined transport means .
搬送対象物の撓み量または引っ張り量を表す状態量を、搬送装置の搬送路の複数の区間において取得する状態量取得手段を備え、前記搬送装置は、複数の搬送手段によって前記搬送対象物を順に挟持して、前記搬送対象物を前記搬送路の上流から下流へと搬送し、
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記機械学習装置は、前記搬送装置をシミュレートするシミュレーターと通信し、
前記状態量取得手段は、前記シミュレーターからの出力に基づき、前記状態量を取得し、
前記報酬付与手段は、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みと、前記第2の搬送手段において搬送方向への前記搬送対象物への力の発生とが許容されていない場合、前記報酬付与手段は、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記引っ張り量および前記撓み量のいずれも表していないときに、正の報酬を付与する、機械学習装置。 A machine learning device,
The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The machine learning device communicates with a simulator that simulates the transport device,
The state quantity acquisition means acquires the state quantity based on the output from the simulator,
The reward giving means gives the reward based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
In the section between the first conveying means and the second conveying means among the plurality of sections, the object to be conveyed is deflected, and the object to be conveyed in the conveying direction in the second conveying means is If the generation of force is not permitted, the reward giving means determines whether the state quantity in the section between the first conveyance means and the second conveyance means is equal to the amount of tension or the amount of deflection. A machine learning device that gives a positive reward when the user does not represent the same .
搬送対象物の撓み量または引っ張り量を表す状態量を、搬送装置の搬送路の複数の区間において取得する状態量取得手段を備え、前記搬送装置は、複数の搬送手段によって前記搬送対象物を順に挟持して、前記搬送対象物を前記搬送路の上流から下流へと搬送し、
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記機械学習装置は、前記搬送装置をシミュレートするシミュレーターと通信し、
前記状態量取得手段は、前記シミュレーターからの出力に基づき、前記状態量を取得し、
前記報酬付与手段は、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第2の搬送手段が前記搬送対象物を引っ張った状態で搬送することにより前記第1の搬送手段を前記搬送対象物が通過する時間を早くすることが可能な場合に、前記報酬付与手段は、前記第2の搬送手段が前記搬送対象物を引っ張った状態で搬送しているときに、正の報酬を付与する、機械学習装置。 A machine learning device,
The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The machine learning device communicates with a simulator that simulates the transport device,
The state quantity acquisition means acquires the state quantity based on the output from the simulator,
The reward giving means gives the reward based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When it is possible to speed up the time for the object to be transported through the first transport means by transporting the object in a pulled state by the second transport means, the reward giving means , a machine learning device that gives a positive reward when the second conveying means conveys the conveyed object in a pulled state .
搬送対象物の撓み量または引っ張り量を表す状態量を、搬送装置の搬送路の複数の区間において取得する状態量取得手段を備え、前記搬送装置は、複数の搬送手段によって前記搬送対象物を順に挟持して、前記搬送対象物を前記搬送路の上流から下流へと搬送し、
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記機械学習装置は、前記搬送装置をシミュレートするシミュレーターと通信し、
前記状態量取得手段は、前記シミュレーターからの出力に基づき、前記状態量を取得し、
前記報酬付与手段は、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされているとき、前記報酬付与手段は、前記第1の搬送手段の搬送速度が前記第2の搬送手段の搬送速度以上であることを条件に、正の報酬を付与する、機械学習装置。 A machine learning device,
The conveying device includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyed object in a plurality of sections of the conveyance path of the conveyance device, and the conveyance device sequentially conveys the conveyed object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function representing the value of a set of parameters of each driving means that drives each of the conveying means for each set based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The machine learning device communicates with a simulator that simulates the transport device,
The state quantity acquisition means acquires the state quantity based on the output from the simulator,
The reward giving means gives the reward based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the object to be transported is simultaneously transported by the first transport means and the second transport means, the area between the first transport means and the second transport means among the plurality of sections is When the setting is made to allow a predetermined amount of deflection in the section, the remuneration granting means provides, on the condition that the conveyance speed of the first conveyance means is equal to or higher than the conveyance speed of the second conveyance means, A machine learning device that gives positive rewards .
搬送対象物の撓み量または引っ張り量を表す状態量を、搬送装置の搬送路の複数の区間において取得する状態量取得手段を備え、前記搬送装置は、複数の搬送手段によって前記搬送対象物を順に挟持して、前記搬送対象物を前記搬送路の上流から下流へと搬送し、
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記機械学習装置は、前記搬送装置をシミュレートするシミュレーターと通信し、
前記状態量取得手段は、前記シミュレーターからの出力に基づき、前記状態量を取得し、
前記報酬付与手段は、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みを許容しない設定がなされている場合、前記報酬付与手段は、前記第1の搬送手段の搬送速度が前記第2の搬送手段の搬送速度以下であることを条件に、正の報酬を付与する、機械学習装置。 A machine learning device,
The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The machine learning device communicates with a simulator that simulates the transport device,
The state quantity acquisition means acquires the state quantity based on the output from the simulator,
The reward giving means gives the reward based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the first conveyance means and the second conveyance means are conveying the object at the same time, the distance between the first conveyance means and the second conveyance means among the plurality of sections is If a setting is made in which the deflection of the conveyed object is not allowed in the section, the remuneration granting means sets the condition that the conveying speed of the first conveying means is equal to or less than the conveying speed of the second conveying means. A machine learning device that gives positive rewards to people .
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記学習手段は、前記報酬と前記搬送対象物の物性とに基づき、各前記駆動手段のパラメーターの値を更新する機械学習を行い、
前記物性は剛度であり、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記報酬付与手段は、前記搬送対象物の剛度が所定値以上であり、かつ、前記第1の搬送手段の搬送速度と前記第2の搬送手段の搬送速度とが同じであることを条件に、正の報酬を付与する、機械学習装置。 The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The learning means performs machine learning to update the value of the parameter of each of the driving means based on the reward and the physical properties of the conveyed object,
The physical property is stiffness,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the first conveyance means and the second conveyance means are conveying the conveyed object at the same time, the remuneration giving means is configured such that the rigidity of the conveyed object is equal to or higher than a predetermined value and A machine learning device that provides a positive reward on the condition that the transport speed of the first transport means and the transport speed of the second transport means are the same .
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記学習手段は、前記報酬と前記搬送対象物の物性とに基づき、各前記駆動手段のパラメーターの値を更新する機械学習を行い、
前記物性は剛度であり、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送しており、かつ前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされている場合、前記報酬付与手段は、前記搬送対象物の剛度が所定値未満であり、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記所定の撓み量以下の撓み量を表しているときに、正の報酬を付与する、機械学習装置。 The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The learning means performs machine learning to update the value of the parameter of each of the driving means based on the reward and the physical properties of the conveyed object,
The physical property is stiffness,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
The first conveyance means and the second conveyance means convey the object to be conveyed at the same time, and the distance between the first conveyance means and the second conveyance means among the plurality of sections is In the section, when a setting is made to allow a predetermined amount of deflection, the reward giving means is configured to allow the stiffness of the conveyed object to be less than a predetermined value, and the first conveying means and the second conveying means A machine learning device that provides a positive reward when the state quantity in the interval between represents a deflection amount that is equal to or less than the predetermined deflection amount .
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記学習手段は、前記報酬と前記搬送対象物の物性とに基づき、各前記駆動手段のパラメーターの値を更新する機械学習を行い、
前記物性は坪量であり、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記報酬付与手段は、前記搬送対象物の坪量が所定値以上であり、かつ、前記第1の搬送手段の搬送速度と前記第2の搬送手段の搬送速度とが同じであることを条件に、正の報酬を付与する、機械学習装置。 The conveying device includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyed object in a plurality of sections of the conveyance path of the conveyance device, and the conveyance device sequentially conveys the conveyed object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function representing the value of a set of parameters of each driving means that drives each of the conveying means for each set based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The learning means performs machine learning to update the value of the parameter of each of the driving means based on the reward and the physical properties of the conveyed object,
The physical property is basis weight,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the first conveying means and the second conveying means are simultaneously conveying the conveyed object, the remuneration granting means may be arranged such that the basis weight of the conveyed object is equal to or greater than a predetermined value, and the A machine learning device that provides a positive reward on the condition that the transport speed of the first transport means and the transport speed of the second transport means are the same .
前記状態量に基づいて報酬を付与する報酬付与手段と、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新する機械学習を行う学習手段と、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメーターで前記搬送手段を駆動するように前記駆動手段に対して指示する決定手段とをさらに備え、
前記学習手段は、前記報酬と前記搬送対象物の物性とに基づき、各前記駆動手段のパラメーターの値を更新する機械学習を行い、
前記物性は坪量であり、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送しており、かつ前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされている場合、前記報酬付与手段は、前記搬送対象物の坪量が所定値未満であり、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記所定の撓み量以下の撓み量を表しているときに、正の報酬を付与する、機械学習装置。 The conveyance apparatus includes a state quantity acquisition means for acquiring a state quantity representing the amount of deflection or tension of the conveyance object in a plurality of sections of the conveyance path of the conveyance apparatus, and the conveyance apparatus sequentially conveys the conveyance target object by the plurality of conveyance means. sandwiching and transporting the object to be transported from upstream to downstream of the transport path,
Reward granting means for granting a reward based on the state quantity;
Learning means that performs machine learning to update an action value function that represents the value of a set of parameters of each driving means that drives each of the transport means, based on the reward;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; further comprising means;
The learning means performs machine learning to update the value of the parameter of each of the driving means based on the reward and the physical properties of the conveyed object,
The physical property is basis weight,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
The first conveyance means and the second conveyance means convey the object to be conveyed at the same time, and the distance between the first conveyance means and the second conveyance means among the plurality of sections is When a setting is made to allow a predetermined amount of deflection in the section, the remuneration means may be configured to allow the first conveyance means and the second conveyance means when the basis weight of the conveyed object is less than a predetermined value. A machine learning device that provides a positive reward when the state amount in the interval between .
前記決定手段は、取得された前記状態量と前記Qテーブルとに基づいて複数の前記セットから1つの前記セットを決定する、請求項8から14のいずれか1項に記載の機械学習装置。 The action value function is a Q table,
The machine learning device according to any one of claims 8 to 14 , wherein the determining means determines one set from a plurality of sets based on the acquired state quantity and the Q table.
前記報酬付与手段は、さらに取得された前記状態量に基づいて前記報酬をさらに付与し、
前記学習手段は、さらに付与された前記報酬に基づき、前記行動価値関数をさらに更新する、請求項1から19のいずれか1項に記載の機械学習装置。 The state quantity acquisition means further acquires the state quantity when the conveyance means is driven based on the selected set of parameters,
The reward granting means further grants the reward based on the obtained state quantity,
The machine learning device according to any one of claims 1 to 19 , wherein the learning means further updates the action value function based on the given reward.
前記搬送対象物の位置に基づき前記搬送対象物の長さを取得し、
取得された長さよりも前記搬送対象物の基準長さが長い場合には、取得された前記長さと前記基準長さとの差分を前記撓み量とする、請求項1から29のいずれか1項に記載の機械学習装置。 The state quantity acquisition means is
obtaining the length of the object to be transported based on the position of the object to be transported;
According to any one of claims 1 to 29 , when the reference length of the conveyed object is longer than the obtained length, the difference between the obtained length and the reference length is set as the amount of deflection. Machine learning device described.
前記搬送装置に設けられた負荷検出手段のシミュレーションモデルを用いて前記搬送手段の負荷を取得し、
前記負荷に基づいて、前記引っ張り量を取得する、請求項1から29のいずれか1項に記載の機械学習装置。 The state quantity acquisition means is
Obtaining the load of the conveyance means using a simulation model of a load detection means provided in the conveyance apparatus,
The machine learning device according to any one of claims 1 to 29 , wherein the amount of tension is obtained based on the load.
前記状態量取得手段は、
前記搬送対象物の位置に基づき前記搬送対象物の長さを取得し、
取得された長さと前記搬送対象物の基準長さとの差分がなく、かつ前記第2の搬送手段の搬送速度が前記第1の搬送手段の搬送速度以上である場合、前記搬送対象物が引っ張られた状態と判断する、請求項1から29のいずれか1項に記載の機械学習装置。 The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
The state quantity acquisition means is
obtaining the length of the object to be transported based on the position of the object to be transported;
If there is no difference between the acquired length and the reference length of the object to be transported, and the transport speed of the second transport means is equal to or higher than the transport speed of the first transport means, the object to be transported is pulled. The machine learning device according to any one of claims 1 to 29 , wherein the machine learning device determines that the state is the same.
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得するステップとをさらに備え、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされている場合、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記所定の撓み量以下の前記撓み量を表しているとき、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
further comprising the step of acquiring the state quantity based on the conveyance speed of the conveyance target by the conveyance means or the position of the conveyance target in the conveyance path,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
If a setting is made to allow a predetermined amount of deflection in the section between the first conveying means and the second conveying means among the plurality of sections, the first conveying means and the second conveying means Machine learning, wherein when the state quantity in the section between the transport means and the conveyance means represents the deflection amount that is less than or equal to the predetermined deflection amount, the step of giving a reward based on the state quantity gives a positive reward . Method.
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得するステップとをさらに備え、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みを許容しない設定がなされている場合、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記引っ張り量を表しているとき、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
further comprising the step of acquiring the state quantity based on the conveyance speed of the conveyance target by the conveyance means or the position of the conveyance target in the conveyance path,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
In a section between the first conveying means and the second conveying means among the plurality of sections, if a setting is made that does not allow deflection of the conveyed object, the first conveying means and the second conveying means A machine learning method , wherein when the state quantity in the section between the second transport means and the second transport means represents the amount of pull, a positive reward is given in the step of giving a reward based on the state quantity .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得するステップとをさらに備え、
前記状態量に基づいて報酬を付与するステップでは、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段のうちの所定の搬送手段は、複数の前記搬送対象物を格納した格納手段から前記搬送対象物を1つずつ前記搬送路に搬送し、
前記複数の区間のうち、前記搬送対象物の後端が前記所定の搬送手段に到達する前の位置における前記状態量が前記引っ張り量を表しており、かつ前記搬送対象物の後端が前記所定の搬送手段を通過する際に前記所定の搬送手段が停止している場合、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of granting a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
further comprising the step of acquiring the state quantity based on the conveyance speed of the conveyance target by the conveyance means or the position of the conveyance target in the conveyance path,
In the step of providing a reward based on the state quantity, the reward is provided based on the state quantity and the state of the transport means,
A predetermined transport means among the plurality of transport means transports the transport objects one by one from a storage means storing a plurality of transport objects to the transport path,
Among the plurality of sections, the state quantity at a position before the rear end of the conveyance target reaches the predetermined conveyance means represents the amount of tension, and the rear end of the conveyance target reaches the predetermined conveyance means. If the predetermined transport means is stopped when passing through the transport means, a positive reward is given in the step of giving a reward based on the state quantity .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得するステップとをさらに備え、
前記状態量に基づいて報酬を付与するステップでは、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みと、前記第2の搬送手段において搬送方向への前記搬送対象物への力の発生とが許容されていない場合、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記引っ張り量および前記撓み量のいずれも表していないとき、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
further comprising the step of acquiring the state quantity based on the conveyance speed of the conveyance target by the conveyance means or the position of the conveyance target in the conveyance path,
In the step of providing the reward based on the state quantity, the reward is provided based on the state quantity and the state of the conveying means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
In the section between the first conveying means and the second conveying means among the plurality of sections, the object to be conveyed is deflected, and the object to be conveyed in the conveying direction in the second conveying means is If the generation of force is not allowed, and the state quantity in the section between the first conveying means and the second conveying means does not represent either the amount of tension or the amount of deflection, A machine learning method , wherein a positive reward is given in the step of giving a reward based on the state amount .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得するステップとをさらに備え、
前記状態量に基づいて報酬を付与するステップでは、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第2の搬送手段が前記搬送対象物を引っ張った状態で搬送することにより前記第1の搬送手段を前記搬送対象物が通過する時間を早くすることが可能な場合、前記第2の搬送手段が前記搬送対象物を引っ張った状態で搬送しているとき、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
further comprising the step of acquiring the state quantity based on the conveyance speed of the conveyance target by the conveyance means or the position of the conveyance target in the conveyance path,
In the step of providing a reward based on the state quantity, the reward is provided based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
If it is possible to speed up the time for the object to be transported through the first transport means by transporting the object in a pulled state by the second transport means, the second transport means A machine learning method , wherein when the object is being transported in a pulled state, a positive reward is provided in the step of providing a reward based on the state quantity .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得するステップとをさらに備え、
前記状態量に基づいて報酬を付与するステップでは、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされているとき、前記状態量に基づいて報酬を付与するステップでは、前記第1の搬送手段の搬送速度が前記第2の搬送手段の搬送速度以上であることを条件に、正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of granting a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
further comprising the step of acquiring the state quantity based on the conveyance speed of the conveyance target by the conveyance means or the position of the conveyance target in the conveyance path,
In the step of providing a reward based on the state quantity, the reward is provided based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the first conveyance means and the second conveyance means are conveying the object at the same time, the distance between the first conveyance means and the second conveyance means among the plurality of sections is When a setting is made to allow a predetermined amount of deflection in the section, in the step of giving a reward based on the state quantity, the conveyance speed of the first conveyance means is equal to or higher than the conveyance speed of the second conveyance means. A machine learning method that gives positive rewards on the condition that .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送手段による前記搬送対象物の搬送速度、または前記搬送路中の前記搬送対象物の位置に基づき、前記状態量を取得するステップとをさらに備え、
前記状態量に基づいて報酬を付与するステップでは、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みを許容しない設定がなされている場合、前記状態量に基づいて報酬を付与するステップでは、前記第1の搬送手段の搬送速度が前記第2の搬送手段の搬送速度以下であることを条件に、正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
further comprising the step of acquiring the state quantity based on the conveyance speed of the conveyance target by the conveyance means or the position of the conveyance target in the conveyance path,
In the step of providing a reward based on the state quantity, the reward is provided based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the first conveyance means and the second conveyance means are conveying the object at the same time, the distance between the first conveyance means and the second conveyance means among the plurality of sections is If the setting is such that the deflection of the conveyed object is not allowed in the section, in the step of giving a reward based on the state quantity, the conveying speed of the first conveying means is set to be lower than the conveying speed of the second conveying means. A machine learning method that gives a positive reward on the condition that the speed is lower than or equal to the speed .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送装置をシミュレートするシミュレーターと通信するステップと、
前記シミュレーターからの出力に基づき、前記状態量を取得するステップとをさらに備え、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされている場合、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記所定の撓み量以下の前記撓み量を表しているときに、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of granting a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
communicating with a simulator simulating the transport device;
further comprising the step of acquiring the state quantity based on the output from the simulator,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
If a setting is made to allow a predetermined amount of deflection in the section between the first conveying means and the second conveying means among the plurality of sections, the first conveying means and the second conveying means The step of awarding a reward based on the state quantity provides a positive reward when the state quantity represents the deflection amount that is less than or equal to the predetermined deflection amount in the section between the machine and the conveying means. How to learn.
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送装置をシミュレートするシミュレーターと通信するステップと、
前記シミュレーターからの出力に基づき、前記状態量を取得するステップとをさらに備え、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みを許容しない設定がなされている場合、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記引っ張り量を表しているときに、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of granting a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
communicating with a simulator simulating the transport device;
further comprising the step of acquiring the state quantity based on the output from the simulator,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
In a section between the first conveying means and the second conveying means among the plurality of sections, if a setting is made that does not allow deflection of the conveyed object, the first conveying means and the second conveying means A machine learning method , wherein when the state quantity in the section between the second transport means and the second transport means represents the amount of tension, a positive reward is given in the step of giving a reward based on the state quantity.
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送装置をシミュレートするシミュレーターと通信するステップと、
前記シミュレーターからの出力に基づき、前記状態量を取得するステップとをさらに備え、
前記状態量に基づいて報酬を付与するステップでは、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段のうちの所定の搬送手段は、複数の前記搬送対象物を格納した格納手段から前記搬送対象物を1つずつ前記搬送路に搬送し、
前記複数の区間のうち、前記搬送対象物の後端が前記所定の搬送手段に到達する前の位置における前記状態量が前記引っ張り量を表しており、かつ前記搬送対象物の後端が前記所定の搬送手段を通過する際に前記所定の搬送手段が停止している場合、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
communicating with a simulator simulating the transport device;
further comprising the step of obtaining the state quantity based on the output from the simulator,
In the step of providing a reward based on the state quantity, the reward is provided based on the state quantity and the state of the transport means,
A predetermined transport means among the plurality of transport means transports the transport objects one by one from a storage means storing a plurality of transport objects to the transport path,
Among the plurality of sections, the state quantity at a position before the rear end of the conveyance target reaches the predetermined conveyance means represents the amount of tension, and the rear end of the conveyance target reaches the predetermined conveyance means. If the predetermined transport means is stopped when passing through the transport means, a positive reward is given in the step of giving a reward based on the state quantity .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送装置をシミュレートするシミュレーターと通信するステップと、
前記シミュレーターからの出力に基づき、前記状態量を取得するステップとをさらに備え、
前記状態量に基づいて報酬を付与するステップでは、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みと、前記第2の搬送手段において搬送方向への前記搬送対象物への力の発生とが許容されていない場合、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記引っ張り量および前記撓み量のいずれも表していないとき、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
communicating with a simulator simulating the transport device;
further comprising the step of obtaining the state quantity based on the output from the simulator,
In the step of providing the reward based on the state quantity, the reward is provided based on the state quantity and the state of the conveying means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
In the section between the first conveying means and the second conveying means among the plurality of sections, the object to be conveyed is deflected, and the object to be conveyed in the conveying direction in the second conveying means is If the generation of force is not allowed, and the state quantity in the section between the first conveying means and the second conveying means does not represent either the amount of tension or the amount of deflection, A machine learning method , wherein a positive reward is given in the step of giving a reward based on the state amount .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送装置をシミュレートするシミュレーターと通信するステップと、
前記シミュレーターからの出力に基づき、前記状態量を取得するステップとをさらに備え、
前記状態量に基づいて報酬を付与するステップでは、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第2の搬送手段が前記搬送対象物を引っ張った状態で搬送することにより前記第1の搬送手段を前記搬送対象物が通過する時間を早くすることが可能な場合、前記第2の搬送手段が前記搬送対象物を引っ張った状態で搬送しているとき、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
communicating with a simulator simulating the transport device;
further comprising the step of obtaining the state quantity based on the output from the simulator,
In the step of providing the reward based on the state quantity, the reward is provided based on the state quantity and the state of the conveying means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When it is possible to speed up the time for the object to be transported through the first transport means by transporting the object in a pulled state by the second transport means, the second transport means A machine learning method , in which a positive reward is provided in the step of providing a reward based on the state quantity when the object is being transported in a pulled state .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送装置をシミュレートするシミュレーターと通信するステップと、
前記シミュレーターからの出力に基づき、前記状態量を取得するステップとをさらに備え、
前記状態量に基づいて報酬を付与するステップでは、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされているとき、前記状態量に基づいて報酬を付与するステップでは、前記第1の搬送手段の搬送速度が前記第2の搬送手段の搬送速度以上であることを条件に、正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
communicating with a simulator simulating the transport device;
further comprising the step of obtaining the state quantity based on the output from the simulator,
In the step of providing the reward based on the state quantity, the reward is provided based on the state quantity and the state of the conveying means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the object to be transported is simultaneously transported by the first transport means and the second transport means, the area between the first transport means and the second transport means among the plurality of sections is When a setting is made to allow a predetermined amount of deflection in the section, in the step of giving a reward based on the state quantity, the conveyance speed of the first conveyance means is equal to or higher than the conveyance speed of the second conveyance means. A machine learning method that gives positive rewards on the condition that .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記搬送装置をシミュレートするシミュレーターと通信するステップと、
前記シミュレーターからの出力に基づき、前記状態量を取得するステップとをさらに備え、
前記状態量に基づいて報酬を付与するステップでは、前記状態量と、前記搬送手段の状態とに基づいて前記報酬を付与し、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、前記搬送対象物の撓みを許容しない設定がなされている場合、前記状態量に基づいて報酬を付与するステップでは、前記第1の搬送手段の搬送速度が前記第2の搬送手段の搬送速度以下であることを条件に、正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
communicating with a simulator simulating the transport device;
further comprising the step of obtaining the state quantity based on the output from the simulator,
In the step of providing a reward based on the state quantity, the reward is provided based on the state quantity and the state of the transport means,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the first conveyance means and the second conveyance means are conveying the object at the same time, the distance between the first conveyance means and the second conveyance means among the plurality of sections is If the setting is such that the deflection of the conveyed object is not allowed in the section, in the step of giving a reward based on the state quantity, the conveying speed of the first conveying means is set to be lower than the conveying speed of the second conveying means. A machine learning method that gives a positive reward on the condition that the speed is lower than or equal to the speed .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記報酬と前記搬送対象物の物性とに基づき、各前記駆動手段のパラメーターの値を更新する機械学習を行うステップとをさらに備え、
前記物性は剛度であり、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記状態量に基づいて報酬を付与するステップでは、前記搬送対象物の剛度が所定値以上であり、かつ、前記第1の搬送手段の搬送速度と前記第2の搬送手段の搬送速度とが同じであることを条件に、正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of granting a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
further comprising the step of performing machine learning for updating parameter values of each of the driving means based on the reward and the physical properties of the conveyed object,
The physical property is stiffness,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the first conveying means and the second conveying means are simultaneously conveying the conveyed object, in the step of providing a reward based on the state quantity, the stiffness of the conveyed object is equal to or higher than a predetermined value. A machine learning method that provides a positive reward on the condition that the transport speed of the first transport means and the transport speed of the second transport means are the same .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記報酬と前記搬送対象物の物性とに基づき、各前記駆動手段のパラメーターの値を更新する機械学習を行うステップとをさらに備え、
前記物性は剛度であり、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送しており、かつ前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされている場合、前記搬送対象物の剛度が所定値未満であり、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記所定の撓み量以下の撓み量を表しているとき、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
further comprising the step of performing machine learning for updating parameter values of each of the driving means based on the reward and the physical properties of the conveyed object,
The physical property is stiffness,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
The first conveyance means and the second conveyance means convey the object to be conveyed at the same time, and the distance between the first conveyance means and the second conveyance means among the plurality of sections is If a setting is made to allow a predetermined amount of deflection in the section, the stiffness of the object to be transported is less than a predetermined value, and the stiffness of the object in the section between the first transport means and the second transport means is A machine learning method , wherein when the amount of state represents an amount of deflection that is less than or equal to the predetermined amount of deflection, a positive reward is provided in the step of providing a reward based on the amount of state .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記報酬と前記搬送対象物の物性とに基づき、各前記駆動手段のパラメーターの値を更新する機械学習を行うステップとをさらに備え、
前記物性は坪量であり、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送している場合、前記状態量に基づいて報酬を付与するステップでは、前記搬送対象物の坪量が所定値以上であり、かつ、前記第1の搬送手段の搬送速度と前記第2の搬送手段の搬送速度とが同じであることを条件に、正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of granting a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
further comprising the step of performing machine learning for updating parameter values of each of the driving means based on the reward and the physical properties of the conveyed object,
The physical property is basis weight,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
When the object to be transported is simultaneously transported by the first transport means and the second transport means, in the step of providing a reward based on the state quantity, the basis weight of the object to be transported is a predetermined value. A machine learning method that provides a positive reward on the condition that the above is the case, and that the transport speed of the first transport means and the transport speed of the second transport means are the same .
前記状態量に基づいて報酬を付与するステップと、
各前記搬送手段を駆動する各駆動手段のパラメーターのセットの価値を前記セット毎に表す行動価値関数を、前記報酬に基づき更新するステップと、
更新後の前記行動価値関数に基づいて複数の前記セットから1つの前記セットを決定し、かつ、決定された前記セットのパラメータで前記搬送手段を駆動するように前記駆動手段に対して指示するステップと、
前記報酬と前記搬送対象物の物性とに基づき、各前記駆動手段のパラメーターの値を更新する機械学習を行うステップとをさらに備え、
前記物性は坪量であり、
前記複数の搬送手段は、第1の搬送手段と、前記第1の搬送手段の下流側の次の搬送手段である第2の搬送手段とを含み、
前記第1の搬送手段と前記第2の搬送手段とで同時に前記搬送対象物を搬送しており、かつ前記複数の区間のうち前記第1の搬送手段と前記第2の搬送手段との間の区間において、所定の撓み量を許容する設定がなされている場合、前記搬送対象物の坪量が所定値未満であり、前記第1の搬送手段と前記第2の搬送手段との間の区間における前記状態量が前記所定の撓み量以下の撓み量を表しているとき、前記状態量に基づいて報酬を付与するステップでは正の報酬を付与する、機械学習方法。 a step of acquiring state quantities representing the amount of deflection or tension of the conveyed object in a plurality of sections of a conveying path of a conveying device, the conveying device sequentially holding the conveyed object by a plurality of conveying means; , transporting the object to be transported from upstream to downstream of the transport path,
a step of providing a reward based on the state quantity;
updating, based on the reward, an action value function that represents the value of a set of parameters of each drive means that drives each of the transport means for each set;
determining one of the plurality of sets based on the updated action value function, and instructing the driving means to drive the conveying means with the parameters of the determined set; and,
further comprising the step of performing machine learning for updating parameter values of each of the driving means based on the reward and the physical properties of the conveyed object,
The physical property is basis weight,
The plurality of conveyance means includes a first conveyance means and a second conveyance means that is the next conveyance means downstream of the first conveyance means,
The first conveyance means and the second conveyance means convey the object to be conveyed at the same time, and the distance between the first conveyance means and the second conveyance means among the plurality of sections is If a setting is made to allow a predetermined amount of deflection in the section, the basis weight of the object to be transported is less than a predetermined value, and in the section between the first transport means and the second transport means. A machine learning method , wherein when the amount of state represents a deflection amount that is less than or equal to the predetermined amount of deflection, a positive reward is provided in the step of providing a reward based on the amount of state .
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019197580A JP7439459B2 (en) | 2019-10-30 | 2019-10-30 | Machine learning device, conveyance device, image forming device, machine learning method, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019197580A JP7439459B2 (en) | 2019-10-30 | 2019-10-30 | Machine learning device, conveyance device, image forming device, machine learning method, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021071875A JP2021071875A (en) | 2021-05-06 |
JP7439459B2 true JP7439459B2 (en) | 2024-02-28 |
Family
ID=75713168
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019197580A Active JP7439459B2 (en) | 2019-10-30 | 2019-10-30 | Machine learning device, conveyance device, image forming device, machine learning method, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7439459B2 (en) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001186295A (en) | 1999-12-22 | 2001-07-06 | Ricoh Co Ltd | Image forming device |
JP2014201409A (en) | 2013-04-05 | 2014-10-27 | コニカミノルタ株式会社 | Image formation device |
JP2016160097A (en) | 2015-03-05 | 2016-09-05 | キヤノン株式会社 | Image forming apparatus |
JP2019034836A (en) | 2017-08-18 | 2019-03-07 | ファナック株式会社 | Controller and machine learning apparatus |
-
2019
- 2019-10-30 JP JP2019197580A patent/JP7439459B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001186295A (en) | 1999-12-22 | 2001-07-06 | Ricoh Co Ltd | Image forming device |
JP2014201409A (en) | 2013-04-05 | 2014-10-27 | コニカミノルタ株式会社 | Image formation device |
JP2016160097A (en) | 2015-03-05 | 2016-09-05 | キヤノン株式会社 | Image forming apparatus |
JP2019034836A (en) | 2017-08-18 | 2019-03-07 | ファナック株式会社 | Controller and machine learning apparatus |
Non-Patent Citations (1)
Title |
---|
藤島智子,日吉隆之,長門剛史,山下哲央,高精度用紙搬送シミュレータTIMESの開発,情報処理学会論文誌,日本,情報処理学会,2013年07月15日,Vol.54,No.7,pp.1892-1901,[online] |
Also Published As
Publication number | Publication date |
---|---|
JP2021071875A (en) | 2021-05-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6897169B2 (en) | Image forming device | |
US11644783B2 (en) | Image forming apparatus that adjusts image forming area based on read test image | |
JP7392744B2 (en) | Image forming device, image forming method, control program | |
JP2007003663A (en) | Heater controller | |
KR100611984B1 (en) | Method for controlling a fixation of printer and apparatus therefor | |
US20160041504A1 (en) | Image forming apparatus and method of switching collected developer route in image forming apparatus | |
JP7439459B2 (en) | Machine learning device, conveyance device, image forming device, machine learning method, and program | |
JP2012247651A (en) | Image forming apparatus | |
JP2005014354A (en) | Image forming apparatus and its management system | |
JP2001337564A (en) | Image forming device | |
US10520873B2 (en) | Image forming apparatus and image forming method | |
JP6809260B2 (en) | Image formation system and program | |
JP2009217178A (en) | Image forming apparatus and image forming system | |
JP7167684B2 (en) | Copier, method of producing printed matter | |
JP6258670B2 (en) | Image forming apparatus and image forming system | |
JP7073786B2 (en) | Image forming device, sheet type determination method, and computer program | |
US10435264B2 (en) | Image forming apparatus, method for controlling image forming apparatus, and non-transitory computer readable medium | |
JP7078885B2 (en) | Image forming device, control method and program of image forming device | |
JP2016014831A (en) | Image forming apparatus and method for controlling image forming apparatus | |
JP7396078B2 (en) | Machine learning methods, image forming devices, and machine learning programs | |
US12010280B2 (en) | Machine learning device, machine learning method, and machine learning program | |
CN112286050B (en) | Machine learning device, machine learning method, and machine learning program | |
JP2021193045A (en) | Learning method, conveyance device and image formation device | |
US20230177670A1 (en) | Information processing apparatus and method of setting inspection condition of image | |
US8941845B2 (en) | Image forming apparatus |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20220920 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230808 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230926 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231102 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240129 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7439459 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |