JP2017033979A

JP2017033979A - 実装タクトおよび消費電力を低減する部品マウンタ及び機械学習器

Info

Publication number: JP2017033979A
Application number: JP2015149247A
Authority: JP
Inventors: 純一大内; Junichi Ouchi
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2015-07-29
Filing date: 2015-07-29
Publication date: 2017-02-09

Abstract

【課題】実際の部品実装動作において短い所要時間かつ少ない消費電力で部品実装を行う部品マウンタを提供すること。
【解決手段】本発明の部品マウンタは、実装する部品の部品位置、部品仕様、部品実装順序、実装タクト、および消費電力を入力として機械学習する機械学習器を備え、機械学習器は、少なくとも部品実装順序を状態データとして取得する状態観測部と、状態データに基づいて報酬を計算する報酬計算部と、機械学習結果および状態データに基づいて部品の実装順序の変更を行う実装順序変更学習部と、実装順序変更学習部が変更した部品の実装順序を出力する実装順序出力部と、を有し、実装順序変更学習部は、変更された部品の前記実装順序と、状態観測部により取得された状態データと、報酬計算部が計算した前記報酬と、に基づいて部品の実装順序の変更を機械学習する。
【選択図】図４

Description

本発明は、部品マウンタに関し、特に機械学習により実装タクトの短縮および消費電力の低減を可能とする部品マウンタに関する。

ＳＭＴ（表面実装技術）が可能な部品マウンタ（電子部品実装装置）を用いて基板上に電子部品を配置して実装することが行われている。部品マウンタは、電子部品を供給するフィーダと、フィーダが供給する電子部品を基板へ搬送して装着する部品吸着ハンドを備えており、部品吸着ハンドが電子部品を吸着などにより把持して該電子部品を装着する基板上の位置へと搬送し、基板上に印刷されているはんだにより固定することで基板上に電子部品を実装している。

部品マウンタを用いた電子部品の実装では、事前に設計されているそれぞれの電子部品の基板上の装着位置へ、どの順序で電子部品を搬送するのか、すなわち電子部品の実装順序により部品吸着ハンドの移動量が異なり、そのため電子部品の実装順序により実装タクト（１枚の基板に対して部品の実装が終了するまでに掛かる時間）や消費電力に少なからず差が生じる。

従来は、実装タクトの短縮や消費電力の削減を目的として、作業者が知識と経験に基づき試行錯誤することで実装順序を定めていたが、作業者の熟練度に個人差があるため、安定して実装タクトの短縮や消費電力の削減が行えなかったという問題があった。このような問題に対応するために、特許文献１に開示される技術では、与えられた部品データに基づいて被装着品（電子部品）の装着時間を短縮化するために装着順序を最適化する装置が開示されている。

特開平０５−３３４４０５号公報

特許文献１における最適化処理では、部品の装着の自由度が高い順からグループ分けし、装着ヘッドの移動距離や回転角度が小さい順序で基板に部品を装着するようにしている。しかしながら、特許文献１の最適化処理では、各々の部品を装着した際に、次の部品の距離や角度のみを考慮して部品の選択をしているため、部品装着全体から見た最適化ができていないという課題があった。また、特許文献１では装着機データ、部品データなどのデータにのみ基づいた最適化を行っているため、実際に部品マウンタを制御して部品の実装動作を行った際に、部品マウンタ固有の特性などが原因で必ずしも最適とは言えない順序となってしまう可能性があるという課題があった。

そこで本発明の目的は、実際の部品実装動作において短い所要時間かつ少ない消費電力で部品実装を行う部品マウンタを提供することである。

本願の請求項１に係る発明は、複数の部品把持ハンドもしくは部品吸着ハンドを備える部品マウンタにおいて、実装する部品の部品位置、部品仕様、部品実装順序、実装タクト、および消費電力を入力として機械学習する機械学習器を備え、該機械学習器は機械学習の結果に基づいて、前記実装タクトを短くするように、また、前記消費電力を小さくするように前記部品実装順序を変更する、ことを特徴とする部品マウンタである。

本願の請求項２に係る発明は、前記機械学習器は、前記部品マウンタは所定の基準時間よりも短い実装タクトで実装が完了したことをプラスの報酬とし、所定の基準時間よりも長い実装タクトで実装が完了したことをマイナスの報酬として学習をする、ことを特徴とする請求項１に記載の部品マウンタである。

本願の請求項３に係る発明は、前記機械学習器は、前記部品マウンタは所定の基準電力よりも少ない消費電力で実装が完了したことをプラスの報酬とし、所定の基準電力よりも大きい消費電力で実装が完了したことをマイナスの報酬として学習をする、ことを特徴とする請求項１に記載の部品マウンタである。

本願の請求項４に係る発明は、少なくとも１つの他の機械学習器と接続可能であり、前記他の機械学習器との間で機械学習の結果を相互に交換または共有する、ことを特徴とする請求項１〜３のいずれか１つに記載の部品マウンタである。

本願の請求項５に係る発明は、前記機械学習器は、実装タクトに基づく報酬と消費電力に基づく報酬に対して重み付けの設定をすることができる、ことを特徴とする請求項１〜３のいずれか１つに記載の部品マウンタである。

本願の請求項６に係る発明は、前記学習終了後、前記機械学習器は、製造スケジュールに余裕があれば消費電力優先に重み付けを自動設定し、余裕がなければ実装タクト優先に重み付けを自動設定する、ことを特徴とする請求項５に記載の部品マウンタである。

本願の請求項７に係る発明は、複数の部品把持ハンドもしくは部品吸着ハンドを備える部品マウンタに接続可能であり、前記部品マウンタにおける部品実装順序の変更を機械学習する機械学習器であって、実装する部品の部品位置、部品仕様、部品実装順序、実装タクト、および消費電力を入力として機械学習し、該機械学習の結果に基づいて、前記実装タクトを短くするように、また、前記消費電力を小さくするように前記部品実装順序を変更する、ことを特徴とする機械学習器である。

本願の請求項８に係る発明は、部品マウンタにおける部品実装順序の変更を機械学習した機械学習器であって、前記部品実装順序の変更の機械学習結果を記憶する学習結果記憶部と、前記部品マウンタの少なくとも前記部品実装順序を含む状態データを取得する状態観測部と、前記部品実装順序を変更の機械学習結果と、前記状態観測部が取得した前記状態データと、に基づいて前記部品実装順序の変更を行う実装順序変更学習部と、前記実装順序変更学習部が変更した前記部品実装順序を出力する実装順序出力部と、を備えたことを特徴とする機械学習器である。

本発明において、機械学習を部品マウンタにおける最適な部品実装順序の決定に用いることで、より短い実装タクト、より少ない消費電力での基板上への部品実装を実現することが可能となる。

強化学習アルゴリズムの基本的な概念を説明する図である。本発明の実施形態における部品マウンタの機械学習に関するイメージ図である。本発明の実施形態において扱う各データについて説明する図である。本発明の実施形態における部品マウンタと機械学習器の機能ブロック図である。

以下、本発明の実施形態を図面と共に説明する。
本発明では、複数の部品吸着ハンドを備え、ＰＣＢ（プリント基板）に複数種類かつ複数個数の部品を自動実装する部品マウンタに対して人工知能となる機械学習器を接続し、ＰＣＢへの部品の実装順序に関する機械学習を行うことで、ＰＣＢへの部品の実装順序が最適なものになるように変更を行うようにする。部品の実装順序の変更においては、より短い実装タクトと、より少ない消費電力を目的とし、これにより、より短時間でコストが低い部品実装を実現する。

＜１．機械学習＞
一般に、機械学習には教師あり学習や教師なし学習など、その目的や条件によって様々なアルゴリズムに分類されている。本発明ではＰＣＢに複数種類かつ複数個数の部品を自動実装する部品マウンタにおけるＰＣＢへの部品の実装順序に関する学習を目的としており、部品マウンタから出力された実際に行った部品実装順序と実装タクトおよび消費電力に対してどのような行動（部品の実装順序の変更）をすることが正しいのかを明示的に示すことが困難であることを考慮して、報酬を与えるだけで機械学習器が目標到達のための行動を自動的に学習する強化学習のアルゴリズムを採用する。

図１は、強化学習アルゴリズムの基本的な概念を説明する図である。強化学習においては、学習する主体となるエージェント（機械学習器）と、制御対象となる環境（制御対象システム）とのやりとりにより、エージェント学習と行動が進められる。より具体的には、（１）エージェントはある時点における環境の状態ｓ_tを観測し、（２）観測結果と過去の学習に基づいて自分が取れる行動ａ_tを選択して行動ａを実行し、（３）行動ａ_tが実行されることで環境の状態ｓ_tが次の状態ｓ_t+1へと変化し、（４）行動ａ_tの結果としての状態の変化に基づいてエージェントが報酬ｒ_t+1を受け取り、（５）エージェントが状態ｓ_t、行動ａ_t、報酬ｒ_t+1および過去の学習の結果に基づいて学習を進める、といったやりとりがエージェントと環境の間で行われる。

上記した（５）における学習では、エ−ジェントは将来取得できる報酬の量を判断するための基準となる情報として、観測された状態ｓ_t，行動ａ_t，報酬ｒ_t+1のマッピングを獲得する。例えば、各時刻において取り得る状態の個数がｍ、取り得る行動の個数がｎとすると、行動を繰り返すことによって状態ｓ_tと行動ａ_tの組に対する報酬ｒ_t+1を記憶するｍ×ｎの２次元配列が得られる。
そして、上記得られたマッピングに基づいて現在の状態や行動がどのくらい良いのかを示す関数である価値関数（評価関数）を用い、行動を繰り返す中で価値関数（評価関数）を更新していくことにより状態に対する最適な行動を学習していく。価値関数（評価関数）には、現在の状態がどのくらい良いのかを示す関数である状態価値関数、現在の状態において次にとる行動がどのくらい良いのかを示す関数である行動価値関数などがある。

状態価値関数は、ある状態ｓ_tがどのくらい良い状態であるのかを示す価値関数である。状態価値関数は、状態を引数とする関数として表現され、行動を繰り返す中での学習において、ある状態における行動に対して得られた報酬や、該行動により移行する未来の状態の価値などに基づいて更新される。状態価値関数の更新式は強化学習のアルゴリズムに応じて定義されており、例えば、強化学習アルゴリズムの１つであるＴＤ学習においては、状態価値関数は以下の数１式で定義される。なお、数１式においてαは学習係数、γは割引率と呼ばれ、０＜α≦１、０＜γ≦１の範囲で定義される。

また、行動価値関数は、ある状態ｓ_tにおいて行動ａ_tがどのくらい良い行動であるのかを示す価値関数である。行動価値関数は、状態と行動を引数とする関数として表現され、行動を繰り返す中での学習において、ある状態における行動に対して得られた報酬や、該行動により移行する未来の状態における行動の価値などに基づいて更新される。行動価値関数の更新式は強化学習のアルゴリズムに応じて定義されており、例えば、代表的な強化学習アルゴリズムの１つであるＱ学習においては、状態価値関数は以下の数２式で定義される。なお、数２式においてαは学習係数、γは割引率と呼ばれ、０＜α≦１、０＜γ≦１の範囲で定義される。

なお、学習結果としての価値関数（評価関数）を記憶する方法としては、近似関数を用いる方法や、配列を用いる方法以外にも、例えば状態ｓが多くの状態を取るような場合には状態ｓ_t、行動ａ_tを入力として価値（評価）を出力する多値出力のＳＶＭやニューラルネットワーク等の教師あり学習器を用いる方法などがある。

そして、上記した（２）における行動の選択においては、過去の学習によって作成された価値関数（評価関数）を用いて現在の状態ｓ_tにおいて将来にわたっての報酬（ｒ_t+1＋ｒ_t+2＋…）が最大となる行動ａ_t（状態価値関数を用いている場合には、もっとも価値の高い状態へ移るための行動、行動価値関数を用いている場合には該状態において最も価値の高い行動）を選択する。なお、エージェントの学習中には学習の進展を目的として（２）における行動の選択において一定の確率でランダムな行動を選択することも有効である（εグリーディ法）。

このように、（１）〜（５）を繰り返すことで学習が進められる。ある環境において学習が終了した後に、新たな環境におかれた場合でも追加の学習を行うことでその環境に適応するように学習を進めることができる。したがって、本発明のようにＰＣＢへの部品実装における部品マウンタによる部品実装順序の変更に適用することで、ＰＣＢの設計変更（部品位置の変更、部品の追加、削除など）がされた場合においても、過去のＰＣＢへの部品マウンタによる部品の実装順序に関する学習に、新たに部品の実装順序の変更に関する追加学習を行うことにより、最適な部品の実装順序を短時間で求めることが可能となる。

また、強化学習においては、複数のエージェントをネットワークなどを介して接続したシステムとし、エージェント間で状態ｓ、行動ａ、報酬ｒなどの情報を共有してそれぞれの学習に利用することで、それぞれのエージェントが他のエージェントの環境も考慮して学習をする分散強化学習を行うことで効率的な学習を行うことができる。本発明においても、複数の環境（制御対象となる部品マウンタ）を制御する複数のエージェント（機械学習器）がネットワークなどを介して接続された状態で分散機械学習を行うことで、部品マウンタによる部品の実装順序の学習を効率的に行わせることができるようになる。

なお、強化学習のアルゴリズムとしては、Ｑ学習、ＳＡＲＳＡ法、ＴＤ学習、ＡＣ法など様々な手法が周知となっているが、本発明に適用する方法としていずれの強化学習アルゴリズムを採用してもよい。なお、それぞれの強化学習アルゴリズムは周知なので、本明細書における各アルゴリズムの詳細な説明は省略する。
以下では、機械学習器を接続した本発明の部品マウンタについて、具体的な実施形態に基づいて説明する。なお、以下の実施形態では、部品マウンタと制御装置、機械学習器を別体として説明しているが、部品マウンタの中に制御装置、機械学習器を組み込んだ構成としてもよい。

＜２．実施形態＞
図２は、本発明の一実施形態における人工知能となる機械学習器を接続した部品マウンタにおける部品の実装順序の機械学習に関するイメージを示す図である。本実施形態においては、複数の部品マウンタから出力されるデータに基づいて機械学習器２０が学習を行い、学習結果に基づいて各部品マウンタごとに部品実装順序の変更を行い、各変更結果をそれぞれの部品マウンタに対して出力する。なお、図２には本実施形態における部品マウンタにおける機械学習の説明に必要な構成のみを示している。

本実施形態において、機械学習器２０が環境（＜１．機械学習＞で説明した状態ｓ_t）を特定するための情報として、部品位置データ、部品仕様データ、部品マウンタ１がＰＣＢ１枚を実装した際の部品実装順序、ＰＣＢ１枚を実装するのに要した時間（実装タクト）、ＰＣＢ１枚を実装するのに消費した消費電力を入力する。これら各値は、各部品マウンタ１から取得されたデータである。

図３は、本実施形態における部品マウンタ１において用いられる各状態データの例を示している。図３では、４つの部品吸着ハンドａ〜ｄを供える部品マウンタ１において、ｍ個の部品Ｐｔ₁〜Ｐｔ_mをそれぞれＰＣＢ上に実装する場合のデータ例である。初期データとして、各部品Ｐｔ₁〜Ｐｔ_mのＰＣＢ上の領域ＩＤ（ＰＣＢ上を所定の範囲毎に区切った領域に割り当てられるＩＤ。同一領域に配置される部品には同一の領域ＩＤが割り当てられる）と位置を示す部品位置データ、各部品Ｐｔ₁〜Ｐｔ_mのそれぞれの仕様ＩＤ（部品型式、幅、奥行き、高さ等を示す仕様毎に割り当てられるＩＤ。同一仕様の部品には同一の仕様ＩＤが割り当てられる）を示す部品仕様データが定義されている。ここで、部品型式とは部品の種類を特定するための型式であり、部品メーカの製品型式あるいは部品マウンタ１を使用するユーザが独自に割り当てる型式をいう。また、説明を簡単にするため、部品吸着ハンドａ〜ｄはそれぞれがｎ個の部品をＰＣＢ上へと実装することとし（ただし、ｍ＝４ｎ）、それぞれの部品吸着ハンドが装着する部品の順番を部品実装順序データとして定義する。部品実装順序データは、例えば、図に示すように部品吸着ハンドａが最初に実装する部品の順序を示す状態データ名をＯｄ_a1、Ｏｄ_a2、…とした場合において、それぞれに対してその順番に実装される部品Ｐｔ₁〜Ｐｔ_nを割りあてる。

本実施形態では、機械学習器２０が環境に対して出力するもの（＜１．機械学習＞で説明した行動ａ_t）として、各部品マウンタ１における次のＰＣＢ上への実装における部品実装順序の変更を出力する。各部品マウンタ１から出力された状態データに基づいて変更された実装順序のデータは、元となる状態データを出力した部品マウンタ１に対して出力される。

また本実施形態では、機械学習器２０に対して与えられる報酬（＜１．機械学習＞で説明した報酬ｒ_t）として、実装タクトの短縮・延長（プラス報酬、マイナス報酬）、消費電力の減少・増加（プラス報酬、マイナス報酬）などを採用する。報酬の算出においては、実装タクトが所定の基準値から見て短ければ短いほどプラス値が大きくなる報酬となるようにし、長ければ長いほどマイナス値が大きくなる報酬となるようにする。また、消費電力は、所定の基準値から見て小さければ小さいほどプラス値が大きくなる報酬となるようにし、所定の基準値よりも大きければ大きくなるほどマイナス値が大きくなる報酬となるようにする。実装タクト、消費電力の所定の基準値については、部品マウンタ１を初期データに基づいてＰＣＢ上への部品の実装を行った際に測定された実装タクト、および消費電力を基準とすればよい。

更に、本実施形態では、機械学習器２０は上記した状況、行動、報酬に基づいて機械学習を行う。機械学習においては、ある時刻ｔにおいて、入力データの組み合わせにより状態ｓ_tが定義され、定義された状態ｓ_tに対して行われる移動量の出力が行動ａ_tとなり、そして、行動ａ_tにより移動量の出力が行われた結果として新たに得られた入力データに基づいて評価計算された値が報酬ｒ_t+1となり、これを＜１．機械学習＞で説明したように、機械学習のアルゴリズムに応じた価値関数（評価関数）の更新式に当てはめることにより学習を進める。

以下では、部品マウンタ１と機械学習器２０の機能ブロック図に基づいて説明する。
図４は、本実施形態の部品マウンタと機械学習器の機能ブロック図である。本実施形態の部品マウンタ１は、部品を供給する部品フィーダ（図示せず）、複数の部品吸着ハンド（図示せず）、ＰＣＢを固定するテーブル（図示せず）などの部品マウンタが標準的に備える構成を備えており、制御部２から供給される部品位置データ、部品仕様データ、部品実装順序データなどに基づいて部品吸着ハンドやテーブルを制御してＰＣＢ上に部品フィーダから供給される部品を実装する。図４に示した構成を、図２に示した強化学習における要素と対比すると、機械学習器２０がエージェントに対応し、部品マウンタ１が備える各部や制御部２などを含む全体が環境に対応する。

制御部２は、作業者により設定された部品位置データ、部品仕様データ、初期の部品実装順序データなどに基づいて部品マウンタ１を制御する。制御部２は、通常は作業者により設定された各データに基づいて部品マウンタ１の制御を行なうが、本実施形態においては、部品マウンタ１における１枚のＰＣＢの実装が終了するたびに、機械学習器２０の指令に従って部品実装順序データを変更する。

機械学習を行う機械学習器２０は、状態観測部２１、状態データ記憶部２２、報酬条件設定部２３、報酬計算部２４、実装順序変更学習部２５、学習結果記憶部２６、実装順序出力部２７を備える。前記機械学習器２０は、制御部２内に備えてもよいし、外部のパソコン等に備えるようにしてもよい。

状態観測部２１は、制御部２を介して部品マウンタ１に関する状態データを観測して機械学習器２０内に取得する機能手段である。状態データとしては上記した部品位置データ、部品仕様データ、部品マウンタ１がＰＣＢ１枚を実装した際の部品実装順序、ＰＣＢ１枚を実装するのに要した時間（実装タクト）、ＰＣＢ１枚を実装するのに消費した消費電力などがある。

状態データ記憶部２２は状態データを記憶し、記憶した該状態データを報酬計算部２４や実装順序変更学習部２５に対して出力する機能手段である。状態データ記憶部２２に記憶される状態データは、最新の部品実装で取得したデータでも、過去の部品実装で取得したデータでも構わない。また、他の機械学習器２０や集中管理システム３０に記憶された状態データを入力して記憶したり、出力したりすることも可能である。

報酬条件設定部２３は、機械学習において報酬を与える条件を設定するための機能手段である。報酬にはプラスの報酬とマイナスの報酬があり、適宜設定が可能である。さらに、報酬条件設定部２３への入力は集中管理システムで使用しているパソコンやタブレット端末等からでも構わないが、部品マウンタ１や制御部２が備える図示しないＭＤＩ機器を介して入力できるようにすることで、より簡便に設定することが可能となる。
報酬計算部２４は、報酬条件設定部２３で設定された条件に基づいて状態観測部２１または状態データ記憶部２２から入力された状態データを分析し、計算された報酬を実装順序変更学習部２５に出力する。

以下に、本実施形態における報酬条件設定部２３で設定する報酬条件の例を示す。
●［報酬１：実装タクトの短縮（プラス報酬，マイナス報酬）］
１枚のＰＣＢへの部品実装に掛かった実装タクトが短縮された場合に、ＰＣＢ実装のサイクルタイムの向上につながるため、その度合いに応じてプラスの報酬を与える。報酬の算出においては、実装タクトが所定の基準値から見て短ければ短いほどプラス値が大きくなる報酬となるようにし、長ければ長いほどマイナス値が大きくなる報酬となるようにする。実装タクトの所定の基準値については、部品マウンタ１を初期データに基づいてＰＣＢ上への部品の実装を行った際に測定された実装タクトを基準とすればよい。
また、実装タクトの代わりに、吸着ハンドの移動距離の累積値（総移動距離）を用いてもよい。この場合は、１枚のＰＣＢへの部品実装に掛かった総移動距離が短縮された場合に、その度合いに応じてプラスの報酬を与える。報酬の算出においては、総移動距離が所定の基準値から見て短ければ短いほどプラス値が大きくなる報酬となるようにし、長ければ長いほどマイナス値が大きくなる報酬となるようにする。総移動距離の所定の基準値については、部品マウンタ１を初期データに基づいてＰＣＢ上への部品の実装を行った際に測定された総移動距離を基準とすればよい。

●［報酬２：消費電力の削減（プラス報酬，マイナス報酬）］
１枚のＰＣＢへの部品実装に消費された消費電力が削減された場合に、ＰＣＢ実装のコスト削減につながるため、その度合いに応じてプラスの報酬を与える。報酬の算出においては、消費電力が所定の基準値から見て小さければ小さいほどプラス値が大きくなる報酬となるようにし、大きければ大きいほどマイナス値が大きくなる報酬となるようにする。消費電力の所定の基準値については、部品マウンタ１を初期データに基づいてＰＣＢ上への部品の実装を行った際に測定された消費電力を基準とすればよい。

なお、実装タクトにより得られる報酬と、消費電力により得られる報酬に、その重要度に応じた重み付けをするようにしても良い。このようにすることで、実装タクトを重視する部品実装順序の変更を行うように学習をさせたり、消費電力を重視した部品実装順序の変更を行うように学習させたりすることができる。

図４に戻って、実装順序変更学習部２５は、部品マウンタ１による１枚のＰＣＢ上への部品の実装が完了する度に、該部品マウンタ１の状態データと、自身が行った該部品マウンタ１の部品実装順序の変更結果、および報酬計算部２４で計算された報酬とに基づいて機械学習（強化学習）を行うと共に、過去の学習結果に基づいて現在の状態データに基づいて部品マウンタ１がＰＣＢへの部品を実装する実装順序を変更する。ここでいう実装順序の変更が、機械学習に用いられる行動ａに相当する。

部品実装順序の変更の一例としては、仕様ＩＤにより識別される同一仕様ＩＤの部品だけを一気に実装する順序とする戦略、領域ＩＤにより識別される各領域内に存在する複数仕様の部品を選んで実装する順序とする戦略などの部品実装順序の戦略アルゴリズムを決定することで部品の実装順序を変更するようにする。例えば、同一仕様の部品をまとめて実装する戦略とした上で高さが低い仕様の部品から順に実装するよう各部品吸着ハンドに割り振る、部品吸着ハンド毎に異なる領域に対してＰＣＢのＸ座標が大きいほうの部品から順に実装する、などのように、複数の戦略アルゴリズムをあらかじめ機械学習器２０に登録しておき、登録された戦略の中から特定の戦略を選択し、部品実装順序を決定（変更）する。この場合、戦略アルゴリズムの選択が行動ａ_tに相当する。

実装順序変更学習部２５が行う機械学習においては、ある時刻ｔにおける状態データの組み合わせにより状態ｓ_tが定義され、定義された状態ｓ_tに応じて部品実装順序を変更して後述する実装順序出力部２７により該変更結果を出力することが行動ａ_tとなり、そして、変更結果に基づいて部品マウンタ１による１枚のＰＣＢへの部品実装が行われた結果として得られた状態データに基づいて前記報酬計算部２４で計算された値が報酬ｒ_t+1となる。学習に用いられる価値関数については、適用する学習アルゴリズムに応じて決定する。例えば、Ｑ学習を用いる場合には、上記した数２式に従って行動価値関数Ｑ（ｓ_t，ａ_t）を更新することにより学習を進めるようにすれば良い。

学習結果記憶部２６は、前記実装順序変更学習部２５が学習した結果を記憶する。また、実装順序変更学習部２５が学習結果を再使用する際には、記憶している学習結果を実装順序変更学習部２５に出力する。学習結果の記憶には、上述したように、利用する機械学習アルゴリズムに応じた価値関数を、近似関数や、配列、又は多値出力のＳＶＭやニューラルネットワーク等の教師あり学習器などにより記憶するようにすれば良い。
なお、学習結果記憶部２６に、他の機械学習器２０や集中管理システム３０が記憶している学習結果を入力して記憶させたり、学習結果記憶部２６が記憶している学習結果を他の機械学習器２０や集中管理システム３０に対して出力したりすることも可能である。

実装順序出力部２７は、前記実装順序変更学習部２５により変更された実装順序の変更結果を制御部２に対して出力する。制御部２は実装順序出力部２７から出力された部品実装順序を部品マウンタ１へと出力し、該部品マウンタ１において該部品実装順序に基づいたＰＣＢ上への部品実装が行われる。

そして、１枚のＰＣＢへの部品実装が完了したら再び状態データの取得が機械学習器２０により行われ、入力された状態データを使用して学習を繰り返すことにより、より優れた学習結果を得ることができる。

上記学習が完了した学習データを用いて部品マウンタ１で部品を実装する際には、機械学習器２０は新たな学習を行なわないようにして学習完了時の学習データをそのまま使用して繰り返し運転をするようにしてもよい。
また、学習が完了した機械学習器２０（または、他の機械学習器２０の完了した学習データを学習結果記憶部２６に複写した機械学習器２０）を他の部品マウンタ１に取付けて、学習完了時の学習データをそのまま使用して繰り返し運転をするようにしてもよい。
更に、学習が完了した機械学習器２０の学習機能を有効にしたままで他の部品マウンタ１に取付けて、ＰＣＢの実装を続けることで、部品マウンタ１毎に異なる個体差や経年変化などを更に学習させ、当該部品マウンタ１にとってより良い部品実装順序を探索しながら運転することも可能である。
また、上記学習が完了した後も、ある特定種類のＰＣＢを部品実装している部品マウンタ１の台数、および前記マウンタ１毎の実装タクトと、所定枚数の実装が完了すると推定される日と、生産計画によって定められた前記特定種類のＰＣＢの製造が完了しなければならない日である製造完了納期とを比較し、製造完了納期よりも所定日数前に製造が完了すると推定されるならば、実装タクトにより得られる報酬よりも、消費電力により得られる報酬に対して大きなプラスの報酬を与える設定として学習を続けることも可能である。これにより、前記納期よりも前に製造を完了させつつ、かつ消費電力の削減が可能となる。

複数の部品マウンタ１に接続された機械学習器２０は、学習の過程においてそれぞれの部品マウンタ１に対して異なる戦略による部品実装順序を出力するようにすることで、効率よく学習を進めることができる。
また、部品マウンタ１に接続された機械学習器２０は単独で機械学習をするようにしてもよいが、複数の機械学習器２０がそれぞれ外部との通信手段を更に備えると、それぞれの前記状態データ記憶部２２が記憶した状態データや学習結果記憶部２６が記憶した学習結果を送受信して共有することが可能となり、効率良く機械学習を行うことができる。
このように複数の機械学習器２０間でやり取りする際には、通信は集中管理システム３０等のホストコンピュータを経由しても、直接機械学習器２０同士が通信しても構わないし、クラウドを使用しても構わないが、大量のデータを取り扱う場合があるため、なるべく通信速度が速い通信手段が好ましい。

以上、本発明の実施の形態について説明したが、本発明は上述した実施の形態の例のみに限定されることなく、適宜の変更を加えることにより様々な態様で実施することができる。

１部品マウンタ
２制御部
２０機械学習器
２１状態観測部
２２状態データ記憶部
２３報酬条件設定部
２４報酬計算部
２５実装順序変更学習部
２６学習結果記憶部
２７実装順序出力部
３０集中管理システム

Claims

複数の部品把持ハンドもしくは部品吸着ハンドを備える部品マウンタにおいて、
実装する部品の部品位置、部品仕様、部品実装順序、実装タクト、および消費電力を入力として機械学習する機械学習器を備え、
該機械学習器は機械学習の結果に基づいて、前記実装タクトを短くするように、また、前記消費電力を小さくするように前記部品実装順序を変更する、
ことを特徴とする部品マウンタ。
前記機械学習器は、前記部品マウンタは所定の基準時間よりも短い実装タクトで実装が完了したことをプラスの報酬とし、所定の基準時間よりも長い実装タクトで実装が完了したことをマイナスの報酬として学習をする、
ことを特徴とする請求項１に記載の部品マウンタ。
前記機械学習器は、前記部品マウンタは所定の基準電力よりも少ない消費電力で実装が完了したことをプラスの報酬とし、所定の基準電力よりも大きい消費電力で実装が完了したことをマイナスの報酬として学習をする、
ことを特徴とする請求項１に記載の部品マウンタ。
少なくとも１つの他の機械学習器と接続可能であり、
前記他の機械学習器との間で機械学習の結果を相互に交換または共有する、
ことを特徴とする請求項１〜３のいずれか１つに記載の部品マウンタ。
前記機械学習器は、実装タクトに基づく報酬と消費電力に基づく報酬に対して重み付けの設定をすることができる、
ことを特徴とする請求項１〜３のいずれか１つに記載の部品マウンタ。
前記学習終了後、前記機械学習器は、製造スケジュールに余裕があれば消費電力優先に重み付けを自動設定し、余裕がなければ実装タクト優先に重み付けを自動設定する、
ことを特徴とする請求項５に記載の部品マウンタ。
複数の部品把持ハンドもしくは部品吸着ハンドを備える部品マウンタに接続可能であり、前記部品マウンタにおける部品実装順序の変更を機械学習する機械学習器であって、
実装する部品の部品位置、部品仕様、部品実装順序、実装タクト、および消費電力を入力として機械学習し、該機械学習の結果に基づいて、前記実装タクトを短くするように、また、前記消費電力を小さくするように前記部品実装順序を変更する、
ことを特徴とする機械学習器。
部品マウンタにおける部品実装順序の変更を機械学習した機械学習器であって、
前記部品実装順序の変更の機械学習結果を記憶する学習結果記憶部と、
前記部品マウンタの少なくとも前記部品実装順序を含む状態データを取得する状態観測部と、
前記部品実装順序を変更の機械学習結果と、前記状態観測部が取得した前記状態データと、に基づいて前記部品実装順序の変更を行う実装順序変更学習部と、
前記実装順序変更学習部が変更した前記部品実装順序を出力する実装順序出力部と、
を備えたことを特徴とする機械学習器。