JP2021040239A

JP2021040239A - 機械学習装置、受信装置及び機械学習方法

Info

Publication number: JP2021040239A
Application number: JP2019160413A
Authority: JP
Inventors: 健一郎栗原; Kenichiro Kurihara; 信二秋元; Shinji Akimoto; 基好宮地; Motoyoshi Miyachi
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2019-09-03
Filing date: 2019-09-03
Publication date: 2021-03-11
Also published as: US20210065025A1; CN112446500A; JP2023159893A; DE102020210730A1

Abstract

【課題】周囲で発生する外乱に対して適したデジタルフィルタの調整を可能とする。
【解決手段】通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、通信線に外乱を生じさせる装置の動作予定情報に基づいてデジタルフィルタの係数を調整する係数調整部と、動作予定情報に含まれる動作情報と動作情報に対応するデジタルフィルタの係数又は係数の修正情報との組み合わせを記録する情報テーブルと、を備えた受信装置であって、係数調整部は、動作予定情報に含まれる動作情報に基づいて情報テーブルからデジタルフィルタの係数又は係数の修正情報を求めて、デジタルフィルタの係数を調整する。
【選択図】図１

Description

本発明は、周囲で発生する外乱に対して適したデジタルフィルタの調整が行うことができるように機械学習を行う機械学習装置、受信装置及び機械学習方法に関する。

工場環境において、モータ又は電磁機器等の機器の発生させる外乱によって通信に対する阻害が発生する場合がある。
このような外乱を含む外乱の影響を取り除くため、通信においては受信回路でアナログフィルタ又はデジタルフィルタが用いられる。

特許文献１には、アナログフィルタの特性をデジタルフィルタで適応的に補うと共に、その補償特性を選択、更には積極的に制御可能とするデジタル無線通信装置が記載されている。
具体的には、特許文献１には、デジタル変調波を受信復調する受信部であって、前段のアナログフィルタと、アナログフィルタの特性を補うべくタップ係数によりそのフィルタ特性を可変可能なデジタルフィルタとを備え、テスト信号発生部は受信部にテスト用信号ＴＳを供給し、エラー状態検出部は受信部によるテスト用信号のデジタル復調信号ＲＳに基づき所定のエラー状態ＥＲを検出し、そして、タップ係数設定部は検出されたエラー状態に基づきこれを少なくする方向のタップ係数を順次仮設定して上記テスト処理を繰り返すと共に、最終的にエラー状態を最小とする様なタップ係数を本設定するデジタル無線通信装置が記載されている。

特開平１１−１２２３１１号公報

デジタルフィルタはアナログフィルタに比べて調整が比較的容易であり、周囲で発生する外乱に対して適したデジタルフィルタの調整が望まれる。

（１）本開示の第１の態様は、通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、
前記通信線に前記外乱を生じさせる装置の動作予定情報に基づいて前記デジタルフィルタの係数を調整する係数調整部と、
前記動作予定情報に含まれる動作情報と、該動作情報に対応する前記デジタルフィルタの係数又は該係数の修正情報との組み合わせを記録する情報テーブルと、
前記係数調整部は、前記動作予定情報に含まれる前記動作情報に基づいて前記情報テーブルから前記デジタルフィルタの係数又は該係数の修正情報を求めて、前記デジタルフィルタの係数を調整する、受信装置である。

（２）本開示の第２の態様は、通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、前記通信線に前記外乱を生じさせる装置の動作予定情報に基づいて前記デジタルフィルタの係数を調整する係数調整部と、前記動作予定情報に含まれる動作情報と該動作情報に対応する前記デジタルフィルタの係数又は該係数の修正情報との組み合わせを記録する情報テーブルと、前記デジタルフィルタの出力に基づいて通信エラーを検出する通信エラー検出部と、を備えた受信部に対して、前記デジタルフィルタの最適な係数を機械学習する機械学習装置であって、
前記通信線に前記外乱を生じさせる装置の動作情報と、前記デジタルフィルタの係数を状態情報として取得する状態取得部と、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記係数調整部に出力する行動情報出力部と、
前記通信エラー検出部から通信エラーの状況を示す判定情報を取得する判定情報取得部と、
前記判定情報に基づいて、前記通信エラーの変動に対して報酬を与える報酬計算部と、を有し、
前記報酬の値を用いて、前記通信エラーが少なくなるように前記デジタルフィルタの最適な係数を機械学習する、機械学習装置である。

（３）本開示の第３の態様は、上記（１）に記載の機械学習装置と、
通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、該デジタルフィルタの係数を調整する係数調整部と、前記デジタルフィルタの出力に基づいて通信エラーを検出する通信エラー検出部と、前記機械学習装置から出力される、前記通信線に前記外乱を生じさせる装置の動作情報及び最適化された前記係数又は該係数の調整情報を示す情報テーブルと、を備えた受信部と、
を備えた受信装置である。

（４）本開示の第４の態様は、通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、前記通信線に前記外乱を生じさせる装置の動作予定情報に基づいて前記デジタルフィルタの係数を調整する係数調整部と、前記動作予定情報に含まれる動作情報と該動作情報に対応する前記デジタルフィルタの係数又は該係数の修正情報との組み合わせを記録する情報テーブルと、前記デジタルフィルタの出力に基づいて通信エラーを検出する通信エラー検出部と、を備えた受信部に対して、前記デジタルフィルタの最適な係数を機械学習する機械学習装置の機械学習方法であって、
前記通信線に前記外乱を生じさせる装置の動作情報と、前記デジタルフィルタの係数を状態情報として取得し、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記係数調整部に出力し、
前記通信エラー検出部から通信エラーの状況を示す判定情報を取得し、
前記判定情報に基づいて、前記通信エラーの変動に対して報酬を与え、
前記報酬の値を用いて、前記通信エラーが少なくなるように前記デジタルフィルタの最適な係数を機械学習する、機械学習方法である。

本開示の各態様によれば、周囲で発生する外乱に対して適したデジタルフィルタの調整が可能となる。

本開示の第１の実施形態の受信装置の機械学習後の構成を示すブロック図である。本開示の第１の実施形態の受信装置の機械学習中の構成を示すブロック図である。ＦＩＲデジタルフィルタの一構成例を示すブロック図である。工作機械となる機械の加工の種類によって、係数の異なるデジタルフィルタが設定された状態を示す説明図である。工作機械となる機械が２台並んでいる場合の加工の種類を示す図である。本開示の機械学習部２００の構成を示すブロック図である。本開示の第２の構成例の機械学習部２００の動作を説明するフローチャートである。受信部と機械学習装置とを含む受信装置の他の構成例を示すブロック図である。

以下、本開示の実施形態について図面を用いて詳細に説明する。

（第１の実施形態）
図１は本開示の第１の実施形態の受信装置の機械学習後の構成を示すブロック図である。図２は本開示の第１の実施形態の受信装置の機械学習中の構成を示すブロック図である。
図１及び図２に示すように、受信装置１０は、受信部１００と機械学習部２００とを備えている。受信装置１０が設けられる装置は特に限定されないが、例えば、工作機械、ロボット、産業機械等を制御する制御装置、又は制御装置と接続される周辺機器もしくはＩ／Ｏユニット等である。機械学習部２００は受信部１００に含まれてもよい。制御装置は数値制御装置であってもよい。
受信部１００は、アナログフィルタ１０１、デジタルフィルタ１０２、データ処理部１０３、通信エラー検出部１０４、係数調整部１０５、及び情報テーブル１０６を備えている。情報テーブルには、加工種類又は動作種類と、機械学習により設定されたデジタルフィルタ１０２の最適な係数の修正情報との組み合わせ（エラーレートが最小となるように学習された学習済モデルとなる）が記録されている。

なお、図１においては、通信エラー検出部１０４、機械学習部２００は破線で示されているが、機械学習後は通信エラー検出部１０４、機械学習部２００が機能しないことを示している。また、図１に示す破線の経路は機械学習後において情報の送受信が行われないことを示している。機械学習部２００は機械学習後に受信装置１０から取り外されてもよい。
図２に示す破線は機械学習中において情報の送受信は行われない経路を示している。

以下、受信部１００の各構成部について更に説明する。以下の説明では、特に説明しない限り、外乱を生じさせる装置が工作機械である場合について説明する。

アナログフィルタ１０１は、産業用イーサーネット等による通信線、又はＩ／Ｏユニット間の通信線を介して信号を受信する。
デジタルフィルタ１０２は、アナログフィルタ１０１の出力を受信し、アナログフィルタ１０１のフィルタ特性を補う。
アナログフィルタ１０１及びデジタルフィルタ１０２は、通信線に加わる外乱を除去又は減衰する。なお、外乱の除去がデジタルフィルタ１０２で十分な場合は、アナログフィルタ１０１は設けなくともよい。
アナログフィルタ１０１は、フィルタ特性が使用部品で決まるために、実装後にパラメータを調整してフィルタ特性を変えることは困難である。デジタルフィルタ１０２はパラメータの調整により、フィルタ特性を変更することができる。

デジタルフィルタ１０２としては、例えば、ＦＩＲデジタルフィルタを用いることができる。図３はＦＩＲデジタルフィルタの一構成例を示すブロック図である。デジタルフィルタ１０２となるＦＩＲデジタルフィルタは、直列に接続されたＮ段の遅延素子１０２１、（Ｎ＋１）個の乗算器１０２２、及び直列に接続されたＮ段の加算器１０２３を備えている。ＦＩＲデジタルフィルタのタップ段数はサンプルする周期によって固定される。各遅延素子１０２１は入力された信号を１サンプリング分だけ遅延させ出力する。各乗算器１０２２は遅延素子１０２１からの出力される、サンプリングを行った信号に対してカットオフを行う周波数の係数の乗算を行う。第１段の乗算器１０２２には入力信号が入力される。各乗算器１０２２のタップ係数の重みを変えることでＦＩＲフィルタの通過帯域の特性が設定される。各加算器１０２３は乗算結果の加算を行う。

ＦＩＲデジタルフィルタの入力ｕ（ｎ）に対する出力ｙ（ｎ）は数式１（以下の数１）で示される。数式１のｈ（ｉ）は乗算器１０２２のタップ係数である。

データ処理部１０３はデジタルフィルタ１０２から出力される出力のデータ処理を行う。
通信エラー検出部１０４は、機械学習中においてＣＲＣ（Cyclic Redundancy Check）を用いて、デジタルフィルタ１０２から出力される出力信号の誤り検出を行い、通信の誤りの頻度（エラーレート）を求め、機械学習部２００に出力する。ＣＲＣは誤り検出符号の一種で、デジタル通信において、誤り（エラー）の検出に使われる。通信の誤りの頻度（エラーレート）は通信エラーの状況を示す情報となるが、通信エラーの状況を示す情報は通信の誤りの頻度以外のパラメータを用いてもよい。また、ＣＲＣ以外の誤り検出符号を用いて誤りの検出を行ってもよい。
通信エラー検出部１０４により検出される誤りは、例えば、通信線を通して入力される信号に加えられる外乱によって生じる。外乱としては、工場環境においては、例えば、工作機械、搬送機等の産業機械又は産業用ロボットを駆動するモータ、周辺機器を駆動する電磁弁（ソレノイドバルブ）又は電磁継電器（リレー）による外乱があげられる。

係数調整部１０５は、図２に示すように、機械学習中において機械学習部２００から出力される、デジタルフィルタ１０２の係数を修正する情報に基づいてデジタルフィルタ１０２の係数を調整する。係数調整部１０５は、機械学習により得られた、通信線の周囲環境の条件となる、例えば工作機械の加工種類に対するデジタルフィルタ１０２の最適な係数の修正情報を機械学習部２００から受け、加工種類と、デジタルフィルタ１０２の最適な係数の修正情報との組み合わせを情報テーブル１０６に記録する。なお、係数調整部１０５は最適な係数の修正情報に基づいて修正した係数を情報テーブル１０６に記録してもよい。係数調整部１０５は現在のデジタルフィルタ１０２の係数を記憶しており、係数が修正された場合に係数を更新する。

係数調整部１０５は、図１に示すように、機械学習後は、入力される加工予定情報に基づいて、情報テーブル１０６に記録された、加工種類と機械学習により設定されたデジタルフィルタ１０２の最適な係数の修正情報との組み合わせを示すテーブルを参照して、デジタルフィルタ１０２の係数となるＦＩＲデジタルフィルタのタップ係数ｈ（ｉ）（０≦ｉ≦Ｎ−１）を調整する。加工予定情報は、工作機械の加工の予定情報であり、例えば加工プログラムにより加工が行われる場合は、どの種類の加工がどの期間に実行されるかを示す情報であり、動作予定情報に対応する。外乱を生じさせる装置がロボット、産業機械、又は周辺機器である場合には、動作予定情報はロボット、産業機械、又は周辺機器の各動作の予定情報であり、どの種類の動作がどの期間に実行されるかを示す情報である。なお、加工種類は工作機械の加工の種類、動作種類はロボット、産業機械、又は周辺機器の動作の種類を示す。加工種類及び動作種類は動作情報となる。加工種類及び動作種類は動作予定情報に含まれる。
加工予定情報は、工作機械の動作を制御する上位装置となるＰＬＣ（Programmable Logic Controller）から係数調整部１０５に送信される。なお、ＰＬＣ以外の装置が上位装置となる構成をとってもよい。

情報テーブル１０６は、加工種類と、機械学習により設定されたデジタルフィルタ１０２の最適な係数（例えばＦＩＲフィルタのタップ係数）の修正情報とを関連付けたテーブルである。
表１は、通信線がＩ／Ｏユニットと工作機械とを接続し、通信線が加工種類によって工作機械Ｍ１のモータによる外乱の影響を受ける場合に、工作機械Ｍ１の加工種類（加工Ｐ１〜Ｐ３）と係数の異なるデジタルフィルタＦ１〜Ｆ３を設定するための係数修正情報との対応関係を示す。
また、表１は、当該通信線の周囲に他の工作機械Ｍ２が配置され、通信線が工作機械Ｍ１による加工Ｐ１による外乱の他に、工作機械Ｍ２の加工Ｐ４による外乱の影響を受ける場合に、工作機械Ｍ１と工作機械Ｍ２との加工Ｐ１、Ｐ４とデジタルフィルタＦ１を設定するための係数修正情報との対応関係を示す。表１において、フィルタの修正情報は、加工種類に対応するデジタルフィルタを設定するための係数修正情報を示す。なお、情報テーブル１０６に記録される情報は、係数修正情報に限定されず、修正された係数であってもよい。

機械学習部２００は、機械、ロボット又は機器の加工又は動作を把握し、通信線に入力される信号に加えられる外乱により生ずるエラーのエラーレートを用いて、デジタルフィルタ１０２の係数を機械学習（以下、学習という）する。機械学習部２００は機械学習装置となる。

通信線に入力される信号に加えられる外乱に関する機械学習部２００の動作の具体例について説明する。
（１）受信装置１０を有する制御装置が、加工プログラムに基づいて工作機械のモータを駆動するアンプを制御するとともに、Ｉ／Ｏユニットから受信装置１０で信号を受ける場合、アンプにより駆動されるモータによって、制御装置とＩ／Ｏユニットとを接続する通信線にモータによる外乱が加わる場合がある。
工作機械がモータを用いて駆動される場合、モータの動作とモータを制御する加工プログラムとが関連付けられる。そこで、機械学習部２００は、複数の加工プログラムを取得し、複数の加工プログラムから特定される加工の種類ごとにエラーレートを用いて、デジタルフィルタ１０２の係数を学習する。受信装置１０がＩ／Ｏユニットに設けられた場合でも同様に、機械学習部２００は、制御装置から加工プログラムを取得し、加工プログラムから特定される加工の種類ごとにエラーレートを用いて、デジタルフィルタ１０２の係数を学習することができる。

図４は、工作機械となる機械の加工の種類によって、係数の異なるデジタルフィルタが設定された状態を示す説明図である。
受信装置１０を有する制御装置によって駆動される、工作機械Ｍ１（図４では機械Ｍ１として示されている）のモータが、複数の加工プログラムにより駆動され、機械Ｍ１が加工Ｐ１、加工Ｐ２、加工Ｐ３、加工Ｐ１の処理をこの順で行う。加工Ｐ１、加工Ｐ２、加工Ｐ３はそれぞれ加工処理が異なるため、モータによって生ずる外乱が異なる。機械学習部２００は、加工プログラムから特定される加工の種類ごと（加工Ｐ１、加工Ｐ２及び加工Ｐ３のそれぞれ）にデジタルフィルタ１０２の係数を調整して、係数の異なるフィルタＦ１、Ｆ２、Ｆ３を構成する。この対応関係は表１に示した対応関係と同じであり、機械学習部２００は学習により求められた加工種類に対するデジタルフィルタ１０２の最適な係数の修正情報を送り、係数調整部１０５は加工種類とデジタルフィルタ１０２の最適な係数の修正情報との組み合わせを情報テーブル１０６に記録する。表１に加工Ｐ１〜Ｐ３とフィルタの係数の修正情報に関する表が示される。

（２）受信装置１０を有する、工作機械の制御装置が、Ｉ／Ｏユニットから受信装置１０で信号を受ける場合に、制御装置とＩ／Ｏユニットとを接続する通信線にその通信線近傍に置かれている他の工作機械のモータが動作したときに、上記（１）で説明した外乱の他に、他の工作機械のモータによる外乱が当該通信線に加わる場合がある。
図５は、工作機械となる機械が２台並んでいる場合の加工の種類を示す図である。
受信装置１０を有する制御装置によって駆動される、工作機械Ｍ１（図５では機械Ｍ１として示されている）のモータが、複数の加工プログラムにより駆動され、工作機械Ｍ１が加工Ｐ１、加工Ｐ２、加工Ｐ３、加工Ｐ１の処理をこの順で行う。加工Ｐ１、加工Ｐ２、加工Ｐ３はそれぞれ加工処理が異なるため、モータによって生ずる外乱が異なる。また、工作機械Ｍ２（図５では機械Ｍ２として示されている）のモータが、複数の加工プログラムにより駆動され、工作機械Ｍ２が加工Ｐ４、加工Ｐ５、加工Ｐ６の処理をこの順で行う。加工Ｐ４、加工Ｐ５、加工Ｐ６はそれぞれ加工処理が異なるため、モータによって生ずる外乱が異なる。
この場合、例えば、加工Ｐ１、加工Ｐ３は工作機械Ｍ２のモータが駆動しない期間（例えば、図５の期間Ｔ１は工作機械Ｍ２のモータが駆動しない期間）を含み、この期間では上記（１）で説明したフィルタＦ１、Ｆ３にフィルタの係数が設定されればよい。

しかし、例えば、期間Ｔ２においては工作機械Ｍ１による加工Ｐ１と工作機械Ｍ２による加工Ｐ４とが同時に行われる。そのため、通信線は工作機械Ｍ１におけるモータ駆動による外乱と工作機械Ｍ２におけるモータ駆動による外乱とを同時に受ける場合がある。
この場合、機械学習部２００は、加工Ｐ１における工作機械Ｍ２のモータが駆動しない期間Ｔ１に学習を行い、また加工Ｐ１と加工Ｐ４が同時に行われる、工作機械Ｍ１及びＭ２の各モータが駆動する期間Ｔ２に学習を行う。機械学習部２００は学習されたデジタルフィルタ１０２の係数が同一か係数の変更量が少ない場合には、加工Ｐ４による外乱がないか、外乱による影響が小さいと判断して、期間Ｔ２において、デジタルフィルタ１０２の係数を変更せず、デジタルフィルタ１０２をフィルタ１に設定するようにすることができる。表１に加工Ｐ１及び加工Ｐ４とフィルタ１の係数の修正情報とに関する表が示される。
なお、工作機械Ｍ２に置き替えて、電磁弁（ソレノイドバルブ）又は電磁継電器（リレー）を有する周辺機器を配置した場合、電磁弁又は電磁継電器による外乱の影響は大きいことが想定され、その場合には、期間Ｔ２において学習を周辺機器について行い、デジタルフィルタ１０２の係数を設定する。

また、デジタルフィルタ１０２を直列に接続される２段のデジタルフィルタで構成してもよい。その場合、機械学習部２００は、加工Ｐ１における工作機械Ｍ２のモータが駆動しない期間Ｔ１に学習を行い、フィルタＦ１に第１段のデジタルフィルタを設定する。また、機械学習部２００は、加工Ｐ４における工作機械Ｍ２のモータが駆動しない期間Ｔ３に学習を行い、フィルタＦ４に第２段のデジタルフィルタを設定する。こうして、デジタルフィルタ１０２をフィルタＦ１とフィルタＦ４の２段で構成することで、期間Ｔ２に機械学習を行わなくとも、デジタルフィルタ１０２の最適な係数に設定することができる。

以上の説明は、通信線の近傍に他の工作機械が配置された例について取り上げたが、通信線の近傍に電磁弁（ソレノイドバルブ）、又は電磁継電器（リレー）を有する周辺機器が配置され、通信線に電磁弁、又は電磁継電器による外乱が加わる場合にも適用される。通信線の近傍に、モータで駆動される搬送機等の産業機械、又はモータで駆動される産業用ロボットが配置される場合もある。

機械学習部２００は、機械、ロボット、機器の動作を示す情報、例えば、工作機械を駆動する加工プログラム、産業機械又は産業用ロボットを駆動する動作シーケンスプログラム、又は、周辺機器を駆動する動作シーケンスプログラムを用いて、加工又は動作の種類を把握し、デジタルフィルタ１０２の係数を学習する。
なお、工作機械、産業機械、産業用ロボット、又は周辺機器の複数が信号線近傍に配置され、例えば、上記（２）で説明したように、１つの工作機械Ｍ１において、加工又は動作が行われているときに（例えば期間Ｔ１＋期間Ｔ２の期間）、加工又は動作の途中で他の工作機械Ｍ２の加工又は動作が行われ（例えば、期間Ｔ２）、新たな外乱が信号線に加わる場合がある。この場合には、加工又は動作の重複期間で学習を行うために、工作機械Ｍ２における加工又は動作が開始する時刻に関する情報が必要となる場合がある。この場合は、機械学習部２００は、工作機械、産業機械、産業用ロボット、又は周辺機器を制御する制御装置から、加工又は動作が開始する時刻に関する情報を取得することができる。また機械学習部２００は、工作機械、産業機械、産業用ロボット、又は周辺機器の複数の動作を制御する上位装置となるＰＬＣ（Programmable Logic Controller）から、加工又は動作の種類、加工又は動作が開始する時刻のいずれか又は両方に関する情報を取得することもできる。

＜機械学習部２００＞
機械学習により、エラーレートに基づいてＦＩＲフィルタのフィルタ特性を調整する方法については特許文献１に記載されており、本実施形態において、機械学習部２００として同様な方法を採用することができる。
なお、以下の説明では機械学習部２００が強化学習を行う場合について説明するが、機械学習部２００が行う学習は特に強化学習に限定されず、例えば、教師あり学習を行う場合にも本発明は適用可能である。強化学習の詳細については、例えば、特開２０１８−１５２０１２号公報、特開２０１９−０２１０２４号公報等に記載されているので、以下の説明では、本実施形態に適用される機械学習部２００について簡単に説明する。

機械学習部２００に含まれる各機能ブロックの説明に先立って、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における機械学習部２００に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、干渉を受ける軸に関するサーボ制御部において、軸間干渉を補正するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態Ｓの下で、行動Ａを選択する価値Ｑ（Ｓ，Ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態Ｓのとき、取り得る行動Ａのなかから、価値Ｑ（Ｓ，Ａ）の最も高い行動Ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態Ｓと行動Ａとの組合せについて、価値Ｑ（Ｓ，Ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態Ｓの下で様々な行動Ａを選択し、その時の行動Ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値Ｑ（Ｓ，Ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（Ｓ，Ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値Ｑ（Ｓ，Ａ）の更新式は、例えば、次の数式２（以下に数２として示す）により表すことができる。

上記の数式４において、Ｓ_ｔは、時刻ｔにおける環境の状態を表し、Ａ_ｔは、時刻ｔにおける行動を表す。行動Ａ_ｔにより、状態はＳ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態Ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動Ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式３は、試行Ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）を更新する方法を表している。
この更新式は、状態Ｓ_ｔにおける行動Ａ_ｔの価値Ｑ（Ｓ_ｔ，Ａ_ｔ）よりも、行動Ａ_ｔによる次の状態Ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（Ｓ_ｔ＋１，Ａ）の方が大きければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を大きくし、逆に小さければ、Ｑ（Ｓ_ｔ，Ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る一つ前の状態における行動の価値に伝播していく仕組みになっている。
以上説明をしたＱ学習を機械学習部２００が行う。

図６は本開示の機械学習部２００の構成を示すブロック図である。図７は本開示の機械学習部２００の動作を説明するフローチャートである。
強化学習を行うために、図６に示すように、機械学習部２００は、状態取得部２０１、学習部２０２、判定情報取得部２０３、行動情報出力部２０４、最適化行動情報出力部２０５及び価値関数記憶部２０６を備える。
以下、図６及び図７を用いて、機械学習部２００の動作について説明する。以下の説明では、機械学習部２００が上述した（１）における動作を実行する例について説明する。
図６に示すように、ステップＳ２１において、状態取得部２０１は最初の状態Ｓの状態情報として、工作機械Ｍ１の制御装置から加工の種類（加工プログラムの種類に対応する）、例えば加工Ｐ１を取得し、係数調整部１０５からデジタルフィルタ１０２の係数となる、ＦＩＲフィルタのタップ係数ｈ（ｉ）（０≦ｉ≦Ｎ−１）を取得する。また、判定情報取得部２０３は、受信装置１０の通信エラー検出部１０４から判定情報としてエラーレートを取得する。
ステップＳ２２において、学習部２０２の行動情報生成部２０２２は、デジタルフィルタ１０２となるＦＩＲフィルタのフィルタ特性を微小変動（微小増加又は微小減少）させるようにタップ係数ｈ（ｉ）を修正する情報を生成し、行動情報出力部２０４はタップ係数ｈ（ｉ）を修正する情報を行動情報として係数調整部１０５に送る。なお、行動情報を受信した係数調整部１０５は、受信した行動情報に基づいて現在の状態Ｓに係るＦＩＲフィルタのタップ係数ｈ（ｉ）（０≦ｉ≦Ｎ−１）を修正する。タップ係数ｈ（ｉ）（０≦ｉ≦Ｎ−１）が修正された状態Ｓ’により、工作機械Ｍ１は加工Ｐ１を行う。
ステップＳ２３において、状態取得部２０１は、新たな状態Ｓ’における、加工の種類となる加工Ｐ１を取得し、係数調整部１０５からデジタルフィルタ１０２の係数となる、ＦＩＲフィルタのタップ係数ｈ（ｉ）（０≦ｉ≦Ｎ−１）を取得する。また、判定情報取得部２０３は、受信装置１０の通信エラー検出部１０４から判定情報として新たな状態Ｓ’における、エラーレートを取得する。

ステップＳ２４において、報酬計算部２０２１は、状態Ｓ’におけるエラーレートと状態Ｓにおけるエラーレートとを比較してエラーレートの変動を判断し、状態Ｓ’におけるエラーレートが状態Ｓにおけるエラーレートよりも増加したときは、ステップＳ２５において、報酬を負の値とする。
一方、状態Ｓ’におけるエラーレートが状態Ｓにおけるエラーレートよりも減少したときは、ステップＳ２６において、報酬を正の値とする。状態Ｓ’におけるエラーレートが状態Ｓにおけるエラーレートと同じときは、ステップＳ２７において、報酬をゼロとする。なお、報酬の負の値、正の値について重みづけを行うようにしてもよい。

ステップＳ２５、ステップＳ２６及びステップＳ２７の何れかが終了すると、ステップＳ２８において、この何れかのステップにて算出された報酬の値に基づいて、価値関数更新部２０２３が、価値関数記憶部２０６に記憶している価値関数Ｑを更新する。そして、再度ステップＳ２２に戻り、上述した処理を繰り返すことにより、価値関数Ｑは適切な値に収束していく。

最適化行動情報出力部２０５は、価値関数記憶部２０６に記憶している価値関数Ｑを取得する。価値関数Ｑは、上述したように価値関数更新部２０２３がＱ学習を行うことにより更新したものである。最適化行動情報出力部２０５は、この価値関数Ｑに基づいて、最適化行動情報を生成し、生成した最適化行動情報（タップ係数ｈ（ｉ）（０≦ｉ≦Ｎ−１）の修正情報）と加工の種類となる加工Ｐ１を示す情報とを受信部１００の係数調整部１０５に対して出力する。
なお、最適化行動情報を受信した係数調整部１０５は、受信した最適化行動情報と加工の種類となる加工Ｐ１を示す情報とに基づいてＦＩＲフィルタのタップ係数ｈ（ｉ）（０≦ｉ≦Ｎ−１）の修正情報を加工Ｐ１と対応づけて情報テーブル１０６に記憶する。
以上の学習を加工Ｐ２、Ｐ３について行うことで表１の加工Ｐ１〜Ｐ３とフィルタの係数の修正情報に関する表が作成できる。

以上説明した機械学習部２００の動作においては、工作機械を例に取り上げて、状態情報として、工作機械の加工プログラムの種類に対応する加工の種類を取り上げた。しかし、工作機械の替わりにロボット、産業機械等を用いる場合は、状態情報としてシーケンスプログラムの種類を用いることができる。

以上、受信装置１０の受信部１００、及び機械学習部２００に含まれる機能ブロックについて説明した。
これらの機能ブロックを実現するために、受信装置１０は、ＣＰＵ（Central Processing Unit）等の演算処理装置を備える。また、受信装置１０は、アプリケーションソフトウェアやＯＳ（Operating System）等の各種の制御用プログラムを格納したＨＤＤ（Hard Disk Drive）等の補助記憶装置や、演算処理装置がプログラムを実行する上で一時的に必要とされるデータを格納するためのＲＡＭ（Random Access Memory）といった主記憶装置も備える。

そして、受信装置１０において、演算処理装置が補助記憶装置からアプリケーションソフトウェアやＯＳを読み込み、読み込んだアプリケーションソフトウェアやＯＳを主記憶装置に展開させながら、これらのアプリケーションソフトウェアやＯＳに基づいた演算処理を行なう。また、この演算結果に基づいて、各装置が備える各種のハードウェアを制御する。これにより、本実施形態の機能ブロックは実現される。つまり、本実施形態は、ハードウェアとソフトウェアが協働することにより実現することができる。

機械学習部２００については機械学習に伴う演算量が多いため、例えば、パーソナルコンピュータにＧＰＵ（Graphics Processing Units）を搭載し、ＧＰＧＰＵ（General-Purpose computing on Graphics Processing Units）と呼ばれる技術により、ＧＰＵを機械学習に伴う演算処理に利用するようにすると高速処理できるようになるのでよい。更には、より高速な処理を行うために、このようなＧＰＵを搭載したコンピュータを複数台用いてコンピュータ・クラスターを構築し、このコンピュータ・クラスターに含まれる複数のコンピュータにて並列処理を行うようにしてもよい。

上記の受信装置１０に含まれる各構成部は、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。また、上記のモータ制御装置に含まれる各構成部のそれぞれの協働により行なわれるサーボ制御方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態のみに本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において種々の変更を施した形態での実施が可能である。

受信装置の構成は図１の構成以外にも以下の構成がある。
＜機械学習部が受信装置の外部に設けられた変形例＞
本変形例では、機械学習部は受信装置と独立して設けられるため、機械学習装置と呼ぶ。
図８は受信部と機械学習装置とを含む受信装置の他の構成例を示すブロック図である。図８に示す受信装置１０Ａは、ｎ（ｎは２以上の自然数）個の受信部１００−１〜１００−ｎと、ｎ個の機械学習装置２００−１〜２００−ｎと、受信部１００−１〜１００−ｎとｎ個の機械学習装置２００−１〜２００−ｎとを接続するネットワーク３００とを備えている。ｎ（ｎは２以上の自然数）個の受信部１００−１〜１００−ｎは工作機械、ロボット、産業機械等を制御する制御装置、又は制御装置と接続される周辺機器もしくはＩ／Ｏユニット等に含まれる。
受信部１００−１〜１００−ｎは受信部１００と同じ構成を有し、機械学習装置２００−１〜２００−ｎは図６に示した機械学習部２００と同じ構成を有している。

ここで、受信部１００−１と、機械学習装置２００−１とは１対１の組とされて、通信可能に接続されている。受信部１００−２〜１００−ｎと、機械学習装置２００−２〜２００−ｎについても受信部１００−１と機械学習装置２００−１と同様に接続される。図８では、受信部１００−１〜１００−ｎと、機械学習装置２００−１〜２００−ｎとのｎ個の組は、ネットワーク３００を介して接続されているが、受信部１００−１〜１００−ｎと、機械学習装置２００−１〜２００−ｎとのｎ個の組は、それぞれの組の受信部と機械学習装置とが接続インタフェースを介して直接接続されてもよい。これら受信部１００−１〜１００−ｎと機械学習装置２００−１〜２００−ｎとのｎ個の組は、例えば同じ工場に複数組設置されていてもよく、それぞれ異なる工場に設置されていてもよい。

なお、ネットワーク３００は、例えば、工場内に構築されたＬＡＮ（Local Area Network）や、インターネット、公衆電話網、或いは、これらの組み合わせである。ネットワーク３００における具体的な通信方式や、有線接続および無線接続のいずれであるか等については、特に限定されない。

＜システム構成の自由度＞
上述した実施形態では、受信部１００−１〜１００−ｎと、機械学習装置２００−１〜２００−ｎとはそれぞれ１対１の組とされて通信可能に接続されているが、例えば１台の機械学習装置が複数の受信部とネットワーク３００を介して通信可能に接続され、各受信部のデジタルフィルタの機械学習を実施するようにしてもよい。
その際、１台の機械学習装置の各機能を、適宜複数のサーバに分散する、分散処理システムとしてもよい。また、クラウド上で仮想サーバ機能等を利用して、１台の機械学習装置の各機能を実現してもよい。

本開示による機械学習装置、制御システム及び機械学習方法、上述した実施形態を含め、次のような構成を有する各種各様の実施形態を取ることができる。
（１）本開示の第１の態様は、通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、
前記通信線に前記外乱を生じさせる装置の動作予定情報に基づいて前記デジタルフィルタの係数を調整する係数調整部と、
前記動作予定情報に含まれる動作情報と、該動作情報に対応する前記デジタルフィルタの係数又は該係数の修正情報との組み合わせを記録する情報テーブルと、
前記係数調整部は、前記動作予定情報に含まれる前記動作情報に基づいて前記情報テーブルから前記デジタルフィルタの係数又は該係数の修正情報を求めて、前記デジタルフィルタの係数を調整する、受信装置である。
本開示の受信装置によれば、外乱を生じさせる装置の動作予定情報に基づいて、周囲で発生する外乱に対して適したデジタルフィルタの調整が可能となる。

（２）前記装置は工作機械、ロボット、産業機械又は周辺機器であり、前記動作情報は前記工作機械の加工の種類、又はロボット、産業機械もしくは周辺機器の動作の種類に関する情報である、上記（１）に記載の受信装置。

（３）前記動作情報は加工プログラム又は動作シーケンスプログラムに基づいて求められる上記（２）に記載の受信装置。

（４）本開示の第２の態様は、通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、前記通信線に前記外乱を生じさせる装置の動作予定情報に基づいて前記デジタルフィルタの係数を調整する係数調整部と、前記動作予定情報に含まれる動作情報と該動作情報に対応する前記デジタルフィルタの係数又は該係数の修正情報との組み合わせを記録する情報テーブルと、前記デジタルフィルタの出力に基づいて通信エラーを検出する通信エラー検出部と、を備えた受信部に対して、前記デジタルフィルタの最適な係数を機械学習する機械学習装置であって、
前記通信線に前記外乱を生じさせる装置の動作情報と、前記デジタルフィルタの係数を状態情報として取得する状態取得部と、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記係数調整部に出力する行動情報出力部と、
前記通信エラー検出部から通信エラーの状況を示す判定情報を取得する判定情報取得部と、
前記判定情報に基づいて、前記通信エラーの変動に対して報酬を与える報酬計算部と、を有し、
前記報酬の値を用いて、前記通信エラーが少なくなるように前記デジタルフィルタの最適な係数を機械学習する、機械学習装置である。
本開示の機械学習装置によれば、外乱を生じさせる装置の動作情報に基づいて、周囲で発生する外乱に対して適したデジタルフィルタの係数を学習することができる。

（５）前記報酬の値と、前記状態情報とに基づいて価値関数を更新する価値関数更新部を備える、上記（４）に記載の機械学習装置。

（６）前記価値関数更新部により更新された価値関数に基づいて、前記係数調整部に前記係数の調整情報を出力する最適化行動情報出力部を備えた上記（５）に記載の機械学習装置。

（７）通信エラーの状況を示す前記判定情報は、通信の誤り頻度である、上記（４）から（６）のいずれかに記載の機械学習装置。

（８）前記装置は工作機械、ロボット、産業機械又は周辺機器であり、前記動作情報は前記工作機械の加工の種類、又はロボット、産業機械もしくは周辺機器の動作の種類に関する情報である、上記（４）から（７）のいずれかに記載の機械学習装置。

（９）前記動作情報は加工プログラム又は動作シーケンスプログラムに基づいて求められる上記（４）から（８）のいずれかに記載の機械学習装置。

（１０）本開示の第３の態様は、上記（４）から（９）のいずれかに記載の機械学習装置と、
通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、該デジタルフィルタの係数を調整する係数調整部と、前記デジタルフィルタの出力に基づいて通信エラーを検出する通信エラー検出部と、前記機械学習装置から出力される、前記通信線に前記外乱を生じさせる装置の動作情報及び最適化された前記係数又は該係数の調整情報を示す情報テーブルと、を備えた受信部と、
を備えた受信装置である。
本開示の受信装置によれば、外乱を生じさせる装置の動作情報に基づいて、周囲で発生する外乱に対して適したデジタルフィルタの調整が可能となる。

（１１）本開示の第４の態様は、通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、前記通信線に前記外乱を生じさせる装置の動作予定情報に基づいて前記デジタルフィルタの係数を調整する係数調整部と、前記動作予定情報に含まれる動作情報と該動作情報に対応する前記デジタルフィルタの係数又は該係数の修正情報との組み合わせを記録する情報テーブルと、前記デジタルフィルタの出力に基づいて通信エラーを検出する通信エラー検出部と、を備えた受信部に対して、前記デジタルフィルタの最適な係数を機械学習する機械学習装置の機械学習方法であって、
前記通信線に前記外乱を生じさせる装置の動作情報と、前記デジタルフィルタの係数を状態情報として取得し、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記係数調整部に出力し、
前記通信エラー検出部から通信エラーの状況を示す判定情報を取得し、
前記判定情報に基づいて、前記通信エラーの変動に対して報酬を与え、
前記報酬の値を用いて、前記通信エラーが少なくなるように前記デジタルフィルタの最適な係数を機械学習する、機械学習方法である。
本開示の機械学習装置によれば、外乱を生じさせる装置の動作情報に基づいて、周囲で発生する外乱に対して適したデジタルフィルタの係数を学習することができる。

１０、１０Ａ受信装置
１００受信部
２００機械学習部
１０１アナログフィルタ
１０２デジタルフィルタ
１０３データ処理部
１０４通信エラー検出部
１０５係数調整部
２０１状態取得部
２０２学習部
２０３判定情報取得部
２０４行動情報出力部
２０５最適化行動情報出力部
２０６価値関数記憶部
２００−１〜２００−ｎ機械学習装置
３００ネットワーク

（１）本開示の第１の態様は、通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、前記通信線に前記外乱を生じさせる装置の動作予定情報に基づいて前記デジタルフィルタの係数を調整する係数調整部と、前記動作予定情報に含まれる動作情報と、該動作情報に対応する前記デジタルフィルタの係数又は該係数の修正情報との組み合わせを記録する情報テーブルと、を備え、前記係数調整部は、前記動作予定情報に含まれる前記動作情報に基づいて前記情報テーブルから前記デジタルフィルタの係数又は該係数の修正情報を求めて、前記デジタルフィルタの係数を調整する、受信装置である。

本開示による機械学習装置、制御システム及び機械学習方法、上述した実施形態を含め、次のような構成を有する各種各様の実施形態を取ることができる。
（１）本開示の第１の態様は、通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、
前記通信線に前記外乱を生じさせる装置の動作予定情報に基づいて前記デジタルフィルタの係数を調整する係数調整部と、
前記動作予定情報に含まれる動作情報と、該動作情報に対応する前記デジタルフィルタの係数又は該係数の修正情報との組み合わせを記録する情報テーブルと、を備え、
前記係数調整部は、前記動作予定情報に含まれる前記動作情報に基づいて前記情報テーブルから前記デジタルフィルタの係数又は該係数の修正情報を求めて、前記デジタルフィルタの係数を調整する、受信装置である。
本開示の受信装置によれば、外乱を生じさせる装置の動作予定情報に基づいて、周囲で発生する外乱に対して適したデジタルフィルタの調整が可能となる。

Claims

通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、
前記通信線に前記外乱を生じさせる装置の動作予定情報に基づいて前記デジタルフィルタの係数を調整する係数調整部と、
前記動作予定情報に含まれる動作情報と、該動作情報に対応する前記デジタルフィルタの係数又は該係数の修正情報との組み合わせを記録する情報テーブルと、
前記係数調整部は、前記動作予定情報に含まれる前記動作情報に基づいて前記情報テーブルから前記デジタルフィルタの係数又は該係数の修正情報を求めて、前記デジタルフィルタの係数を調整する、受信装置。
前記装置は工作機械、ロボット、産業機械又は周辺機器であり、前記動作情報は前記工作機械の加工の種類、又はロボット、産業機械もしくは周辺機器の動作の種類に関する情報である、請求項１に記載の受信装置。
前記動作情報は加工プログラム又は動作シーケンスプログラムに基づいて求められる請求項２に記載の受信装置。
通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、前記通信線に前記外乱を生じさせる装置の動作予定情報に基づいて前記デジタルフィルタの係数を調整する係数調整部と、前記動作予定情報に含まれる動作情報と該動作情報に対応する前記デジタルフィルタの係数又は該係数の修正情報との組み合わせを記録する情報テーブルと、前記デジタルフィルタの出力に基づいて通信エラーを検出する通信エラー検出部と、を備えた受信部に対して、前記デジタルフィルタの最適な係数を機械学習する機械学習装置であって、
前記通信線に前記外乱を生じさせる装置の動作情報と、前記デジタルフィルタの係数を状態情報として取得する状態取得部と、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記係数調整部に出力する行動情報出力部と、
前記通信エラー検出部から通信エラーの状況を示す判定情報を取得する判定情報取得部と、
前記判定情報に基づいて、前記通信エラーの変動に対して報酬を与える報酬計算部と、を有し、
前記報酬の値を用いて、前記通信エラーが少なくなるように前記デジタルフィルタの最適な係数を機械学習する、機械学習装置。
前記報酬の値と、前記状態情報とに基づいて価値関数を更新する価値関数更新部を備える、請求項４に記載の機械学習装置。
前記価値関数更新部により更新された価値関数に基づいて、前記係数調整部に前記係数の調整情報を出力する最適化行動情報出力部を備えた請求項５に記載の機械学習装置。
通信エラーの状況を示す前記判定情報は、通信の誤り頻度である、請求項４から６のいずれか１項に記載の機械学習装置。
前記装置は工作機械、ロボット、産業機械又は周辺機器であり、前記動作情報は前記工作機械の加工の種類、又はロボット、産業機械もしくは周辺機器の動作の種類に関する情報である、請求項４から７のいずれか１項に記載の機械学習装置。
前記動作情報は加工プログラム又は動作シーケンスプログラムに基づいて求められる請求項４から８のいずれか１項に記載の機械学習装置。
請求項４から９のいずれか１項に記載の機械学習装置と、
通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、該デジタルフィルタの係数を調整する係数調整部と、前記デジタルフィルタの出力に基づいて通信エラーを検出する通信エラー検出部と、前記機械学習装置から出力される、前記通信線に前記外乱を生じさせる装置の動作情報及び最適化された前記係数又は該係数の調整情報を示す情報テーブルと、を備えた受信部と、
を備えた受信装置。
通信線を介して受信する信号に含まれる外乱を除去又は減衰させるデジタルフィルタと、前記通信線に前記外乱を生じさせる装置の動作予定情報に基づいて前記デジタルフィルタの係数を調整する係数調整部と、前記動作予定情報に含まれる動作情報と該動作情報に対応する前記デジタルフィルタの係数又は該係数の修正情報との組み合わせを記録する情報テーブルと、前記デジタルフィルタの出力に基づいて通信エラーを検出する通信エラー検出部と、を備えた受信部に対して、前記デジタルフィルタの最適な係数を機械学習する機械学習装置の機械学習方法であって、
前記通信線に前記外乱を生じさせる装置の動作情報と、前記デジタルフィルタの係数を状態情報として取得し、
前記状態情報に含まれる前記係数の調整情報を含む行動情報を前記係数調整部に出力し、
前記通信エラー検出部から通信エラーの状況を示す判定情報を取得し、
前記判定情報に基づいて、前記通信エラーの変動に対して報酬を与え、
前記報酬の値を用いて、前記通信エラーが少なくなるように前記デジタルフィルタの最適な係数を機械学習する、機械学習方法。