JP2021026507A

JP2021026507A - 対話式診断装置

Info

Publication number: JP2021026507A
Application number: JP2019144002A
Authority: JP
Inventors: 哲朗姉川; Tetsuro ANEKAWA
Original assignee: Fanuc Corp
Current assignee: Fanuc Corp
Priority date: 2019-08-05
Filing date: 2019-08-05
Publication date: 2021-02-22

Abstract

【課題】知見が足りないユーザにとっても、判断しやすい質問を優先して選び、簡潔な対話で不具合が診断可能なエキスパートシステムを提供する。【解決手段】対話式診断装置１は、ユニットで発生するエラー毎に当該エラーの原因となる全ての不具合候補の集合と、実際の不具合を推定するための質問の集合と、推定される不具合が各不具合候補であった場合に、質問に対して肯定を示す回答が得られる確率とを格納する不具合・質問対応データベース２０を備える。質問毎の確率と、質問に対する回答が肯定か否定かを示す指数との内積である可能性指数を算出し、各不具合候補に対応する複数の質問における、可能性指数の合計値に重み係数を乗じた質問評価指数を算出し、不具合候補毎に、優先順位に従った質問順となっている複数の質問のうち最新の質問において、不具合候補間で同一の質問については質問評価指数を合算し、質問評価指数が最も大きな質問を提示する。【選択図】図１

Description

本発明は、対話式診断装置に関する。

工作機械に不具合が発生した際、ユーザが不具合の原因を判断することは困難であるため、工作機械の製造者に問い合わせをするケースが多い。しかし、製造者側で全ての問い合わせに対応することは、製造者の工数を過剰に消費してしまうために、迅速な回答が難しい場合がある。そこで、製造者に頼らずに問い合わせに対応するための調査方法の模索が必要と考えられる。

製造者側の専門家による調査方法を人工知能に任せる仕組みはエキスパートシステムと呼ばれる。従来のエキスパートシステムは、ユーザに質問することで、どれだけ正しい診断結果を導けるかという所に重点が置かれていた。

この点、種々の故障に対する原因の究明についての専門知識が蓄えられた知識ベース部と、知識ベース部に蓄えられた専門知識を基に故障の原因を導き出す推論機構部と、専門知識を知識ベース部に入力しあるいは削除、変更し、かつ故障診断に際して推論機構部と対話する対話手段を設けると共に、ＮＣ装置と工作機械との間で授受する各種情報及びＮＣ装置の内部情報を取り出すことが可能な知識を知識ベース部に蓄え、上記の知識により自動的に取り出した情報を基にＮＣ装置及び工作機械の故障を診断する技術が知られている（例えば、特許文献１参照）。

特開昭６４−８１０１０号公報

しかし、このようなエキスパートシステムを用いるユーザは、そもそも知見が足りていないため、エキスパートシステムから提示される質問に対して、誤った回答をしたり、正しい回答が分からないために答えられない場合が考えられ、このような場合に、正しい回答を導くのは困難であった。

従って、エキスパートシステムを用いる場合、診断結果があり得そうか否か、判断しやすい質問を優先して選び、簡潔な対話で不具合の診断を済ませることが、ユーザから求められる条件であると考えられる。

すなわち、知見が足りないユーザにとっても、判断しやすい質問を優先して選び、簡潔な対話で不具合が診断可能である点で、ユーザフレンドリなエキスパートシステムを提供することが望まれている。

本開示の一態様は、数値制御装置を構成するユニットで発生するエラー毎に当該エラーの原因となる全ての不具合候補の集合と、前記エラーの実際の原因である不具合を推定するための質問の集合と、推定される不具合が各不具合候補であった場合に、前記質問に対して肯定を示す回答が得られる確率とを格納する不具合・質問対応データベースと、前記不具合候補毎に、前記不具合を推定するための１つ以上の前記質問の優先順位を格納する優先順位データベースと、前記質問毎の各不具合候補に対応する確率、及び前記質問に対する回答が肯定か否定かを示す指数に基づいて、前記不具合候補毎に、前記確率と前記指数との内積である不具合可能性指数を算出する不具合可能性指数算出部と、各不具合候補に対応する複数の前記質問のうち同一の質問に対応する、前記不具合候補の可能性指数の合計値である質問評価指数を算出する質問評価指数算出部と、前記質問評価指数に重み係数を乗ずることにより、前記質問評価指数を補正する質問評価指数補正部と、不具合候補毎に、前記優先順位に従った質問順となっている複数の質問のうち最新の質問について、不具合候補間で同一の質問に関しては補正後の前記質問評価指数を合算し、合算された前記質問評価指数が最も大きな前記質問を選択し、前記ユーザに提示する質問選択部と、前記質問に対する回答を前記ユーザから取得する度に、算出され、補正される前記質問評価指数の値が、閾値を超えたものの中で最も大きな前記不具合候補を表示装置に表示する表示制御部と、前記表示された不具合候補が、前記ユーザにより正解として選択された場合に、これまでに前記ユーザに提示された質問と、各質問に対する前記ユーザによる回答と、各質問の出題順と、前記正解として選択された前記不具合候補と、不正解として選択された前記不具合候補とを、前記エラーに係る情報及び前記ユニットに係る情報に対応付けて記憶部に記録する不具合調査結果記録部と、前記不具合調査結果記録部により、前記記憶部に記憶された記憶内容に基づいて、前記重み係数を補正する重み係数補正部と、を備える対話式診断装置である。

一態様によれば、知見が足りないユーザにとっても、判断しやすい質問を優先して選び、簡潔な対話で不具合が診断可能である点で、ユーザフレンドリなエキスパートシステムを提供することが可能となる。

一実施形態に係る対話式診断装置１の基本概念を示す図である。一実施形態に係る対話式診断装置１の基本概念を示す図である。一実施形態に係る対話式診断装置１の基本概念を示す図である。一実施形態に係る対話式診断装置１の基本概念を示す図である。一実施形態に係る対話式診断装置１の機能ブロック図である。一実施形態に係る対話式診断装置１の表示画面の例を示す図である。一実施形態に係る対話式診断装置１の記憶部４０に記録されるデータの内容の例を示す図である。一実施形態に係る対話式診断装置１の優先順位データベース３０に記録されるデータの内容の例を示す図である。一実施形態に係る対話式診断装置１の強化学習時の動作を示すフローチャートである。

〔１第１実施形態〕
以下、本発明の第１実施形態を図１〜図９に基づいて説明する。

〔１．１発明の構成〕
図１は、本実施形態に係る対話式診断装置１の構成を示す機能ブロック図である。対話式診断装置１は、制御部１０と、不具合・質問対応データベース２０と、優先順位データベース３０と、記憶部４０とを備える。

対話式診断装置１は、数値制御装置のユニット構成、及び実際に発生した不具合の現象から、実際に発生している不具合の候補をピックアップし、実際の不具合がどの不具合の候補に該当するのか判断するため、オペレータに対し効果的な質問を出題することにより、不具合の診断を自動化するエキスパートシステムである。

制御部１０は、ＣＰＵ、ＲＯＭ、ＲＡＭ、ＣＭＯＳメモリ等を有し、これらはバスを介して相互に通信可能に構成される、当業者にとって公知のものである。
ＣＰＵは対話式診断装置１を全体的に制御するプロセッサである。該ＣＰＵは、ＲＯＭに格納されたシステムプログラム及びアプリケーションプログラムを、バスを介して読み出し、該システムプログラム及びアプリケーションプログラムに従って対話式診断装置１全体を制御することで、図１に示すように、制御部１０を、不具合可能性指数算出部１０１、質問評価指数算出部１０２、質問評価指数補正部１０３、質問選択部１０４、表示制御部１０５、不具合調査結果記録部１０６、重み係数補正部１０７、データベース更新部１０８の機能を実現するように構成される。ＲＡＭには一時的な計算データや表示データ等の各種データが格納される。ＣＭＯＳメモリは図示しないバッテリでバックアップされ、対話式診断装置１の電源がオフされても記憶状態が保持される不揮発性メモリとして構成される。

不具合可能性指数算出部１０１は、推定される不具合が各不具合候補であった場合に、質問に対して肯定を示す回答が得られる確率であって、質問毎の各不具合候補に対応する確率、及び質問に対する回答が肯定か否定かを示す指数に基づいて、不具合候補毎に、確率と指数との内積である不具合可能性指数を算出する。なお、この確率は、後述の不具合・質問対応データベース２０に記憶されている。また、この確率は、不具合調査結果記録部１０６に格納される履歴情報に基づいて、適宜修正される。

図２は、工作機械に不具合が発生した際に、エキスパートシステムから提示される質問に対して「はい」の回答をする確率の例を、各質問・不具合候補毎に場合分けした表の例である。

図２においては、例えばＡの不具合が発生している場合に、質問Ｉに対して「はい」と回答する確率が７５．９％であり、質問ＩＩに対して「はい」と回答する確率が５２．１％であり、質問ＩＩＩに対して「はい」と回答する確率が９２．４％である。
同様に、Ｂの不具合が発生している場合に、質問Ｉに対して「はい」と回答する確率が４．６％であり、質問ＩＩに対して「はい」と回答する確率が９２．４％であり、質問ＩＩＩに対して「はい」と回答する確率が５０．８％である。
同様に、Ｃの不具合が発生している場合に、質問Ｉに対して「はい」と回答する確率が８５．８％であり、質問ＩＩに対して「はい」と回答する確率が４５．５％であり、質問ＩＩＩに対して「はい」と回答する確率が４６．０％である。

ここで、ユーザの回答が、質問Ｉに対して「はい」であり、質問ＩＩに対して「いいえ」であり、質問ＩＩＩに対して「はい」だったとする。この場合、「はい」に対して点数「１」を、「いいえ」に対して点数「−１」を割り振り、不具合候補毎に、確率に対して、回答に対応する点数を乗算する（以降では、この内積を「不具合可能性指数」と呼称する）。

図２の例において、不具合候補Ａについて、質問Ｉに対応する不具合可能性指数は、７５．９×１＝７５．９となり、質問ＩＩに対応する不具合可能性指数は、５２．１×（−１）＝−５２．１となり、質問ＩＩＩに対応する不具合可能性指数は、９２．４×１＝９２．４となる。

また、不具合候補Ｂについて、質問Ｉに対応する不具合可能性指数は、４．６×１＝４．６となり、質問ＩＩに対応する不具合可能性指数は、９２．４×（−１）＝−９２．４となり、質問ＩＩＩに対応する不具合可能性指数は、５０．８×１＝５０．８となる。

また、不具合候補Ｃについて、質問Ｉに対応する不具合可能性指数は、８５．８×１＝８５．８となり、質問ＩＩに対応する不具合可能性指数は、４５．５×（−１）＝−４５．５となり、質問ＩＩＩに対応する不具合可能性指数は、４６．０×１＝４６．０となる。

質問評価指数算出部１０２は、各不具合候補に対応する複数の質問について、不具合候補の可能性指数の合計値である質問評価指数を算出する。

図２において、質問評価指数算出部１０２は、不具合候補毎に各質問に対応するすべての内積を合算する。
具体的には、不具合候補Ａに対応する質問評価指数は、７５．９＋（−５２．１）＋９２．４＝１１６．２となる。不具合候補Ｂに対応する質問評価指数は、４．６＋（−９２．４）＋５０．８＝−３７となる。不具合候補Ｃに対応する質問評価指数は、８５．８＋（−４５．５）＋４６．０＝８６．３となる。

すなわち、不具合候補Ａに対応する質問評価指数は１１６．２、不具合候補Ｂに対応する質問評価指数は−３７、不具合候補Ｃに対応する質問評価指数は８６．３となり、不具合候補Ａに対応する質問評価指数が最も高くなる。

図３は、図２に示す表と、この図２に示す表内の数値を用いて、各不具合候補に対応する質問毎の確率の分布を表したグラフと、各質問に対する回答の点数を表したグラフである。

図３に示すように、質問評価指数が最も高い不具合候補Ａについての質問毎の確率の分布、すなわち質問Ｉの確率が７５．９％、質問ＩＩの確率が５２．１％、質問ＩＩＩの確率が９２．４％となる分布と、各質問に対する回答の点数である、１、−１、１という分布との類似性は、他の不具合候補についての質問毎の確率の分布と、各質問に対する回答の点数の分布との類似性と比較して、最も高くなる。

すなわち、各不具合候補についての質問毎の確率の分布を示すグラフと、各質問に対する回答の点数の分布を示すグラフとの類似性は、双方のグラフの形状を見れば分かるが、本発明においては、内積を用いて定量的に評価する。その上で、後述のように、本発明に係る対話式診断装置１は、各質問に対する回答の点数の分布に最も類似する確率分布となる不具合候補を、オペレータに提示する。

質問評価指数補正部１０３は、質問評価指数に重み係数を乗ずることにより、質問評価指数を補正する。

質問選択部１０４は、不具合候補毎に、優先順位に従った質問順となっている複数の質問のうち最新の質問について、不具合候補間で同一の質問に関しては補正後の質問評価指数を合算し、合算された質問評価指数が最も大きな質問を選択し、ユーザに提示する。なお、この優先順位は、後述の優先順位データベース３０に記憶されている。また、この優先順位は、不具合候補に対する質問の確率の高い順としてもよい。この場合、確率の見直しに応じて、優先順位も見直される。

図４〜図５は、重み係数と質問順の変更について説明する図である。
質問の順序には、不具合候補毎に最適なものが存在するが、運用上は、どの不具合候補が実際の不具合に当てはまるか不明な段階で質問順を決定しなくてはならない。

そこで、図４に示すように、不具合候補毎に、優先順位に従った質問順となっている複数の質問のうち最新の質問について、不具合候補間で同一の質問に関しては質問評価指数を合算し、最も質問評価指数の高い質問を出題する。

図４に示す例においては、不具合候補Ａに紐づけられる質問が質問ＩＩであり、質問評価指数が４０であるとする。また、不具合候補Ｂに紐づけられる質問も質問ＩＩであり、質問評価指数が２０であるとする。また、不具合候補Ｃに紐づけられる質問は質問ＩＩＩであり、質問評価指数が５０であるとする。

この場合、不具合候補Ａに紐づけられる質問と不具合候補Ｂに紐づけられる質問とが、共に質問ＩＩであるため、不具合候補Ａの質問評価指数４０と、不具合候補Ｂの質問評価指数２０とを合算した結果、質問ＩＩに対応する質問評価指数は６０となる。一方で、不具合候補Ｃに紐づけられる質問ＩＩＩの質問評価指数は５０である。質問ＩＩに対応する質問評価指数６０は、質問ＩＩＩに対応する質問評価指数５０よりも大きいため、質問選択部１０４は、質問ＩＩを出題する。

質問ＩＩを出題した後、不具合候補Ａに紐づけられる質問が質問Ｉであり、質問評価指数は１０であるとする。また、不具合候補Ｂに紐づけられる質問が質問Ｉであり、質問評価指数は５であるとする。また、不具合候補Ｃに紐づけられる質問が質問ＩＩＩであり、質問評価指数は３０であるとする。
なお、質問ＩＩはすでに出題したので、不具合候補Ａ〜Ｃのいずれにも紐づけられない。

ここで、質問Ｉに対応する質問評価指数の合計値は１５となり、質問ＩＩＩに対応する質問評価指数は３０であるため、図４には示さないが、更に出題する質問は、質問ＩＩＩとなる。

図４に示す例においては、各不具合候補が同じ重みで評価されている。しかし、実際に不具合が発生する頻度は、不具合毎に異なるはずである。このため、頻発する度合いの高い不具合候補からオペレータに確認していく手法が、不具合の原因を推定する近道となる。

図５は、不具合が発生する頻度を踏まえた、質問順の変更の仕組みを説明する図である。図５に示すように、不具合が発生する頻度を考慮するため、各質問評価係数に重み係数を乗算することにより、不具合候補毎に質問評価指数に重みをつけた上で、質問毎に質問評価指数を合算する。

図５に示す例においては、質問ＩＩの質問評価指数の合算値が４０×ａ＋２０×ｂであり、質問ＩＩＩの質問評価指数が５０×ｃであり、４０×ａ＋２０×ｂが５０×ｃよりも大きいため、次に出題する質問は、質問ＩＩとなる。

なお、後述のように、本実施形態において、図５に示す例における重み係数は強化学習により変動させる。

図１において、表示制御部１０５は、質問に対する回答をユーザから取得する度に、算出され、補正される質問評価指数の値が、閾値を超えたものの中で最も大きな不具合候補を表示装置（不図示）に表示する。

図６は、質問選択部１０４による質問の提示例、及び表示制御部１０５による不具合候補の表示例を示す。
図６の例においては、最初に表示される画面（ａ）において、第１の質問として、問題が発生したユニットのＬＥＤが点灯しているかどうかを質問する。これに対し、ユーザは、「はい」と回答したとする。

その結果表示される画面（ｂ）において、第２の質問として、問題が発生したユニットとその前段のユニットに対し、Ｉ／ＯＬｉｎｋケーブルが正しいコネクタに接続されているかどうかを質問する。これに対し、ユーザは「はい」と回答したとする。

その結果表示される画面（ｃ）において、第３の質問として、問題が発生したユニットの信号線に対し、高電圧線がショートする可能性があるか否かを質問する。これに対し、ユーザは「はい」と回答したとする。

その結果、これまでのユーザによる回答に基づき、画面下方に不具合候補として、「ドライバ故障」を示すボタンが表示される。ユーザは、この「ドライバ故障」を示すボタンをクリックする。

すると、画面（ｄ）において、「ドライバ故障」の具体的な内容を示すウインドウが表示される。ユーザは、この具体的な内容が実際のエラーの原因であると判断する場合には、「保存」のボタンをクリックする。一方、この具体的な内容が実際のエラーではないと判断する場合には、「ＮＧ」のボタンをクリックする。ユーザが「ＮＧ」のボタンをクリックした場合には、継続して質問が表示される。

図１において、不具合調査結果記録部１０６は、表示された不具合候補が、ユーザにより正解として選択された場合に、これまでにユーザに提示された質問と、各質問に対するユーザによる回答と、各質問の出題順と、正解として選択された不具合候補と、不正解として選択された不具合候補とを、エラーに係る情報及びユニットに係る情報に対応付けて記憶部４０に記録する。

図７は、不具合調査結果記録部１０６により記憶部４０に記録されるデータの内容の例を示す。

１つ目のデータは、質問ＶＩＩＩ、質問Ｉ、質問ＩＸ、質問ＩＩＩ、質問ＶＩの順に質問が提示され、その結果、不具合候補として表示されたＡをユーザが正解として保存したデータを示す。

２つ目のデータは、質問ＩＩＩ、質問ＩＶ、質問ＶＩＩＩ、質問Ｖの順に質問が提示され、その結果、不具合候補として表示されたＡをユーザが正解として保存したデータを示す。

３つ目のデータは、質問ＩＸ、質問ＩＩ、質問Ｘ、質問ＶＩＩの順に質問が提示され、その結果表示された不具合候補が、ユーザによって不正解としてＮＧとされた後、質問ＶＩＩＩ、質問ＩＩの順に質問が提示され、その結果、不具合候補として表示されたＡをユーザが正解として保存したデータを示す。

不具合調査結果記録部１０６は、これらの質問、各質問の出題順、各質問に対するユーザの回答、正解として選択された不具合候補と、不正解として選択された不具合候補を、エラーに対応付けて記憶部４０に記録する。

図１において、重み係数補正部１０７は、不具合調査結果記録部１０６により、記憶部４０に記憶された記憶内容に基づいて、重み係数を補正する。なお、本実施形態においては、強化学習により重み係数を補正するが、強化学習の具体的な内容については後述する。

データベース更新部１０８は、実際の不具合が発生しないように、制御対象の工作機械の構成自体が改良された際に、後述の不具合・質問対応データベース２０を更新する。例えば、データベース更新部１０８は、実際に発生しないように対策された不具合に対応する不具合候補を含むデータを削除することが可能である。

不具合・質問対応データベース２０は、数値制御装置を構成するユニットで発生するエラー毎に当該エラーの原因となる全ての不具合候補の集合と、エラーの実際の原因である不具合を推定するための質問の集合と、質問に対して肯定を示す回答をした場合に、推定される不具合が各不具合候補に対応する確率とを格納する。具体的には、不具合・質問対応データベース２０は、例えば図１に示した、テーブル形式の質問と不具合の対応表を格納することが可能である。

優先順位データベース３０は、不具合候補毎に、前記不具合を推定するための１つ以上の前記質問の優先順位を格納する。

図８は、優先順位データベース３０に格納されるデータの例を示す。図８の例においては、不具合候補毎に優先順位に従って最適な質問順が設定される。不具合候補間で、同一の順番に同一の質問が設定されてもよく、異なる質問が設定されてもよい。

〔１．２強化学習〕
上記のように本実施形態では、強化学習により重み係数を調整するが、まず強化学習の基本的な仕組みについて説明する。エージェント（本実施形態における重み係数補正部１０７に相当）は、環境の状態を観測し、ある行動を選択し、当該行動に基づいて環境が変化する。環境の変化に伴って、何らかの報酬が与えられ、エージェントはより良い行動の選択（意思決定）を学習する。
教師あり学習が、完全な正解を示すのに対して、強化学習における報酬は、環境の一部の変化に基づく断片的な値であることが多い。このため、エージェントは、将来にわたっての報酬の合計を最大にするように行動を選択するように学習する。

このように、強化学習では、行動を学習することにより、環境に行動が与える相互作用を踏まえて適切な行動を学習、すなわち将来的に得られる報酬を最大にするための学習する方法を学ぶ。これは、本実施形態において、例えば、加工精度を維持しつつ、サイクルタイムを短縮するための行動情報を選択するという、未来に影響をおよぼすような行動を獲得できることを表している。

ここで、強化学習としては、任意の学習方法を用いることができるが、以下の説明では、或る環境の状態ｓの下で、行動ａを選択する価値関数Ｑ（ｓ，ａ）を学習する方法であるＱ学習（Q-learning）を用いる場合を例にとって説明をする。
Ｑ学習では、或る状態ｓのとき、取り得る行動ａのなかから、価値関数Ｑ（ｓ，ａ）の最も高い行動ａを最適な行動として選択することを目的とする。

しかしながら、Ｑ学習を最初に開始する時点では、状態ｓと行動ａとの組合せについて、価値関数Ｑ（ｓ，ａ）の正しい値は全く分かっていない。そこで、エージェントは、或る状態ｓの下で様々な行動ａを選択し、その時の行動ａに対して、与えられる報酬に基づいて、より良い行動の選択をすることにより、正しい価値関数Ｑ（ｓ，ａ）を学習していく。

また、将来にわたって得られる報酬の合計を最大化したいので、最終的にＱ（ｓ，ａ）＝Ｅ［Σ（γ^ｔ）ｒ_ｔ］となるようにすることを目指す。ここでＥ［］は期待値を表し、ｔは時刻、γは後述する割引率と呼ばれるパラメータ、ｒ_ｔは時刻ｔにおける報酬、Σは時刻ｔによる合計である。この式における期待値は、最適な行動に従って状態変化した場合の期待値である。しかしＱ学習の過程において最適な行動が何であるのかは不明であるので、様々な行動を行うことにより、探索しながら強化学習をする。このような価値関数Ｑ（ｓ，ａ）の更新式は、例えば、次の数式１（以下に数１として示す）により表すことができる。

上記の数式１において、ｓ_ｔは、時刻ｔにおける環境の状態を表し、ａ_ｔは、時刻ｔにおける行動を表す。行動ａ_ｔにより、状態はｓ_ｔ＋１に変化する。ｒ_ｔ＋１は、その状態の変化により得られる報酬を表している。また、ｍａｘの付いた項は、状態ｓ_ｔ＋１の下で、その時に分かっている最もＱ値の高い行動ａを選択した場合のＱ値にγを乗じたものになる。ここで、γは、０＜γ≦１のパラメータで、割引率と呼ばれる。また、αは、学習係数で、０＜α≦１の範囲とする。

上述した数式１は、試行ａ_ｔの結果、返ってきた報酬ｒ_ｔ＋１を元に、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）を更新する方法を表している。
この更新式は、状態ｓ_ｔにおける行動ａ_ｔの価値関数Ｑ（ｓ_ｔ，ａ_ｔ）よりも、行動ａ_ｔによる次の状態ｓ_ｔ＋１における最良の行動の価値ｍａｘ_ａＱ（ｓ_ｔ＋１，ａ）の方が大きければ、Ｑ（ｓ_ｔ，ａ_ｔ）を大きくし、逆に小さければ、Ｑ（ｓ_ｔ，ａ_ｔ）を小さくすることを示している。つまり、或る状態における或る行動の価値を、それによる次の状態における最良の行動の価値に近づける。ただし、その差は、割引率γと報酬ｒ_ｔ＋１のあり方により変わってくるが、基本的には、ある状態における最良の行動の価値が、それに至る１つ前の状態における行動の価値に伝播していく仕組みになっている。

ここで、Ｑ学習では、すべての状態行動ペア（ｓ，ａ）についてのＱ（ｓ，ａ）のテーブルを作成して、学習を行う方法がある。しかし、すべての状態行動ペアのＱ（ｓ，ａ）の値を求めるには状態数が多すぎて、Ｑ学習が収束するのに多くの時間を要してしまう場合がある。

そこで、公知のＤＱＮ（Deep Q-Network）と呼ばれる技術を利用するようにしてもよい。具体的には、価値関数Ｑを適当なニューラルネットワークを用いて構成し、ニューラルネットワークのパラメータを調整することにより、価値関数Ｑを適当なニューラルネットワークで近似することにより価値関数Ｑ（ｓ，ａ）の値を算出するようにしてもよい。ＤＱＮを利用することにより、Ｑ学習が収束するのに要する時間を短くすることが可能となる。なお、ＤＱＮについては、例えば、以下の非特許文献に詳細な記載がある。

＜非特許文献＞
「Human-level control through deep reinforcement learning」、Volodymyr Mnih1著［ｏｎｌｉｎｅ］、［平成２９年１月１７日検索］、インターネット〈ＵＲＬ：http://files.davidqiu.com/research/nature14236.pdf〉

本実施形態においては、以上説明をしたＱ学習を重み係数補正部１０７が行う。具体的には、重み係数補正部１０７は、エラーに係る情報、不具合の発生するユニットに係る情報、質問と回答の組み合わせとを状態ｓとし、当該状態ｓに係る重み係数の変更を行動ａとして、選択する価値関数Ｑを学習する。

なお、上記の報酬ｒ_ｔは、一例として、次の数式２（以下に数２として示す）により表すことができるが、これには限られない。

上記の数式２において、Ｂは、不具合例の選択で決まる係数であり、「保存」なら１、「ＮＧ」なら−１である。ｂは、回答の回数により報酬の強弱を決めるための０以上１未満の係数であり、本発明に係る対話式診断装置の設計者によって決められる。ｎは回答数であり、例えば３回の質問に対して３回回答していたら３、５回の質問に対して５回回答していたら５となる。例えば、「質問ＩＸ→質問ＩＩ→質問Ｘ→質問ＶＩＩ」の後に表示された不具合候補Ｂに対し、「ＮＧ」をクリックし、それに続けて、「質問Ｉ→質問ＶＩ→質問ＶＩＩＩ」の後に表示された不具合候補Ｃに対し、再度「ＮＧ」がクリックされた場合、最初の「ＮＧ」に紐づく回答数は４となり、次の「ＮＧ」に紐づく回答数は７となる。ｎ_ａｖｅは、過去において、同様のエラー及びユニット構成だった場合に、「保存」のボタンがクリックされたときの平均回答数を示す。なお、この平均回答数は記憶部４０に記憶される。また、図７に例示する学習用データが記憶部４０に記憶される都度、この平均回答数はリアルタイムで更新されてもよく、記憶部４０に学習用データがある程度蓄積される毎に、平均回答数が更新されてもよい。

重み係数補正部１０７は、エラーに係る情報、不具合の発生するユニットに係る情報、質問と回答の組み合わせとを含む状態情報ｓを観測して、行動ａを決定する。重み係数補正部１０７は、行動ａをするたびに報酬が返ってくる。重み係数補正部１０７は、例えば、将来にわたっての報酬の合計が最大になるように最適な行動ａを試行錯誤的に探索する。そうすることで、重み係数補正部１０７は、エラーに係る情報、不具合の発生するユニットに係る情報、質問と回答の組み合わせとを含む状態ｓに対して、最適な行動ａを選択することが可能となる。

すなわち、重み係数補正部１０７により学習された価値関数Ｑに基づいて、或る状態ｓに係る、エラーに係る情報、不具合の発生するユニットに係る情報、質問と回答の組み合わせに対して適用される行動ａのうち、価値関数Ｑの値が最大となるような行動ａを選択することで、不具合候補毎に最適な質問順序となるような行動ａを選択することが可能となる。

図９は、強化学習時の対話式診断装置１の動作を示すフローチャートである。

ステップＳ１１において、重み係数補正部１０７は、第１状態情報として、エラーに係る情報と不具合の発生するユニットに係る情報を取得する。

ステップＳ１２において、重み係数補正部１０７は、行動出力として、不具合候補に紐づいた質問評価指数に乗算する重み係数を決定又は変更する。

ステップＳ１３において、質問選択部１０４は、不具合候補毎に、優先順位に従った質問順となっている複数の質問のうち最新の質問について、不具合候補間で同一の質問に関しては補正後の前記質問評価指数を合算し、合算された質問評価指数の合算値が最も大きな質問を選択し、表示装置（不図示）に表示する。

ステップＳ１４において、オペレータは、表示装置に表示された質問に対し回答する。重み係数補正部１０７は、この質問と回答の組み合わせを第２状態情報とする。

ステップＳ１５において、表示制御部１０５は、各不具合候補に紐づく、補正後の質問評価指数を評価する。

ステップＳ１６において、各不具合候補の中で補正後の質問評価指数が閾値を超えたものがある場合（Ｓ１６：ＹＥＳ）には、処理はステップＳ１７に移行する。ない場合（Ｓ１６：ＮＯ）には、処理はステップＳ１３に移行する。

ステップＳ１７において、表示制御部１０５は、補正後の質問評価指数が閾値を超えたものの中で最も大きな不具合候補を表示する。

ステップＳ１８において、オペレータが、表示された不具合候補に対して「保存」又は「ＮＧ」を選択する。重み係数補正部１０７は、この選択結果、及び質問数を判断情報とする。

ステップＳ１９において、不具合調査結果記録部１０６は、第１状態情報、第２状態情報、及び判断情報を、学習用データとして記憶部４０に記録する。

ステップＳ２０において、重み係数補正部１０７は、数式２に基づいて報酬を計算する。

ステップＳ２１において、ステップＳ１８で不具合候補に対して「保存」を選択した場合（Ｓ２１：保存）には、処理はステップＳ２２に移行する。ステップＳ１８で不具合候補に対して「ＮＧ」を選択した場合（Ｓ２１：ＮＧ）には、処理はステップＳ１３に移行する。

ステップＳ２２において、重み係数補正部１０７は、価値関数を更新する。なお、価値関数の更新の際には、これまでのフローにおいて、ステップＳ２０で計算された報酬が合算され、合算された報酬が用いられる。

ステップＳ２３において、更なる調査を継続する場合（Ｓ２３：ＹＥＳ）には、処理はステップＳ１１に移行する。調査を終了する場合（Ｓ２３：ＮＯ）には、処理を終了する。

〔１．３第１実施形態が奏する効果〕
本実施形態に係る対話式診断装置１により、知見が足りないユーザにとっても、判断しやすい質問を優先して選び、簡潔な対話で不具合が診断可能である点で、ユーザフレンドリなエキスパートシステムを実現することが可能となる。

とりわけ、各不具合候補に紐づく質問評価指数に重み係数を乗算するとともに、強化学習により当該重み係数を決定することにより、実際に不具合が発生する頻度を考慮した上で、質問順を決定することが可能となる。

〔２変形例〕
〔２．１変形例１〕
上記の第１実施形態においては、強化学習により重み係数を決定するとしたが、これには限定されない。

例えば、重み係数補正部１０７は、不具合候補が保存（正解）として選択された回数と、ＮＧ（不正解）として選択された回数から、不具合候補の頻度を算出し、当該頻度に基づいて、重み係数を補正してもよい。

〔２．２変形例２〕
本発明に係る対話式診断装置１は、知見が足りないユーザやオペレータとの対話を前提としているが、一方で、工作機械の製造者側の専門家による対話式診断装置１への回答は、知見が足りないユーザやオペレータによる回答に比較して、より信用できると考えられる。

そこで、上記の強化学習のための学習モデルを構築する際に、工作機械の製造者側の専門家による回答に係るデータのみを用いてもよい。これにより、例えば、上記の重み係数の算出の際、より早く収束することが可能となる。

〔２．３変形例３〕
図６に示す、質問選択部１０４による質問の提示例においては、回答の選択肢として、「はい」及び「いいえ」の２択の選択肢、又は、「はい」、「いいえ」、及び「不明」の３択の選択肢が示されているが、これには限定されない。例えば、「はい」、「いいえ」、及び「不明」に加え、「おそらくはい」及び「おそらくいいえ」を加えることにより、４択又は５択の選択肢としてもよい。

更に、例えば、「はい」に対して「１」の属性値、「いいえ」に対して「−１」の属性値、及び「不明」に対して「０」の属性値を対応付けて場合、「おそらくはい」に対して「０．５」の属性値、「おそらくいいえ」に対して「−０．５」の属性値を割り当ててもよい。

上述した実施形態は、本発明の好適な実施形態ではあるが、上記実施形態に本発明の範囲を限定するものではなく、本発明の要旨を逸脱しない範囲において、種々の変更を施した形態での実施が可能である。

なお、上記の対話式診断装置１に含まれる各装置は、ハードウェア、ソフトウェア又はこれらの組み合わせによりそれぞれ実現することができる。また、上記の対話式診断装置１に含まれる各装置により行なわれる支援方法も、ハードウェア、ソフトウェア又はこれらの組み合わせにより実現することができる。ここで、ソフトウェアによって実現されるとは、コンピュータがプログラムを読み込んで実行することにより実現されることを意味する。

プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体（例えば、フレキシブルディスク、磁気テープ、ハードディスクドライブ）、光磁気記録媒体（例えば、光磁気ディスク）、ＣＤ−ＲＯＭ(Read Only Memory)、ＣＤ−Ｒ、ＣＤ−Ｒ／Ｗ、半導体メモリ（例えば、マスクＲＯＭ、ＰＲＯＭ(Programmable ROM)、ＥＰＲＯＭ(Erasable PROM)、フラッシュＲＯＭ、ＲＡＭ(random access memory）)を含む。また、プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。

１対話式診断装置
１０制御部
２０不具合・質問対応データベース
３０優先順位データベース
４０記憶部
１０１不具合可能性指数算出部
１０２質問評価指数算出部
１０３質問評価指数補正部
１０４質問選択部
１０５表示制御部
１０６不具合調査結果記録部
１０７重み係数補正部
１０８データベース更新部

Claims

数値制御装置を構成するユニットで発生するエラー毎に当該エラーの原因となる全ての不具合候補の集合と、前記エラーの実際の原因である不具合を推定するための質問の集合と、推定される不具合が各不具合候補であった場合に、前記質問に対して肯定を示す回答が得られる確率とを格納する不具合・質問対応データベースと、
前記不具合候補毎に、前記不具合を推定するための１つ以上の前記質問の優先順位を格納する優先順位データベースと、
前記質問毎の各不具合候補に対応する確率、及び前記質問に対する回答が肯定か否定かを示す指数に基づいて、前記不具合候補毎に、前記確率と前記指数との内積である不具合可能性指数を算出する不具合可能性指数算出部と、
各不具合候補に対応する複数の前記質問における、前記不具合候補の可能性指数の合計値である質問評価指数を算出する質問評価指数算出部と、
前記質問評価指数に重み係数を乗ずることにより、前記質問評価指数を補正する質問評価指数補正部と、
不具合候補毎に、前記優先順位に従った質問順となっている複数の質問のうち最新の質問について、不具合候補間で同一の質問に関しては補正後の前記質問評価指数を合算し、合算された前記質問評価指数が最も大きな前記質問を選択し、ユーザに提示する質問選択部と、
前記質問に対する回答を前記ユーザから取得する度に、算出され、補正される前記質問評価指数の値が、閾値を超えたものの中で最も大きな前記不具合候補を表示装置に表示する表示制御部と、
前記表示された不具合候補が、前記ユーザにより正解として選択された場合に、これまでに前記ユーザに提示された質問と、各質問に対する前記ユーザによる回答と、各質問の出題順と、前記正解として選択された前記不具合候補と、不正解として選択された前記不具合候補とを、前記エラーに係る情報及び前記ユニットに係る情報に対応付けて記憶部に記録する不具合調査結果記録部と、
前記不具合調査結果記録部により、前記記憶部に記憶された記憶内容に基づいて、前記重み係数を補正する重み係数補正部と、
を備える対話式診断装置。
前記重み係数補正部は、
前記エラーに係る情報、前記不具合の発生するユニットに係る情報、及び前記質問と前記回答の組み合わせを含む状態情報を取得する状態情報取得手段と、
前記重み係数の変更情報を含む行動情報を出力する行動情報出力手段と、
前記状態情報に含まれる、前記質問と前記回答の組み合わせに基づく、強化学習における報酬の値を出力する報酬計算手段と、
前記報酬の値と、前記状態情報と、前記行動情報とに基づいて前記強化学習を行うことにより価値関数を更新する価値関数更新手段とを備え、
前記強化学習の結果を用いて、前記重み係数を補正する、請求項１に記載の対話式診断装置。
前記重み係数補正部は、前記不具合候補の各々が、正解として選択された回数と、不正解として選択された回数とから算出される頻度に基づいて、前記重み係数を補正する、請求項１に記載の対話式診断装置。
前記不具合が解消された際に、前記不具合・質問対応データベースを更新する、データベース更新部を更に備える、請求項１から請求項３のいずれか１項に記載の対話式診断装置。