JP7449338B2

JP7449338B2 - 情報処理方法、プログラム、情報処理装置及び情報処理システム

Info

Publication number: JP7449338B2
Application number: JP2022120457A
Authority: JP
Inventors: 孝志梶丸
Original assignee: Tokyo Electron Device Ltd
Current assignee: Tokyo Electron Device Ltd
Priority date: 2021-09-03
Filing date: 2022-07-28
Publication date: 2024-03-13
Anticipated expiration: 2042-07-28
Also published as: JP2023037576A

Description

本発明は、情報処理方法、プログラム、情報処理装置及び情報処理システムに関する。

近年、作業者の画像情報に基づいて作業情報を照合・認識するニーズが高まっている。特許文献１には、撮像装置により工事の画像情報を取得し、画像情報から作業者（作業員）を認識し、認識された作業者の作業時間を計測し、認識された作業者とこの作業者の作業時間とを含む作業情報を表示する表示部とを有する工事管理支援装置が開示されている。

特開２０１６－２０１０７４号公報

しかしながら、特許文献１に係る発明は、作業者が行った作業（行動）の自動化を実現するためのデータを用意することができないという問題がある。

一つの側面では、作業者が行ったオペレーション作業を自動化することが可能な情報処理方法等を提供することを目的とする。

一つの側面に係る情報処理方法は、工場内で対象物に対し作業する作業者の画像を取得し、作業者の画像を入力した場合に、作業者の行動に関する行動情報を出力するよう学習された第１学習モデルに、取得した作業者の画像を入力して対象物に対する行動情報を出力し、対象物を撮像した対象物の画像と、出力した行動情報とを対応付けて記憶する処理をコンピュータが実行することを特徴とする。

一つの側面では、作業者が行った作業の自動化を実現するためのデータを用意することが可能となる。

工場オペレーション自動化システムの概要を示す説明図である。サーバの構成例を示すブロック図である。訓練データＤＢ及び学習モデル管理ＤＢのレコードレイアウトの一例を示す説明図である。エッジ端末の構成例を示すブロック図である。第１行動情報出力モデルを説明する説明図である。第２行動情報出力モデルを説明する説明図である。第１行動情報出力モデルの生成処理の手順を示すフローチャートである。第２訓練データを作成する際の処理手順を示すフローチャートである。第２行動情報出力モデルの生成処理の手順を示すフローチャートである。変形例１における訓練データＤＢのレコードレイアウトの一例を示す説明図である。変形例１における第２行動情報出力モデルを説明する説明図である。変形例２における訓練データＤＢ及び学習モデル管理ＤＢのレコードレイアウトの一例を示す説明図である。変形例３における訓練データＤＢ及び学習モデル管理ＤＢのレコードレイアウトの一例を示す説明図である。処理工程ごとに対象物に対する行動情報を出力する際の処理手順を示すフローチャートである。対象物の各処理工程の学習状況の表示画面の一例を示す説明図である。第２行動情報出力モデルを再学習する際の処理手順を示すフローチャートである。対象物に関する評価を特定する際の処理手順を示すフローチャートである。処理工程ごとに評価の高い第２行動情報出力モデルの選択を受け付ける際の処理手順を示すフローチャートである。実施形態２のサーバの構成例を示すブロック図である。スコアＤＢのレコードレイアウトの一例を示す説明図である。第２行動情報出力モデルの強化学習を行う際の処理手順を示すフローチャートである。対象物に関する評価情報の表示画面の一例を示す説明図である。実施形態５におけるスコアＤＢのレコードレイアウトの一例を示す説明図である。更新前後の第２行動情報出力モデルにおけるスコアを記憶する際の処理手順を示すフローチャートである。更新前後の第２行動情報出力モデルにおけるスコアを記憶する際の処理手順を示すフローチャートである。スコアに基づく比較結果を示すグラフの一例である。行動情報と実施行動情報とを比較する際の処理手順を示すフローチャートである。作業結果を比較した比較結果を出力する際の処理手順を示すフローチャートである。対象物の状態変化を示すグラフの一例を示す説明図である。実施形態８におけるサーバの構成例を示すブロック図である。第２期間における対象物の画像を予測する際の処理手順を示すフローチャートである。

以下、本発明をその実施形態を示す図面に基づいて詳述する。

（実施形態１）
実施形態１は、工場内で対象物に対する作業者の行動（オペレーション）情報を出力する形態に関する。対象物は、例えばアルミ灰、シリコン単結晶、調合物、食品等の工場内の加工物、生成物または抽出物である。

図１は、工場オペレーション自動化システムの概要を示す説明図である。本実施形態のシステムは、情報処理装置１、情報処理端末２及び撮影装置３を含み、各装置はインターネット等のネットワークＮを介して情報の送受信を行う。

情報処理装置１は、種々の情報に対する処理、記憶及び送受信を行う情報処理装置である。情報処理装置１は、例えばサーバ装置、パーソナルコンピュータまたは汎用のタブレットＰＣ（パソコン）等である。本実施形態において、情報処理装置１はサーバ装置であるものとし、以下では簡潔のためサーバ１と読み替える。

情報処理端末２は、工場内での対象物の画像の取得、対象物に対し作業する作業者の画像の取得、及び対象物に対する行動情報の表示等を行う端末装置である。情報処理端末２は、例えばエッジコンピュータ、パーソナルコンピュータまたはタブレット等の情報処理機器である。以下では簡潔のため、情報処理端末２をエッジ端末２と読み替える。

撮影装置３は、対象物または当該対象物に対し作業する作業者を撮影して画像を生成する。本実施形態の撮影装置３は、無線通信部を含む。無線通信部は、通信に関する処理を行うための無線通信モジュールであり、ネットワークＮを介して、エッジ端末２等と撮影画像の送受信を行う。なお、撮影装置３の代わりに、撮影可能な情報処理端末であっても良い。情報処理端末は、例えばスマートフォン、携帯電話、タブレット、パーソナルコンピュータ端末等の情報処理機器である。

本実施形態に係るサーバ１は、工場内で対象物に対し作業する作業者の画像を取得する。サーバ１は、取得した作業者の画像を含む第１訓練データに基づき、作業者の画像を入力した場合に作業者の行動に関する行動情報を出力するよう学習された第１行動情報出力モデル（第１学習モデル）１５１を生成する。サーバ１は、対象物を撮像した対象物の画像と、第１行動情報出力モデル１５１から出力された行動情報とを対応付けて記憶する。

サーバ１は、記憶した対象物の画像、及び当該対象物の画像に対応する行動情報を含む第２訓練データを取得する。サーバ１は、取得した第２訓練データに基づき、対象物の画像を入力した場合に行動情報を出力する第２行動情報出力モデル（第２学習モデル）１５２を生成する。なお、第１行動情報出力モデル１５１及び第２行動情報出力モデル１５２に関しては後述する。

図２は、サーバ１の構成例を示すブロック図である。サーバ１は、制御部１１、記憶部１２、通信部１３、読取部１４及び大容量記憶部１５を含む。各構成はバスＢで接続されている。

制御部１１はＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro-Processing Unit）、ＧＰＵ（Graphics Processing Unit）等の演算処理装置を含み、記憶部１２に記憶された制御プログラム１Ｐを読み出して実行することにより、サーバ１に係る種々の情報処理、制御処理等を行う。なお、制御プログラム１Ｐは、単一のコンピュータ上で、または１つのサイトにおいて配置されるか、もしくは複数のサイトにわたって分散され、通信ネットワークによって相互接続された複数のコンピュータ上で実行されるように展開することができる。なお、図２では制御部１１を単一のプロセッサであるものとして説明するが、マルチプロセッサであっても良い。

記憶部１２はＲＡＭ（Random Access Memory）、ＲＯＭ（Read Only Memory）等のメモリ素子を含み、制御部１１が処理を実行するために必要な制御プログラム１Ｐ又はデータ等を記憶している。また、記憶部１２は、制御部１１が演算処理を実行するために必要なデータ等を一時的に記憶する。通信部１３は通信に関する処理を行うための通信モジュールであり、ネットワークＮを介して、エッジ端末２等との間で情報の送受信を行う。

読取部１４は、ＣＤ（Compact Disc）－ＲＯＭ又はＤＶＤ（Digital Versatile Disc）－ＲＯＭを含む可搬型記憶媒体１ａを読み取る。制御部１１が読取部１４を介して、制御プログラム１Ｐを可搬型記憶媒体１ａより読み取り、大容量記憶部１５に記憶しても良い。また、ネットワークＮ等を介して他のコンピュータから制御部１１が制御プログラム１Ｐをダウンロードし、大容量記憶部１５に記憶しても良い。さらにまた、半導体メモリ１ｂから、制御部１１が制御プログラム１Ｐを読み込んでも良い。

大容量記憶部１５は、例えばＨＤＤ（Hard disk drive:ハードディスク）、ＳＳＤ(Solid State Drive:ソリッドステートドライブ)等の記録媒体を備える。大容量記憶部１５は、第１行動情報出力モデル１５１、第２行動情報出力モデル１５２、訓練データＤＢ（database）１５３及び学習モデル管理ＤＢ１５４を含む。

第１行動情報出力モデル１５１は、工場内で対象物に対し作業する作業者の画像に基づいて、当該対象物に対する行動情報を推定（出力）する推定器であり、機械学習により生成された学習済みモデルである。第２行動情報出力モデル１５２は、対象物の画像に基づいて、当該対象物に対する行動情報を推定する推定器であり、機械学習により生成された学習済みモデルである。

訓練データＤＢ１５３は、第１行動情報出力モデル１５１または第２行動情報出力モデル１５２を構築（作成）するための訓練データを記憶している。学習モデル管理ＤＢ１５４は、学習済みの第１行動情報出力モデル１５１または第２行動情報出力モデル１５２に関する情報を記憶している。

なお、本実施形態において記憶部１２及び大容量記憶部１５は一体の記憶装置として構成されていても良い。また、大容量記憶部１５は複数の記憶装置により構成されていても良い。更にまた、大容量記憶部１５はサーバ１に接続された外部記憶装置であっても良い。

サーバ１は、種々の情報処理及び制御処理等をコンピュータ単体で実行しても良いし、複数のコンピュータで分散して実行しても良い。また、サーバ１は、１台のサーバ内に設けられた複数の仮想マシンによって実現されても良いし、クラウドサーバを用いて実現されても良い。

図３は、訓練データＤＢ１５３及び学習モデル管理ＤＢ１５４のレコードレイアウトの一例を示す説明図である。訓練データＤＢ１５３は、種類列、入力データ列及び出力データ列を含む。種類列は、訓練データの種類を記憶している。訓練データの種類は、第１行動情報出力モデル１５１を生成するための第１訓練データ、及び第２行動情報出力モデル１５２を生成するための第２訓練データを含む。

訓練データの種類が第１訓練データである場合、入力データ列は、対象物に対し作業する作業者の画像を記憶している。工場内で対象物を処理するためのセンサ装置またはアクチュエータ装置等が設置される。作業者は、センサ装置またはアクチュエータ装置等のボタン（スイッチ）、レバー等を操作することにより、対象物に対し作業する。作業者の画像は、アクチュエータ装置等のボタンまたはレバー等を操作した作業者の画像である。訓練データの種類が第２訓練データである場合、入力データ列は、対象物の画像を記憶している。

出力データ列は、対象物に対する行動情報を記憶している。行動情報は、工場内で対象物に対し、工場内に設置されたセンサ装置またはアクチュエータ装置等を操作した作業者の行動に関する情報である。行動情報は、例えば撹拌回数、撹拌速度、押し出しタイミング、温度制御、湿度制御、気圧制御、流量制御、薬剤投入量、水投入量、冷灰投入量、材料追加または異常通知等を含む。

学習モデル管理ＤＢ１５４は、モデルＩＤ列、学習モデル列、種類列及び生成日時列を含む。モデルＩＤ列は、各学習済みの第１行動情報出力モデル１５１または第２行動情報出力モデル１５２を識別するために、一意に特定される学習モデルのＩＤを記憶している。学習モデル列は、学習済みの第１行動情報出力モデル１５１または第２行動情報出力モデル１５２のモデルファイルを記憶している。

種類列は、第１行動情報出力モデル１５１または第２行動情報出力モデル１５２を含む学習モデルの種類を記憶している。生成日時列は、第１行動情報出力モデル１５１または第２行動情報出力モデル１５２を生成した日時情報を記憶している。

なお、上述した各ＤＢの記憶形態は一例であり、データ間の関係が維持されていれば、他の記憶形態であっても良い。

図４は、エッジ端末２の構成例を示すブロック図である。エッジ端末２は、制御部２１、記憶部２２、通信部２３、入力部２４及び表示部２５を含む。各構成はバスＢで接続されている。

制御部２１はＣＰＵ、ＭＰＵ等の演算処理装置を含み、記憶部２２に記憶された制御プログラム２Ｐを読み出して実行することにより、エッジ端末２に係る種々の情報処理、制御処理等を行う。なお、図４では制御部２１を単一のプロセッサであるものとして説明するが、マルチプロセッサであっても良い。記憶部２２はＲＡＭ、ＲＯＭ等のメモリ素子を含み、制御部２１が処理を実行するために必要な制御プログラム２Ｐ又はデータ等を記憶している。また、記憶部２２は、制御部２１が演算処理を実行するために必要なデータ等を一時的に記憶する。

通信部２３は通信に関する処理を行うための通信モジュールであり、ネットワークＮを介して、サーバ１及び撮影装置３等と情報の送受信を行う。入力部２４は、キーボード、マウスまたは表示部２５と一体化したタッチパネルでも良い。表示部２５は、液晶ディスプレイ又は有機ＥＬ（electroluminescence）ディスプレイ等であり、制御部２１の指示に従い各種情報を表示する。

先ず、サーバ１は、第１行動情報出力モデル１５１を生成する。なお、第１行動情報出力モデル１５１の生成処理に関しては後述する。エッジ端末２は、生成された第１行動情報出力モデル１５１を用いて、第２行動情報出力モデル１５２を生成するための訓練データを作成（生成）する。

具体的には、エッジ端末２は、生成された第１行動情報出力モデル１５１をサーバ１から取得してデプロイする。エッジ端末２は、対象物に対し作業する作業者の画像、及び当該対象物を撮像した対象物の画像を撮影装置３から取得する。なお、本実施形態では、作業者の画像または対象物の画像が撮影装置３から送信された例を説明したが、これに限るものではない。例えば、撮影装置３が撮影した作業者の画像または対象物の画像をメモリーカード経由でエッジ端末２に転送しても良い。

エッジ端末２は、取得した作業者の画像を第１行動情報出力モデル１５１に入力して、当該対象物に対する行動情報を取得する。エッジ端末２は、取得した対象物の画像と、第１行動情報出力モデル１５１から出力された行動情報とを対応付けてサーバ１に送信する。サーバ１は、エッジ端末２から送信された対象物の画像と行動情報とを対応付けて、訓練データとして訓練データＤＢ１５３に記憶する。具体的には、サーバ１は、訓練データの種類（第２訓練データ）、対象物の画像及び行動情報を一つのレコードとして訓練データＤＢ１５３に記憶する。

次に、サーバ１は、第２行動情報出力モデル１５２を生成する。なお、第２行動情報出力モデル１５２の生成処理に関しては後述する。エッジ端末２は、生成された第２行動情報出力モデル１５２をサーバ１から取得してデプロイする。エッジ端末２は、工場内で対象物の画像を撮影装置３から取得する。エッジ端末２は、取得した対象物の画像を第２行動情報出力モデル１５２に入力して、当該対象物に対する行動情報を出力する。

なお、本実施形態では、第１行動情報出力モデル１５１及び第２行動情報出力モデル１５２をサーバ１側で学習した例を説明したが、これに限るものではない。例えば、第１行動情報出力モデル１５１または第２行動情報出力モデル１５２をエッジ端末２側で学習しても良い。

図５は、第１行動情報出力モデル１５１を説明する説明図である。第１行動情報出力モデル１５１は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される。第１行動情報出力モデル１５１は、工場内で対象物に対し作業する作業者の画像を入力とし、当該対象物に対する行動情報を出力とするニューラルネットワークを構築済みの推定器である。

サーバ１は、第１行動情報出力モデル１５１として、作業者の画像内における作業者の行動の特徴量を学習するディープラーニングを行うことで第１行動情報出力モデル１５１を生成する。例えば、第１行動情報出力モデル１５１はＣＮＮ（Convolution Neural Network）であり、対象物に対し作業する作業者の画像の入力を受け付ける入力層と、当該対象物に対する行動情報を出力する出力層と、バックプロパゲーションにより学習済の中間層とを有する。

入力層は、作業者の画像に含まれる各画素の画素値の入力を受け付ける複数のニューロンを有し、入力された画素値を中間層に受け渡す。なお、作業者の画像は、単一もしくは複数の静止画像であっても良いし、または作業者が対象物に対して作業した映像データであっても良い。

中間層は、作業者の画像の特徴量を抽出する複数のニューロンを有し、抽出した画像特徴量を出力層に受け渡す。中間層は、入力層から入力された各画素の画素値を畳み込むコンボリューション層と、コンボリューション層で畳み込んだ画素値をマッピングするプーリング層とが交互に連結された構成により、作業者の画像の画素情報を圧縮しながら最終的に画像の特徴量を抽出する。なお、作業者の画像が映像データである場合、中間層は映像データに含まれるフレーム画像（フレームごとの静止画像）の特徴量を抽出する。

その後中間層は、バックプロパゲーションによりパラメータが学習された全結合層により、作業者の画像に対応する作業者の行動に関する行動情報を推定（予測）する。推定結果は、複数のニューロンを有する出力層に出力される。

なお、作業者の画像は、交互に連結されたコンボリューション層とプーリング層とを通過して特徴量が抽出された後に、入力層に入力されても良い。

なお、ＣＮＮの代わりに、ＲＣＮＮ（Regions with Convolutional Neural Network）、ＦａｓｔＲＣＮＮ、ＦａｓｔｅｒＲＣＮＮ、ＳＳＤ（Single Shot Multibook Detector）、ＹＯＬＯ（You Only Look Once）、ＳＶＭ（Support Vector Machine）、ベイジアンネットワーク、トランスフォーマー（Transformer）ネットワーク、または回帰木等の任意の物体検出アルゴリズムを使用しても良い。

例えばサーバ１は、訓練データＤＢ１５３に蓄積された第１訓練データを用いて、第１行動情報出力モデル１５１を生成する。第１訓練データは、対象物に対し作業する作業者の画像と、当該対象物に対する行動情報とが対応付けられた組み合わせのデータである。作業者は工場内で対象物に対し、センサ装置またはアクチュエータ装置等のボタン、レバー等を操作する。第１訓練データは、対象物に対し作業する作業者から収集された大量の行動（操作）情報に基づいて生成される。なお、第１訓練データは別途人手で作成されたデータであっても良い。

サーバ１は、取得した第１訓練データを用いて学習を行う。具体的には、サーバ１は、第１訓練データである作業者の画像を入力層に入力し、中間層での演算処理を経て、出力層から対象物に対する行動情報を出力する。出力層は、例えばシグモイド関数またはソフトマックス関数を含み、中間層から出力された特徴量に基づいて、推定された行動情報の確率値を出力する。

サーバ１は、出力層から出力された推定結果を、第１訓練データにおいて作業者の画像に対しラベル付けされた情報、すなわち正解値と比較し、出力層からの出力値が正解値に近づくように、中間層での演算処理に用いるパラメータを最適化する。当該パラメータは、例えばニューロン間の重み（結合係数）、各ニューロンで用いられる活性化関数の係数等である。パラメータの最適化の方法は特に限定されないが、例えば、サーバ１は誤差逆伝播法を用いて各種パラメータの最適化を行う。

サーバ１は、第１訓練データに含まれる各作業者の画像について上記の処理を行い、第１行動情報出力モデル１５１を生成する。これにより、例えばサーバ１は当該第１訓練データを用いて第１行動情報出力モデル１５１の学習を行うことで、対象物に対する行動情報を出力可能なモデルを生成することができる。

サーバ１は、生成した第１行動情報出力モデル１５１を学習モデル管理ＤＢ１５４に記憶する。具体的には、サーバ１は、第１行動情報出力モデル１５１に対してモデルＩＤを割り振る。サーバ１は、割り振ったモデルＩＤに対応付けて、第１行動情報出力モデル１５１のモデルファイル、学習モデルの種類（第１行動情報出力モデル１５１）及び生成日時を一つのレコードとして学習モデル管理ＤＢ１５４に記憶する。

エッジ端末２は、学習済みの第１行動情報出力モデル１５１をサーバ１の学習モデル管理ＤＢ１５４から取得する。エッジ端末２は、取得した第１行動情報出力モデル１５１をデプロイする。

エッジ端末２は作業者の画像を取得した場合、取得した作業者の画像を第１行動情報出力モデル１５１に入力する。エッジ端末２は、第１行動情報出力モデル１５１の中間層にて作業者の画像の特徴量を抽出する演算処理を行う。エッジ端末２は、抽出した特徴量を第１行動情報出力モデル１５１の出力層に入力して、対象物に対する行動情報を推定した推定結果を出力として取得する。

図示のように、作業者の画像に対し、「行動情報Ａ」、「行動情報Ｂ」、「行動情報Ｃ」それぞれの確率値が、「０．９１」、「０．０４」、「０．０５」である推定結果が出力される。行動情報Ａは、「撹拌３回温度上げ薬剤１回投入」である。行動情報Ｂは、「撹拌２回温度上げ水１回投入」である。行動情報Ｃは、「撹拌２回気圧上げ薬剤１回投入」である。

また、所定閾値を利用して推定結果を出力しても良い。例えばエッジ端末２は、「行動情報Ａ」の確率値（０．９１）が所定閾値（例えば、０．８５）以上であると判定した場合、行動情報Ａを推定結果として出力する。なお、上述した閾値を利用せず、第１行動情報出力モデル１５１が識別した各行動情報の確率値から、最も高い確率値に対応する行動情報を推定結果として出力しても良い。

なお、上述した例での行動情報が一連の操作であるが、これに限るものではない。エッジ端末２は作業者の画像に基づき、個別操作である行動情報を出力しても良い。例えば、作業者が対象物に対して「撹拌１回」ボタンを押した場合、エッジ端末２は該作業者の画像に対し、「行動情報Ａ」、「行動情報Ｂ」、「行動情報Ｃ」それぞれの確率値が、「０．９１」、「０．０４」、「０．０５」である推定結果を出力する。例えば、行動情報Ａが「撹拌１回」であり、行動情報Ｂが「温度上げ」であり、行動情報Ｃが「薬剤１回投入」である。エッジ端末２は、最も高い確率値に対応する「撹拌１回」行動情報を推定結果として出力しても良い。

続いて、第１行動情報出力モデル１５１から出力された行動情報を用いて、第２行動情報出力モデル１５２を生成するための第２訓練データを作成する。具体的には、エッジ端末２は、当該作業者が作業した対象物の画像を取得する。エッジ端末２は、取得した対象物の画像と、第１行動情報出力モデル１５１から出力された行動情報とを対応付けてサーバ１に送信する。

サーバ１は、エッジ端末２から送信された対象物の画像及び行動情報を受信する。サーバ１は、受信した対象物の画像と、当該対象物に対する行動情報とを対応付けて記憶する。具体的には、サーバ１は、訓練データの種類（第２訓練データ）、対象物の画像及び行動情報を一つのレコードとして訓練データＤＢ１５３に記憶する。訓練データＤＢ１５３に記憶された第２訓練データを用いて、第２行動情報出力モデル１５２を生成することができる。

図６は、第２行動情報出力モデル１５２を説明する説明図である。第２行動情報出力モデル１５２は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される。第２行動情報出力モデル１５２は、工場内で対象物の画像を入力とし、当該対象物に対する行動情報を出力とするニューラルネットワークを構築済みの推定器である。

サーバ１は、第２行動情報出力モデル１５２として、対象物の画像内における特徴量を学習するディープラーニングを行うことで第２行動情報出力モデル１５２を生成する。例えば、第２行動情報出力モデル１５２はＣＮＮであり、対象物の画像の入力を受け付ける入力層と、当該対象物に対する行動情報を出力する出力層と、バックプロパゲーションにより学習済の中間層とを有する。

サーバ１は、訓練データＤＢ１５３に蓄積された第２訓練データを用いて、第２行動情報出力モデル１５２を生成する。第２訓練データは、対象物の画像と、当該対象物に対する行動情報とが対応付けられた組み合わせのデータである。

サーバ１は、取得した第２訓練データを用いて学習を行う。具体的には、サーバ１は、第２訓練データである対象物の画像を入力層に入力し、中間層での演算処理を経て、出力層から該対象物に対する行動情報を出力する。出力層は、例えばシグモイド関数またはソフトマックス関数を含み、中間層から出力された特徴量に基づいて、推定された行動情報の確率値を出力する。

サーバ１は、出力層から出力された推定結果を、第２訓練データにおいて対象物の画像に対しラベル付けされた情報、すなわち正解値と比較し、出力層からの出力値が正解値に近づくように、中間層での演算処理に用いるパラメータを最適化する。

サーバ１は、第２訓練データに含まれる各対象物の画像について上記の処理を行い、第２行動情報出力モデル１５２を生成する。これにより、例えばサーバ１は当該第２訓練データを用いて第２行動情報出力モデル１５２の学習を行うことで、対象物に対する行動情報を出力可能なモデルを生成することができる。

サーバ１は、生成した第２行動情報出力モデル１５２を学習モデル管理ＤＢ１５４に記憶する。具体的には、サーバ１は、第２行動情報出力モデル１５２に対してモデルＩＤを割り振る。サーバ１は、割り振ったモデルＩＤに対応付けて、第２行動情報出力モデル１５２のモデルファイル、学習モデルの種類（第２行動情報出力モデル１５２）及び生成日時を一つのレコードとして学習モデル管理ＤＢ１５４に記憶する。

エッジ端末２は、学習済みの第２行動情報出力モデル１５２をサーバ１の学習モデル管理ＤＢ１５４から取得する。エッジ端末２は、取得した第２行動情報出力モデル１５２をデプロイする。

エッジ端末２は対象物の画像を取得した場合、取得した対象物の画像を第２行動情報出力モデル１５２に入力する。エッジ端末２は、第２行動情報出力モデル１５２の中間層にて対象物の画像の特徴量を抽出する演算処理を行う。エッジ端末２は、抽出した特徴量を第２行動情報出力モデル１５２の出力層に入力して、対象物に対する行動情報を推定した推定結果を出力として取得する。

図示のように、対象物の画像に対し、「行動情報Ａ」、「行動情報Ｂ」、「行動情報Ｃ」それぞれの確率値が、「０．９０」、「０．０４」、「０．０６」である推定結果が出力される。行動情報Ａは、「撹拌１回温度上げ薬剤１回投入」である。行動情報Ｂは、「撹拌２回温度下げ水１回投入」である。行動情報Ｃは、「気圧上げ薬剤１回投入」である。

また、所定閾値を利用して推定結果を出力しても良い。例えばエッジ端末２は、「行動情報Ａ」の確率値（０．９０）が所定閾値（例えば、０．８５）以上であると判定した場合、行動情報Ａを推定結果として出力する。なお、上述した閾値を利用せず、第２行動情報出力モデル１５２が識別した各行動情報の確率値から、最も高い確率値に対応する行動情報を推定結果として出力しても良い。

なお、ＣＮＮの代わりに、ＲＣＮＮ、ＦａｓｔＲＣＮＮ、ＦａｓｔｅｒＲＣＮＮ、ＳＳＤ、ＹＯＬＯ、ＳＶＭ、ベイジアンネットワーク、トランスフォーマーネットワーク、または回帰木等の任意の物体検出アルゴリズムを使用しても良い。

図７は、第１行動情報出力モデル１５１の生成処理の手順を示すフローチャートである。サーバ１の制御部１１は、工場内で対象物に対し作業する作業者の画像と、当該対象物に対する行動情報とが対応付けられた第１訓練データを大容量記憶部１５の訓練データＤＢ１５３から複数取得する（ステップＳ１０１）。制御部１１は、取得した第１訓練データを用いて、作業者の画像を入力として、対象物に対する行動情報を出力とする第１行動情報出力モデル１５１を生成する（ステップＳ１０２）。

制御部１１は、生成した第１行動情報出力モデル１５１を大容量記憶部１５の学習モデル管理ＤＢ１５４に記憶し（ステップＳ１０３）、一連の処理を終了する。具体的には、制御部１１は、生成した第１行動情報出力モデル１５１に対してモデルＩＤを割り振り、割り振ったモデルＩＤに対応付けて、第１行動情報出力モデル１５１のモデルファイル及び生成日時を一つのレコードとして学習モデル管理ＤＢ１５４に記憶する。

図８は、第２訓練データを作成する際の処理手順を示すフローチャートである。サーバ１の制御部１１は、第１行動情報出力モデル１５１のモデルファイルを大容量記憶部１５の学習モデル管理ＤＢ１５４から取得する（ステップＳ１１１）。制御部１１は、取得した第１行動情報出力モデル１５１のモデルファイルを通信部１３によりエッジ端末２に送信する（ステップＳ１１２）。

エッジ端末２の制御部２１は、サーバ１から送信された第１行動情報出力モデル１５１のモデルファイルを通信部２３により受信する（ステップＳ２１１）。制御部２１は、受信した第１行動情報出力モデル１５１のモデルファイルを用いて、第１行動情報出力モデル１５１をデプロイする（ステップＳ２１２）。なお、上述した処理（ステップＳ１１１～１１２、及びステップＳ２１１～Ｓ２１２）が一度実行された場合、次回から処理の実行を省略することができる。

制御部２１は、工場内で対象物に対し作業する作業者の画像、及び対象物の画像を通信部２３により撮影装置３から取得する（ステップＳ２１３）。制御部２１は、取得した作業者の画像を第１行動情報出力モデル１５１に入力して（ステップＳ２１４）、当該対象物に対する行動情報を出力する（ステップＳ２１５）。制御部２１は、取得した対象物の画像と、第１行動情報出力モデル１５１から出力された行動情報とを対応付けて第２訓練データを作成する（ステップＳ２１６）。制御部２１は、生成した訓練データを通信部２３によりサーバ１に送信する（ステップＳ２１７）。

サーバ１の制御部１１は、エッジ端末２から送信された第２訓練データを通信部１３により受信する（ステップＳ１１３）。制御部１１は、受信した第２訓練データを大容量記憶部１５の訓練データＤＢ１５３に記憶し（ステップＳ１１４）、処理を終了する。具体的には、制御部１１は、訓練データの種類（第２訓練データ）、対象物の画像及び行動情報を一つのレコードとして訓練データＤＢ１５３に記憶する。

図９は、第２行動情報出力モデル１５２の生成処理の手順を示すフローチャートである。サーバ１の制御部１１は、工場内で対象物の画像と、当該対象物に対する行動情報とが対応付けられた第２訓練データを大容量記憶部１５の訓練データＤＢ１５３から複数取得する（ステップＳ１２１）。制御部１１は、取得した第２訓練データを用いて、対象物の画像を入力として、対象物に対する行動情報を出力とする第２行動情報出力モデル１５２を生成する（ステップＳ１２２）。

制御部１１は、生成した第２行動情報出力モデル１５２を大容量記憶部１５の学習モデル管理ＤＢ１５４に記憶し（ステップＳ１２３）、一連の処理を終了する。具体的には、制御部１１は、生成した第２行動情報出力モデル１５２に対してモデルＩＤを割り振り、割り振ったモデルＩＤに対応付けて、第２行動情報出力モデル１５２のモデルファイル及び生成日時を一つのレコードとして学習モデル管理ＤＢ１５４に記憶する。

本実施形態によると、作業者の画像を入力した場合に、作業者の行動に関する行動情報を出力するよう学習された第１行動情報出力モデル１５１を生成することが可能となる。

本実施形態によると、第１行動情報出力モデル１５１から出力された行動情報を用いて、第２行動情報出力モデル１５２を生成するための訓練データを作成することが可能となる。

本実施形態によると、第２行動情報出力モデル１５２を用いて、対象物の画像を入力して、該対象物に対する行動情報を出力することが可能となる。

本実施形態によると、工場内で対象物の画像から該対象物に対する行動情報を推定することにより、工場内のオペレーション自動化を実現することが可能となる。

＜変形例１＞
環境情報を含む第２訓練データを用いて、第２行動情報出力モデル１５２を学習する処理を説明する。環境情報は、電圧、電流、音、振動、温度、湿度または気圧などを含む。電圧、電流、音または振動等の環境情報は、電圧、電流、音または振動を検出するための検出装置から検出された時系列データである。または、電圧、電流、音または振動等の環境情報は、時系列データに基づいて作成された、電圧、電流、音または振動の変化を表すグラフ画像であっても良い。温度、湿度または気圧等の環境情報は、そのもののデータであっても良く、またはセンサ装置（温度センサ、湿度センサまたは気圧センサ等）から検出された時系列データであっても良い。更にまた、温度、湿度または気圧等の環境情報は、温度、湿度または気圧の変化を示すグラフ画像であっても良い。

図１０は、変形例１における訓練データＤＢ１５３のレコードレイアウトの一例を示す説明図である。なお、図３と重複する内容については同一の符号を付して説明を省略する。訓練データＤＢ１５３の入力データ列は、対象物の画像と、該対象物の画像に対応する環境情報とを記憶している。

図１１は、変形例１における第２行動情報出力モデル１５２を説明する説明図である。なお、図６と重複する内容については同一の符号を付して説明を省略する。第２行動情報出力モデル１５２は、工場内で対象物の画像と、該対象物の画像に対応する環境情報とを入力とし、当該対象物に対する行動情報を出力とするニューラルネットワークを構築済みの推定器である。

第２行動情報出力モデル１５２は、対象物の画像と環境情報との入力を受け付ける入力層と、当該対象物に対する行動情報を出力する出力層と、バックプロパゲーションにより学習済の中間層とを有する。

サーバ１は、訓練データＤＢ１５３に蓄積された第２訓練データを用いて、第２行動情報出力モデル１５２を生成する。第２訓練データは、対象物の画像及び環境情報と、当該対象物に対する行動情報とが対応付けられた組み合わせのデータである。サーバ１は、取得した第２訓練データを用いて学習を行う。

サーバ１は、第２訓練データである対象物の画像及び環境情報を入力層に入力し、中間層での演算処理を経て、出力層から該対象物に対する行動情報を出力する。サーバ１は、出力層から出力された推定結果を、第２訓練データにおいて対象物の画像及び環境情報に対しラベル付けされた情報、すなわち正解値と比較し、出力層からの出力値が正解値に近づくように、中間層での演算処理に用いるパラメータを最適化する。

サーバ１は、第２訓練データに含まれる各対象物の画像及び環境情報について上記の処理を行い、第２行動情報出力モデル１５２を生成する。サーバ１は、生成した第２行動情報出力モデル１５２を学習モデル管理ＤＢ１５４に記憶する。

なお、環境情報が時系列データである場合、再帰型ニューラルネットワークのＲＮＮ(Recurrent Neural Network)、ＬＳＴＭ（Long Short-Term Memory）若しくはＧＲＵ（Gated Recurrent Unit）、またはトランスフォーマーネットワーク等を用いて、第２行動情報出力モデル１５２を生成することができる。

本変形例によると、環境情報を含む第２訓練データを用いて第２行動情報出力モデル１５２を学習することにより、精度の高い行動情報を得ることが可能となる。

＜変形例２＞
作業者ごとに第２行動情報出力モデル１５２を生成する処理を説明する。

図１２は、変形例２における訓練データＤＢ１５３及び学習モデル管理ＤＢ１５４のレコードレイアウトの一例を示す説明図である。なお、図３と重複する内容については同一の符号を付して説明を省略する。

訓練データＤＢ１５３及び学習モデル管理ＤＢ１５４は、作業者ＩＤ列を含む。作業者ＩＤ列は、作業者を特定する作業者ＩＤを記憶している。

作業者ごとの第２訓練データを用いて、作業者ごとに第２行動情報出力モデル１５２を生成することができる。具体的には、エッジ端末２は、工場内で対象物に対し作業する作業者の画像、及び対象物の画像を撮影装置３から取得する。エッジ端末２は、取得した作業者の画像を第１行動情報出力モデル１５１に入力して、当該対象物に対する行動情報を出力する。エッジ端末２は、取得した対象物の画像と、第１行動情報出力モデル１５１から出力された行動情報とを対応付けて第２訓練データを作成する。制御部２１は、生成した第２訓練データを作業者ＩＤに対応付けてサーバ１に送信する。

サーバ１は、エッジ端末２から送信された作業者ＩＤ及び第２訓練データを受信する。サーバ１は、受信した第２訓練データを作業者ＩＤに対応付けて訓練データＤＢ１５３に記憶する。具体的には、サーバ１は、作業者ＩＤ、訓練データの種類（第２訓練データ）、対象物の画像及び行動情報を一つのレコードとして訓練データＤＢ１５３に記憶する。

そして、サーバ１は、訓練データＤＢ１５３に蓄積された作業者ごとの第２訓練データを用いて、作業者ごとに第２行動情報出力モデル１５２を生成する。具体的には、サーバ１は、各作業者ＩＤに対応付けて、各作業者の第２訓練データを訓練データＤＢ１５３から取得する。サーバ１は、取得した各作業者の第２訓練データを用いて、作業者ごとに第２行動情報出力モデル１５２を生成する。なお、第２行動情報出力モデル１５２の生成処理は、実施形態１と同様であるため、説明を省略する。

サーバ１は、生成した第２行動情報出力モデル１５２を作業者ＩＤに対応付けて学習モデル管理ＤＢ１５４に記憶する。具体的には、サーバ１は、割り振ったモデルＩＤに対応付けて、第２行動情報出力モデル１５２のモデルファイル、学習モデルの種類（第２行動情報出力モデル）、生成日時及び作業者ＩＤを一つのレコードとして学習モデル管理ＤＢ１５４に記憶する。

なお、本変形例では、作業者ごとに第２行動情報出力モデル１５２を生成した処理を説明したが、これに限らず、作業者ごとに第１行動情報出力モデル１５１を生成しても良い。

本変形例によると、作業者ごとに第２行動情報出力モデル１５２を生成することが可能となる。

＜変形例３＞
対象物の処理工程ごとに第２行動情報出力モデル１５２を生成する処理を説明する。

図１３は、変形例３における訓練データＤＢ１５３及び学習モデル管理ＤＢ１５４のレコードレイアウトの一例を示す説明図である。なお、図３と重複する内容については同一の符号を付して説明を省略する。

訓練データＤＢ１５３及び学習モデル管理ＤＢ１５４は、処理工程列を含む。処理工程列は、対象物の処理工程を記憶している。処理工程は、工場内の対象物を処理する工程である。例えば対象物がアルミ灰である場合、アルミ灰の絞り状況に応じて、「アルミ絞り中」または「アルミ絞り止り」等を含む。

サーバ１は、訓練データＤＢ１５３に蓄積された第２訓練データを用いて、処理工程ごとに第２行動情報出力モデル１５２を生成する。第２訓練データは、処理工程ごとに、対象物の画像と、当該対象物に対する行動情報とが対応付けられた組み合わせのデータであり、または、対象物の画像及び環境情報と、当該対象物に対する行動情報とが対応付けられた組み合わせのデータである。

以下では、「アルミ絞り中」処理工程における第２行動情報出力モデル１５２を生成する例を説明する。サーバ１は、「アルミ絞り中」処理工程に対応する第２訓練データを訓練データＤＢ１５３から取得する。サーバ１は、取得した第２訓練データを用いて第２行動情報出力モデル１５２を生成する。

サーバ１は、生成した第２行動情報出力モデル１５２を学習モデル管理ＤＢ１５４に記憶する。具体的には、サーバ１は、割り振ったモデルＩＤに対応付けて、第２行動情報出力モデル１５２のモデルファイル、学習モデルの種類（第２行動情報出力モデル）、生成日時及び処理工程（アルミ絞り中）を一つのレコードとして学習モデル管理ＤＢ１５４に記憶する。

図１４は、処理工程ごとに対象物に対する行動情報を出力する際の処理手順を示すフローチャートである。エッジ端末２の制御部２１は、処理工程の選択（指定）を入力部２４により受け付ける（ステップＳ２３１）。制御部２１は通信部２３を介して、受け付けた処理工程に応じた対象物の画像を撮影装置３から取得する（ステップＳ２３２）。例えば対象物に対し、各処理工程に対応する撮影装置３を配置しても良い。各処理工程に対応する撮影装置３は、該当する処理工程に応じて対象物を撮影する。なお、対象物の画像が予め記憶部２２またはサーバ１の大容量記憶部１５に記憶された場合、制御部２１は、これらの対象物の画像を取得しても良い。

制御部２１は、受け付けた処理工程に対応する第２行動情報出力モデル１５２を取得する（ステップＳ２３３）。具体的には、サーバ１の制御部１１は、処理工程列を参照し、該当する第２行動情報出力モデル１５２のモデルファイルを大容量記憶部１５の学習モデル管理ＤＢ１５４から抽出する。サーバ１の制御部１１は、抽出した第２行動情報出力モデル１５２のモデルファイルをエッジ端末２に送信する。

制御部２１は、取得した第２行動情報出力モデル１５２をデプロイする（ステップＳ２３４）。なお、ステップＳ２３３～Ｓ２３４の処理が一度実行された場合、次回から処理の実行を省略することができる。制御部２１は、該処理工程に応じた対象物の画像を、取得した第２行動情報出力モデル１５２に入力し（ステップＳ２３５）、当該対象物に対する行動情報を出力する（ステップＳ２３６）。制御部２１は、処理を終了する。

なお、環境情報を利用した場合は、処理工程のごとに、対象物に対応する環境情報を取得するためのセンサ装置（温度センサ、湿度センサまたは気圧センサ等）が設置される。制御部２１は、処理工程に応じた対象物の画像を、当該処理工程に対応する撮影装置３から取得する。制御部２１は、当該対象物に対応する環境情報を、当該処理工程に対応するセンサ装置から取得する。制御部２１は、取得した対象物の画像及び当該対象物に対応する環境情報を、当該処理工程に対応する第２行動情報出力モデル１５２に入力し、当該対象物に対する行動情報を出力する。

図１５は、対象物の各処理工程の学習状況の表示画面の一例を示す説明図である。図１５では、アルミ灰の処理工程の例を説明するが、他の対象物の処理工程にも同様に適用することができる。例えば、アルミ灰の窯内の燃焼状況に応じて、アルミ灰の処理工程が「アルミ絞り中（第１段階）」、「アルミ絞り中（第２段階）」及び「アルミ絞り止り」に分類される。

該画面は、学習状況表示欄１１ａ及び学習ボタン１１ｂを含む。学習状況表示欄１１ａは、各処理工程の学習状況を表示する表示欄である。学習状況は、例えば「学習済み」、「学習中」及び「未学習」等を含む。学習ボタン１１ｂは、未学習の第２行動情報出力モデル１５２を学習させるボタンである。

エッジ端末２は、処理工程ごとに第２行動情報出力モデル１５２の学習状況を取得する。具体的には、エッジ端末２は、処理工程ごとに学習済みの第２行動情報出力モデル１５２がサーバ１の学習モデル管理ＤＢ１５４に存在しているか否かを問い合わせる。エッジ端末２は、第２行動情報出力モデル１５２のモデルファイルが存在している場合、該処理工程に対応する第２行動情報出力モデル１５２の学習状況が「学習済み」である。エッジ端末２は、第２行動情報出力モデル１５２のモデルファイルが存在していない場合、該処理工程に対応する第２行動情報出力モデル１５２の学習状況が「未学習」である。

エッジ端末２は、未学習の処理工程に対応する第２行動情報出力モデル１５２に対し、学習ボタン１１ｂを生成して画面に表示する。エッジ端末２は、学習ボタン１１ｂのタッチ操作を受け付けた場合、第２行動情報出力モデル１５２の学習指示をサーバ１に送信する。エッジ端末２は、該処理工程に対応する第２行動情報出力モデル１５２の学習状況を「未学習」から「学習中」に変更する。

サーバ１は、エッジ端末２から送信された学習指示に応じて、該処理工程に対応する第２行動情報出力モデル１５２の学習処理を行う。サーバ１は、第２行動情報出力モデル１５２を生成した場合、学習済みの第２行動情報出力モデル１５２のモデルファイルをエッジ端末２に送信する。エッジ端末２は、サーバ１から送信された学習済みの第２行動情報出力モデル１５２のモデルファイルを受信する。エッジ端末２は、該処理工程に対応する第２行動情報出力モデル１５２の学習状況を「学習中」から「学習済み」に変更する。

なお、本変形例では、対象物の処理工程ごとに第２行動情報出力モデル１５２を生成した処理を説明したが、これに限らず、対象物の処理工程ごとに第１行動情報出力モデル１５１を生成しても良い。

本変形例によると、対象物の処理工程ごとに第２行動情報出力モデル１５２を生成することが可能となる。

＜変形例４＞
作業者による作業と、第２行動情報出力モデル１５２による行動情報に基づく処理との切り替える処理を説明する。

対象物の画像が取得された場合、作業者による手作業と、第２行動情報出力モデル１５２による行動情報に基づく処理との切り替えることができる。作業者による作業への切り替え後に、サーバ１は、対象物に対し作業する作業する作業者の画面を取得する。サーバ１は、取得した作業者の画像と、第１行動情報出力モデル１５１から出力された対象物に対する行動情報（分類結果）とに応じて、第２訓練データを作成する。サーバ１は、作成した第２訓練データを用いて第２行動情報出力モデル１５２を再学習する。なお、第２行動情報出力モデル１５２の学習処理に関しては、実施形態１での学習処理と同様であるため、説明を省略する。サーバ１は、再学習した第２行動情報出力モデル１５２を学習モデル管理ＤＢ１５４に記憶する。

図１６は、第２行動情報出力モデル１５２を再学習する際の処理手順を示すフローチャートである。エッジ端末２の制御部２１は、作業者による作業への切り替えを入力部２４により受け付ける（ステップＳ２７１）。例えば制御部２１は、後述する図２２の画面を通じて、作業者による作業への切り替えを選択欄１２ｃにより受け付けても良い。制御部２１は、作業者の画像を通信部２３により撮影装置３から取得する（ステップＳ２７２）。制御部２１は、作業者による作業への切り替え指示と、取得した作業者の画像とを通信部２３によりサーバ１に送信する（ステップＳ２７３）。

サーバ１の制御部１１は、エッジ端末２から送信された切り替え指示及び作業者の画像を通信部１３により受信する（ステップＳ１７１）。制御部１１は、受信した作業者の画像と、第１行動情報出力モデル１５１から出力された対象物に対する行動情報とに応じて、第２訓練データを作成する（ステップＳ１７２）。制御部１１は、作成した第２訓練データを用いて、実施形態１の学習処理と同様に、第２行動情報出力モデル１５２を再学習する（ステップＳ１７３）。制御部１１は、再学習した第２行動情報出力モデル１５２を大容量記憶部１５の学習モデル管理ＤＢ１５４に更新する（ステップＳ１７４）。

制御部１１は、第２行動情報出力モデル１５２のモデルファイルを通信部１３によりエッジ端末２に送信する（ステップＳ１７５）。エッジ端末２の制御部２１は、サーバ１から送信された第２行動情報出力モデル１５２のモデルファイルを通信部２３により受信する（ステップＳ２７４）。制御部２１は、受信した第２行動情報出力モデル１５２のモデルファイルを用いて、第２行動情報出力モデル１５２をデプロイし（ステップＳ２７５）、処理を終了する。

本変形例によると、作業者による作業への切り替え後に、作業者の画像に基づいて作成された第２訓練データを用いて、第２行動情報出力モデル１５２を再学習することが可能となる。

なお、上述した処理の他に、作業者ごとに、対象物の各処理工程の第２行動情報出力モデル１５２を生成することができる。この場合、作業者ＩＤ及び処理工程に対応付けて、第２訓練データが訓練データＤＢ１５３に蓄積される。サーバ１は、作業者ごとに、対象物の各処理工程における第２行動情報出力モデル１５２を生成した場合、作業者ごとに、各処理工程に対応する第２訓練データを訓練データＤＢ１５３から取得する。サーバ１は、取得した第２訓練データを用いて、作業者ごとに、対象物の各処理工程における第２行動情報出力モデル１５２を生成する。なお、作業者ごとに、対象物の各処理工程の第１行動情報出力モデル１５１を生成しても良い。

なお、上述した実施形態では第１行動情報出力モデル１５１を生成した後に、第２行動情報出力モデル１５２を生成する例を示したがこれに限るものではない。両者の訓練データを同時に取得し、同時に取得した訓練データに基づき、第１行動情報出力モデル１５１及び第２行動情報出力モデル１５２を学習させても良い。例えば、作業者の画像及び対象物の画像を１または複数の撮像装置により同時に取得するとともに、作業者の行動情報の正解ラベルを取得する。サーバ１は、取得した作業者の画像と行動情報とに基づき第１行動情報出力モデル１５１を生成する。サーバ１はまた、取得した対象物の画像と行動情報とに基づき第２行動情報出力モデル１５２を生成する。

（実施形態２）
実施形態２は、第２行動情報出力モデル１５２による行動情報に基づく当該対象物に関する評価を特定する形態に関する。なお、実施形態１と重複する内容については説明を省略する。

エッジ端末２は、第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に関する評価情報を取得する。対象物に関する評価情報は、生産速度、歩留まり率、装置の不具合低減、省エネルギー、環境への影響等を含む。

例えばエッジ端末２は、第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に対し、該対象物の生産速度が上がったか否かを判定しても良い。または、エッジ端末２は、第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に対し、該対象物を生産するための装置の不具合が低減したか否かを判定しても良い。

例えば、対象物がアルミ灰である場合、エッジ端末２は、アルミ灰の画像を第２行動情報出力モデル１５２に入力して、アルミ灰に対する行動情報を出力する。行動情報は、例えば「撹拌１回、温度上げ、少量水投入」である。エッジ端末２は、第２行動情報出力モデル１５２から出力された行動情報に応じて、工場内に設置されたアクチュエータ装置に操作指示を出力する。

アクチュエータ装置は、エッジ端末２から送信された操作指示に応じて、アルミ灰を処理する。エッジ端末２は、アルミ灰の処理速度等の評価情報を取得する。エッジ端末２は、取得したアルミ灰の処理速度と基準の処理速度とを比較する。エッジ端末２は、アルミ灰の処理速度が基準の処理速度以下である場合、アルミ灰に関する評価が低いと判定する。エッジ端末２は、アルミ灰に関する評価が低いと判定した場合、アラートを画面に出力する。

なお、対象物を購入した顧客による評価情報、または、対象物に対するアンケートに基づく評価情報等を利用しても良い。

図１７は、対象物に関する評価を特定する際の処理手順を示すフローチャートである。エッジ端末２の制御部２１は、対象物の画像を通信部２３により撮影装置３から取得する（ステップＳ２４１）。制御部２１は、取得した対象物の画像を第２行動情報出力モデル１５２に入力し（ステップＳ２４２）、当該対象物に対する行動情報を出力する（ステップＳ２４３）。

制御部２１は、対象物に関する評価情報（生産速度、歩留まり率等）を取得する（ステップＳ２４４）。制御部２１は、取得した対象物に関する評価情報に基づき、対象物の評価が低いか否かを判定する（ステップＳ２４５）。例えば、制御部２１は、取得した対象物の生産速度と基準の生産速度とを比較し、生産速度が低いか否かを判定しても良い。

制御部２１は、対象物の評価が低いと判定した場合（ステップＳ２４５でＹＥＳ）、評価が低い旨を含むアラートを表示部２５により表示し（ステップＳ２４６）、処理を終了する。制御部２１は、対象物の評価が高いと判定した場合（ステップＳ２４５でＮＯ）、処理を終了する。

続いて、評価の高い第２行動情報出力モデル１５２の選択を受け付ける処理を説明する。複数の第２行動情報出力モデル１５２が用意された場合、エッジ端末２は、各第２行動情報出力モデル１５２を用いて、対象物（例えば、アルミ灰）に対する行動情報のそれぞれを取得する。エッジ端末２は、各第２行動情報出力モデル１５２から出力された行動情報に応じて、工場内に設置されたアクチュエータ装置に操作指示を出力する。

アクチュエータ装置は、エッジ端末２から送信された操作指示に応じて、アルミ灰を処理する。エッジ端末２は、各第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に対し、当該対象物に関する評価情報を取得する。エッジ端末２は、対象物に対する評価の高い第２行動情報出力モデル１５２の選択を受け付ける。エッジ端末２は、エッジ端末２は、受け付けた第２行動情報出力モデル１５２をデプロイする。

図１８は、処理工程ごとに評価の高い第２行動情報出力モデル１５２の選択を受け付ける際の処理手順を示すフローチャートである。エッジ端末２の制御部２１は、通信部２３を介して、処理工程ごとに複数の第２行動情報出力モデル１５２をサーバ１の学習モデル管理ＤＢ１５４から取得する（ステップＳ２５１）。制御部２１は、対象物の画像を通信部２３により撮影装置３から取得する（ステップＳ２５２）。制御部２１は、取得した対象物の画像を、処理工程ごとに各第２行動情報出力モデル１５２に入力し（ステップＳ２５３）、対象物に対する行動情報を各第２行動情報出力モデル１５２から出力する（ステップＳ２５４）。

制御部２１は、第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に対し、当該対象物に関する評価情報（生産速度、歩留まり率等）を取得する（ステップＳ２５５）。制御部２１は、処理工程ごとに評価の高い第２行動情報出力モデル１５２の選択を入力部２４により受け付ける（ステップＳ２５６）。制御部２１は、処理工程ごとに、受け付けた第２行動情報出力モデル１５２をデプロイし（ステップＳ２５７）、処理を終了する。

本実施形態によると、第２行動情報出力モデル１５２による行動情報に基づく当該対象物に関する評価を特定することが可能となる。

本実施形態によると、対象物に関する評価が低いと判定した場合にアラートを出力することが可能となる。

本実施形態によると、各処理工程で対象物に関する評価の高い第２行動情報出力モデル１５２の選択を受け付けることが可能となる。

（実施形態３）
実施形態３は、対象物に関する評価を報酬として、第２行動情報出力モデル１５２を強化学習により学習する形態に関する。なお、実施形態１～２と重複する内容については説明を省略する。

図１９は、実施形態２のサーバ１の構成例を示すブロック図である。なお、図２と重複する内容については同一の符号を付して説明を省略する。大容量記憶部１５には、スコアＤＢ１５５が記憶されている。スコアＤＢ１５５は、強化学習において与えられる報酬（スコア）を規定するテーブルであり、対象物評価の行動と、対象物評価に対して各行動を取った場合に与えられる報酬とを対応付けて記憶するテーブルである。

図２０は、スコアＤＢ１５５のレコードレイアウトの一例を示す説明図である。スコアＤＢ１５５は、ステータス列及びスコア列を含む。ステータス列は、強化学習における報酬付与の基準とし、対象物評価のステータスを記憶している。本実施の形態では、報酬付与の基準とする対象物（例えば、アルミ灰）評価のステータスとしては、生産速度、歩留まり率、装置の不具合低減、省エネまたは環境への影響に対して評価するためのステータスを定義してある。例えば、生産速度に対する二つのレベルを設けても良い。対象物が生産速度のレベル１に達成した場合、１０点のスコアを得て、生産速度のレベル２に達成した場合、１５点のスコアを得る。スコア列は、対象物評価のステータスに対応付けて、強化学習の際の報酬値とするスコアを記憶している。

本実施形態では、サーバ１は強化学習手法を用いて、対象物の画像及び環境情報（電圧、電流、音、振動、温度、湿度または気圧）に基づき、対象物に対する行動情報を学習する処理を行う。

強化学習（ＤＱＮ：Deep Q-Network）は、機械学習の手法の一つであり、現在の状態（ｓ；States）を元に取るべき行動（ａ；Actions）を選択するための学習手法である。より詳細には、強化学習は、ある方策（π；Policy）に基づきある状態である行動を取った場合に、得られた報酬（ｒ；Reward）から当該方策を評価し、将来に亘って得られる報酬の累積値を最大化するよう方策を改善する手法である。強化学習では、例えば以下の式（１）、（２）を用いて方策の評価と改善とを行う。

式（１）は状態価値関数であり、方策πの下での状態ｓの価値を定義する関数である。Ｒｔは最終的な累積報酬を表す関数（Reward Function）であり、ある時点ｔでの報酬ｒと、遠い将来に得られる報酬ｒほど割り引いて評価するための割引率γ（Discount Factor）とで表される。式（１）に示すように、状態価値関数は、ある状態ｓにおいて得られるであろう累積報酬Ｒｔの期待値で表される。

式（２）は行動価値関数であり、方策πの下で、状態ｓにおいて行動ａを取ることの価値を定義する関数である。行動価値関数も状態価値関数と同様に、累積報酬Ｒｔの期待値で表される。

強化学習では、式（１）、（２）で表される各関数を、次の式（３）、（４）で示すように最大化（最適化）する学習を行う。

式（３）、（４）をまとめると、次の式（５）となる。

強化学習では、式（５）を目的関数として、当該目的関数の最適化を行う。具体的には、例えばモンテカルロ法、Ｑ学習、方策勾配法等を用いて、目的関数の最適化を行う。なお、これらの最適化アルゴリズムは公知のものであるため詳細な説明は省略する。

サーバ１は上述の強化学習を用いて、対象物に対する行動情報を学習する処理を行う。具体的には、サーバ１は、対象物の画像及び環境情報を状態ｓとし、対象物に対する行動情報を行動ａとして、スコアＤＢ１５５で規定される報酬（スコア）に基づく強化学習を行う。

サーバ１は、対象物の画像及び環境情報を状態ｓとして、式（５）で表される目的関数に入力する。サーバ１は、スコアＤＢ１５５を参照し、対象物に対する評価行動に基づいて報酬値を算出する。スコアＤＢ１５５は、対象物の評価行動を判定基準として、対象物の各ステータスの評価行動を取った場合に与えられる報酬ｒを規定している。具体的には図２０で説明したように、スコアＤＢ１５５は、対象物の評価行動を表すステータスそれぞれに対応付けて、強化学習の報酬ｒとするスコアを格納している。

スコアＤＢ１５５では、例えば対象物の生産速度に対する「生産速度のレベル１に達成」及び「生産速度のレベル２に達成」二つのステータスと定義しても良い。「生産速度のレベル１に達成」の場合のスコアを「１０」と定義し、「生産速度のレベル２に達成」の場合のスコアを「１５」と定義している。つまり、対象物の生産速度が生産速度のレベル１に達成した場合、報酬ｒとして１０ポイントが与えられる。なお、対象物の生産速度が生産速度のレベル１及び生産速度のレベル２の両方に達成していない場合、報酬ｒとして０ポイントが与えられる。または評価が低いことに応じて、報酬ｒとしてマイナスポイント（例えば、－１０ポイント）が与えられても良い。従って、スコアＤＢ１５５のステータス列に対応する対象物の評価行動に基づき、累積報酬Ｒｔが計算される。

サーバ１は、上記のように算出される報酬を元に、目的関数の最適化を行う。すなわち、サーバ１は、対象物に対する行動情報を行動ａとし、対象物の画像及び環境情報を状態ｓとして、対象物に対する行動情報を元に算出された累積報酬Ｒｔを元に、式（５）で表されるＱ関数の最適化を行う。

上記のようにしてサーバ１は、対象物の画像及び環境情報（状態ｓ）を入力値として、対象物に対する行動情報（行動ａ）を出力値として得る学習済みの第２行動情報出力モデル１５２を生成する。

なお、本実施形態では、対象物の画像及び環境情報（状態ｓ）を入力値として説明したが、これに限るものではない。例えばサーバ１は、対象物の画像（状態ｓ）のみを入力値として、対象物に対する行動情報（行動ａ）を出力値として得る学習済みの第２行動情報出力モデル１５２を生成しても良い。

なお、上述した強化学習処理に限るものではない。例えば、シーケンスモデリングによる強化学習の手法の一つであるDecision Transformerを用いて、第２行動情報出力モデル１５２を学習しても良い。

図２１は、第２行動情報出力モデル１５２の強化学習を行う際の処理手順を示すフローチャートである。サーバ１の制御部１１は、通信部１３を介して、対象物の画像、及び当該対象物に対応する環境情報（電圧、電流、音、振動、温度、湿度または気圧）を取得する（ステップＳ１６１）。

制御部１１は、取得した対象物の画像及び環境情報を用いて、第２行動情報出力モデル１５２の強化学習を行う（ステップＳ１６２）。具体的には、制御部１１は、対象物の画像及び環境情報を状態ｓとして、式（５）で表される目的関数に入力する。制御部１１は、スコアＤＢ１５５を参照し、対象物に対する評価行動に基づいて報酬値を算出する。制御部１１は、算出した報酬を元に目的関数の最適化を行うことにより、第２行動情報出力モデル１５２を強化学習する。

制御部１１は、強化学習を行った第２行動情報出力モデル１５２を大容量記憶部１５の学習モデル管理ＤＢ１５４に更新し（ステップＳ１６３）、処理を終了する。具体的には、制御部１１はモデルＩＤに対応付けて、第２行動情報出力モデル１５２のモデルファイル、学習モデルの種類（第２行動情報出力モデル）及び生成日時を一つのレコードとして学習モデル管理ＤＢ１５４に記憶する。

なお、作業者ごとに第２行動情報出力モデル１５２の強化学習を行っても良い。また、対象物の処理工程ごとに第２行動情報出力モデル１５２の強化学習を行っても良い。更にまた、作業者ごとに、対象物の各処理工程における第２行動情報出力モデル１５２の強化学習を行っても良い。

本実施形態によると、強化学習手法を用いて、対象物に対する行動情報を学習することが可能となる。

本実施形態によると、対象物に対する最適な行動情報を出力することにより、生産性を向上させることが可能となる。

（実施形態４）
実施形態４は、作業者ごとに、各処理工程に対応する第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に対し、当該対象物に関する評価情報を表示する形態に関する。なお、実施形態１～３と重複する内容については説明を省略する。

図２２は、対象物に関する評価情報の表示画面の一例を示す説明図である。図２２では、アルミ灰の処理工程の例を説明するが、他の対象物の処理工程にも同様に適用することができる。例えば、アルミ灰の窯内の燃焼状況に応じて、アルミ灰の処理工程が「アルミ絞り中（第１段階）」、「アルミ絞り中（第２段階）」及び「アルミ絞り止り」に分類される。

該画面は、名称表示欄１２ａ、サムネイル画像表示欄１２ｂ、選択欄１２ｃ及び情報表示欄１２ｄを含む。名称表示欄１２ａは、処理工程の名称を表示する表示欄である。サムネイル画像表示欄１２ｂは、処理工程のサムネイル画像を表示する表示欄である。

選択欄１２ｃは、作業者ごとの第２行動情報出力モデル１５２の選択、または、作業者による作業への切り替え先の選択を受け付ける選択欄である。図示のように、選択欄１２ｃには、「作業者Ａ第２行動情報出力モデル」、「作業者Ｂ第２行動情報出力モデル」、「作業者Ａによる作業への切り替え」及び「作業者Ｂによる作業への切り替え」が設定される。なお、選択欄１２ｃに設定された項目は、実際のニーズに応じて設定されても良い。

情報表示欄１２ｄは、選択欄１２ｃにおいてモデルが選択されている場合、モデル名と、該モデルの対象物に関する評価情報が表示される。一方、情報表示欄１２ｄは、選択欄１２ｃにおいて作業者への切り替えが選択されている場合、作業者による作業への切り替えに関する情報が表示される。

エッジ端末２は、アルミ灰の処理工程の名称及びサムネイル画像を取得する。なお、処理工程の名称及びサムネイル画像がサーバ１の大容量記憶部１５に記憶されても良く、またはエッジ端末２の記憶部２２に記憶されても良い。エッジ端末２は、取得した処理工程の名称を名称表示欄１２ａに表示し、取得した処理工程のサムネイル画像をサムネイル画像表示欄１２ｂに表示する。

エッジ端末２は、選択欄１２ｃの選択操作を受け付けた場合、選択された項目に応じて、情報表示欄１２ｄに表示される情報を取得する。例えばエッジ端末２は、「アルミ絞り中（第１段階）」処理工程における「作業者Ａ第２行動情報出力モデル」項目の選択を受け付ける。エッジ端末２は、「アルミ絞り中（第１段階）」処理工程に対し、作業者Ａに対応する第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に関する評価情報を取得する。対象物に関する評価情報は、生産速度、歩留まり率、装置の不具合低減、省エネルギー、環境への影響等を含む。エッジ端末２は、取得した評価情報を、「アルミ絞り中（第１段階）」処理工程に対応する情報表示欄１２ｄに表示する。図示のように、「作業者Ａ第２行動情報出力モデル」項目に対し、「生産速度：高歩留まり率：８５％・・・」となった評価情報が情報表示欄１２ｄに表示される。

また、例えばエッジ端末２は、「アルミ絞り中（第２段階）」処理工程における「作業者Ｂ第２行動情報出力モデル」項目の選択を受け付ける。エッジ端末２は、「アルミ絞り中（第２段階）」処理工程に対し、作業者Ｂに対応する第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に関する評価情報を取得する。エッジ端末２は、取得した評価情報を、「アルミ絞り中（第２段階）」処理工程に対応する情報表示欄１２ｄに表示する。図示のように、「作業者Ｂ第２行動情報出力モデル」項目に対し、「生産速度：高歩留まり率：８７％・・・」となった評価情報が情報表示欄１２ｄに表示される。

更にまた、例えばエッジ端末２は、「アルミ絞り止り」処理工程における「作業者Ａによる作業への切り替え」項目の選択を受け付ける。エッジ端末２は、作業者の画像を撮影装置３から取得する。エッジ端末２は、作業者による作業への切り替え指示と、取得した作業者の画像とをサーバ１に送信する。サーバ１は、エッジ端末２から送信された切り替え指示及び作業者の画像を受信する。サーバ１は、受信した作業者の画像と、第１行動情報出力モデル１５１から出力された対象物に対する行動情報とに応じて、第２訓練データを作成する。

サーバ１は、作成した第２訓練データを用いて、実施形態１の学習処理と同様に、第２行動情報出力モデル１５２を再学習する。サーバ１は、学習中の旨を含むメッセージをエッジ端末２に送信する。エッジ端末２は、サーバ１から送信されたメッセージを受信する。エッジ端末２は、受信したメッセージを、「アルミ絞り止り」処理工程に対応する情報表示欄１２ｄに表示する。図示のように、「作業者Ａによる作業への切り替え」項目に対し、「作業者Ａによる作業に基づき、学習中」、または、再学習処理の終了に伴い「作業者Ａの第２行動情報出力モデル学習完了」等のメッセージが表示される。

なお、図２２では第２行動情報出力モデル１５２の例を説明したが、これに限らず、第１行動情報出力モデル１５１にも同様に適用することができる。

本実施形態によると、作業者ごとに、各処理工程に対応する第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に対し、当該対象物に関する評価情報を表示することが可能となる。

（実施形態５）
実施形態５は、更新前後の第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に対し、当該対象物に関する評価を記憶する形態に関する。なお、実施形態１～４と重複する内容については説明を省略する。

対象物に関する評価は、対象物（例えば、アルミ灰、シリコン単結晶、生成物または抽出物）に対し、評価項目に基づき算出されたスコアまたはランク等を含む。評価項目は、例えば、絞り出し量、処理時間、消費電力量、生産速度、歩留まり率、装置の故障若しくは停止の回数、装置の不具合低減、電流の負荷状況、消耗部材の交換回数、省エネルギー、または環境への影響等を含む。なお、以下では、スコアの例を説明するが、他の種類の評価にも同様に適用することができる。

図２３は、実施形態５におけるスコアＤＢ１５５のレコードレイアウトの一例を示す説明図である。スコアＤＢ１５５は、モデルＩＤ列、評価項目列、スコア列、総合スコア列及び評価日時列を含む。モデルＩＤ列は、学習済みの第２行動情報出力モデル１５２を特定する学習モデルのＩＤを記憶している。

評価項目列は、対象物を評価するための評価項目を記憶している。スコア列は、評価項目のスコアを記憶している。総合スコア列は、各評価項目のスコアに基づいて算出された総合スコアを記憶している。評価日時列は、第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に対し、当該対象物を評価した日時情報を記憶している。

例えば、モデルＩＤが「００００１」である第２行動情報出力モデル１５２は、再学習前の学習モデルである。モデルＩＤが「００００２」である第２行動情報出力モデル１５２は、モデルＩＤが「００００１」である第２行動情報出力モデル１５２を再学習させた学習モデルである。

図示のように、再学習前の第２行動情報出力モデル１５２（モデルＩＤ：００００１）において、対象物の絞り出し量のスコアが６点であり、処理時間のスコアが８点である。再学習後の第２行動情報出力モデル１５２（モデルＩＤ：００００２）において、対象物の絞り出し量のスコアが７点であり、処理時間のスコアが９点である。絞り出し量が多いほど、スコアが高くなる。また、処理時間が短いほど、スコアが高くなる。

サーバ1は、第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に対し、所定の評価項目に応じて、当該対象物に対して評価された第１スコア（総合スコア）を算出する。評価項目は、例えば、絞り出し量、処理時間、消費電力量、生産速度または歩留まり率等を含む。

例えば、対象物がアルミ灰である場合、各評価項目は工場内でアルミ灰を絞る（搾る）ためアルミ灰搾り装置から取得されても良い。例えば、絞り出し量が９０Ｌである場合、当該絞り出し量のスコアが６点である。または、消費電力量が２０分である場合、当該消費電力量のスコアが８点である。第１スコアは、各評価項目のスコアを合計することにより算出される。算出された第１スコアは１４点（６点＋８点）である。なお、重み付け係数を利用することにより、第１スコアを算出することができる。重み付け係数による第１スコアの算出処理は後述する。サーバ１は、第２行動情報出力モデル１５２のモデルＩＤに対応付けて、算出した第１スコアをスコアＤＢ１５５に記憶する。

サーバ１は、第２行動情報出力モデル１５２を再学習させる。例えばサーバ１は、実施形態３での強化学習を用いて、対象物に関する第１評価に基づいて再学習させても良い。サーバ１は、再学習させた第２行動情報出力モデル１５２に対してモデルＩＤを割り振る。サーバ１は、割り振ったモデルＩＤに対応付けて、再学習させた第２行動情報出力モデル１５２を学習モデル管理ＤＢ１５４に記憶する。

サーバ１は、再学習させた第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された当該対象物に対し、所定の評価項目に応じて、当該対象物に対して評価された第２スコア（総合スコア）を算出する。例えば、絞り出し量が９５Ｌである場合、当該絞り出し量のスコアが７点である。または、消費電力量が１９分である場合、当該消費電力量のスコアが９点である。第２スコアは、１６点（７点＋９点）である。サーバ１は、再学習させた第２行動情報出力モデル１５２のモデルＩＤに対応付けて、算出した第２スコアをスコアＤＢ１５５に記憶する。

図２４及び図２５は、更新前後の第２行動情報出力モデル１５２におけるスコアを記憶する際の処理手順を示すフローチャートである。エッジ端末２の制御部２１は、ステップＳ２８１～Ｓ２８４の処理を実行する。なお、ステップＳ２８１～Ｓ２８４の処理に関しては、図１７のステップＳ２４１～Ｓ２４４と同様であるため、説明を省略する。

制御部２１は、取得した評価情報（絞り出し量、処理時間、消費電力量、生産速度または歩留まり率等）を通信部２３によりサーバ１に送信する（ステップＳ２８５）。サーバ１の制御部１１は、エッジ端末２から送信された評価情報を通信部１３により受信する（ステップＳ１８１）。制御部１１は、受信した評価情報に応じて、対象物に対して評価された第１スコアを算出する（ステップＳ１８２）。

例えば、評価項目が絞り出し量、処理時間及び消費電力量を含む場合、絞り出し量、処理時間及び消費電力量のそれぞれに対してスコアを設けても良い。絞り出し量が多いほど、スコアが高くなる。例えば、絞り出し量によるスコアが「９０Ｌ：６点、９５Ｌ：７点、１００Ｌ：８点、１０５Ｌ：９点、１１０Ｌ：１０点」であっても良い。処理時間が短いほど、スコアが高くなる。例えば、処理時間によるスコアが「２１分：７点、２０分：８点、１９分：９点、１８分：１０点」であっても良い。消費電力量が少ないほど、スコアが高くなる。例えば、消費電力量によるスコアが「０．９ＫＷｈ：１０点、１ＫＷｈ：９点、１．１ＫＷｈ：８点」であっても良い。そして、第１スコアは、各評価項目のスコアを合計することにより算出される。

または、第１スコアは、各評価項目に基づいて算出されたスコアを重み付けして加算することにより得られても良い。例えば、絞り出し量の重み付け係数が１．５であり、処理時間の重み付け係数が０．８であり、且つ、消費電力量の重み付け係数が０．７である。この場合、第１スコアは、「絞り出し量のスコア×１．５＋処理時間のスコア×０．８＋消費電力量のスコア×０．７」となった計算式で算出される。なお、重み付け係数は、評価項目の重要度に応じて設定されても良い。

なお、第１スコアは、実際のニーズに応じて任意の算出アルゴリズムを利用して算出しても良い。

制御部１１は、算出した第１スコアを大容量記憶部１５のスコアＤＢ１５５に記憶する（ステップＳ１８３）。具体的には、制御部１１は、第２行動情報出力モデル１５２のモデルＩＤに対応付けて、対象物の評価項目（例えば、絞り出し量９０Ｌを達成）、各評価項目のスコア、第１スコア（総合スコア）及び評価日時を一つのレコードとしてスコアＤＢ１５５に記憶する。

制御部１１は、例えば、対象物に対して評価された第１スコアに基づいて、強化学習における訓練データを作成する（ステップＳ１８４）。訓練データは、対象物評価の行動（ステータス）と、当該対象物評価に対して各行動を取った場合に与えられるスコア（報酬）とが対応付けられたデータである。

制御部１１は、作成した訓練データを用いて、対象物の画像に基づき、強化学習手法により第２行動情報出力モデル１５２の再学習を行う（ステップＳ１８５）。なお、第２行動情報出力モデル１５２の再学習処理に関しては、実施形態３での強化学習処理と同様であるため、説明を省略する。なお、第２行動情報出力モデル１５２の再学習は強化学習を用いることができるが、特に強化学習に限定されず、例えば、教師あり学習を行っても良い。

制御部１１は、ステップＳ１８６～Ｓ１８７の処理を実行する。エッジ端末２の制御部２１は、ステップＳ２８６～Ｓ２８７の処理を実行する。なお、ステップＳ１８６～Ｓ１８７及びステップＳ２８６～Ｓ２８７の処理については、図１６のステップＳ１７４～Ｓ１７５及びステップＳ２７４～Ｓ２７５の処理と同様であるため、説明を省略する。

その後に、エッジ端末２の制御部２１は、ステップＳ２８８～Ｓ２９２の処理を実行する。サーバ１の制御部１１は、ステップＳ１８８～１９０の処理を実行する。なお、ステップＳ２８８～Ｓ２９２及びステップＳ１８８～１９０の処理に関しては、ステップＳ２８１～Ｓ２８５及びステップＳ１８１～Ｓ１８３の処理と同様であるため、説明を省略する。

サーバ１の制御部１１は、算出した第１スコアと第２スコアとの比較処理を行う（ステップＳ１９１）。制御部１１は、第１スコアと第２スコアとを比較した比較結果を通信部１３によりエッジ端末２に送信する（ステップＳ１９２）。エッジ端末２の制御部２１は、サーバ１から送信された比較結果を通信部２３により受信する（ステップＳ２９３）。制御部２１は、受信した比較結果を表示部２５により表示し（ステップＳ２９４）、処理を終了する。なお、比較結果は、表またはグラフ等の形式で表示されても良い。

図２６は、スコアに基づく比較結果を示すグラフの一例である。図２６Ａは、評価項目ごとのスコアに基づく比較結果を示すグラフの一例である。グラフ１３ａには、第２行動情報出力モデル１５２Ａ、第２行動情報出力モデル１５２Ｂ及び第２行動情報出力モデル１５２Ｃにおいて、絞り出し量、処理時間及び消費電力量を含む評価項目に対応するスコアが表示されている。

図示のように、グラフ１３ａの横軸は評価項目（絞り出し量、処理時間及び消費電力量）を示す。グラフ１３ａの縦軸はスコアを示し、単位は点（得点）である。第２行動情報出力モデル１５２Ａは、右下がりのハッチングで示されている。第２行動情報出力モデル１５２Ｂは、横ストライプ状のハッチングで示されている。第２行動情報出力モデル１５２Ｃは、枠で囲まれたひし形のハッチングで示されている。

第２行動情報出力モデル１５２Ａから出力された行動情報に基づいて処理された対象物の絞り出し量のスコア（９点）が一番高い。また、第２行動情報出力モデル１５２Ｃから出力された行動情報に基づいて処理された対象物の処理時間のスコア（９点）が一番高い。更にまた、第２行動情報出力モデル１５２Ｂから出力された行動情報に基づいて処理された対象物の消費電力量のスコア（８点）が一番高い。

図２６Ｂは、総合スコアに基づく比較結果を示すグラフの一例である。グラフ１３ｂには、第２行動情報出力モデル１５２Ａ（右下がりのハッチング）、第２行動情報出力モデル１５２Ｂ（横ストライプ状のハッチング）及び第２行動情報出力モデル１５２Ｃ（枠で囲まれたひし形のハッチング）のそれぞれの総合スコアが表示されている。グラフ１３ｂの横軸は総合スコアを示し、単位は点である。グラフ１３ｂの縦軸は第２行動情報出力モデル１５２の名称を示す。

サーバ１は、各評価項目に基づいて算出されたスコアを重み付けして加算することにより、総合スコアを算出する。例えば、絞り出し量の重み付け係数が１．５であり、処理時間の重み付け係数が０．８であり、且つ、消費電力量の重み付け係数が０．７である。第２行動情報出力モデル１５２Ａの総合スコアは２３．３（9×1.5+7×0.8+6×0.7）であり、第２行動情報出力モデル１５２Ｂの総合スコアは２４（8×1.5+8×0.8+8×0.7）であり、第２行動情報出力モデル１５２Ｃの総合スコアは２４．１（8×1.5+9×0.8+7×0.7）である。

サーバ１は、算出した総合スコアに基づき、比較結果を示すグラフ１３ｂを生成する。サーバ１は、生成したグラフ１３ｂをエッジ端末２に送信する。エッジ端末２は、サーバ１から送信されたグラフ１３ｂを表示する。図示のように、第２行動情報出力モデル１５２Ａの総合スコアが一番低い、第２行動情報出力モデル１５２Ｃの総合スコアが一番高い。従って、第２行動情報出力モデル１５２Ｃの評価が高いと判断することができる。

なお、図２６では、比較結果を縦棒グラフで示しているが、これに限るものではない。例えば、円グラフまたは横棒グラフ等の形式で比較結果を表示しても良い。

本実施形態によると、更新前後の第２行動情報出力モデル１５２から出力された行動情報に基づいて処理された対象物に対し、当該対象物に関する評価を記憶することが可能となる。

（実施形態６）
実施形態６は、第２行動情報出力モデル１５２から出力された行動情報と、当該行動情報に基づき実施された実施行動情報とを比較する形態に関する。なお、実施形態１～５と重複する内容については説明を省略する。

エッジ端末２は、第２行動情報出力モデル１５２から出力された行動情報に基づき実施された実施行動情報を取得する。実施行動情報は、対象物に対し、作業者により実際の作業を行って得られた行動情報である。エッジ端末２は、第２行動情報出力モデル１５２から出力された行動情報と、取得した実施行動情報とを比較する。

例えば、工場内で対象物に対し、第２行動情報出力モデル１５２から出力された行動情報が「薬剤投入」であり、「薬剤投入」と「水投入」との両方の実施行動情報に基づき、作業者により作業を行った場合がある。または、第２行動情報出力モデル１５２から出力された行動情報が「３回撹拌」であり、「５回撹拌」となった実施行動情報に基づき、作業者により作業を行った場合がある。

これらの場合、エッジ端末２は、作業者の実施行動情報を検出する。なお、実施行動情報は、対象物に対し作業する作業者の画像を入力した場合、当該対象物に対する行動情報（実施行動情報）を出力する第１行動情報出力モデル１５１を用いて検出されても良い。なお、実施行動情報の検出処理に関しては、第１行動情報出力モデル１５１の利用に限るものではない。例えば、測位センサにより得られた作業者の移動履歴、及び、工場内で対象物を処理するためのセンサ装置もしくはアクチュエータ装置等の操作履歴に基づき、実施行動情報を検出しても良い。

エッジ端末２は、第２行動情報出力モデル１５２から出力された行動情報と、作業者による実施行動情報とが一致していない場合に、アラートを出力する。アラートは、例えば、メッセージ表示、ランプの点灯もしくは点滅、ブザーの鳴動またはメール配信等を含む。なお、メッセージには、第２行動情報出力モデル１５２から出力された行動情報及び作業者の実施行動情報において、それぞれの行動の名称（例えば、撹拌）、または回数（例えば、３回）等が含まれても良い。なお、上述した処理はサーバ１側で実行されても良い。

図２７は、行動情報と実施行動情報とを比較する際の処理手順を示すフローチャートである。エッジ端末２の制御部２１は、対象物の画像を通信部２３により撮影装置３から取得する（ステップＳ０１）。制御部２１は、取得した対象物の画像を第２行動情報出力モデル１５２に入力し（ステップＳ０２）、当該対象物に対する行動情報を出力する（ステップＳ０３）。

制御部２１は、出力された行動情報に基づき、対象物に対して作業した作業者の画像を通信部２３により撮影装置３から取得する（ステップＳ０４）。制御部２１は、取得した作業者の画像を第１行動情報出力モデル１５１に入力し（ステップＳ０５）、当該対象物に対する実施行動情報を出力する（ステップＳ０６）。

制御部２１は、第２行動情報出力モデル１５２から出力された行動情報と、第１行動情報出力モデル１５１から出力された実施行動情報とが一致しているか否かを判定する（ステップＳ０７）。制御部２１は、両者が一致していると判定した場合（ステップＳ０７でＹＥＳ）、処理を終了する。制御部２１は、両者が一致していないと判定した場合（ステップＳ０７でＮＯ）、アラートを表示部２５により出力し（ステップＳ０８）、処理を終了する。

本実施形態によると、第２行動情報出力モデル１５２から出力された行動情報と、当該行動情報に基づき実施された実施行動情報とを比較することが可能となる。

本実施形態によると、行動情報と、当該行動情報に基づき実施された実施行動情報とが一致していない場合、アラートを出力することが可能となる。

本実施形態によると、アラートを出力することにより、対応漏れまたは誤操作等を早期に検出できるので、作業の安全性を向上できる。

（実施形態７）
実施形態７は、再学習前の第２行動情報出力モデル１５２により出力された行動情報に基づき作業を行った作業結果と、再学習後の当該第２行動情報出力モデル１５２により出力された行動情報に基づき作業を行った作業結果とを比較する形態に関する。なお、実施形態１～６と重複する内容については説明を省略する。

作業結果は、作業者により作業を行って得られた第１作業結果、及び、工場内で対象物を処理するためのセンサ装置もしくはアクチュエータ装置等から得られた第２作業結果を含む。第１作業結果は、例えば、第２行動情報出力モデル１５２により出力された行動情報に基づき、対象物に対し作業する作業者の画像もしくは動画（録画データ）等を含む。第２作業結果は、対象物に対応する環境情報を取得するためのセンサ装置（温度センサ、湿度センサまたは気圧センサ等）により得られたセンサデータ、各工程における対象物に対する作業ログデータ、または、対象物に関する評価情報等含む。

本実施形態では、各工程における対象物に対する作業ログデータを作業結果として説明するが、他の種類の作業結果にも同様に適用することができる。

図２８は、作業結果を比較した比較結果を出力する際の処理手順を示すフローチャートである。例えば作業結果は、作業ログデータである。作業ログデータは、例えば、工程の名称、各工程における対象物の状態（例えば、撹拌状態または抽出状態）、及びログ出力時刻等を含む。

エッジ端末２の制御部２１は、通信部２３を介して、対象物を撮像した対象物の画像を撮影装置３から取得する（ステップＳ１１）。制御部２１は、取得した対象物の画像を第２行動情報出力モデル１５２（更新前）に入力し（ステップＳ１２）、当該対象物に対する行動情報を出力する（ステップＳ１３）。エッジ端末２の制御部２１は、第２行動情報出力モデル１５２（更新前）により出力された行動情報に基づき作業を行った第１作業ログデータを取得する（ステップＳ１４）。

制御部２１は、通信部２３を介して、更新（再学習）された第２行動情報出力モデル１５２をサーバ１から取得する（ステップＳ１５）。例えばサーバ１は、第２行動情報出力モデル１５２により出力された行動情報に基づき処理された対象物に対し、当該対象物に関する評価に基づいて第２行動情報出力モデル１５２を再学習させる。なお、第２行動情報出力モデル１５２の再学習処理に関しては、実施形態５での再学習処理と同様であるため、説明を省略する。

制御部２１は、取得した更新後の第２行動情報出力モデル１５２をデプロイする（ステップＳ１６）。制御部２１は、通信部２３を介して、対象物の画像を撮影装置３から再取得する（ステップＳ１７）。制御部２１は、再取得した対象物の画像を第２行動情報出力モデル１５２（更新後）に入力し（ステップＳ１８）、当該対象物に対する行動情報を出力する（ステップＳ１９）。

制御部２１は、更新後の第２行動情報出力モデル１５２により出力された行動情報に基づき作業を行った第２作業ログデータを取得する（ステップＳ２０）。制御部２１は、第１作業ログデータと第２作業ログデータとの比較処理を行う（ステップＳ２１）。制御部２１は、比較した比較結果を表示部２５により表示し（ステップＳ２２）、処理を終了する。比較結果は、例えば、表またはグラフ等の形式で画面に表示されても良い。

また、作業ログデータに基づき、工程ごとに対象物の状態変化を示す情報をグラフ形式で出力することができる。

図２９は、対象物の状態変化を示すグラフの一例を示す説明図である。例えば、対象物がアルミ灰である。グラフ１４ａは、灰絞り工程において、撹拌による絞り出しの作業ログデータに基づき作成されたグラフである。グラフ１４ａには、第２行動情報出力モデル１５２Ａ及び第２行動情報出力モデル１５２Ｂのそれぞれの上釜状態及び下釜状態が示されている。例えば、第２行動情報出力モデル１５２Ａが更新前の学習モデルであり、第２行動情報出力モデル１５２Ｂが更新後の学習モデルである。

グラフ１４ａの横軸は時間を示し、例えば単位は分である。グラフ１４ａの左側の縦軸は上釜状態を示し、右側の縦軸は下釜状態を示す。上釜状態（撹拌）は、例えば、撹拌棒上昇（撹拌棒上）、消灰投入（窯の上は消灰で覆われる）、注水（小爆発）、正反転交互回転（撹拌中）、撹拌棒降下（撹拌開始）、及び釜投入（上釜有り）を含む。下釜状態（抽出）は、例えば、釜満、抽出大、抽出中、抽出少、抽出無し、釜有及び釜無を含む。

図示のように、灰絞り工程において、第２行動情報出力モデル１５２Ａ（更新前）に対し、作業の時間順に上釜の撹拌状態を示すライン１４ｂ、及び、作業の時間順に下釜の抽出状態を示すライン１４ｃがグラフ１４ａ上に表示される。ライン１４ｂは、実線で表れている。ライン１４ｂ上での各黒楕円印１４ｂ’は、上釜の各撹拌状態を示す。ライン１４ｃは、破線で表れている。ライン１４ｃ上での各白楕円印１４ｃ’は、下釜の各抽出状態を示す。

また、第２行動情報出力モデル１５２Ｂ（更新後）に対し、作業の時間順に上釜の撹拌状態を示すライン１４ｄ、及び、作業の時間順に下釜の抽出状態を示すライン１４ｅが１４ａ上に表示される。ライン１４ｄは、点線で表れている。ライン１４ｄ上での各黒矩形印１４ｄ’は、上釜の各撹拌状態を示す。ライン１４ｅは、一点鎖線で表れている。ライン１４ｅ上での各白矩形印１４ｅ’は、下釜の各抽出状態を示す。

時間の推移に伴い、第２行動情報出力モデル１５２Ａ（更新前）及び第２行動情報出力モデル１５２Ｂ（更新後）において、上釜の撹拌状態及び下釜の抽出状態を対比して表示することにより、上釜の撹拌状態及び下釜の抽出状態の変化を容易に把握することができる。

本実施形態によると、再学習前後の第２行動情報出力モデル１５２により出力された行動情報に基づき作業を行った作業結果を比較した比較結果を出力することが可能となる。

（実施形態８）
実施形態８は、第１期間における対象物の時系列画像に基づき、人工知能（ＡＩ：Artificial Intelligence）を用いて、当該第１期間以降（第２期間）における当該対象物の画像を予測した予測結果を出力する形態に関する。なお、実施形態１～７と重複する内容については説明を省略する。

図３０は、実施形態８におけるサーバ１の構成例を示すブロック図である。なお、図１９と重複する内容については同一の符号を付して説明を省略する。大容量記憶部１５には、予測モデル（第３学習モデル）１５６が記憶されている。予測モデル１５６は、第１期間における対象物の時系列画像に基づいて、第２期間（第１期間以降）における当該対象物の画像を予測する予測器であり、機械学習により生成された学習済みモデルである。

本実施形態でのサーバ１は、第１期間における対象物の画像を時系列で取得する。サーバ１は、取得した第１期間における対象物の時系列画像を予測モデル１５６に入力し、第２期間における当該対象物の画像を予測した予測結果を出力する。

予測モデル１５６は、人工知能ソフトウェアの一部であるプログラムモジュールとして利用される。予測モデル１５６は、第１期間における対象物の時系列画像が入力された場合、第２期間における当該対象物の画像を予測した予測結果を出力する学習モデルである。対象物の画像は、作業中の対象物の状態または具合等を示す画像である。

本実施の形態に係る予測モデル１５６は、例えばＵ－Ｎｅｔ（Convolutional Networks for Biomedical Image Segmentation）を用いて対象物の画像の予測処理を行う。予測モデル１５６は、複数のニューロンが相互に結合したニューラルネットワークの構造をなしている。予測モデル１５６は、一又は複数のデータの入力を受け付ける入力層と、入力層にて受け付けられたデータに対して演算処理を行う中間層と、中間層の演算結果を集約して一又は複数の値を出力する出力層とを備えている。

予測モデル１５６は、予め学習処理がなされた学習済みのモデルである。学習処理は、予め与えられた多数の訓練データを用いて、ニューラルネットワークを構成する各ニューロンの係数及び閾値等に適切な値を設定する処理である。本実施の形態に係る予測モデル１５６は、訓練データを用いて学習処理が行われる。訓練データの入力データは、第１期間における対象物の時系列画像であり、出力データは、第２期間における当該対象物の画像である。

具体的には、サーバ１は、訓練データに含まれる第１期間における対象物の時系列画像（入力データ）を学習前の予測モデル１５６の入力層に入力し、中間層での演算処理を経て、出力層から出力された対象物の画像を取得する。そして、サーバ１は、出力層から出力された対象物の画像と、訓練データに含まれる第２期間における対象物の画像（出力データ）、すなわち正解値とを比較し、出力層から出力される対象物の画像が、正解値である第２期間における対象物の画像に近づくように、中間層での演算処理に用いるパラメータを最適化する。

当該パラメータは、例えばニューロン間の重み（結合係数）等である。パラメータの最適化の方法は特に限定されないが、例えばサーバ１は、最急降下法または誤差逆伝播法等を用いて各種パラメータの最適化を行う。

なお、他のコンピュータ（図示せず）により上述の学習処理を行い、予測モデル１５６をデプロイしても良い。

サーバ１は、第１期間における対象物の画像を時系列で取得した場合、取得した対象物の時系列画像を予測モデル１５６に入力し、第２期間における当該対象物の画像を予測する。サーバ１は、予測した予測結果を出力する。

なお、予測モデル１５６は、Ｕ－Ｎｅｔに限らず、例えばＤＮＮ（Deep Neural Network(s)）、Universal Sentence Encoder、ＲＮＮ、ＧＡＮ（Generative Adversarial Network）、ＶｉＴ（Vision Transformer）、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）、ＬＳＴＭ、ロジスティック回帰、ＳＶＭ、ｋ－ＮＮ、決定木、単純ベイズ分類器、またはランダムフォレストといった他のモデルによって実現されても良い。

サーバ１は、生成した予測モデル１５６を学習モデル管理ＤＢ１５４に記憶する。具体的には、サーバ１は、予測モデル１５６に対してモデルＩＤを割り振る。サーバ１は、割り振ったモデルＩＤに対応付けて、予測モデル１５６のモデルファイル、学習モデルの種類（予測モデル１５６）及び生成日時を一つのレコードとして学習モデル管理ＤＢ１５４に記憶する。

サーバ１は、記憶した予測モデル１５６をエッジ端末２に送信する。エッジ端末２は、サーバ１から送信された学習済みの予測モデル１５６を受信する。エッジ端末２は、受信した予測モデル１５６をデプロイする。エッジ端末２は、デプロイした予測モデル１５６を用いて対象物の画像を予測する。

図３１は、第２期間における対象物の画像を予測する際の処理手順を示すフローチャートである。エッジ端末２の制御部２１は、通信部２３を介して、第１期間における対象物の時系列画像を撮影装置３から取得する（ステップＳ３１）。制御部２１は、取得した対象物の時系列画像を予測モデル１５６に入力する（ステップＳ３２）。

制御部２１は、第２期間における対象物の画像を予測した予測結果を出力する（ステップＳ３３）。具体的には、制御部２１は、予測モデル１５６の中間層にて対象物の画像の特徴量を抽出する演算処理を行う。制御部２１は、抽出した特徴量を予測モデル１５６の出力層に入力して、第２期間における当該対象物の画像を予測した予測結果を出力として取得する。制御部２１は、予測モデル１５６から出力された予測結果を表示部２５により表示し（ステップＳ３４）、処理を終了する。

第２期間における対象物の画像を予測することにより、対象物の出来上がり具合に応じて、最適な投入の材料または投入量等を随時調整することができる。また、作業者は、予測された対象物の画像から当該対象物の出来上がり具合を評価し、出来上がり具合の評価により人手が介入することが可能となる。更にまた、予測された対象物の画像に基づき、当該対象物に対してレシピを変えることにより、最適なレシピを提供し得ることが可能となる。

本実施形態によると、第１期間における対象物の時系列画像に基づき、予測モデル１５６を用いて、第２期間における当該対象物の画像を予測することが可能となる。

今回開示された実施形態はすべての点で例示であって、制限的なものではないと考えられるべきである。本発明の範囲は、上記した意味ではなく、特許請求の範囲によって示され、特許請求の範囲と均等の意味及び範囲内でのすべての変更が含まれることが意図される。

各実施形態に記載した事項は相互に組み合わせることが可能である。また、特許請求の範囲に記載した独立請求項及び従属請求項は、引用形式に関わらず全てのあらゆる組み合わせにおいて、相互に組み合わせることが可能である。さらに、特許請求の範囲には他の２以上のクレームを引用するクレームを記載する形式（マルチクレーム形式）を用いているが、これに限るものではない。マルチクレームを少なくとも一つ引用するマルチクレーム（マルチマルチクレーム）を記載する形式を用いて記載しても良い。

１情報処理装置（サーバ）
１１制御部
１２記憶部
１３通信部
１４読取部
１５大容量記憶部
１５１第１行動情報出力モデル（第１学習モデル）
１５２第２行動情報出力モデル（第２学習モデル）
１５３訓練データＤＢ
１５４学習モデル管理ＤＢ
１５５スコアＤＢ
１５６予測モデル（第３学習モデル）
１ａ可搬型記憶媒体
１ｂ半導体メモリ
１Ｐ制御プログラム
２情報処理端末（エッジ端末）
２１制御部
２２記憶部
２３通信部
２４入力部
２５表示部
２Ｐ制御プログラム
３撮影装置

Claims

工場内で対象物に対し作業する作業者の画像を取得し、
作業者の画像を入力した場合に、作業者の行動に関する行動情報を出力するよう学習された第１学習モデルに、取得した作業者の画像を入力して対象物に対する行動情報を出力し、
対象物を撮像した対象物の画像と、出力した行動情報とを対応付けて記憶する
処理をコンピュータが実行する情報処理方法。
記憶した前記対象物の画像、及び前記対象物の画像に対応する行動情報を含む訓練データを取得し、
取得した訓練データに基づき、対象物の画像を入力した場合に行動情報を出力する第２学習モデルを生成する
請求項１に記載の情報処理方法。
電圧、電流、音、振動、温度、湿度または気圧を含む環境情報を取得し、
取得した環境情報を含む訓練データを用いて前記第２学習モデルを学習する
請求項２に記載の情報処理方法。
作業者ごとに前記訓練データを取得し、
取得した訓練データに基づき、作業者ごとの前記第２学習モデルを生成する
請求項２又は３に記載の情報処理方法。
前記第２学習モデルによる行動情報に基づく前記対象物に関する評価を特定する
請求項２又は３に記載の情報処理方法。
前記対象物に対する評価の高い前記第２学習モデルの選択を受け付け、
受け付けた前記第２学習モデルをデプロイする
請求項２又は３に記載の情報処理方法。
前記対象物の処理工程ごとに前記第２学習モデルを生成する
請求項２又は３に記載の情報処理方法。
作業者ごとに、前記対象物の各処理工程の前記第２学習モデルを生成し、
各処理工程で評価の高い前記第２学習モデルを特定し、
特定した前記第２学習モデルをデプロイする
請求項２又は３に記載の情報処理方法。
前記対象物に関する評価を報酬として、前記第２学習モデルを強化学習により学習する
請求項２又は３に記載の情報処理方法。
工場内で対象物に対し作業する作業者の画像を取得し、
作業者の画像を入力した場合に、前記作業者の行動に関する行動情報を出力するよう学習された第１学習モデルに、取得した作業者の画像を入力して、前記対象物に対する行動情報を出力し、
前記対象物を撮像した対象物の画像に対応付けて、出力した行動情報を訓練データとして対応付けて記憶し、
前記訓練データに基づき学習された第２学習モデルに、対象物を撮影した対象物の画像を入力して行動情報を出力する
情報処理方法。
前記第２学習モデルから出力された行動情報に基づき、前記対象物を処理する
請求項１０に記載の情報処理方法。
前記第２学習モデルは、電圧、電流、音、振動、温度、湿度または気圧を含む環境情報を用いて学習されており、
前記環境情報を取得し、
前記第２学習モデルに、前記対象物の画像と、取得した環境情報とを入力して行動情報を出力する
請求項１０又は１１に記載の情報処理方法。
前記対象物の処理工程ごとに前記第２学習モデルが用意されており、
前記処理工程に応じた対象物の画像を、前記処理工程に対応する第２学習モデルに入力して行動情報を出力する
請求項１０又は１１に記載の情報処理方法。
前記第２学習モデルによる行動情報に基づく前記対象物に関する評価を特定し、
特定した評価が低い場合、アラートを出力する
請求項１０又は１１に記載の情報処理方法。
前記作業者による作業と、前記第２学習モデルによる行動情報に基づく処理との切り替えを受け付け、
前記作業者による作業への切り替え後に、前記作業者の画像と前記第１学習モデルの分類結果とに応じて第２訓練データを作成し、
作成した前記第２訓練データを用いて前記第２学習モデルを再学習する
請求項１０又は１１に記載の情報処理方法。
前記対象物の各処理工程の学習状況を出力する
請求項１０又は１１に記載の情報処理方法。
前記第２学習モデルから出力された行動情報に基づいて処理された前記対象物に関する第１評価を取得し、
再学習させた前記第２学習モデルから出力された行動情報に基づいて処理された前記対象物に関する第２評価を取得し、
取得した前記第１評価と前記第２評価との比較結果を出力する
請求項１４に記載の情報処理方法。
前記第２学習モデルから出力された行動情報に基づき実施された実施行動情報を取得し、
前記行動情報と、取得した実施行動情報とを比較し、
前記行動情報と前記実施行動情報とが一致していない場合に、アラートを出力する
請求項１０又は１１に記載の情報処理方法。
再学習前の前記第２学習モデルにより出力された行動情報に基づき作業を行った作業結果と、再学習後の前記第２学習モデルにより出力された行動情報に基づき作業を行った作業結果とを比較し、
比較した比較結果を出力する
請求項１０又は１１に記載の情報処理方法。
第１期間における前記対象物の画像を時系列で取得し、
前記第１期間における対象物の時系列画像を入力した場合に、前記第１期間以降における前記対象物の画像を予測した予測結果を出力するよう学習された第３学習モデルに、取得した前記第１期間における前記対象物の時系列画像を入力し、前記第１期間以降における前記対象物の画像を予測した予測結果を出力する
請求項１０又は１１に記載の情報処理方法。
工場内で対象物に対し作業する作業者の画像を取得し、
作業者の画像を入力した場合に、作業者の行動に関する行動情報を出力するよう学習された第１学習モデルに、取得した作業者の画像を入力して対象物に対する行動情報を出力し、
対象物を撮像した対象物の画像と、出力した行動情報とを対応付けて記憶する
処理をコンピュータに実行させるプログラム。
工場内で対象物に対し作業する作業者の画像を取得する取得部と、
作業者の画像を入力した場合に、作業者の行動に関する行動情報を出力するよう学習された第１学習モデルに、取得した作業者の画像を入力して対象物に対する行動情報を出力する出力部と、
対象物を撮像した対象物の画像と、出力した行動情報とを対応付けて記憶する記憶部と
を備える情報処理装置。
工場内に設定されており、前記工場内で対象物に対し作業する作業者を撮像する撮像装置と、情報処理装置とを備える情報処理システムであって、
前記撮像装置は、
前記作業者を撮像する撮像部と、
前記撮像部が撮像した作業者の画像を送信する送信部とを備え、
前記情報処理装置は、
前記送信部が送信した前記作業者の画像を受信する受信部と、
作業者の画像を入力した場合に、前記作業者の行動に関する行動情報を出力するよう学習された第１学習モデルに、前記受信部が受信した作業者の画像を入力して、前記対象物に対する行動情報を出力する出力部とを備え、
前記撮像部は、前記対象物を撮像し、
前記送信部は、前記撮像部が撮像した対象物の画像を送信し、
前記受信部は、前記送信部が送信した対象物の画像を受信し、
前記情報処理装置は、
前記受信部が受信した対象物の画像に対応付けて、前記出力部が出力した行動情報を訓練データとして対応付けて記憶する記憶部を備え、
前記出力部は、
前記訓練データに基づき学習された第２学習モデルに、前記対象物を撮影した対象物の画像を入力して行動情報を出力する
ことを特徴とする情報処理システム。