JP7500895B1

JP7500895B1 - 作業管理装置、作業管理システム、および、作業管理方法

Info

Publication number: JP7500895B1
Application number: JP2024509021A
Authority: JP
Inventors: 眞一郎木戸; 昌之川俣
Original assignee: Hitachi Industry and Control Solutions Co Ltd
Current assignee: Hitachi Industry and Control Solutions Co Ltd
Priority date: 2023-09-21
Filing date: 2023-09-21
Publication date: 2024-06-17
Anticipated expiration: 2043-09-21

Abstract

作業管理装置（２）は、人物が撮影された動画の各フレームを、人物領域と物体領域を含む画像データに加工する画像加工部（２０２）と、画像データからこの人物の骨格データを抽出する骨格抽出部（２１）と、骨格データから前記人物の姿勢を検出する姿勢検出部と、人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部（２３）と、を有する。

Description

本発明は、作業管理装置、作業管理システム、および、作業管理方法に関する。

産業分野において、作業者が製品を組み立てる時間であるサイクルタイムの計測と、作業の抜け、または、定常的な作業ではない非定常作業の検知のための作業内容の分析といった処理に対するニーズがある。現在これらの処理は人手で行うことが主流となっている。

作業内容の分析では、ＰＣ（Personal Computer）操作、バーコード読込、ボタン押下などのように、人が作業の開始と終了を示す何らかの操作を作業時間の計測の契機としていた。または、ドリルのオン・オフ、スイッチのオン・オフ、装置の稼動を示す電流値などの作業に間接的に係っている装置からデータを取り出すことで、作業時間が計測される場合もある。

しかし、これらの計測手段は、新たな設備の追加や作業者への負担増となる。また、本来の業務ではない作業手順を追加して作業時間を計測する際には、実際にはそのような作業が行われず、正確にデータ化できないことが多い。

作業者の作業状況をビデオカメラで記録し、人手によってその作業状況を解析することも行われている。しかし、長時間に亘って記録されたビデオカメラの映像から特定の作業者の状況を解析して、記録する作業は長時間に及ぶ。そのため多くの人的コストがかかると共に、限定的な範囲についてしかコンピュータの処理対象とすることができなかった。

近年では、作業者の作業状況をビデオカメラで記録し、情報処理装置がその作業状況を解析することが行われるようになっている。特許文献１には、動作情報登録部が、骨格抽出部によって抽出された対象情報と類似する骨格情報である動作情報が示す動作内容を、対象者が行っている動作内容として特定する発明が記載されている。

特許第６７７７８１９号公報

上記のような情報処理装置では、入力画像サイズが大きく、高解像度であると演算処理の負担が大きくなり、リアルタイムで処理ができない場合がある。しかし、入力画像サイズを小さくすると、画素数が少なくなることで情報量が不足し、画像認識できない場合もある。
そこで、本発明は、入力画像から人物が行う作業を推定する装置にて、高い解像度の画像をリアルタイムに処理可能とすることを課題とする。

前記した課題を解決するため、本発明の作業管理装置は、人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、前記画像データから当該人物の骨格データを抽出する骨格抽出部と、前記骨格データから前記人物の姿勢を検出する姿勢検出部と、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、を有し、前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データに加工する、ことを特徴とする。

本発明の作業管理システムは、人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、前記画像データから当該人物の骨格データを抽出する骨格抽出部と、前記骨格データから前記人物の姿勢を検出する姿勢検出部と、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部、を有し、前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データに加工する、ことを特徴とする。

本発明の作業管理方法は、画像加工部が、人物が撮影された動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、画像データに加工するステップと、骨格抽出部が、前記画像データから当該人物の骨格データを抽出するステップと、姿勢検出部が、前記骨格データから前記人物の姿勢を検出するステップと、分析部が、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定するステップと、を有することを特徴とする。
その他の手段については、発明を実施するための形態のなかで説明する。

本発明によれば、入力画像から人物が行う作業を推定する装置にて、高い解像度の画像をリアルタイムに処理可能となる。

第１の実施形態に関する作業管理システムの構成図である。作業管理システムの運用を示すシーケンス図である。画像データおよび骨格データの一例を示す図である。合成後の画像データの一例を示す図である。図３の骨格データを構成する特徴点データを示すテーブルである。領域に関する処理部を示す構成図である。姿勢に関する処理部を示す構成図である。背景に関する処理部を示す構成図である。手順に関する処理部と、その処理結果を出力する出力部とを示す構成図である。背景定義部によるモデル定義を示すフローチャートである。モデル定義の対象となる画像データを示す図である。図１１の画像データから生成される領域モデルの例を示す図である。図１１の画像データから生成される背景モデルの例を示す図である。姿勢学習部によるモデル定義を示すフローチャートである。図１４の姿勢検出部の学習工程におけるＧＵＩ画面図である。図１４の姿勢検出部の学習工程の結果として生成される姿勢モデルを示す図である。手順学習部による学習結果である手順モデルを示す図である。分析部のメイン処理を示すフローチャートである。領域検出部のサブルーチン処理を示すフローチャートである。図１９の処理結果として「部品取り領域」で両手を認識したときの図である。図１９の処理結果として「完成品格納領域」で両手を認識したときの図である。姿勢検出部のサブルーチン処理を示すフローチャートである。図２２の処理に用いられる画像データを示す図である。図２２の画像データに対する推論ラベル（姿勢ラベル）を示す姿勢データの図である。背景検出部のサブルーチン処理を示すフローチャートである。図２５の処理結果として、ドライバが未使用の状態を認識したときの図である。図２５の処理結果として、ドライバが使用中の状態を認識したときの図である。手順検出部が出力する手順データの例を示す図である。図２８の手順データをガントチャート形式で表示した画面図である。第２の実施形態に関する作業管理装置の構成図である。作業管理装置に入力する動画の一例を示す図である。作業管理装置に入力する動画のフレームから抽出された骨格データの一例を示す図である。作業管理装置に入力する画像データから認識したい部分を切り出した画像データの一例を示す図である。骨格データの一例を示す図である。領域モデルの一例を示す図である。作業者の作業内容を示すタイムチャートである。作業者の作業内容を示すタイムチャートである。作業者の作業内容を示すタイムチャートである。作業者の作業内容を示すタイムチャートである。作業管理装置が判定する作業姿勢と、作業者の作業内容を示すタイムチャートである。作業管理処理を示すフローチャートである。作業管理処理を示すフローチャートである。作業姿勢とドライバの関連付け処理を示すフローチャートである。作業管理装置が表示するリアルタイム画面を示す図である。作業管理装置が表示する履歴データ画面を示す図である。作業管理装置が表示する認識レポート画面を示す図である。

以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
図１は、作業管理システムの構成図である。以下では、この作業管理システムを製造業の組み立て現場に導入し、作業者が小型のパソコンを組み立てる作業を分析する場合に適用した一例を説明する。
作業管理システムは、作業管理装置２を中心として、ビデオカメラ１と、ビデオレコーダ１３と、入出力装置１４と、モニタ３１と、記憶装置３２と、アプリケーション装置３３とを含めて構成される。

これらの作業管理システムの各装置は、それぞれ、イーサネット（登録商標）などのネットワーク、ＵＳＢ（Universal Serial Bus）やその他、ハードウェア・インタフェースとして使用可能な適切なもので接続される。また、作業管理システムの各装置は、単独の装置として構成されていてもよいし、作業管理装置２などの計算機システム上のソフトウェアを実行することで実現してもよい。

ビデオカメラ１は、作業者を被写体として撮影する。ビデオレコーダ１３には、ビデオカメラ１で撮影した動画が記録されている。入出力装置１４は、グラフィックディスプレイ、マウスを備え、作業者などの利用者に情報表示したり、利用者の指示を受け付けたりする。
モニタ３１と、記憶装置３２と、アプリケーション装置３３とは、それぞれ作業管理装置２の分析結果の出力先である（詳細は図９）。

作業管理装置２は、例えば、オンプレサーバ、もしくはクラウドサーバのような計算機システムである。作業管理装置２は、ＣＰＵ（Central Processing Unit）と、メモリと、ハードディスクなどの記憶手段（記憶部）と、ネットワークインタフェースとを有するコンピュータとして構成される。このコンピュータは、ＣＰＵが、メモリ上に読み込んだプログラムを実行することにより、各処理部により構成される制御部（制御手段）を動作させる。

作業管理装置２は、計算機システム上のプログラムを実行することで、画像加工部２０２と、骨格抽出部２１と、モデル生成部２１１と、分析部２３と、出力部２８とを構成する。これらの構成された各処理部は、ハードディスクなどの不揮発メモリ上に蓄えられるデータ（モデルデータ２１２、推定結果データ２７）にアクセスする。

画像加工部２０２は、ビデオカメラ１またはビデオレコーダ１３から入力された動画の各フレームである画像データ２１０をもとに、人物を認識したい領域と物体を認識したい領域を合成し、新たな画像データ２１３に加工する。この画像データ２１３の画素数は、画像データ２１０の画素数よりも少ない為、画像データ２１０が高解像度であっても演算処理の負担は少なく、リアルタイム処理性に優れる。

画像加工部２０２は、動画の各フレームである画像データ２１０から、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、画像データ２１３に加工する。認識したい対象物に応じて各領域を配置しているので、画像データ２１３の一方から人物を認識し、画像データ２１３の他方から物体を認識することができる。このとき演算処理の負担は少なく、リアルタイム処理性に優れる。

画像加工部２０２は、動画の各フレームである画像データ２１０から、人物を認識したい領域と物体を認識したい領域を切り出し、余白を入れて合成することで画像データ２１３に加工する。これにより、各領域の継ぎ目の部分の物体認識の誤検知や骨格抽出の誤検知を抑制できる。

更に画像加工部２０２は、動画の各フレームである画像データ２１０から、人物を認識したい領域と物体を認識したい領域を切り出し、リサイズして合成することで画像データ２１３に加工する。認識したい対象物に応じて各領域をリサイズするので、画像データ２１０が高解像度であっても演算処理の負担は少なく、リアルタイム処理性に優れる。

更に画像加工部２０２は、動画の各フレームである画像データ２１０から、人物を認識したい領域と物体を認識したい領域を切り出し、フィルタ処理して合成することで画像データ２１３に加工してもよい。これにより、物体認識の誤検知や骨格抽出の誤検知を抑制できる。

画像加工部２０２は、動画の各フレームである画像データ２１０から人物を認識したい領域と物体を認識したい領域を切り出す位置を、パターンマッチングで調整するとよい。これにより、ビデオカメラ１の設置位置のズレや、作業者の作業位置のズレを調整可能である。

画像加工部２０２は、動画の各フレームである画像データ２１０から人物を認識したい領域と物体を認識したい領域を切り出す位置を、マーカで調整するとよい。これにより、ビデオカメラ１の設置位置のズレや、作業者の作業位置のズレを調整可能である。
画像加工部２０２が動画の各フレームである画像データ２１０から人物を認識したい領域と物体を認識したい領域を切り出す位置を、手作業で調整可能な画面を表示させる調整部を備えるとよい。これにより、人物を認識したい領域と物体を認識したい領域を、利用者の所望の位置に調整可能である。

骨格抽出部２１は、画像加工部２０２から入力された画像データ２１３をもとに、骨格データ２２を抽出する。骨格抽出部２１は、画像データ２１３のうち人物を認識したい領域から、骨格データ２２を抽出するとよい。画像データ２１０が高解像度であっても演算処理の負担は少なくなり、骨格抽出部２１は、リアルタイム処理性に優れる処理を提供可能である。

モデル生成部２１１は、学習用の画像データ２１３と、学習用の骨格データ２２とを入力として、モデルデータ２１２を生成して不揮発メモリに保存する。モデルデータ２１２には、ユーザから明示的に定義された定義データと、ユーザから入力されたラベルデータを用いた学習結果である学習済データとが存在する。なお、モデル生成部２１１は、分析対象の作業に対してモデルデータ２１２を基本的には１度作成すればよいが、精度を向上させるために、すでに作成したモデルデータ２１２を更新（改良）してもよい。
分析部２３は、分析用の画像データ２１３と、分析用の骨格データ２２とを入力として、モデルデータ２１２を用いた推論処理により、推定結果データ２７を求める。
出力部２８は、画像データ２１３の座標で示された推定結果データ２７を、画像データ２１３に加工する前のフレームである画像データ２１０の座標に変換する。出力部２８は、変換した推定結果データ２７を、画像データ２１３に加工する前のフレームである画像データ２１０に重畳して、外部装置（モニタ３１と、記憶装置３２と、アプリケーション装置３３）に出力する。

図２は、作業管理システムの運用を示すシーケンス図である。
深層学習などの機械学習段階において、ビデオカメラ１から画像取得（ステップＳ１０１）された画像データ２１０、または、ビデオカメラ１から画像取得（ステップＳ１０２）されてビデオレコーダ１３が記録画像３２Ｄに画像記録（ステップＳ１０３）した画像データ２１０は、作業管理装置２に入力される。
作業管理装置２は、画像データ２１０から認識したい複数の画像部分を切り出し、１枚の画像データ２１３としたのち、利用者から入出力装置１４を介して受けた学習指示（ステップＳ１１１）により、学習処理（ステップＳ１１２）を実行し、その結果をモデルデータ２１２として出力する。

分析段階において、ビデオカメラ１から画像取得（ステップＳ１２１）された画像データ２１０、または、ビデオカメラ１から画像取得（ステップＳ１２２）されてビデオレコーダ１３が記録画像３２Ｅに画像記録（ステップＳ１２３）した画像データ２１０は、作業管理装置２に入力される。
作業管理装置２は、画像データ２１０から認識したい複数の画像部分を切り出し、１枚の画像データ２１３としたのち、利用者から入出力装置１４を介して受けた分析指示（ステップＳ１３１）により、モデルデータ２１２に基づく分析処理（ステップＳ１３２）を実行し、その結果を推定結果データ２７として出力する。なお、作業管理装置２は、画像取得（ステップＳ１２１）された画像データ２１０から認識したい複数の画像部分を切り出し、１枚の画像データ２１３として、分析処理（ステップＳ１３２）をリアルタイムに実行してもよい。また、作業管理装置２は、利用者からの分析指示（ステップＳ１３１）の操作を介さずに、分析処理（ステップＳ１３２）を自動実行してもよい。
そして、作業管理装置２の出力部２８は、出力処理（ステップＳ１４１）によって推定結果データ２７をアプリケーション装置３３などに出力する。

図３は、画像データ２１０および骨格データ２２の一例を示す図である。
画像データ２１０は、人物が写っている動画像において、フレームごとに１つ生成される。この画像データ２１０上には、部品取り領域９０１と完成品格納領域９０２と、工具領域９０３と、人物領域９１０とが予め定義されている。人物領域９１０は、人物が撮影されていることが前提となる人物領域である。部品取り領域９０１と完成品格納領域９０２と、工具領域９０３は、物体が撮影されていることが前提となる物体領域である。
骨格データ２２は、骨格抽出部２１が画像データ２１０から人物の骨格情報を抽出した結果である。骨格データ２２は、人物の特徴点（関節点など）ごとに、１つずつ番号が割り当てられる（図では番号＝０～９）。骨格抽出部２１は、OpenPose（ＵＲＬ＝https://github.com/CMU-Perceptual-Computing-Lab/openpose）などの公知の骨格情報取得技術を使用することができる。

部品取り領域９０１は、作業者に対して右側に配置されており、作業者が部品を取りだす領域である。分析部２３は、この部品取り領域９０１に所定の骨格データ２２を検出したときに、作業員の作業状態が「部品取り」であると推定する。

工具領域９０３は、作業者に対して正面のやや右側に配置されており、作業者が工具を取り出し、使い終わった工具を載置する領域である。分析部２３は、この工具領域９０３に工具が存在しているときに、作業員は未だこの工具を持っていないと推定する。

完成品格納領域９０２は、作業者に対して左側に配置されており、作業者が完成品を格納する領域である。分析部２３は、この完成品格納領域９０２と所定の骨格データ２２とが重なったときに、作業員の一連の作業状態が「終了」であると推定する。
人物領域９１０は、作業者のイスを中心に配置されており、作業者を撮影するための領域である。

図４は、合成後の画像データ２１３の一例を示す図である。
画像加工部２０２は、図３の画像データ２１０のうち不要な部分を取り除く。画像加工部２０２は、画像データ２１０のうち、部品取り領域９０１と、完成品格納領域９０２と、工具領域９０３と、人物領域９１０を合成して、新たな画像データ２１３に加工する。
大きなサイズの画像データ２１０から認識したい複数の領域を切り出し、１枚の画像とすることで、画像データ２１３は、元の画像データ２１０のサイズよりも小さくなる。

図５は、図３の骨格データ２２を構成する特徴点データを示すテーブルである。
このテーブルは、特徴点の番号ごとに、特徴点の名称（鼻など）と、特徴点の（ｘ，ｙ）座標とで構成される。特徴点の名称として、例えば、人物の首、左肩、左肘などの特徴点に対して別々の番号が割り当てられる。特徴点の名称や座標は、骨格抽出部２１が画像データ２１３からそれぞれの関節点を画像認識で認識した結果である。

以下、図６～図９を参照して、モデル生成部２１１および分析部２３の詳細を説明する。作業管理装置２は、以下の（１）～（３）に示す中間的な分析結果をもとに、（４）の最終的な分析結果を求める。
（１）「領域」の分析とは、画像データ２１３内にあらかじめ定義した領域内に、骨格データ２２が示す作業者の身体が入っているか否かを分析することである（詳細は図６）。

（２）「姿勢」の分析とは、骨格データ２２が示す作業者の身体がどのような姿勢になっているかを分析することである（詳細は図７）。
（３）「背景」の分析とは、画像データ２１３内にあらかじめ定義した背景領域内の状態を分析することである（詳細は図８）。

（４）「手順」の分析とは、「領域、姿勢、背景」それぞれの分析結果の組み合わせを元に、画像データ２１３内の作業者が組み立て作業の中のどのような手順を行っているかを分析することである（詳細は図９）。
なお、出力部２８は、（４）の最終的な分析結果を出力してもよいし、（１）～（３）に示す中間的な分析結果のうちの少なくとも１つを出力してもよい。

図６は、領域に関する処理部を示す構成図である。
モデル生成部２１１の領域定義部２３１ａは、画像データ２１０上の領域を、入出力装置１４を介してユーザに多角形（四角形）座標データとして定義させ、その定義データをモデルデータ２１２の領域モデル２４として保存する。

分析部２３の領域検出部２３１は、保存された領域モデル２４と骨格データ２２とを使用して、定義された領域内に、骨格データ２２の特徴点が入っているか否かを分析し、その分析結果（人物作業状態）を推定結果データ２７の領域データ２４ａとして出力する。

なお、領域定義部２３１ａは、深層学習などの機械学習を用いてもよいし、用いなくてもよい。機械学習は精度が高く、汎用性も高い。しかし、学習に膨大な画像データ２１０を必要とし、学習に手間がかかる。また、深層学習を使う技術が必要とされるため、製造現場において、生産管理を担当する担当者が使えるものではない。そこで、機械学習を用いる代わりに、領域モデル２４を直接ユーザに定義させることで、製造現場の担当者の負担を軽減できる。

図７は、姿勢に関する処理部を示す構成図である。
モデル生成部２１１の姿勢学習部２３２ａは、骨格抽出部２１が抽出した骨格データ２２を表示し、その表示を見たユーザからの正解ラベル（姿勢ラベル）を受け付ける。姿勢学習部２３２ａは、骨格データ２２と姿勢ラベルとの組み合わせデータを学習し、その学習結果をモデルデータ２１２の姿勢モデル２５として保存する。
分析部２３の姿勢検出部２３２は、保存された姿勢モデル２５と骨格データ２２とを使用して、骨格データ２２の人物の姿勢を分析し、その分析結果（人物作業状態）を推定結果データ２７の姿勢データ２５ａとして出力する。

図８は、背景に関する処理部を示す構成図である。
モデル生成部２１１の背景定義部２３３ａは、画像データ２１０上の背景領域を、入出力装置１４を介してユーザに多角形（四角形）座標データとして定義させ、その背景領域内に写っている画像内容を見たユーザからの正解ラベル（背景ラベル）を受け付ける。背景定義部２３３ａは、背景領域と背景ラベルとの組み合わせデータを学習し、その学習結果をモデルデータ２１２の背景モデル２９１として保存する。
分析部２３の背景検出部２３３は、保存された背景モデル２９１と画像データ２１０とを使用して、画像データ２１３の背景領域内の画像内容を分析し、その分析結果（機材作業状態）を推定結果データ２７の背景データ２９１ａとして出力する。
画像データ２１０をもとに、領域モデル２４の領域と、背景モデル２９１の領域と、人物が主に撮影される領域を切り出して合成することで、画像データ２１３が生成される。

図９は、手順に関する処理部と、その処理結果を出力する出力部２８とを示す構成図である。
領域モデル２４と、姿勢モデル２５と、背景モデル２９１と、手順モデル２９７とを含むモデルデータ２１２、および、領域データ２４ａと、姿勢データ２５ａと、背景データ２９１ａと、手順データ２９７ａとを含む推定結果データ２７は、それぞれ作業管理装置２の記憶部２００に格納される。
手順検出部２３７は、「領域データ２４ａ、姿勢データ２５ａ、背景データ２９１ａ」それぞれの中間的な分析結果の推定結果データ２７を組み合わせて、最終的な作業者の手順データ２９７ａ（作業状態）を決定する。中間的な分析結果の３種類のうちの１種類が誤った推定をしても、残りの２種類が正しく推定されることで、最終的な精度が向上する。

手順検出部２３７による手順データ２９７ａの決定処理には、「領域モデル２４と、姿勢モデル２５と、背景モデル２９１」それぞれの中間的なモデルデータ２１２の組み合わせから、手順データ２９７ａを求めるためのモデルデータ２１２である手順モデル２９７が必要となる。
そこで、手順学習部２３７ａは、「領域、姿勢、背景」それぞれの中間的な分析結果の組み合わせを表示し、その表示を見たユーザからの正解ラベル（手順ラベル）を受け付ける。手順学習部２３７ａは、中間的な分析結果の組み合わせと、手順ラベルとを学習し、その学習結果をモデルデータ２１２の手順モデル２９７として保存する。このように、機械学習の手法を使った学習・推論を組み合わせることで、より短い時間で、効率的に分析できる。

出力部２８の出力演算部２８１は、推定結果データ２７の通知を受け、出力先で要求されるデータとなるように、以下に例示する演算処理を実行させる。
HTML出力部２８２は、推定結果データ２７をHTML形式（ブラウザ表示）に変換し、モニタ３１に出力する。
CSV出力部２８３は、推定結果データ２７をCSV形式のファイルに変換し、記憶装置３２に出力する。
ソケット通信部２８４は、推定結果データ２７をソケット通信でアプリケーション装置３３に出力する。

以下、図１０～図１７を参照して、モデル生成部２１１の事例を説明する。
図１０は、背景定義部２３３ａによるモデル定義を示すフローチャートである。
ステップＳ３０１にて、背景定義部２３３ａは、ＧＵＩ（Graphical User Interface）を用いて選択されたフレームの画像データ２１０を取得する。
ステップＳ３０２にて、背景定義部２３３ａは、選択されたフレームに対して背景ラベルのラベル付けの入力を受け付ける。
ステップＳ３０３にて、背景定義部２３３ａは、選択されたフレームの画像データ２１０の一部である多角形（四角形）座標データで定義された背景領域の画像データを切り取る。
ステップＳ３０４にて、背景定義部２３３ａは、ステップＳ３０３の画像データと、ステップＳ３０２の背景ラベルとの組み合わせを、選択されたフレームの学習データとして保持する。

ステップＳ３０５にて、背景定義部２３３ａは、未処理のフレームが存在するときには、処理をステップＳ３０１に戻す。
ステップＳ３０６にて、背景定義部２３３ａは、ステップＳ３０６の学習データを入力として機械学習を実行する。機械学習は、深層学習を含む、ニューラルネットワークやアンサンブル学習など、公知の技術を用いることができる。
ステップＳ３０７にて、背景定義部２３３ａは、ステップＳ３０６の学習結果を、背景モデル２９１として保存すると、図１０の処理は終了する。
以上、ステップＳ３０１～Ｓ３０７の処理により、背景定義部２３３ａは、画像データ２１３から背景モデル２９１を定義した。

図１１は、モデル定義の対象となる画像データ２１０と２１３を示す図である。
領域定義部２３１ａは、入出力装置１４のＧＵＩを使用して、画像データ２１０上の部品取り領域９０１と完成品格納領域９０２を領域モデル２４用に定義させる。例えば、部品取り領域９０１を作業者のイスに対して右側に配置し、完成品格納領域９０２を左側に配置する。
背景定義部２３３ａは、入出力装置１４のＧＵＩを使用して、画像データ２１０上の工具領域９０３を背景モデル２９１用に定義させる。例えば、ドライバ置き場であるドライバ領域を作業者のイスに対して右側に配置する（工具領域９０３）。
画像データ２１３は、部品取り領域９０１と、完成品格納領域９０２と、工具領域９０３と、人物領域９１０とを組み合わせたものである。このように画像加工部２０２は、モデルデータ２１２から分析対象の領域情報を取得して、設定可能であってもよい。

図１２は、図１１の画像データ２１０から生成される領域モデル２４の例を示す図である。
領域モデル２４は、図１０で入力された領域ごとに、領域ラベルと、特徴点番号と、判定論理と、多角形（四角形）座標データとを対応づけて構成される。例えば、領域モデル２４の第１行は、「部品取り領域」として、作業者の骨格データ２２の特徴点番号（４は右手首、７は左手首を示す）の両方（AND）が多角形（四角形）座標データ（４つの頂点座標、図１１の部品取り領域９０１を示す）内に存在したときに、組み立てるパソコンの部品を作業者が取ったと認識される。
なお、判定論理の「AND」は特徴点番号のAND判定（例えば両手）を示し、「OR」は特徴点番号のOR判定（例えば片手）を示す。つまり、作業者の両手首が部品取り領域に入ったら「右側に両手が入る」という領域判定が行われる。

図１３は、図１１の画像データ２１０から生成される背景モデル２９１の例を示す図である。
背景モデル２９１は、定義名と、ステップＳ３０３で入力される多角形（四角形）座標データと、ステップＳ３０２で入力される背景ラベルとを対応づけて構成される。
例えば、利用者は、ドライバ置き場にドライバが置かれている状態の工具領域９０３の多角形（四角形）座標データに対して、背景ラベル「未使用（ドライバあり）」を対応づける。一方、図示は省略したが、利用者は、ドライバ置き場にドライバが置かれていない状態の工具領域９０３の多角形（四角形）座標データに対して、背景ラベル「使用中（ドライバなし）」を対応づける。つまり、多角形（四角形）座標データで示される画像データ２１３内の領域の位置が同じであっても、ドライバが置かれている画像データ２１０と、ドライバが置かれていない画像データ２１０とで、別々の背景ラベルが対応づけられる。

図１４は、姿勢学習部２３２ａによるモデル定義を示すフローチャートである。
ステップＳ３１１にて、姿勢学習部２３２ａは、ＧＵＩを用いて選択されたフレームの画像データ２１０を取得する（図１５で後記）。
ステップＳ３１２にて、姿勢学習部２３２ａは、ステップＳ３１１で選択されたフレームの骨格データ２２を取得する。そして、姿勢学習部２３２ａは、画像データ２１０と骨格データ２２とを表示して、その表示内容に対して姿勢モデルの入力を促す。
ステップＳ３１３にて、姿勢学習部２３２ａは、姿勢ラベル（正解ラベル）がラベル付けされなかった場合、処理をステップＳ３１１に戻して別のフレームを選択させる。

ステップＳ３１４にて、姿勢学習部２３２ａは、ステップＳ３１２の骨格データ２２と、ステップＳ３１３の姿勢ラベルとの組み合わせを、選択されたフレームの学習データとして保持する。
ステップＳ３１５にて、姿勢学習部２３２ａは、未処理のフレームが存在するときには、処理をステップＳ３０１に戻す。
ステップＳ３１６にて、姿勢学習部２３２ａは、ステップＳ３０６と同様に、ステップＳ３１４の学習データを入力として機械学習を実行する。
ステップＳ３１７にて、姿勢学習部２３２ａは、ステップＳ３１６の学習結果を、姿勢モデル２５として保存する（図１６で後記）。

図１５は、図１４の姿勢検出部２３２の学習工程におけるＧＵＩ画面を示す図である。
利用者は、入出力装置１４のＧＵＩ画面８１０を用いて、正解ラベル付けを行う。まず、利用者は、画像表示欄８１１から学習用の画像を見ながら、画像選択欄８１２からコマ送りボタンやスライダで画像を選択する。
利用者は、選択した画像が、「右から取り出す」「組み立てる」「左に置く」「その他」のいずれであるかを、正解ラベル入力欄８１３のボタンの押下によって、指示する。

図１６は、図１４の姿勢検出部２３２の学習工程の結果として生成される姿勢モデル２５を示す図である。
姿勢検出部２３２は、図１５のＧＵＩから入力されたフレーム番号と、正解ラベルと、フレームで検出した人物の骨格データ２２とを、機械学習の結果である姿勢モデル２５として関連付ける。この姿勢モデル２５は、例えば、ねじ回しの作業姿勢を学習し、ねじ回しを行っているのか否かを推定するために使用される。
なお、図１６では、図１５の画像表示欄８１１に表示された画像上の人物の姿勢から、「右から取り出す」「組み立てる」「左に置く」「その他」を判定するための姿勢モデル２５が示される。

図１７は、手順学習部２３７ａによる学習結果である手順モデル２９７を示す図である。
手順モデル２９７は、領域モデル２４、姿勢モデル２５、背景モデル２９１の組み合わせを入力モデルとして、その入力モデルから推定される作業者の手順を出力するためのモデルである。例えば、組み立て作業は、以下の各手順などから構成される。
・部品取り手順は、作業者の右側にある組み立て対象の部品を取得する手順である。
・組み立て手順は、ドライバを用いて、ねじ締を行う手順である。
・部品格納手順は、組み立て完了した部品を作業者の左側に置く手順である。
例えば、領域モデル２４を単独に用いただけでは、人物の手が「どう」動いたのかは理解できても、人物の手が「何を」つかんだのかは不明である。
しかし、領域モデル２４と背景モデル２９１とを併用し、背景領域内のドライバ置き場にドライバが存在しないことで、人物が「ドライバを」つかんだことが明確になる。さらに、姿勢モデル２５も併用して、ドライバに手が伸びたことが分かった上で、肘の角度などにより、ドライバをとったのか、置いたのかを判定することができる。

以下、図１８～図２９を参照して、分析部２３の事例を説明する。
図１８は、分析部２３のメイン処理を示すフローチャートである。
ステップＳ４１１にて、分析部２３は、モデルデータ２１２を取得する。
ステップＳ４１２にて、分析部２３は、分析用の画像データ２１３を取得する。
ステップＳ４１３にて、分析部２３は、ステップＳ４１２の画像データ２１３から、骨格抽出部２１に骨格データ２２を抽出させる。
領域モデル２４が存在しているときには（ステップＳ４２１，Ｙｅｓ）、分析部２３は、領域検出部２３１に領域データ２４ａの推定処理を実行させる（ステップＳ４２２，詳細は図１９）。
姿勢モデル２５が存在しているときには（ステップＳ４２３，Ｙｅｓ）、分析部２３は、姿勢検出部２３２に姿勢データ２５ａの推定処理を実行させる（ステップＳ４２４，詳細は図２２）。

ステップＳ４２５にて、分析部２３は、未処理の人物がステップＳ４１２の画像データ２１０に存在するときには、処理をステップＳ２１に戻す。
背景モデル２９１が存在しているときには（ステップＳ４２６，Ｙｅｓ）、分析部２３は、背景検出部２３３に背景データ２９１ａの推定処理を実行させる（ステップＳ４２７，詳細は図２５）。
ステップＳ４３１にて、分析部２３は、未処理のフレームが存在するときには、処理をステップＳ４１２に戻す。
ステップＳ４３２にて、分析部２３は、ステップＳ４２２，Ｓ４２４，Ｓ４２７の各分析結果から手順検出部２３７に作業手順を推定させる。

図１９は、領域検出部２３１のサブルーチン処理を示すフローチャートである。
ステップＳ２２１にて、領域検出部２３１は、フレームごとに、そのフレームにて検出された人物の骨格データ２２を取得する。
ステップＳ２２２にて、領域検出部２３１は、領域モデル２４から１レコード分（１つの領域）を取得する。
領域検出部２３１は、ステップＳ２２１の骨格データ２２を構成する特徴点番号の座標が、ステップＳ２２２で取得した領域内であるときには（ステップＳ２２３，Ｙｅｓ）、ステップＳ２２２で取得したレコードの領域ラベルを保持する（ステップＳ２２４）。

ステップＳ２２５にて、領域検出部２３１は、領域モデル２４内の未処理のレコードが存在するときには、処理をステップＳ２２２に戻す。
ステップＳ２２６にて、領域検出部２３１は、ステップＳ２２４で保持されたすべての結果を領域データ２４ａとして出力する。
ステップＳ２２７にて、領域検出部２３１は、未処理のフレームが存在するときには、処理をステップＳ２２１に戻す。

図２０は、図１９の処理結果として「部品取り領域」で両手を認識したときの図である。
領域検出部２３１は、図１１の画像データ２１３上の部品取り領域９０１に対して、図１２の領域モデル２４の第１レコード（部品取り領域）の要件を満たす（つまり、右側に両手が入る）ことで、「右から部品をとる」という領域ラベルを含めた領域データ２４ａを推定する。

図２１は、図１９の処理結果として「完成品格納領域」で両手を認識したときの図である。
領域検出部２３１は、図１１の画像データ２１３上の完成品格納領域９０２に対して、図１２の領域モデル２４の第２レコード（完成品格納領域）の要件を満たす（つまり、左側に両手が入る）ことで、「左側に部品を格納する」という領域ラベルを含めた領域データ２４ａを推定する。

図２２は、姿勢検出部２３２のサブルーチン処理を示すフローチャートである。
ステップＳ２４１にて、姿勢検出部２３２は、動画の各フレームにて検出された人物の骨格データ２２を取得する。
ステップＳ２４２にて、姿勢検出部２３２は、取得した骨格データ２２を入力として、姿勢モデル２５を用いて機械学習による推論を行う。これにより、骨格データ２２に対応する姿勢ラベルが出力される。
なお、ユーザは、ステップＳ２４２の姿勢ラベルが実際と異なった場合（推論ミス）には（ステップＳ２４３，Ｙｅｓ）、姿勢学習部２３２ａは、ユーザから正しい姿勢ラベルを受け付けてもよい。そして、姿勢学習部２３２ａは、受け付けた姿勢ラベルと、取得した骨格データ２２との組み合わせを新たな学習データとして、姿勢モデル２５を修正（再学習）してもよい（ステップＳ２４４）。

ステップＳ２４５にて、姿勢検出部２３２は、出力された姿勢ラベルを推論結果として保持する。
ステップＳ２４６にて、姿勢検出部２３２は、未処理の人物がステップＳ２４１のフレームに存在するときには、処理をステップＳ２４３に戻す。
ステップＳ２４７にて、姿勢検出部２３２は、フレームに存在するすべての人物についてのステップＳ２４５で保持した推論結果を姿勢データ２５ａとして出力する。
ステップＳ２４８にて、姿勢検出部２３２は、未処理のフレームが存在するときには、処理をステップＳ２４１に戻す。

図２３は、図２２の処理に用いられる画像データ２１０を示す図である。出力部２８は、時系列的に表示する画像データ２１０に対して、左側から右側にむかってフレーム番号（f10＝10番、f30＝30番、…）を併記する。各フレームの画像データ２１０には、骨格抽出部２１が認識した骨格データ２２を示す線も人物の画像へ重畳表示されている。なお実際には、画像データ２１０の人物領域と物体領域を組み合わせた画像データ２１３にて検出処理が行われる。

図２４は、図２３の画像データ２１０に対する推論ラベル（姿勢ラベル）を示す姿勢データ２５ａの図である。
姿勢検出部２３２は、ビデオカメラ１などから取得した画像データ２１３から、写っている人物の行動を構成する姿勢を分析し、その分析結果を姿勢データ２５ａとして出力する。姿勢データ２５ａには、検出時刻を示すフレーム番号が付されている。
この出力される姿勢データ２５ａは、例えば、製造業の組み立て現場での組み立て作業の手順に係る作業姿勢や、製造業の製造現場での作業安全にかかわる身体的負担の大きい作業姿勢を検出するために活用できる。

図２５は、背景検出部２３３のサブルーチン処理を示すフローチャートである。
ステップＳ２７１にて、背景検出部２３３は、動画の各フレームである画像データ２１０を取得する。
ステップＳ２７２にて、背景検出部２３３は、背景モデル２９１から１レコード分（１つの背景領域）を取得する。
ステップＳ２７３にて、背景検出部２３３は、ステップＳ２７１の画像データ２１３から、ステップＳ２７２の背景領域の位置の画像を切り取る。
ステップＳ２７４にて、背景検出部２３３は、ステップＳ２７３で切り取った画像データ２１０を入力として、背景モデル２９１を用いて機械学習の推論を実行する。
ステップＳ２７５にて、背景検出部２３３は、ステップＳ２７４の推論結果として、背景ラベルを保持する。
ステップＳ２７６にて、背景検出部２３３は、背景モデル２９１内の未処理のレコードが存在するときには、処理をＳ２７２に戻す。
ステップＳ２７７にて、背景検出部２３３は、未処理のフレームが存在するときには、処理をステップＳ２７１に戻す。
ステップＳ２７８にて、背景検出部２３３は、すべての背景ラベルの推論結果を出力する。

図２６は、図２５の処理結果として、ドライバが未使用の状態を認識したときの図である。
出力部２８は、人物行動と関連のある背景画像の情報として、背景ラベル９０３ｅで示した「未使用」を、人物行動画像へ重畳表示する。また、出力部２８は、動画の各フレームである画像データ２１０について、骨格抽出部２１が認識した骨格データ２２を人物の画像へ重畳表示する。さらに、出力部２８は、骨格データ２２を構成する特徴点データ（関節点）をマーキングして表示する（図では丸印）。

図２７は、図２５の処理結果として、ドライバが使用中の状態を認識したときの図である。出力部２８は、人物行動と関連のある背景画像の情報として、背景ラベル９０３ｆで示した「使用中」を、人物行動画像へ重畳表示する。

図２８は、手順検出部２３７が出力する手順データ２９７ａの例を示す図である。
図９でも説明したように、手順検出部２３７は、領域データ２４ａ、姿勢データ２５ａ、背景データ２９１ａそれぞれの分析結果を組み合わせて、作業者の手順データ２９７ａ（作業状態）をフレーム番号ごとに決定する。例えば、背景データ２９１ａとして、ドライバが未使用の状態（図２６）と使用中の状態（図２７）とを区別することで、出力手順が組み立て中か否かを決定することができる。

図２９は、図２８の手順データ２９７ａをガントチャート形式で表示した画面図である。
手順検出部２３７は、手順データ２９７ａのフレーム番号は特定の時刻を示しているので、手順データ２９７ａから時系列の作業手順（出力手順）を求めることができる。そこで、出力部２８は、時系列の作業手順をガントチャート形式で表示することで、作業手順ごとの所要時間をユーザにわかりやすく示すことができる。

以上説明した第１の実施形態では、作業管理装置２が深層学習などによる画像認識で画像データ２１３に写っている人物を検出し、その人物の骨格データ２２を取得する。そして、作業管理装置２は、取得した骨格データ２２と、事前に入力された正解ラベルとを姿勢モデル２５として機械学習しておくことで、製造現場における作業者の姿勢を推定し、その姿勢から作業者の作業手順を特定する。
また、作業管理装置２は、骨格データ２２との位置関係を判定するための領域モデル２４と、人物が置かれている状況を示す背景モデル２９１とを併せて用いることで、作業手順の特定精度を向上させる。これにより、深層学習や画像認識の知識を問わず、簡便な方法で、作業者を撮影した画像データ２１３から、作業者の姿勢データ２５ａを分析し、作業者の手順データ２９７ａを特定できる。

図３０は、第２の実施形態に関する作業管理装置２の構成図である。
以下では、この作業管理システムを製造業の組み立て現場に導入し、作業者が小型のパソコンを組み立てる作業を分析する場合に適用した一例を説明する。

作業管理システムは、作業管理装置２を中心として、ビデオカメラ１と、ビデオレコーダ１３と、マイク１２と、作業管理装置２と、モニタ３１と、記憶装置３２とを含めて構成される。これらの作業管理システムの各装置は、それぞれ、イーサネット（登録商標）などのネットワーク、ＵＳＢ（Universal Serial Bus）やその他、ハードウェア・インタフェースとして使用可能な適切なもので接続される。

ビデオカメラ１は、作業者自体や、作業者の周辺にある物体や背景などを被写体として撮影する。ビデオレコーダ１３には、ビデオカメラ１で撮影した映像が記録されている。マイク１２は、作業者の作業現場で発生した音を収録する。モニタ３１と、記憶装置３２とは、それぞれ作業管理装置２の分析結果の出力先である。つまり、作業管理装置２は、現在の作業中の作業者を撮影した画像データが入力されてもよく、また過去に作業を行った作業者を撮影した画像データが入力されてもよい。

作業管理装置２は、例えば、オンプレミスのサーバ、もしくはクラウドサーバのような計算機システムである。作業管理装置２は、ＣＰＵ（Central Processing Unit）と、メモリと、ハードディスクなどの記憶手段（記憶部）と、ネットワークインタフェースとを有するコンピュータとして構成される。このコンピュータは、ＣＰＵが、メモリ上に読み込んだプログラム（アプリケーションや、その略のアプリとも呼ばれる）を実行することにより、各処理部により構成される制御部（制御手段）を動作させる。なお、これに限られず、作業管理装置２がＧＰＵ（Graphics Processing Unit）を備え、このモデルの分析や表示にＧＰＵを用いてもよい。

作業管理装置２は、計算機システム上のプログラムを実行することで、画像加工部２０２と、前処理部２０１と、骨格抽出部２１と、分析部２３と、出力部２８とを構成する。分析部２３は更に、領域検出部２３１と、姿勢検出部２３２と、背景検出部２３３と、物体検出部２３４と、音検出部２３５と、移動検出部２３６を備える。

画像加工部２０２は、後記する図３１に示すように、ビデオカメラ１またはビデオレコーダ１３から入力された動画像の各フレームを構成する画像データ２１０をもとに、認識したい複数の領域を新たな画像データ２１３に加工する。この画像データ２１３の画素数は、画像データ２１０の画素数よりも少ない為、画像データ２１０が高解像度であっても演算処理の負担は少なく、リアルタイム処理性に優れる。

図３０に戻り説明を続ける。マイク１２で収録された音情報には、作業現場で計測される音には背景音（例えば近傍の道路の車両通過音）などが含まれる。前処理部２０１は、音または音声の生データに対してＦＦＴ（Fast Fourier Transformation）等を用いた前処理を行い、バックグラウンドノイズを除去し、作業現場で発生した音を音要素情報として抽出する。前処理部２０１が抽出した音要素情報は、音データ２９６である。

骨格抽出部２１は、画像加工部２０２から入力された画像データ２１３をもとに、骨格データ２２を抽出する。
なお、骨格抽出部２１は、画像データ２１３から骨格データ２２を抽出するだけでなく、例えば人物領域９１０から作業者の骨格データ２２を抽出するなどのように、予め定められた領域から人物を検出してもよい。

分析部２３は、領域モデル２４と、姿勢モデル２５と、物体モデル２６と、背景モデル２９１と、組み合わせモデル２９２と、音モデル２９３と、移動分析モデル２９４を参照して、作業者が実行している作業内容を推定する。分析部２３では、上記した学習段階において画像要素の情報のほかに、音要素の情報を加えて学習処理を実行する。この学習は例えば、各要素の学習や、同一時間帯に取得された画像と音からの６組の要素情報（領域、姿勢、背景、物体、音、移動）による６次元データのクラスタリング処理を行うものである。なお、分析部２３は、領域、背景、物体、音、移動、人物の姿勢の検出結果から人物の作業を推定してもよく、推定に用いる検出結果は単独でも組み合わせてもよく、限定されない。

このクラスタリング処理により生成された複数のクラスタによれば、作業現場における類似作業（作業工程）毎にクラスタが生成されることになる。例えばある時間帯に画像中央部の台で作業者が座った姿勢で工具（ペンチ）を使用している状況についてクラスタＸが生成されたのであれば、これは作業工程Ａである可能性が高いと推定でき、画像右側で立ち作業をしている状況についてクラスタＹが生成されたのであれば、これは作業工程Ｂであると推定できるということが判明する。
分析部２３におけるクラスタリングの結果は、推定結果データ２７として出力部２８を介して出力され、推定結果や推定根拠などをモニタ３１に表示し、あるいは記憶装置３２に記憶される。

領域検出部２３１は、領域モデル２４を参照して、予め定められた領域と、作業者の骨格との重なりを検出する。例えば、予め定められた部品領域と、作業者の骨格との重なりを検出することで、作業者が部品を取りだして作業を開始したことを推定可能である。
姿勢検出部２３２は、姿勢モデル２５に格納された各姿勢と、映像から抽出された骨格データ２２を参照して、画像データ中の作業者の姿勢を検出する。姿勢モデル２５は、人の各姿勢と、その姿勢の場合における骨格データとの対応関係を記憶している。人の姿勢と作業との対応関係を参照することにより、作業者がどのような作業を行っているかを推定可能である。

背景検出部２３３は、背景モデル２９１を参照して画像データから背景を検出する。背景モデル２９１は、背景の各構造物と、その構造物の外観データとの対応関係を記憶している。この背景モデル２９１により、背景の構造物の外観データを推定し、よって作業者がどのような作業を行っているかを推定可能である。

物体検出部２３４は、物体モデル２６を用いて、画像データから物体を検出する。物体モデル２６は、工具などの物体と、その物体の外観データとの対応関係を記憶している。この物体モデル２６により、工具などがどのように使われているかを知ることができ、よって作業者がどのような作業を行っているかを検知可能である。同様に、
これらの検出部にて検出した結果に加え、分析部２３は、組み合わせモデル２９２を参照して、検出結果を組み合わせて、作業員が実施している作業内容を推定する。組み合わせモデル２９２は、作業員が実施する各作業内容と、その作業内容を示す各検出部の検出結果との組み合わせの対応関係を記憶している。
なお、物体検出部２３４は、画像データ２１３から物体を検出するだけでなく、例えば部品取り領域９０１から部品を検出し、完成品格納領域９０２から完成品を検出し、工具領域９０３から工具を検出するなどのように、予め定められた領域から定められた物体を検出してもよい。

音検出部２３５は、音モデル２９３を参照して音データ２９６から作業内容を検出する。音モデル２９３は、音要素と作業内容との対応関係を記憶している。音データ２９６によって、作業者がどのような作業を行っているかを推定可能である。

移動検出部２３６は、骨格データ２２を参照して移動分析データ２９５を生成し、この移動分析データ２９５から作業内容を検出する。移動分析モデル２９４は、移動分析データ２９５と作業内容との対応関係を記憶している。移動分析データ２９５によって、作業者がどのような作業を行っているかを推定可能である。

これらの構成された各処理部は、ハードディスクなどの不揮発メモリ上に蓄えられる骨格データ２２または推定結果データ２７にアクセスする。

骨格抽出部２１は、ビデオカメラ１またはビデオレコーダ１３から入力された画像データをもとに、この画像データに撮影されている人物の骨格データ２２を抽出する。分析部２３は、分析用の画像データと、分析用の骨格データ２２とを入力として、作業員が実行する作業を推定した推定結果データ２７を求める。出力部２８は、推定結果データ２７を外部装置であるモニタ３１と、記憶装置３２に出力する。

物体検出部２３４は、機械学習モデルを利用して、動画を構成する各フレームから物体を検出する。ここで検出する物体は、説明上、ドライバなど作業に用いる工具としているが、画像上に映っている物体/模様などであればよく、限定されない。物体検出部２３４は、後記する図３１の画像データ２１０などから物体の位置と種類を検出する。物体検出部２３４が物体を検出する範囲は、フレーム全面だけでなく、指定した骨格を基準にした領域内とするとよい。例えば、作業者の手が届く範囲とし、作業者の把持できる範囲に制限して物体の検出を行うなどである。具体的に言うと、本実施形態の物体検出部２３４は、骨格データ２２から決定した両手首近傍の検出範囲内で、所定の物体であるドライバを検出する。この範囲の制限により、物体検出部２３４は、物体の検出を高速化できると共に、物体の誤検出を抑制できる。

物体検出部２３４は、物体モデル２６の機械学習の結果を用いて、物体を検出した座標と確からしさを示すスコアを取得する。物体検出部２３４は、事前に定めた閾値により、明らかにスコアが低い検出結果を、物体モデル２６の機械学習の結果から除外する。また、物体検出部２３４は、複数の連続するフレームで物体を検出した連続検出回数が閾値以上である条件を満たしたものを検出と判定したり、多数決などによる検出結果のフィルタリングを実施したりすることで、誤検知を抑制し、更に検出がフレーム毎にちらつくことを防ぐ。

物体検出部２３４は、作業者の把持する物体を検出するなど、指定した骨格を基準にした領域内で物体を検出する。しかし、作業者の身体や作業スペースにより物体の一部が隠れることが多い。一部が隠れる場合は、検出精度が低下し、作業時間の計測が困難になる。そこで、物体検出部２３４が、例えばプラスドライバまたはマイナスドライバを検出した際、同じ作業姿勢を取っている時間を、ネジ締結の作業と推定する。抽出したドライバの位置は、画像に重畳表示される。そして、作業時間は、グラフ化して出力される。

本実施形態では、事前の学習段階において、作業現場の作業状況をビデオカメラ１とマイク１２から情報収集して、例えばクラスタリング処理により、作業状況を反映した複数のクラスタを生成しておく。なお生成したクラスタの中には、作業工程に特有の事象を色濃く反映したクラスタばかりではなく、作業工程を特定するには信頼度の低いものを含むことも考えられる。このことから、クラスタ生成の際に得られるスコアなどを参照して、発生したすべてのクラスタの中から、作業者自身によるクラスタの見直しを適宜行うのがよい。

そのうえで、実利用段階では、実利用段階で入手した画像、音からの６組の要素情報（領域、姿勢、背景、物体、音、移動）による６次元データのクラスタリング処理を行い、既存のクラスタのどれに分類されるのか、あるいは新クラスタを生成するのかを判断する。この結果、クラスタＸに分類されるとしたら、この状況は作業工程Ａである可能性が高いと推定できる。

なおここでは、学習がクラスタリングである事例について説明したが、要するに作業工程における画像と音の関係が、特定の作業工程を示すものであることが判明している場合に、この関係を利用して、特定の作業工程であることを判断することができるものであればよい。

音の要素を加味した本発明によれば、推定精度の向上を期待できる。例えば画像のみの場合には、組立や検査を行う上で使われる工具や装置の状態が人物の陰等になり画像から認識できない場合がある。これは上記例では、画像による４次元の要素情報（領域、姿勢、背景、物体）のうち、物体の要素情報が失われた３次元の要素情報からの判断となるために精度が出ないということである。この点、本実施形態では、これに音の要素が加わるためにペンチを使用するときのパチン、パチンという音が確認できるのであれば、クラスタＸに分類される確率が高くなるように評価されることになる。

まず音に関して、作業の上で使用中の音を発する工具音も学習しておくことで、人陰で画像では認識できない手持ち工具等も認識できるようになり、人物が製品の組立や検査を行っている状況を、より精度よく自動抽出できる。音または音声の生データまたはＦＦＴ等を用いた前処理を行った後のデータを機械学習にて推定するのがよく、音声による言葉認識からも判断できる。

また、作業者が把持／使用している物体の画像認識および、物体から発生する音を検出することで、作業者が行う作業内容の推定精度の向上を期待できる。画像認識と音認識は個別または組合せで作業内容を推定するのがよい。

また音または音声が発生する位置がおおよそ決まっている場合、指向性マイクを向けることで、周囲雑音を拾うことなく音または音声がより精度よく認識が可能である。工具を取り出す際の音や、工具を置くときの音、さらに取り出すときは、重さが変化することでブザーを鳴らしての認識も可能であり、例えば音から電動ドライバを回した回数も認識可能である。

学習機能に関して、画像、骨格、音（または音声）の誤検出について、機械学習の結果として確からしさを示すスコアを取得できる。スコアは事前に定めた閾値により、明らかにスコアが低い検出結果は結果から除外することに利用できる。また、連続検出回数や、多数決などによる検出結果のフィルタリングを実施することで、誤検知抑制や検出がちらつくことを防ぐのがよい。

図３１は、作業管理装置２に入力する映像の一例を示す図である。
画像データ２１０は、人物が写っている動画像の各フレームに１つ生成される。この画像データ２１０に写っている人物は、電子装置を手元に持っており、未だドライバを手にしていない。部品取り領域９０１は、作業者が部品を取るための領域である。工具領域９０３は、作業者が作業で使う工具を載置する領域である。完成品格納領域９０２は、作業者が完成品を格納する領域である。

マーカ９１１，９１２は、画像データ２１０に撮影されているマーカであり、画像加工部２０２が人物を認識するための人物領域９１０を決定するためのものである。画像加工部２０２は、作業管理処理を実行する前にマーカ９１１，９１２を認識して、人物領域９１０を設定する。

このように、画像加工部２０２は、動画中に撮影されている人物を認識するための人物領域や物体を認識するための領域を、マーカに基づいて決定してもよい。これにより、作業者は、自身の作業領域を認識して、ビデオカメラ１に適切に撮影されることが可能である。また、作業管理装置２は、ビデオカメラ１で撮影された動画のフレームから、人物を認識するための人物領域を適切に設定可能である。

なお、画像加工部２０２は、人物を認識するための人物領域や物体を認識するための領域を、作業管理処理を実行する前に、パターンマッチングに基づいて決定してもよい。また、画像加工部２０２が人物を認識するための人物領域や物体を認識するための領域を調整可能な画面を表示して、手作業で調整可能としてもよい。

図３２は、作業管理装置２に入力する映像から抽出された骨格データ４２と、予め設定された部品取り領域９０１、工具領域９０３、完成品格納領域９０２の一例を示す図である。
骨格データ４２は、骨格抽出部２１が画像データ２１０から人物の骨格情報を抽出した結果を、この画像データ２１０に重畳表示したものであり、各特徴点を線で結んで示している。骨格抽出部２１は、OpenPose（URL＝https://github.com/CMU-Perceptual-Computing-Lab/openpose）などの公知の骨格情報取得技術を使用することができる。

部品取り領域９０１は、部品が置かれている領域をこの画像データ２１０に重畳表示したものである。分析部２３は、この部品取り領域９０１と所定の骨格データ２２とが重なったときに、作業員の作業状態が「部品取り」であると推定する。
工具領域９０３は、工具が置かれる領域をこの画像データ２１０に重畳表示したものである。分析部２３は、この工具領域９０３に工具が存在しているときに、作業員は未だこの工具を持っていないと推定する。

完成品格納領域９０２は、完成品が格納される領域をこの画像データ２１０に重畳表示したものである。分析部２３は、この完成品格納領域９０２と所定の骨格データ２２とが重なったときに、作業員の一連の作業状態が「終了」であると推定する。

図３３は、合成後の画像データ２１３の一例を示す図である。
画像加工部２０２は、図３２の画像データ２１０のうち不要な部分を取り除く。画像加工部２０２は、画像データ２１０のうち、部品取り領域９０１と完成品格納領域９０２と、工具領域９０３と、人物領域９１０を合成して、新たな画像データ２１３に加工する。なお、これに限られず、画像加工部２０２は、合成時に各領域に対して必要に応じて変形、色の調整、フィルタ処理などを行ってもよい。
大きなサイズの画像データ２１０から認識したい複数の領域を切り出し、１枚の画像とすることで、画像データ２１３は、元の画像データ２１０のサイズよりも小さくなる。

図３４は、骨格データ２２の一例を示す図である。
骨格データ２２は、番号欄と、特徴点欄と、Ｘ軸座標欄と、Ｙ軸座標欄と、スコア欄とを含んで構成される。各行には、人物の関節点などである特徴点が格納される。番号欄は、例えば、鼻は０、右肩は１、右肘は２などのように、各特徴点に１つずつ固有の番号が割り当てられている。特徴点欄は、この特徴点の名前を格納している。Ｘ軸座標欄は、この特徴点の画像データ２１０におけるＸ軸の座標値を格納している。Ｙ軸座標欄は、この特徴点の画像データ２１０におけるＹ軸の座標値を格納している。スコア欄は、この特徴点の確からしさを表す数値を格納している。

図３５は、領域モデル２４の一例を示す図である。
領域モデル２４は、領域ラベル欄と、特徴点番号欄と、判定論理欄と、多角形座標欄とを含んで構成される。領域ラベル欄は、この領域の名前を格納する欄である。特徴点番号欄は、骨格データ２２の特徴点の番号を1つ、または複数格納する欄である。特徴点番号欄で指定された特徴点が、多角形座標欄で指定された領域に入った場合、分析部２３は、その特徴点が領域に入ったことを検知する。

判定論理欄は、特徴点番号欄が複数であるとき、これら番号を有する特徴点がこの領域に進入したことを判定する論理を示している。多角形座標欄は、この領域を示す多角形の座標値を格納する欄である。

例えば、領域モデル２４の第１行は、図３２の部品取り領域９０１として、作業者の骨格データ２２の特徴点番号（＃３は右手首、＃６は左手首を示す）のうち何れか（論理和）が多角形（四角形）座標データ（４つの頂点座標）内に存在したときに、組み立てるパソコンの部品を作業者が取ったと認識される。

なお、判定論理の「論理積」は特徴点番号の論理積による判定（例えば両手）を示し、「論理和」は特徴点番号の論理和による判定（例えば片手）を示す。つまり、作業者の片手首が部品取り領域９０１に入ったら、「部品取り領域に手が入る」という領域判定が行われる。

領域モデル２４の第２行は、図３２の完成品格納領域９０２として、作業者の骨格データ２２の特徴点番号（＃３は右手首、＃６は左手首を示す）のうち何れか（論理和）が多角形（四角形）座標データ（４つの頂点座標）内に存在したときに、組み立てた完成品を作業者が格納したと認識される。

領域モデル２４の第３行は、図３２の工具領域９０３として、作業者の骨格データ２２の特徴点番号（＃３は右手首、＃６は左手首を示す）の両方（論理積））が多角形（四角形）座標データ（４つの頂点座標）内に存在したときに、ドライバを作業者が取ったか、または作業者がドライバを戻したと認識される。

図３６、図３７は、本発明の時の発生事象と推論結果の関係の例を示す図である。これらの図では、横軸に時間推移を示し、縦軸側に上から順に実態としての作業工程、画像情報の例として姿勢の情報、音情報、推論結果を示している。
図３６は、作業者の作業内容を示すタイムチャートである。
図３６は、画像から姿勢Ａが認識できない区間を含む場合を示している。この例では、実態としての作業工程は時刻ｔ０からｔ４まで作業工程Ａを実施し、その後に作業工程Ｂに移行した。画像情報の中の姿勢は、時刻ｔ０からｔ２間と、時刻ｔ３からｔ４間で作業工程Ａでの姿勢Ａが計測されたが、時刻ｔ２とｔ３の間はこの姿勢Ａが計測されなかった。音情報ＤＭは、ほぼこの期間全域で作業工程Ａでの音Ａが計測された。

この時の推論結果は、図３９の左に示すように、この作業工程Ａの実施期間Ｔ内に姿勢の不検出期間Ｔ０はあるものの、この期間Ｔ内で少なくとも一定時間以上の姿勢と音の双方が検知される時間帯Ｔ１が存在することから工程Ａの可能性が高いと判断したものである。

図３７は、作業者の作業内容を示すタイムチャートである。
図３７は、画像から姿勢Ａか姿勢Ｃかが認識できない区間を含む場合を示している。この例では、実態としての作業工程は時刻ｔ０からｔ４まで作業工程Ａを実施し、その後に工程Ｂに移行した。画像情報中の姿勢は、時刻ｔ１からｔ４間で作業工程Ａでの姿勢Ａまたは姿勢Ｃが計測された。音情報は、ほぼこの期間全域で作業工程Ａでの音Ａが計測された。

この時の推論結果は、図３９の左に示すように、この作業工程Ａの実施期間Ｔ内に姿勢Ａと姿勢Ｃの混在する区間があるものの、この期間Ｔ内で少なくとも一定時間以上の姿勢Ａと音の双方が検知される時間帯Ｔ１が存在することから工程Ａの可能性が高いと判断したものである。

図３８は、作業者の作業内容を示すタイムチャートである。
図３８は、作業時間を計測するために、作業の開始と終了を画像と音から判断する例を示している。画像からは作業の開始を意味する姿勢Ａと音Ａを検知したことで、作業開始と判断する。また作業の終了を意味する姿勢Ｂと音Ｃを検知したことで、作業終了と判断していることを示している。

図３９は、作業者の作業内容を示すタイムチャートである。
この作業工程Ａの実施期間Ｔ内に姿勢Ａと姿勢Ｃの混在する区間があるものの、この期間Ｔ内で少なくとも一定時間以上の姿勢Ａと音の双方が検知される時間帯Ｔ１が存在することから工程Ａの可能性が高いと判断したものである。

図４０は、作業管理装置２が判定する作業姿勢と、作業者の作業内容を示すタイムチャートである。
「姿勢」の右側の棒グラフは、時刻ｔ１からｔ４と、時刻ｔ５からｔ６に姿勢検出部２３２が検出した作業者の姿勢が、作業姿勢であることを示している。

「ドライバ検出」の右側の棒グラフは、時刻ｔ２からｔ３に、物体検出部２３４が、作業者の右手首または左手首の近傍にドライバを検出したことを示している。
「作業」の右側の棒グラフは、分析部２３が推定した作業員の作業内容を示している。時刻ｔ１からｔ４は、作業としてネジ締結が推定されている。これは時刻ｔ１からｔ４の一部にて、作業員の手首の近傍にドライバを検出したためである。これに対し、時刻ｔ５からｔ６までは、ドライバを検出していないためネジ締結とは推定されていない。

図４１Ａと図４１Ｂは、作業管理処理を示すフローチャートである。
画像加工部２０２は、動画を構成する各フレームを画像データとして取得する（ステップＳ１１）。そして、画像加工部２０２は、認識したい複数の領域を新たな画像データ２１３に加工する（ステップＳ１２）。そして、骨格抽出部２１は、加工した画像データ２１３中の作業者の骨格データ２２を抽出する（ステップＳ１３）。

その後、分析部２３は、並行に検出処理を実施する。具体的にいうと、領域検出部２３１は、領域モデル２４に基づき、フレーム中の領域を検出する（ステップＳ１４）。
姿勢検出部２３２は、姿勢モデル２５に基づき、骨格データ２２から姿勢を検出する（ステップＳ１５）。ここで姿勢検出部２３２は、検出した姿勢のスコア（確からしさ）を算出する。スコアが閾値以上であれば、その姿勢を検出したと見做し、検出を示す文字列（ラベル）を出力する。

背景検出部２３３は、背景モデル２９１に基づき、フレームから背景を検出する（ステップＳ１６）。ここで背景検出部２３３は、検出した背景のスコア（確からしさ）を算出する。スコアが閾値以上であれば、その背景を検出したと見做し、検出を示す文字列（ラベル）を出力する。

物体検出部２３４は、物体モデル２６と骨格データ２２に基づき、フレームから物体を検出する（ステップＳ１７）。ここで物体検出部２３４は、検出した物体のスコア（確からしさ）を算出する。スコアが閾値以上であれば、その物体を検出したと見做し、検出を示す文字列（ラベル）を出力する。物体検知については、物体モデル２６に特徴点を定義しているため、予め抽出した骨格データ２２の座標に応じて物体検出の範囲を設定して検出する。
音検出部２３５は、音モデル２９３と音データ２９６に基づき、対応する作業内容を検出する（ステップＳ１８）。移動検出部２３６は、移動分析モデル２９４と移動分析データ２９５に基づき、移動を検出する（ステップＳ１９）。

これらの検出処理が終了すると、ステップＳ２０に進む。

ステップＳ２０にて、分析部２３は、過去の検出回数によるフィルタ処理を実施して、検出した領域と姿勢と背景と物体のちらつきを抑制する。そして分析部２３は、領域と姿勢と背景と物体の検出時間を算出する（ステップＳ２１）。
そして、分析部２３は、これらの算出した検出時間を基に、作業を推定する。具体的にいうと、分析部２３は、これら検出結果の組み合わせ処理を実施する（ステップＳ２２）。

分析部２３は、検出結果の組み合わせ処理において、組み合わせモデル２９２として定義したデータに基づき、算出した検出結果を組み合わせて演算し、作業員が実施している作業内容を推定する。

組み合わせモデル２９２には、例えば部品取り領域に手が入ったことの検出と、部品を取る姿勢をしていることの検出との論理積と、開始作業との組み合わせが格納されている。更に組み合わせモデル２９２には、作業姿勢の検出と、ドライバを手首近傍における検出との論理積と、ねじ締結作業との組み合わせが格納されている。

分析部２３は、例えば、領域検出で部品が置かれている場所である部品取り領域に手が入ったことの検出と、姿勢検出で部品を取る姿勢をしていることの検出との論理積を行った結果、真であれば開始作業を行っていると見做す。

図４２は、作業姿勢とドライバとの関連付け処理を示すフローチャートである。
分析部２３は、物体検出部２３４がドライバを検出したか否かを判定する（ステップＳ４０）。分析部２３は、物体検出部２３４がドライバを検出しなかったならば（Ｎｏ）、図４２の処理を終了し、物体検出部２３４がドライバを検出していたならば（Ｙｅｓ）、ステップＳ４１に進む。

次に分析部２３は、姿勢検出部２３２が作業姿勢を検出したか否かを判定する（ステップＳ４１）。分析部２３は、作業姿勢を検出しなかったならば（Ｎｏ）、図４２の処理を終了し、作業姿勢を検出したならば（Ｙｅｓ）、ステップＳ４２に進む。

ステップＳ４２にて、分析部２３は、作業姿勢の検出時間と同じ作業時間を、ねじ締め作業時間とすると、図４２の処理を終了する。分析部２３は、検出した結果について、論理演算での検出有無を算出することに加えて、作業時間についても、論理和または論理積での演算を行うことができる。

なお、物体検出部２３４が検出するのはドライバに限られず、筆またはエアーガン、半田ごて、スパナなどであってもよい。分析部２３が推定する作業内容は、ねじ締結に限られず、筆またはエアーガンを検出したときの塗装作業、半田ごてを検出したときの半田づけ作業、スパナを検出したときのボルト締結作業などであってもよい。

図４１Ｂに戻り説明を続ける。分析部２３は、最新のフレームから推定した作業状態が開始作業で有るか否かを判定する（ステップＳ２３）。分析部２３は、開始作業ならば（Ｙｅｓ）、作業時間の計測を開始して（ステップＳ２４）、ステップＳ２７に進む。分析部２３は、開始作業では無いならば（Ｎｏ）、ステップＳ２５に進む。

ステップＳ２５にて、分析部２３は、最新のフレームから推定した作業状態が終了作業で有るか否かを判定する。分析部２３は、終了作業ならば（Ｙｅｓ）、作業時間の計測を終了して（ステップＳ２６）、ステップＳ２７に進む。分析部２３は、終了作業では無いならば（Ｎｏ）、ステップＳ２７に進む。

ステップＳ２７にて、分析部２３は、作業順序を確認する。例えば分析部２３は、予め定められた作業順序から逸脱した作業について、その旨を作業属性として記録するとよい。これにより、分析部２３は、予め定められた作業順序に沿った作業と、予め定められた作業順序から逸脱した作業を区別して表示することができる。

そして分析部２３は、途中結果を出力する（ステップＳ２８）。そして、分析部２３は、未処理のフレームが有るか否かを判定する（ステップＳ２９）。分析部２３は、未処理のフレームが有るならば（Ｙｅｓ）、ステップＳ１１の処理に戻り、全てのフレームを処理したならば（Ｎｏ）、ステップＳ３０に進む。
ステップＳ３０にて、分析部２３は、推定結果データ２７を出力すると、図４１Ａと図４１Ｂの処理を終了する。
図４１Ａと図４１Ｂのフローチャートで説明したように、分析部２３は、ドライバの検出結果と作業者の姿勢の検出結果とに基づき、この作業者が行っている作業を推定する。これにより、作業員が行う複数の異なる作業が同様な姿勢であっても、各作業内容を好適に抽出できる。

図４３は、作業管理装置２が表示するリアルタイム画面５を示す図である。
図４３に示したリアルタイム画面５は、分析の実行、中断、停止と、分析した結果を示す画面である。出力部２８が、このリアルタイム画面５をモニタ３１に表示する。リアルタイム画面５は、実行ボタン５１と、ポーズボタン５２と、停止ボタン５３と、映像表示領域５６と、状態表示欄５４と、状態累計時間グラフ５５と、状態タイムチャート５７とを含んで表示される。

映像表示領域５６は、入力した画像データに分析結果を重畳して表示する領域である。実行ボタン５１は、分析の実行を行うためのものである。ポーズボタン５２は、分析の実行にポーズを掛けるものである。停止ボタン５３は、分析の実行を停止させるものである。

状態表示欄５４は、現在の分析状況を示す欄であり、作業の開始、終了や主な作業の実施状況を表示する。状態累計時間グラフ５５は、分析中の映像における作業の累計時間を示す棒グラフである。状態タイムチャート５７は、直近で分析した結果をタイムチャートで示す。

図４４は、作業管理装置２が表示する履歴データ画面６を示す図である。
履歴データ画面６は、分析結果を示す各タイムチャートを含んでいる。
状態タイムチャート６０は、各時間における分析結果のスコア（確からしさ）に基づいて、総合的に判定した状態を示すタイムチャートである。

「開始」タイムチャート６１は、各時間における映像の被写体の「開始」状態のスコアに基づいて判定した状態を示すタイムチャートである。ここで分析部２３は、被写体の骨格が部品取り領域９０１と重なっており、かつ未だ作業が開始されていないときに、「開始」状態のスコアが高いと判定する。

「部品を取る」タイムチャート６２は、各時間における映像の被写体の「部品を取る」状態のスコアに基づいて判定した状態を示すタイムチャートである。ここで分析部２３は、被写体の骨格が部品取り領域９０１と重なっており、かつ作業が開始されているときに、「開始」状態のスコアが高いと判定する。

「ドライバ使用中」タイムチャート６３は、各時間における映像の被写体の「ドライバ使用中」状態のスコアに基づいて判定した状態を示すタイムチャートである。

「ドライバ未使用」タイムチャート６４は、各時間における映像の被写体の「ドライバ未使用」状態のスコアに基づいて判定した状態を示すタイムチャートである。
「ネジ締め」タイムチャート６５は、各時間における映像の被写体の「ネジ締め」状態のスコアに基づいて判定した状態を示すタイムチャートである。

「右向き」タイムチャート６６は、各時間における映像の被写体の「右向き」状態のスコアに基づいて判定した状態を示すタイムチャートである。
「左向き」タイムチャート６７は、各時間における映像の被写体の「左向き」状態のスコアに基づいて判定した状態を示すタイムチャートである。

「終了」タイムチャート６８は、各時間における映像の被写体の「終了」状態のスコアに基づいて判定した状態を示すタイムチャートである。
「部品を置く」タイムチャート６９は、各時間における映像の被写体の「部品を置く」状態のスコアに基づいて判定した状態を示すタイムチャートである。

図４５は、作業管理装置２が表示する認識レポート画面７を示す図である。
認識レポート画面７には、凡例７０と、ラベル７１と、積み上げ棒グラフ７２と、場所欄７３と、日時欄７４とを含んで表示している。

積み上げ棒グラフ７２は、分析部２３が認識した姿勢に基づく作業の累計時間を示すものである。ここで４本の積み上げ棒グラフ７２は、９時から１０時３０分、１０時５０分から１２時２０分、１３時２０分から１４時５０分、１５時２０分から１６時５０分の各時間帯における各作業の累計時間を示している。

ラベル７１は、積み上げ棒グラフ７２に表示する作業を選択するものである。凡例７０は、積み上げ棒グラフ７２に表示された表示態様と、その表示態様が示す作業との関係を示すものである。場所欄７３は、認識レポート画面７の対象となる場所を示すものである。日時欄７４は、認識レポート画面７の対象となる日時を示すものである。ここでは４本の積み上げ棒グラフにより、それぞれの日における作業の累計時間を示している。棒グラフは場所や年月日ごとなど、指定する単位で表示できる。

この認識レポート画面７によれば、作業の管理者は、各作業者の作業の累計時間を容易に把握できる。

以下に本発明の構成と作用効果について説明する。

［１］人物が撮影された動画の各フレームを、人物領域と物体領域を含む画像データ（２１３）に加工する画像加工部（２０２）と、
前記画像データ（２１３）から当該人物の骨格データ（２２）を抽出する骨格抽出部（２１）と、
前記骨格データ（２２）から前記人物の姿勢を検出する姿勢検出部（２３２）と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部（２３）と、
を有することを特徴とする作業管理装置（２）。

これにより、処理対象の画像データの情報量が少なくなるので、骨格抽出部（２１）は、高い解像度の画像をリアルタイムに処理可能となる。

［２］前記骨格抽出部（２１）は、前記画像データ（２１３）のうち人物を認識したい領域から当該人物の骨格データ（２２）を抽出する、
ことを特徴とする［１］に記載の作業管理装置。

動画の各フレームである画像データ（２１０）が高解像度であっても演算処理の負担は少なくなり、骨格抽出部（２１）は、リアルタイム処理性に優れる処理を提供可能である。

［３］前記画像加工部（２０２）は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データ（２１３）に加工する、
ことを特徴とする［１］に記載の作業管理装置。

画像データ（２１３）の一方から人物を認識し、画像データ（２１３）の他方から物体を認識することができる。このとき演算処理の負担は少なく、リアルタイム処理性に優れる。

［４］前記画像データ（２１３）のうち、物体を認識したい領域が配置された部分から所定の物体を検出する物体検出部（２３４）、
を更に備えることを特徴とする［３］に記載の作業管理装置。

物体検出部（２３４）は、予め定められた物体を認識したい領域から定められた物体を検出しているので、演算処理の負担は少なく、リアルタイム処理性に優れる。

［５］前記画像加工部（２０２）は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、余白を入れて合成することで前記画像データ（２１３）に加工する、
ことを特徴とする［１］に記載の作業管理装置。

これにより、物体検出部（２３４）は、各領域の継ぎ目の部分の物体認識の誤検知を抑制できる。更に骨格抽出部（２１）は、骨格抽出の誤検知を抑制できる。

［６］前記画像加工部（２０２）は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、リサイズして合成することで前記画像データ（２１３）に加工する、
ことを特徴とする［１］に記載の作業管理装置。

認識したい対象物に応じて各領域をリサイズするので、画像データ（２１０）が高解像度であっても、物体検出部（２３４）や骨格抽出部（２１）の演算処理の負担は少なく、リアルタイム処理性に優れる。

［７］前記画像加工部（２０２）は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、フィルタ処理して合成することで前記画像データ（２１３）に加工する、
ことを特徴とする［１］に記載の作業管理装置。

これにより、物体認識の誤検知や骨格抽出の誤検知を抑制できる。

［８］前記画像加工部（２０２）は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、パターンマッチングで調整する、
ことを特徴とする［１］に記載の作業管理装置。

これにより、ビデオカメラ（１）の設置位置のズレや、作業者の作業位置のズレを調整可能である。

［９］前記画像加工部（２０２）は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、マーカで調整する、
ことを特徴とする［１］に記載の作業管理装置。

［１０］前記画像加工部（２０２）が前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、手作業で調整可能な画面を表示させる調整部、
を備えることを特徴とする［１］に記載の作業管理装置。

［１１］前記姿勢検出部（２３２）による検出の結果に基づき、前記骨格抽出部（２１）が抽出した前記骨格データ（２２）の特徴点データを、前記画像データ（２１３）に加工する前のフレームにマーキングして表示部に表示させる出力部（２８）、
を備えることを特徴とする［１］に記載の作業管理装置。

これにより、ビデオカメラ（１）で撮影されている作業場所の画像に、骨格データ（２２）の特徴点データを表示させることができる。

［１２］各骨格データに姿勢ラベルが対応づけられている姿勢モデルの記憶部を更にそなえ、
前記姿勢検出部（２３２）は、前記姿勢モデルに基づき、前記人物の骨格データから前記人物の姿勢を検出する、
ことを特徴とする［１］に記載の作業管理装置。

これにより、姿勢検出部（２３２）は、作業者の作業に対応した固有の姿勢を適切に検出可能である。

［１３］前記分析部（２３）は更に、領域、背景、物体、音、移動、前記人物の姿勢の検出結果を単独、もしくは組み合わせて人物の作業を推定する、
ことを特徴とする請求項１に記載の作業管理装置。

これにより、姿勢の検出結果と他の要素との組み合わせに基づき、人物の作業をより正確に推定可能である。

［１４］人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データ（２１３）に加工する画像加工部（２０２）と、
前記画像データ（２１３）から当該人物の骨格データ（２２）を抽出する骨格抽出部（２１）と、
前記骨格データ（２２）から前記人物の姿勢を検出する姿勢検出部（２３２）と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部（２３）と、
を有することを特徴とする作業管理システム。

これにより、処理対象の画像データの情報量が少なくなるので、骨格抽出部が高い解像度の画像をリアルタイムに処理可能となる。

［１５］画像加工部（２０２）が、人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データ（２１３）に加工するステップと、
骨格抽出部（２１）が、前記画像データ（２１３）から当該人物の骨格データ（２２）を抽出するステップと、
姿勢検出部（２３２）が、前記骨格データ（２２）から前記人物の姿勢を検出するステップと、
分析部（２３）が、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定するステップと、
を有することを特徴とする作業管理方法。

《変形例》
本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば上記した実施形態は、本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることも可能である。

上記の各構成、機能、処理部、処理手段などは、それらの一部または全部を、例えば集積回路などのハードウェアで実現してもよい。上記の各構成、機能などは、プロセッサがそれぞれの機能を実現するプログラムを解釈して実行することにより、ソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリ、ハードディスク、ＳＳＤ（Solid State Drive）などの記録装置、または、フラッシュメモリカード、ＤＶＤ（Digital Versatile Disk）などの記録媒体に置くことができる。

各実施形態に於いて、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際には、殆ど全ての構成が相互に接続されていると考えてもよい。

１ビデオカメラ
１３ビデオレコーダ
１４入出力装置
２作業管理装置
２１骨格抽出部
２２骨格データ
２１１モデル生成部
２０２画像加工部
２１３画像データ
２３１ａ領域定義部
２３２ａ姿勢学習部
２３３ａ背景定義部
２３７ａ手順学習部
２３分析部
２３１領域検出部
２３２姿勢検出部
２３３背景検出部
２３４物体検出部
２３５音検出部
２３６移動検出部
２３７手順検出部
２４領域モデル
２５姿勢モデル
２６物体モデル
２２骨格データ
２７推定結果データ
２８出力部
３１モニタ
３２記憶装置
３３アプリケーション装置
９０１部品取り領域
９０３工具領域
９０２完成品格納領域
９１０人物領域

Claims

人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データに加工する、
ことを特徴とする作業管理装置。
前記画像データのうち、物体を認識したい領域が配置された部分から所定の物体を検出する物体検出部、
を更に備えることを特徴とする請求項１に記載の作業管理装置。
人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、余白を入れて合成することで前記画像データに加工する、
ことを特徴とする作業管理装置。
人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、リサイズして合成することで前記画像データに加工する、
ことを特徴とする作業管理装置。
人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、フィルタ処理して合成することで前記画像データに加工する、
ことを特徴とする作業管理装置。
人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、パターンマッチングで調整する、
ことを特徴とする請求項１に記載の作業管理装置。
人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、マーカで調整する、
ことを特徴とする作業管理装置。
人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
前記画像加工部が前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、手作業で調整可能な画面を表示させる調整部、
を備えることを特徴とする作業管理装置。
人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、前記画像データに加工する、
ことを特徴とする作業管理システム。
前記画像データのうち、物体を認識したい領域が配置された部分から所定の物体を検出する物体検出部、
を更に備えることを特徴とする請求項９に記載の作業管理システム。
人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、余白を入れて合成することで前記画像データに加工する、
ことを特徴とする作業管理システム。
人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、リサイズして合成することで前記画像データに加工する、
ことを特徴とする作業管理システム。
人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、フィルタ処理して合成することで前記画像データに加工する、
ことを特徴とする作業管理システム。
人物が撮影された動画の各フレームを、人物を認識したい領域と物体を認識したい領域を含む画像データに加工する画像加工部と、
前記画像データから当該人物の骨格データを抽出する骨格抽出部と、
前記骨格データから前記人物の姿勢を検出する姿勢検出部と、
前記人物の姿勢の検出結果に基づき、前記人物の作業を推定する分析部と、
を有し、
前記画像加工部は、前記動画の各フレームから人物を認識したい領域と物体を認識したい領域を切り出す位置を、パターンマッチングで調整する、
ことを特徴とする作業管理システム。
画像加工部が、人物が撮影された動画の各フレームから、人物を認識したい領域と物体を認識したい領域を切り出し、人物を認識したい領域を一方に配置し、物体を認識したい領域を他方に配置して合成することで、画像データに加工するステップと、
骨格抽出部が、前記画像データから当該人物の骨格データを抽出するステップと、
姿勢検出部が、前記骨格データから前記人物の姿勢を検出するステップと、
分析部が、前記人物の姿勢の検出結果に基づき、前記人物の作業を推定するステップと、
を有することを特徴とする作業管理方法。