JP6825041B2 - 姿勢分析プログラム、および、姿勢分析装置 - Google Patents

姿勢分析プログラム、および、姿勢分析装置 Download PDF

Info

Publication number
JP6825041B2
JP6825041B2 JP2019108981A JP2019108981A JP6825041B2 JP 6825041 B2 JP6825041 B2 JP 6825041B2 JP 2019108981 A JP2019108981 A JP 2019108981A JP 2019108981 A JP2019108981 A JP 2019108981A JP 6825041 B2 JP6825041 B2 JP 6825041B2
Authority
JP
Japan
Prior art keywords
posture
data
label
background
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019108981A
Other languages
English (en)
Other versions
JP2020201772A (ja
Inventor
昌之 川俣
昌之 川俣
強 松野
強 松野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Industry and Control Solutions Co Ltd
Original Assignee
Hitachi Industry and Control Solutions Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Industry and Control Solutions Co Ltd filed Critical Hitachi Industry and Control Solutions Co Ltd
Priority to JP2019108981A priority Critical patent/JP6825041B2/ja
Publication of JP2020201772A publication Critical patent/JP2020201772A/ja
Application granted granted Critical
Publication of JP6825041B2 publication Critical patent/JP6825041B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

本発明は、姿勢分析プログラム、および、姿勢分析装置に関する。
製造業の人による作業を伴う生産現場において、また、製品の生産計画や、いわゆる現場改善において、人の作業時間計測は必須とされている。たとえば、組立作業を伴う生産現場においては、多様な組立作業に掛かる作業標準時間(ST:Standard Time)により、生産計画が立案される。また、作業の改善においては、標準作業との偏差の改善がテーマとなる。
ここで、作業時間の計測のためには、一般的には、PC操作、バーコード読込、ボタン押下などの人が作業の開始と終了を示す何らかの操作を契機にする。または、ドリルのON/OFF、スイッチのON/OFF、装置の稼動を示す電流値などの作業に間接的に係っている装置からデータを取り出すことで、作業時間が計測される場合もある。
しかし、これらの計測手段は、新たな設備の追加や、作業者への負担増につながり、本来業務ではない作業手順であることから実際にそれが行われず、正確にデータ化できないことが多い。
そのため、作業者の作業状況をビデオカメラで記録し、人手によって解析することが一般的になっており、そのための計算機システムあるいは、プログラムが使われている。しかし、長時間記録されたビデオカメラの映像から特定の作業者の状況を解析、記録する作業は長時間におよび、解析者の負担が大きく、映像の解析自動化による解析作業の負担軽減がのぞまれている。
そこで、特許文献1,2では、解析者の目視での解析の代わりに、コンピュータの画像認識により、自動的に作業を解析する手法が提案されている。
特開2019−16226号公報 国際公開第2019/003355号
画像認識の精度を高めるためには、事前に用意した教師ありの学習データを大量に用意し、その学習データを機械学習して高精度なモデルを生成することが一般的である。しかし、多数の作業者が勤務する製造現場などでは、作業者一人ずつの学習データを用意することは負担が大きい。
そこで、特許文献1の手法では、画像に写っている作業者の頭と手の位置を特徴量として抽出し、その特徴量から作業を特定することで、個々の作業者の体格や性別などに依存しない汎用的な手法を提供している。
一方、作業者の頭と手の位置だけをトレースするだけでは、作業内容を絞り込めないこともある。例えば、手の位置が床に近づいた状態であっても、単にしゃがんだだけなのか、それとも床の荷物を持ち上げているのかというように、細かく作業者の意図を分析することで、作業内容がより正確に特定できる。
しかし、特許文献1,2などの従来の自動認識では、このような詳細な認識モデルは提案されていなかった。
そこで、本発明は、作業者の姿勢を低コストかつ高精度に分析することを、主な課題とする。
前記課題を解決するために、本発明の姿勢分析プログラムは、以下の特徴を有する。
姿勢分析プログラムは、
画像データを入力とした画像認識により、前記画像データに写る人物の関節位置を示す特徴点データを含む骨格データを取得する骨格抽出部、
前記骨格データごとに姿勢ラベルが対応づけられている姿勢モデルの記憶部、
前記骨格抽出部が取得した前記骨格データをもとに、前記姿勢モデルに予め決められた前記姿勢ラベルから、前記画像データに写る人物の姿勢を判別する姿勢推定部
前記骨格データごとに入力された正解ラベルである前記姿勢ラベルを学習データとして前記姿勢モデルを機械学習する姿勢学習部、
前記画像データの一部として定義された背景領域に写る背景前記画像データごとに、入力された正解ラベルである背景ラベルを学習データとして背景モデルを機械学習する背景定義部、
前記背景モデルを用いた機械学習の推論により、背景前記画像データを入力として前記背景ラベルを出力する背景推定部、
前記画像データの一部として定義された特徴点領域の座標と、特徴点領域内か否かを判定するための特徴点データと、領域ラベルとを対応づけた領域モデルを定義する領域定義部、
前記骨格抽出部が取得した前記骨格データの特徴点データが前記領域モデルの特徴点領域内に存在するときに、対応する前記領域ラベルを出力する領域推定部としてコンピュータを機能させ
前記姿勢推定部は、さらに、前記姿勢モデルを用いた機械学習の推論により、前記骨格データを入力として前記姿勢ラベルを出力することを特徴とする。
その他の手段は、後記する。
本発明によれば、作業者の姿勢を低コストかつ高精度に分析することができる。
本発明の一実施形態に関する作業分析システムの構成図である。 本発明の一実施形態に関する作業分析システムの運用を示すシーケンス図である。 本発明の一実施形態に関する画像データおよび骨格データの一例を示す図である。 本発明の一実施形態に関する図3の骨格データを構成する特徴点データを示すテーブルである。 本発明の一実施形態に関する領域に関する処理部を示す構成図である。 本発明の一実施形態に関する姿勢に関する処理部を示す構成図である。 本発明の一実施形態に関する背景に関する処理部を示す構成図である。 本発明の一実施形態に関する手順に関する処理部と、その処理結果を出力する出力部とを示す構成図である。 本発明の一実施形態に関する背景定義部によるモデル定義を示すフローチャートである。 本発明の一実施形態に関するモデル定義の対象となる画像データを示す図である。 本発明の一実施形態に関する図10の画像データから生成される領域モデルの例を示す図である。 本発明の一実施形態に関する図10の画像データから生成される背景モデルの例を示す図である。 本発明の一実施形態に関する姿勢学習部によるモデル定義を示すフローチャートである。 本発明の一実施形態に関する図13の姿勢推定部の学習工程におけるGUI画面図である。 本発明の一実施形態に関する図13の姿勢推定部の学習工程の結果として生成される姿勢モデルを示す図である。 本発明の一実施形態に関する手順学習部による学習結果である手順モデルを示す図である。 本発明の一実施形態に関する分析部のメイン処理を示すフローチャートである。 本発明の一実施形態に関する領域推定部のサブルーチン処理を示すフローチャートである。 本発明の一実施形態に関する図18の処理結果として「部品取り領域」で両手を認識したときの図である。 本発明の一実施形態に関する図18の処理結果として「完成品格納領域」で両手を認識したときの図である。 本発明の一実施形態に関する姿勢推定部のサブルーチン処理を示すフローチャートである。 本発明の一実施形態に関する図21の処理に用いられる画像データを示す図である。 本発明の一実施形態に関する図22の画像データに対する推論ラベル(姿勢ラベル)を示す姿勢データの図である。 本発明の一実施形態に関する背景推定部のサブルーチン処理を示すフローチャートである。 本発明の一実施形態に関する図24の処理結果として、ドライバが未使用の状態を認識したときの図である。 本発明の一実施形態に関する図24の処理結果として、ドライバが使用中の状態を認識したときの図である。 本発明の一実施形態に関する手順推定部が出力する手順データの例を示す図である。 本発明の一実施形態に関する図27の手順データをガントチャート形式で表示した画面図である。
以下、本発明の一実施形態について、図面を参照して詳細に説明する。
図1は、作業分析システムの構成図である。以下では、この作業分析システムを製造業の組み立て現場に導入し、作業者が小型のパソコンを組み立てる作業を分析する場合に適用した一例を説明する。
作業分析システムは、分析装置10を中心として、ビデオカメラ31と、ビデオレコーダ32と、入出力装置33と、モニタ41と、記憶装置42と、アプリケーション装置43とを含めて構成される。
これらの作業分析システムの各装置は、それぞれ、イーサネット(登録商標)などのネットワーク、USBやその他、ハードウェア・インタフェースとして使用可能な適切なもので接続される。また、作業分析システムの各装置は、単独の装置として構成されていてもよいし、分析装置10などの計算機システム上のソフトウェアを実行することで実現してもよい。
ビデオカメラ31は、作業者を被写体として撮影する。ビデオレコーダ32には、ビデオカメラ31で撮影した映像が記録されている。入出力装置33は、グラフィックディスプレイ、マウスを備え、作業者などの利用者に情報表示したり、利用者の指示を受け付けたりする。
モニタ41と、記憶装置42と、アプリケーション装置43とは、それぞれ分析装置10の分析結果の出力先である(詳細は図8)。
分析装置10は、例えば、オンプレサーバ、もしくはクラウドサーバのような計算機システムである。分析装置10は、CPU(Central Processing Unit)と、メモリと、ハードディスクなどの記憶手段(記憶部)と、ネットワークインタフェースとを有するコンピュータとして構成される。このコンピュータは、CPUが、メモリ上に読み込んだプログラム(アプリケーションや、その略のアプリとも呼ばれる)を実行することにより、各処理部により構成される制御部(制御手段)を動作させる。
分析装置10は、計算機システム上のプログラムを実行することで骨格抽出部11と、モデル生成部12と、分析部13と、出力部14とを構成する。これらの構成された各処理部は、ハードディスクなどの不揮発メモリ上に蓄えられるデータ(モデルデータ22、推定結果データ23)にアクセスする。
骨格抽出部11は、ビデオカメラ31またはビデオレコーダ32から入力された画像データ18をもとに、骨格データ19を抽出する。
モデル生成部12は、学習用の画像データ18a(画像データ18)と、学習用の骨格データ19a(骨格データ19)とを入力として、モデルデータ22を生成して不揮発メモリに保存する。モデルデータ22には、ユーザから明示的に定義された定義データと、ユーザから入力されたラベルデータを用いた学習結果である学習済データとが存在する。なお、モデル生成部12は、分析対象の作業に対してモデルデータ22を基本的には1度作成すればよいが、精度を向上させるために、すでに作成したモデルデータ22を更新(改良)してもよい。
分析部13は、分析用の画像データ18b(画像データ18)と、分析用の骨格データ19b(骨格データ19)とを入力として、モデルデータ22を用いた推論処理により、推定結果データ23を求める。
出力部14は、推定結果データ23を外部装置(モニタ41と、記憶装置42と、アプリケーション装置43)に出力する。
図2は、作業分析システムの運用を示すシーケンス図である。
深層学習などの機械学習段階において、ビデオカメラ31から画像取得(S101)された画像データ18、または、ビデオカメラ31から画像取得(S102)されてビデオレコーダ32が記録画像32Dに画像記録(S103)した画像データ18は、分析装置10に入力される。
分析装置10は、利用者から入出力装置33を介して受けた学習指示(S111)により、学習処理(S112)を実行し、その結果をモデルデータ22として出力する。
分析段階において、ビデオカメラ31から画像取得(S121)された画像データ18、または、ビデオカメラ31から画像取得(S122)されてビデオレコーダ32が記録画像32Eに画像記録(S123)した画像データ18は、分析装置10に入力される。
分析装置10は、利用者から入出力装置33を介して受けた分析指示(S131)により、モデルデータ22に基づく分析処理(S132)を実行し、その結果を推定結果データ23として出力する。なお、分析装置10は、画像取得(S121)された画像データ18に対して分析処理(S132)をリアルタイムに実行してもよい。また、分析装置10は、利用者からの分析指示(S131)の操作を介さずに、分析処理(S132)を自動実行してもよい。
そして、分析装置10の出力部14は、出力処理(S141)によって推定結果データ23をアプリケーション装置43などに出力する。
図3は、画像データ18および骨格データ19の一例を示す図である。
画像データ18は、人物が写っている動画像において、人物ごと、画像フレームごとに1つ生成される。
骨格データ19は、骨格抽出部11が画像データ18から人物の骨格情報を抽出した結果である。骨格データ19は、人物の特徴点(関節点など)ごとに、1つずつ番号が割り当てられる(図では番号=0〜9)。骨格抽出部11は、OpenPose(URL=https://github.com/CMU-Perceptual-Computing-Lab/openpose)などの公知の骨格情報取得技術を使用することができる。
図4は、図3の骨格データ19を構成する特徴点データを示すテーブルである。
このテーブルは、特徴点の番号ごとに、特徴点の名称(鼻など)と、特徴点の(x,y)座標とで構成される。特徴点の名称として、例えば、人物の首、左肩、左肘などの特徴点に対して別々の番号が割り当てられる。特徴点の名称や座標は、骨格抽出部11が画像データ18からそれぞれの関節点を画像認識で認識した結果である。
以下、図5〜図8を参照して、モデル生成部12および分析部13の詳細を説明する。分析装置10は、以下の(1)〜(3)に示す中間的な分析結果をもとに、(4)の最終的な分析結果を求める。
(1)「領域」の分析とは、画像データ18内にあらかじめ定義した領域内に、骨格データ19が示す作業者の身体が入っているか否かを分析することである(詳細は図5)。
(2)「姿勢」の分析とは、骨格データ19が示す作業者の身体がどのような姿勢になっているかを分析することである(詳細は図6)。
(3)「背景」の分析とは、画像データ18内にあらかじめ定義した背景領域内の状態を分析することである(詳細は図7)。
(4)「手順」の分析とは、「領域、姿勢、背景」それぞれの分析結果の組み合わせを元に、画像データ18内の作業者が組み立て作業の中のどのような手順を行っているかを分析することである(詳細は図8)。
なお、出力部14は、(4)の最終的な分析結果を出力してもよいし、(1)〜(3)に示す中間的な分析結果のうちの少なくとも1つを出力してもよい。
図5は、領域に関する処理部を示す構成図である。
モデル生成部12の領域定義部12aは、画像データ18上の領域を入出力装置33を介してユーザに多角形(四角形)座標データとして定義させ、その定義データをモデルデータ22の領域モデル22aとして保存する。
分析部13の領域推定部13aは、保存された領域モデル22aと骨格データ19とを使用して、定義された領域内に、骨格データ19の特徴点が入っているか否かを分析し、その分析結果(人物作業状態)を推定結果データ23の領域データ23aとして出力する。
なお、領域定義部12aは、深層学習などの機械学習を用いてもよいし、用いなくてもよい。機械学習は精度が高く、汎用性も高い。しかし、学習に膨大な画像データ18を必要とし、学習に手間がかかる。また、深層学習を使う技術が必要とされるため、製造現場において、生産管理を担当する担当者が使えるものではない。そこで、機械学習を用いる代わりに、領域モデル22aを直接ユーザに定義させることで、製造現場の担当者の負担を軽減できる。
図6は、姿勢に関する処理部を示す構成図である。
モデル生成部12の姿勢学習部12bは、骨格抽出部11が抽出した骨格データ19を表示し、その表示を見たユーザからの正解ラベル(姿勢ラベル)を受け付ける。姿勢学習部12bは、骨格データ19と姿勢ラベルとの組み合わせデータを学習し、その学習結果をモデルデータ22の姿勢モデル22bとして保存する。
分析部13の姿勢推定部13bは、保存された姿勢モデル22bと骨格データ19とを使用して、骨格データ19の人物の姿勢を分析し、その分析結果(人物作業状態)を推定結果データ23の姿勢データ23bとして出力する。
図7は、背景に関する処理部を示す構成図である。
モデル生成部12の背景定義部12cは、画像データ18上の背景領域を入出力装置33を介してユーザに多角形(四角形)座標データとして定義させ、その背景領域内に写っている画像内容を見たユーザからの正解ラベル(背景ラベル)を受け付ける。背景定義部12cは、背景領域と背景ラベルとの組み合わせデータを学習し、その学習結果をモデルデータ22の背景モデル22cとして保存する。
分析部13の背景推定部13cは、保存された背景モデル22cと画像データ18とを使用して、画像データ18の背景領域内の画像内容を分析し、その分析結果(機材作業状態)を推定結果データ23の背景データ23cとして出力する。
図8は、手順に関する処理部と、その処理結果を出力する出力部14とを示す構成図である。
領域モデル22aと、姿勢モデル22bと、背景モデル22cと、手順モデル22dとを含むモデルデータ22、および、領域データ23aと、姿勢データ23bと、背景データ23cと、手順データ23dとを含む推定結果データ23は、それぞれ分析装置10の記憶部20に格納される。
手順推定部13dは、「領域データ23a、姿勢データ23b、背景データ23c」それぞれの中間的な分析結果の推定結果データ23を組み合わせて、最終的な作業者の手順データ23d(作業状態)を決定する。中間的な分析結果の3種類のうちの1種類が誤った推定をしても、残り2種類が正しく推定されることで、最終的な精度が向上する。
手順推定部13dによる手順データ23dの決定処理には、「領域モデル22aと、姿勢モデル22bと、背景モデル22c」それぞれの中間的なモデルデータ22を組み合わせから、手順データ23dを求めるためのモデルデータ22である手順モデル22dが必要となる。
そこで、手順学習部12dは、「領域、姿勢、背景」それぞれの中間的な分析結果を組み合わせをを表示し、その表示を見たユーザからの正解ラベル(手順ラベル)を受け付ける。手順学習部12dは、中間的な分析結果を組み合わせと、手順ラベルとを学習し、その学習結果をモデルデータ22の手順モデル22dとして保存する。このように、機械学習の手法を使った学習・推論を組み合わせることで、より短い時間で、効率的に分析できる。
出力部14の出力演算部14pは、推定結果データ23の通知を受け、出力先で要求されるデータとなるように、以下に例示する演算処理を実行させる。
・HTML出力部14aは、推定結果データ23をHTML形式(ブラウザ表示)に変換し、モニタ41に出力する。
・CSV出力部14bは、推定結果データ23をCSV形式のファイルに変換し、記憶装置42に出力する。
・ソケット通信部14cは、推定結果データ23をソケット通信でアプリケーション装置43に出力する。
以下、図9〜図16を参照して、モデル生成部12の事例を説明する。
図9は、背景定義部12cによるモデル定義を示すフローチャートである。
S301として、背景定義部12cは、GUI(Graphical User Interface)を用いて選択されたフレームの画像データ18を取得する。
S302として、背景定義部12cは、選択されたフレームに対して背景ラベルのラベル付けの入力を受け付ける。
S303として、背景定義部12cは、選択されたフレームの画像データ18の一部である多角形(四角形)座標データで定義された背景領域の画像データを切り取る。
S304として、背景定義部12cは、S303の画像データと、S302の背景ラベルとの組み合わせを、選択されたフレームの学習データとして保持する。
S305として、背景定義部12cは、未処理のフレームが存在するときには、処理をS301に戻す。
S306として、背景定義部12cは、S306の学習データを入力として機械学習を実行する。機械学習は、深層学習を含む、ニューラルネットワークやアンサンブル学習など、公知の技術を用いることができる。
S307として、背景定義部12cは、S306の学習結果を、背景モデル22cとして保存する。
以上、S301〜S307の処理により、背景定義部12cは、画像データ18から背景モデル22cを定義した。
図10は、モデル定義の対象となる画像データ18を示す図である。
領域定義部12aは、入出力装置33のGUIを使用して、画像データ18上の領域101,102を領域モデル22a用に定義させる。例えば、部品取り領域を作業者のイスに対して右側に配置し(領域101)、完成品格納領域を左側に配置する(領域102)。
背景定義部12cは、入出力装置33のGUIを使用して、画像データ18上の背景領域103を背景モデル22c用に定義させる。例えば、ドライバ置き場であるドライバ領域を作業者のイスに対して右側に配置する(領域103)。
図11は、図10の画像データ18から生成される領域モデル22aの例を示す図である。
領域モデル22aは、図10で入力された領域ごとに、領域ラベルと、特徴点番号と、判定論理と、多角形(四角形)座標データとを対応づけて構成される。例えば、領域モデル22aの第1行は、「部品取り領域」として、作業者の骨格データ19の特徴点番号(4は右手首、7は左手首を示す)の両方(AND)が多角形(四角形)座標データ(4つの頂点座標、図10の領域101を示す)内に存在したときに、組み立てるパソコンの部品を作業者が取ったと認識される。
なお、判定論理の「AND」は特徴点番号のAND判定(例えば両手)を示し、「OR」は特徴点番号のOR判定(例えば片手)を示す。つまり、作業者の両手首が部品取り領域に入ったら「右側に両手が入る」という領域判定が行われる。
図12は、図10の画像データ18から生成される背景モデル22cの例を示す図である。
背景モデル22cは、定義名と、S303で入力される多角形(四角形)座標データと、S302で入力される背景ラベルとを対応づけて構成される。
例えば、利用者は、ドライバ置き場にドライバが置かれている状態の背景領域103の多角形(四角形)座標データに対して、背景ラベル「未使用(ドライバあり)」を対応づける。一方、図示は省略したが、利用者は、ドライバ置き場にドライバが置かれていない状態の背景領域103の多角形(四角形)座標データに対して、背景ラベル「使用中(ドライバなし)」を対応づける。つまり、多角形(四角形)座標データで示される画像データ18内の領域の位置が同じであっても、ドライバが置かれている画像データ18と、ドライバが置かれていない画像データ18とで、別々の背景ラベルが対応づけられる。
図13は、姿勢学習部12bによるモデル定義を示すフローチャートである。
S311として、姿勢学習部12bは、GUIを用いて選択されたフレームの画像データ18を取得する(図14で後記)。
S312として、姿勢学習部12bは、S311で選択されたフレームの骨格データ19を取得する。そして、姿勢学習部12bは、画像データ18と骨格データ19とを表示して、その表示内容に対して姿勢モデルの入力を促す。
S313として、姿勢学習部12bは、姿勢ラベル(正解ラベル)がラベル付けされなかった場合、処理をS311に戻して別のフレームを選択させる。
S314として、姿勢学習部12bは、S312の骨格データ19と、S313の姿勢ラベルとの組み合わせを、選択されたフレームの学習データとして保持する。
S315として、姿勢学習部12bは、未処理のフレームが存在するときには、処理をS301に戻す。
S316として、姿勢学習部12bは、S306と同様に、S314の学習データを入力として機械学習を実行する。
S317として、姿勢学習部12bは、S316の学習結果を、姿勢モデル22bとして保存する(図15で後記)。
図14は、図13の姿勢推定部13bの学習工程におけるGUI画面図である。
利用者は、入出力装置33のGUIを用いて、正解ラベル付けを行う。まず、利用者は、画像表示欄111から学習用の画像を見ながら、画像選択欄112からコマ送りボタンやスライダで画像を選択する。
利用者は、選択した画像が、「右から取り出す」「組み立てる」「左に置く」「その他」のいずれであるかを、正解ラベル入力欄113のボタンの押下によって、指示する。
図15は、図13の姿勢推定部13bの学習工程の結果として生成される姿勢モデル22bを示す図である。
姿勢推定部13bは、図14のGUIから入力されたフレーム番号と、正解ラベルと、フレームで検出した人物の骨格データ19とを、機械学習の結果である姿勢モデル22bとして関連付ける。この姿勢モデル22bは、例えば、ねじ回しの作業姿勢を学習し、ねじ回しを行っているのか否かを推定するために使用される。
なお、図15では、図14の画像表示欄111に表示された画像上の人物の姿勢から、「右から取り出す」「組み立てる」「左に置く」「その他」を判定するための姿勢モデル22bが示される。
図16は、手順学習部12dによる学習結果である手順モデル22dを示す図である。
手順モデル22dは、領域モデル22a、姿勢モデル22b、背景モデル22cの組み合わせを入力モデルとして、その入力モデルから推定される作業者の手順を出力するためのモデルである。例えば、組み立て作業は、以下の各手順などから構成される。
・部品取り手順は、作業者の右側にある組み立て対象の部品を取得する手順である。
・組み立て手順は、ドライバを用いて、ねじ締を行う手順である。
・部品格納手順は、組み立て完了した部品を作業者の左側に置く手順である。
例えば、領域モデル22aを単独に用いただけでは、人物の手が「どう」動いたのかは理解できても、人物の手が「何を」つかんだのかは不明である。
しかし、領域モデル22aと背景モデル22cとを併用し、背景領域内のドライバ置き場にドライバが存在しないことで、人物が「ドライバを」つかんだことが明確になる。さらに、姿勢モデル22bも併用して、ドライバに手が伸びたことが分かった上で、肘の角度などにより、ドライバをとったのか、置いたのかを判定することができる。
以下、図17〜図28を参照して、分析部13の事例を説明する。
図17は、分析部13のメイン処理を示すフローチャートである。
S11として、分析部13は、モデルデータ22を取得する。
S12として、分析部13は、分析用の画像データ18を取得する。
S13として、分析部13は、S12の画像データ18から、骨格抽出部11に骨格データ19を抽出させる。
領域モデル22aが存在しているときには(S21,Yes)、分析部13は、領域推定部13aに領域データ23aの推定処理を実行させる(S22,詳細は図18)。
姿勢モデル22bが存在しているときには(S23,Yes)、分析部13は、姿勢推定部13bに姿勢データ23bの推定処理を実行させる(S24,詳細は図21)。
S25として、分析部13は、未処理の人物がS12の画像データ18に存在するときには、処理をS21に戻す。
背景モデル22cが存在しているときには(S26,Yes)、分析部13は、背景推定部13cに背景データ23cの推定処理を実行させる(S27,詳細は図24)。
S31として、分析部13は、未処理のフレームが存在するときには、処理をS12に戻す。
S32として、分析部13は、S22,S24,S27の各分析結果から手順推定部13dに作業手順を推定させる。
図18は、領域推定部13aのサブルーチン処理を示すフローチャートである。
S221として、領域推定部13aは、画像フレームごとに、そのフレームにて検出された人物の骨格データ19を取得する。
S222として、領域推定部13aは、領域モデル22aから1レコード分(1つの領域)を取得する。
領域推定部13aは、S221の骨格データ19を構成する特徴点番号の座標が、S222で取得した領域内であるときには(S223,Yes)、S222で取得したレコードの領域ラベルを保持する(S224)。
S225として、領域推定部13aは、領域モデル22a内の未処理のレコードが存在するときには、処理をS222に戻す。
S226として、領域推定部13aは、S224で保持されたすべての結果を領域データ23aとして出力する。
S227として、領域推定部13aは、未処理のフレームが存在するときには、処理をS221に戻す。
図19は、図18の処理結果として「部品取り領域」で両手を認識したときの図である。
領域推定部13aは、図10の画像データ18上の領域101に対して、図11の領域モデル22aの第1レコード(部品取り領域)の要件を満たす(つまり、右側に両手が入る)ことで、「右から部品をとる」という領域ラベルを含めた領域データ23aを推定する。
図20は、図18の処理結果として「完成品格納領域」で両手を認識したときの図である。
領域推定部13aは、図10の画像データ18上の領域102に対して、図11の領域モデル22aの第2レコード(完成品格納領域)の要件を満たす(つまり、左側に両手が入る)ことで、「左側に部品を格納する」という領域ラベルを含めた領域データ23aを推定する。
図21は、姿勢推定部13bのサブルーチン処理を示すフローチャートである。
S241として、姿勢推定部13bは、画像データ18の画像フレームごとに、そのフレームにて検出された人物の骨格データ19を取得する。
S242として、姿勢推定部13bは、取得した骨格データ19を入力として、姿勢モデル22bを用いて機械学習による推論を行う。これにより、骨格データ19に対応する姿勢ラベルが出力される。
なお、ユーザは、S242の姿勢ラベルが実際と異なった場合(推論ミス)には(S243,Yes)、姿勢学習部12bは、ユーザから正しい姿勢ラベルを受け付けてもよい。そして、姿勢学習部12bは、受け付けた姿勢ラベルと、取得した骨格データ19との組み合わせを新たな学習データとして、姿勢モデル22bを修正(再学習)してもよい(S244)。
S245として、姿勢推定部13bは、出力された姿勢ラベルを推論結果として保持する。
S246として、姿勢推定部13bは、未処理の人物がS241の画像フレームに存在するときには、処理をS243に戻す。
S247として、姿勢推定部13bは、画像フレームに存在するすべての人物についてのS245で保持した推論結果を姿勢データ23bとして出力する。
S248として、姿勢推定部13bは、未処理のフレームが存在するときには、処理をS241に戻す。
図22は、図21の処理に用いられる画像データ18を示す図である。出力部14は、時系列的に表示する画像データ18に対して、左側から右側にむかってフレーム番号(f10=10番、f30=30番、…)を併記する。各フレームの画像データ18には、骨格抽出部11が認識した骨格データ19を示す線も人物の画像へ重畳表示されている。
図23は、図22の画像データ18に対する推論ラベル(姿勢ラベル)を示す姿勢データ23bの図である。
姿勢推定部13bは、ビデオカメラ31などから取得した画像データ18から、写っている人物の行動を構成する姿勢を分析し、その分析結果を姿勢データ23bとして出力する。姿勢データ23bには、検出時刻を示すフレーム番号が付されている。
この出力される姿勢データ23bは、例えば、製造業の組み立て現場での組み立て作業の手順に係る作業姿勢や、製造業の製造現場での作業安全にかかわる身体的負担の大きい作業姿勢を検出するために活用できる。
図24は、背景推定部13cのサブルーチン処理を示すフローチャートである。
S271として、背景推定部13cは、画像フレームごとの画像データ18を取得する。
S272として、背景推定部13cは、背景モデル22cから1レコード分(1つの背景領域)を取得する。
S273として、背景推定部13cは、S271の画像データ18から、S272の背景領域の位置の画像を切り取る。
S274として、背景推定部13cは、S273で切り取った画像データ18を入力として、背景モデル22cを用いて機械学習の推論を実行する。
S275として、背景推定部13cは、S274の推論結果として、背景ラベルを保持する。
S276として、背景推定部13cは、背景モデル22c内の未処理のレコードが存在するときには、処理をS272に戻す。
S277として、背景推定部13cは、未処理のフレームが存在するときには、処理をS271に戻す。
S278として、背景推定部13cは、すべての背景ラベルの推論結果を出力する。
図25は、図24の処理結果として、ドライバが未使用の状態を認識したときの図である。
出力部14は、人物行動と関連のある背景画像の情報として、背景ラベルの「未使用」を、人物行動画像へ重畳表示する(符号103e)。また、符号110で示すように、出力部14は、画像データ18の各フレームについて、骨格抽出部11が認識した骨格データ19を人物の画像へ重畳表示する。さらに、出力部14は、骨格データ19を構成する特徴点データ(関節点)をマーキングして表示する(図では丸印)。
図26は、図24の処理結果として、ドライバが使用中の状態を認識したときの図である。出力部14は、人物行動と関連のある背景画像の情報として、背景ラベルの「使用中」を、人物行動画像へ重畳表示する(符号103f)。
図27は、手順推定部13dが出力する手順データ23dの例を示す図である。
図8でも説明したように、手順推定部13dは、領域データ23a、姿勢データ23b、背景データ23cそれぞれの分析結果を組み合わせて、作業者の手順データ23d(作業状態)をフレーム番号ごとに決定する。例えば、背景データ23cとして、ドライバが未使用の状態(図25)と使用中の状態(図26)とを区別することで、出力手順が組み立て中か否かを決定することができる。
図28は、図27の手順データ23dをガントチャート形式で表示した画面図である。
手順推定部13dは、手順データ23dのフレーム番号は特定の時刻を示しているので、手順データ23dから時系列の作業手順(出力手順)を求めることができる。そこで、出力部14は、時系列の作業手順をガントチャート形式で表示することで、作業手順ごとの所要時間をユーザにわかりやすく示すことができる。
以上説明した本実施形態では、分析装置10が深層学習などによる画像認識で画像データ18に写っている人物を検出し、その人物の骨格データ19を取得する。そして、分析装置10は、取得した骨格データ19と、事前に入力された正解ラベルとを姿勢モデル22bとして機械学習しておくことで、製造現場における作業者の姿勢を推定し、その姿勢から作業者の作業手順を特定する。
また、分析装置10は、骨格データ19との位置関係を判定するための領域モデル22aと、人物が置かれている状況を示す背景モデル22cとを併せて用いることで、作業手順の特定精度を向上させる。これにより、深層学習や画像認識の知識を問わず、簡便な方法で、作業者を撮影した画像データ18から、作業者の姿勢データ23bを分析し、作業者の手順データ23dを特定できる。
なお、本発明は前記した実施例に限定されるものではなく、様々な変形例が含まれる。例えば、前記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。
また、ある実施例の構成の一部を他の実施例の構成に置き換えることが可能であり、また、ある実施例の構成に他の実施例の構成を加えることも可能である。
また、各実施例の構成の一部について、他の構成の追加・削除・置換をすることが可能である。また、上記の各構成、機能、処理部、処理手段などは、それらの一部または全部を、例えば集積回路で設計するなどによりハードウェアで実現してもよい。
また、前記の各構成、機能などは、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。
各機能を実現するプログラム、テーブル、ファイルなどの情報は、メモリや、ハードディスク、SSD(Solid State Drive)などの記録装置、または、IC(Integrated Circuit)カード、SDカード、DVD(Digital Versatile Disc)などの記録媒体に置くことができる。
また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。実際にはほとんど全ての構成が相互に接続されていると考えてもよい。
10 分析装置
11 骨格抽出部
12 モデル生成部
12a 領域定義部
12b 姿勢学習部
12c 背景定義部
12d 手順学習部
13 分析部
13a 領域推定部
13b 姿勢推定部
13c 背景推定部
13d 手順推定部
14 出力部
18 画像データ
19 骨格データ
20 記憶部
22 モデルデータ
22a 領域モデル
22b 姿勢モデル
22c 背景モデル
22d 手順モデル
23 推定結果データ
23a 領域データ
23b 姿勢データ
23c 背景データ
23d 手順データ
31 ビデオカメラ
32 ビデオレコーダ
33 入出力装置
41 モニタ
42 記憶装置
43 アプリケーション装置

Claims (7)

  1. 画像データを入力とした画像認識により、前記画像データに写る人物の関節位置を示す特徴点データを含む骨格データを取得する骨格抽出部、
    前記骨格データごとに姿勢ラベルが対応づけられている姿勢モデルの記憶部、
    前記骨格抽出部が取得した前記骨格データをもとに、前記姿勢モデルに予め決められた前記姿勢ラベルから、前記画像データに写る人物の姿勢を判別する姿勢推定部
    前記骨格データごとに入力された正解ラベルである前記姿勢ラベルを学習データとして前記姿勢モデルを機械学習する姿勢学習部、
    前記画像データの一部として定義された背景領域に写る背景前記画像データごとに、入力された正解ラベルである背景ラベルを学習データとして背景モデルを機械学習する背景定義部、
    前記背景モデルを用いた機械学習の推論により、背景前記画像データを入力として前記背景ラベルを出力する背景推定部、
    前記画像データの一部として定義された特徴点領域の座標と、特徴点領域内か否かを判定するための特徴点データと、領域ラベルとを対応づけた領域モデルを定義する領域定義部、
    前記骨格抽出部が取得した前記骨格データの特徴点データが前記領域モデルの特徴点領域内に存在するときに、対応する前記領域ラベルを出力する領域推定部としてコンピュータを機能させ
    前記姿勢推定部は、さらに、前記姿勢モデルを用いた機械学習の推論により、前記骨格データを入力として前記姿勢ラベルを出力することを特徴とする
    姿勢分析プログラム。
  2. 前記姿勢ラベル、前記背景ラベル、および、前記領域ラベルの少なくとも1つから、前記画像データに写る人物が行う作業の手順を特定するための手順モデルをもとに、前記画像データに写る人物が行う作業の手順を特定する手順推定部、
    特定した作業の手順ごとの所要時間を表示部に出力する出力部としてコンピュータを機能させることを特徴とする
    請求項1に記載の姿勢分析プログラム。
  3. 前記姿勢推定部による判別の結果に基づき、前記骨格抽出部が取得した前記骨格データの特徴点データをマーキングして表示する出力部としてコンピュータを機能させることを特徴とする
    請求項1に記載の姿勢分析プログラム。
  4. 前記姿勢推定部による判別の結果に基づき、時系列の各前記画像データに対して、前記骨格抽出部が取得した前記骨格データを表示する出力部としてコンピュータを機能させることを特徴とする
    請求項1に記載の姿勢分析プログラム。
  5. 前記背景推定部が出力する前記背景ラベルを、前記画像データの背景領域に対応づけて重畳表示する出力部としてコンピュータを機能させることを特徴とする
    請求項1に記載の姿勢分析プログラム。
  6. 前記姿勢学習部は、前記姿勢推定部が出力した前記姿勢ラベルが修正されたときには、その修正された前記姿勢ラベルをもとに前記姿勢モデルを再学習することを特徴とする
    請求項1に記載の姿勢分析プログラム。
  7. 画像データを入力とした画像認識により、前記画像データに写る人物の関節位置を示す特徴点データを含む骨格データを取得する骨格抽出部と、
    前記骨格データごとに姿勢ラベルが対応づけられている姿勢モデルの記憶部と、
    前記骨格抽出部が取得した前記骨格データをもとに、前記姿勢モデルに予め決められた前記姿勢ラベルから、前記画像データに写る人物の姿勢を判別する姿勢推定部と
    前記骨格データごとに入力された正解ラベルである前記姿勢ラベルを学習データとして前記姿勢モデルを機械学習する姿勢学習部と、
    前記画像データの一部として定義された背景領域に写る背景前記画像データごとに、入力された正解ラベルである背景ラベルを学習データとして背景モデルを機械学習する背景定義部と、
    前記背景モデルを用いた機械学習の推論により、背景前記画像データを入力として前記背景ラベルを出力する背景推定部と、
    前記画像データの一部として定義された特徴点領域の座標と、特徴点領域内か否かを判定するための特徴点データと、領域ラベルとを対応づけた領域モデルを定義する領域定義部と、
    前記骨格抽出部が取得した前記骨格データの特徴点データが前記領域モデルの特徴点領域内に存在するときに、対応する前記領域ラベルを出力する領域推定部とを有し、
    前記姿勢推定部は、さらに、前記姿勢モデルを用いた機械学習の推論により、前記骨格データを入力として前記姿勢ラベルを出力することを特徴とする
    姿勢分析装置。
JP2019108981A 2019-06-11 2019-06-11 姿勢分析プログラム、および、姿勢分析装置 Active JP6825041B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019108981A JP6825041B2 (ja) 2019-06-11 2019-06-11 姿勢分析プログラム、および、姿勢分析装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019108981A JP6825041B2 (ja) 2019-06-11 2019-06-11 姿勢分析プログラム、および、姿勢分析装置

Publications (2)

Publication Number Publication Date
JP2020201772A JP2020201772A (ja) 2020-12-17
JP6825041B2 true JP6825041B2 (ja) 2021-02-03

Family

ID=73743423

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019108981A Active JP6825041B2 (ja) 2019-06-11 2019-06-11 姿勢分析プログラム、および、姿勢分析装置

Country Status (1)

Country Link
JP (1) JP6825041B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220102009A (ko) * 2021-01-12 2022-07-19 삼성전자주식회사 전자 장치 및 전자 장치의 동작 방법
CN112883808A (zh) * 2021-01-23 2021-06-01 招商新智科技有限公司 一种行人搭乘扶梯异常行为检测方法、装置及电子设备
KR20220107683A (ko) * 2021-01-26 2022-08-02 삼성전자주식회사 전자 장치 및 이의 제어 방법
JP2022156507A (ja) * 2021-03-31 2022-10-14 Johnan株式会社 ロボット制御システム、および制御装置
JPWO2023017647A1 (ja) 2021-08-12 2023-02-16
CN113925497B (zh) * 2021-10-22 2023-09-15 吉林大学 一种基于双目视觉测量系统的汽车乘员乘坐姿态提取方法
KR102454538B1 (ko) * 2022-02-15 2022-10-14 주식회사 인피닉 인공지능을 이용한 행동 추정 방법 및 이를 실행하기 위하여 기록매체에 기록된 컴퓨터 프로그램
JP7408035B1 (ja) 2022-03-25 2024-01-04 三菱電機株式会社 作業推定装置、作業推定方法、及び作業推定プログラム
JP2024014119A (ja) * 2022-07-21 2024-02-01 オムロン株式会社 作業認識装置、作業認識方法、及び作業認識プログラム

Also Published As

Publication number Publication date
JP2020201772A (ja) 2020-12-17

Similar Documents

Publication Publication Date Title
JP6825041B2 (ja) 姿勢分析プログラム、および、姿勢分析装置
JP6893233B2 (ja) 画像に基づくデータ処理方法、装置、電子機器、コンピュータ可読記憶媒体およびコンピュータプログラム
US11328250B2 (en) Inventory management server, inventory management system, inventory management program, and inventory management method
JP6341531B2 (ja) 組織改善活動支援装置、組織改善活動支援方法および組織改善活動支援プログラム
US11138805B2 (en) Quantitative quality assurance for mixed reality
CN111183421A (zh) 服务提供系统、业务分析支援系统、方法以及程序
CN111008859A (zh) 虚拟店铺中信息呈现方法、装置、电子设备及存储介质
Gattullo et al. Exploiting augmented reality to enhance piping and instrumentation diagrams for information retrieval tasks in industry 4.0 maintenance
CN112949457A (zh) 基于增强现实技术的维修方法、装置及系统
US11308102B2 (en) Data catalog automatic generation system and data catalog automatic generation method
US20230343044A1 (en) Multimodal procedural guidance content creation and conversion methods and systems
Howard et al. Visual inspection with augmented reality head‐mounted display: An Australian usability case study
JP2009086952A (ja) 情報処理システム及び情報処理プログラム
US8260593B2 (en) System and method for simulating human movement
US20230077031A1 (en) Case query apparatus and method and storage medium
TWI596490B (zh) Graphical analysis of data methods and systems
JP2021157310A (ja) 点検支援システム、点検支援装置及び点検支援方法
KR20190091042A (ko) 소프트웨어 분석 장치, 이를 위한 방법 및 이 방법이 기록된 컴퓨터로 판독 가능한 기록 매체
Wang et al. Automated ergonomics-based productivity analysis for intelligent manufacturing in industrialized construction
JP7376446B2 (ja) 作業分析プログラム、および、作業分析装置
JP2021086218A (ja) 協調作業システム、解析装置および解析プログラム
CN112632741B (zh) 文物修复方法、装置、存储介质及电子设备
Moon et al. User's Gaze Analysis for Improving Map Label Readability in Way-finding Situation
Moreira et al. Augmented reality for building maintenance and operation
US20230098319A1 (en) Method and system for tracking objects in area

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200728

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20200728

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20200930

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201006

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201204

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20201222

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210113

R150 Certificate of patent or registration of utility model

Ref document number: 6825041

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150