JP7387069B1 - 機械学習装置、熟練行動判定装置、機械学習方法、及び機械学習プログラム - Google Patents

機械学習装置、熟練行動判定装置、機械学習方法、及び機械学習プログラム Download PDF

Info

Publication number
JP7387069B1
JP7387069B1 JP2023532819A JP2023532819A JP7387069B1 JP 7387069 B1 JP7387069 B1 JP 7387069B1 JP 2023532819 A JP2023532819 A JP 2023532819A JP 2023532819 A JP2023532819 A JP 2023532819A JP 7387069 B1 JP7387069 B1 JP 7387069B1
Authority
JP
Japan
Prior art keywords
graph
machine learning
image
feature
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023532819A
Other languages
English (en)
Other versions
JPWO2023148909A1 (ja
Inventor
雄一 佐々木
翔貴 宮川
勇 小川
雅浩 虻川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Publication of JPWO2023148909A1 publication Critical patent/JPWO2023148909A1/ja
Application granted granted Critical
Publication of JP7387069B1 publication Critical patent/JP7387069B1/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

機械学習装置(100)は、動作主体の複数の部分に対応する複数のノードと複数のノードの間の関係性を示す情報とで構成されるグラフ(G)を取得するグラフ入力部(15)と、画像内における複数のオブジェクト領域(O)を認識して出力するオブジェクト認識部(18)と、画像内に存在する動作主体の複数の部分の行動の特徴量である第1の特徴量(F1)を抽出する熟練行動特徴抽出部(12)と、第1の特徴量(F1)に基づいて着目領域(A)を生成する着目領域生成部(13)と、着目領域(A)とオブジェクト領域(O)とが重なる領域について第1の特徴量(F1)を強調した第2の特徴量(F2)を生成するグラフ-オブジェクト特徴抽出部(16)と、熟練行動特徴抽出部(12)に入力される画像が予め収集された学習用データであるときにおける第2の特徴量(F2)に基づいて、学習モデル(M)を生成するグラフモデル学習部(14)とを有する。

Description

本開示は、画像内の動作主体の行動の熟練度を推論するための学習モデルを学習する機械学習装置、機械学習方法、及び機械学習プログラム、並びに、画像内の動作主体の行動の熟練度を推論する熟練行動判定装置に関する。
学習モデルにおけるニューラルネットワーク(NN)が画像に対して生成した着目領域を、ユーザが修正し(つまり、学習モデルに人の知見を埋め込み)、修正された着目領域を正解データとして学習を行う転移学習が知られている(例えば、非特許文献1を参照)。転移学習は、Human-in-the-Loop(HITL)型の学習である。転移学習により、例えば、ユーザとインタラクションをしながら画像内の人の行動の熟練度を判定する学習モデルである熟練行動判定モデルが生成される。
また、骨格から人の動きを検出する学習モデルとしてSpatio-Temporal Graph Convolution Network(ST-GCN)が知られている(例えば、非特許文献2を参照)。この方法では、人の関節座標をノードとし、関節間の関係性をエッジとした、グラフが用いられている。
また、一般的な物体検出モデルであるRelationship Proposal Networks(RePN)を用いて、オブジェクトの抽出とオブジェクトに紐づく画像特徴の抽出とを行い、さらにそれらの関連性を示すグラフ構造を持つシーングラフを学習する方法としてGraph Region Based Convolutional Neural Networks(Graph R-CNN)が知られている(例えば、非特許文献3を参照)。ここで、シーングラフとは、画像に映るオブジェクトをノードとし、ノード間に成立する関係をエッジ(例えば、有向エッジ)とするグラフである。
Masahiro Mitsuhara、他6名、「Embedding Human Knowledge into Deep Neural Network via Attention Map」、 arXiv:1905.03540、 2019年5月9日 白木克俊、「時空間のアテンション情報を考慮したGraph Convolutional Networksによる動作認識に関する研究」(Deep Learning Action Recognition Graph Convolution Networks)、 中部大学 工学研究科 情報工学専攻、 機械知覚&ロボティクスグループ(Machine Perception and Robotics Group)、 2020年 Jianwei Yang、他4名、「Graph R-CNN for Scene Graph Generation」、 arXiv:1808.00191、 2018年8月1日
しかしながら、非特許文献1の方法では、ユーザが画像の着目領域を修正するだけであるから、動作主体としての人の行動の熟練度を高い予測精度で推論することができる学習モデルを生成することができない。
また、非特許文献2の方法では、グラフ構造が骨格の情報のみを用いているので、人の行動の熟練度を高い予測精度で推論することができる学習モデルを生成することは難しいと考えられる。
さらに、非特許文献3の方法では、画像に映っているオブジェクト同士の単純な関係性(木と鳥、木と葉、木と枝、の位置関係など)のみを扱っている。したがって、人の行動の熟練度を高い予測精度で推論することができる学習モデルを生成することは難しいと考えられる。
本開示は、動作主体の行動の熟練度を高い予測精度で推論することができる学習モデルを学習する機械学習装置、機械学習方法、及び機械学習プログラム、並びに、前記学習モデルを用いて画像内の動作主体の行動の熟練度を推論する熟練行動判定装置を提供することを目的とする。
本開示の機械学習装置は、画像内の動作主体の行動の熟練度を推論するための学習モデルを学習する装置であって、ユーザの入力操作に基づいて、前記動作主体の複数の部分に対応する複数のノードと前記複数のノードの間の関係性を示す情報とで構成されるグラフを取得するグラフ入力部と、前記グラフ入力部で取得された前記グラフを記憶する記憶部と、前記複数のノードに対応する複数のオブジェクトが存在する、前記画像内における複数のオブジェクト領域を認識して出力するオブジェクト認識部と、前記画像内に存在する前記動作主体の前記複数の部分の行動の特徴量である第1の特徴量を抽出する熟練行動特徴抽出部と、前記第1の特徴量に基づいて前記画像内における着目領域を生成する着目領域生成部と、前記着目領域と前記オブジェクト領域とが重なる領域について前記第1の特徴量を強調した第2の特徴量を生成するグラフ-オブジェクト特徴抽出部と、前記画像が予め収集された学習用データであるときにおける前記第2の特徴量に基づいて、前記学習モデルを生成するグラフモデル学習部と、を有することを特徴とする。
本開示の機械学習方法は、画像内の動作主体の行動の熟練度を推論するための学習モデルを学習する機械学習装置によって実施される方法であって、前記画像内に存在する前記動作主体の複数の部分の行動の特徴量である第1の特徴量を抽出するステップと、ユーザの入力操作に基づいて、前記動作主体の前記複数の部分に対応する複数のノードと前記複数のノードの間の関係性を示す情報とで構成されるグラフを取得し、前記グラフを記憶するステップと、前記複数のノードに対応する複数のオブジェクトが存在する、前記画像内における複数のオブジェクト領域を認識して出力するステップと、前記第1の特徴量に基づいて前記画像内における着目領域を生成するステップと、前記着目領域と前記オブジェクト領域とが重なる領域について前記第1の特徴量を強調した第2の特徴量を生成するステップと、前記画像が予め収集された学習用データであるときにおける前記第2の特徴量に基づいて、前記学習モデルを生成するステップと、を有することを特徴とする。
本開示の機械学習装置、機械学習方法、及び機械学習プログラムを用いれば、動作主体の行動の熟練度を高い予測精度で推論することができる学習モデルを生成することができる。
また、本開示の熟練行動判定装置を用いれば、動作主体の行動の熟練度を高い予測精度で推論することができる。
実施の形態1に係る機械学習装置のハードウェア構成の例を示す図である。 実施の形態1に係る機械学習装置の構成を概略的に示す機能ブロック図である。 実施の形態1に係る機械学習装置の学習時の動作を示す説明図である。 実施の形態1に係る機械学習装置の学習時の動作の例を表形式で示す図である。 実施の形態1に係る機械学習装置の学習時の動作を示すフローチャートである。 実施の形態1に係る機械学習装置(熟練行動判定装置)の推論時の動作を示す説明図である。 実施の形態1に係る機械学習装置(熟練行動判定装置)の推論時の動作を示すフローチャートである。 実施の形態2に係る機械学習装置の構成を概略的に示す機能ブロック図である。 (A)及び(B)は、実施の形態2に係る機械学習装置の動作を示す説明図である。 実施の形態2に係る機械学習装置の学習時の動作を示すフローチャートである。 実施の形態3に係る機械学習装置の構成を概略的に示す機能ブロック図である。 実施の形態3に係る機械学習装置の学習時の動作を示す説明図である。 (A)及び(B)は、実施の形態3に係る機械学習装置の学習率調整部の動作を示す説明図である。 実施の形態3に係る機械学習装置の学習時の動作を示すフローチャートである。 実施の形態4に係る機械学習装置の構成を概略的に示す機能ブロック図である。 実施の形態4に係る機械学習装置の学習時の動作を示すフローチャートである。 実施の形態4に係る機械学習装置の動作を示す説明図である。 実施の形態4に係る機械学習装置の動作を示す説明図である。
以下に、実施の形態に係る機械学習装置、熟練行動推論装置、機械学習方法、及び機械学習プログラムを、図面を参照しながら説明する。以下の実施の形態は、例にすぎず、実施の形態を適宜組み合わせること及び各実施の形態を適宜変更することが可能である。
実施の形態に係る機械学習装置は、画像内の動作主体の行動の熟練度を推論するための学習モデルを学習する装置である。実施の形態に係る機械学習装置は、例えば、情報処理装置としてのコンピュータである。動作主体は、作業を行う人(作業者、技能者、熟練者、などとも呼ばれる。)、又は人の動作に連動して動作して作業を行う機構又は装置(例えば、ロボットアーム、内視鏡、など)である。
実施の形態に係る機械学習方法は、機械学習装置によって実施されることができる方法である。この機械学習方法は、画像内の動作主体の行動の熟練度を推論するための学習モデルを学習する方法である。
実施の形態に係る機械学習プログラムは、機械学習装置としてのコンピュータによって実行されることができるプログラムである。この機械学習プログラムは、画像内の動作主体の行動の熟練度を推論するための学習モデルを学習するプログラムである。
実施の形態に係る熟練行動推論装置は、機械学習装置、機械学習方法、又は機械学習プログラムによって生成された学習モデルを用いて、動作主体の行動の熟練度を推論する装置である。熟練行動推論装置は、例えば、コンピュータである。熟練行動推論装置と機械学習装置とは、共通のコンピュータで構成されてもよい。また、熟練行動推論装置と機械学習装置とは、異なるコンピュータで構成されてもよい。
《1》実施の形態1
《1-1》構成
図1は、実施の形態1に係る機械学習装置100のハードウェア構成の例を示す図である。実施の形態1に係る機械学習装置100は、機械学習を行うことで学習モデルMを生成する学習プロセスを実行する装置である。また、機械学習装置100は、熟練行動判定装置でもある。機械学習装置100は、CPU(Central Processing Unit)などのプロセッサ101と、揮発性の記憶装置であるメモリ102と、ハードディスクドライブ(HDD)又はソリッドステートドライブ(SSD)などの不揮発性記憶装置103と、インタフェース104とを有している。メモリ102は、例えば、RAM(Random Access Memory)などの半導体メモリである。機械学習装置100は、外部の装置との通信を行う通信装置を有してもよい。
機械学習装置100の各機能は、処理回路により実現される。処理回路は、専用のハードウェアである。処理回路は、メモリ102に格納されるプログラム(例えば、実施の形態に係る機械学習プログラム)を実行するプロセッサ101であってもよい。プロセッサ101は、処理装置、演算装置、マイクロプロセッサ、マイクロコンピュータ、又はDSP(Digital Signal Processor)であってもよい。
処理回路が専用のハードウェアである場合、処理回路は、例えば、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)などである。
処理回路がプロセッサ101である場合、機械学習方法は、ソフトウェア、ファームウェア、又はソフトウェアとファームウェアとの組み合わせにより実行される。ソフトウェア及びファームウェアは、プログラムとして記述され、メモリ102に格納される。プロセッサ101は、メモリ102に記憶されたプログラムを読み出して実行することにより、実施の形態1に係る機械学習方法を実施することができる。
なお、機械学習装置100は、一部を専用のハードウェアで実現し、他の一部をソフトウェア又はファームウェアで実現するようにしてもよい。このように、処理回路は、ハードウェア、ソフトウェア、ファームウェア、又はこれらのうちのいずれかの組み合わせによって、上述の各機能を実現することができる。
インタフェース104は、他の装置と通信するために用いられる。インタフェース104には、外部の記憶装置、ディスプレイ105、及びユーザ操作部としての入力装置106、などが接続される。入力装置106は、例えば、マウス、キーボード、タッチパネル、などである。
図2は、実施の形態1に係る機械学習装置100の構成を概略的に示す機能ブロック図である。機械学習装置100は、画像内の動作主体の行動の熟練度を推論するための学習モデルMを学習する装置である。機械学習装置100は、熟練行動判定モデル11と、相関・因果グラフ入力部としてのグラフ入力部15と、グラフ-オブジェクト特徴抽出部16と、記憶部に記憶されたユーザ入力領域抽出テーブル17と、オブジェクト認識部18とを有している。熟練行動判定モデル11は、熟練行動特徴抽出部12と、着目領域生成部13と、グラフモデル学習部14とを有している。
学習時には、熟練行動判定モデル11では、学習モデル生成部11aが、学習モデルMを生成して、これを学習モデル記憶部11bに格納する。推論時には、熟練行動判定モデル11では、推論部11cが学習モデル記憶部11bから学習モデルMを読み出し、これを用いて、入力されるデータに基づく推論を行う、推論の結果を出力する。
グラフ入力部15は、ユーザ50の入力操作に基づいて、画像内の動作主体の複数の部分に対応する複数のノードと、複数のノードの間の関係性を示す情報と、で構成されるグラフGを取得する。つまり、グラフ入力部15に対し、ユーザは、入力装置からノード及びノード間の相関・因果関係を入力する。つまり、グラフ入力部15では、因果・相関グラフにノード同士の関係性が入力される。ユーザ50は、グラフ入力部15で、知見を埋め込みたい領域(例えば、右手RH、左手LH、頭HE)を指定し、知見を埋め込みたいと想定する領域を抽出するためのオブジェクトをユーザ入力領域抽出テーブル17に登録する。さらに、グラフ入力部15で、ユーザ50は、自分が予想する領域同士の関わり合いに関する情報を予め登録する。ユーザ入力領域抽出テーブル17は、予め又はグラフ入力部15からの入力操作により取得された情報のテーブルである。
オブジェクト認識部18は、複数のノード(「グラフノード」ともいう。)に対応する複数のオブジェクトが存在する複数のオブジェクト領域Oを認識して出力する。オブジェクト認識部18は、ユーザ50が入力したノード(例えば、右手、左手、頭)に対応するオブジェクトと、オブジェクトを含む領域であるオブジェクト領域O(例えば、矩形領域)を認識する。つまり、オブジェクト認識部18は、ユーザ入力領域抽出テーブル17に登録されているオブジェクトの抽出方法を読み取り、その方式に従って動画、時系列のセンサデータから該当するオブジェクトの領域を抽出する。
熟練行動特徴抽出部12は、画像内に存在する動作主体の複数の部分の行動の特徴量(すなわち、中間特徴量)である第1の特徴量F1を抽出する。動作主体の複数の部分は、例えば、作業者の右手RH、左手LH、及び頭HEである。熟練行動特徴抽出部12は、例えば、CNN(Convolutional Neural Network)などの特徴抽出機により、中間特徴を取得する。
着目領域生成部13は、第1の特徴量F1に基づいて画像内における着目領域Aを生成する。着目領域生成部13は、Attention branch network(ABN)のようなネットワーク機構により、画像のどの領域に着目することで熟練度を求めることができるかを示すヒートマップ情報を生成する。また、着目領域生成部13は、ヒートマップ情報の生成途中の情報である可視化結果を学習結果部分に登録する。ABNは、例えば、非特許文献1に記載されている。
グラフ-オブジェクト特徴抽出部16は、着目領域Aとオブジェクト領域Oとが重なる領域について第1の特徴量F1を強調した第2の特徴量F2を生成する。グラフ-オブジェクト特徴抽出部16は、人の知見を埋め込みたいと想定する領域に対して、画像等のセンサ特徴量を紐づけする。グラフ-オブジェクト特徴抽出部16は、熟練行動判定モデル11が抽出した第1の特徴量F1に対して、オブジェクト認識部18が抽出したオブジェクト領域Oと着目領域生成部13が生成した着目点を含む着目領域Aとが重なる領域以外をマスクして、ユーザ入力であるグラフGと熟練行動特徴である第1の特徴量F1との紐づけを行う。このような構成とすることで、右手RH、左手LH、頭HEの関わり合いを予め指定することができ、さらに、手と一緒に映っている「モノの扱い方」を含めた、オブジェクトを解析することができる。ここで、「モノの扱い方」とは、例えば、ドライバー、ペンのような道具の扱い方である。つまり、グラフ-オブジェクト特徴抽出部16は、オブジェクト領域及び着目領域を示すヒートマップ情報を用いたマスク処理を行うことで、ノードに対し特徴を抽出する。
グラフモデル学習部14は、熟練行動特徴抽出部12に入力される画像が予め収集された学習用データLであるときにおける第2の特徴量F2に基づいて、学習モデルMを生成する。グラフモデル学習部14は、例えば、ST-GCNのようなグラフを畳み込む学習方式を用い学習を進め、学習結果を記憶部に蓄積する。
データセット記憶部60には、学習用データである動画及び推論用テータである動画、時系列のセンサデータ、などが蓄積されている。
実施の形態1では、ユーザ50がオブジェクト同士の相互関係を示す情報をグラフ入力部15から予め与えるので、解きたい課題に合わせて認識すべきオブジェクトを指定することができる。また、解きたい課題の認識過程で抽出した着目領域を用いて画像特徴を選択することで、グラフに対して「モノを上手に扱う上での着目領域」といった、より詳細な特徴を獲得することができる。また、より精度の良い分析が可能となる。
《1-2》学習時の動作
図3は、実施の形態1に係る機械学習装置100の学習時の動作を示す説明図である。図4は、機械学習装置100の学習時の動作の例を示す情報を表形式で示す図である。
ユーザは、グラフ入力部15に対して、例えば、右手、左手、頭の因果関係、相関関係について入力する。図3の例では、「お絵描き」の熟練度を判定するために、作業中の俯瞰映像を取得し、それに映っている「右手」「左手」「頭」といった情報の関わりをユーザ50が手入力で与える。
例えば、因果を有向グラフとして表現した場合、図3に示されるように、左手の動きに起因して右手の動きが定まり、頭と右手はお互いに連動して動くようなものとして、ノード「右手」「左手」「頭」、とグラフのエッジを与える。
また、グラフ入力部15のノードを抽出するための方法をユーザ入力領域抽出テーブル17に与える。グラフ入力部15は、非特許文献3に示されるような画像から物体を検出する機械学習モデルを与えてもよい。また、肌の色を抽出する画像処理によって、画像内の右側に映っているものを右手、左側に映っているものを左手と識別してもよい。
ユーザ入力領域抽出テーブル17の例は、例えば、図4に示される。ユーザ入力領域抽出テーブル17は、センサデータのうちの、ユーザ50の入力に該当するものを抽出する手段によって、情報が登録されてもよい。
データセット記憶部60は、機械学習時に使用される学習用データが記憶されている。熟練行動を判定するようなモデルの場合、動画、圧力センサ、加速度センサ、音などのセンサデータを記憶し、さらに、そのセンサデータで計測された行動はどの程度の熟練度なのか、行動の結果得られた品質の良否判断結果等を記憶する。
熟練行動特徴抽出部12がAttention Pairwise Ranking、Pairwise Deep Rankingのような一対比較手法を採用している場合、2つのセンサデータの優劣比較結果を保持してもよい。
図5は、機械学習装置100の学習時の動作を示すフローチャートである。オブジェクト認識部18は、画像又はセンサデータから、ユーザが入力した相関・因果グラフのノードになる領域を抽出する(ステップS101)。物体検出モデルを用いる場合は、右手、左手、頭の認識結果と、その認識結果のオブジェクトが囲まれた矩形情報が抽出される。また、肌の色、髪の色などを用いた画像処理によって、右手、左手、頭を認識する場合は、所定の色範囲となっている領域とその位置関係から、上記物体検出モデルと同等情報を抽出する。
熟練行動特徴抽出部12は、CNNのような画像から特徴を抽出するようなモデルである。熟練行動特徴抽出部12は、加速度センサ、音のような時系列を扱うモデルの場合、RNN(Recurrent neural network)のような時間を扱うモデルを用いてもよい。動画のような時系列も扱うような場合、時間方向への畳み込みも含む3D-CNN又は、CNNで一旦畳み込んだ画像特徴を入力とし、時系列を扱うためのRNNのようなモデルを組み合わせてもよい。上記以外にも一定間隔に(例えば、動画を1/3のサイズごとに)区切った時刻同士をそれぞれCNNに入力するTSN(Temporal Segment Network)のようなモデルを用いてもよい。熟練行動特徴抽出部12に対しデータを入力し、時間t、幅W、高さH、チャンネル数Chの中間特徴である第1の特徴量F1を得る(ステップS102)。
着目領域生成部13は、熟練行動特徴抽出部12が抽出した中間特徴を用いて、熟練度を判定するための着目領域を生成する(ステップS103)。着目領域は、チャンネル方向、時間t方向へのGlobal Average Poolingと、活性化関数、もしくは最大、最小値の正規化により、幅W、高さHに関する0~1の範囲のヒートマップを持つ。ヒートマップは、例えば、CAM(Class Activation Map)構造を持つ。熟練行動判定に対する誤差逆伝播により、熟練行動特徴抽出部12が抽出した特徴のうちどこに着目すれば、熟練度が判定しやすいかの着目点を獲得する。
グラフ-オブジェクト特徴抽出部16は、熟練行動特徴抽出部12が出力した中間特徴量(時間t×幅W×高さH×チャンネル数Ch)を、オブジェクト抽出結果に基づくマスクを加え、各ノード「右手」「左手」「頭」と紐づく特徴量を抽出する(ステップS104)。実施の形態1では、オブジェクト認識部18が抽出した中間特徴をそのまま用いてノードへの特徴として与えない。あくまで解きたい課題は、熟練度を取得することであり、右手、左手、頭を抽出するための特徴を捉えたいわけではないため、熟練行動を判定するためのモデルに対する特徴に対してマスク処理を施す。
マスク処理の方法としては、Attention Branch Networkのように中間特徴量である第1の特徴量F1にマスク処理を施した特徴量F1´と、オリジナルの中間特徴量である第1の特徴量F1との和を取って取得してもよい。これ以外にも、上記の手法の和の部分を無くしたもの、すなわち、特徴量F1´を用いてもよい。また、後述する着目領域生成部13が抽出した着目領域(Attention領域)以外の領域をマスキングして、グラフのノードに対して適切な特徴を抽出する。
グラフモデル学習部14(ST-GCN)はユーザから与えられたグラフ間の因果・相関関係の隣接行列を用いて、各時刻tで抽出された特徴をGraph Convolutional Neural Network(Graph-CNN)の学習手法により、データセットの熟練度が当てられるように誤差逆伝播を繰り返し、学習をする(ステップS105)。誤差逆伝播について、オブジェクト認識までは実施せず、特徴抽出までの重みパラメータを更新する。
《1-3》推論時の動作
図6は、実施の形態1に係る機械学習装置(熟練行動判定装置)100の推論時の動作を示す説明図である。図7は、機械学習装置(熟練行動判定装置)100の推論時の動作を示すフローチャートである。
オブジェクト認識部18は、ユーザが予め入力したオブジェクト(ノード)と、その領域を抽出する(ステップS111)。熟練行動特徴抽出部12が、熟練度を判定するための特徴を抽出する(ステップS112)。着目領域生成部13が、幅W×高さHのヒートマップを生成する(ステップS113)。グラフ-オブジェクト特徴抽出部16が、ユーザが予め入力したオブジェクトに対する特徴量を、オブジェクト認識結果、及び、着目領域生成結果を基に抽出する(ステップS114)。推論部が、グラフ畳み込みにより熟練度を認識する(ステップS115)。
《1-4》効果
グラフ入力部15で、ユーザが予めオブジェクト同士の相互関係を与え、解きたい課題に合わせて、認識すべきオブジェクトの抽出方法を指定することができる。このような実施の形態により、解きたい課題に関連するユーザの知見を知識グラフという形で機械学習に取り込むことができるようになる。
着目領域生成部13により、解きたい課題の認識過程で抽出した着目点を用い画像特徴を選択することで、ノードに対応するモノ(オブジェクト)の特徴を抽出してそれを単純に取り出して機械学習するのではなく、「モノを上手に扱う上での着目点」といったより詳細な特徴を獲得することができる」という効果がある。
《2》実施の形態2
《2-1》構成
図8は、実施の形態2に係る機械学習装置200の構成を概略的に示す機能ブロック図である。図8において、図2に示される構成と同一又は対応する構成には、図2に示される符号と同じ符号が付されている。機械学習装置200は、オブジェクト認識部28の動作の点で、実施の形態1に係る機械学習装置100と相違する。機械学習装置200は、実施の形態4に係る機械学習方法を実施できる装置である。機械学習装置200のハードウェア構成は、図1のものと同様である。
図9(A)及び(B)は、機械学習装置200の動作を示す説明図である。熟練者の作業動画を扱う場合、図9(B)に示されるように、ユーザの指定したオブジェクトが重なり合う、又は図9(A)に示されるように、ユーザの指定したオブジェクトが画面から無くなる等の問題が発生することがある。これに対し、機械学習装置200は、オブジェクト認識部28で、上記問題の発生を推定する手段を設け、これらの状態に応じて適切に画像に紐づいたグラフ特徴の更新を行う。
《2-2》動作
図10は、機械学習装置200の学習時の動作を示すフローチャートである。図10の動作は、オブジェクト認識部28の動作とグラフ-オブジェクト特徴抽出部16の動作の点で、実施の形態1に係る機械学習装置100の動作と相違する。機械学習装置200は、オブジェクトの認識(ステップS201)、第1の特徴量F1の抽出(ステップS202)、着目領域Aの生成(ステップS203)、グラフオブジェクト特徴(第2の特徴量F2)の抽出(ステップS204)、学習モデルとしてのグラフモデルの生成(ステップS205)を行う。
オブジェクト認識部28は、観測値及び過去の観測に基づく位置の予想に対しガウス分布のノイズが加わったカルマンフィルタのような位置のフィルタリング手法で動作する。
フロー推定部28aは、前回までにフィルタ推定した位置、又は速度、又は位置及び速度の情報を保持し、これに基づいてオブジェクトが存在すると予測される位置を推定する。
オブジェクト存在確率推定部28bは、オブジェクト認識で位置が観測された場合その位置で観測される分散値が小さくなり、位置が観測されない場合分散値が段々と大きくなるように存在確率を算出する。上記フィルタにより観測された位置の分散が一定以上、もしくは手の位置が分散も含め画面の外に移動したと推測された場合、右手、左手は途中から検出されないものとして認識する。
カルマンフィルタにより、上記分散値の値に応じて、フロー推定部28aが推定した位置か、オブジェクト認識部28が観測した位置のどちらに比重を置いて位置を算出するかを推定する。
重なり判定部28cは、フィルタ時の位置が重なりあい、オブジェクト認識も片方の手しか見つからない場合、2つのオブジェクトが重なりあったものとして認識する。
グラフ-オブジェクト特徴抽出部16は、前記オブジェクト認識の結果で、途中からオブジェクトが認識されなくなった場合、認識されなくなる前に抽出していた特徴量をノードに割り当てる。
グラフ-オブジェクト特徴抽出部16は、前記オブジェクト認識の結果で、例えば、右手、左手のオブジェクトの重なり合いが発生した場合、ガウス分布の重なり合う部分と、重なり合わない部分の面積比率により重みを決定し、前回までの右手、左手それぞれの特徴量と重なりあっている箇所の特徴量を重み付き和で混ぜ合わせ、ノードに割り当てる。
《2-3》効果
実施の形態2によれば、オブジェクト認識部2で、オブジェクトが存在しないもしくは重なり合っていることを検知し、これに基づいて適切にノードに割り当てる特徴量を決定することで、ある時刻でオブジェクトが検出されない場合でもより安定的にST-GCNのような学習を実行することができる。
上記以外に関し、実施の形態2は、実施の形態1と同じである。
《3》実施の形態3
《3-1》構成
図11は、実施の形態3に係る機械学習装置300の構成を概略的に示す機能ブロック図である。図11において、図2に示される構成と同一又は対応する構成には、図2に示される符号と同じ符号が付されている。機械学習装置300は、学習データ生成部35を有する点及び特徴行動判定モデル31の構成及び動作の点において、実施の形態1に係る機械学習装置100と相違する。機械学習装置300は、実施の形態3に係る機械学習方法を実施できる装置である。機械学習装置300のハードウェア構成は、図1のものと同様である。
機械学習装置300は、画像内の動作主体の行動の熟練度を推論するための学習モデルMを学習する装置である。機械学習装置300は、ユーザ50の入力操作に基づいて、動作主体の複数の部分に対応する複数のノードと複数のノードの間の関係性を示す情報とで構成されるグラフGを取得するグラフ入力部15と、グラフ入力部15で取得されたグラフGを記憶するユーザ入力領域抽出テーブル17と、複数のノードに対応する複数のオブジェクトが存在する、画像内における複数のオブジェクト領域Oを認識して出力するオブジェクト認識部18とを有している。また、機械学習装置300は、複数のオブジェクト領域Oに紐づけられた学習用データを生成する学習データ生成部35と、複数のオブジェクト領域に紐づけられた、画像内に存在する動作主体の複数の部分(例えば、右手、左手、頭)の行動であって、複数のオブジェクト領域に紐づけられた行動を推論するための行動推論モデルM2を学習する熟練行動判定モデル学習部33とを有している。さらに、機械学習装置300は、行動推論モデルM2を用いて推論された、複数のオブジェクト領域に紐づけられた行動を認識し、行動の特徴量である第1の特徴量F1を抽出するオブジェクト認識・熟練行動特徴抽出部34と、第1の特徴量F1を強調した第2の特徴量F2を生成するグラフ-オブジェクト特徴抽出部16と、画像が前記学習用データであるときにおける第2の特徴量F2に基づいて、学習モデルMを生成するグラフモデル学習部14とを有している。
《3-2》動作
図12は、機械学習装置300の学習時の動作を示す説明図である。学習率調整部32を設け、最初はCNNに比重を置いて特徴抽出して、後半に行くほどST-GCNに比重を置くことで、右手、左手、頭の相互関係を習得しやすくする。学習データ生成部35は、オブジェクト認識部28により、右手、左手、頭などの認識結果をデータセット記憶部60に登録する。これに基づいて、先ず、オブジェクト認識・熟練行動判定モデル学習部33は、通常のCNN等のモデルでマルチタスクラーニングを行い、学習用データから熟練度と右手、左手、頭も含めた特徴量とを抽出する。
グラフ-オブジェクト特徴抽出部16は、上記特徴量と右手、左手、頭との間の紐づけを行い、ST-GCNのノード特徴量を求める。
学習率調整部32は、学習の前半を左手と右手と頭を発見するための特徴量抽出、学習の後半をST-GCNに比重を置いて学習させることで、徐々に人間の身体部位の相互関係に焦点を当てる。
オブジェクト認識・熟練行動判定モデル学習部33は、画像内の全画素にラベル又はカテゴリを関連付ける深層学習のアルゴリズム(例えば、特徴的なカテゴリを形成する画素の集まりを認識することが可能なアルゴリズム)のようなモデルである行動推論モデルM2を学習する。
オブジェクト認識・熟練行動特徴抽出部34は、行動推論モデルM2を用いて推論された、複数のオブジェクト領域に紐づけられた行動を認識し、前記行動の特徴量である第1の特徴量F1を抽出する。行動推論モデルM2を用いれば、マルチタスクラーニングにより熟練度に関連する特徴も抽出することができる。このようなアルゴリズムとしては、例えば、セマンティックセグメンテーションが知られている。したがって、実施の形態1における着目領域生成部13のようなものを設けなくても、熟練度に関係する細かな領域抽出が可能となる。
また、セマンティックセグメンテーションを用いた場合は、グラフ-オブジェクト特徴抽出部16では、セグメンテーション結果とマスクを用いることで、ノードと特徴の紐づけを行うことができる。
図13(A)及び(B)は、機械学習装置300の学習率調整部32の動作を示す説明図である。学習率調整部32の動作イメージ、以下のようなロス関数が与えられたとする。Lusr_cnn+Lskill_cnnがオブジェクト認識・熟練行動判定モデル学習部33に関するロスで、Lskill_gcnがグラフモデル学習部14に関するロスである。
実施の形態1及び2では人手で埋め込んだ知見であるグラフ構造を用いた学習を進めるが、グラフ構造には右手、左手、頭のようなオブジェクトを抽出する特徴は含まれない。このため、学習率調整部32は、学習の開始直後(すなわち、学習の最初の期間)で、オブジェクト認識・熟練行動判定モデル学習部33に対するマルチタスクラーニングで学習を実行し、ある程度の時間が経過した後、安定して右手、左手、頭を抽出できるようになった時点以降に、以下のロス関数Lossの式におけるαの値を調整し、一定のオブジェクト認識率を下回らないようにする。こうした上で、ST-GCNにオブジェクトの抽出に関する特徴を取り込み、かつ、グラフから、熟練度を算出するように学習を調整する。
Loss=β(α(Lusr_cnn+Lskill_cnn)+(1-α)Lskill_gcn
ネットワーク構成例を以下に示す。学習率調整部32を設け、最初はCNNに比重を置いて特徴抽出して、後半に行くほどST-GCNに比重を置くことで、右手、左手、頭の相互関係を習得しやすくする。
図14は、機械学習装置300の学習時の動作を示すフローチャートである。機械学習装置300は、オブジェクトの認識(ステップS301)、学習用データの生成(ステップS302)、オブジェクト認識・熟練行動特徴を抽出し(ステップS303)、学習率を調整し(ステップS304)、グラフオブジェクト特徴(第2の特徴量F2)の抽出(ステップS305)、学習モデルとしてのグラフモデルの生成(ステップS306)を行う。
《3-3》効果
以上に説明したように、実施の形態3によれば、オブジェクト認識・熟練行動判定モデル学習部33を設けることで、ST-GCNに対してオブジェクトに関する特徴も持たせることができ、その結果、手及び頭の抽出に関する特徴をベースに熟練行動を判定するような学習が可能となる。これにより、学習をより安定にすることが期待できる。
上記以外に関し、実施の形態3は、実施の形態1又は2と同じである。
《4》実施の形態4
《4-1》構成
図15は、実施の形態4に係る機械学習装置400の構成を概略的に示す機能ブロック図である。図15において、図2に示される構成と同一又は対応する構成には、図2に示される符号と同じ符号が付されている。機械学習装置400は、熟練行動判定モデル41の構成の点及びグラフ候補生成部43を有する点において、実施の形態1に係る機械学習装置100と相違する。機械学習装置400は、実施の形態4に係る機械学習方法を実施できる装置である。機械学習装置400のハードウェア構成は、図1のものと同様である。
ユーザ50がオブジェクト間の関係を予め定義した知見を機械学習装置400に与えると、意に反して、与えた知見がノイズになる場合がある。例えば、非特許文献3に記載の相関に基づくグラフの生成では、特徴が似ていないノード同士の特徴量の交換ができない。実施の形態4では、各オブジェクトの時間方向の着目領域をAttention Branch Networkによって抽出し、グラフ候補生成部43がヒートマップの発火順(すなわち、どの着目領域を重要視して熟練度を判定したかの情報)から、グラフの候補を生成する。実施の形態4に係る機械学習装置400では、ユーザ50がノード候補情報だけを入力すれば、ノードの相関・因果が自動で発見される。
機械学習装置400は、画像内の動作主体の行動の熟練度を推論するための学習モデルMを学習する装置である。機械学習装置400は、ユーザ50の入力操作に基づいて、動作主体の複数の部分に対応する複数のノードと複数のノードの間の関係性を示す情報とで構成されるグラフGを取得するグラフ入力部15と、グラフ入力部15で取得されたグラフGを記憶するユーザ入力領域抽出テーブル17と、複数のノードに対応する複数のオブジェクトが存在する、画像内における複数のオブジェクト領域Oを認識して出力するオブジェクト認識部18とを有している。また、機械学習装置400は、画像内に存在する動作主体の複数の部分(例えば、右手、左手、頭)の行動の特徴量である第1の特徴量F1を抽出する熟練行動特徴抽出部12と、複数のオブジェクト領域O及び第1の特徴量F1に基づいて、複数のオブジェクト領域Oのいずれかに重なる着目領域Aを生成し、着目領域をヒートマップとして出力する着目領域生成部13と、着目領域記憶部42と、ヒートマップに基づいて、グラフ入力部15から入力されるグラフの候補をユーザに提示するための情報を生成するグラフ候補生成部43とを有している。さらに、機械学習装置400は、着目領域Aについて第1の特徴量F1を強調した第2の特徴量F2を生成するグラフ-オブジェクト特徴抽出部16と、画像が予め収集された学習用データLであるときにおける第2の特徴量F2に基づいて、学習モデルMを生成するグラフモデル学習部14とを有している。
《4-2》動作
図16は、機械学習装置400の学習時の動作を示すフローチャートである。機械学習装置400は、オブジェクトの認識(ステップS401)、第1の特徴量F1の抽出(ステップS402)、着目領域Aの生成(ステップS403)、グラフオブジェクト特徴(第2の特徴量F2)の抽出(ステップS404)、学習モデルとしてのグラフモデルの生成(ステップS405)を行う。
図17は、機械学習装置400の動作を示す説明図である。グラフ入力部15で、ユーザ50は、右手、左手、頭のような関わりのありそうなノードのみを定義する。また、これらの抽出方法は、ユーザ入力領域抽出テーブル17に登録される。
グラフモデル学習部14では、ノード同士は全てエッジによって結合されているものとして、学習を行う。
着目領域生成部13は、各オブジェクトのどこに着目して熟練度を判定したかを示すヒートマップ情報に加えて、オブジェクト認識した着目領域に対するヒートマップの重畳度合いを算出し、重畳度合いが一定以上のノードの発火順を図17のように生成する。グラフ候補生成部43がヒートマップの発火順(すなわち、どれを重要視して熟練度を判定したかを示す情報)から、グラフ候補を生成する。
上記は右手、左手、頭のようなノードの発火順を抽出する一例であり、例えば、非特許文献2のように、ノード自体の着目生成部を設け、これを用いた分析をしてもよい。
グラフ候補生成部は、以下のようなN分割した時系列の着目情報(Attention)情報を基に、どの時間で各ノードが着目されたのかを示す情報を基に、ノードの候補を見つける。
図17で説明すると、左手が着目された後に、右手が着目された場合、左手から右手に有向エッジがあるものとし、右手と頭が同時に着目された場合、右手、左手に無向エッジがあるものとする。左手のみが発火した場合、左手にセルフループがあるものと判定する。上記のようなグラフを一定分割数に区切った時間を一定のウィンドウ幅で探索し、少しずつウィンドウをスライドして探索しグラフの候補を発見する。発見したグラフ候補からグラフパターンマッチングにより頻出パターンを候補として複数個抽出する。
図18は、機械学習装置400の動作を示す説明図である。グラフ候補生成部43は、自動発見したノード間の関係性に加え、熟練度を判定する上で本当にノード間の因果あるかどうかを検証できるようにしてもよい。グラフ候補生成部43は、例えば、図18の時系列の着目情報が得られているものとし、そのうち一部の着目情報を無効化することで、その影響を調査する。グラフ候補生成部43は、図18に因果関係の抽出として記載しているように、左手から右手、左手から頭の因果があるかどうかを検証する。
グラフ候補生成部43は、右手、左手の因果を検証する際に、まず頭の着目情報を無効化する。そしてその上で左手のヒートマップの時間帯を右手と同じ時間になるようにずらし、このときのロスの変化(Δロス)を求める。
一方で、グラフ候補生成部43は、左手、頭の因果を検証する際に、まず右手の着目情報を無効化し、その上で、左手のヒートマップの時間帯を右手と同じ時間になるようにずらし、このときのロスの変化(Δロス)を求める。
グラフ候補生成部43は、上記したロスの計算により、左手から右手を向く有向エッジの関係が崩れたときに、ロスが大きく変化することを検証し、実際に獲得したグラフに対して因果があるかもしれないと候補を提示することができる。
《4-3》効果
以上に説明したように、実施の形態4によれば、グラフ候補生成部43がユーザ50のノードに対し、関係性を発見できるようにする情報を提示することで、ノード間の不適切な関係性の入力によって、ノイズとなるような関係性の定義を与えることを回避できる。
上記以外に関し、実施の形態4は、実施の形態1から3のいずれかと同じである。
11、21、31、41 熟練行動判定モデル、 11a 学習モデル生成部、 11b 学習モデル記憶部、 11c 推論部、 12 熟練行動特徴抽出部、 13 着目領域生成部、 14 グラフモデル学習部、 15 グラフ入力部、 16 グラフ-オブジェクト特徴抽出部、 17 ユーザ入力領域抽出テーブル(記憶部)、 18 オブジェクト認識部、 28a フロー推定部、 28b オブジェクト存在確率確定部、 28c 重なり判定部、 32 学習率調整部、 33 オブジェクト認識・熟練行動判定モデル学習部、 34 オブジェクト認識・熟練行動特徴抽出部、 35 学習データ生成部、 50 ユーザ、 60 データセット記憶部、 100、200、300、400 機械学習装置、 A 着目領域、 F1 第1の特徴量(中間特徴)、 F2 第2の特徴量、 G グラフ、 L 学習用データ、 M 学習モデル、 M2 行動推論モデル、 O オブジェクト領域、 RH 右手、 LH 左手、 HE 頭。

Claims (11)

  1. 画像内の動作主体の行動の熟練度を推論するための学習モデルを学習する機械学習装置であって、
    ユーザの入力操作に基づいて、前記動作主体の複数の部分に対応する複数のノードと前記複数のノードの間の関係性を示す情報とで構成されるグラフを取得するグラフ入力部と、
    前記グラフ入力部で取得された前記グラフを記憶する記憶部と、
    前記複数のノードに対応する複数のオブジェクトが存在する、前記画像内における複数のオブジェクト領域を認識して出力するオブジェクト認識部と、
    前記画像内に存在する前記動作主体の前記複数の部分の行動の特徴量である第1の特徴量を抽出する熟練行動特徴抽出部と、
    前記第1の特徴量に基づいて前記画像内における着目領域を生成する着目領域生成部と、
    前記着目領域と前記オブジェクト領域とが重なる領域について前記第1の特徴量を強調した第2の特徴量を生成するグラフ-オブジェクト特徴抽出部と、
    前記画像が予め収集された学習用データであるときにおける前記第2の特徴量に基づいて、前記学習モデルを生成するグラフモデル学習部と、
    を有することを特徴とする機械学習装置。
  2. 前記オブジェクト認識部は、前記複数のノードに対応する複数のオブジェクトの位置及び速度に関する過去の情報を保持し、前記過去の情報に基づいて前記複数のオブジェクト領域の位置を予測して、前記複数のオブジェクト領域の重なり合いを判定し、
    前記グラフ-オブジェクト特徴抽出部は、前記複数のオブジェクト領域のうちの重なり合うオブジェクト領域の前記第1の特徴量に基づいて、前記重なり合うオブジェクト領域の前記第1の特徴量を変更する
    ことを特徴とする請求項1に記載の機械学習装置。
  3. 画像内の動作主体の行動の熟練度を推論するための学習モデルを学習する機械学習装置であって、
    ユーザの入力操作に基づいて、前記動作主体の複数の部分に対応する複数のノードと前記複数のノードの間の関係性を示す情報とで構成されるグラフを取得するグラフ入力部と、
    前記グラフ入力部で取得された前記グラフを記憶する記憶部と、
    前記複数のノードに対応する複数のオブジェクトが存在する、前記画像内における複数のオブジェクト領域を認識して出力するオブジェクト認識部と、
    前記複数のオブジェクト領域に紐づけられた学習用データを生成する学習データ生成部と、
    前記複数のオブジェクト領域に紐づけられた、前記画像内に存在する前記動作主体の前記複数の部分の行動であって、前記複数のオブジェクト領域に紐づけられた行動を推論するための行動推論モデルを学習する行動判定モデル学習部と、
    前記行動推論モデルを用いて推論された、前記複数のオブジェクト領域に紐づけられた行動を認識し、前記行動の特徴量である第1の特徴量を抽出するオブジェクト認識・熟練行動特徴抽出部と、
    前記第1の特徴量を強調した第2の特徴量を生成するグラフ-オブジェクト特徴抽出部と、
    前記画像が前記学習用データであるときにおける前記第2の特徴量に基づいて、前記学習モデルを生成するグラフモデル学習部と、
    を有することを特徴とする機械学習装置。
  4. 画像内の動作主体の行動の熟練度を推論するための学習モデルを学習する機械学習装置であって、
    ユーザの入力操作に基づいて、前記動作主体の複数の部分に対応する複数のノードと前記複数のノードの間の関係性を示す情報とで構成されるグラフを取得するグラフ入力部と、
    前記グラフ入力部で取得された前記グラフを記憶する記憶部と、
    前記複数のノードに対応する複数のオブジェクトが存在する、前記画像内における複数のオブジェクト領域を認識して出力するオブジェクト認識部と、
    前記画像内に存在する前記動作主体の前記複数の部分の行動の特徴量である第1の特徴量を抽出する熟練行動特徴抽出部と、
    前記複数のオブジェクト領域及び前記第1の特徴量に基づいて、前記複数のオブジェクト領域のいずれかに重なる着目領域を生成し、前記着目領域をヒートマップとして出力する着目領域生成部と、
    前記ヒートマップに基づいて、前記グラフ入力部から入力される前記グラフの候補を前記ユーザに提示するための情報を生成するグラフ候補生成部と、
    前記着目領域について前記第1の特徴量を強調した第2の特徴量を生成するグラフ-オブジェクト特徴抽出部と、
    前記画像が予め収集された学習用データであるときにおける前記第2の特徴量に基づいて、前記学習モデルを生成するグラフモデル学習部と、
    を有することを特徴とする機械学習装置。
  5. 前記動作主体は、人であり、
    前記複数の部分は、前記人の複数の身体部位を含む
    ことを特徴とする請求項1から4のいずれか1項に記載の機械学習装置。
  6. 前記動作主体は、人の身体の部位の動きに連動して動く機構であり、
    前記複数の部分は、前記機構の複数の部分である
    ことを特徴とする請求項1から4のいずれか1項に記載の機械学習装置。
  7. 前記複数のノードの間の関係性を示す前記情報は、有向エッジである
    ことを特徴とする請求項1から6のいずれか1項に記載の機械学習装置。
  8. 前記複数のノードの間の関係性を示す前記情報は、前記複数の部分の各々の動きを示す情報を含む
    ことを特徴とする請求項1から6のいずれか1項に記載の機械学習装置。
  9. 請求項1から8のいずれか1項に記載の機械学習装置と、
    前記熟練行動特徴抽出部に入力される前記画像が推論対象の画像であるときにおける前記第2の特徴量に基づいて、前記動作主体の行動の熟練度を推論する前記学習モデルと、
    を有することを特徴とする熟練行動判定装置。
  10. 画像内の動作主体の行動の熟練度を推論するための学習モデルを学習する機械学習装置によって実施される機械学習方法であって、
    前記画像内に存在する前記動作主体の複数の部分の行動の特徴量である第1の特徴量を抽出するステップと、
    ユーザの入力操作に基づいて、前記動作主体の前記複数の部分に対応する複数のノードと前記複数のノードの間の関係性を示す情報とで構成されるグラフを取得し、前記グラフを記憶するステップと、
    前記複数のノードに対応する複数のオブジェクトが存在する、前記画像内における複数のオブジェクト領域を認識して出力するステップと、
    前記第1の特徴量に基づいて前記画像内における着目領域を生成するステップと、
    前記着目領域と前記オブジェクト領域とが重なる領域について前記第1の特徴量を強調した第2の特徴量を生成するステップと、
    前記画像が予め収集された学習用データであるときにおける前記第2の特徴量に基づいて、前記学習モデルを生成するステップと、
    を有することを特徴とする機械学習方法。
  11. 画像内の動作主体の行動の熟練度を推論するための学習モデルを学習するコンピュータに、
    前記画像内に存在する前記動作主体の複数の部分の行動の特徴量である第1の特徴量を抽出するステップと、
    ユーザの入力操作に基づいて、前記動作主体の前記複数の部分に対応する複数のノードと前記複数のノードの間の関係性を示す情報とで構成されるグラフを取得し、前記グラフを記憶するステップと、
    前記複数のノードに対応する複数のオブジェクトが存在する、前記画像内における複数のオブジェクト領域を認識して出力するステップと、
    前記第1の特徴量に基づいて前記画像内における着目領域を生成するステップと、
    前記着目領域と前記オブジェクト領域とが重なる領域について前記第1の特徴量を強調した第2の特徴量を生成するステップと、
    前記画像が予め収集された学習用データであるときにおける前記第2の特徴量に基づいて、前記学習モデルを生成するステップと、
    を実行させることを特徴とする機械学習プログラム。
JP2023532819A 2022-02-04 2022-02-04 機械学習装置、熟練行動判定装置、機械学習方法、及び機械学習プログラム Active JP7387069B1 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2022/004364 WO2023148909A1 (ja) 2022-02-04 2022-02-04 機械学習装置、熟練行動判定装置、機械学習方法、及び機械学習プログラム

Publications (2)

Publication Number Publication Date
JPWO2023148909A1 JPWO2023148909A1 (ja) 2023-08-10
JP7387069B1 true JP7387069B1 (ja) 2023-11-27

Family

ID=87553402

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023532819A Active JP7387069B1 (ja) 2022-02-04 2022-02-04 機械学習装置、熟練行動判定装置、機械学習方法、及び機械学習プログラム

Country Status (3)

Country Link
JP (1) JP7387069B1 (ja)
TW (1) TW202333089A (ja)
WO (1) WO2023148909A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048098A (ja) * 2007-08-22 2009-03-05 Fujitsu Ltd スキル測定プログラム、該プログラムを記録したコンピュータに読み取り可能な記録媒体、スキル測定装置、およびスキル測定方法
JP2021077230A (ja) * 2019-11-12 2021-05-20 オムロン株式会社 動作認識装置、動作認識方法、動作認識プログラム及び動作認識システム
CN113239897A (zh) * 2021-06-16 2021-08-10 石家庄铁道大学 基于时空特征组合回归的人体动作评价方法
JP2021135898A (ja) * 2020-02-28 2021-09-13 富士通株式会社 行動認識方法、行動認識プログラム及び行動認識装置
JP2021163293A (ja) * 2020-04-01 2021-10-11 株式会社デンソーウェーブ 作業分析装置及び作業分析プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009048098A (ja) * 2007-08-22 2009-03-05 Fujitsu Ltd スキル測定プログラム、該プログラムを記録したコンピュータに読み取り可能な記録媒体、スキル測定装置、およびスキル測定方法
JP2021077230A (ja) * 2019-11-12 2021-05-20 オムロン株式会社 動作認識装置、動作認識方法、動作認識プログラム及び動作認識システム
JP2021135898A (ja) * 2020-02-28 2021-09-13 富士通株式会社 行動認識方法、行動認識プログラム及び行動認識装置
JP2021163293A (ja) * 2020-04-01 2021-10-11 株式会社デンソーウェーブ 作業分析装置及び作業分析プログラム
CN113239897A (zh) * 2021-06-16 2021-08-10 石家庄铁道大学 基于时空特征组合回归的人体动作评价方法

Also Published As

Publication number Publication date
TW202333089A (zh) 2023-08-16
JPWO2023148909A1 (ja) 2023-08-10
WO2023148909A1 (ja) 2023-08-10

Similar Documents

Publication Publication Date Title
WO2020224403A1 (zh) 分类任务模型的训练方法、装置、设备及存储介质
CN109670474B (zh) 一种基于视频的人体姿态估计方法、装置及设备
JP7274048B2 (ja) 動作認識方法、装置、コンピュータプログラム及びコンピュータデバイス
Kuncheva et al. PCA feature extraction for change detection in multidimensional unlabeled data
Raheja et al. Robust gesture recognition using Kinect: A comparison between DTW and HMM
Guo et al. Sparse adaptive graph convolutional network for leg agility assessment in Parkinson’s disease
CN112506340B (zh) 设备控制方法、装置、电子设备及存储介质
JP6835218B2 (ja) 群衆状態認識装置、学習方法および学習プログラム
Huang et al. Deepfinger: A cascade convolutional neuron network approach to finger key point detection in egocentric vision with mobile camera
Krejov et al. Multi-touchless: Real-time fingertip detection and tracking using geodesic maxima
CN107357414B (zh) 一种点击动作的识别方法及点击动作识别装置
Wang et al. Immersive human–computer interactive virtual environment using large-scale display system
Hardegger et al. Enhancing action recognition through simultaneous semantic mapping from body-worn motion sensors
Adhikari et al. A Novel Machine Learning-Based Hand Gesture Recognition Using HCI on IoT Assisted Cloud Platform.
Zhou et al. A study on attention-based LSTM for abnormal behavior recognition with variable pooling
KR20230080938A (ko) 컨볼루션 블록 어텐션 모듈을 이용한 동작 인식 및 분류 방법 및 장치
Michel et al. Gesture recognition supporting the interaction of humans with socially assistive robots
Abdulhamied et al. Real-time recognition of American sign language using long-short term memory neural network and hand detection
Ehsani et al. Object manipulation via visual target localization
Firouznia et al. Adaptive chaotic sampling particle filter to handle occlusion and fast motion in visual object tracking
JP7387069B1 (ja) 機械学習装置、熟練行動判定装置、機械学習方法、及び機械学習プログラム
KR102542683B1 (ko) 손 추적 기반 행위 분류 방법 및 장치
JP7254262B2 (ja) 作業推定装置、作業推定方法、及び、作業推定プログラム
Le et al. Accurate continuous action and gesture recognition method based on skeleton and sliding windows techniques
Waichal et al. Survey paper on Hand Gesture Recognition Based Virtual Mouse

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230530

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20230530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230711

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230830

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20231017

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20231114

R150 Certificate of patent or registration of utility model

Ref document number: 7387069

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150