JP7080285B2 - Operation identification device, operation identification method and operation identification program - Google Patents

Operation identification device, operation identification method and operation identification program Download PDF

Info

Publication number
JP7080285B2
JP7080285B2 JP2020150999A JP2020150999A JP7080285B2 JP 7080285 B2 JP7080285 B2 JP 7080285B2 JP 2020150999 A JP2020150999 A JP 2020150999A JP 2020150999 A JP2020150999 A JP 2020150999A JP 7080285 B2 JP7080285 B2 JP 7080285B2
Authority
JP
Japan
Prior art keywords
information
target
image data
worker
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020150999A
Other languages
Japanese (ja)
Other versions
JP2020198133A (en
Inventor
勝大 草野
尚吾 清水
誠司 奥村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2020150999A priority Critical patent/JP7080285B2/en
Publication of JP2020198133A publication Critical patent/JP2020198133A/en
Application granted granted Critical
Publication of JP7080285B2 publication Critical patent/JP7080285B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、対象者が撮影された画像データから対象者の動作内容を特定する技術に関する。 The present invention relates to a technique for specifying an operation content of a subject from image data taken by the subject.

産業分野において、作業者が製品を組み立てる時間であるサイクルタイムの計測と、作業の抜け又は定常的な作業ではない非定常作業の検知のための作業内容の分析といった処理に対するニーズがある。現在これらの処理は人手で行うことが主流となっている。そのため多くの人的コストがかかるとともに、限定的な範囲についてしか処理の対象とすることができなかった。 In the industrial field, there is a need for processing such as measurement of cycle time, which is the time for workers to assemble products, and analysis of work contents for detecting work omissions or non-routine work that is not routine work. Currently, these processes are mainly performed manually. Therefore, a lot of human cost is required, and only a limited range can be processed.

特許文献1には、人の頭部に付けたカメラ及び三次元センサを用いて、人の動作の特徴量を抽出し、自動的に動作分析を行うことが記載されている。 Patent Document 1 describes that a camera and a three-dimensional sensor attached to a human head are used to extract features of human motion and automatically perform motion analysis.

特開2016-099982号公報Japanese Unexamined Patent Publication No. 2016-099982 特開2017-199303号公報Japanese Unexamined Patent Publication No. 2017-199303 特開2017-174093号公報Japanese Unexamined Patent Publication No. 2017-174093 特開2016-42332号公報Japanese Unexamined Patent Publication No. 2016-42332

特許文献1では、人の頭部にカメラを付けている。しかし、産業分野においては、作業中に作業者の体の一部に作業に不要な物を付けることは作業の妨げとなる可能性があるとして、敬遠されている。
この発明は、作業者の体に作業に不要な物を付けることなく、一連の作業を構成する各作業がいつ開始し、いつ終了したかを特定することを可能にすることを目的とする。
In Patent Document 1, a camera is attached to a person's head. However, in the industrial field, it is avoided to attach unnecessary objects to a part of the worker's body during the work because it may hinder the work.
It is an object of the present invention to make it possible to identify when each work constituting a series of work starts and finishes without attaching unnecessary objects to the worker's body.

この発明に係る動作特定装置は、
複数の作業から構成される一連の作業を行った作業者を撮影した学習用の映像データについて、前記学習用の映像データを構成する各時刻の画像データと、前記各時刻における前記作業者の動作内容を示すラベル情報とを取得する画像取得部と、
前記画像取得部によって取得された前記学習用の映像データを構成する前記各時刻の画像データを対象として、対象の時刻の画像データから、前記作業者の体勢を表した骨格情報である動作情報を抽出する骨格抽出部と、
前記各時刻の画像データを対象として、前記骨格抽出部によって対象の時刻の画像データから抽出された動作情報と、対象の時刻における前記作業者の動作を示すラベル情報との組を学習データとして学習させることにより、前記骨格情報が入力されると、入力された前記骨格情報に類似する前記動作情報を特定して、特定された前記動作情報に対応する前記ラベル情報を出力する学習モデルを生成する学習部と
を備え、
前記画像取得部は、複数の作業から構成される一連の作業を行った対象の作業者を撮影した対象の映像データについて、前記対象の映像データを構成する各時刻の画像データを取得し、
前記骨格抽出部は、前記対象の映像データを構成する前記各時刻の画像データを対象として、対象の時刻の画像データから、前記作業者の体勢を表した骨格情報である対象情報を抽出し、
さらに、
前記対象の映像データを構成する前記各時刻の画像データを対象として、前記学習部によって生成された前記学習モデルに対象の時刻の画像データから抽出された前記対象情報を入力し、前記学習モデルから出力された前記ラベル情報を取得して、取得された前記ラベル情報が示す動作内容を、前記対象の作業者が行っている動作内容として特定することにより、前記一連の作業を構成する各作業がいつ開始し、いつ終了したかを特定する動作特定部
を備える。
The operation specifying device according to the present invention is
Regarding the video data for learning in which a worker who has performed a series of operations composed of a plurality of operations is photographed, the image data at each time constituting the video data for learning and the operation of the worker at each time are performed. An image acquisition unit that acquires label information indicating the contents, and
Targeting the image data at each time constituting the video data for learning acquired by the image acquisition unit, operation information which is skeletal information representing the posture of the worker is obtained from the image data at the target time. The skeleton extraction part to be extracted and
For the image data at each time, the pair of the operation information extracted from the image data at the target time by the skeleton extraction unit and the label information indicating the operation of the worker at the target time is learned as learning data. When the skeletal information is input, the motion information similar to the input skeletal information is specified, and a learning model that outputs the label information corresponding to the specified motion information is generated. Equipped with a learning department
The image acquisition unit acquires image data at each time constituting the target video data for the target video data obtained by photographing the target worker who has performed a series of operations composed of a plurality of operations.
The skeleton extraction unit extracts target information, which is skeleton information representing the posture of the worker, from the image data at the target time, targeting the image data at each time constituting the video data of the target.
moreover,
For the image data at each time constituting the video data of the target, the target information extracted from the image data at the target time is input to the learning model generated by the learning unit, and the learning model is used. By acquiring the output label information and specifying the operation content indicated by the acquired label information as the operation content performed by the target worker, each operation constituting the series of operations can be performed. It is equipped with an operation specifying part that specifies when it started and when it ended.

この発明では、画像データから対象者の体勢を表した骨格情報である対象情報を抽出し、対象情報と類似する骨格情報である動作情報が示す動作内容を、対象者が行っている動作内容として特定する。そのため、作業者の体に作業に不要な物を付けることなく、一連の作業を構成する各作業がいつ開始し、いつ終了したかを特定することが可能になる。 In the present invention, the target information, which is the skeletal information representing the posture of the subject, is extracted from the image data, and the motion content indicated by the motion information, which is the skeleton information similar to the target information, is set as the motion content performed by the subject. Identify. Therefore, it is possible to specify when each work constituting the series of work started and ended without attaching unnecessary objects to the worker's body.

実施の形態1に係る動作特定装置10の構成図。The block diagram of the operation specifying apparatus 10 which concerns on Embodiment 1. FIG. 実施の形態1に係る登録処理のフローチャート。The flowchart of the registration process which concerns on Embodiment 1. 実施の形態1に係る画像データの説明図。Explanatory drawing of image data which concerns on Embodiment 1. FIG. 実施の形態1に係る骨格情報43の説明図。The explanatory view of the skeleton information 43 which concerns on Embodiment 1. FIG. 実施の形態1に係る登録処理の説明図。An explanatory diagram of a registration process according to the first embodiment. 実施の形態1に係る動作情報テーブル31の説明図。The explanatory view of the operation information table 31 which concerns on Embodiment 1. FIG. 実施の形態1に係る特定処理のフローチャート。The flowchart of the specific process which concerns on Embodiment 1. 実施の形態1に係る特定処理の説明図。An explanatory diagram of a specific process according to the first embodiment. 変形例1に係る動作特定装置10の構成図。The block diagram of the operation specifying apparatus 10 which concerns on modification 1. FIG. 変形例3に係る動作特定装置10の構成図。The block diagram of the operation specifying apparatus 10 which concerns on modification 3. 実施の形態2に係る動作特定装置10の構成図。The block diagram of the operation specifying apparatus 10 which concerns on Embodiment 2. FIG. 実施の形態2に係る学習処理のフローチャート。The flowchart of the learning process which concerns on Embodiment 2. 実施の形態2に係る特定処理のフローチャート。The flowchart of the specific process which concerns on Embodiment 2. 変形例5に係る動作特定装置10の構成図。The block diagram of the operation specifying apparatus 10 which concerns on modification 5.

実施の形態1.
***構成の説明***
図1を参照して、実施の形態1に係る動作特定装置10の構成を説明する。
動作特定装置10は、コンピュータである。
動作特定装置10は、プロセッサ11と、メモリ12と、ストレージ13と、通信インタフェース14とのハードウェアを備える。プロセッサ11は、信号線を介して他のハードウェアと接続され、これら他のハードウェアを制御する。
Embodiment 1.
*** Explanation of configuration ***
The configuration of the operation specifying device 10 according to the first embodiment will be described with reference to FIG.
The operation specifying device 10 is a computer.
The operation specifying device 10 includes hardware of a processor 11, a memory 12, a storage 13, and a communication interface 14. The processor 11 is connected to other hardware via a signal line and controls these other hardware.

プロセッサ11は、プロセッシングを行うIC(Integrated Circuit)である。プロセッサ11は、具体例としては、CPU(Central Processing Unit)、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)である。 The processor 11 is an IC (Integrated Circuit) that performs processing. Specific examples of the processor 11 are a CPU (Central Processing Unit), a DSP (Digital Signal Processor), and a GPU (Graphics Processing Unit).

メモリ12は、データを一時的に記憶する記憶装置である。メモリ12は、具体例としては、SRAM(Static Random Access Memory)、DRAM(Dynamic Random Access Memory)である。 The memory 12 is a storage device that temporarily stores data. As a specific example, the memory 12 is a SRAM (Static Random Access Memory) or a DRAM (Dynamic Random Access Memory).

ストレージ13は、データを保管する記憶装置である。ストレージ13は、具体例としては、HDD(Hard Disk Drive)である。また、ストレージ13は、SD(登録商標,Secure Digital)メモリカード、CF(CompactFlash,登録商標)、NANDフラッシュ、フレキシブルディスク、光ディスク、コンパクトディスク、ブルーレイ(登録商標)ディスク、DVD(Digital Versatile Disk)といった可搬記録媒体であってもよい。 The storage 13 is a storage device for storing data. As a specific example, the storage 13 is an HDD (Hard Disk Drive). The storage 13 includes SD (registered trademark, Secure Digital) memory card, CF (Compact Flash, registered trademark), NAND flash, flexible disk, optical disk, compact disc, Blu-ray (registered trademark) disk, DVD (Digital Versaille Disk), and the like. It may be a portable recording medium.

通信インタフェース14は、外部の装置と通信するためのインタフェースである。通信インタフェース14は、具体例としては、Ethernet(登録商標)、USB(Universal Serial Bus)、HDMI(登録商標,High-Definition Multimedia Interface)のポートである。なお、通信インタフェース14は、通信されるデータ毎に別々に設けられていてもよい。例えば、後述する画像データを通信するためにHDMI(登録商標)が設けられ、後述するラベル情報を通信するためにUSBが設けられてもよい。 The communication interface 14 is an interface for communicating with an external device. As a specific example, the communication interface 14 is a port of Ethernet (registered trademark), USB (Universal Serial Bus), HDMI (registered trademark, High-Definition Multimedia Interface). The communication interface 14 may be provided separately for each data to be communicated. For example, HDMI (registered trademark) may be provided for communicating image data described later, and USB may be provided for communicating label information described later.

動作特定装置10は、機能構成要素として、画像取得部21と、骨格抽出部22と、動作情報登録部23と、動作特定部24と、出力部25とを備える。動作特定装置10の各機能構成要素の機能はソフトウェアにより実現される。
ストレージ13には、動作特定装置10の各機能構成要素の機能を実現するプログラムが格納されている。このプログラムは、プロセッサ11によりメモリ12に読み込まれ、プロセッサ11によって実行される。これにより、動作特定装置10の各機能構成要素の機能が実現される。
The operation specifying device 10 includes an image acquisition unit 21, a skeleton extraction unit 22, an operation information registration unit 23, an operation specifying unit 24, and an output unit 25 as functional components. The functions of each functional component of the operation specifying device 10 are realized by software.
The storage 13 stores a program that realizes the functions of each functional component of the operation specifying device 10. This program is read into the memory 12 by the processor 11 and executed by the processor 11. As a result, the functions of each functional component of the operation specifying device 10 are realized.

また、ストレージ13は、動作情報テーブル31を記憶する。 Further, the storage 13 stores the operation information table 31.

図1では、プロセッサ11は、1つだけ示されていた。しかし、プロセッサ11は、複数であってもよく、複数のプロセッサ11が、各機能を実現するプログラムを連携して実行してもよい。
具体例としては、動作特定装置10は、プロセッサ11として、CPUと、GPUとを備えてもよい。この場合には、後述するように画像処理を行う骨格抽出部22に関しては、GPUにより実現され、残りの画像取得部21と、動作情報登録部23と、動作特定部24と、出力部25とに関しては、CPUにより実現されてもよい。
In FIG. 1, only one processor 11 is shown. However, the number of processors 11 may be plural, and the plurality of processors 11 may execute programs that realize each function in cooperation with each other.
As a specific example, the operation specifying device 10 may include a CPU and a GPU as the processor 11. In this case, as will be described later, the skeleton extraction unit 22 that performs image processing is realized by the GPU, and the remaining image acquisition unit 21, operation information registration unit 23, operation identification unit 24, and output unit 25 are used. May be realized by the CPU.

***動作の説明***
図2から図8を参照して、実施の形態1に係る動作特定装置10の動作を説明する。
実施の形態1に係る動作特定装置10の動作は、実施の形態1に係る動作特定方法に相当する。また、実施の形態1に係る動作特定装置10の動作は、実施の形態1に係る動作特定プログラムの処理に相当する。
実施の形態1に係る動作特定装置10の動作は、登録処理と、特定処理とを含む。
*** Explanation of operation ***
The operation of the operation specifying device 10 according to the first embodiment will be described with reference to FIGS. 2 to 8.
The operation of the operation specifying device 10 according to the first embodiment corresponds to the operation specifying method according to the first embodiment. Further, the operation of the operation specifying device 10 according to the first embodiment corresponds to the processing of the operation specifying program according to the first embodiment.
The operation of the operation specifying device 10 according to the first embodiment includes a registration process and a specifying process.

図2を参照して、実施の形態1に係る登録処理を説明する。
(ステップS11:画像取得処理)
画像取得部21は、撮影装置41によって対象動作をしている人42が撮影された画像データと、対象動作を示すラベル情報との1つ以上の組を、通信インタフェース14を介して取得する。図3に示すように、実施の形態1では、画像データは、撮影装置41によって対象動作をしている人42の身体全体が対象者の正面から撮影されて取得される。
画像取得部21は、取得された画像データとラベル情報との組をメモリ12に書き込む。
The registration process according to the first embodiment will be described with reference to FIG.
(Step S11: Image acquisition process)
The image acquisition unit 21 acquires one or more sets of image data captured by the person 42 performing the target motion by the photographing device 41 and label information indicating the target motion via the communication interface 14. As shown in FIG. 3, in the first embodiment, the image data is acquired by photographing the entire body of the person 42 who is performing the target motion by the photographing device 41 from the front of the subject.
The image acquisition unit 21 writes the set of the acquired image data and the label information in the memory 12.

(ステップS12:骨格抽出処理)
骨格抽出部22は、ステップS11で取得された画像データをメモリ12から読み出す。骨格抽出部22は、画像データから人42の体勢を表した骨格情報43を動作情報として抽出する。図4に示すように、実施の形態1では、骨格情報43は、人42の首及び肩といった複数の関節の座標、又は、複数の関節の相対的な位置関係を示す。
骨格抽出部22は、抽出された動作情報をメモリ12に書き込む。
(Step S12: Skeleton extraction process)
The skeleton extraction unit 22 reads the image data acquired in step S11 from the memory 12. The skeleton extraction unit 22 extracts skeleton information 43 representing the posture of the person 42 as motion information from the image data. As shown in FIG. 4, in the first embodiment, the skeletal information 43 indicates the coordinates of a plurality of joints such as the neck and shoulders of the person 42, or the relative positional relationship of the plurality of joints.
The skeleton extraction unit 22 writes the extracted operation information in the memory 12.

(ステップS13:動作情報登録処理)
動作情報登録部23は、ステップS12で抽出された動作情報と、動作情報の抽出元の画像データと同じ組のラベル情報とをメモリ12から読み出す。動作情報登録部23は、読み出された動作情報とラベル情報とを対応付けて、動作情報テーブル31に書き込む。
(Step S13: Operation information registration process)
The operation information registration unit 23 reads the operation information extracted in step S12 and the label information of the same set as the image data from which the operation information is extracted from the memory 12. The operation information registration unit 23 associates the read operation information with the label information and writes it in the operation information table 31.

(ステップS14:終了判定処理)
骨格抽出部22は、ステップS11で取得された全ての組について処理をしたか否かを判定する。
骨格抽出部22は、全ての組について処理をした場合には、登録処理を終了する。一方、骨格抽出部22は、処理していない組がある場合には、処理をステップS12に戻して、次の組についての処理を実行する。
(Step S14: End determination process)
The skeleton extraction unit 22 determines whether or not all the sets acquired in step S11 have been processed.
When the skeleton extraction unit 22 processes all the sets, the skeleton extraction unit 22 ends the registration process. On the other hand, if there is a set that has not been processed, the skeleton extraction unit 22 returns the process to step S12 and executes the process for the next set.

登録処理を実行することにより、複数の動作情報とラベル情報との組が動作情報テーブル31に蓄積される。
例えば、図5に示すように、ステップS11で画像取得部21は、一連の作業を行った人を撮影した映像データを構成する各時刻の画像データについて、その時刻の画像データと、その時刻の画像データが示す人の動作を示すラベル情報との組を取得する。そして、ステップS12で骨格抽出部22は、処理対象の画像データから動作情報を抽出し、ステップS13で動作情報登録部23は、処理対象の画像データと同じ組のラベル情報と動作情報を対応付けて動作情報テーブル31に書き込む。これにより、図6に示すように、一連の作業における各時刻の動作について、対応付けられた動作情報とラベル情報とが動作情報テーブル31に蓄積される。
なお、ステップS11で画像取得部21は、一連の作業において通常は行われない非定常作業を行った人を撮影した映像データを構成する各時刻の画像データについても、その時刻の画像データと、その時刻の画像データが示す人の動作を示すラベル情報との組を取得してもよい。これにより、非定常作業に関しても、各時刻の動作について、対応付けられた動作情報とラベル情報とが動作情報テーブル31に蓄積される。
By executing the registration process, a set of a plurality of operation information and label information is accumulated in the operation information table 31.
For example, as shown in FIG. 5, in step S11, the image acquisition unit 21 describes the image data at each time constituting the video data obtained by shooting the person who performed the series of operations, and the image data at that time and the time. Acquires a set with label information indicating the movement of a person indicated by image data. Then, in step S12, the skeleton extraction unit 22 extracts operation information from the image data to be processed, and in step S13, the operation information registration unit 23 associates the same set of label information and operation information with the image data to be processed. And write to the operation information table 31. As a result, as shown in FIG. 6, the associated operation information and label information are accumulated in the operation information table 31 for the operation at each time in the series of operations.
In step S11, the image acquisition unit 21 also uses the image data at each time to form the image data obtained by photographing the person who has performed the unsteady work that is not normally performed in the series of work, as well as the image data at that time. You may acquire a set with the label information which shows the action of the person which the image data of the time shows. As a result, even for non-routine work, the associated operation information and label information are accumulated in the operation information table 31 for the operation at each time.

図7を参照して、実施の形態1に係る特定処理を説明する。
(ステップS21:画像取得処理)
画像取得部21は、対象者が撮影された1つ以上の画像データを、通信インタフェース14を介して取得する。実施の形態1では、ステップS11で取得される画像データと同様に、ステップS21で取得される画像データは、撮影装置41によって対象者の身体全体が対象者の正面から撮影されて取得される。
画像取得部21は、取得された画像データをメモリ12に書き込む。
The specific process according to the first embodiment will be described with reference to FIG. 7.
(Step S21: Image acquisition process)
The image acquisition unit 21 acquires one or more image data captured by the subject via the communication interface 14. In the first embodiment, similarly to the image data acquired in step S11, the image data acquired in step S21 is acquired by photographing the entire body of the subject from the front of the subject by the photographing device 41.
The image acquisition unit 21 writes the acquired image data to the memory 12.

(ステップS22:骨格抽出処理)
骨格抽出部22は、ステップS21で取得された画像データをメモリ12から読み出す。骨格抽出部22は、画像データから対象者の体勢を表した骨格情報43を対象情報として抽出する。
骨格抽出部22は、抽出された対象情報をメモリ12に書き込む。
(Step S22: Skeleton extraction process)
The skeleton extraction unit 22 reads the image data acquired in step S21 from the memory 12. The skeleton extraction unit 22 extracts the skeleton information 43 representing the posture of the target person from the image data as the target information.
The skeleton extraction unit 22 writes the extracted target information in the memory 12.

(ステップS23:動作特定処理)
動作特定部24は、ステップS22で抽出された対象情報と類似する骨格情報である動作情報が示す動作内容を、対象者が行っている動作内容として特定する。
具体的には、動作特定部24は、動作情報テーブル31から対象情報と類似する動作情報を検索する。類似するとは、骨格情報43が複数の関節の座標を示す場合には、対象情報と動作情報とにおいて同じ関節の座標間のユークリッド距離が短いという意味である。また、骨格情報43が複数の関節の相対的な位置関係を示す場合には、対象情報が示す各関節間のユークリッド距離と、動作情報が示す各関節間のユークリッド距離とが近いという意味である。そして、動作特定部24は、検索にヒットした動作情報と対応付けられたラベル情報が示す動作内容を、対象者が行っている動作内容として特定する。
(Step S23: Operation specifying process)
The motion specifying unit 24 identifies the motion content indicated by the motion information, which is skeletal information similar to the target information extracted in step S22, as the motion content performed by the target person.
Specifically, the operation specifying unit 24 searches the operation information table 31 for operation information similar to the target information. Similarity means that when the skeletal information 43 indicates the coordinates of a plurality of joints, the Euclidean distance between the coordinates of the same joint is short in the target information and the motion information. Further, when the skeletal information 43 indicates the relative positional relationship between the plurality of joints, it means that the Euclidean distance between each joint indicated by the target information and the Euclidean distance between each joint indicated by the motion information are close. .. Then, the motion specifying unit 24 identifies the motion content indicated by the label information associated with the motion information hit by the search as the motion content performed by the target person.

例えば、動作特定部24は、動作情報テーブル31に蓄積された全ての動作情報について、対象情報との類似度を計算する。そして、動作特定部24は、類似度が最も高かった動作情報を検索にヒットした動作情報として扱う。なお、動作特定部24は、類似度が閾値よりも高い動作情報がなかった場合には、検索にヒットした動作情報はないとしてもよい。
なお、特定の関節間の相対位置関係が動作を特徴付ける場合には、特定の関節についてのユークリッド距離の差が類似度に大きく影響するように重み付けを行ってもよい。つまり、骨格情報43が複数の関節の座標を示す場合には、特定の関節についての対象情報における座標と動作情報における座標との間のユークリッド距離の差が類似度に大きく影響するように重み付けを行ってもよい。また、骨格情報43が複数の関節の相対的な位置関係を示す場合には、特定の関節間のユークリッド距離の差が類似度に大きく影響するように重み付けを行ってもよい。
For example, the motion specifying unit 24 calculates the degree of similarity with the target information for all the motion information stored in the motion information table 31. Then, the motion specifying unit 24 treats the motion information having the highest degree of similarity as motion information that hits the search. If there is no motion information whose similarity is higher than the threshold value, the motion specifying unit 24 may not have the motion information that hits the search.
When the relative positional relationship between specific joints characterizes the movement, weighting may be performed so that the difference in Euclidean distance for the specific joint greatly affects the degree of similarity. That is, when the skeletal information 43 indicates the coordinates of a plurality of joints, weighting is performed so that the difference in the Euclidean distance between the coordinates in the target information and the coordinates in the motion information for a specific joint greatly affects the similarity. You may go. Further, when the skeletal information 43 indicates the relative positional relationship of a plurality of joints, weighting may be performed so that the difference in Euclidean distance between specific joints greatly affects the degree of similarity.

(ステップS24:出力処理)
出力部25は、ステップS23で特定された動作内容を、通信インタフェース14を介して接続された表示装置等に出力する。出力部25は、動作内容を示すラベル情報を出力してもよい。
なお、検索にヒットした動作情報がない場合には、出力部25は、動作内容を特定できないことを示す情報を出力する。
(Step S24: Output processing)
The output unit 25 outputs the operation content specified in step S23 to a display device or the like connected via the communication interface 14. The output unit 25 may output label information indicating the operation content.
If there is no operation information that hits the search, the output unit 25 outputs information indicating that the operation content cannot be specified.

(ステップS25:終了判定処理)
骨格抽出部22は、ステップS21で取得された全ての画像データについて処理をしたか否かを判定する。
骨格抽出部22は、全ての画像データについて処理をした場合には、登録処理を終了する。一方、骨格抽出部22は、処理していない画像データがある場合には、処理をステップS22に戻して、次の画像データについての処理を実行する。
(Step S25: End determination process)
The skeleton extraction unit 22 determines whether or not all the image data acquired in step S21 have been processed.
When the skeleton extraction unit 22 has processed all the image data, the skeleton extraction unit 22 ends the registration process. On the other hand, if there is unprocessed image data, the skeleton extraction unit 22 returns the process to step S22 and executes the process for the next image data.

例えば、図8に示すように、ステップS21で画像取得部21は、一連の作業を行った人を撮影した映像データを構成する各時刻の画像データについて、その時刻の画像データを取得する。そして、ステップS22で骨格抽出部22は、処理対象の画像データから対象情報を抽出し、ステップS23で動作情報登録部23は、対象情報と類似する動作情報を検索して、動作内容を特定する。これにより、一連の作業における各時刻の動作内容を特定することができる。
この際、対象とする作業がいつ開始され、いつ終了したかということも特定可能である。また、対象者が一連の作業中に非定常作業を行った場合には、非定常作業を行ったことも特定することが可能である。
For example, as shown in FIG. 8, in step S21, the image acquisition unit 21 acquires image data at each time that constitutes video data obtained by photographing a person who has performed a series of operations. Then, in step S22, the skeleton extraction unit 22 extracts the target information from the image data to be processed, and in step S23, the operation information registration unit 23 searches for the operation information similar to the target information and specifies the operation content. .. This makes it possible to specify the operation content at each time in a series of operations.
At this time, it is also possible to specify when the target work was started and when it was completed. In addition, when the subject performs non-routine work during a series of work, it is possible to identify that the non-routine work has been performed.

***実施の形態1の効果***
以上のように、実施の形態1に係る動作特定装置10は、対象者を正面から撮影した画像データから対象者の体勢を表した骨格情報である対象情報を抽出し、対象情報と類似する骨格情報である動作情報が示す動作内容を、対象者が行っている動作内容として特定する。そのため、実施の形態1に係る動作特定装置10は、複数の画像データを含む映像データを入力として、各画像データについての動作内容を特定することにより、一連の動作を分析することが可能である。その結果、作業者の体に作業に不要な物を付けることなく、サイクルタイムの計測と作業内容の分析といった処理が可能になる。
*** Effect of Embodiment 1 ***
As described above, the motion specifying device 10 according to the first embodiment extracts the target information, which is the skeleton information representing the posture of the target person, from the image data obtained by photographing the target person from the front, and has a skeleton similar to the target information. The operation content indicated by the operation information, which is information, is specified as the operation content performed by the target person. Therefore, the operation specifying device 10 according to the first embodiment can analyze a series of operations by inputting video data including a plurality of image data and specifying the operation contents for each image data. .. As a result, it is possible to perform processes such as cycle time measurement and work content analysis without attaching unnecessary objects to the worker's body.

***他の構成***
<変形例1>
実施の形態1では、図1に示すように、動作特定装置10は、1つの装置であった。しかし、動作特定装置10は、複数の装置によって構成されたシステムであってもよい。
具体例としては、図9に示すように、動作特定装置10は、登録処理に関する機能を有する登録装置と、特定処理に関する機能を有する特定装置とによって構成されるシステムであってもよい。この場合には、動作情報テーブル31は、登録装置及び特定装置の外部に設けられた記憶装置に記憶されてもよいし、登録装置と特定装置とのいずれかのストレージに記憶されてもよい。
なお、図9では、登録装置及び特定装置におけるハードウェアは省略されている。登録装置及び特定装置は、動作特定装置10と同様に、ハードウェアとして、プロセッサとメモリとストレージと通信インタフェースとを備える。
*** Other configurations ***
<Modification 1>
In the first embodiment, as shown in FIG. 1, the operation specifying device 10 is one device. However, the operation specifying device 10 may be a system composed of a plurality of devices.
As a specific example, as shown in FIG. 9, the operation specifying device 10 may be a system composed of a registration device having a function related to registration processing and a specific device having a function related to specific processing. In this case, the operation information table 31 may be stored in a storage device provided outside the registration device and the specific device, or may be stored in the storage of either the registration device and the specific device.
In FIG. 9, the hardware in the registration device and the specific device is omitted. Similar to the operation specifying device 10, the registration device and the specifying device include a processor, a memory, a storage, and a communication interface as hardware.

<変形例2>
実施の形態1では、画像データとして、撮影装置41によって撮影されたデータを用いた。しかし、画像データとして、深度センサといったセンサにより得られた3次元画像データを用いてもよい。
<Modification 2>
In the first embodiment, the data photographed by the photographing apparatus 41 is used as the image data. However, as the image data, three-dimensional image data obtained by a sensor such as a depth sensor may be used.

<変形例3>
実施の形態1では、各機能構成要素がソフトウェアで実現された。しかし、変形例3として、各機能構成要素はハードウェアで実現されてもよい。この変形例3について、実施の形態1と異なる点を説明する。
<Modification 3>
In the first embodiment, each functional component is realized by software. However, as a modification 3, each functional component may be realized by hardware. The difference between the third modification and the first embodiment will be described.

図10を参照して、変形例3に係る動作特定装置10の構成を説明する。
各機能構成要素がハードウェアで実現される場合には、動作特定装置10は、プロセッサ11とメモリ12とストレージ13とに代えて、電子回路15を備える。電子回路15は、各機能構成要素と、メモリ12と、ストレージ13との機能とを実現する専用の回路である。
With reference to FIG. 10, the configuration of the operation specifying device 10 according to the modification 3 will be described.
When each functional component is realized by hardware, the operation specifying device 10 includes an electronic circuit 15 in place of the processor 11, the memory 12, and the storage 13. The electronic circuit 15 is a dedicated circuit that realizes the functions of each functional component, the memory 12, and the storage 13.

電子回路15としては、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ロジックIC、GA(Gate Array)、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)が想定される。
各機能構成要素を1つの電子回路15で実現してもよいし、各機能構成要素を複数の電子回路15に分散させて実現してもよい。
Examples of the electronic circuit 15 include a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, a logic IC, a GA (Gate Array), an ASIC (Application Specific Integrated Circuit), and an FPGA (Field-Programmable Gate Array). is assumed.
Each functional component may be realized by one electronic circuit 15, or each functional component may be distributed and realized by a plurality of electronic circuits 15.

<変形例4>
変形例4として、一部の各機能構成要素がハードウェアで実現され、他の各機能構成要素がソフトウェアで実現されてもよい。
<Modification example 4>
As a modification 4, some functional components may be realized by hardware, and other functional components may be realized by software.

プロセッサ11とメモリ12とストレージ13と電子回路15とを処理回路という。つまり、各機能構成要素の機能は、処理回路により実現される。 The processor 11, the memory 12, the storage 13, and the electronic circuit 15 are referred to as a processing circuit. That is, the function of each functional component is realized by the processing circuit.

実施の形態2.
実施の形態2は、動作情報とラベル情報とに基づいて学習モデル32を生成し、学習モデル32により対象情報に対応するラベル情報を特定する点が実施の形態1と異なる。実施の形態2では、この異なる点を説明し、同一の点については説明を省略する。
Embodiment 2.
The second embodiment is different from the first embodiment in that the learning model 32 is generated based on the operation information and the label information, and the label information corresponding to the target information is specified by the learning model 32. In the second embodiment, these different points will be described, and the same points will be omitted.

***構成の説明***
図11を参照して、実施の形態2に係る動作特定装置10の構成を説明する。
動作特定装置10は、動作情報登録部23に代えて、学習部26を備える点が図1に示す動作特定装置10と異なる。また、動作特定装置10は、ストレージ13が動作情報テーブル31に代えて、学習モデル32を記憶する点が図1に示す動作特定装置10と異なる。
*** Explanation of configuration ***
The configuration of the operation specifying device 10 according to the second embodiment will be described with reference to FIG. 11.
The operation specifying device 10 is different from the operation specifying device 10 shown in FIG. 1 in that the learning unit 26 is provided instead of the operation information registration unit 23. Further, the operation specifying device 10 is different from the operation specifying device 10 shown in FIG. 1 in that the storage 13 stores the learning model 32 instead of the operation information table 31.

***動作の説明***
図12から図13を参照して、実施の形態2に係る動作特定装置10の動作を説明する。
実施の形態2に係る動作特定装置10の動作は、実施の形態2に係る動作特定方法に相当する。また、実施の形態2に係る動作特定装置10の動作は、実施の形態2に係る動作特定プログラムの処理に相当する。
実施の形態2に係る動作特定装置10の動作は、学習処理と、特定処理とを含む。
*** Explanation of operation ***
The operation of the operation specifying device 10 according to the second embodiment will be described with reference to FIGS. 12 to 13.
The operation of the operation specifying device 10 according to the second embodiment corresponds to the operation specifying method according to the second embodiment. Further, the operation of the operation specifying device 10 according to the second embodiment corresponds to the processing of the operation specifying program according to the second embodiment.
The operation of the operation specifying device 10 according to the second embodiment includes a learning process and a specific process.

図12を参照して、実施の形態2に係る学習処理を説明する。
ステップS31からステップS32の処理は、図2のステップS11からステップS12の処理と同じである。また、ステップS34の処理は、図2のステップS14の処理と同じである。
The learning process according to the second embodiment will be described with reference to FIG.
The process from step S31 to step S32 is the same as the process from step S11 to step S12 in FIG. Further, the process of step S34 is the same as the process of step S14 of FIG.

(ステップS33:学習モデル生成処理)
学習部26は、ステップS32で抽出された動作情報と、動作情報の抽出元の画像データと同じ組のラベル情報との複数の組を学習データとして学習させる。これにより、学習部26は、骨格情報43が入力されると、入力された骨格情報43に類似する動作情報を特定して、特定された動作情報に対応するラベル情報を出力する学習モデル32を生成する。学習データに基づく学習の方法については既存の機械学習モデル等を用いればよい。学習部26は、生成された学習モデル32をストレージ13に書き込む。
既に学習モデル32が生成されている場合には、学習部26は、生成済の学習モデル32に対して学習データを与えることにより、学習モデル32を更新する。
(Step S33: Learning model generation process)
The learning unit 26 learns a plurality of sets of the motion information extracted in step S32 and the label information of the same set as the image data from which the motion information is extracted as learning data. As a result, when the skeleton information 43 is input, the learning unit 26 identifies the motion information similar to the input skeleton information 43 and outputs the learning model 32 corresponding to the specified motion information. Generate. As the learning method based on the learning data, an existing machine learning model or the like may be used. The learning unit 26 writes the generated learning model 32 to the storage 13.
When the learning model 32 has already been generated, the learning unit 26 updates the learning model 32 by giving learning data to the generated learning model 32.

なお、ステップS31では、画像データとラベル情報とのペアだけではなく、画像データのみが入力されてもよい。この場合には、ステップS32で画像データから動作情報が抽出され、ステップS33で動作情報のみが学習データとして学習モデル32に与えられる。このように、ラベル情報が存在しない場合であっても、一定の学習効果を得ることが可能である。 In step S31, not only the pair of the image data and the label information but also the image data may be input. In this case, the motion information is extracted from the image data in step S32, and only the motion information is given to the learning model 32 as learning data in step S33. In this way, it is possible to obtain a certain learning effect even when the label information does not exist.

図13を参照して、実施の形態2に係る特定処理を説明する。
ステップS41からステップS42の処理は、図7のステップS21からステップS22の処理と同じである。また、ステップS44からステップS45の処理は、図7のステップS24からステップS25の処理と同じである。
The specific process according to the second embodiment will be described with reference to FIG.
The process from step S41 to step S42 is the same as the process from step S21 to step S22 in FIG. Further, the processing from step S44 to step S45 is the same as the processing from step S24 to step S25 in FIG.

(ステップS43:動作特定処理)
動作特定部24は、ストレージ13に記憶された学習モデル32に、ステップS42で抽出された対象情報を入力し、学習モデル32から出力されたラベル情報を取得する。そして、動作特定部24は、取得されたラベル情報が示す動作内容を、対象者が行っている動作内容として特定する。つまり、動作特定部24は、学習モデル32によって対象情報から推論され出力されたラベル情報が示す動作内容を、対象者が行っている動作内容として特定する。
(Step S43: Operation specifying process)
The operation specifying unit 24 inputs the target information extracted in step S42 into the learning model 32 stored in the storage 13, and acquires the label information output from the learning model 32. Then, the operation specifying unit 24 specifies the operation content indicated by the acquired label information as the operation content performed by the target person. That is, the motion specifying unit 24 specifies the motion content indicated by the label information inferred from the target information by the learning model 32 as the motion content performed by the target person.

***実施の形態2の効果***
以上のように、実施の形態2に係る動作特定装置10は、学習モデル32を生成し、学習モデル32により対象情報に対応するラベル情報を特定する。そのため、対象情報に対応するラベル情報の特定を効率的に実行することが可能になる。
*** Effect of Embodiment 2 ***
As described above, the motion specifying device 10 according to the second embodiment generates the learning model 32, and specifies the label information corresponding to the target information by the learning model 32. Therefore, it is possible to efficiently specify the label information corresponding to the target information.

***他の構成***
<変形例5>
実施の形態2では、図11に示すように、動作特定装置10は、1つの装置であった。しかし、変形例1と同様に、動作特定装置10は、複数の装置によって構成されたシステムであってもよい。
具体例としては、図14に示すように、動作特定装置10は、学習処理に関する機能を有する登録装置と、特定処理に関する機能を有する特定装置とによって構成されるシステムであってもよい。この場合には、学習モデル32は、学習装置及び特定装置の外部に設けられた記憶装置に記憶されてもよいし、学習装置と特定装置とのいずれかのストレージに記憶されてもよい。
なお、図14では、登録装置及び特定装置におけるハードウェアは省略されている。学習装置及び特定装置は、動作特定装置10と同様に、ハードウェアとして、プロセッサとメモリとストレージと通信インタフェースとを備える。
*** Other configurations ***
<Modification 5>
In the second embodiment, as shown in FIG. 11, the operation specifying device 10 is one device. However, as in the first modification, the operation specifying device 10 may be a system composed of a plurality of devices.
As a specific example, as shown in FIG. 14, the operation specifying device 10 may be a system composed of a registration device having a function related to learning processing and a specific device having a function related to specific processing. In this case, the learning model 32 may be stored in a storage device provided outside the learning device and the specific device, or may be stored in the storage of either the learning device and the specific device.
In FIG. 14, the hardware in the registration device and the specific device is omitted. Similar to the operation specifying device 10, the learning device and the specifying device include a processor, a memory, a storage, and a communication interface as hardware.

<変形例6>
実施の形態2では、図11に示すように、動作特定装置10は、ハードウェアとして、プロセッサ11とメモリ12とストレージ13と通信インタフェース14とを備えた。動作特定装置10は、プロセッサ11として、CPUと、GPUと、学習処理用のプロセッサと、推論処理用のプロセッサとを備えてもよい。この場合には、画像処理を行う骨格抽出部22に関しては、GPUにより実現され、学習モデル32の学習に関する学習部26に関しては学習処理用のプロセッサにより実現され、学習モデル32により推論を行う動作特定部24に関しては推論処理用のプロセッサにより実現され、残りの画像取得部21と、学習部26とに関しては、CPUにより実現されてもよい。
<Modification 6>
In the second embodiment, as shown in FIG. 11, the operation specifying device 10 includes a processor 11, a memory 12, a storage 13, and a communication interface 14 as hardware. The operation specifying device 10 may include a CPU, a GPU, a processor for learning processing, and a processor for inference processing as the processor 11. In this case, the skeleton extraction unit 22 that performs image processing is realized by the GPU, and the learning unit 26 related to the learning of the learning model 32 is realized by the learning processing processor, and the operation specification that makes inferences by the learning model 32 is performed. The unit 24 may be realized by a processor for inference processing, and the remaining image acquisition unit 21 and the learning unit 26 may be realized by a CPU.

以上をまとめると、次のようになる。
実施の形態1,2に係る動作特定装置は、
対象者についての画像データを取得する画像取得部と、
前記画像取得部によって取得された前記画像データから、前記対象者の体勢を表した骨格情報である対象情報を抽出する骨格抽出部と、
前記骨格抽出部によって抽出された前記対象情報と類似する前記骨格情報である動作情報が示す動作内容を、前記対象者が行っている動作内容として特定する動作特定部と
を備える。
The above can be summarized as follows.
The operation specifying device according to the first and second embodiments is
An image acquisition unit that acquires image data about the target person,
A skeleton extraction unit that extracts target information, which is skeleton information representing the posture of the target person, from the image data acquired by the image acquisition unit.
It is provided with an operation specifying unit that specifies the operation content indicated by the operation information, which is the skeleton information similar to the target information extracted by the skeleton extraction unit, as the operation content performed by the target person.

前記骨格情報は、前記対象者の複数の関節の座標を示す。 The skeletal information indicates the coordinates of a plurality of joints of the subject.

前記骨格情報は、前記対象者の複数の関節の相対的な位置関係を示す。 The skeletal information indicates the relative positional relationship between the plurality of joints of the subject.

前記動作特定部は、前記動作情報と作業内容を示すラベル情報とを対応付けて記憶した記憶装置から、前記対象情報と類似する前記動作情報を検索し、検索にヒットした前記動作情報と対応付けられた前記ラベル情報が示す動作内容を、前記対象者が行っている動作内容として特定する。 The operation specifying unit searches for the operation information similar to the target information from a storage device that stores the operation information in association with the label information indicating the work content, and associates the operation information with the operation information that hits the search. The operation content indicated by the label information is specified as the operation content performed by the target person.

前記動作特定装置は、さらに、
対象動作をしている人についての画像データから抽出された前記骨格情報である前記動作情報と、前記対象動作を示す前記ラベル情報とを対応付けて前記記憶装置に登録する動作情報登録部
を備える。
The operation specifying device further
It is provided with an operation information registration unit that associates the operation information, which is the skeleton information extracted from the image data of a person performing the target operation, with the label information indicating the target operation, and registers the operation information in the storage device. ..

前記動作特定装置は、さらに、
対象動作をしている人についての画像データから抽出された前記骨格情報である前記動作情報と、前記対象動作を示すラベル情報との複数の組を学習データとして学習させることにより、前記骨格情報が入力されると、入力された前記骨格情報に類似する前記動作情報を特定して、特定された前記動作情報に対応する前記ラベル情報を出力する学習モデルを生成する学習部
を備え、
前記動作特定部は、前記学習部によって生成された前記学習モデルに前記対象情報を入力し、前記学習モデルから出力された前記ラベル情報を取得して、取得された前記ラベル情報が示す動作内容を、前記対象者が行っている動作内容として特定する。
The operation specifying device further
By learning a plurality of sets of the motion information, which is the skeletal information extracted from the image data of the person performing the target motion, and the label information indicating the target motion as training data, the skeletal information can be obtained. When input, it is provided with a learning unit that identifies the operation information similar to the input skeleton information and generates a learning model that outputs the label information corresponding to the specified operation information.
The motion specifying unit inputs the target information into the learning model generated by the learning unit, acquires the label information output from the learning model, and obtains the operation content indicated by the acquired label information. , The operation content performed by the subject is specified.

前記画像取得部は、対象者についての複数の画像データを含む映像データを取得し、
前記骨格抽出部は、前記映像データに含まれる前記複数の画像データそれぞれを対象として、対象の画像データから前記対象情報を抽出し、
前記動作特定部は、前記複数の画像データそれぞれを対象として、対象の画像データから抽出された前記対象情報に基づき、前記対象の画像データが示す前記対象者が行っている動作内容を特定する。
The image acquisition unit acquires video data including a plurality of image data about the target person, and obtains video data.
The skeleton extraction unit extracts the target information from the target image data for each of the plurality of image data included in the video data.
The operation specifying unit specifies the operation content performed by the target person indicated by the target image data based on the target information extracted from the target image data for each of the plurality of image data.

実施の形態1,2に係る動作特定方法は、
動作特定装置の画像取得部が、対象者についての画像データを取得し、
前記動作特定装置の骨格抽出部が、前記画像データから、前記対象者の体勢を表した骨格情報である対象情報を抽出し、
前記動作特定装置の動作特定部が、前記対象情報と類似する前記骨格情報である動作情報が示す動作内容を、前記対象者が行っている動作内容として特定する。
The operation specifying method according to the first and second embodiments is
The image acquisition unit of the operation identification device acquires image data about the target person, and
The skeleton extraction unit of the motion specifying device extracts the target information, which is the skeleton information representing the posture of the target person, from the image data.
The operation specifying unit of the operation specifying device specifies the operation content indicated by the operation information, which is the skeleton information similar to the target information, as the operation content performed by the target person.

実施の形態1,2に係る動作特定プログラムは、
画像取得部が、対象者についての画像データを取得する画像取得処理と、
骨格抽出部が、前記画像取得処理によって取得された前記画像データから、前記対象者の体勢を表した骨格情報である対象情報を抽出する骨格抽出処理と、
動作特定部が、前記骨格抽出処理によって抽出された前記対象情報と類似する前記骨格情報である動作情報が示す動作内容を、前記対象者が行っている動作内容として特定する動作特定処理と
を行う動作特定装置としてコンピュータを機能させる。
The operation specifying program according to the first and second embodiments is
The image acquisition process for acquiring image data about the target person and the image acquisition unit
A skeleton extraction process in which the skeleton extraction unit extracts target information, which is skeleton information representing the posture of the target person, from the image data acquired by the image acquisition process.
The motion specifying unit performs an motion specifying process for specifying the motion content indicated by the motion information, which is the skeleton information similar to the target information extracted by the skeleton extraction process, as the motion content performed by the target person. Make the computer function as an operation identification device.

10 動作特定装置、11 プロセッサ、12 メモリ、13 ストレージ、14 通信インタフェース、15 電子回路、21 画像取得部、22 骨格抽出部、23 動作情報登録部、24 動作特定部、25 出力部、26 学習部、31 動作情報テーブル、32 学習モデル、41 撮影装置、42 人、43 骨格情報。 10 operation identification device, 11 processor, 12 memory, 13 storage, 14 communication interface, 15 electronic circuit, 21 image acquisition unit, 22 skeleton extraction unit, 23 operation information registration unit, 24 operation identification unit, 25 output unit, 26 learning unit. , 31 motion information table, 32 learning model, 41 imaging device, 42 people, 43 skeleton information.

Claims (4)

複数の作業から構成される一連の作業を行った作業者を撮影した学習用の映像データについて、前記学習用の映像データを構成する各時刻の画像データと、前記各時刻における前記作業者の動作内容を示すラベル情報とを取得する画像取得部と、
前記画像取得部によって取得された前記学習用の映像データを構成する前記各時刻の画像データを対象として、対象の時刻の画像データから、前記作業者の体勢を表した骨格情報であって、前記作業者の複数の関節の相対的な位置関係を示す骨格情報である動作情報を抽出する骨格抽出部と、
前記各時刻の画像データを対象として、前記骨格抽出部によって対象の時刻の画像データから抽出された動作情報と、対象の時刻における前記作業者の動作を示すラベル情報との組を学習データとして学習させることにより、前記骨格情報が入力されると、入力された前記骨格情報に類似する前記動作情報を特定して、特定された前記動作情報に対応する前記ラベル情報を出力する学習モデルを生成する学習部と
を備え、
前記画像取得部は、複数の作業から構成される一連の作業を行った対象の作業者を撮影した対象の映像データについて、前記対象の映像データを構成する各時刻の画像データを取得し、
前記骨格抽出部は、前記対象の映像データを構成する前記各時刻の画像データを対象として、対象の時刻の画像データから、前記作業者の体勢を表した骨格情報であって、前記作業者の複数の関節の相対的な位置関係を示す骨格情報である対象情報を抽出し、
さらに、
前記対象の映像データを構成する前記各時刻の画像データを対象として、前記学習部によって生成された前記学習モデルに対象の時刻の画像データから抽出された前記対象情報を入力し、前記学習モデルから出力された前記ラベル情報を取得して、取得された前記ラベル情報が示す動作内容を、前記対象の作業者が行っている動作内容として特定することにより、前記一連の作業を構成する各作業がいつ開始し、いつ終了したかを特定する動作特定部
を備える動作特定装置。
Regarding the video data for learning in which a worker who has performed a series of operations composed of a plurality of operations is photographed, the image data at each time constituting the video data for learning and the operation of the worker at each time are performed. An image acquisition unit that acquires label information indicating the contents, and
The skeletal information representing the posture of the worker from the image data at the target time for the image data at each time constituting the video data for learning acquired by the image acquisition unit . A skeletal extraction unit that extracts motion information, which is skeletal information indicating the relative positional relationship of multiple joints of a worker ,
For the image data at each time, the pair of the operation information extracted from the image data at the target time by the skeleton extraction unit and the label information indicating the operation of the worker at the target time is learned as learning data. When the skeletal information is input, the motion information similar to the input skeletal information is specified, and a learning model that outputs the label information corresponding to the specified motion information is generated. Equipped with a learning department
The image acquisition unit acquires image data at each time constituting the target video data for the target video data obtained by photographing the target worker who has performed a series of operations composed of a plurality of operations.
The skeleton extraction unit is targeting the image data at each time constituting the video data of the target, and is skeleton information representing the posture of the worker from the image data at the target time, and is the skeleton information of the worker. Target information, which is skeletal information showing the relative positional relationship of multiple joints, is extracted.
moreover,
For the image data at each time constituting the video data of the target, the target information extracted from the image data at the target time is input to the learning model generated by the learning unit, and the learning model is used. By acquiring the output label information and specifying the operation content indicated by the acquired label information as the operation content performed by the target worker, each operation constituting the series of operations can be performed. An operation specifying device including an operation specifying unit that specifies when it started and when it ended.
前記学習モデルは、前記一連の作業を構成する動作内容を示すラベル情報だけでなく、前記一連の作業を構成しない動作内容である非定常作業を示すラベル情報も出力する
請求項1に記載の動作特定装置。
The operation according to claim 1, wherein the learning model outputs not only label information indicating operation contents constituting the series of operations but also label information indicating unsteady operations which are operation contents not constituting the series of operations. Specific device.
動作特定装置の画像取得部が、複数の作業から構成される一連の作業を行った作業者を撮影した学習用の映像データについて、前記学習用の映像データを構成する各時刻の画像データと、前記各時刻における前記作業者の動作内容を示すラベル情報とを取得し、
前記動作特定装置の骨格抽出部が、前記学習用の映像データを構成する前記各時刻の画像データを対象として、対象の時刻の画像データから、前記作業者の体勢を表した骨格情報であって、前記作業者の複数の関節の相対的な位置関係を示す骨格情報である動作情報を抽出し、
前記動作特定装置の学習部が、前記各時刻の画像データを対象として、前記骨格抽出部によって対象の時刻の画像データから抽出された動作情報と、対象の時刻における前記作業者の動作を示すラベル情報との組を学習データとして学習させることにより、前記骨格情報が入力されると、入力された前記骨格情報に類似する前記動作情報を特定して、特定された前記動作情報に対応する前記ラベル情報を出力する学習モデルを生成し、
前記動作特定装置の前記画像取得部は、複数の作業から構成される一連の作業を行った対象の作業者を撮影した対象の映像データについて、前記対象の映像データを構成する各時刻の画像データを取得し、
前記動作特定装置の前記骨格抽出部は、前記対象の映像データを構成する前記各時刻の画像データを対象として、対象の時刻の画像データから、前記作業者の体勢を表した骨格情報であって、前記作業者の複数の関節の相対的な位置関係を示す骨格情報である対象情報を抽出し、
前記動作特定装置の動作特定部は、前記対象の映像データを構成する前記各時刻の画像データを対象として、前記学習モデルに対象の時刻の画像データから抽出された前記対象情報を入力し、前記学習モデルから出力された前記ラベル情報を取得して、取得された前記ラベル情報が示す動作内容を、前記対象の作業者が行っている動作内容として特定することにより、前記一連の作業を構成する各作業がいつ開始し、いつ終了したかを特定する動作特定方法。
Regarding the video data for learning in which the image acquisition unit of the operation specifying device captures a worker who has performed a series of operations composed of a plurality of operations, the image data at each time constituting the video data for learning and the image data at each time are used. The label information indicating the operation content of the worker at each time is acquired, and the label information is acquired.
The skeleton extraction unit of the motion specifying device targets the image data at each time constituting the video data for learning, and is skeleton information representing the posture of the worker from the image data at the target time. , Extracting motion information, which is skeletal information indicating the relative positional relationship of a plurality of joints of the worker ,
The learning unit of the operation specifying device targets the image data at each time, the operation information extracted from the image data at the target time by the skeleton extraction unit, and a label indicating the operation of the worker at the target time. When the skeletal information is input by learning a set with the information as training data, the operation information similar to the input skeletal information is specified, and the label corresponding to the specified operation information is specified. Generate a learning model that outputs information
The image acquisition unit of the operation specifying device is the image data of each time constituting the target video data with respect to the target video data obtained by photographing the target worker who has performed a series of operations composed of a plurality of operations. To get,
The skeleton extraction unit of the operation specifying device is targeting the image data at each time constituting the video data of the target, and is skeleton information representing the posture of the worker from the image data at the target time. , Extract target information which is skeletal information showing the relative positional relationship of a plurality of joints of the worker .
The operation specifying unit of the operation specifying device inputs the target information extracted from the image data of the target time into the learning model for the image data at each time constituting the video data of the target, and the above-mentioned. By acquiring the label information output from the learning model and specifying the operation content indicated by the acquired label information as the operation content performed by the target worker, the series of operations is configured. A behavioral identification method that identifies when each task starts and ends.
画像取得部が、複数の作業から構成される一連の作業を行った作業者を撮影した学習用の映像データについて、前記学習用の映像データを構成する各時刻の画像データと、前記各時刻における前記作業者の動作内容を示すラベル情報とを取得する画像取得処理と、
骨格抽出部が、前記画像取得処理によって取得された前記学習用の映像データを構成する前記各時刻の画像データを対象として、対象の時刻の画像データから、前記作業者の体勢を表した骨格情報であって、前記作業者の複数の関節の相対的な位置関係を示す骨格情報である動作情報を抽出する骨格抽出処理と、
前記各時刻の画像データを対象として、前記骨格抽出処理によって対象の時刻の画像データから抽出された動作情報と、対象の時刻における前記作業者の動作を示すラベル情報との組を学習データとして学習させることにより、前記骨格情報が入力されると、入力された前記骨格情報に類似する前記動作情報を特定して、特定された前記動作情報に対応する前記ラベル情報を出力する学習モデルを生成する学習処理と
を行い、
前記画像取得処理では、複数の作業から構成される一連の作業を行った対象の作業者を撮影した対象の映像データについて、前記対象の映像データを構成する各時刻の画像データを取得し、
前記骨格抽出処理では、前記対象の映像データを構成する前記各時刻の画像データを対象として、対象の時刻の画像データから、前記作業者の体勢を表した骨格情報であって、前記作業者の複数の関節の相対的な位置関係を示す骨格情報である対象情報を抽出し、
さらに、
動作特定部が、前記対象の映像データを構成する前記各時刻の画像データを対象として、前記学習処理によって生成された前記学習モデルに対象の時刻の画像データから抽出された前記対象情報を入力し、前記学習モデルから出力された前記ラベル情報を取得して、取得された前記ラベル情報が示す動作内容を、前記対象の作業者が行っている動作内容として特定することにより、前記一連の作業を構成する各作業がいつ開始し、いつ終了したかを特定する動作特定処理
を行う動作特定装置としてコンピュータを機能させる動作特定プログラム。
Regarding the video data for learning in which the image acquisition unit has taken a picture of a worker who has performed a series of operations composed of a plurality of operations, the image data at each time constituting the video data for learning and the image data at each time An image acquisition process for acquiring label information indicating the operation content of the worker, and
The skeleton extraction unit targets the image data at each time constituting the video data for learning acquired by the image acquisition process, and from the image data at the target time, the skeleton information representing the posture of the worker. The skeleton extraction process for extracting motion information, which is skeletal information indicating the relative positional relationship between a plurality of joints of the worker ,
For the image data at each time, the pair of the operation information extracted from the image data at the target time by the skeleton extraction process and the label information indicating the operation of the worker at the target time is learned as training data. When the skeletal information is input, the motion information similar to the input skeletal information is specified, and a learning model that outputs the label information corresponding to the specified motion information is generated. Perform learning processing and
In the image acquisition process, with respect to the target video data obtained by shooting the target worker who has performed a series of operations composed of a plurality of operations, the image data at each time constituting the target video data is acquired.
In the skeleton extraction process, the image data at each time constituting the video data of the target is targeted, and the skeleton information representing the posture of the worker from the image data at the target time is the skeleton information of the worker. Target information, which is skeletal information showing the relative positional relationship of multiple joints, is extracted.
moreover,
The operation specifying unit inputs the target information extracted from the image data at the target time into the learning model generated by the learning process for the image data at each time constituting the video data of the target. By acquiring the label information output from the learning model and specifying the operation content indicated by the acquired label information as the operation content performed by the target worker, the series of operations can be performed. An operation specifying program that makes a computer function as an operation specifying device that performs an operation specifying process that specifies when each of the constituent tasks started and ended.
JP2020150999A 2020-09-09 2020-09-09 Operation identification device, operation identification method and operation identification program Active JP7080285B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2020150999A JP7080285B2 (en) 2020-09-09 2020-09-09 Operation identification device, operation identification method and operation identification program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020150999A JP7080285B2 (en) 2020-09-09 2020-09-09 Operation identification device, operation identification method and operation identification program

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2019524483A Division JP6777819B1 (en) 2019-01-07 2019-01-07 Operation identification device, operation identification method and operation identification program

Publications (2)

Publication Number Publication Date
JP2020198133A JP2020198133A (en) 2020-12-10
JP7080285B2 true JP7080285B2 (en) 2022-06-03

Family

ID=73649642

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020150999A Active JP7080285B2 (en) 2020-09-09 2020-09-09 Operation identification device, operation identification method and operation identification program

Country Status (1)

Country Link
JP (1) JP7080285B2 (en)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022225192A1 (en) * 2021-04-22 2022-10-27 삼성전자 주식회사 Electronic device for checking connection of connector, and operation method thereof
WO2023218557A1 (en) * 2022-05-11 2023-11-16 三菱電機株式会社 Action analysis device, action analysis method, action analysis program, and action analysis system

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099982A (en) 2014-11-26 2016-05-30 日本電信電話株式会社 Behavior recognition device, behaviour learning device, method, and program
JP2017068431A (en) 2015-09-29 2017-04-06 富士重工業株式会社 Load evaluation device, load evaluation method

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016099982A (en) 2014-11-26 2016-05-30 日本電信電話株式会社 Behavior recognition device, behaviour learning device, method, and program
JP2017068431A (en) 2015-09-29 2017-04-06 富士重工業株式会社 Load evaluation device, load evaluation method

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一原 賢吾 外2名,姿勢推定技術に基づく機械学習を活用した人物の不審動作認識手法の精度評価,電子情報通信学会技術研究報告 Vol. 117 No. 485,日本,一般社団法人電子情報通信学会,2018年03月01日,pp. 89-94
片岡 裕雄 外3名,人体スケルトンとアピアランスモデル統合による行動理解,電子情報通信学会技術研究報告 Vol. 113 No. 64,日本,一般社団法人電子情報通信学会,2013年05月17日,pp. 7-12

Also Published As

Publication number Publication date
JP2020198133A (en) 2020-12-10

Similar Documents

Publication Publication Date Title
JP2020503604A5 (en)
JP7080285B2 (en) Operation identification device, operation identification method and operation identification program
KR102356448B1 (en) Method for composing image and electronic device thereof
US20110304774A1 (en) Contextual tagging of recorded data
CN105095853B (en) Image processing apparatus and image processing method
EP3236366A1 (en) Information processing apparatus, information processing method, and storage medium
JPWO2020059377A1 (en) Position estimation device, position estimation method, and program
US11676361B2 (en) Computer-readable recording medium having stored therein training program, training method, and information processing apparatus
JP2007304721A (en) Image processing device and image processing method
JP7409134B2 (en) Image processing method, image processing program, and image processing device
CN112949516A (en) Recognition method and device for quilt kicking behavior
JP6777819B1 (en) Operation identification device, operation identification method and operation identification program
JP2010146522A (en) Face image tracking device, face image tracking method, and program
JP2020173781A (en) Number recognition device, method, and electronic apparatus
JP6118976B2 (en) Head posture estimation apparatus, head posture estimation method, and program for causing computer to execute head posture estimation method
JP2020135580A (en) Retrieval device, retrieval method and program
Prakas et al. Fast and economical object tracking using Raspberry pi 3.0
JP6600397B2 (en) Method, system and apparatus for selecting frames of a video sequence
US10909718B2 (en) Method for estimating body orientation
JP2007140729A (en) Method and device detecting position and attitude of article
JP7048347B2 (en) Positional relationship determination device
WO2022003981A1 (en) Action specification device, action specification method, and action specification program
JP2008146132A (en) Image detection device, program, and image detection method
JP7158534B1 (en) Behavior analysis device, behavior analysis method, and behavior analysis program
JP6844681B2 (en) Search device, search method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200909

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210927

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20211019

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220426

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220524

R150 Certificate of patent or registration of utility model

Ref document number: 7080285

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150