JP2020154552A - Behavior recognition device, behavior recognition method, and program - Google Patents

Behavior recognition device, behavior recognition method, and program Download PDF

Info

Publication number
JP2020154552A
JP2020154552A JP2019051167A JP2019051167A JP2020154552A JP 2020154552 A JP2020154552 A JP 2020154552A JP 2019051167 A JP2019051167 A JP 2019051167A JP 2019051167 A JP2019051167 A JP 2019051167A JP 2020154552 A JP2020154552 A JP 2020154552A
Authority
JP
Japan
Prior art keywords
recognition
dictionary
unit
behavior
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019051167A
Other languages
Japanese (ja)
Other versions
JP7338182B2 (en
Inventor
関 海克
Haike Guan
海克 関
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to JP2019051167A priority Critical patent/JP7338182B2/en
Publication of JP2020154552A publication Critical patent/JP2020154552A/en
Application granted granted Critical
Publication of JP7338182B2 publication Critical patent/JP7338182B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

To provide a behavior recognition device, a behavior recognition method, and a program, capable of recognizing standard work of workers in a highly accurate and high-speed manner.SOLUTION: A video input section accepts input of a video captured by a fish-eye camera (capturing means), and an area splitting section splits an image included in the video into a plurality of areas with distinct distortions. A dictionary creation section creates a recognition dictionary for recognizing a specific behavior of a subject for each split area. A dictionary selection section selects a recognition dictionary to be used for recognizing the specific behavior of the subject detected from the video, from a plurality of the recognition dictionaries created by the dictionary creation section. Then, a behavior recognition section recognizes the specific behavior of the subject based on the recognition dictionary selected by the dictionary selection section.SELECTED DRAWING: Figure 12

Description

本発明は、行動認識装置、行動認識方法及びプログラムに関する。 The present invention relates to a behavior recognition device, a behavior recognition method and a program.

オフィスや工場などの職場において、作業者の行動を可視化し、作業時間等を分析することにより職場の生産効率を改善することは重要な課題である。そのため、職場をカメラで動画撮影し、得られた動画を分析することで、作業者による特定の標準的な作業(以下、標準作業という)の行動を認識し、分析する手段は有効である。 In workplaces such as offices and factories, it is an important issue to improve the production efficiency of the workplace by visualizing the behavior of workers and analyzing the working hours. Therefore, it is effective to take a video of the workplace with a camera and analyze the obtained video to recognize and analyze the behavior of a specific standard work (hereinafter referred to as standard work) by the worker.

ただし、カメラで撮影した職場動画を目視で解析し、決まった一定の手順で行う標準作業の行動を抽出し、各動作の時間を測定し、それらを可視化するには、膨大な解析時間と労力が必要である。そこで従来では、人間の行動を自動認識するために、撮影した動画から人を認識し、認識した人の重心から人の移動軌跡を求め、移動軌跡から特定の行動を認識する方法が提案されている。 However, it takes a huge amount of analysis time and effort to visually analyze workplace videos taken with a camera, extract behaviors of standard work performed in a fixed procedure, measure the time of each movement, and visualize them. is necessary. Therefore, conventionally, in order to automatically recognize a human behavior, a method has been proposed in which a person is recognized from a captured video, the movement trajectory of the person is obtained from the center of gravity of the recognized person, and a specific behavior is recognized from the movement trajectory. There is.

作業者の行動を認識する際には、処理の効率化を図るために、1台のカメラで、できるだけ広い視野を撮影するのが望ましい。そのために、画角の広い広角レンズを備えたカメラを用いて撮影を行うのが望ましい。しかしながら、広角レンズを備えたカメラで撮影した画像には歪が発生する。画像に歪が発生すると、画像に写った人の形状が歪むため、人の認識精度が悪化する。標準作業を認識するためには、同じ人の動きを時間経過に沿ってトレースする必要があるため、人の認識精度の悪化は、標準作業の認識精度の悪化を招く。このような精度の悪化を防止するために、画像の歪を補正した上で標準作業を認識するのが望ましい。しかしながら、歪の補正には手間がかかるため、高精度かつ高速に標準作業の認識を行うのは困難であるという問題があった。 When recognizing the behavior of an operator, it is desirable to capture the widest possible field of view with one camera in order to improve the efficiency of processing. Therefore, it is desirable to take a picture using a camera equipped with a wide-angle lens having a wide angle of view. However, images taken with a camera equipped with a wide-angle lens are distorted. When the image is distorted, the shape of the person in the image is distorted, and the recognition accuracy of the person deteriorates. Since it is necessary to trace the movement of the same person over time in order to recognize the standard work, the deterioration of the recognition accuracy of the person causes the deterioration of the recognition accuracy of the standard work. In order to prevent such deterioration of accuracy, it is desirable to recognize the standard operation after correcting the distortion of the image. However, since it takes time and effort to correct the distortion, there is a problem that it is difficult to recognize the standard work with high accuracy and high speed.

本発明は、上記に鑑みてなされたものであって、作業者の標準作業を、高精度かつ高速に認識することが可能な行動認識装置、行動認識方法及びプログラムを提供することを目的とする。 The present invention has been made in view of the above, and an object of the present invention is to provide a behavior recognition device, a behavior recognition method, and a program capable of recognizing a worker's standard work with high accuracy and high speed. ..

上述した課題を解決し、目的を達成するために、本発明の行動認識装置は、撮影した動画から、当該動画に写った被写体の特定行動を認識する行動認識装置であって、広角レンズを備える撮影手段で撮影された前記動画を入力する動画入力部と、前記動画に含まれる画像を、歪の異なる複数の領域に分割する領域分割部と、分割された前記領域毎に、前記被写体の特定行動を認識するための認識辞書を作成する辞書作成部と、前記辞書作成部が作成した複数の認識辞書の中から、前記動画から検出した被写体の特定行動を認識するために使用する認識辞書を選択する辞書選択部と、前記辞書選択部が選択した認識辞書に基づいて、前記被写体の特定行動を認識する行動認識部と、を備えることを特徴とする。 In order to solve the above-mentioned problems and achieve the object, the behavior recognition device of the present invention is a behavior recognition device that recognizes a specific behavior of a subject reflected in the moving image from a captured moving image, and includes a wide-angle lens. A moving image input unit for inputting the moving image shot by the shooting means, an area dividing section for dividing the image included in the moving image into a plurality of areas having different distortions, and specifying the subject for each of the divided areas. A dictionary creation unit that creates a recognition dictionary for recognizing an action, and a recognition dictionary used to recognize a specific action of a subject detected from the moving image from a plurality of recognition dictionaries created by the dictionary creation unit. It is characterized by including a dictionary selection unit for selection and an action recognition unit for recognizing a specific action of the subject based on the recognition dictionary selected by the dictionary selection unit.

本発明によれば、作業者の標準作業を、高精度かつ高速に認識することができる。 According to the present invention, a worker's standard work can be recognized with high accuracy and high speed.

図1は、第1の実施形態に係る行動認識システムのハードウェア構成の一例を示すハードウェアブロック図である。FIG. 1 is a hardware block diagram showing an example of the hardware configuration of the behavior recognition system according to the first embodiment. 図2は、第1の実施形態に係る行動認識システムが使用されている場面の一例を示す図である。FIG. 2 is a diagram showing an example of a scene in which the behavior recognition system according to the first embodiment is used. 図3は、魚眼カメラのハードウェア構成の一例を示すハードウェアブロック図である。FIG. 3 is a hardware block diagram showing an example of the hardware configuration of the fisheye camera. 図4は、行動認識装置のハードウェア構成の一例を示すハードウェアブロック図である。FIG. 4 is a hardware block diagram showing an example of the hardware configuration of the action recognition device. 図5は、魚眼レンズで観測した画像の歪を説明する図である。FIG. 5 is a diagram illustrating distortion of an image observed with a fisheye lens. 図6は、魚眼レンズで観測した画像の位置による歪の違いを説明する図である。FIG. 6 is a diagram for explaining the difference in distortion depending on the position of the image observed by the fisheye lens. 図7は、第1の実施形態の行動認識システムが観測した画像の一例を示す図である。FIG. 7 is a diagram showing an example of an image observed by the behavior recognition system of the first embodiment. 図8は、行動認識システムが認識する特定行動のうち、「歩く」行動を説明する図である。FIG. 8 is a diagram for explaining the “walking” behavior among the specific behaviors recognized by the behavior recognition system. 図9は、図7の画像における人の拡大図である。FIG. 9 is an enlarged view of a person in the image of FIG. 7. 図10は、行動認識システムが認識する特定行動のうち、商品を棚に入れる「棚入れ」行動を説明する図である。FIG. 10 is a diagram for explaining the “shelfing” behavior of putting a product on a shelf among the specific behaviors recognized by the behavior recognition system. 図11は、棚入れ行動を行っている人の拡大図の一例を示す図である。FIG. 11 is a diagram showing an example of an enlarged view of a person performing a shelving action. 図12は、行動認識処理部の機能構成の一例を示す機能ブロック図である。FIG. 12 is a functional block diagram showing an example of the functional configuration of the action recognition processing unit. 図13は、辞書作成部の機能構成の一例を示す機能ブロック図である。FIG. 13 is a functional block diagram showing an example of the functional configuration of the dictionary creation unit. 図14は、行動認識部の機能構成の一例を示す機能ブロック図である。FIG. 14 is a functional block diagram showing an example of the functional configuration of the action recognition unit. 図15は、動画入力部に入力される動画の一例を示す図である。FIG. 15 is a diagram showing an example of a moving image input to the moving image input unit. 図16は、特徴点検出方法について説明する図である。FIG. 16 is a diagram illustrating a feature point detection method. 図17Aは、抽出した特徴点の一例を示す第1の図である。FIG. 17A is a first diagram showing an example of the extracted feature points. 図17Bは、抽出した特徴点の一例を示す第2の図である。FIG. 17B is a second diagram showing an example of the extracted feature points. 図18は、特定行動の持続時間の測定について説明する図である。FIG. 18 is a diagram illustrating the measurement of the duration of a specific action. 図19は、認識辞書の作成の流れの一例を示すフローチャートである。FIG. 19 is a flowchart showing an example of the flow of creating a recognition dictionary. 図20は、特定行動の認識処理の流れの一例を示すフローチャートである。FIG. 20 is a flowchart showing an example of the flow of the recognition process of the specific action. 図21は、複数の特定行動を認識する処理の流れの一例を示すフローチャートである。FIG. 21 is a flowchart showing an example of a processing flow for recognizing a plurality of specific actions. 図22は、第2の実施形態に係る行動認識システムのハードウェア構成の一例を示すハードウェアブロック図である。FIG. 22 is a hardware block diagram showing an example of the hardware configuration of the behavior recognition system according to the second embodiment. 図23は、第2の実施形態に係る行動認識システムが使用されている場面の一例を示す図である。FIG. 23 is a diagram showing an example of a scene in which the behavior recognition system according to the second embodiment is used. 図24は、第2の実施形態における行動認識処理部の機能構成の一例を示す機能ブロック図である。FIG. 24 is a functional block diagram showing an example of the functional configuration of the action recognition processing unit according to the second embodiment. 図25は、第2の実施形態における特定行動の認識処理の流れの一例を示すフローチャートである。FIG. 25 is a flowchart showing an example of the flow of the recognition process of the specific action in the second embodiment.

(第1の実施形態)
以下に添付図面を参照して、行動認識装置、行動認識方法及びプログラムの第1の実施形態を詳細に説明する。
(First Embodiment)
The behavior recognition device, the behavior recognition method, and the first embodiment of the program will be described in detail with reference to the accompanying drawings.

(行動認識装置のハードウェア構成の説明)
図1は、本実施形態に係る行動認識システム100のハードウェア構成の一例を示すハードウェアブロック図である。図1に示すように、行動認識システム100は、魚眼カメラ200と、行動認識装置300とを備える。
(Explanation of hardware configuration of behavior recognition device)
FIG. 1 is a hardware block diagram showing an example of the hardware configuration of the behavior recognition system 100 according to the present embodiment. As shown in FIG. 1, the behavior recognition system 100 includes a fisheye camera 200 and a behavior recognition device 300.

行動認識システム100は、魚眼カメラ200で撮影した被写体の特定行動を認識する。特定行動とは、例えば、職場の作業環境において繰り返し行われる、「歩行する」、「荷物を棚入れする」等の標準作業である。 The action recognition system 100 recognizes a specific action of a subject photographed by the fisheye camera 200. The specific action is, for example, a standard work such as “walking” or “shelving luggage” that is repeatedly performed in the work environment of the workplace.

魚眼カメラ200は、全周囲360°の範囲を観測可能な魚眼レンズを備えたビデオカメラである。なお、魚眼レンズを備えるのは一例であって、魚眼カメラ200は、広角レンズを備えるものであってもよい。なお、魚眼カメラ200は、撮影手段の一例である。 The fisheye camera 200 is a video camera provided with a fisheye lens capable of observing a range of 360 ° in the entire circumference. It should be noted that the fisheye lens is provided as an example, and the fisheye camera 200 may be provided with a wide-angle lens. The fisheye camera 200 is an example of a photographing means.

行動認識装置300は、魚眼カメラ200が撮影した動画を分析することによって、当該動画に写っている人(被写体)の特定行動を認識する。被写体の特定行動を認識するためには、ある程度のコマ数の画像(連続画像、映像)が必要になる。コマ数が多くなると、魚眼カメラ200が有する歪を補正する処理の負荷が高くなる。本実施の形態は、歪の補正を行うことなく動画を分析する点が特徴である。 The action recognition device 300 recognizes the specific action of the person (subject) in the moving image by analyzing the moving image taken by the fisheye camera 200. In order to recognize the specific behavior of the subject, a certain number of frames of images (continuous images, videos) are required. As the number of frames increases, the load of the processing for correcting the distortion of the fisheye camera 200 increases. The feature of this embodiment is that the moving image is analyzed without correcting the distortion.

なお、行動認識装置300は、行動認識処理部321と、行動認識処理部321と魚眼カメラ200とを接続するインタフェース部322と、を備える。 The behavior recognition device 300 includes a behavior recognition processing unit 321 and an interface unit 322 that connects the behavior recognition processing unit 321 and the fisheye camera 200.

行動認識処理部321は、人(被写体)の特定行動を認識する。インタフェース部322は、魚眼カメラ200が撮影した動画を、行動認識処理部321が認識可能なデータ形式に変換して、行動認識処理部321に受け渡す。 The action recognition processing unit 321 recognizes a specific action of a person (subject). The interface unit 322 converts the moving image taken by the fisheye camera 200 into a data format that can be recognized by the action recognition processing unit 321 and delivers it to the action recognition processing unit 321.

次に、図2を用いて、行動認識システム100が使われる代表的な場面を説明する。図2は、第1の実施形態に係る行動認識システム100が使用されている場面の一例を示す図である。 Next, a typical scene in which the behavior recognition system 100 is used will be described with reference to FIG. FIG. 2 is a diagram showing an example of a scene in which the behavior recognition system 100 according to the first embodiment is used.

図2に示すように、行動認識システム100は、オフィスや工場などの職場における作業環境に設置される。そして、魚眼カメラ200は、作業環境において作業を行っている複数の人H1,H2を含む動画を撮影する。作業環境を1台のカメラで撮影するのが効率的であるため、魚眼カメラ200は、画角の広い広角レンズを備えるのが望ましい。本実施形態では、魚眼カメラ200は、対角線画角180°を有する魚眼レンズを備えるものとする。なお、人H1,H2は、被写体の一例である。 As shown in FIG. 2, the behavior recognition system 100 is installed in a work environment in a workplace such as an office or a factory. Then, the fisheye camera 200 captures a moving image including a plurality of people H1 and H2 who are working in the work environment. Since it is efficient to capture the working environment with one camera, it is desirable that the fisheye camera 200 is provided with a wide-angle lens having a wide angle of view. In the present embodiment, the fisheye camera 200 includes a fisheye lens having a diagonal angle of view of 180 °. The people H1 and H2 are examples of subjects.

(魚眼カメラのハードウェア構成の説明)
まず、魚眼カメラ200のハードウェア構成について説明する。
(Explanation of hardware configuration of fisheye camera)
First, the hardware configuration of the fisheye camera 200 will be described.

図3は、魚眼カメラ200のハードウェア構成の一例を示すハードウェアブロック図である。図3に示すように、魚眼カメラ200は、対角線画角が180度以上の画角を有する魚眼レンズ217及びCCD(Charge Coupled Device)203を備えている。なお、魚眼カメラ200aは撮影手段の一例である。魚眼カメラ200は、被写体光を、魚眼レンズ217を通してCCD203に入射する。また、魚眼カメラ200は、魚眼レンズ217とCCD203との間に、メカシャッタ202を備えている。メカシャッタ202は、CCD203への入射光を遮断する。メカシャッタ202の開閉は、モータドライバ206により制御される。また、魚眼レンズ217のレンズ位置もモータドライバ206により制御されて、オートフォーカス機能が実現される。 FIG. 3 is a hardware block diagram showing an example of the hardware configuration of the fisheye camera 200. As shown in FIG. 3, the fisheye camera 200 includes a fisheye lens 217 having a diagonal angle of view of 180 degrees or more and a CCD (Charge Coupled Device) 203. The fisheye camera 200a is an example of a photographing means. The fisheye camera 200 incidents the subject light on the CCD 203 through the fisheye lens 217. Further, the fisheye camera 200 includes a mechanical shutter 202 between the fisheye lens 217 and the CCD 203. The mechanical shutter 202 blocks the incident light on the CCD 203. The opening and closing of the mechanical shutter 202 is controlled by the motor driver 206. Further, the lens position of the fisheye lens 217 is also controlled by the motor driver 206, and the autofocus function is realized.

CCD203は、撮像面に結像された光学像を電気信号に変換して、アナログの画像データを出力する。CCD203から出力された画像データは、CDS(Correlated Double Sampling:相関2重サンプリング)回路204によりノイズ成分を除去され、A/D変換器205によりデジタル画像データ(以下、単に画像データと呼ぶ)に変換された後、画像処理回路208に対して出力される。 The CCD 203 converts the optical image formed on the imaging surface into an electric signal and outputs analog image data. The image data output from the CCD 203 has noise components removed by the CDS (Correlated Double Sampling) circuit 204 and converted into digital image data (hereinafter, simply referred to as image data) by the A / D converter 205. After that, it is output to the image processing circuit 208.

画像処理回路208は、画像データを一時格納するSDRAM(Synchronous DRAM)212を用いて、YCrCb変換処理や、ホワイトバランス制御処理、コントラスト補正処理、エッジ強調処理、色変換処理などの各種画像処理を行う。なお、ホワイトバランス処理は、画像データの色濃さを調整し、コントラスト補正処理は、画像データのコントラストを調整する画像処理である。エッジ強調処理は、画像データのシャープネスを調整し、色変換処理は、画像データの色合いを調整する画像処理である。また、画像処理回路208は、信号処理や画像処理が施された画像データをLCD216(液晶ディスプレイ)に表示する。 The image processing circuit 208 uses an SDRAM (Synchronous DRAM) 212 that temporarily stores image data to perform various image processing such as YCrCb conversion processing, white balance control processing, contrast correction processing, edge enhancement processing, and color conversion processing. .. The white balance process is an image process that adjusts the color density of the image data, and the contrast correction process is an image process that adjusts the contrast of the image data. The edge enhancement process is an image process that adjusts the sharpness of the image data, and the color conversion process is an image process that adjusts the hue of the image data. Further, the image processing circuit 208 displays the image data subjected to signal processing and image processing on the LCD 216 (liquid crystal display).

画像処理回路208において信号処理、画像処理が施された画像データは、圧縮伸張回路213を介して、メモリカード214に記録される。圧縮伸張回路213は、操作部215から取得した指示によって、画像処理回路208から出力される画像データを圧縮してメモリカード214に出力すると共に、メモリカード214から読み出した画像データを伸張して画像処理回路208に出力する。 The image data subjected to signal processing and image processing in the image processing circuit 208 is recorded in the memory card 214 via the compression / decompression circuit 213. The compression / decompression circuit 213 compresses the image data output from the image processing circuit 208 and outputs it to the memory card 214 according to the instruction acquired from the operation unit 215, and decompresses the image data read from the memory card 214 to obtain an image. Output to the processing circuit 208.

魚眼カメラ200aは、プログラムに従って各種演算処理を行うCPU(Central Processing Unit)209を備えている。CPU209は、プログラムなどを格納した読み出し専用メモリであるROM(Read Only Memory)211、及び各種の処理過程で利用するワークエリア、各種データ格納エリアなどを有する読み出し書き込み自在のメモリであるRAM(Random Access Memory)210とバスラインによって相互接続されている。 The fisheye camera 200a includes a CPU (Central Processing Unit) 209 that performs various arithmetic processes according to a program. The CPU 209 is a read-write memory RAM (Random Access) having a ROM (Read Only Memory) 211 which is a read-only memory for storing programs and the like, a work area used in various processing processes, and various data storage areas. It is interconnected with Memory) 210 by a bus line.

CCD203、CDS回路204及びA/D変換器205は、タイミング信号を発生するタイミング信号発生器207を介してCPU209によって、タイミングを制御される。さらに、画像処理回路208、圧縮伸張回路213、メモリカード214も、CPU209によって制御される。 The timing of the CCD 203, the CDS circuit 204, and the A / D converter 205 is controlled by the CPU 209 via the timing signal generator 207 that generates the timing signal. Further, the image processing circuit 208, the compression / decompression circuit 213, and the memory card 214 are also controlled by the CPU 209.

魚眼カメラ200の出力は、図1に示す行動認識装置300の信号処理ボードであるインタフェース部322に入力される。 The output of the fisheye camera 200 is input to the interface unit 322, which is the signal processing board of the behavior recognition device 300 shown in FIG.

(行動認識装置のハードウェア構成の説明)
次に、行動認識装置300のハードウェア構成について説明する。
(Explanation of hardware configuration of behavior recognition device)
Next, the hardware configuration of the action recognition device 300 will be described.

図4は、行動認識装置300のハードウェア構成の一例を示すハードウェアブロック図である。図4に示すように、行動認識装置300は、行動認識装置300全体の動作を制御するCPU(Central Processing Unit)301、CPU301の駆動に用いられるプログラムを記憶したROM(Read Only Memory)302、CPU301のワークエリアとして使用されるRAM(Random Access Memory)303を有する。また、プログラム等の各種データを記憶するHD(Hard Disk)304、CPU301の制御にしたがってHD304に対する各種データの読み出し又は書き込みを制御するHDD(Hard Disk Drive)305を有する。 FIG. 4 is a hardware block diagram showing an example of the hardware configuration of the action recognition device 300. As shown in FIG. 4, the action recognition device 300 includes a CPU (Central Processing Unit) 301 that controls the operation of the entire action recognition device 300, and a ROM (Read Only Memory) 302 and CPU 301 that store programs used to drive the CPU 301. It has a RAM (Random Access Memory) 303 used as a work area of the above. It also has an HD (Hard Disk) 304 that stores various data such as programs, and an HDD (Hard Disk Drive) 305 that controls reading or writing of various data to the HD 304 according to the control of the CPU 301.

また、行動認識装置300は、メディアI/F307、ディスプレイ308、ネットワークI/F309を有する。メディアI/F307は、フラッシュメモリ等のメディア306に対するデータの読み出し又は書き込み(記憶)を制御する。ディスプレイ308は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。ネットワークI/F309は、通信ネットワークを利用してデータ通信する。 The action recognition device 300 also has a media I / F 307, a display 308, and a network I / F 309. The media I / F 307 controls reading or writing (storage) of data to the media 306 such as a flash memory. The display 308 displays various information such as cursors, menus, windows, characters, or images. The network I / F 309 uses a communication network for data communication.

また、行動認識装置300は、キーボード311、マウス312、CD−ROM(Compact Disk Read Only Memory)ドライブ314、バスライン310を有する。キーボード311は、文字、数値、各種指示などの入力のための複数のキーを備える。マウス312は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う。CD−ROMドライブ314は、着脱可能な記録媒体の一例としてのCD−ROM313に対する各種データの読み出し又は書き込みを制御する。バスライン310は、上記各構成要素を電気的に接続するためのアドレスバスやデータバス等である。 The action recognition device 300 also includes a keyboard 311, a mouse 312, a CD-ROM (Compact Disk Read Only Memory) drive 314, and a bus line 310. The keyboard 311 includes a plurality of keys for inputting characters, numerical values, various instructions, and the like. The mouse 312 selects and executes various instructions, selects a processing target, moves the cursor, and the like. The CD-ROM drive 314 controls reading or writing of various data to the CD-ROM 313 as an example of the removable recording medium. The bus line 310 is an address bus, a data bus, or the like for electrically connecting the above components.

図示した行動認識装置300のハードウェアは、1つの筐体に収納したり、ひとまとまりの装置としたりする必要はない。また、クラウドコンピューティングに対応するため、本実施形態の行動認識装置300の物理的な構成は固定的でなくてもよく、負荷に応じてハード的なリソースが動的に接続・切断されることで構成されてもよい。 The hardware of the illustrated behavior recognition device 300 does not need to be housed in one housing or as a group of devices. Further, in order to support cloud computing, the physical configuration of the behavior recognition device 300 of the present embodiment does not have to be fixed, and hardware resources are dynamically connected / disconnected according to the load. It may be composed of.

なお、プログラムは、実行可能形式や圧縮形式などでメディア306やCD−ROM313などの記憶媒体に記憶された状態で配布されるか、又は、プログラムを配信するサーバから配信される。 The program is distributed in an executable format or a compressed format in a state of being stored in a storage medium such as media 306 or CD-ROM 313, or is distributed from a server that distributes the program.

本実施の形態の行動認識装置300で実行されるプログラムは、下記に示す各機能を含むモジュール構成となっている。行動認識装置300のCPU301は、ROM302やHD304などの記憶媒体からプログラムを読み出して実行することにより各モジュールがRAM303上にロードされ、各機能を発揮する。 The program executed by the action recognition device 300 of the present embodiment has a modular configuration including each function shown below. The CPU 301 of the action recognition device 300 reads a program from a storage medium such as ROM 302 or HD 304 and executes the program, so that each module is loaded on the RAM 303 and exerts each function.

(魚眼カメラで発生する歪の説明)
次に、図5,図6を用いて魚眼カメラ200で撮影した画像に発生する歪について説明する。図5は、魚眼レンズで観測した画像の歪を説明する図である。図6は、魚眼レンズで観測した画像の位置による歪の違いを説明する図である。
(Explanation of distortion generated by fisheye camera)
Next, the distortion generated in the image taken by the fisheye camera 200 will be described with reference to FIGS. 5 and 6. FIG. 5 is a diagram illustrating distortion of an image observed with a fisheye lens. FIG. 6 is a diagram for explaining the difference in distortion depending on the position of the image observed by the fisheye lens.

図5に示す画像Iは、標準レンズ又は望遠レンズを装着したカメラで、縦横の規則的な直線で構成されるマス目が描かれたターゲットを撮影した際に観測される画像Iの一例である。図5に示すように、画像Iには、縦横の直線的なマス目が観測される。そして、各マス目における縦線と横線の長さの比率は、画像Iの位置に依らずにほぼ等しい。すなわち、画像Iにおいて発生する歪は非常に小さい。 Image I shown in FIG. 5 is an example of image I observed when a camera equipped with a standard lens or a telephoto lens captures a target in which squares composed of regular vertical and horizontal straight lines are drawn. .. As shown in FIG. 5, in the image I, vertical and horizontal linear grids are observed. Then, the ratio of the lengths of the vertical lines and the horizontal lines in each square is almost equal regardless of the position of the image I. That is, the distortion generated in the image I is very small.

一方、画像Jは、本実施の形態の魚眼カメラ200で、前記と同じターゲットを撮影した際に観測される画像の一例である。魚眼カメラ200は、画像の中心からの距離と観測対象物の方向(角度)とが比例する画像を生成する、いわゆる等距離射影方式によって画像を生成する。したがって、画像Jの中心付近と周辺部とで、発生する歪の大きさが異なる。 On the other hand, the image J is an example of an image observed when the same target as described above is photographed by the fisheye camera 200 of the present embodiment. The fisheye camera 200 generates an image by a so-called equidistant projection method, which generates an image in which the distance from the center of the image is proportional to the direction (angle) of the observation object. Therefore, the magnitude of the distortion generated differs between the vicinity of the center of the image J and the peripheral portion.

具体的には、前記したターゲットを撮影した際に観測される画像Jにおいて、縦線は、画像Jに外接する円の円周上の点C1と点C2を通る円弧状に観測される。また、ターゲットの横線は、画像Jに外接する円の円周上の点C3と点C4を通る円弧状に観測される。 Specifically, in the image J observed when the target is photographed, the vertical line is observed in an arc shape passing through the points C1 and C2 on the circumference of the circle circumscribing the image J. Further, the horizontal line of the target is observed in an arc shape passing through the points C3 and C4 on the circumference of the circle circumscribing the image J.

すなわち、画像Jの中心付近では、ターゲットの縦線と横線は直線に近い状態で観測される。そして、各マス目における縦線と横線の長さの比率はほぼ等しい。すなわち、発生する歪は小さい。一方、画像Jの周辺部では、ターゲットの縦線及び横線は、ともに曲線として観測される。さらに、各マス目における縦線と横線の比率は異なる。このように、画像Jでは、画像の中心からの距離が大きいほど、発生する歪が大きくなる。そして、発生する歪の方向は、画像Jの中心に対して点対称な方向になる。 That is, in the vicinity of the center of the image J, the vertical and horizontal lines of the target are observed in a state close to a straight line. Then, the ratio of the lengths of the vertical lines and the horizontal lines in each square is almost the same. That is, the distortion that occurs is small. On the other hand, in the peripheral portion of the image J, both the vertical line and the horizontal line of the target are observed as curves. Furthermore, the ratio of vertical lines to horizontal lines in each square is different. As described above, in the image J, the larger the distance from the center of the image, the larger the distortion that occurs. The direction of the generated distortion is point-symmetrical with respect to the center of the image J.

したがって、画像Jでは、人が観測される位置によって、当該人が同じ行動を行った場合に発生する動きの大きさと方向とが異なる。すなわち、人の行動を認識するためには、画像Jの場所毎に認識辞書を用意して、人が観測された位置に応じた認識辞書を利用して行動認識を行えばよい。 Therefore, in the image J, the magnitude and direction of the movement that occurs when the person performs the same action differs depending on the position where the person is observed. That is, in order to recognize a person's behavior, a recognition dictionary may be prepared for each location of the image J, and the behavior may be recognized by using the recognition dictionary according to the position where the person is observed.

具体的には、図6に示すように、画像Jの中心から周辺に向けて、複数の領域R1,R2,R3,R4を設定して、領域R1,R2,R3,R4毎に認識辞書を作成する。この場合、画像の歪は、領域R1が最も小さく、領域R4が最も大きい。なお、領域R1,R2,R3,R4は、設定する領域の一例であって、領域数を4個に限定するものではない。このように、本実施形態の行動認識システム100は、画像Jの複数の異なる位置に同様の領域を設定して、各領域において認識辞書を作成する。そして、行動認識システム100は、撮影した動画の中から検出した人の位置に最も近い位置で作成された認識辞書を用いて、行動認識を行う。 Specifically, as shown in FIG. 6, a plurality of regions R1, R2, R3, and R4 are set from the center of the image J to the periphery, and a recognition dictionary is created for each region R1, R2, R3, and R4. create. In this case, the distortion of the image is the smallest in the region R1 and the largest in the region R4. The areas R1, R2, R3, and R4 are examples of areas to be set, and the number of areas is not limited to four. As described above, the action recognition system 100 of the present embodiment sets similar areas at a plurality of different positions of the image J, and creates a recognition dictionary in each area. Then, the behavior recognition system 100 performs behavior recognition using a recognition dictionary created at a position closest to the position of the person detected from the captured moving image.

なお、魚眼カメラ200の代わりに、広角レンズや超広角レンズを備えたカメラを用いた場合であっても、魚眼レンズと同様に、画像の周辺には、画像の中心よりも大きい歪が発生する。そのため、画像内の位置に応じた認識辞書を用いて行動認識を行う方法は有効である。 Even when a camera equipped with a wide-angle lens or an ultra-wide-angle lens is used instead of the fisheye camera 200, distortion larger than the center of the image occurs around the image as in the fisheye lens. .. Therefore, a method of performing behavior recognition using a recognition dictionary according to the position in the image is effective.

(実際に観測される画像の説明)
図7から図11を用いて、行動認識システム100が観測する画像の例を説明する。図7は、第1の実施形態の行動認識システム100が観測した画像の一例を示す図である。
(Explanation of the actually observed image)
An example of an image observed by the behavior recognition system 100 will be described with reference to FIGS. 7 to 11. FIG. 7 is a diagram showing an example of an image observed by the behavior recognition system 100 of the first embodiment.

図7は、職場における作業者の特定行動の一例である。特に、図7の画像J1は、「歩く」という特定行動の一例を示す図である。「歩く」行動は、作業者が複数の特定行動を行う際に、ある特定行動から別の特定行動に移る際に発生する行動である。そして、一般に、「歩く」行動に要する時間が多くなると、作業効率が低くなる。行動認識システム100は、歩く行動を、特定行動の一つとして認識する。 FIG. 7 is an example of a worker's specific behavior in the workplace. In particular, image J1 of FIG. 7 is a diagram showing an example of a specific action of “walking”. The "walking" action is an action that occurs when a worker moves from one specific action to another when performing a plurality of specific actions. And, in general, the longer the time required for the "walking" action, the lower the work efficiency. The action recognition system 100 recognizes the walking action as one of the specific actions.

図8は、行動認識システム100が認識する特定行動のうち、「歩く」行動を説明する図である。図8に示すように、魚眼カメラ200は、歩行動作を行っている人H1を時系列で撮影する。この場合、歩行している人H1を撮影した動画(画像列)が得られる。 FIG. 8 is a diagram for explaining the “walking” behavior among the specific behaviors recognized by the behavior recognition system 100. As shown in FIG. 8, the fisheye camera 200 photographs the person H1 who is walking in chronological order. In this case, a moving image (image sequence) of a walking person H1 is obtained.

図9は、図7の画像J1における人の拡大図j1である。行動認識システム100は、図9に示す領域の時間変化を観測することによって、特定行動を認識する。 FIG. 9 is an enlarged view j1 of a person in the image J1 of FIG. The action recognition system 100 recognizes a specific action by observing the time change of the region shown in FIG.

図10は、行動認識システム100が認識する特定行動のうち、商品を棚に入れる「棚入れ」行動を説明する図である。図10に示すように、魚眼カメラ200は、棚入れを行っている人H1を字系列で撮影する。この場合、棚入れを行っている人H1を撮影した動画(画像列)が得られる。 FIG. 10 is a diagram for explaining a “shelfing” action of putting a product on a shelf among the specific actions recognized by the action recognition system 100. As shown in FIG. 10, the fisheye camera 200 captures the person H1 who is shelving in a character series. In this case, a moving image (image sequence) of the person H1 who is shelving can be obtained.

図11は、棚入れ行動を行っている人の拡大図j2の一例を示す図である。行動認識システム100は、図11に示す領域の時間変化を観測することによって、特定行動を認識する。 FIG. 11 is a diagram showing an example of an enlarged view j2 of a person performing a shelving action. The action recognition system 100 recognizes a specific action by observing the time change of the region shown in FIG.

(行動認識処理部の機能構成の説明)
次に、図12を用いて、行動認識処理部321の機能構成を説明する。図12は、本実施形態に係る行動認識処理部321の一例を示す機能ブロック図である。図12に示すように、行動認識処理部321は、動画入力部331と、領域分割部332と、辞書作成部333と、辞書選択部334と、行動認識部335と、持続時間測定部336とを備える。
(Explanation of the functional configuration of the behavior recognition processing unit)
Next, the functional configuration of the action recognition processing unit 321 will be described with reference to FIG. FIG. 12 is a functional block diagram showing an example of the action recognition processing unit 321 according to the present embodiment. As shown in FIG. 12, the action recognition processing unit 321 includes a moving image input unit 331, an area division unit 332, a dictionary creation unit 333, a dictionary selection unit 334, an action recognition unit 335, and a duration measurement unit 336. To be equipped.

動画入力部101は、魚眼カメラ200で撮影された動画を、インタフェース部322(図1)を介して入力する。 The moving image input unit 101 inputs a moving image taken by the fisheye camera 200 via the interface unit 322 (FIG. 1).

領域分割部332は、魚眼カメラ200が撮影した動画に含まれる画像を、歪の異なる複数の領域に分割する。 The area dividing unit 332 divides the image included in the moving image taken by the fisheye camera 200 into a plurality of areas having different distortions.

辞書作成部333は、分割された領域毎に、人の特定行動を認識するための異なる認識辞書を作成する。 The dictionary creation unit 333 creates different recognition dictionaries for recognizing a person's specific behavior for each divided area.

辞書選択部334は、辞書作成部333が作成した異なる認識辞書の中から、動画から検出した人の特定行動を認識するために使用する認識辞書を選択する。 The dictionary selection unit 334 selects a recognition dictionary to be used for recognizing a specific behavior of a person detected from a moving image from different recognition dictionaries created by the dictionary creation unit 333.

行動認識部335は、辞書選択部334が選択した認識辞書に基づいて、人の特定行動を認識する。 The action recognition unit 335 recognizes a person's specific action based on the recognition dictionary selected by the dictionary selection unit 334.

持続時間測定部336は、特定行動の認識結果に基づいて、当該特定行動の持続時間を測定する。 The duration measuring unit 336 measures the duration of the specific action based on the recognition result of the specific action.

(辞書作成部の機能構成の説明)
次に、図13を用いて、辞書作成部333の機能構成を説明する。図13は、本実施形態に係る辞書作成部333の概略構成の一例を示す機能ブロック図である。図13に示すように、辞書作成部333は、特徴点抽出部333aと、特徴点分類部333bと、特徴ベクトル算出部333cと、ヒストグラム作成部333dと、認識辞書作成部333eとを備える。
(Explanation of the functional configuration of the dictionary creation unit)
Next, the functional configuration of the dictionary creation unit 333 will be described with reference to FIG. FIG. 13 is a functional block diagram showing an example of a schematic configuration of the dictionary creation unit 333 according to the present embodiment. As shown in FIG. 13, the dictionary creation unit 333 includes a feature point extraction unit 333a, a feature point classification unit 333b, a feature vector calculation unit 333c, a histogram creation unit 333d, and a recognition dictionary creation unit 333e.

なお、魚眼カメラ200で撮影した動画は歪を有しているが、歪の補正は行わず、辞書作成部333は、撮影された動画が含む画像の複数の位置に対応する認識辞書を作成する。すなわち、辞書作成部333は、歪が大きい領域では歪が大きい状態で特定行動(標準作業)を認識する認識辞書を作成する。また、辞書作成部333は、歪が小さい領域では歪が小さい状態で特定行動を認識する認識辞書を作成する。したがって、認識辞書を作成する際には、被験者は、画像の中の様々な位置で標準作業を行う。 Although the moving image taken by the fisheye camera 200 has distortion, the distortion is not corrected, and the dictionary creation unit 333 creates a recognition dictionary corresponding to a plurality of positions of the image included in the captured moving image. To do. That is, the dictionary creation unit 333 creates a recognition dictionary that recognizes a specific action (standard work) in a state where the distortion is large in a region where the distortion is large. Further, the dictionary creation unit 333 creates a recognition dictionary that recognizes a specific action in a state where the distortion is small in a region where the distortion is small. Therefore, when creating a recognition dictionary, the subject performs standard work at various positions in the image.

特徴点抽出部333aは、魚眼カメラ200で撮影された動画に含まれる複数の画像の中から、特定行動(標準作業)に伴って発生する特徴点を抽出する。より具体的には、特徴点抽出部333aは、入力された動画から画像フレームをT枚ずつ切り出し、切り出されたT枚の画像フレームに対して、時空間における特徴点(時空間特徴点ともいう)を抽出する。特徴点とは、入力された動画を、空間方向2軸と時間方向1軸とからなる3次元の所定サイズのブロックに分割した際に、当該ブロック内における画像の平均的な明るさが所定値を超えるブロックである。なお、特徴点抽出部333aは、精度の高い学習データを生成するために、複数の動画から特徴点の抽出を行う。 The feature point extraction unit 333a extracts feature points generated in association with a specific action (standard work) from a plurality of images included in the moving image taken by the fisheye camera 200. More specifically, the feature point extraction unit 333a cuts out T image frames from the input moving image, and with respect to the cut out T image frames, the feature points in spatiotemporal space (also referred to as spatiotemporal feature points). ) Is extracted. The feature point is that when the input moving image is divided into three-dimensional blocks of a predetermined size consisting of two axes in the spatial direction and one axis in the temporal direction, the average brightness of the image in the block is a predetermined value. It is a block that exceeds. The feature point extraction unit 333a extracts feature points from a plurality of moving images in order to generate highly accurate learning data.

なお、特徴点抽出部333aは、魚眼カメラ200で撮影された動画に含まれる画像の中から、公知の人検出アルゴリズムを用いて人を検出して、検出された人の領域のみに対して、前記した特徴点抽出を行うようにしてもよい。これによると、特徴点を抽出する領域を限定することができるため、処理をより一層効率的に行うことができる。 The feature point extraction unit 333a detects a person from the images included in the moving image taken by the fisheye camera 200 by using a known person detection algorithm, and only for the detected human area. , The feature point extraction described above may be performed. According to this, since the area for extracting the feature points can be limited, the processing can be performed more efficiently.

特徴点分類部333bは、特徴点抽出部333aが抽出した特徴点を表すM×N×T×3次元のベクトルを、例えば、公知のK平均法(K−means法)で分類(クラスタリング)する。分類するクラスの数をK種類とすると、特徴点分類部333bは、学習用の動画から抽出した特徴点をK種類に分類する。 The feature point classification unit 333b classifies (clusters) an M × N × T × three-dimensional vector representing the feature points extracted by the feature point extraction unit 333a by, for example, a known K-means method (K-means method). .. Assuming that the number of classes to be classified is K type, the feature point classification unit 333b classifies the feature points extracted from the moving image for learning into K types.

特徴ベクトル算出部333cは、特徴点分類部333bが分類したK種類の特徴点のうち、同じ種類の特徴点におけるM×N×T×3次元のベクトルを平均化して、K個の平均ベクトルVkを求める。特徴ベクトル算出部333cが算出した平均ベクトルVkは、それぞれ、K種類の特徴点を代表するベクトルである。なお、平均ベクトルVkは、学習ベクトルの一例である。 The feature vector calculation unit 333c averages the M × N × T × 3D vectors of the K types of feature points classified by the feature point classification unit 333b at the same type of feature points, and K average vectors Vk. Ask for. The average vector Vk calculated by the feature vector calculation unit 333c is a vector representing K types of feature points, respectively. The average vector Vk is an example of a learning vector.

特定行動を観測した動画から得られる特徴ベクトルは、同じ特定行動の学習データで得られた平均ベクトルVkの近く分布する。行動認識部335は、この特性を利用して、魚眼カメラ200で撮影した歪を有する動画から、歪を補正しない状態でも高精度な行動認識を行うことができる。すなわち、作業者が直線的に移動した際に、撮影された動画の歪が大きい領域では、人の動きが曲線的になる。しかし、辞書作成部333が作成した認識辞書は、人の動きが曲線状になるものとして学習されるため、歪を補正することなく、特定行動を認識することができる。同様に、歪の小さい領域では、作業者の直線的な動きが、直線的な動きとして学習されるため、歪を補正することなく、特定行動を認識することができる。 The feature vectors obtained from the moving image of observing the specific behavior are distributed close to the average vector Vk obtained from the learning data of the same specific behavior. Using this characteristic, the action recognition unit 335 can perform highly accurate action recognition from a moving image having distortion taken by the fisheye camera 200 even in a state where the distortion is not corrected. That is, when the worker moves linearly, the movement of the person becomes curved in the region where the distortion of the captured moving image is large. However, since the recognition dictionary created by the dictionary creation unit 333 is learned as a curve of human movement, it is possible to recognize a specific action without correcting the distortion. Similarly, in the region where the distortion is small, the linear movement of the worker is learned as the linear movement, so that the specific action can be recognized without correcting the distortion.

ヒストグラム作成部333dは、平均ベクトルVkの出現頻度を表す学習ヒストグラムH(k)を作成する。具体的には、K種類の特徴点について、各特徴点グループのブロック合計数を計算し、学習ヒストグラムH(k)を作成する。学習ヒストグラムH(k)は、特徴点kグループの頻度を示す。なお、ヒストグラム作成部333dは、学習ヒストグラム作成部の一例である。 The histogram creation unit 333d creates a learning histogram H (k) representing the appearance frequency of the average vector Vk. Specifically, for K types of feature points, the total number of blocks of each feature point group is calculated, and a learning histogram H (k) is created. The learning histogram H (k) shows the frequency of the feature point k group. The histogram creation unit 333d is an example of the learning histogram creation unit.

認識辞書作成部333eは、N個の行動認識対象領域において、各領域の学習データから求めた学習ヒストグラムH(k)により各領域の特定行動を認識する辞書を作成する。認識辞書作成部333eは、SVM(Support Vector Machine)の機械学習方法で、認識辞書を作成する。なお、認識辞書作成部333eは、SVMの機械学習方法で認識辞書を作成する際に、認識対象となる特定行動を含む正の学習データ(プラス学習データ)と、記認識対象となる特定行動を含まない負の学習データ(マイナス学習データ)とを用意して認識辞書を作成してもよい。すなわち、認識辞書作成部333eは、正の学習データを正しいデータであるとして受け入れて、負の学習データを異なるデータであるとして除外する認識辞書を作成する。これによって、特定行動と間違いやすい行動を負の学習データとして学習させることができるため、特定行動の認識率を向上させることができる。なお、認識辞書を作成するとき、SVM機械学習方法以外に他の機械学習方法を使ってもよい。例えば、KNN(K Nearest Neighbor)や、MLP(Multilayer perceptron)などの機械学習方法を使ってもよい。 The recognition dictionary creation unit 333e creates a dictionary that recognizes a specific action in each area by the learning histogram H (k) obtained from the learning data of each area in N action recognition target areas. The recognition dictionary creation unit 333e creates a recognition dictionary by a machine learning method of SVM (Support Vector Machine). In addition, when the recognition dictionary creation unit 333e creates the recognition dictionary by the machine learning method of SVM, the positive learning data (plus learning data) including the specific action to be recognized and the specific action to be recognized are generated. A recognition dictionary may be created by preparing negative learning data (minus learning data) that is not included. That is, the recognition dictionary creation unit 333e creates a recognition dictionary that accepts positive learning data as correct data and excludes negative learning data as different data. As a result, the specific behavior and the behavior that is likely to be mistaken can be learned as negative learning data, so that the recognition rate of the specific behavior can be improved. When creating the recognition dictionary, other machine learning methods may be used in addition to the SVM machine learning method. For example, a machine learning method such as KNN (K Nearest Neighbor) or MLP (Multilayer perceptron) may be used.

(行動認識部の機能構成の説明)
次に、図14を用いて、行動認識部335の機能構成を説明する。図14は、本実施形態に係る行動認識部335の概略構成の一例を示す機能ブロック図である。図14に示すように、行動認識部335は、特徴点抽出部335aと、特徴ベクトル算出部335bと、ヒストグラム作成部335cと、行動認識部335dとを備える。特徴点抽出部335aは、辞書作成部333が備える特徴点抽出部333aと同じ機能を備える。
(Explanation of the functional configuration of the behavior recognition unit)
Next, the functional configuration of the action recognition unit 335 will be described with reference to FIG. FIG. 14 is a functional block diagram showing an example of a schematic configuration of the action recognition unit 335 according to the present embodiment. As shown in FIG. 14, the action recognition unit 335 includes a feature point extraction unit 335a, a feature vector calculation unit 335b, a histogram creation unit 335c, and an action recognition unit 335d. The feature point extraction unit 335a has the same function as the feature point extraction unit 333a included in the dictionary creation unit 333.

特徴ベクトル算出部335bは、特徴点抽出部335aが抽出した特徴点における時空間エッジ情報(微分ベクトル)を求める。時空間エッジ情報について、詳しくは後述する。 The feature vector calculation unit 335b obtains spatiotemporal edge information (differential vector) at the feature points extracted by the feature point extraction unit 335a. The spatiotemporal edge information will be described in detail later.

ヒストグラム作成部335cは、時空間エッジ情報の出現頻度を表す特定行動ヒストグラムT(k)を作成する。 The histogram creation unit 335c creates a specific behavior histogram T (k) representing the appearance frequency of the spatiotemporal edge information.

行動認識部335dは、動画から得られる微分ベクトルに基づいてヒストグラム作成部335cが作成した特定行動ヒストグラムT(k))と、認識辞書が記憶している学習ヒストグラムH(k)とを比較することによって、特定行動を認識する。認識対象となる特徴点の分布は、認識辞書における特徴点の分布と近い。すなわち、特定行動を行っている認識対象の画像から得た特定行動ヒストグラムT(k)と、同じ特定行動の学習ヒストグラムH(k)とは類似しているため、画像の歪み補正を行うことなく、特定行動を認識することが可能である。 The action recognition unit 335d compares the specific action histogram T (k) created by the histogram creation unit 335c based on the differential vector obtained from the moving image with the learning histogram H (k) stored in the recognition dictionary. Recognize specific behavior by The distribution of feature points to be recognized is close to the distribution of feature points in the recognition dictionary. That is, since the specific behavior histogram T (k) obtained from the image of the recognition target performing the specific behavior and the learning histogram H (k) of the same specific behavior are similar, the distortion of the image is not corrected. , It is possible to recognize specific behavior.

(行動認識システムが観測する画像の説明)
次に、図15,図16を用いて、行動認識システム100が観測する画像の例を説明する。図15は、動画入力部331に入力される動画(画像列)の一例を示す図である。図15に示す各画像(フレーム)は、魚眼カメラ200で撮影した画像であり、歪を補正していない画像である。撮影された画像の横軸x、縦軸yは空間座標である。そして、画像フレームF1,F2の時間軸はtで示す。つまり、入力された画像は、座標(x,y,t)における時空間データになる。時空間の一つの座標における画素値は、空間座標(x,y)と時刻tの関数である。前述した職場における特定行動を認識する際に、人が移動すると、図15に示す時空間データに変化点が発生する。行動認識システム100は、この変化点、すなわち時空間の特徴点を見つけることで、特定行動を認識する。
(Explanation of images observed by the behavior recognition system)
Next, an example of an image observed by the behavior recognition system 100 will be described with reference to FIGS. 15 and 16. FIG. 15 is a diagram showing an example of a moving image (image string) input to the moving image input unit 331. Each image (frame) shown in FIG. 15 is an image taken by the fisheye camera 200 and is an image without distortion correction. The horizontal axis x and the vertical axis y of the captured image are spatial coordinates. The time axis of the image frames F1 and F2 is indicated by t. That is, the input image becomes spatiotemporal data in coordinates (x, y, t). The pixel value at one coordinate in space-time is a function of space coordinates (x, y) and time t. When a person moves when recognizing a specific behavior in the workplace described above, a change point occurs in the spatiotemporal data shown in FIG. The action recognition system 100 recognizes a specific action by finding this change point, that is, a feature point in space-time.

次に、本実施形態における特徴点の抽出方法を説明する。図16に示すように、時空間画像データをブロックに分割する。図16の大きい立方体は時空間画像データを示す。横軸xと縦軸yとは空間座標を表す。それぞれの単位は画素である。また時間軸をtで示す。例えば、動画を30フレーム/秒のビデオレートで入力し、時系列画像を入力する。このビデオレートで換算することによって、画像が撮影された実際の時間を求めることができる。図16の時空間画像データを、サイズ(N,N,T)のブロックで分割する。1ブロックのサイズは横M画素、縦N画素、Tフレームになる。図16の1つのマス目が1つのブロックを示す。人がある行動を行ったとき、時空間データにおいて動きが発生したブロックでは、当該ブロックの特徴量が大きくなる。すなわち、時空間に大きな変化量が発生する。 Next, a method for extracting feature points in the present embodiment will be described. As shown in FIG. 16, the spatiotemporal image data is divided into blocks. The large cube in FIG. 16 shows spatiotemporal image data. The horizontal axis x and the vertical axis y represent spatial coordinates. Each unit is a pixel. The time axis is indicated by t. For example, a moving image is input at a video rate of 30 frames / second, and a time-series image is input. By converting at this video rate, the actual time when the image was taken can be obtained. The spatio-temporal image data of FIG. 16 is divided into blocks of size (N, N, T). The size of one block is horizontal M pixel, vertical N pixel, and T frame. One square in FIG. 16 indicates one block. When a person performs a certain action, the feature amount of the block becomes large in the block in which the movement occurs in the spatiotemporal data. That is, a large amount of change occurs in space-time.

次に、変化量の大きいブロックを特徴点として抽出する方法を説明する。時空間の画像データから特徴点を抽出するため、まず、空間方向、すなわち(x,y)方向でノイズを除去するために平滑化処理を行う。平滑化処理は、式(1)で行われる。 Next, a method of extracting a block having a large amount of change as a feature point will be described. In order to extract feature points from spatiotemporal image data, first, a smoothing process is performed to remove noise in the spatial direction, that is, in the (x, y) direction. The smoothing process is performed by the equation (1).

Figure 2020154552
Figure 2020154552

ここで、I(x,y,t)は、時刻tのフレームにおける(x,y)座標の画素値である。また、g(x,y)は、平滑化処理のためのカーネルである。また、*は畳み込み処理を示す演算子である。平滑化処理は、単純に画素値の平均化処理としてもよいし、既存のGaussian平滑化フィルタ処理を行ってもよい。 Here, I (x, y, t) is a pixel value of the (x, y) coordinate in the frame at time t. Further, g (x, y) is a kernel for smoothing processing. In addition, * is an operator indicating the convolution process. The smoothing process may be simply an averaging process of pixel values, or an existing Gaussian smoothing filter process may be performed.

次に時間軸でフィルタリング処理を行う。ここでは、式(2)に示すGaborフィルタリング処理を行う。Gaborフィルタは指向性フィルタであり、フィルタを作用させる領域に存在する平行で等間隔な線を強調して、線の間に存在するノイズを除去する作用を有する。式(2)におけるgevとgodとは、それぞれ、式(3)と式(4)が示すGaborフィルタのカーネルである。また、*は畳み込み処理を示す演算子である。さらに、τとωは、Gaborフィルタにおけるカーネルのパラメータである。 Next, filtering processing is performed on the time axis. Here, the Gabor filtering process represented by the equation (2) is performed. The Gabor filter is a directional filter, and has the function of emphasizing parallel and evenly spaced lines existing in the region where the filter acts and removing noise existing between the lines. The g ev and g od in equation (2), respectively, is a kernel Gabor filter shown as Equation (3) Equation (4). In addition, * is an operator indicating the convolution process. In addition, τ and ω are kernel parameters in the Gabor filter.

Figure 2020154552
Figure 2020154552

Figure 2020154552
Figure 2020154552

Figure 2020154552
Figure 2020154552

図15に示す時空間画像の全画素に対して、上記式(2)に示すフィルタリング処理を行った後、図16に示す分割ブロック内のR(x,y,t)の平均値を求める。式(5)で、時空間座標(x,y,t)のブロックの平均値を求める。 After performing the filtering process shown in the above equation (2) on all the pixels of the spatiotemporal image shown in FIG. 15, the average value of R (x, y, t) in the divided block shown in FIG. 16 is obtained. In equation (5), the average value of the blocks of spatiotemporal coordinates (x, y, t) is obtained.

Figure 2020154552
Figure 2020154552

Figure 2020154552
Figure 2020154552

式(6)に示すように、ブロック内の平均値M(x,y,t)が所定の閾値Thre_Mより大きい場合、このブロックを特徴点とする。 As shown in the equation (6), when the average value M (x, y, t) in the block is larger than the predetermined threshold value Thr_M, this block is used as a feature point.

(特徴点の記述方法の説明)
次に、図17A,図17Bを用いて、特徴点の記述方法を説明する。図17Aは、動画から抽出した特徴点の一例を示す第1の図である。図17Bは、動画から抽出した特徴点の一例を示す第2の図である。すなわち、図17Aは、図11に示した棚入れを行っている人の画像から抽出した、時刻tにおける特徴点の一例を示す画像k1である。図17Aに示すように、動きのある部分に特徴点が抽出される。図17Bは、同様に時刻t+Δtにおいて抽出された特徴点の一例を示す画像k2である。
(Explanation of how to describe feature points)
Next, a method of describing the feature points will be described with reference to FIGS. 17A and 17B. FIG. 17A is a first diagram showing an example of feature points extracted from moving images. FIG. 17B is a second diagram showing an example of feature points extracted from moving images. That is, FIG. 17A is an image k1 showing an example of feature points at time t, which is extracted from the image of the person performing the shelving shown in FIG. As shown in FIG. 17A, feature points are extracted in a moving portion. FIG. 17B is an image k2 showing an example of the feature points similarly extracted at time t + Δt.

図17Aに示す特徴点が抽出されたら、当該特徴点が属するブロック内の画素の時空間エッジ情報を求める。すなわち、式(7)に示す微分演算を行うことによって、画素のエッジ情報E(x,y,t)(微分ベクトル)を求める。 After the feature points shown in FIG. 17A are extracted, the spatiotemporal edge information of the pixels in the block to which the feature points belong is obtained. That is, the edge information E (x, y, t) (differential vector) of the pixel is obtained by performing the differential operation shown in the equation (7).

Figure 2020154552
Figure 2020154552

1ブロックはM×N×Tの画素を含むため、式(7)によってM×N×T×3の微分値が得られる。すなわち、特徴点を含むブロックを、M×N×T×3個の微分値のベクトルで記述することができる。つまり、特徴点をM×N×T×3次元のベクトルで記述することができる。そして、図17Bの画像k2についても、同様にしてエッジ情報E(x,y,t)を求める。 Since one block contains M × N × T pixels, a differential value of M × N × T × 3 can be obtained by the equation (7). That is, the block including the feature points can be described by a vector of M × N × T × 3 differential values. That is, the feature points can be described by a vector of M × N × T × 3 dimensions. Then, the edge information E (x, y, t) is obtained in the same manner for the image k2 of FIG. 17B.

なお、辞書作成部333は、学習により、特定行動を認識する認識辞書を作成するとき、画像の中の歪が異なる複数の異なる位置にそれぞれ対応する認識辞書を作成する。 When creating a recognition dictionary that recognizes a specific action by learning, the dictionary creation unit 333 creates a recognition dictionary corresponding to a plurality of different positions in the image having different distortions.

ここで、画像k1から抽出された複数の特徴点のうち、近接した特徴点は、一人の人の行動に伴って発生する特徴点であると考えられる。すなわち、図17Aに示す領域m1を、人の存在領域であるとして、辞書作成部333が作成した認識辞書を、領域m1の代表点(例えば重心位置)と関連付けて記憶する。 Here, among the plurality of feature points extracted from the image k1, the feature points that are close to each other are considered to be the feature points that occur with the action of one person. That is, assuming that the area m1 shown in FIG. 17A is a human existence area, the recognition dictionary created by the dictionary creation unit 333 is stored in association with the representative point (for example, the position of the center of gravity) of the area m1.

図17Bの画像k2から抽出された特徴点が形成する領域m2についても同様である。このように、辞書作成部333は、特定行動を含むNフレームの画像を1つの学習データとして、認識辞書を作成する。 The same applies to the region m2 formed by the feature points extracted from the image k2 of FIG. 17B. In this way, the dictionary creation unit 333 creates a recognition dictionary using an N-frame image including a specific action as one learning data.

(特定行動の持続時間の説明)
次に、図18を用いて、特定行動の持続時間について説明する。図18は、特定行動の持続時間の測定について説明する図である。
(Explanation of the duration of a specific action)
Next, the duration of the specific action will be described with reference to FIG. FIG. 18 is a diagram illustrating the measurement of the duration of a specific action.

持続時間測定部336は、特定行動の認識結果により特定行動の持続時間を測定する。図18は、時刻t0から時刻t1の間は、「歩く」行動を行ったと認識されて、時刻t2から時刻t3の間は、「棚入れ」行動を行ったと認識された例を示す。 The duration measuring unit 336 measures the duration of the specific action based on the recognition result of the specific action. FIG. 18 shows an example in which it is recognized that the “walking” action is performed between the time t0 and the time t1, and the “shelfing” action is recognized between the time t2 and the time t3.

持続時間測定部336は、図18において、「歩く」行動の持続時間は(t1−t0)であるとし、「棚入れ」行動の持続時間は(t3−t2)であると判断する。なお、認識する特定行動の数が増えた場合も、同様に、各特定行動の認識処理を行い、行動の持続時間が測定される。 In FIG. 18, the duration measuring unit 336 determines that the duration of the “walking” behavior is (t1-t0) and the duration of the “shelfing” behavior is (t3-t2). When the number of specific actions to be recognized increases, the recognition process of each specific action is performed in the same manner, and the duration of the action is measured.

(認識辞書作成処理の流れの説明)
次に、図19を用いて、辞書作成部333が行う認識辞書作成処理の流れを説明する。なお、図19は、認識辞書の作成の流れの一例を示すフローチャートである。
(Explanation of the flow of recognition dictionary creation process)
Next, the flow of the recognition dictionary creation process performed by the dictionary creation unit 333 will be described with reference to FIG. Note that FIG. 19 is a flowchart showing an example of the flow of creating a recognition dictionary.

動画入力部331は、魚眼カメラ200が撮影した動画を入力する(ステップS11)。 The moving image input unit 331 inputs a moving image taken by the fisheye camera 200 (step S11).

特徴点抽出部333aは、入力された動画の中から特徴点を抽出する(ステップS12)。 The feature point extraction unit 333a extracts feature points from the input moving image (step S12).

特徴点分類部333bは、抽出された特徴点をクラスタリングする(ステップS13)。 The feature point classification unit 333b clusters the extracted feature points (step S13).

特徴ベクトル算出部333cは、平均ベクトルVkを算出する(ステップS14)。 The feature vector calculation unit 333c calculates the average vector Vk (step S14).

ヒストグラム作成部333dは、学習ヒストグラムH(k)を作成する(ステップS15)。 The histogram creation unit 333d creates a learning histogram H (k) (step S15).

認識辞書作成部333eは、認識辞書を作成する(ステップS16)。その後、辞書作成部333は、図19の処理を終了する。なお、前記したように、認識辞書は、画像の異なる位置(歪が異なる位置)において複数作成する必要があるため、図19の処理は繰り返し実行される。 The recognition dictionary creation unit 333e creates a recognition dictionary (step S16). After that, the dictionary creation unit 333 ends the process of FIG. As described above, since it is necessary to create a plurality of recognition dictionaries at different positions (positions with different distortions) of the image, the process of FIG. 19 is repeatedly executed.

(行動認識処理の流れの説明)
次に、図20を用いて、行動認識処理部321が行う行動認識処理の流れを説明する。なお、図20は、特定行動の認識処理の流れの一例を示すフローチャートである。
(Explanation of the flow of behavior recognition processing)
Next, the flow of the action recognition process performed by the action recognition processing unit 321 will be described with reference to FIG. Note that FIG. 20 is a flowchart showing an example of the flow of the recognition process of the specific action.

動画入力部331は、魚眼カメラ200が撮影した動画を入力する(ステップS21)。 The moving image input unit 331 inputs a moving image taken by the fisheye camera 200 (step S21).

特徴点抽出部335aは、入力された動画の中から特徴点を抽出する(ステップS22)。 The feature point extraction unit 335a extracts feature points from the input moving image (step S22).

特徴ベクトル算出部335bは、平均ベクトルVkを算出する(ステップS23)。 The feature vector calculation unit 335b calculates the average vector Vk (step S23).

ヒストグラム作成部335cは、特定行動ヒストグラムT(k)を作成する(ステップS24)。 The histogram creation unit 335c creates a specific behavior histogram T (k) (step S24).

辞書選択部334は、認識辞書を選択する(ステップS25)。具体的には、辞書選択部334は、特徴点抽出部335aが抽出した特徴点の位置の近傍で作成された認識辞書を選択する。すなわち、辞書選択部334は、歪の大きさが近い位置で作成された認識辞書を選択する。 The dictionary selection unit 334 selects a recognition dictionary (step S25). Specifically, the dictionary selection unit 334 selects a recognition dictionary created in the vicinity of the position of the feature point extracted by the feature point extraction unit 335a. That is, the dictionary selection unit 334 selects the recognition dictionary created at a position where the magnitude of distortion is close.

行動認識部335は、特定行動を認識する(ステップS26)。なお、特定行動の認識処理の流れは後述する(図21)。 The action recognition unit 335 recognizes a specific action (step S26). The flow of the recognition process for the specific action will be described later (FIG. 21).

持続時間測定部336は、特定行動の持続時間を測定する(ステップS27)。 The duration measuring unit 336 measures the duration of the specific action (step S27).

さらに、持続時間測定部336は、特定行動の種類と特定行動の測定結果とを出力する(ステップS28)。その後、行動認識部335は、図20の処理を終了する。 Further, the duration measurement unit 336 outputs the type of the specific action and the measurement result of the specific action (step S28). After that, the action recognition unit 335 ends the process of FIG. 20.

(特定行動の認識処理の流れの説明)
次に、図21を用いて、行動認識部335が行う特定行動の認識処理の流れを説明する。なお、図21は、複数の特定行動を認識する処理の流れの一例を示すフローチャートである。特に図21は、特定行動のうち、「歩く」行動を行った後で「棚入れ」行動を行ったことを認識する処理の流れを示す。
(Explanation of the flow of recognition processing for specific actions)
Next, the flow of the recognition process of the specific action performed by the action recognition unit 335 will be described with reference to FIG. Note that FIG. 21 is a flowchart showing an example of a processing flow for recognizing a plurality of specific actions. In particular, FIG. 21 shows a flow of processing for recognizing that the “shelfing” action is performed after the “walking” action is performed among the specific actions.

行動認識部335は、「歩く」行動を認識する(ステップS31)。 The action recognition unit 335 recognizes the "walking" action (step S31).

次に、行動認識部335は、「歩く」行動を認識したかを判定する(ステップS32)。「歩く」行動を認識したと判定される(ステップS32:Yes)とステップS31に進む。一方、「歩く」行動を認識したと判定されない(ステップS32:No)とステップS33に進む。 Next, the action recognition unit 335 determines whether or not the "walking" action has been recognized (step S32). When it is determined that the "walking" action is recognized (step S32: Yes), the process proceeds to step S31. On the other hand, if it is not determined that the "walking" action is recognized (step S32: No), the process proceeds to step S33.

ステップS32でNoと判定されると、行動認識部335は、「棚入れ」行動を認識する(ステップS33)。 If No is determined in step S32, the action recognition unit 335 recognizes the "shelfing" action (step S33).

次に、行動認識部335は、「棚入れ」行動を認識したかを判定する(ステップS34)。「棚入れ」行動を認識したと判定される(ステップS34:Yes)と図21の処理を終了して、図20のステップS27に進む。一方、「棚入れ」行動を認識したと判定されない(ステップS34:No)とステップS31に戻る。 Next, the action recognition unit 335 determines whether or not the “shelfing” action has been recognized (step S34). When it is determined that the "shelfing" action has been recognized (step S34: Yes), the process of FIG. 21 is terminated, and the process proceeds to step S27 of FIG. On the other hand, if it is not determined that the "shelfing" action is recognized (step S34: No), the process returns to step S31.

なお、図21に示すフローチャートは一例であって、行動認識部335は、認識する特定行動の種類や順序に応じた処理を行う。 The flowchart shown in FIG. 21 is an example, and the action recognition unit 335 performs processing according to the type and order of the specific actions to be recognized.

以上説明したように、第1の実施形態の行動認識装置300によれば、動画入力部331は、魚眼カメラ200(撮影手段)で撮影された動画を入力して、領域分割部332は、動画に含まれる画像を、歪の異なる複数の領域に分割する。辞書作成部333は、分割された領域毎に、人(被写体)の特定行動を認識するための認識辞書を作成する。辞書選択部334は、辞書作成部333が作成した複数の認識辞書の中から、動画から検出した人の特定行動を認識するために使用する認識辞書を選択する。そして、行動認識部335は、辞書選択部334が選択した認識辞書に基づいて、人の特定行動を認識する。したがって、画像の領域毎に認識辞書を作成するため、撮影した画像の歪を補正することなく、人の特定行動(標準作業)を認識することができる。 As described above, according to the behavior recognition device 300 of the first embodiment, the moving image input unit 331 inputs the moving image taken by the fisheye camera 200 (shooting means), and the area dividing unit 332 receives the moving image. The image included in the moving image is divided into a plurality of areas having different distortions. The dictionary creation unit 333 creates a recognition dictionary for recognizing a specific action of a person (subject) for each divided area. The dictionary selection unit 334 selects a recognition dictionary to be used for recognizing a specific behavior of a person detected from a moving image from a plurality of recognition dictionaries created by the dictionary creation unit 333. Then, the action recognition unit 335 recognizes a person's specific action based on the recognition dictionary selected by the dictionary selection unit 334. Therefore, since the recognition dictionary is created for each image area, it is possible to recognize a person's specific behavior (standard work) without correcting the distortion of the captured image.

また、第1の実施形態の行動認識装置300によれば、辞書選択部334は、魚眼カメラ200(撮影手段)が撮影した動画に含まれる画像から検出した人(被写体)の位置に応じた認識辞書を選択する。したがって、撮影した画像の歪を補正することなく、人の特定行動(標準作業)を認識することができる。 Further, according to the behavior recognition device 300 of the first embodiment, the dictionary selection unit 334 corresponds to the position of the person (subject) detected from the image included in the moving image taken by the fisheye camera 200 (shooting means). Select a recognition dictionary. Therefore, it is possible to recognize a person's specific behavior (standard work) without correcting the distortion of the captured image.

また、本実施形態の行動認識装置300によれば、持続時間測定部336は、特定行動の認識結果に基づいて、当該特定行動の持続時間を測定する。したがって、特定行動(標準作業)の持続時間を容易かつ正確に測定することができる。 Further, according to the action recognition device 300 of the present embodiment, the duration measurement unit 336 measures the duration of the specific action based on the recognition result of the specific action. Therefore, the duration of a specific action (standard work) can be easily and accurately measured.

また、第1の実施形態の行動認識装置300によれば、特徴点抽出部333aは、魚眼カメラ200(撮影手段)で撮影された動画に含まれる複数の画像の中から特徴点を抽出する。特徴点分類部333bは、抽出された特徴点をK種類に分類する。特徴ベクトル算出部333cは、分類されたK種類の特徴点グループに対して、それぞれのK個の平均ベクトルVk(学習ベクトル)を求める。したがって、人(被写体)の特定行動を容易に学習することができる。 Further, according to the behavior recognition device 300 of the first embodiment, the feature point extraction unit 333a extracts feature points from a plurality of images included in the moving image taken by the fisheye camera 200 (shooting means). .. The feature point classification unit 333b classifies the extracted feature points into K types. The feature vector calculation unit 333c obtains each K average vector Vk (learning vector) for each of the K types of feature point groups classified. Therefore, it is possible to easily learn the specific behavior of a person (subject).

また、第1の実施形態の行動認識装置300によれば、辞書作成部333は、動画入力部331によって入力された、特定行動を行っている人の動画(プラス学習データ)と、特定行動を行っていない人の動画(マイナス学習データ)とから、各データの特徴点が有する特徴量による平均ベクトルVk(学習ベクトル)を用いて、それぞれ学習ヒストグラムH(k)を作成して、プラス学習データから生成した学習ヒストグラムH(k)と、マイナス学習データから生成した学習ヒストグラムH(k)とに基づいて、認識辞書を作成する。したがって、認識辞書の精度を向上させることができる。 Further, according to the action recognition device 300 of the first embodiment, the dictionary creation unit 333 performs the video (plus learning data) of the person performing the specific action and the specific action input by the video input unit 331. A learning histogram H (k) is created from a video of a person who has not performed (minus learning data) and an average vector Vk (learning vector) based on the feature amount of each feature point of each data, and plus learning data. A recognition dictionary is created based on the learning histogram H (k) generated from the above and the learning histogram H (k) generated from the minus learning data. Therefore, the accuracy of the recognition dictionary can be improved.

また、第1の実施形態の行動認識装置300によれば、特徴点抽出部335aは、魚眼カメラ200(撮影手段)で撮影された動画に含まれる複数の画像の中から特徴点を抽出する。特徴ベクトル算出部335bは、抽出された特徴点における時空間エッジの大きさと方向を示す特徴ベクトルを算出する。ヒストグラム作成部335cは、抽出された特徴点の特徴ベクトルに基づいて、特定行動ヒストグラムT(k)を作成する。そして、行動認識部335dは、特定行動ヒストグラムT(k)と認識辞書が有する学習ヒストグラムH(k)とに基づいて、人の特定行動を認識する。したがって、人(被写体)の特定行動を容易かつ正確に認識することができる。 Further, according to the behavior recognition device 300 of the first embodiment, the feature point extraction unit 335a extracts feature points from a plurality of images included in the moving image taken by the fisheye camera 200 (shooting means). .. The feature vector calculation unit 335b calculates a feature vector indicating the size and direction of the spatiotemporal edge at the extracted feature points. The histogram creation unit 335c creates a specific behavior histogram T (k) based on the feature vector of the extracted feature points. Then, the behavior recognition unit 335d recognizes a person's specific behavior based on the specific behavior histogram T (k) and the learning histogram H (k) of the recognition dictionary. Therefore, the specific behavior of a person (subject) can be easily and accurately recognized.

また、第1の実施形態の行動認識装置300によれば、特徴ベクトル算出部335bは、入力された複数の画像をM×N×Tサイズのフロックに分割し、各ブロックを微分処理することで、M×N×T×3次元のエッジ情報E(x,y,t)(微分ベクトル)を計算する。そして、特徴ベクトル算出部335bは、計算したエッジ情報E(x,y,t)と事前に学習したK種類の平均ベクトルVk(学習ベクトル)とを比較し、当該比較の結果に基づいて、エッジ情報E(x,y,t)を最も近い平均ベクトルVkと同じ種類の特徴点に分類する。ヒストグラム作成部335cは、分類の結果に基づいて特定行動ヒストグラムT(k)を作成する、したがって、撮影された動画から、特定行動の認識に使用する特定行動ヒストグラムT(k)を容易に作成することができる。 Further, according to the behavior recognition device 300 of the first embodiment, the feature vector calculation unit 335b divides a plurality of input images into M × N × T size flocs, and differentiates each block. , M × N × T × 3D edge information E (x, y, t) (differential vector) is calculated. Then, the feature vector calculation unit 335b compares the calculated edge information E (x, y, t) with the K-type average vector Vk (learning vector) learned in advance, and based on the result of the comparison, the edge. The information E (x, y, t) is classified into the same kind of feature points as the closest average vector Vk. The histogram creation unit 335c creates a specific behavior histogram T (k) based on the classification result, and therefore easily creates a specific behavior histogram T (k) used for recognizing the specific behavior from the captured moving image. be able to.

また、第1の実施形態の行動認識装置300によれば、辞書作成部333及び行動認識部335は、入力された動画に対して、時間軸でのフィルタリング処理を行う。そして、特徴点抽出部333a,335aは、フィルタリング処理を行った結果、M×N×Tのブロック内における平均値が所定の閾値より大きい場合に、当該ブロックを特徴点として抽出する。したがって、特徴点の抽出を容易に行うことができる。 Further, according to the action recognition device 300 of the first embodiment, the dictionary creation unit 333 and the action recognition unit 335 perform filtering processing on the time axis for the input moving image. Then, the feature point extraction units 333a and 335a extract the block as a feature point when the average value in the block of M × N × T is larger than a predetermined threshold value as a result of performing the filtering process. Therefore, the feature points can be easily extracted.

また、本実施形態の行動認識装置300によれば、フィルタリング処理は、式(2),式(3),式(4)に示したGaborフィルタリング処理によって行う。したがって、撮影された動画のノイズが除去されることによって、特定行動の認識を行いやすい画像を得ることができる。 Further, according to the behavior recognition device 300 of the present embodiment, the filtering process is performed by the Gabor filtering process shown in the equations (2), (3), and (4). Therefore, by removing the noise of the captured moving image, it is possible to obtain an image that makes it easy to recognize a specific action.

また、第1の実施形態の行動認識装置300によれば、特徴点抽出部333a,335aは、時間軸でのフィルタリング処理を行う前に、各画像に対して平滑化処理を行う。したがって、時間軸方向に発生するノイズが除去されるため、人(被写体)の特定行動を、より一層高精度に認識することができる。 Further, according to the behavior recognition device 300 of the first embodiment, the feature point extraction units 333a and 335a perform smoothing processing on each image before performing filtering processing on the time axis. Therefore, since the noise generated in the time axis direction is removed, the specific behavior of the person (subject) can be recognized with higher accuracy.

また、第1の実施形態の行動認識装置300によれば、行動認識部335は、人の特定行動を認識する場合に、所定の順序で特定行動を認識し、特定行動が認識された場合は認識結果を出力して、特定行動が認識されない場合は、次の特定行動を認識する。したがって、複数の特定行動が連続して発生する場合であっても、確実に認識することができる。 Further, according to the action recognition device 300 of the first embodiment, the action recognition unit 335 recognizes the specific actions in a predetermined order when recognizing the specific actions of a person, and when the specific actions are recognized, the specific actions are recognized. If the recognition result is output and the specific action is not recognized, the next specific action is recognized. Therefore, even when a plurality of specific actions occur consecutively, it can be reliably recognized.

また、第1の実施形態の行動認識装置300によれば、広角レンズは、魚眼レンズである。したがって、1台のカメラでより一層広範囲を観測することができる。 Further, according to the behavior recognition device 300 of the first embodiment, the wide-angle lens is a fisheye lens. Therefore, it is possible to observe a wider range with one camera.

(第2の実施形態)
次に、添付図面を参照して、行動認識装置、行動認識方法及びプログラムの第2の実施形態を詳細に説明する。
(Second Embodiment)
Next, the behavior recognition device, the behavior recognition method, and the second embodiment of the program will be described in detail with reference to the accompanying drawings.

(行動認識装置のハードウェア構成の説明)
図22は、本実施形態に係る行動認識システム100aのハードウェア構成の一例を示すハードウェアブロック図である。図22に示すように、行動認識システム100aは、魚眼カメラ200,201と、行動認識装置300aとを備える。
(Explanation of hardware configuration of behavior recognition device)
FIG. 22 is a hardware block diagram showing an example of the hardware configuration of the behavior recognition system 100a according to the present embodiment. As shown in FIG. 22, the behavior recognition system 100a includes fisheye cameras 200 and 201 and a behavior recognition device 300a.

行動認識システム100aは、第1の実施形態で説明した行動認識システム100と同様の機能を有し、魚眼カメラ200,201で撮影した人(被写体)の特定行動を認識する。行動認識システム100との違いは、2台の魚眼カメラ200,201で撮影した動画を入力可能な点である。 The behavior recognition system 100a has the same function as the behavior recognition system 100 described in the first embodiment, and recognizes a specific behavior of a person (subject) photographed by the fisheye cameras 200 and 201. The difference from the behavior recognition system 100 is that moving images taken by two fisheye cameras 200 and 201 can be input.

なお、行動認識装置300aは、行動認識処理部321aと、行動認識処理部321aと魚眼カメラ200,201とを接続するインタフェース部322aと、を備える。 The behavior recognition device 300a includes a behavior recognition processing unit 321a and an interface unit 322a for connecting the behavior recognition processing unit 321a and the fisheye cameras 200 and 201.

行動認識処理部321aは、人(被写体)の特定行動を認識する。インタフェース部322aは、魚眼カメラ200,201が撮影した動画を、行動認識処理部321aが認識可能なデータ形式に変換して、行動認識処理部321aに受け渡す。 The action recognition processing unit 321a recognizes a specific action of a person (subject). The interface unit 322a converts the moving image captured by the fisheye cameras 200 and 201 into a data format that can be recognized by the action recognition processing unit 321a, and delivers the moving image to the action recognition processing unit 321a.

次に、図23を用いて、行動認識システム100aが使われる代表的な場面を説明する。図23は、第2の実施形態に係る行動認識システム100aが使用されている場面の一例を示す図である。 Next, a typical scene in which the action recognition system 100a is used will be described with reference to FIG. FIG. 23 is a diagram showing an example of a scene in which the behavior recognition system 100a according to the second embodiment is used.

図23に示すように、行動認識システム100aは、オフィスや工場などの職場における作業環境に設置される。魚眼カメラ200,201は、作業環境において作業を行っている複数の人H1,H2を含む動画を撮影する。本実施形態では、魚眼カメラ200,201は、いずれも対角線画角180°を有する魚眼レンズを備えるものとする。そして、2台の魚眼カメラ200,201は、異なる方向から同じ作業環境を撮影する。なお、人H1,H2は、被写体の一例である。 As shown in FIG. 23, the behavior recognition system 100a is installed in a work environment in a workplace such as an office or a factory. The fisheye cameras 200 and 201 capture moving images including a plurality of people H1 and H2 working in the work environment. In the present embodiment, the fisheye cameras 200 and 201 both include a fisheye lens having a diagonal angle of view of 180 °. Then, the two fisheye cameras 200 and 201 capture the same working environment from different directions. The people H1 and H2 are examples of subjects.

第1の実施形態で説明した行動認識システム100は、複数の作業員が作業している環境において、複数の人の所定行動を認識することが可能であるが、別の作業者の死角に入っている作業者は可視化することができないため、行動認識を行うことができなかった。これに対して、行動認識システム100aは、作業環境を異なる方向から観測するため、死角が少なくなり、複数の人の所定行動を、より確実に認識することができる。さらに、行動認識システム100aは、1人の作業者を2台の魚眼カメラ200,201で撮影することができるため、より小さい歪で撮影された画像を用いて行動認識を行うことができる。 The behavior recognition system 100 described in the first embodiment can recognize predetermined behaviors of a plurality of people in an environment in which a plurality of workers are working, but enters the blind spot of another worker. The worker was unable to recognize the behavior because it could not be visualized. On the other hand, since the action recognition system 100a observes the work environment from different directions, the blind spots are reduced, and the predetermined actions of a plurality of people can be recognized more reliably. Further, since the behavior recognition system 100a can capture one worker with the two fisheye cameras 200 and 201, the behavior recognition can be performed using the images captured with smaller distortion.

なお、行動認識システム100aのハードウェア構成は、魚眼カメラの台数が増える以外は、行動認識システム100のハードウェア構成と同じであるため、説明は省略する。 Since the hardware configuration of the behavior recognition system 100a is the same as the hardware configuration of the behavior recognition system 100 except that the number of fisheye cameras increases, the description thereof will be omitted.

(行動認識処理部の機能構成の説明)
次に、図24を用いて、行動認識処理部321aの機能構成を説明する。図24は、第2の実施形態における行動認識処理部321aの機能構成の一例を示す機能ブロック図である。図24に示すように、行動認識処理部321aは、第1の実施形態で説明した行動認識処理部321の機能構成(図12)に加えて、同一人物判定部337を備える。また行動認識処理部321aは、辞書選択部334の代わりに、機能が変更された辞書選択部334aを備える。
(Explanation of the functional configuration of the behavior recognition processing unit)
Next, the functional configuration of the action recognition processing unit 321a will be described with reference to FIG. 24. FIG. 24 is a functional block diagram showing an example of the functional configuration of the action recognition processing unit 321a according to the second embodiment. As shown in FIG. 24, the action recognition processing unit 321a includes the same person determination unit 337 in addition to the functional configuration (FIG. 12) of the behavior recognition processing unit 321 described in the first embodiment. Further, the action recognition processing unit 321a includes a dictionary selection unit 334a whose function has been changed, instead of the dictionary selection unit 334.

辞書選択部334aは、魚眼カメラ200,201が、それぞれ同じ人を撮影した際に、行動認識を行うために使用する画像に応じた認識辞書を選択する。具体的には、辞書選択部334aは、魚眼カメラ200,201が撮影した画像における同一人物の位置を比較して、より画像の中央に近い位置に写っている人の特定行動を認識するための認識辞書、すなわち、より歪の小さい位置で作成された認識辞書を選択する。なお、魚眼カメラ200,201が撮影した画像に同一人物が写っているかは、後述する同一人物判定部337が判定する。 The dictionary selection unit 334a selects a recognition dictionary according to the image used for behavior recognition when the fisheye cameras 200 and 201 each photograph the same person. Specifically, the dictionary selection unit 334a compares the positions of the same person in the images taken by the fisheye cameras 200 and 201, and recognizes the specific behavior of the person in the position closer to the center of the image. The recognition dictionary of, that is, the recognition dictionary created at the position where the distortion is smaller is selected. Whether or not the same person appears in the images taken by the fisheye cameras 200 and 201 is determined by the same person determination unit 337, which will be described later.

同一人物判定部337は、魚眼カメラ200,201がそれぞれ撮影した画像の中に同一人物が写っているかを判定する。具体的には、同一人物判定部337は、魚眼カメラ200,201がそれぞれ撮影した画像から抽出された特徴点に基づく特徴ベクトルを比較することによって、特徴ベクトルの種類と特徴ベクトルの向きが類似している場合に、同一人物が写っていると判定する。 The same person determination unit 337 determines whether or not the same person appears in the images captured by the fisheye cameras 200 and 201, respectively. Specifically, the same person determination unit 337 compares the feature vectors based on the feature points extracted from the images taken by the fisheye cameras 200 and 201, respectively, so that the type of the feature vector and the direction of the feature vector are similar. If so, it is determined that the same person is shown.

(行動認識処理の流れの説明)
次に、図25を用いて、行動認識処理部321aが行う行動認識処理の流れを説明する。なお、図25は、第2の実施形態における特定行動の認識処理の流れの一例を示すフローチャートである。
(Explanation of the flow of behavior recognition processing)
Next, the flow of the action recognition process performed by the action recognition processing unit 321a will be described with reference to FIG. 25. Note that FIG. 25 is a flowchart showing an example of the flow of the recognition process of the specific action in the second embodiment.

ステップS41からステップS44は、第1の実施形態で説明したステップS21からステップS24(図20)と同じ処理である。 Steps S41 to S44 are the same processes as steps S21 to S24 (FIG. 20) described in the first embodiment.

次に、同一人物判定部337は、魚眼カメラ200,201がそれぞれ撮影した画像の中から、同一人物を表す領域を特定する(ステップS45)。 Next, the same person determination unit 337 identifies an area representing the same person from the images taken by the fisheye cameras 200 and 201 (step S45).

続いて、辞書選択部334aは、ステップS45で特定された同一人物を表す領域のうち、最も画像の中央に近い位置にある領域を撮影した魚眼カメラを特定して、当該位置に対応する認識辞書を選択する(ステップS46)。なお、ステップS45において、同一人物を表す領域が特定できなかった場合は、辞書選択部334aは、検出された各領域にそれぞれ対応する認識辞書を選択する。 Subsequently, the dictionary selection unit 334a identifies a fisheye camera that has captured the area closest to the center of the image among the areas representing the same person identified in step S45, and recognizes the area corresponding to the position. Select a dictionary (step S46). If the area representing the same person cannot be specified in step S45, the dictionary selection unit 334a selects a recognition dictionary corresponding to each of the detected areas.

続くステップS47からステップS49で行う処理は、第1の実施形態で説明したステップS26からステップS29(図20)と同じ処理である。 The subsequent processes from step S47 to step S49 are the same as steps S26 to S29 (FIG. 20) described in the first embodiment.

以上説明したように、第2の実施形態の行動認識装置300aは、複数の魚眼カメラ200,201(撮影手段)が、同じ領域を異なる方向から撮影する。したがって、観測範囲の死角が減少する。また、同じ人(被写体)を異なる方向から撮影することができるため、行動認識の認識精度を向上させることができる。 As described above, in the behavior recognition device 300a of the second embodiment, the plurality of fisheye cameras 200 and 201 (photographing means) photograph the same area from different directions. Therefore, the blind spot in the observation range is reduced. Moreover, since the same person (subject) can be photographed from different directions, the recognition accuracy of behavior recognition can be improved.

また、第2の実施形態の行動認識装置300aによれば、辞書選択部334aは、複数の魚眼カメラ200,201(撮影手段)が撮影した動画に含まれる画像からそれぞれ検出した同じ人(被写体)の位置に応じた認識辞書のうち、最も歪の小さい認識辞書を選択する。したがって、特定行動の認識精度を向上させることができる。 Further, according to the behavior recognition device 300a of the second embodiment, the dictionary selection unit 334a detects the same person (subject) from the images included in the moving images taken by the plurality of fisheye cameras 200 and 201 (shooting means). ), The recognition dictionary with the smallest distortion is selected from the recognition dictionaries according to the position. Therefore, the recognition accuracy of the specific action can be improved.

また、第2の実施形態の行動認識装置300aによれば、辞書選択部334aは、複数の魚眼カメラ200,201(撮影手段)が撮影した動画に含まれる画像からそれぞれ検出した同じ人の位置に応じた認識辞書のうち、画像の中央に近い位置に対応する認識辞書を選択する。したがって、歪の小さい位置で作成された認識辞書が選択されるため、特定行動の認識精度を向上させることができる。 Further, according to the behavior recognition device 300a of the second embodiment, the dictionary selection unit 334a detects the position of the same person from the images included in the moving images taken by the plurality of fisheye cameras 200 and 201 (shooting means). The recognition dictionary corresponding to the position near the center of the image is selected from the recognition dictionaries according to. Therefore, since the recognition dictionary created at the position where the distortion is small is selected, the recognition accuracy of the specific action can be improved.

以上、本発明の実施の形態について説明したが、上述した実施の形態は、例として提示したものであり、本発明の範囲を限定することは意図していない。この新規な実施の形態は、その他の様々な形態で実施されることが可能である。また、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。また、この実施の形態は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。 Although the embodiment of the present invention has been described above, the above-described embodiment is presented as an example and is not intended to limit the scope of the present invention. This new embodiment can be implemented in a variety of other forms. In addition, various omissions, replacements, and changes can be made without departing from the gist of the invention. Further, this embodiment is included in the scope and gist of the invention, and is also included in the scope of the invention described in the claims and the equivalent scope thereof.

200,201 魚眼カメラ(撮影手段)
300,300a 行動認識装置
321,321a 行動認識処理部
331 動画入力部
332 領域分割部
333 辞書作成部
334 辞書選択部
335 行動認識部
336 持続時間測定部
333a,335a 特徴点抽出部
333b 特徴点分類部
333c,335b 特徴ベクトル算出部
333d ヒストグラム作成部(学習ヒストグラム作成部)
335c ヒストグラム作成部
333e 認識辞書作成部
335d 行動認識部
H1,H2 人(被写体)
H(k) 学習ヒストグラム
T(k) 特定行動ヒストグラム
Vk 平均ベクトル(学習ベクトル)
200,201 Fisheye camera (shooting means)
300,300a Behavior recognition device 321, 321a Behavior recognition processing unit 331 Video input unit 332 Area division unit 333 Dictionary creation unit 334 Dictionary selection unit 335 Behavior recognition unit 336 Duration measurement unit 333a, 335a Feature point extraction unit 333b Feature point classification unit 333c, 335b Feature vector calculation unit 333d Histogram creation unit (learning histogram creation unit)
335c Histogram creation unit 333e Recognition dictionary creation unit 335d Behavior recognition unit H1, H2 people (subjects)
H (k) Learning histogram T (k) Specific behavior histogram Vk average vector (learning vector)

特開2011−100175号公報Japanese Unexamined Patent Publication No. 2011-100175

Claims (17)

撮影した動画から、当該動画に写った被写体の特定行動を認識する行動認識装置であって、
広角レンズを備える撮影手段で撮影された前記動画を入力する動画入力部と、
前記動画に含まれる画像を、歪の異なる複数の領域に分割する領域分割部と、
分割された前記領域毎に、前記被写体の特定行動を認識するための認識辞書を作成する辞書作成部と、
前記辞書作成部が作成した複数の認識辞書の中から、前記動画から検出した被写体の特定行動を認識するために使用する認識辞書を選択する辞書選択部と、
前記辞書選択部が選択した認識辞書に基づいて、前記被写体の特定行動を認識する行動認識部と、
を備える行動認識装置。
It is an action recognition device that recognizes the specific behavior of the subject in the video from the recorded video.
A video input unit for inputting the video shot by a shooting means equipped with a wide-angle lens,
A region dividing portion that divides the image included in the moving image into a plurality of regions having different distortions,
A dictionary creation unit that creates a recognition dictionary for recognizing a specific action of the subject for each of the divided areas.
A dictionary selection unit that selects a recognition dictionary to be used for recognizing a specific action of a subject detected from the moving image from a plurality of recognition dictionaries created by the dictionary creation unit.
An action recognition unit that recognizes a specific action of the subject based on the recognition dictionary selected by the dictionary selection unit.
Behavior recognition device equipped with.
前記辞書選択部は、前記動画に含まれる画像から検出した被写体の位置に応じた前記認識辞書を選択する、
請求項1に記載の行動認識装置。
The dictionary selection unit selects the recognition dictionary according to the position of the subject detected from the image included in the moving image.
The behavior recognition device according to claim 1.
同じ領域を異なる方向から撮影する、複数の撮影手段を備える、
請求項1に記載の行動認識装置。
Equipped with multiple shooting means to shoot the same area from different directions,
The behavior recognition device according to claim 1.
前記辞書選択部は、複数の前記撮影手段が撮影した動画に含まれる画像からそれぞれ検出した同じ被写体の位置に応じた前記認識辞書のうち、最も歪の小さい認識辞書を選択する、
請求項3に記載の行動認識装置。
The dictionary selection unit selects the recognition dictionary having the smallest distortion among the recognition dictionaries according to the positions of the same subjects detected from the images included in the moving images taken by the plurality of shooting means.
The behavior recognition device according to claim 3.
前記辞書選択部は、複数の前記撮影手段が撮影した動画に含まれる画像からそれぞれ検出した同じ被写体の位置に応じた前記認識辞書のうち、画像の中央に近い位置に対応する認識辞書を選択する、
請求項3又は請求項4に記載の行動認識装置。
The dictionary selection unit selects a recognition dictionary corresponding to a position close to the center of the image among the recognition dictionaries corresponding to the positions of the same subjects detected from images included in the moving images taken by the plurality of shooting means. ,
The behavior recognition device according to claim 3 or 4.
前記特定行動の認識結果に基づいて、当該特定行動の持続時間を測定する持続時間測定部を更に備える、
請求項1から請求項4のいずれか1項に記載の行動認識装置。
A duration measuring unit for measuring the duration of the specific action based on the recognition result of the specific action is further provided.
The behavior recognition device according to any one of claims 1 to 4.
前記辞書作成部は、
前記撮影手段で撮影された動画に含まれる複数の画像の中から特徴点を抽出する特徴点抽出部と、
抽出された前記特徴点をK種類に分類する特徴点分類部と、
分類されたK種類の特徴点グループに対して、それぞれのK個の学習ベクトルを求める特徴ベクトル算出部と、
前記学習ベクトルの出現頻度を表す学習ヒストグラムを作成する学習ヒストグラム作成部と、を備える
請求項1から請求項6のいずれか1項に記載の行動認識装置。
The dictionary creation unit
A feature point extraction unit that extracts feature points from a plurality of images included in a moving image shot by the shooting means, and a feature point extraction unit.
A feature point classification unit that classifies the extracted feature points into K types,
A feature vector calculation unit that obtains K learning vectors for each of the K types of classified feature point groups,
The behavior recognition device according to any one of claims 1 to 6, further comprising a learning histogram creating unit that creates a learning histogram representing the frequency of appearance of the learning vector.
前記学習ヒストグラム作成部は、
前記動画入力部によって入力された、プラス学習データを構成する、前記特定行動を行っている被写体の動画と、マイナス学習データを構成する、前記特定行動を行っていない被写体の動画とから、各データの特徴点が有する特徴量による前記学習ベクトルを用いて、それぞれ学習ヒストグラムを作成して、
前記辞書作成部は、
前記プラス学習データから生成した学習ヒストグラムと、前記マイナス学習データから生成した学習ヒストグラムとに基づいて、前記認識辞書を作成する、
請求項7に記載の行動認識装置。
The learning histogram creation unit
Each data is input from the moving image of the subject performing the specific action, which constitutes the positive learning data, and the moving image of the subject forming the negative learning data, which constitutes the positive learning data, and which is input by the moving image input unit. Using the learning vector based on the feature amount of the feature points of, each learning histogram is created.
The dictionary creation unit
The recognition dictionary is created based on the learning histogram generated from the positive learning data and the learning histogram generated from the negative learning data.
The behavior recognition device according to claim 7.
前記行動認識部は、
前記撮影手段で撮影された動画に含まれる複数の画像の中から特徴点を抽出する特徴点抽出部と、
抽出された前記特徴点における時空間エッジの大きさと方向を示す特徴ベクトルを算出する特徴ベクトル算出部と、
前記特徴点における前記特徴ベクトルの出現頻度を表すヒストグラムを作成するヒストグラム作成部と、を備えて、
前記ヒストグラムと、前記認識辞書とに基づいて、前記被写体の特定行動を認識する、
請求項7または請求項8に記載の行動認識装置。
The behavior recognition unit
A feature point extraction unit that extracts feature points from a plurality of images included in a moving image shot by the shooting means, and a feature point extraction unit.
A feature vector calculation unit that calculates a feature vector indicating the size and direction of the spatiotemporal edge at the extracted feature points, and a feature vector calculation unit.
A histogram creating unit for creating a histogram showing the appearance frequency of the feature vector at the feature point is provided.
Recognizing the specific behavior of the subject based on the histogram and the recognition dictionary.
The behavior recognition device according to claim 7 or 8.
前記特徴ベクトル算出部は、
入力された複数の画像をM×N×Tサイズのフロックに分割し、各ブロックを微分処理することで、M×N×T×3次元の微分ベクトルを計算して、
計算した前記微分ベクトルと事前に学習した前記学習ベクトルとを比較し、当該比較の結果に基づいて前記微分ベクトルを最も近い前記学習ベクトルと同じ種類の特徴点に分類して、
前記ヒストグラム作成部は、
当該分類の結果に基づいて前記ヒストグラムを作成する、
請求項9に記載の行動認識装置。
The feature vector calculation unit
By dividing a plurality of input images into M × N × T size flocs and differentiating each block, an M × N × T × 3D differential vector is calculated.
The calculated differential vector is compared with the pre-learned learning vector, and the differential vector is classified into the closest feature points of the same type as the learning vector based on the result of the comparison.
The histogram creation unit
Create the histogram based on the result of the classification.
The behavior recognition device according to claim 9.
前記辞書作成部及び前記行動認識部は、
入力された前記動画に対して、時間軸でのフィルタリング処理を行い、
前記特徴点抽出部は、
前記フィルタリング処理を行った結果、M×N×Tのブロック内における平均値が所定の閾値より大きい場合に、前記ブロックを特徴点として抽出する、
請求項7から請求項10のいずれか1項に記載の行動認識装置。
The dictionary creation unit and the action recognition unit
The input video is filtered on the time axis to perform filtering processing.
The feature point extraction unit
As a result of performing the filtering process, when the average value in the block of M × N × T is larger than a predetermined threshold value, the block is extracted as a feature point.
The behavior recognition device according to any one of claims 7 to 10.
ev及びgodを、以下の式(1)及び式(2)で示されるGaborフィルタのカーネルとし、*を畳み込み処理とし、τ及びωを前記カーネルのパラメータとした場合、前記フィルタリング処理は、以下の式(3)を用いたGaborフィルタリング処理である、
Figure 2020154552
Figure 2020154552
Figure 2020154552
請求項11に記載の行動認識装置。
When g ev and good are the kernels of the Gabor filter represented by the following equations (1) and (2), * is a convolution process, and τ and ω are parameters of the kernel, the filtering process is performed. This is a Gabor filtering process using the following equation (3).
Figure 2020154552
Figure 2020154552
Figure 2020154552
The behavior recognition device according to claim 11.
前記特徴点抽出部は、
前記フィルタリング処理を行う前に、各画像に対して平滑化処理を行う、
請求項11又は請求項12に記載の行動認識装置。
The feature point extraction unit
Before performing the filtering process, a smoothing process is performed on each image.
The behavior recognition device according to claim 11 or 12.
前記行動認識部は、
前記被写体の特定行動を認識する場合に、所定の順序で特定行動を認識し、特定行動が認識された場合は認識結果を出力して、
特定行動が認識されない場合は、次の特定行動を認識する、
請求項1から請求項13のいずれか1項に記載の行動認識装置。
The behavior recognition unit
When recognizing the specific action of the subject, the specific action is recognized in a predetermined order, and when the specific action is recognized, the recognition result is output.
If a specific action is not recognized, recognize the next specific action,
The behavior recognition device according to any one of claims 1 to 13.
前記広角レンズは、魚眼レンズである、
請求項1から請求項14のいずれか1項に記載の行動認識装置。
The wide-angle lens is a fisheye lens.
The behavior recognition device according to any one of claims 1 to 14.
撮影した動画から、当該動画に写った被写体の特定行動を認識する際に、
広角レンズを備える撮影手段で撮影された前記動画を入力する動画入力ステップと、
前記動画に含まれる画像を、歪の異なる複数の領域に分割する領域分割ステップと、
分割された前記領域毎に、前記被写体の特定行動を認識するための異なる認識辞書を作成する辞書作成ステップと、
前記辞書作成ステップで作成した複数の認識辞書の中から、前記動画から検出した被写体の特定行動を認識するために使用する認識辞書を選択する辞書選択ステップと、
前記辞書選択ステップで選択した認識辞書に基づいて、前記被写体の特定行動を認識する行動認識ステップと、
を実行する行動認識方法。
When recognizing the specific behavior of the subject in the video from the recorded video,
A video input step for inputting the video shot by a shooting means equipped with a wide-angle lens, and
A region division step of dividing the image included in the moving image into a plurality of regions having different distortions,
A dictionary creation step of creating a different recognition dictionary for recognizing a specific action of the subject for each of the divided areas,
A dictionary selection step for selecting a recognition dictionary to be used for recognizing a specific action of a subject detected from the moving image from a plurality of recognition dictionaries created in the dictionary creation step.
An action recognition step that recognizes a specific action of the subject based on the recognition dictionary selected in the dictionary selection step,
Behavior recognition method to execute.
撮影した動画から、当該動画に写った被写体の特定行動を認識する行動認識装置を制御するコンピュータを、
広角レンズを備える撮影手段で撮影された前記動画を入力する動画入力部と、
前記動画に含まれる画像を、歪の異なる複数の領域に分割する領域分割部と、
分割された前記領域毎に、前記被写体の特定行動を認識するための認識辞書を作成する辞書作成部と、
前記辞書作成部が作成した複数の認識辞書の中から、前記動画から検出した被写体の特定行動を認識するために使用する認識辞書を選択する辞書選択部と、
前記辞書選択部が選択した認識辞書に基づいて、前記被写体の特定行動を認識する行動認識部と、
して機能させるプログラム。
A computer that controls an action recognition device that recognizes the specific behavior of the subject in the video from the recorded video.
A video input unit for inputting the video shot by a shooting means equipped with a wide-angle lens,
A region dividing portion that divides the image included in the moving image into a plurality of regions having different distortions,
A dictionary creation unit that creates a recognition dictionary for recognizing a specific action of the subject for each of the divided areas.
A dictionary selection unit that selects a recognition dictionary to be used for recognizing a specific action of a subject detected from the moving image from a plurality of recognition dictionaries created by the dictionary creation unit.
An action recognition unit that recognizes a specific action of the subject based on the recognition dictionary selected by the dictionary selection unit.
A program that works.
JP2019051167A 2019-03-19 2019-03-19 Action recognition device, action recognition method and program Active JP7338182B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019051167A JP7338182B2 (en) 2019-03-19 2019-03-19 Action recognition device, action recognition method and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019051167A JP7338182B2 (en) 2019-03-19 2019-03-19 Action recognition device, action recognition method and program

Publications (2)

Publication Number Publication Date
JP2020154552A true JP2020154552A (en) 2020-09-24
JP7338182B2 JP7338182B2 (en) 2023-09-05

Family

ID=72559041

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019051167A Active JP7338182B2 (en) 2019-03-19 2019-03-19 Action recognition device, action recognition method and program

Country Status (1)

Country Link
JP (1) JP7338182B2 (en)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009088850A (en) * 2007-09-28 2009-04-23 Nec Corp Moving image distribution system and moving image distributing method
JP2011100175A (en) * 2009-11-04 2011-05-19 Nippon Hoso Kyokai <Nhk> Device and program for deciding personal action
JP2015194901A (en) * 2014-03-31 2015-11-05 セコム株式会社 Track device and tracking system
JP2016171526A (en) * 2015-03-13 2016-09-23 株式会社東芝 Image sensor, person detection method, control system, control method, and computer program

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009088850A (en) * 2007-09-28 2009-04-23 Nec Corp Moving image distribution system and moving image distributing method
JP2011100175A (en) * 2009-11-04 2011-05-19 Nippon Hoso Kyokai <Nhk> Device and program for deciding personal action
JP2015194901A (en) * 2014-03-31 2015-11-05 セコム株式会社 Track device and tracking system
JP2016171526A (en) * 2015-03-13 2016-09-23 株式会社東芝 Image sensor, person detection method, control system, control method, and computer program

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
関 海克: "職場における行動認識", 第23回 画像センシングシンポジウム SSII2017 [USB], vol. SO2−IS2−05, JPN6023004595, 7 June 2017 (2017-06-07), JP, ISSN: 0004982284 *
青木 義満: "視覚センサによる見守り技術について", 通信ソサイエティマガジン, vol. 11巻,1号, JPN6023004594, 1 June 2017 (2017-06-01), JP, pages 30 - 38, ISSN: 0005112892 *

Also Published As

Publication number Publication date
JP7338182B2 (en) 2023-09-05

Similar Documents

Publication Publication Date Title
US11809998B2 (en) Maintaining fixed sizes for target objects in frames
CN108229369B (en) Image shooting method and device, storage medium and electronic equipment
CN110163114B (en) Method and system for analyzing face angle and face blurriness and computer equipment
US8773548B2 (en) Image selection device and image selecting method
US8983202B2 (en) Smile detection systems and methods
US20130076943A1 (en) Apparatus and method for image recognition of facial areas in photographic images from a digital camera
EP3798975B1 (en) Method and apparatus for detecting subject, electronic device, and computer readable storage medium
US10079974B2 (en) Image processing apparatus, method, and medium for extracting feature amount of image
JP6157165B2 (en) Gaze detection device and imaging device
CN109190456B (en) Multi-feature fusion overlook pedestrian detection method based on aggregated channel features and gray level co-occurrence matrix
JP4764172B2 (en) Method for detecting moving object candidate by image processing, moving object detecting method for detecting moving object from moving object candidate, moving object detecting apparatus, and moving object detecting program
JP2018026115A (en) Flame detection method, flame detector, and electronic apparatus
CN111967319B (en) Living body detection method, device, equipment and storage medium based on infrared and visible light
JP7222231B2 (en) Action recognition device, action recognition method and program
WO2019062426A1 (en) Border detection method, server and storage medium
JP7210890B2 (en) Behavior recognition device, behavior recognition method, its program, and computer-readable recording medium recording the program
CN114494085B (en) Video stream restoration method, system, electronic device and storage medium
CN111028263B (en) Moving object segmentation method and system based on optical flow color clustering
KR20080079443A (en) Method and apparatus for extracting object from image
US10880457B2 (en) Image processing apparatus, image capturing apparatus, image processing method, and storage medium
Tian et al. Detecting good quality frames in videos captured by a wearable camera for blind navigation
CN116721288A (en) Helmet detection method and system based on YOLOv5
JP7338182B2 (en) Action recognition device, action recognition method and program
JP2008211534A (en) Face detecting device
JP6875646B2 (en) Image processing device and image processing program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230406

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230807

R151 Written notification of patent or utility model registration

Ref document number: 7338182

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151