JP2015125766A - Image recognizing device, and image recognizing method - Google Patents

Image recognizing device, and image recognizing method Download PDF

Info

Publication number
JP2015125766A
JP2015125766A JP2013272408A JP2013272408A JP2015125766A JP 2015125766 A JP2015125766 A JP 2015125766A JP 2013272408 A JP2013272408 A JP 2013272408A JP 2013272408 A JP2013272408 A JP 2013272408A JP 2015125766 A JP2015125766 A JP 2015125766A
Authority
JP
Japan
Prior art keywords
specifying
feature point
meaning
specified
gesture
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013272408A
Other languages
Japanese (ja)
Other versions
JP6144192B2 (en
Inventor
小林 茂子
Shigeko Kobayashi
茂子 小林
渋谷 彰
Akira Shibuya
彰 渋谷
▲高▼橋 誠
誠 ▲高▼橋
Makoto Takahashi
雄太 樋口
Yuta Higuchi
雄太 樋口
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to JP2013272408A priority Critical patent/JP6144192B2/en
Publication of JP2015125766A publication Critical patent/JP2015125766A/en
Application granted granted Critical
Publication of JP6144192B2 publication Critical patent/JP6144192B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Image Analysis (AREA)

Abstract

PROBLEM TO BE SOLVED: To provide an image recognizing device and an image recognizing method that serve to reduce the load of processing to identify the meanings of gesture actions.SOLUTION: An image recognizing device 10 acquires image data representing an object person to be photographed, detects a plurality of feature points of finger parts of the person on the basis of the image data, detects a plurality of feature points of arm parts of the person on the basis of the image data, and identifies punctuation points of a gesture by the person; it identifies actions of the finger parts on the basis of the feature points of the arm parts in a period based on the punctuation; it identifies the meanings of gesture actions of the person from the actions of the finger parts; if it is impossible to identify the meanings of gesture actions of the person from the actions of the finger parts, it identifies the meanings of gesture actions of the person from the actions of the finger parts and of the arm parts.

Description

本発明は、画像認識装置、及び画像認識方法に関する。   The present invention relates to an image recognition apparatus and an image recognition method.

従来における、手話などのジェスチャ認識の技術では、体全体、頭の位置、腕の動きだけでなく、指、口、顔の表情といった各々の動きを総合的に認識する。   Conventional gesture recognition techniques such as sign language comprehensively recognize not only the whole body, head position, and arm movement, but also each movement such as a finger, mouth, and facial expression.

例えば、2つのカメラでユーザの画像を撮影し、それぞれの画像の画素値の差の相対的に大きい領域をユーザ領域として、ユーザ領域中の頂部を頭領域として、頂部よりも尖った領域を手先領域と特定して、手先の動きからジェスチャを判定する技術が知られている(特許文献1)。   For example, a user's image is photographed with two cameras, a region having a relatively large difference in pixel values of the respective images is defined as a user region, a top portion in the user region is defined as a head region, and a region sharper than the top portion is defined as a tip. A technique is known that identifies a region and determines a gesture from the movement of the hand (Patent Document 1).

特開2009−211563号公報JP 2009-211153 A

しかし、特許文献1では、画像からユーザ領域を特定することができるが、全てのジェスチャに対して、体全体、頭の位置、腕、及び指の動きの検出や当該動きに対応する意味の特定した場合、処理負荷がかかるという問題点がある。   However, in Patent Document 1, a user area can be specified from an image. However, for all gestures, detection of movements of the entire body, head position, arms, and fingers, and specification of meanings corresponding to the movements are specified. In this case, there is a problem that a processing load is applied.

本発明は、このような問題点を解決するためになされたものであり、ジェスチャ動作の意味を特定する処理負荷を軽減することができる画像認識装置及び画像認識方法を提供することを目的とする。   The present invention has been made to solve such problems, and an object thereof is to provide an image recognition apparatus and an image recognition method capable of reducing the processing load for specifying the meaning of a gesture operation. .

上述の課題を解決するために、本発明の画像認識装置は、撮影対象者を画像データにして取得する画像取得手段と、画像取得手段により取得された画像データに基づいて、撮影対象者の第1特定部分の特徴点を複数検出する第1特徴点検出手段と、画像取得手段により取得された画像データに基づいて、定期的に撮影対象者の第1特定部分以外の部分である第2特定部分の特徴点を複数検出する第2特徴点検出手段と、第1特徴点検出手段又は第2特徴点検出手段が検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定手段と、区切り特定手段が特定した区切りに基づいた期間における、第1特徴点検出手段が検出した複数の特徴点に基づいて、第1特定部分の動作を特定する動作特定手段と、動作特定手段が特定した第1特定部分の動作から、撮影対象者のジェスチャの意味を特定する意味特定手段と、意味特定手段が特定した意味を出力する出力手段と、を備え、意味特定手段が、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、動作特定手段は、区切り特定手段が特定した区切りに基づいた期間における、第2特徴点検出手段が検出した複数の特徴点に基づいて、第2特定部分の動作を特定し、意味特定手段は、動作特定手段が特定した第1特定部分の動作及び第2特定部分の動作から撮影対象者のジェスチャの意味を特定する。   In order to solve the above-described problems, an image recognition apparatus according to the present invention includes an image acquisition unit that acquires a person to be imaged as image data, and a first person to be imaged based on the image data acquired by the image acquisition unit. First feature point detection means for detecting a plurality of feature points of one specific part, and second specification that is a part other than the first specific part of the person to be photographed periodically based on the image data acquired by the image acquisition means Second feature point detecting means for detecting a plurality of feature points of the part, and separator specification for specifying the separator of the subject to be photographed based on the feature points detected by the first feature point detecting means or the second feature point detecting means Means for specifying the operation of the first specific portion based on a plurality of feature points detected by the first feature point detection means during the period based on the break specified by the break specifying means, and the action specifying means But Meaning specifying means for specifying the meaning of the gesture of the subject to be photographed from the determined operation of the first specifying portion, and output means for outputting the meaning specified by the meaning specifying means. When the meaning of the gesture of the subject to be photographed cannot be specified based on the motion of the part, the action specifying means uses the plurality of feature points detected by the second feature point detecting means in the period based on the break specified by the break specifying means. Based on this, the operation of the second specific part is specified, and the meaning specifying unit specifies the meaning of the gesture of the subject to be photographed from the operation of the first specific part and the operation of the second specific part specified by the operation specifying unit.

また、本発明に係る画像認識方法において、画像認識装置で実行する画像認識方法であって、撮影対象者を画像データにして取得する画像取得ステップと、画像取得ステップにより取得された画像データに基づいて、撮影対象者の第1特定部分の特徴点を複数検出する第1特徴点検出ステップと、第1特徴点検出ステップ又は第2特徴点検出ステップで検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定ステップと、区切り特定ステップで特定した区切りに基づいた期間における、第1特徴点検出ステップで検出した特徴点に基づいて、第1特定部分の動作を特定する第1動作特定ステップと、第1動作特定ステップで特定した第1特定部分の動作から、撮影対象者のジェスチャの意味を特定する第1意味特定ステップと、第1意味特定ステップで、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、画像取得ステップにより取得された画像データに基づいて、区切り特定ステップで特定した区切りに基づいた期間における撮影対象者の第1特定部分以外の部分である第2特定部分の特徴点を複数検出する第2特徴点検出ステップと、区切り特定ステップで特定した区切りに基づいた期間における、第2特徴点検出ステップで検出した複数の特徴点に基づいて、第2特定部分の動作を特定する第2動作特定ステップと、第1動作特定ステップで特定した第1特定部分の動作及び第2動作特定ステップで第2特定部分の動作から撮影対象者のジェスチャの意味を特定する第2意味特定ステップと、第1意味特定ステップ又は第2意味特定ステップで特定した意味を出力する出力ステップと、を備える。   Further, in the image recognition method according to the present invention, the image recognition method is executed by the image recognition device, and is based on the image acquisition step of acquiring the subject person as image data, and the image data acquired by the image acquisition step. Based on the first feature point detecting step for detecting a plurality of feature points of the first specific part of the subject to be photographed and the feature points detected in the first feature point detecting step or the second feature point detecting step, A step of specifying a break of the first gesture, and a step of specifying the operation of the first specific portion based on the feature point detected in the first feature point detection step in a period based on the break specified in the step of specifying the break. A first semantic feature that specifies the meaning of the gesture of the person to be photographed from the first motion specification step and the motion of the first specific portion specified in the first motion specification step. In the step and the first meaning specifying step, when the meaning of the gesture of the subject to be photographed cannot be specified based on the operation of the first specifying portion, the step is specified in the delimitation specifying step based on the image data acquired in the image acquiring step A second feature point detecting step for detecting a plurality of feature points of the second specific portion, which is a portion other than the first specific portion of the subject in the period based on the break, and a period based on the break specified in the break specifying step , Based on the plurality of feature points detected in the second feature point detection step, a second action specifying step for specifying the action of the second specifying portion, the action of the first specifying portion specified in the first action specifying step, and the first A second meaning specifying step for specifying the meaning of the gesture of the person to be photographed from the action of the second specifying portion in the two action specifying steps; and a first meaning specifying step. Or comprising an output step of outputting the meanings specified in the second sense particular step.

この発明によれば、第1特定部分の動作に基づいて、撮影対象者のジェスチャの意味を特定できない場合に限り、第2特定部分の動作を特定するので、撮影対象者の意味を特定する処理負荷を軽減させることができる。   According to the present invention, the operation of the second specific portion is specified only when the meaning of the gesture of the person to be photographed cannot be specified based on the action of the first specific portion. The load can be reduced.

また、本発明の画像認識装置において、意味特定手段が、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、第2特徴点検出手段により第2特定部分の特徴点の検出処理を開始するようにしてもよい。この場合、画像認識装置は、第2特徴点検出手段により検出された特徴点に基づいて動作を特定することを省略するだけでなく、第2特徴点の検出が必要になるタイミングまで第2特徴点の検出も停止するので、撮影対象者の意味を特定する処理負荷をより軽減させることができる。   In the image recognition apparatus of the present invention, when the meaning specifying unit cannot specify the meaning of the gesture of the subject to be photographed based on the operation of the first specifying part, the second feature point detecting unit uses the feature point of the second specifying part. This detection process may be started. In this case, the image recognition apparatus not only omits specifying the operation based on the feature point detected by the second feature point detection means, but also the second feature until the timing when the second feature point needs to be detected. Since the point detection is also stopped, the processing load for specifying the meaning of the person to be photographed can be further reduced.

また、本発明の画像認識装置において、撮影対象者の利き手を特定する利き手特定手段をさらに備え、第1特徴点検出手段が、第1特定部分として指部分の特徴点を検出する場合、利き手特定手段が特定した利き手側の指部分の特徴点を検出し、第2特徴点検出手段が、第2特定部分として指部分の特徴点を検出する場合、利き手特定手段が特定した利き手側の指部分の特徴点を検出する、ようにしてもよい。この場合、画像認識装置は、指部分の特徴点を検出する場合に、利き手側の特徴点に基づいて動作を特定するので、検出する処理負荷を軽減させることができる。   The image recognition apparatus of the present invention further includes a dominant hand specifying unit that specifies a dominant hand of the subject to be photographed, and when the first feature point detecting unit detects a feature point of the finger portion as the first specifying part, When the feature point of the finger part on the dominant hand side specified by the means is detected and the second feature point detection means detects the feature point of the finger part as the second specific part, the finger part on the dominant hand side specified by the dominant hand specification means The feature points may be detected. In this case, when detecting the feature point of the finger part, the image recognition device identifies the action based on the feature point on the dominant hand side, so that the processing load to be detected can be reduced.

また、本発明の画像認識装置において、第1特徴点検出手段又は第2特徴点検出手段が撮影対象者の腕部分の特徴点を検出する場合、区切り特定手段は、腕部分の動きの有無に基づいて、撮影対象者のジェスチャの区切りを特定する、ようにしてもよい。この場合、画像認識装置は、腕部分の動きの有無に基づいて、ジェスチャの区切りを特定するので、ジェスチャの区切りを正確に特定することができる。   In the image recognition apparatus of the present invention, when the first feature point detection unit or the second feature point detection unit detects the feature point of the arm portion of the person to be photographed, the delimiter specifying unit determines whether or not the arm portion has moved. Based on this, it may be possible to specify the break of the gesture of the person to be photographed. In this case, since the image recognition apparatus specifies the gesture delimiter based on the presence or absence of movement of the arm portion, the gesture delimiter can be accurately specified.

本発明によれば、ジェスチャ動作の意味を判断する処理負荷を軽減することができる。   According to the present invention, it is possible to reduce the processing load for determining the meaning of a gesture operation.

本実施形態の画像認識装置10の機能構成を示すブロック図である。It is a block diagram which shows the function structure of the image recognition apparatus 10 of this embodiment. 画像認識装置10のハードウェア構成図である。2 is a hardware configuration diagram of the image recognition device 10. FIG. ジェスチャDB18及び文章解釈DB19のデータ例を示す図である。It is a figure which shows the example of data of gesture DB18 and sentence interpretation DB19. 動作とその意味の関係を示す図である。It is a figure which shows the relationship between operation | movement and its meaning. 本発明の実施形態に係る手話の意味特定処理を示すフローチャートである。It is a flowchart which shows the meaning specific process of sign language which concerns on embodiment of this invention. 本発明の実施形態に係る手話の意味特定処理を示すフローチャートである。It is a flowchart which shows the meaning specific process of sign language which concerns on embodiment of this invention.

以下、図面を参照しながら、本実施形態を説明する。可能な場合には、同一の部分には同一の符号を付して、重複する説明を省略する。   Hereinafter, this embodiment will be described with reference to the drawings. Where possible, the same parts are denoted by the same reference numerals, and redundant description is omitted.

図1は、本実施形態の画像認識装置10の機能を示すブロック図である。この画像認識装置10は、手話者などのジェスチャをテキストやイメージなどに翻訳するための装置であり、ジェスチャ入力部11(画像取得手段)、画像記憶DB(データベース)12、指特徴点検出部13(第1特徴点検出手段、第2特徴点検出手段、利き手特定手段)、全体特徴点検出部14(第1特徴点検出手段、第2特徴点検出手段)、区切り特定部15(区切り特定手段)、動作特定部16(動作特定手段)、意味特定部17(意味特定手段)、ジェスチャDB18、文章解釈DB19及び意味出力部20(出力手段)を含んで構成されている。この画像認識装置10は、例えば、携帯端末やスマートフォンなどの携帯端末であることが好適である。   FIG. 1 is a block diagram illustrating functions of the image recognition apparatus 10 according to the present embodiment. The image recognition device 10 is a device for translating a gesture such as a sign language into text or an image, and includes a gesture input unit 11 (image acquisition means), an image storage DB (database) 12, and a finger feature point detection unit 13. (First feature point detecting means, second feature point detecting means, dominant hand specifying means), overall feature point detecting section 14 (first feature point detecting means, second feature point detecting means), delimiter specifying section 15 (delimiter specifying means) ), An action specifying unit 16 (action specifying unit), a meaning specifying unit 17 (meaning specifying unit), a gesture DB 18, a sentence interpretation DB 19, and a meaning output unit 20 (output unit). The image recognition device 10 is preferably a mobile terminal such as a mobile terminal or a smartphone.

図2は、画像認識装置10のハードウェア構成図である。図1に示される画像認識装置10は、物理的には、図2に示すように、一または複数のCPU101、主記憶装置であるRAM102及びROM103、入力デバイスであるキーボード及びマウス等の入力装置104、ディスプレイ等の出力装置105、ネットワークカード等のデータ送受信デバイスである通信モジュール106、半導体メモリ等の補助記憶装置107などを含むコンピュータシステムとして構成されている。図1における各機能は、図2に示すCPU101、RAM102等のハードウェア上に所定のコンピュータソフトウェアを読み込ませることにより、CPU101の制御のもとで入力装置104、出力装置105、通信モジュール106を動作させるとともに、RAM102や補助記憶装置107におけるデータの読み出し及び書き込みを行うことで実現される。以下、図1に示す機能ブロックに基づいて、各機能ブロックを説明する。   FIG. 2 is a hardware configuration diagram of the image recognition apparatus 10. As shown in FIG. 2, the image recognition apparatus 10 shown in FIG. 1 physically includes one or a plurality of CPUs 101, a main memory RAM 102 and ROM 103, and input devices 104 such as a keyboard and a mouse. The computer system includes an output device 105 such as a display, a communication module 106 that is a data transmission / reception device such as a network card, an auxiliary storage device 107 such as a semiconductor memory, and the like. Each function in FIG. 1 operates the input device 104, the output device 105, and the communication module 106 under the control of the CPU 101 by loading predetermined computer software on the hardware such as the CPU 101 and the RAM 102 shown in FIG. In addition, it is realized by reading and writing data in the RAM 102 and the auxiliary storage device 107. Hereinafter, each functional block will be described based on the functional blocks shown in FIG.

ジェスチャ入力部11は、手話者などの撮影対象者の動作を複数の画像データとして取得する部分であり、例えばカメラ(3次元計測技術を備えたカメラ、簡易カメラ)である。なお、画像データには、撮影時刻が紐づけられている。ジェスチャ入力部11は、取得した画像データを画像記憶DB12へ記憶する。   The gesture input unit 11 is a part that acquires an operation of a person to be photographed such as a sign language as a plurality of image data, and is, for example, a camera (a camera equipped with a three-dimensional measurement technique, a simple camera). The image data is associated with the shooting time. The gesture input unit 11 stores the acquired image data in the image storage DB 12.

画像記憶DB12は、ジェスチャ入力部11が取得した画像データを記憶するデータベースである。   The image storage DB 12 is a database that stores image data acquired by the gesture input unit 11.

指特徴点検出部13は、ジェスチャ入力部11により取得された画像データに基づいて、撮影対象者の指部分(第1特定部分又は第2特定部分)の特徴点を複数検出する部分である。具体的には、指特徴点検出部13は、各画像データ中における指部分の特徴点の位置を検出することにより、指部分の特徴点の位置を複数検出する。そして、指特徴点検出部13は、予め定められている利き手情報(例えば、画像認識装置10が保持している情報)に基づいて、利き手側の指部分の特徴点を検出する。なお、指特徴点検出部13は、画像記憶DB12を介して画像データを取得してもよいし、ジェスチャ入力部11から直接画像データを取得してもよい。   The finger feature point detection unit 13 is a part that detects a plurality of feature points of the finger part (first specific part or second specific part) of the person to be photographed based on the image data acquired by the gesture input unit 11. Specifically, the finger feature point detection unit 13 detects a plurality of finger point feature point positions by detecting the positions of the finger point feature points in each image data. Then, the finger feature point detection unit 13 detects a feature point of the finger portion on the dominant hand side based on predetermined dominant hand information (for example, information held by the image recognition device 10). The finger feature point detection unit 13 may acquire image data via the image storage DB 12 or may directly acquire image data from the gesture input unit 11.

全体特徴点検出部14は、ジェスチャ入力部11により取得された画像データに基づいて、撮影対象者の指以外の特徴点を複数検出する部分である。具体的には、全体特徴点検出部14は、各画像データ中における指以外の特徴点として、腕、顔、及び手等の部位(第1特定部分又は第2特定部分)の特徴点の位置を検出することにより、指以外の特徴点を複数検出する。本実施形態では、全体特徴点検出部14は、指以外の特徴点として、腕の位置を検出するものとする。なお、全体特徴点検出部14は、画像記憶DB12を介して画像データを取得してもよいし、ジェスチャ入力部11から直接画像データを取得してもよい。   The overall feature point detection unit 14 is a part that detects a plurality of feature points other than the finger of the subject to be photographed based on the image data acquired by the gesture input unit 11. Specifically, the overall feature point detection unit 14 positions the feature points of parts (first specific part or second specific part) such as arms, faces, and hands as feature points other than fingers in each image data. A plurality of feature points other than the finger are detected by detecting. In the present embodiment, the whole feature point detection unit 14 detects the position of the arm as a feature point other than the finger. Note that the entire feature point detection unit 14 may acquire image data via the image storage DB 12 or may acquire image data directly from the gesture input unit 11.

区切り特定部15は、指特徴点検出部13又は全体特徴点検出部14が検出した特徴点の位置に基づいて、撮影対象者のジェスチャの区切りを特定する部分である。具体的には、区切り特定部15は、指特徴点検出部13又は全体特徴点検出部14が複数の画像データから検出した特徴点における、画像データの撮影時刻に基づいた特徴点(例えば、手首部分の特徴点)の位置の変化を検出する。区切り特定部15は、検出した位置の変化が無い又は、検出した位置の変化が予め定められている閾値より小さい箇所を撮影対象者のジェスチャの区切りであると特定する。   The delimiter specifying unit 15 is a unit that specifies the delimiter of the subject to be photographed based on the position of the feature point detected by the finger feature point detecting unit 13 or the global feature point detecting unit 14. Specifically, the delimiter specifying unit 15 includes feature points (for example, wrists) based on the image data shooting time among the feature points detected by the finger feature point detection unit 13 or the overall feature point detection unit 14 from a plurality of image data. The change in the position of the feature point) is detected. The delimiter identifying unit 15 identifies a portion where there is no change in the detected position or where the change in the detected position is smaller than a predetermined threshold as a delimiter for the subject to be photographed.

動作特定部16は、区切り特定部15が特定した区切りに基づいた期間における、指特徴点検出部13又は全体特徴点検出部14が検出した特徴点に基づいて、検出部分(例えば、指、腕等)の動作を特定する部分である。具体的に、動作特定部16は、区切り特定部15が特定した期間に対応する複数の画像データ中から指特徴点検出部13又は全体特徴点検出部14が検出した特徴点の位置変化に基づいて、検出部分の動作を特定する。例えば、動作特定部16は、画像データの撮影時刻順に、区切り特定部15が特定した期間に対応する複数の画像データ中の指特徴点検出部13又は全体特徴点検出部14が検出した特徴点の位置変化として、変化度合いや変化方向を検出することにより、検出部分の動作を特定する。なお、上記区切り特定部15が特定した区切りに基づいた期間とは、ある区切りからその次の区切りまでの期間である。   The action specifying unit 16 detects a detection part (for example, finger, arm, etc.) based on the feature points detected by the finger feature point detection unit 13 or the overall feature point detection unit 14 in the period based on the partition specified by the partition specification unit 15. And the like). Specifically, the action specifying unit 16 is based on the position change of the feature points detected by the finger feature point detection unit 13 or the global feature point detection unit 14 from a plurality of image data corresponding to the period specified by the delimiter specification unit 15. The operation of the detection part is specified. For example, the action specifying unit 16 detects the feature points detected by the finger feature point detecting unit 13 or the entire feature point detecting unit 14 in the plurality of image data corresponding to the period specified by the delimiter specifying unit 15 in the order of the photographing times of the image data. As the position change, the degree of change and the change direction are detected to identify the operation of the detection portion. The period based on the partition specified by the partition specifying unit 15 is a period from one partition to the next partition.

意味特定部17は、指特徴点検出部13又は全体特徴点検出部14の何れか1つが検出した特徴点に基づいて動作特定部16が特定した動作から、撮影対象者のジェスチャの意味を特定する。また、意味特定部17は、指特徴点検出部13又は全体特徴点検出部14の何れか1つが検出した特徴点に基づいた動作からジェスチャを特定した結果、ジェスチャの意味が複数である場合、指特徴点検出部13及び全体特徴点検出部14のそれぞれが検出した特徴点に基づいた動作(すなわち、指及び腕の動作)から、撮影対象者のジェスチャの意味を特定する。   The meaning specifying unit 17 specifies the meaning of the gesture of the subject to be photographed from the action specified by the action specifying unit 16 based on the feature point detected by any one of the finger feature point detecting unit 13 or the entire feature point detecting unit 14. To do. Further, when the meaning specifying unit 17 specifies the gesture from the action based on the feature point detected by any one of the finger feature point detecting unit 13 or the entire feature point detecting unit 14, as a result, the meaning of the gesture is plural. The meaning of the gesture of the person to be imaged is specified from the operation based on the feature points detected by the finger feature point detection unit 13 and the global feature point detection unit 14 (that is, the operation of the fingers and arms).

意味特定部17は、指特徴点検出部13又は全体特徴点検出部14の何れか1つが検出した特徴点に基づいて動作特定部16が特定した動作から、撮影対象者のジェスチャの意味を特定する際に、上記動作に対応する意味を、後述するジェスチャDB18及び文章解釈DB19を用いて検索することにより、撮影対象者のジェスチャの意味を特定する。   The meaning specifying unit 17 specifies the meaning of the gesture of the subject to be photographed from the action specified by the action specifying unit 16 based on the feature point detected by any one of the finger feature point detecting unit 13 or the entire feature point detecting unit 14. In doing so, the meaning of the gesture of the person to be photographed is specified by searching for the meaning corresponding to the above-described operation using the gesture DB 18 and the sentence interpretation DB 19 described later.

また、意味特定部17は、指特徴点検出部13又は全体特徴点検出部14の何れか1つが検出した特徴点に基づいた動作からジェスチャを特定した結果、ジェスチャの意味が複数である場合、指特徴点検出部13及び全体特徴点検出部14のそれぞれが検出した特徴点に基づいた動作から、撮影対象者のジェスチャの意味を特定する際に、指特徴点検出部13及び全体特徴点検出部14のそれぞれが検出した特徴点に基づいた動作の意味を、ジェスチャDB18及び文章解釈DB19を用いて検索する。なお、意味特定部17は、最初に検索して取得した複数のジェスチャの意味をメモリ(例えば、RAM102)で保持しておき、当該複数のジェスチャの意味と、指特徴点検出部13及び全体特徴点検出部14のそれぞれが検出した特徴点に基づいた動作とに基づいて、撮影対象者のジェスチャの意味を特定するようにしてもよい。   Further, when the meaning specifying unit 17 specifies the gesture from the action based on the feature point detected by any one of the finger feature point detecting unit 13 or the entire feature point detecting unit 14, as a result, the meaning of the gesture is plural. The finger feature point detection unit 13 and the whole feature point detection are performed when the meaning of the gesture of the person to be photographed is specified from the operations based on the feature points detected by the finger feature point detection unit 13 and the whole feature point detection unit 14 respectively. The meaning of the action based on the feature point detected by each unit 14 is searched using the gesture DB 18 and the sentence interpretation DB 19. The meaning specifying unit 17 stores the meanings of a plurality of gestures obtained by first searching in a memory (for example, the RAM 102), and the meanings of the plurality of gestures, the finger feature point detecting unit 13, and the overall features. You may make it identify the meaning of a to-be-photographed person's gesture based on the operation | movement based on the feature point which each of the point detection part 14 detected.

ジェスチャDB18は、手話者の動作のパターンを記述するデータベースである。これはジェスチャ認識のための一般的なデータベースである。   The gesture DB 18 is a database that describes a movement pattern of a signer. This is a general database for gesture recognition.

ジェスチャDB18のデータ例を図3(A)に示す。図3(A)は、指の動きに関するジェスチャのデータ例である。図3(A)に示すように、ジェスチャDB18は、「ジェスチャID」と、「手の向き」と、「手の角度」と、「指の突起有無」と、「手の動きの情報」とを少なくとも有する。図示していないが、ジェスチャDB18では、顔、腕の動きの情報もさらに有する。   A data example of the gesture DB 18 is shown in FIG. FIG. 3A is an example of gesture data regarding finger movement. As shown in FIG. 3A, the gesture DB 18 includes “gesture ID”, “hand orientation”, “hand angle”, “finger protrusion presence / absence”, “hand movement information”, and the like. At least. Although not shown, the gesture DB 18 further includes information on face and arm movements.

例えば、ジェスチャIDが「00000001」であるジェスチャは、手の向きが正面であり、手の角度が0度(指先が上を向いた状態)であり、「指の突起有無」に基づき、親指のみ上がっていて、「動き」に基づき、手が止まっていることを示す。「指の突起有無」の情報では、「1」の値が割り当てられている指が上がっていることを示す。   For example, a gesture whose gesture ID is “00000001” is that the direction of the hand is the front, the angle of the hand is 0 degrees (with the fingertip facing up), and only the thumb is based on “the presence or absence of a finger protrusion” Shows that the hand has stopped, based on "movement". The “finger presence / absence” information indicates that the finger assigned the value “1” is raised.

文章解釈DB19は、意味特定部17が、ジェスチャDB18を参照して、ある程度の動作を認識すると、その意味を解釈するためのデータベースである。ここには動作のパターンの識別子とその意味(意図)とが対応付けて記述されることになる。これも一般的なジェスチャ解析のためのデータベースである。   The sentence interpretation DB 19 is a database for interpreting the meaning when the meaning identifying unit 17 refers to the gesture DB 18 and recognizes a certain amount of movement. Here, an identifier of an operation pattern and its meaning (intention) are described in association with each other. This is also a database for general gesture analysis.

文章解釈DB19が記憶しているデータ例を図3(B)に示す。図3(B)に示すように、文章解釈DB19は、「ジェスチャID」と「意味」とを有する。   An example of data stored in the sentence interpretation DB 19 is shown in FIG. As shown in FIG. 3B, the sentence interpretation DB 19 has “gesture ID” and “meaning”.

図3(B)の例では、ジェスチャIDが「00000001」のジェスチャは、指文字で「あ」の意味であることを示す。また、ジェスチャIDが「00002000」のジェスチャは、名詞の「スタイル」、「形」、「型」の意味があることを示す。すなわち、ジェスチャIDが「00002000」のジェスチャは、複数の意味を有している。   In the example of FIG. 3B, a gesture having a gesture ID “00000001” indicates that “a” means a finger character. A gesture with a gesture ID “00002000” indicates that the nouns “style”, “form”, and “type” have meanings. That is, a gesture having a gesture ID “00002000” has a plurality of meanings.

なお、文章解釈DB19で保持しているデータの「意味」は、指の動作のみに基づいて特定できる意味、「上体、腕、及び頭」の動作のみで特定できる意味、及び、指の動作と「上体、腕、及び頭」の動作との両方で特定できる意味がある。   The “meaning” of the data stored in the sentence interpretation DB 19 has a meaning that can be specified based only on the movement of the finger, a meaning that can be specified only by the movement of the “upper body, arm, and head”, and the movement of the finger. And “upper body, arm, and head” movements can be specified.

指の動作のみに基づいて特定できる意味、「上体、腕、及び頭」の動作のみに基づいて特定できる意味、及び指の動作と「上体、腕、及び頭」の動作との両方に基づいて特定できる意味の例を図4に示す。   Meaning that can be specified based only on the movement of the finger, meaning that can be specified based only on the movement of the “upper body, arm, and head”, and both the movement of the finger and the movement of the “upper body, arm, and head” Examples of meanings that can be specified based on FIG. 4 are shown.

図4に示すように、指の動作のみに基づいて特定できる意味として、五十音、アルファベット、数字等がある。また、「上体、腕、及び頭」の動作のみに基づいて特定できる意味として、体の特定の部位を示すものがある。そして、指の動作と「上体、腕、及び頭」の動作との両方に基づいて特定できる意味として、約束(両手の小指を絡める)等がある。   As shown in FIG. 4, as meanings that can be specified based only on the movement of a finger, there are a Japanese syllabary, alphabets, numbers, and the like. In addition, as a meaning that can be specified based only on the action of the “upper body, arm, and head”, there is one that indicates a specific part of the body. As a meaning that can be specified based on both the movement of the finger and the movement of the “upper body, arm, and head”, there is a promise (entangles the little finger of both hands).

このように、指の動作だけで意味を特定できるものや、「上体、腕、及び頭」の動作だけで意味を特定できるものがあるので、指の動作と「上体、腕、及び頭」の動作との双方の動作を特定することなく、意味を特定することも可能である。この点に着目し、本実施形態では、最初に、指特徴点検出部13及び全体特徴点検出部14の一方から検出した特徴点に基づいて動作を特定し、その動作から1つの意味に特定できれば、その意味を出力し、上記動作に対応する複数の意味候補がある場合、指特徴点検出部13が検出した特徴点に基づいた動作、及び全体特徴点検出部14が検出した特徴点に基づいた動作から意味を特定する。   In this way, there are those that can specify the meaning only by the movement of the finger, and those that can specify the meaning only by the movement of the “upper body, arm, and head”. It is also possible to specify the meaning without specifying both operations. Focusing on this point, in the present embodiment, first, an action is specified based on a feature point detected from one of the finger feature point detection unit 13 and the overall feature point detection unit 14, and the action is specified as one meaning. If possible, the meaning is output, and when there are a plurality of semantic candidates corresponding to the motion, the motion based on the feature point detected by the finger feature point detection unit 13 and the feature point detected by the global feature point detection unit 14 Identify the meaning from the action based on it.

意味出力部20は、意味特定部17が特定したジェスチャの意味を出力する部分である。具体的には、ディスプレイ等である。   The meaning output unit 20 is a part that outputs the meaning of the gesture specified by the meaning specifying unit 17. Specifically, it is a display or the like.

続いて、最初に全体特徴点検出部14が検出した特徴点に基づいた動作のみから意味を特定する場合の処理の説明を図5に示すフローチャートを用いて説明する。前提として、図5に示すフローチャートの処理が始まる前は、指特徴点検出部13は、停止しているものとする。図5に示すフローチャートの処理では、全体特徴点検出部14が第1特徴点検出手段に対応し、指特徴点検出部13が第2特徴点検出手段に対応する。   Next, a description will be given of processing in the case where the meaning is specified only from the operation based on the feature points detected by the overall feature point detection unit 14 with reference to the flowchart shown in FIG. As a premise, it is assumed that the finger feature point detection unit 13 is stopped before the processing of the flowchart shown in FIG. In the process of the flowchart shown in FIG. 5, the overall feature point detection unit 14 corresponds to the first feature point detection unit, and the finger feature point detection unit 13 corresponds to the second feature point detection unit.

撮影対象となる手話者の手話動作が、ジェスチャ入力部11により撮影され、撮影対象の画像データが入力され、この画像データを画像記憶DB12へ記憶する(ステップS1)。全体特徴点検出部14は、画像データから腕に対応する特徴点の位置を検出する(ステップS2)。続いて、区切り特定部15は、直前に撮影された画像データ中の腕の特徴点の一又は複数の位置と比較して腕の特徴点位置の変化度合いを判定する(ステップS3)。   The sign language action of the sign language to be photographed is photographed by the gesture input unit 11, image data to be photographed is input, and this image data is stored in the image storage DB 12 (step S1). The whole feature point detection unit 14 detects the position of the feature point corresponding to the arm from the image data (step S2). Subsequently, the delimiter specifying unit 15 determines the degree of change in the arm feature point position by comparing with one or more positions of the arm feature points in the image data captured immediately before (step S3).

区切り特定部15が特徴点位置の変化度合いを判定した結果、腕が下りた状態で、且つ腕の動きが一定時間停止していると判断した場合(ステップS4;YES)、区切り特定部15は、区切りを特定し、ステップS5へ移動する。   When the delimiter specifying unit 15 determines the degree of change in the feature point position, and when it is determined that the arm is down and the movement of the arm is stopped for a certain time (step S4; YES), the delimiter specifying unit 15 Then, the break is specified, and the process proceeds to step S5.

区切り特定部15が特徴点位置の変化度合いを判定した結果、腕の動きが一定時間停止していない場合(ステップS4;NO)、ステップS1へ戻る。このように、区切り特定部15が、腕の動きが一定時間停止していると判断するまで、ステップS1〜ステップS3を定期的に実行する。   As a result of determining the change degree of the feature point position by the delimiter specifying unit 15, when the movement of the arm has not stopped for a certain time (step S4; NO), the process returns to step S1. In this way, step S1 to step S3 are periodically executed until the delimiter specifying unit 15 determines that the movement of the arm has stopped for a certain period of time.

ステップS5において、動作特定部16は、区切り特定部15が特定した区切りに基づいた期間(区切り特定部15が特定した区切りとその直前の区切りの間)に対応する画像データに対して全体特徴点検出部14が検出した特徴点を用いて腕の動作を特定する(ステップS5)。そして、意味特定部17は、当該動作に基づいて意味を特定する(ステップS6)。   In step S5, the action specifying unit 16 performs an overall feature check on the image data corresponding to the period (between the break specified by the break specifying unit 15 and the immediately preceding break) based on the break specified by the break specifying unit 15. The movement of the arm is specified using the feature point detected by the projecting portion 14 (step S5). And the meaning specific | specification part 17 specifies a meaning based on the said operation | movement (step S6).

上記期間における動作に基づいて意味特定部17が特定した意味が1つの場合(ステップS7;NO)、ステップS11へ移動する。意味特定部17が特定した意味が複数の場合(ステップS7;YES)、指特徴点検出部13による指部分の特徴点の検出処理を開始し、指特徴点検出部13は、上記期間に対応する画像データに対して、指部分の特徴点を検出する(ステップS8)。動作特定部16は、指特徴点検出部13が検出した特徴点を用いて指の動作を特定する(ステップS9)。そして、意味特定部17は、動作特定部16が特定した動作に基づいて動作の意味を特定し(ステップS10)、ステップS11へ移動する。   When the meaning specified by the meaning specifying unit 17 based on the operation in the period is one (step S7; NO), the process moves to step S11. When the meaning specified by the meaning specifying unit 17 is plural (step S7; YES), the finger feature point detecting unit 13 starts detecting the feature points of the finger part, and the finger feature point detecting unit 13 corresponds to the above period. A feature point of the finger portion is detected for the image data to be processed (step S8). The action specifying unit 16 specifies a finger action using the feature points detected by the finger feature point detecting unit 13 (step S9). And the meaning specific | specification part 17 specifies the meaning of operation | movement based on the operation | movement which the operation | movement specific | specification part 16 specified (step S10), and moves to step S11.

ステップS11において、意味出力部20は、意味特定部17が特定した意味を出力し、処理を終了する。このように、画像認識装置10は、最初に全体特徴点検出部14が検出した特徴点を用いて腕の動作を特定し、当該腕の動作に基づいてジェスチャの意味を特定している。この結果、画像認識装置10は、腕の動作だけで意味を特定できる場合に、指特徴点検出部13が検出する特徴点に基づいて動作を特定する処理を省略しているので、ジェスチャの意味を特定する処理負荷を軽減することができる。   In step S11, the meaning output unit 20 outputs the meaning specified by the meaning specifying unit 17, and ends the process. As described above, the image recognition apparatus 10 specifies the motion of the arm using the feature point detected by the overall feature point detection unit 14 first, and specifies the meaning of the gesture based on the motion of the arm. As a result, the image recognition device 10 omits the process of specifying the action based on the feature point detected by the finger feature point detection unit 13 when the meaning can be specified only by the action of the arm. It is possible to reduce the processing load for specifying.

続いて、最初に指特徴点検出部13が検出した特徴点に基づいた動作から意味を特定する場合の処理の説明を図6に示すフローチャートを用いて説明する。前提として、図6のフローチャートの処理前は、全体特徴点検出部14が停止しているものとする。図6に示すフローチャートの処理では、指特徴点検出部13が第1特徴点検出手段に対応し、全体特徴点検出部14が第2特徴点検出手段に対応する。   Next, a description will be given of processing when a meaning is specified from an operation based on a feature point detected by the finger feature point detection unit 13 with reference to a flowchart shown in FIG. As a premise, it is assumed that the entire feature point detection unit 14 is stopped before the processing of the flowchart of FIG. In the processing of the flowchart shown in FIG. 6, the finger feature point detector 13 corresponds to the first feature point detector, and the overall feature point detector 14 corresponds to the second feature point detector.

撮影対象となる手話者の手話動作が、ジェスチャ入力部11により撮影され、撮影対象の画像データが入力され、この画像データを画像記憶DB12へ記憶する(ステップS21)。指特徴点検出部13は、画像データから腕に対応する特徴点の位置を検出する(ステップS22)。続いて、区切り特定部15は、直前に撮影された画像データ中の指の特徴位置と比較して指の特徴点位置の変化度合いを判定する(ステップS23)。   The sign language action of the sign language to be photographed is photographed by the gesture input unit 11, image data to be photographed is input, and this image data is stored in the image storage DB 12 (step S21). The finger feature point detector 13 detects the position of the feature point corresponding to the arm from the image data (step S22). Subsequently, the delimiter specifying unit 15 determines the degree of change in the finger feature point position in comparison with the finger feature position in the image data captured immediately before (step S23).

区切り特定部15が特徴点の位置の変化度合いを判定した結果、指の動きが一定時間停止していると判断した場合(ステップS24;YES)、区切り特定部15は、区切りを特定し、ステップS25へ移動する。   As a result of determining the degree of change in the position of the feature point by the delimiter specifying unit 15, when it is determined that the finger movement has stopped for a certain time (step S 24; YES), the delimiter specifying unit 15 specifies the delimiter, and step Move to S25.

区切り特定部15が特徴点の位置の変化度合いを判定した結果、指の動きが一定時間停止していない場合(ステップS24;NO)、ステップS21へ戻る。このように、区切り特定部15が、指の動きが一定時間停止していると判断するまで、ステップS21〜ステップS23を定期的に実行する。   When the delimiter specifying unit 15 determines the degree of change in the position of the feature point, if the finger movement has not stopped for a certain time (step S24; NO), the process returns to step S21. In this way, step S21 to step S23 are periodically executed until the delimiter specifying unit 15 determines that the finger movement has stopped for a certain period of time.

ステップS25において、動作特定部16は、区切り特定部15が特定した区切りに基づいた期間(区切り特定部15が特定した区切りとその直前の区切りの間)に対応する画像データに対して指特徴点検出部13が検出した特徴点を用いて指の動作を特定する(ステップS25)。そして、意味特定部17は、当該動作に基づいて意味を特定する(ステップS26)。   In step S25, the action specifying unit 16 performs finger feature inspection on image data corresponding to a period (between the delimiter specified by the delimiter specifying unit 15 and the immediately preceding delimiter) based on the delimiter specified by the delimiter specifying unit 15. The movement of the finger is specified using the feature points detected by the output unit 13 (step S25). And the meaning specific | specification part 17 specifies a meaning based on the said operation | movement (step S26).

上記期間における動作に基づいて意味特定部17が特定した意味が1つの場合(ステップS27;NO)、ステップS31へ移動する。意味特定部17が特定した意味が複数の場合(ステップS27;YES)、全体特徴点検出部14による腕部分の特徴点の検出処理を開始し、全体特徴点検出部14は、上記期間に対応する画像データに対して、腕部分の特徴点を検出する(ステップS28)。動作特定部16は、全体特徴点検出部14が検出した特徴点を用いて腕の動作を特定する(ステップS29)。そして、意味特定部17は、動作特定部16が特定した動作に基づいて動作の意味を特定し(ステップS30)、ステップS31へ移動する。   When the meaning specified by the meaning specifying unit 17 based on the operation in the period is one (step S27; NO), the process moves to step S31. When the meaning specified by the meaning specifying unit 17 is plural (step S27; YES), the feature point detection process of the arm part by the whole feature point detecting unit 14 is started, and the whole feature point detecting unit 14 corresponds to the above period. A feature point of the arm portion is detected from the image data to be processed (step S28). The motion identifying unit 16 identifies the arm motion using the feature points detected by the overall feature point detecting unit 14 (step S29). And the meaning specific | specification part 17 specifies the meaning of operation | movement based on the operation | movement which the operation | movement specific | specification part 16 specified (step S30), and moves to step S31.

ステップS31において、意味出力部20は、意味特定部17が特定した意味を出力し、処理を終了する。このように、画像認識装置10は、最初に指特徴点検出部13が検出した特徴点を用いて指の動作を特定し、当該指の動作に基づいてジェスチャの意味を特定している。この結果、画像認識装置10は、指の動作だけで意味を特定できる場合に、全体特徴点検出部14が検出する特徴点に基づいて動作を特定する処理を省略しているので、ジェスチャの意味を特定する処理負荷を軽減することができる。   In step S31, the meaning output unit 20 outputs the meaning specified by the meaning specifying unit 17 and ends the process. As described above, the image recognition device 10 identifies the motion of the finger using the feature point detected by the finger feature point detection unit 13 first, and identifies the meaning of the gesture based on the motion of the finger. As a result, the image recognition device 10 omits the process of specifying the action based on the feature points detected by the overall feature point detection unit 14 when the meaning can be specified only by the action of the finger. It is possible to reduce the processing load for specifying.

つぎに、本実施形態における画像認識装置10の作用効果について説明する。   Next, functions and effects of the image recognition device 10 according to the present embodiment will be described.

本実施形態の画像認識装置10によれば、ジェスチャ入力部11は、撮影対象者を画像データにして取得する。指特徴点検出部13は、画像データに基づいて、撮影対象者の指部分の特徴点を複数検出し、全体特徴点検出部14は、画像データに基づいて、撮影対象者の腕部分の特徴点を複数検出し、区切り特定部15は、指特徴点検出部13検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する。動作特定部16は、区切り特定部15が特定した区切りに基づいた期間における、指特徴点検出部13が検出した特徴点に基づいて、指部分の動作を特定する。意味特定部17は、動作特定部16が特定した指部分の動作から、撮影対象者のジェスチャの意味を特定する。意味特定部17が、指部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合(例えば、撮影対象者の意味が複数ある場合)、全体特徴点検出部14は、区切り特定部15が特定した区切りに基づいた期間に対応する画像データに基づいて特徴点を複数検出する。動作特定部16は、区切り特定部15が特定した区切りに基づいた期間における、全体特徴点検出部14が検出した複数の特徴点に基づいて、腕特定部分の動作を特定し、意味特定部17は、動作特定部16が特定した指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定する。意味出力部20は、意味特定部17が特定した意味を出力する。   According to the image recognition apparatus 10 of the present embodiment, the gesture input unit 11 acquires the subject person as image data. The finger feature point detection unit 13 detects a plurality of feature points of the finger part of the person to be photographed based on the image data, and the overall feature point detection unit 14 features the arm part of the person to be photographed based on the image data. A plurality of points are detected, and the delimiter specifying unit 15 specifies the delimiter of the subject to be photographed based on the feature points detected by the finger feature point detecting unit 13. The action specifying unit 16 specifies the action of the finger part based on the feature points detected by the finger feature point detecting unit 13 in the period based on the break specified by the break specifying unit 15. The meaning specifying unit 17 specifies the meaning of the gesture of the subject to be photographed from the motion of the finger portion specified by the motion specifying unit 16. When the meaning identifying unit 17 cannot identify the meaning of the gesture of the subject to be photographed based on the movement of the finger part (for example, when there are a plurality of meanings of the subject to be photographed), the whole feature point detecting unit 14 A plurality of feature points are detected based on the image data corresponding to the period based on the specified break. The action specifying unit 16 specifies the operation of the arm specifying part based on the plurality of feature points detected by the overall feature point detecting unit 14 during the period based on the break specified by the break specifying unit 15, and the meaning specifying unit 17. Specifies the meaning of the gesture of the subject to be photographed from the movement of the finger part and the movement of the arm part specified by the movement specifying unit 16. The meaning output unit 20 outputs the meaning specified by the meaning specifying unit 17.

このように、画像認識装置10は、指部分の動作に基づいて、撮影対象者のジェスチャの意味を特定できない場合に限り、腕部分の動作を特定するので、撮影対象者の意味を特定する処理負荷を軽減させることができる。   As described above, the image recognition device 10 identifies the motion of the arm portion only when the meaning of the gesture of the subject to be photographed cannot be identified based on the motion of the finger portion. The load can be reduced.

画像認識装置10では、意味特定部17が、指部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、全体特徴点検出部14による腕部分の特徴点の検出処理を開始する。この場合、画像認識装置10は、全体特徴点検出部14により検出された特徴点に基づいて動作を特定することを省略するだけでなく、腕部分の特徴点の検出が必要になるタイミングまで全体特徴点検出部14による特徴点の検出処理をしないので、撮影対象者の意味を特定する処理負荷をより軽減させることができる。   In the image recognition device 10, when the meaning specifying unit 17 cannot specify the meaning of the gesture of the person to be photographed based on the movement of the finger part, the whole feature point detecting unit 14 starts the feature point detection processing of the arm part. In this case, the image recognition device 10 not only omits specifying the operation based on the feature points detected by the overall feature point detection unit 14 but also until the timing at which the feature points of the arm portion need to be detected. Since the feature point detection process by the feature point detection unit 14 is not performed, the processing load for specifying the meaning of the person to be photographed can be further reduced.

画像認識装置10では、指特徴点検出部13は、撮影対象者の利き手を予め保持している情報に基づいて特定し、指特徴点検出部13が、利き手側の指部分の特徴点を検出する。この場合、指部分の特徴点を検出する場合に、利き手側の特徴点に基づいて指の動作を特定するので、両手の指の動作を特定する場合に比較して処理負荷を軽減させることができる。   In the image recognition device 10, the finger feature point detection unit 13 specifies the dominant hand of the subject to be photographed based on information held in advance, and the finger feature point detection unit 13 detects the feature point of the finger part on the dominant hand side. To do. In this case, when detecting the feature point of the finger part, the finger movement is specified based on the feature point on the dominant hand side, so that the processing load can be reduced compared to the case of specifying the finger operation of both hands. it can.

画像認識装置10では、区切り特定部15は、腕部分の動きの有無に基づいて、撮影対象者のジェスチャの区切りを特定する。ジェスチャの区切りの時点では、一般的に撮影対象者は、腕の動きを止めていることが多い(腕を下している場合は、より顕著である)。この傾向に基づいて、区切り特定部15は、腕部分の動きの有無に基づいて、ジェスチャの区切りを特定するので、正確にジェスチャの区切りを特定することができる。   In the image recognition device 10, the delimiter specifying unit 15 specifies the delimiter of the subject to be photographed based on the presence or absence of movement of the arm portion. In general, the person to be photographed often stops the movement of the arm at the time of the break of the gesture (when the arm is down, it is more prominent). Based on this tendency, the delimiter specifying unit 15 specifies the gesture delimiter based on the presence or absence of the movement of the arm portion, and thus can accurately identify the gesture delimiter.

上述の実施形態では、最初に指特徴点検出部13が特徴点を検出する場合には、全体特徴点検出部14を停止させておく場合について述べたが、全体特徴点検出部14を予め起動させておいてもよい。この場合でも、意味特定部17が複数の意味を特定しない限り、全体特徴点検出部14が検出した特徴点に基づいて動作を特定しないので、処理負荷を軽減させることができる。   In the above-described embodiment, the case has been described in which when the finger feature point detection unit 13 first detects a feature point, the overall feature point detection unit 14 is stopped. However, the overall feature point detection unit 14 is activated in advance. You may leave it. Even in this case, unless the meaning specifying unit 17 specifies a plurality of meanings, the operation is not specified based on the feature points detected by the overall feature point detecting unit 14, and thus the processing load can be reduced.

上述の実施形態では、利き手に関する情報を予め保持し、指特徴点検出部13は、その保持している情報を用いて利き手を特定する場合について述べたが、過去のジェスチャの画像データを解析して、動作が大きい方の手を利き手と特定するようにしてもよい。これは、撮影対象者が利き手を優先して動かす傾向にあることに基づく。   In the above-described embodiment, information on the dominant hand is stored in advance, and the finger feature point detection unit 13 has described the case of specifying the dominant hand using the stored information. However, the image data of the past gesture is analyzed. Thus, the hand with the larger movement may be identified as the dominant hand. This is based on the fact that the person to be photographed tends to move the dominant hand with priority.

上述の実施形態では、ジェスチャ入力部11がカメラである場合について述べたが、温度センサに基づいた画像データを生成する装置によりジェスチャ入力部11を実現するようにしてもよい。   In the above-described embodiment, the case where the gesture input unit 11 is a camera has been described. However, the gesture input unit 11 may be realized by a device that generates image data based on a temperature sensor.

上述の実施形態では、意味特定部17が、指部分の動作に基づいて撮影対象者のジェスチャの意味を特定した結果、撮影対象者のジェスチャの意味が複数である場合、動作特定部16が特定した指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定する場合について述べたが、意味特定部17は、腕部分の動作から撮影対象者のジェスチャの意味を特定するようにしてもよい。すなわち、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定した結果、撮影対象者のジェスチャの意味が複数である場合、第2特定部分の動作から撮影対象者のジェスチャの意味を特定するようにしてもよい。   In the above-described embodiment, if the meaning specifying unit 17 specifies the meaning of the gesture of the subject to be photographed based on the motion of the finger part, the action specifying unit 16 specifies if the meaning of the gesture of the subject to be photographed is plural. Although the case where the meaning of the gesture of the subject to be photographed is specified from the motion of the finger portion and the motion of the arm portion described above, the meaning identifying unit 17 specifies the meaning of the gesture of the subject to be photographed from the motion of the arm portion. May be. That is, as a result of specifying the meaning of the gesture of the subject to be photographed based on the operation of the first specific portion, when there are a plurality of meanings of the gesture of the subject of photographing, the meaning of the gesture of the subject of photographing is determined from the operation of the second specific portion. May be specified.

上述の実施形態では、意味特定部17が、腕部分の動作に基づいて撮影対象者のジェスチャの意味を特定した結果、撮影対象者のジェスチャの意味が複数である場合、動作特定部16が指部分の動作を特定し、動作特定部16が特定した指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定することについて述べたが、区切りに基づいた期間中の腕部分の動作が、腕を下した状態から変化が無い場合には、動作特定部16が指部分の動作を特定する処理及び意味特定部17が指部分の動作及び腕部分の動作から撮影対象者のジェスチャの意味を特定する処理をせずに全体処理を終了してもよい。この場合、腕を下した状態では指を動作させている可能性が低いので不要な処理を省略することができる。   In the above-described embodiment, as a result of the meaning specifying unit 17 specifying the meaning of the gesture of the subject to be photographed based on the movement of the arm portion, when the meaning of the gesture of the subject to be photographed is plural, the action specifying unit 16 The movement of the part is specified, and the meaning of the gesture of the subject to be photographed is specified from the movement of the finger part and the movement of the arm part specified by the movement specifying unit 16, but the arm part during the period based on the separation is described. When the movement does not change from the state where the arm is lowered, the movement identification unit 16 performs processing for identifying the movement of the finger part, and the meaning identification unit 17 performs the gesture of the subject to be photographed based on the movement of the finger part and the movement of the arm part. The entire process may be terminated without performing the process of specifying the meaning of. In this case, since it is unlikely that the finger is moved when the arm is lowered, unnecessary processing can be omitted.

10…画像認識装置、11…ジェスチャ入力部、12…画像記憶DB、13…指特徴点検出部、14…全体特徴点検出部、15…区切り特定部、16…動作特定部、17…意味特定部、18…ジェスチャDB、19…文章解釈DB、20…意味出力部。 DESCRIPTION OF SYMBOLS 10 ... Image recognition apparatus, 11 ... Gesture input part, 12 ... Image storage DB, 13 ... Finger feature point detection part, 14 ... Whole feature point detection part, 15 ... Separation specifying part, 16 ... Action specification part, 17 ... Meaning specification Part 18 ... gesture DB, 19 ... sentence interpretation DB, 20 ... meaning output part.

Claims (5)

撮影対象者を画像データにして取得する画像取得手段と、
前記画像取得手段により取得された画像データに基づいて、撮影対象者の第1特定部分の特徴点を複数検出する第1特徴点検出手段と、
前記画像取得手段により取得された画像データに基づいて、撮影対象者の第1特定部分以外の部分である第2特定部分の特徴点を複数検出する第2特徴点検出手段と、
前記第1特徴点検出手段が検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定手段と、
前記区切り特定手段が特定した区切りに基づいた期間における、前記第1特徴点検出手段が検出した複数の特徴点に基づいて、第1特定部分の動作を特定する動作特定手段と、
前記動作特定手段が特定した第1特定部分の動作から、撮影対象者のジェスチャの意味を特定する意味特定手段と、
前記意味特定手段が特定した意味を出力する出力手段と、
を備え、
前記意味特定手段が、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、
前記動作特定手段は、前記区切り特定手段が特定した区切りに基づいた期間における、前記第2特徴点検出手段が検出した複数の特徴点に基づいて、第2特定部分の動作を特定し、
前記意味特定手段は、前記動作特定手段が特定した第1特定部分の動作及び第2特定部分の動作から撮影対象者のジェスチャの意味を特定する画像認識装置。
Image acquisition means for acquiring a subject to be imaged as image data;
First feature point detection means for detecting a plurality of feature points of the first specific portion of the person to be photographed based on the image data acquired by the image acquisition means;
Second feature point detection means for detecting a plurality of feature points of a second specific part, which is a part other than the first specific part of the subject, based on the image data acquired by the image acquisition means;
A delimiter identifying unit that identifies a delimiter of the gesture of the person to be photographed based on the feature points detected by the first feature point detecting unit;
An action specifying means for specifying an action of the first specifying portion based on a plurality of feature points detected by the first feature point detecting means in a period based on the break specified by the break specifying means;
A meaning specifying means for specifying the meaning of the gesture of the person to be photographed from the action of the first specifying portion specified by the action specifying means;
Output means for outputting the meaning specified by the meaning specifying means;
With
When the meaning specifying means cannot specify the meaning of the gesture of the subject to be photographed based on the operation of the first specifying part,
The action specifying means specifies an action of the second specifying portion based on a plurality of feature points detected by the second feature point detection means in a period based on the break specified by the break specifying means;
The meaning specifying unit is an image recognition device that specifies the meaning of a gesture of a person to be photographed from the operation of the first specific part and the operation of the second specific part specified by the action specifying unit.
前記意味特定手段が、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、前記第2特徴点検出手段により第2特定部分の特徴点の検出処理を開始する、請求項1に記載の画像認識装置。   When the meaning specifying unit cannot specify the meaning of the gesture of the person to be photographed based on the operation of the first specific part, the second feature point detecting unit starts the feature point detection process of the second specific part. Item 8. The image recognition device according to Item 1. 撮影対象者の利き手を特定する利き手特定手段をさらに備え、
前記第1特徴点検出手段が、第1特定部分として指部分の特徴点を検出する場合、前記利き手特定手段が特定した利き手側の指部分の特徴点を検出し、
前記第2特徴点検出手段が、第2特定部分として指部分の特徴点を検出する場合、前記利き手特定手段が特定した利き手側の指部分の特徴点を検出する、請求項1又は2に記載の画像認識装置。
It further includes a dominant hand identifying means for identifying the dominant hand of the person to be photographed,
When the first feature point detection means detects the feature point of the finger part as the first specific part, the feature point of the dominant hand side specified by the dominant hand specification means is detected,
The said 2nd feature point detection means detects the feature point of the finger part by the side of the dominant hand which the said dominant hand identification means specified when detecting the feature point of a finger part as a 2nd specific part. Image recognition device.
前記第1特徴点検出手段又は前記第2特徴点検出手段が撮影対象者の腕部分の特徴点を検出する場合、
前記区切り特定手段は、腕部分の動きの有無に基づいて、撮影対象者のジェスチャの区切りを特定する、
請求項1〜3の何れか一項に記載の画像認識装置。
When the first feature point detection means or the second feature point detection means detects a feature point of the arm portion of the person to be imaged,
The delimiter specifying means specifies a delimiter of the shooting subject's gesture based on the presence or absence of movement of the arm portion.
The image recognition apparatus as described in any one of Claims 1-3.
画像認識装置で実行する画像認識方法であって、
撮影対象者を画像データにして取得する画像取得ステップと、
前記画像取得ステップにより取得された画像データに基づいて、撮影対象者の第1特定部分の特徴点を複数検出する第1特徴点検出ステップと、
前記第1特徴点検出ステップで検出した特徴点に基づいて、撮影対象者のジェスチャの区切りを特定する区切り特定ステップと、
前記区切り特定ステップで特定した区切りに基づいた期間における、前記第1特徴点検出ステップで検出した特徴点に基づいて、第1特定部分の動作を特定する第1動作特定ステップと、
前記第1動作特定ステップで特定した第1特定部分の動作から、撮影対象者のジェスチャの意味を特定する第1意味特定ステップと、
前記第1意味特定ステップで、第1特定部分の動作に基づいて撮影対象者のジェスチャの意味を特定できない場合、前記画像取得ステップにより取得された画像データに基づいて、前記区切り特定ステップで特定した区切りに基づいた期間における撮影対象者の第1特定部分以外の部分である第2特定部分の特徴点を複数検出する第2特徴点検出ステップと、
前記区切り特定ステップで特定した区切りに基づいた期間における、前記第2特徴点検出ステップが検出した複数の特徴点に基づいて、第2特定部分の動作を特定する第2動作特定ステップと、
前記動作特定ステップで特定した第1特定部分の動作及び前記第2動作特定ステップで第2特定部分の動作から撮影対象者のジェスチャの意味を特定する第2意味特定ステップと、
前記第1意味特定ステップ又は前記第2意味特定ステップで特定した意味を出力する出力ステップと、
を備える、画像認識方法。
An image recognition method executed by an image recognition apparatus,
An image acquisition step for acquiring a person to be photographed as image data;
A first feature point detecting step of detecting a plurality of feature points of the first specific part of the subject to be photographed based on the image data acquired by the image acquiring step;
Based on the feature points detected in the first feature point detection step, a delimiter specifying step for specifying a delimiter of the subject to be photographed,
A first action specifying step for specifying an action of the first specifying portion based on the feature point detected in the first feature point detecting step in a period based on the break specified in the break specifying step;
A first meaning specifying step for specifying the meaning of the gesture of the person to be photographed from the action of the first specifying part specified in the first action specifying step;
In the first meaning specifying step, when the meaning of the gesture of the person to be photographed cannot be specified based on the operation of the first specifying part, the meaning is specified in the delimitation specifying step based on the image data acquired in the image acquiring step. A second feature point detecting step of detecting a plurality of feature points of a second specific portion that is a portion other than the first specific portion of the subject in the period based on the break;
A second action specifying step for specifying an action of the second specifying part based on a plurality of feature points detected by the second feature point detecting step in a period based on the break specified in the break specifying step;
A second meaning specifying step for specifying the meaning of the gesture of the person to be photographed from the action of the first specifying part specified in the action specifying step and the operation of the second specifying part in the second action specifying step;
An output step for outputting the meaning specified in the first meaning specifying step or the second meaning specifying step;
An image recognition method comprising:
JP2013272408A 2013-12-27 2013-12-27 Image recognition apparatus and image recognition method Expired - Fee Related JP6144192B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2013272408A JP6144192B2 (en) 2013-12-27 2013-12-27 Image recognition apparatus and image recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013272408A JP6144192B2 (en) 2013-12-27 2013-12-27 Image recognition apparatus and image recognition method

Publications (2)

Publication Number Publication Date
JP2015125766A true JP2015125766A (en) 2015-07-06
JP6144192B2 JP6144192B2 (en) 2017-06-07

Family

ID=53536382

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013272408A Expired - Fee Related JP6144192B2 (en) 2013-12-27 2013-12-27 Image recognition apparatus and image recognition method

Country Status (1)

Country Link
JP (1) JP6144192B2 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018020792A1 (en) * 2016-07-25 2018-02-01 ソニー株式会社 Information processing apparatus, information processing method, and program

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06138815A (en) * 1992-10-29 1994-05-20 Hitachi Ltd Finger language/word conversion system
JPH08115408A (en) * 1994-10-19 1996-05-07 Hitachi Ltd Finger language recognition device
JP2000172163A (en) * 1998-09-28 2000-06-23 Matsushita Electric Ind Co Ltd Manual operation segmenting method/device
JP2001056861A (en) * 1999-06-08 2001-02-27 Matsushita Electric Ind Co Ltd Device and method for recognizing shape and attitude of hand and recording medium where program implementing the method is recorded
JP2001286677A (en) * 2000-04-07 2001-10-16 Namco Ltd Finger language game device and information recording medium
JP2003050663A (en) * 2001-08-06 2003-02-21 Hitachi Ltd Sign language sentence recognizing device and user interface
JP2013235582A (en) * 2012-05-02 2013-11-21 Samsung Electronics Co Ltd Apparatus and method of controlling mobile terminal according to analysis of user's face

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06138815A (en) * 1992-10-29 1994-05-20 Hitachi Ltd Finger language/word conversion system
JPH08115408A (en) * 1994-10-19 1996-05-07 Hitachi Ltd Finger language recognition device
JP2000172163A (en) * 1998-09-28 2000-06-23 Matsushita Electric Ind Co Ltd Manual operation segmenting method/device
JP2001056861A (en) * 1999-06-08 2001-02-27 Matsushita Electric Ind Co Ltd Device and method for recognizing shape and attitude of hand and recording medium where program implementing the method is recorded
JP2001286677A (en) * 2000-04-07 2001-10-16 Namco Ltd Finger language game device and information recording medium
JP2003050663A (en) * 2001-08-06 2003-02-21 Hitachi Ltd Sign language sentence recognizing device and user interface
JP2013235582A (en) * 2012-05-02 2013-11-21 Samsung Electronics Co Ltd Apparatus and method of controlling mobile terminal according to analysis of user's face

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018020792A1 (en) * 2016-07-25 2018-02-01 ソニー株式会社 Information processing apparatus, information processing method, and program
JPWO2018020792A1 (en) * 2016-07-25 2019-05-09 ソニー株式会社 INFORMATION PROCESSING APPARATUS, INFORMATION PROCESSING METHOD, AND PROGRAM
US11216072B2 (en) 2016-07-25 2022-01-04 Sony Corporation Information processing apparatus, information processing method, and program

Also Published As

Publication number Publication date
JP6144192B2 (en) 2017-06-07

Similar Documents

Publication Publication Date Title
US11423700B2 (en) Method, apparatus, device and computer readable storage medium for recognizing aerial handwriting
US9043349B1 (en) Image-based character recognition
JP5211334B2 (en) Handwritten symbol recognition method and apparatus
US8897490B2 (en) Vision-based user interface and related method
WO2017088727A1 (en) Image processing method and apparatus
US9746929B2 (en) Gesture recognition using gesture elements
KR101631011B1 (en) Gesture recognition apparatus and control method of gesture recognition apparatus
KR20130106833A (en) Use camera to augment input for portable electronic device
US9390317B2 (en) Lip activity detection
US20160140762A1 (en) Image processing device and image processing method
EP2998928B1 (en) Apparatus and method for extracting high watermark image from continuously photographed images
JP6144192B2 (en) Image recognition apparatus and image recognition method
JP6209067B2 (en) Image recognition apparatus and image recognition method
CN115131693A (en) Text content identification method and device, computer equipment and storage medium
US20170085784A1 (en) Method for image capturing and an electronic device using the method
Rubin Bose et al. In-situ identification and recognition of multi-hand gestures using optimized deep residual network
Uke et al. Optimal video processing and soft computing algorithms for human hand gesture recognition from real-time video
US10296289B2 (en) Multimodal commands
US10127478B2 (en) Electronic apparatus and method
CN112541418B (en) Method, apparatus, device, medium and program product for image processing
CN114510142A (en) Gesture recognition method based on two-dimensional image, system thereof and electronic equipment
US11340706B2 (en) Gesture recognition based on depth information and computer vision
Sen et al. HGR-FYOLO: a robust hand gesture recognition system for the normal and physically impaired person using frozen YOLOv5
CN113869303B (en) Image processing method, device and medium
CN118116078A (en) Method and related device for identifying swing motion

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160818

TRDD Decision of grant or rejection written
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170419

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170510

R150 Certificate of patent or registration of utility model

Ref document number: 6144192

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees