JP2018088057A - Image recognition device and image recognition method - Google Patents
Image recognition device and image recognition method Download PDFInfo
- Publication number
- JP2018088057A JP2018088057A JP2016230130A JP2016230130A JP2018088057A JP 2018088057 A JP2018088057 A JP 2018088057A JP 2016230130 A JP2016230130 A JP 2016230130A JP 2016230130 A JP2016230130 A JP 2016230130A JP 2018088057 A JP2018088057 A JP 2018088057A
- Authority
- JP
- Japan
- Prior art keywords
- stage
- image
- image recognition
- processing unit
- estimated position
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
Description
本発明は、深層学習(deep learning:ディープラーニング)を用いて、画像認識をする技術に関する。 The present invention relates to a technique for performing image recognition using deep learning (deep learning).
深層学習は、様々な分野で応用が研究されている。例えば、非特許文献1は、深層学習を用いて人間の画像を解析することにより、その人間の関節の位置を推定し、関節の位置からその人間の姿勢を検出する技術を開示している。非特許文献1の技術は、カスケード型検出器と深層学習とを組み合わせて関節の位置を推定する。検出器がカスケード構造であるのは、関節の位置の推定精度を向上させるためである。カスケード型検出器の最初の段が、関節の位置を大まかに推定し、次の段は、前の段が推定した関節の位置を基にして関節の位置を推定する。このように、カスケード型検出器の各段は、関節の位置を推定する画像認識処理をし、この処理に深層学習が用いられる。
Applications of deep learning have been studied in various fields. For example, Non-Patent
カスケード型検出器以外に、カスケート型分類器等も深層学習と組み合わせることができる。カスケート型分類器は、例えば、特定の人間を検出する場合、特定の人間とこれ以外の人間とに分類する。本明細書では、これらの総称として、カスケード型処理部と記載する。 In addition to the cascade detector, a cascade categorizer can be combined with deep learning. For example, when a specific person is detected, the cascade categorizer classifies the specific person and the other person. In this specification, these are collectively referred to as a cascade processing unit.
深層学習は、処理量が多いので、深層学習には、時間を要する。カスケード型処理部は、複数の段で画像認識処理がされる。このため、カスケード型処理部と深層学習とを組み合わせて、画像認識処理をする画像認識装置では、画像認識処理の時間が長くなる。時系列画像(例えば、動画)の場合、画像認識処理の時間が長くなることは問題である。例えば、動いている人間の姿勢を検出する場合、検出された姿勢と現在の姿勢とに大きなズレが生じる可能性がある。 Since deep learning requires a large amount of processing, deep learning requires time. The cascade processing unit performs image recognition processing in a plurality of stages. For this reason, in the image recognition apparatus that performs the image recognition process by combining the cascade type processing unit and the deep learning, the time of the image recognition process becomes long. In the case of a time-series image (for example, a moving image), it takes a long time to perform image recognition processing. For example, when detecting the posture of a moving human, there is a possibility that a large shift occurs between the detected posture and the current posture.
本発明の目的は、カスケード型処理部と深層学習とを組み合わせて、時系列画像に対して画像認識をする際に、画像認識処理に要する時間を短くできる画像認識装置及び画像認識方法を提供することである。 An object of the present invention is to provide an image recognition apparatus and an image recognition method capable of shortening the time required for image recognition processing when image recognition is performed on a time-series image by combining a cascade processing unit and deep learning. That is.
本発明の第1の局面に係る画像認識装置は、カスケード構造を有し、前記カスケード構造の各段において、深層学習を用いた画像認識処理をする処理部と、前記カスケード構造の各段のうち、前記画像認識処理をする1以上の段を決定する決定部と、を備え、前記決定部が決定した前記1以上の段は、時系列画像に対して、前記画像認識処理をする。 An image recognition apparatus according to a first aspect of the present invention has a cascade structure, and in each stage of the cascade structure, a processing unit that performs image recognition processing using deep learning, and each stage of the cascade structure A determination unit that determines one or more stages for performing the image recognition process, and the one or more stages determined by the determination unit perform the image recognition process on a time-series image.
決定部は、深層学習を用いた画像認識処理をする1以上の段を決定する。このため、常に、カスケード構造の全ての段が、深層学習を用いた画像認識処理をするのではなく、これより少ない数の段が、深層学習を用いた画像認識処理をすることができる。従って、本発明の第1の局面に係る画像認識装置によれば、カスケード型処理部と深層学習とを組み合わせて、時系列画像に対して画像認識をする際に、画像認識処理に要する時間を短くできる。 The determination unit determines one or more stages for performing image recognition processing using deep learning. For this reason, not all stages of the cascade structure always perform image recognition processing using deep learning, but a smaller number of stages can perform image recognition processing using deep learning. Therefore, according to the image recognition apparatus according to the first aspect of the present invention, the time required for the image recognition process when the image recognition is performed on the time-series image by combining the cascade processing unit and the deep learning. Can be shortened.
時系列画像は、撮像された時間の順に並んだ画像であり、例えば、動画や、一定の時間間隔で撮影された画像である。 A time-series image is an image arranged in the order of captured time, for example, a moving image or an image captured at a certain time interval.
画像認識処理とは、例えば、物体の位置を推定する画像認識処理、物体を検出する画像認識処理である。物体の位置を推定する画像認識処理とは、例えば、人間の姿勢を検出するために、人間の関節の位置を推定する画像認識処理である。物体を検出する画像認識処理とは、例えば、多数の人間の中から特定の人間を検出する画像認識処理や、自動運転のために、道路の前方に存在する物体の中から人間を検出する画像認識処理である。 The image recognition process is, for example, an image recognition process for estimating the position of an object or an image recognition process for detecting an object. The image recognition process for estimating the position of an object is, for example, an image recognition process for estimating the position of a human joint in order to detect a human posture. The image recognition process for detecting an object is, for example, an image recognition process for detecting a specific person from a large number of persons or an image for detecting a person from objects existing in front of a road for automatic driving. Recognition process.
上記構成において、前記処理部は、前記1以上の段のうち、最後の段が前記時系列画像に対して前記画像認識処理をした結果を出力し、前記決定部は、前記結果を基にして、前記1以上の段を決定する。 In the above configuration, the processing unit outputs a result of the image recognition processing performed on the time-series image in the last stage among the one or more stages, and the determination unit is based on the result. And determining the one or more stages.
最後の段について、3段のカスケード構造を例にして説明する。1段目、2段目及び3段目が選択されたとき、最後の段は、3段目である。3段目のみが選択されたとき、最後の段は、3段目である。1段目及び2段目が選択されたとき、最後の段は、2段目である。1段目のみが選択されたとき、最後の段は、1段目である。 The last stage will be described by taking a three-stage cascade structure as an example. When the first stage, the second stage, and the third stage are selected, the last stage is the third stage. When only the third level is selected, the last level is the third level. When the first stage and the second stage are selected, the last stage is the second stage. When only the first stage is selected, the last stage is the first stage.
画像認識処理をした結果を基にしてとは、例えば、リアルタイム性を重視する場合、処理部が前記結果をリアルタイムで出力できたか否かである。処理部が前記結果をリアルタイムで出力できないとき、決定部は、処理部が前記結果をリアルタイムで出力できるようにするために、画像認識処理に用いる段の数を減らす決定をする。処理部が前記結果をリアルタイムで出力できたとき、決定部は、リアルタイム性に加えて、画像認識の精度を向上させるために、画像認識処理に用いる段の数を増やす決定をする。 Based on the result of the image recognition process, for example, when emphasizing real-time property, it is whether or not the processing unit can output the result in real time. When the processing unit cannot output the result in real time, the determination unit determines to reduce the number of stages used for the image recognition processing so that the processing unit can output the result in real time. When the processing unit can output the result in real time, the determination unit determines to increase the number of stages used for the image recognition processing in order to improve the accuracy of image recognition in addition to the real time property.
上記構成において、前記処理部は、前記1以上の段のうち、最後の段が前記時系列画像に対して前記画像認識処理をした結果を出力し、前記画像認識装置は、前記結果を基にして、前記結果の信頼度を判定する判定部をさらに備え、前記決定部は、前記信頼度を基にして、前記1以上の段を決定する。 In the above configuration, the processing unit outputs a result of the image recognition processing performed on the time-series image in the last stage among the one or more stages, and the image recognition apparatus is based on the result. The determination unit further determines a reliability of the result, and the determination unit determines the one or more stages based on the reliability.
決定部が決定した1以上の段について、段の数が多いとき、画像認識処理をした結果の信頼度が向上する。段の数が少ないとき、前記結果の算出速度が向上するので、処理部は前記結果をリアルタイムで出力することが可能となる。 When there are a large number of stages for one or more stages determined by the determination unit, the reliability of the result of image recognition processing is improved. When the number of stages is small, the calculation speed of the result is improved, so that the processing unit can output the result in real time.
信頼度を基にしてとは、例えば、決定部は、信頼度が高くなるに従って、段の数を減らす決定をし、信頼度が低くなるに従って、段の数を増やす決定をする。これにより、前記結果の算出速度と前記結果の信頼度とのバランスをとることができる。 Based on the reliability, for example, the determination unit determines to decrease the number of stages as the reliability increases, and determines to increase the number of stages as the reliability decreases. This makes it possible to balance the calculation speed of the result and the reliability of the result.
信頼度の程度は、しきい値で判断することができる。しきい値が1つのとき、信頼度の程度は、信頼度が高い場合と信頼度が高くない場合とに分けることができる。しきい値の数を増やすと、信頼度の程度を細かく分けることができる。例えば、しきい値が2つのとき、信頼度の程度は、信頼度が高い場合、信頼度が中位の場合、信頼度が低い場合に分けることができる。 The degree of reliability can be determined by a threshold value. When there is one threshold, the degree of reliability can be divided into a case where the reliability is high and a case where the reliability is not high. Increasing the number of thresholds can finely divide the degree of reliability. For example, when there are two thresholds, the degree of reliability can be divided into a case where the reliability is high, a case where the reliability is medium, and a case where the reliability is low.
上記構成において、前記処理部は、前記画像認識処理によって、物体の推定位置を算出し、前記判定部は、前記時系列画像を構成する複数の画像のうち、今回、前記処理部で前記画像認識処理がされた画像を第1の画像とし、前記第1の画像よりも前に前記処理部で前記画像認識処理がされた画像を第2の画像とし、前記第1の画像での前記物体の推定位置と前記第2の画像での前記物体の推定位置との距離を算出し、前記距離の大小に応じて前記信頼度を判定する。 In the above configuration, the processing unit calculates an estimated position of the object by the image recognition processing, and the determination unit is currently performing the image recognition by the processing unit among a plurality of images constituting the time-series image. The processed image is defined as a first image, the image subjected to the image recognition processing by the processing unit prior to the first image is defined as a second image, and the object in the first image is defined as the second image. A distance between the estimated position and the estimated position of the object in the second image is calculated, and the reliability is determined according to the magnitude of the distance.
第1の画像が撮像された時刻と第2の画像が撮像された時刻とが近いとする。第1の画像での物体の推定位置の精度、及び、第2の画像での物体の推定位置の精度が高ければ、これらの推定位置は、極めて近いはずである(又は同じはずである)。従って、判定部は、例えば、これらの推定位置の距離が所定のしきい値より小さければ、第1の画像での物体の推定位置の信頼度が高いと判定する。これに対して、判定部は、上記距離が所定のしきい値以上であれば、第1の画像での物体の推定位置の信頼度が高くないと判定する。 Assume that the time when the first image is captured is close to the time when the second image is captured. If the accuracy of the estimated position of the object in the first image and the accuracy of the estimated position of the object in the second image are high, these estimated positions should be very close (or the same). Therefore, the determination unit determines that the reliability of the estimated position of the object in the first image is high, for example, if the distance between these estimated positions is smaller than a predetermined threshold value. On the other hand, the determination unit determines that the reliability of the estimated position of the object in the first image is not high if the distance is equal to or greater than a predetermined threshold value.
上記構成において、前記1以上の段のうち、最初の段が1段目でない場合、前記最初の段の直前に位置する段が出力した過去の結果に基づいて、前記直前に位置する段が出力する結果を推定する推定部をさらに備え、前記最初の段は、前記推定部が推定した結果を用いて前記画像認識処理をする。 In the above configuration, when the first stage is not the first stage among the one or more stages, the stage located immediately before is output based on the past result output by the stage located immediately before the first stage. An estimation unit for estimating a result to be performed, and the first stage performs the image recognition process using a result estimated by the estimation unit.
カスケード型構造において、各段は、直前に位置する段が出力した結果を用いて、画像認識処理をする。例えば、2段目は、1段目が出力した結果を用いて、画像認識処理をし、3段目は、2段目が出力した結果を用いて、画像認識処理をする。決定部が決定した1以上の段のうち、最初の段が1段目でない場合、直前に位置する段が出力した結果が存在しない。例えば、3段のカスケード構造において、3段目のみが選択されたとする。3段目は、2段目が出力した結果を用いて画像認識処理をするので、2段目が出力した結果が必要となる。しかし、3段目のみが選択されているので、2段目が結果を出力することはない。そこで、推定部は、2段目が出力した過去の結果を基にして、2段目が出力する結果を推定する。例えば、結果が物体の推定位置の場合、推定部は、外挿、物体追跡、深層学習等を用いて、結果を推定する。 In the cascade structure, each stage performs image recognition processing using the result output by the stage positioned immediately before. For example, the second stage performs image recognition processing using the result output from the first stage, and the third stage performs image recognition processing using the result output from the second stage. Among the one or more stages determined by the determination unit, when the first stage is not the first stage, there is no result output by the stage positioned immediately before. For example, assume that only the third stage is selected in a three-stage cascade structure. Since the third stage performs image recognition processing using the result output from the second stage, the result output from the second stage is required. However, since only the third stage is selected, the second stage does not output the result. Therefore, the estimation unit estimates the result output from the second stage based on the past result output from the second stage. For example, when the result is the estimated position of the object, the estimation unit estimates the result using extrapolation, object tracking, deep learning, or the like.
本発明の第2の局面に係る画像認識方法は、カスケード構造を有し、前記カスケード構造の各段において、深層学習を用いた画像認識処理をする処理部を使用する画像認識方法であって、前記カスケード構造の各段のうち、前記画像認識処理をする1以上の段を決定する第1のステップと、前記第1のステップで決定した前記1以上の段が、時系列画像に対して、前記画像認識処理をする第2のステップと、を備える。 An image recognition method according to a second aspect of the present invention is an image recognition method having a cascade structure, and using a processing unit that performs image recognition processing using deep learning at each stage of the cascade structure, Among the stages of the cascade structure, a first step for determining one or more stages for performing the image recognition processing, and the one or more stages determined in the first step are performed on a time-series image, And a second step of performing the image recognition process.
本発明の第2の局面に係る画像認識方法は、本発明の第1の局面に係る画像認識装置を方法の観点から規定しており、本発明の第1の局面に係る画像認識装置と同様の作用効果を有する。 The image recognition method according to the second aspect of the present invention defines the image recognition device according to the first aspect of the present invention from the viewpoint of the method, and is the same as the image recognition device according to the first aspect of the present invention. It has the following effects.
本発明によれば、カスケード型処理部と深層学習とを組み合わせて、時系列画像に対して画像認識をする際に、画像認識処理に要する時間を短くできる。 According to the present invention, it is possible to shorten the time required for image recognition processing when image recognition is performed on a time-series image by combining a cascade processing unit and deep learning.
以下、図面に基づいて本発明の実施形態を詳細に説明する。各図において、同一符号を付した構成は、同一の構成であることを示し、その構成について、既に説明している内容については、その説明を省略する。本明細書において、総称する場合には添え字を省略した参照符号で示し(例えば、入力画像Im)、個別の構成を指す場合には添え字を付した参照符号で示す(例えば、入力画像Im−1)。 Hereinafter, embodiments of the present invention will be described in detail with reference to the drawings. In each figure, the structure which attached | subjected the same code | symbol shows that it is the same structure, The description is abbreviate | omitted about the content which has already demonstrated the structure. In the present specification, when referring generically, it is indicated by a reference symbol without a suffix (for example, input image Im), and when referring to an individual configuration, it is indicated by a reference symbol with a suffix (for example, input image Im). -1).
図1は、実施形態に係る画像認識装置1の構成を示すブロック図である。画像認識装置1は、機能ブロックとして、人物検出部11、入力画像生成部13、カスケード型処理部15、信頼度判定部17、段数決定部19、及び、推定部12を備える。画像認識装置1は、ハードウェア(CPU(Central Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)、HDD(Hard Disk Drive)等)、及び、ソフトウェア等によって実現される。
FIG. 1 is a block diagram illustrating a configuration of an
人物検出部11は、撮像部3が撮像した動画のフレームに対して画像処理をし、フレームに人物が写っていれば、人物を検出する。動画は、時系列画像の具体例である。時系列画像は、撮像された時間の順に並んだ画像である。例えば、一定の時間間隔で撮影された画像は、時系列画像である。人物検出部11は、例えば、HOG(Histogram of Oriented Gradients)特徴を用いた人物検出等のような、公知の人物検出技術を用いて、人物を検出することができる。撮像部3は、例えば、デジタル式の可視光カメラ、デジタル式の赤外線カメラである。
The
入力画像生成部13は、入力画像Imを生成する。入力画像Imは、フレームから人物を含む矩形領域を切り出した切り出し画像である。入力画像生成部13は、入力画像Imをカスケード型処理部15に入力する。
The input
カスケード型処理部15は、カスケード構造を有し、カスケード構造の各段において、深層学習を用いた画像認識処理をする。カスケード型処理部15は、カスケード型検出器、カスケード型分類器の総称である。実施形態では、カスケード型処理部15を用いて、人物の所定の関節(例えば、左肩関節、左肘関節、左手首関節、左股関節、左膝関節、左足首関節、右肩関節、右肘関節、右手首関節、右股関節、右膝関節、右足首関節)の推定位置を算出する。
The
深層学習を用いた関節の推定位置の算出について簡単に説明する。上記所定の関節のいずれの場合も同じなので、左肩関節の推定位置の算出を例にして説明する。画像認識装置1は、左肩関節が写されている人物の多数の画像(服で覆われた左肩関節の画像、服で覆われていない左肩関節の画像のいずれも含まれる)と、左肩関節が写されていない多数の画像とを用いて、左肩関節を認識する学習をする。カスケード型処理部15は、この学習を基礎にして、動画のフレームに写された人物の左肩関節の位置を推定する。深層学習では、多層ニューラルネットワーク(DNN:Deep Neural Network)が用いられる。多層ニューラルネットワークとして、例えば、CNN(Convolutional Neural Network)がある。
The calculation of the estimated joint position using deep learning will be briefly described. Since it is the same in any of the predetermined joints, the calculation of the estimated position of the left shoulder joint will be described as an example. The
カスケード型処理部15は、1段目処理部151、2段目処理部153、及び、3段目処理部155を備える。実施形態では、段数が3を例に説明するが、段数は、複数であればよい。
The
1段目処理部151は、深層学習を用いた画像認識処理をして、関節の推定位置を大まかに算出する。2段目処理部153は、1段目処理部151が出力した結果(ここでは、1段目処理部151が算出した関節の推定位置)を基にして、深層学習を用いた画像認識処理をして、関節の推定位置を算出する。これにより、関節の推定位置は、1段目処理部151が算出した関節の推定位置よりも高い精度となる。3段目処理部155は、2段目処理部153が出力した結果(ここでは、2段目処理部153が算出した関節の推定位置)を基にして、深層学習を用いた画像認識処理をして、関節の推定位置を算出する。これにより、関節の推定位置は、2段目処理部153が算出した関節の推定位置よりも高い精度となる。以上説明したカスケード型処理部15を用いる関節の推定位置の算出については、例えば、上記非特許文献1に開示されている。
The first-
画像認識装置1は、3段目処理部155が算出した、上記所定の関節の推定位置を、所定の関節の現在の推定位置とし、これらを基にして、人物の姿勢を判定する。この判定には、関節位置を用いて人物の姿勢を判定する公知のアルゴリズムを用いることができるので、人物の姿勢を判定する説明については省略する。画像認識装置1は、人物の姿勢の判定結果を表示部5に表示させる。
The
信頼度判定部17は、関節の推定位置の信頼度を判定する。上記所定の関節のいずれの場合も同じなので、左肩関節の推定位置の信頼度を例にして説明する。k番目フレームは、第1の画像の一例であり、k−1番目フレームは、第2の画像の一例である。k番目フレームでの左肩関節の推定位置(左肩関節の現在の推定位置)の精度、及び、k−1番目フレームでの左肩関節の推定位置(左肩関節の過去の推定位置)の精度が高ければ、これらの推定位置は、極めて近いはずである(又は同じはずである)。従って、信頼度判定部17は、これらの推定位置の距離が所定のしきい値より小さければ、k番目フレームでの左肩関節の推定位置の信頼度が高いと判断する。これに対して、信頼度判定部17は、上記距離が所定のしきい値以上であれば、k番目フレームでの左肩関節の推定位置の信頼度が高くないと判断する。
The
信頼度が高くなければ、カスケード型処理部15は、1段目処理部151〜3段目処理部155を用いて、左肩関節の推定位置を算出する必要がある。そこで、段数決定部19は、信頼度が高くないとき、カスケード型処理部15に全段選択モードを実行する命令をする。全段選択モードとは、1段目処理部151、2段目処理部153、3段目処理部155の全てを用いて関節の推定位置を算出するモードである。図2は、全段選択モードを説明する模式図である。1段目処理部151、2段目処理部153、3段目処理部155は、同じ入力画像Imに対して、関節の推定位置を算出する。
If the reliability is not high, the
これに対して、信頼度が高ければ、カスケード型処理部15は、1段目処理部151及び2段目処理部153を省略しても、左肩関節の推定位置を高精度で算出することができる。そこで、段数決定部19は、信頼度が高いとき、カスケード型処理部15に最終段選択モードを実行する命令をする。最終段選択モードとは、1段目処理部151及び2段目処理部153を省略し、3段目処理部155を用いて関節の推定位置を算出するモードである。図3は、最終段選択モードを説明する模式図である。最終段選択モードは、1段目処理部151及び2段目処理部153が省略されるので、入力画像Imは、3段目処理部155にのみ入力する。
On the other hand, if the reliability is high, the
以上説明したように、段数決定部19は、図2に示す全段選択モード又は図3に示す最終段選択モードを選択する。すなわち、段数決定部19は、カスケード型処理部15の各段のうち、関節の推定位置を算出するための画像認識処理をする1以上の段を決定する。
As described above, the stage
なお、信頼度は、上記距離に限定されない。深層学習によれば、深層学習によって算出された推定位置が、実際の位置である確率を算出できることが知られている。これを用いて、信頼度判定部17が信頼度を算出する。例えば、上述したように、1段目処理部151、2段目処理部153、3段目処理部155は、それぞれ、深層学習を用いて、k番目フレームでの左肩関節の推定位置を算出する。このとき、1段目処理部151は、k番目フレームについて、1段目処理部151が算出した左肩関節の推定位置が、左肩関節の実際位置である確率を、深層学習を用いて算出する(例えば、確率が70%)。同様に、2段目処理部153は、k番目フレームについて、2段目処理部153が算出した左肩関節の推定位置が、左肩関節の実際位置である確率を、深層学習を用いて算出する(例えば、確率が80%)。3段目処理部155は、k番目フレームについて、3段目処理部155が算出した左肩関節の推定位置が、左肩関節の実際位置である確率を、深層学習を用いて算出する(例えば、確率が90%)。信頼度判定部17は、それらの確率を掛け算して、左肩関節の推定位置の信頼度を算出する(信頼度=70%×80%×90%)。
Note that the reliability is not limited to the above distance. According to deep learning, it is known that a probability that an estimated position calculated by deep learning is an actual position can be calculated. Using this, the
実施形態に係る画像認識装置1の動作について説明する。図4A及び図4Bは、これを説明するフローチャートである。実施形態において、関節の推定位置を算出するアルゴリズムは、上述した所定の関節のいずれの場合も同じであるので、左肩関節の推定位置の算出を例にして説明する。
An operation of the
図1及び図4Aを参照して、画像認識装置1の動作が開始した時点において、信頼度判定部17は、信頼度を算出していない。よって、段数決定部19は、図2に示す全段選択モードを選択する。
With reference to FIG. 1 and FIG. 4A, the
人物検出部11は、撮像部3から送られてきた動画(時系列画像の一例)のフレームに対して、リアルタイムで人物検出の画像処理をする(ステップS1)。人物検出部11が、ステップS1において、人物が写されたフレームを検出できないとき(ステップS2でNo)、人物検出部11は、ステップS1の処理を繰り返す。
The
例えば、1番目フレームからk−1番目フレームまで、人物が写されたフレームがない場合、人物検出部11は、1番目フレームからk−1番目フレームまで、ステップS1の処理と、ステップS2がNoの判断とを繰り返す。図5に示すk番目フレームに人物21が写されているとする。図5は、k番目フレームの一例を示す模式図である。人物検出部11は、ステップS1において、k番目フレームに写された人物21を検出する(ステップS2でYes)。これにより、画像認識装置1は、人物21の左肩関節の推定位置を算出する処理を開始する。
For example, when there is no frame in which a person is captured from the first frame to the (k-1) th frame, the
入力画像生成部13は、人物21が写された矩形領域をk番目フレームから切り出し、図6に示す入力画像Im−1を生成する(ステップS3)。図6は、入力画像Im−1の一例を示す模式図である。入力画像の総称を入力画像Imと記載する。
The input
入力画像生成部13は、入力画像Im−1を、1段目処理部151、2段目処理部153、及び、3段目処理部155に入力する。
The input
1段目処理部151は、入力画像Im−1に対して、深層学習を用いた画像認識処理をし、左肩関節の推定位置P1−1を算出する(ステップS4)。図7は、左肩関節の推定位置P1−1と入力画像Im−1との関係の一例を示す模式図である。1段目処理部151は、左肩関節の推定位置P1−1を大まかに算出するので、左肩関節の推定位置P1−1と、左肩関節の実際位置P0とがずれが比較的大きい。1段目処理部151が算出した左肩関節の推定位置の総称を、左肩関節の推定位置P1と記載する。
The first
カスケード型処理部15は、1段目処理部151が算出した左肩関節の推定位置P1−1を示す情報を記憶する。1段目処理部151は、その情報を出力する(ステップS5)。
The
2段目処理部153は、矩形領域を入力画像Im−1に設定する。図8は、その矩形領域23が設定された入力画像Im−1の一例を示す模式図である。矩形領域23は、図7に示す左肩関節の推定位置P1−1を含む。2段目処理部153は、入力画像Im−1のうち、矩形領域23で囲まれた部分を切り出し、図9に示す切り出し画像を生成する(ステップS6)。これを2段目用切り出し画像Im2−1と称する。図9は、2段用切り出し画像Im2−1の一例を示す模式図である。2段目用切り出し画像Im2−1の面積は、入力画像Im−1の面積より小さい。2段目用切り出し画像Im2−1には、左肩を含む人物21の一部分が写されている。2段目用切り出し画像の総称を2段目用切り出し画像Im2と記載する。
The second
2段目処理部153は、2段目用切り出し画像Im2−1に対して、深層学習を用いた画像認識処理をし、左肩関節の推定位置P2−1を算出する(ステップS7)。図10は、左肩関節の推定位置P2−1と2段目用切り出し画像Im2−1との関係の一例を示す模式図である。2段目処理部153は、1段目処理部151が算出した左肩関節の推定位置P1−1(図7)を用いて、左肩関節の推定位置P2−1を算出するので、左肩関節の推定位置P2−1は、左肩関節の実際位置P0に近い。2段目処理部153が算出した左肩関節の推定位置の総称を、左肩関節の推定位置P2と記載する。
The second-
カスケード型処理部15は、2段目処理部153が算出した左肩関節の推定位置P2−1を示す情報を記憶する。2段目処理部153は、その情報を出力する(ステップS8)。
The
3段目処理部155は、矩形領域を入力画像Im−1に設定する。図11は、その矩形領域25が設定された入力画像Im−1の一例を示す模式図である。矩形領域25は、図10に示す左肩関節の推定位置P2−1を含む。矩形領域25の面積は、矩形領域23(図8)の面積より小さい。3段目処理部155は、入力画像Im−1のうち、矩形領域25で囲まれた部分を切り出し、図12に示す切り出し画像を生成する(ステップS9)。これを3段目用切り出し画像Im3−1と称する。図12は、3段目用切り出し画像Im3−1の一例を示す模式図である。3段目用切り出し画像Im3−1の面積は、2段目用切り出し画像Im2−1の面積より小さい。3段目用切り出し画像Im3−1には、左肩を含む人物21の一部分が写されている。3段目用切り出し画像の総称を3段目用切り出し画像Im3と記載する。
The third
3段目処理部155は、3段目用切り出し画像Im3−1に対して、深層学習を用いた画像認識処理をし、左肩関節の推定位置P3−1を算出する(ステップS10)。図13は、左肩関節の推定位置P3−1と3段目用切り出し画像Im3−1との関係の一例を示す模式図である。3段目処理部155は、2段目処理部153が算出した左肩関節の推定位置P2−1(図10)を用いて、左肩関節の推定位置P3−1を算出するので、左肩関節の推定位置P3−1は、左肩関節の実際位置P0にさらに近くなる。図13では、左肩関節の推定位置P3−1と左肩関節の実際位置P0とがほぼ同じとなる。3段目処理部155が算出した左肩関節の推定位置の総称を、左肩関節の推定位置P3と記載する。
The third-
カスケード型処理部15は、3段目処理部155が算出した左肩関節の推定位置P3−1を示す情報を記憶する。3段目処理部155は、その情報を出力する(ステップS11)。左肩関節の推定位置P3−1は、図5に示すk番目フレームでの左肩関節の推定位置を示す情報である。信頼度判定部17は、この情報を記憶する。現時点において、k番目フレームでの左肩関節の推定位置が、左肩関節の現在の推定位置である。
The
信頼度判定部17は、信頼度の算出が可能か否かを判断する(ステップS12)。信頼度の算出には、左肩関節の現在の推定位置と、左肩関節の過去の推定位置とが用いられる。ここでは、k番目フレームでの左肩関節の推定位置が、左肩関節の現在の推定位置であり、k−1番目フレームでの左肩関節の推定位置が、左肩関節の過去の推定位置である。上述したように、k番目フレームより前のフレームには、人物21が写されていないので、k−1番目フレームでの左肩関節の推定位置は、算出されていない。従って、信頼度判定部17は、信頼度の算出が可能でないと判断する(ステップS12でNo)。これにより、人物検出部11は、ステップS1の処理をする。ここでは、k+1番目のフレームについて、ステップS1の処理がされる。
The
k+1番目フレームに人物21が写されているとする。人物検出部11は、k+1番目フレームに写された人物21を検出する(ステップS2でYes)。入力画像生成部13は、ステップS3の処理をする。カスケード型処理部15は、ステップS3〜ステップS11の処理をする。ステップS11で出力された情報は、k+1番目フレームでの左肩関節の推定位置を示す情報である。信頼度判定部17は、この情報を記憶する。現時点において、k+1番目フレームでの左肩関節の推定位置が、左肩関節の現在の推定位置であり、k番目フレームでの左肩関節の推定位置が、左肩関節の過去の推定位置である。
It is assumed that the
信頼度判定部17は、信頼度の算出が可能か否かを判断する(ステップS12)。信頼度判定部17は、左肩関節の現在の推定位置を示す情報、及び、左肩関節の過去の推定位置を示す情報を記憶しているので、信頼度の算出が可能と判断する(ステップS12でYes)。
The
信頼度判定部17は、左肩関節の現在の推定位置(ここでは、k+1番目フレームでの左肩関節の推定位置)と、左肩関節の過去の推定位置(ここでは、k番目フレームでの左肩関節の推定位置)と、を用いて、左肩関節の現在の推定位置の信頼度を算出する。信頼度判定部17は、その信頼度が高いか否かを判定する(ステップS13)。
The
段数決定部19は、左肩関節の現在の推定位置の信頼度が高くないとき(ステップS13でNo)、図2に示す全段選択モードを選択する。従って、画像認識装置1は、次のフレーム(ここでは、k+2番目フレーム)に対して、ステップS1〜ステップS13の処理をする。
When the reliability of the current estimated position of the left shoulder joint is not high (No in step S13), the stage
段数決定部19は、左肩関節の現在の推定位置の信頼度が高いとき(ステップS13でYes)、図3に示す最終段選択モードを選択する。従って、カスケード型処理部15は、次のフレームに対して、最終段選択モードを実行する。例えば、信頼度判定部17が、k+1番目〜k+8番目フレームのそれぞれについて、左肩関節の現在の推定位置の信頼度が高くないと判定し(ステップS13でNo)、カスケード型処理部15は、これらのフレームのそれぞれに対して、全段選択モードを実行した後、k+9番目フレームについて、左肩関節の現在の推定位置の信頼度が高いと判定する(ステップS13でYes)。段数決定部19は、k+10番目フレームに対して、図3に示す最終段選択モードを選択する。
When the reliability of the current estimated position of the left shoulder joint is high (Yes in step S13), the stage
図1及び図4Bを参照して、人物検出部11は、図14に示すk+10番目フレームに対して、リアルタイムで人物検出の画像処理をする(ステップS14)。図14は、k+10番目フレームの一例を示す模式図である。このフレームには、人物21が写されている。人物検出部11は、ステップS14において、k+10番目フレームに写された人物21を検出する(ステップS15でYes)。なお、人物検出部11が、ステップS14において、k+10番目フレームから人物21を検出できないとき(ステップS15でNo)、人物21は、撮像部3の撮像範囲外におり、段数決定部19は、最終段選択モードから全段選択モードに切り替える。これにより、画像認識装置1は、次のフレーム(ここでは、k+11番目フレーム)に対して、ステップS1〜ステップS13の処理をする。
Referring to FIGS. 1 and 4B,
人物検出部11は、k+10番目フレームから人物21を検出したとき(ステップS15でYes)、入力画像生成部13は、人物21が写された矩形領域をk+10番目フレームから切り出し、図15に示す入力画像Im−2を生成する(ステップS16)。図15は、入力画像Im−2の一例を示す模式図である。
When the
入力画像生成部13は、入力画像Im−2を3段目処理部155に入力する。3段目処理部155が左肩関節の推定位置P3を算出するには、前提として、3段目用切り出し画像Im3を作成する必要がある。3段目用切り出し画像Im3とは、例えば、図12及び図13に示す3段目用切り出し画像Im3−1のように、3段目処理部155が左肩関節の推定位置P3を算出するために用いる切り出し画像である。
The input
3段目用切り出し画像Im3を作成するためには、2段目処理部153が算出した左肩関節の推定位置P2が必要となる(図2)。しかし、図3に示す最終段選択モードでは、2段目処理部153が省略されるので、k+10番目フレームでの左肩関節の推定位置P2が算出されない。
In order to create the third-stage cutout image Im3, the estimated position P2 of the left shoulder joint calculated by the second-
そこで、k+10番目フレームでの左肩関節の推定位置P2の算出に、直近の数フレームにおいて、2段目処理部153が、2段目用切り出し画像Im2を用いて算出した左肩関節の推定位置P2を用いる。ここでは、直近の数フレームとして、k+9番目フレーム〜k+6番目フレームを例にして説明する。図16は、k+9番目フレーム〜k+6番目フレームからそれぞれ切り出された、2段目用切り出し画像Im2−2〜Im2−5を用いて、2段目処理部153が算出した左肩関節の推定位置P2−2〜P2−5を示す模式図である。
Therefore, for the calculation of the estimated position P2 of the left shoulder joint in the k + 10th frame, the estimated position P2 of the left shoulder joint calculated by the second-
推定部12は、図16に示す左肩関節の推定位置P2−2〜P2−5を用いて、k+10番目フレームでの左肩関節の推定位置P2−6を算出する(ステップS17)。この算出方法としては、外挿、物体追跡、深層学習等があり、これらのいずれでもよい。
The
ステップS17後、3段目処理部155は、矩形領域を入力画像Im−2に設定する。図17は、その矩形領域27が設定された入力画像Im−2の一例を示す模式図である。矩形領域27は、ステップS17で算出された左肩関節の推定位置P2ー6を含む。3段目処理部155は、図17に示す入力画像Im−2のうち、矩形領域27で囲まれた部分を切り出し、図18に示す3段目切り出し画像Im3−2を生成する(ステップS18)。図18は、3段目用切り出し画像Im3−2の一例を示す模式図である。3段目用切り出し画像Im3−2には、左肩を含む人物21の一部分が写されている。
After step S17, the third-
3段目処理部155は、3段目用切り出し画像Im3−2に対して、深層学習を用いた画像認識処理をし、左肩関節の推定位置P3−2を算出する(ステップS19)。図19は、ステップS19で算出された左肩関節の推定位置P3−2と3段目用切り出し画像Im3−2との関係の一例を示す模式図である。
The third-
カスケード型処理部15は、3段目処理部155が算出した左肩関節の推定位置P3−2を示す情報を記憶する。3段目処理部155は、その情報を出力する(ステップS20)。左肩関節の推定位置P3−2は、図14に示すk+10番目フレームでの左肩関節の推定位置を示す情報である。信頼度判定部17は、この情報を記憶する。現時点において、k+10番目フレームでの左肩関節の推定位置が、左肩関節の現在の推定位置である。
The
信頼度判定部17は、左肩関節の現在の推定位置(ここでは、k+10番目フレームでの左肩関節の推定位置)と、左肩関節の過去の推定位置(ここでは、k+9番目フレームでの左肩関節の推定位置)と、を用いて、左肩関節の現在の推定位置の信頼度を算出する。信頼度判定部17は、その信頼度が高いか否かを判定する(ステップS21)。
The
段数決定部19は、左肩関節の現在の推定位置の信頼度が高いとき(ステップS21でYes)、図3に示す最終段選択モードを選択する。これにより、画像認識装置1は、次のフレーム(ここでは、k+11番目のフレーム)に対して、ステップS14〜ステップS21の処理をする。
When the reliability of the current estimated position of the left shoulder joint is high (Yes in step S21), the stage
段数決定部19は、左肩関節の現在の推定位置の信頼度が高くないとき(ステップS21でNo)、図2に示す全段選択モードを選択する。これにより、画像認識装置1は、次のフレーム(ここでは、k+11番目フレーム)に対して、ステップS1〜ステップS13の処理をする。
When the reliability of the current estimated position of the left shoulder joint is not high (No in step S21), the stage
実施形態の主な効果を説明する。段数決定部19は、図2に示す全段選択モード又は図3に示す最終段選択モードを選択する。最終段選択モードが選択されたとき、3段目処理部155のみが深層学習を用いた画像認識処理をする。このため、実施形態に係る画像認識装置1によれば、常に、カスケード型処理部15の全ての段が、深層学習を用いた画像認識処理をするのではなく、これより少ない数の段が、深層学習を用いた画像認識処理をすることができる。従って、実施形態に係る画像認識装置1によれば、カスケード型処理部15と深層学習とを組み合わせて、動画(時系列画像の一例)に対して画像認識をする際に、画像認識処理に要する時間を短くできる。
The main effects of the embodiment will be described. The stage
実施形態に係る画像認識装置1の変形例を説明する。実施形態は、信頼度の判定に1つのしきい値を用いたが、第1変形例は、信頼度の判定に2つのしきい値を用いる。2つのしきい値は、第1のしきい値と第2のしきい値であり、第1のしきい値が第2のしきい値より小さいとする。
A modification of the
第1変形例において、図1に示す信頼度判定部17は、左肩関節の現在の推定位置と左肩関節の過去の推定位置との距離が、第1のしきい値より小さいとき、左肩関節の現在の推定位置の信頼度が高いと判定する。信頼度判定部17は、上記距離が、第1のしきい値以上、かつ、第2のしきい値より小さいとき、左肩関節の現在の推定位置の信頼度が中位と判定する。信頼度判定部17は、上記距離が第2のしきい値より大きいとき、左肩関節の現在の推定位置の信頼度が低いと判定する。
In the first modification, the
段数決定部19は、信頼度が低いと判定されたとき、カスケード型処理部15に全段選択モード(図2)を実行する命令をする。第1変形例の全段選択モードが、実施形態の全段選択モードと異なる点は、図4Aに示すステップS13において、信頼度判定部17が、信頼度が高いと判定する場合、信頼度が中位と判定する場合、信頼度が低いと判定する場合とがある。
When it is determined that the reliability is low, the stage
段数決定部19は、信頼度が高いと判定されたとき、カスケード型処理部15に最終段選択モード(図3)を実行する命令をする。第1変形例の最終段選択モードが、実施形態の最終段選択モードと異なる点は、図4Bに示すステップS21において、信頼度判定部17が、信頼度が高いと判定する場合、信頼度が中位と判定する場合、信頼度が低いと判定する場合とがある。
When it is determined that the reliability is high, the stage
段数決定部19は、信頼度が中位と判定されたとき、カスケード型処理部15に2段選択モードを実行する命令をする。2段選択モードとは、1段目処理部151を省略し、2段処理部及び3段目処理部155を用いて関節の推定位置を算出するモードである。図20は、2段選択モードを説明する模式図である。2段選択モードは、1段目処理部151が省略されるので、入力画像Imは、2段目処理部153及び3段目処理部155に入力する。
When the reliability is determined to be medium, the stage
図21は、2段選択モードの動作を説明するフローチャートである。ステップS14〜ステップS16は、図4Bに示すステップS14〜ステップS16と同じである。 FIG. 21 is a flowchart for explaining the operation in the two-stage selection mode. Steps S14 to S16 are the same as steps S14 to S16 shown in FIG. 4B.
入力画像生成部13は、図15に示す入力画像Im−2を2段目処理部153及び3段目処理部155に入力する。2段目処理部153が左肩関節の推定位置P2を算出するには、前提として、2段目用切り出し画像Im2を作成する必要がある。2段目用切り出し画像Im2とは、例えば、図9及び図10に示す2段目用切り出し画像Im2−1のように、2段目処理部153が左肩関節の推定位置P2を算出するために用いる切り出し画像である。2段目用切り出し画像Im2を作成するためには、1段目処理部151が算出した左肩関節の推定位置P1が必要となる。しかし、2段選択モードでは、1段目処理部151が省略されるので、k+10番目フレームでの左肩関節の推定位置P1が算出されない。
The input
そこで、推定部12は、直近の数フレームにおいて(例えば、k+9番目フレーム〜k+6番目フレーム)、1段目処理部151が、入力画像Imを用いて算出した左肩関節の推定位置P1を用いて、左肩関節の推定位置P1を算出する(ステップS22)。これは、図16に示す左肩関節の推定位置P2−6の算出と同様の方法(外挿、物体追跡、深層学習等)で算出する。
Therefore, the
ステップS22後、2段目処理部153は、矩形領域を入力画像Im−2に設定する。図22は、その矩形領域29が設定された入力画像Im−2の一例を示す模式図である。矩形領域29は、ステップS22で算出された左肩関節の推定位置P1を含む。
After step S22, the second-
2段目処理部153は、図22に示す入力画像Im−2のうち、矩形領域29で囲まれた部分を切り出し、2段目用切り出し画像Im2−6を生成する(ステップS23)。図23は、2段目用切り出し画像Im2−6の一例を示す模式図である。2段目用切り出し画像Im2−6には、左肩を含む人物21の一部分が写されている。
The second-
2段目処理部153は、図23に示す2段目用切り出し画像Im2−6に対して、深層学習を用いた画像認識処理をし、左肩関節の推定位置P2−7を算出する(ステップS24)。図24は、ステップS24で算出された左肩関節の推定位置P2−7と2段目用切り出し画像Im2−6との関係の一例を示す模式図である。
The second-
カスケード型処理部15は、ステップS24で算出された左肩関節の推定位置P2−7を示す情報を記憶する。2段目処理部153は、その情報を出力する(ステップS25)。
The
ステップS9〜ステップS11は、図4Aに示すステップS9〜ステップS11と同じである。図1に示す信頼度判定部17は、左肩関節の現在の推定位置(ステップS11で出力された情報)と左肩関節の過去の推定位置とを用いて信頼度を判定する(ステップS26)。信頼度判定部17が、信頼度が高いと判定したとき、段数決定部19は、次のフレームに対して、最終段選択モードを選択する。信頼度判定部17が、信頼度が中位と判定したとき、段数決定部19は、次のフレームに対して、2段選択モードを選択する。信頼度判定部17が、信頼度が低いと判定したとき、段数決定部19は、次のフレームに対して、全段選択モードを選択する。
Steps S9 to S11 are the same as steps S9 to S11 shown in FIG. 4A. The
第2変形例を説明する。図2及び図3に示すように、実施形態に係る画像認識装置1は、3段目処理部155が算出した関節の推定位置を示す情報をカスケード型処理部15の出力とし、これを関節の現在の推定位置とする。第2変形例は、第1モード、第2モード、第3モードのいずれかを選択できる。第1モードは、1段目処理部151が算出した関節の推定位置を示す情報をカスケード型処理部15の出力とし、これを関節の現在の推定位置とするモードである。第2モードは、2段目処理部153が算出した関節の推定位置を示す情報をカスケード型処理部15の出力とし、これを関節の現在の推定位置とするモードである。第3モードは、3段目処理部155が算出した関節の推定位置を示す情報をカスケード型処理部15の出力とし、これを関節の現在の推定位置とするモードである。
A second modification will be described. As shown in FIGS. 2 and 3, the
図25は、第2変形例で実行される第1モードを説明する説明図である。図26は、第2変形例で実行される第2モードを説明する説明図である。図27は、第2変形例で実行される第3モードを説明する説明図である。第2変形例において、図1に示すカスケード型処理部15は、スイッチS1及びスイッチS2を備える。これらのスイッチは、ソフトウェアスイッチである。スイッチS1は、1段目処理部151の出力部と2段目処理部153の入力部との接続と、1段目処理部151の出力部とカスケード型処理部15の出力部との接続とを切り替える。スイッチS2は、2段目処理部153の出力部と3段目処理部155の入力部との接続と、2段目処理部153の出力部とカスケード型処理部15の出力部との接続とを切り替える。
FIG. 25 is an explanatory diagram illustrating the first mode executed in the second modification. FIG. 26 is an explanatory diagram illustrating a second mode executed in the second modification. FIG. 27 is an explanatory diagram illustrating a third mode executed in the second modification. In the second modification, the
図25を参照して、第1モードの場合、段数決定部19は、スイッチS1を制御して、1段目処理部151の出力部とカスケード型処理部15の出力部とを接続させる。スイッチS2によって、2段目処理部153の出力部と3段目処理部155の入力部とが接続されているが、2段目処理部153の出力部とカスケード型処理部15の出力部とが接続されていてもよい。第1モードは、図2に示す1段目処理部151が算出した関節の推定位置を示す情報を、カスケード型処理部15の出力とするモードと言うことができる。
Referring to FIG. 25, in the first mode, stage
図26を参照して、第2モードの場合、段数決定部19は、スイッチS1を制御して、1段目処理部151の出力部と2段目処理部153の入力部とを接続させ、かつ、スイッチS2を制御して、2段目処理部153の出力部とカスケード型処理部15の出力部とを接続させる。第2モードは、図2に示す2段目処理部153が算出した関節の推定位置を示す情報を、カスケード型処理部15の出力とするモードと言うことができる。
Referring to FIG. 26, in the second mode, stage
図27を参照して、第3モードの場合、段数決定部19は、スイッチS1を制御して、1段目処理部151の出力部と2段目処理部153の入力部とを接続させ、かつ、スイッチS2を制御して、2段目処理部153の出力部と3段目処理部155の入力部とを接続させる。第3モードは、図2に示す3段目処理部155が算出した関節の推定位置を示す情報を、カスケード型処理部15の出力とするモードと言うことができる(すなわち、全段選択モードである)。
Referring to FIG. 27, in the case of the third mode, stage
図25に示す第1モードは、1段目処理部151が関節の推定位置を算出し、2段目処理部153及び3段目処理部155が省略される。このため、関節の現在の推定位置の信頼度は低いが、関節の現在の推定位置の算出速度は速い。
In the first mode shown in FIG. 25, the first-
図27に示す第3モードは、1段目処理部151、2段目処理部153及び3段目処理部155が関節の推定位置を算出する。このため、関節の現在の推定位置の信頼度は高いが、関節の現在の推定位置の算出速度は遅い。
In the third mode shown in FIG. 27, the first-
図26に示す第2モードは、1段目処理部151及び2段目処理部153が関節の推定位置を算出し、3段目処理部155が省略される。このため、関節の現在の推定位置の信頼度は、第1モードと比べて高いが、第3モードと比べて低い。関節の現在の推定位置の算出速度は、第1モードより遅いが、第3モードより速い。
In the second mode shown in FIG. 26, the first
画像認識装置1に入力する動画(図1)の解像度が高いとき、図27に示す第3モードでは、関節の現在の推定位置をリアルタイムに算出することが困難となる。そこで、関節の現在の推定位置をリアルタイムに算出できるようにするために、段数決定部19は、動画の解像度に応じて、第1モード〜第3モードのいずれかを選択する。解像度のしきい値として、第1のしきい値と第2のしきい値とがある。第1のしきい値が第2のしきい値より小さいとする。
When the resolution of the moving image (FIG. 1) input to the
段数決定部19は、画像認識装置1に入力する動画の解像度が、第1のしきい値より小さいとき、図27に示す第3モードを選択する。段数決定部19は、画像認識装置1に入力する動画の解像度が、第1のしきい値以上、かつ、第2のしきい値より小さいとき、図26に示す第2モードを選択する。段数決定部19は、画像認識装置1に入力する動画の解像度が、第2のしきい値より大きいとき、図25に示す第1モードを選択する。
The stage
なお、ユーザが第1モード、第2モード、第3モードのいずれかを選択できるようにしてもよい。ユーザが第1モードを選択する入力を画像認識装置1に入力したとき、段数決定部19は、第1モードを選択する。ユーザが第2モードを選択する入力を画像認識装置1に入力したとき、段数決定部19は、第2モードを選択する。ユーザが第3モードを選択する入力を画像認識装置1に入力したとき、段数決定部19は、第3モードを選択する。
Note that the user may be able to select any one of the first mode, the second mode, and the third mode. When the user inputs an input for selecting the first mode to the
1 画像認識装置
12 推定部
15 カスケード型処理部(処理部の一例)
17 信頼度判定部(判定部の一例)
19 段数決定部(決定部の一例)
21 人物
23,25,27 矩形領域
Im 入力画像
Im2 2段目用切り出し画像
Im3 3段目用切り出し画像
P0 左肩関節の実際位置
P1 1段目処理部が算出した左肩関節の推定位置
P2 2段目処理部が算出した左肩関節の推定位置
P3 3段目処理部が算出した左肩関節の推定位置
DESCRIPTION OF
17 Reliability determination unit (an example of a determination unit)
19 stage number determination unit (an example of a determination unit)
21
Claims (6)
前記カスケード構造の各段のうち、前記画像認識処理をする1以上の段を決定する決定部と、を備え、
前記決定部が決定した前記1以上の段は、時系列画像に対して、前記画像認識処理をする、画像認識装置。 A processing unit having a cascade structure, and performing image recognition processing using deep learning at each stage of the cascade structure;
A determination unit that determines one or more stages for performing the image recognition processing among the stages of the cascade structure;
The image recognition apparatus in which the one or more stages determined by the determination unit perform the image recognition processing on a time-series image.
前記決定部は、前記結果を基にして、前記1以上の段を決定する、請求項1に記載の画像認識装置。 The processing unit outputs a result of the image recognition processing performed on the time-series image in the last stage among the one or more stages,
The image recognition device according to claim 1, wherein the determination unit determines the one or more stages based on the result.
前記画像認識装置は、前記結果を基にして、前記結果の信頼度を判定する判定部をさらに備え、
前記決定部は、前記信頼度を基にして、前記1以上の段を決定する、請求項1に記載の画像認識装置。 The processing unit outputs a result of the image recognition processing performed on the time-series image in the last stage among the one or more stages,
The image recognition device further includes a determination unit that determines the reliability of the result based on the result,
The image recognition apparatus according to claim 1, wherein the determination unit determines the one or more stages based on the reliability.
前記判定部は、前記時系列画像を構成する複数の画像のうち、今回、前記処理部で前記画像認識処理がされた画像を第1の画像とし、前記第1の画像よりも前に前記処理部で前記画像認識処理がされた画像を第2の画像とし、前記第1の画像での前記物体の推定位置と前記第2の画像での前記物体の推定位置との距離を算出し、前記距離の大小に応じて前記信頼度を判定する、請求項3に記載の画像認識装置。 The processing unit calculates an estimated position of the object by the image recognition processing,
The determination unit sets, as a first image, an image that has been subjected to the image recognition processing by the processing unit among the plurality of images that constitute the time-series image, and performs the processing before the first image. The image subjected to the image recognition processing in the unit is set as a second image, a distance between the estimated position of the object in the first image and the estimated position of the object in the second image is calculated, The image recognition apparatus according to claim 3, wherein the reliability is determined according to a distance.
前記最初の段は、前記推定部が推定した結果を用いて前記画像認識処理をする、請求項1〜4のいずれか一項に記載の画像認識装置。 If the first stage is not the first stage among the one or more stages, the result output by the stage positioned immediately before is estimated based on the past results output by the stage positioned immediately before the first stage. And an estimator for
The image recognition apparatus according to claim 1, wherein the first stage performs the image recognition process using a result estimated by the estimation unit.
前記カスケード構造の各段のうち、前記画像認識処理をする1以上の段を決定する第1のステップと、
前記第1のステップで決定した前記1以上の段が、時系列画像に対して、前記画像認識処理をする第2のステップと、を備える、画像認識方法。 An image recognition method using a processing unit that has a cascade structure and performs image recognition processing using deep learning at each stage of the cascade structure,
A first step of determining one or more stages for performing the image recognition processing among the stages of the cascade structure;
The image recognition method, wherein the one or more stages determined in the first step include a second step of performing the image recognition process on a time-series image.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016230130A JP2018088057A (en) | 2016-11-28 | 2016-11-28 | Image recognition device and image recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016230130A JP2018088057A (en) | 2016-11-28 | 2016-11-28 | Image recognition device and image recognition method |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018088057A true JP2018088057A (en) | 2018-06-07 |
Family
ID=62494381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016230130A Pending JP2018088057A (en) | 2016-11-28 | 2016-11-28 | Image recognition device and image recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2018088057A (en) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020134970A (en) * | 2019-02-12 | 2020-08-31 | コニカミノルタ株式会社 | Object part position estimation program, object part position estimation neural network structure, object part position estimation method, and object part position estimation apparatus |
WO2020230335A1 (en) * | 2019-05-16 | 2020-11-19 | 日本電信電話株式会社 | Skeletal information assessment device, skeletal information assessment method, and computer program |
WO2021229627A1 (en) * | 2020-05-11 | 2021-11-18 | 三菱電機株式会社 | Information processing device, program, and information processing method |
-
2016
- 2016-11-28 JP JP2016230130A patent/JP2018088057A/en active Pending
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2020134970A (en) * | 2019-02-12 | 2020-08-31 | コニカミノルタ株式会社 | Object part position estimation program, object part position estimation neural network structure, object part position estimation method, and object part position estimation apparatus |
JP7124746B2 (en) | 2019-02-12 | 2022-08-24 | コニカミノルタ株式会社 | Partial Object Position Estimation Program, Neural Network Structure for Partial Object Position Estimation, Partial Object Position Estimation Method, and Partial Object Position Estimation Apparatus |
WO2020230335A1 (en) * | 2019-05-16 | 2020-11-19 | 日本電信電話株式会社 | Skeletal information assessment device, skeletal information assessment method, and computer program |
JPWO2020230335A1 (en) * | 2019-05-16 | 2020-11-19 | ||
JP7201946B2 (en) | 2019-05-16 | 2023-01-11 | 日本電信電話株式会社 | Skeleton information determination device, skeleton information determination method, and computer program |
WO2021229627A1 (en) * | 2020-05-11 | 2021-11-18 | 三菱電機株式会社 | Information processing device, program, and information processing method |
JPWO2021229627A1 (en) * | 2020-05-11 | 2021-11-18 | ||
JP7233610B2 (en) | 2020-05-11 | 2023-03-06 | 三菱電機株式会社 | Information processing device, program and information processing method |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2378485B1 (en) | Moving object detection method and moving object detection apparatus | |
CN111079646A (en) | Method and system for positioning weak surveillance video time sequence action based on deep learning | |
JP2019536187A (en) | Hybrid tracker system and method for match moves | |
Mocanu et al. | Deep-see face: A mobile face recognition system dedicated to visually impaired people | |
US10509957B2 (en) | System and method for human pose estimation in unconstrained video | |
Cheng et al. | Graph and temporal convolutional networks for 3d multi-person pose estimation in monocular videos | |
CN112016371B (en) | Face key point detection method, device, equipment and storage medium | |
JP4682820B2 (en) | Object tracking device, object tracking method, and program | |
JP2018088057A (en) | Image recognition device and image recognition method | |
US9256945B2 (en) | System for tracking a moving object, and a method and a non-transitory computer readable medium thereof | |
CN115294420A (en) | Training method, re-recognition method and device for feature extraction model | |
US20220321792A1 (en) | Main subject determining apparatus, image capturing apparatus, main subject determining method, and storage medium | |
CN111428535A (en) | Image processing apparatus and method, and image processing system | |
Liong et al. | Mtsn: A multi-temporal stream network for spotting facial macro-and micro-expression with hard and soft pseudo-labels | |
US20220366691A1 (en) | Object detection | |
CN111797652A (en) | Object tracking method, device and storage medium | |
JP7316236B2 (en) | Skeletal tracking method, device and program | |
JP2014110020A (en) | Image processor, image processing method and image processing program | |
JP7247133B2 (en) | Detection device, detection method and program | |
JP2019071008A (en) | Detecting device and detecting method | |
JP2010079651A (en) | Movement recognition device, method and program | |
CN108181989B (en) | Gesture control method and device based on video data and computing equipment | |
CN117561540A (en) | System and method for performing computer vision tasks using a sequence of frames | |
JP5643147B2 (en) | Motion vector detection apparatus, motion vector detection method, and motion vector detection program | |
Mahabalagiri et al. | A robust edge-based optical flow method for elderly activity classification with wearable smart cameras |