JP7086138B2

JP7086138B2 - 物体識別方法、システム及び電子機器

Info

Publication number: JP7086138B2
Application number: JP2020113962A
Authority: JP
Inventors: ゾォウ，ウエンツァイ; シィ，ウエンシン; ワン，ジン
Original assignee: ArcSoft Corp Ltd
Current assignee: ArcSoft Corp Ltd
Priority date: 2019-07-04
Filing date: 2020-07-01
Publication date: 2022-06-17
Anticipated expiration: 2040-07-01
Also published as: JP2021012692A; CN112184751A

Description

本発明は、情報処理技術分野に関し、具体的に、物体識別方法、システム及び電子機器に関する。

関連技術において、スマートコンテナは新しい小売業界の発展していく一つの重要な方向となり、物体を識別する際に、現在、主に二つの解決策があり、一つは、伝統的なRFID（Radio Frequency Identification）による技術案であり、もう一つは、視覚識別による静的識別である。一つ目の技術案について、RFID電子タグに基づく解決策では、異なる種類の物体に異なるRFID電子タグを貼り付け、無線信号で電子タグにおけるデータを識別することによって、物体の識別と統計の目的を達成する必要がある。しかし、RFID電子タグは、コストが高く、また何千個の物体にタグを貼り付けると人件費も高い。なお、無線周波数の特徴が電子製品、金属、液体などによる妨害を受けやすく、且つタグが人為的に破壊されやすいため、物体の識別精度が不足となり、貨物破損率が高い。一方、二つ目の技術案については、視覚識別による静的識別の技術案によれば、コンテナの各階の頂部にカメラを取り付け、ドアを開く前とドアを閉めた後に１枚ずつ画像を撮影する必要がある。そして、視覚識別技術によって物体の種類や数を自動的に識別し、前後に撮影された画像を対比することで物体の識別及び統計の結果を得る。しかしながら、カメラは、下層の仕切り板から一定の高さを持つ必要があることから、この技術案の空間利用率が低くなり、物体を積み重ねて配置することができず、識別精度は物体の遮蔽による影響を受けてしまう。

上述の課題に対して、目前、有効な解決策はまだ提案されていない。

本発明の実施例は、少なくとも、物体を識別するときに、物体を積み重ねて配置することはできず且つ識別精度が低いという関連技術における課題を解決する物体識別方法、システム、及び電子機器を提供する。

本発明の実施例の一態様によれば、
画像キャプチャモジュールによって物体の画像を取得することと、
物体の単一フレームの画像に基づいて、位置検出情報とカテゴリ検出情報とを含む複数の時刻の物体の検出結果を取得することと、
物体の複数フレームの画像に基づいて画像における画素点の移動情報を取得することと、
前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の視覚検出結果を取得することと、
重力センサを用いて予め選択された領域の重力情報を取得し、前記重力情報によって物体の重力検出結果を取得することと、
前記視覚検出結果と前記重力検出結果とを整合することで物体の識別結果を決定することと、
を含む物体識別方法が提供される。

さらに、物体の単一フレームの画像に基づいて複数の時刻の物体の検出結果を取得することは、前記物体の単一フレームの画像をフレーム毎に画像前処理することと、前記画像前処理された前記単一フレームの画像における物体検出ボックスと前記カテゴリ検出情報とを取得することと、前記物体検出ボックスによって前記物体の位置検出情報を取得することと、を含む。

さらに、この物体識別方法は、前記物体検出ボックスに対して非極大値抑制を行うことをさらに含む。

さらに、物体の複数フレームの画像に基づいて、画像における画素点の移動情報を取得することは、前記物体の複数フレームの画像に基づいて背景モデリングを行い、前景領域を抽出することと、前記前景領域に対して間引きサンプリング（間隔采様）して画素点の移動情報を取得することと、を含む。

さらに、前記前景領域は、動体を含む領域である。

さらに、半密なオプティカルフロー法を用いて前記前景領域に対して間引きサンプリングして、前記画素点の移動情報を取得する。

さらに、前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の視覚検出結果を取得することは、前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の動き軌跡を生成することと、前記物体の動き軌跡を分類して物体の軌跡状態を獲得することと、前記物体のカテゴリ検出情報及び前記物体の軌跡状態によって、物体の視覚検出結果を取得することと、を含む。

さらに、前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の動き軌跡を生成することは、ｔ時刻の物体の検出結果における前記位置検出情報、及び前記画素点の移動情報によって、(ｔ+１)時刻の物体の位置予測情報を取得することと、前記ｔ時刻の物体の検出結果、(ｔ+１)時刻の物体の検出結果及び前記(ｔ+１)時刻の物体の位置予測情報によって、(ｔ+１)時刻の物体の検出結果と前記ｔ時刻の物体の検出結果とが同一軌跡に属されるか否かを判断し、判断結果を取得することと、判断結果によって前記物体の動き軌跡を生成することとを含む。

さらに、前記ｔ時刻の物体の検出結果における前記位置検出情報、及び前記画素点の移動情報によって、(ｔ+１)時刻の物体の位置予測情報を取得することは、前記ｔ時刻の物体の検出結果における位置検出情報、及びｔ時刻の画素点の速度によって、(ｔ+１)時刻の物体の予測位置を取得することと、前記(ｔ+１)時刻の物体の予測位置によって(ｔ+１)時刻の画素点の速度を取得することと、前記ｔ時刻の画素点の速度と前記(ｔ+１)時刻の画素点の速度とを重み付き平均して平均速度を獲得することと、前記ｔ時刻の物体の検出結果における位置検出情報及び前記平均速度によって、前記(ｔ+１)時刻の物体の位置予測情報を取得することとを含む。

さらに、前記物体の動き軌跡を分類して物体の軌跡状態を獲得することは、前記物体の動き軌跡のうち、前記動き軌跡の最初位置、前記動き軌跡の終了位置、前記動き軌跡の最大位置、前記動き軌跡の隣接ノード間の最大変位の少なくとも１つを含む軌跡情報を抽出することと、前記軌跡情報によって、決定木アルゴリズムにより前記物体の動き軌跡を分類して前記物体の軌跡状態を獲得することとを含む。

さらに、前記重力センサを用いて予め選択された領域の重力情報を取得し、前記重力情報によって物体の重力検出結果を取得することは、重力センサを用いて予め選択された領域の異なる時刻の重力情報を取得することと、前記異なる時刻の重力情報の差によって、前記物体の全ての可能な重力検出結果を網羅することとを含む。

さらに、前記視覚検出結果と前記重力検出結果とをマッチングし、両者のマッチング度合いに応じて前記重力検出結果に異なる重みを付け、重みが最も高い重力検出結果を最終的な重力検出結果として選択することによって、前記物体の識別結果を決定する。

さらに、前記ｔ時刻の物体の検出結果、(ｔ+１)時刻の物体の検出結果、及び前記(ｔ+１)時刻の物体の位置予測情報によって、(ｔ+１)時刻の物体の検出結果と前記ｔ時刻の物体の検出結果とが同一軌跡に属されるか否かを判断し、判断結果を取得することは、前記ｔ時刻の物体の検出結果におけるカテゴリ検出情報及び(ｔ+１)時刻の物体の検出結果におけるカテゴリ検出情報によって、ｔ時刻の物体のカテゴリと(ｔ＋１)時刻の物体のカテゴリが同じであるか否かを判断することと、前記(ｔ+１)時刻の物体の検出結果における位置検出情報及び前記(ｔ+１)時刻の物体の位置予測情報によって、前記(ｔ+１)時刻の物体の位置予測情報と前記(ｔ+１)時刻の物体の位置検出情報との距離が所定の閾値未満であるか否かを判断することと、前記ｔ時刻の物体のカテゴリが前記(ｔ＋１)時刻の物体のカテゴリと同一であり、かつ、前記(ｔ＋１)時刻の物体の位置予測情報と前記(ｔ＋１)時刻の物体の位置検出情報との距離が所定の閾値未満であると、前記判断結果は、前記(ｔ＋１)時刻の物体の検出結果と、前記ｔ時刻の物体の検出結果とが同一軌跡に属されることを示すことと、を含む。

さらに、前記物体の軌跡状態は、誤検出、確実に入れたこと、確実に取ったこと、取ったようなこと（疑似拿取）、及び、入れたようなこと（疑似放入）の少なくとも一つを含む。

本発明の実施例の別の態様によれば、物体の画像を取得するための画像キャプチャモジュールと、物体の単一フレームの画像に基づいて位置検出情報とカテゴリ検出情報を含む複数の時刻の物体の検出結果を取得するための物体検出モジュールと、物体の複数フレームの画像に基づいて画像における画素点の移動情報を取得するための画素検出モジュールと、前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の視覚検出結果を取得するための視覚結果取得モジュールと、予め選択された領域の重力情報を取得し、前記重力情報によって物体の重力検出結果を取得するための重力結果取得モジュールと、前記視覚検出結果と前記重力検出結果とを整合することで物体の識別結果を決定するための整合モジュールとを含む物体識別システムがさらに提供される。

さらに、前記物体検出モジュールは、前記物体の単一フレームの画像をフレーム毎に画像前処理するための画像前処理モジュールと、前記画像前処理された単一フレームの画像における物体検出ボックスとカテゴリ検出情報を取得するための第一情報取得モジュールと、前記物体検出ボックスによって前記物体の位置検出情報を取得するための第二情報取得モジュールとを含む。

さらに、前記画素検出モジュールは、前記物体の複数フレームの画像に基づいて背景モデリングを行い、前景領域を抽出する前景抽出モジュールと、前記前景領域に対して間引きサンプリングして、画素点の移動情報を取得するためのサンプリングモジュールとを含む。

さらに、前記視覚結果取得モジュールは、前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の動き軌跡を生成するための軌跡生成モジュールと、前記物体の動き軌跡を分類して物体の軌跡状態を獲得するための軌跡分類モジュールと、前記物体のカテゴリ検出情報及び前記物体の軌跡状態によって物体の視覚検出結果を取得するための視覚分析モジュールとを含む。

さらに、前記重力結果取得モジュールは、異なる時刻の重力情報を取得するための重力センサと、前記異なる時刻の重力情報の差によって、物体の全ての可能な重力検出結果を網羅するための重力分析モジュールとを含む。

さらに、前記視覚検出結果と前記重力検出結果とを整合することで物体の識別結果を決定することは、前記視覚検出結果と前記重力検出結果をマッチングし、両者のマッチング度合いに応じて前記重力検出結果に異なる重みを付け、重みが最も高い重力検出結果を最終的な重力検出結果として選択することによって、前記物体の識別結果を決定することを含む。

本発明の実施例の別の態様によれば、プロセッサと、前記プロセッサの実行可能な指令を記憶するためのメモリとを含み、前記プロセッサは前記実行可能な指令を実行することによって上述のいずれか一項に記載の物体識別方法を実行するように配置されている電子機器がさらに提供される。

本発明の実施例の別の態様によれば、記憶媒体であって、記憶されたプログラムを含み、前記プログラムの動作際に、前記記憶媒体が位置する機器を上述のいずれか一項に記載の物体識別方法を実行するように制御する記憶媒体がさらに提供される。

本発明は、以下の有益な効果を有する。

本発明の実施例において、画像キャプチャモジュールによって物体の画像を取得する。物体の単一フレームの画像に基づいて位置検出情報とカテゴリ検出情報を含む複数の時刻の物体の検出結果を取得する。物体の複数フレームの画像に基づいて画像における画素点の移動情報を取得する。前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の視覚検出結果を取得する。重力センサを用いて予め選択された領域の重力情報を取得し、前記重力情報によって物体の重力検出結果を取得する。前記視覚検出結果と前記重力検出結果とを整合することで物体の識別結果を決定する。この実施例において、物体が遮蔽されている場合であっても、重力情報による重力検出結果に基づいて、画像による視覚検出結果を補正することができ、これにより、単純に視覚検出結果を用いて物体を識別することによる精度が悪いという問題を解決し、物体の種類や数を正確に識別することができ、さらに、物体を識別する際に、物体を積み重ねて配置することができずかつ識別精度が低いという関連技術における課題を解決し、物体格納装置の空間利用率が向上した。

ここで説明する図面は本発明に対するさらなる理解を提供し、本願の一部を構成するものであり、本発明の例示的な実施例及びその説明は、本発明を説明するためのものであり、本発明を不当に限定するものではない。

本発明の実施例による好ましい物体識別方法のフローチャートである。本発明の実施例による好ましい物体の視覚検出結果の取得方法のフローチャートである。本発明の実施例による物体識別システムのブロック図である。

当業者が本発明の技術案をよりよく理解するように、以下、本発明の実施例の図面を参照して本発明の実施例の技術案について明確に、完全に説明するが、説明される実施例は本発明の実施例の一部に過ぎず、全部ではないことが明らかである。当業者が本発明の実施例に基づいて、創造的な労働なしに獲得した他の実施例も、全て本発明の保護範囲に含まれる。

なお、本発明の明細書及び特許請求の範囲、並びに上述の図面における「第一」、「第二」等の用語は、類似の対象を区別するためのものであり、必ずしも特定の順番又は前後順序を説明するためのものではない。このように使用される数値は、ここで説明される本発明の実施例が、ここで図示又は説明されるもの以外の順番で実施されるように、適切な場合には互換可能であることが理解されるべきである。また、用語の「含む」、「有する」及びそれらの如何なる変形は、非排他的な含みをカバーすることがその意図であり、例えば、一連のステップ又はユニットを含めたプロセス、方法、システム、製品又は機器は、明確に示されたステップ又はユニットに限定される必要がなく、明確に示されない、もしくは、これらのプロセス、方法、製品又は機器に固有する他のステップ又はユニットを含んでもよい。

以下、詳細な実施例によって本発明を説明する。

本発明の実施例は新しい小売などの分野に適用されることができ、具体的な使用可能な範囲はスマートコンテナ、スマートキャビネット、デパート、スーパーマーケットなどの領域であり、以下、スマートコンテナで本発明を模式的に説明するが、これに限定されない。

図１は本発明の実施例による好ましい物体識別方法のフローチャートである。図１に示すように、この方法は以下のステップを含む。

ステップS１０２：画像キャプチャモジュールによって物体の画像を取得する。

ステップS１０４：物体の単一フレームの画像に基づいて位置検出情報とカテゴリ検出情報を含む複数の時刻の物体の検出結果を取得する。

ステップS１０６：物体の複数フレームの画像に基づいて画像における画素点の移動情報を取得する。

ステップS１０８：複数の時刻の物体の検出結果及び画素点の移動情報によって、物体の視覚検出結果を取得する。

ステップS１１０：重力センサを用いて予め選択された領域の重力情報を取得し、重力情報によって物体の重力検出結果を取得する。

ステップS１１２：視覚検出結果と重力検出結果とを整合することで物体の識別結果を決定する。

上述のステップにより、単一フレームの画像による複数の時刻の物体の検出結果と、複数フレームの画像による画素点の移動情報とを組み合わせることで、獲得された視覚検出結果に物体の動き状態が含まれるようにし、物体の誤識別率を低減させる。一方、重力情報による重力検出結果に基づいて、画像による視覚検出結果を補正することから、単純に視覚検出結果を用いて物体を識別することによる精度が悪いという問題を解決し、物体の種類や数を正確に識別することができ、さらに、物体を識別する際に、物体を積み重ねて配置することができず且つ識別精度が低いという関連技術における課題を解決することができる。

以下、上述の各ステップについて詳細に説明する。

本願において、好ましく、本発明の実施例において、画像キャプチャモジュールは、RGBカメラ、赤外線カメラ、Monoカメラなどの一般的なカメラ又はビデオカメラであってもよい。もちろん、ここで示された例に限定されることなく、当業者は実際のニーズに応じて画像キャプチャモジュールの種類や数を調整することが可能であり、コンテナやデパートなどのエリアに画像キャプチャモジュールを設置することが可能である。画像キャプチャモジュールの数は少なくとも１つであり、画像キャプチャモジュールの数が２つ以上である場合には、同じ種類の画像キャプチャモジュールを使用してもよく、異なる種類の画像キャプチャモジュールの組み合わせを使用してもよい。各画像キャプチャモジュールは、少なくとも２枚の画像をキャプチャすることができ、識別する際に、複数の角度から物体を識別するように、画像キャプチャモジュール間の画像キャプチャ時点を一致させることができ、すなわち、同一時点の複数の画像に対してそれぞれ分析することができる。

好ましく、物体の数は少なくとも１つであり、物体は物体格納装置内に配置されてもよく、例えば、物体はスマートコンテナ内に格納されてもよい。物体格納装置は、スマートコンテナを含むが、これに限定されない。

好ましい実施例では、画像キャプチャモジュールによって物体の画像を取得することは、物体のビデオを取得するために画像キャプチャモジュールをオンすることと、ビデオから物体の画像を切り出すこととを含む。すなわち、物体格納装置が開かれた後、画像キャプチャモジュールによって物体格納装置内のビデオをリアルタイムに取得し、物体格納装置が閉じられた後又はユーザによる取る動作が停止したことを検出された後、ビデオから物体の画像を切り出す。

好ましく、ステップS１０４は、物体の単一フレームの画像をフレーム毎に画像前処理することを含んでもよい。ここで、画像前処理は、画像強調、画像拡大・縮小、画像平均値減少のうち少なくとも一つを含み、画像前処理された単一フレームの画像における物体検出ボックス及びカテゴリ検出情報を取得し、ここで、物体検出ボックスには少なくとも一種の物体を含み、物体検出ボックスによって物体の位置検出情報を取得する。

好ましく、上述の画像前処理された単一フレームの画像における物体検出ボックスとカテゴリ検出情報を取得する前に、まず、複数の物体候補ボックス(prior box)を抽出し、その後、物体検出ボックス及び物体のカテゴリ検出情報を取得するために物体候補ボックスに対してディープラーニング及び分析を行う。

好ましく、上述のステップS１０４は、誤検出を防止し、物体の識別精度を向上させるために、物体検出ボックスに対して非極大値抑制(Non Maximum Suppression、NMS)を行うことをさらに含んでもよい。すなわち、誤検出を防止し、物体の識別精度を向上させるために、画像における物体を識別する際に、まず、画像の強調、拡大・縮小及び平均値減少などの操作を含む画像の前処理を行い、次に、物体検出ボックスを抽出し、抽出された物体検出ボックスに対して非極大値抑制を行う。

もちろん、別の好ましい実施例において、計算量を少なくし、物体の識別効率を向上させるために、物体の単一フレームの画像をフレームジャンプで処理し、すなわち、一定の時間間隔で物体の単一フレームの画像を処理して、複数の時刻の物体の検出結果を取得することは当業者にとって明らかである。

好ましく、ステップS１０６は、前記物体の複数フレームの画像に基づいて背景モデリングを行い、動体の含む領域である前景領域を抽出することと、前景領域に対して間引きサンプリングすることによって画素点の移動情報を取得することとを含み、ここで、移動情報は、変位、速度等を含むが、これらに限定されない。前景領域を抽出することで、サンプリングする領域面積を縮小して、計算量を少なくすることができ、ひいては物体の識別効率を向上させることもできる。

好ましい実施例では、前記物体の複数フレームの画像に基づいて背景モデリングを行い、前景領域を抽出することは、各フレームの画像における座標ごとに対して所定数の画素値を保存することと、現フレームの各座標に保存されている画素値と履歴フレームの対応される座標に保存されている画素値とを照合し、現フレームのある座標と履歴フレームの対応される座標とが同じである画素値の数が第一閾値よりも大きければ、この座標を背景として判断することと、背景モデリングを行い、前景領域を抽出するために、背景と判断された座標の情報に基づいて、背景領域をフィッティングすることとを含む。好ましく、背景差分の方法と組み合わせて、背景モデリングを行うと共に、前景領域を抽出してもよい。通常、第一フレームを背景と黙認する。

好ましい実施例では、半密なオプティカルフロー法を用いて前景領域に対して間引きサンプリングして、画素点の移動情報を取得してもよい。半密なオプティカルフロー法は、画像に対して点毎にマッチングする画素レベルの画像アラインメント法であり、画像上のいくつかの特徴点のみに対する疎なオプティカルフロー法と、画像上の全ての点に対する密なオプティカルフロー法と異なり、半密なオプティカルフロー法は、前景領域のみに対して間引きサンプリングし、その後、半密な画素点のオプティカルフローフィールドを計算することにより、画素点の移動情報を取得する。半密なオプティカルフロー法は、疎なオプティカルフロー法の計算速度が速く、密なオプティカルフロー法の適応性が強いという特徴を組み合わせて、低光条件では有効な画素点を抽出できないという疎なオプティカルフロー法の問題を解消できるとともに、演算速度が遅いという密なオプティカルフロー法の問題も解消できる。

好ましく、ステップS１０８は、物体の検出結果と画素点の移動情報とを組み合わせて完全な動き軌跡を獲得することができることと、動き軌跡を分類することによって、物体の軌跡状態を獲得することができることと、物体のカテゴリ検出情報と物体の軌跡状態とを組み合わせて、より正確な視覚検出結果を取得することとを含む。完全な動き軌跡を取得することによって、画像から取得された位置検出情報における誤差をある程度解消して補正することができる。

好ましく、ステップS１１０は、重力センサを用いて予め選択された領域の異なる時刻の重力情報を取得することと、異なる時刻の重力情報の差、例えば、物体格納装置を開いた時の初期重力安定値と物体格納装置が閉じられた時の終了重力安定値との差によって、物体の全ての可能な重力検出結果を網羅することとを含む。前記重力検出結果は、商品を取ったり入れたりしたか否かへの判断と、商品のカテゴリや数を含んでもよい。網羅の方法は異なる時刻の重力情報の差によって、順列ですべての可能な結果を網羅することであってもよい。例えば、終了重力安定値と初期重力安定値との差は－５００グラムであれば、物体格納装置における全ての物体情報によって網羅的に列挙される可能性は、(１)１本５００ｍｌのコカコーラを取ること、(２)１袋５００ｇの「優冠」（中国の登録商標、中国のトーストの製造者の一つ）トーストを取ること、(３)１缶２００gの「安慕希」（中国の登録商標、中国のヨーグルトの製造者の一つ）ヨーグルトと１パック３００gの「双匯」（中国の登録商標、中国のハムソーセージの製造者の一つ）ハムソーセージを取ることとを含む。逆に、終了重力安定値と初期重力安定値との差が＋５００グラムであれば、物体格納装置における全ての物体情報によって網羅的に列挙される可能性は、(１)１本５００ｍｌのコカコーラを入れること、(２)１袋５００ｇの「優冠」クリスピークッキーを入れること、(３)１缶２００gの「安慕希」ヨーグルトと１パック３００gの「双匯」ハムソーセージを入れることとを含む。

好ましく、物体格納装置が開かれた後、予め選択された領域の重力情報を重力センサによってリアルタイムで、又は所定の時間間隔で取得し、物体格納装置が閉じられた後、又はユーザによる取る動作の停止を検出された後、物体の重力情報の取得を停止する。

好ましく、この重力センサは、物体格納装置に設けられてもよく、例えば、物体格納装置がスマートコンテナである場合、スマートコンテナの各階の棚に設けられてもよく、この場合、各階の棚が予め選択されたエリアとなる。

もちろん、当業者にとって、ここで示された例に限定されることなく、実際のニーズに応じて重力センサの種類や数を調整することができ、重力センサの数が２個以上の場合には、同じ種類の重力センサを使用してもよく、異なる種類の重力センサの組み合わせを使用してもよい。

好ましく、ステップS１１２は、視覚検出結果と重力検出結果とをマッチングし、両者のマッチング度合いに応じて重力検出結果に異なる重みを付け、通常、視覚検出結果とのマッチング度合いが高い重力検出結果に高い重みを付け、視覚検出結果とのマッチング度合いが低い重力検出結果に低い重みを付けた後、重みが最も高い重力検出結果を最終的な重力検出結果として選択することで、物体の識別結果を決定することを含む。物体の識別結果は、物体を取ったり入れたりしたか否か、物体カテゴリ、物体カテゴリごとの物体数や具体的な名称などを含まんでもよい。好ましく、本発明の実施例において、物体カテゴリは、野菜類、果物類、スナック類、生肉類、海産類などを含むが、これらに限定されない。

物体が遮蔽されている可能性があるため、この場合、遮られた物体を単純に視覚検出結果によって正確に分析することができないため、物体の重力検出結果と視覚検出結果とを整合することで、誤識別率をさらに低減し、識別の見逃しの確率を小さくして、正確な物体の識別結果を獲得することができる。

上述のステップにより、物体が遮蔽されている場合であっても、重力情報による重力検出結果に基づいて、画像による視覚検出結果を補正することができ、これにより、単純に視覚検出結果を用いて物体を識別することによる精度が悪いという問題を解決し、物体の種類や数を正確に識別することができ、さらに物体を識別する際に、物体を積み重ねて配置することができず且つ識別精度が低いという関連技術における課題を解決し、物体格納装置の空間利用率が向上した。

図２は、本発明の実施例による好ましい物体の視覚検出結果の取得方法のフローチャートである。図２に示すように、この方法は以下のステップを含む。

ステップS２０２：複数の時刻の物体の検出結果及び画素点の移動情報によって、物体の動き軌跡を生成する。

ステップS２０４：物体の動き軌跡を分類して物体の軌跡状態を獲得する。

ステップS２０６：物体のカテゴリ検出情報及び物体の軌跡状態によって、物体の視覚検出結果を取得する。

上述のステップは、まず、物体の検出結果と画素点の移動情報とを組み合わせることにより、完全な動き軌跡を獲得することができ、その後、動き軌跡を分類することにより、物体の軌跡状態を獲得することができ、画像から取得された位置検出情報における誤差をある程度解消して補正し、その後、物体のカテゴリ検出情報と組み合わせることで、より正確な視覚検出結果を獲得することができる。

以下、上述の各ステップについて詳しく説明する。

好ましい実施例では、ステップS２０２は、ｔ時刻の物体の検出結果における位置検出情報、及び画素点の移動情報によって、(ｔ+１)時刻の物体の位置予測情報を取得することと、ｔ時刻の物体の検出結果、(ｔ+１)時刻の物体の検出結果及び(ｔ+１)時刻の物体の位置予測情報によって、(ｔ+１)時刻の物体の検出結果とｔ時刻の物体の検出結果とが同一軌跡に属されるか否かを判断して、判断結果を取得することと、判断結果によって前記物体の動き軌跡を生成することとを含む。判断結果が同一軌跡に属されることを示していれば、(ｔ＋１)時刻の物体の位置とｔ時刻の物体の位置とを連結して１つの物体の動き軌跡を生成し、判断結果が同一軌跡に属されないことを示していれば、(ｔ＋１)時刻の物体の位置によって1つの新たな動き軌跡を作成する。

具体的には、ｔ時刻の物体の検出結果と、(ｔ＋１)時刻の物体の検出結果と、(ｔ＋１)時刻の物体の位置予測情報とによって、(ｔ＋１)時刻の物体の検出結果とｔ時刻の物体の検出結果が同一軌跡に属されるか否かを判断し、判断結果を取得することは、ｔ時刻の物体の検出結果におけるカテゴリ検出情報と(ｔ+１)時刻の物体の検出結果におけるカテゴリ検出情報とによって、物体のカテゴリが同じであるか否かを判断することと、(ｔ＋１)時刻の物体の検出結果における位置検出情報と(ｔ＋１)時刻の物体の位置予測情報によって、(ｔ＋１)時刻の物体の位置予測情報と(ｔ＋１)時刻の物体の位置検出情報との距離が所定の閾値未満であるか否かを判断することと、ｔ時刻の物体のカテゴリが(ｔ＋１)時刻の物体のカテゴリと同じであり、かつ、(ｔ＋１)時刻の物体の位置予測情報と(ｔ＋１)時刻の物体の位置検出情報との距離が所定の閾値未満である場合に、判断結果は(ｔ＋１)時刻の物体の検出結果がｔ時刻の物体の検出結果と同一軌跡に属されることを示し、逆に、同一軌跡に属されないことを示すこととを含む。

別の好ましい実施例では、より正確な(ｔ＋１)時刻の物体の位置予測情報を取得するために、ｔ時刻の物体の検出結果における位置検出情報、及び画素点の移動情報によって、(ｔ+１)時刻の物体の位置予測情報を取得することは、ｔ時刻の物体の検出結果における位置検出情報及びｔ時刻の画素点の速度によって、(ｔ+１)時刻の物体の予測位置を取得することと、(ｔ+１)時刻の物体の位置予測情報によって(ｔ+１)時刻の画素点の速度を取得することと、ｔ時刻の画素点の速度と(ｔ+１)時刻の画素点の速度を重み付き平均して平均速度を獲得することと、ｔ時刻の物体の検出結果における位置検出情報及び平均速度によって、(ｔ+１)時刻の物体の位置予測情報を取得することとを含む。

好ましく、ステップS２０４は、物体の動き軌跡のうち、動き軌跡の最初位置、動き軌跡の終了位置、動き軌跡の最大位置、移動軌跡の隣接ノード間の最大変位の少なくとも１つを含む軌跡情報を抽出することと、前記情報によって、決定木アルゴリズムにより物体の動き軌跡を分類して物体の軌跡状態を獲得することとを含む。ここで、物体の軌跡状態は、誤検出、確実に入れたこと、確実に取ったこと、取ったようなこと、入れたようなこと等を含む。

好ましく、物体の視覚検出結果は、(１)確認された検出結果、(２)可能な補完検出結果の２種類に分類されてもよい。ここで、確認された検出結果は、いくつかの物体を確実に入れたこと、いくつかの物体を確実に取ったことなどを含み、可能な補完検出結果は、いくつかの物体を取ったようなこと、いくつかの物体を入れたようなことなどを含む。

これにより、物体の軌跡状態と組み合わせて、画像から取得された位置検出情報における誤差をある程度解消して補正し、その後、物体のカテゴリ検出情報と組み合わせてより正確な視覚検出結果を獲得することができる。

本発明の実施例の別の態様によれば、物体識別システムをさらに提供する。図３は本発明の実施例による好ましい物体識別システムのクロック図である。

図３に示すように、このシステムは、画像キャプチャモジュール３０、物体検出モジュール３１、画素検出モジュール３２、視覚結果取得モジュール３３、重力結果取得モジュール３４及び整合モジュール３５を含んでもよい。

画像キャプチャモジュール３０は、物体の画像を取得するためのものである。好ましく、画像キャプチャモジュール３０は、RGBカメラ、赤外線カメラ、Monoカメラなどのような一般的なカメラ又はビデオカメラであってもよい。もちろん、当業者にとって、ここで示された例に限定されることなく、実際のニーズに応じて画像キャプチャモジュール３０の種類や数を調整することも可能であり、画像キャプチャモジュール３０をコンテナやデパート等のエリアに設置してもよい。画像キャプチャモジュール３０の数は少なくとも１つであり、画像キャプチャモジュール３０の数が２つ以上である場合には、同一種類の画像キャプチャモジュール３０を用いてもよく、異なる種類の画像キャプチャモジュール３０の組み合わせを用いてもよい。各画像キャプチャモジュール３０は、いずれも少なくとも２枚の画像をキャプチャし、識別する際に、複数の角度から物体を識別するように、画像キャプチャモジュール３０間のキャプチャ時点を一致させることができ、すなわち、同一時点の複数の画像をそれぞれ分析することができる。

好ましく、物体の数は少なくとも１つであり、物体を物体格納装置内に配置してもよく、例えば、物体をスマートコンテナ内に収納してもよい。物体格納装置は、スマートコンテナを含むが、これに限定されない。

好ましい実施形態では、画像キャプチャモジュール３０によって物体の画像を取得することは、物体のビデオを取得するために画像キャプチャモジュール３０をオンすることと、ビデオから物体の画像を切り出すこととを含む。すなわち、物体格納装置が開かれた後、画像キャプチャモジュール３０により物体格納装置内のビデオをリアルタイムに取得し、物体格納装置が閉じられた後、又はユーザによる取る動作の停止が検出された後、ビデオから物体の画像を切り出す。

物体検出モジュール３１は、物体の単一フレームの画像に基づいて、位置検出情報とカテゴリ検出情報とを含む複数の時刻の物体の検出結果を取得する。物体検出モジュール３１は、画像キャプチャモジュール３０によって撮像された物体の画像を取得するために、物体検出モジュール３１と有線又は無線で通信することができる。

好ましい実施例では、物体検出モジュール３１は、画像前処理モジュール３１０と、第一情報取得モジュール３１２と、第二情報取得モジュール３１４とを含んでもよい。ここで、画像前処理モジュール３１０は、物体の単一フレームの画像をフレーム毎に画像前処理するためのものである。ここで、画像前処理は、画像強調、画像拡大・縮小、画像平均値減少の少なくとも１つを含む。第一情報取得モジュール３１２は、画像前処理された単一フレームの画像中の、少なくとも１種類の物体を含む物体検出ボックスと、カテゴリ検出情報とを取得する。第二情報取得モジュール３１４は、物体検出ボックスによって物体の位置検出情報を取得する。

好ましく、第一情報取得モジュール３１２は、候補ボックス抽出モジュール３１２０及び検出ボックス分析モジュール３１２２をさらに含んでもよい。ここで、候補ボックス抽出モジュール３１２０は、画像前処理された単一フレームの画像から複数の物体候補ボックス(prior box)を抽出するためのものである。検出ボックス分析モジュール３１２２は、物体検出ボックス及び物体のカテゴリ検出情報を取得するために、物体候補ボックスに対してディープラーニング及び分析を行う。

好ましく、物体検出モジュール３１は、誤検出を防止し，物体の識別精度を向上させるために、第一情報取得モジュール３１２によって取得された物体検出ボックスに対して非極大値抑制(Non Maximum Suppression、NMS)するための検出ボックス処理モジュール３１３をさらに含んでもよい。

もちろん、当業者にとって、別の好ましい実施形態では、計算量を少なくし、物体の識別効率を向上させるために、画像前処理モジュール３１０は、複数の時刻の物体の検出結果を取得するために、物体の単一フレームの画像に対してフレームジャンプで処理し、つまり物体の単一フレームの画像に対して一定の時間間隔毎に処理することができる、ということが分かる。

画素検出モジュール３２は物体の複数フレームの画像に基づいて画像における画素点の移動情報を取得するためのものである。

好ましい実施例では、画素検出モジュール３２は前景抽出モジュール３２０とサンプリングモジュール３２２を含む。前景抽出モジュール３２０は前記物体の複数フレームの画像に基づいて背景モデリングを行い、動体を含む領域である前景領域を抽出する。サンプリングモジュール３２２は前景領域に対して間引きサンプリングして、画素点の移動情報を取得するためのものであり、ここで、移動情報は変位、速度等を含むが、これらに限定されていない。前景領域を抽出することで、サンプリングする領域の面積を縮小して計算量を少なくし、ひいては物体の識別効率を向上させることができる。

好ましい実施例では、前記物体の複数フレームの画像に基づいて背景モデリングを行い、前景領域を抽出することは、各フレームの画像における座標ごとに対して所定数の画素値を保存することと、現フレームの各座標に保存されている画素値と履歴フレームの対応される座標に保存されている画素値とを照合し、現フレームのある座標と履歴フレームの対応される座標とが同じである画素値の数が第一閾値よりも大きければ、この座標を背景として判断することと、背景モデリングを図ると共に、前景領域を抽出するために、背景と判断された座標の情報によって、背景領域をフィッティングすることとを含む。好ましく、背景差分の方法と組み合わせて、背景モデリングを図ると共に、前景領域を抽出してもよい。通常、第一フレームを背景と黙認する。

好ましい実施例では、サンプリングモジュール３２２は、半密なオプティカルフロー法を用いて前景領域に対して間引きサンプリングして、画素点の移動情報を取得してもよい。半密なオプティカルフロー法は、画像に対して点毎にマッチングする画素レベルの画像アラインメント法であり、画像上のいくつかの特徴点のみに対する疎なオプティカルフロー法と、画像上の全ての点に対する密なオプティカルフロー法と異なり、半密なオプティカルフロー法は、前景領域のみに対して間引きサンプリングし、その後、半密な画素点のオプティカルフローフィールドを計算することにより、画素点の移動情報を取得する。半密なオプティカルフロー法は疎なオプティカルフロー法の計算速度が速く、密なオプティカルフロー法の適応性が強いという特徴を組み合わせて、低光条件では有効な画素点を抽出できないという疎なオプティカルフロー法の問題を解消できるとともに、演算速度が遅いという密なオプティカルフロー法の問題も解消できる。

視覚結果取得モジュール３３は、複数の時刻の物体の検出結果及び画素点の移動情報によって、物体の視覚検出結果を取得するためのものである。

好ましい実施例では、視覚結果取得モジュール３３は軌跡生成モジュール３３０、軌跡分類モジュール３３２及び視覚分析モジュール３３４を含む。軌跡生成モジュール３３０は複数の時刻の物体の検出結果及び画素点の移動情報によって、物体の動き軌跡を生成するためのものである。軌跡分類モジュール３３２は物体の動き軌跡を分類して物体の軌跡状態を獲得するためのものである。視覚分析モジュール３３４は物体のカテゴリ検出情報及び物体の軌跡状態によって、物体の視覚検出結果を取得するためのものである。

好ましい実施例では、複数の時刻の物体の検出結果及び画素点の移動情報によって、物体の動き軌跡を生成することは、ｔ時刻の物体の検出結果における位置検出情報、及び画素点の移動情報によって、(ｔ+１)時刻の物体の位置予測情報を取得することと、ｔ時刻の物体の検出結果、(ｔ+１)時刻の物体の検出結果及び(ｔ+１)時刻の物体の位置予測情報によって、(ｔ+１)時刻の物体の検出結果とｔ時刻の物体の検出結果とが同一軌跡に属されるか否かを判断して、判断結果を取得することと、判断結果によって物体の動き軌跡を生成し、例えば、判断結果が同一軌跡に属されることを示していれば、(ｔ＋１)時刻の物体の位置とｔ時刻の物体の位置とを連結して１つの物体の動き軌跡を生成し、判断結果が同一軌跡に属されないことを示していれば、(ｔ＋１)時刻の物体の位置によって新たな動き軌跡を作成することとを含む。

具体的には、ｔ時刻の物体の検出結果、(ｔ+１)時刻の物体の検出結果及び(ｔ+１)時刻の物体の位置予測情報によって、(ｔ+１)時刻の物体の検出結果とｔ時刻の物体の検出結果とが同一軌跡に属されるか否かを判断して、判断結果を取得することは、ｔ時刻の物体の検出結果におけるカテゴリ検出情報及び(ｔ+１)時刻の物体の検出結果におけるカテゴリ検出情報によって、物体のカテゴリが同じであるか否かを判断することと、次に、(ｔ＋１)時刻の物体の検出結果における位置検出情報と(ｔ＋１)時刻の物体の位置予測情報によって、(ｔ＋１)時刻の物体の位置予測情報と(ｔ＋１)時刻の物体の位置検出情報との距離が所定の閾値未満であるか否かを判断することと、ｔ時刻の物体のカテゴリが(ｔ＋１)時刻の物体のカテゴリと同じであり、かつ、(ｔ＋１)時刻の物体の位置予測情報と(ｔ＋１)時刻の物体の位置検出情報との距離が所定の閾値未満である場合に、判断結果は(ｔ＋１)時刻の物体の検出結果がｔ時刻の物体の検出結果と同一軌跡に属されることを示し、逆に、同一軌跡に属されないことを示すこととを含む。

別の好ましい実施例では、より正確な(ｔ＋１)時刻の物体の位置予測情報を取得するために、ｔ時刻の物体の検出結果における位置検出情報、及び画素点の移動情報によって、(ｔ＋１)時刻の物体の位置予測情報を取得することは、ｔ時刻の物体の検出結果における位置検出情報及びｔ時刻の画素点の速度によって、(ｔ＋１)時刻の物体の予測位置を取得することと、(ｔ＋１)時刻の物体の位置予測情報によって(ｔ＋１)時刻の画素点の速度を取得することと、ｔ時刻の画素点の速度と(ｔ＋１)時刻の画素点の速度を重み付き平均して平均速度を獲得することと、ｔ時刻の物体の検出結果における位置検出情報及び平均速度によって、(ｔ＋１)時刻の物体の位置予測情報を取得することとを含む。

好ましい実施例では、物体の動き軌跡を分類して物体の軌跡状態を獲得することは、物体の動き軌跡のうち、動き軌跡の最初位置、動き軌跡の終了位置、動き軌跡の最大位置、移動軌跡の隣接ノード間の最大変位の少なくとも１つを含む軌跡情報を抽出することと、前記情報によって、決定木アルゴリズムにより物体の動き軌跡を分類して物体の軌跡状態を獲得することとを含む。ここで、物体の軌跡状態は、誤検出、確実に入れたこと、確実に取ったこと、取ったようなこと、入れたようなこと等を含む。

好ましい、物体の視覚検出結果は、(１)確認された検出結果、(２)可能な補完検出結果の２種類に分類されてもよい。ここで、確認された検出結果は、いくつかの物体を確実に入れたこと、いくつかの物体を確実に取ったことなどを含み、可能な補完検出結果は、いくつかの物体を取ったようなこと、いくつかの物体を入れたようなことなどを含む。
重力結果取得モジュール３４は重力情報を取得し、重力情報によって物体の重力検出結果を取得するためのものである。

好ましい実施例では、重力結果取得モジュール３４は重力センサ３４０と重力分析モジュール３４２を含む。重力センサ３４０は異なる時刻の重力情報を取得するためのものである。重力分析モジュール３４２は異なる時刻の重力情報の差、例えば、物体格納装置を開いた時の初期重力安定値と物体格納装置が閉じられた時の終了重力安定値との差によって、物体の全ての可能な重力検出結果を網羅する。上述の重力検出結果は、商品を取ったり入れたりしたか否かへの判断と、商品のカテゴリや数を含んでもよい。網羅の方法は異なる時刻の重力情報の差によって、順列ですべての可能な結果を網羅することであってもよい。例えば、終了重力安定値と初期重力安定値との差は-５００グラムであれば、物体格納装置における全ての物体情報によって網羅的に列挙される可能性は、(１)１本５００ｍｌのコカコーラを取ること、(２)１袋５００ｇの「優冠」トーストを取ること、(３)１缶２００gの「安慕希」ヨーグルトと１パック３００gの「双匯」ハムソーセージを取ることとを含む。逆に、終了重力安定値と初期重力安定値との差が＋５００グラムであれば、物体格納装置における全ての物体情報によって網羅的に列挙される可能性は、(１)１本５００ｍｌのコカコーラを入れること、(２)１袋５００ｇの「優冠」クリスピークッキーを入れること、(３)１缶２００gの「安慕希」ヨーグルトと１パック３００gの「双匯」ハムソーセージを入れることとを含む。

好ましく、物体格納装置が開かれた後、予め選択された領域の重力情報を重力センサ３４０によってリアルタイムで、又は所定の時間間隔で取得し、物体格納装置が閉じられた後、又はユーザの取り入れ動作の停止を検出された後、重力センサ３４０は物体の重力情報の取得を停止する。

もちろん、当業者にとって、ここで示された例に限定されることなく、実際のニーズに応じて重力センサ３４０の種類や数を調整してもよく、重力センサ３４０の数が２個以上の場合には、同じ種類の重力センサ３４０を使用してもよく、異なる種類の重力センサ３４０の組み合わせを使用してもよい。この重力センサ３４０は物体格納装置に設置されてもよい。

整合モジュール３５は、視覚検出結果と重力検出結果とを整合することで物体の識別結果を決定するためのものである。

好ましく、整合モジュール３５は、視覚検出結果と重力検出結果とをマッチングし、両者のマッチング度合いに応じて重力検出結果に異なる重みを付け、通常、視覚検出結果とのマッチング度合いが高い重力検出結果に高い重みを付け、視覚検出結果とのマッチング度合いが低い重力検出結果に低い重みを付けた後、重みが最も高い重力検出結果を最終的な重力検出結果として選択する。物体の識別結果は、物体を取ったり入れたりしたか否か、物体カテゴリ、物体カテゴリごとの物体数や具体的な名称などを含まんでもよい。好ましく、本発明の実施例において、物体カテゴリは、野菜類、果物類、スナック類、生肉類、海産類などを含むが、これらに限定されない。

本発明の実施例の別の態様によれば、プロセッサと、プロセッサの実行可能な指令を記憶するためのメモリとを含み、プロセッサは実行可能な指令を実行することによって上述のいずれか一項に記載の物体識別方法を実行するように配置されている電子機器がさらに提供される。

本発明の実施例の別の態様によれば、記憶媒体であって、記憶されたプログラムを含み、プログラムの動作際に、記憶媒体が位置する機器を上述のいずれか一項に記載の物体識別方法を実行するように制御する記憶媒体がさらに提供される。

上述した本発明の実施例の番号は説明のためのものにすぎず、実施例の優劣を表すものではない。

本発明の上述した実施例では、各実施例に対する説明はそれぞれ、ポイントがあり、ある実施例の詳細な説明がない部分について、他の実施例の関連する説明を参照してもよい。

本願で提供されるいくつかの実施例では、開示された技術的内容を他の態様で実現できることは、理解されるべきである。ここで、上述した装置の実施例は、模式的なものにすぎず、例えば、前記ユニットの分類は、論理的な機能によって分類されたものに過ぎず、実現際に他の分類方式を用いてもよい。例えば、複数のユニットや装置を組合せたり、他のシステムに集積させたりすることができ、或いは、いくつかの特徴を省略、又は実行しなくてもよい。一方、示され又は説明された互いの結合、直接結合又は通信接続は、いくつかのインターフェースにより実現されてもよく、ユニット又はモジュールの間接結合又は通信接続は、電気又は他の態様により実現されることができる。

前記分離した部材として説明されたユニットは、物理的に分離したものであってもよく、物理的に分離したものでなくてもよい。ユニットとして示された部材は、物理的ユニットであってもよく、物理的ユニットでなくてもよく、つまり、同一場所に配置されてもよく、複数のユニットに分布されてもよい。実際のニーズに応じて、その一部又は全てのユニットにより本実施例の技術案の目的を達成することができる。

また、本発明の各実施例における各機能ユニットは、１つの処理ユニットに集積されてもよく、それぞれのユニットごとに物理的に存在してもよく、或いは、二つ又は二つ以上のユニットが１つのユニットに集積されてもよい。上述の集積ユニットは、ハードウェアの形で実現されてもよく、ソフトウェア機能ユニットの形で実現されてもよい。

前記集積ユニットは、ソフトウェア機能ユニットの形で実現され、且つ独立した製品として販売又は使用される場合、コンピュータ読み取り可能な記憶媒体に記憶されることができる。このように理解すれば、本発明の技術案は、本質的に、従来技術に寄与する部分、或いは、該技術案の全部又は一部をソフトウェア製品の形で表現することができ、このコンピュータソフトウェア製品は、コンピュータ機器(パソコン、サーバ又はネットワーク機器等であってもよい)に本発明の各実施形態に記載の方法の全部又は一部を実行させるための若干の命令を含む記憶媒体に記憶される。前述の記憶媒体は、Uディスク（USBメモリ）、リードオンリーメモリ(ROM、Read-Only Memory)、ランダムアクセスメモリ(RAM、Random Access Memory)、ポータブルハードディスク、磁気ディスク又は光ディスク等の様々なプログラムコードを記憶可能な媒体を含む。

以上、本発明の好適な実施形態のみについて説明したが、当業者にとって、本発明の趣旨を逸脱しない限り、若干の改善や潤飾が可能であることは指摘されるべきである。これら改善や潤飾も、本発明の保護範囲内に含まれるべきである。

Claims

スマートコンテナに適用される物体識別方法であって、
画像キャプチャモジュールによって物体の画像を取得することと、
物体の単一フレームの画像に基づいて、位置検出情報とカテゴリ検出情報とを含む複数の時刻の物体の検出結果を取得することと、
物体の複数フレームの画像に基づいて画像における画素点の移動情報を取得することと、
前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の視覚検出結果を取得することと、
重力センサを用いて予め選択された領域の重力情報を取得し、前記重力情報によって物体の重力検出結果を取得することと、
前記視覚検出結果と前記重力検出結果とを整合することで物体の識別結果を決定することと、
を含み、
前記視覚検出結果と前記重力検出結果とを整合することで物体の識別結果を決定することは、
前記視覚検出結果と前記重力検出結果とをマッチングし、両者のマッチング度合いに応じて前記重力検出結果に異なる重みを付け、重みが最も高い重力検出結果を最終的な重力検出結果として選択することによって、前記物体の識別結果を決定する、ことを含む
ことを特徴とする物体識別方法。
前記物体の単一フレームの画像に基づいて複数の時刻の物体の検出結果を取得することは、
前記物体の単一フレームの画像をフレーム毎に画像前処理することと、
前記画像前処理された前記単一フレームの画像における物体検出ボックスと前記カテゴリ検出情報とを取得することと、
前記物体検出ボックスによって前記物体の位置検出情報を取得することと、
を含むことを特徴とする請求項１に記載の物体識別方法。
前記物体検出ボックスに対して非極大値抑制を行うことをさらに含むことを特徴とする請求項２に記載の物体識別方法。
前記物体の複数フレームの画像に基づいて、画像中における画素点の移動情報を取得することは、
前記物体の複数フレームの画像に基づいて背景モデリングを行い、前景領域を抽出することと、
前記前景領域に対して間引きサンプリングして画素点の移動情報を取得することと、
を含むことを特徴とする請求項１に記載の物体識別方法。
前記前景領域は、動体を含む領域であることを特徴とする請求項４に記載の物体識別方法。
半密なオプティカルフロー法を用いて前記前景領域に対して間引きサンプリングして、前記画素点の移動情報を取得することを特徴とする請求項４に記載の物体識別方法。
前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の視覚検出結果を取得することは、
前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の動き軌跡を生成することと、
前記物体の動き軌跡を分類して物体の軌跡状態を獲得することと、
前記物体のカテゴリ検出情報及び前記物体の軌跡状態によって、物体の視覚検出結果を取得することと、
を含むことを特徴とする請求項１に記載の物体識別方法。
前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の動き軌跡を生成することは、
ｔ時刻の物体の検出結果における前記位置検出情報、及び前記画素点の移動情報によって、(ｔ＋１)時刻の物体の位置予測情報を取得することと、
前記ｔ時刻の物体の検出結果と、(ｔ＋１)時刻の物体の検出結果と、前記(ｔ＋１)時刻の物体の位置予測情報とによって、(ｔ＋１)時刻の物体の検出結果と前記ｔ時刻の物体の検出結果とが同一軌跡に属されるか否かを判断し、判断結果を取得することと、
判断結果によって、前記物体の動き軌跡を生成することと、
を含むことを特徴とする請求項７に記載の物体識別方法。
前記ｔ時刻の物体の検出結果における前記位置検出情報、及び前記画素点の移動情報によって、(ｔ＋１)時刻の物体の位置予測情報を取得することは、
前記ｔ時刻の物体の検出結果における位置検出情報、及びｔ時刻の画素点の速度によって、(ｔ＋１)時刻の物体の予測位置を取得することと、
前記(ｔ＋１)時刻の物体の予測位置によって(ｔ＋１)時刻の画素点の速度を取得することと、
前記ｔ時刻の画素点の速度と前記(ｔ＋１)時刻の画素点の速度とを重み付き平均して平均速度を獲得することと、
前記ｔ時刻の物体の検出結果における位置検出情報及び前記平均速度によって、前記(ｔ＋１)時刻の物体の位置予測情報を取得することと、
を含むことを特徴とする請求項８に記載の物体識別方法。
前記物体の動き軌跡を分類して物体の軌跡状態を獲得することは、
前記物体の動き軌跡のうち、前記動き軌跡の最初位置、前記動き軌跡の終了位置、前記動き軌跡の最大位置、前記動き軌跡の隣接ノード間の最大変位の少なくとも１つを含む軌跡情報を抽出することと、
前記軌跡情報によって、決定木アルゴリズムにより前記物体の動き軌跡を分類して前記物体の軌跡状態を獲得することと、
を含むことを特徴とする請求項７に記載の物体識別方法。
前記重力センサを用いて予め選択された領域の重力情報を取得し、前記重力情報によって物体の重力検出結果を取得することは、
重力センサを用いて予め選択された領域の異なる時刻の重力情報を取得することと、
前記異なる時刻の重力情報の差によって、前記物体の全ての可能な重力検出結果を網羅することと、
を含むことを特徴とする請求項１に記載の物体識別方法。
前記ｔ時刻の物体の検出結果、(ｔ+１)時刻の物体の検出結果、及び前記(ｔ+１)時刻の物体の位置予測情報によって、(ｔ+１)時刻の物体の検出結果と前記ｔ時刻の物体の検出結果とが同一軌跡に属されるか否かを判断し、判断結果を取得することは、
前記ｔ時刻の物体の検出結果におけるカテゴリ検出情報及び(ｔ+１)時刻の物体の検出結果におけるカテゴリ検出情報によって、ｔ時刻の物体のカテゴリと(ｔ＋１)時刻の物体のカテゴリが同じであるか否かを判断することと、
前記(ｔ+１)時刻の物体の検出結果における位置検出情報及び前記(ｔ+１)時刻の物体の位置予測情報によって、前記(ｔ+１)時刻の物体の位置予測情報と前記(ｔ+１)時刻の物体の位置検出情報との距離が所定の閾値未満であるか否かを判断することと、
前記ｔ時刻の物体のカテゴリが前記(ｔ＋１)時刻の物体のカテゴリと同一であり、かつ、前記(ｔ＋１)時刻の物体の位置予測情報と前記(ｔ＋１)時刻の物体の位置検出情報との距離が所定の閾値未満であると、前記判断結果は、前記(ｔ＋１)時刻の物体の検出結果と、前記ｔ時刻の物体の検出結果とが同一軌跡に属されることを示すことと、
を含む特徴とする請求項８に記載の物体識別方法。
前記物体の軌跡状態は、誤検出、確実に入れたこと、確実に取ったこと、取ったようなこと、入れたようなこと、の少なくとも一つを含むことを特徴とする請求項７に記載の物体識別方法。
物体の画像を取得するための画像キャプチャモジュールと、
物体の単一フレームの画像に基づいて位置検出情報とカテゴリ検出情報を含む複数の時刻の物体の検出結果を取得するための物体検出モジュールと、
物体の複数フレームの画像に基づいて画像における画素点の移動情報を取得するための画素検出モジュールと、
前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の視覚検出結果を取得するための視覚結果取得モジュールと、
予め選択された領域の重力情報を取得し、前記重力情報によって物体の重力検出結果を取得するための重力結果取得モジュールと、
前記視覚検出結果と前記重力検出結果とをマッチングし、両者のマッチング度合いに応じて前記重力検出結果に異なる重みを付け、重みが最も高い重力検出結果を最終的な重力検出結果として選択することによって、前記物体の識別結果を決定するための整合モジュールと、
を含むことを特徴とする物体識別システム。
前記物体検出モジュールは、
前記物体の単一フレームの画像をフレーム毎に画像前処理するための画像前処理モジュールと、
前記画像前処理された単一フレームの画像における物体検出ボックスとカテゴリ検出情報を取得するための第一情報取得モジュールと、
前記物体検出ボックスによって前記物体の位置検出情報を取得するための第二情報取得モジュールと、
を含むことを特徴とする請求項１４に記載の物体識別システム。
前記画素検出モジュールは、
前記物体の複数フレームの画像に基づいて背景モデリングを行い、前景領域を抽出する前景抽出モジュールと、
前記前景領域に対して間引きサンプリングして、画素点の移動情報を取得するためのサンプリングモジュールと、
を含むことを特徴とする請求項１４に記載の物体識別システム。
前記視覚結果取得モジュールは、
前記複数の時刻の物体の検出結果及び前記画素点の移動情報によって、物体の動き軌跡を生成するための軌跡生成モジュールと、
前記物体の動き軌跡を分類して物体の軌跡状態を獲得するための軌跡分類モジュールと、
前記物体のカテゴリ検出情報及び前記物体の軌跡状態によって物体の視覚検出結果を取得するための視覚分析モジュールと、
を含むことを特徴とする請求項１４に記載の物体識別システム。
前記重力結果取得モジュールは、
異なる時刻の重力情報を取得するための重力センサと、
前記異なる時刻の重力情報の差によって、物体の全ての可能な重力検出結果を網羅するための重力分析モジュールと、
を含むことを特徴とする請求項１４に記載の物体識別システム。
プロセッサと、
前記プロセッサの実行可能な指令を記憶するためのメモリとを含み、
前記プロセッサは、前記実行可能な指令を実行することによって請求項１乃至１３の何れか一つに記載の物体識別方法を実行するように配置されることを特徴とする電子機器。
記憶媒体であって、記憶されたプログラムを含み、前記プログラムの動作際に、前記記憶媒体が位置する機器を請求項１乃至１３の何れか一つに記載の物体識別方法を実行するように制御することを特徴とする記憶媒体。