JP6986576B2

JP6986576B2 - 物品識別方法及びシステム、電子機器

Info

Publication number: JP6986576B2
Application number: JP2019566841A
Authority: JP
Inventors: ゾウ，ウェンツァイ; オウヤン，ガオ; ユエ，ボーシュアン; ワン，ジン
Original assignee: ArcSoft Corp Ltd
Current assignee: ArcSoft Corp Ltd
Priority date: 2019-01-08
Filing date: 2019-06-21
Publication date: 2021-12-22
Anticipated expiration: 2039-06-21
Also published as: KR102329369B1; EP3910608A4; WO2020143179A1; JP2021513690A; US11335092B2; EP3910608B1; US20210397844A1; CN111415461B; CN111415461A; KR20200088219A; EP3910608A1

Description

本願は、２０１９年１月８日に中国国家知識産権局に提出された、出願番号が２０１９１００１６９３４．７であり、発明の名称が「物品識別方法及びシステム、電子機器」である中国特許出願の優先権を主張し、その全ての内容は、参照により本願に組み込まれるものとする。

本発明は、情報処理技術の分野に関し、具体的には、物品識別方法及びシステム、電子機器に関する。

関連技術では、スマート販売機は、新小売業界の発展の１つの重要な方向であり、物品を識別する場合、現在、主な手段として、従来のＲＦＩＤ（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ、無線自動識別）の技術手段と、視覚識別に基づく静的識別との２つの技術的手段がある。第１種のＲＦＩＤ電子タグに基づく解決手段は、異なる種別の物品に異なるＲＦＩＤ電子タグを設定する必要があり、無線信号により電子タグにおけるデータを識別して物品識別及び統計の目的を達成し、そのコストが高く、一方では、ＲＦＩＤ電子タグのコストが高く、一方では、上市すると千万の物品にタグを貼り付ける人件費が非常に高く、また、金属、液体類の物品に対する識別正確度が低く、タグが人為的に引きはがされやすいことにより、貨物損失率が高くなる。一方、第２種の視覚識別に基づく静的識別の手段は、販売機の各層の頂部にカメラを取り付ける必要があり、ドアを開かれる前とドアを閉められた後にそれぞれ１枚の画像を撮影して、視覚識別技術により物品の種類及び数量を自動的に識別し、最後に、比較により最後の結果を得て、空間利用率が低く、これは、カメラから下層の仕切り板までの高さが高い必要があり、そうでなければ、全貌を撮影しにくくなり、識別精度が物品の遮蔽による影響を受けやすく、物品を積み重ねて置くことができないためである。

上記課題について、未だに有効な解決手段が提供されていない。

本開示の実施例は、関連技術における物品を識別する際の識別精度が低いという技術的課題を少なくとも解決する物品識別方法及びシステム、電子機器を提供する。

本発明の実施例の一態様は、画像取得装置により物品の複数フレームの画像を取得することと、前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得することと、情報取得装置により前記物品の補助情報を取得することと、前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得することと、前記種別情報と前記融合結果に基づいて、前記物品の識別結果を決定することとを含む、物品識別方法を提供する。

選択的に、前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得することは、前記物品の各フレームの画像に対して画像前処理を行うことと、画像前処理が行われた各フレームの画像における、少なくとも１つの物品が含まれた物品検出枠と、前記種別情報とを決定することと、前記物品検出枠に基づいて前記物品の位置情報を決定することとを含むことができる。

選択的に、前記方法は、前記物品検出枠に対して非最大値抑制を行うことをさらに含むことができる。

選択的に、前記方法は、画像取得装置により目標部位の複数フレームの画像を取得することと、前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得することとをさらに含むことができる。

選択的に、前記各フレームの画像における前記目標部位の位置情報及び判別結果、前記物品の前記種別情報及び前記融合結果に基づいて、前記物品の識別結果を決定することができる。

選択的に、前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得することは、前記目標部位の各フレームの画像に対して画像前処理を行って、ユーザの目標部位の画像輪郭を強調することと、画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することと、前記部位候補領域における特徴情報を抽出して、複数の部位特徴を得ることと、予めトレーニングされた分類器により前記複数の部位特徴を識別して、各フレームの画像における前記目標部位の位置情報及び判別結果を得ることとを含むことができる。

選択的に、画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することは、サブウィンドウにより各フレームの画像を走査して、各フレームの画像における、ユーザの目標部位が現れる可能性のある部位候補領域を決定することを含むことができる。

選択的に、前記方法は、前記物品に対して細粒度分類を行うことをさらに含むことができる。

選択的に、前記情報取得装置は、深度カメラ、カードリーダ、重力装置、匂いセンサのうちの少なくとも１つを含むことができる。

選択的に、前記情報取得装置が前記深度カメラである場合、前記深度カメラにより、深度画像を取得し、前記物品の補助情報には深度情報が含まれることができる。

選択的に、前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得することは、前記画像取得装置及び前記深度カメラのレンズパラメータ及び位置パラメータを取得することと、前記深度カメラのレンズパラメータ、前記深度情報、及び前記深度画像における前記物品の位置に基づいて、前記深度カメラ座標系における前記物品の位置を取得することと、前記画像取得装置及び前記深度カメラの位置パラメータに基づいて、前記深度カメラの座標系を基準として、前記画像取得装置の前記深度カメラに対する相対的な位置関係を標定することと、前記レンズパラメータ、前記深度画像における前記物品の位置、前記深度情報、及び前記相対的な位置関係に基づいて、前記深度画像における前記物品の位置を前記画像取得装置で取得された画像における前記物品の位置に対応させるマッピング位置情報を決定することと、前記位置情報と前記マッピング位置情報とを比較して、前記融合結果を得ることとを含むことができる。

選択的に、画像取得装置により物品の複数フレームの画像を取得することは、前記画像取得装置を起動して前記物品のビデオを取得することと、前記ビデオから前記物品の複数フレームの画像をキャプチャすることとを含むことができる。

選択的に、前記方法は、前記融合結果に基づいて、物品の追跡軌跡を決定することと、前記追跡軌跡を分類して、物品の移動結果に対応する軌跡分類結果を得ることと、前記軌跡分類結果に基づいて、物品取り出し結果及び物品戻し結果を決定することと、物品取り出し結果及び物品戻し結果に基づいて、物品管理リストを更新することとをさらに含むことができる。

選択的に、前記融合結果に基づいて、物品の追跡軌跡を決定することは、前記融合結果に基づいて、前記物品の位置情報及び前記物品の移動傾向を取得することと、前記物品の現在の検出枠と予測された候補枠との間の重なり類似度及び特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断して、物品の追跡軌跡を得ることとを含み、前記予測された候補枠は、直前のフレームの前記物品の位置情報を基に、前記物品の移動傾向に基づいて取得され、前記追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品移動のタイムスタンプを含むことができる。

選択的に、前記追跡軌跡を分類して、軌跡分類結果を取得するステップは、前記追跡軌跡から物品移動の長さを抽出することと、予めトレーニングされた分類決定木モデルと前記物品移動の長さとを組み合わせて、前記追跡軌跡を分類して、軌跡分類結果を取得することとを含むことができる。

選択的に、前記軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定するステップは、前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果を取得することと、前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果に基づいて、分類ルールベースに基づく分類判別スキームを確立することと、前記分類判別スキーム及び前記軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定することとを含むことができる。

選択的に、前記方法は、各種の物品の価格を含む物品価格表を取得することと、物品取り出し結果及び物品戻し結果に基づいて、取り出された物品及び物品の数を決定することと、取り出された物品及び物品の数、及び各種の物品の価格に基づいて、物品の決済総額を決定することとをさらに含むことができる。

選択的に、前記方法は、無人販売店舗、スマート販売機を少なくとも含む新小売シーンに設定されるべきである。

本発明の実施形態の別の態様は、物品の複数フレームの画像を取得するように構成される画像取得装置と、前記物品の補助情報を取得するように構成される情報取得装置と、前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得し、前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得してから、前記種別情報と前記融合結果に基づいて前記物品の識別結果を決定するように構成されるサーバとを含む、物品識別システムをさらに提供する。

選択的に、前記画像取得装置は、さらに、目標部位の複数フレームの画像を取得するように構成されることができる。

選択的に、前記サーバは、さらに、前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得し、前記各フレームの画像における前記目標部位の位置情報及び判別情報、前記種別情報及び前記融合結果に基づいて、前記物品の識別結果を決定するように構成されることができる。

選択的に、開かれた場合に、前記画像取得装置及び前記情報取得装置が起動する物品貯蔵装置をさらに含むことができる。

本発明の実施形態の別の態様は、プロセッサと、前記プロセッサの実行可能な命令を記憶するように構成されるメモリとを含む電子機器であって、前記プロセッサは、前記実行可能な命令を実行することにより、上記いずれか一項に記載の物品識別方法を実行するように構成される電子機器をさらに提供する。

本発明の実施例の別の態様は、記憶されたプログラムを含む記憶媒体において、前記プログラムは実行される場合、前記記憶媒体の存在する装置を制御して上記いずれか一項に記載の物品識別方法を実行する記憶媒体をさらに提供する。

本発明の実施例において、画像取得装置により物品の複数フレームの画像を取得し、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得し、情報取得装置により物品の補助情報を取得し、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を取得して、種別情報と融合結果に基づいて物品の識別結果を決定する。この実施例において、複数フレームの画像の取得を実現し、分析することで物品の位置情報及び種別情報を取得し、物品の補助情報と組み合わせて、物品を正確に識別でき、同様に、ユーザにより取り出された物品の種類と物品の数を正確に識別でき、関連技術における物品を識別する際の精度が低いという技術的課題を解決する。

ここで説明する図面は、本発明を一層理解させるためのもので、本願の一部を構成し、本発明の例示的な実施例及びその説明は、本発明を解釈するもので、本発明を限定するものではない。
本発明の実施例に係る一例の物品識別システムの概略図である。本発明の実施例に係る一例の物品識別方法のフローチャートである。本発明の実施例に係る物品識別を実現する概略図である。本発明の実施例に係る画像のうちの目標部位を識別する概略図である。

以下、当業者に本発明の技術手段を更によく理解させるために、本発明の実施例における図面を組み合わせて、本発明の実施例における技術手段を明確かつ完全に説明し、明らかに、説明される実施例は、本発明の一部の実施例に過ぎず、全ての実施例ではない。本発明の実施例に基づいて、当業者が創造性のある行為をしていないことを前提として得られる全ての他の実施例は、いずれも本発明の保護範囲に入るべきである。

なお、本発明の明細書、特許請求の範囲及び上記図面に記載の「第１」、「第２」などの用語は、類似する対象を区別するためのもので、特定の順又は前後順を限定するものではない。ここで説明する本発明の実施例を図面に示すか又は説明した順とは異なる順でも実現できるように、このように使用されるデータは適切な状況で交換可能であることを理解すべきである。また、「含む」、「有する」の用語及びそれらの変形は、非排他的に含むことをカバーするものであり、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品又は機器は、それらのステップ又はユニットを明確に例示したものに限定されず、明確に例示していない又はこれらのプロセス、方法、製品又は機器固有の他のステップ又はユニットを含んでもよいことを表す。

以下、本発明の理解を容易にするために、本発明の各実施例に係る一部の用語又は名詞を説明する。

新小売とは、インターネットに依存して、ビッグデータ、人工知能などの技術手段により、物品の生産、流通と販売過程をアップグレードし、オンラインサービス、オフライン体験、及び現代物流を深く融合することを指す。

ＲＦＩＤとは、無線自動識別（ＲａｄｉｏＦｒｅｑｕｅｎｃｙＩｄｅｎｔｉｆｉｃａｔｉｏｎ、ＲＦＩＤ）であり、ＲＦＩＤ電子タグとも呼ばれ、特定の目標を無線信号で識別して関連データを読み書くことができ、識別システムと特定の目標との間で機械的又は光学的な接触を確立する必要がない。

スマート販売機とは、視覚識別技術が搭載された販売機である。

貨物損失率とは、販売機における運営過程で損失された物品の数が総品数に占める割合である。

ＴＯＦ深度カメラとは、ＴｉｍｅｏｆＦｌｉｇｈｔ深度カメラであり、３Ｄカメラとも呼ばれ、従来のカメラとの相違点は、該カメラが被写体の階調情報と深度を含む３次元情報とを同時に撮影できる点である。

ＮＭＳとは、ＮｏｎＭａｘｉｍｕｍＳｕｐｐｒｅｓｓｉｏｎ、非最大値抑制である。

カメラとは、本文では、専用のカメラを指す。

複数フレームの画像とは、画像又はビデオに基づいて取得された少なくとも１つのフレームを含む画像である。

本発明の実施例は、新小売の様々な実施シーンに適用でき、例えば、新小売におけるスマート販売機の利用について、関連技術における、物品の識別過程で画像取得装置で取得された画像における、ユーザにより取り出された物品の種類及び数を正確に識別できず、ドアが開らかれる前とドアが閉められた後にそれぞれ１枚の画像を撮影し、その後、視覚識別技術により物品の種類及び数を自動的に識別し、最後に比較により最後の結果を取得するだけでは、取り出された物品が１枚の画像により識別できなくなることに対して、本発明の実施例において、スマート販売機に複数のカメラを取り付け、かつドアが開らかれ後のビデオを撮影し、ビデオの複数フレームの画像を分析し、画像に対してマルチモーダル融合を行うことにより、ユーザにより取り出された物品の種類及び物品のデータを正確に識別し、スマート販売機の物品識別のインテリジェント化のレベルを上げ、貨物損失率を低下させることができる。

以下、詳細な実施例により本発明を説明する。

本発明の実施例は、新小売などの分野に適用でき、具体的な使用範囲は、スマート販売機、スマートキャビネット、マーケット、スーパーマーケットなどの領域であってもよく、本発明は、スマート販売機で本発明を概略的に説明できるが、これらに限定されない。

図１は、本発明の実施例に係る一例の物品識別システムの概略図であり、図１に示すように、当該システムは、画像取得装置１１と、画像取得装置１２と、サーバ１３とを含む。

画像取得装置１１は、物品の複数フレームの画像を取得するように構成される。好ましくは、画像取得装置は、一例として、販売機又はマーケットなどの領域に取り付けることができ、画像取得装置は、少なくとも１つ配置される。一例として、本発明の実施例において、画像取得装置は、一般的なカメラ、例えば、ＲＧＢカメラ、赤外線カメラなどであってもよい。当然のことながら、当業者であれば、実際の需要に応じて画像取得装置の種類及び数を調節可能であり、ここで示された例に限定されず、画像取得装置の数が２以上である場合、いずれも同じ種類の画像取得装置を用いるか、又は異なる種類の画像取得装置の組み合わせを用いることができる。

情報取得装置１２は、物品の補助情報を取得するように構成される。情報取得装置は、画像取得装置の周囲に設けられ、画像取得装置と連携して使用でき、設けられた情報取得装置の数が少なくとも１つである。一例として、本発明の実施例において、情報取得装置は、深度情報を取得するように構成される深度カメラと、物品の識別コードを走査するように構成されるカードリーダと、重力情報を取得するように構成される重力装置（例えば、重力板）と、匂い情報を取得するように構成される匂いセンサなどを含むことができる。具体的には、深度カメラは、ＴＯＦ深度カメラ、２眼式カメラ、構造光カメラなどを含む。当然のことながら、当業者であれば、実際の需要に応じて情報取得装置の種類及び数を調節可能であり、ここで示された例に限定されず、情報取得装置の数が２以上である場合、いずれも同じ種類の情報取得装置を用いるか、又は異なる種類の情報取得装置の組み合わせを用いることができる。

例えば、上記情報装置が重力装置である場合、重力装置の異なる時刻に取得した重力情報を比較することにより、商品が取り出されたか否か、及び、どの商品が大まかに取り出されたかを判断することができる。当該重力装置は、物品貯蔵装置に設けられることができる。重力装置により検出された重力情報により、画像取得装置により分析された物品情報と組み合わせて物品の識別結果を決定する。

例えば、上記情報装置が匂いセンサである場合、匂いセンサにより物品の匂い情報を取得し、画像取得装置により分析された物品情報と組み合わせて物品の識別結果を決定することができる。当該匂いセンサは、物品貯蔵装置に設けられることができる。

サーバ１３は、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得し、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得てから、物品の種別情報と融合結果に基づいて物品の識別結果を決定するように構成される。

上記物品識別システムは、画像取得装置１１で物品の複数フレームの画像を取得し、情報取得装置１２により物品の補助情報を取得し、最後にサーバ１３により物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得し、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得てから、種別情報と融合結果に基づいて物品の識別結果を決定する。画像における物品の位置及び種別を識別し、情報取得装置により取得された補助情報とのマルチモーダル融合を行うことにより、物品の識別結果を正確に得て、同様に、販売機の、ユーザにより取り出された物品の種類及び物品の数を正確に識別でき、物品の識別率を向上させ、貨物損失率を低下させて、関連技術における物品を識別する際の精度が低いという技術的課題を解決する。

画像取得装置の配置個数及び画像取得装置の配置個数は、各使用領域と使用されている装置に応じて合理的に配置でき、例えば、１つのスマート販売機に対して、２つの画像取得装置と１つの情報取得装置を配置することができる。

好ましくは、情報取得装置は、ＴＯＦ深度カメラであり、物品の深度画像を取得するように構成されており、深度情報は物品の補助情報に含まれている。すなわち、深度カメラによって物品の深度画像を収集して、物品の配置に係わる深度情報を得ることができ、これにより重なったり遮蔽されたりした物品を効果的に識別することができる。

本願の一例である実施例として、上記物品識別システムは、画像取得装置を用いて目標部位の複数フレームの画像を取得することをさらに含む。本願において、目標部位は、手、マニピュレーター、義肢、又は物品を取り出すことができる他の人体部位、機械装置などであってもよく、すなわち、本願は、ユーザが手で物品を取り出す際の画像を検出でき、ユーザの目標部位の画像を検出することにより、目標部位の位置を分析することができる。

別の一例として、上記サーバは、さらに、目標部位の複数フレーム画像を処理して、各フレームの画像における目標部位の位置情報及び判別結果を取得し、各フレームの画像における目標部位の位置情報及び判別結果、物品の種別情報及び融合結果に基づいて、物品の識別結果を決定するように構成される。すなわち、目標部位の位置情報及び判別結果により、画像取得装置と情報取得装置とで取得された画像を組み合わせて、物品の種別情報及び融合結果を分析して、物品の識別精確度を向上させることができる。当該目標部位の検出により、ユーザにより取り出された物品の種類及び物品の数を得ることもできる。

一例として、上記判別結果は、目標部位であるか否かを判別することを示す。

好ましくは、目標部位の検出は、手の検出であることができる。本発明の下記実施例は、ユーザの手をユーザの目標部位として説明し、各フレームの画像における手の位置を検出することができる。

本願の一例である実施例として、上記物品識別システムは、開かれた場合に、画像取得装置及び情報取得装置が起動する物品貯蔵装置をさらに含む。

一例として、物品貯蔵装置は、物品を貯蔵する機器、装置を示し、本願において、物品貯蔵装置は、上記スマート販売機を含むが、これに限定されない。

本発明の実施例の物品識別システムにより、物品貯蔵装置の開き情報をトリガー情報とし、画像取得装置と情報取得装置を同時に起動することにより、物品の複数フレームの画像と物品の補助情報をそれぞれ収集して、複数フレームの画像と補助情報を分析して、物品の位置、種別などの情報を取得して、補助情報とのマルチモーダル融合を行って、物品の識別結果を得ることができる。画像取得装置により目標部位の複数フレームの画像を検出し、目標部位を検出して、各フレームの画像における目標部位の位置情報及び判別結果に基づいて、画像取得装置と情報取得装置とで取得された画像を組み合わせて、物品の種別情報及び融合結果を分析して、物品の識別結果をより正確に得て、物品の識別精度を向上させることができる。

以下、本発明の実施例に係る上記物品識別システムに適用される物品識別方法の実施例を説明する。

本発明の実施例は、物品識別方法の実施例を提供する。なお、図面のフローチャートに示されるステップは、一セットのコンピュータ実行可能な命令を含むコンピュータシステムにおいて実行でき、また、フローチャートにおいて論理的な順序が示されるが、幾つかの場合では、こことは異なる順序で、示されるか又は説明されるステップを実行してもよい。

図２は、本発明の実施例に係る一例である物品識別方法のフローチャートであり、図２に示すように、当該方法は、
画像取得装置により物品の複数フレームの画像を取得するステップＳ２０２と、
物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得するステップＳ２０４と、
情報取得装置により物品の補助情報を取得するステップＳ２０６と、
位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得るステップＳ２０８と、
種別情報と融合結果に基づいて、物品の識別結果を決定するステップＳ２１０とを含む。

上記ステップにより、画像取得装置により物品の複数フレームの画像を取得し、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得し、情報取得装置により物品の補助情報を取得し、位置情報及び補助情報に対してマルチモーダル融合を行うことで、融合結果を取得して、種別情報と融合結果に基づいて物品の識別結果を決定することができる。該実施例において、複数フレームの画像の取得を実現し、分析することで物品の位置情報及び種別情報を取得し、物品の補助情報と組み合わせて、物品を正確に識別でき、同様に、ユーザにより取り出された物品の種類と物品の数を正確に識別でき、関連技術における物品を識別する際の精度が低いという技術的課題を解決する。

本発明の実施例において、物品識別方法は、無人販売店舗におけるスマート販売機の販売、スーパーマーケットのショッピングにおけるスマート販売機の販売を少なくとも含む新小売シーンに適用できる。

以下、上記各ステップについて詳細に説明する。

ステップＳ２０２では、画像取得装置により物品の複数フレームの画像を取得する。

本願において、一例である本発明の実施例において、画像取得装置は、一般的なカメラ、例えば、ＲＧＢカメラ、赤外線カメラ、カメラなどであってもよい。当然のことながら、当業者であれば、実際の需要に応じて画像取得装置の種類及び数を調節可能であり、ここで示された例に限定されず、画像取得装置の数が少なくとも１つであり、画像取得装置の数が２以上である場合、いずれも同じ種類の画像取得装置を用いるか、又は異なる種類の画像取得装置の組み合わせを用いることができる。各画像取得装置は、いずれも少なくとも２枚の画像を撮像でき、識別する際、画像取得装置同士の画像の撮像時点を一致させる必要があり、つまり、同一時点の画像を分析して複数の角度から物品を識別する。

一例として、物品の数は、少なくとも１つであり、物品は、物品貯蔵装置内に配置でき、例えば、物品は、スマート販売機に収納される。物品貯蔵装置は、スマート販売機を含むが、これに限定されない。

別の一例としては、物品貯蔵装置が開かれたことを検出した後、画像取得装置及び情報取得装置を起動させることができる。

一例である実施例において、画像取得装置により物品の複数フレームの画像を取得することは、画像取得装置を起動して物品のビデオを取得することと、ビデオから物品の複数フレームの画像をキャプチャすることとを含む。すなわち、物品貯蔵装置が開かれた後、画像取得装置により物品貯蔵装置内のビデオをリアルタイムに取得し、物品貯蔵装置が閉じられたこと、或いは、ユーザによる取り出し動作が停止したことが検出された後、ビデオから複数フレームの画像を取得することができる。

ステップＳ２０４では、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得する。

本発明の実施例において、画像を処理する場合、画像における物品の存在する位置及び種別を重点的に識別し、位置情報を分析する場合、画像における物品の現在位置を重点的に分析するか、又は物品の現在位置と前の幾つかのフレームの画像における物品の存在する位置との間の関係を分析することができる。

本発明の実施例において、画像を処理する場合、画像における物品の存在する位置と物品の種別を識別することと、画像における目標部位の存在する位置を識別することとの２つのケースを含む。

第１のケースは、画像における物品の存在する位置と物品の種別を識別することである。

一例として、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得することは、物品の各フレームの画像に対して、画像強調、画像拡大縮小、画像平均値減算のうちの少なくとも１つを含む画像前処理を行うことと、画像前処理が行われた各フレームの画像における、少なくとも１つの物品が含まれた物品検出枠と、種別情報とを決定することと、物品検出枠に基づいて物品の位置情報を検出することとを含む。

一例として、上記の画像前処理が行われた各フレームの画像における物品検出枠を決定する前に、複数の物品候補枠（ｐｒｉｏｒｂｏｘ）を抽出してから、物品候補枠の深層学習及び分析を行って、物品検出枠及び物品の種別情報を決定することができる。

ここで、物品検出枠を分析する場合、物品候補枠と目標部位の存在する位置とを組み合わせて、物品検出枠を高精度に識別することができる。

別の一例として、上記物品識別方法は、誤検出を防止し、物品の識別精度を向上させるために、物品検出枠に対して非最大値抑制を行うことをさらに含む。

すなわち、画像における物品を識別する場合、まず、画像強調、拡大縮小及び平均値減算などの操作を含む画像の前処理を行い、次に、物品検出枠を抽出し、抽出された物品検出枠に対して非最大値抑制（ＮＭＳ）を行って、誤検出を防止し、物品の識別精度を向上させることができる。

別の一例である実施例において、上記物品識別方法は、物品の識別精度を向上させるために、物品に対して細粒度分類を行うことをさらに含む。すなわち、物品に対して細粒度分析を行うことにより、物品識別情報を得ることができる。一例として、類似物品対して細粒度分類を行い、類似物品同士の微小な相違を分析することにより、物品の識別精度を向上させる。一例として、本発明の実施例に係る物品の種類は、野菜類、果物類、スナック食品類、新鮮な肉類、魚介類などを含むが、これらに限定されない。

図３は、本発明の実施例に係る物品識別を実現する概略図であり、図３に示すように、物品を識別する場合、まず、画像取得装置により撮影されたビデオを入力することができ、ビデオをトリミングした後、画像を前処理し、物品候補枠を抽出し、目標部位に対する検出と組み合わせて、抽出された物品検出枠を分析して物品検出枠を得てから、物品検出枠に対して非最大値抑制を行うことができ、最後に、細粒度分類とマルチモーダル融合技術を用いて、物品の識別結果を決定することができる。

第２のケースは、画像における目標部位の存在する位置を識別することである。

本発明の実施例において、手を目標部位として説明することができる。

本発明の一例である実施例として、上記物品識別方法は、画像取得装置により目標部位の複数フレームの画像を取得することと、目標部位の複数フレームの画像を処理して、各フレームの画像における目標部位の位置情報及び判別結果を得ることとをさらに含む。

本発明の別の一例である実施例において、目標部位の複数フレームの画像を処理して、各フレームの画像における目標部位の位置情報及び判別結果を得ることは、目標部位の各フレームの画像に対して、画像ノイズ低減、画像強調、コントラスト強調、画像平滑化、画像鮮鋭化などの１つ以上の処理方式のうちの少なくとも１つを含む画像前処理を行って、ユーザの目標部位の画像輪郭を強調することと、画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することと、部位候補領域における特徴情報を抽出して、複数の部位特徴を得ることと、予めトレーニングされた分類器により複数の部位特徴を識別して、各フレームの画像における目標部位の位置情報及び判別結果を得ることとを含む。

本発明の実施例における該画像前処理は、主に、目標部位の各フレームの画像に対して画像前処理を行うことであり、画像前処理（画像ノイズ低減、画像強調を含むことができる）などの操作により、手の部位に対して、コントラスト強調、画像平滑化、ノイズフィルタリング、画像鮮鋭化を含む強調を行って、目標の輪郭を強調する。

上記の画像前処理を完了したら、複数の部位候補領域を決定でき、例えば、複数のジェスチャ候補領域（ＲｅｇｉｏｎｏｆＩｎｔｅｒｅｓｔ、ＲＯＩ）を決定し、カメラのグローバルセンシング範囲において、幾つかの可能なジェスチャ候補領域を選択する。

一例として、画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することは、サブウィンドウにより各フレームの画像を走査して、各フレームの画像における、ユーザの目標部位が現れる可能性のある部位候補領域を決定することを含む。すなわち、サブウィンドウを利用して全画像を走査し、画像高さの１／ｎを手の最小サイズとして選択し、これを基にサブウィンドウのサイズを一定の倍率で段階的に増加させることができる。

上記ジェスチャ候補領域は、手による可能な動きを識別するものを示し、これらのジェスチャ候補領域を決定する場合、一般的に、腕の位置、販売機の位置のようなこれらの要因を参照する。

本発明の選択可能な一例として、部位候補領域における特徴情報を抽出して、複数の部位特徴を得る場合、例えば、手が物品を取り出している可能性があるジェスチャ又は物品を取り戻そうとするジェスチャを識別することができる。

一例として、上記分類器は、予めトレーニングされた部位分類モデルであり、例えば、部位分類モデルがジェスチャ分類モデルであることを決定し、抽出された手の特徴をトレーニング済みの分類器モデルに入力した後、手を識別し、画像における手の完全なサイズ、手の位置、手の輪郭を決定することができる。当然のことながら、本発明の実施例において、さらに、頭部、肩部などの部位特徴を識別して、物品と物品貯蔵装置とユーザとの間の相対位置をより精確に分析することができる。

図４は、本発明の実施例に係る画像における目標部位を識別する概略図であり、図４に示すように、画像を識別する場合、画像取得装置により物品のビデオを取得し、分析して複数フレームの画像を得て、撮影された画像に対して画像前処理を行い、複数の部位候補領域を抽出して、各部位候補領域に対して特徴抽出及び説明を行い、分類器を利用してジェスチャを検出し識別し、最後に、識別結果を出力し、意思決定を行うことができる。

上記実施形態は、ＲＯＩ候補領域を抽出した後、全ての目標を均等な判別サイズにスケーリングし、それらの様々な特徴を計算し、各目標に１組の特徴を分類の基礎として選択して、トレーニング済みの分類器に特徴を入力して、目標候補領域を識別することを指示した。

一例として、各フレームの画像における目標部位の位置情報及び判別結果に基づいて、画像取得装置及び情報取得装置で取得された画像を組み合わせて、物品の種別情報及び融合結果を分析して、物品の識別結果を決定する。

ステップＳ２０６では、情報取得装置により物品の補助情報を取得する。

一例として、本発明の実施例において、情報取得装置は、深度情報を取得するように構成される深度カメラと、物品識別コードを走査するように構成されるカードリーダと、重力情報を取得するように構成される重力装置（例えば、重力板）と、匂い情報を取得するように構成される匂いセンサなどを含み、具体的には、深度カメラは、ＴＯＦ深度カメラ、２眼式カメラ、構造光カメラなどを含む。当然のことながら、当業者であれば、実際の需要に応じて情報取得装置の種類及び数を調整可能であり、ここで示された例に限定されず、情報取得装置の数が２以上である場合、いずれも同じ種類の情報取得装置を用いるか、又は異なる種類の情報取得装置の組み合わせを用いることができる。

例えば、上記情報装置が重力装置である場合、重力装置の異なる時刻に取得した重力情報を比較することにより、商品取り出されたか否か、及び、どの商品が大まかに取られたかを判断することができる。当該重力装置は、物品貯蔵装置に設けられることができる。重力装置により検出された重力情報により、画像取得装置により分析された物品情報と組み合わせて物品の識別結果を決定する。

一例として、情報取得装置は、深度カメラであり、物品の深度画像を取得するように構成さており、物品の補助情報は深度情報を含む。すなわち、選択された深度カメラにより物品の深度情報を取得でき、例えば、ユーザにより複数の物品が取り出された後、物品が重なったり遮蔽されたりし、その場合、画像取得装置により取得された画像により、遮蔽された物品を正確に分析できず、該情報取得装置により、物品の補助情報（例えば、深度情報）を取得でき、補助情報を分析して、物品の分析結果を得ることができる。

ステップＳ２０８では、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得る。

本発明の別の一例である実施例として、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を取得することは、画像取得装置及び深度カメラにおける、カメラの焦点距離、カメラの中心点を少なくとも含むレンズパラメータと、前記深度画像における前記物品の位置を示すように設定され、各画像取得装置又は深度カメラの取り付け座標を少なくとも含む位置パラメータとを取得することと、深度カメラのレンズパラメータ、深度情報、及び深度画像における物品の位置に基づいて、深度カメラ座標系における物品の位置を取得することと、画像取得装置及び深度カメラの位置パラメータに基づいて、深度カメラの座標系を基準として、画像取得装置の前記深度カメラに対する相対的な位置関係を標定することと、レンズパラメータ、深度画像における物品の位置、深度情報、及び相対的な位置関係に基づいて、深度画像における物品の位置を前記画像取得装置で取得された画像における物品の位置に対応させるマッピング位置情報を決定することと、位置情報とマッピング位置情報とを比較して、融合結果を得ることとを含む。

以下、マルチモーダル融合について説明する。マルチモーダル融合は、深度情報に基づいて識別結果を融合することであり、本発明の実施例におけるマルチモーダル融合は、一般的なカメラと深度カメラの２種類のカメラにより撮影された画像を対象とする。

２つの画像取得装置（一般的なカメラとして定義され、すなわち、カメラ１とカメラ３）と１つの深度カメラ（深度カメラ２）を例として説明する。カメラ装置の出荷前に、３つのカメラにおける、カメラの焦点距離、カメラの中心点などを含むレンズパラメータと、位置パラメータとを取得し、深度カメラ２のレンズパラメータ、位置パラメータに基づいて、深度カメラ２における物品の座標を取得し、深度カメラ２の座標系を基準として、画像取得装置の深度カメラ２に対する相対的な位置関係を標定し、そして、レンズパラメータ、深度画像における物品の位置、深度情報、及び相対的な位置関係に基づいて、物品の深度カメラ２における座標に応じて、物品の画像取得装置（すなわち、カメラ１、カメラ３）におけるマッピング位置情報を決定し、最後に位置情報とマッピング位置情報とを比較して融合結果を得る。

カメラモデルでは、ピンホール結像原理に基づいて、３次元点の画像における位置とカメラ座標系における位置は、以下の関係を満たす。

上記関係に基づいて、深度カメラに対して、次の式が存在する。

同様に、カメラ１、３に対して、それぞれ次の式が存在する。

本発明の実施例において、深度カメラ２の座標系を基準として、カメラ１及び３の深度カメラ２に対する相対的な位置関係Ｔ_１２及びＴ_３２を標定でき、ここで、Ｔ_１２は、深度カメラ２の座標系とカメラ１の座標系との間の相対的な位置関係を示し、Ｔ_３２は、深度カメラ２の座標系とカメラ３の座標系との間の相対的な位置関係を示す。

上記式により、深度カメラにおける物品の結像点の他のカメラにおける結像点は、深度カメラで撮像された物品を他の一般的なカメラにマッピングし、カメラ同士が撮影した物品の種類及び物品の数に誤差があるか否かを比較し、誤差があれば、サーバが再度計算し、比較して、識別された物品結果を決定する必要がある。

上記マルチモーダル融合により、画像における物品の正確な識別を実現して、画像における物品の融合結果を得ることができる。

ステップＳ２１０では、種別情報と融合結果に基づいて、物品の識別結果を決定する。

すなわち、予め分析された物品種別、及び物品識別の融合結果に基づいて、物品の識別結果を得ることができ、本願は、物品種別、各物品種別の物品の数、具体的な物品を重点的に得ることができる。

ビデオの全体を分析した後、連続された複数フレームの画像を分析して、物品が取り出されルデータ及び戻されるデータを決定することができる。

本発明の実施例において、取り出された商品と戻された商品を決定することは、３つの方式を含む。

一番目は、複数フレームの画像における物品の識別結果に基づいて、取り出された商品と戻された商品を決定することである。

本発明の実施例において、物品の取り出し及び物品の戻しを分析する場合、方法は、融合結果に基づいて、物品の追跡軌跡を決定することと、追跡軌跡を分類して、物品の移動結果に対応する軌跡分類結果を得ることと、軌跡分類結果に基づいて、物品取り出し結果及び物品戻し結果を決定することと、物品取り出し結果及び物品戻し結果に基づいて、物品管理リストを更新することとをさらに含む。

すなわち、第１ステップである情報取得装置と画像取得装置に基づく軌跡追跡ステップ、第２ステップである機械学習に基づく軌跡分類ステップ、第３ステップである軌跡分類結果の判別ステップという３つのステップに分けることができる。軌跡追跡を行う場合、一例として、融合結果に基づいて、物品の追跡軌跡を決定することは、融合結果に基づいて、物品の位置情報及び物品の移動傾向を取得することと、物品の現在の検出枠と予測された候補枠との間の重なり類似度及び特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断して、物品の追跡軌跡を得ることとを含み、予測された候補枠は、直前のフレームの物品の位置情報を基に、物品の移動傾向に基づいて取得され、追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品移動のタイムスタンプを含む。

ＲＧＢ画像を撮影するＲＧＢカメラを画像取得装置とし、深度カメラを情報取得装置として説明する。深度カメラとＲＧＢカメラの情報とのマルチモーダル情報融合により、システムは、物品の位置情報及び物品の移動傾向を取得し、前記物品の現在の検出枠と予測された候補枠との重なり類似度、並びに物品の現在の検出枠と予測された候補枠との特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断し、以下の式に示す。

ｒ＝αＩＯＵ（ＢＢｏｘ_{ｃｕｒｒｅｎｔ}，ＢＢｏｘ_{ｐｒｅｄｉｃｔ}）＋βｆ（ＢＢｏｘ_{ｃｕｒｒｅｎｔ}，ＢＢｏｘ_{ｐｒｅｄｉｃｔ}）
ここで、ｒは、直前のフレームの検出結果と現在のフレームの検出結果とのマッチング率であり、ＩＯＵ（ＢＢｏｘ_{ｃｕｒｒｅｎｔ}，ＢＢｏｘ_{ｐｒｅｄｉｃｔ}）は、現在の物品検出枠と予測された候補枠との空間的な重なり類似度であり、ｆ（ＢＢｏｘ_{ｃｕｒｒｅｎｔ}，ＢＢｏｘ_{ｐｒｅｄｉｃｔ}）は、現在の物品検出枠と予測された候補枠との特徴類似度であり、α及びβは、それぞれ、重なり類似度と特徴類似度の重み係数であり、ここで、予測された候補枠は、直前のフレームの物品の位置情報を基に物品の移動傾向に応じて取得される。

連続された検出結果の軌跡を連結して、完全な追跡軌跡を形成し、当該追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品移動のタイムスタンプを含み、すなわち、各時間ノードは、商品の位置、種類、タイムスタンプを含む。

軌跡分類について、すなわち、第２ステップである機械学習に基づく軌跡分類ステップは、一例として、追跡軌跡を分類して、軌跡分類結果を得るステップは、追跡軌跡から物品移動の長さを抽出することと、予めトレーニングされた分類決定木モデルと物品移動の長さとを組み合わせて、追跡軌跡を分類して、軌跡分類結果を得ることとを含む。

本発明の実施例において、追跡軌跡のパラメータ手動抽出と決定木モデル識別アルゴリズムとを組み合わせることにより、軌跡を分類する。専門家の経験を組み合わせて、軌跡から軌跡長さ、画像における開始位置、最大位置、終了時の位置などの特徴を抽出し、決定木モデルを組み合わせて、軌跡を「正確な取り出し」、「正確な戻し」、「取り出したような」、「戻したような」、「誤識別」、「その他」などの６種類に分類することができる。

また、軌跡判別について、すなわち、第２ステップある軌跡分類結果の判別ステップは、一例として、前記軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定するステップは、前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果を取得することと、前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果に基づいて、分類ルールベースに基づく分類判別スキームを確立することと、分類判別スキーム及び軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定することとを含む。

一例として、分類判別を行う場合、上記分類結果を判別でき、分類ルールベースに基づいて画像取得装置の軌跡分類結果を判別でき、一例として、複数のカメラと少なくとも１つの深度カメラを例として説明し、以下、１種の判別ルールで説明し、以下のルールを確立する。

１、多くのカメラが「正確な取り出し」又は「正確な戻し」と認めると、結果を確認する。

２．多くのカメラが「たような」と認め、少数が「正確」と認めると、「正確」と認められる。

３．多くのカメラが「取り出したような」又は「戻したような」と認めると、「取り出し」又は「戻し」と認められる。

４．カメラ結果の面に議論があれば、今回の結果を無視する。

上記方式により、複数フレームの画像における物品を識別でき、軌跡追跡、軌跡分類、分類判別などの方式により、ユーザ（又は機器）により取り出された商品及び戻された商品を決定することにより、後続の決済のために準備することができる。

二番目は、販売基準線により、取り出された商品及び戻された商品を決定することである。

一例として、本発明における方法は、画像取得装置の撮影した画面において、物品の取り出し操作及び物品の戻し操作を決定する販売基準線を決定することと、販売基準線に基づいて、物品貯蔵装置（例えば、販売機）における取り出された物品と物品の数、並びに、取り出されてから物品貯蔵装置に戻された物品と物品の数を特定することとをさらに含む。

すなわち、カメラ視野において一本の販売基準線ｌを定義でき、物品が販売機の内部から外部に向けて基準線を通過すれば、取り出しであると判定し、逆に、物品が基準線の外から販売機に向けて動き、基準線を通過すれば、戻しであると判定する。

三番目は、物品感知領域に基づいて、ユーザにより取り出された商品、戻された物品をリアルタイムに検出することである。

一例として、本発明における方法は、各画像取得装置の座標系を決定することと、座標系において１つの物品感知領域を区画することと、物品感知領域及びビデオにより、物品貯蔵装置における取り出された物品と物品の数、並びに、取り出されてから物品貯蔵装置に戻された物品と物品の数を特定することとをさらに含む。

カメラ座標系において１つの有効領域（物品感知領域）を区画し、この領域に現れる物品の数をリアルタイムに検出し、前後フレーム情報を組み合わせて、物品の移動方向を判断し（開始点の位置及び終了点の位置を根拠に判断できる）、取り出し及び戻し判定を行う。

上記ステップにより、ユーザにより取り出された物品及び戻された物品を決定して、自動決済を行うことができる。

本願の別の選択可能な例として、上記物品識別方法は、各種の物品の価格を含む物品価格表を取得することと、物品取り出し結果及び物品戻し結果に基づいて、取り出された物品及び物品の数を決定することと、取り出された物品及び物品の数、及び各種の物品の価格に基づいて、物品の決済総額を決定することとをさらに含む。

一例として、上記物品価格表は、物品貯蔵装置を使用する店舗（又は他のマーケットなど）で使用されてもよく、その中には各物品貯蔵装置内に置かれた物品と、取り出された物品と、戻された物品とが記録されており、本発明の物品価格表により、物品の自動管理を実現することができる。

本発明の実施例において、物品の識別とカウントの精度を効果的に向上させ、販売機のコストとランニングコストを大幅に低減するとともに、貨物損失率を効果的に低下させることができる。

本発明の実施形態の別の態様は、プロセッサと、プロセッサの実行可能な命令を記憶するように構成されるメモリとを含む電子機器であって、プロセッサは、実行可能命令を実行することにより、上記のいずれか一項の物品識別方法を実行するように構成される電子機器をさらに提供する。

本発明の実施例の別の態様は、記憶されたプログラムを含む記憶媒体をさらに提供し、プログラムが実行される場合、記憶媒体の存在する装置を制御して上記のいずれか一項に記載の物品識別方法を実行する。

本発明の実施例は、プロセッサ、メモリ及びメモリに記憶されプロセッサで実行されるプログラムを含む機器を提供し、プロセッサがプログラムを実行する場合、画像取得装置により物品の複数フレームの画像を取得するステップと、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得するステップと、情報取得装置により物品の補助情報を取得するステップと、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得るステップと、種別情報と融合結果に基づいて、物品の識別結果を決定するステップとを実現する。

一例として、上記プロセッサがプログラムを実行する場合、物品の各フレームの画像に対して、画像強調、画像拡大縮小、画像平均値減算のうちの少なくとも１つを含む画像前処理を行うステップと、画像前処理が行われた各フレームの画像における、少なくとも１つの物品が含まれた物品検出枠と、種別情報とを決定するステップと、物品検出枠に基づいて物品の位置情報を検出するステップとをさらに実現してもよい。

一例として、上記プロセッサがプログラムを実行する場合、物品検出枠に対して非最大値抑制を行うステップをさらに実現してもよい。

一例として、上記プロセッサがプログラムを実行する場合、画像取得装置により目標部位の複数フレームの画像を取得するステップと、目標部位の複数フレームの画像を処理して、各フレームの画像における目標部位の位置情報及び判別結果を取得するステップとをさらに実現してもよい。

一例として、各フレームの画像における目標部位の位置情報及び判別結果、物品の種別情報及び融合結果に基づいて、物品の識別結果を決定する。

一例として、上記プロセッサがプログラムを実行する場合、目標部位の各フレームの画像に対して、画像ノイズ低減、画像強調、コントラスト強調、画像平滑化、画像鮮鋭化などの１つ以上の処理方式を含む画像前処理を行って、ユーザの目標部位の画像輪郭を強調するステップと、画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択するステップと、部位候補領域における特徴情報を抽出して、複数の部位特徴を得るステップと、予めトレーニングされた分類器により複数の部位特徴を識別して、各フレームの画像における目標部位の位置情報及び判別結果を得るステップとをさらに実現してもよい。

一例として、上記プロセッサがプログラムを実行する場合、サブウィンドウにより各フレームの画像を走査して、各フレームの画像における、ユーザの目標部位が現れる可能性のある部位候補領域を決定するステップをさらに実現してもよい。

一例として、上記プロセッサがプログラムを実行する場合、物品に対して細粒度分類を行うステップをさらに実現してもよい。

一例として、情報取得装置は、深度カメラであり、物品の深度画像を取得するように構成されており、物品の補助情報には深度情報が含まれている。

一例として、上記プロセッサがプログラムを実行する場合、画像取得装置及び深度カメラのレンズパラメータ及び位置パラメータを取得するステップと、深度カメラのレンズパラメータ、深度情報、及び深度画像における物品の位置に基づいて、深度カメラ座標系における物品の位置を取得するステップと、画像取得装置及び深度カメラの位置パラメータに基づいて、深度カメラの座標系を基準として、画像取得装置の前記深度カメラに対する相対的な位置関係を標定するステップと、レンズパラメータ、深度画像における物品の位置、深度情報、及び相対的な位置関係に基づいて、深度画像における物品の位置を画像取得装置で取得された画像における物品の位置に対応させるマッピング位置情報を決定するステップと、位置情報とマッピング位置情報とを比較して、融合結果を得るステップとをさらに実現してもよい。

一例として、上記プロセッサがプログラムを実行する場合、画像取得装置を起動して物品のビデオを取得するステップと、ビデオから物品の複数フレームの画像をキャプチャするステップとをさらに実現してもよい。

一例として、上記プロセッサがプログラムを実行する場合、融合結果に基づいて、物品の追跡軌跡を決定するステップと、追跡軌跡を分類して、物品の移動結果に対応する軌跡分類結果を得るステップと、軌跡分類結果に基づいて、物品取り出し結果及び物品戻し結果を決定するステップと、物品取り出し結果及び物品戻し結果に基づいて、物品管理リストを更新するステップとをさらに実現してもよい。

一例として、上記プロセッサがプログラムを実行する場合、融合結果に基づいて、物品の位置情報及び物品の移動傾向を取得するステップと、物品の現在の検出枠と予測された候補枠との間の重なり類似度及び特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断して、物品の追跡軌跡を得るステップとをさらに実現してもよく、予測された候補枠は、直前のフレームの物品の位置情報を基に、物品の移動傾向に基づいて取得され、追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品の移動のタイムスタンプを含む。

一例として、上記プロセッサがプログラムを実行する場合、追跡軌跡から物品移動の長さを抽出するステップと、予めトレーニングされた分類決定木モデルと物品移動の長さとを組み合わせて、追跡軌跡を分類して、軌跡分類結果を得るステップとをさらに実現してもよい。

一例として、上記プロセッサがプログラムを実行する場合、画像取得装置、又は画像取得装置と情報取得装置の組み合わせの同一の時刻での軌跡分類結果を取得するステップと、画像取得装置、又は画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果に基づいて、分類ルールベースに基づく分類判別スキームを確立するステップと、分類判別スキーム及び軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定するステップとをさらに実現してもよい。

一例として、上記プロセッサがプログラムを実行する場合、各種の物品の価格を含む物品価格表を取得するステップと、物品取り出し結果及び物品戻し結果に基づいて、取り出された物品及び物品の数を決定するステップと、取り出された物品及び物品の数、及び各種の物品の価格に基づいて、物品の決済総額を決定するステップとをさらに実現してもよい。

本願は、データ処理装置で実行される場合、初期化中に、画像取得装置により物品の複数フレームの画像を取得するステップと、物品の複数フレームの画像を処理して、各フレームの画像における物品の位置情報及び種別情報を取得するステップと、情報取得装置により物品の補助情報を取得するステップと、位置情報及び補助情報に対してマルチモーダル融合を行って、融合結果を得るステップと、種別情報と融合結果に基づいて、物品の識別結果を決定するステップとを有するプログラムを実行するのに適するコンピュータプログラム製品を提供する。

上記本開示の実施例の番号は、説明の便利を図るためのものに過ぎず、実施例の優劣を示すものではない。

本発明の上記実施例において、各実施例の説明についてはそれぞれ重点を置き、ある実施例で詳しく説明されていない部分については、他の実施例の関連部分の説明を参照することができる。

本願で提供する幾つかの実施例において、開示された技術手段は、他の形態で実現することもできると理解すべきである。以上で説明された装置実施例は例示的なものであり、例えば、上記ユニットの区画は、ロジック機能の区画でることができ、実際に実現する場合、他の区画方式であってもよく、例えば、複数のユニット又は部品を結合したり他のシステムに集積したりすることができ、或いは、一部の特徴を無視し又は実行しないこともできる。また、表示又は検討された相互結合又は直接結合又は通信接続は、幾つかのインタフェース、ユニット又はモジュールを介した間接結合又は通信接続であってもよく、電気的又は他の形態であってもよい。

上記分離部品として説明されたユニットは、物理的に分離しても物理的に分離しなくてもよく、ユニットとして表す部品は、物理ユニットであっても物理ユニットではなくてもよく、つまり、１つの箇所に位置しても、複数のユニットに分布してもよい。実際の需要に応じて、それらのうちの一部又は全部のユニットを選択して本実施例の技術手段の目的を達成することができる。

また、本発明の各実施例における各機能ユニットは、１つの処理ユニットに集積しても、各ユニットに物理的に独立しても、２つ又はそれ以上のユニットを１つのユニットに集積してもよい。上記集積されたユニットは、ハードウェアの形態で実現されても、ソフトウェア機能ユニットの形態で実現されてもよい。

上記集積されたユニットは、ソフトウェア機能ユニットの形態で実現して独立製品として販売したり使用したりする場合、コンピュータが読み取り可能な記録媒体に記憶されることができる。したがって、本発明の技術手段は実質的に、あるいは、従来技術に対する貢献のある部分又は該技術手段の全部又は一部は、ソフトウェア製品の形態で実現されることができ、このようなコンピュータソフトウェア製品は記憶媒体に記憶され、一つのコンピュータ機器（パーソナルコンピュータ、サーバ又はネットワーク機器などであってよい）に本発明の各実施例に係る方法の全部又は一部のステップを実行させる命令を含むことができる。上記記憶媒体は、ＵＳＢフラッシュドライブ、リードオンリーメモリ（ＲＯＭ、Ｒｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ランダムアクセスメモリ（ＲＡＭ、ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）、モバイルハードディスク、ディスク又はＣＤなどのプログラムコードを記憶できる各種の媒体を含む。

以上の記載は、本発明の好適な実施形態に過ぎず、当業者は本発明の精神から逸脱せずに若干の改善や修正を行うこともでき、このような改善や修正も本発明の保護範囲に含まれると理解すべきである。

本願の実施例に係る手段は、物品の識別を実現でき、本願の実施例に係る技術手段において、新小売用のスマート販売機などの、商品を販売する機器に適用でき、スマート販売機に複数のカメラを取り付け、複数のカメラを用いてドアが開らかれた後のビデオを撮影して、ビデオにおける複数フレームの画像を分析し、画像における物品の位置及び種別を識別し、情報取得装置により取得された補助情報とのマルチモーダル融合を行うことにより、物品の識別結果を正確に取得し、同様に、販売機における、ユーザにより取り出された物品の種類及び物品の数を正確に識別でき、物品の識別率を向上させ、貨物損失率を低下させて、関連技術における物品を識別する際の精度が低いという技術的課題を解決する。本願の実施例は、新小売シーンにおける各機器が撮影した画像を自動的に分析し、ユーザにより取り出された物品の種類及び物品のデータを分析し、物品に対する正確な識別を実現し、商品に対するインテリジェント化識別レベルを向上させて、新小売でのインテリジェント化の商品販売能力を向上させることができる。

Claims

画像取得装置により物品の複数フレームの画像を取得することと、
前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得することと、
情報取得装置により前記物品の補助情報を取得することと、
前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得することと、
前記種別情報と前記融合結果に基づいて、前記物品の識別結果を決定することとを含み、
前記融合結果に基づいて、物品の追跡軌跡を決定することと、
前記追跡軌跡を分類して、物品の移動結果に対応する軌跡分類結果を得ることと、
前記軌跡分類結果に基づいて、物品取り出し結果及び物品戻し結果を決定することと、
物品取り出し結果及び物品戻し結果に基づいて、物品管理リストを更新することとをさらに含み、
前記融合結果に基づいて、物品の追跡軌跡を決定することは、
前記融合結果に基づいて、前記物品の位置情報及び前記物品の移動傾向を取得することと、
前記物品の現在の検出枠と予測された候補枠との間の重なり類似度及び特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断して、物品の追跡軌跡を得ることとを含み、
前記予測された候補枠は、直前のフレームの前記物品の位置情報を基に、前記物品の移動傾向に基づいて取得され、前記追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品移動のタイムスタンプを含む、物品識別方法。
前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得することは、
前記物品の各フレームの画像に対して画像前処理を行うことと、
画像前処理が行われた各フレームの画像における、少なくとも１つの物品が含まれた物品検出枠と、前記種別情報とを決定することと、
前記物品検出枠に基づいて前記物品の位置情報を決定することとを含む、請求項１に記載の方法。
前記物品検出枠に対して非最大値抑制を行うことをさらに含む、請求項２に記載の方法。
画像取得装置により目標部位の複数フレームの画像を取得することと、
前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得することとをさらに含む、請求項１に記載の方法。
前記各フレームの画像における前記目標部位の位置情報及び判別結果、前記物品の前記種別情報及び前記融合結果に基づいて、前記物品の識別結果を決定する、請求項４に記載の方法。
前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得することは、
前記目標部位の各フレームの画像に対して画像前処理を行って、ユーザの目標部位の画像輪郭を強調することと、
画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することと、
前記部位候補領域における特徴情報を抽出して、複数の部位特徴を得ることと、
予めトレーニングされた分類器により前記複数の部位特徴を識別して、各フレームの画像における前記目標部位の位置情報及び判別結果を得ることとを含む、請求項４に記載の方法。
画像前処理が行われた各フレームの画像における、ユーザの目標部位が現れる部位候補領域を選択することは、
サブウィンドウにより各フレームの画像を走査して、各フレームの画像における、ユーザの目標部位が現れる可能性のある部位候補領域を決定することを含む、請求項６に記載の方法。
前記物品に対して細粒度分類を行うことをさらに含む、請求項１に記載の方法。
前記情報取得装置は、深度カメラ、カードリーダ、重力装置、匂いセンサのうちの少なくとも１つを含む、請求項１に記載の方法。
前記情報取得装置が前記深度カメラである場合、前記深度カメラにより、前記物品の深度画像を取得し、前記物品の補助情報には深度情報が含まれる請求項９に記載の方法。
前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得することは、
前記画像取得装置及び前記深度カメラのレンズパラメータ及び位置パラメータを取得することと、
前記深度カメラのレンズパラメータ、前記深度情報、及び前記深度画像における前記物品の位置に基づいて、前記深度カメラの座標系における前記物品の位置を取得することと、
前記画像取得装置及び前記深度カメラの位置パラメータに基づいて、前記深度カメラの座標系を基準として、前記画像取得装置の前記深度カメラに対する相対的な位置関係を標定することと、
前記レンズパラメータ、前記深度画像における前記物品の位置、前記深度情報、及び前記相対的な位置関係に基づいて、前記深度画像における前記物品の位置を前記画像取得装置で取得された画像における前記物品の位置に対応させるマッピング位置情報を決定することと、
前記位置情報と前記マッピング位置情報とを比較して、前記融合結果を得ることとを含む、請求項１０に記載の方法。
画像取得装置により物品の複数フレームの画像を取得することは、
前記画像取得装置を起動して前記物品のビデオを取得することと、
前記ビデオから前記物品の複数フレームの画像をキャプチャすることとを含む、請求項１に記載の方法。
前記追跡軌跡を分類して、軌跡分類結果を取得するステップは、
前記追跡軌跡から物品移動の長さを抽出することと、
予めトレーニングされた分類決定木モデルと前記物品移動の長さとを組み合わせて、前記追跡軌跡を分類して、軌跡分類結果を取得することとを含む、請求項１に記載の方法。
前記軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定するステップは、
前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果を取得することと、
前記画像取得装置、又は前記画像取得装置と前記情報取得装置の組み合わせの同一の時刻での軌跡分類結果に基づいて、分類ルールベースに基づく分類判別スキームを確立することと、
前記分類判別スキーム及び前記軌跡分類結果に基づいて、物品取り出し結果又は物品戻し結果を決定することとを含む、請求項１３に記載の方法。
各種の物品の価格を含む物品価格表を取得することと、
物品取り出し結果及び物品戻し結果に基づいて、取り出された物品及び物品の数を決定することと、
取り出された物品及び物品の数、及び各種の物品の価格に基づいて、物品の決済総額を決定することとをさらに含む、請求項１に記載の方法。
無人販売店舗、スマート販売機を少なくとも含む新小売シーンに設定されるべきである、請求項１に記載の方法。
物品の複数フレームの画像を取得するように構成される画像取得装置と、
前記物品の補助情報を取得するように構成される情報取得装置と、
前記物品の複数フレームの画像を処理して、各フレームの画像における前記物品の位置情報及び種別情報を取得し、前記位置情報及び前記補助情報に対してマルチモーダル融合を行って、融合結果を取得してから、前記種別情報と前記融合結果に基づいて前記物品の識別結果を決定するように構成されるサーバとを含み、
前記サーバは、さらに、前記融合結果に基づいて、物品の追跡軌跡を決定し、前記追跡軌跡を分類して、物品の移動結果に対応する軌跡分類結果を得、前記軌跡分類結果に基づいて、物品取り出し結果及び物品戻し結果を決定し、物品取り出し結果及び物品戻し結果に基づいて、物品管理リストを更新するように構成され、
前記サーバは、さらに、前記融合結果に基づいて、前記物品の位置情報及び前記物品の移動傾向を取得し、前記物品の現在の検出枠と予測された候補枠との間の重なり類似度及び特徴類似度に基づいて、現在の検出結果と直前のフレームの検出結果とのマッチング率を判断して、物品の追跡軌跡を得るように構成され、
前記予測された候補枠は、直前のフレームの前記物品の位置情報を基に、前記物品の移動傾向に基づいて取得され、前記追跡軌跡は、各時間ノードでの物品の位置、物品の種類、物品移動のタイムスタンプを含む、物品識別システム。
前記画像取得装置は、さらに、目標部位の複数フレームの画像を取得するように構成される、請求項１７に記載の物品識別システム。
前記サーバは、さらに、前記目標部位の複数フレームの画像を処理して、各フレームの画像における前記目標部位の位置情報及び判別結果を取得し、前記各フレームの画像における前記目標部位の位置情報及び判別情報、前記種別情報及び前記融合結果に基づいて、前記物品の識別結果を決定するように構成される、請求項１８に記載の物品識別システム。
開かれた場合に、前記画像取得装置及び前記情報取得装置が起動する物品貯蔵装置をさらに含む、請求項１７に記載の物品識別システム。
プロセッサと、
前記プロセッサの実行可能な命令を記憶するように構成されるメモリとを含む電子機器であって、
前記プロセッサは、前記実行可能な命令を実行することにより、請求項１〜１６のいずれか一項に記載の物品識別方法を実行するように構成される、電子機器。
記憶されたプログラムを含む記憶媒体において、前記プログラムは実行される場合、前記記憶媒体の存在する装置を制御して請求項１〜１６のいずれか一項に記載の物品識別方法を実行する、記憶媒体。