JP7204786B2

JP7204786B2 - 視覚的検索方法、装置、コンピュータ機器及び記憶媒体

Info

Publication number: JP7204786B2
Application number: JP2020571638A
Authority: JP
Inventors: チャン，リュウキン; リ，グォホン; キュウ，シン; ガオ，シュウフィ; チャン，ヤチョウ
Original assignee: バイドゥオンラインネットワークテクノロジー（ペキン）カンパニーリミテッド
Priority date: 2018-11-21
Filing date: 2019-07-01
Publication date: 2023-01-16
Anticipated expiration: 2039-07-01
Also published as: EP3885934A4; EP3885934A1; JP2021528767A; US20210012511A1; KR20210008075A; CN109558505A; KR102440198B1; WO2020103462A1; US11348254B2

Description

本開示は視覚的検索技術分野に関し、特に視覚的検索方法、装置、コンピュータ機器及び記憶媒体に関する。

視覚的検索は、画像、ビデオなどの視覚的内容を検索の入力源とし、視覚的識別技術を用いて、入力された視覚内容を識別及び検索した後、画像や文字など、様々な態様の検索結果を返す技術である。視覚的識別技術の継続的な発展により、モバイル端末上で視覚的検索技術によって周囲の物体の情報を得るユーザがますます増えている。

しかしながら、現在の視覚的検索製品は完全ではなく、リアルタイムなビデオストリーミング内の主体を識別及び追跡することができない。

本開示は、関連技術における技術的課題のうちの１つを解決することを目的としている。

このため、本開示は視覚的検索方法、装置、コンピュータ機器及び記憶媒体を提供し、視覚的検索がリアルタイムなビデオストリーミング内の主体を識別及び追跡できないという従来技術における技術的課題を解決することに用いられる。

上記目的を達成するために、本開示の第１態様の実施例は視覚的検索方法を提供し、第ｉフレームの画像（ｉは正整数である）を受信するステップと、前記第ｉフレームの画像内の主体の位置及びカテゴリを抽出して、前記主体に対応する検出ボックスを生成するステップと、前記第ｉフレームの画像の後続フレーム画像において、前記第ｉフレームの画像の主体の位置に基づいて前記主体を追跡し、前記追跡結果に基づいて前記検出ボックスを調整するステップと、を含む。

本開示の実施例の視覚的検索方法は、第ｉフレームの画像を受信し、第ｉフレームの画像内の主体の位置及びカテゴリを抽出して、主体に対応する検出ボックスを生成し、第ｉフレームの画像の後続フレーム画像において、第ｉフレームの画像の主体の位置に基づいて主体を追跡し、追跡結果に基づいて検出ボックスを調整することにより、第ｉフレームの画像内の主体の位置に基づいて後続フレームにおいて主体を追跡し、かつ追跡結果に基づいて検出ボックスを調整し、ビデオストリーミング内の主体への追跡を実現し、視覚的検索の一貫性を向上させる。

上記目的を達成するために、本開示の第２態様は視覚的検索装置を提供し、第ｉフレームの画像（ｉは正整数である）を受信するための受信モジュールと、前記第ｉフレームの画像内の主体の位置及びカテゴリを抽出して、前記主体に対応する検出ボックスを生成するための抽出モジュールと、前記第ｉフレームの画像の後続フレーム画像において、前記第ｉフレームの画像の主体の位置に基づいて前記主体を追跡し、前記追跡結果に基づいて前記検出ボックスを調整するための追跡モジュールと、を含む。

本開示の実施例の視覚的検索装置は、第ｉフレームの画像を受信し、第ｉフレームの画像内の主体の位置及びカテゴリを抽出して、主体に対応する検出ボックスを生成し、第ｉフレームの画像の後続フレーム画像において、第ｉフレームの画像の主体の位置に基づいて主体を追跡し、追跡結果に基づいて検出ボックスを調整することにより、第ｉフレームの画像内の主体の位置に基づいて後続フレームにおいて主体を追跡し、かつ追跡結果に基づいて検出ボックスを調整し、ビデオストリーミング内の主体への追跡を実現し、視覚的検索の一貫性を向上させる。

上記目的を達成するために、本開示の第３態様の実施例はコンピュータ機器を提供し、プロセッサ及びメモリを含む。前記プロセッサは、第１態様の実施例に記載の視覚的検索方法を実現するように、前記メモリに記憶される実行可能なプログラムコードを読み取ることによって、前記実行可能なプログラムコードに対応するプログラムを実行する。

上記目的を実現するために、本開示の第４態様の実施例はコンピュータプログラムが記憶される非一時的なコンピュータ読み取り可能な記憶媒体を提供し、該プログラムはプロセッサによって実行される際に、第１態様の実施例に記載の視覚的検索方法を実現する。

上記目的を達成するために、本開示の第５態様の実施例はコンピュータプログラムを提供し、前記コンピュータプログラム内の命令がプロセッサによって実行される場合、第１態様の実施例に記載の視覚的検索方法を実現する。

本開示の付加的な態様及び利点は以下の説明において部分的に与えられており、その一部は以下の説明によって明確になり、又は本開示を実践することによって分かるようになる。

図面は本開示への更なる理解を提供し、かつ明細書の一部を構成することに用いられ、以下の具体的な実施形態とともに本開示への解釈に用いられるが、本開示を限定するものではない。図面において、
本開示の実施例によって提供されるビデオ検索方法のフローチャートである。本開示の実施例によって提供される他のビデオ検索方法のフローチャートである。本開示の実施例によって提供される別の視覚的検索方法のフローチャートである。本開示の実施例によって提供される更なる視覚的検索方法のフローチャートである。本開示の一実施例の視覚的検索方法の実現プロセスの概略図である。視覚的検索の単一フレーム画像のシーケンス図である。本開示の実施例によって提供される視覚的検索装置の構造概略図である。本開示の実施例によって提供される他の視覚的検索装置の構造概略図である。本開示の実施例によって提供される別の視覚的検索装置の構造概略図である。本開示の実施例によって提供される更なる視覚的検索装置の構造概略図である。本開示の実施例によって提供されるコンピュータ機器の構造概略図である。

以下、本開示の実施例を詳しく説明するが、前記実施例の一例は図面に示されており、同一又は類似の番号は終始、同一又は類似の部品、あるいは同一又は類似の機能を有する部品を表す。以下、図面を参照して説明された実施例は例示的なものであり、本開示を解釈するためのものであり、本開示を限定するものとして理解すべきではない。

以下、図面を参照して本開示の実施例の視覚的検索方法、装置、コンピュータ機器及び記憶媒体を説明する。

現在の視覚的検索製品には、以下の欠陥がある。

（１）操作プロセスが煩雑である。ユーザがモバイル端末を用いて視覚的検索を行う場合、カメラを起動して対象の主体に位置合せして撮影しかつ画像をモバイル端末のアルバムに保存する必要があり、さらにアルバムから画像を選択し、ネットワーク経由で画像を視覚的検索サーバにアップロードして視覚的検索を行う。
（２）視覚的検索にかかる時間が長い。視覚的検索に用いられる画像はネットワーク経由で視覚的検索サーバに送信することができ、視覚的検索サーバは画像内の主体を検出しかつ識別した後、主体の位置及び識別をモバイル端末に返す。
（３）画像内の単一の主体しか識別できない。
（４）リアルタイムなビデオストリーミング内の主体を識別しかつ後続のビデオストリーミングにおいて識別結果を保持することができない。

視覚的検索製品に存在する上記問題のうちの少なくとも１つを解決するために、本開示は視覚的検索方法を提供する。図１は本開示の実施例によって提供される視覚的検索方法のフローチャートであり、該方法は携帯電話、タブレット、ノートパソコンなどのモバイル端末に適用することができる。

図１に示すように、該視覚的検索方法は以下のステップを含むことができる。

ステップ１０１、第ｉフレームの画像（ｉは正整数である）を受信する。

第ｉフレームの画像がリアルタイムなビデオストリーミング内の１フレームの画像である。

ユーザは周囲の物体の情報を取得しようとする場合、モバイル端末の視覚的検索機能を介して周辺物体の情報を取得することができる。モバイル端末がカメラを起動して周囲の物体のビデオストリーミングを収集し、かつビデオストリーミング内の第ｉフレームの画像（ｉは正整数である）を受信する。

ユーザは複数の物体の情報を取得しようとする場合、複数の物体を含むビデオストリーミングを収集することができ、撮影時に、ユーザはカメラを起動して対象の物体に位置合せすればよく、手動で撮影ボタンを押す必要もなく、アルバムから画像を選択してアップロードする必要もないため、視覚的検索の操作プロセスを簡素化する。

ステップ１０２、第ｉフレームの画像内の主体の位置及びカテゴリを抽出して、主体に対応する検出ボックスを生成する。

本実施例では、第ｉフレームの画像を受信すると、第ｉフレームの画像を検出及び識別することができ、第ｉフレームの画像内の主体の位置及びカテゴリを提出し、かつ主体に対応する検出ボックスを生成する。

本開示の実施例の１つの可能な実現形態では、モバイル端末は第ｉフレームの画像を検出する時、ディープラーニングに基づく物体検出モデルを用いて実現することができ、物体検出モデルの関連パラメータを設定した後、受信された第ｉフレームの画像を物体検出モデルに入力し、物体検出モデルを介して第ｉフレームの画像に含まれる主体を検出し、第ｉフレームの画像内の主体の位置を出力する。

モバイル端末は第ｉフレームの画像を識別する場合、第ｉフレームの画像に含まれる主体に基づいて適切な識別アルゴリズムを選択することができ、第ｉフレームの画像に二次元コードが含まれる場合、二次元コード識別アルゴリズムを呼び出すことができ、第ｉフレームの画像に植物、動物などの物体が含まれる場合、物体分類識別アルゴリズムを呼び出すことができる。

１つの可能な実現形態として、モバイル端末は、ディープラーニングに基づく主体分類モデルを用いて第ｉフレームの画像に含まれる主体を識別することができ、主体分類モデルの関連パラメータを受信すると、受信された第ｉフレームの画像を主体分類モデルに入力し、主体分類モデルを介して第ｉフレームの画像に含まれる主体を分類して識別し、第ｉフレームの画像内の主体のカテゴリを出力する。カテゴリには主体の識別結果が含まれる。

モバイル端末を介して第ｉフレームの画像内の主体を検出及び識別することにより、モバイル端末とサーバとの間のデータ交換を回避し、待ち時間を短縮し、従ってかかる時間を短縮する。

第ｉフレームの画像内の主体を検出して主体の位置を取得し、及び主体を識別して主体のカテゴリを取得すると、主体の位置及びカテゴリに基づいて主体に対応する検出ボックスを生成することができる。検出ボックスは主体の識別結果を運ぶ。

本開示の実施例の１つの可能な実現形態では、主体も検出ボックスも複数がある。モバイル端末が収集したビデオストリーミングにおいて、第ｉフレームの画像は複数の主体を含んでもよく、ディープラーニングに基づく物体検出モデル及び主体分類モデルを用いて、第ｉフレームの画像内の複数の主体を同時に検出及び識別することができ、かつ各主体に対して、該主体に対応する位置及びカテゴリに基づいて、該主体に対応する検出ボックスを生成する。以上より、画像内の複数の主体に対する識別を実現し、視覚的検索の効率を向上させ、単一の主体しか識別できないという従来技術における課題を解決した。

ステップ１０３、第ｉフレームの画像の後続フレーム画像において、第ｉフレームの画像の主体の位置に基づいて主体を追跡し、追跡結果に基づいて検出ボックスを調整する。

ビデオストリーミングは複数のフレームの画像を含み、第ｉフレームの画像がビデオストリーミング内の最後の１フレームの画像ではない場合、第ｉフレームの画像の後はさらに少なくとも１フレームの後続フレーム画像がある。従って、本実施例では、第ｉフレームの画像の後続フレーム画像において、第ｉフレームの画像内の主体の位置に基づいて主体を追跡し、かつ追跡結果に基づいて検出ボックスを調整することができる。

例えば、第ｉフレームの画像内の主体の位置に基づき、関連する目標追跡アルゴリズムを用い、第ｉフレームの画像の後続フレーム画像において主体の位置を追跡することができる。後続フレーム画像において主体を追跡する場合、追跡した主体の位置、即ち追跡結果に基づいて検出ボックスを調整することができる。

一例として、目標検出に基づく追跡アルゴリズムを用いて、受信された後続フレーム画像に対して目標検出を行うことができ、検出された主体位置を第ｉフレームの画像内の主体の位置と比較し、両者が一致しない場合、後続フレーム画像内の主体の位置に基づいて検出ボックスを調整する。

本開示の実施例１つの可能な実現形態では、第ｉフレーム内の主体が複数である場合、一意の識別子を主体識別コードとして異なる主体を区別することができ、さらに主体追跡を行う際に、主体識別コードに基づいて主体を追跡し、及び対応する検出ボックスを調整する。

本実施例の視覚的検索方法は、第ｉフレームの画像を受信し、第ｉフレームの画像内の主体の位置及びカテゴリを抽出して、主体に対応する検出ボックスを生成し、第ｉフレームの画像の後続フレーム画像において、第ｉフレームの画像の主体の位置に基づいて主体を追跡し、追跡結果に基づいて検出ボックスを調整することにより、第ｉフレームの画像内の主体の位置に基づいて後続フレームにおいて主体を追跡し、かつ追跡結果に基づいて検出ボックスを調整し、ビデオストリーミング内の主体への追跡を実現し、視覚的検索の一貫性を向上させる。

ビデオストリーミングには複数のフレーム画像が含まれ、各フレーム画像に含まれる主体が異なる可能性があり、ビデオストリーミング内の主体が変化した際にも主体を識別及び追跡できるように、本開示は他のビデオ検索方法を提供する。図２は本開示の実施例によって提供される他のビデオ検索方法のフローチャートである。

図２に示すように、図１に示す実施例をもとに、該視覚的検索方法はさらに以下のステップを含んでもよい。

ステップ２０１、第ｉ＋Ｍフレームの画像（Ｍは正整数である）を受信する。

モバイル端末はビデオストリーミングの主体を識別及び追跡するプロセスにおいて、ビデオストリーミング内の画像フレームを取得し続ける。

ステップ２０２、第ｉ＋Ｍフレームの画像内の主体が第ｉフレームの画像内の主体に対して変化したか否かを判断する。

ステップ２０３、変化した場合、第ｉ＋Ｍフレームの画像から検出された主体に基づいて検出ボックスを改めて生成し、改めて追跡する。

本実施例において、モバイル端末は第ｉフレームの画像を受信した後、第ｉフレームの画像内の主体を検出及び識別する。検出及び識別するプロセスにおいて、モバイル端末は第ｉフレームの画像の後続フレーム画像を取得し続ける。受信した第ｉ＋Ｍフレームの画像に対して、モバイル端末は第ｉ＋Ｍフレームの画像の主体を検出及び識別し、第ｉ＋Ｍフレームにおいて識別された主体を第ｉフレームの画像内の主体と比較し、第ｉ＋Ｍフレームの画像内の主体が第ｉフレームの画像内の主体に対して変化したか否かを判断する。

第ｉ＋Ｍフレームの画像内の主体が第ｉフレームの画像内の主体に対して変化したと分かった時、第ｉ＋Ｍフレームの画像において識別された主体に基づいて、検出ボックスを改めて生成し、かつ改めて追跡する。

具体的に、第ｉ＋Ｍフレームの画像内の主体のうちの少なくとも１つが第ｉフレーム内の主体と異なる場合、第ｉ＋Ｍフレームの画像内で主体を検出して得られた主体の位置及び主体を識別して得られた主体のカテゴリに基づいて、第ｉ＋Ｍフレームの画像において主体に対応する検出ボックスを改めて生成し、第ｉ＋Ｍフレームの画像の後続フレーム画像において主体を追跡する。

本実施例の視覚的検索方法は、受信した第ｉ＋Ｍフレームの画像内の主体が第ｉフレームの画像内の主体に対して変化したか否かを判断し、変化した場合に、第ｉ＋Ｍフレームの画像において検出して得られた主体に基づいて検出ボックスを改めて生成しかつ改めて追跡することにより、ビデオストリーミングに新しい主体が現れた場合、新たに現れた主体を識別及び追跡することを実現し、ユーザ体験を向上させる。

上記実施例における主体への追跡の具体的な実現プロセスをより明確に説明するために、本開示は他の視覚的検索方法を提供し、図３は本開示の実施例によって提供される別の視覚的検索方法のフローチャートである。

図３に示すように、図１に示す実施例をもとに、ステップ１０３は以下のステップを含んでも良い。

ステップ３０１、第ｉフレームの画像の後続の第ｉ＋ｎフレームの画像（ｎは正整数である）を取得する。

ステップ３０２、第ｉ＋ｎフレームの画像において、主体の位置に基づいて主体を追跡する。

本実施例において、モバイル端末は第ｉフレームの画像を受信した後、第ｉフレームの画像を検出及び識別するプロセスにおいて、さらに第ｉフレームの画像の後の画像フレームを取得する。モバイル端末は受信した第ｉ＋ｎフレームの画像の主体を検出及び識別して第ｉ＋ｎフレームの画像内の主体の位置及びカテゴリを取得し、従って第ｉ＋ｎフレームの画像において、主体の位置に基づいて主体を追跡する。

モバイル端は第ｉフレームの画像を検出及び識別するプロセスにおいて、第ｉフレームの画像の後続フレーム画像を取得し続け、しかし後続フレーム画像において主体を追跡する場合、第ｉフレームの画像で検出された主体の位置に基づいて追跡して、第ｉフレームの画像内の主体の位置に基づいて追跡の初期化を行う必要があるため、モバイル端末が第ｉ＋ｎ－１フレーム画像を受信した時に、第ｉフレームの画像内の主体の位置が検出されないという状況が存在する可能性があり、この場合、第ｉ＋１フレームの画像乃至第ｉ＋ｎ－１フレームの画像において主体を追跡することができない。

本開示の実施例の１つの可能な実現形態において、第ｉ＋１フレームの画像と第ｉ＋ｎ－１フレームの画像との間の画像フレームを取得して参照画像フレームとすることができ、参照画像フレームに基づいて主体への追跡を検証する。例えば、第ｉ＋ｎフレームの画像内の主体の位置が第ｉ＋ｎ－１フレーム内の主体の位置に対して変化した範囲と、第ｉ＋ｎ－１フレーム画像内の主体の位置が第ｉ＋ｎ－２フレーム内の主体の位置に対して変換した範囲とを比較して、その誤差が許容範囲内にあるか否かを判断し、許容範囲内にある場合、主体への追跡が正確であると検証した。以上より、主体追跡の正確度を向上させることができる。

本実施例の視覚的検索方法は、第ｉフレームの画像の後の第ｉ＋ｎフレームの画像を取得することにより、第ｉ＋ｎフレームの画像において、主体の位置に基づいて主体を追跡し、視覚的検索の一貫性を向上させる。

上記実施例における主体への追跡の具体的な実現プロセスをより明確に説明するために、本開示は他の視覚的検索方法を提供し、図４は本開示の実施例によって提供される更なる視覚的検索方法のフローチャートである。

図４に示すように、図１に示す実施例をもとに、ステップ１０３は以下のステップを含んでもよい。

ステップ４０１、後続フレーム画像の輝度を取得する。

本実施例において、第ｉフレームの画像の後続フレーム画像を取得した後、後続画像フレームの照度を取得することができる。

画像の輝度は本質的に画像内の各画素の輝度であり、各画素の輝度は本質的にＲＧＢ値の大小であり、ＲＧＢ値が０である場合、画素が黒で、輝度が最も低く、ＲＧＢ値が２５５である場合、画素が白で、輝度が最も高い。従って、本実施例では、受信した後続フレーム画像に対して、画像の画素値を画像の輝度として取得することができる。

ステップ４０２、連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値以上である場合、ＫＣＦ追跡アルゴリズムを呼び出し、第ｉフレームの画像内の主体の位置に基づいて主体を追跡する。

ステップ４０３、連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、第ｉフレームの画像内の主体の位置に基づいて主体を追跡する。

第１の予め設定されたしきい値は予め設定することができる。

本実施例において、１フレームの画像を受信するたびに、該画像の輝度を取得しかつ該輝度を記録することができ、さらに該画像の輝度を前の１フレームの画像の輝度を比較して、２フレームの画像の輝度の差を取得し、連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値以上である場合、カーネル化相関フィルタ（ＫｅｒｎｅｌｉｚｅｄＣｏｒｒｅｌａｔｉｏｎＦｉｌｔｅｒｓ、ＫＣＦ）追跡アルゴリズムを呼び出し、第ｉフレームの画像内の主体の位置に基づいて主体を追跡する。

ＫＣＦ追跡アルゴリズムは目標周囲の領域の循環マトリックスを用いて正と負のサンプルを収集し、リッジ回帰を用いて対象の検出器をトレーニングし、及び循環マトリックスがフーリエ空間において対角化できるという特性を利用して、マトリックスの演算を要素の浮動小数点乗算に変換することにより、演算量を大幅に減らし、演算速度を上げ、アルゴリズムがリアルタイム性の要件を満たすようにする。

連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、第ｉフレームの画像内の主体の位置に基づいて主体を追跡する。

オプティカルフロー追跡アルゴリズムの原理は以下のとおりである：１つの連続するビデオフレームシーケンスを処理し、各ビデオシーケンスに対して、一定の目標検出方法を用いて、出現し得る前景目標を検出し、特定の１フレームに前景目標が出現した場合、代表性を有する肝心の特徴点を見つけ（ランダムに生成するか、又は極値点を特徴点とすることができる）。その後の任意の２つの隣接するビデオフレームについて、前の１フレームに出現した肝心の特徴点の現在フレームにおける最適位置を見つけることにより、前景目標の現在フレームにおける位置の座標を取得し、このように繰り返せば、目標の追跡を実現することができる。オプティカルフロー追跡アルゴリズムは照度の小さい目標追跡に適用される。

本実施例の視覚的検索方法は、後続フレーム画像の輝度を取得し、連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値以上である場合、ＫＣＦ追跡アルゴリズムを呼び出し、第ｉフレームの画像内の主体の位置に基づいて主体を追跡し、連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、第ｉフレームの画像内の主体の位置に基づいて主体を追跡することにより、主体追跡の正確度及び精度を向上させることができ、主体への追跡の効果を向上させる。

図５は本開示の一実施例の視覚的検索方法の実現プロセスの概略図である。図６は視覚的検索の単一フレーム画像のシーケンス図である。

図５に示すように、まず図１の主体を検出して主体の位置を取得し、主体検出の間、追跡初期化が行われないため、図２乃至図ｎ－１の画像は主体への追跡に用いられず、この部分の画像は追跡の検証に用いることができる。図１の主体を検出した後、取得した主体の位置を主体識別コードに基づいてメモリに記憶し、即ち主体情報の更新を行い、さらに主体の位置に基づいて追跡の初期化を行う。図ｎを受信した場合、この時点で追跡の初期化が完了し、主体への検出が再び行われるまで（図５において図ｍの主体を検出するように）、図ｎ及び後続画像の主体を追跡し、かつ新しい検出結果に基づいて、追跡の初期化を再び行う。追跡処理が完了すると、主体の位置は更新され、かつ主体識別コードに基づいてメモリに記憶される主体の位置を更新する。モバイル端末は主体の位置に基づいて、主体を範囲選択及び識別し、例えばオブジェクト分類識別、テキスト識別、二次元コード識別などを行う。識別完了後、主体識別コードに基づいて識別結果をメモリに記憶する。メモリに記憶される主体情報（主体位置、識別結果）が更新されるされる度に、モバイル端末は更新された主体情報に基づいてビデオストリーミングビューファインダーインターフェースにおいてビューのレンダリングを行い、主体の位置及び主体の識別結果を検出ボックスの方式によって対応する主体に表示し、視覚的検索という目的を達成する。

図６に示すように、写真１に対し、検出設定情報に基づいて適切な検出方法を選択して主体検出を行って主体の位置を取得し、検出ボックスの形でインターフェース層にフィードバックし、即ち写真１において主体の位置を範囲選択する。識別設定情報に基づいて適切な識別方法を選択し、写真１の検出ボックスによって範囲選択される主体を識別し、識別結果をマスターディスパッチャーによってインターフェース層にフィードバックし、即ち主体に対応する識別結果を写真１に表示する。写真２に対して、検出設定情報に基づいて適切な追跡方法を選択し、決定された追跡方法を用いて、写真１の主体の位置に基づいて写真２の主体を追跡し、かつマスターディスパッチャーを介して追跡結果をインターフェース層に返し、追跡結果及び識別結果を写真２に表示する。

上記実施例を実現するために、本開示はさらに視覚的検索装置を提供する。

図７は本開示の実施例によって提供される視覚的検索装置の構造概略図である。

図７に示すように、該視覚的検索装置５０は、受信モジュール５１０、抽出モジュール５２０、及び追跡モジュール５３０を含む。

受信モジュール５１０は、第ｉフレームの画像（ｉは正整数である）を受信することに用いられる。

抽出モジュール５２０は、第ｉフレームの画像内の主体の位置及びカテゴリを抽出して、主体に対応する検出ボックスを生成することに用いられる。

本開示の実施例の１つの可能な実現形態では、主体は複数であり、且つ検出ボックスは複数である。

追跡モジュール５３０は、第ｉフレームの画像の後続フレーム画像において、第ｉフレームの画像の主体の位置に基づいて主体を追跡し、追跡結果に基づいて検出ボックスを調整することに用いられる。

本開示の実施例の１つの可能な実現形態において、図８に示すように、図７に示す実施例をもとに、該視覚的検索装置５０はさらに、第ｉ＋Ｍフレームの画像内の主体が第ｉフレームの画像内の主体に対して変化したか否かを判断するための判断モジュール５４０を含む。

Ｍは正整数である。

本実施例において、受信モジュール５１０が第ｉ＋Ｍフレームの画像を受信すると、抽出モジュール５２０は第ｉ＋Ｍフレームの画像内の主体の位置及びカテゴリを抽出する。判断モジュール５４０は、第ｉ＋Ｍフレームの画像内の主体が第ｉフレームの画像内の主体に対して変化したか否かを判断し、変化したと判定した場合、抽出モジュール５２０によって、第ｉ＋Ｍフレームの画像において検出された主体に基づいて検出ボックスを改めて生成し、追跡モジュール５３０によって改めて追跡する。

本実施例の視覚的検索方法は、受信した第ｉ＋Ｍフレームの画像内の主体が第ｉフレームの画像内の主体に対して変化したか否かを判断し、変化した場合、第ｉ＋Ｍフレームの画像において検出して得られた主体に基づいて検出ボックスを改めて生成しかつ改めて追跡することにより、ビデオストリーミングに新しい主体が現れた場合、新たに現れた主体を識別及び追跡することを実現し、ユーザ体験を向上させる。

本開示の実施例の１つの可能な実現形態では、図９に示すように、図７に示す実施例をもとに、追跡モジュール５３０は、後続フレーム画像の輝度を取得するための取得ユニット５３１と、連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値以上である場合、ＫＣＦ追跡アルゴリズムを呼び出し、第ｉフレームの画像内の主体の位置に基づいて主体を追跡するための追跡ユニット５３２と、を含む。

追跡ユニット５３２はさらに、連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、第ｉフレームの画像内の主体の位置に基づいて主体を追跡することに用いられる。

後続フレーム画像の輝度を取得し、連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値以上である場合、ＫＣＦ追跡アルゴリズムを呼び出し、第ｉフレームの画像内の主体の位置に基づいて主体を追跡し、連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、第ｉフレームの画像内の主体の位置に基づいて主体を追跡することにより、主体追跡の正確度及び精度を向上させることができ、主体への追跡の効果を向上させる。

本開示の実施例の１つの可能な実現形態において、図１０に示すように、図７に示す実施例をもとに、追跡モジュール５３０は、第ｉフレームの画像の後続の第ｉ＋ｎフレームの画像（ｎは正整数である）を取得するための画像取得ユニット５３３と、第ｉ＋ｎフレームの画像において、主体の位置に基づいて主体を追跡するための主体追跡ユニット５３４と、を含む。

さらに、本開示の実施例の１つの可能な実現形態において、画像取得ユニット５３３はさらに、第ｉ＋１フレームの画像と第ｉ＋ｎ－１フレームの画像との間の画像フレームを取得して参照画像フレームとすることに用いられる。主体追跡ユニット５３４はさらに、参照画像フレームに基づいて主体の追跡を検証することに用いられる。以上より、主体の追跡の正確度を向上させることができる。

なお、視覚的検索方法の実施例に対する上記解釈や説明は該実施例の視覚的検索装置にも適用され、その実現の原理は類似するものであるので、説明を省略する。

上記実施例を実現するために、本開示はコンピュータ機器をさらに提供し、プロセッサ及びメモリを含む。プロセッサは、メモリに記憶される実行可能なプログラムコードを読み取ることによって、実行可能なプログラムコードに対応するプログラムを実行し、従って上記実施例に記載の視覚的検索方法を実現することに用いられる。

図１１は本開示の実施例によって提供されるコンピュータ機器の構造概略図であり、本開示の実施形態を実現するための例示的なコンピュータ機器９０のブロック図を示した。図１１に示されるコンピュータ機器９０は単なる例に過ぎず、本開示の実施例の機能や使用範囲を限定すべきではない。

図１１に示すように、コンピュータ機器９０は汎用コンピュータ機器という形で表される。コンピュータ機器９０のコンポーネントは、１つ又は複数のプロセッサ、あるいは処理ユニット９０６、システムメモリ９１０、異なるシステムコンポーネント（システムメモリ９１０及び処理ユニット９０６）を接続するバス９０８を含むが、これらに限定されない。

バス９０８は幾つかの種類のバス構造のうちの１つ又は複数であり、メモリバス又はメモリコントローラ、周辺バス、グラフィックスアクセラレータポート、プロセッサ、又は複数種類のバス構造のうちの任意のバス構造を用いるローカルエリアバスを含む。例えば、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ（ＩｎｄｕｓｔｒｙＳｔａｎｄａｒｄＡｒｃｈｉｔｅｃｔｕｒｅ、以下はＩＳＡと略される）バス、マイクロチャネルアーキテクチャ（ＭｉｃｒｏＣｈａｎｎｅｌＡｒｃｈｉｔｅｃｔｕｒｅ以下はＭＡＣと略される）バス、拡張型ＩＳＡバス、ビデオエレクトロニクススタンダーズアソシエーション（ＶｉｄｅｏＥｌｅｃｔｒｏｎｉｃｓＳｔａｎｄａｒｄｓＡｓｓｏｃｉａｔｉｏｎ、以下はＶＥＳＡと略される）ローカルエリアバス及びペリフェラルコンポーネントインターコネクト（ＰｅｒｉｐｈｅｒａｌＣｏｍｐｏｎｅｎｔＩｎｔｅｒｃｏｎｎｅｃｔｉｏｎ、以下はＰＣＩと略される）バスを含むが、これらに限定されない。

コンピュータ機器９０は典型的に、複数種類のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、コンピュータ機器９０によってアクセス可能な任意の利用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及び非リムーバブル媒体を含む。

システムメモリ９１０は揮発性メモリの形態のコンピュータシステム読み取り可能な媒体、例えばランダムアクセスメモリ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ、以下はＲＡＭと略される）９１１及び／又はキャッシュメモリ９１２を含んでもよい。コンピュータ機器９０はリムーバブル／非リムーバブル、揮発性／不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。単なる例として、記憶システム９１３は非リムーバブル、不揮発性磁気媒体（図１１に示されていないが、通常は「ハードディスクドライブ」という）の読み書きに用いることができる。図１１に示されていないにもかかわらず、リムーバブル不揮発性磁気ディスク（例えば「フロッピーディスク」）を読み書きするためのディスクドライブと、リムーバブル不揮発性光ディスク（例えば、コンパクトディスクリーオンリーメモリ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ、以下はＣＤ－ＲＯＭと略される）、デジタル多機能リードオンリーメモリ（ＤｉｇｉｔａｌＶｉｄｅｏＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ、以下はＤＶＤ－ＲＯＭと略される）又は他の光媒体）を読み書きする光学ドライブとを提供することができる。こういう場合、各ドライブは１つ又は複数のデータ媒体インターフェース経由でバス９０８に接続することができる。システムメモリ９１０は少なくとも１つのプログラムを含んでもよく、該プログラムは１組（例えば少なくとも１つ）のプログラムモジュールを有し、これらのプログラムモジュールは本開示の各実施例の機能を実行するように構成される。

コンピュータ読み取り可能な信号媒体は、ベースバンドにおいて伝播される又は搬送波の一部として伝播されるデータ信号を含んでもよく、コンピュータ読み取り可能なプログラムコードが運ばれる。このような伝播されるデータ信号は様々な形を用いることができ、電磁信号、光信号又は上記の任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ読み取り可能な信号媒体はさらにコンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、該コンピュータ読み取り可能な媒体は、命令実行システム、装置又は部品によって使用される又はそれと組み合わせて使用するためのプログラムを送信、伝播又は伝送することができる。

コンピュータ読み取り可能な媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、無線、電線、光ケーブル、ＲＦなど、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。

本開示の操作を実行するためのコンピュータプログラムコードは、１つ又は複数の種類のプログラミング言語又はその組み合わせを用いて書くことができ、前記プログラミング言語は、Ｊａｖａ、Ｓｍａｌｌｔａｌｋ、Ｃ＋＋のようなオブジェクト指向プログラミング言語を含み、「Ｃ」言語又は類似するプログラミング言語のような一般的な手続き型プログラミング言語をさらに含む。プログラムコードは、ユーザコンピュータにおいて完全に実行するか、ユーザコンピュータにおいて部分的に実行するか、１つの独立したソフトウェアパッケージとして実行するか、一部がユーザコンピュータにおいて実行しながら一部がリモートコンピュータにおいて実行するか、又はリモートコンピュータ或いはサーバにおいて完全に実行することができる。

１組（少なくとも１つ）のプログラムモジュール９１４０を有するプログラム／ユーティリティ９１４は、例えば、システムメモリ９１０に記憶することができ、このようなプログラムモジュール９１４０は、操作システム、１つ又は複数のアプリケーションプログラム、その他のプログラムモジュール及びプログラムデータを含むが、これらに限定されない。これらの例のそれぞれ又はいずれかの組み合わせにネットワークの実現が含まれる可能性がある。プログラムモジュール９１４０は通常本開示によって説明された実施例の機能及び／又は方法を実行する。

コンピュータ機器９０はまた、外部デバイス１０（例えばキーボード、ポインティングデバイス、ディスプレイ１００など）と通信することができ、さらにユーザが該端末装置９０と対話できるようにする１つ又は複数のデバイスと通信することができ、及び／又は該コンピュータ機器９０が１つ又は複数のコンピューティングデバイスと通信できるようにする任意のデバイス（例えばネットワークカード、モデムなど）と通信する。このような通信は入力／出力（Ｉ／Ｏ）インターフェース９０２経由で行うことができる。さらに、コンピュータ機器９０はネットワークアダプタ９００を介して１つ又は複数のネットワーク（例えばローカルエリアネットワーク（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ、以下はＬＡＮと略される）、広域ネットワーク（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ、以下はＷＡＮと略される）及び／又は公共ネットワーク、例えばインターネット）と通信することができる。図１１に示すように、ネットワークアダプタ９００はバス９０８を介してコンピュータ機器９０の他のモジュールと通信する。なお、図１１に示されていないにもかかわらず、コンピュータ機器９０と組み合わせて他のハードウェア及び／又はソフトウェアモジュールを用いることができ、マイクロコード、デバイスドライパ、冗長処理ユニット、外部ディスクドライブアレイ、ＲＡＩＤシステム、テープドライブ及びデータバックアップ記憶システムなどを含むが、これらに限定されないことを理解されたい。

処理ユニット９０６は、システムメモリ９１０に記憶されるプログラムを実行することにより、様々な機能アプリケーション及びデータ処理を実行し、例えば、前記実施例において言及びされた視覚的検索方法を実現する。

上記実施例を実現するために、本開示は非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、プロセッサによって実行される際に、上記実施例に記載の視覚的検索方法を実現するというコンピュータプログラムが記憶される。

上記実施例を実現するために、本開示はコンピュータプログラムをさらに提供し、前記コンピュータプログラム内の命令がプロセッサによって実行される際に、上記実施例に記載の視覚的検索方法が実現される。

本明細書の記載においては、「一実施例」、「いくつかの実施例」、「例」、「具体的な例」、又は「いくつかの例」などの用語を参照した説明は、該実施例又は例に併せて説明された具体的な特徴、構造、材料又は特性が、本開示の少なくとも１つの実施例又は例に含まれることを意味する。本明細書では、上記用語の例示的な表現は、必ずしも実施例又は例を対象とする必要はない。また、説明された具体的な特徴、構造、材料又は特性は、任意又は複数の実施例、又は例において適切な方式で組み合わせることができる。さらに、互いに矛盾しない限り、当業者は、本明細書で説明された異なる実施例又は例及びその特徴を組み合わせることができる。

また、「第１」、「第２」という用語は説明のためにのみ用いられ、相対的な重要性を示唆又は暗示するもの、或いは、示された技術特的特徴の数を実質的に示すものと理解してはいけない。従って、「第１」、「第２」により限定される特徴は、少なくとも１つの該特徴を明示的に又は実質的に含んでも良い。本開示の説明では、特に明記されていない限り、「複数」の意味は少なくとも２つ、例えば２つ、３つ等である。

フローチャートにおいて示される又はここにおいて他の方式で説明される任意のプロセス又は方法の説明は、カスタム論理機能又はプロセスを実現するための１つ又は複数のステップの実行可能な命令のコードを含むモジュール、セグメント又は部分を表すものと理解することができ、さらに、本開示の好ましい実施形態の範囲は更なる実現を含み、当業者であれば、示された又は検討された順序に従わずに機能を実行してもよく、例えば、関連する機能に応じて、ほぼ同時に又は逆の順序で機能を実行してもよいことを理解されたい。

フローチャートにおいて示される又はここにおいて他の方式で説明される論理及び／又はステップは、例えば、論理機能の実行可能な命令を実現するための順序付きリストと見なすことができ、具体的には、命令実行システム、装置又はデバイス（例えば、コンピュータに基づくシステム、プロセッサを含むシステム、又は命令実行システム、装置又はデバイスから命令を取得して実行できる他のシステム）が使用できるように、あらゆるコンピュータ読み取り可能媒体において実現することができ、又はこれらの命令実行システム、装置又はデバイスと組み合わせて使用することができる。本明細書について言えば、「コンピュータ読み取り可能媒体」は、命令実行システム、装置又はデバイスが用いるか、又はこれらの命令実行システム、装置又はデバイスを組み合わせて用いるように、プログラムを含む、記憶、通信、伝播又は伝送できるあらゆる装置であっても良い。コンピュータ読み取り可能媒体のより具体的な例（非網羅的リスト）は、１つ又は複数の配線を有する電気接続部（電子機器）、ポータブルコンピュータディスクカートリッジ（磁気デバイス）、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ又はフラッシュメモリー）、光ファイバーデバイス、及びコンパクトディスク読み取り専用メモリ（ＣＤＲＯＭ）を含む。また、コンピュータ読み取り可能媒体は、紙または他の媒体を光学的にスキャンし、続いて編集、解釈し、又は必要に応じて他の適切な方式で処理することによって、前記プログラムを電子的に取得してコンピュータのメモリに記憶することができるため、前記プログラムを印刷できる紙または他の適切な媒体であってもよい。

なお、本開示の各部分は、ハードウェア、ソフトウェア、ファームウェア又はそれらの組み合わせで実現できることを理解されたい。上記実施形態では、複数のステップ又は方法は、メモリに記憶され且つ適切な命令実行システムによって実行されるソフトウェア又はファームウェアで実現することができる。例えば、ハードウェアで実現する場合は、他の実施形態で実現する場合と同じであれば、本分野でよく知られている以下の技術のうちのいずれか１つ又はそれらの組み合わせで実現することができる：デジタルに対して論理機能を実現するための論理ゲート回路を有する離散論理回路、適切な組み合わせ論理ゲート回路を有する特定用途向け集積回路、プログラマブルゲートアレイ（ＰＧＡ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）など。

当業者であれば、上記実施例の方法に含まれる全部又は一部のステップは、プログラムが関連するハードウェアに指示を与えることによって完成することができ、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶することができ、該プログラムは実行時に、方法の実施例のステップのうちの１つ又はその組み合わせを含むことを理解することができる。

また、本開示の各実施例の各機能ユニットは１つの処理モジュールに集積してもよく、各ユニットは個別に物理的に存在してもよく、２つ又は２つ以上のユニットは１つのモジュールに集積しても良い。上記集積されたモジュールは、ハードウェアの形式で実現してもよく、ソフトウェア機能モジュールの形式で実現しても良い。前記集積されたモジュールはソフトウェア機能モジュールの形式で実現され、独立した製品として販売又は使用される場合、コンピュータで読み取り可能な記憶媒体に記憶しても良い。

上記言及びされた記憶媒体は読み取り専用メモリ、磁気ディスク又は光ディスク等であっても良い。以上、本開示の実施例を示し且つ説明したが、上記実施例は例示的なものに過ぎず、本開示を限定するものとして理解すべきではなく、当業者であれば、本開示の範囲から逸脱しない限り、上記実施例に対して変更、修正、置き換え又は変形を行なうことができる。

本開示は、百度網訊科技（北京）有限公司が２０１８年１１月２１日に提出した、発明名称「視覚的検索方法、装置、コンピュータ機器及び記憶媒体」、中国特許出願番号「２０１８１１３９２５１６．Ｘ」の優先権を要求する。

Claims

第ｉフレームの画像（ｉは正整数である）を受信するステップと、
前記第ｉフレームの画像内の主体の位置及びカテゴリを抽出して、前記主体に対応する検出ボックスを生成するステップと、
前記第ｉフレームの画像の後続の第ｉ＋ｎフレームの画像（ｎは正整数である）を取得するステップと、
前記第ｉ＋ｎフレームの画像において、主体の位置に基づいて前記主体を追跡するステップと、
前記第ｉ＋１フレームの画像と第ｉ＋ｎ－１フレームの画像との間の画像フレームを取得して参照画像フレームとするステップと、
前記参照画像フレームに基づいて前記主体への追跡を検証するステップと、
追跡結果に基づいて前記検出ボックスを調整するステップと、を含み、
前記参照画像フレームに基づいて前記主体への追跡を検証するステップは、
第ｉ＋ｎフレームの画像内の主体の位置が第ｉ＋ｎ－１フレーム内の主体の位置に対する変化範囲と、第ｉ＋ｎ－１フレーム画像内の主体の位置が第ｉ＋ｎ－２フレーム内の主体の位置に対する変換範囲とを比較して差を決定し、前記差が許容範囲内にあるか否かを判断するステップを含む、
ことを特徴とする視覚的検索方法。
第ｉ＋Ｍフレームの画像（Ｍは正整数である）を受信するステップと、
前記第ｉ＋Ｍフレームの画像内の主体が前記第ｉフレームの画像内の主体に対して変化したか否かを判断するステップと、
変化した場合、前記第ｉ＋Ｍフレームの画像から検出された主体に基づいて検出ボックスを改めて生成し、改めて追跡するステップと、をさらに含む、
ことを特徴とする請求項１に記載の視覚的検索方法。
前記主体は複数であり、前記検出ボックスは複数である、
ことを特徴とする請求項１又は２に記載の視覚的検索方法。
前記第ｉフレームの画像の後続フレーム画像において、前記第ｉフレームの画像内の主体の位置に基づいて前記主体を追跡するステップは、
後続フレーム画像の輝度を取得するステップと、
連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値以上である場合、ＫＣＦ追跡アルゴリズムを呼び出し、前記第ｉフレームの画像内の主体の位置に基づいて前記主体を追跡するステップと、
連続する２フレームの画像の輝度の差が前記第１の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、前記第ｉフレームの画像内の主体の位置に基づいて前記主体を追跡するステップと、を含む、
ことを特徴とする請求項１又は２に記載の視覚的検索方法。
第ｉフレームの画像（ｉは正整数である）を受信するための受信モジュールと、
前記第ｉフレームの画像内の主体の位置及びカテゴリを抽出して、前記主体に対応する検出ボックスを生成するための抽出モジュールと、
前記第ｉフレームの画像の後続フレーム画像において、前記第ｉフレームの画像の主体の位置に基づいて前記主体を追跡し、前記追跡結果に基づいて前記検出ボックスを調整するための追跡モジュールと、を含み、
前記追跡モジュールは、
前記第ｉフレームの画像の後続の第ｉ＋ｎフレームの画像（ｎは正整数である）を取得し、前記第ｉ＋１フレームの画像と第ｉ＋ｎ－１フレームの画像との間の画像フレームを取得して参照画像フレームとするための画像取得ユニットと、
前記第ｉ＋ｎフレームの画像において、主体の位置に基づいて前記主体を追跡するための主体追跡ユニットと、を含み、
前記主体追跡ユニットはさらに、
前記参照画像フレームに基づいて前記主体への追跡を検証することに用いられ、
前記主体追跡ユニットはさらに、
第ｉ＋ｎフレームの画像内の主体の位置が第ｉ＋ｎ－１フレーム内の主体の位置に対する変化範囲と、第ｉ＋ｎ－１フレーム画像内の主体の位置が第ｉ＋ｎ－２フレーム内の主体の位置に対する変換範囲とを比較して差を決定し、前記差が許容範囲内にあるか否かを判断することに用いられる、
ことを特徴とする視覚的検索装置。
前記受信モジュールはさらに、
第ｉ＋Ｍフレームの画像（Ｍは正整数である）を受信することに用いられ、
前記視覚的検索装置はさらに、
前記第ｉ＋Ｍフレームの画像内の主体が前記第ｉフレームの画像内の主体に対して変化したか否かを判断するための判断モジュールを含み、
前記抽出モジュールはさらに、
前記第ｉ＋Ｍフレームの画像内の主体が前記第ｉフレームの画像内の主体に対して変化したと判断する場合、前記第ｉ＋Ｍフレームの画像において検出された主体に基づいて検出ボックスを改めて生成することに用いられ、
前記追跡モジュールはさらに、
前記改めて生成された検出ボックスに基づいて、改めて追跡することに用いられる、
ことを特徴とする請求項５に記載の視覚的検索装置。
前記主体は複数であり、前記検出ボックスは複数である、
ことを特徴とする請求項５又は６に記載の視覚的検索装置。
前記追跡モジュールは、
後続フレーム画像の輝度を取得するための取得ユニットと、
連続する２フレームの画像の輝度の差が第１の予め設定されたしきい値以上である場合、ＫＣＦ追跡アルゴリズムを呼び出し、前記第ｉフレームの画像内の主体の位置に基づいて前記主体を追跡するための追跡ユニットと、を含み、
前記追跡ユニットはさらに、連続する２フレームの画像の輝度の差が前記第１の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、前記第ｉフレームの画像内の主体の位置に基づいて前記主体を追跡することに用いられる、
ことを特徴とする請求項５又は６に記載の視覚的検索装置。
プロセッサ及びメモリを含み、
前記プロセッサは、請求項１～４のいずれかに記載の視覚的検索方法を実現するように、前記メモリに記憶される実行可能なプログラムコードを読み取ることによって、前記実行可能なプログラムコードに対応するプログラムを実行する、
ことを特徴とするコンピュータ機器。
コンピュータプログラムが記憶される非一時的なコンピュータ読み取り可能な記憶媒体であって、該プログラムはプロセッサによって実行される際に請求項１～４のいずれかに記載の視覚的検索方法を実現する、
ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
コンピュータプログラムであって、
前記コンピュータプログラム内の命令がプロセッサによって実行される場合、請求項１～４のいずれかに記載の視覚的検索方法を実現する、
ことを特徴とするコンピュータプログラム。