JP7204786B2 - 視覚的検索方法、装置、コンピュータ機器及び記憶媒体 - Google Patents

視覚的検索方法、装置、コンピュータ機器及び記憶媒体 Download PDF

Info

Publication number
JP7204786B2
JP7204786B2 JP2020571638A JP2020571638A JP7204786B2 JP 7204786 B2 JP7204786 B2 JP 7204786B2 JP 2020571638 A JP2020571638 A JP 2020571638A JP 2020571638 A JP2020571638 A JP 2020571638A JP 7204786 B2 JP7204786 B2 JP 7204786B2
Authority
JP
Japan
Prior art keywords
subject
frame
image
tracking
frame image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020571638A
Other languages
English (en)
Other versions
JP2021528767A (ja
Inventor
チャン,リュウキン
リ,グォホン
キュウ,シン
ガオ,シュウフィ
チャン,ヤチョウ
Original Assignee
バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド filed Critical バイドゥ オンライン ネットワーク テクノロジー(ペキン) カンパニー リミテッド
Publication of JP2021528767A publication Critical patent/JP2021528767A/ja
Application granted granted Critical
Publication of JP7204786B2 publication Critical patent/JP7204786B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • G06T7/238Analysis of motion using block-matching using non-full search, e.g. three-step search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7328Query by example, e.g. a complete video frame or video sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/538Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/738Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/787Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using geographical or spatial information, e.g. location
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/223Analysis of motion using block-matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • G06T7/269Analysis of motion using gradient-based methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/56Extraction of image or video features relating to colour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10016Video; Image sequence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20084Artificial neural networks [ANN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/07Target detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Closed-Circuit Television Systems (AREA)

Description

本開示は視覚的検索技術分野に関し、特に視覚的検索方法、装置、コンピュータ機器及び記憶媒体に関する。
視覚的検索は、画像、ビデオなどの視覚的内容を検索の入力源とし、視覚的識別技術を用いて、入力された視覚内容を識別及び検索した後、画像や文字など、様々な態様の検索結果を返す技術である。視覚的識別技術の継続的な発展により、モバイル端末上で視覚的検索技術によって周囲の物体の情報を得るユーザがますます増えている。
しかしながら、現在の視覚的検索製品は完全ではなく、リアルタイムなビデオストリーミング内の主体を識別及び追跡することができない。
本開示は、関連技術における技術的課題のうちの1つを解決することを目的としている。
このため、本開示は視覚的検索方法、装置、コンピュータ機器及び記憶媒体を提供し、視覚的検索がリアルタイムなビデオストリーミング内の主体を識別及び追跡できないという従来技術における技術的課題を解決することに用いられる。
上記目的を達成するために、本開示の第1態様の実施例は視覚的検索方法を提供し、第iフレームの画像(iは正整数である)を受信するステップと、前記第iフレームの画像内の主体の位置及びカテゴリを抽出して、前記主体に対応する検出ボックスを生成するステップと、前記第iフレームの画像の後続フレーム画像において、前記第iフレームの画像の主体の位置に基づいて前記主体を追跡し、前記追跡結果に基づいて前記検出ボックスを調整するステップと、を含む。
本開示の実施例の視覚的検索方法は、第iフレームの画像を受信し、第iフレームの画像内の主体の位置及びカテゴリを抽出して、主体に対応する検出ボックスを生成し、第iフレームの画像の後続フレーム画像において、第iフレームの画像の主体の位置に基づいて主体を追跡し、追跡結果に基づいて検出ボックスを調整することにより、第iフレームの画像内の主体の位置に基づいて後続フレームにおいて主体を追跡し、かつ追跡結果に基づいて検出ボックスを調整し、ビデオストリーミング内の主体への追跡を実現し、視覚的検索の一貫性を向上させる。
上記目的を達成するために、本開示の第2態様は視覚的検索装置を提供し、第iフレームの画像(iは正整数である)を受信するための受信モジュールと、前記第iフレームの画像内の主体の位置及びカテゴリを抽出して、前記主体に対応する検出ボックスを生成するための抽出モジュールと、前記第iフレームの画像の後続フレーム画像において、前記第iフレームの画像の主体の位置に基づいて前記主体を追跡し、前記追跡結果に基づいて前記検出ボックスを調整するための追跡モジュールと、を含む。
本開示の実施例の視覚的検索装置は、第iフレームの画像を受信し、第iフレームの画像内の主体の位置及びカテゴリを抽出して、主体に対応する検出ボックスを生成し、第iフレームの画像の後続フレーム画像において、第iフレームの画像の主体の位置に基づいて主体を追跡し、追跡結果に基づいて検出ボックスを調整することにより、第iフレームの画像内の主体の位置に基づいて後続フレームにおいて主体を追跡し、かつ追跡結果に基づいて検出ボックスを調整し、ビデオストリーミング内の主体への追跡を実現し、視覚的検索の一貫性を向上させる。
上記目的を達成するために、本開示の第3態様の実施例はコンピュータ機器を提供し、プロセッサ及びメモリを含む。前記プロセッサは、第1態様の実施例に記載の視覚的検索方法を実現するように、前記メモリに記憶される実行可能なプログラムコードを読み取ることによって、前記実行可能なプログラムコードに対応するプログラムを実行する。
上記目的を実現するために、本開示の第4態様の実施例はコンピュータプログラムが記憶される非一時的なコンピュータ読み取り可能な記憶媒体を提供し、該プログラムはプロセッサによって実行される際に、第1態様の実施例に記載の視覚的検索方法を実現する。
上記目的を達成するために、本開示の第5態様の実施例はコンピュータプログラムを提供し、前記コンピュータプログラム内の命令がプロセッサによって実行される場合、第1態様の実施例に記載の視覚的検索方法を実現する。
本開示の付加的な態様及び利点は以下の説明において部分的に与えられており、その一部は以下の説明によって明確になり、又は本開示を実践することによって分かるようになる。
図面は本開示への更なる理解を提供し、かつ明細書の一部を構成することに用いられ、以下の具体的な実施形態とともに本開示への解釈に用いられるが、本開示を限定するものではない。図面において、
本開示の実施例によって提供されるビデオ検索方法のフローチャートである。 本開示の実施例によって提供される他のビデオ検索方法のフローチャートである。 本開示の実施例によって提供される別の視覚的検索方法のフローチャートである。 本開示の実施例によって提供される更なる視覚的検索方法のフローチャートである。 本開示の一実施例の視覚的検索方法の実現プロセスの概略図である。 視覚的検索の単一フレーム画像のシーケンス図である。 本開示の実施例によって提供される視覚的検索装置の構造概略図である。 本開示の実施例によって提供される他の視覚的検索装置の構造概略図である。 本開示の実施例によって提供される別の視覚的検索装置の構造概略図である。 本開示の実施例によって提供される更なる視覚的検索装置の構造概略図である。 本開示の実施例によって提供されるコンピュータ機器の構造概略図である。
以下、本開示の実施例を詳しく説明するが、前記実施例の一例は図面に示されており、同一又は類似の番号は終始、同一又は類似の部品、あるいは同一又は類似の機能を有する部品を表す。以下、図面を参照して説明された実施例は例示的なものであり、本開示を解釈するためのものであり、本開示を限定するものとして理解すべきではない。
以下、図面を参照して本開示の実施例の視覚的検索方法、装置、コンピュータ機器及び記憶媒体を説明する。
現在の視覚的検索製品には、以下の欠陥がある。
(1)操作プロセスが煩雑である。ユーザがモバイル端末を用いて視覚的検索を行う場合、カメラを起動して対象の主体に位置合せして撮影しかつ画像をモバイル端末のアルバムに保存する必要があり、さらにアルバムから画像を選択し、ネットワーク経由で画像を視覚的検索サーバにアップロードして視覚的検索を行う。
(2)視覚的検索にかかる時間が長い。視覚的検索に用いられる画像はネットワーク経由で視覚的検索サーバに送信することができ、視覚的検索サーバは画像内の主体を検出しかつ識別した後、主体の位置及び識別をモバイル端末に返す。
(3)画像内の単一の主体しか識別できない。
(4)リアルタイムなビデオストリーミング内の主体を識別しかつ後続のビデオストリーミングにおいて識別結果を保持することができない。
視覚的検索製品に存在する上記問題のうちの少なくとも1つを解決するために、本開示は視覚的検索方法を提供する。図1は本開示の実施例によって提供される視覚的検索方法のフローチャートであり、該方法は携帯電話、タブレット、ノートパソコンなどのモバイル端末に適用することができる。
図1に示すように、該視覚的検索方法は以下のステップを含むことができる。
ステップ101、第iフレームの画像(iは正整数である)を受信する。
第iフレームの画像がリアルタイムなビデオストリーミング内の1フレームの画像である。
ユーザは周囲の物体の情報を取得しようとする場合、モバイル端末の視覚的検索機能を介して周辺物体の情報を取得することができる。モバイル端末がカメラを起動して周囲の物体のビデオストリーミングを収集し、かつビデオストリーミング内の第iフレームの画像(iは正整数である)を受信する。
ユーザは複数の物体の情報を取得しようとする場合、複数の物体を含むビデオストリーミングを収集することができ、撮影時に、ユーザはカメラを起動して対象の物体に位置合せすればよく、手動で撮影ボタンを押す必要もなく、アルバムから画像を選択してアップロードする必要もないため、視覚的検索の操作プロセスを簡素化する。
ステップ102、第iフレームの画像内の主体の位置及びカテゴリを抽出して、主体に対応する検出ボックスを生成する。
本実施例では、第iフレームの画像を受信すると、第iフレームの画像を検出及び識別することができ、第iフレームの画像内の主体の位置及びカテゴリを提出し、かつ主体に対応する検出ボックスを生成する。
本開示の実施例の1つの可能な実現形態では、モバイル端末は第iフレームの画像を検出する時、ディープラーニングに基づく物体検出モデルを用いて実現することができ、物体検出モデルの関連パラメータを設定した後、受信された第iフレームの画像を物体検出モデルに入力し、物体検出モデルを介して第iフレームの画像に含まれる主体を検出し、第iフレームの画像内の主体の位置を出力する。
モバイル端末は第iフレームの画像を識別する場合、第iフレームの画像に含まれる主体に基づいて適切な識別アルゴリズムを選択することができ、第iフレームの画像に二次元コードが含まれる場合、二次元コード識別アルゴリズムを呼び出すことができ、第iフレームの画像に植物、動物などの物体が含まれる場合、物体分類識別アルゴリズムを呼び出すことができる。
1つの可能な実現形態として、モバイル端末は、ディープラーニングに基づく主体分類モデルを用いて第iフレームの画像に含まれる主体を識別することができ、主体分類モデルの関連パラメータを受信すると、受信された第iフレームの画像を主体分類モデルに入力し、主体分類モデルを介して第iフレームの画像に含まれる主体を分類して識別し、第iフレームの画像内の主体のカテゴリを出力する。カテゴリには主体の識別結果が含まれる。
モバイル端末を介して第iフレームの画像内の主体を検出及び識別することにより、モバイル端末とサーバとの間のデータ交換を回避し、待ち時間を短縮し、従ってかかる時間を短縮する。
第iフレームの画像内の主体を検出して主体の位置を取得し、及び主体を識別して主体のカテゴリを取得すると、主体の位置及びカテゴリに基づいて主体に対応する検出ボックスを生成することができる。検出ボックスは主体の識別結果を運ぶ。
本開示の実施例の1つの可能な実現形態では、主体も検出ボックスも複数がある。モバイル端末が収集したビデオストリーミングにおいて、第iフレームの画像は複数の主体を含んでもよく、ディープラーニングに基づく物体検出モデル及び主体分類モデルを用いて、第iフレームの画像内の複数の主体を同時に検出及び識別することができ、かつ各主体に対して、該主体に対応する位置及びカテゴリに基づいて、該主体に対応する検出ボックスを生成する。以上より、画像内の複数の主体に対する識別を実現し、視覚的検索の効率を向上させ、単一の主体しか識別できないという従来技術における課題を解決した。
ステップ103、第iフレームの画像の後続フレーム画像において、第iフレームの画像の主体の位置に基づいて主体を追跡し、追跡結果に基づいて検出ボックスを調整する。
ビデオストリーミングは複数のフレームの画像を含み、第iフレームの画像がビデオストリーミング内の最後の1フレームの画像ではない場合、第iフレームの画像の後はさらに少なくとも1フレームの後続フレーム画像がある。従って、本実施例では、第iフレームの画像の後続フレーム画像において、第iフレームの画像内の主体の位置に基づいて主体を追跡し、かつ追跡結果に基づいて検出ボックスを調整することができる。
例えば、第iフレームの画像内の主体の位置に基づき、関連する目標追跡アルゴリズムを用い、第iフレームの画像の後続フレーム画像において主体の位置を追跡することができる。後続フレーム画像において主体を追跡する場合、追跡した主体の位置、即ち追跡結果に基づいて検出ボックスを調整することができる。
一例として、目標検出に基づく追跡アルゴリズムを用いて、受信された後続フレーム画像に対して目標検出を行うことができ、検出された主体位置を第iフレームの画像内の主体の位置と比較し、両者が一致しない場合、後続フレーム画像内の主体の位置に基づいて検出ボックスを調整する。
本開示の実施例1つの可能な実現形態では、第iフレーム内の主体が複数である場合、一意の識別子を主体識別コードとして異なる主体を区別することができ、さらに主体追跡を行う際に、主体識別コードに基づいて主体を追跡し、及び対応する検出ボックスを調整する。
本実施例の視覚的検索方法は、第iフレームの画像を受信し、第iフレームの画像内の主体の位置及びカテゴリを抽出して、主体に対応する検出ボックスを生成し、第iフレームの画像の後続フレーム画像において、第iフレームの画像の主体の位置に基づいて主体を追跡し、追跡結果に基づいて検出ボックスを調整することにより、第iフレームの画像内の主体の位置に基づいて後続フレームにおいて主体を追跡し、かつ追跡結果に基づいて検出ボックスを調整し、ビデオストリーミング内の主体への追跡を実現し、視覚的検索の一貫性を向上させる。
ビデオストリーミングには複数のフレーム画像が含まれ、各フレーム画像に含まれる主体が異なる可能性があり、ビデオストリーミング内の主体が変化した際にも主体を識別及び追跡できるように、本開示は他のビデオ検索方法を提供する。図2は本開示の実施例によって提供される他のビデオ検索方法のフローチャートである。
図2に示すように、図1に示す実施例をもとに、該視覚的検索方法はさらに以下のステップを含んでもよい。
ステップ201、第i+Mフレームの画像(Mは正整数である)を受信する。
モバイル端末はビデオストリーミングの主体を識別及び追跡するプロセスにおいて、ビデオストリーミング内の画像フレームを取得し続ける。
ステップ202、第i+Mフレームの画像内の主体が第iフレームの画像内の主体に対して変化したか否かを判断する。
ステップ203、変化した場合、第i+Mフレームの画像から検出された主体に基づいて検出ボックスを改めて生成し、改めて追跡する。
本実施例において、モバイル端末は第iフレームの画像を受信した後、第iフレームの画像内の主体を検出及び識別する。検出及び識別するプロセスにおいて、モバイル端末は第iフレームの画像の後続フレーム画像を取得し続ける。受信した第i+Mフレームの画像に対して、モバイル端末は第i+Mフレームの画像の主体を検出及び識別し、第i+Mフレームにおいて識別された主体を第iフレームの画像内の主体と比較し、第i+Mフレームの画像内の主体が第iフレームの画像内の主体に対して変化したか否かを判断する。
第i+Mフレームの画像内の主体が第iフレームの画像内の主体に対して変化したと分かった時、第i+Mフレームの画像において識別された主体に基づいて、検出ボックスを改めて生成し、かつ改めて追跡する。
具体的に、第i+Mフレームの画像内の主体のうちの少なくとも1つが第iフレーム内の主体と異なる場合、第i+Mフレームの画像内で主体を検出して得られた主体の位置及び主体を識別して得られた主体のカテゴリに基づいて、第i+Mフレームの画像において主体に対応する検出ボックスを改めて生成し、第i+Mフレームの画像の後続フレーム画像において主体を追跡する。
本実施例の視覚的検索方法は、受信した第i+Mフレームの画像内の主体が第iフレームの画像内の主体に対して変化したか否かを判断し、変化した場合に、第i+Mフレームの画像において検出して得られた主体に基づいて検出ボックスを改めて生成しかつ改めて追跡することにより、ビデオストリーミングに新しい主体が現れた場合、新たに現れた主体を識別及び追跡することを実現し、ユーザ体験を向上させる。
上記実施例における主体への追跡の具体的な実現プロセスをより明確に説明するために、本開示は他の視覚的検索方法を提供し、図3は本開示の実施例によって提供される別の視覚的検索方法のフローチャートである。
図3に示すように、図1に示す実施例をもとに、ステップ103は以下のステップを含んでも良い。
ステップ301、第iフレームの画像の後続の第i+nフレームの画像(nは正整数である)を取得する。
ステップ302、第i+nフレームの画像において、主体の位置に基づいて主体を追跡する。
本実施例において、モバイル端末は第iフレームの画像を受信した後、第iフレームの画像を検出及び識別するプロセスにおいて、さらに第iフレームの画像の後の画像フレームを取得する。モバイル端末は受信した第i+nフレームの画像の主体を検出及び識別して第i+nフレームの画像内の主体の位置及びカテゴリを取得し、従って第i+nフレームの画像において、主体の位置に基づいて主体を追跡する。
モバイル端は第iフレームの画像を検出及び識別するプロセスにおいて、第iフレームの画像の後続フレーム画像を取得し続け、しかし後続フレーム画像において主体を追跡する場合、第iフレームの画像で検出された主体の位置に基づいて追跡して、第iフレームの画像内の主体の位置に基づいて追跡の初期化を行う必要があるため、モバイル端末が第i+n-1フレーム画像を受信した時に、第iフレームの画像内の主体の位置が検出されないという状況が存在する可能性があり、この場合、第i+1フレームの画像乃至第i+n-1フレームの画像において主体を追跡することができない。
本開示の実施例の1つの可能な実現形態において、第i+1フレームの画像と第i+n-1フレームの画像との間の画像フレームを取得して参照画像フレームとすることができ、参照画像フレームに基づいて主体への追跡を検証する。例えば、第i+nフレームの画像内の主体の位置が第i+n-1フレーム内の主体の位置に対して変化した範囲と、第i+n-1フレーム画像内の主体の位置が第i+n-2フレーム内の主体の位置に対して変換した範囲とを比較して、その誤差が許容範囲内にあるか否かを判断し、許容範囲内にある場合、主体への追跡が正確であると検証した。以上より、主体追跡の正確度を向上させることができる。
本実施例の視覚的検索方法は、第iフレームの画像の後の第i+nフレームの画像を取得することにより、第i+nフレームの画像において、主体の位置に基づいて主体を追跡し、視覚的検索の一貫性を向上させる。
上記実施例における主体への追跡の具体的な実現プロセスをより明確に説明するために、本開示は他の視覚的検索方法を提供し、図4は本開示の実施例によって提供される更なる視覚的検索方法のフローチャートである。
図4に示すように、図1に示す実施例をもとに、ステップ103は以下のステップを含んでもよい。
ステップ401、後続フレーム画像の輝度を取得する。
本実施例において、第iフレームの画像の後続フレーム画像を取得した後、後続画像フレームの照度を取得することができる。
画像の輝度は本質的に画像内の各画素の輝度であり、各画素の輝度は本質的にRGB値の大小であり、RGB値が0である場合、画素が黒で、輝度が最も低く、RGB値が255である場合、画素が白で、輝度が最も高い。従って、本実施例では、受信した後続フレーム画像に対して、画像の画素値を画像の輝度として取得することができる。
ステップ402、連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値以上である場合、KCF追跡アルゴリズムを呼び出し、第iフレームの画像内の主体の位置に基づいて主体を追跡する。
ステップ403、連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、第iフレームの画像内の主体の位置に基づいて主体を追跡する。
第1の予め設定されたしきい値は予め設定することができる。
本実施例において、1フレームの画像を受信するたびに、該画像の輝度を取得しかつ該輝度を記録することができ、さらに該画像の輝度を前の1フレームの画像の輝度を比較して、2フレームの画像の輝度の差を取得し、連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値以上である場合、カーネル化相関フィルタ(Kernelized Correlation Filters、KCF)追跡アルゴリズムを呼び出し、第iフレームの画像内の主体の位置に基づいて主体を追跡する。
KCF追跡アルゴリズムは目標周囲の領域の循環マトリックスを用いて正と負のサンプルを収集し、リッジ回帰を用いて対象の検出器をトレーニングし、及び循環マトリックスがフーリエ空間において対角化できるという特性を利用して、マトリックスの演算を要素の浮動小数点乗算に変換することにより、演算量を大幅に減らし、演算速度を上げ、アルゴリズムがリアルタイム性の要件を満たすようにする。
連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、第iフレームの画像内の主体の位置に基づいて主体を追跡する。
オプティカルフロー追跡アルゴリズムの原理は以下のとおりである:1つの連続するビデオフレームシーケンスを処理し、各ビデオシーケンスに対して、一定の目標検出方法を用いて、出現し得る前景目標を検出し、特定の1フレームに前景目標が出現した場合、代表性を有する肝心の特徴点を見つけ(ランダムに生成するか、又は極値点を特徴点とすることができる)。その後の任意の2つの隣接するビデオフレームについて、前の1フレームに出現した肝心の特徴点の現在フレームにおける最適位置を見つけることにより、前景目標の現在フレームにおける位置の座標を取得し、このように繰り返せば、目標の追跡を実現することができる。オプティカルフロー追跡アルゴリズムは照度の小さい目標追跡に適用される。
本実施例の視覚的検索方法は、後続フレーム画像の輝度を取得し、連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値以上である場合、KCF追跡アルゴリズムを呼び出し、第iフレームの画像内の主体の位置に基づいて主体を追跡し、連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、第iフレームの画像内の主体の位置に基づいて主体を追跡することにより、主体追跡の正確度及び精度を向上させることができ、主体への追跡の効果を向上させる。
図5は本開示の一実施例の視覚的検索方法の実現プロセスの概略図である。図6は視覚的検索の単一フレーム画像のシーケンス図である。
図5に示すように、まず図1の主体を検出して主体の位置を取得し、主体検出の間、追跡初期化が行われないため、図2乃至図n-1の画像は主体への追跡に用いられず、この部分の画像は追跡の検証に用いることができる。図1の主体を検出した後、取得した主体の位置を主体識別コードに基づいてメモリに記憶し、即ち主体情報の更新を行い、さらに主体の位置に基づいて追跡の初期化を行う。図nを受信した場合、この時点で追跡の初期化が完了し、主体への検出が再び行われるまで(図5において図mの主体を検出するように)、図n及び後続画像の主体を追跡し、かつ新しい検出結果に基づいて、追跡の初期化を再び行う。追跡処理が完了すると、主体の位置は更新され、かつ主体識別コードに基づいてメモリに記憶される主体の位置を更新する。モバイル端末は主体の位置に基づいて、主体を範囲選択及び識別し、例えばオブジェクト分類識別、テキスト識別、二次元コード識別などを行う。識別完了後、主体識別コードに基づいて識別結果をメモリに記憶する。メモリに記憶される主体情報(主体位置、識別結果)が更新されるされる度に、モバイル端末は更新された主体情報に基づいてビデオストリーミングビューファインダーインターフェースにおいてビューのレンダリングを行い、主体の位置及び主体の識別結果を検出ボックスの方式によって対応する主体に表示し、視覚的検索という目的を達成する。
図6に示すように、写真1に対し、検出設定情報に基づいて適切な検出方法を選択して主体検出を行って主体の位置を取得し、検出ボックスの形でインターフェース層にフィードバックし、即ち写真1において主体の位置を範囲選択する。識別設定情報に基づいて適切な識別方法を選択し、写真1の検出ボックスによって範囲選択される主体を識別し、識別結果をマスターディスパッチャーによってインターフェース層にフィードバックし、即ち主体に対応する識別結果を写真1に表示する。写真2に対して、検出設定情報に基づいて適切な追跡方法を選択し、決定された追跡方法を用いて、写真1の主体の位置に基づいて写真2の主体を追跡し、かつマスターディスパッチャーを介して追跡結果をインターフェース層に返し、追跡結果及び識別結果を写真2に表示する。
上記実施例を実現するために、本開示はさらに視覚的検索装置を提供する。
図7は本開示の実施例によって提供される視覚的検索装置の構造概略図である。
図7に示すように、該視覚的検索装置50は、受信モジュール510、抽出モジュール520、及び追跡モジュール530を含む。
受信モジュール510は、第iフレームの画像(iは正整数である)を受信することに用いられる。
抽出モジュール520は、第iフレームの画像内の主体の位置及びカテゴリを抽出して、主体に対応する検出ボックスを生成することに用いられる。
本開示の実施例の1つの可能な実現形態では、主体は複数であり、且つ検出ボックスは複数である。
追跡モジュール530は、第iフレームの画像の後続フレーム画像において、第iフレームの画像の主体の位置に基づいて主体を追跡し、追跡結果に基づいて検出ボックスを調整することに用いられる。
本開示の実施例の1つの可能な実現形態において、図8に示すように、図7に示す実施例をもとに、該視覚的検索装置50はさらに、第i+Mフレームの画像内の主体が第iフレームの画像内の主体に対して変化したか否かを判断するための判断モジュール540を含む。
Mは正整数である。
本実施例において、受信モジュール510が第i+Mフレームの画像を受信すると、抽出モジュール520は第i+Mフレームの画像内の主体の位置及びカテゴリを抽出する。判断モジュール540は、第i+Mフレームの画像内の主体が第iフレームの画像内の主体に対して変化したか否かを判断し、変化したと判定した場合、抽出モジュール520によって、第i+Mフレームの画像において検出された主体に基づいて検出ボックスを改めて生成し、追跡モジュール530によって改めて追跡する。
本実施例の視覚的検索方法は、受信した第i+Mフレームの画像内の主体が第iフレームの画像内の主体に対して変化したか否かを判断し、変化した場合、第i+Mフレームの画像において検出して得られた主体に基づいて検出ボックスを改めて生成しかつ改めて追跡することにより、ビデオストリーミングに新しい主体が現れた場合、新たに現れた主体を識別及び追跡することを実現し、ユーザ体験を向上させる。
本開示の実施例の1つの可能な実現形態では、図9に示すように、図7に示す実施例をもとに、追跡モジュール530は、後続フレーム画像の輝度を取得するための取得ユニット531と、連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値以上である場合、KCF追跡アルゴリズムを呼び出し、第iフレームの画像内の主体の位置に基づいて主体を追跡するための追跡ユニット532と、を含む。
追跡ユニット532はさらに、連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、第iフレームの画像内の主体の位置に基づいて主体を追跡することに用いられる。
後続フレーム画像の輝度を取得し、連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値以上である場合、KCF追跡アルゴリズムを呼び出し、第iフレームの画像内の主体の位置に基づいて主体を追跡し、連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、第iフレームの画像内の主体の位置に基づいて主体を追跡することにより、主体追跡の正確度及び精度を向上させることができ、主体への追跡の効果を向上させる。
本開示の実施例の1つの可能な実現形態において、図10に示すように、図7に示す実施例をもとに、追跡モジュール530は、第iフレームの画像の後続の第i+nフレームの画像(nは正整数である)を取得するための画像取得ユニット533と、第i+nフレームの画像において、主体の位置に基づいて主体を追跡するための主体追跡ユニット534と、を含む。
さらに、本開示の実施例の1つの可能な実現形態において、画像取得ユニット533はさらに、第i+1フレームの画像と第i+n-1フレームの画像との間の画像フレームを取得して参照画像フレームとすることに用いられる。主体追跡ユニット534はさらに、参照画像フレームに基づいて主体の追跡を検証することに用いられる。以上より、主体の追跡の正確度を向上させることができる。
なお、視覚的検索方法の実施例に対する上記解釈や説明は該実施例の視覚的検索装置にも適用され、その実現の原理は類似するものであるので、説明を省略する。
本開示の実施例の視覚的検索装置は、第iフレームの画像を受信し、第iフレームの画像内の主体の位置及びカテゴリを抽出して、主体に対応する検出ボックスを生成し、第iフレームの画像の後続フレーム画像において、第iフレームの画像の主体の位置に基づいて主体を追跡し、追跡結果に基づいて検出ボックスを調整することにより、第iフレームの画像内の主体の位置に基づいて後続フレームにおいて主体を追跡し、かつ追跡結果に基づいて検出ボックスを調整し、ビデオストリーミング内の主体への追跡を実現し、視覚的検索の一貫性を向上させる。
上記実施例を実現するために、本開示はコンピュータ機器をさらに提供し、プロセッサ及びメモリを含む。プロセッサは、メモリに記憶される実行可能なプログラムコードを読み取ることによって、実行可能なプログラムコードに対応するプログラムを実行し、従って上記実施例に記載の視覚的検索方法を実現することに用いられる。
図11は本開示の実施例によって提供されるコンピュータ機器の構造概略図であり、本開示の実施形態を実現するための例示的なコンピュータ機器90のブロック図を示した。図11に示されるコンピュータ機器90は単なる例に過ぎず、本開示の実施例の機能や使用範囲を限定すべきではない。
図11に示すように、コンピュータ機器90は汎用コンピュータ機器という形で表される。コンピュータ機器90のコンポーネントは、1つ又は複数のプロセッサ、あるいは処理ユニット906、システムメモリ910、異なるシステムコンポーネント(システムメモリ910及び処理ユニット906)を接続するバス908を含むが、これらに限定されない。
バス908は幾つかの種類のバス構造のうちの1つ又は複数であり、メモリバス又はメモリコントローラ、周辺バス、グラフィックスアクセラレータポート、プロセッサ、又は複数種類のバス構造のうちの任意のバス構造を用いるローカルエリアバスを含む。例えば、これらのアーキテクチャは、インダストリスタンダードアーキテクチャ(Industry Standard Architecture、以下はISAと略される)バス、マイクロチャネルアーキテクチャ(Micro Channel Architecture以下はMACと略される)バス、拡張型ISAバス、ビデオエレクトロニクススタンダーズアソシエーション(Video Electronics Standards Association、以下はVESAと略される)ローカルエリアバス及びペリフェラルコンポーネントインターコネクト(Peripheral Component Interconnection、以下はPCIと略される)バスを含むが、これらに限定されない。
コンピュータ機器90は典型的に、複数種類のコンピュータシステム読み取り可能な媒体を含む。これらの媒体は、コンピュータ機器90によってアクセス可能な任意の利用可能な媒体であってもよく、揮発性媒体及び不揮発性媒体、リムーバブル媒体及び非リムーバブル媒体を含む。
システムメモリ910は揮発性メモリの形態のコンピュータシステム読み取り可能な媒体、例えばランダムアクセスメモリ(Random Access Memory、以下はRAMと略される)911及び/又はキャッシュメモリ912を含んでもよい。コンピュータ機器90はリムーバブル/非リムーバブル、揮発性/不揮発性コンピュータシステム記憶媒体をさらに含んでもよい。単なる例として、記憶システム913は非リムーバブル、不揮発性磁気媒体(図11に示されていないが、通常は「ハードディスクドライブ」という)の読み書きに用いることができる。図11に示されていないにもかかわらず、リムーバブル不揮発性磁気ディスク(例えば「フロッピーディスク」)を読み書きするためのディスクドライブと、リムーバブル不揮発性光ディスク(例えば、コンパクトディスクリーオンリーメモリ(Compact Disc Read Only Memory、以下はCD-ROMと略される)、デジタル多機能リードオンリーメモリ(Digital Video Disc Read Only Memory、以下はDVD-ROMと略される)又は他の光媒体)を読み書きする光学ドライブとを提供することができる。こういう場合、各ドライブは1つ又は複数のデータ媒体インターフェース経由でバス908に接続することができる。システムメモリ910は少なくとも1つのプログラムを含んでもよく、該プログラムは1組(例えば少なくとも1つ)のプログラムモジュールを有し、これらのプログラムモジュールは本開示の各実施例の機能を実行するように構成される。
コンピュータ読み取り可能な信号媒体は、ベースバンドにおいて伝播される又は搬送波の一部として伝播されるデータ信号を含んでもよく、コンピュータ読み取り可能なプログラムコードが運ばれる。このような伝播されるデータ信号は様々な形を用いることができ、電磁信号、光信号又は上記の任意の適切な組み合わせを含むが、これらに限定されない。コンピュータ読み取り可能な信号媒体はさらにコンピュータ読み取り可能な記憶媒体以外の任意のコンピュータ読み取り可能な媒体であってもよく、該コンピュータ読み取り可能な媒体は、命令実行システム、装置又は部品によって使用される又はそれと組み合わせて使用するためのプログラムを送信、伝播又は伝送することができる。
コンピュータ読み取り可能な媒体に含まれるプログラムコードは任意の適切な媒体で伝送することができ、無線、電線、光ケーブル、RFなど、又は上記の任意の適切な組み合わせを含むが、これらに限定されない。
本開示の操作を実行するためのコンピュータプログラムコードは、1つ又は複数の種類のプログラミング言語又はその組み合わせを用いて書くことができ、前記プログラミング言語は、Java、Smalltalk、C++のようなオブジェクト指向プログラミング言語を含み、「C」言語又は類似するプログラミング言語のような一般的な手続き型プログラミング言語をさらに含む。プログラムコードは、ユーザコンピュータにおいて完全に実行するか、ユーザコンピュータにおいて部分的に実行するか、1つの独立したソフトウェアパッケージとして実行するか、一部がユーザコンピュータにおいて実行しながら一部がリモートコンピュータにおいて実行するか、又はリモートコンピュータ或いはサーバにおいて完全に実行することができる。
1組(少なくとも1つ)のプログラムモジュール9140を有するプログラム/ユーティリティ914は、例えば、システムメモリ910に記憶することができ、このようなプログラムモジュール9140は、操作システム、1つ又は複数のアプリケーションプログラム、その他のプログラムモジュール及びプログラムデータを含むが、これらに限定されない。これらの例のそれぞれ又はいずれかの組み合わせにネットワークの実現が含まれる可能性がある。プログラムモジュール9140は通常本開示によって説明された実施例の機能及び/又は方法を実行する。
コンピュータ機器90はまた、外部デバイス10(例えばキーボード、ポインティングデバイス、ディスプレイ100など)と通信することができ、さらにユーザが該端末装置90と対話できるようにする1つ又は複数のデバイスと通信することができ、及び/又は該コンピュータ機器90が1つ又は複数のコンピューティングデバイスと通信できるようにする任意のデバイス(例えばネットワークカード、モデムなど)と通信する。このような通信は入力/出力(I/O)インターフェース902経由で行うことができる。さらに、コンピュータ機器90はネットワークアダプタ900を介して1つ又は複数のネットワーク(例えばローカルエリアネットワーク(Local Area Network、以下はLANと略される)、広域ネットワーク(Wide Area Network、以下はWANと略される)及び/又は公共ネットワーク、例えばインターネット)と通信することができる。図11に示すように、ネットワークアダプタ900はバス908を介してコンピュータ機器90の他のモジュールと通信する。なお、図11に示されていないにもかかわらず、コンピュータ機器90と組み合わせて他のハードウェア及び/又はソフトウェアモジュールを用いることができ、マイクロコード、デバイスドライパ、冗長処理ユニット、外部ディスクドライブアレイ、RAIDシステム、テープドライブ及びデータバックアップ記憶システムなどを含むが、これらに限定されないことを理解されたい。
処理ユニット906は、システムメモリ910に記憶されるプログラムを実行することにより、様々な機能アプリケーション及びデータ処理を実行し、例えば、前記実施例において言及びされた視覚的検索方法を実現する。
上記実施例を実現するために、本開示は非一時的なコンピュータ読み取り可能な記憶媒体をさらに提供し、プロセッサによって実行される際に、上記実施例に記載の視覚的検索方法を実現するというコンピュータプログラムが記憶される。
上記実施例を実現するために、本開示はコンピュータプログラムをさらに提供し、前記コンピュータプログラム内の命令がプロセッサによって実行される際に、上記実施例に記載の視覚的検索方法が実現される。
本明細書の記載においては、「一実施例」、「いくつかの実施例」、「例」、「具体的な例」、又は「いくつかの例」などの用語を参照した説明は、該実施例又は例に併せて説明された具体的な特徴、構造、材料又は特性が、本開示の少なくとも1つの実施例又は例に含まれることを意味する。本明細書では、上記用語の例示的な表現は、必ずしも実施例又は例を対象とする必要はない。また、説明された具体的な特徴、構造、材料又は特性は、任意又は複数の実施例、又は例において適切な方式で組み合わせることができる。さらに、互いに矛盾しない限り、当業者は、本明細書で説明された異なる実施例又は例及びその特徴を組み合わせることができる。
また、「第1」、「第2」という用語は説明のためにのみ用いられ、相対的な重要性を示唆又は暗示するもの、或いは、示された技術特的特徴の数を実質的に示すものと理解してはいけない。従って、「第1」、「第2」により限定される特徴は、少なくとも1つの該特徴を明示的に又は実質的に含んでも良い。本開示の説明では、特に明記されていない限り、「複数」の意味は少なくとも2つ、例えば2つ、3つ等である。
フローチャートにおいて示される又はここにおいて他の方式で説明される任意のプロセス又は方法の説明は、カスタム論理機能又はプロセスを実現するための1つ又は複数のステップの実行可能な命令のコードを含むモジュール、セグメント又は部分を表すものと理解することができ、さらに、本開示の好ましい実施形態の範囲は更なる実現を含み、当業者であれば、示された又は検討された順序に従わずに機能を実行してもよく、例えば、関連する機能に応じて、ほぼ同時に又は逆の順序で機能を実行してもよいことを理解されたい。
フローチャートにおいて示される又はここにおいて他の方式で説明される論理及び/又はステップは、例えば、論理機能の実行可能な命令を実現するための順序付きリストと見なすことができ、具体的には、命令実行システム、装置又はデバイス(例えば、コンピュータに基づくシステム、プロセッサを含むシステム、又は命令実行システム、装置又はデバイスから命令を取得して実行できる他のシステム)が使用できるように、あらゆるコンピュータ読み取り可能媒体において実現することができ、又はこれらの命令実行システム、装置又はデバイスと組み合わせて使用することができる。本明細書について言えば、「コンピュータ読み取り可能媒体」は、命令実行システム、装置又はデバイスが用いるか、又はこれらの命令実行システム、装置又はデバイスを組み合わせて用いるように、プログラムを含む、記憶、通信、伝播又は伝送できるあらゆる装置であっても良い。コンピュータ読み取り可能媒体のより具体的な例(非網羅的リスト)は、1つ又は複数の配線を有する電気接続部(電子機器)、ポータブルコンピュータディスクカートリッジ(磁気デバイス)、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM又はフラッシュメモリー)、光ファイバーデバイス、及びコンパクトディスク読み取り専用メモリ(CDROM)を含む。また、コンピュータ読み取り可能媒体は、紙または他の媒体を光学的にスキャンし、続いて編集、解釈し、又は必要に応じて他の適切な方式で処理することによって、前記プログラムを電子的に取得してコンピュータのメモリに記憶することができるため、前記プログラムを印刷できる紙または他の適切な媒体であってもよい。
なお、本開示の各部分は、ハードウェア、ソフトウェア、ファームウェア又はそれらの組み合わせで実現できることを理解されたい。上記実施形態では、複数のステップ又は方法は、メモリに記憶され且つ適切な命令実行システムによって実行されるソフトウェア又はファームウェアで実現することができる。例えば、ハードウェアで実現する場合は、他の実施形態で実現する場合と同じであれば、本分野でよく知られている以下の技術のうちのいずれか1つ又はそれらの組み合わせで実現することができる:デジタルに対して論理機能を実現するための論理ゲート回路を有する離散論理回路、適切な組み合わせ論理ゲート回路を有する特定用途向け集積回路、プログラマブルゲートアレイ(PGA)、フィールドプログラマブルゲートアレイ(FPGA)など。
当業者であれば、上記実施例の方法に含まれる全部又は一部のステップは、プログラムが関連するハードウェアに指示を与えることによって完成することができ、前記プログラムはコンピュータ読み取り可能な記憶媒体に記憶することができ、該プログラムは実行時に、方法の実施例のステップのうちの1つ又はその組み合わせを含むことを理解することができる。
また、本開示の各実施例の各機能ユニットは1つの処理モジュールに集積してもよく、各ユニットは個別に物理的に存在してもよく、2つ又は2つ以上のユニットは1つのモジュールに集積しても良い。上記集積されたモジュールは、ハードウェアの形式で実現してもよく、ソフトウェア機能モジュールの形式で実現しても良い。前記集積されたモジュールはソフトウェア機能モジュールの形式で実現され、独立した製品として販売又は使用される場合、コンピュータで読み取り可能な記憶媒体に記憶しても良い。
上記言及びされた記憶媒体は読み取り専用メモリ、磁気ディスク又は光ディスク等であっても良い。以上、本開示の実施例を示し且つ説明したが、上記実施例は例示的なものに過ぎず、本開示を限定するものとして理解すべきではなく、当業者であれば、本開示の範囲から逸脱しない限り、上記実施例に対して変更、修正、置き換え又は変形を行なうことができる。
本開示は、百度網訊科技(北京)有限公司が2018年11月21日に提出した、発明名称「視覚的検索方法、装置、コンピュータ機器及び記憶媒体」、中国特許出願番号「201811392516.X」の優先権を要求する。

Claims (11)

  1. 第iフレームの画像(iは正整数である)を受信するステップと、
    前記第iフレームの画像内の主体の位置及びカテゴリを抽出して、前記主体に対応する検出ボックスを生成するステップと、
    前記第iフレームの画像の後続の第i+nフレームの画像(nは正整数である)を取得するステップと、
    前記第i+nフレームの画像において、主体の位置に基づいて前記主体を追跡するステップと、
    前記第i+1フレームの画像と第i+n-1フレームの画像との間の画像フレームを取得して参照画像フレームとするステップと、
    前記参照画像フレームに基づいて前記主体への追跡を検証するステップと、
    跡結果に基づいて前記検出ボックスを調整するステップと、を含み、
    前記参照画像フレームに基づいて前記主体への追跡を検証するステップは、
    第i+nフレームの画像内の主体の位置が第i+n-1フレーム内の主体の位置に対する変化範囲と、第i+n-1フレーム画像内の主体の位置が第i+n-2フレーム内の主体の位置に対する変換範囲とを比較して差を決定し、前記差が許容範囲内にあるか否かを判断するステップを含む、
    ことを特徴とする視覚的検索方法。
  2. 第i+Mフレームの画像(Mは正整数である)を受信するステップと、
    前記第i+Mフレームの画像内の主体が前記第iフレームの画像内の主体に対して変化したか否かを判断するステップと、
    変化した場合、前記第i+Mフレームの画像から検出された主体に基づいて検出ボックスを改めて生成し、改めて追跡するステップと、をさらに含む、
    ことを特徴とする請求項1に記載の視覚的検索方法。
  3. 前記主体は複数であり、前記検出ボックスは複数である、
    ことを特徴とする請求項1又は2に記載の視覚的検索方法。
  4. 前記第iフレームの画像の後続フレーム画像において、前記第iフレームの画像内の主体の位置に基づいて前記主体を追跡するステップは、
    後続フレーム画像の輝度を取得するステップと、
    連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値以上である場合、KCF追跡アルゴリズムを呼び出し、前記第iフレームの画像内の主体の位置に基づいて前記主体を追跡するステップと、
    連続する2フレームの画像の輝度の差が前記第1の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、前記第iフレームの画像内の主体の位置に基づいて前記主体を追跡するステップと、を含む、
    ことを特徴とする請求項1又は2に記載の視覚的検索方法。
  5. 第iフレームの画像(iは正整数である)を受信するための受信モジュールと、
    前記第iフレームの画像内の主体の位置及びカテゴリを抽出して、前記主体に対応する検出ボックスを生成するための抽出モジュールと、
    前記第iフレームの画像の後続フレーム画像において、前記第iフレームの画像の主体の位置に基づいて前記主体を追跡し、前記追跡結果に基づいて前記検出ボックスを調整するための追跡モジュールと、を含み、
    前記追跡モジュールは、
    前記第iフレームの画像の後続の第i+nフレームの画像(nは正整数である)を取得し、前記第i+1フレームの画像と第i+n-1フレームの画像との間の画像フレームを取得して参照画像フレームとするための画像取得ユニットと、
    前記第i+nフレームの画像において、主体の位置に基づいて前記主体を追跡するための主体追跡ユニットと、を含み、
    前記主体追跡ユニットはさらに、
    前記参照画像フレームに基づいて前記主体への追跡を検証することに用いられ、
    前記主体追跡ユニットはさらに、
    第i+nフレームの画像内の主体の位置が第i+n-1フレーム内の主体の位置に対する変化範囲と、第i+n-1フレーム画像内の主体の位置が第i+n-2フレーム内の主体の位置に対する変換範囲とを比較して差を決定し、前記差が許容範囲内にあるか否かを判断することに用いられる
    ことを特徴とする視覚的検索装置。
  6. 前記受信モジュールはさらに、
    第i+Mフレームの画像(Mは正整数である)を受信することに用いられ、
    前記視覚的検索装置はさらに、
    前記第i+Mフレームの画像内の主体が前記第iフレームの画像内の主体に対して変化したか否かを判断するための判断モジュールを含み、
    前記抽出モジュールはさらに、
    前記第i+Mフレームの画像内の主体が前記第iフレームの画像内の主体に対して変化したと判断する場合、前記第i+Mフレームの画像において検出された主体に基づいて検出ボックスを改めて生成することに用いられ、
    前記追跡モジュールはさらに、
    前記改めて生成された検出ボックスに基づいて、改めて追跡することに用いられる、
    ことを特徴とする請求項に記載の視覚的検索装置。
  7. 前記主体は複数であり、前記検出ボックスは複数である、
    ことを特徴とする請求項5又は6に記載の視覚的検索装置。
  8. 前記追跡モジュールは、
    後続フレーム画像の輝度を取得するための取得ユニットと、
    連続する2フレームの画像の輝度の差が第1の予め設定されたしきい値以上である場合、KCF追跡アルゴリズムを呼び出し、前記第iフレームの画像内の主体の位置に基づいて前記主体を追跡するための追跡ユニットと、を含み、
    前記追跡ユニットはさらに、連続する2フレームの画像の輝度の差が前記第1の予め設定されたしきい値より小さい場合、オプティカルフロー追跡アルゴリズムを呼び出し、前記第iフレームの画像内の主体の位置に基づいて前記主体を追跡することに用いられる、
    ことを特徴とする請求項5又は6に記載の視覚的検索装置。
  9. プロセッサ及びメモリを含み、
    前記プロセッサは、請求項1~のいずれかに記載の視覚的検索方法を実現するように、前記メモリに記憶される実行可能なプログラムコードを読み取ることによって、前記実行可能なプログラムコードに対応するプログラムを実行する、
    ことを特徴とするコンピュータ機器。
  10. コンピュータプログラムが記憶される非一時的なコンピュータ読み取り可能な記憶媒体であって、該プログラムはプロセッサによって実行される際に請求項1~のいずれかに記載の視覚的検索方法を実現する、
    ことを特徴とする非一時的なコンピュータ読み取り可能な記憶媒体。
  11. コンピュータプログラムであって、
    前記コンピュータプログラム内の命令がプロセッサによって実行される場合、請求項1~のいずれかに記載の視覚的検索方法を実現する、
    ことを特徴とするコンピュータプログラム。
JP2020571638A 2018-11-21 2019-07-01 視覚的検索方法、装置、コンピュータ機器及び記憶媒体 Active JP7204786B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201811392516.X 2018-11-21
CN201811392516.XA CN109558505A (zh) 2018-11-21 2018-11-21 视觉搜索方法、装置、计算机设备及存储介质
PCT/CN2019/094248 WO2020103462A1 (zh) 2018-11-21 2019-07-01 视觉搜索方法、装置、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
JP2021528767A JP2021528767A (ja) 2021-10-21
JP7204786B2 true JP7204786B2 (ja) 2023-01-16

Family

ID=65867026

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020571638A Active JP7204786B2 (ja) 2018-11-21 2019-07-01 視覚的検索方法、装置、コンピュータ機器及び記憶媒体

Country Status (6)

Country Link
US (1) US11348254B2 (ja)
EP (1) EP3885934A4 (ja)
JP (1) JP7204786B2 (ja)
KR (1) KR102440198B1 (ja)
CN (1) CN109558505A (ja)
WO (1) WO2020103462A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109558505A (zh) * 2018-11-21 2019-04-02 百度在线网络技术(北京)有限公司 视觉搜索方法、装置、计算机设备及存储介质
CN110062272B (zh) 2019-04-30 2021-09-28 腾讯科技(深圳)有限公司 一种视频数据处理方法和相关装置
CN111008305B (zh) 2019-11-29 2023-06-23 百度在线网络技术(北京)有限公司 一种视觉搜索方法、装置以及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225105A (ja) 2009-03-25 2010-10-07 Toshiba Corp 物体検出装置、物体検出方法、及び、プログラム
JP2010231254A (ja) 2009-03-25 2010-10-14 Fujifilm Corp 画像解析装置、画像解析方法およびプログラム
JP2011060167A (ja) 2009-09-14 2011-03-24 Secom Co Ltd 移動物体追跡装置
JP2016207140A (ja) 2015-04-28 2016-12-08 Kddi株式会社 映像解析装置、映像解析方法、およびプログラム

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05205052A (ja) * 1992-01-23 1993-08-13 Matsushita Electric Ind Co Ltd 自動追尾装置
US20040125877A1 (en) * 2000-07-17 2004-07-01 Shin-Fu Chang Method and system for indexing and content-based adaptive streaming of digital video content
KR101599871B1 (ko) * 2009-02-11 2016-03-04 삼성전자주식회사 촬상 장치 및 촬상 방법
US8744125B2 (en) * 2011-12-28 2014-06-03 Pelco, Inc. Clustering-based object classification
CN104574445B (zh) * 2015-01-23 2015-10-14 北京航空航天大学 一种目标跟踪方法
CN106683110A (zh) * 2015-11-09 2017-05-17 展讯通信(天津)有限公司 用户终端及其目标跟踪方法及装置
CN107563256A (zh) * 2016-06-30 2018-01-09 北京旷视科技有限公司 辅助驾驶信息产生方法及装置、辅助驾驶系统
US11397088B2 (en) 2016-09-09 2022-07-26 Nanyang Technological University Simultaneous localization and mapping methods and apparatus
EP3312762B1 (en) * 2016-10-18 2023-03-01 Axis AB Method and system for tracking an object in a defined area
CN108230353A (zh) * 2017-03-03 2018-06-29 北京市商汤科技开发有限公司 目标跟踪方法、系统及电子设备
CN108665476B (zh) * 2017-03-31 2022-03-11 华为技术有限公司 一种行人跟踪方法以及电子设备
US10628961B2 (en) * 2017-10-13 2020-04-21 Qualcomm Incorporated Object tracking for neural network systems
CN108053427B (zh) * 2017-10-31 2021-12-14 深圳大学 一种基于KCF与Kalman的改进型多目标跟踪方法、系统及装置
CN108154159B (zh) * 2017-12-25 2018-12-18 北京航空航天大学 一种基于多级检测器的具有自恢复能力的目标跟踪方法
CN108764338B (zh) 2018-05-28 2021-05-04 上海应用技术大学 一种应用于视频分析的行人跟踪方法
CN108810616B (zh) * 2018-05-31 2019-06-14 广州虎牙信息科技有限公司 目标定位方法、视频显示方法、装置、设备和存储介质
CN108830246B (zh) 2018-06-25 2022-02-15 中南大学 一种交通环境行人多维运动特征视觉提取方法
US10726264B2 (en) * 2018-06-25 2020-07-28 Microsoft Technology Licensing, Llc Object-based localization
CN109558505A (zh) * 2018-11-21 2019-04-02 百度在线网络技术(北京)有限公司 视觉搜索方法、装置、计算机设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010225105A (ja) 2009-03-25 2010-10-07 Toshiba Corp 物体検出装置、物体検出方法、及び、プログラム
JP2010231254A (ja) 2009-03-25 2010-10-14 Fujifilm Corp 画像解析装置、画像解析方法およびプログラム
JP2011060167A (ja) 2009-09-14 2011-03-24 Secom Co Ltd 移動物体追跡装置
JP2016207140A (ja) 2015-04-28 2016-12-08 Kddi株式会社 映像解析装置、映像解析方法、およびプログラム

Also Published As

Publication number Publication date
EP3885934A4 (en) 2022-08-24
EP3885934A1 (en) 2021-09-29
JP2021528767A (ja) 2021-10-21
US20210012511A1 (en) 2021-01-14
KR20210008075A (ko) 2021-01-20
CN109558505A (zh) 2019-04-02
KR102440198B1 (ko) 2022-09-02
WO2020103462A1 (zh) 2020-05-28
US11348254B2 (en) 2022-05-31

Similar Documents

Publication Publication Date Title
US20200322684A1 (en) Video recommendation method and apparatus
US9418280B2 (en) Image segmentation method and image segmentation device
US8744195B2 (en) Object detection metadata
JP7204786B2 (ja) 視覚的検索方法、装置、コンピュータ機器及び記憶媒体
EP3477506A1 (en) Video detection method, server and storage medium
US11048913B2 (en) Focusing method, device and computer apparatus for realizing clear human face
US20230376527A1 (en) Generating congruous metadata for multimedia
US11600008B2 (en) Human-tracking methods, systems, and storage media
US8879894B2 (en) Pixel analysis and frame alignment for background frames
US11080553B2 (en) Image search method and apparatus
CN110853033A (zh) 基于帧间相似度的视频检测方法和装置
US20110216939A1 (en) Apparatus and method for tracking target
CN111818385B (zh) 视频处理方法、视频处理装置及终端设备
CN110874554B (zh) 动作识别方法、终端设备、服务器、系统及存储介质
Shuai et al. Large scale real-world multi-person tracking
Sunny et al. Map-Reduce based framework for instrument detection in large-scale surgical videos
JP6713422B2 (ja) 学習装置、イベント検出装置、学習方法、イベント検出方法、プログラム
Ben Abdelali et al. Adequation and hardware implementation of the color structure descriptor for real-time temporal video segmentation
US20170133059A1 (en) Method and system for video data stream storage
Prakas et al. Fast and economical object tracking using Raspberry pi 3.0
US11599743B2 (en) Method and apparatus for obtaining product training images, and non-transitory computer-readable storage medium
CN114627519A (zh) 数据处理方法、装置、电子设备和存储介质
CN116884065A (zh) 人脸识别方法及计算机可读存储介质
CN117333790A (zh) 视频事件的相似性判断方法、装置和电子设备
CN116578485A (zh) 交互界面测试方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201222

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220920

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221207

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20221220

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20221228

R150 Certificate of patent or registration of utility model

Ref document number: 7204786

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150