JP2023510945A - シーン識別方法及びその装置、インテリジェントデバイス、記憶媒体並びにコンピュータプログラム - Google Patents

シーン識別方法及びその装置、インテリジェントデバイス、記憶媒体並びにコンピュータプログラム Download PDF

Info

Publication number
JP2023510945A
JP2023510945A JP2022543759A JP2022543759A JP2023510945A JP 2023510945 A JP2023510945 A JP 2023510945A JP 2022543759 A JP2022543759 A JP 2022543759A JP 2022543759 A JP2022543759 A JP 2022543759A JP 2023510945 A JP2023510945 A JP 2023510945A
Authority
JP
Japan
Prior art keywords
image
feature
awaiting
identification
semantic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2022543759A
Other languages
English (en)
Inventor
フージュン バオ
グオフォン ジャン
ハイリン ユー
ヨウジー フォン
Original Assignee
チョーチアン センスタイム テクノロジー デベロップメント カンパニー,リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by チョーチアン センスタイム テクノロジー デベロップメント カンパニー,リミテッド filed Critical チョーチアン センスタイム テクノロジー デベロップメント カンパニー,リミテッド
Publication of JP2023510945A publication Critical patent/JP2023510945A/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2455Query execution
    • G06F16/24553Query execution of query operations
    • G06F16/24554Unary operations; Data partitioning operations
    • G06F16/24556Aggregation; Duplicate elimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/53Querying
    • G06F16/532Query formulation, e.g. graphical querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/55Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • G06F18/23213Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Library & Information Science (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Image Analysis (AREA)

Abstract

本出願の実施例は、画像検索技術分野に適用され、シーン識別方法及びその装置、インテリジェントデバイス並びに記憶媒体を提供する。前記シーン識別方法は、処理待ち画像及び処理待ち画像に対応するセマンティックマスクマップを取得することであって、処理待ち画像は、クエリ画像及び識別待ち画像を含み、前記処理待ち画像に対応するセマンティックマスクマップは、前記クエリ画像のセマンティックマスクマップと前記識別待ち画像のセマンティックマスクマップとを含むことと、セマンティックマスクマップに基づいて、処理待ち画像に対して特徴統合処理を実行して、処理待ち画像の特徴ベクトルを得ることと、処理待ち画像の特徴ベクトルを用いて、識別待ち画像からクエリ画像のシーンとマッチングする画像を決定することと、を含む。このようにして、セマンティックマスクマップにより、特徴識別に対する干渉要因特徴の干渉を低減でき、これにより、シーン識別のロバスト性を向上させることができる。【選択図】図1

Description

(関連出願への相互参照)
本出願は、出願番号が202011249944.4であり、出願日が2020年11月10日であり、出願名称が「シーン識別方法及びその装置、インテリジェントデバイス並びに記憶媒体」である中国特許出願に基づいて提出され、当該中国特許出願の優先権を主張し、当該中国特許出願の全ての内容が参照により本出願に組み込まれる。
本出願は、画像検索技術分野に関し、特に、シーン識別方法及びその装置、インテリジェントデバイス、記憶媒体並びにコンピュータプログラムに関するものである。
シーン識別は、コンピュータビジョン分野で重要な用途があり、例えば、同時位置決め及びマッピング(Simultaneously Localization And Mapping、SLAMと略称)、動き回復構造(SFM:Structure From Motion)及び視覚的位置決め(VL:Visual Localization)などの分野で重要な用途がある。
シーン識別における主な課題は、所与の1つの画像から対応するシーンを識別し、シーンの名称やシーンの地理的位置を与えること、又はデータベースから類似したシーンの画像を選択すること(画像検索問題として見なすこともできる)である。現在、一般的に使用される2つの方法があり、その1つは、画像のグローバル記述子を直接計算する方法であり、もう1つは、特徴統合を使用する方法である。現在、従来技術においてシーン識別方法に関する研究もますます増えている。
本出願の実施例は、シーン識別方法及びその装置、インテリジェントデバイス、記憶媒体並びにコンピュータプログラムを提供する。
本出願の実施例はシーン識別方法を提供し、前記シーン識別方法は、処理待ち画像及び前記処理待ち画像に対応するセマンティックマスクマップを取得することであって、前記処理待ち画像は、クエリ画像及び識別待ち画像を含み、前記処理待ち画像に対応するセマンティックマスクマップは、前記クエリ画像のセマンティックマスクマップと前記識別待ち画像のセマンティックマスクマップとを含むことと、前記セマンティックマスクマップに基づいて、前記処理待ち画像に対して特徴統合処理を実行して、前記処理待ち画像の特徴ベクトルを得ることと、前記処理待ち画像の特徴ベクトルを用いて、前記識別待ち画像から前記クエリ画像のシーンとマッチングする画像を決定することと、を含む。セマンティックマスクマップと特徴統合方式を組み合わせることで処理待ち画像に対応する特徴を得ることにより、干渉要因の干渉を低減し、シーン識別のロバスト性を向上させることができる。
幾つかの実施例では、処理待ち画像及び前記処理待ち画像に対応するセマンティックマスクマップを取得することは、前記識別待ち画像及び前記クエリ画像に対してセマンティックセグメンテーション処理を実行して、各画素のカテゴリ及び前記カテゴリに対応する確率を得ることと、設定条件に従って、各画素のカテゴリの重みを設定することと、前記カテゴリに対応する確率及び前記カテゴリに対応する重みに基づいて、各前記画素に対応するセマンティックマスクを得ることであって、全ての前記画素に対応するセマンティックマスクは、セマンティックマスクマップを構成することと、を含む。重みを設定することによって得られたセマンティックマスクマップを特徴統合方式と組み合わせることで処理待ち画像に対応する特徴を得ることにより、干渉要因の干渉を低減し、シーン識別のロバスト性を向上させることができる。
幾つかの実施例では、前記設定条件に従って、各画素のカテゴリの重みを設定する前に、前記シーン識別方法は、全ての画素に対して属性分類を実行して、1つ又は複数のサブカテゴリを得ることと、設定条件に従って、各前記サブカテゴリの重みを設定することと、前記サブカテゴリに対応する確率及び前記サブカテゴリに対応する重みに基づいて各前記画素に対応するセマンティックマスクを得ることであって、全ての前記画素に対応するセマンティックマスクは、セマンティックマスクマップを構成することと、を更に含む。各サブカテゴリの重みを設定することにより、干渉要因の干渉を低減し、シーン識別のロバスト性を向上させることができる。
幾つかの実施例では、前記サブカテゴリは、固定サブカテゴリ、非固定サブカテゴリ、動的サブカテゴリ及び未知サブカテゴリのうちの少なくとも2つを含み、前記動的サブカテゴリの重みは、前記固定サブカテゴリ、前記非固定サブカテゴリ及び前記未知サブカテゴリの重みより小さい。例えば、非固定サブカテゴリにより高い重みを設定し、固定サブカテゴリにより低い重みを設定するこれにより、特徴識別に対する非固定特徴の干渉を除去し、シーン識別のロバスト性を向上させる。
幾つかの実施例では、前記サブカテゴリに対応する確率及び前記サブカテゴリに対応する重みに基づいて各前記画素に対応するセマンティックマスクを得ることは、式
Figure 2023510945000002
を用いて前記画素に対応するセマンティックマスクを計算することを含み、
ここで、
Figure 2023510945000003
は、
Figure 2023510945000004
番目の画素に対応するセマンティックマスクを表し、それによって生成された画像は、セマンティックマスクマップであり、
Figure 2023510945000005
は、
Figure 2023510945000006
番目の画素が属するサブカテゴリの確率を表し、
Figure 2023510945000007
は、
Figure 2023510945000008
番目の画素が属するカテゴリ又はサブカテゴリに対応する重みを表す。セマンティックマスクマップを計算することにより、シーン識別に対する非固定特徴の干渉を低減する。
幾つかの実施例では、前記セマンティックマスクマップに基づいて、前記処理待ち画像に対して特徴統合処理を実行して、前記処理待ち画像の特徴ベクトルを得ることは、前記処理待ち画像に対して特徴抽出を実行して、特徴集合を得ることと、前記特徴集合に基づいて複数のクラスタ中心を形成することと、複数の前記クラスタ中心に基づいて各前記処理待ち画像内の各特徴に対応するクラスタ中心を得ることと、第1次元における前記処理待ち画像内の各特徴の対応する値を決定し、前記第1次元における前記処理待ち画像の前記各特徴に対応するクラスタ中心の対応する値を決定することと、前記処理待ち画像内の各特徴に対応するクラスタ中心、前記第1次元における前記処理待ち画像内の各特徴に対応するクラスタ中心の対応する値、及び前記第1次元における前記処理待ち画像の前記各特徴の対応する値に基づいて、前記クエリ画像のセマンティックマスクマップと組み合わせて、前記クエリ画像に対して特徴統合処理を実行して、前記クエリ画像の特徴ベクトルを得ることと、前記処理待ち画像内の各特徴に対応するクラスタ中心、前記第1次元における前記処理待ち画像内の各特徴に対応するクラスタ中心の対応する値、及び前記第1次元における前記処理待ち画像内の各特徴の対応する値に基づいて、前記識別待ち画像のセマンティックマスクマップと組み合わせて、前記識別待ち画像に対して特徴統合処理を実行して、前記識別待ち画像の特徴ベクトルを得ることと、を含む。セマンティックマスクマップを用いて処理待ち画像の対応する特徴を得、セマンティックマスクマップにおいて非固定特徴に重みが設定されるため、干渉要因の干渉を低減し、シーン識別のロバスト性を向上させることができる。
幾つかの実施例では、前記特徴集合に基づいて複数のクラスタ中心を形成することは、クラスタリングアルゴリズムを用いて前記特徴集合を処理することによって、複数のクラスタ中心を形成することを含み、複数の前記クラスタ中心に基づいて各前記処理待ち画像内の各特徴に対応するクラスタ中心を得ることは、各前記特徴に最も近いクラスタ中心を、前記処理待ち画像内の各特徴に対応するクラスタ中心として使用することを含む。
幾つかの実施例では、前記処理待ち画像の特徴ベクトルを用いて、前記識別待ち画像から前記クエリ画像のシーンとマッチングする画像を決定することは、前記識別待ち画像の特徴ベクトルと前記クエリ画像の特徴ベクトルとの間の距離に基づいて、前記識別待ち画像から前記クエリ画像シーンとマッチングする画像を決定することを含む。セマンティックマスクマップと組み合わせて特徴ベクトルを計算することにより、非固定特徴の干渉を低減し、クエリ画像との類似度がより高い識別待ち画像を得ることができる。
幾つかの実施例では、前記識別待ち画像の特徴ベクトルと前記クエリ画像の特徴ベクトルとの間の距離に基づいて、前記識別待ち画像から前記クエリ画像シーンとマッチングする画像を決定することは、前記クエリ画像の特徴ベクトルに最も近い特徴ベクトルに対応する前記識別待ち画像を、前記クエリ画像とマッチングする画像として決定することを含む。これにより、クエリ画像との類似度がより高い識別待ち画像を得ることができる。
幾つかの実施例では、前記識別待ち画像のうち、前記クエリ画像とマッチングする画像の数は複数であり、前記クエリ画像の特徴ベクトルに最も近い特徴ベクトルに対応する前記識別待ち画像を、前記クエリ画像とマッチングする画像として決定した後、前記シーン識別方法は、空間一致性方法を用いて、前記クエリ画像とマッチングする画像を配列して、前記クエリ画像に最も類似した画像を取得することを更に含む。これにより、得られたシーンはより類似且つ正確になる。
本出願の実施例はシーン識別装置を提供し、前記シーン識別装置は、処理待ち画像及び前記処理待ち画像に対応するセマンティックマスクマップを取得するように構成される取得モジュールであって、前記処理待ち画像がクエリ画像及び識別待ち画像を含む、取得モジュールと、前記セマンティックマスクマップに基づいて、前記処理待ち画像に対して特徴統合処理を実行して、前記処理待ち画像の特徴ベクトルを得るように構成される特徴統合モジュールと、前記処理待ち画像の特徴ベクトルを用いて、前記識別待ち画像から前記クエリ画像のシーンとマッチングする画像を決定するように構成される画像マッチングモジュールと、を備える。セマンティックマスクマップと特徴統合方式を組み合わせることで処理待ち画像に対応する特徴を得ることにより、干渉要因の干渉を低減し、シーン識別のロバスト性を向上させることができる。
本出願の実施例は、互いに結合されたメモリ及びプロセッサを備えるインテリジェントデバイスを提供し、前記メモリは、上記の任意のシーン識別方法を実現するためのプログラム命令を記憶するように構成される。
本出願の実施例は、プログラムファイルが記憶されたコンピュータ可読記憶媒体を提供し、前記プログラムファイルが実行されるときに、上記の任意のシーン識別方法を実現する。
本出願の実施例は、コンピュータ可読コードを含むコンピュータプログラムを提供し、前記コンピュータ可読コードがインテリジェントデバイスで実行されるときに、前記インテリジェントデバイスのプロセッサに、上記の任意のシーン識別方法を実行させる。
本出願の実施例は、シーン識別方法及びその装置、インテリジェントデバイス、記憶媒体並びにコンピュータプログラムを提供する。処理待ち画像及び前記処理待ち画像に対応するセマンティックマスクマップを取得し、セマンティックマスクマップに基づいて、処理待ち画像に対して特徴統合処理を実行して、処理待ち画像の特徴ベクトルを得、特徴ベクトルを用いて識別待ち画像からクエリ画像のシーンとマッチングする画像を決定することにより、セマンティックマスクマップを取得することで画像の上位層セマンティック情報を得、セマンティックマスクマップと特徴統合を組み合わせることで、画像内の干渉要因による干渉を除去でき、これにより、シー識別のロバスト性を向上させることができる。
本出願の実施例によるシーン識別方法の1つの実施例の例示的なフローチャートである。 本出願の実施例である図1のステップS11の1つの実施例の例示的なフローチャートである。 本出願の実施例である図1のステップS11の別の実施例の例示的なフローチャートである。 本出願の実施例によるシーン識別装置の1つの実施例の概略構造図である。 本出願の実施例によるインテリジェントデバイスの1つの実施例の概略構造図である。 本出願の実施例によるコンピュータ可読記憶媒体の概略構造図である。
以下、本出願の実施例の図面を参照して本出願の実施例における技術的解決策を明確且つ完全に説明し、明らかに、説明される実施例は、本出願の実施例の一部に過ぎず、全ての実施例ではない。本出願の実施例に基づき、創造的な労力なしに当業者によって得られる他の実施例は、全て本出願の保護範囲に含まれるものとする。
シーン識別は、コンピュータビジョン分野で重要な用途があり、シーン識別における主な課題は、所与の1つの画像から対応するシーンを識別し、シーンの名称やシーンの地理的位置を与えること、又はデータベースから類似したシーンの画像を選択すること(画像検索問題として見なすこともできる)である。このような問題の核心は、画像又は画像におけるシーンを正確に説明することである。現在、一般的に使用される2つの方法があり、その1つは、画像のグローバル記述子を直接計算する方法であり、もう1つは、ローカル特徴統合を使用する方法である。
ここで、画像のグローバル記述子を直接計算する方法では、1つの完全な画像を入力とし、画像のグローバル記述子を出力とする。最も簡単な方法は、画像の全ての画素値を画像の記述子としてつなぎ合わせること、又は、ヒストグラムを用いて画素のグレースケール情報又は勾配情報などを統計することなどであり、この方法のロバスト性は極めて低い。ローカル特徴統合を用いる方法では、画像から抽出されたローカル特徴を入力とし、符号化された特徴ベクトルを出力をする。この方法は、ローカル特徴のみを用い、上位層のセマンティック情報が欠けているため、光照射の変化や動的なシーンに対するロバスト性がない。
セマンティック情報は、上位層の視覚情報として、シーン識別の実行をガイドする。また、セマンティック情報の使用は、人間の認知により適する。これに基づいて、本出願の実施例は、セマンティックマスクのシーン識別方法を提供する。当該方法では、セマンティックセグメンテーション結果を用いて、画像内の異なる領域に異なる重みを付与することにより、シーン識別に対する動的で不安定な物体の悪影響に効果的に対処できる。更に、ソフト重み付け方式を用いるため、セマンティックセグメンテーションの不安定性の影響を効果的に回避できる。それだけでなく、当該方法は、季節の変化に対しても良好なロバスト性を有する。
以下、図面及び実施例を参照して本出願を詳細に説明する。
図1は、本出願の実施例によるシーン識別方法の第1実施例の例示的なフローチャートである。前記シーン識別方法は、インテリジェントデバイスによって実行され、前記シーン識別方法は、以下のステップを含む。
ステップS11において、処理待ち画像及び処理待ち画像に対応するセマンティックマスクマップを取得し、処理待ち画像は、クエリ画像及び識別待ち画像を含む。
幾つかの実施例では、処理待ち画像は、クエリ画像及び識別待ち画像を含み、処理待ち画像に対応するセマンティックマスクマップは、クエリ画像のセマンティックマスクマップと識別待ち画像のセマンティックマスクマップとを含む。ここで、図2を参照すると、識別待ち画像に対応するセマンティックマスクマップを取得することは、以下のステップを含む。
ステップS21において、識別待ち画像及びクエリ画像に対してセマンティックセグメンテーション処理を実行して、各画素のカテゴリ及びカテゴリに対応する確率を得る。
ここで、クエリ画像は、ユーザ定義の画像であり、ユーザによって現在撮影されている画像であってもよいし、ユーザによって予め記憶された画像であってもよい。識別待ち画像は、クエリ画像に基づいてデータベースから検索された、クエリ画像とマッチングする画像である。データベースはサーバであり、クエリ画像が入力されると、サーバは、当該クエリ画像とマッチングする、類似したシーンを有する複数の識別待ち画像を探し出す。
識別待ち画像及びクエリ画像に対してセマンティックセグメンテーションを実行して、画像の各画素の属するカテゴリ、及び当該カテゴリに対応する確率を得る。
ステップS22において、設定条件に従って、各画素のカテゴリの重みを設定する。
画素のカテゴリを取得した後、各カテゴリの画素の重みを設定する。1つの実施例では、セマンティックセグメンテーションによって得られたカテゴリが、固定サブカテゴリ(安定したサブカテゴリなど)、非固定サブカテゴリ(変更しやすいサブカテゴリなど)、動的サブカテゴリ及び未知サブカテゴリの4つのカテゴリを含む場合、シーン識別に対する動的特徴の干渉を低減するために、1つの実施例では、動的サブカテゴリの重みを、固定サブカテゴリ、非固定サブカテゴリ及び未知サブカテゴリの重みよりも小さい値に設定する。別の実施例では、シーン識別に対する非固定サブカテゴリ特徴の干渉を低減する必要がある場合、1つの実施例では、非固定サブカテゴリ特徴の重みを、固定サブカテゴリ、動的サブカテゴリ及び未知サブカテゴリの重みよりも小さい値に設定する。
ステップS23において、サブカテゴリに対応する確率及びサブカテゴリに対応する重みに基づいて、各画素に対応するセマンティックマスクを得、全ての画素に対応するセマンティックマスクは、セマンティックマスクマップを構成する。
1つの実施例では、次の式(1)を用いて各画素に対応するセマンティックマスクを計算する。
Figure 2023510945000009
(1)
ここで、
Figure 2023510945000010
は、
Figure 2023510945000011
番目の画素に対応するセマンティックマスクを表し、それによって生成された画像は、セマンティックマスクマップであり、
Figure 2023510945000012
は、
Figure 2023510945000013
番目の画素が属するサブカテゴリの確率を表し、
Figure 2023510945000014
は、
Figure 2023510945000015
番目の画素が属するカテゴリ又はサブカテゴリに対応する重みを表す。
別の実施例では、セマンティックセグメンテーション後のカテゴリ結果が、固定サブカテゴリ、非固定サブカテゴリ、動的サブカテゴリ及び未知サブカテゴリを含まない場合、図3を参照されたい。ここで、ステップS31は、図2のステップと同じである。本実施例では、セマンティックセグメンテーション後のカテゴリ結果が、安定したカテゴリ、変更しやすいカテゴリ、動的カテゴリ及び未知カテゴリという4つのタイプのカテゴリを含まない場合、前記シーン識別方法は、以下のステップを更に含む。
ステップS32において、全ての画素に対して属性分類を実行して、1つ又は複数のサブカテゴリを得る。
全ての画素に対して属性分類を実行して、1つ又は複数のサブカテゴリを得、1つの実施例では、サブカテゴリは、固定サブカテゴリ、非固定サブカテゴリ、動的サブカテゴリ及び未知サブカテゴリのうちの少なくとも2つ又は少なくとも1つを含む。
ステップS33において、設定条件に従って、各サブカテゴリの重みを設定する。
ここで、画素のサブカテゴリを取得した後、各サブカテゴリの画素に重みを設定する。1つの実施例では、セマンティックセグメンテーション結果に対して属性分類を実行することによって得られたサブカテゴリが、固定サブカテゴリ、非固定サブカテゴリ、動的サブカテゴリ及び未知サブカテゴリを含む場合、シーン識別に対する動的特徴の干渉を低減するために、1つの実施例では、動的特徴の重みを、固定サブカテゴリ、非固定サブカテゴリ及び未知サブカテゴリの重みよりも小さい値に設定する。別の実施例では、シーン識別に対する非固定サブカテゴリ特徴の干渉を低減する必要がある場合、1つの実施例では、非固定サブカテゴリ特徴の重みを、固定サブカテゴリ、動的サブカテゴリ及び未知サブカテゴリの重みよりも小さい値に設定する。
ステップS34において、サブカテゴリに対応する確率及びサブカテゴリに対応する重みに基づいて、各画素に対応するセマンティックマスクを得、全ての画素に対応するセマンティックマスクは、セマンティックマスクマップを構成する。
ここで、1つの実施例では、次の式(2)を用いて各画素に対応するセマンティックマスクを計算する。
Figure 2023510945000016
(2)
ここで、
Figure 2023510945000017
は、
Figure 2023510945000018
番目の画素に対応するセマンティックマスクを表し、それによって生成された画像は、セマンティックマスクマップであり、
Figure 2023510945000019
は、
Figure 2023510945000020
番目の画素が属するサブカテゴリの確率を表し、
Figure 2023510945000021
は、
Figure 2023510945000022
番目の画素が属するカテゴリ又はサブカテゴリに対応する重みを表す。
本実施例で提供される方法では、セマンティックセグメンテーション後の画素カテゴリに異なる重みを設定することにより、特徴識別における、当該カテゴリによる干渉を低減し、これにより、シーン識別のロバスト性を向上させる。
ステップS12において、セマンティックマスクマップに基づいて、処理待ち画像に対して特徴統合処理を実行して、処理待ち画像の特徴ベクトルを得る。
ここで、処理待ち特徴に対して特徴統合処理を実行して特徴ベクトルを得る既存の方式は、VLAD符号化によって特徴ベクトルを取得することを含む。幾つかの実施例では、VLAD符号化によって特徴ベクトルを取得することは、前記処理待ち画像に対して特徴抽出を実行して、特徴集合を得ることを含む。別の実施例では、予め設定された処理待ち画像に対して特徴抽出を実行して、特徴集合を得ることもでき、予め設定されたデータ画像は、データベースとサーバ内の全ての画像の集合であってもよいし、サーバ内の部分画像の集合であってもよいが、本出願はこれに対して限定せず、又は、ユーザによって収集された画像集合であってもよいが、本出願はこれに対して限定しない。各処理待ち画像は複数の特徴を含み、即ち、特徴抽出を行うときに、各処理待ち画像から複数の特徴を抽出することを理解することができる。抽出された全ての特徴は特徴集合に形成し、次にそれに対してクラスタリングアルゴリズムを実行して、
Figure 2023510945000023
個のクラスタ中心を得る。
Figure 2023510945000024
個のクラスタ中心はコードブック(CodeBook)と呼ばれ、取得されたコードブックは、
Figure 2023510945000025
である。
処理待ち画像内の1つの処理待ち画像内の複数の特徴は特徴集合
Figure 2023510945000026
を形成する。幾つかの実施例では、コードブック
Figure 2023510945000027
によって特徴集合
Figure 2023510945000028
を、固定長の特徴ベクトルに統合することもできる。
複数のクラスタ中心を得た後、複数のクラスタ中心に基づいて、各処理待ち画像内の各特徴xiに対応するクラスタ中心を得る。ここで、当該特徴xiの位置を決定し、当該特徴xiに最も近いクラスタ中心を、特徴xiに対応するクラスタ中心ckとして決定する。1つの実施例では、現在の特徴xiに対応するクラスタ中心ckを決定した後、第1次元における当該クラスタ中心ckの対応する値を決定し、幾つかの実施例では、クラスタ中心ckに対応する次元は、クラスタ中心ckに対応する特徴xiの次元と同じであり、第1次元におけるクラスタ中心ckの対応する値及び第1次元におけるクラスタ中心ckに対応する特徴xiの対応する値を決定し、クラスタ中心ckの次元がクラスタ中心ckに対応する特徴xiの次元と同じであるため、当該クラスタ中心ckとクラスタ中心ckに対応する特徴xiをよりよく区分するために、当該クラスタ中心ckの次元に、クラスタ中心ckと対応する前記特徴xiとの間の距離を追加する。本開示の実施例では、第1次元は、次元1、次元2、次元3などであってもよく、クラスタ中心と特徴が同じ次元で統合されることを明確に説明するために、第1次元として説明する。
既存の特徴識別方式では、クラスタ中心ck、第1次元における各特徴に対応するクラスタ中心ckの対応する値に基づいて、クエリ画像及び前記識別待ち画像の特徴ベクトルを得る。幾つかの実施例では、従来技術では、一般的に次の式(3)によってクエリ画像又は前記識別待ち画像の特徴ベクトルを得る。
Figure 2023510945000029
(3)
ここで、v(k,j)は、クエリ画像又は識別待ち画像の特徴ベクトルを表し、αk(xi)は、選択関数を表し、xiは特徴であり、ckがxiのクラスタ中心である場合、αk(xi)は1に等しく、そうでない場合、αk(xi)は0に等しく、
Figure 2023510945000030
は、
Figure 2023510945000031
番目の次元における
Figure 2023510945000032
番目の特徴の対応する値を表し、
Figure 2023510945000033
は、
Figure 2023510945000034
番目の次元における
Figure 2023510945000035
番目のクラスタ中心の対応する値を表す。
クエリ画像の特徴ベクトルを計算する必要がある場合、v(k,j)がクエリ画像の特徴ベクトルを表し、αk(xi)が選択関数を表し、xiがクエリ画像の特徴であり、ck(クラスタ中心)がxiに対応するクラスタ中心である場合、αk(xi)が1に等しく、そうでない場合、αk(xi)が0に等しいことを理解することができ、
Figure 2023510945000036
は、
Figure 2023510945000037
番目の次元におけるクエリ画像内の
Figure 2023510945000038
番目の特徴の対応する値を表し、
Figure 2023510945000039
は、
Figure 2023510945000040
番目の次元におけるクエリ画像の
Figure 2023510945000041
番目のクラスタ中心の対応する値を表す。
識別待ち画像の特徴ベクトルを計算する必要がある場合、v(k,j)が識別待ち画像の特徴ベクトルを表し、αk(xi)が選択関数を表し、xiが識別待ち画像の特徴であり、ck(クラスタ中心)がxiに対応するクラスタ中心である場合、αk(xi)が1に等しく、そうでない場合、αk(xi)が0に等しいことを理解することができる。
Figure 2023510945000042
は、
Figure 2023510945000043
番目の次元における識別待ち画像内の
Figure 2023510945000044
番目の特徴の対応する値を表し、
Figure 2023510945000045
は、
Figure 2023510945000046
番目の次元における識別待ち画像の
Figure 2023510945000047
番目のクラスタ中心の対応する値を表す。
本出願の実施例の技術的解決策では、上位層のセマンティック情報の欠如により、動的特徴が特徴ベクトルの識別に影響を与え、それによって不正確な識別結果をもたらすことを回避するために、本出願の実施例は、処理待ち画像内の各特徴xiに対応するクラスタ中心ck、第1次元における処理待ち画像内の各特徴に対応するクラスタ中心ckの対応する値、及び第1次元における処理待ち画像内の前記各特徴xiの対応する値に基づいて、クエリ画像のセマンティックマスクマップと組み合わせて、クエリ画像に対して特徴統合処理を実行して、クエリ画像の特徴ベクトルを得る。また、処理待ち画像内の各特徴xiに対応するクラスタ中心ck、第1次元における処理待ち画像内の各特徴に対応するクラスタ中心ckの対応する値、及び第1次元における処理待ち画像の前記各特徴xiの対応する値に基づいて、識別待ち画像のセマンティックマスクマップと組み合わせて、識別待ち画像に対して特徴統合処理を実行して、識別待ち画像の特徴ベクトルを得る。
ここで、本出願の実施例では、次の式(4)によってクエリ画像及び識別待ち画像の特徴ベクトルを得る。
Figure 2023510945000048
(4)
ここで、
Figure 2023510945000049
は、クエリ画像及び識別待ち画像の特徴ベクトルを表し、αk(xi)は、選択関数を表し、xiは特徴であり、ckがxiのクラスタ中心である場合、αk(xi)は1に等しく、そうでない場合、αk(xi)は0に等しく、
Figure 2023510945000050
は、
Figure 2023510945000051
番目の次元における
Figure 2023510945000052
番目の特徴の対応する値を表し、
Figure 2023510945000053
は、
Figure 2023510945000054
番目の次元における
Figure 2023510945000055
番目のクラスタ中心の対応する値を表し、
Figure 2023510945000056
は、クエリ画像及び識別待ち画像のセマンティックマスクマップを表す。
本出願の実施例の方法によれば、例えば、画像に大量の動的物体が含まれる場合、セマンティックマスクで重み付けすることができ、これにより、動的物体の重みを低減し、特徴識別のロバスト性を向上させる。
ここで、1つの実施例では、セマンティックマスクで重み付けする場合、特徴が画素レベルの特徴であると、画像における特徴の位置に基づいて、対応する位置のセマンティックマスクを直接取得することができ、特徴がサブ画素レベルの特徴であると、セマンティックマスクマップ上の対応する同じ位置に対して補間処理を実行することによって取得することができる。
1つの実施例では、上記方式によりクエリ画像及び識別待ち画像の特徴ベクトルを得た後、
Figure 2023510945000057
個のクラスタ中心で特徴ベクトルをそれぞれ正規化し、次にベクトル全体を一緒に正規化することができる。
ステップS13において、処理待ち画像の特徴ベクトルを用いて、識別待ち画像からクエリ画像のシーンとマッチングする画像を決定する。
ステップS12の方式によりクエリ画像及び識別待ち画像の特徴ベクトルを得た後、識別待ち画像の特徴ベクトルとクエリ画像の特徴ベクトルの位置に基づいて、識別待ち画像から、クエリ画像のシーンとマッチングする画像を決定する。
特徴ベクトル間の距離が近いほど、特徴の類似度が高くなり、特徴ベクトル間の距離が遠いほど、特徴の類似度が低くなることを理解することができる。したがって、1つの実施例では、クエリ画像の特徴ベクトルに最も近い特徴ベクトルに対応する識別待ち画像を、クエリ画像とマッチングする画像として決定する。
1つの実施例では、識別待ち画像のうち、クエリ画像とマッチングする画像データの数が複数である場合、最も類似した画像を得るために、空間一致性(Spatial Consistency)方法を用いて、クエリ画像とマッチングする画像を配列し、クエリ画像と最も類似した画像を取得する。
本出願の実施例によるシーン識別方法では、セマンティックマスクマップを従来の特徴統合方法と組み合わせることにより、セマンティックマスクで重み付けすることで特徴識別に対する画像内の動的特徴の干渉を低減し、シーン識別に対する不安定な物体の悪影響を効果的に回避できる。更に、重み付け方式により、セマンティックセグメンテーションの不安定性の影響を効果的に回避できる。それだけでなく、本出願の実施例の方法は、季節の変化に対しても良好なロバスト性を有する。
上記の実施例に基づき、本出願の実施例は、シーン識別方法を更に提供する。前記シーン識別方法は、画像のグローバル特徴ベクトルを生成するときに、セマンティックセグメンテーション結果を用いて、画像の異なる領域に重みを付けることにより、シーンに大量の動的物体が含まれる場合又はシーンが季節によって変化する場合、シーン識別方法のロバスト性を確保することができる。前記シーン識別方法は、以下の方式によって実現できる。
(1)セマンティックセグメンテーション
ここで、前記セマンティックセグメンテーションの入力は、画像であり、出力は、セマンティックセグメンテーション結果である。
本出願の実施例では、セマンティックセグメンテーションネットワークを用いて、入力された画像に対してセマンティックセグメンテーションを行うことができる。セマンティックセグメンテーション結果には各画素のカテゴリと当該カテゴリに属する確率が含まれる。前記セマンティックセグメンテーションネットワークは、任意のネットワークであってもよく、セグメンテーションに対応するカテゴリは、カスタマイズしたカテゴリを用いて訓練することによって得られたものであってもよいし、パブリックデータセットで定義されたカテゴリを直接用いて訓練することによって得られたものであってもよい。
幾つかの実施例では、セグメンテーション結果を安定したカテゴリ、変更しやすいカテゴリ、動的カテゴリ及び未知カテゴリの4つのタイプのカテゴリに更に分類することができる。上記のセグメンテーション結果が当該4つのタイプのカテゴリと同じである場合、更なるセグメンテーションステップが実行されず、そうでない場合、実際の使用シーンに従ってカテゴリを更に分割することができる。例えば、屋内環境の場合、地面、壁、天井を安定したカテゴリと見なすことができ、ベッド、テーブル、椅子などを変更しやすいカテゴリと見なすことができ、人間、猫及び犬などを動的カテゴリと見なすことができる。屋外シーンの場合、建物、路面、街灯などを安定したカテゴリと見なすことができ、緑の植物、空などを変更しやすいカテゴリと見なすことができ、歩行者と車両などを動的カテゴリと見なすことができる。もちろん、このような分類は、実際の使用シーンに応じて異なる調整が行われてもよく、例えば、幾つかの屋内シーンでは、テーブルを安定したカテゴリと見なすことができる。
(2)セマンティックマスク
ここで、前記セマンティックマスクの入力は、セマンティックセグメンテーション結果であり、出力は、セマンティックマスクマップである。
本出願の実施例では、安定したカテゴリ、変更しやすいカテゴリ、動的カテゴリと未知カテゴリに対応する重みは、それぞれ、
Figure 2023510945000058

Figure 2023510945000059

Figure 2023510945000060
及び
Figure 2023510945000061
である。(この重みは手動で設定でき、例えば、4つのカテゴリの重みを、それぞれ、10、0.5、0.1及び0.3に設定できる)。この場合、1つの画像内のある画素
Figure 2023510945000062
について、2つの値
Figure 2023510945000063
及び
Figure 2023510945000064
が得られ、
Figure 2023510945000065
は、カテゴリの確率であり、
Figure 2023510945000066
は、カテゴリの重みである。したがって、カテゴリの確率とカテゴリの重みとを乗算して(即ち、
Figure 2023510945000067
)、前記画素に対応するセマンティックマスクを決定することができる。ここで、
Figure 2023510945000068
は、画素
Figure 2023510945000069
に対応するセマンティックマスクと呼ばれ、それによって生成された画像は、セマンティックマスクマップである。
幾つかの実施例では、生成されたセマンティックマスクを、現在のローカル特徴統合方法に組み込んでもよいし、エンドツーエンドの深層学習方法に組み込んでもよい。以下、VLAD方法を例としてセマンティックマスクの使用方法を実現する。
(3)セマンティックマスクに基づくVLAD特徴統合
ここで、前記特徴統合の入力は、画像及び対応するセマンティックマスクマプであり、出力は、画像特徴ベクトルである。
本出願の実施例では、訓練集合内の全ての画像からローカル特徴(このローカル特徴は疎な特徴であってもよいし、稠密なローカル特徴であってもよい)を抽出してローカル特徴集合を構築し、当該ローカル特徴集合に対してクラスタリングアルゴリズムを実行して
Figure 2023510945000070
個のクラスタ中心を取得することができ、前記
Figure 2023510945000071
個のクラスタ中心は、コードブック
Figure 2023510945000072
と呼ばれる。
更に、単一の画像から抽出されたローカル特徴集合
Figure 2023510945000073
内の各特徴について、各特徴に最も近いクラスタ中心を探し出し、次に、対応する次元においてクラスタ中心の残差に特徴を累積し、最終的に
Figure 2023510945000074
次元の画像特徴ベクトルを生成し、
Figure 2023510945000075
は、コードブックのサイズであり、
Figure 2023510945000076
は、特徴ベクトルの次元である。従来のVLAD符号化方式を用いると、前記画像の特徴ベクトルは、次の式(5)で表すことができる。
Figure 2023510945000077
(5)
ここで、αk(xi)は、特徴xiに最も近いクラスタ中心を計算すること、即ち選択関数を表し、最も近いクラスタ中心の位置が1であり、そうでない場合は0であり、
Figure 2023510945000078
は、
Figure 2023510945000079
番目の次元における特徴xiの対応する値を表し、
Figure 2023510945000080
は、
Figure 2023510945000081
番目の次元における
Figure 2023510945000082
番目のクラスタ中心の対応する値を表す。この方法では、画像上の全ての特徴を同等に扱うため、画像に大量の動的物体が含まれる場合、動的物体からの干渉を受けやすい。このため、幾つかの実施例では、上記のセマンティックマスクを導入して重み付けを実行することができ、この場合、本出願の実施例における前記画像特徴ベクトルは、次の式(6)で表すことができる。
Figure 2023510945000083
(6)
ここで、
Figure 2023510945000084
は、
Figure 2023510945000085
番目の特徴に対応するセマンティックマスクであり、特徴が画素レベル特徴である場合、画像の位置で対応する位置のセマンティックマスクを直接取得することができ、特徴がサブ画素レベルの特徴である場合、セマンティックマスクマップ上の同じ位置に対して補間処理を実行することによって取得することができる。
最後に、生成された特徴ベクトルについて、まず
Figure 2023510945000086
個のクラスタ中心をそれぞれ正規化し、次にベクトル全体を一緒に正規化する。
(4)VLADに基づくシーン識別
ここで、前記シーン識別の入力は、画像及びセマンティックマスクによって得られた特徴ベクトルであり、出力は、最も類似したシーンである。
本出願の実施例では、上記のステップ(3)における方法に従って、全てのデータベース画像から特徴ベクトルを抽出して、画像特徴データベースを構築する。次に、同様に、識別待ち画像から特徴ベクトルを抽出し、次に、クエリ画像の特徴とデータベースにおける画像特徴との距離を比較し、距離が最小の先頭の幾つかの画像を検出結果として探し出し、次に空間一致性検証により、探し出したこれらの幾つかの画像を再度並べ替えて最も類似したシーン画像を取得する。
このように、幾つかの使用シーンでは、例えば、自動運転シーンでは、道路上には一般的に多くの車両があるが、識別に本当に意味があるのは、路側の建物である。この場合、本出願の実施例によるセマンティックマスクを用いたシーン識別方法により、これらの動的物体を効果的に処理することができ、より低い重みを付与することにより、画像記述に対するこれらの動的物体の干渉を効果的に軽減することができる。また、本出願の実施例によるセマンティックマスクを用いたシーン識別方法により、判別の必要性が高いカテゴリにより高い重みを付与することによって、画像記述におけるその割合が増加し、これにより、判別の必要性がない領域(道路、床など)を効果的に抑制できる。
幾つかの実施例では、本出願の実施例によるシーン識別方法の使用シーンは、次のことを含み得る。視覚的位置決めアルゴリズムにおいて、通常、まず画像レベルの記述子を用いて、1つの類似したシーンを検索し、それによってローカル特徴のマッチング範囲を狭める。マッピング又は位置決めを行うときに、目標シーンに大量の動的物体(例えば、ショッピングモールを行き来する歩行者、道路上の車両など)が含まれる場合、それらを処理せずに直接使用すると、検索性能に大きな影響を与え、検索の成功率を低下させる。屋外環境では、異なる季節でマッピング及び位置決めを行うときに、季節の変化により屋外の緑の植物の形状が異なり、シーン識別の効果にも大きな影響を与える。本出願の実施例によって提供される方法を採用すると、これらの問題に効果的に対処することができる。もちろん、本出願の実施例によるシーン識別方法は、他の使用シーンを更に含み、当業者は、実際のニーズに応じて実施できる。
図4を参照すると、それは本出願の実施例によるシーン識別装置の1つの実施例の概略構造図である。前記シーン識別装置は、取得モジュール41、特徴統合モジュール42及び画像マッチングモジュール43を備える。
ここで、取得モジュール41は、処理待ち画像及び処理待ち画像に対応するセマンティックマスクマップを取得するように構成され、処理待ち画像は、クエリ画像及び識別待ち画像を含み、処理待ち画像に対応するセマンティックマスクマップは、クエリ画像のセマンティックマスクマップと識別待ち画像のセマンティックマスクマップとを含む。ここで、取得モジュール41は、クエリ画像を取得し、クエリ画像に基づいてデータベースからクエリ画像とマッチングする複数の識別待ち画像を取得し、識別待ち画像及び前記クエリ画像に対してセマンティックセグメンテーション処理を実行して、各画素のカテゴリ及びカテゴリに対応する確率を得、設定条件に従って、各画素のカテゴリの重みを設定し、カテゴリに対応する確率及びカテゴリに対応する重みに基づいて各画素に対応するセマンティックマスクを得るように構成され、全ての画素に対応するセマンティックマスクは、セマンティックマスクマップを構成する。1つの実施例では、取得モジュール41は更に、全ての画素に対して属性分類を実行して、1つ又は複数のサブカテゴリを得、設定条件に従って、各サブカテゴリの重みを設定し、サブカテゴリに対応する確率及びサブカテゴリに対応する重みに基づいて各前記画素に対応するセマンティックマスクを得るように構成され、全ての画素に対応するセマンティックマスクは、セマンティックマスクマップを構成する。
ここで、特徴統合モジュール42は、セマンティックマスクマップに基づいて、処理待ち画像に対して特徴統合処理を実行して、処理待ち画像の特徴ベクトルを得るように構成される。ここで、特徴統合モジュール42は、前記処理待ち画像に対して特徴抽出を実行して、特徴集合を得、前記特徴集合に基づいて複数のクラスタ中心を形成し、複数の前記クラスタ中心に基づいて各前記処理待ち画像内の各特徴に対応するクラスタ中心を得、第1次元における前記処理待ち画像内の各特徴の対応する値を決定し、前記第1次元における前記処理待ち画像の前記各特徴に対応するクラスタ中心の対応する値を決定し、前記処理待ち画像内の各特徴に対応するクラスタ中心、前記第1次元における前記処理待ち画像内の各特徴に対応するクラスタ中心の対応する値、及び前記第1次元における前記処理待ち画像の前記各特徴の対応する値に基づいて、前記クエリ画像のセマンティックマスクマップと組み合わせて、前記クエリ画像に対して特徴統合処理を実行して、前記クエリ画像の特徴ベクトルを得、前記処理待ち画像内の各特徴に対応するクラスタ中心、前記第1次元における前記処理待ち画像内の各特徴に対応するクラスタ中心の対応する値、及び前記第1次元における前記処理待ち画像内の各特徴の対応する値に基づいて、前記識別待ち画像のセマンティックマスクマップと組み合わせて、前記識別待ち画像に対して特徴統合処理を実行して、前記識別待ち画像の特徴ベクトルを得るように構成される。
ここで、画像マッチングモジュール43は、処理待ち画像の特徴ベクトルを用いて、識別待ち画像からクエリ画像のシーンとマッチングする画像を決定するように構成される。ここで、画像マッチングモジュール43は、前記識別待ち画像の特徴ベクトルと前記クエリ画像の特徴ベクトルとの間の距離に基づいて、前記識別待ち画像から前記クエリ画像シーンとマッチングする画像を決定するように構成される。1つの実施例では、画像マッチングモジュール43は、前記クエリ画像の特徴ベクトルに最も近い特徴ベクトルに対応する前記識別待ち画像を、前記クエリ画像とマッチングする画像として決定するように構成される。1つの実施例では、画像マッチングモジュール43は更に、前記識別待ち画像のうち、前記クエリ画像とマッチングする画像の数が複数である場合、空間一致性方法を用いて、前記クエリ画像とマッチングする画像を配列して、前記クエリ画像に最も類似した画像を取得するように構成される。
本出願の実施例によるシーン識別装置では、セマンティックマスクマップを従来の特徴統合方法と組み合わせることにより、セマンティックマスクで重み付けすることで特徴識別に対する画像内の動的特徴の干渉を低減し、これにより、ロバスト性を向上させる。
図5を参照すると、それは本出願の実施例によるインテリジェントデバイスの概略構造図である。インテリジェントデバイスは、相互に接続されているメモリ52及びプロセッサ51を含む。
メモリ52は、上記の任意のシーン識別方法を実現するためのプログラム命令を記憶するように構成される。
プロセッサ51は、メモリ52に記憶されたプログラム命令を実行するように構成される。
ここで、プロセッサ51は、中央処理ユニット(CPU:Central Processing Unit)と呼ばれてもよい。プロセッサ51は、信号処理機能を備えた集積回路チップであってもよい。プロセッサ51は、汎用プロセッサ、デジタル信号プロセッサ(DSP:Digital Signal Processor)、特定用途向け集積回路(ASIC:Application Specific Integrated Circuit)、フィールドプログラマブルゲートアレイ(FPGA:Field Programmable Gate Array)又は他のプログラマブル論理デバイス、ディスクリートゲート又はトランジスタ論理デバイス、ディスクリートハードウェア部材であってもよい。汎用プロセッサは、マイクロプロセッサであってもよく、又は該プロセッサは、いずれかの従来のプロセッサなどであってもよい。
メモリ52は、メモリスティック、フラッシュメモリカード(Trans-flash、TFカードと略称)などであってもよく、インテリジェントデバイスの全ての情報(入力された元のデータ、コンピュータプログラム、中間実行結果と最終的な実行結果を含む)をメモリに記憶することができる。それはコントローラが指定した位置に応じて情報を保存及び取得する。インテリジェントデバイスには、メモリが搭載されており、それにより記憶機能が実現され、通常の動作を確保することができる。インテリジェントデバイスのメモリは、用途に応じてメインメモリ(内部記憶装置)と補助メモリ(外部記憶装置)に分けてもよく、外部メモリと内部メモリに分けるという分類方法もある。外部記憶装置は、通常、情報を長期間保存できる磁気媒体又は光ディスクなどである。内部記憶装置とは、マザーボード上の記憶部材を指し、現在実行中のデータ及びプログラムを保存するために用いられるが、プログラム及びデータを一時的に保存するためにのみ用いられ、電源切断や停電になった場合、データが失われる。
本出願で提供される幾つかの実施例では、開示される方法及び装置が他の方式により実現されてもよいことを理解されたい。例えば、上記の装置の実施例は、例示的なものに過ぎず、例えば、モジュール又はユニットの区分は、論理機能的区分に過ぎず、実際の実現では、他の区分方式があり得、例えば、複数のユニット又はコンポーネントを組み合わせたり、別のシステムに統合したりしてもよく、又は幾つかの特徴を無視するか実行しなくてもよい。また、表示又は議論される相互結合又は直接結合又は通信接続は、幾つかのインターフェースを介するデバイス又はユニットの間接結合又は通信接続であってもよく、電気的、機械的又は他の形態であってもよい。
分離部材として説明されるユニットは、物理的に分離するものであってもよく又は物理的に分離するものでなくてもよく、ユニットとして表示された部材は、物理ユニットであってもよく又は物理ユニットでなくてもよく、即ち1つの箇所に位置してもよく、又は複数のネットワークユニットに分布してもよい。実際のニーズに応じてその中の一部又は全てのユニットを選択して本実施形態の解決策の目的を達成することができる。
また、本出願の各実施例における各機能ユニットは、1つの処理ユニットに統合されてもよく、各々のユニットが単独で物理的に存在してもよく、2つ又は2つ以上のユニットが1つのユニットに統合されてもよい。上記の統合されたユニットは、ハードウェアの形態で実現されてもよく、ソフトウェア機能ブロックの形態で実現されてもよい。
統合されたユニットが、ソフトウェア機能ユニットの形態で実現され且つ独立した製品として販売又は使用されると、1つのコンピュータ可読記憶媒体に記憶されてもよい。このような理解に基づき、本出願の実施例の技術的解決策の本質的な部分、即ち、従来技術に寄与する部分又は当該技術的解決策の全部又は一部がソフトウェア製品の形で具現されてもよく、当該コンピュータソフトウェア製品は、1つの記憶媒体に記憶され、コンピュータデバイス(パーソナルコンピュータ、システムサーバ、又はネットワークデバイス等であってもよい)又はプロセッサ(processor)に本出願の各実施形態における方法のステップの全部又は一部を実行させるための幾つかの命令を含む。
図6を参照すると、それは本出願の実施例によるコンピュータ可読記憶媒体の概略構造図である。本出願の実施例によるコンピュータ可読記憶媒体には、上記の全てのシーン識別方法を実現できるプログラムファイル61が記憶され、ここで、当該プログラムファイル61は、ソフトウェア製品の形で上記の記憶媒体に記憶されてもよく、コンピュータ(パーソナルコンピュータ、サーバ、又はネットワークデバイスなど)又はプロセッサに本出願の各実施形態における方法のステップの全部又は一部を実行させるための幾つかの命令を含む。前記憶装置は、USBフラッシュドライブ、モバイルハードディスク、読み出し専用メモリ(ROM:Read-Only Memory)、ランダムアクセスメモリ(RAM:Random Access Memory)、磁気ディスク又は光ディスク等、プログラムコードを記憶できる様々な媒体を含み、又は、コンピュータ、サーバ、携帯電話、タブレットコンピュータなどの端末デバイスである。
幾つかの実施例では、本出願の実施例によるコンピュータプログラムは、コンピュータ可読コードを含み、前記コンピュータ可読コードがインテリジェントデバイスで実行されるときに、前記インテリジェントデバイスに、上記の方法を実行させる。
上記は、本出願の実施形態に過ぎず、本出願の特許範囲を限定するものではなく、本出願の明細書及び図面の内容に基づいてなされた同等構造又は同等プロセス変換、又は他の関連する技術分野での直接的又は間接的な適用は、いずれも本出願の特許保護範囲に含まれるものとする。
本出願の実施例は、シーン識別方法及びその装置、インテリジェントデバイス、記憶媒体並びにコンピュータプログラムを提供する。前記シーン識別方法は、処理待ち画像及び前記処理待ち画像に対応するセマンティックマスクマップを取得することであって、前記処理待ち画像は、クエリ画像及び識別待ち画像を含み、前記処理待ち画像に対応するセマンティックマスクマップは、前記クエリ画像のセマンティックマスクマップと前記識別待ち画像のセマンティックマスクマップとを含むことと、前記セマンティックマスクマップに基づいて、前記処理待ち画像に対して特徴統合処理を実行して、前記処理待ち画像の特徴ベクトルを得ることと、前記処理待ち画像の特徴ベクトルを用いて、前記識別待ち画像から前記クエリ画像のシーンとマッチングする画像を決定することと、を含む。本出願の実施例によるシーン識別方法によれば、セマンティックマスクマップと特徴統合方式を組み合わせることで処理待ち画像に対応する特徴を得ることにより、干渉要因の干渉を低減し、シーン識別のロバスト性を向上させることができる。

Claims (14)

  1. インテリジェントデバイスによって実行されるシーン識別方法であって、
    処理待ち画像及び前記処理待ち画像に対応するセマンティックマスクマップを取得することであって、前記処理待ち画像は、クエリ画像及び識別待ち画像を含み、前記処理待ち画像に対応するセマンティックマスクマップは、前記クエリ画像のセマンティックマスクマップと前記識別待ち画像のセマンティックマスクマップとを含む、ことと、
    前記セマンティックマスクマップに基づいて、前記処理待ち画像に対して特徴統合処理を実行して、前記処理待ち画像の特徴ベクトルを得ることと、
    前記処理待ち画像の特徴ベクトルを用いて、前記識別待ち画像から、前記クエリ画像のシーンとマッチングする画像を決定することと、を含む、シーン識別方法。
  2. 前記処理待ち画像及び前記処理待ち画像に対応するセマンティックマスクマップを取得することは、
    前記識別待ち画像及び前記クエリ画像に対してセマンティックセグメンテーション処理を実行して、各画素のカテゴリ及び前記カテゴリに対応する確率を得ることと、
    設定条件に従って、各画素のカテゴリの重みを設定することと、
    前記カテゴリに対応する確率及び前記カテゴリに対応する重みに基づいて各前記画素に対応するセマンティックマスクを得ることであって、全ての前記画素に対応するセマンティックマスクは、セマンティックマスクマップを構成する、ことと、を含む
    請求項1に記載のシーン識別方法。
  3. 前記設定条件に従って、各画素のカテゴリの重みを設定する前に、前記シーン識別方法は、
    全ての画素に対して属性分類を実行して、1つ又は複数のサブカテゴリを得ることと、
    設定条件に従って、各前記サブカテゴリの重みを設定することと、
    前記サブカテゴリに対応する確率及び前記サブカテゴリに対応する重みに基づいて各前記画素に対応するセマンティックマスクを得ることであって、全ての前記画素に対応するセマンティックマスクは、セマンティックマスクマップを構成する、ことと、を更に含む
    請求項2に記載のシーン識別方法。
  4. 前記サブカテゴリは、固定サブカテゴリ、非固定サブカテゴリ、動的サブカテゴリ及び未知サブカテゴリのうちの少なくとも2つを含み、
    前記動的サブカテゴリの重みは、前記固定サブカテゴリ、前記非固定サブカテゴリ及び前記未知サブカテゴリの重みより小さい
    請求項3に記載のシーン識別方法。
  5. 前記サブカテゴリに対応する確率及び前記サブカテゴリに対応する重みに基づいて各前記画素に対応するセマンティックマスクを得ることは、式
    Figure 2023510945000087
    を用いて前記画素に対応するセマンティックマスクを計算することを含み、
    ここで、
    Figure 2023510945000088
    は、
    Figure 2023510945000089
    番目の画素に対応するセマンティックマスクを表し、それによって生成された画像は、セマンティックマスクマップであり、
    Figure 2023510945000090
    は、
    Figure 2023510945000091
    番目の画素が属するサブカテゴリの確率を表し、
    Figure 2023510945000092
    は、
    Figure 2023510945000093
    番目の画素が属するカテゴリ又はサブカテゴリに対応する重みを表す
    請求項4に記載のシーン識別方法。
  6. 前記セマンティックマスクマップに基づいて、前記処理待ち画像に対して特徴統合処理を実行して、前記処理待ち画像の特徴ベクトルを得ることは、
    前記処理待ち画像に対して特徴抽出を実行して、特徴集合を得ることと、
    前記特徴集合に基づいて複数のクラスタ中心を形成することと、
    複数の前記クラスタ中心に基づいて各前記処理待ち画像内の各特徴に対応するクラスタ中心を得ることと、
    第1次元における前記処理待ち画像内の各特徴の対応する値を決定し、前記第1次元における前記処理待ち画像の前記各特徴に対応するクラスタ中心の対応する値を決定することと、
    前記処理待ち画像内の各特徴に対応するクラスタ中心、前記第1次元における前記処理待ち画像内の各特徴に対応するクラスタ中心の対応する値、及び前記第1次元における前記処理待ち画像の前記各特徴の対応する値に基づいて、前記クエリ画像のセマンティックマスクマップと組み合わせて、前記クエリ画像に対して特徴統合処理を実行して、前記クエリ画像の特徴ベクトルを得ることと、
    前記処理待ち画像内の各特徴に対応するクラスタ中心、前記第1次元における前記処理待ち画像内の各特徴に対応するクラスタ中心の対応する値、及び前記第1次元における前記処理待ち画像内の各特徴の対応する値に基づいて、前記識別待ち画像のセマンティックマスクマップと組み合わせて、前記識別待ち画像に対して特徴統合処理を実行して、前記識別待ち画像の特徴ベクトルを得ることと、を含む
    請求項1に記載のシーン識別方法。
  7. 前記特徴集合に基づいて複数のクラスタ中心を形成することは、
    クラスタリングアルゴリズムを用いて前記特徴集合を処理することによって、複数のクラスタ中心を形成することを含み、
    前記複数の前記クラスタ中心に基づいて各前記処理待ち画像内の各特徴に対応するクラスタ中心を得ることは、
    各前記特徴に最も近いクラスタ中心を、前記処理待ち画像内の各特徴に対応するクラスタ中心として使用することを含む
    請求項6に記載のシーン識別方法。
  8. 前記処理待ち画像の特徴ベクトルを用いて、前記識別待ち画像から前記クエリ画像のシーンとマッチングする画像を決定することは、
    前記識別待ち画像の特徴ベクトルと前記クエリ画像の特徴ベクトルとの間の距離に基づいて、前記識別待ち画像から前記クエリ画像シーンとマッチングする画像を決定することを含む
    請求項1-7のいずれか一項に記載のシーン識別方法。
  9. 前記識別待ち画像の特徴ベクトルと前記クエリ画像の特徴ベクトルとの間の距離に基づいて、前記識別待ち画像から前記クエリ画像シーンとマッチングする画像を決定することは、
    前記クエリ画像の特徴ベクトルに最も近い特徴ベクトルに対応する前記識別待ち画像を、前記クエリ画像とマッチングする画像として決定することを含む
    請求項8に記載のシーン識別方法。
  10. 前記識別待ち画像のうち、前記クエリ画像とマッチングする画像の数は複数であり、
    前記クエリ画像の特徴ベクトルに最も近い特徴ベクトルに対応する前記識別待ち画像を、前記クエリ画像とマッチングする画像として決定した後、前記シーン識別方法は、
    空間一致性方法を用いて、前記クエリ画像とマッチングする画像を配列して、前記クエリ画像に最も類似した画像を取得することを更に含む
    請求項9に記載のシーン識別方法。
  11. シーン識別装置であって、
    処理待ち画像及び前記処理待ち画像に対応するセマンティックマスクマップを取得するように構成される取得モジュールであって、前記処理待ち画像は、クエリ画像及び識別待ち画像を含み、前記処理待ち画像に対応するセマンティックマスクマップは、前記クエリ画像のセマンティックマスクマップと前記識別待ち画像のセマンティックマスクマップとを含む、取得モジュールと、
    前記セマンティックマスクマップに基づいて、前記処理待ち画像に対して特徴統合処理を実行して、前記処理待ち画像の特徴ベクトルを得るように構成される特徴統合モジュールと、
    前記処理待ち画像の特徴ベクトルを用いて、前記識別待ち画像から、前記クエリ画像のシーンとマッチングする画像を決定するように構成される画像マッチングモジュールと、を備える、シーン識別装置。
  12. 互いに結合されたメモリ及びプロセッサを備えるインテリジェントデバイスであって、
    前記メモリは、請求項1-10のいずれか一項に記載のシーン識別方法を実現するためのプログラム命令を記憶するように構成される、インテリジェントデバイス。
  13. プログラムファイルが記憶されたコンピュータ可読記憶媒体であって、前記プログラムファイルが実行されるときに、請求項1-10のいずれか一項に記載のシーン識別方法を実現する、コンピュータ可読記憶媒体。
  14. コンピュータ可読コードを含むコンピュータプログラムであって、前記コンピュータ可読コードがインテリジェントデバイスで実行されるときに、前記インテリジェントデバイスのプロセッサに、請求項1-10のいずれか一項に記載のシーン識別方法を実行させる、コンピュータプログラム。
JP2022543759A 2020-11-10 2021-07-16 シーン識別方法及びその装置、インテリジェントデバイス、記憶媒体並びにコンピュータプログラム Withdrawn JP2023510945A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202011249944.4 2020-11-10
CN202011249944.4A CN112329660B (zh) 2020-11-10 2020-11-10 一种场景识别方法、装置、智能设备及存储介质
PCT/CN2021/106936 WO2022100133A1 (zh) 2020-11-10 2021-07-16 场景识别方法、装置、智能设备、存储介质和计算机程序

Publications (1)

Publication Number Publication Date
JP2023510945A true JP2023510945A (ja) 2023-03-15

Family

ID=74317739

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022543759A Withdrawn JP2023510945A (ja) 2020-11-10 2021-07-16 シーン識別方法及びその装置、インテリジェントデバイス、記憶媒体並びにコンピュータプログラム

Country Status (3)

Country Link
JP (1) JP2023510945A (ja)
CN (1) CN112329660B (ja)
WO (1) WO2022100133A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112329660B (zh) * 2020-11-10 2024-05-24 浙江商汤科技开发有限公司 一种场景识别方法、装置、智能设备及存储介质
CN113393515B (zh) * 2021-05-21 2023-09-19 杭州易现先进科技有限公司 一种结合场景标注信息的视觉定位方法和系统
CN117009532B (zh) * 2023-09-21 2023-12-19 腾讯科技(深圳)有限公司 语义类型识别方法、装置、计算机可读介质及电子设备
CN118660137B (zh) * 2024-08-16 2024-10-18 杭州瀛诚科技有限公司 智能楼宇监控系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8891908B2 (en) * 2012-11-14 2014-11-18 Nec Laboratories America, Inc. Semantic-aware co-indexing for near-duplicate image retrieval
CN105335757A (zh) * 2015-11-03 2016-02-17 电子科技大学 一种基于局部特征聚合描述符的车型识别方法
JP6965343B2 (ja) * 2016-10-31 2021-11-10 コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド 制御フィードバックを用いる画像セグメンテーションの方法及びシステム
CN107239535A (zh) * 2017-05-31 2017-10-10 北京小米移动软件有限公司 相似图片检索方法及装置
CN107871143B (zh) * 2017-11-15 2019-06-28 深圳云天励飞技术有限公司 图像识别方法及装置、计算机装置和计算机可读存储介质
CN108710847B (zh) * 2018-05-15 2020-11-27 北京旷视科技有限公司 场景识别方法、装置及电子设备
SG11202013059VA (en) * 2018-09-15 2021-02-25 Beijing Sensetime Technology Development Co Ltd Image processing method, electronic device, and storage medium
CN109829383B (zh) * 2018-12-29 2024-03-15 平安科技(深圳)有限公司 掌纹识别方法、装置和计算机设备
CN111027493B (zh) * 2019-12-13 2022-05-20 电子科技大学 一种基于深度学习多网络软融合的行人检测方法
CN111709398B (zh) * 2020-07-13 2024-08-20 腾讯科技(深圳)有限公司 一种图像识别的方法、图像识别模型的训练方法及装置
CN112329660B (zh) * 2020-11-10 2024-05-24 浙江商汤科技开发有限公司 一种场景识别方法、装置、智能设备及存储介质

Also Published As

Publication number Publication date
CN112329660A (zh) 2021-02-05
WO2022100133A1 (zh) 2022-05-19
CN112329660B (zh) 2024-05-24

Similar Documents

Publication Publication Date Title
US11238065B1 (en) Systems and methods for generating and implementing knowledge graphs for knowledge representation and analysis
CN111489358B (zh) 一种基于深度学习的三维点云语义分割方法
JP2023510945A (ja) シーン識別方法及びその装置、インテリジェントデバイス、記憶媒体並びにコンピュータプログラム
CN107577990B (zh) 一种基于gpu加速检索的大规模人脸识别方法
Komorowski Improving point cloud based place recognition with ranking-based loss and large batch training
US10366304B2 (en) Localization and mapping method
CN109359725B (zh) 卷积神经网络模型的训练方法、装置、设备及计算机可读存储介质
WO2021022521A1 (zh) 数据处理的方法、训练神经网络模型的方法及设备
CN109658445A (zh) 网络训练方法、增量建图方法、定位方法、装置及设备
CN113011329A (zh) 一种基于多尺度特征金字塔网络及密集人群计数方法
CN107924452B (zh) 用于图像中的脸部对准的组合形状回归
CN111310821B (zh) 多视图特征融合方法、系统、计算机设备及存储介质
CN109934258B (zh) 特征加权和区域整合的图像检索方法
CN103226585A (zh) 面向图像检索的自适应哈希重排方法
CN110334628B (zh) 一种基于结构化随机森林的室外单目图像深度估计方法
CN111709317B (zh) 一种基于显著性模型下多尺度特征的行人重识别方法
CN110751027A (zh) 一种基于深度多示例学习的行人重识别方法
JP7085600B2 (ja) 画像間の類似度を利用した類似領域強調方法およびシステム
US20240193790A1 (en) Data processing method and apparatus, electronic device, storage medium, and program product
CN116777727B (zh) 存算一体芯片、图像处理方法、电子设备及存储介质
CN111291611A (zh) 一种基于贝叶斯查询扩展的行人重识别方法及装置
CN114743139A (zh) 视频场景检索方法、装置、电子设备及可读存储介质
CN111597367B (zh) 基于视图和哈希算法的三维模型检索方法
CN108549915A (zh) 基于二值权重的图像哈希码训练模型算法及分类学习方法
CN106469437B (zh) 图像处理方法和图像处理装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220719

A761 Written withdrawal of application

Free format text: JAPANESE INTERMEDIATE CODE: A761

Effective date: 20230214