JP2020522077A - 画像特徴の取得 - Google Patents

画像特徴の取得 Download PDF

Info

Publication number
JP2020522077A
JP2020522077A JP2019566310A JP2019566310A JP2020522077A JP 2020522077 A JP2020522077 A JP 2020522077A JP 2019566310 A JP2019566310 A JP 2019566310A JP 2019566310 A JP2019566310 A JP 2019566310A JP 2020522077 A JP2020522077 A JP 2020522077A
Authority
JP
Japan
Prior art keywords
image
classification model
category
training
verification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2019566310A
Other languages
English (en)
Other versions
JP6862579B2 (ja
Inventor
麗萍 康
麗萍 康
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Publication of JP2020522077A publication Critical patent/JP2020522077A/ja
Application granted granted Critical
Publication of JP6862579B2 publication Critical patent/JP6862579B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/248Character recognition characterised by the processing or recognition method involving plural approaches, e.g. verification by template match; Resolving confusion among similar patterns, e.g. "O" versus "Q"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Image Analysis (AREA)

Abstract

本発明は画像特徴の取得方法及び対応する装置を提供する。前記方法の一例によれば、予め設定されたカテゴリのトレーニング画像を用いて分類モデルをトレーニングすることができ、そして前記トレーニング画像に基づいて類似画像ペアを決定することができ、検証画像を用いて前記分類モデルの分類結果をテストすることにより、前記非類似画像ペアを決定することができ、前記類似画像ペアと前記非類似画像ペアに基づいて前記分類モデルを最適化する。このようにして、最適化された前記分類モデルによって画像の特徴を取得することができる。

Description

<関連出願への相互参照>
本出願は、2017年7月20日に出願され、出願番号が201710598221.7であり、発明の名称が「画像特徴の取得方法及び装置、電子装置」である中国特許出願の優先権を主張し、該出願の全内容が引用により本明細書に組み込まれる。
本出願は画像特徴の取得に関する。
製品の画像特徴は、ビジネスロジック又は関連モデルのトレーニングへの参加に用いられてもよく、検索、推奨などの異なるサービスで広く応用されている。製品の画像特徴を取得する主な方法は分類モデルトレーニングである。例えば、分類モデルの特徴表現層から抽出された特徴を画像特徴とすることができる。製品画像の属するカテゴリの数が多い場合、分類モデルの精度が低くなるため、抽出された画像特徴が異なるカテゴリの製品画像に対する表現能力が弱くなる可能性がある。
本出願は、取得された画像特徴の画像に対する表現能力をできるだけ向上させるための方法を提供する。
上記問題を解決するために、本発明の第一の態様による画像特徴の取得方法は、予め設定されたカテゴリのトレーニング画像を用いて分類モデルをトレーニングすることと、検証画像を用いて前記分類モデルの分類結果をテストし、非類似画像ペアを決定することと、前記トレーニング画像に基づいて類似画像ペアを決定することと、前記類似画像ペアと前記非類似画像ペアに基づいて前記分類モデルを最適化することと、前記最適化された分類モデルを用いて画像特徴を取得することを含む。
本発明の第二の態様による画像特徴の取得装置は、予め設定されたカテゴリのトレーニング画像を用いて分類モデルをトレーニングするための分類モデルトレーニングモジュールと、検証画像を用い、前記分類モデルトレーニングモジュールによってトレーニングされた分類モデルの分類結果をテストし、非類似画像ペアを決定するための非類似画像ペア決定モジュールと、前記トレーニング画像に基づいて類似画像ペアを決定するための類似画像ペア決定モジュールと、前記類似画像ペアと前記非類似画像ペアに基づいて前記分類モデルを最適化するための分類モデル最適化モジュールと、最適化された前記分類モデルを用いて画像特徴を取得するための画像特徴の取得モジュールを備える。
本発明の第三の態様による電子装置は、メモリ、プロセッサ及び前記メモリに記憶され且つプロセッサで実行可能なコンピュータプログラムを備えるものであり、前記プロセッサによって前記コンピュータプログラムを実行する時に上記画像特徴の取得方法が実現されることを特徴とする。
本発明の第四の態様によるコンピュータプログラムを記憶するコンピュータ可読記憶媒体は、該プログラムがプロセッサによって実行される時に上記画像特徴の取得方法のステップが実現される。
本出願の実施例で開示される画像特徴の取得方法では、予め設定されたカテゴリのトレーニング画像を用いて分類モデルをトレーニングし、前記トレーニング画像を用いて類似画像ペアを決定し、検証画像を用いて前記分類モデルの分類結果をテストし、前記分類モデルが比較的混同しやすい非類似画像ペアを決定し、前記類似画像ペアと非類似画像ペアに基づいて前記分類モデルを最適化する。そして最適化された前記分類モデルを用いて画像特徴を取得することにより、取得された画像特徴の画像表現能力を効果的に向上させることができる。初期のトレーニングされた分類モデルによる検証画像の分類結果に基づき、混同しやすい製品画像カテゴリを決定し、混同しやすい製品画像カテゴリに基づいて非類似画像ペアを構成することにより、類似画像ペアと非類似画像ペアを前記トレーニングサンプルとして組み合わせて前記初期のトレーニングされた分類モデルを調整及び最適化することができ、それによって製品画像のより正確な特徴表現を取得することができる。
本出願の実施例における技術的解決策をより明確に説明するために、以下に実施例又は従来技術の説明に必要な図面を簡単に説明するが、明らかに、以下に説明される図面は本出願のいくつかの実施例のみであり、当業者であれば、創造的な労力を要することなく、これらの図面に基づいて他の図面を取得することができる。
本出願の一実施例における画像特徴の取得方法のフローチャートである。 本出願の一実施例における生成された混同マトリックスの模式図である。 本出願の一実施例における画像特徴の取得装置の構造模式図である。 本出願の別の実施例における画像特徴の取得装置の構造模式図である。
以下に本出願の実施例の図面を組み合わせて本出願の実施例における技術的解決策を明確且つ完全に説明する。明らかに、説明される実施例は本出願の実施例の一部のみであり、全ての実施例ではない。本出願の実施例に基づき、当業者が創造的な労力を要せずに得られる他の実施例は、全て本出願の保護範囲に属する。
本実施例で開示される画像特徴の取得方法は、図1に示すように、ステップ100〜ステップ140を含むことができる。
ステップ100において、予め設定されたカテゴリのトレーニング画像によって分類モデルをトレーニングする。
例えば、ディープコンボリューションニューラルネットワークモデルに基づいて、分類モデルをトレーニングすることができる。分類モデルは、製品画像に基づいて製品のカテゴリを識別するモデルである。分類モデルをトレーニングする場合、多くのカテゴリの製品画像をトレーニング画像とすることができる。前記製品画像は料理注文プラットフォームの料理画像であってもよいし、衣料品販売プラットフォームの衣料品画像であってもよいし、旅行相談プラットフォームの景勝地画像などであってもよい。ディープコンボリューションニューラルネットワークのモデルに基づくトレーニング画像のフォーマットは(label、image)であってもよい。ここで、labelは画像のカテゴリラベルであり、imageは製品画像である。ディープコンボリューションニューラルネットワークに基づいて異なるカテゴリの画像を学習することにより、製品モデルのパラメータをトレーニングし、各トレーニング画像の最適な特徴表現を取得することができる。さらに、トレーニングして得られた分類モデルを用いて他の識別される画像を分類することができる。
ステップ110において、検証画像を用いて前記分類モデルの分類結果をテストすることにより、前記分類モデルが比較的混同しやすい非類似画像ペアを決定する。
トレーニングして得られた分類モデルは入力された製品画像を分類することに用いられてもよい。しかし、前記分類モデルをトレーニングする時に使用されるトレーニング画像はカテゴリラベルが手動で設定され、又はユーザによって製品画像をアップロードする時にカテゴリラベルが設定され、ラベルが正確ではない場合がある可能性がある。さらに、分類モデルをトレーニングする時にクラス間分散最大化のみを考慮する。したがって、トレーニングして得られた分類モデルは分類が正確ではないという現象がある可能性があり、検証データを用いて前記分類モデルを最適化する必要がある可能性がある。
前記検証画像はトレーニング画像と同じカテゴリ、例えば、500個のカテゴリを有することができる。各カテゴリには複数の製品画像が含まれてもよく、各製品画像に真のカテゴリラベルが設定されてもよい。真のカテゴリラベルが設定された検証画像をステップ100でトレーニングして得られた分類モデルに入力し、前記分類モデルによって各検証画像のカテゴリを識別する。その後、前記分類モデルから出力された各カテゴリの分類結果を分析し、混同マトリックスを構成することができる。混同マトリックスの各列は予測カテゴリを表し、各列の総数は該予測カテゴリとして識別された製品画像の数を表し、各行は製品画像の真のカテゴリを表し、各行の総数は該真のカテゴリに属する製品画像の数を表す。各列の値は該予測カテゴリとして識別された真のカテゴリの数を表す。混同マトリックスには、分類モデルによって混同されたカテゴリが記録される。
さらに、混同マトリックスにおけるデータに対してクラスタリング分析を行うことにより、前記分類モデルが混同しやすいカテゴリを取得することができる。その後、前記分類モデルが比較的混同しやすいカテゴリから画像を選択し、非類似画像ペアを2つずつ構成する。例えば、比較的混同しやすい2個のカテゴリにおける検証画像を選択して非類似画像ペアを構成することができる。
ステップ120では、前記予め設定されたカテゴリのトレーニング画像に基づいて類似画像ペアを決定する。
分類モデルをトレーニングする時に使用される訓練画像に基づき、類似画像ペアを取得することができる。例えば、各カテゴリの前記トレーニング画像から複数の画像をそれぞれランダムに選択し、類似画像ペアを2つずつ構成する。
ステップ130では、前記類似画像ペアと前記非類似画像ペアに基づいて前記分類モデルを最適化する。
前記類似画像ペアと前記非類似画像ペアを入力とすると、クラス間分散最大化且つクラス内分散最小化に基づいて前記分類モデルを最適化することができる。例えば、Inception及びsiameseネットワークに基づくマルチタスクモデルを構成し、前記類似画像ペアと前記非類似画像ペアを用いてInceptionネットワークに基づく分類モデルのパラメータを微調整し、前記分類モデルの特徴表現能力を備える各層、例えば、特徴表現層fc1層又はカテゴリ出力層fc2層を最適化することができる。モデルトレーニングタスクが完了した場合、Inceptionネットワークの各層のパラメータは最適であってもよい。言い換えれば、Inceptionネットワークに基づく分類モデルの特徴表現層(即ち、fc1層)又はカテゴリ出力層(即ち、fc2層)は製品画像の特徴を最も良く表現することができる。
ステップ140では、最適化された前記分類モデルを用いて画像特徴を取得する。
処理される画像、即ち、特徴が抽出される画像が最適化された前記分類モデルに入力すると、前記分類モデルによって識別した後、分類モデルの各層が対応するパラメータを出力し、これにより、特徴表現能力を備える層のパラメータに基づいて前記処理される画像の画像特徴を決定することができる。
本出願の実施例で開示される画像特徴の取得方法では、予め設定されたカテゴリのトレーニング画像を用いて分類モデルをトレーニングし、検証画像を用いて前記分類モデルの分類結果をテストし、前記分類モデルが比較的混同しやすい非類似画像ペアを決定し、前記トレーニング画像に基づいて類似画像ペアを決定する。そして前記類似画像ペアと前記非類似画像ペアに基づいて前記分類モデルを最適化することにより、最適化された前記分類モデルを用いて画像特徴を取得することができ、それによって取得された画像特徴の画像表現能力を効果的に向上させることができる。ここで、検証画像に対する分類結果に基づき、初期のトレーニングされた分類モデルによって混同された製品画像を決定し、比較的混同しやすい製品画像カテゴリに基づいて非類似画像ペアを構成することにより、非類似画像ペアと類似画像ペアを組み合わせて前記初期のトレーニングされた分類モデルを調整及び最適化することができ、製品画像のより正確な特徴表現を取得することができる。
予め設定されたカテゴリのトレーニング画像によって分類モデルをトレーニングすることは、クラス間分散最大化の考えに基づき、予め設定されたカテゴリのトレーニング画像を用いてディープコンボリューションニューラルネットワークに基づく分類モデルをトレーニングすることを含むことができる。
例えば、5000個のカテゴリのトレーニング画像を撮影でき、各カテゴリのトレーニング画像は10000枚の製品画像を含む。各製品画像にカテゴリラベルが手動で設定された後、カテゴリラベルが設定された製品画像を(label、image)フォーマットのトレーニングデータとして生成して、ディープコンボリューションニューラルネットワークへの入力とすることができる。
同時に、クラス間分散最大化の考えに基づき、ディープコンボリューションニューラルネットワークに基づくマルチタスクモデルを構成し、分類モデルをトレーニングすることができる。例えば、インセプション(Inception)ディープ学習ネットワークに基づくマルチタスクモデルを用いて分類モデルをトレーニングし、SoftmaxLossをカテゴリ識別の損失関数として選択し、クラス間分散を増大させる観点から画像特徴を説明することができる。この場合、5000個のカテゴリのトレーニング画像で構成されたトレーニングデータを入力とし、分類モデルをトレーニングすることができる。各トレーニング画像が該分類モデルを通過すると各層のパラメータを取得することができる。ここで、fc1層は特徴表現層とすることができ、例えば、21841次元ベクトルであってもよく、fc2層はカテゴリ出力層とすることができ、例えば、5000次元ベクトルであってもよい。各次元は該トレーニング画像が該カテゴリとして分類される確率を表す。インセプション(Inception)ディープ学習ネットワークに基づくマルチタスクモデルを用いて分類モデルをトレーニングする具体的な方法については、当業者によく知られている任意の関連技術を参照することができるので、ここでは詳細な説明を省略する。
前記ステップ110では、検証画像を用いて前記分類モデルの分類結果をテストすることにより、前記分類モデルが比較的混同しやすい非類似画像ペアを決定することは、前記分類モデルを用いて検証画像を分類することにより、混同マトリックスを取得することと、混同マトリックスに対してクラスタリング分析を行い、混同しやすいカテゴリを決定することと、決定された混同しやすいカテゴリに基づいて非類似画像ペアを構成することを含むことができる。
前記分類モデルを用いて検証画像を分類することにより、混同マトリックスを取得することは、前記分類モデルを用いて検証画像を分類することにより、各検証画像の予測カテゴリを取得することと、全ての検証画像の真のカテゴリと予測カテゴリに基づいて、混同マトリックスを構成することを含むことができる。ここで、前記混同マトリックスの各行における各値は、異なるカテゴリに分類される行に対応するカテゴリの検証画像の数である。
前記検証画像はトレーニング画像のカテゴリと同様のカテゴリを含むことができ、各カテゴリに複数の製品画像が含まれ、各製品画像に真のカテゴリラベルが設定される。トレーニング画像が5000個のカテゴリを含むことを例にとると、検証画像は同様の5000個のカテゴリを含み、各カテゴリに40枚の画像があり、各画像に真のカテゴリラベルが設定される。真のカテゴリラベルが設定された検証画像を初期のトレーニングされた分類モデルに入力し、前記分類モデルによって各検証画像の予測カテゴリを識別することができる。
次に、各カテゴリにおける検証画像の分類結果を分析し、混同マトリックスを構成することができる。検証画像がN個のカテゴリを含む場合、前記混同マトリックスは一つのN*Nのマトリックスである。混同マトリックスの各列は予測カテゴリを表し、各列の総数は該予測カテゴリとして識別された検証画像の数を表し、各行は検証画像の真のカテゴリを表し、各行の総数は該カテゴリの検証画像の数を表す。各列の値は該予測カテゴリとして識別された真のカテゴリの数を表すことができる。
検証画像が5000個のカテゴリを含み、カテゴリラベルが1−5000であることを例にとる。各カテゴリに40枚の検証画像が含まれると仮定すると、図2に示すように、混同マトリックスは一つの5000*5000のマトリックスである。ここで、列210は検証画像の真のカテゴリラベルを表し、行220は分類モデルによって検証画像を識別して得られた予測カテゴリラベルを表す。各カテゴリに合計40枚の検証画像があるため、各行の和は40である。マトリックス要素230は真のカテゴリが1で、予測カテゴリが1である検証画像の数が25であることを表す。混同マトリックスには、分類モデルによって混同されたカテゴリが記録される。
混同マトリックスに対してクラスタリング分析を行い、混同しやすいカテゴリを決定することは、スペクトルクラスタリング方法により前記混同マトリックスをクラスタリングし、複数のクラスターを取得することを含むことができる。ここで、スペクトルクラスタリングの基本的な考えは、サンプルデータ間の類似度マトリックス(ラプラスマトリックス)を用いて特徴分解を行うことである。各クラスターには少なくとも一個のカテゴリが含まれ、そして少なくとも2個のカテゴリを含むクラスターにおけるカテゴリを互いに混同しやすいカテゴリとして決定することができる。
混同マトリックスFを例にとると、混同マトリックスに対してクラスタリング分析を行うプロセスは以下のように具体的に説明される。まず、混同マトリックスFを用いて距離マトリックスMを構成することができる。式は以下のとおりである。
ここで、Iは単位マトリックスである。
次に、距離マトリックスMを用いてラプラシアンマトリックス(Laplacian Matrix)Lを構成することができる。
ラプラシアンマトリックスLを構成する時に、先に距離マトリックスMを用いて隣接マトリックスWを構成することができ、
ここで、tは距離マトリックスMにおける距離が最も小さい先頭のt個の位置情報のみを残し、その他をいずれも0にすることを表す。距離値が小さいほど、混同マトリックスFにおける対応する値が大きくなり、分類モデルに混同される確率が大きくなることを意味する。例えば、予測カテゴリBとして識別された真のカテゴリAのサンプルの数は多い。
次に、隣接マトリックスWの各列の要素を加算してN個の数を取得することができる。ここで、Nは分類モデルをトレーニングする時に使用されるトレーニング画像のカテゴリ数に等しい。このN個の数を次数マトリックスDの対角線に置き、次数マトリックスDの他の位置の要素をいずれも0にすることにより、一つのN×Nの対角マトリックスを取得する。
次に、隣接マトリックスWと次数マトリックスDで構成してラプラシアンマトリックスLを取得することができる。式は以下のとおりである。
次に、ラプラシアンマトリックスLに対して特徴分解を行うことにより、Lの先頭のk個の特徴値
及び対応する特徴ベクトル
を求めることができる。k個の特徴ベクトルを一緒に配列して一つのN×kのマトリックスを構成し、その中の各行をk次元スペースにおける一つのベクトルと見なされる。即ち、各行を一つのK次元ベクトルとし、N個の特徴ベクトルを一緒に配列してN個のK次元ベクトルを取得する。ここで、NはラプラシアンマトリックスLの行数であり、分類モデルをトレーニングする時に使用されるトレーニング画像のカテゴリ数に等しい。
ラプラシアンマトリックスに対して特徴分解を行う場合、次元削減方式で次元を削減することができる。最大特徴値に対応する特徴ベクトル方向に最も多くの情報が含まれる。いくつかの特徴ベクトル方向における情報量が少ない場合、次元削減を行うことができる。例えば、特徴値が最も小さい特徴ベクトル方向におけるデータを削除し、特徴値が大きい特徴ベクトル方向におけるデータのみを残すことができるので、有用な情報の量は大きく変化しない。その後、K−meansアルゴリズムを用いてN個のK次元ベクトルをクラスタリングし、最初のN個のカテゴリを異なるクラスターにマッピングすることができる。
混同マトリックスに対してスペクトルクラスタリング分析を行うことにより、画像が混同しやすいカテゴリを1個のカテゴリとしてクラスタリングすることができる。クラスタリング結果が230個のクラスターであることを例にとると、各クラスターに少なくとも一個のカテゴリが含まれる。各クラスターにおけるカテゴリは製品画像を識別する時に互いに混同しやすいカテゴリである。例えば、あるクラスターにカテゴリ1、カテゴリ500が含まれる場合、カテゴリ1の製品画像はカテゴリ500として分類モデルによって容易に識別される。
決定された混同しやすいカテゴリに基づいて非類似画像ペアを構成する。
スペクトルクラスタリング方法により混同マトリックスに対してクラスタリング分析を行うことにより、複数のクラスターのクラスタリング結果、例えば、230個のクラスターを取得することができる。各クラスターにおけるカテゴリが製品画像を分類して識別する時に互いに混同しやすいカテゴリであるため、同一のクラスターにおける混同しやすいカテゴリに属する検証画像を用いて非類似画像ペアを構成することができる。
クラスタリングして得られたクラスターがクラスター1、クラスター2とクラスター3を含み、クラスター1に1個のカテゴリが含まれ、クラスター2に4個のカテゴリが含まれ、クラスター3に5個のカテゴリが含まれることを例として、非類似画像ペアを構成するために発生する可能性がある以下の2つのケースを説明する。
第一のケースでは、カテゴリ数が2よりも大きいクラスターに対して、該クラスターにおける異なるカテゴリの画像を選択して非類似画像ペアを構成することができる。例えば、まず該クラスターにおける異なるカテゴリを選択してカテゴリペアを構成し、次にカテゴリごとに少なくとも一枚の検証画像をランダムに選択し、異なるカテゴリの2枚の検証画像で一つの非類似画像ペアを構成することができる。クラスター2に含まれる4個のカテゴリがカテゴリ3、カテゴリ4、カテゴリ7、カテゴリ30である場合、クラスター2に対して6個のカテゴリペア(3、4)、(3、7)、(3、30)、(4、7)、(4、30)と(7、30)を取得することができる。その後、得られた6個のカテゴリペアに対して、その中の各カテゴリに対応する少なくとも一枚の検証画像をそれぞれ取り、異なるカテゴリの2枚の検証画像で一つの非類似画像ペアを構成する。例えば、カテゴリペア(3、4)に対して、検証画像におけるカテゴリ3の画像1と画像2を撮影し、検証画像におけるカテゴリ4の画像15と画像8を撮影し、その後、画像1と画像15で一つの非類似画像ペアを構成し、画像2と画像8で一つの類似画像ペアを構成することができる。
第二のケースでは、一個のカテゴリのみを含むクラスターに対して、該クラスターにおけるカテゴリと他のカテゴリにおけるランダムに選択されたQ個のカテゴリの画像を選択して非類似画像ペアを構成することができる。ここで、Qは具体的なニーズに応じて決定されてもよい。例えば、あるクラスターにおけるカテゴリがQ個よりも少ない場合、該クラスターにおける全てのカテゴリを取ることができる。Qが10であることを例にとる。クラスター1がカテゴリ5を含むと仮定すると、クラスター1におけるカテゴリ5の検証画像とクラスター2におけるカテゴリ3、カテゴリ4、カテゴリ7、カテゴリ30の検証画像を選択して非類似画像ペアを構成することができる。
前記ステップ120では、前記トレーニング画像に基づいて類似画像ペアを決定する場合、前記各カテゴリのトレーニング画像から複数の画像をそれぞれランダムに選択し、類似画像ペアを2つずつ構成することができる。トレーニング画像が5000個のカテゴリを含むことを例にとると、カテゴリごとに60枚の画像をランダムに選択し、類似画像ペアを2つずつ構成し、各カテゴリでは30個の類似画像ペアを取得することができる。5000個のカテゴリのトレーニング画像に基づき、150000個の類似画像ペアを取得することができる。
次に、前記類似画像ペアと前記非類似画像ペアを用いて前記分類モデルを最適化し、最適化された前記分類モデルによって画像特徴を取得することができる。
前記ステップ130では、前記類似画像ペアと前記非類似画像ペアに基づいて前記分類モデルを最適化することは、前記類似画像ペアと前記非類似画像ペアを用い、クラス間分散最大化且つクラス内分散最小化の考えに基づいて、前記分類モデルを最適化することを含むことができる。まず画像ペアに基づくディープコンボリューションニューラルネットワークモデル、例えば、Inception及びsiameseネットワークに基づくマルチタスクモデルを構成することができる。softmaxLossは分類に応用され、得られた予測カテゴリと画像の真のカテゴリの間の距離を測定することができる。例えば、インセプション(Inception)モデルの初期パラメータは前記分類モデルのパラメータであってもよい。ContrastiveLossはsiameseに応用され、画像ペアの予測カテゴリの類似度と真の類似度の間の距離を測定することができる。インセプション(Inception)ネットワークモデルは、SoftmaxLossをカテゴリ識別の損失関数として選択し、クラス間分散を増大させる観点から画像特徴を説明することができる。
siameseネットワークモデルの基本モデルは依然としてインセプション(Inception)ネットワークである。そのため、siameseネットワークモデルの一部の層の初期パラメータはインセプション(Inception)モデルの初期パラメータと同じであってもよく、siameseネットワークモデルの固有の層の初期パラメータはランダムに初期化されてもよい。siameseネットワークモデルはContrastiveLoss損失関数を用いることができ、これにより非類似画像ペアの距離を測定する以外に、類似画像ペアの距離を測定する。SoftmaxLossのみを用いて異なるカテゴリの間の画像距離を測定するインセプション(Inception)ネットワークモデルと比較して、siameseネットワークモデルはクラス内分散を縮小させる観点から画像間の類似度をさらに説明することができる。
前記分類モデルを最適化するプロセスは、前記分類モデルで得られた各層のパラメータに基づいて二回のトレーニングを行うプロセス、即ち、前記分類モデルの各層のパラメータをさらにトレーニングし、調整及び最適化するプロセスと考えてもよい。例えば、各類似画像ペアと各非類似画像ペアは、それぞれフォーマット(img1、label1;img2、label2;if_similar)のトレーニングデータを生成し、インセプション(Inception)ネットワークとsiameseネットワークに基づくマルチタスクモデルに入力することができる。ここで、前記マルチタスクモデルのタスクは、インセプション(Inception)ネットワークの損失関数(SoftmaxLoss)とsiameseネットワークの損失関数(ContrastiveLoss)を最小にすることである。
モデルトレーニングタスクが完了した場合、インセプション(Inception)ネットワークの各層のパラメータは最適であってもよい。ここで、インセプション(Inception)ネットワークモデルの特徴表現層(即ち、fc1層)のパラメータが最適化された場合、インセプション(Inception)ネットワークモデルの特徴表現層から出力された特徴ベクトルの製品画像に対する特徴表現能力が最適であることを示すことができる。インセプション(Inception)ネットワークモデルのカテゴリ出力層(即ち、fc2層)のパラメータが最適化された場合、インセプション(Inception)ネットワークモデルのカテゴリ出力層から出力された特徴ベクトルで表現される製品画像分類結果が最適であることを示すことができる。
上記ステップ140では、最適化された前記分類モデルによって画像特徴を取得することは、処理される画像が最適化された分類モデルの入力とし、前記最適化された分類モデルの特徴表現能力を備える層の出力に基づいて前記処理画像の特徴を取得することを含むことができる。最適化された前記分類モデルの特徴表現能力を備える層の出力に基づいて、入力画像の画像特徴を決定することができる。例えば、5000個のカテゴリの画像ペアを入力とすることを例にとると、モデルトレーニングタスクが完了した場合、fc1層の出力を選択して入力画像の画像特徴を決定すると、インセプション(Inception)ネットワークのfc1層から出力された2184次元の特徴ベクトルを入力画像の画像特徴とすることができ、fc2層の出力に基づいて入力画像の画像特徴を決定することを選択する場合、fc2層から出力された5000次元の特徴ベクトルを入力画像の画像特徴とすることができる。前記5000次元の特徴ベクトルの各次元は、入力画像が該カテゴリに分類される確率を表す。また、具体的なサービスニーズに応じて、インセプション(Inception)ネットワークのfc1層又はfc2層の出力に基づいて製品の画像特徴を決定することを選択することができる。
本出願の実施例で開示される画像特徴の取得方法では、まず、大規模の製品画像を用いてディープコンボリューションニューラルネットワークに基づく分類モデルを予めトレーニングし、クラス間分散が大きい画像特徴表現を取得し、次に、予めトレーニングされた分類モデルの検証データセットにおける分類結果を用いて構成された混同マトリックスに対してスペクトルクラスタリング分析を行うことにより、混同しやすい製品カテゴリを一個のクラスターにクラスタリングする。そして同一のクラスターにおける混同しやすい製品カテゴリを用いて非類似画像ペアを構成し、同一のカテゴリのトレーニング画像を用いて類似画像ペアを構成することができ、次に、類似画像ペアと非類似画像ペアを用いて分類及び類似度比較のためのマルチタスクモデルの共同最適化を行う。このようにして、混同しやすいカテゴリのクラス間分散をさらに増大させるとともに、類似画像ペアを用いてディープコンボリューションニューラルネットワークの共有パラメータに対する更新及び学習を実現することができ、それによってクラス内分散を効果的に縮小させ、画像の分類モデルの画像特徴表現能力を向上させることができる。
本実施例で開示される画像特徴の取得装置では、図3に示すように、前記装置は、予め設定されたカテゴリのトレーニング画像に基づいて分類モデルをトレーニングするための分類モデルトレーニングモジュール300と、検証画像を用い、前記分類モデルトレーニングモジュール300によってトレーニングされた分類モデルの分類結果をテストすることにより、前記分類モデルが比較的混同しやすい非類似画像ペアを決定するための非類似画像ペア決定モジュール310と、前記トレーニング画像に基づいて類似画像ペアを決定するための類似画像ペア決定モジュール320と、前記類似画像ペアと前記非類似画像ペアに基づいて前記分類モデルを最適化するための分類モデル最適化モジュール330と、最適化された前記分類モデルを用いて入力画像の画像特徴を取得するための画像特徴の取得モジュール340を備える。
図4に示すように、前記非類似画像ペア決定モジュール310は前記分類モデルを用いて検証画像を分類することにより、混同マトリックスを取得するための混同マトリックス取得ユニット3101と、混同マトリックスに対してクラスタリング分析を行い、混同しやすいカテゴリを決定するための混同しやすいカテゴリの決定ユニット3102と、前記混同しやすいカテゴリに属する検証画像に基づき、非類似画像ペアを構成するための非類似画像構成ユニット3103とを含むことができる。
前記混同マトリックス取得ユニット3101はさらに前記分類モデルを用いて検証画像を分類することにより、各検証画像の予測カテゴリを取得し、全ての検証画像の真のカテゴリと予測カテゴリに基づいて、混同マトリックスを構成するために用いられてもよい。ここで、前記混同マトリックスの各行における各列の値は、異なるカテゴリに区分される該行に対応するカテゴリの検証画像の数である。
前記混同しやすいカテゴリの決定ユニット3102は、さらに前記混同マトリックスをクラスタリングし、複数のクラスターを取得する。ここで、各クラスターに少なくとも一個のカテゴリが含まれ、そして少なくとも2個のカテゴリを含むクラスターにおけるカテゴリを互いに混同しやすいカテゴリとして決定するために用いられてもよい。
前記分類モデル最適化モジュール330は、さらに前記類似画像ペアと前記非類似画像ペアを用い、クラス間分散最大化且つクラス内分散最小化の考えに基づいて前記分類モデルを最適化するために用いられてもよい。
前記分類モデルトレーニングモジュール300は、さらにクラス間分散最大化の考えに基づき、予め設定されたカテゴリのトレーニング画像を用いてディープコンボリューションニューラルネットワークに基づく分類モデルをトレーニングするために用いられてもよい。
前記画像特徴の取得モジュール340は、さらに処理される画像が最適化された分類モデルの入力とし、前記最適化された分類モデルの特徴表現能力を備える層の出力を前記処理される画像の特徴として取得するために用いられてもよい。
本出願の実施例で開示される画像特徴の取得装置では、予め設定されたカテゴリのトレーニング画像を用いて分類モデルをトレーニングし、検証画像を用いて前記分類モデルの分類結果をテストし、前記分類モデルが比較的混同しやすい非類似画像ペアを決定し、前記トレーニング画像を用いて決定された類似画像ペアと前記非類似画像ペアに基づいて前記分類モデルを最適化することにより、最適化された前記分類モデルを用いて画像特徴を取得し、さらに取得された画像特徴の画像表現能力を効果的に向上させることができる。
本出願の実施例で開示される画像特徴の取得装置では、大規模の製品画像を用いてディープコンボリューションニューラルネットワークに基づく分類モデルを予めトレーニングすることにより、クラス間分散が大きい画像特徴表現を取得することができる。ディープコンボリューションニューラルネットワークに基づく分類モデルの検証データセットにおける分類結果に対して構成された混同マトリックスに対してスペクトルクラスタリング分析を行い、混同しやすい製品カテゴリを一個のクラスターにクラスタリングする。そして同一のクラスターにおける混同しやすい製品カテゴリを用いて非類似画像ペアを構成することにより、同一のカテゴリのトレーニング画像を用いて構成された類似画像ペアと前記非類似画像ペアに対してマルチタスクモデルの共同最適化を行うことができ、それによって混同しやすいカテゴリのクラス間分散をさらに増大させるとともに、クラス内分散を縮小させることができ、さらに分類モデルの画像に対する特徴表現能力を効果的に向上させることができる。
それに対応して、本出願による電子装置は、メモリ、プロセッサ及び前記メモリに記憶され且つプロセッサで実行可能なコンピュータプログラムを備え、前記プロセッサが前記コンピュータプログラムを実行する時に上述した画像特徴の取得方法が実現される。前記電子装置はPC、移動端末、パーソナルデジタルアシスタント、タブレットコンピュータなどであってもよい。
本出願によるコンピュータ可読記憶媒体は、コンピュータプログラムを記憶し、該コンピュータプログラムがプロセッサによって実行される時に上述した画像特徴の取得方法のステップが実現される。
本明細書における各実施例は漸進的に説明されており、各実施例において主に説明された内容は他の実施例との相違点であり、各実施例の間の類似する部分は互いに参照すればよい。装置の実施例については、それは方法の実施例とほぼ同じであるため、説明は比較的簡単であるので、関連する内容は方法の実施例の部分の説明を参照すればよい。
以上、本出願による画像特徴の取得方法及び装置を詳しく説明し、本明細書において具体的な例を応用して本出願の原理及び実施形態を説明した。以上の実施例の説明は本出願の方法及びそのコア思想の理解を助けるためのものだけに使用される。同時に、当業者であれば、本出願の思想に基づき、具体的な実施形態及び応用範囲において変更を行うことができ、上述したように、本明細書の内容は本出願を限定するものと理解すべきではない。
当業者は、以上の実施形態の説明により、各実施形態がソフトウェアと必要な汎用ハードウェアプラットフォームを組み合わせることで実現されてもよく、当然のことながら、ハードウェアで実現されてもよいことを明確に理解することができる。このような理解に基づき、上記技術的解決策は実質的に、又は従来技術に寄与する部分はソフトウェア製品の形態で表現されてもよく、該コンピュータソフトウェア製品がコンピュータ可読記憶媒体、例えば、ROM/RAM、磁気ディスク、光ディスクなどに記憶されてもよく、コンピュータ装置(パーソナルコンピュータ、サーバ、又はネットワーク装置などであってもよい)に各実施例又は実施例のいくつかの部分に記載の方法を実行させるための複数のコマンドを含む。

Claims (10)

  1. 画像特徴の取得方法であって、
    予め設定されたカテゴリのトレーニング画像を用いて分類モデルをトレーニングすることと、
    検証画像を用いて前記分類モデルの分類結果をテストすることにより、非類似画像ペアを決定することと、
    前記トレーニング画像に基づいて類似画像ペアを決定することと、
    前記類似画像ペアと前記非類似画像ペアに基づいて前記分類モデルを最適化することと、
    前記最適化された分類モデルを用いて画像特徴を取得することを含む、前記画像特徴の取得方法。
  2. 前記検証画像を用いて前記分類モデルの分類結果をテストすることにより、非類似画像ペアを決定することは、
    前記分類モデルを用いて前記検証画像を分類することにより、混同マトリックスを取得することと、
    前記混同マトリックスに対してクラスタリング分析を行い、混同しやすいカテゴリを決定することと、
    前記混同しやすいカテゴリに属する前記検証画像に基づき、前記非類似画像ペアを構成することを含むことを特徴とする
    請求項1に記載の方法。
  3. 前記分類モデルを用いて前記検証画像を分類することにより、前記混同マトリックスを取得することは、
    前記分類モデルを用いて前記検証画像を分類することにより、各前記検証画像の予測カテゴリを取得することと、
    各前記検証画像の真のカテゴリと予測カテゴリに基づき、前記混同マトリックスを構成することを含み、
    ここで、前記混同マトリックスの各行における各列の値は、異なるカテゴリに分類される行に対応するカテゴリの検証画像の数であることを特徴とする
    請求項2に記載の方法。
  4. 前記混同マトリックスに対してクラスタリング分析を行い、前記混同しやすいカテゴリを決定するステップは、
    前記混同マトリックスに対しスペクトルクラスタリング分析を行うことにより、各クラスターに少なくとも一個のカテゴリが含まれる複数のクラスターを取得することと、
    少なくとも2個のカテゴリを含むクラスターにおけるカテゴリを前記混同しやすいカテゴリとして決定することを含むことを特徴とする
    請求項2に記載の方法。
  5. 前記類似画像ペアと前記非類似画像ペアに基づいて前記分類モデルを最適化することは、
    クラス間分散最大化且つクラス内分散最小化の考えに基づき、前記類似画像ペアと前記非類似画像ペアを用いて前記分類モデルを最適化することを含むことを特徴とする
    請求項1に記載の方法。
  6. 予め設定された前記トレーニング画像を用いて前記分類モデルをトレーニングすることは、
    クラス間分散最大化の考えに基づき、予め設定されたカテゴリの前記トレーニング画像を用いてディープコンボリューションニューラルネットワークに基づく分類モデルをトレーニングすることを含むことを特徴とする
    請求項1に記載の方法。
  7. 前記最適化された分類モデルを用いて画像特徴を取得することは、
    処理される画像を前記最適化された分類モデルの入力とすることと、
    前記最適化された分類モデルの特徴表現能力を備える層の出力を前記処理される画像の特徴として取得することを含むことを特徴とする
    請求項1に記載の方法。
  8. 画像特徴の取得装置であって、
    予め設定されたカテゴリのトレーニング画像を用いて分類モデルをトレーニングするための分類モデルトレーニングモジュールと、
    検証画像を用い、前記分類モデルトレーニングモジュールによってトレーニングされた分類モデルの分類結果をテストし、非類似画像ペアを決定するための非類似画像ペア決定モジュールと、
    前記トレーニング画像に基づいて類似画像ペアを決定するための類似画像ペア決定モジュールと、
    前記類似画像ペアと前記非類似画像ペアに基づいて前記分類モデルを最適化するための分類モデル最適化モデルと、
    最適化された前記分類モデルを用いて画像特徴を取得するための画像特徴の取得モジュールを備える、前記画像特徴の取得モジュール。
  9. メモリ、プロセッサ及び前記メモリに記憶され且つプロセッサで実行可能なコンピュータプログラムを備える電子装置であって、前記プロセッサが前記コンピュータプログラムを実行する時に請求項1−7のいずれか一項に記載の画像特徴の取得方法が実現される、前記電子装置。
  10. コンピュータプログラムを記憶するコンピュータ可読記憶媒体であって、前記プログラムがプロセッサによって実行される時に請求項1−7のいずれか一項に記載の画像特徴の取得方法のステップが実現される前記コンピュータ可読記憶媒体。
JP2019566310A 2017-07-20 2017-12-20 画像特徴の取得 Active JP6862579B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710598221.7A CN107688823B (zh) 2017-07-20 2017-07-20 一种图像特征获取方法及装置,电子设备
CN201710598221.7 2017-07-20
PCT/CN2017/117447 WO2019015246A1 (zh) 2017-07-20 2017-12-20 图像特征获取

Publications (2)

Publication Number Publication Date
JP2020522077A true JP2020522077A (ja) 2020-07-27
JP6862579B2 JP6862579B2 (ja) 2021-04-21

Family

ID=61152895

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019566310A Active JP6862579B2 (ja) 2017-07-20 2017-12-20 画像特徴の取得

Country Status (8)

Country Link
US (1) US11282295B2 (ja)
EP (1) EP3657392A4 (ja)
JP (1) JP6862579B2 (ja)
KR (1) KR102252081B1 (ja)
CN (1) CN107688823B (ja)
CA (1) CA3066029A1 (ja)
TW (1) TWI677852B (ja)
WO (1) WO2019015246A1 (ja)

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108665441B (zh) * 2018-03-30 2019-09-17 北京三快在线科技有限公司 一种近似重复图像检测方法及装置,电子设备
US11593610B2 (en) * 2018-04-25 2023-02-28 Metropolitan Airports Commission Airport noise classification method and system
CN109029420A (zh) * 2018-06-08 2018-12-18 南京思百易信息科技有限公司 一种多维图像阶段处理的识别定位系统
CN109117862B (zh) * 2018-06-29 2019-06-21 北京达佳互联信息技术有限公司 图像标签识别方法、装置及服务器
CN109189767B (zh) * 2018-08-01 2021-07-23 北京三快在线科技有限公司 数据处理方法、装置、电子设备及存储介质
CN109269493A (zh) * 2018-08-31 2019-01-25 北京三快在线科技有限公司 一种定位方法及装置、移动设备和计算机可读存储介质
US10262214B1 (en) * 2018-09-05 2019-04-16 StradVision, Inc. Learning method, learning device for detecting lane by using CNN and testing method, testing device using the same
CN111008294B (zh) * 2018-10-08 2023-06-20 阿里巴巴集团控股有限公司 交通图像处理、图像检索方法及装置
CN109522939B (zh) * 2018-10-26 2024-05-07 平安科技(深圳)有限公司 图像分类方法、终端设备及计算机可读存储介质
CN111310520B (zh) * 2018-12-11 2023-11-21 阿里巴巴集团控股有限公司 菜品识别方法、收银方法、菜品催单方法及相关装置
CN110276382B (zh) * 2019-05-30 2023-12-22 平安科技(深圳)有限公司 基于谱聚类的人群分类方法、装置及介质
CN110362677B (zh) * 2019-05-31 2022-12-27 平安科技(深圳)有限公司 文本数据类别的识别方法及装置、存储介质、计算机设备
CN110276411B (zh) * 2019-06-28 2022-11-18 腾讯科技(深圳)有限公司 图像分类方法、装置、设备、存储介质和医疗电子设备
CN110348537B (zh) * 2019-07-18 2022-11-29 北京市商汤科技开发有限公司 图像处理方法及装置、电子设备和存储介质
CN110852194B (zh) * 2019-10-23 2021-02-02 北京三快在线科技有限公司 图像获取方法、装置、电子设备及存储介质
CN112906724A (zh) * 2019-11-19 2021-06-04 华为技术有限公司 一种图像处理装置、方法、介质及系统
CN111163294A (zh) * 2020-01-03 2020-05-15 重庆特斯联智慧科技股份有限公司 一种人工智能目标识别的建筑安全通道监测系统和方法
TWI765250B (zh) * 2020-04-17 2022-05-21 鴻海精密工業股份有限公司 深度學習演算法的選擇方法及深度學習演算法的選擇裝置
CN113537446A (zh) * 2020-04-17 2021-10-22 富泰华工业(深圳)有限公司 深度学习算法的选择方法及深度学习算法的选择装置
CN111461255B (zh) * 2020-04-20 2022-07-05 武汉大学 一种基于间隔分布的Siamese网络图像识别方法及系统
WO2022025568A1 (ko) * 2020-07-27 2022-02-03 옴니어스 주식회사 멀티 태스크 러닝을 이용하여 상품의 속성을 인식하는 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
US11681997B2 (en) * 2021-09-30 2023-06-20 Toshiba Global Commerce Solutions Holdings Corporation Computer vision grouping recognition system
CN114155388B (zh) * 2022-02-10 2022-05-13 深圳思谋信息科技有限公司 一种图像识别方法、装置、计算机设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013250809A (ja) * 2012-05-31 2013-12-12 Casio Comput Co Ltd 多クラス識別器、方法、およびプログラム
JP2016024503A (ja) * 2014-07-16 2016-02-08 日本電信電話株式会社 クラス分類装置、方法、及びプログラム
JP2017027600A (ja) * 2015-07-23 2017-02-02 株式会社リコー 手振り識別方法と装置

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU7115400A (en) * 1999-08-31 2001-03-26 Accenture Llp System, method, and article of manufacture for a voice recognition system for identity authentication in order to gain access to data on the internet
US8311344B2 (en) 2008-02-15 2012-11-13 Digitalsmiths, Inc. Systems and methods for semantically classifying shots in video
CN102117411B (zh) * 2009-12-30 2015-03-11 日电(中国)有限公司 用于构建多级别分类模型的方法和系统
CN101859326B (zh) 2010-06-09 2012-04-18 南京大学 一种图像检索方法
US9501714B2 (en) * 2010-10-29 2016-11-22 Qualcomm Incorporated Systems and methods to improve feature generation in object recognition
CN102054178B (zh) * 2011-01-20 2016-08-17 北京联合大学 一种基于局部语义概念的国画图像识别方法
CN103839279A (zh) * 2014-03-18 2014-06-04 湖州师范学院 一种目标检测中基于vibe的粘连目标分割方法
CN103955718A (zh) * 2014-05-15 2014-07-30 厦门美图之家科技有限公司 一种图像主体对象的识别方法
CN105335368B (zh) 2014-06-06 2018-11-16 阿里巴巴集团控股有限公司 一种产品聚类方法及装置
CN104268552B (zh) 2014-09-04 2017-06-13 电子科技大学 一种基于部件多边形的精细类别分类方法
CN104268570B (zh) * 2014-09-19 2017-10-20 北京理工大学 一种基于类内差异的层次化单分类舰船目标虚警剔除方法
CN104680516B (zh) 2015-01-08 2017-09-29 南京邮电大学 一种图像优质特征匹配集的获取方法
US9836839B2 (en) 2015-05-28 2017-12-05 Tokitae Llc Image analysis systems and related methods
US9965717B2 (en) * 2015-11-13 2018-05-08 Adobe Systems Incorporated Learning image representation by distilling from multi-task networks
CN106383891B (zh) * 2016-09-22 2019-04-23 重庆理工大学 一种基于深度哈希的医学图像分布式检索方法
CN106897390B (zh) 2017-01-24 2019-10-15 北京大学 基于深度度量学习的目标精确检索方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013250809A (ja) * 2012-05-31 2013-12-12 Casio Comput Co Ltd 多クラス識別器、方法、およびプログラム
JP2016024503A (ja) * 2014-07-16 2016-02-08 日本電信電話株式会社 クラス分類装置、方法、及びプログラム
JP2017027600A (ja) * 2015-07-23 2017-02-02 株式会社リコー 手振り識別方法と装置

Also Published As

Publication number Publication date
EP3657392A1 (en) 2020-05-27
CN107688823B (zh) 2018-12-04
TWI677852B (zh) 2019-11-21
KR102252081B1 (ko) 2021-05-14
TW201909112A (zh) 2019-03-01
US11282295B2 (en) 2022-03-22
CN107688823A (zh) 2018-02-13
JP6862579B2 (ja) 2021-04-21
CA3066029A1 (en) 2019-01-24
EP3657392A4 (en) 2020-07-08
WO2019015246A1 (zh) 2019-01-24
KR20190140031A (ko) 2019-12-18
US20200293840A1 (en) 2020-09-17

Similar Documents

Publication Publication Date Title
JP6862579B2 (ja) 画像特徴の取得
CN110070067B (zh) 视频分类方法及其模型的训练方法、装置和电子设备
CN105144239B (zh) 图像处理装置、图像处理方法
CN109145766B (zh) 模型训练方法、装置、识别方法、电子设备及存储介质
WO2020114378A1 (zh) 视频水印的识别方法、装置、设备及存储介质
CN109919252B (zh) 利用少数标注图像生成分类器的方法
JP5214760B2 (ja) 学習装置、方法及びプログラム
CN111950528B (zh) 图表识别模型训练方法以及装置
JP6029041B2 (ja) 顔印象度推定方法、装置、及びプログラム
CN105721936B (zh) 一种基于情景感知的智能电视节目推荐系统
US20200065560A1 (en) Signal retrieval apparatus, method, and program
WO2020190480A1 (en) Classifying an input data set within a data category using multiple data recognition tools
JP5214679B2 (ja) 学習装置、方法及びプログラム
CN111325237A (zh) 一种基于注意力交互机制的图像识别方法
CN111340213B (zh) 神经网络的训练方法、电子设备、存储介质
CN112052816A (zh) 基于自适应图卷积对抗网络的人体行为预测方法及系统
CN117197559A (zh) 基于深度学习的猪肉分类模型、构建方法、电子设备和计算机可读介质
CN113139540B (zh) 背板检测方法及设备
Guntuku et al. Evaluating visual and textual features for predicting user ‘likes’
David et al. Authentication of Vincent van Gogh’s work
CN114022698A (zh) 一种基于二叉树结构的多标签行为识别方法及装置
Onal Ertugrul et al. Encoding the local connectivity patterns of fMRI for cognitive task and state classification
Humphries et al. Spectral estimation for detecting low-dimensional structure in networks using arbitrary null models
Fadaeddini et al. Data augmentation using fast converging CIELAB-GAN for efficient deep learning dataset generation
US20240104915A1 (en) Long duration structured video action segmentation

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210209

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210302

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210331

R150 Certificate of patent or registration of utility model

Ref document number: 6862579

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250