JP7338690B2 - 学習装置、学習方法、推論装置、推論方法、及び、プログラム - Google Patents

学習装置、学習方法、推論装置、推論方法、及び、プログラム Download PDF

Info

Publication number
JP7338690B2
JP7338690B2 JP2021546155A JP2021546155A JP7338690B2 JP 7338690 B2 JP7338690 B2 JP 7338690B2 JP 2021546155 A JP2021546155 A JP 2021546155A JP 2021546155 A JP2021546155 A JP 2021546155A JP 7338690 B2 JP7338690 B2 JP 7338690B2
Authority
JP
Japan
Prior art keywords
image data
metric
metric space
inference
case
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021546155A
Other languages
English (en)
Other versions
JPWO2021053815A1 (ja
JPWO2021053815A5 (ja
Inventor
あずさ 澤田
壮馬 白石
剛志 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021053815A1 publication Critical patent/JPWO2021053815A1/ja
Publication of JPWO2021053815A5 publication Critical patent/JPWO2021053815A5/ja
Application granted granted Critical
Publication of JP7338690B2 publication Critical patent/JP7338690B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)

Description

本発明は、画像に含まれる物体を認識する技術に関する。
カメラ等の撮像装置で取得された画像中の対象物体を認識する物体認識技術が知られている。例えば、特許文献1及び非特許文献1には、ニューラルネットワークを用いて学習及び識別を行う物体認識技術が記載されている。
上記の物体認識技術における学習では、識別対象として予め登録されたカテゴリ(登録カテゴリ)のいずれかに属する物体の画像が所定の識別モデルに入力され、属するカテゴリについての識別スコアが高くなるように、識別モデルの学習が行われる。識別モデルの学習後、カテゴリが未知である物体の画像が学習済みの識別モデルに入力された場合には、登録カテゴリそれぞれについての識別スコアが上記の識別モデルから出力される。また、非特許文献1には、識別スコアに対して所定の閾値を設け、識別スコアが上記閾値を下回る場合には、登録カテゴリの物体を検出できなかったとして識別結果をリジェクトする点についても記載されている。
国際公開 WO2008/126790号公報
Karen Simomyan,and Andrew Zisserman、"Very Deep Convolutional Networks for Large-Scale Image Recognition" ICLR,2015.
しかし、上記の手法は、未登録カテゴリの識別対象をリジェクトするだけであり、識別することはできない。また、学習時に使用した画像のドメイン(環境)以外では識別性能が大幅に低下してしまう。
本発明の1つの目的は、様々な環境で取得された画像に対応し、未登録カテゴリの識別対象についても認識結果を出力できるようにすることにある。
上記の課題を解決するため、本発明の一つの観点では、学習装置は、
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習手段と、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する事例記憶手段と、を備える。
本発明の他の観点では、学習方法は、
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する。
本発明のさらに他の観点では、プログラムは、
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する処理をコンピュータに実行させるプログラム
本発明のさらに他の観点では、推論装置は、
異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶手段と、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択手段と、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別手段と、
前記識別手段による識別結果を出力する結果出力手段と、を備える。
本発明のさらに他の観点では、推論方法は、
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する。
本発明のさらに他の観点では、プログラムは、
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する処理をコンピュータに実行させる
本発明によれば、様々な環境で取得された画像に対応し、未登録カテゴリの識別対象についても認識結果を出力することが可能となる。
認識対象について事例辞書を作成する方法を説明する図である。 最適な計量空間を選択する方法を説明する図である。 第1実施形態に係る物体認識装置のハードウェア構成を示すブロック図である。 学習のための物体認識装置の機能構成を示すブロック図である。 学習のための物体認識装置による学習処理のフローチャートである。 推論のための物体認識装置の機能構成を示すブロック図である。 推論のための物体認識装置による推論処理のフローチャートである。 第2実施形態に係る学習装置及び推論装置の構成を示すブロック図である。
以下、図面を参照して、本発明の好適な実施形態について説明する。
[基本原理]
まず、実施形態の物体認識方法の基本原理を説明する。本実施形態では、それまで認識対象としていたクラス(以下、「既存クラス」と呼ぶ。)に加えて、新たなクラス(以下、「新クラス」と呼ぶ。)を認識する必要が生じた場合に、新クラスに対応する事例を登録した事例データ(以下、「事例辞書」とも呼ぶ。)を作成し、事例辞書を参照して新クラスの対象を認識する。また、既存クラスの認識対象についても、新たな環境での認識精度の低下を防止するため、複数の計量空間を用意し、最適な計量空間を用いて認識を行う。
(1)事例辞書の作成
図1は、新クラスを含む認識対象について事例辞書を作成する方法を示す。いま、既存クラスとして「警察官」及び「歩行者」があり、新クラスとして「消防士」の認識を行いたいと仮定する。まず、属性情報などが付与された画像データを用いて、計量空間を学習する。具体的には、様々な人物の公開画像データセットなどを利用して、属性情報が付与された人物の画像データを取得する。なお、「属性情報」とは、画像データに写っている人物属性であり、例えば、その人物の年齢、性別、身長、付帯物(持ち物や身に着けている物など)が挙げられる。図1の例では、認識対象となる「警察官」、「歩行者」及び「消防士」について、様々な属性の画像データを取得する。
そして、取得した画像データを用いて計量空間(距離空間)を学習する。図1は、ある人物属性に基づいて学習された計量空間10を示す。計量空間10は、画像データから抽出された特徴ベクトル(計量)により規定される空間であり、類似する画像データ同士は近い距離に位置し、類似しない画像データ同士は遠い距離に位置する性質を有するように学習される。具体的には、ある人物属性(例えば、帽子をかぶっている)を有する人物の公開画像データセットを取得し、それらについて特徴ベクトルを算出し、得られた特徴ベクトルに基づいて計量空間が学習される。なお、「計量空間を学習する」とは、実際には、ニューラルネットワークなどを用いた識別モデルを用意し、各画像データの入力に対して当該モデルが生成する特徴ベクトルが上記の性質を有するように、当該モデルを学習することを指す。また、学習により得られた計量空間は、学習済の識別モデルのパラメータにより規定されることになる。
計量空間の学習が終了すると、次に、既存クラスの画像データから特徴ベクトルを生成し、計量空間10に事例として埋め込む。計量空間10では、類似する画像データ同士は近い距離に位置するので、図示のように、既存クラス「警察官」の画像データ同士はマーク11で示すように計量空間10上で近くに位置し、既存クラス「歩行者」の画像データ同士はマーク12で示すように計量空間10上で近くに位置する。一方、マーク11で示す「警察官」と、マーク12で示す「歩行者」は計量空間10上で離れて位置する。こうして、既存クラスの画像データを計量空間10に事例として埋め込む。なお、「事例として埋め込む」とは、実際には、その画像から抽出された特徴ベクトルを、その計量空間10と関連付けて記憶することを指す。
次に、新クラスについても、同様に計量空間10上に事例を埋め込む。具体的には、新クラス「消防士」の画像データから特徴ベクトルを抽出し、計量空間10上に事例として埋め込む。これにより、新クラス「消防士」の画像データは、マーク13で示すように、計量空間10上で相互に近い位置に配置され、かつ、他のクラス「警察官」や「歩行者」から離れて配置される。こうして、計量空間10上では、同一クラスの事例同士は近くに位置し、異なるクラスの事例同士は離れて位置するようになる。
こうして計量空間10上に事例が埋め込まれると、これらの事例を参照して、画像データのクラスを識別することができるようになる。例えば、図1に示すように、ある人物の画像データ15が入力された場合に、その画像データ15の特徴ベクトルを抽出して計量空間10上の位置を算出する。図1の例では、画像データ15の特徴ベクトルはクラス「消防士」の事例が集まっている領域に属するので、その画像データのクラスは「消防士」であると認識することができる。このように、認識対象として新クラスが追加された場合でも、既存クラス及び新クラスの事例を計量空間上に埋め込んで事例辞書を作成することにより、新クラスの認識が可能となる。
なお、図1には、ある人物属性について学習された1つの計量空間を例示しているが、実際には、異なる人物属性の複数の組み合わせについて、それぞれ計量空間10を学習し、学習された計量空間10に事例を埋め込んで事例辞書を作成する。事例辞書には、複数の計量空間についての事例が登録される。
(2)事例辞書を用いた推論
さて、作成された事例辞書を利用して物体認識を行う際には、そのときの環境(ドメイン)に最も適した計量空間を選択し、その計量空間を用いて物体認識を行う。図2は、最適な計量空間を選択する方法を説明する図である。前述のように、事例辞書は、異なる人物属性の組み合わせに対応する複数の計量空間についての事例を含む。いま、事例辞書には、図2に示すように、属性「付帯物」及び「年齢」についての計量空間10aと、属性「付帯物」及び「性別」についての計量空間10bと、属性「付帯物」及び「身長」についての計量空間10cと、属性「身長」、「年齢」、「性別」についての計量空間10dのそれぞれについて事例が記憶されているものとする。
ここで、最適な計量空間を選択するために、既存クラスの複数の事例を用いて、これらの計量空間10a~10dを評価する。図2の例では、評価用データとして、既存クラス「警察官」についての既存ドメイン(ソースドメイン)の評価用データ及びターゲットドメインの少数データと、既存クラス「歩行者」についての既存ドメインの評価用データ及びターゲットドメインの少数データを用意する。これらの評価用データには、クラス情報などの教師ラベルが用意されているものとする。上記の評価用データについて、各計量空間10a~10dの事例を参照して認識処理を行い、その結果を、予め用意されている教師ラベルと比較して一致度を算出する。そして、最も一致度の高い計量空間を、最適な計量空間10xとして選択する。このように、複数の計量空間から最適な計量空間を選択することにより、ターゲットドメインにおける認識精度を向上させることができる。なお、実際の処理としては、選択された計量空間を規定する識別モデルを用いて、ターゲットドメインの画像データの認識を行うことになる。
[第1実施形態]
次に、本発明の第1実施形態について説明する。
(ハードウェア構成)
図3は、第1実施形態に係る物体認識装置のハードウェア構成を示すブロック図である。図示のように、物体認識装置100は、インタフェース102と、プロセッサ103と、メモリ104と、記録媒体105と、データベース(DB)106と、表示部107と、を備える。
インタフェース102は、外部装置との間でデータの入出力を行う。具体的に、物体認識装置100の学習や推論に用いられる画像データがインタフェース102を通じて入力され、物体認識装置100による認識結果がインタフェース102を通じて外部装置へ出力される。
プロセッサ103は、CPU(Central Processing Unit)、又はCPUとGPU(Graphics Processing Uit)などのコンピュータであり、予め用意されたプログラムを実行することにより、物体認識装置100の全体を制御する。具体的に、プロセッサ103は、後述する学習処理及び推論処理を実行する。
メモリ104は、ROM(Read Only Memory)、RAM(Random Access Memory)などにより構成される。メモリ104は、物体認識装置100が使用する物体認識のためのモデルを記憶する。メモリ104は、プロセッサ103により実行される各種のプログラムを記憶する。また、メモリ104は、プロセッサ103による各種の処理の実行中に作業メモリとしても使用される。
記録媒体105は、ディスク状記録媒体、半導体メモリなどの不揮発性で非一時的な記録媒体であり、物体認識装置100に対して着脱可能に構成される。記録媒体105は、プロセッサ103が実行する各種のプログラムを記録している。物体認識装置100が各種の処理を実行する際には、記録媒体105に記録されているプログラムがメモリ104にロードされ、プロセッサ103により実行される。
データベース106は、外部から入力される画像データを記憶する。具体的には、物体認識装置100の学習に使用される画像データなどが記憶される。また、データベース106は、学習処理により作成された事例辞書を格納する。表示部107は、例えば液晶表示装置などであり、物体認識装置100による認識結果や、それに関連する付加情報などを表示する。なお、上記に加えて、物体認識装置100は、ユーザが指示や入力を行うためのキーボード、マウスなどの入力機器を備えていても良い。
(学習のための機能構成)
次に、物体認識装置100の学習のための機能構成について説明する。図4は、学習のための物体認識装置100Aの機能構成を示すブロック図である。図示のように、物体認識装置100Aは、ラベル選択部111と、計量空間学習部112と、画像摂動部113と、計量算出部114と、特徴摂動部115と、事例埋め込み部116とを備える。
物体認識装置100Aには、計量学習用のデータとして、付加情報121と、教師ラベル122と、画像データ123とが入力される。なお、「計量学習用のデータ」とは、計量空間を学習するためのデータである。画像データ123は、計量空間を学習するために必要な学習用の画像データであり、例えば前述の公開画像データセットなどを使用することができる。教師ラベル122は、画像データ123に紐づく教師ラベルであり、例えば、人物の属性情報やクラス情報などである。ここで、属性情報としては、年齢、性別、身長、付帯物、服装などが挙げられ、クラス情報としては、個人ID、職業(警察官、消防士)などが挙げられる。付加情報121は、画像データ123と教師ラベル122を登録する際に、その情報の理解を助けるために追加の情報として付加される情報である。付加情報121の例としては、撮影時刻、撮影に用いるカメラの俯角などの情報、環境情報(気温、緯度・経度、屋内/屋外)などが挙げられる。なお、後述するように、計量学習用の画像データ123及び教師ラベル122は、必要に応じて事例登録用にも使用される。
また、物体認識装置100Aには、事例登録用のデータとして、教師ラベル124と、画像データ125と、付加情報126とが入力される。「事例登録用のデータ」とは、事例辞書を作成するためのデータである。画像データ125は、事例を登録するために必要な学習用の画像データであり、識別したいクラス毎に画像データが用意される。教師ラベル124は、画像データ125に紐づく教師ラベルであり、例えばクラス情報などである。付加情報126は、画像データ125と教師ラベル124を登録する際に、それらの情報の理解を助けるために追加の情報として付加される情報である。付加情報126の例としては、撮影時刻、撮影に用いるカメラの俯角などの情報、環境情報(気温、緯度・経度、屋内/屋外)などが挙げられる。
ラベル選択部111は、計量空間を学習する際に、教師ラベル122から、属性などを示す教師ラベルを選択する。ラベル選択部111は、選択方法としては、ランダムに複数の教師ラベルを選択してもよいし、情報エントロピーなどを用いて選んだ教師ラベルが相補的な情報となるように複数の教師ラベルを選択してもよい。ラベル選択部111は、選んだ教師ラベルの組み合わせの集合を計量空間学習部112に出力する。ラベル選択部111は、本発明の属性決定部の一例である。
計量空間学習部112は、計量学習用の画像データ123と、ラベル選択部111で選択された教師ラベルとに基づいて計量空間を学習する。具体的には、計量空間学習部112は、ラベル選択部111で選択された教師ラベルの各クラスが最も良く識別できるような距離空間を学習する。即ち、計量空間学習部112は、図1に示したように、同一クラス同士が近くに集まり、異なるクラスが離れて位置するように計量空間を学習する。実際には、画像データから畳み込みにより特徴を抽出して識別を行う識別モデルにおいて、最終的な識別を行う直前の段階で得られる特徴ベクトルを計量として用いればよい。例えば、VGGなどのCNN(Convolutional Neural Network)のモデルにおける全結合層で得られる特徴ベクトルを用いればよい。こうして学習された計量空間は、計量算出部114と事例埋め込み部116に出力される。なお、実際には、計量空間として、学習された識別モデルのパラメータが出力される。
画像摂動部113には、計量学習用の画像データ123及び付加情報121、並びに、事例登録用の画像データ125及び付加情報126が入力される。なお、ここでは、画像摂動部113に入力された計量学習用の画像データ123は、事例登録用として使用されている。画像摂動部113は、計量学習用の画像データ123や事例登録用の画像データ125を摂動させる。具体的には、画像摂動部113は、元の画像に対して、幾何変形、画像圧縮、ボケやノイズの付与、明度や彩度などの変更などにより、敵対的摂動を与える。なお、付加情報により、摂動のパラメータが推定できる場合には、画像摂動部113はそのパラメータの範囲内でのみ画像を摂動させればよい。例えば、付加情報に含まれるカメラの俯角から幾何変形のパラメータが推定できる場合には、画像摂動部113は、そのパラメータの範囲内で幾何変形を行えばよい。画像摂動により、学習に使用する画像データ数を実質的に増加させることができる。摂動された画像データは、計量算出部114に出力される。
計量算出部114には、計量空間学習部112から学習済みの計量空間が与えられ、画像摂動部113から摂動後の画像データが入力される。計量算出部114は、摂動後の画像データから、計量に相当する特徴ベクトルを算出する。即ち、計量算出部114は、画像摂動された各画像データを事例とし、計量空間学習部112が学習した計量空間上における各事例の位置を算出する。これにより、事例登録用の画像データ125が、図1に示すように計量空間上に配置される。実際には、計量空間学習部112は、計量空間学習部112が学習した計量空間を示す識別モデルを用いて、摂動後の各画像データから特徴ベクトルを抽出する。摂動後の各画像データから抽出された特徴ベクトルは特徴摂動部115に出力される。
特徴摂動部115は、計量算出部114で得られた各画像データの特徴ベクトルを摂動させる。即ち、特徴摂動部115は、計量算出部114で得られた各画像データの特徴ベクトルから、画像上での変化が一定の範囲内において、計量空間上で最も遠い距離に存在する特徴ベクトルを新たな事例として生成する。これにより、計量算出部114が計量空間上に配置した事例の周辺に複数の事例を追加し、計量空間における各クラスの領域を広げることができる。特徴摂動部115は、摂動により生成した特徴ベクトルと、摂動を施す前の特徴ベクトル、即ち、計量算出部114から入力された特徴ベクトルとを事例埋め込み部116に出力する。
事例埋め込み部116は、特徴摂動部115から入力された特徴ベクトル、即ち、特徴摂動の前後の特徴ベクトルを事例として計量空間に埋め込む。具体的には、事例埋め込み部116は、特徴摂動部115から入力された特徴ベクトルを事例として計量空間に関連付け、事例辞書127に登録する。その際、事例埋め込み部116は、各事例に紐づけて、教師ラベル122、124と、付加情報121、126も登録する。さらに、事例埋め込み部116は、計量空間に埋め込まれる事例に対応する画像データとして、代表的な画像データを登録してもよい。こうして、複数のラベル(属性)の組み合わせ毎に、対応する計量空間についての事例を登録した事例辞書127が作成される。具体的には、事例辞書127には、複数の計量空間を規定する情報と、各計量空間に埋め込まれた事例とが記憶される。ここで、「計量空間を規定する情報」とは、実際には学習された識別モデルのパラメータであり、「各計量空間に埋め込まれた事例」とは、その計量空間における特徴ベクトルである。なお、事例辞書127は本発明の事例記憶部の一例である。
(学習処理)
次に、上記の学習処理の流れを説明する。図5は、学習のための物体認識装置100Aによる学習処理のフローチャートである。この処理は、図3に示すプロセッサ103が、予め用意されたプログラムを実行することにより実施される。
まず、ラベル選択部111は、属性やクラスを含む教師ラベルを選択する(ステップS11)。計量空間学習部112は、計量学習用の画像データ123及び教師ラベル122を用いて、ステップS11で選択されたラベルの組み合わせについて計量空間を学習する(ステップS12)。
次に、画像摂動部113は、事例登録用の画像データ125を摂動し、摂動後の画像データを計量算出部114に出力する。計量算出部114は、摂動後の画像データの特徴ベクトルを算出し(ステップS14)、特徴摂動部115は、算出された特徴ベクトルを摂動する(ステップS15)。こうして、画像の摂動及び特徴の摂動により、登録用画像データから複数の特徴ベクトルが得られる。事例埋め込み部116は、得られた特徴ベクトルを事例として計量空間に関連付けて記憶することにより、事例辞書127を作成する(ステップS16)。こうして、学習処理は終了する。これにより、属性の1つの組み合わせに対する計量空間について、事例が事例辞書127に登録される。
物体認識装置100Aは、ラベル選択部111が選択するラベルを変えることにより、別の属性の組み合わせについても同様に計量空間を学習し、事例を埋め込んで事例辞書127に登録する。こうして、図2に例示するように、事例辞書127には、複数の属性の組み合わせに対応する計量空間上に配置した事例が登録される。
(推論のための機能構成)
次に、物体認識装置100の推論のための機能構成について説明する。図6は、推論のための物体認識装置100Bの機能構成を示すブロック図である。図示のように、物体認識装置100Bは、画像摂動部131と、計量算出部132と、特徴摂動部133と、計量空間選択部134と、画像摂動部135と、計量算出部136と、特徴摂動部137と、識別部138と、結果出力部139とを備える。
物体認識装置100Bは、辞書選択用の画像データ141と、辞書選択用の教師ラベル142と、辞書選択教の付加情報143と、推論用の画像データ145と、事例辞書127とを使用する。事例辞書127は、上述の学習処理により作成されたものである。
辞書選択用の画像データ141は、予め用意された複数の計量空間についての事例辞書127から、最適な計量空間に対応する事例辞書127を選択するために使用される画像データであり、基本的な性質は前述した計量空間学習用の画像データ123と同様である。辞書選択用の教師ラベル142は、辞書選択用の画像データ141に紐づく教師ラベルであり、基本的な性質は計量空間学習用の教師ラベル122と同様である。辞書選択用の付加情報143は、辞書選択用の画像データ141に紐づく付加情報であり、基本的な性質は計量空間学習用の付加情報121と同様である。推論用の画像データは、物体認識装置100Bによる認識の対象となる画像データである。
また、画像摂動部131及び135は、図4に示す学習のための機能構成における画像摂動部113と同様であり、計量算出部132及び136は学習のための機能構成における計量算出部114と同様であり、特徴摂動部133及び137は学習のための機能構成における特徴摂動部115と同様である。
図6において、画像摂動部131、計量算出部132、特徴摂動部133及び計量空間選択部134は、辞書選択用の画像データ141、教師ラベル142及び付加情報143を用いて、事例辞書127に蓄えられている複数の計量空間から最適な計量空間を選択する処理を行う。具体的に、画像摂動部131は、辞書選択用の画像データ141を摂動する。計量算出部132は、まず、事例辞書127に蓄えられている複数の計量空間から、1つの計量空間を取得し、その計量空間における摂動後の画像データの特徴ベクトルを算出する。次に、特徴摂動部133は、計量算出部132により算出された特徴ベクトルを摂動し、摂動後の特徴ベクトルを生成する。こうして、辞書選択用の画像データ141から、複数の特徴ベクトルが算出される。この処理により、最適な計量空間を選択するために使用する画像データ数を増加させている。
画像摂動部131、計量算出部132及び特徴摂動部133は、他の計量空間についても同様の処理を行い、それらの計量空間における特徴ベクトルを算出する。こうして、事例辞書127に記憶されている複数の計量空間について、辞書選択用の画像データ141に基づいて複数の特徴ベクトルが算出される。
計量空間選択部134は、辞書選択用の画像データ141から算出された特徴ベクトルと、それに対応する教師ラベル142及び付加情報143とから最適な計量空間を選択する。具体的には、計量空間選択部134は、教師ラベルと、辞書選択用の画像データ141の計量空間上の特徴ベクトルと、事例辞書127に記憶されている計量空間に埋め込まれた事例における特徴ベクトルとの間で、最近傍認識などの手法を用いて、計量空間ごとに性能評価を行う。即ち、計量空間選択部134は、図2に示したように、既存クラスの画像データを用いて複数の計量空間の性能を評価し、最も性能が高い計量空間を選択する。
さらに、辞書選択用の付加情報143から選択すべき計量空間を限定できる場合には、計量空間選択部134は、付加情報143を用いて選択すべき計量空間を予め絞った後で、上述の性能評価により最適な計量空間を選択すればよい。もしくは、上述の性能評価と、付加情報を用いた選択を同時に行ってもよい。こうして選択された計量空間は、辞書選択用の画像データ141の属性に対して最も高精度な認識を可能とする計量空間となる。計量空間選択部134は、選択した計量空間を計量算出部136及び識別部138に出力する。
最適な計量空間が選択されると、その計量空間を用いて推論用の画像データ145の推論が行われる。画像摂動部135は、推論用の画像データ145を摂動し、摂動後の画像データを計量算出部136に出力する。計量算出部136は、計量空間選択部134が選択した計量空間における、摂動後の画像データの特徴ベクトルを算出する。さらに、特徴摂動部137は、計量算出部136が算出した特徴ベクトルを摂動し、得られた複数の特徴ベクトルを識別部138に出力する。
識別部138は、教師ラベルと、推論用の画像データ145から得られた複数の特徴ベクトルと、計量空間選択部134により選択された計量空間について事例辞書127に記憶されている多数の事例との間で最近傍認識などを行い、推論用の画像データ145のクラスを識別する。識別結果は結果出力部139に供給される。
結果出力部139は、識別部138によるクラスの識別結果に加えて、識別部138により選択された近傍の事例に対応する画像と、その事例に紐づく教師ラベル及び付加情報とを出力する。具体的には、結果出力部139は、これらの情報を図3に示す表示部107などに表示する。これにより、推論用の画像データ145に含まれる認識対象が新クラスであったとしても、ユーザは識別結果のクラスのみならず、その認識対象と近い事例に紐づく画像、教師ラベル、付加情報などを見ることができるので、認識結果の妥当性などを直感的に判断することが可能となる。
(推論処理)
次に、推論のための物体認識装置100Bによる推論処理について説明する。図7は、推論のための物体認識装置による推論処理のフローチャートである。この処理は、図3に示すプロセッサ103が予め用意されたプログラムを実行することにより実施される。
まず、画像摂動部131が辞書選択用の画像データ141を摂動し(ステップS21)、計量算出部132は複数の計量空間について摂動後の画像データの特徴ベクトルを算出する(ステップS22)。次に、特徴摂動部133が、得られた特徴ベクトルを摂動して複数の特徴ベクトルを生成する(ステップS23)。そして、計量空間選択部134は、複数の特徴ベクトルと、事例辞書127において各計量空間上に埋め込まれている事例とを用いて性能評価を行い、最適な計量空間を選択する(ステップS24)。
こうして最適な計量空間が選択されると、次に、推論用の画像データ145に対する識別が行われる。画像摂動部135は推論用の画像データ145を摂動し(ステップS25)、計量算出部136は、ステップS24で選択された計量空間について摂動後の画像データの特徴ベクトルを算出する(ステップS26)。次に、特徴摂動部137が、得られた特徴ベクトルを摂動して複数の特徴ベクトルを生成し(ステップS27)、識別部138は選択された計量空間における事例との間で最近傍認識などの手法によりクラスを識別する(ステップS28)。そして、結果出力部139は、クラスの識別結果を、その識別に使用した事例の画像データ、教師ラベル、付加情報などとともに出力する(ステップS29)。こうして、推論処理は終了する。
(変形例)
(1)上記の推論処理では、計量空間選択部134は、既存クラスの画像データを評価用データとして用いて複数の計量空間を評価し、最適な計量空間を選択している。これに加えて、計量空間選択部134は、新クラスの画像データを評価用データとして使用してもよい。この場合、新クラスの画像データについては正解ラベル(正解クラス)が用意されていないことが考えられるが、その場合でも、新クラスの複数の事例が、計量空間上で他の既存クラスの事例と離れた位置でまとまりを形成しているような場合には、その計量空間が適切な性能を有していると評価することができる。よって、対象となる新クラスの事例の集合が計量空間上でより狭い領域に集まっており、さらに新クラス以外の集合との距離が遠いものを、最良の特等を持つ事例辞書として選択すればよい。より具体的には、例えば、新クラスの各事例毎に、当該事例と新クラスの他の事例との距離の平均値Aと、当該事例と既存クラスの事例との距離の平均値Bの比を求め、この比が小さいものを選択すればよい。
(2)上記の実施形態では、人物属性データ(付帯物、年齢など)と、人物クラスデータ(警察官、消防士など)を用いて計量空間を学習している。その代わりに、人物属性データのみを用いて計量空間を学習し、得られた各計量空間を初期値として、人物クラスデータを用いて再学習(ファインンチューニング)した後、性能評価して最適な計量空間を選択するようにしてもよい。
(3)上記の実施形態では、人物属性データと人物クラスデータに基づいて計量空間を学習している。その際に、ニューラルネットワークにおける重みを、人物属性識別タスクと人物クラス識別タスクの両方で共有してもよい。具体的に、最適化(計量空間の学習)を行う際に、人物属性識別タスクの損失関数と人物クラス識別タスクの損失関数について重みを設定して学習を行うようにしてもよい。例えば、人物属性識別タスクの損失関数と人物クラス識別タスクの損失関数について、再提起な前半ではどちらか一方の損失関数の寄与(係数)を大きくし、最適化の後半ではその損失関数における寄与(係数)を小さくする。これにより、人物属性の識別が可能で、人物クラスの識別も可能なモデルを獲得できるため、より高性能な識別が期待できる。
さらに、人物属性データも流用できるため、人物クラス人物クラスのデータが少ない場合に有効である。一般的に、公開画像データセットなどは、多数の人物属性データを含んでいるが、人物クラスデータは少ない場合が多い。そこで、最初は人物属性識別タスクの損失関数に対する重みを大きくして学習を開始し、その後に人物クラス識別タスクの損失関数に対する重みを大きくして各人物クラスに特化する学習を行う。これにより、人物属性データが多数あり、人物クラスデータが少ないという状況でも、人物クラスデータを有効活用して計量空間の学習が可能となる。
(4)上記の実施形態では、画像摂動部により画像データを摂動させているが、画像摂動の方法としては以下の方法を使用してもよい。第1の方法としては、複数の人物の画像をそれぞれ身体のパーツ(頭、胴体、手、足など)などの部分的な領域に分解し、これらを張り合わせて人物の画像を生成する。なお、身体のパーツの境界部にはαブレンディングなどの画像処理を施す。第2の方法としては、まず、キーポイント検出により、画像データに含まれる人物の身体の関節位置を検出する。次に、アフィン変換、ヘルマート変換、ホモグラフィ変換、B-スプライン補間などの幾何変換を用いて、キーポイントの位置を正規化し、関節の位置を揃えた画像を生成する。そして、ノイズの付与などにより、キーポイントの位置を微小にずらして、摂動を与える。
また、特徴摂動部は、敵対的事例生成を用いて微小摂動事例を生成してもよい。具体的には、入力画像に対して微小のノイズを加える際に、対象となる事例が属するクラスと同じクラスの事例群との距離が最も離れている事例を採用する。即ち、入力画像に対して微小ノイズを付与することにより得られる事例が、計量空間上で既存の事例と遠ければ採用し、既存の事例に近ければ不採用とする。
(5)上記の実施形態では、計量空間の学習及び計量空間の選択において、画像及び特徴ベクトルを摂動させているが、十分な量の画像データが用意できる場合には、画像及び特徴ベクトルの摂動を行わなくてもよい。
[第2実施形態]
次に、本発明の第2実施形態について説明する。図8(A)は、第2実施形態に係る学習装置50の構成を示す。学習装置50は、計量空間学習部51と、事例記憶部52とを備える。計量空間学習部51は、属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する。事例記憶部52は、事例用画像データから特徴ベクトルを算出し、計量空間に関連付けた事例として記憶する。こうして、異なる属性の組み合わせ毎に計量空間が学習され、それに関連付けて事例が記憶される。
図8(B)は、第2実施形態に係る推論装置の構成を示す。推論装置60は、事例記憶部61と、計量空間選択部62と、識別部63と、結果出力部64とを備える。事例記憶部61は、異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶している。計量空間選択部62は、選択用画像データの特徴ベクトルを用いて複数の計量空間を評価して、一の計量空間を選択する。識別部63は、推論用画像データから抽出された特徴ベクトルと、一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する。そして、結果出力部64は、識別部63による識別結果を出力する。こうして、事例記憶部61に記憶されている事例を用いて、推論用画像データを識別することができる。
上記の実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下には限られない。
(付記1)
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習部と、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する事例記憶部と、
を備える学習装置。
(付記2)
前記異なる属性の組み合わせを決定する属性決定部を備える付記1に記載の学習装置。
(付記3)
前記事例用画像データを摂動させる第1の画像摂動部を備え、
前記事例記憶部は、摂動後の事例用画像データから算出された特徴ベクトルを事例として記憶する付記1又は2に記載の学習装置。
(付記4)
前記事例用画像データについて算出された特徴ベクトルを摂動する第1の特徴摂動部を備え、
前記事例記憶部は、摂動後の特徴ベクトルを事例として記憶する付記1乃至3のいずれか一項に記載の学習装置。
(付記5)
前記事例記憶部は、前記事例用画像データの教師ラベル及び付加情報を前記事例に紐づけて記憶する付記1乃至4のいずれか一項に記載の学習装置。
(付記6)
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する学習方法。
(付記7)
属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する処理をコンピュータに実行させるプログラムを記録した記録媒体。
(付記8)
異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部と、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択部と、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別部と、
前記識別部による識別結果を出力する結果出力部と、
を備える推論装置。
(付記9)
前記計量空間選択部は、前記複数の計量空間の各々を用いて既存クラスの選択用画像データを識別し、当該既存クラスの選択用画像データの教師ラベルと最も一致度の高い計量空間を前記一の計量空間と決定する付記8に記載の推論装置。
(付記10)
前記識別部は、前記事例記憶部に記憶されている事例のうち、前記一の計量空間において前記推論用画像データの特徴ベクトルと最も近い事例のクラスを前記識別結果とする付記8又は9に記載の推論装置。
(付記11)
前記結果出力部は、前記識別結果に加えて、前記最も近い事例の教師ラベル、付加情報及び画像データを推論結果として出力する10に記載の推論装置。
(付記12)
前記推論用画像データを摂動する第2の画像摂動部を備え、
前記識別部は、摂動後の推論用画像データの特徴ベクトルを用いて、当該推論用画像データを識別する付記8乃至11のいずれか一項に記載の推論装置。
(付記13)
前記推論用画像データの特徴ベクトルを摂動する第2の特徴摂動部を備え、
前記識別部は、摂動後の特徴ベクトルを用いて、前記推論用の画像データを識別する付記8乃至11のいずれか一項に記載の推論装置。
(付記14)
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する推論方法。
(付記15)
異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶部から複数の計量空間を取得し、
選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する処理をコンピュータに実行させるプログラムを記録した記録媒体。
以上、実施形態及び実施例を参照して本発明を説明したが、本発明は上記実施形態及び実施例に限定されるものではない。本発明の構成や詳細には、本発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
10 計量空間
100 物体認識装置
103 プロセッサ
111 ラベル選択部
112 計量空間学習部
113、131、135 画像摂動部
114、132、135 計量算出部
115、133、136 特徴摂動部
116 事例埋め込み部
127 事例辞書
170 端末装置
138 識別部
129 結果出力部

Claims (15)

  1. 属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習する計量空間学習手段と、
    事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する事例記憶手段と、
    を備える学習装置。
  2. 前記異なる属性の組み合わせを決定する属性決定手段を備える請求項1に記載の学習装置。
  3. 前記事例用画像データを摂動させる第1の画像摂動手段を備え、
    前記事例記憶手段は、摂動後の事例用画像データから算出された特徴ベクトルを事例として記憶する請求項1又は2に記載の学習装置。
  4. 前記事例用画像データについて算出された特徴ベクトルを摂動する第1の特徴摂動手段を備え、
    前記事例記憶手段は、摂動後の特徴ベクトルを事例として記憶する請求項1乃至3のいずれか一項に記載の学習装置。
  5. 前記事例記憶手段は、前記事例用画像データの教師ラベル及び付加情報を前記事例に紐づけて記憶する請求項1乃至4のいずれか一項に記載の学習装置。
  6. コンピュータにより実行される学習方法であって、
    属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
    事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶装置に記憶する学習方法。
  7. 属性情報が付与された属性付画像データを用いて、異なる属性の組み合わせ毎に、前記属性付画像データから抽出された特徴ベクトルを含む計量空間を学習し、
    事例用画像データから特徴ベクトルを算出し、前記計量空間に関連付けた事例として記憶する処理をコンピュータに実行させるプログラム。
  8. 異なる属性の組み合わせ毎に学習された複数の計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶手段と、
    選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択する計量空間選択手段と、
    推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別する識別手段と、
    前記識別手段による識別結果を出力する結果出力手段と、
    を備える推論装置。
  9. 前記計量空間選択手段は、前記複数の計量空間の各々を用いて既存クラスの選択用画像データを識別し、識別結果と当該既存クラスの選択用画像データの教師ラベルと一致度に基づいて前記複数の計量空間を評価して前記一の計量空間を選択する請求項8に記載の推論装置。
  10. 前記識別手段は、前記事例記憶手段に記憶されている事例のうち、前記一の計量空間において前記推論用画像データの特徴ベクトルと最も近い事例のクラスを前記識別結果とする請求項8又は9に記載の推論装置。
  11. 前記結果出力手段は、前記識別結果に加えて、前記最も近い事例の教師ラベル、付加情報及び画像データを推論結果として出力する請求項10に記載の推論装置。
  12. 前記推論用画像データを摂動する第2の画像摂動手段を備え、
    前記識別手段は、摂動後の推論用画像データの特徴ベクトルを用いて、当該推論用画像データを識別する請求項8乃至11のいずれか一項に記載の推論装置。
  13. 前記推論用画像データの特徴ベクトルを摂動する第2の特徴摂動手段を備え、
    前記識別手段は、摂動後の特徴ベクトルを用いて、前記推論用画像データを識別する請求項8乃至11のいずれか一項に記載の推論装置。
  14. コンピュータにより実行される推論方法であって、
    異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶手段から複数の計量空間を取得し、
    選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
    推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する推論方法。
  15. 異なる属性の組み合わせ毎に学習された計量空間に関連付けて、事例用画像データの特徴ベクトルを事例として記憶した事例記憶手段から複数の計量空間を取得し、
    選択用画像データの特徴ベクトルを用いて前記複数の計量空間を評価して、一の計量空間を選択し、
    推論用画像データから抽出された特徴ベクトルと、前記一の計量空間に関連付けられた事例とに基づいて、当該推論用画像データを識別し、識別結果を出力する処理をコンピュータに実行させるプログラム。
JP2021546155A 2019-09-20 2019-09-20 学習装置、学習方法、推論装置、推論方法、及び、プログラム Active JP7338690B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/037007 WO2021053815A1 (ja) 2019-09-20 2019-09-20 学習装置、学習方法、推論装置、推論方法、及び、記録媒体

Publications (3)

Publication Number Publication Date
JPWO2021053815A1 JPWO2021053815A1 (ja) 2021-03-25
JPWO2021053815A5 JPWO2021053815A5 (ja) 2022-05-19
JP7338690B2 true JP7338690B2 (ja) 2023-09-05

Family

ID=74884422

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021546155A Active JP7338690B2 (ja) 2019-09-20 2019-09-20 学習装置、学習方法、推論装置、推論方法、及び、プログラム

Country Status (3)

Country Link
US (1) US20220335291A1 (ja)
JP (1) JP7338690B2 (ja)
WO (1) WO2021053815A1 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4016377B1 (en) * 2020-12-21 2024-10-09 Axis AB A device and a method for associating object detections between frames using a neural network

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5378909B2 (ja) * 2009-08-12 2013-12-25 Kddi株式会社 サポートベクトルマシンの再学習方法
US11238362B2 (en) * 2016-01-15 2022-02-01 Adobe Inc. Modeling semantic concepts in an embedding space as distributions
CN106803063B (zh) * 2016-12-21 2019-06-28 华中科技大学 一种行人重识别的度量学习方法
US20240112447A1 (en) * 2019-10-24 2024-04-04 Nec Corporation Learning device, learning method, inference device, inference method, and recording medium

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Christoph H. Lampert, et al.,"Learning To Detect Unseen Object Classes by Between-Class Attribute Transfer",Proceedings of the 2009 IEEE Conference on Computer Vision and Pattern Recognition,2009年06月25日,Pages 951-958,ISBN: 978-1-4244-3991-1, <DOI: 10.1109/CVPR.2009.5206594>.
Tetsu Matsukawa, et al.,"Person Re-Identification Using CNN Features Learned from Combination of Attributes",Proceedings of the 2016 23rd International Conference on Pattern Recognition (ICPR),2016年12月08日,Pages 2428-2433,ISBN: 978-1-5090-4847-2, <DOI: 10.1109/ICPR.2016.7900000>.
中野 翔太(外5名),「身体と外見の共起属性を用いた人物対応付け」,電子情報通信学会論文誌D,日本,一般社団法人 電子情報通信学会,2017年01月01日,Vol. J100-D, No.1,第104~114頁,ISSN: 1881-0225.
植田 覚(外2名),「適応的な距離学習による最近傍分類器に関する一考察」,FIT2011 第10回情報科学技術フォーラム講演論文集,第2分冊,日本,一般社団法人 情報処理学会,2011年08月22日,第429~432頁.
櫻井 隆平(外2名),「深層距離学習におけるcontrastive lossの分析と高速化」,人工知能学会第31回全国大会論文集 [DVD-ROM],Session-ID: 3Q1-12in1,日本,一般社団法人 人工知能学会,2017年05月25日,全4頁.

Also Published As

Publication number Publication date
JPWO2021053815A1 (ja) 2021-03-25
WO2021053815A1 (ja) 2021-03-25
US20220335291A1 (en) 2022-10-20

Similar Documents

Publication Publication Date Title
CN109993072B (zh) 基于超分辨图像生成的低分辨率行人重识别系统和方法
US10002308B2 (en) Positioning method and apparatus using positioning models
CN107506761B (zh) 基于显著性学习卷积神经网络的脑部图像分割方法及系统
WO2018121690A1 (zh) 对象属性检测、神经网络训练、区域检测方法和装置
CN109165540B (zh) 一种基于先验候选框选择策略的行人搜索方法和装置
CN111523621A (zh) 图像识别方法、装置、计算机设备和存储介质
CN110348319A (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
US7783581B2 (en) Data learning system for identifying, learning apparatus, identifying apparatus and learning method
CN113360701B (zh) 一种基于知识蒸馏的素描图处理方法及其系统
US20210397954A1 (en) Training device and training method
CN111161254A (zh) 一种骨龄预测方法
JP2007128195A (ja) 画像処理システム
Barman et al. Shape: A novel graph theoretic algorithm for making consensus-based decisions in person re-identification systems
KR20180038169A (ko) 딥 러닝 기반의 데이터특징을 이용한 도시영상의 안전도 분류방법
CN112767447A (zh) 基于深度霍夫优化投票的时敏单目标跟踪方法、存储介质和终端
Zhang et al. Second-and high-order graph matching for correspondence problems
CN114842343A (zh) 一种基于ViT的航空图像识别方法
JP7351344B2 (ja) 学習装置、学習方法、推論装置、推論方法、及び、プログラム
CN112488128A (zh) 一种基于贝塞尔曲线的任意畸变图像线段检测方法
JPWO2014118978A1 (ja) 学習方法、情報処理装置および学習プログラム
CN116934747A (zh) 眼底图像分割模型训练方法、设备和青光眼辅助诊断系统
JP7338690B2 (ja) 学習装置、学習方法、推論装置、推論方法、及び、プログラム
Lee et al. Neuralfp: out-of-distribution detection using fingerprints of neural networks
Pang et al. Salient object detection via effective background prior and novel graph
CN113032567B (zh) 位置嵌入解释方法、装置、计算机设备及存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220302

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220302

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230307

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230426

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230725

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230807

R151 Written notification of patent or utility model registration

Ref document number: 7338690

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151