JP2020016935A - 画像認識学習装置、画像認識装置、方法、及びプログラム - Google Patents

画像認識学習装置、画像認識装置、方法、及びプログラム Download PDF

Info

Publication number
JP2020016935A
JP2020016935A JP2018137735A JP2018137735A JP2020016935A JP 2020016935 A JP2020016935 A JP 2020016935A JP 2018137735 A JP2018137735 A JP 2018137735A JP 2018137735 A JP2018137735 A JP 2018137735A JP 2020016935 A JP2020016935 A JP 2020016935A
Authority
JP
Japan
Prior art keywords
image
learning
probability
classifier
loss function
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018137735A
Other languages
English (en)
Other versions
JP7139749B2 (ja
Inventor
豪 入江
Takeshi Irie
豪 入江
悠 三鼓
Yu Mizutsumi
悠 三鼓
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2018137735A priority Critical patent/JP7139749B2/ja
Priority to US17/262,121 priority patent/US11816882B2/en
Priority to PCT/JP2019/028097 priority patent/WO2020022144A1/ja
Publication of JP2020016935A publication Critical patent/JP2020016935A/ja
Application granted granted Critical
Publication of JP7139749B2 publication Critical patent/JP7139749B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Probability & Statistics with Applications (AREA)
  • Image Analysis (AREA)

Abstract

【課題】学習用画像が少ない場合であっても、精度よくクラスが識別できる画像識別器を学習できる。【解決手段】画像識別器について、画像識別器が出力した画像の各クラスへの帰属確率と画像の所与の教師帰属確率との類似度が高いほど小さい値を出力する第一の損失関数と、画像識別器に入力された画像が実画像である場合には、画像識別器の出力する入力された画像の人工画像らしさを表す推定真偽確率が小さいほど小さい値を出力し、画像識別器に入力された画像が人工画像である場合には、画像識別器の出力する推定真偽確率が大きければ大きいほど小さい値を出力する第二の損失関数とを用い、第一の損失関数及び第二の損失関数の値が小さくなるように画像識別器のパラメータの反復学習を行う。【選択図】図1

Description

本発明は、画像認識学習装置、画像認識装置、方法、及びプログラムに係り、特に、画像のクラスを識別するための画像認識学習装置、画像認識装置、方法、及びプログラムに関する。
画像認識は、入力された画像に対して、画像の内容に関するクラスを出力する問題である。クラスは様々なものがあり得るが、多くは画像中に写る物体や場所、シーンの名称などが代表的である。例えば犬が写る画像が入力された場合、画像認識技術は「犬」というクラスラベルを出力することが期待される。
画像認識技術の性能は、入力された画像に対して、いかに正確に正しいクラスラベルを出力できるかにより議論され、より正しいラベルを出力できるものほど高精度であるとされる。
画像はRGBの画素を要素としたテンソルにより構成されているが、このような低レベル(物理信号レベル)な情報と、高レベルな意味のあるクラスラベルとの間には大きな隔たりがあるため、画像を入力としてそのまま高精度な認識を実行すること、つまり、正確なラベルを出力するような認識器を学習することは困難だと考えられていた。しかしながら、2011年頃、深い畳み込みニューラルネットワーク(Convolutional Neural Network: CNN)を認識器として用いることで、このような画素の配列から直接クラスラベルを出力するような学習をしても、高精度な認識ができることが実証された(非特許文献1)。これ以降、画像認識の精度はCNNによって飛躍的な改善が報告され続けている。
一般に、CNNによる画像認識の認識精度は様々な要因に依存することが知られている。一つ、精度に大きく作用する要因としてCNNの構造が挙げられる。通常、CNNは、比較的単純な処理を行う数種類の作用素(層、レイヤなどと呼ばれる)を、幾層にも積み重ねて実現される。例えば、代表的なもので言えば畳み込み層やプーリング層、全結合層などが存在する。詳細は非特許文献1などに譲るが、畳み込み層とは、その名の通り、入力されたテンソルに対して、高さ×幅方向に一定の大きさを持つ畳み込みフィルタを適用する層である。何種類のフィルタを持つかは任意であり、通常は設計者により指定される。畳み込み層はパラメータとして畳み込みフィルタの重みを有しており、これはデータに基づいて学習される。一方、一般に学習すべきパラメータを持たない層としてプーリング層が知られている。入力テンソルに対して高さ×幅方向に一定の大きさを持つ“フィルタ”を適用する点では畳み込み層と同様であるが、プーリング層は当該大きさの範囲に対して、例えば最大の値を出力する(最大値プーリング)、あるいは、平均値を出力する(平均値プーリング)など、固定的かつ単純な作用を適用する点で異なる。特に、パラメータ数を増加させずに入力テンソルの大きさを減少させたい場合などに利用される。CNNの性能は、このような畳み込み層やプーリング層をどのように構成し、配置するかによって左右される。
他方、通常の画像認識においては、事前に認識したいクラスについて、それが正解となるような画像の集合(以下、学習用画像と呼ぶ)を基に認識器を学習する必要がある。したがって当然のことながら認識精度は学習用画像の質と量に依存すると言って差し支えない。一般に、認識器の複雑度に応じて、複雑な認識器を用いる場合ほどより多くの学習用画像を用いる必要があることが知られているが、特に、CNNは非常に表現能力の高い複雑なモデルであり、非常に大量の学習用画像によって学習して初めてその性能が発揮されると言っても過言ではない。すなわち、現在のCNNの成功は、良質なCNNの構成と大量の学習用画像の双方が相まって初めて成し得たものとも見ることができる。
しかしながら、大量の学習用画像を得ることは容易ではない。なぜならば、多くの場合、撮影したばかりの画像にはその物体がなんであるかを表すようなクラスラベルはなんらついておらず、それを学習用画像足らしめるためには、人間がその内容を確認し、物体がなんであるかを付与する「ラベリング」を行わなければならないからである。CNNによる画像認識において最も良く知られる学習用画像データセットであるILSVRCデータ(非特許文献1参照)は、実に120万枚もの学習用画像を含んでいる。仮に1枚当たり5秒で、休みなくラベリングできたとしても、全ての画像にラベルを付けるのに2か月を超える期間が必要である。もちろん、1人の人間により判断したクラスは必ずしも信頼できるものであるとは限らないことから、通常は複数人による合議が取られるため、実際の工数はこれよりもさらに数倍は大きい。また、これほどの規模となると、そもそもラベリングの対象とする画像を撮影・収集すること自体も全く簡単ではない。この学習用画像構築のコストは、CNNによる画像認識技術を導入・利用する上で、重大な障壁となっている。
この課題を解決すべく、従来様々な発明がなされている。
例えば、非特許文献2では、画像生成を用いた認識器の学習手法が開示されている。認識器として構成されたCNNとは別に、画像を生成するCNNである生成器を用意する。認識器には、通常のクラスラベルを回答する役割の他に、画像の真偽(実際の画像か、生成器が生成した偽画像か)を見極めるような学習も要請し、反対に、生成器には、可能な限り実画像と見まがうような画像、すなわち、認識器が真偽判断を誤るような画像を生成するように学習することを要請する。このような構成により、真の画像に近しい“偽画像”を生成し、この画像を補助的な学習用画像として用いることで、ラベリングされた画像が少数しかない場合であっても認識器の学習を可能にしている。
非特許文献3では、画像変換を用いた認識器の学習手法が開示されている。実現方法は非特許文献2に記載の方法に類似しており、真の画像に近しい“偽画像”を生成するという発想は同一であるが、違いは、非特許文献2では画像を生成する生成器を利用していたのに対し、本技術ではコンピュータグラフィクス(CG)により生成したCG画像を、実画像に見まがうように変換する変換器が導入されている点にある。
また、特許文献1に開示されている技術は、少数の学習用画像から意味のある認識結果を出力できるようにするべく、画像に写る物体に関する様々な属性を推定し、属性からクラスラベルを推定する方法を開示している。
特開2018−032340号公報
Alex Krizhevsky, Ilya Sutskever, Geoffrey E. Hinton, "ImageNet Classification with Deep Convolutional Neural Networks." In Proc. Advances in Neural Information Processing Systems (NIPS), Pages. 1097-1105, 2012. Tim Salimans, Ian Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, and Xi Chen, "Improved Techniques for Training GANs." In Proc. Advances in Neural Information Processing Systems 29 (NIPS), Pages. 2226-2234, 2016. Ashish Shrivastava, Tomas Pfister, Oncel Tuzel, Josh Susskind, Wenda Wang, and Russ Webb, "Learning from Simulated and Unsupervised Images through Adversarial Training." In Proc. Conference on Computer Vision & Pattern Recognition (CVPR), Pages. 2242-2251, 2017.
非特許文献2、及び、非特許文献3の技術は、学習用画像の不足分を、人工的な画像の生成または変換により補おうとするものであり、この着想は合理的である。しかしながら、いずれの技術においても、人工的な画像は、実際の画像に近づくように生成され、変換されるべきであるという基準のみに基づいて生成され、変換されている。しかしながら、画像認識精度を改善させるという本来の目的を鑑みれば、生成され、変換される人工的な画像は、実画像に近いだけでなく、学習する上で有益な画像であるべきである。
また、特許文献1に開示されている技術は、属性という中間的かつ意味的な表現によりラベルを表現することで、学習用画像の削減を狙っているが、属性の構成法は自明ではなく、また、画像認識精度の観点で最適な属性を選定する方法も自明ではない。
以上概観するに、従来の技術はいずれも画像認識精度の観点から必ずしも最適な方法にはなっていないという問題がある。
本発明は、上記事情を鑑みて成されたものであり、学習用画像が少ない場合であっても、精度よくクラスが識別できる画像識別器を学習できる画像認識学習装置、方法、及びプログラムを提供することを目的とする。
また、学習用画像が少ない場合であっても、学習した画像識別器を用いて、精度よくクラスが識別できる画像認識装置、方法、プログラムを提供することを目的とする。
上記目的を達成するために、第1の発明に係る画像認識学習装置は、入力された画像の各クラスへの帰属確率、及び入力された画像入力された画像の人工画像らしさを表す推定真偽確率を出力する画像識別器を備える画像認識学習装置であって、前記画像識別器について、前記画像識別器が出力した画像の前記各クラスへの帰属確率と前記画像の所与の教師帰属確率との類似度が高いほど小さい値を出力する第一の損失関数と、前記画像識別器に入力された画像が実画像である場合には、前記画像識別器の出力する前記推定真偽確率が小さいほど小さい値を出力し、前記画像識別器に入力された画像が人工画像である場合には、前記画像識別器の出力する前記推定真偽確率が大きければ大きいほど小さい値を出力する第二の損失関数とを用い、前記第一の損失関数及び前記第二の損失関数の値が小さくなるように前記画像識別器のパラメータの反復学習を行う学習部、を含んで構成されている。
また、第1の発明に係る画像認識学習装置において、前記教師帰属確率は、各クラスへの所望の帰属確率、あるいは、前記反復学習の学習途中における反復学習回数の異なる前記画像識別器が前記画像について出力した各クラスへの帰属確率であるようにしてもよい。
また、第1の発明に係る画像認識学習装置において、前記人工画像は、少なくとも一つ以上の乱数を用いて人工画像を出力する画像生成器により生成され、前記学習部は、前記画像生成器について、前記第一の損失関数及び前記第二の損失関数の値が大きくなるように前記画像生成器のパラメータの反復学習を行うようにしてもよい。
第2の発明に係る画像認識装置は、第1の発明に記載の画像認識学習装置によりパラメータが学習された前記画像識別器を用いて、入力された画像について各クラスへの帰属確率を求め、クラスの認識結果を出力する。
第3の発明に係る画像認識学習方法は、入力された画像の各クラスへの帰属確率、及び入力された画像の人工画像らしさを表す推定真偽確率を出力する画像識別器を備える画像認識学習装置における画像認識学習方法であって、学習部が、前記画像識別器について、前記画像識別器が出力した画像の前記各クラスへの帰属確率と前記画像の所与の教師帰属確率との類似度が高いほど小さい値を出力する第一の損失関数と、前記画像識別器に入力された画像が実画像である場合には、前記画像識別器の出力する前記推定真偽確率が小さいほど小さい値を出力し、前記画像識別器に入力された画像が人工画像である場合には、前記画像識別器の出力する前記推定真偽確率が大きければ大きいほど小さい値を出力する第二の損失関数とを用い、前記第一の損失関数及び前記第二の損失関数の値が小さくなるように前記画像識別器のパラメータの反復学習を行うステップ、を含んで実行することを特徴とする。
第4の発明に係る画像認識方法は、第1の発明に記載の画像認識学習装置によりパラメータが学習された前記画像識別器を用いて、入力された画像について各クラスへの帰属確率を求め、クラスの認識結果を出力する。
第5の発明に係るプログラムは、コンピュータを、第1の発明に記載の画像認識学習装置、又は第2の発明に記載の画像認識装置として機能させるためのプログラムである。
本発明の画像認識学習装置、方法、及びプログラムによれば、画像識別器について、画像識別器が出力した画像の各クラスへの帰属確率と画像の所与の教師帰属確率との類似度が高いほど小さい値を出力する第一の損失関数と、画像識別器に入力された画像が実画像である場合には、画像識別器の出力する入力された画像の人工画像らしさを表す推定真偽確率が小さいほど小さい値を出力し、画像識別器に入力された画像が人工画像である場合には、画像識別器の出力する推定真偽確率が大きければ大きいほど小さい値を出力する第二の損失関数とを用い、第一の損失関数及び第二の損失関数の値が小さくなるように画像識別器のパラメータの反復学習を行うことにより、学習用画像が少ない場合であっても、精度よくクラスが識別できる画像識別器を学習できる、という効果が得られる。
また、本発明の画像認識装置、方法、及びプログラムによれば、学習した画像識別器を用いて、精度よくクラスが識別できる、という効果が得られる。
本発明の実施形態に係る画像認識学習装置の構成を示すブロック図である。 本発明の実施形態に係る画像認識装置の構成を示すブロック図である。 本発明の実施形態に係る画像認識学習装置における画像認識学習処理ルーチンを示すフローチャートである。
以下、図面を参照して本発明の実施形態を詳細に説明する。
<本発明の実施形態に係る画像認識学習装置の構成>
次に、本発明の実施形態に係る画像認識学習装置の構成について説明する。図1は、本発明の実施形態に係る画像認識学習装置100の構成の一例を示す機能ブロック図である。図1に示すように、本発明の実施形態に係る画像認識学習装置100は、CPUと、RAMと、後述する画像認識学習処理ルーチンを実行するためのプログラムや各種データを記憶したROMと、を含むコンピュータで構成することが出来る。この画像認識学習装置100は、機能的には図1に示すように、学習用画像集合110、並びに参照用画像集合120を外部から入力として受け付け、学習した画像識別器101のパラメータを記憶部130に格納することを目的とした装置である。
学習用画像集合110は、所望のクラスラベルが与えられた実画像の集合であり、参照用画像集合120は所望のクラスラベルの与えられていない実画像の集合である。両者の違いは所望のクラスラベルが付随しているか否かであり、学習用画像集合110の一部又は全ての画像を参照用画像集合120に含めても構わない。
画像識別器101は、画像を入力として受け取り、入力された画像に対する各クラスへの帰属確率(以下、推定帰属確率)、並びに、入力された画像の人工画像らしさを表す確率(以下、推定真偽確率)を出力することができるパラメータを持つ関数であって、パラメータに対して微分可能であるものであれば、任意のものを用いることができる。本発明ではCNNを用いるのが好適であるため、本実施形態の説明においては、以降CNNを利用するものとして説明する。なお、後述の画像生成器102についてもCNNを用いるものとする。
なお、学習用画像集合110、参照用画像集合120、記憶部130は、画像認識学習装置100の内部にあっても外部にあっても構わず、本発明の効果を享受する上では、本質的ではない。以降、本実施形態においては、以降図1の内部にある構成を採るものとして説明する。すなわち、学習用画像集合110、及び、参照用画像集合120は画像認識学習装置100の外部にあり、通信を用いて接続、入力される。通信手段は任意の公知ものを用いることができるが、本実施形態においては、インターネット、TCP/IPにより通信するよう接続されているものとする。また、記憶部130は画像認識学習装置100の内部にあり、バスで接続されている。
画像認識学習装置100が備える各部は、演算処理装置、記憶装置等を備えたコンピュータやサーバ等により構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは画像認識学習装置100が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリ等の記録媒体に記録することも、ネットワークを通して提供することも可能である。もちろん、その他いかなる構成要素についても、単一のコンピュータやサーバによって実現しなければならないものではなく、ネットワークによって接続された複数のコンピュータに分散して実現しても構わない。
≪処理部の説明≫
以下、本実施の形態における画像認識学習装置100の各処理部について説明する。なお、各処理部の具体的な処理については、後述する各処理の詳細において説明する。
[処理部の動作]
画像識別器101は、入力された画像の推定帰属確率、及び入力された画像の推定真偽確率を出力する。推定帰属確率は画像が各クラスに帰属する尤もらしさを表す確率である。推定真偽確率は人工画像らしさを表す確率である。画像識別器101は、識別の度に、記憶部130のパラメータを読み込んで識別を行う。
画像生成器102は、内包する乱数生成器によって生成した一つ以上の乱数を用いて人工画像を生成し、出力する。画像生成器102は、人工画像の生成の度に、記憶部130のパラメータを読み込んで生成を行う。
識別損失評価部103は、ある画像(実画像でも人工画像でも、画像の形を取っているものであればよい)と、当該画像が実画像か人工画像であるかのフラグと、当該画像に対して画像識別器101が出力した推定帰属確率と、当該画像に対する所望の帰属確率(以下、教師帰属確率と記載する)とを入力として与えられると、それらの差異を表す第一の損失関数である識別損失関数の値を求める。教師帰属確率とは、学習の際に正解となるクラスラベルに応じた帰属確率である。識別損失関数は、ある反復学習回数での画像生成器102が出力した人工画像について画像識別器101が出力した推定帰属確率と、画像生成器102が出力した人工画像について画像識別器101が出力した推定帰属確率との差異を表す損失関数を更に含んでいてもよい。なお、教師帰属確率は、画像が人工画像の場合には後述する学習途中段階に関する帰属確率tとする。
生成損失評価部104は、ある画像と、当該画像が実画像か人工画像であるかのフラグと、当該画像に対して画像識別器101が出力した推定真偽確率とを入力として与えられると、それらの差異を表す第二の損失関数である生成損失関数の値を求める。
学習部105は、識別損失評価部103、及び生成損失評価部104で求められた識別損失関数及び生成損失関数の値を用いて、識別損失関数及び生成損失関数の値が小さくなるように画像識別器101のパラメータの反復学習を行い、学習の度に画像識別器101のパラメータを記憶部130に格納する。また、識別損失関数及び生成損失関数の値が大きくなるように画像生成器102のパラメータの反復学習を行い、学習の度に画像識別器101のパラメータを記憶部130に格納する。
<本発明の実施形態に係る画像認識装置の構成>
次に、本発明の実施形態に係る画像認識装置の構成について説明する。画像認識装置200で画像識別器101を学習し、記憶部130にそのパラメータが格納された後、実際に画像認識に用いる場合には、図2に示すように、画像認識装置200において、画像識別器201と、学習された画像識別器201のパラメータが格納された記憶部230のみさえあれば画像認識処理を実施することが可能である。
画像認識装置200は、画像240の入力を受け付けると、画像識別器201を適用して、記憶部230のパラメータθを読み出し、入力された画像240について推定帰属確率を求め、クラスの認識結果250を出力する。なお、画像認識装置200の作用においても、同様に上記の処理を行うステップを実行するようにすればよい。
<本発明の実施形態に係る画像認識学習装置の作用>
次に、本発明の実施形態に係る画像認識学習装置100の作用について説明する。画像認識学習装置100は、学習用画像集合110、及び参照用画像集合120を受け付けて、図3に示す画像認識学習処理ルーチンを実行する。
まず、ステップS301では、一つ以上の学習用画像集合110、参照用画像集合120を読み込む。
次に、ステップS302では、記憶部130の画像生成器102のパラメータを読み込み、一つ以上の乱数を発生させて画像生成器102に入力し、一つ以上の人工画像からなる人工画像集合を生成する。
ステップS303では、記憶部130の画像識別器101のパラメータを読み込み、読み込んだ学習用画像集合110の学習用画像、参照用画像集合120の参照用画像、及び、生成した人工画像の各々に対して画像識別器101を適用し、識別損失関数値、及び、生成損失関数値を求める。
ステップS304では、ステップS303で求めた識別損失関数値、及び、生成損失関数値に基づいて、画像識別器101、及び、画像生成器102のパラメータの値をそれぞれ更新する。
ステップS305では、ステップS304で更新された、画像識別器101、及び、画像生成器102のパラメータを記憶部130に格納する。
ステップS306では、終了条件を満たすかを判定し、終了条件を満たしていれば処理を終了し、終了条件を満たしていなければステップS301に戻って処理を繰り返す。
上記のステップS304〜S306の反復学習により、画像識別器101については、画像識別器101が出力した画像の推定帰属確率と画像の所与の教師帰属確率との類似度が高いほど小さい値を出力する識別損失関数と、画像識別器101に入力された画像が実画像である場合には、画像識別器101の出力する推定真偽確率が小さいほど小さい値を出力し、画像識別器101に入力された画像が人工画像である場合には、画像識別器101の出力する推定真偽確率が大きければ大きいほど小さい値を出力する生成損失関数とを用い、識別損失関数及び生成損失関数の値が小さくなるように画像識別器101のパラメータを学習する。また、画像生成器102については、識別損失関数及び生成損失関数の値が大きくなるように画像生成器102のパラメータを学習する。
[各処理の処理詳細]
次に画像認識学習装置100の各処理部の処理の詳細について説明する。
[画像生成処理]
ステップS302に係る、画像生成器102による画像生成処理について説明する。画像生成器102は、一つ以上の乱数(すなわち乱数ベクトル)zを入力として受け取り、人工画像vを出力する、パラメータφを持つような以下(1)式の関数を用いることにより実現する。

・・・(1)
このような関数Gを実現する手段は様々なものがあるが、本発明の実施形態の一例においては、CNNを利用する。より具体的な例としては、例えば非特許文献4に記載のGenerator Networkと呼ばれるCNNを用いることができる。
[非特許文献4]Tim Salimans, Ian J. Goodfellow, Wojciech Zaremba, Vicki Cheung, Alec Radford, Xi Chen, " Improved Techniques for Training GANs." In Proc. Advances in Neural Information Processing Systems (NIPS), Pages. 2226-2234, 2016.
このようなCNNにより構成したGは、φに対して微分可能であるという良好な性質を持つ。
[識別損失関数値の評価]
ステップS303に係る、識別損失評価部103の識別損失関数値の評価処理について説明する。
識別損失関数は、画像識別器101が出力した画像の推定帰属確率と画像の所与の教師帰属確率との類似度が高いほど小さい値を出力するものであり、後述する(4)式、及び(5)式に対応する。また、値は、識別損失関数の値に対応するものである。
画像識別器101は画像xを入力として、推定帰属確率yを出力する、パラメータθを持つ関数として表現できる。このような関数は、一般的に確率関数として下記(2)式のように表すことができる。

・・・(2)
(2)式はθ、及び、xが与えられた下でのyが出現する確率である。望ましい画像識別器101は、学習用画像sが与えられたとき、各クラスへの教師帰属確率tが出現するようなものである。すなわち、正解となるクラスが識別可能な帰属確率が求められる画像識別器101である。学習用画像sと、対応する教師帰属確率tの出現確率をp(s、t)とすると、学習は下記(3)式が小さくなるようにパラメータθを決定できればよい。

・・・(3)
[a]は、aの確率bに対する期待値である。本発明の実施形態の場合は、学習用画像は学習用画像集合から取得されるので、期待値は下記(4)式のように総和の形で近似的に置き換えられる。

・・・(4)
なお、S,Tは、それぞれ1つ以上の画像と、対応する教師帰属確率の集合である。(4)式が本発明の実施形態の一例における識別損失関数であり、これを任意のS,Tに対して評価した値が識別損失関数値である。
(4)式をθについて小さくすることで、sに対してtを出力できるような望ましい画像識別器101を得ることができる。このようなθを求める方法は様々存在するが、単純には、画像識別器101を表す確率関数pがθに対して微分可能である場合、局所最小化できることが知られているので、本発明の実施形態の一例においては、画像識別器101として、画像xを入力された下でその画像の推定帰属確率yを出力できる関数であり、かつ、θに対して微分可能であるような関数を選ぶ。
この性質を満たすものであれば任意の公知の関数を用いることができるが、本発明の実施形態の一例では、例えばCNNを用いる。本発明の実施形態の一例ではCNNを用いる。CNNは画像識別性能が高く、好適である。
CNNの構造は任意のものを用いることができるが、例えば非特許文献1に記載のものを用いればよい。θを求める処理も非特許文献1に記載の通り誤差逆伝搬法を用いればよい。誤差逆伝搬法は、(4)式に基づいて学習を実行する場合、pがθで微分可能である場合に利用できる方法である。端的には、(4)式をθに対して微分した値を求め、これに係数(通常1以下の小さい値を用いる)を掛けた値をθから減算することにより、θを更新していくことにより、(4)式の値を小さくするようなθを求めることができる。
なお、(4)式の識別損失関数は、学習用画像ではない画像、すなわち、参照用画像uや人工画像vに対しても評価可能である。人工画像vを例に採って説明する。ある学習途中段階での画像識別器101のパラメータをθと表すこととし、このとき、この画像識別器101に人工画像v=G(z;φ)を入力した際の出力となる所望の帰属確率をtと表す。t〜p(t|G(z;φ);θ)は、学習途中の、つまり反復学習回数の異なる画像識別器101が出力した人工画像に対する推定帰属確率である。このtを人工画像vに対する所望の帰属確率である教師帰属確率と捉えれば、対応する識別損失関数は以下(5)式のように表せる。

・・・(5)
ここで、Zは人工画像を生成するために発生させた乱数ベクトルzの集合である。当然のことながら、(5)式は(4)式の場合と同様、θに対して微分可能であり、(5)式を小さくするようなθを求めることが可能である。すなわち、(5)式によって、人工画像v=G(z;φ)に対して、ある時点での推定帰属確率を出力させるような画像識別器101を学習することができるということである。本実施の形態では、識別損失関数が、上記(4)式の関数と上記(5)式の関数とを含む。
さらに特筆すべきは、画像生成器102のGがφに対して微分可能であるならば、(5)式はφに対しても微分可能であるということである。先に述べたような構成方法の一例により構成したGはφに対して微分可能である。したがって、(5)式を用いて画像生成器102のG(つまりφ)も学習可能であることを意味する。この事実は後程利用するため、ここで述べておく。
[生成損失関数値の評価]
同じくステップS303に係る、生成損失評価部104の生成損失関数値の評価処理について説明する。
生成損失関数は、画像識別器101に入力された画像が実画像である場合には、画像識別器101の出力する推定真偽確率が小さいほど小さい値を出力し、画像識別器101に入力された画像が人工画像である場合には、画像識別器101の出力する推定真偽確率が大きければ大きいほど小さい値を出力するものであり、後述する(6)式に対応する。
人工画像vは、当然のことながら実際の画像、すなわち、学習用画像sや参照用画像uに見まがうようなものであることが好ましい。これを実現するため、本発明の実施形態の一例では、画像識別器101に、推定帰属確率だけでなく、実画像か人工画像かを判定する推定真偽確率を出力させる。
この推定真偽確率を出力させるために、画像識別器101を構成するCNNに特別な機能を導入する必要はない。例えば、非特許文献4に開示されているような方法を採ればよい。仮に画像識別器101が識別したいクラスの数がK個であるとする(帰属確率の次元がK)と、さらにもう1クラス追加してK+1個のクラスがあると考え、K+1番目の確率を偽である確率、すなわち、人工画像である確率として扱えばよい。
もし仮に、画像識別器101に人工画像が入力された場合には、当該人工画像はそもそも実画像ではないため、K個のクラスのいずれにも属すると判定されるべきではない。したがって、K個のクラスのいずれでもない、すなわち、K+1番目の確率値が高くなるよう推定されるべきである。反対に、もし実画像が入力された場合には、K個のクラスのいずれかに属すると判断されるべきであるから、K+1番目の確率値が低くなるように推定されるべきである。
以上のことを要請する損失関数は、下記(6)式のように設計できる。

・・・(6)
Uは参照用画像の集合である。第一項は参照用画像についての項であり、画像識別器101が入力された画像が実画像であると正しく判定できた場合、すなわち、p(y=K+1|u;θ)が小さい値となった場合に、小さな値を取る。反対に、第二項は人工画像についての項であり、画像が人工画像であると正しく判定できた場合に小さくなる。
したがって、(6)式を小さくするようなθを求めることにより、画像識別器101は入力された画像が実画像であるか、それとも人工画像であるかを判定することができるようになるのである。言うまでもなく、(6)式はθに関して微分可能であるので、このような学習は先の説明と同様、誤差逆伝搬法などを用いて実現できる。
一方、画像生成器102に着目すれば、画像識別器101に正しい判断をさせないような人工画像、すなわち、参照用画像に見まがうような人工画像を生成できるように学習すれば、望ましい画像を生成できることになる。このような学習は、(6)式を大きくするようなφを求めることで実現できる。(6)式はφについても微分可能であることから、微分値を用いて(6)式を大きくする方向、すなわち、通常の誤差逆伝搬法の正負を入れ替えて更新することで、このような学習が実現可能である。本実施の形態では、生成損失関数が、上記(6)式を含む。
[学習処理]
ステップS304に係る学習部105の学習処理について説明する。これまでの所、識別損失関数、及び、生成損失関数の評価方法、及び、これらの損失関数を用いて画像識別器101、並びに、画像生成器102が学習可能であることを説明してきた。
ここでは、これらの損失関数を用いて、画像識別器101と画像生成器102を学習する処理の詳細を説明する。
本発明の実施形態の一例においては、識別損失関数と生成損失関数の双方の和を用いて、画像識別器101、及び画像生成器102を学習する。具体的には(7)式の問題を解く。

・・・(7)
αは0以上の所与の数値であり、例えば0.3などとして設定すればよい。これまで説明してきた通り、L、L、Lいずれもθ、φに対して微分可能であるから、(7)式のように和になったとしても微分可能であることは変わらない。画像識別器101について、(7)式のパラメータθの値が小さくなるように、画像生成器102については、(7)式のパラメータφが大きくなるように、θ、φの値を繰り返し更新し、学習していく。
上記の学習により期待される効果を説明する。まず、Lをθについて最小化することは、一般の画像認識の学習と同様、学習用画像に基づいて認識精度を改善させる効果を産む。また、Lをθについて最小化、及び、φについて最大化することは、画像生成器102が実画像に見まがうような人工画像を生成できるようになる効果を産む。
最も重要であるのはLである。これをφについて最大化することは、画像生成器102に対してさらに、画像識別器101が識別困難であるような人工画像を生成することを要請する。すなわち、(7)式により学習した画像生成器102は、実画像に見まがうようなものであり、かつ、画像識別器101が識別困難な画像を生成することができるようになるのである。
さらに、これをθについて最小化するということは、画像識別器101に対して、実画像に近しく、かつ、識別困難であるような人工画像に対しても、正しいと推測されるクラスへと識別することを要請することになる。このような要請は、認識精度を改善するという観点から望ましい性質である。実画像とかけ離れたような人工画像を認識できるようにしても実用上の効果が期待できず、また、例え実画像に近しくとも、容易に認識可能な画像をいくら生成しても、画像認識精度を改善することにはつながりにくい。本発明の実施形態の一例における(7)式に基づく学習処理は、その双方を考慮した人工画像の生成と、それに基づく画像識別器101の学習を要請したものであり、画像認識精度の改善効果の高い学習を実現できるのである。以上のような学習は、例えば非特許文献4に開示のような、単に実画像に見まがうような人工画像を生成できる技術を用いただけでは実現できない効果である。先述の通り、人工画像は乱数から生成されるのであり、乱数は際限なく生成できると考えて差支えないから、このような人工画像も際限なく生成することができる。したがって、学習用画像が少数しか得られないような場合であっても、人工画像により補完して学習処理を実行することができるのである。
この学習処理を、終了条件が満たされるまで繰り返せばよい。
終了条件については任意のものを用いてよいが、例えば、「所定の回数を繰り返すまで」、「目的関数の値が一定以上変化しなくなるまで」、「精度の値が一定以上になるまで」、「学習データとは別に用意された検証用データを用いた場合の精度の値が一定以上変化しなくなるまで」、「学習データとは別に用意された検証用データを用いた場合の精度の値が一定以上になるまで」などとすればよい。
以上が、処理動作の一例である。
以上説明したように、本発明の実施の形態に係る画像認識学習装置、方法、プログラムによれば、画像識別器101について、画像識別器101が出力した学習用画像の推定帰属確率と学習用画像の所与の教師帰属確率との類似度が高いほど小さい値を出力する識別損失関数と、画像識別器101に入力された画像が実画像である場合には、画像識別器101の出力する推定真偽確率が小さいほど小さい値を出力し、画像識別器に入力された画像が人工画像である場合には、画像識別器101の出力する推定真偽確率が大きければ大きいほど小さい値を出力する生成損失関数とを用い、識別損失関数及び生成損失関数の値が小さくなるように画像識別器101のパラメータの反復学習を行うことにより、学習用画像が少ない場合であっても、精度よくクラスが識別できる画像識別器101を学習できる。
また、実画像と人工画像を用いて画像識別器101を学習する構成を採ることにより、少数の教師有り画像データからでも高精度な画像識別器101を実現できる画像認識学習装置、画像認識方法、及びプログラムを提供できる。
学習においては、識別損失関数と、生成損失関数とを用いる。画像生成器102は、これらの値が大きくなるように学習されるのであり、結果、画像識別器101が実画像と見まがうようなものでありながらも、画像識別器101がクラスラベルを誤りやすい画像を生成することができるようになる。一方で、画像識別器101はこれらが小さくなるように学習される。結果として、実画像は正しく分類しつつも、人工画像の中でもより実画像に近いと見做すことができるものについては、これらも所望の帰属確率に近づくように学習することができる。このような画像識別器101と画像生成器102の相互作用により、画像識別器101は、画像生成器102が生成した実画像に近しく、かつ、より現在の画像識別器101が認識しにくい画像を使って学習することができるようになるのであり、結果として、少数の教師有り画像データからでも、非常に高精度な画像識別器101を実現できるのである。
なお、本発明は、上述した実施形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
例えば、上述した実施形態では、画像認識学習装置と画像認識装置とを異なる装置によって構成する場合を例に説明したが、これに限定されるものではなく、同一の装置によって構成するようにしてもよい。この場合には、学習処理は、画像識別器を利用して画像認識する前に、少なくとも一度実行しておけばよい。
100 画像認識学習装置
101 画像識別器
102 画像生成器
103 識別損失評価部
104 生成損失評価部
105 学習部
110 学習用画像集合
120 参照用画像集合
130 記憶部
200 画像認識装置
201 画像識別器
230 記憶部
240 画像
250 認識結果

Claims (7)

  1. 入力された画像の各クラスへの帰属確率、及び入力された画像の人工画像らしさを表す推定真偽確率を出力する画像識別器を備える画像認識学習装置であって、
    前記画像識別器について、
    前記画像識別器が出力した画像の前記各クラスへの帰属確率と前記画像の所与の教師帰属確率との類似度が高いほど小さい値を出力する第一の損失関数と、
    前記画像識別器に入力された画像が実画像である場合には、前記画像識別器の出力する前記推定真偽確率が小さいほど小さい値を出力し、前記画像識別器に入力された画像が人工画像である場合には、前記画像識別器の出力する前記推定真偽確率が大きければ大きいほど小さい値を出力する第二の損失関数とを用い、
    前記第一の損失関数及び前記第二の損失関数の値が小さくなるように前記画像識別器のパラメータの反復学習を行う学習部、
    を含む画像認識学習装置。
  2. 前記教師帰属確率は、各クラスへの所望の帰属確率、あるいは、前記反復学習の学習途中における反復学習回数の異なる前記画像識別器が前記画像について出力した各クラスへの帰属確率である請求項1に記載の画像認識学習装置。
  3. 前記人工画像は、少なくとも一つ以上の乱数を用いて人工画像を出力する画像生成器により生成され、
    前記学習部は、前記画像生成器について、
    前記第一の損失関数及び前記第二の損失関数の値が大きくなるように前記画像生成器のパラメータの反復学習を行う請求項1又は請求項2に記載の画像認識学習装置。
  4. 請求項1〜3の何れか1項に記載の画像認識学習装置によりパラメータが学習された前記画像識別器を用いて、入力された画像について各クラスへの帰属確率を求め、クラスの認識結果を出力する画像認識装置。
  5. 入力された画像の各クラスへの帰属確率、及び入力された画像の人工画像らしさを表す推定真偽確率を出力する画像識別器を備える画像認識学習装置における画像認識学習方法であって、
    学習部が、
    前記画像識別器について、
    前記画像識別器が出力した画像の前記各クラスへの帰属確率と前記画像の所与の教師帰属確率との類似度が高いほど小さい値を出力する第一の損失関数と、
    前記画像識別器に入力された画像が実画像である場合には、前記画像識別器の出力する前記推定真偽確率が小さいほど小さい値を出力し、前記画像識別器に入力された画像が人工画像である場合には、前記画像識別器の出力する前記推定真偽確率が大きければ大きいほど小さい値を出力する第二の損失関数とを用い、
    前記第一の損失関数及び前記第二の損失関数の値が小さくなるように前記画像識別器のパラメータの反復学習を行うステップ、
    を含む画像認識学習方法。
  6. 請求項5に記載の画像認識学習装置によりパラメータが学習された前記画像識別器を用いて、入力された画像について各クラスへの帰属確率を求め、クラスの認識結果を出力する画像認識方法。
  7. コンピュータを、請求項1〜請求項3のいずれか1項に記載の画像認識学習装置、又は請求項4に記載の画像認識装置として機能させるためのプログラム。
JP2018137735A 2018-07-23 2018-07-23 画像認識学習装置、画像認識装置、方法、及びプログラム Active JP7139749B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2018137735A JP7139749B2 (ja) 2018-07-23 2018-07-23 画像認識学習装置、画像認識装置、方法、及びプログラム
US17/262,121 US11816882B2 (en) 2018-07-23 2019-07-17 Image recognition learning device, image recognition device, method and program
PCT/JP2019/028097 WO2020022144A1 (ja) 2018-07-23 2019-07-17 画像認識学習装置、画像認識装置、方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018137735A JP7139749B2 (ja) 2018-07-23 2018-07-23 画像認識学習装置、画像認識装置、方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2020016935A true JP2020016935A (ja) 2020-01-30
JP7139749B2 JP7139749B2 (ja) 2022-09-21

Family

ID=69180285

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018137735A Active JP7139749B2 (ja) 2018-07-23 2018-07-23 画像認識学習装置、画像認識装置、方法、及びプログラム

Country Status (3)

Country Link
US (1) US11816882B2 (ja)
JP (1) JP7139749B2 (ja)
WO (1) WO2020022144A1 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021193546A (ja) * 2020-06-08 2021-12-23 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. 画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
JP2021196960A (ja) * 2020-06-16 2021-12-27 Kddi株式会社 機械学習装置、機械学習方法及び機械学習プログラム
JP7480001B2 (ja) 2020-09-10 2024-05-09 株式会社東芝 学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020095428A (ja) * 2018-12-12 2020-06-18 株式会社東芝 モデル学習システム、モデル学習方法、プログラム、及び記憶媒体
EP3767536A1 (en) * 2019-07-17 2021-01-20 Naver Corporation Latent code for unsupervised domain adaptation

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220600A (zh) * 2017-05-17 2017-09-29 清华大学深圳研究生院 一种基于深度学习的图片生成方法及生成对抗网络

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9734436B2 (en) * 2015-06-05 2017-08-15 At&T Intellectual Property I, L.P. Hash codes for images
JP6633476B2 (ja) 2016-08-26 2020-01-22 日本電信電話株式会社 属性推定装置、属性推定方法および属性推定プログラム
CN107578017B (zh) * 2017-09-08 2020-11-17 百度在线网络技术(北京)有限公司 用于生成图像的方法和装置
US10403031B2 (en) * 2017-11-15 2019-09-03 Google Llc Learning to reconstruct 3D shapes by rendering many 3D views
CN108171762B (zh) * 2017-12-27 2021-10-12 河海大学常州校区 一种深度学习的压缩感知同类图像快速重构系统与方法
JP7203852B2 (ja) * 2018-01-03 2023-01-13 コーニンクレッカ フィリップス エヌ ヴェ 深層学習を使用した低線量petイメージングからの全線量pet画像の推定
US11361191B2 (en) * 2018-05-22 2022-06-14 Ebay Inc. Adversarial learning for finegrained image search
CN108960086B (zh) * 2018-06-20 2021-06-04 电子科技大学 基于生成对抗网络正样本增强的多姿态人体目标跟踪方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107220600A (zh) * 2017-05-17 2017-09-29 清华大学深圳研究生院 一种基于深度学习的图片生成方法及生成对抗网络

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
"「東芝が送電線点検に新種のディープラーニング "知能"より"創作者"と呼ぶべき新AI「生成モデル」」", 日経ROBOTICS, vol. 2017年4月号(第21号), JPN6022033277, 10 March 2017 (2017-03-10), JP, pages 3 - 9, ISSN: 0004844889 *
AUGUSTUS ODENA, ET AL.: ""Conditional Image Synthesis with Auxiliary Classifier GANs"", ARXIV:1610.09585V4, vol. version v4, JPN6022033275, 20 July 2017 (2017-07-20), pages 1 - 12, ISSN: 0004844887 *
GIOVANNI MARIANI, ET AL.: ""BAGAN: Data Augmentation with Balancing GAN"", ARXIV:1803.09655V2, vol. version v2, JPN6022033276, 5 June 2018 (2018-06-05), pages 1 - 9, ISSN: 0004844888 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021193546A (ja) * 2020-06-08 2021-12-23 ペキン バイドゥ ネットコム サイエンス アンド テクノロジー カンパニー リミテッドBeijing Baidu Netcom Science And Technology Co., Ltd. 画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
JP7308235B2 (ja) 2020-06-08 2023-07-13 ベイジン バイドゥ ネットコム サイエンス テクノロジー カンパニー リミテッド 画像生成方法および装置、電子機器、記憶媒体並びにコンピュータプログラム
JP2021196960A (ja) * 2020-06-16 2021-12-27 Kddi株式会社 機械学習装置、機械学習方法及び機械学習プログラム
JP7290608B2 (ja) 2020-06-16 2023-06-13 Kddi株式会社 機械学習装置、機械学習方法及び機械学習プログラム
JP7480001B2 (ja) 2020-09-10 2024-05-09 株式会社東芝 学習装置、処理装置、学習方法、姿勢検出モデル、プログラム、及び記憶媒体

Also Published As

Publication number Publication date
WO2020022144A1 (ja) 2020-01-30
JP7139749B2 (ja) 2022-09-21
US11816882B2 (en) 2023-11-14
US20210295112A1 (en) 2021-09-23

Similar Documents

Publication Publication Date Title
WO2020022144A1 (ja) 画像認識学習装置、画像認識装置、方法、及びプログラム
Maraghi et al. Scaling Human‐Object Interaction Recognition in the Video through Zero‐Shot Learning
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN109934293B (zh) 图像识别方法、装置、介质及混淆感知卷积神经网络
CN109308318B (zh) 跨领域文本情感分类模型的训练方法、装置、设备及介质
EP3767536A1 (en) Latent code for unsupervised domain adaptation
CN111582409B (zh) 图像标签分类网络的训练方法、图像标签分类方法及设备
CN112464292B (zh) 基于隐私保护训练图神经网络的方法及装置
CN111079532A (zh) 一种基于文本自编码器的视频内容描述方法
CN113572742B (zh) 基于深度学习的网络入侵检测方法
US20200134455A1 (en) Apparatus and method for training deep learning model
US11636682B2 (en) Embedding contextual information in an image to assist understanding
CN112241456B (zh) 基于关系网络与注意力机制的假新闻预测方法
CN114842343A (zh) 一种基于ViT的航空图像识别方法
Cai et al. Underwater distortion target recognition network (UDTRNet) via enhanced image features
Lu et al. Dance: Enhancing saliency maps using decoys
Kopčan et al. Anomaly detection using Autoencoders and Deep Convolution Generative Adversarial Networks
Song et al. Background subtraction using infinite asymmetric Gaussian mixture models with simultaneous feature selection
US20230134508A1 (en) Electronic device and method with machine learning training
CN113343041B (zh) 基于图模型表示学习的消息回复关系判断系统
CN117011219A (zh) 物品质量检测方法、装置、设备、存储介质和程序产品
CN115630361A (zh) 一种基于注意力蒸馏的联邦学习后门防御方法
CN113901810A (zh) 一种基于多表示学习的跨领域虚假新闻检测方法
Basnyat et al. Towards AI Conversing: FloodBot using Deep Learning Model Stacks
CN115952438B (zh) 社交平台用户属性预测方法、系统、移动设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201029

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220104

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220302

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220408

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220822

R150 Certificate of patent or registration of utility model

Ref document number: 7139749

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150