JP2019101907A - 物体間関係認識装置、学習済みモデル、認識方法及びプログラム - Google Patents

物体間関係認識装置、学習済みモデル、認識方法及びプログラム Download PDF

Info

Publication number
JP2019101907A
JP2019101907A JP2017234246A JP2017234246A JP2019101907A JP 2019101907 A JP2019101907 A JP 2019101907A JP 2017234246 A JP2017234246 A JP 2017234246A JP 2017234246 A JP2017234246 A JP 2017234246A JP 2019101907 A JP2019101907 A JP 2019101907A
Authority
JP
Japan
Prior art keywords
triplet
output
elements
units
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017234246A
Other languages
English (en)
Other versions
JP6985121B2 (ja
Inventor
中山 英樹
Hideki Nakayama
英樹 中山
建斗 増井
Taketo Masui
建斗 増井
真太郎 吉澤
Shintaro Yoshizawa
真太郎 吉澤
亮吉 落合
Ryokichi Ochiai
亮吉 落合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Tokyo NUC
Toyota Motor Corp
Original Assignee
University of Tokyo NUC
Toyota Motor Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Tokyo NUC, Toyota Motor Corp filed Critical University of Tokyo NUC
Priority to JP2017234246A priority Critical patent/JP6985121B2/ja
Priority to US16/209,116 priority patent/US10762329B2/en
Priority to CN201811472495.2A priority patent/CN110059528B/zh
Publication of JP2019101907A publication Critical patent/JP2019101907A/ja
Application granted granted Critical
Publication of JP6985121B2 publication Critical patent/JP6985121B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/004Artificial life, i.e. computing arrangements simulating life
    • G06N3/008Artificial life, i.e. computing arrangements simulating life based on physical entities controlled by simulated intelligence so as to replicate intelligent life forms, e.g. based on robots replicating pets or humans in their appearance or behaviour
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/768Arrangements for image or video recognition or understanding using pattern recognition or machine learning using context analysis, e.g. recognition aided by known co-occurring patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations

Abstract

【課題】画像に含まれる物体間の関係を逐次的に認識することで、短時間で物体間の関係を出力できること。【解決手段】物体間関係認識装置は、画像が入力され、その画像の第1特徴量を出力する第1学習器と、第1特徴量が入力され第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数の記憶部を有する第2学習器と、第2特徴量が入力され、第1乃至第3要素を認識し、その確率情報を出力する第1乃至第3認識部で構成される複数のトリプレットユニットを有するトリプレット部と、を備える。トリプレット部は、各トリプレットユニットの第1乃至第3認識部から出力される第1乃至第3要素の確率情報に基づいて、各トリプレットユニットから出力される第1乃至第3要素の組合せの中から、少なくとも1つの第1乃至第3要素の組合せを選択し、その組合せを物体間の関係として認識し出力する。【選択図】図1

Description

本発明は、画像に含まれる物体間の関係を認識する物体間関係認識装置、学習済みモデル、認識方法及びプログラムに関する。
画像に含まれる複数の物体の関係を学習し、その学習結果に基づいて、物体間の関係を認識し出力する物体間関係認識装置が知られている(例えば、非特許文献1参照)。
Yuval Atzmon, Jonathan Berant, Vahid Kezami, Amir Globerson, Gal Chechik著、 Learinig to generalize to new compositions in image understanding、 arXiv preprint arXiv; 1608.07639, 2016.
上記物体間関係認識装置は、画像に含まれる物体間の関係を全て抽出した後、その物体間の関係を出力する。このため、物体間の関係を出力するまでに時間がかかる虞がある。
本発明は、このような問題点を解決するためになされたものであり、画像に含まれる物体間の関係を逐次的に認識することで、短時間で物体間の関係を出力できる物体間関係認識装置、学習済みモデル、認識方法及びプログラムを提供することを主たる目的とする。
上記目的を達成するための本発明の一態様は、画像と、該画像に含まれる複数の物体間の関係と、を対応付けた学習データに基づいて学習を行い、該学習結果を用いて画像に含まれる物体間の関係を認識し出力する物体間関係認識装置であって、画像が入力され、該画像の特徴を示す第1特徴量を出力する第1学習器と、前記第1学習器から出力される第1特徴量が入力され、該第1特徴量より低次元数の第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数の記憶部を有する第2学習器と、第2学習器の各記憶部に接続され、該各記憶部から出力される第2特徴量が入力され、該入力された第2特徴量に基づいてそれぞれ第1乃至第3要素を認識し、該第1乃至第3要素の確率情報を出力する第1乃至第3認識部で構成される共に、前記第1乃至第3要素の組合せをそれぞれ出力する複数のトリプレットユニットを有するトリプレット部と、を備え、前記トリプレット部は、前記各トリプレットユニットの第1乃至第3認識部から出力される第1乃至第3要素の確率情報に基づいて、前記各トリプレットユニットから出力される第1乃至第3要素の組合せの中から、少なくとも1つの前記第1乃至第3要素の組合せを選択し、該選択した第1乃至第3要素の組合せを、前記画像に含まれる物体間の関係として認識し出力する、ことを特徴とする物体間関係認識装置である。
この一態様において、前記第2学習器は、再帰的ニューラルネットワークであり、前記第2学習器及びトリプレット部は、画像と物体間の関係とを対応付けた学習データに基づいて、所定関数のパラメータを最適化することで前記学習を行い、該最適化されたパラメータを学習結果として保持していてもよい。
この一態様において、前記第1及び第3認識部は、それぞれ、前記第1及び第3要素の確率情報を前記第2認識部に出力し、前記第2認識部は、前記第1及び第3認識部から出力される第1及び第3要素と、対応する前記第2学習器の記憶部から出力される第2特徴量と、に基づいて、前記第2要素を認識し、該第2要素の確率情報を出力してもよい。
この一態様において、前記第2学習器の記憶部は、LSTM(Long Short-Term Memory)であってもよい。
この一態様において、前記第1学習器は、畳み込み式ニューラルネットワークとして構成されていてもよい。
上記目的を達成するための本発明の一態様は、画像が入力され、該画像の特徴を示す第1特徴量を出力する第1学習器と、前記第1学習器から出力される第1特徴量が入力され、該第1特徴量より低次元数の第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数の記憶部を有する第2学習器と、第2学習器の各記憶部に接続され、該各記憶部から出力される第2特徴量が入力され、該入力された第2特徴量に基づいてそれぞれ第1乃至第3要素を識別し、該第1乃至第3要素の確率情報を出力する第1乃至第3認識部で構成され前記第1乃至第3要素の組合せを出力する複数のトリプレットユニットを有するトリプレット部と、を備え、前記トリプレット部は、前記各トリプレットユニットの第1乃至第3認識部から出力される第1乃至第3要素の確率情報に基づいて、前記各トリプレットユニットから出力される第1乃至第3要素の組合せの中から、少なくとも1つの前記第1乃至第3要素の組合せを選択し、該選択した第1乃至第3要素の組合せを、前記画像に含まれる物体間の関係として認識するよう、に構成され、画像と該画像に含まれる物体間の関係とを対応付けた学習データに基づいて、前記第1学習器、第2学習器及びトリプレット部の重み付け係数が学習され、認識対象の画像が入力されると、前記第1学習器、第2学習器及びトリプレット部が該学習済み重み付け係数に基づく演算を行い、該認識対象の画像に含まれる各物体間の関係が認識されるよう、コンピュータを機能させるための学習済みモデルであってもよい。
上記目的を達成するための本発明の一態様は、画像が入力され、該画像の特徴を示す第1特徴量を出力する第1学習器と、前記第1学習器から出力される第1特徴量が入力され、該第1特徴量より低次元数の第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数の記憶部を有する第2学習器と、第2学習器の各記憶部に接続され、該各記憶部から出力される第2特徴量が入力され、該入力された第2特徴量に基づいてそれぞれ第1乃至第3要素を認識し、該第1乃至第3要素の確率情報を出力する第1乃至第3認識部で構成される共に、前記第1乃至第3要素の組合せをそれぞれ出力する複数のトリプレットユニットを有するトリプレット部と、を備える物体間関係認識装置の認識方法であって、前記トリプレット部は、前記各トリプレットユニットの第1乃至第3認識部から出力される第1乃至第3要素の確率情報に基づいて、前記各トリプレットユニットから出力される第1乃至第3要素の組合せの中から、少なくとも1つの前記第1乃至第3要素の組合せを選択し、該選択した第1乃至第3要素の組合せを、前記画像に含まれる物体間の関係として認識し出力する、ことを特徴とする認識方法であってもよい。
上記目的を達成するための本発明の一態様は、画像が入力され、該画像の特徴を示す第1特徴量を出力する第1学習器と、前記第1学習器から出力される第1特徴量が入力され、該第1特徴量より低次元数の第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数の記憶部を有する第2学習器と、第2学習器の各記憶部に接続され、該各記憶部から出力される第2特徴量が入力され、該入力された第2特徴量に基づいてそれぞれ第1乃至第3要素を認識し、該第1乃至第3要素の確率情報を出力する第1乃至第3認識部で構成される共に、前記第1乃至第3要素の組合せをそれぞれ出力する複数のトリプレットユニットを有するトリプレット部と、を備える物体間関係認識装置のプログラムであって、前記トリプレット部が、前記各トリプレットユニットの第1乃至第3認識部から出力される第1乃至第3要素の確率情報に基づいて、前記各トリプレットユニットから出力される第1乃至第3要素の組合せの中から、少なくとも1つの前記第1乃至第3要素の組合せを選択し、該選択した第1乃至第3要素の組合せを、前記画像に含まれる物体間の関係として認識し出力する処理をコンピュータに実行させる、ことを特徴とするプログラムであってもよい。
本発明によれば、画像に含まれる物体間の関係を逐次的に認識することで、短時間で物体間の関係を出力できる物体間関係認識装置、学習済みモデル、認識方法及びプログラムを提供することができる。
本発明の実施形態1に係る物体間関係認識装置の概略的なシステム構成を示すブロック図である。 本発明の実施形態1に係る第2ニューラルネットワーク及びトリプレット部の概略的構成を示すブロック図である。 本発明の実施形態1に係るトリプレットユニットの概略的構成を示すブロック図である。 認識工程を具体的に説明するための図である。 物体間関係をグラフで出力した一例を示す図である。 本発明の実施形態1に係る物体間関係認識装置の認識方法のフローを示すフローチャートである。 本発明の実施形態2にかかるトリプレットユニットを示す図である。 多層化されたトリプレットユニットの一例を示す図である。 (a)実施形態1及び2に係る物体間関係認識装置1によるシミュレーション結果を示す図である。(b)本発明の実施形態1及び2に係る物体間関係認識装置1によるシミュレーション結果を示す図である。 物体間関係認識装置が搭載されたロボットの概略的構成を示すブロック図である。 認識された物体間関係に従ったロボットの動作を示す図である。
実施形態1
以下、図面を参照して本発明の実施形態について説明する。
図1は、本発明の実施形態1に係る物体間関係認識装置の概略的なシステム構成を示すブロック図である。本実施形態1に係る物体間関係認識装置1は、例えば、家庭内などの一般環境で活動するロボット周辺にある複数の物体を認識し、各物体間の関係を認識し出力するものである。
本実施形態1に係る物体間関係認識装置1は、第1ニューラルネットワーク2と、第2ニューラルネットワーク3と、トリプレット部4と、を備える。
物体間関係認識装置1は、例えば、演算処理等を行うCPU(Central Processing Unit)、CPUによって実行される演算プログラム等が記憶されたROM(Read Only Memory)やRAM(Random Access Memory)からなるメモリ、外部と信号の入出力を行うインターフェイス部(I/F)、などからなるマイクロコンピュータを中心にして、ハードウェア構成されている。CPU、メモリ、及びインターフェイス部は、データバスなどを介して相互に接続されている。
第1ニューラルネットワーク2は、第1学習器の一具体例である。第1ニューラルネットワーク2は、例えば、畳み込み式ニューラルネットワーク(CNN:Convolutional Neural Network)として構成されている。第1ニューラルネットワーク2は、例えば、画像情報が入力されると、その画像の第1特徴量として、4096次元のベクトル値を出力する。
第1特徴量は、第1ニューラルネットワーク2が抽出する画像特徴量であり、後述の第2特徴量は、第2ニューラルネットワーク3が抽出する画像特徴量である。なお、第1ニューラルネットワーク2の入力として、画像内の部体に定義されるBounding Box(バウンディングボックス)から作ったものを入力とし、第1特徴量を付加してもよい。
上記第1ニューラルネットワーク2が出力する第1特徴量の次元数は一例でありこれに限定されず、計算資源が許容される限り任意に設定できる。
図2は、本実施形態1に係る第2ニューラルネットワーク及びトリプレット部の概略的構成を示すブロック図である。第2ニューラルネットワーク3は、第2学習器の一具体例である。第2ニューラルネットワーク3は、例えば、再帰的ニューラルネットワーク(RNN:Recurrent Neural Network)として構成されている。第2ニューラルネットワーク3は、複数のLSTM(Long Short-Term Memory)31を有している。
LSTM31は、例えば、第1ニューラルネットワーク2から出力される4096次元ベクトルの第1特徴量が入力され、第1特徴量より低次元数の1024次元ベクトルの第2特徴量を出力する。このように第1ニューラルネットワーク2によって特徴量の次元数を低減することで計算量を低減できる。
LSTM31は、内部状態を所定ステップ保持し、逐次的に第1ニューラルネットワーク2からの第1特徴量を受け付ける。LSTM31は、あるステップtにおける内部状態を入力に応じて更新するようにモデリングされている。本実施形態1において、ステップtにおけるLSTM31をLSTMと表記する。
LSTM31は、第1ニューラルネットワーク2から第1特徴量が入力される毎に、内部状態を更新し、1024次元の第2特徴量を出力する。上記LSTM31が出力する第2特徴量の次元数は一例でありこれに限定されず、計算資源が許容される限り任意に設定できる。
トリプレット部4は、第2ニューラルネットワーク3のLSTM31に対応した、複数のトリプレットユニット41で構成されている。トリプレット部4の各トリプレットユニット41は、対応する、第2ニューラルネットワーク3の各LSTM31に夫々接続されている。各トリプレットユニット41には、LSTM31から出力される第2特徴量が入力される。
図3は、本実施形態1に係るトリプレットユニットの概略的構成を示すブロック図である。トリプレットユニット41は、LSTM31から出力される第2特徴量に基づいて、第1要素であるsubject、第2要素であるpredicate、及び第3要素であるobjectを認識する、独立した第1乃至第3認識部411、412、413を有している。
例えば、第1認識部411は、LSTM31から出力される第2特徴量に基づいて、「Monitor」、「Mouse」などのsubject(主語)を認識する。第2認識部412は、LSTM31から出力される第2特徴量に基づいて、「on」、「sitting」などのpredicate(述語)を認識する。第3認識部413は、LSTM31から出力される第2特徴量に基づいて、「table」などのobject(目的語)を認識する。そして、第1乃至第3認識部411、412、413は、認識結果であるsubject、predicate、及びobjectの事後確率分布(確率情報の一例)を、ベクトルとして夫々出力する。
トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルに基づいて、各トリプレットユニット41から出力されるトリプレット(subject、predicate、及びobjectの組合せ)の中から、少なくとも1つのトリプレット(クラス)を選択する。
トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルに基づいて、各トリプレットユニット41から出力されるトリプレットの中から、例えば、ベクトルが最大値となるトリプレットを選択する。また、トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルに基づいて、各トリプレットユニット41から出力されるトリプレットの中から、例えば、ベクトルが所定値以上のトリプレットを選択してもよい。トリプレット部4は、選択したトリプレットを物体間関係として出力する。
上述したように、本実施形態1に係る物体間関係認識装置1は、トリプレット部4の各トリプレットユニット41を用いて、物体間関係を認識する。これにより、物体間関係を認識する際の計算量を大幅に低減できる。すなわち、従来のランキング学習を用いた手法では、特徴量から画像に含まれる全ての物体の組合せの関係に対しスコアを算出しており、その認識にかかる計算量はO(Nの3乗)であった。
これに対し、本実施形態1に係る物体間関係認識装置1は、トリプレット部4の各トリプレットユニット41を用いて物体間関係を、subject、predicate、及びobjectのトリプレットに分解して認識する。このため、各要素の認識に必要なスコアの計算量はO(N)であり、1つのトリプレットを認識するために、各要素の第1乃至第3認識部411、412、413の出力結果を独立に用いることができる。したがって、認識にかかる全体の計算量はO(N)に抑え、その計算量を低減できる。
続いて、物体間関係認識装置の認識方法について説明する。本実施形態1に係る物体間関係認識装置1は、後述の如く、<学習工程>において、予め用意された学習データに基づいて学習を行う。その後、物体間関係認識装置1は、<認識工程>において、<学習工程>の学習結果を用いて、新たに取得された認識対象物を含む画像(以下、認識対象画像)に含まれる各物体間の関係を示す物体間関係を認識する。
以下、<学習工程>及び<認識工程>について詳細に説明する。
<学習工程>
第1ニューラルネットワーク2、第2ニューラルネットワーク3、及び、トリプレット部4は、予め用意した学習データに基づいて、第1ニューラルネットワーク2、第2ニューラルネットワーク3、及び、トリプレット部4の重み付け係数の学習を行う。学習データは、例えば、画像と物体間関係とを対応付けた複数組のデータ群である。学習データは、例えば、メモリなどに予め記憶されていてもよい。
本実施形態1においては、第1ニューラルネットワーク2は、例えば、予めインターネット上の画像データ群などを基づいて、重み付け係数の学習を行ってもよい。続いて、第2ニューラルネットワーク3及びトリプレット部4は、予め用意した複数の物体を含む画像と物体間関係とを対応付けた学習データに基づいて重み付け係数の学習を行う。
第2ニューラルネットワーク3及びトリプレット部4は、例えば、以下のバッチ確率的勾配降下法を用いて重み付け係数の学習を行う。なお、第1ニューラルネットワーク2、第2ニューラルネットワーク3及びトリプレット部4は、学習データに基づいて同時に重み付け係数の学習を行ってもよい。
第2ニューラルネットワーク3及びトリプレット部4は、バッチ確率的勾配降下法において、下記(3)式に示す損失関数L(Θ、W)を最小化するように、LSTM31のパラメータ(LSTMパラメータ)Θ及びトリプレットユニット41のパラメータ(トリプレットパラメータ)Wの最適化を行う。損失関数L(Θ、W)は、所定関数の一具体例である。
第2ニューラルネットワーク3及びトリプレット部4は、損失関数を最小化した(収束させた)後、バリデーションデータセットで最も精度の高いパラメータを学習結果(学習済み重み付け係数)として保持する。
Figure 2019101907
上記式において、N、N、Nは、夫々、subject、predicate、objectのクラス数を示す。xは画像を示し、x∈R3×224×224となっている。CNN(x)は、第1ニューラルネットワーク2から出力される第1特徴量を示し、CNN(x)∈R4096となっている。
LSTMは、ステップtにおけるLSTM31からの出力値を示し、LSTM∈R1024となっている。ΘはLSTMパラメータを示している。s′、p′、o′は、夫々、第1乃至第3認識部411、412、413から出力されるステップtにおけるsubject、predicate、objectの事後確率分布ベクトルを示す。y′は、ステップtにおけるトリプレットユニット41からの出力値を示し、y′=(s′、p′、o′)となっている。Wは、トリプレットパラメータを示している。
、p、oは、夫々、ステップtにおけるsubject、predicate、objectの教師データを示す。TU()は、トリプレット関数であり、予めトリプレットユニット41に設定されている。なお、上記(2)式のステップtにおける各LSTM31の出力L(Θ、W)を加算したものが上記(3)式に示す損失関数L(Θ、W)となっている。
第2ニューラルネットワーク3及びトリプレット部4は、第1乃至第3認識部411、412、413の出力データであるs′、p′、o′と、教師データであるs、p、oとの差が最小となるようにLSTMパラメータΘ及びトリプレットパラメータWを決定し、損失関数L(Θ、W)を最小化している。
上述したように、第1ニューラルネットワーク2、第2ニューラルネットワーク3及びトリプレット部4は、予め用意した学習データに基づいて学習を行い、その学習結果を保持する。
<認識工程>
続いて、物体間関係認識装置1は、上記<学習工程>において学習した学習結果(LSTMパラメータΘ及びトリプレットパラメータW)を用いて、新たに取得された認識対象画像に含まれる各物体間の関係を示す物体間関係を認識する。物体間関係認識装置1は、認識対象画像に基づいて、その認識対象画像に含まれる各物体の物体間関係を認識する。認識対象画像は、例えば、ロボットのカメラにより取得された画像やメモリになどに予め記憶された画像である。
第1ニューラルネットワーク2に、例えば、図4に示す如く、認識対象画像xが入力される(図4の(1))。
第1ニューラルネットワーク2は、入力された認識対象画像xに基づいて、学習済み重み付け係数に基づく演算を行い、例えば、4096次元ベクトルの第1特徴量CNN(x)を、第2ニューラルネットワーク3の各LSTM31に対し出力する。
各LSTM31は、第1ニューラルネットワーク2からの第1特徴量CNN(x)に基づいて、上記学習工程で設定されたLSTMパラメータΘに従って演算を行い、例えば、1024次元ベクトルの第2特徴量LSTMを、トリプレット部4の各トリプレットユニット41に対し出力する(図4の(2))。
各トリプレットユニット41の第1乃至第3認識部411、412、413は、各LSTM31からの第2特徴量LSTMに基づいて、上記学習工程で設定されたトリプレットパラメータWに従がって演算を行い、subject、predicate、及びobjectの事後確率分布ベクトルs′、p′、o′を出力する(図4の(3))。
トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルs′、p′、o′に基づいて、各トリプレットユニット41から出力されるトリプレット(subject、predicate、及びobjectの組合せ)の中から、ベクトルの最大値を取るトリプレットを選択し、そのトリプレットを物体間関係として認識し出力する(図4の(4))。
トリプレット部4は、例えば、図4に示す如く、トリプレット(Monitor on table)、(Mouse on table)、・・・、及び(Person sitting chair)の中から、トリプレット(Monitor on table)を選択し、物体間関係として認識し出力する。物体間関係認識装置1は、例えば、トリプレット部4から出力される物体間関係を、ディスプレイ、スピーカ、プリンタなどの出力装置を用いてユーザに対し出力する。物体間関係認識装置1は、入力画像に対し出力装置を用いて、例えば、図5に示す如く、物体間関係(stem on table)をグラフで出力してもよい。これにより、ユーザは、物体間関係を視覚的に容易に認識できる。
上述したように、本実施形態1に係る物体間関係認識装置1は、画像の特徴量を、複数のLSTM31で構成された再帰的な第2ニューラルネットワーク3に入力し、その出力からトリプレット部4のトリプレットユニット41を用いて、物体間関係を認識する。これにより、逐次的に物体間関係を認識し出力することができ、出力済みの物体間関係を考慮して、物体間関係を短時間で出力できる。
また、画像から複数の物体間関係を認識する場合、同一の物体間関係を重複して出力したり、類似した物体間関係を複数出力するのを抑制するのが好ましい。これに対し、本実施形態1に係る物体間関係認識装置1において、再帰的な第2ニューラルネットワーク3は、逐次的に各ステップで出力した際の過去の出力結果を考慮するようにモデル化されている。このため、多様な物体間関係を出力しつつも、同一あるいは類似した物体間関係の出力を抑制でき、物体間関係の意味的重複を排除できる。
さらに、従来のランキング学習を用いた手法では、ランクに基づいてスコアの大きさにかかわらず一定数の物体間関係を出力するようにモデル化されていた。これに対し、本実施形態1に係る物体間関係認識装置1は、物体間関係を逐次的に出力できる。このため、物体間関係認識装置1は、例えば、認識対象画像に対して正しいと考えられる物体間関係のみを選択し出力することができる。すなわち、本実施形態1に係る物体間関係認識装置1は、設定された最大数以下で、任意の数の物体間関係を出力することができるため、物体間関係を選択的に出力できる。
図6は、本実施形態1に係る物体間関係認識装置の認識方法のフローを示すフローチャートである。
例えば、学習工程において、第1ニューラルネットワーク2は、予め用意した画像データ群などを基づいて、学習を行う。
第2ニューラルネットワーク3及びトリプレット部4は、予め用意した画像と物体間関係とを対応付けた学習データに基づいて学習を行い、損失関数L(Θ、W)のLSTMパラメータΘ及びトリプレットパラメータWを最適化する(ステップS102)。
続いて、認識工程において、第1ニューラルネットワーク2に、認識対象画像が入力される(ステップS103)。
第1ニューラルネットワーク2は、入力された認識対象画像に基づいて学習済み重み付け係数に基づく演算を行い、例えば、4096次元ベクトルの第1特徴量を、第2ニューラルネットワーク3の各LSTM31に対し出力する(ステップS104)。
各LSTM31は、第1ニューラルネットワーク2から4096次元ベクトルの第1特徴量に基づいて、上記学習工程で設定されたLSTMパラメータΘに従って演算を行い、例えば、1024次元ベクトルの第2特徴量を、トリプレット部4の各トリプレットユニット41に対し出力する(ステップS105)。
各トリプレットユニット41の第1乃至第3認識部411、412、413は、各LSTM31からの1024次元ベクトルの第2特徴量に基づいて、上記学習工程で設定されたトリプレットパラメータWに従がって演算を行い、subject、predicate、及びobjectの事後確率分布ベクトルを出力する(ステップS106)。
トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルに基づいて、各トリプレットユニット41から出力されるトリプレットの中から、ベクトルの最大値を取るトリプレットを選択し、そのトリプレットを物体間関係として出力する(ステップS107)。
以上、本実施形態1に係る物体間関係認識装置1は、画像が入力され、該画像の特徴を示す第1特徴量を出力する第1ニューラルネットワーク2と、第1ニューラルネットワーク2から出力される第1特徴量が入力され、第1特徴量より低次元数の第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数のLSTM31を有する第2ニューラルネットワーク3と、第2ニューラルネットワーク3の各LSTM31に接続され、該各LSTM31から出力される第2特徴量が入力され、該入力された第2特徴量に基づいてそれぞれsubject、predicate、及びobjectを認識し、該subject、predicate、及びobjectの事後確率分布ベクトルを出力する第1乃至第3認識部411、412、413で構成される共に、subject、predicate、及びobjectの組合せをそれぞれ出力する複数のトリプレットユニット41を有するトリプレット部4と、を備える。トリプレット部4は、各トリプレットユニット41の第1乃至第3認識部411、412、413から出力されるsubject、predicate、及びobjectの事後確率分布ベクトルに基づいて、各トリプレットユニット41から出力されるsubject、predicate、及びobjectの組合せの中から、少なくとも1つのsubject、predicate、及びobjectの組合せを選択し、該選択したsubject、predicate、及びobjectの組合せを、画像に含まれる物体間の関係として認識する。なお、トリプレットユニット41は、例えば、図8に示す如く、多層化されていてもよい。
本実施形態1に係る物体間関係認識装置1は、上述の如く、トリプレット部4の各トリプレットユニット41を用いて物体間関係を、subject、predicate、及びobjectのトリプレットに分解して認識する。これにより、物体間関係を認識する際の計算量を大幅に低減できる。
また、本実施形態1に係る物体間関係認識装置1は、上述の如く、画像の特徴量を、複数のLSTM31で構成された再帰的な第2ニューラルネットワーク3に入力し、その出力からトリプレット部4のトリプレットユニット41を用いて、物体間関係を認識する。これにより、逐次的に物体間関係を認識し出力することができ、出力済みの物体間関係を考慮して、物体間関係を短時間で出力できる。
さらに、本実施形態1に係る物体間関係認識装置1において、上述の如く、再帰的な第2ニューラルネットワーク3は、逐次的に各ステップで出力した際の過去の出力結果を考慮するようにモデル化されている。これにより、多様な物体間関係を出力しつつも、同一あるいは類似した物体間関係の出力を抑制できる。
さらに、本実施形態1に係る物体間関係認識装置1は、上述の如く、物体間関係を逐次的に出力できる。これにより、物体間関係認識装置1は、設定された最大数以下で、任意の数の物体間関係を出力することができ、物体間関係を選択的に出力できる。
実施形態2
上記実施形態1において、トリプレットユニット41の第1乃至第3認識部411、412、413は、独立して、subject、predicate、及びobjectを夫々認識している。一方、本実施形態2において、トリプレットユニット41の第2認識部412は、図7に示す如く、第1及び第3認識部411、413からの出力される認識結果に依存して、predicateを認識するように構成されている。トリプレットユニット41は、所謂Object-First型として構成されている。
第1及び第3認識部411、413は、それぞれ、subject及びobjectの事後確率分布ベクトルs′、o′を第2認識部412に出力する。第2認識部412は、第1及び第3認識部411、413から出力されるsubject及びobjectの事後確率分布ベクトルs′、o′と、対応するLSTM31から出力されるLSTMと、に基づいて、predicateを認識し、該predicateの事後確率分布ベクトルp′を出力する。
上記構成により、例えば、(man、wear、horse)のような間違った、subject、predicate、objectの認識を抑制し、2つの物体間でより出現頻度の高い関係を出力できる。したがって、認識精度をより向上させることができる。なお、本実施形態2において、他の構成は、上記実施形態1と略同一であり、同一部分には同一符号を付して詳細な説明は省略する。
図9(a)及び(b)は、本実施形態1及び2に係る物体間関係認識装置1によるシミュレーション結果を示す図である。図9(a)及び(b)において、縦軸は夫々Precision(精度)(%)及びRecall(再現度)(%)を示し、横軸は、各物体間関係認識装置1が認識した物体間関係の数である。実線(1)は、実施形態1に係る物体間関係認識装置1の結果を示し、点線(2)は、実施形態2に係る物体間関係認識装置1の結果を示している。物体クラス数および関係性クラス数が、それぞれ、1000存在するデータを用いて、本シミュレーションを行っている。
図9(a)及び(b)に示すように、本実施形態2に係る物体間関係認識装置1は、上記実施形態1に係る物体間関係認識装置1と比較して、Precision及びRecallの両方において、良好な結果を示していることが分かる。
実施形態3
本発明の実施形態3において、上記実施形態1又は2に係る物体間関係認識装置1は、例えば、図10に示す如く、自律型のロボット10に搭載されてもよい。図10は、物体間関係認識装置が搭載されたロボットの概略的構成を示すブロック図である。
例えば、ロボット10は、物体間関係認識装置1により認識された物体間関係に基づいて、操作対象物の操作を行う。ロボット10は、制御部11や記憶部12、アクチュエータ13等を備えており、ロボット10の記憶部12に、認識された物体間関係を記憶する。制御部11が記憶部12に記憶された物体間関係にしたがってアクチュエータ13等の動作を制御する。
例えば、ロボット10は、図11に示す如く、認識された物体間関係(stem on table)にしたがい、テーブル(table)上(on)の物体(stem)を把持し、ゴミ箱などに入れる。これより、ロボット10は、物体間関係認識装置1により認識された物体間関係を用いて、操作対象物を高精度かつ安全に操作できる。
なお、本実施形態3において、物体間関係認識装置1は、ロボット10に搭載される構成であるが、これに限定されない。物体間関係認識装置1は、ロボット10に搭載されない構成であってもよい。この場合、物体間関係認識装置1は、認識した物体間関係を、有線あるいは無線を介して、ロボット10に送信してもよい。なお、本実施形態3において、他の構成は、上記実施形態1及び2と略同一であり、同一部分には同一符号を付して詳細な説明は省略する。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他のさまざまな形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
例えば、上記実施形態において、第2ニューラルネットワーク3は、複数のLSTM31を有する構成であるが、これに限定されない。第2ニューラルネットワーク3は、例えば、複数のGRU(Gated Recurrent Unit)を有する構成であってもよい。GRUは、LSTM31の構成を簡略化したモデルである。GRUは、LSTM31のゲート数を3つから2つに減らした構造を有している。GRUは、Update Gate及びReset Gateの2つのゲートによってメモリセルの中身の維持及び出力を制御する。さらに、第2ニューラルネットワーク3は、複数の双方向LSTM(bi-directional LSTM)を有する構成であってもよい。
本発明は、例えば、図6に示す処理を、CPUにコンピュータプログラムを実行させることにより実現することも可能である。
プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータに供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記録媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記録媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記録媒体(例えば光磁気ディスク)、CD−ROM(Read Only Memory)、CD−R、CD−R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(random access memory))を含む。
プログラムは、様々なタイプの一時的なコンピュータ可読媒体(transitory computer readable medium)によってコンピュータに供給されてもよい。一時的なコンピュータ可読媒体の例は、電気信号、光信号、及び電磁波を含む。一時的なコンピュータ可読媒体は、電線及び光ファイバ等の有線通信路、又は無線通信路を介して、プログラムをコンピュータに供給できる。
さらに、本発明は、学習済みモデルにより実現することも可能である。学習済みモデルは、人工知能ソフトウエアの一部であるプログラムモジュールとしての利用が想定される。学習済みモデルは、CPU及びメモリを備えるコンピュータにて用いられる。具体的には、コンピュータのCPUが、メモリに記憶された学習済みモデルからの指令に従って、第1ニューラルネットワーク2に入力された認識対象画像に対し、第1ニューラルネットワーク2、第2ニューラルネットワーク3、及びトリプレット部4における学習済み重み付け係数に基づく演算を行い、トリプレット部4から結果(認識対象画像に含まれる各物体間の関係)が出力するよう動作する。
1 物体間関係認識装置、2 第1ニューラルネットワーク、3 第2ニューラルネットワーク、4 トリプレット部、10 ロボット、11 制御部、12 記憶部、13 アクチュエータ、41 トリプレットユニット、411 第1認識部、412 第2認識部、413 第3認識部

Claims (8)

  1. 画像と、該画像に含まれる複数の物体間の関係と、を対応付けた学習データに基づいて学習を行い、該学習結果を用いて画像に含まれる物体間の関係を認識し出力する物体間関係認識装置であって、
    画像が入力され、該画像の特徴を示す第1特徴量を出力する第1学習器と、
    前記第1学習器から出力される第1特徴量が入力され、該第1特徴量より低次元数の第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数の記憶部を有する第2学習器と、
    第2学習器の各記憶部に接続され、該各記憶部から出力される第2特徴量が入力され、該入力された第2特徴量に基づいてそれぞれ第1乃至第3要素を認識し、該第1乃至第3要素の確率情報を出力する第1乃至第3認識部で構成される共に、前記第1乃至第3要素の組合せをそれぞれ出力する複数のトリプレットユニットを有するトリプレット部と、
    を備え、
    前記トリプレット部は、前記各トリプレットユニットの第1乃至第3認識部から出力される第1乃至第3要素の確率情報に基づいて、前記各トリプレットユニットから出力される第1乃至第3要素の組合せの中から、少なくとも1つの前記第1乃至第3要素の組合せを選択し、該選択した第1乃至第3要素の組合せを、前記画像に含まれる物体間の関係として認識し出力する、
    ことを特徴とする物体間関係認識装置。
  2. 請求項1記載の物体間関係認識装置であって、
    前記第2学習器は、再帰的ニューラルネットワークであり、
    前記第2学習器及びトリプレット部は、画像と物体間の関係とを対応付けた学習データに基づいて、所定関数のパラメータを最適化することで前記学習を行い、該最適化されたパラメータを学習結果として保持する、
    ことを特徴とする物体間関係認識装置。
  3. 請求項1又は2記載の物体間関係認識装置であって、
    前記第1及び第3認識部は、それぞれ、前記第1及び第3要素の確率情報を前記第2認識部に出力し、
    前記第2認識部は、前記第1及び第3認識部から出力される第1及び第3要素と、対応する前記第2学習器の記憶部から出力される第2特徴量と、に基づいて、前記第2要素を認識し、該第2要素の確率情報を出力する、
    ことを特徴とする物体間関係認識装置。
  4. 請求項1乃至3のうちいずれか1項記載の物体間関係認識装置であって、
    前記第2学習器の記憶部は、LSTM(Long Short-Term Memory)である、ことを特徴とする物体間関係認識装置。
  5. 請求項1乃至4のうちいずれか1項記載の物体間関係認識装置であって、
    前記第1学習器は、畳み込み式ニューラルネットワークとして構成されている、ことを特徴とする物体間関係認識装置。
  6. 画像が入力され、該画像の特徴を示す第1特徴量を出力する第1学習器と、
    前記第1学習器から出力される第1特徴量が入力され、該第1特徴量より低次元数の第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数の記憶部を有する第2学習器と、
    第2学習器の各記憶部に接続され、該各記憶部から出力される第2特徴量が入力され、該入力された第2特徴量に基づいてそれぞれ第1乃至第3要素を識別し、該第1乃至第3要素の確率情報を出力する第1乃至第3認識部で構成され前記第1乃至第3要素の組合せを出力する複数のトリプレットユニットを有するトリプレット部と、
    を備え、
    前記トリプレット部は、前記各トリプレットユニットの第1乃至第3認識部から出力される第1乃至第3要素の確率情報に基づいて、前記各トリプレットユニットから出力される第1乃至第3要素の組合せの中から、少なくとも1つの前記第1乃至第3要素の組合せを選択し、該選択した第1乃至第3要素の組合せを、前記画像に含まれる物体間の関係として認識するよう、に構成され、
    画像と該画像に含まれる物体間の関係とを対応付けた学習データに基づいて、前記第1学習器、第2学習器及びトリプレット部の重み付け係数が学習され、
    認識対象の画像が入力されると、前記第1学習器、第2学習器及びトリプレット部が該学習済み重み付け係数に基づく演算を行い、該認識対象の画像に含まれる各物体間の関係が認識されるよう、コンピュータを機能させるための学習済みモデル。
  7. 画像が入力され、該画像の特徴を示す第1特徴量を出力する第1学習器と、
    前記第1学習器から出力される第1特徴量が入力され、該第1特徴量より低次元数の第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数の記憶部を有する第2学習器と、
    第2学習器の各記憶部に接続され、該各記憶部から出力される第2特徴量が入力され、該入力された第2特徴量に基づいてそれぞれ第1乃至第3要素を認識し、該第1乃至第3要素の確率情報を出力する第1乃至第3認識部で構成される共に、前記第1乃至第3要素の組合せをそれぞれ出力する複数のトリプレットユニットを有するトリプレット部と、
    を備える物体間関係認識装置の認識方法であって、
    前記トリプレット部は、前記各トリプレットユニットの第1乃至第3認識部から出力される第1乃至第3要素の確率情報に基づいて、前記各トリプレットユニットから出力される第1乃至第3要素の組合せの中から、少なくとも1つの前記第1乃至第3要素の組合せを選択し、該選択した第1乃至第3要素の組合せを、前記画像に含まれる物体間の関係として認識し出力する、
    ことを特徴とする認識方法。
  8. 画像が入力され、該画像の特徴を示す第1特徴量を出力する第1学習器と、
    前記第1学習器から出力される第1特徴量が入力され、該第1特徴量より低次元数の第2特徴量を出力すると共に、内部状態を所定ステップ保持する複数の記憶部を有する第2学習器と、
    第2学習器の各記憶部に接続され、該各記憶部から出力される第2特徴量が入力され、該入力された第2特徴量に基づいてそれぞれ第1乃至第3要素を認識し、該第1乃至第3要素の確率情報を出力する第1乃至第3認識部で構成される共に、前記第1乃至第3要素の組合せをそれぞれ出力する複数のトリプレットユニットを有するトリプレット部と、
    を備える物体間関係認識装置のプログラムであって、
    前記トリプレット部が、前記各トリプレットユニットの第1乃至第3認識部から出力される第1乃至第3要素の確率情報に基づいて、前記各トリプレットユニットから出力される第1乃至第3要素の組合せの中から、少なくとも1つの前記第1乃至第3要素の組合せを選択し、該選択した第1乃至第3要素の組合せを、前記画像に含まれる物体間の関係として認識し出力する処理をコンピュータに実行させる、
    ことを特徴とするプログラム。
JP2017234246A 2017-12-06 2017-12-06 物体間関係認識装置、学習済みモデル、認識方法及びプログラム Active JP6985121B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017234246A JP6985121B2 (ja) 2017-12-06 2017-12-06 物体間関係認識装置、学習済みモデル、認識方法及びプログラム
US16/209,116 US10762329B2 (en) 2017-12-06 2018-12-04 Inter-object relation recognition apparatus, learned model, recognition method and non-transitory computer readable medium
CN201811472495.2A CN110059528B (zh) 2017-12-06 2018-12-04 物体间关系识别设备、学习模型、识别方法和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017234246A JP6985121B2 (ja) 2017-12-06 2017-12-06 物体間関係認識装置、学習済みモデル、認識方法及びプログラム

Publications (2)

Publication Number Publication Date
JP2019101907A true JP2019101907A (ja) 2019-06-24
JP6985121B2 JP6985121B2 (ja) 2021-12-22

Family

ID=66659237

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017234246A Active JP6985121B2 (ja) 2017-12-06 2017-12-06 物体間関係認識装置、学習済みモデル、認識方法及びプログラム

Country Status (3)

Country Link
US (1) US10762329B2 (ja)
JP (1) JP6985121B2 (ja)
CN (1) CN110059528B (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022030439A1 (ja) 2020-08-07 2022-02-10 ハイパーダイン株式会社 情報処理装置、情報処理方法及びプログラム
JP2022550122A (ja) * 2019-10-24 2022-11-30 ネイバー コーポレーション ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6695947B2 (ja) * 2018-09-21 2020-05-20 ソニーセミコンダクタソリューションズ株式会社 固体撮像システム、画像処理方法及びプログラム
US11599749B1 (en) * 2019-12-23 2023-03-07 Thales Sa Method of and system for explainable knowledge-based visual question answering
CN111325243B (zh) * 2020-02-03 2023-06-16 天津大学 一种基于区域注意力学习机制的视觉关系检测方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132498A1 (en) * 2015-11-11 2017-05-11 Adobe Systems Incorporated Structured Knowledge Modeling, Extraction and Localization from Images
JP2017199149A (ja) * 2016-04-26 2017-11-02 ヤフー株式会社 学習装置、学習方法および学習プログラム

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8001067B2 (en) * 2004-01-06 2011-08-16 Neuric Technologies, Llc Method for substituting an electronic emulation of the human brain into an application to replace a human
KR101976048B1 (ko) 2011-08-25 2019-05-09 코넬 유니버시티 머신 비전용 망막 인코더
US8873813B2 (en) * 2012-09-17 2014-10-28 Z Advanced Computing, Inc. Application of Z-webs and Z-factors to analytics, search engine, learning, recognition, natural language, and other utilities
CN103294829B (zh) * 2013-06-26 2017-05-03 公安部第三研究所 基于Android操作系统实现轻量化视频结构化描述的系统及方法
JP2017004350A (ja) 2015-06-12 2017-01-05 株式会社リコー 画像処理装置、画像処理方法、及びプログラム
US11514244B2 (en) * 2015-11-11 2022-11-29 Adobe Inc. Structured knowledge modeling and extraction from images
CN107038221B (zh) * 2017-03-22 2020-11-17 杭州电子科技大学 一种基于语义信息引导的视频内容描述方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170132498A1 (en) * 2015-11-11 2017-05-11 Adobe Systems Incorporated Structured Knowledge Modeling, Extraction and Localization from Images
JP2017199149A (ja) * 2016-04-26 2017-11-02 ヤフー株式会社 学習装置、学習方法および学習プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
原田 達也: "機械学習の画像認識への応用", シミュレーション 第34巻 第4号, vol. 第34巻 第4号, JPN6021043031, 2015, pages 18 - 24, ISSN: 0004629413 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022550122A (ja) * 2019-10-24 2022-11-30 ネイバー コーポレーション ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム
JP7459238B2 (ja) 2019-10-24 2024-04-01 ネイバー コーポレーション ユーザ選好による強化学習基盤の自律走行最適化方法およびシステム
WO2022030439A1 (ja) 2020-08-07 2022-02-10 ハイパーダイン株式会社 情報処理装置、情報処理方法及びプログラム

Also Published As

Publication number Publication date
CN110059528B (zh) 2023-06-30
US10762329B2 (en) 2020-09-01
CN110059528A (zh) 2019-07-26
JP6985121B2 (ja) 2021-12-22
US20190171864A1 (en) 2019-06-06

Similar Documents

Publication Publication Date Title
JP2019101907A (ja) 物体間関係認識装置、学習済みモデル、認識方法及びプログラム
US10963783B2 (en) Technologies for optimized machine learning training
US20190228495A1 (en) Learning robotic tasks using one or more neural networks
US10395641B2 (en) Modifying a language conversation model
US10762391B2 (en) Learning device, learning method, and storage medium
EP3493120A1 (en) Training a neural network model
JP2015166962A (ja) 情報処理装置、学習方法、及び、プログラム
CN110738102A (zh) 一种人脸识别方法及系统
KR20190078899A (ko) 계층적 시각 특징을 이용한 시각 질의 응답 장치 및 방법
CN113128287A (zh) 训练跨域人脸表情识别模型、人脸表情识别的方法及系统
CN110704668A (zh) 基于网格的协同注意力vqa方法和装置
US20230342626A1 (en) Model processing method and related apparatus
CN105677458A (zh) 用于获取针对事件的约束的方法和装置
CN110728359B (zh) 搜索模型结构的方法、装置、设备和存储介质
KR20210064817A (ko) 상이한 딥러닝 모델 간의 전이 학습방법
CN111104874A (zh) 人脸年龄预测方法及模型的训练方法、装置及电子设备
EP3888044A1 (en) Predictive system for request approval
JP2020155010A (ja) ニューラルネットワークのモデル縮約装置
KR20230147710A (ko) 제조 환경에서의 모방 학습
CN116542250B (zh) 一种信息抽取模型获取方法和系统
US11461399B2 (en) Method and apparatus for responding to question, and storage medium
CN116993028B (zh) 车间排产方法、装置、存储介质及电子设备
CN107292321A (zh) 用于获得模型的方法和设备
WO2014073366A1 (ja) 情報処理システム、認識辞書学習方法および認識辞書学習プログラム
JP6812157B2 (ja) 新着情報の検索システム、検索方法、およびプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201015

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211102

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211125

R150 Certificate of patent or registration of utility model

Ref document number: 6985121

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150