JP6540742B2 - 物体認識装置および物体認識方法 - Google Patents

物体認識装置および物体認識方法 Download PDF

Info

Publication number
JP6540742B2
JP6540742B2 JP2017065865A JP2017065865A JP6540742B2 JP 6540742 B2 JP6540742 B2 JP 6540742B2 JP 2017065865 A JP2017065865 A JP 2017065865A JP 2017065865 A JP2017065865 A JP 2017065865A JP 6540742 B2 JP6540742 B2 JP 6540742B2
Authority
JP
Japan
Prior art keywords
image
model
acquired
likelihood
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017065865A
Other languages
English (en)
Other versions
JP2018169746A (ja
Inventor
幹生 中野
幹生 中野
智幸 佐畑
智幸 佐畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2017065865A priority Critical patent/JP6540742B2/ja
Priority to US15/934,337 priority patent/US20180285643A1/en
Publication of JP2018169746A publication Critical patent/JP2018169746A/ja
Application granted granted Critical
Publication of JP6540742B2 publication Critical patent/JP6540742B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • G06V10/449Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
    • G06V10/451Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
    • G06V10/454Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Image Analysis (AREA)

Description

本発明は、物体認識装置および物体認識方法に関する。
ロボットが生活環境下で作業を行う際、ユーザに指示された物体を握持する物体握持タスクを達成することは最低限必要である。このような作業において、例えば、ユーザは音声で指示を行い、ロボットがユーザの音声を音声認識結果に基づいて物体認識を行う。また、ロボットが、撮像装置によってロボットの周囲の物体の画像情報を取得することも可能である。
このような物体を認識するシステムとして、音声情報と画像情報を統合した手法が提案されている(非特許文献1)。しかし、非特許文献1に記載の技術では、物体認識を行う際、音声モデルと画像モデルの両方が必要である。物体認識システムが、音声モデルを保持することは容易であるが、大量の画像モデルを保持するのはファイル容量が大きいため現実的ではない。
このため、物体を認識するシステムとして、音声尤度と画像尤度とに基づいて、対象となる物体を認識する技術が開示されている(例えば特許文献1参照)。
特開2014−170295号公報
特許文献1に記載の技術では、音声尤度に基づいて画像モデルから対象画像を読み出し、さらに、画像モデルに対象となる画像がない場合にウェブから画像を読み出して画像尤度に基づいて物体認識している。しかしながら、特許文献1に記載の技術では、ウェブから画像を検索するときに時間がかかってしまう可能性があり、物体認識速度の低下が懸念される。
本発明は、上記の問題点に鑑みてなされたものであって、物体認識の認識速度を向上させることができる物体認識装置および物体認識方法を提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る物体認識装置1は、收音する收音装置2と、取得した音声信号に対して音声認識を行う音声認識部103と、音の特徴量と言語モデルと単語辞書を格納する音響モデル(音響モデル・辞書DB102)と、認識対象物体を含む画像を撮像する撮像装置3と、予め画像データを蓄積する画像モデル(画像モデルDB107)と、前記撮像装置にて撮像された前記画像と前記画像モデルを用いて、撮像された物体の認証を行う画像認識部110と、物体を認証する物体認証部114と、を備え、前記物体の認証ができた場合に、前記画像認識部は、認証できた前記画像に対応する物体名を示す音声情報を前記音響モデルに記憶させ、認証できなかった物体がある場合に、前記画像認識部は、ネットワーク経由で認識できなかった物体の画像を検索して取得し、取得した前記画像から前記画像データを生成して、生成した該画像データと、取得した前記画像に対応する物体名を示す音声情報を取得し、取得した前記物体名を示す音声情報に対して音声認識部が音声認識した結果に基づいて該物体の物体名を認識し、ネットワーク経由で取得した画像を用いて認証できなかった場合に、前記音声認識部は、複数の候補に対して候補毎に、前記收音装置によって收音された音声信号に対して音響特徴量を抽出し、抽出した前記音響特徴量に対して前記音響モデルを参照して音声尤度を算出し、前記画像認識部は、複数の候補に対して候補毎に、前記撮像装置が撮像した画像に対して画像特徴量を抽出し、抽出した前記画像特徴量に対して前記画像モデルを参照して画像尤度を算出し、前記物体認証部は、前記画像尤度と前記音響尤度とを統合して物体尤度を候補毎に求め、求めた前記物体尤度が最大となる候補を求めることで物体を認識する。
(2)また、本発明の一態様に係る物体認識装置1において、前記画像認識部は、認識対象の物体を前記ネットワーク経由から取得した画像を用いて認識した場合に、前記画像の取得時に該画像に対応する物体名を取得し、取得した該物体名および取得した該画像に基づく画像データを前記画像モデルに蓄積するようにしてもよい。
(3)また、本発明の一態様に係る物体認識装置1において、前記画像認識部は、ニューラルネットワークを用いて前記画像の認証を行うようにしてもよい。
(4)また、本発明の一態様に係る物体認識装置1において、前記ニューラルネットワークは、DNN(Deep Neural Network)またはCNN(Convolutional Neural Network)であるようにしてもよい。
(5)また、本発明の一態様に係る物体認識装置1において、前記画像認識部は、前記ネットワークから前記物体の認証に用いる前記画像を取得できなかった場合に、対話によってその物体名を学習するようにしてもよい。
(6)上記目的を達成するため、本発明の一態様に係る物体認識方法は、予め画像データを蓄積する画像モデルと、音の特徴量と言語モデルと単語辞書を格納する音響モデルとを有する物体認識装置の物体認識方法であって、撮像装置が、認識対象物体を含む画像を撮像する撮像ステップと、音声認識部が、取得した音声信号に対して音声認識を行う音声認識ステップと、画像認識部が、前記撮像ステップによって撮像された前記画像と前記画像モデルを用いて、撮像された物体の認証を行うステップと、前記画像認識部が、前記物体の認証ができた場合に、認証できた前記画像に対応する物体名を示す音声情報を前記音響モデルに記憶させ、前記画像認識部が、認証できなかった物体がある場合に、ネットワーク経由で認識できなかった物体の画像を検索して取得し、取得した前記画像から前記画像データを生成して、生成した該画像データと、取得した前記画像に対応する物体名を示す音声情報を取得し、取得した前記物体名を示す音声情報に対して音声認識部が音声認識した結果に基づいて該物体の物体名を認識するステップと、ネットワーク経由で取得した画像を用いて認証できなかった場合に、前記音声認識部が、複数の候補に対して候補毎に、前記收音装置によって收音された音声信号に対して音響特徴量を抽出し、抽出した前記音響特徴量に対して前記音響モデルを参照して音声尤度を算出するステップと、前記画像認識部が、複数の候補に対して候補毎に、前記撮像装置が撮像した画像に対して画像特徴量を抽出し、抽出した前記画像特徴量に対して前記画像モデルを参照して画像尤度を算出するステップと、前記物体認証部が、前記画像尤度と前記音響尤度とを統合して物体尤度を候補毎に求め、求めた前記物体尤度が最大となる候補を求めることで物体を認識するステップと、を含む。
(1)、(6)によれば、画像モデルDB107が画像モデルを格納していない物体であったとしてもインターネット上の情報を用いて認識することができる。
また、(2)によれば、画像モデルDB107が画像モデルを格納していない物体が認証された場合、その情報を画像モデルDB107(ローカル)に保存できるので、次回以降、物体認識速度を向上させることができる。
また、(3)によれば、ニューラルネットワークを用いることで、画像認識精度を向上させることができる。
また、(4)によれば、深層学習、DNN等を用いることで、画像認識精度を向上させることができる。
また、(5)によれば、ネットワーク上の情報を用いても画像モデルDB107が画像モデルを格納していない物体を認識できなかった場合でも、人との対話によって学習することができる。
本実施形態に係る物体認識装置の構成例を示すブロック図である。 ディープランニングの概略を説明するための図である。 本実施形態に係るNN認証部が行う認証例を示す図である。 本実施形態に係る物体認識装置が行う撮像された画像の認証処理手順例を示すフローチャートである。 本実施形態に係る物体認識装置の物体認識の処理手順例を示すフローチャートである。 本実施形態に係る画像を画像サーバーから取得して画像モデルを生成する処理手順例を示すフローチャートである。
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本実施形態に係る物体認識装置1の構成例を示すブロック図である。図1に示すように、物体認識装置1は、音声信号取得部101、音響モデル・辞書DB102、音声認識部103、画像取得部106、画像モデルDB107、画像モデル生成部108、記憶部109、画像認識部110、通信部113、および物体認識部114を備える。また、音声認識部103は、音声尤度算出部104を備える。画像認識部110は、NN認証部111と画像尤度算出部112を備える。
物体認識装置1には、収音装置2および撮像装置3が接続されている。また、物体認識装置1は、ネットワークを介してサーバー4が接続されている。
収音装置2は、例えばマイクロフォンであり、利用者が発話した音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を物体認識装置1に出力する。なお、収音装置2は、アナログ信号の音声信号を物体認識装置1に出力するようにしてもよい。なお、収音装置2は、音声信号を、有線のコードやケーブルを介して、物体認識装置1に出力するようにしてもよく、無線で物体認識装置1に送信するようにしてもよい。
なお、収音装置2は、マイクロフォンアレイであってもよい。この場合、収音装置2は、それぞれ異なる位置に配置されたP個のマイクロフォンを有する。そして、収音装置2は、収音した音からPチャネル(Pは、2以上の整数)の音響信号を生成し、生成したPチャネルの音響信号を物体認識装置1に出力する。
撮像装置3は、例えば、CCD(Charged Coupled Devices)画像センサーカメラ、CMOS(Complementary Metal−Oxide−Semiconductor)画像センサーカメラ等である。撮像装置3は、画像を撮像し、撮像した画像を物体認識装置1に出力する。なお、撮像装置3は、画像を、有線のコードやケーブルを介して、物体認識装置1に出力するようにしてもよく、無線で物体認識装置1に送信するようにしてもよい。
サーバー4には、画像と音声情報とが対応付けられて格納されている。なお、画像の解像度は、同一であっても行っていてもよい。なお、サーバー4は、インターネット上の任意のサイトであってもよい。
物体認識装置1は、取得した音声信号と画像信号を用いて物体を認識する。物体認識装置1は、例えば、人型ロボット、受け付け装置、産業用ロボット、スマートフォン、タブレット端末等に組み込まれている。
なお、収音装置2がマイクロフォンアレイの場合、物体認識装置1は、音源定位部、音源分離部、および音源同定部をさらに備える。この場合、物体認識装置1は、音声信号取得部101が取得した音声信号に対して予め生成した伝達関数を用いて音源定位部が音源定位を行う。そして、物体認識装置1は、音源定位部が定位して結果を用いて、話者同定を行う。物体認識装置1は、音源定位部が定位して結果を用いて、音声信号取得部101が取得した音声信号に対して音源分離を行う。そして、物体認識装置1の音声認識部103は、分離された音声信号に対して発話区間の検出と音声認識を行う(例えば特開2017−9657号公報参照)。また、物体認識装置1は、残響音抑圧処理を行うようにしてもよい。
音声信号取得部101は、収音装置2が出力する音声信号を取得し、取得した音声信号を音声認識部103に出力する。なお、取得した音声信号がアナログ信号の場合、音声信号取得部101は、アナログ信号をデジタル信号に変換し、デジタル信号に変換した音声信号を音声認識部103に出力する。
音響モデル・辞書DB(データベース)102には、例えば音響モデル、言語モデル、単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語(語彙)とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。
音声認識部103は、音声信号取得部101が出力する音声信号を取得し、取得した音声信号から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出する。なお、音声認識部103は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部103は、発話句間毎の音声信号から音響特徴量である、例えばMSLS(Mel Scale Logarithmic Spectrum;メルスケール対数スペクトル)を抽出する。なお、MSLSは、音響認識の特徴量としてスペクトル特徴量を用い、MFCC(メル周波数ケプストラム係数;Mel Frequency Cepstrum Coefficient)を逆離散コサイン変換することによって得られる。なお、本実施形態において、発話は、例えば、「りんご」、「オートバイ」、「フォーク」等、物の名称の単語(語彙)である。
音声尤度算出部104は、抽出された音響特徴量に対して、音響モデル・辞書DB102を参照して、例えばHMM(Hidden Markov Model;隠れマルコフモデル)を用いて、音声尤度L(s;Λ)を算出する。なお、音声尤度L(s;Λ)は、事後確率p(Λ|s)の算出によって求める。ここで、sは音響特徴量、Λは音響モデル・辞書DB102が記憶するi番目の物体の音声モデルである。また、音声尤度Lは、0〜1の値であり、1に近いほど競合候補に対して尤度の差が大きかったことを表し信頼度が高いことを表す。また、音声尤度Lが0に近いほど信頼度が低いことを表す。
音声認識部103は、音声尤度算出部104が算出した尤度の高い方から所定の順位までの音声認識結果の候補に定める。所定の順位は、一例として10位である。音声認識部103は、音声尤度算出部104が算出した音声尤度Lを物体認識部114に出力する。
参考文献;www.ieice-hbkb.org/files/02/02gun_07hen_02.pdf(web検索 2017.3.19)、篠田浩一、伊藤影則、李晃伸、“2群(画像・音・言語)−7編(音声認識と合成) 2章 音声認識”ver.1、電子情報通信学会「知識ベース」、電子情報通信学会、2010、p2〜p12
画像取得部106は、撮像装置3が出力する画像を取得し、取得した画像を画像認識部110に出力する。
画像モデルDB107には、画像モデルが格納されている。画像モデルとは、画像の特徴量に基づくモデルである。なお、画像モデルDB107は、画像を格納していてもよい。この場合、画像の解像度が同一であることが好ましい。解像度が異なる場合、画像モデル生成部108が、解像度を正規化して画像モデルを生成する。
画像モデル生成部108は、画像の認証の際に、画像認識部110からの指示に応じて、画像モデルDB107が格納する画像モデルを探索する。また、画像モデル生成部108は、探索した結果、画像モデルDB107に認証に必要な画像モデルが格納されていない場合、画像認識部110からの指示に応じて、記憶部109が記憶するURL(Uniform Resource Locator)アドレスを用いて通信部113を介してサーバー4またはネットワーク(インターネット)上から画像と音声情報を取得する。なお、通信部113がアクセスするURLアドレスは、画像モデル生成部108または通信部113が記憶していてもよい。具体的には、画像モデルDB107に「ビー玉」の画像モデルが格納されていない場合、画像モデル生成部108は、「ビー玉」の画像を少なくとも1つ取得する。なお、画像モデル生成部108は、取得した画像の解像度を取得し、取得した解像度が所定の値と異なる場合、正規化するようにしてもよい。画像モデル生成部108は、取得した画像の特徴量を抽出し、抽出した特徴量を用いて画像モデルを生成する。なお、サーバー4またはネットワーク(インターネット)上から取得した画像を用いて画像モデルを生成する方法については、図6を用いて後述する。
画像モデル生成部108は、画像モデルDB107から取得した画像モデル、または生成した画像モデルを画像認識部110に音声尤度の高い順に出力する。
記憶部109は、サーバー4のURLアドレスを記憶する。
画像認識部110は、撮像装置3が出力した画像の画像特徴量を算出する。なお、画像特徴量は、例えば、対象物体全体に対するウォーブレット(wavelet)、対象物の局所情報に対するSIFT(Scale−Invariant Feature Transform)特徴量やSURF(Speeded Up Robust Features)特徴量等、局所情報のつながりであるJoint HOG等のいずれか1つであってもよい。また、画像認識部110は、撮像装置3が出力した画像に対して左右反転させた画像に対しても画像特徴量を算出するようにしてもよい。
NN認証部111は、算出された特徴量を用いて、画像モデルDB107が格納する画像モデルに対して、例えばDNN(Deep Neural Network;ディープニューラルネットワーク)を用いて画像認証を行う。なお、NN認証部111は、他のニューラルネットワーク、例えばCNN(Convolutional Neural Network;畳み込みニューラルネットワーク)等を用いてもよい。NN認証部111は、認証の際に、例えばDNNによって、最初に画像モデルDB107が格納する画像モデルを用いて認証する。NN認証部111は、画像モデルDB107が格納する画像モデルを用いて認証出来ない場合、取得指示を画像モデル生成部108に出力する。なお、取得指示には、音声認識部103が認識した認識結果の候補である物体名が含まれる。これにより、NN認証部111は、画像モデル生成部108と通信部113を介して、サーバー4またはネットワークから画像を取得する。NN認証部111は、取得された画像から画像モデル生成部108が生成した画像モデルを用いて認証する。NN認証部111は、認証した結果を示す情報を物体認識部114に出力する。なお、DNNについては、後述する。
画像尤度算出部112は、算出された画像特徴量と、画像モデル生成部108が出力した画像モデルとを、例えばHMMを用いて、候補毎に画像尤度L(v;o)を算出する。または、画像尤度算出部112は、算出された画像特徴量と、画像モデルDB107からDNNによって認証された画像モデルとを、例えばHMMを用いて、候補毎に画像尤度L(v;o)を算出する。なお、画像尤度L(v;o)は、事後確率p(o|v)の算出によって求める。ここで、vは画像特徴量、oは画像モデル生成部108が出力するi番目の物体の画像モデルである。また、画像尤度Lは、0〜1の値であり、1に近いほど競合候補に対して尤度の差が大きかったことを表し信頼度が高いことを表す。また、画像尤度Lが0に近いほど信頼度が低いことを表す。
画像認識部110は、画像尤度算出部112が算出した尤度の高い方から所定の順位までの画像認識結果の候補に定める。所定の順位は、一例として10位である。画像認識部110は、画像尤度算出部112が算出した音声尤度Lを物体認識部114に出力する。
また、画像認識部110は、サーバー4またはネットワーク(インターネット)上から取得した画像を用いて、撮像された画像の物体を認証できたとき、画像モデル生成部108と通信部113を介してサーバー4またはネットワーク(インターネット)上から取得した物体名を用いて、認識対象の物体名を認識する。画像認識部110は、認識した物体名を示す情報を物体認識部114に出力する。
通信部113は、画像モデル生成部108の制御に応じて、サーバー4またはネットワーク(インターネット)にアクセスし、画像を取得する。
物体認識部114は、画像認識部110が出力する物体名を示す情報に基づいて、物体を認識する。
または、物体認識部114は、音声認識部103が出力する音声尤度Lと、画像認識部110が出力する画像尤度Lとを用いて、次式(1)のロジスティック関数によって統合して物体尤度Fを候補毎に求める。
Figure 0006540742
式(1)において、vは入力された画像、oはi番目の画像モデル、α、α、αはロジスティック関数のパラメータである。
物体認識部114は、次式(2)を用いて算出した物体尤度Fが最大となる候補i^を推定する。
Figure 0006540742
なお、式(2)において、arg max F(…)は、…を最大とするFを与える関数である。
なお、上述した例では、ロジスティック関数を用いて、音声尤度Lsと画像尤度Lvとを統合する例を説明したが、これに限られない。他の関数を用いて統合するようにしてもよい。
ここで、SIFT特徴量の概要について説明する。
SIFTの処理は、大きく分けて特徴点の検出と特徴量の記述の2段階である。特徴点の検出では、スケールの異なる平滑化画像の差分から画像特徴と思われる点(キーポイント)を決定する。そして、各キーポイントの周りで周辺の画像の勾配情報を用いることで情報を記述する。次に、各スケール間で差分を取ることで、画像の変化(物体と背景の境界など)が、どこに現れているかを算出する。この変化が極大となる点が、SIFTの特徴点(キーポイント)候補となる。この点を探索するために,差分画像を並べ、極値探索を行う。SIFT特徴は、このキーポイントの周りでの画像勾配を記述することで得られる。
次に、ディープランニング(深層学習)の概略を説明する。
図2は、ディープランニングの概略を説明するための図である。
ディープランニングは、多層構造のニューラルネットワーク(DNN)を用いた学習である。図2に示す例は、3つの隠れ層(中間層)を有する例である。このように、多層構造を用いることで、単純な非線形ネットワークを多段に積み重ねることによって、複雑な非線形処理が実現できる。NN認証部111は、DNNを用いて撮像された画像の認証を行う。このような学習は、画像から抽出した特徴量を用いて行う。
次に、NN認証部111が行う認証例を説明する。
図3は、本実施形態に係るNN認証部111が行う認証例を示す図である。図3に示す例では、4つの画像(第1の画像〜第4の画像)を順次撮像した例である。
NN認証部111は、撮像された第1の画像に対して認証を行う。具体的には、DNNによって、第1の画像の特徴量と画像データDB107の画像モデルを用いて認証する。第1の画像の認証結果は、認証OKであった(=認証できた)。
次に、NN認証部111は、撮像された第2の画像に対して、画像データDB107の画像モデルを用いて認証を行う。第2の画像の認証結果は、認証OKであった。
次に、NN認証部111は、撮像された第3の画像に対して、画像データDB107の画像モデルを用いて認証を行う。第3の画像の認証結果は、認証OKであった。
次に、NN認証部111は、撮像された第4の画像に対して、画像データDB107の画像モデルを用いて認証を行う。第4の画像の認証結果は、認証NGであった(=認証できなかった)。
NN認証部111は、認証NGであったため、サーバー4またはネットワークから画像情報(画像または画像の特徴量、または画像モデル)を取得する。NN認証部111は、取得した画像情報に対応する音声情報(物体名のテキスト情報)を、さらに取得する指示を画像モデル生成部108に出力する。
次に、物体認識装置1が行う撮像された画像の認証処理手順例を説明する。
図4は、本実施形態に係る物体認識装置1が行う撮像された画像の認証処理手順例を示すフローチャートである。なお、図4に示す例は、NN認証部111が、DNNを用いて物体を認識する例である。
(ステップS1)撮像装置3は、対象物体を含む画像を撮像し、撮像した画像を物体認識装置1へ出力する。続けて、物体認識装置1は、撮像装置3が出力する画像を取得する。
(ステップS2)NN認証部111は、DNNによって、画像の特徴量、画像モデルDB107が格納する画像モデルを用いて、撮像された画像に対応する物体の画像認証を行う。
(ステップS3)NN認証部111は、画像モデルDB107が格納する画像モデルを用いて、DNNにより認証できない画像であるか否かを判別する。NN認証部111は、DNNにより認証できる画像であると判別した場合(ステップS3;NO)、処理を終了する。NN認証部111は、DNNにより認証できない画像であると判別した場合(ステップS3;YES)、ステップS4の処理に進める。
(ステップS4)NN認証部111は、画像モデル生成部108と通信部113を介してサーバー4またはネットワークから画像を取得し、取得した画像から画像モデル生成部108が生成した画像モデルを用いて、撮像された画像を認証する。なお、NN認証部111が認証する画像は複数であってもよい。
(ステップS5)NN認証部111は、認証できた画像に対応する音声情報(物体名)を、画像モデル生成部108と通信部113を介してサーバー4またはネットワークから取得する。なお、NN認証部111は、認証した画像が複数の場合、それぞれに対応する音声情報を取得する。
(ステップS6)NN認証部111は、取得した音声情報を、画像モデル生成部108、音声認識部103を介して音響モデル・辞書DB102に記憶させる。
以上で、画像の認証処理を終了する。
なお、図4に示した処理によっても物体認識装置1が対象の物体を認識できなかった場合、利用者は、物体認識装置1との対話により、物体名を撮像された画像と取得された音声信号に関連付けて学習させる。
次に、物体認識装置1が行う処理手順例を説明する。
図5は、本実施形態に係る物体認識装置1の物体認証の処理手順例を示すフローチャートである。なお、図5に示した処理は、NN認証部111が、画像モデルDB107が格納する画像を用いて撮像された画像を認証できなかった場合に行われる。
(ステップS11)物体認識部114は、サーバー4またはネットワークから取得した画像を用いて、撮像された画像の認証ができたか否かを判別する。物体認識部114は、サーバー4またはネットワークから取得した画像を用いて認証ができたと判別した場合(ステップS11;YES)、ステップS12の処理に進める。物体認識部114は、画像モデルDB107から取得した画像を用いて認証ができなかったと判別した場合(ステップS11;NO)、ステップS13の処理に進める。
(ステップS12)物体認識部114は、画像認識部110が出力する物体名を示す情報に基づいて、物体を認識する。物体認識部114は、処理を終了する。
(ステップS13)音声認識部103は、音声信号取得部101が収音装置2から取得した音声信号から音響特徴量を抽出する。続けて、音声認識部103は、抽出した音響特徴量に対して、音響モデル・辞書DB102を参照して、例えばHMMを用いて、音声尤度Ls(s;Λi)を算出する。
(ステップS14)音声認識部103は、音声尤度算出部104が算出した尤度の高い方から所定の順位までの音声認識結果の候補に定める。
(ステップS15)画像尤度算出部112は、撮像された画像の画像特徴量と、NN認証部111が認証した画像モデルとを、例えばHMMを用いて、画像尤度L(v;o)を算出する。なお、画像尤度算出部112は、NN認証部111が複数の画像を認証した場合、認証した画像それぞれの画像尤度L(v;o)を算出する。
(ステップS16)物体認証部113は、音声認識部103が出力する音声尤度Lと、画像認識部110が出力する画像尤度Lとを用いて、上述した式(1)のロジスティック関数によって統合して物体尤度Fを候補毎に求める。
(ステップS17)物体認証部113は、上述した式(2)を用いて算出した物体尤度Fが最大となる候補を求めることで、物体を認識する。
以上で、物体認識装置1の物体認証の処理を終了する。
なお、図5に示した例では、サーバー4またはネットワークから取得した画像に基づいて、撮像された画像の認証ができた場合、サーバー4またはネットワークから取得した音声情報を用いて、物体の認識を行う例を説明したが、これに限られない。このような場合であっても、物体認識装置1は、ステップS13〜ステップS17の処理を行うようにしてもよい。この場合、ステップS15において、画像尤度算出部112は、撮像された画像の画像特徴量と、サーバー4またはネットワークから取得した画像から生成された画像モデルとを、例えばHMMを用いて、画像尤度L(v;o)を算出する。
次に、画像をサーバー4から取得して画像モデルを生成する処理手順例を説明する。
図6は、本実施形態に係る画像をサーバー4から取得して画像モデルを生成する処理手順例を示すフローチャートである。
(ステップS101)画像モデル生成部108は、サーバー4から認識結果候補に対応する物体の画像を取得(収集)する。
(ステップS102)画像モデル生成部108は、候補ぞれぞれの画像毎に、例えばSIFT特徴量を抽出する。
(ステップS103)画像モデル生成部108は、SIFT特徴量に基づいて物体ごとにVisual Wordsを求める。ここで、Visual Wordsについて説明知る。例えば、Bag of Features(BoF)では、物体の画像からSIFT特徴量やSURF特徴量を抽出し,それらをk−means手法によってW個のクラスタに分類する。それぞれのクラスタのセントロイド(重心)となるベクトルのことをVisual Wordと呼び、その数は経験的に決定される。具体的には、画像モデル生成部108は、全画像のSIFT特徴量のk−meansクラスタリング(K平均法)を実行し、各クラスタの中心をVisual Wordsとする。なお、Visual Wordsは、代表的な局所パターンに相当する。
(ステップS104)画像モデル生成部108は、候補の各画像を、Visual Wordsを用いてベクトル量子化し、各画像のBag−of−features(BoF)表現を求める。なお、BoF表現は、Visual Wordsの出現頻度(ヒストグラム)によって画像を表現したものである。
(ステップS105)画像モデル生成部108は、認識候補の物体毎にBoFのk−meansクラスタリングを行い、クラスタ毎に画像モデルを生成する。
なお、上述した例では、画像モデル生成部108は、画像モデルDB107に音声認識された結果の候補の画像が格納されていない場合にサーバー4から画像を取得して画像モデルを生成する例を説明したが、これに限られない。画像モデル生成部108は、画像モデルDB107に音声認識された結果の候補の画像が格納されている場合であってもサーバー4から画像を取得するようにしてもよい。この場合、画像モデル生成部108は、サーバー4から取得した第2の画像に対して第2の画像モデルを生成するようにしてもよい。画像モデル生成部108は、画像モデルDB107から取得した第1の画像モデルと、生成した第2の画像モデルを、画像認識部110に出力するようにしてもよい。そして、画像尤度算出部112は、第1の画像モデルと、生成した第2の画像モデルそれぞれの画像尤度を算出し、画像尤度が大きいものを選択するようにしてもよい。
以上のように、本実施形態では、DNNによって、撮像装置が撮像した情報(写真)を、まず画像モデルDB107が格納する画像モデルで認証し、認証できなかった場合にインターネット上から画像情報および音声情報を取得し、学習させるようにした。また、本実施形態では、学習した内容を、ローカルに保存しておくようにした。また、本実施形態では、インターネット上でも対象画像を発見できなかった場合に、物体認識装置1と利用者の対話により学習させる(音声、画像)ようにした。
これにより、本実施形態によれば、画像モデルDB107が画像モデルを格納していない物体であったとしてもインターネット上の情報を用いて認識することができる。
また、本実施形態によれば、画像モデルDB107が画像モデルを格納していない物体が認証された場合、その情報を画像モデルDB107(ローカル)に保存できるので、次回以降、物体認識速度を向上させることができる。
また、本実施形態によれば、深層学習、DNN等を用いることで、画像認識精度を向上させることができる。
また、本実施形態によれば、インターネット上の情報を用いても画像モデルDB107が画像モデルを格納していない物体を認識できなかった場合でも、人との対話によって学習することができる。
なお、上述した例では、収音装置2と撮像装置3が物体認識装置1に接続されている例を説明したが、収音装置2と撮像装置3は、物体認識装置1が備えていてもよい。
なお、本発明における物体認識装置1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより物体認識装置1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバーやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1…物体認識装置、2…収音装置、3…撮像装置、4…サーバー、101…音声信号取得部、102…音響モデル・辞書DB、103…音声認識部、104…音声尤度算出部、106…画像取得部、107…画像モデルDB、108…画像モデル生成部、109…記憶部、110…画像認識部、111…NN認証部、112…画像尤度算出部、113…通信部、114…物体認識部

Claims (6)

  1. 收音する收音装置と、
    取得した音声信号に対して音声認識を行う音声認識部と、
    音の特徴量と言語モデルと単語辞書を格納する音響モデルと、
    認識対象物体を含む画像を撮像する撮像装置と、
    予め画像データを蓄積する画像モデルと、
    前記撮像装置にて撮像された前記画像と前記画像モデルを用いて、撮像された物体の認証を行う画像認識部と、
    物体を認証する物体認証部と、を備え、
    前記物体の認証ができた場合に、
    前記画像認識部は、認証できた前記画像に対応する物体名を示す音声情報を前記音響モデルに記憶させ、
    認証できなかった物体がある場合に、
    前記画像認識部は、ネットワーク経由で認識できなかった物体の画像を検索して取得し、取得した前記画像から前記画像データを生成して、生成した該画像データと、取得した前記画像に対応する物体名を示す音声情報を取得し、取得した前記物体名を示す音声情報に対して音声認識部が音声認識した結果に基づいて該物体の物体名を認識し、
    ネットワーク経由で取得した画像を用いて認証できなかった場合に、
    前記音声認識部は、複数の候補に対して候補毎に、前記收音装置によって收音された音声信号に対して音響特徴量を抽出し、抽出した前記音響特徴量に対して前記音響モデルを参照して音声尤度を算出し、
    前記画像認識部は、複数の候補に対して候補毎に、前記撮像装置が撮像した画像に対して画像特徴量を抽出し、抽出した前記画像特徴量に対して前記画像モデルを参照して画像尤度を算出し、
    前記物体認証部は、前記画像尤度と前記音響尤度とを統合して物体尤度を候補毎に求め、求めた前記物体尤度が最大となる候補を求めることで物体を認識する、物体認識装置。
  2. 前記画像認識部は、
    認識対象の物体を前記ネットワーク経由から取得した画像を用いて認識した場合に、前記画像の取得時に該画像に対応する物体名を取得し、取得した該物体名および取得した該画像に基づく画像データを前記画像モデルに蓄積する、請求項1に記載の物体認識装置。
  3. 前 記画像認識部は、ニューラルネットワークを用いて前記画像の認証を行う、請求項1または請求項2に記載の物体認識装置。
  4. 前記ニューラルネットワークは、DNN(Deep Neural Network)またはCNN(Convolutional Neural Network)である、請求項3に記載の物体認識装置。
  5. 前記画像認識部は、前記ネットワークから前記物体の認証に用いる前記画像を取得できなかった場合に、対話によってその物体名を学習する、請求項1から請求項4のいずれか1項に記載の物体認識装置。
  6. 予め画像データを蓄積する画像モデルと、音の特徴量と言語モデルと単語辞書を格納する音響モデルとを有する物体認識装置の物体認識方法であって、
    撮像装置が、認識対象物体を含む画像を撮像する撮像ステップと、
    音声認識部が、取得した音声信号に対して音声認識を行う音声認識ステップと、
    画像認識部が、前記撮像ステップによって撮像された前記画像と前記画像モデルを用いて、撮像された物体の認証を行うステップと、
    前記画像認識部が、前記物体の認証ができた場合に、認証できた前記画像に対応する物体名を示す音声情報を前記音響モデルに記憶させ、
    前記画像認識部が、認証できなかった物体がある場合に、ネットワーク経由で認識できなかった物体の画像を検索して取得し、取得した前記画像から前記画像データを生成して、生成した該画像データと、取得した前記画像に対応する物体名を示す音声情報を取得し、取得した前記物体名を示す音声情報に対して音声認識部が音声認識した結果に基づいて該物体の物体名を認識するステップと、
    ネットワーク経由で取得した画像を用いて認証できなかった場合に、
    前記音声認識部が、複数の候補に対して候補毎に、前記收音装置によって收音された音声信号に対して音響特徴量を抽出し、抽出した前記音響特徴量に対して前記音響モデルを参照して音声尤度を算出するステップと、
    前記画像認識部が、複数の候補に対して候補毎に、前記撮像装置が撮像した画像に対して画像特徴量を抽出し、抽出した前記画像特徴量に対して前記画像モデルを参照して画像尤度を算出するステップと、
    前記物体認証部が、前記画像尤度と前記音響尤度とを統合して物体尤度を候補毎に求め、求めた前記物体尤度が最大となる候補を求めることで物体を認識するステップと、
    を含む物体認識方法。
JP2017065865A 2017-03-29 2017-03-29 物体認識装置および物体認識方法 Active JP6540742B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017065865A JP6540742B2 (ja) 2017-03-29 2017-03-29 物体認識装置および物体認識方法
US15/934,337 US20180285643A1 (en) 2017-03-29 2018-03-23 Object recognition device and object recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017065865A JP6540742B2 (ja) 2017-03-29 2017-03-29 物体認識装置および物体認識方法

Publications (2)

Publication Number Publication Date
JP2018169746A JP2018169746A (ja) 2018-11-01
JP6540742B2 true JP6540742B2 (ja) 2019-07-10

Family

ID=63670783

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017065865A Active JP6540742B2 (ja) 2017-03-29 2017-03-29 物体認識装置および物体認識方法

Country Status (2)

Country Link
US (1) US20180285643A1 (ja)
JP (1) JP6540742B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102149455B1 (ko) * 2018-11-26 2020-08-28 국방과학연구소 헬멧 장치 및 그 동작 방법
KR102092083B1 (ko) * 2019-04-11 2020-03-23 (주)스튜디오 크로스컬쳐 사용자의 패턴 중 유효 데이터만을 저장하는 돌보미 토이 및 이를 위한 방법
EP3951715A1 (en) * 2020-08-05 2022-02-09 Canon Kabushiki Kaisha Generation apparatus, generation method, and program

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4529091B2 (ja) * 2006-08-01 2010-08-25 ソニー株式会社 学習装置及び学習方法並びにロボット装置
EP2521092A1 (en) * 2009-12-28 2012-11-07 Cyber Ai Entertainment Inc. Image recognition system
WO2016157499A1 (ja) * 2015-04-02 2016-10-06 株式会社日立製作所 画像処理装置、物体検知装置、画像処理方法

Also Published As

Publication number Publication date
JP2018169746A (ja) 2018-11-01
US20180285643A1 (en) 2018-10-04

Similar Documents

Publication Publication Date Title
JP7109634B2 (ja) アイデンティティ認証方法及び装置
CN112088402B (zh) 用于说话者识别的联合神经网络
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
JP6754184B2 (ja) 音声認識装置及び音声認識方法
JP6543844B2 (ja) 音源同定装置および音源同定方法
JP4971413B2 (ja) 視聴覚を結合した動作認識システムおよびその認識方法
CN106062871B (zh) 使用所选择的群组样本子集来训练分类器
JP6540742B2 (ja) 物体認識装置および物体認識方法
JP2011191423A (ja) 発話認識装置、発話認識方法
WO2012020591A1 (ja) 個体識別システム、特徴量特定装置、特徴量特定方法および記録媒体
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
JP6427807B2 (ja) 物体認証装置および物体認証方法
KR102564570B1 (ko) 멀티모달 감성 분석 시스템 및 방법
JP6916130B2 (ja) 話者推定方法および話者推定装置
JP6565084B2 (ja) 物体認証装置および物体認証方法
JP2021162685A (ja) 発話区間検知装置、音声認識装置、発話区間検知システム、発話区間検知方法及び発話区間検知プログラム
JP7127864B2 (ja) 情報処理方法、情報処理装置及びプログラム
JP2019049829A (ja) 目的区間判別装置、モデル学習装置、及びプログラム
KR20220043769A (ko) 보이스 유사도 평가 방법 및 그 장치
JP2019133447A (ja) 感情推定装置、コンピュータプログラム及び感情推定方法
JP2022126962A (ja) 発話内容認識装置、学習データ収集システム、方法及びプログラム
JP4345156B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
CN110730378A (zh) 一种信息处理方法及系统
JP2021163217A (ja) 動作検出装置、動作検出方法、およびプログラム

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180921

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181002

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181203

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190514

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190527

R150 Certificate of patent or registration of utility model

Ref document number: 6540742

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150