JP2018169744A - 物体認証装置および物体認証方法 - Google Patents

物体認証装置および物体認証方法 Download PDF

Info

Publication number
JP2018169744A
JP2018169744A JP2017065863A JP2017065863A JP2018169744A JP 2018169744 A JP2018169744 A JP 2018169744A JP 2017065863 A JP2017065863 A JP 2017065863A JP 2017065863 A JP2017065863 A JP 2017065863A JP 2018169744 A JP2018169744 A JP 2018169744A
Authority
JP
Japan
Prior art keywords
image
likelihood
model
unit
object authentication
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017065863A
Other languages
English (en)
Other versions
JP6565084B2 (ja
Inventor
幹生 中野
Mikio Nakano
幹生 中野
智幸 佐畑
Tomoyuki Satake
智幸 佐畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2017065863A priority Critical patent/JP6565084B2/ja
Priority to US15/934,306 priority patent/US10861452B2/en
Publication of JP2018169744A publication Critical patent/JP2018169744A/ja
Application granted granted Critical
Publication of JP6565084B2 publication Critical patent/JP6565084B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/64Three-dimensional objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/80Recognising image objects characterised by unique random patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】物体認証の認証速度を向上させることができる物体認証装置および物体認証方法を提供することを目的とする。【解決手段】物体認証装置は、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識部と、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部と、入力された画像の画像モデルに基づく画像尤度を求める画像尤度算出部と、画像尤度を使用して物体認証を行う物体認証部と、を備え、音声認識されると予測される語彙がカテゴリー化され、画像モデルについてもカテゴリーに紐づいて形成される。【選択図】図1

Description

本発明は、物体認証装置および物体認証方法に関する。
ロボットが生活環境下で作業を行う際、ユーザに指示された物体を握持する物体握持タスクを達成することは最低限必要である。このような作業において、例えば、ユーザは音声で指示を行い、ロボットがユーザの音声を音声認識結果に基づいて物体認証を行う。また、ロボットが、撮像装置によってロボットの周囲の物体の画像情報を取得することも可能である。
このような物体を認証するシステムとして、音声情報と画像情報を統合した手法が提案されている(非特許文献1)。しかし、非特許文献1に記載の技術では、物体認証を行う際、音声モデルと画像モデルの両方が必要である。物体認証システムが、音声モデルを保持することは容易であるが、大量の画像モデルを保持するのはファイル容量が大きいため現実的ではない。
このため、物体を認証するシステムとして、音声尤度と画像尤度とに基づいて、対象となる物体を認証する技術が開示されている(例えば特許文献1参照)。
特開2014−170295号公報
特許文献1に記載の技術では、音声尤度に基づいて画像モデルから対象画像を読み出し、さらに、画像モデルに対象となる画像がない場合にウェブから画像を読み出して画像尤度に基づいて物体認証している。しかしながら、特許文献1に記載の技術では、ウェブから画像を検索するときに時間がかかってしまう可能性があり、物体認証速度の低下が懸念される。
本発明は、上記の問題点に鑑みてなされたものであって、物体認証の認証速度を向上させることができる物体認証装置および物体認証方法を提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る物体認証装置1は、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識部103と、前記音声尤度の高い方から所定数の前記音声認識結果候補の画像モデルを求める画像モデル生成部108と、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部111と、該画像尤度を使用して物体認証を行う物体認証部113と、を備え、音声認識されると予測される語彙がカテゴリー化され、前記画像モデルについても前記カテゴリーに紐づいて形成される。
(2)また、本発明の一態様に係る物体認証装置1において、前記画像モデルを格納する画像データベース(画像モデルDB107)、を備え、前記物体認証部は、対象となる該画像モデルを画像モデル格納部が格納していない場合に、ネットワークを介して画像を取得し、取得した該画像から該画像モデルを生成して物体の認証を行うようにしてもよい。
(3)また、本発明の一態様に係る物体認証装置1において、前記画像データベースも前記カテゴリーに応じてURLアドレスが分類されるようにしてもよい。
(4)また、本発明の一態様に係る物体認証装置1において、前記音声認識で使用する音響モデルを格納する音響モデル格納部(音響モデル・辞書DB102)、を備え、前記音響モデルは、同じ意味の言葉を関連付けて辞書として記憶するようにしてもよい。
(5)上記目的を達成するため、本発明の一態様に係る物体認証方法は、音声認識部が、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識するステップと、画像モデル生成部が、前記音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成するステップと、画像尤度算出部が、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出するステップと、物体認証部が、該画像尤度を使用して物体認証を行う物体認証するステップと、を含み、音声認識されると予測される語彙がカテゴリー化され、前記画像モデルについても前記カテゴリーに紐づいて形成される。
(1)、(5)によれば、音声情報と画像情報とをカテゴリー化して記憶されるので、モーダルで物体認証する際の認証速度を向上させることができるという効果を奏する。
また、(2)によれば、ネットワークを介して、より広い範囲で対象画像を検索することができ、認証精度を向上させることができる。
また、(3)によれば、ネットワークを介して画像を検索した場合であっても、画像がカテゴリー別に記憶されているため、検索速度を向上させることができ、ひいては物体認証速度を向上させることができる。
また、(4)によれば、同じ意味の言葉を辞書として登録するため、音声認識精度を向上させることができる。
本実施形態に係る物体認証装置の構成例を示すブロック図である。 本実施形態に係る音響モデル・辞書DBが格納する情報例を示す図である。 本実施形態に係る音響モデル・辞書DBが格納する辞書の例を示す図である。 本実施形態に係る画像モデル・辞書DBが格納する情報例を示す図である。 本実施形態に係る記憶部が記憶するURLアドレスの例を示す図である。 本実施形態に係る物体認証装置の物体認証の処理手順例を示すフローチャートである。 本実施形態に係る画像を画像サーバーから取得して画像モデルを生成する処理手順例を示すフローチャートである。
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本実施形態に係る物体認証装置1の構成例を示すブロック図である。図1に示すように、物体認証装置1は、音声信号取得部101、音響モデル・辞書DB102、音声認識部103、画像取得部106、画像モデルDB107、画像モデル生成部108、記憶部109、画像認識部110、通信部112、および物体認証部113を備える。また、音声認識部103は、音声尤度算出部104とカテゴリー推定部105を備える。画像認識部110は、画像尤度算出部111を備える。
物体認証装置1には、収音装置2および撮像装置3が接続されている。また、物体認証装置1は、ネットワークを介して画像サーバー4が接続されている。
収音装置2は、例えばマイクロフォンであり、利用者が発話した音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を物体認証装置1に出力する。なお、収音装置2は、アナログ信号の音声信号を物体認証装置1に出力するようにしてもよい。なお、収音装置2は、音声信号を、有線のコードやケーブルを介して、物体認証装置1に出力するようにしてもよく、無線で物体認証装置1に送信するようにしてもよい。
なお、収音装置2は、マイクロフォンアレイであってもよい。この場合、収音装置2は、それぞれ異なる位置に配置されたP個のマイクロフォンを有する。そして、収音装置2は、収音した音からPチャネル(Pは、2以上の整数)の音響信号を生成し、生成したPチャネルの音響信号を物体認証装置1に出力する。
撮像装置3は、例えば、CCD(Charged Coupled Devices)画像センサーカメラ、CMOS(Complementary Metal−Oxide−Semiconductor)画像センサーカメラ等である。撮像装置3は、画像を撮像し、撮像した画像を物体認証装置1に出力する。なお、撮像装置3は、画像を、有線のコードやケーブルを介して、物体認証装置1に出力するようにしてもよく、無線で物体認証装置1に送信するようにしてもよい。
画像サーバー4には、画像が格納されている。なお、画像は、後述するようにカテゴリー毎に分類され、カテゴリー毎にURL(Uniform Resource Locator)アドレスが割り当てられていてもよい。また、画像の解像度は、同一であっても行っていてもよい。なお、画像サーバー4は、インターネット上の任意のサイトであってもよい。この場合、物体認証装置1は、音声認識部103によって認識された候補を、検索エンジンを用いて、インターネット上で画像検索し、例えば上位の画像を取得するようにしてもよい。この場合、物体認証装置1は、画像に付けられているラベルや名称も取得するようにしてもよい。
物体認証装置1は、取得した音声信号と画像信号を用いて物体を認証する。物体認証装置1は、例えば、人型ロボット、受け付け装置、産業用ロボット、スマートフォン、タブレット端末等に組み込まれている。
なお、収音装置2がマイクロフォンアレイの場合、物体認証装置1は、音源定位部、音源分離部、および音源同定部をさらに備える。この場合、物体認証装置1は、音声信号取得部101が取得した音声信号に対して予め生成した伝達関数を用いて音源定位部が音源定位を行う。そして、物体認証装置1は、音源定位部が定位して結果を用いて話者同定を行う。物体認証装置1は、音源定位部が定位して結果を用いて、音声信号取得部101が取得した音声信号に対して音源分離を行う。そして、物体認証装置1の音声認識部103は、分離された音声信号に対して発話区間の検出と音声認識を行う(例えば特開2017−9657号公報参照)。また、物体認証装置1は、残響音抑圧処理を行うようにしてもよい。
音声信号取得部101は、収音装置2が出力する音声信号を取得し、取得した音声信号を音声認識部103に出力する。なお、取得した音声信号がアナログ信号の場合、音声信号取得部101は、アナログ信号をデジタル信号に変換し、デジタル信号に変換した音声信号を音声認識部103に出力する。
音響モデル・辞書DB(データベース)102には、例えば音響モデル、言語モデル、単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語(語彙)とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。なお、音響モデル・辞書DB102には、図2を用いて後述するように、物のカテゴリー別に音響モデルを格納する。物のカテゴリーとは、例えば、食べ物、乗り物、食器、・・・等である。
音声認識部103は、音声信号取得部101が出力する音声信号を取得し、取得した音声信号から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出する。なお、音声認識部103は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部103は、発話句間毎の音声信号から音響特徴量である、例えばMSLS(Mel Scale Logarithmic Spectrum;メルスケール対数スペクトル)を抽出する。なお、MSLSは、音響認識の特徴量としてスペクトル特徴量を用い、MFCC(メル周波数ケプストラム係数;Mel Frequency Cepstrum Coefficient)を逆離散コサイン変換することによって得られる。なお、本実施形態において、発話は、例えば、「りんご」、「オートバイ」、「フォーク」等、物の名称の単語(語彙)である。
音声尤度算出部104は、抽出された音響特徴量に対して、音響モデル・辞書DB102を参照して、例えばHMM(Hidden Markov Model;隠れマルコフモデル)を用いて、音声尤度L(s;Λ)を算出する。なお、音声尤度L(s;Λ)は、事後確率p(Λ|s)の算出によって求める。ここで、sは音響特徴量、Λは音響モデル・辞書DB102が記憶するi番目の物体の音声モデルである。また、音声尤度Lは、0〜1の値であり、1に近いほど競合候補に対して尤度の差が大きかったことを表し信頼度が高いことを表す。また、音声尤度Lが0に近いほど信頼度が低いことを表す。
音声認識部103は、音声尤度算出部104が算出した音声尤度の高い方から所定の順位までの音声認識結果の候補に定める。所定の順位は、一例として10位である。音声認識部103は、音声尤度算出部104が算出した音声尤度Lを物体認証部113に出力する。
参考文献;www.ieice-hbkb.org/files/02/02gun_07hen_02.pdf(web検索 2017.3.19)、篠田浩一、伊藤影則、李晃伸、“2群(画像・音・言語)−7編(音声認識と合成) 2章 音声認識”ver.1、電子情報通信学会「知識ベース」、電子情報通信学会、2010、p2〜p12
カテゴリー推定部105は、尤度の高い方から所定の順位までの音声認識結果の候補のカテゴリーを、音響モデル・辞書DB102を参照して決定する。カテゴリー推定部105は、決定したカテゴリーを示すカテゴリー情報と、尤度の高い方から所定の順位までの音声認識結果の候補と、を画像モデル生成部108に出力する。なお、カテゴリー情報には、少なくとも1つのカテゴリーが含まれ、複数のカテゴリーが含まれる場合もある。この場合、カテゴリーは、尤度の順を示す情報が付加される。例えば、尤度の高い順に所定の順位までの音声認識結果の候補が、「りんご」、「みかん」、「もも」、「なし」、「ボール」、「ビー玉」、・・・の場合、尤度の高い順にカテゴリーは、例えば「果物」と「玩具」である。
画像取得部106は、撮像装置3が出力する画像を取得し、取得した画像を画像認識部110に出力する。
画像モデルDB107には、画像モデルが格納されている。画像モデルとは、画像の特徴量に基づくモデルである。なお、画像モデルDB107には、図4を用いて後述するように、物のカテゴリー別に画像モデルを格納する。なお、画像モデルDB107は、画像を格納していてもよい。この場合、画像の解像度が同一であることが好ましい。解像度が異なる場合、画像モデル生成部108が、解像度を正規化して画像モデルを生成する。
画像モデル生成部108は、音声認識部103が出力した音声尤度の高い方から所定の順位までの音声認識結果の候補と当該候補のカテゴリー情報とを用いて、音声尤度の高い方から所定の順位までの音声認識結果の候補の画像モデルが、画像モデルDB107に格納されているか否か探索する。画像モデル生成部108は、カテゴリー毎に探索を行う。このように、画像モデルDB107に画像がカテゴリー毎に分類されて格納されているため、画像モデル生成部108は、カテゴリー毎に探索すればいいので、画像検索の処理時間を高速化できる。
画像モデル生成部108は、画像モデルDB107に音声認識結果の候補の画像モデルが格納されている場合、対応する画像モデルを画像モデルDB107から取得する。
画像モデル生成部108は、画像モデルDB107に音声認識結果の候補の画像モデルが格納されていない場合、音声認識結果の候補に対応する画像を、記憶部109が記憶するURLアドレスを用いて通信部112を制御して画像サーバー4またはネットワーク(インターネット)上から取得する。なお、通信部112がアクセスするURLアドレスは、画像モデル生成部108または通信部112が記憶していてもよい。具体的には、画像モデルDB107に「ビー玉」の画像モデルが格納されていない場合、画像モデル生成部108は、「ビー玉」の画像を少なくとも1つ取得する。なお、画像モデル生成部108は、取得した画像の解像度を取得し、取得した解像度が所定の値と異なる場合、正規化するようにしてもよい。画像モデル生成部108は、取得した画像の特徴量を抽出し、抽出した特徴量を用いて画像モデルを生成する。なお、画像サーバー4またはネットワーク(インターネット)上から取得した画像を用いて画像モデルを生成する方法については、図7を用いて後述する。
画像モデル生成部108は、画像モデルDB107から取得した画像モデル、または生成した画像モデルを画像認識部110に音声尤度の高い順に出力する。
記憶部109は、画像サーバー4のURLアドレスを記憶する。なお、URLアドレスは、図5を用いて後述するように、カテゴリー毎に分類されている。
画像認識部110は、撮像装置3が出力した画像の画像特徴量を算出する。なお、画像特徴量は、例えば、対象物体全体に対するウォーブレット(wavelet)、対象物の局所情報に対するSIFT(Scale−Invariant Feature Transform)特徴量やSURF(Speeded Up Robust Features)特徴量等、局所情報のつながりであるJoint HOG等のいずれか1つであってもよい。また、画像認識部110は、撮像装置3が出力した画像に対して左右反転させた画像に対しても画像特徴量を算出するようにしてもよい。
画像尤度算出部111は、算出された画像特徴量と、画像モデル生成部108が出力した画像モデルとを、例えばHMMを用いて、候補毎に画像尤度L(v;o)を算出する。なお、画像尤度L(v;o)は、事後確率p(o|v)の算出によって求める。ここで、vは画像特徴量、oは画像モデル生成部108が出力するi番目の物体の画像モデルである。また、画像尤度Lは、0〜1の値であり、1に近いほど競合候補に対して尤度の差が大きかったことを表し信頼度が高いことを表す。また、画像尤度Lが0に近いほど信頼度が低いことを表す。
画像認識部110は、画像尤度算出部111が算出した尤度の高い方から所定の順位までの画像認識結果の候補に定める。所定の順位は、一例として10位である。画像認識部110は、画像尤度算出部111が算出した音声尤度Lを物体認証部113に出力する。
通信部112は、画像モデル生成部108の制御に応じて、画像サーバー4またはネットワーク(インターネット)にアクセスし、画像を取得する。
物体認証部113は、音声認識部103が出力する音声尤度Lと、画像認識部110が出力する画像尤度Lとを用いて、次式(1)のロジスティック関数によって統合して物体尤度Fを候補毎に求める。
Figure 2018169744
式(1)において、vは入力された画像、oはi番目の画像モデル、α、α、αはロジスティック関数のパラメータである。
物体認証部113は、次式(2)を用いて算出した物体尤度Fが最大となる候補i^を推定する。
Figure 2018169744
なお、式(2)において、arg max F(…)は、…を最大とするFを与える関数である。
なお、上述した例では、ロジスティック関数を用いて、音声尤度Lsと画像尤度Lvとを統合する例を説明したが、これに限られない。他の関数を用いて統合するようにしてもよい。
ここで、SIFT特徴量の概要について説明する。
SIFTの処理は、大きく分けて特徴点の検出と特徴量の記述の2段階である。特徴点の検出では、スケールの異なる平滑化画像の差分から画像特徴と思われる点(キーポイント)を決定する。そして、各キーポイントの周りで周辺の画像の勾配情報を用いることで情報を記述する。次に、各スケール間で差分を取ることで、画像の変化(物体と背景の境界など)が、どこに現れているかを算出する。この変化が極大となる点が、SIFTの特徴点(キーポイント)候補となる。この点を探索するために,差分画像を並べ、極値探索を行う。SIFT特徴は、このキーポイントの周りでの画像勾配を記述することで得られる。
次に、音響モデル・辞書DB102が格納する情報例を説明する。
図2は、本実施形態に係る音響モデル・辞書DB102が格納する情報例を示す図である。
図2に示すように、音響モデル・辞書DB102は、カテゴリー毎に項目(単語、語彙)を格納している。例えば、カテゴリーは、「乗り物」、「果物」、「食器」、・・・である。カテゴリー「乗り物」には、項目「新幹線」、「オートバイ」、「自動車」、「電車」、・・・が格納されている。
次に、音響モデル・辞書DB102が格納する単語辞書の例を説明する。
図3は、本実施形態に係る音響モデル・辞書DB102が格納する辞書の例を示す図である。
図3に示すように、本実施形態では、1つの単語に対して複数の項目(呼び方、表記)がある場合、それらを1つの単語に関連付けて格納する。例えば、「りんごジュース」に、「アップルジュース」と「りんごジュース」が関連付けられている。
次に、画像モデル・辞書DB107が格納する情報例を説明する。
図4は、本実施形態に係る画像モデル・辞書DB107が格納する情報例を示す図である。
図4に示すように、画像モデル・辞書DB107は、カテゴリー毎に画像モデルを分けて格納している。図4に示す例では、カテゴリーは、「乗り物」、「果実」、「食器」、・・・である。なお、画像モデル・辞書DB107で用いるカテゴリーと音響モデル・辞書DB102が用いるカテゴリーは一致している。なお、取得した画像が画像モデル・辞書DB107にない項目の場合、画像認識部110は、認識結果に基づいて、新たなカテゴリーや項目を画像モデルに追加するようにしてもよい。
次に、記憶部109が記憶するURLアドレスの例を説明する。
図5は、本実施形態に係る記憶部109が記憶するURLアドレスの例を示す図である。
図5に示すように、画像サーバー4のULRアドレスは、カテゴリー毎に少なくとも1つ以上のURLアドレスが格納されている。なお、画像サーバー4は、各URLアドレスに、少なくとも1つの画像を格納し、複数の画像を格納するようにしてもよい。
図5に示す例では、乗り物の“カテゴリー”について、第1のURLアドレス“http://www.norimono1”、第2のURLアドレス“http://www.norimono2”、第3のURLアドレス“http://www.norimono3”、・・・が対応付けられている。そして、第1のURLアドレス“http://www.norimono1”には、飛行機の画像情報が格納され、第2のURLアドレス“http://www.norimono2”には、ヨットの画像情報が格納され、第3のURLアドレス“http://www.norimono3”には、タンカーの画像情報が格納されている。
次に、物体認証装置1が行う処理手順例を説明する。
図6は、本実施形態に係る物体認証装置1の物体認証の処理手順例を示すフローチャートである。
(ステップS1)音声認識部103は、音声信号取得部101が収音装置2から取得した音声信号から音響特徴量を抽出する。続けて、音声認識部103は、抽出した音響特徴量に対して、音響モデル・辞書DB102を参照して、例えばHMMを用いて、音声尤度L(s;Λ)を算出する。
(ステップS2)音声認識部103は、音声尤度算出部104が算出した尤度の高い方から所定の順位までの音声認識結果の候補に定める。
(ステップS3)カテゴリー推定部105は、尤度の高い方から所定の順位までの音声認識結果の候補のカテゴリーを、音響モデル・辞書DB102を参照して決定する。
(ステップS4)画像モデル生成部108は、音声認識部103が出力した尤度の高い方から所定の順位までの音声認識結果の候補と当該候補のカテゴリー情報とを用いて、尤度の高い方から所定の順位までの音声認識結果の候補の画像モデルが、画像モデルDB107に格納されているか否か判別する。画像モデル生成部108は、画像モデルDB107に音声認識結果の候補の画像モデルが格納されていると判別した場合(ステップS4;YES)、ステップS5に処理を進める。画像モデル生成部108は、画像モデルDB107に音声認識結果の候補の画像モデルが格納されていないと判別した場合(ステップS4;NO)、ステップS6に処理を進める。
(ステップS5)画像モデル生成部108は、対応する画像モデルを画像モデルDB107から取得する。画像モデル生成部108は、取得した画像モデルを画像認識部110に尤度の高い順に出力し、ステップS7に処理を進める。
(ステップS6)画像モデル生成部108は、音声認識結果の候補に対応する画像を、記憶部109が記憶するURLアドレスを用いて通信部112を制御して画像サーバー4またはネットワーク(Web;World Wide Web)から取得する。画像モデル生成部108は、取得した画像から画像モデルを生成し、生成した画像モデルを画像認識部110に尤度の高い順に出力し、ステップS7に処理を進める。
(ステップS7)画像尤度算出部111は、算出された画像特徴量と、画像モデル生成部108が出力した画像モデルとを、例えばHMMを用いて、候補毎に画像尤度L(v;o)を算出する。
(ステップS8)物体認証部113は、音声認識部103が出力する音声尤度Lと、画像認識部110が出力する画像尤度Lとを用いて、上述した式(1)のロジスティック関数によって統合して物体尤度Fを候補毎に求める。
(ステップS9)物体認証部113は、上述した式(2)を用いて算出した物体尤度Fが最大となる候補を求めることで、物体を認証する。
以上で、物体認証装置1の物体認証の処理を終了する。
次に、画像を画像サーバー4から取得して画像モデルを生成する処理手順例を説明する。
図7は、本実施形態に係る画像を画像サーバー4から取得して画像モデルを生成する処理手順例を示すフローチャートである。
(ステップS101)画像モデル生成部108は、画像サーバー4から認識結果候補に対応する物体の画像を取得(収集)する。
(ステップS102)画像モデル生成部108は、候補ぞれぞれの画像毎に、例えばSIFT特徴量を抽出する。
(ステップS103)画像モデル生成部108は、SIFT特徴量に基づいて物体ごとにVisual Wordsを求める。ここで、Visual Wordsについて説明知る。例えば、Bag of Features(BoF)では、物体の画像からSIFT特徴量やSURF特徴量を抽出し,それらをk−means手法によってW個のクラスタに分類する。それぞれのクラスタのセントロイド(重心)となるベクトルのことをVisual Wordと呼び、その数は経験的に決定される。具体的には、画像モデル生成部108は、全画像のSIFT特徴量のk−meansクラスタリング(K平均法)を実行し、各クラスタの中心をVisual Wordsとする。なお、Visual Wordsは、代表的な局所パターンに相当する。
(ステップS104)画像モデル生成部108は、候補の各画像を、Visual Wordsを用いてベクトル量子化し、各画像のBag−of−features(BoF)表現を求める。なお、BoF表現は、Visual Wordsの出現頻度(ヒストグラム)によって画像を表現したものである。
(ステップS105)画像モデル生成部108は、認識候補の物体毎にBoFのk−meansクラスタリングを行い、クラスタ毎に画像モデルを生成する。
なお、上述した例では、画像モデル生成部108は、画像モデルDB107に音声認識された結果の候補の画像が格納されていない場合に画像サーバー4から画像を取得して画像モデルを生成する例を説明したが、これに限られない。画像モデル生成部108は、画像モデルDB107に音声認識された結果の候補の画像が格納されている場合であっても画像サーバー4から画像を取得するようにしてもよい。この場合、画像モデル生成部108は、画像サーバー4から取得した第2の画像に対して第2の画像モデルを生成するようにしてもよい。画像モデル生成部108は、画像モデルDB107から取得した第1の画像モデルと、生成した第2の画像モデルを、画像認識部110に出力するようにしてもよい。そして、画像尤度算出部111は、第1の画像モデルと、生成された第2の画像モデルそれぞれの画像尤度を算出し、画像尤度が大きいものを選択するようにしてもよい。
以上のように、本実施形態では、音声認識に対応したモデル(カテゴリー・辞書)を持っておき、音声認識されたらカテゴリー認識するようにした。また、本実施形態では、画像モデルDB107内において、カテゴリー別に画像を収納しておき、そこから画像を検索するようにした。また、本実施形態では、画像サーバー4においても、カテゴリー別にURLアドレス等を付与しておき、そこから画像を検索するようにした。さらに、本実施形態では、画像モデルDB107と画像サーバー4から取得した画像データのうち、画像尤度が大きいものを選択するようにした。
これにより、本実施形態によれば、音声情報と画像情報とをカテゴリー化して記憶されるので、モーダルで物体認証する際の認証速度を向上させることができるという効果を奏する。
また、本実施形態によれば、ネットワークを介して、より広い範囲で対象画像を検索することができ、認証精度を向上させることができる。
また、本実施形態によれば、ネットワークを介して画像を検索した場合であっても、画像がカテゴリー別に記憶されているため、検索速度を向上させることができ、ひいては物体認証速度を向上させることができる。
また、本実施形態によれば、音声認識で用いる音響モデル・辞書DB102も、カテゴリー毎に区分分けをして音声モデルを記憶させるようにしたので、音声尤度による検索が高速化する。
また、本実施形態によれば、同じ意味の言葉を辞書として登録するため、音声認識精度を向上させることができる。
また、本実施形態によれば、画像モデルDB107に格納されている第1の画像モデルと、画像サーバー4から取得した画像に基づく第2の画像モデルそれぞれの尤度を比較して大きい方を選択するようにしたので、物体認証の精度を向上させることができる。
なお、上述した例では、収音装置2と撮像装置3が物体認証装置1に接続されている例を説明したが、収音装置2と撮像装置3は、物体認証装置1が備えていてもよい。
なお、本発明における物体認証装置1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより物体認証装置1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバーやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1…物体認証装置、2…収音装置、3…撮像装置、4…画像サーバー、101…音声信号取得部、102…音響モデル・辞書DB、103…音声認識部、104…音声尤度算出部、105…カテゴリー推定部、106…画像取得部、107…画像モデルDB、108…画像モデル生成部、109…記憶部、110…画像認識部、111…画像尤度算出部、112…通信部、113…物体認証部

Claims (5)

  1. 入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識部と、
    前記音声尤度の高い方から所定数の前記音声認識結果候補の画像モデルを求める画像モデル生成部と、
    入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、
    該画像尤度を使用して物体認証を行う物体認証部と、を備え、
    音声認識されると予測される語彙がカテゴリー化され、前記画像モデルについても前記カテゴリーに紐づいて形成される、物体認証装置。
  2. 前記画像モデルを格納する画像データベース、を備え、
    前記物体認証部は、対象となる該画像モデルを画像モデル格納部が格納していない場合に、ネットワークを介して画像を取得し、取得した該画像から該画像モデルを生成して物体の認証を行う、請求項1に記載の物体認証装置。
  3. 前記画像データベースも前記カテゴリーに応じてURLアドレスが分類される、請求項2に記載の物体認証装置。
  4. 前記音声認識で使用する音響モデルを格納する音響モデル格納部、を備え、
    前記音響モデルは、同じ意味の言葉を関連付けて辞書として記憶する、請求項1から請求項3のいずれか1項に記載の物体認証装置。
  5. 音声認識部が、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識するステップと、
    画像モデル生成部が、前記音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成するステップと、
    画像尤度算出部が、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出するステップと、
    物体認証部が、該画像尤度を使用して物体認証を行う物体認証するステップと、を含み、
    音声認識されると予測される語彙がカテゴリー化され、前記画像モデルについても前記カテゴリーに紐づいて形成される、物体認証方法。
JP2017065863A 2017-03-29 2017-03-29 物体認証装置および物体認証方法 Active JP6565084B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017065863A JP6565084B2 (ja) 2017-03-29 2017-03-29 物体認証装置および物体認証方法
US15/934,306 US10861452B2 (en) 2017-03-29 2018-03-23 Object authentication device and object authentication method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017065863A JP6565084B2 (ja) 2017-03-29 2017-03-29 物体認証装置および物体認証方法

Publications (2)

Publication Number Publication Date
JP2018169744A true JP2018169744A (ja) 2018-11-01
JP6565084B2 JP6565084B2 (ja) 2019-08-28

Family

ID=63671050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017065863A Active JP6565084B2 (ja) 2017-03-29 2017-03-29 物体認証装置および物体認証方法

Country Status (2)

Country Link
US (1) US10861452B2 (ja)
JP (1) JP6565084B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002312796A (ja) * 2001-04-09 2002-10-25 Canon Inc 主被写体推定装置、撮像装置、撮像システム、主被写体推定方法、撮像装置の制御方法、及び制御プログラムを提供する媒体
JP2014170295A (ja) * 2013-03-01 2014-09-18 Honda Motor Co Ltd 物体認識システム及び物体認識方法
JP2015049843A (ja) * 2013-09-04 2015-03-16 東芝テック株式会社 情報処理装置、店舗システム及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110150270A1 (en) * 2009-12-22 2011-06-23 Carpenter Michael D Postal processing including voice training
WO2012001216A1 (en) * 2010-07-01 2012-01-05 Nokia Corporation Method and apparatus for adapting a context model
JP5828552B2 (ja) * 2011-12-22 2015-12-09 本田技研工業株式会社 物体分類装置、物体分類方法、物体認識装置及び物体認識方法
DE102014113817A1 (de) * 2013-10-15 2015-04-16 Electronics And Telecommunications Research Institute Vorrichtung und Verfahren zur Erkennung eines Objekts in Einem Bild
US10043069B1 (en) * 2014-03-04 2018-08-07 Amazon Technologies, Inc. Item recognition using context data
US20160180315A1 (en) * 2014-12-22 2016-06-23 Toshiba Tec Kabushiki Kaisha Information processing apparatus using object recognition, and commodity identification method by the same
US20170262051A1 (en) * 2015-03-20 2017-09-14 The Eye Tribe Method for refining control by combining eye tracking and voice recognition
US9658702B2 (en) * 2015-08-12 2017-05-23 Smart Technologies Ulc System and method of object recognition for an interactive input system
US10542315B2 (en) * 2015-11-11 2020-01-21 At&T Intellectual Property I, L.P. Method and apparatus for content adaptation based on audience monitoring
US10884503B2 (en) * 2015-12-07 2021-01-05 Sri International VPA with integrated object recognition and facial expression recognition
US10430657B2 (en) * 2016-12-12 2019-10-01 X Development Llc Object recognition tool

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002312796A (ja) * 2001-04-09 2002-10-25 Canon Inc 主被写体推定装置、撮像装置、撮像システム、主被写体推定方法、撮像装置の制御方法、及び制御プログラムを提供する媒体
JP2014170295A (ja) * 2013-03-01 2014-09-18 Honda Motor Co Ltd 物体認識システム及び物体認識方法
JP2015049843A (ja) * 2013-09-04 2015-03-16 東芝テック株式会社 情報処理装置、店舗システム及びプログラム

Also Published As

Publication number Publication date
US20180286397A1 (en) 2018-10-04
US10861452B2 (en) 2020-12-08
JP6565084B2 (ja) 2019-08-28

Similar Documents

Publication Publication Date Title
Tao et al. End-to-end audiovisual speech recognition system with multitask learning
JP6754184B2 (ja) 音声認識装置及び音声認識方法
JP6596376B2 (ja) 話者識別方法及び話者識別装置
JP6543844B2 (ja) 音源同定装置および音源同定方法
CN109635676B (zh) 一种从视频中定位音源的方法
CN104598644B (zh) 喜好标签挖掘方法和装置
CN103038765B (zh) 用于适配情境模型的方法和装置
JP2019522840A (ja) アイデンティティ認証方法及び装置
JP2021500616A (ja) オブジェクト識別の方法及びその、コンピュータ装置並びにコンピュータ装置可読記憶媒体
US20140278372A1 (en) Ambient sound retrieving device and ambient sound retrieving method
CN106062871B (zh) 使用所选择的群组样本子集来训练分类器
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
JP6427807B2 (ja) 物体認証装置および物体認証方法
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
US20180285643A1 (en) Object recognition device and object recognition method
CN109947971A (zh) 图像检索方法、装置、电子设备及存储介质
KR20210044475A (ko) 대명사가 가리키는 객체 판단 방법 및 장치
WO2000022607A1 (fr) Dispositif et procede d'apprentissage, dispositif et procede de reconnaissance et support d'enregistrement
JPWO2018061839A1 (ja) 送信装置、送信方法及び送信プログラム
JP6565084B2 (ja) 物体認証装置および物体認証方法
KR102642617B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
JP4345156B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体
JP2019133447A (ja) 感情推定装置、コンピュータプログラム及び感情推定方法
JP4340939B2 (ja) 学習装置および学習方法、認識装置および認識方法、並びに記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20171128

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181005

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20181010

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190131

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20190702

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20190710

R150 Certificate of patent or registration of utility model

Ref document number: 6565084

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150