JP2018169744A

JP2018169744A - 物体認証装置および物体認証方法

Info

Publication number: JP2018169744A
Application number: JP2017065863A
Authority: JP
Inventors: 幹生中野; Mikio Nakano; 智幸佐畑; Tomoyuki Satake
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2018-11-01
Anticipated expiration: 2037-03-29
Also published as: US20180286397A1; US10861452B2; JP6565084B2

Abstract

【課題】物体認証の認証速度を向上させることができる物体認証装置および物体認証方法を提供することを目的とする。【解決手段】物体認証装置は、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識部と、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部と、入力された画像の画像モデルに基づく画像尤度を求める画像尤度算出部と、画像尤度を使用して物体認証を行う物体認証部と、を備え、音声認識されると予測される語彙がカテゴリー化され、画像モデルについてもカテゴリーに紐づいて形成される。【選択図】図１

Description

本発明は、物体認証装置および物体認証方法に関する。

ロボットが生活環境下で作業を行う際、ユーザに指示された物体を握持する物体握持タスクを達成することは最低限必要である。このような作業において、例えば、ユーザは音声で指示を行い、ロボットがユーザの音声を音声認識結果に基づいて物体認証を行う。また、ロボットが、撮像装置によってロボットの周囲の物体の画像情報を取得することも可能である。

このような物体を認証するシステムとして、音声情報と画像情報を統合した手法が提案されている（非特許文献１）。しかし、非特許文献１に記載の技術では、物体認証を行う際、音声モデルと画像モデルの両方が必要である。物体認証システムが、音声モデルを保持することは容易であるが、大量の画像モデルを保持するのはファイル容量が大きいため現実的ではない。

このため、物体を認証するシステムとして、音声尤度と画像尤度とに基づいて、対象となる物体を認証する技術が開示されている（例えば特許文献１参照）。

特開２０１４−１７０２９５号公報

Y.Ozasa et al.、"Disambiguation in Unknown Object Detection by Integrating Image and Speech Recognition Confidences"、ACCV、2012

特許文献１に記載の技術では、音声尤度に基づいて画像モデルから対象画像を読み出し、さらに、画像モデルに対象となる画像がない場合にウェブから画像を読み出して画像尤度に基づいて物体認証している。しかしながら、特許文献１に記載の技術では、ウェブから画像を検索するときに時間がかかってしまう可能性があり、物体認証速度の低下が懸念される。

本発明は、上記の問題点に鑑みてなされたものであって、物体認証の認証速度を向上させることができる物体認証装置および物体認証方法を提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る物体認証装置１は、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識部１０３と、前記音声尤度の高い方から所定数の前記音声認識結果候補の画像モデルを求める画像モデル生成部１０８と、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部１１１と、該画像尤度を使用して物体認証を行う物体認証部１１３と、を備え、音声認識されると予測される語彙がカテゴリー化され、前記画像モデルについても前記カテゴリーに紐づいて形成される。

（２）また、本発明の一態様に係る物体認証装置１において、前記画像モデルを格納する画像データベース（画像モデルＤＢ１０７）、を備え、前記物体認証部は、対象となる該画像モデルを画像モデル格納部が格納していない場合に、ネットワークを介して画像を取得し、取得した該画像から該画像モデルを生成して物体の認証を行うようにしてもよい。

（３）また、本発明の一態様に係る物体認証装置１において、前記画像データベースも前記カテゴリーに応じてＵＲＬアドレスが分類されるようにしてもよい。
（４）また、本発明の一態様に係る物体認証装置１において、前記音声認識で使用する音響モデルを格納する音響モデル格納部（音響モデル・辞書ＤＢ１０２）、を備え、前記音響モデルは、同じ意味の言葉を関連付けて辞書として記憶するようにしてもよい。

（５）上記目的を達成するため、本発明の一態様に係る物体認証方法は、音声認識部が、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識するステップと、画像モデル生成部が、前記音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成するステップと、画像尤度算出部が、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出するステップと、物体認証部が、該画像尤度を使用して物体認証を行う物体認証するステップと、を含み、音声認識されると予測される語彙がカテゴリー化され、前記画像モデルについても前記カテゴリーに紐づいて形成される。

（１）、（５）によれば、音声情報と画像情報とをカテゴリー化して記憶されるので、モーダルで物体認証する際の認証速度を向上させることができるという効果を奏する。
また、（２）によれば、ネットワークを介して、より広い範囲で対象画像を検索することができ、認証精度を向上させることができる。
また、（３）によれば、ネットワークを介して画像を検索した場合であっても、画像がカテゴリー別に記憶されているため、検索速度を向上させることができ、ひいては物体認証速度を向上させることができる。
また、（４）によれば、同じ意味の言葉を辞書として登録するため、音声認識精度を向上させることができる。

本実施形態に係る物体認証装置の構成例を示すブロック図である。本実施形態に係る音響モデル・辞書ＤＢが格納する情報例を示す図である。本実施形態に係る音響モデル・辞書ＤＢが格納する辞書の例を示す図である。本実施形態に係る画像モデル・辞書ＤＢが格納する情報例を示す図である。本実施形態に係る記憶部が記憶するＵＲＬアドレスの例を示す図である。本実施形態に係る物体認証装置の物体認証の処理手順例を示すフローチャートである。本実施形態に係る画像を画像サーバーから取得して画像モデルを生成する処理手順例を示すフローチャートである。

以下、本発明の実施の形態について図面を参照しながら説明する。
図１は、本実施形態に係る物体認証装置１の構成例を示すブロック図である。図１に示すように、物体認証装置１は、音声信号取得部１０１、音響モデル・辞書ＤＢ１０２、音声認識部１０３、画像取得部１０６、画像モデルＤＢ１０７、画像モデル生成部１０８、記憶部１０９、画像認識部１１０、通信部１１２、および物体認証部１１３を備える。また、音声認識部１０３は、音声尤度算出部１０４とカテゴリー推定部１０５を備える。画像認識部１１０は、画像尤度算出部１１１を備える。
物体認証装置１には、収音装置２および撮像装置３が接続されている。また、物体認証装置１は、ネットワークを介して画像サーバー４が接続されている。

収音装置２は、例えばマイクロフォンであり、利用者が発話した音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を物体認証装置１に出力する。なお、収音装置２は、アナログ信号の音声信号を物体認証装置１に出力するようにしてもよい。なお、収音装置２は、音声信号を、有線のコードやケーブルを介して、物体認証装置１に出力するようにしてもよく、無線で物体認証装置１に送信するようにしてもよい。
なお、収音装置２は、マイクロフォンアレイであってもよい。この場合、収音装置２は、それぞれ異なる位置に配置されたＰ個のマイクロフォンを有する。そして、収音装置２は、収音した音からＰチャネル（Ｐは、２以上の整数）の音響信号を生成し、生成したＰチャネルの音響信号を物体認証装置１に出力する。

撮像装置３は、例えば、ＣＣＤ（ＣｈａｒｇｅｄＣｏｕｐｌｅｄＤｅｖｉｃｅｓ）画像センサーカメラ、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ−Ｏｘｉｄｅ−Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）画像センサーカメラ等である。撮像装置３は、画像を撮像し、撮像した画像を物体認証装置１に出力する。なお、撮像装置３は、画像を、有線のコードやケーブルを介して、物体認証装置１に出力するようにしてもよく、無線で物体認証装置１に送信するようにしてもよい。

画像サーバー４には、画像が格納されている。なお、画像は、後述するようにカテゴリー毎に分類され、カテゴリー毎にＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）アドレスが割り当てられていてもよい。また、画像の解像度は、同一であっても行っていてもよい。なお、画像サーバー４は、インターネット上の任意のサイトであってもよい。この場合、物体認証装置１は、音声認識部１０３によって認識された候補を、検索エンジンを用いて、インターネット上で画像検索し、例えば上位の画像を取得するようにしてもよい。この場合、物体認証装置１は、画像に付けられているラベルや名称も取得するようにしてもよい。

物体認証装置１は、取得した音声信号と画像信号を用いて物体を認証する。物体認証装置１は、例えば、人型ロボット、受け付け装置、産業用ロボット、スマートフォン、タブレット端末等に組み込まれている。
なお、収音装置２がマイクロフォンアレイの場合、物体認証装置１は、音源定位部、音源分離部、および音源同定部をさらに備える。この場合、物体認証装置１は、音声信号取得部１０１が取得した音声信号に対して予め生成した伝達関数を用いて音源定位部が音源定位を行う。そして、物体認証装置１は、音源定位部が定位して結果を用いて話者同定を行う。物体認証装置１は、音源定位部が定位して結果を用いて、音声信号取得部１０１が取得した音声信号に対して音源分離を行う。そして、物体認証装置１の音声認識部１０３は、分離された音声信号に対して発話区間の検出と音声認識を行う（例えば特開２０１７−９６５７号公報参照）。また、物体認証装置１は、残響音抑圧処理を行うようにしてもよい。

音声信号取得部１０１は、収音装置２が出力する音声信号を取得し、取得した音声信号を音声認識部１０３に出力する。なお、取得した音声信号がアナログ信号の場合、音声信号取得部１０１は、アナログ信号をデジタル信号に変換し、デジタル信号に変換した音声信号を音声認識部１０３に出力する。

音響モデル・辞書ＤＢ（データベース）１０２には、例えば音響モデル、言語モデル、単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語（語彙）とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。なお、音響モデル・辞書ＤＢ１０２には、図２を用いて後述するように、物のカテゴリー別に音響モデルを格納する。物のカテゴリーとは、例えば、食べ物、乗り物、食器、・・・等である。

音声認識部１０３は、音声信号取得部１０１が出力する音声信号を取得し、取得した音声信号から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出する。なお、音声認識部１０３は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部１０３は、発話句間毎の音声信号から音響特徴量である、例えばＭＳＬＳ（ＭｅｌＳｃａｌｅＬｏｇａｒｉｔｈｍｉｃＳｐｅｃｔｒｕｍ；メルスケール対数スペクトル）を抽出する。なお、ＭＳＬＳは、音響認識の特徴量としてスペクトル特徴量を用い、ＭＦＣＣ（メル周波数ケプストラム係数；ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）を逆離散コサイン変換することによって得られる。なお、本実施形態において、発話は、例えば、「りんご」、「オートバイ」、「フォーク」等、物の名称の単語（語彙）である。

音声尤度算出部１０４は、抽出された音響特徴量に対して、音響モデル・辞書ＤＢ１０２を参照して、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；隠れマルコフモデル）を用いて、音声尤度Ｌ_ｓ（ｓ；Λ_ｉ）を算出する。なお、音声尤度Ｌ_ｓ（ｓ；Λ_ｉ）は、事後確率ｐ（Λ_ｉ｜ｓ）の算出によって求める。ここで、ｓは音響特徴量、Λ_ｉは音響モデル・辞書ＤＢ１０２が記憶するｉ番目の物体の音声モデルである。また、音声尤度Ｌ_ｓは、０〜１の値であり、１に近いほど競合候補に対して尤度の差が大きかったことを表し信頼度が高いことを表す。また、音声尤度Ｌ_ｓが０に近いほど信頼度が低いことを表す。

音声認識部１０３は、音声尤度算出部１０４が算出した音声尤度の高い方から所定の順位までの音声認識結果の候補に定める。所定の順位は、一例として１０位である。音声認識部１０３は、音声尤度算出部１０４が算出した音声尤度Ｌ_ｓを物体認証部１１３に出力する。

参考文献；www.ieice-hbkb.org/files/02/02gun_07hen_02.pdf（web検索 2017.3.19）、篠田浩一、伊藤影則、李晃伸、“２群（画像・音・言語）−７編（音声認識と合成）２章音声認識”ver.1、電子情報通信学会「知識ベース」、電子情報通信学会、２０１０、ｐ２〜ｐ１２

カテゴリー推定部１０５は、尤度の高い方から所定の順位までの音声認識結果の候補のカテゴリーを、音響モデル・辞書ＤＢ１０２を参照して決定する。カテゴリー推定部１０５は、決定したカテゴリーを示すカテゴリー情報と、尤度の高い方から所定の順位までの音声認識結果の候補と、を画像モデル生成部１０８に出力する。なお、カテゴリー情報には、少なくとも１つのカテゴリーが含まれ、複数のカテゴリーが含まれる場合もある。この場合、カテゴリーは、尤度の順を示す情報が付加される。例えば、尤度の高い順に所定の順位までの音声認識結果の候補が、「りんご」、「みかん」、「もも」、「なし」、「ボール」、「ビー玉」、・・・の場合、尤度の高い順にカテゴリーは、例えば「果物」と「玩具」である。

画像取得部１０６は、撮像装置３が出力する画像を取得し、取得した画像を画像認識部１１０に出力する。

画像モデルＤＢ１０７には、画像モデルが格納されている。画像モデルとは、画像の特徴量に基づくモデルである。なお、画像モデルＤＢ１０７には、図４を用いて後述するように、物のカテゴリー別に画像モデルを格納する。なお、画像モデルＤＢ１０７は、画像を格納していてもよい。この場合、画像の解像度が同一であることが好ましい。解像度が異なる場合、画像モデル生成部１０８が、解像度を正規化して画像モデルを生成する。

画像モデル生成部１０８は、音声認識部１０３が出力した音声尤度の高い方から所定の順位までの音声認識結果の候補と当該候補のカテゴリー情報とを用いて、音声尤度の高い方から所定の順位までの音声認識結果の候補の画像モデルが、画像モデルＤＢ１０７に格納されているか否か探索する。画像モデル生成部１０８は、カテゴリー毎に探索を行う。このように、画像モデルＤＢ１０７に画像がカテゴリー毎に分類されて格納されているため、画像モデル生成部１０８は、カテゴリー毎に探索すればいいので、画像検索の処理時間を高速化できる。
画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識結果の候補の画像モデルが格納されている場合、対応する画像モデルを画像モデルＤＢ１０７から取得する。
画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識結果の候補の画像モデルが格納されていない場合、音声認識結果の候補に対応する画像を、記憶部１０９が記憶するＵＲＬアドレスを用いて通信部１１２を制御して画像サーバー４またはネットワーク（インターネット）上から取得する。なお、通信部１１２がアクセスするＵＲＬアドレスは、画像モデル生成部１０８または通信部１１２が記憶していてもよい。具体的には、画像モデルＤＢ１０７に「ビー玉」の画像モデルが格納されていない場合、画像モデル生成部１０８は、「ビー玉」の画像を少なくとも１つ取得する。なお、画像モデル生成部１０８は、取得した画像の解像度を取得し、取得した解像度が所定の値と異なる場合、正規化するようにしてもよい。画像モデル生成部１０８は、取得した画像の特徴量を抽出し、抽出した特徴量を用いて画像モデルを生成する。なお、画像サーバー４またはネットワーク（インターネット）上から取得した画像を用いて画像モデルを生成する方法については、図７を用いて後述する。
画像モデル生成部１０８は、画像モデルＤＢ１０７から取得した画像モデル、または生成した画像モデルを画像認識部１１０に音声尤度の高い順に出力する。

記憶部１０９は、画像サーバー４のＵＲＬアドレスを記憶する。なお、ＵＲＬアドレスは、図５を用いて後述するように、カテゴリー毎に分類されている。

画像認識部１１０は、撮像装置３が出力した画像の画像特徴量を算出する。なお、画像特徴量は、例えば、対象物体全体に対するウォーブレット（ｗａｖｅｌｅｔ）、対象物の局所情報に対するＳＩＦＴ（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）特徴量やＳＵＲＦ（ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ）特徴量等、局所情報のつながりであるＪｏｉｎｔＨＯＧ等のいずれか１つであってもよい。また、画像認識部１１０は、撮像装置３が出力した画像に対して左右反転させた画像に対しても画像特徴量を算出するようにしてもよい。

画像尤度算出部１１１は、算出された画像特徴量と、画像モデル生成部１０８が出力した画像モデルとを、例えばＨＭＭを用いて、候補毎に画像尤度Ｌ_ｖ（ｖ；ｏ_ｉ）を算出する。なお、画像尤度Ｌ_ｖ（ｖ；ｏ_ｉ）は、事後確率ｐ（ｏ_ｉ｜ｖ）の算出によって求める。ここで、ｖは画像特徴量、ｏ_ｉは画像モデル生成部１０８が出力するｉ番目の物体の画像モデルである。また、画像尤度Ｌ_ｖは、０〜１の値であり、１に近いほど競合候補に対して尤度の差が大きかったことを表し信頼度が高いことを表す。また、画像尤度Ｌ_ｖが０に近いほど信頼度が低いことを表す。

画像認識部１１０は、画像尤度算出部１１１が算出した尤度の高い方から所定の順位までの画像認識結果の候補に定める。所定の順位は、一例として１０位である。画像認識部１１０は、画像尤度算出部１１１が算出した音声尤度Ｌ_ｖを物体認証部１１３に出力する。

通信部１１２は、画像モデル生成部１０８の制御に応じて、画像サーバー４またはネットワーク（インターネット）にアクセスし、画像を取得する。

物体認証部１１３は、音声認識部１０３が出力する音声尤度Ｌ_ｓと、画像認識部１１０が出力する画像尤度Ｌ_ｖとを用いて、次式（１）のロジスティック関数によって統合して物体尤度Ｆ_Ｌを候補毎に求める。

式（１）において、ｖは入力された画像、ｏ_ｉはｉ番目の画像モデル、α_０、α_１、α_２はロジスティック関数のパラメータである。
物体認証部１１３は、次式（２）を用いて算出した物体尤度Ｆ_Ｌが最大となる候補ｉ＾を推定する。

なお、式（２）において、ａｒｇｍａｘＦ_Ｌ（…）は、…を最大とするＦ_Ｌを与える関数である。
なお、上述した例では、ロジスティック関数を用いて、音声尤度Ｌｓと画像尤度Ｌｖとを統合する例を説明したが、これに限られない。他の関数を用いて統合するようにしてもよい。

ここで、ＳＩＦＴ特徴量の概要について説明する。
ＳＩＦＴの処理は、大きく分けて特徴点の検出と特徴量の記述の２段階である。特徴点の検出では、スケールの異なる平滑化画像の差分から画像特徴と思われる点（キーポイント）を決定する。そして、各キーポイントの周りで周辺の画像の勾配情報を用いることで情報を記述する。次に、各スケール間で差分を取ることで、画像の変化（物体と背景の境界など）が、どこに現れているかを算出する。この変化が極大となる点が、ＳＩＦＴの特徴点（キーポイント）候補となる。この点を探索するために，差分画像を並べ、極値探索を行う。ＳＩＦＴ特徴は、このキーポイントの周りでの画像勾配を記述することで得られる。

次に、音響モデル・辞書ＤＢ１０２が格納する情報例を説明する。
図２は、本実施形態に係る音響モデル・辞書ＤＢ１０２が格納する情報例を示す図である。
図２に示すように、音響モデル・辞書ＤＢ１０２は、カテゴリー毎に項目（単語、語彙）を格納している。例えば、カテゴリーは、「乗り物」、「果物」、「食器」、・・・である。カテゴリー「乗り物」には、項目「新幹線」、「オートバイ」、「自動車」、「電車」、・・・が格納されている。

次に、音響モデル・辞書ＤＢ１０２が格納する単語辞書の例を説明する。
図３は、本実施形態に係る音響モデル・辞書ＤＢ１０２が格納する辞書の例を示す図である。
図３に示すように、本実施形態では、１つの単語に対して複数の項目（呼び方、表記）がある場合、それらを１つの単語に関連付けて格納する。例えば、「りんごジュース」に、「アップルジュース」と「りんごジュース」が関連付けられている。

次に、画像モデル・辞書ＤＢ１０７が格納する情報例を説明する。
図４は、本実施形態に係る画像モデル・辞書ＤＢ１０７が格納する情報例を示す図である。
図４に示すように、画像モデル・辞書ＤＢ１０７は、カテゴリー毎に画像モデルを分けて格納している。図４に示す例では、カテゴリーは、「乗り物」、「果実」、「食器」、・・・である。なお、画像モデル・辞書ＤＢ１０７で用いるカテゴリーと音響モデル・辞書ＤＢ１０２が用いるカテゴリーは一致している。なお、取得した画像が画像モデル・辞書ＤＢ１０７にない項目の場合、画像認識部１１０は、認識結果に基づいて、新たなカテゴリーや項目を画像モデルに追加するようにしてもよい。

次に、記憶部１０９が記憶するＵＲＬアドレスの例を説明する。
図５は、本実施形態に係る記憶部１０９が記憶するＵＲＬアドレスの例を示す図である。
図５に示すように、画像サーバー４のＵＬＲアドレスは、カテゴリー毎に少なくとも１つ以上のＵＲＬアドレスが格納されている。なお、画像サーバー４は、各ＵＲＬアドレスに、少なくとも１つの画像を格納し、複数の画像を格納するようにしてもよい。
図５に示す例では、乗り物の“カテゴリー”について、第１のＵＲＬアドレス“http://www.norimono1”、第２のＵＲＬアドレス“http://www.norimono2”、第３のＵＲＬアドレス“http://www.norimono3”、・・・が対応付けられている。そして、第１のＵＲＬアドレス“http://www.norimono1”には、飛行機の画像情報が格納され、第２のＵＲＬアドレス“http://www.norimono2”には、ヨットの画像情報が格納され、第３のＵＲＬアドレス“http://www.norimono3”には、タンカーの画像情報が格納されている。

次に、物体認証装置１が行う処理手順例を説明する。
図６は、本実施形態に係る物体認証装置１の物体認証の処理手順例を示すフローチャートである。

（ステップＳ１）音声認識部１０３は、音声信号取得部１０１が収音装置２から取得した音声信号から音響特徴量を抽出する。続けて、音声認識部１０３は、抽出した音響特徴量に対して、音響モデル・辞書ＤＢ１０２を参照して、例えばＨＭＭを用いて、音声尤度Ｌ_ｓ（ｓ；Λ_ｉ）を算出する。

（ステップＳ２）音声認識部１０３は、音声尤度算出部１０４が算出した尤度の高い方から所定の順位までの音声認識結果の候補に定める。
（ステップＳ３）カテゴリー推定部１０５は、尤度の高い方から所定の順位までの音声認識結果の候補のカテゴリーを、音響モデル・辞書ＤＢ１０２を参照して決定する。

（ステップＳ４）画像モデル生成部１０８は、音声認識部１０３が出力した尤度の高い方から所定の順位までの音声認識結果の候補と当該候補のカテゴリー情報とを用いて、尤度の高い方から所定の順位までの音声認識結果の候補の画像モデルが、画像モデルＤＢ１０７に格納されているか否か判別する。画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識結果の候補の画像モデルが格納されていると判別した場合（ステップＳ４；ＹＥＳ）、ステップＳ５に処理を進める。画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識結果の候補の画像モデルが格納されていないと判別した場合（ステップＳ４；ＮＯ）、ステップＳ６に処理を進める。

（ステップＳ５）画像モデル生成部１０８は、対応する画像モデルを画像モデルＤＢ１０７から取得する。画像モデル生成部１０８は、取得した画像モデルを画像認識部１１０に尤度の高い順に出力し、ステップＳ７に処理を進める。

（ステップＳ６）画像モデル生成部１０８は、音声認識結果の候補に対応する画像を、記憶部１０９が記憶するＵＲＬアドレスを用いて通信部１１２を制御して画像サーバー４またはネットワーク（Ｗｅｂ；ＷｏｒｌｄＷｉｄｅＷｅｂ）から取得する。画像モデル生成部１０８は、取得した画像から画像モデルを生成し、生成した画像モデルを画像認識部１１０に尤度の高い順に出力し、ステップＳ７に処理を進める。

（ステップＳ７）画像尤度算出部１１１は、算出された画像特徴量と、画像モデル生成部１０８が出力した画像モデルとを、例えばＨＭＭを用いて、候補毎に画像尤度Ｌ_ｖ（ｖ；ｏ_ｉ）を算出する。

（ステップＳ８）物体認証部１１３は、音声認識部１０３が出力する音声尤度Ｌ_ｓと、画像認識部１１０が出力する画像尤度Ｌ_ｖとを用いて、上述した式（１）のロジスティック関数によって統合して物体尤度Ｆ_Ｌを候補毎に求める。

（ステップＳ９）物体認証部１１３は、上述した式（２）を用いて算出した物体尤度Ｆ_Ｌが最大となる候補を求めることで、物体を認証する。
以上で、物体認証装置１の物体認証の処理を終了する。

次に、画像を画像サーバー４から取得して画像モデルを生成する処理手順例を説明する。
図７は、本実施形態に係る画像を画像サーバー４から取得して画像モデルを生成する処理手順例を示すフローチャートである。

（ステップＳ１０１）画像モデル生成部１０８は、画像サーバー４から認識結果候補に対応する物体の画像を取得（収集）する。
（ステップＳ１０２）画像モデル生成部１０８は、候補ぞれぞれの画像毎に、例えばＳＩＦＴ特徴量を抽出する。

（ステップＳ１０３）画像モデル生成部１０８は、ＳＩＦＴ特徴量に基づいて物体ごとにＶｉｓｕａｌＷｏｒｄｓを求める。ここで、ＶｉｓｕａｌＷｏｒｄｓについて説明知る。例えば、ＢａｇｏｆＦｅａｔｕｒｅｓ（ＢｏＦ）では、物体の画像からＳＩＦＴ特徴量やＳＵＲＦ特徴量を抽出し，それらをｋ−ｍｅａｎｓ手法によってＷ個のクラスタに分類する。それぞれのクラスタのセントロイド（重心）となるベクトルのことをＶｉｓｕａｌＷｏｒｄと呼び、その数は経験的に決定される。具体的には、画像モデル生成部１０８は、全画像のＳＩＦＴ特徴量のｋ−ｍｅａｎｓクラスタリング（Ｋ平均法）を実行し、各クラスタの中心をＶｉｓｕａｌＷｏｒｄｓとする。なお、ＶｉｓｕａｌＷｏｒｄｓは、代表的な局所パターンに相当する。

（ステップＳ１０４）画像モデル生成部１０８は、候補の各画像を、ＶｉｓｕａｌＷｏｒｄｓを用いてベクトル量子化し、各画像のＢａｇ−ｏｆ−ｆｅａｔｕｒｅｓ（ＢｏＦ）表現を求める。なお、ＢｏＦ表現は、ＶｉｓｕａｌＷｏｒｄｓの出現頻度（ヒストグラム）によって画像を表現したものである。

（ステップＳ１０５）画像モデル生成部１０８は、認識候補の物体毎にＢｏＦのｋ−ｍｅａｎｓクラスタリングを行い、クラスタ毎に画像モデルを生成する。

なお、上述した例では、画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識された結果の候補の画像が格納されていない場合に画像サーバー４から画像を取得して画像モデルを生成する例を説明したが、これに限られない。画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識された結果の候補の画像が格納されている場合であっても画像サーバー４から画像を取得するようにしてもよい。この場合、画像モデル生成部１０８は、画像サーバー４から取得した第２の画像に対して第２の画像モデルを生成するようにしてもよい。画像モデル生成部１０８は、画像モデルＤＢ１０７から取得した第１の画像モデルと、生成した第２の画像モデルを、画像認識部１１０に出力するようにしてもよい。そして、画像尤度算出部１１１は、第１の画像モデルと、生成された第２の画像モデルそれぞれの画像尤度を算出し、画像尤度が大きいものを選択するようにしてもよい。

以上のように、本実施形態では、音声認識に対応したモデル（カテゴリー・辞書）を持っておき、音声認識されたらカテゴリー認識するようにした。また、本実施形態では、画像モデルＤＢ１０７内において、カテゴリー別に画像を収納しておき、そこから画像を検索するようにした。また、本実施形態では、画像サーバー４においても、カテゴリー別にＵＲＬアドレス等を付与しておき、そこから画像を検索するようにした。さらに、本実施形態では、画像モデルＤＢ１０７と画像サーバー４から取得した画像データのうち、画像尤度が大きいものを選択するようにした。

これにより、本実施形態によれば、音声情報と画像情報とをカテゴリー化して記憶されるので、モーダルで物体認証する際の認証速度を向上させることができるという効果を奏する。
また、本実施形態によれば、ネットワークを介して、より広い範囲で対象画像を検索することができ、認証精度を向上させることができる。
また、本実施形態によれば、ネットワークを介して画像を検索した場合であっても、画像がカテゴリー別に記憶されているため、検索速度を向上させることができ、ひいては物体認証速度を向上させることができる。

また、本実施形態によれば、音声認識で用いる音響モデル・辞書ＤＢ１０２も、カテゴリー毎に区分分けをして音声モデルを記憶させるようにしたので、音声尤度による検索が高速化する。
また、本実施形態によれば、同じ意味の言葉を辞書として登録するため、音声認識精度を向上させることができる。
また、本実施形態によれば、画像モデルＤＢ１０７に格納されている第１の画像モデルと、画像サーバー４から取得した画像に基づく第２の画像モデルそれぞれの尤度を比較して大きい方を選択するようにしたので、物体認証の精度を向上させることができる。

なお、上述した例では、収音装置２と撮像装置３が物体認証装置１に接続されている例を説明したが、収音装置２と撮像装置３は、物体認証装置１が備えていてもよい。

なお、本発明における物体認証装置１の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより物体認証装置１が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバーやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１…物体認証装置、２…収音装置、３…撮像装置、４…画像サーバー、１０１…音声信号取得部、１０２…音響モデル・辞書ＤＢ、１０３…音声認識部、１０４…音声尤度算出部、１０５…カテゴリー推定部、１０６…画像取得部、１０７…画像モデルＤＢ、１０８…画像モデル生成部、１０９…記憶部、１１０…画像認識部、１１１…画像尤度算出部、１１２…通信部、１１３…物体認証部

Claims

入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識部と、
前記音声尤度の高い方から所定数の前記音声認識結果候補の画像モデルを求める画像モデル生成部と、
入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、
該画像尤度を使用して物体認証を行う物体認証部と、を備え、
音声認識されると予測される語彙がカテゴリー化され、前記画像モデルについても前記カテゴリーに紐づいて形成される、物体認証装置。
前記画像モデルを格納する画像データベース、を備え、
前記物体認証部は、対象となる該画像モデルを画像モデル格納部が格納していない場合に、ネットワークを介して画像を取得し、取得した該画像から該画像モデルを生成して物体の認証を行う、請求項１に記載の物体認証装置。
前記画像データベースも前記カテゴリーに応じてＵＲＬアドレスが分類される、請求項２に記載の物体認証装置。
前記音声認識で使用する音響モデルを格納する音響モデル格納部、を備え、
前記音響モデルは、同じ意味の言葉を関連付けて辞書として記憶する、請求項１から請求項３のいずれか１項に記載の物体認証装置。
音声認識部が、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識するステップと、
画像モデル生成部が、前記音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成するステップと、
画像尤度算出部が、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出するステップと、
物体認証部が、該画像尤度を使用して物体認証を行う物体認証するステップと、を含み、
音声認識されると予測される語彙がカテゴリー化され、前記画像モデルについても前記カテゴリーに紐づいて形成される、物体認証方法。