JP6427807B2

JP6427807B2 - 物体認証装置および物体認証方法

Info

Publication number: JP6427807B2
Application number: JP2017065864A
Authority: JP
Inventors: 幹生中野; 智幸佐畑
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2017-03-29
Filing date: 2017-03-29
Publication date: 2018-11-28
Anticipated expiration: 2037-03-29
Also published as: US10997972B2; JP2018169745A; US20180286398A1

Description

本発明は、物体認証装置および物体認証方法に関する。

ロボットが生活環境下で作業を行う際、ユーザに指示された物体を握持する物体握持タスクを達成することは最低限必要である。このような作業において、例えば、ユーザは音声で指示を行い、ロボットがユーザの音声を音声認識結果に基づいて物体認証を行う。また、ロボットが、撮像装置によってロボットの周囲の物体の画像情報を取得することも可能である。

このような物体を認識するシステムとして、音声情報と画像情報を統合した手法が提案されている（非特許文献１）。しかし、非特許文献１に記載の技術では、物体認証を行う際、音声モデルと画像モデルの両方が必要である。物体認証システムが、音声モデルを保持することは容易であるが、大量の画像モデルを保持するのはファイル容量が大きいため現実的ではない。

このため、物体を認識するシステムとして、音声尤度と画像尤度とに基づいて、対象となる物体を認識する技術が開示されている（例えば特許文献１参照）。

特開２０１４−１７０２９５号公報

Y.Ozasa et al.、"Disambiguation in Unknown Object Detection by Integrating Image and Speech Recognition Confidences"、ACCV、2012

特許文献１に記載の技術では、音声尤度に基づいて画像モデルから対象画像を読み出し、さらに、画像モデルに対象となる画像がない場合にウェブから画像を読み出して画像尤度に基づいて物体認証している。しかしながら、特許文献１に記載の技術では、ウェブから画像を検索するときに時間がかかってしまう可能性があり、物体認証速度の低下が懸念される。

本発明は、上記の問題点に鑑みてなされたものであって、物体認証の認識速度を向上させることができる物体認証装置および物体認証方法を提供することを目的とする。

（１）上記目的を達成するため、本発明の一態様に係る物体認証装置１は、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識部１０３と、前記音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部１０８と、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部１１１と、該画像尤度を使用して物体認証を行う物体認証部１１３と、を備え、前記画像モデル生成部は、前記音声認識結果候補の画像モデルを生成する際に、最初に該画像モデルを格納する画像モデルデータベース（画像モデルＤＢ１０７）を検索し、画像モデルが該画像モデルデータベースにない場合に、ネットワークから取得した情報から該画像モデルを生成し、過去の物体認証履歴に応じて、前記画像モデルデータベースが格納する前記画像モデルを用いるか前記ネットワークから取得した情報から該画像モデルを作成して利用するかを決定する。

（２）また、本発明の一態様に係る物体認証装置１において、前記画像モデル生成部は、音声モデルについても、過去の物体認証履歴に基づいてローカルのものを利用するか前記ネットワークから取得した情報を利用するかを決定するようにしてもよい。

（３）また、本発明の一態様に係る物体認証装置１において、前記画像モデル生成部は、所定の物体認証頻度以下になった場合に、前記画像モデルおよび音声認識で用いる音響モデルのうち少なくとも１つを削除するようにしてもよい。

（４）上記目的を達成するため、本発明の一態様に係る物体認証方法は、音声認識部が、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識ステップと、画像モデル生成部が、前記音声認識結果候補の画像モデルを生成する際に、最初に該画像モデルを格納する画像モデルデータベースを検索し、該画像モデルが該画像モデルデータベースにない場合に、ネットワークから取得した情報から画像モデルを生成し、前記音声尤度の高い方から所定数の音声認識結果候補の該画像モデルを求める画像モデル生成ステップと、画像尤度算出部が、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出ステップと、物体認証部が、該画像尤度を使用して物体認証を行う物体認証ステップと、前記画像モデル生成部が、過去の物体認証履歴に応じて、前記画像モデルデータベースが格納する前記画像モデルを用いるか前記ネットワークから取得した情報から画像モデルを作成して利用するかを決定するステップと、を含む。

（１）、（４）によれば、過去の履歴に基づいて画像モデルをローカルのものを利用するか、ネットワーク上のものを利用するかを判断するので、ローカル上で探索するモデルを削減することができるので、物体認証の高速化を図ることができる。
また、（２）によれば、利用頻度の低いモデル（画像モデル、音響モデル）を削除するようにした。これにより、利用頻度の低い物体を正しい認証結果として誤認証する確立が低減するため、認証精度を向上させることができる。
また、（３）によれば、利用頻度の低いモデル（画像モデル、音響モデル）を削除するようにしたので、モデルの格納に必要な容量を削減することができ、不要な容量を確保する必要がなくなる。

本実施形態に係る物体認証装置の構成例を示すブロック図である。本実施形態に係る利用頻度とデータベースへの保存可否の例を示す図である。本実施形態に係る物体認証装置の物体認証の処理手順例を示すフローチャートである。本実施形態に係る画像モデルを削除する処理手順例を示すフローチャートである。本実施形態に係る画像を画像サーバーから取得して画像モデルを生成する処理手順例を示すフローチャートである。

以下、本発明の実施の形態について図面を参照しながら説明する。
図１は、本実施形態に係る物体認証装置１の構成例を示すブロック図である。図１に示すように、物体認証装置１は、音声信号取得部１０１、音響モデル・辞書ＤＢ１０２、音声認識部１０３、画像取得部１０６、画像モデルＤＢ１０７、画像モデル生成部１０８、記憶部１０９、画像認識部１１０、通信部１１２、および物体認証部１１３を備える。また、音声認識部１０３は、音声尤度算出部１０４と削除部１０５を備える。画像モデル生成部１０８は、頻度検出部１０８１と削除部１０８２を備える。画像認識部１１０は、画像尤度算出部１１１を備える。
物体認証装置１には、収音装置２および撮像装置３が接続されている。また、物体認証装置１は、ネットワークを介して画像サーバー４が接続されている。

収音装置２は、例えばマイクロフォンであり、利用者が発話した音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を物体認証装置１に出力する。なお、収音装置２は、アナログ信号の音声信号を物体認証装置１に出力するようにしてもよい。なお、収音装置２は、音声信号を、有線のコードやケーブルを介して、物体認証装置１に出力するようにしてもよく、無線で物体認証装置１に送信するようにしてもよい。
なお、収音装置２は、マイクロフォンアレイであってもよい。この場合、収音装置２は、それぞれ異なる位置に配置されたＰ個のマイクロフォンを有する。そして、収音装置２は、収音した音からＰチャネル（Ｐは、２以上の整数）の音響信号を生成し、生成したＰチャネルの音響信号を物体認証装置１に出力する。

撮像装置３は、例えば、ＣＣＤ（ＣｈａｒｇｅｄＣｏｕｐｌｅｄＤｅｖｉｃｅｓ）画像センサーカメラ、ＣＭＯＳ（ＣｏｍｐｌｅｍｅｎｔａｒｙＭｅｔａｌ−Ｏｘｉｄｅ−Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）画像センサーカメラ等である。撮像装置３は、画像を撮像し、撮像した画像を物体認証装置１に出力する。なお、撮像装置３は、画像を、有線のコードやケーブルを介して、物体認証装置１に出力するようにしてもよく、無線で物体認証装置１に送信するようにしてもよい。

画像サーバー４には、画像が格納されている。なお、画像の解像度は、同一であっても行っていてもよい。なお、画像サーバー４は、インターネット上の任意のサイトであってもよい。この場合、物体認証装置１は、音声認識部１０３によって認識された候補を、検索エンジンを用いて、インターネット上で画像検索し、例えば上位の画像を取得するようにしてもよい。この場合、物体認証装置１は、画像に付けられているラベルや名称も取得するようにしてもよい。

物体認証装置１は、取得した音声信号と画像信号を用いて物体を認識する。物体認証装置１は、例えば、人型ロボット、受け付け装置、産業用ロボット、スマートフォン、タブレット端末等に組み込まれている。
なお、収音装置２がマイクロフォンアレイの場合、物体認証装置１は、音源定位部、音源分離部、および音源同定部をさらに備える。この場合、物体認証装置１は、音声信号取得部１０１が取得した音声信号に対して予め生成した伝達関数を用いて音源定位部が音源定位を行う。そして、物体認証装置１は、音源定位部が定位して結果を用いて、話者同定を行う。物体認証装置１は、音源定位部が定位して結果を用いて、音声信号取得部１０１が取得した音声信号に対して音源分離を行う。そして、物体認証装置１の音声認識部１０３は、分離された音声信号に対して発話区間の検出と音声認識を行う（例えば特開２０１７−９６５７号公報参照）。また、物体認証装置１は、残響音抑圧処理を行うようにしてもよい。

音声信号取得部１０１は、収音装置２が出力する音声信号を取得し、取得した音声信号を音声認識部１０３に出力する。なお、取得した音声信号がアナログ信号の場合、音声信号取得部１０１は、アナログ信号をデジタル信号に変換し、デジタル信号に変換した音声信号を音声認識部１０３に出力する。

音響モデル・辞書ＤＢ（データベース）１０２には、例えば音響モデル、言語モデル、単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語（語彙）とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。

音声認識部１０３は、音声信号取得部１０１が出力する音声信号を取得し、取得した音声信号から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出する。なお、音声認識部１０３は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部１０３は、発話句間毎の音声信号から音響特徴量である、例えばＭＳＬＳ（ＭｅｌＳｃａｌｅＬｏｇａｒｉｔｈｍｉｃＳｐｅｃｔｒｕｍ；メルスケール対数スペクトル）を抽出する。なお、ＭＳＬＳは、音響認識の特徴量としてスペクトル特徴量を用い、ＭＦＣＣ（メル周波数ケプストラム係数；ＭｅｌＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒｕｍＣｏｅｆｆｉｃｉｅｎｔ）を逆離散コサイン変換することによって得られる。なお、本実施形態において、発話は、例えば、「りんご」、「オートバイ」、「フォーク」等、物の名称の単語（語彙）である。

音声尤度算出部１０４は、抽出された音響特徴量に対して、音響モデル・辞書ＤＢ１０２を参照して、例えばＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；隠れマルコフモデル）を用いて、音声尤度Ｌ_ｓ（ｓ；Λ_ｉ）を算出する。なお、音声尤度Ｌ_ｓ（ｓ；Λ_ｉ）は、事後確率ｐ（Λ_ｉ｜ｓ）の算出によって求める。ここで、ｓは音響特徴量、Λ_ｉは音響モデル・辞書ＤＢ１０２が記憶するｉ番目の物体の音声モデルである。また、音声尤度Ｌ_ｓは、０〜１の値であり、１に近いほど競合候補に対して尤度の差が大きかったことを表し信頼度が高いことを表す。また、音声尤度Ｌ_ｓが０に近いほど信頼度が低いことを表す。

音声認識部１０３は、音声尤度算出部１０４が算出した音声尤度の高い方から所定の順位までの音声認識結果の候補に定める。所定の順位は、一例として１０位である。音声認識部１０３は、音声尤度算出部１０４が算出した音声尤度Ｌ_ｓを物体認証部１１３に出力する。

参考文献；www.ieice-hbkb.org/files/02/02gun_07hen_02.pdf（web検索 2017.3.19）、篠田浩一、伊藤影則、李晃伸、“２群（画像・音・言語）−７編（音声認識と合成）２章音声認識”ver.1、電子情報通信学会「知識ベース」、電子情報通信学会、２０１０、ｐ２〜ｐ１２

削除部１０５は、画像モデル生成部１０８が出力する削除指示に応じて、対応する単語（語彙）の音響モデルを音響モデル・辞書ＤＢ１０２から削除する。削除部１０５は、削除する音響モデルを画像モデル生成部１０８に出力する。

画像取得部１０６は、撮像装置３が出力する画像を取得し、取得した画像を画像認識部１１０に出力する。

画像モデルＤＢ１０７には、画像モデルが格納されている。なお、画像モデルには、画像モデル名（物体名）が付与されている。画像モデルとは、画像の特徴量に基づくモデルである。なお、画像モデルＤＢ１０７は、画像を格納していてもよい。この場合、画像の解像度が同一であることが好ましい。解像度が異なる場合、画像モデル生成部１０８が、解像度を正規化して画像モデルを生成する。

画像モデル生成部１０８は、音声認識部１０３が出力した音声尤度の高い方から所定の順位までの音声認識結果の候補を用いて、音声尤度の高い方から所定の順位までの音声認識結果の候補の画像モデルが、画像モデルＤＢ１０７に格納されているか否か探索する。
画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識結果の候補の画像モデルが格納されている場合、対応する画像モデルを画像モデルＤＢ１０７から取得する。
画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識結果の候補の画像モデルが格納されていない場合、音声認識結果の候補に対応する画像を、記憶部１０９が記憶するＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）アドレスを用いて通信部１１２を制御して画像サーバー４またはネットワーク（インターネット）上から取得する。なお、通信部１１２がアクセスするＵＲＬアドレスは、画像モデル生成部１０８または通信部１１２が記憶していてもよい。具体的には、画像モデルＤＢ１０７に「ビー玉」の画像モデルが格納されていない場合、画像モデル生成部１０８は、「ビー玉」の画像を少なくとも１つ取得する。なお、画像モデル生成部１０８は、取得した画像の解像度を取得し、取得した解像度が所定の値と異なる場合、正規化するようにしてもよい。画像モデル生成部１０８は、取得した画像の特徴量を抽出し、抽出した特徴量を用いて画像モデルを生成する。なお、画像サーバー４またはネットワーク（インターネット）上から取得した画像を用いて画像モデルを生成する方法については、図５を用いて後述する。
画像モデル生成部１０８は、画像モデルＤＢ１０７から取得した画像モデル、または生成した画像モデルを画像認識部１１０に音声尤度の高い順に出力する。

頻度検出部１０８１は、画像認識処理において、画像モデルが利用された（採用された）回数を検出し、検出した回数を、画像モデル名（物体名）に関連付けて画像モデルＤＢ１０７に記憶させる。なお、頻度検出部１０８１は、検出した回数を、画像モデル名（物体名）に関連付けて記憶部１０９に記憶させるようにしてもよい。

削除部１０８２は、画像認識処理において利用回数が所定の回数（例えば５回）より多い画像モデルを残し、利用回数が所定回数以下の画像モデルを削除すると判別する。削除部１０８２は、対応する画像モデルを画像モデルＤＢ１０７から削除する。削除部１０８２は、削除した画像モデルを、通信部１１２を介して画像サーバー４に格納させる。削除部１０８２は、削除する画像モデルに対応する単語（語彙、物体名）を削除する削除指示を音声認識部１０３の削除部１０５に出力する。削除部１０８２は、音声認識部１０３の削除部１０５が出力した音響モデルを、通信部１１２を介して画像サーバー４に格納させる。

なお、音響モデル・辞書ＤＢ１０２は、削除して画像サーバー４へ移動したことを示す情報を残しておいてもよい。
また、画像モデル生成部１０８は、ネットワークから音声信号を取得し、取得した音声信号から特徴量を算出して音響モデルを生成するようにしてもよい。

記憶部１０９は、画像サーバー４のＵＲＬアドレスを記憶する。

画像認識部１１０は、撮像装置３が出力した画像の画像特徴量を算出する。なお、画像特徴量は、例えば、対象物体全体に対するウォーブレット（ｗａｖｅｌｅｔ）、対象物の局所情報に対するＳＩＦＴ（Ｓｃａｌｅ−ＩｎｖａｒｉａｎｔＦｅａｔｕｒｅＴｒａｎｓｆｏｒｍ）特徴量やＳＵＲＦ（ＳｐｅｅｄｅｄＵｐＲｏｂｕｓｔＦｅａｔｕｒｅｓ）特徴量等、局所情報のつながりであるＪｏｉｎｔＨＯＧ等のいずれか１つであってもよい。また、画像認識部１１０は、撮像装置３が出力した画像に対して左右反転させた画像に対しても画像特徴量を算出するようにしてもよい。

画像尤度算出部１１１は、算出された画像特徴量と、画像モデル生成部１０８が出力した画像モデルとを、例えばＨＭＭを用いて、候補毎に画像尤度Ｌ_ｖ（ｖ；ｏ_ｉ）を算出する。なお、画像尤度Ｌ_ｖ（ｖ；ｏ_ｉ）は、事後確率ｐ（ｏ_ｉ｜ｖ）の算出によって求める。ここで、ｖは画像特徴量、ｏ_ｉは画像モデル生成部１０８が出力するｉ番目の物体の画像モデルである。また、画像尤度Ｌ_ｖは、０〜１の値であり、１に近いほど競合候補に対して尤度の差が大きかったことを表し信頼度が高いことを表す。また、画像尤度Ｌ_ｖが０に近いほど信頼度が低いことを表す。

画像認識部１１０は、画像尤度算出部１１１が算出した尤度の高い方から所定の順位までの画像認識結果の候補に定める。所定の順位は、一例として１０位である。画像認識部１１０は、画像尤度算出部１１１が算出した音声尤度Ｌ_ｖを物体認証部１１３に出力する。

通信部１１２は、画像モデル生成部１０８の制御に応じて、画像サーバー４またはネットワーク（インターネット）にアクセスし、画像を取得する。

物体認証部１１３は、音声認識部１０３が出力する音声尤度Ｌ_ｓと、画像認識部１１０が出力する画像尤度Ｌ_ｖとを用いて、次式（１）のロジスティック関数によって統合して物体尤度Ｆ_Ｌを候補毎に求める。

式（１）において、ｖは入力された画像、ｏ_ｉはｉ番目の画像モデル、α_０、α_１、α_２はロジスティック関数のパラメータである。
物体認証部１１３は、次式（２）を用いて算出した物体尤度Ｆ_Ｌが最大となる候補ｉ＾を推定する。

なお、式（２）において、ａｒｇｍａｘＦ_Ｌ（…）は、…を最大とするＦ_Ｌを与える関数である。
なお、上述した例では、ロジスティック関数を用いて、音声尤度Ｌｓと画像尤度Ｌｖとを統合する例を説明したが、これに限られない。他の関数を用いて統合するようにしてもよい。

ここで、ＳＩＦＴ特徴量の概要について説明する。
ＳＩＦＴの処理は、大きく分けて特徴点の検出と特徴量の記述の２段階である。特徴点の検出では、スケールの異なる平滑化画像の差分から画像特徴と思われる点（キーポイント）を決定する。そして、各キーポイントの周りで周辺の画像の勾配情報を用いることで情報を記述する。次に、各スケール間で差分を取ることで、画像の変化（物体と背景の境界など）が、どこに現れているかを算出する。この変化が極大となる点が、ＳＩＦＴの特徴点（キーポイント）候補となる。この点を探索するために，差分画像を並べ、極値探索を行う。ＳＩＦＴ特徴は、このキーポイントの周りでの画像勾配を記述することで得られる。

次に、利用頻度とデータベース（音響モデル・辞書ＤＢ１０２、画像モデルＤＢ１０７）への保存可否の例を説明する。
図２は、本実施形態に係る利用頻度とデータベースへの保存可否の例を示す図である。
図２に示すように、頻度検出部１０８１は、画像モデル名（物体名）毎に、画像認識処理の際に画像モデルを利用した回数を画像モデルＤＢ１０７に記憶させる。
図２に示す例では、画像モデル名「イチゴ」の利用回数が１０回、画像モデル名「レモン」の利用回数が８回、画像モデル名「トラック」の利用回数が３回である。削除部１０８２は、利用回数が所定の回数（例えば５回）以上の画像モデルを残し、所定回数より多い画像モデルを削除すると判別する。図２に示す例では、削除部１０８２は、利用回数が５回以下である画像モデル名「トラック」の画像モデルを画像モデルＤＢ１０７から削除すると判別する。

次に、物体認証装置１が行う処理手順例を説明する。
図３は、本実施形態に係る物体認証装置１の物体認証の処理手順例を示すフローチャートである。

（ステップＳ１）音声認識部１０３は、音声信号取得部１０１が収音装置２から取得した音声信号から音響特徴量を抽出する。続けて、音声認識部１０３は、抽出した音響特徴量に対して、音響モデル・辞書ＤＢ１０２を参照して、例えばＨＭＭを用いて、音声尤度Ｌ_ｓ（ｓ；Λ_ｉ）を算出する。

（ステップＳ２）音声認識部１０３は、音声尤度算出部１０４が算出した尤度の高い方から所定の順位までの音声認識結果の候補に定める。

（ステップＳ３）画像モデル生成部１０８は、音声認識部１０３が出力した尤度の高い方から所定の順位までの音声認識結果の候補を用いて、尤度の高い方から所定の順位までの音声認識結果の候補の画像モデルが、画像モデルＤＢ１０７に格納されているか否か判別する。画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識結果の候補の画像モデルが格納されていると判別した場合（ステップＳ３；ＹＥＳ）、ステップＳ４に処理を進める。画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識結果の候補の画像モデルが格納されていないと判別した場合（ステップＳ３；ＮＯ）、ステップＳ５に処理を進める。

（ステップＳ４）画像モデル生成部１０８は、対応する画像モデルを画像モデルＤＢ１０７から取得する。画像モデル生成部１０８は、取得した画像モデルを画像認識部１１０に尤度の高い順に出力し、ステップＳ６に処理を進める。

（ステップＳ５）画像モデル生成部１０８は、音声認識結果の候補に対応する画像を、記憶部１０９が記憶するＵＲＬアドレスを用いて通信部１１２を制御して画像サーバー４またはネットワーク（Ｗｅｂ；ＷｏｒｌｄＷｉｄｅＷｅｂ）から取得する。画像モデル生成部１０８は、取得した画像から画像モデルを生成し、生成した画像モデルを画像認識部１１０に尤度の高い順に出力し、ステップＳ６に処理を進める。

（ステップＳ６）画像尤度算出部１１１は、算出された画像特徴量と、画像モデル生成部１０８が出力した画像モデルとを、例えばＨＭＭを用いて、候補毎に画像尤度Ｌ_ｖ（ｖ；ｏ_ｉ）を算出する。

（ステップＳ７）物体認証部１１３は、音声認識部１０３が出力する音声尤度Ｌ_ｓと、画像認識部１１０が出力する画像尤度Ｌ_ｖとを用いて、上述した式（１）のロジスティック関数によって統合して物体尤度Ｆ_Ｌを候補毎に求める。

（ステップＳ８）物体認証部１１３は、上述した式（２）を用いて算出した物体尤度Ｆ_Ｌが最大となる候補を求めることで、物体を認識する。
以上で、物体認証装置１の物体認証の処理を終了する。

次に、画像モデルを削除する処理手順例を説明する。
図４は、本実施形態に係る画像モデルを削除する処理手順例を示すフローチャートである。

（ステップＳ１０１）物体認証装置１は、図３に示した物体認証処理を行う。
（ステップＳ１０２）頻度検出部１０８１は、認証処理後、今回認証に利用した画像が、画像モデルＤＢ１０７が格納していた画像モデルであるか判別する。頻度検出部１０８１は、今回認証に利用した画像が、画像モデルＤＢ１０７が格納していた画像モデルであると判別した場合（ステップＳ１０２；ＹＥＳ）、既存画像と同じであると判別してステップＳ１０３の処理に進める。頻度検出部１０８１は、今回認証に利用した画像が、画像モデルＤＢ１０７が格納していた画像モデルではないと判別した場合（ステップＳ１０２；ＮＯ）、既存画像と同じではないと判別してステップＳ１０４の処理に進める。

（ステップＳ１０３）頻度検出部１０８１は、頻度カウント用のカウント値Ｎに１を加算する（Ｎ＝Ｎ＋１）。頻度検出部１０８１は、ステップＳ１０４の処理に進める。

（ステップＳ１０４）削除部１０８２は、Ｎが閾値Ｎｒｅｆより多いか否かを判別する。削除部１０８２は、Ｎが閾値Ｎｒｅｆより多いと判別した場合（ステップＳ１０４；ＹＥＳ）、ステップＳ１０５の処理に進め、Ｎが閾値Ｎｒｅｆ未満であると判別した場合（ステップＳ１０４；ＮＯ）、処理を終了する。

（ステップＳ１０５）削除部１０８２は、対応する画像モデルを画像モデルＤＢ１０７から削除する。続けて、削除部１０８２は、削除した画像モデルを、通信部１１２を介して画像サーバー４に格納させる。続けて、削除部１０８２は、削除する画像モデルに対応する単語（語彙、物体名）を削除する削除指示を音声認識部１０３の削除部１０５に出力する。続けて、削除部１０５は、画像モデル生成部１０８が出力する削除指示に応じて、対応する単語（語彙）の音響モデルを音響モデル・辞書ＤＢ１０２から削除する。続けて、削除部１０５は、削除する音響モデルを画像モデル生成部１０８に出力する。続けて、音声認識部１０３の削除部１０５が出力した音響モデルを、通信部１１２を介して画像サーバー４に格納させる。

すなわち、本実施形態の物体認証装置１は、過去の物体認証履歴に応じて、画像モデルデータＤＢ１０７が格納する画像モデルを用いるかネットワークから取得した情報から画像モデルを作成して利用するかを決定して、画像モデルデータＤＢ１０７に格納する画像モデルを選択している。

次に、画像を画像サーバー４から取得して画像モデルを生成する処理手順例を説明する。
図５は、本実施形態に係る画像を画像サーバー４から取得して画像モデルを生成する処理手順例を示すフローチャートである。

（ステップＳ２０１）画像モデル生成部１０８は、画像サーバー４から認識結果候補に対応する物体の画像を取得（収集）する。
（ステップＳ２０２）画像モデル生成部１０８は、候補ぞれぞれの画像毎に、例えばＳＩＦＴ特徴量を抽出する。

（ステップＳ２０３）画像モデル生成部１０８は、ＳＩＦＴ特徴量に基づいて物体ごとにＶｉｓｕａｌＷｏｒｄｓを求める。ここで、ＶｉｓｕａｌＷｏｒｄｓについて説明知る。例えば、ＢａｇｏｆＦｅａｔｕｒｅｓ（ＢｏＦ）では、物体の画像からＳＩＦＴ特徴量やＳＵＲＦ特徴量を抽出し，それらをｋ−ｍｅａｎｓ手法によってＷ個のクラスタに分類する。それぞれのクラスタのセントロイド（重心）となるベクトルのことをＶｉｓｕａｌＷｏｒｄと呼び、その数は経験的に決定される。具体的には、画像モデル生成部１０８は、全画像のＳＩＦＴ特徴量のｋ−ｍｅａｎｓクラスタリング（Ｋ平均法）を実行し、各クラスタの中心をＶｉｓｕａｌＷｏｒｄｓとする。なお、ＶｉｓｕａｌＷｏｒｄｓは、代表的な局所パターンに相当する。

（ステップＳ２０４）画像モデル生成部１０８は、候補の各画像を、ＶｉｓｕａｌＷｏｒｄｓを用いてベクトル量子化し、各画像のＢａｇ−ｏｆ−ｆｅａｔｕｒｅｓ（ＢｏＦ）表現を求める。なお、ＢｏＦ表現は、ＶｉｓｕａｌＷｏｒｄｓの出現頻度（ヒストグラム）によって画像を表現したものである。

（ステップＳ２０５）画像モデル生成部１０８は、認識候補の物体毎にＢｏＦのｋ−ｍｅａｎｓクラスタリングを行い、クラスタ毎に画像モデルを生成する。

なお、上述した例では、画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識された結果の候補の画像が格納されていない場合に画像サーバー４から画像を取得して画像モデルを生成する例を説明したが、これに限られない。画像モデル生成部１０８は、画像モデルＤＢ１０７に音声認識された結果の候補の画像が格納されている場合であっても画像サーバー４から画像を取得するようにしてもよい。この場合、画像モデル生成部１０８は、画像サーバー４から取得した第２の画像に対して第２の画像モデルを生成するようにしてもよい。画像モデル生成部１０８は、画像モデルＤＢ１０７から取得した第１の画像モデルと、生成した第２の画像モデルを、画像認識部１１０に出力するようにしてもよい。そして、画像尤度算出部１１１は、第１の画像モデルと、生成した第２の画像モデルそれぞれの画像尤度を算出し、画像尤度が大きいものを選択するようにしてもよい。

以上のように、本実施形態では、音声情報、画像情報について、過去に使用した履歴情報から判断して、良く使う画像は画像モデル・音声モデルをローカル（音響モデル・辞書ＤＢ１０２、画像モデルＤＢ１０７）においておき、それ以外はネットワーク上から検索するようにした。また、本実施形態では、あまり使われなくなった画像は、ローカルから削除するようにした。

これにより、本実施形態によれば、過去の履歴に基づいて画像モデルをローカルのものを利用するか、ネットワーク上のものを利用するかを判断するので、ローカル上で探索するモデルを削減することができるので、物体認証の高速化を図ることができる。

また、本実施形態によれば、利用頻度の低いモデル（画像モデル、音響モデル）を削除するようにした。これにより、利用頻度の低い物体を正しい認証結果として誤認証する確立が低減するため、認証精度を向上させることができる。
また、本実施形態によれば、利用頻度の低いモデル（画像モデル、音響モデル）を削除するようにしたので、モデルの格納に必要な容量を削減することができ、不要な容量を確保する必要がなくなる。

なお、上述した例では、収音装置２と撮像装置３が物体認証装置１に接続されている例を説明したが、収音装置２と撮像装置３は、物体認証装置１が備えていてもよい。

なお、本発明における物体認証装置１の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより物体認証装置１が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、ＯＳや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境（あるいは表示環境）を備えたＷＷＷシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ＲＯＭ、ＣＤ−ＲＯＭ等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバーやクライアントとなるコンピュータシステム内部の揮発性メモリ（ＲＡＭ）のように、一定時間プログラムを保持しているものも含むものとする。

また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク（通信網）や電話回線等の通信回線（通信線）のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル（差分プログラム）であってもよい。

１…物体認証装置、２…収音装置、３…撮像装置、４…画像サーバー、１０１…音声信号取得部、１０２…音響モデル・辞書ＤＢ、１０３…音声認識部、１０４…音声尤度算出部、１０５…削除部、１０６…画像取得部、１０７…画像モデルＤＢ、１０８…画像モデル生成部、１０８１…頻度検出部、１０８２…削除部、１０９…記憶部、１１０…画像認識部、１１１…画像尤度算出部、１１２…通信部、１１３…物体認証部

Claims

入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識部と、
前記音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部と、
入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、
該画像尤度を使用して物体認証を行う物体認証部と、を備え、
前記画像モデル生成部は、
前記音声認識結果候補の画像モデルを生成する際に、最初に該画像モデルを格納する画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合に、ネットワークから取得した情報から該画像モデルを生成し、
過去の物体認証履歴に応じて、前記画像モデルデータベースが格納する前記画像モデルを用いるか前記ネットワークから取得した情報から該画像モデルを作成して利用するかを決定する、物体認証装置。
前記画像モデル生成部は、
音声モデルについても、過去の物体認証履歴に基づいてローカルのものを利用するか前記ネットワークから取得した情報を利用するかを決定する、請求項１に記載の物体認証装置。
前記画像モデル生成部は、
所定の物体認証頻度以下になった場合に、前記画像モデルおよび音声認識で用いる音響モデルのうち少なくとも１つを削除する、請求項１または請求項２に記載の物体認証装置。
音声認識部が、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識ステップと、
画像モデル生成部が、前記音声認識結果候補の画像モデルを生成する際に、最初に該画像モデルを格納する画像モデルデータベースを検索し、該画像モデルが該画像モデルデータベースにない場合に、ネットワークから取得した情報から画像モデルを生成し、前記音声尤度の高い方から所定数の音声認識結果候補の該画像モデルを求める画像モデル生成ステップと、
画像尤度算出部が、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出ステップと、
物体認証部が、該画像尤度を使用して物体認証を行う物体認証ステップと、
前記画像モデル生成部が、過去の物体認証履歴に応じて、前記画像モデルデータベースが格納する前記画像モデルを用いるか前記ネットワークから取得した情報から画像モデルを作成して利用するかを決定するステップと、
を含む物体認証方法。