JP2014170295A

JP2014170295A - 物体認識システム及び物体認識方法

Info

Publication number: JP2014170295A
Application number: JP2013040780A
Authority: JP
Inventors: Mikio Nakano; 幹生中野; Hitoshi Nishimura; 仁志西村; Yuko Ozasa; 裕子小篠; Yasuo Ariki; 康雄有木
Original assignee: Honda Motor Co Ltd; Kobe University NUC
Current assignee: Honda Motor Co Ltd; Kobe University NUC
Priority date: 2013-03-01
Filing date: 2013-03-01
Publication date: 2014-09-18
Also published as: US20140249814A1; US9508019B2

Abstract

【課題】認識精度を向上させるために、音声情報の他に画像情報を使用する、実用化することが可能な物体認識システムを提供する。
【解決手段】物体認識システム１００は、入力された音声の音声認識結果候補及びその尤度を求める音声認識部１０１と、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部１０３と、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、該画像尤度を使用して物体認識を行う物体認識部１０７と、を備える。該画像モデル生成部は、音声認識結果候補の画像モデルを生成する際に、最初に画像モデルデータベース１０５を検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するように構成されている。
【選択図】図１

Description

本発明は、ロボットなどに使用される物体認識システム及び物体認識方法に関する。

ロボットが生活環境下で作業を行う際、ユーザに指示された物体を握持する物体握持タスクを達成することは最低限必要である。このような場合に、ユーザは通常音声で指示を行い、ロボットは音声認識結果に基づいて物体認識を行う。また、ロボットが、周囲の物体の画像情報を取得することも可能である。物体握持タスクのための物体認識手法として、音声情報と画像情報を統合した手法が提案されている（非特許文献１）。しかし、非特許文献１の手法では、物体認識を行う際、音声モデルと画像モデルの両方が必要である。大語彙辞書の発達により音声モデルを保持することは容易であるが、大量の画像モデルを準備するのは極めて困難であり現実的ではない。したがって、非特許文献１の物体認識手法は、実用化されていなかった。

Y.Ozasa et al., "Disambiguation in Unknown Object Detection by Integrating Image and Speech Recognition Confidences" ACCV, 2012

このように、音声情報の他に画像情報を使用する物体認識システム及び物体認識方法は実用化できていなかった。そこで、認識精度を向上させるために、音声情報の他に画像情報を使用する、実用化することが可能な物体認識システム及び物体認識方法に対するニーズがある。

本発明の第１の態様による物体認識システムは、入力された音声の音声認識結果候補及びその尤度を求める音声認識部と、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部と、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、該画像尤度を使用して物体認識を行う物体認識部と、を備える。該画像モデル生成部は、音声認識結果候補の画像モデルを生成する際に、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するように構成されている。

本態様によれば、ウェッブの情報を利用することにより、音声情報の他に画像情報を使用する、実用化することが可能な物体認識システムが提供される。

第１の態様の第１の実施形態の物体認識システムは、該物体認識部が、該音声認識結果候補の該音声尤度と該音声認識結果候補の該画像尤度とに基づいて物体認識を行うように構成されている。

本実施形態によれば、音声尤度と画像尤度とに基づいて物体認識を行うことにより認識精度を向上することが可能となる。

第１の態様の第２の実施形態の物体認識システムにおいて、該画像モデル生成部は、ウェブの情報から音声認識結果候補の画像モデルを生成する際に、ウェブから求めた画像の特徴量のクラスタリングを行ってクラスタごとに画像モデルを作成するように構成されている。

本実施形態によれば、ウェブの情報から音声認識結果候補の画像モデルを生成する際に、たとえば、グラフ構造を利用する方法と比較して計算量を少なくすることができる。

本発明の第１の態様による物体認識方法は、入力された音声の音声認識結果候補及びその尤度を求めるステップと、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求めるステップであって、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するステップと、入力された画像の該画像モデルに基づく画像尤度を求めるステップと、該画像尤度を使用して物体認識を行うステップと、を含む。

本態様によれば、ウェッブの情報を利用することにより、音声情報の他に画像情報を使用する、実用化することが可能な物体認識方法が提供される。

本発明の一実施形態による物体認識システムの構成を示す図である。物体認識システムの動作を説明するための流れ図である。図２のステップＳ１０４０のウェブから画像モデルを生成する方法の詳細を説明するための流れ図である。

図１は、本発明の一実施形態による物体認識システム１００の構成を示す図である。物体認識システム１００は、音声入力を受け取り、音声認識を行って、認識結果候補とその尤度を求める音声認識部１０１と、画像モデルを生成する画像モデル生成部１０３と、画像モデルデータベース１０５と、画像入力を受け取り、画像モデルを使用して画像認識を行って、認識結果候補に対する尤度を求める画像認識部１０７と、音声の尤度と画像の尤度に基づいて物体認識を行う物体認識部１０９と、を備える。音声認識部１０１は、ＨＭＭ（隠れマルコフモデル）と接続され、ＨＭＭを使用して音声認識を行う。画像モデル生成部１０３は、画像モデルデータベース１０５及びウェブと接続され、画像モデルデータベース１０５及びウェブの情報を利用して画像モデルを生成する。

図２は、物体認識システム１００の動作を説明するための流れ図である。

図２のステップＳ１０１０において、音声認識部１０１は、音声入力を受け取り、音声特徴量にはＭＦＣＣ (Mel Frequency Cepstrum Coefficient)を用い、ＨＭＭによって音声認識を行い、認識結果候補の音声尤度

を算出する。ここで、ｓは入力音声、Λｉはｉ番目の物体の音声モデルを示す。

図２のステップＳ１０２０において、音声認識部１０１は、音声尤度の高い方から所定の順位までの認識結果候補を定める。一例として、所定の順位は、１０位とする。１０位までの認識結果候補を選択した理由は後で説明する。

図２のステップＳ１０３０において、画像モデル生成部１０３は、選択された１０位までの認識結果候補の画像モデルが画像モデルデータベース１０５に存在するかどうか判断する。存在すれば、ステップＳ１０５０に進む。存在しなければ、ステップＳ１０４０に進む。

図２のステップＳ１０４０において、画像モデル生成部１０３は、ウェブから画像モデルを生成する。ウェブから画像モデルを生成する方法については、後で詳細に説明する。

図２のステップＳ１０５０において、画像モデル生成部１０３は、画像モデルデータベース１０５から認識結果候補の画像モデルを取得する。

図２のステップＳ１０６０において、画像認識部１０７は、ウェブから生成した画像モデル、または画像モデルデータベース１０５から取得した画像モデルを使用して認識結果候補の画像尤度

を算出する。

図２のステップＳ１０７０において、物体認識部１０９は、認識結果候補の音声尤度

と画像尤度

とを以下のロジスティック関数により統合して統合尤度を求める。

ここで、ｖは画像入力、ｏ_ｉはｉ番目の画像モデル、α_０、α_１、α_２はロジスティック関数のパラメータを示す。
図２のステップＳ１０８０において、物体認識部１０９は、統合尤度を使用して以下のように物体認識を行う。

図３は、ウェブから画像モデルを生成する図２のステップＳ１０４０の詳細な手順を説明するための流れ図である。

図３のステップＳ２０１０において、画像モデル生成部１０３は、ウェブから認識結果候補の物体の画像を収集する。

図３のステップＳ２０２０において、画像モデル生成部１０３は、画像ごとに局所特徴量ＳＩＦＴ(Scale-Invariant Feature Transform)（Lowe, David G. (1999). "Object recognition from local scale-invariant features". Proceedings of the International Conference on Computer Vision. 2. pp. 1150-1157.）を抽出する。

図３のステップＳ２０３０において、画像モデル生成部１０３は、局所特徴量に基づいて物体ごとにVisual Wordsを求める。具体的に、全画像の局所特徴量ＳＩＦＴのk-meansクラスタリング（Ｋ平均法）を実行し、各クラスタの中心をVisual Wordsとする。Visual Wordsは、代表的な局所パターンに相当する。

図３のステップＳ２０４０において、画像モデル生成部１０３は、各画像を、Visual Wordsを用いてベクトル量子化し、各画像のBag-of-features（ＢｏＦ）表現を求める。ＢｏＦ表現は、Visual Wordsの出現頻度（ヒストグラム）によって画像を表現したものである。

図３のステップＳ２０５０において、画像モデル生成部１０３は、認識候補の物体ごとにＢｏＦのk-meansクラスタリングを行い、クラスタごとに画像モデルを作成する。

つぎに、音声認識、画像認識及び統合特徴を用いた認識の評価実験について説明する。

音声認識実験において、Juliusを用いて孤立単語認識を行った。ここで、Julius は、音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジンである（http://julius.sourceforge.jp/）。入力特徴ベクトルとしてＭＦＣＣ (Mel Frequency Cepstrum Coefficient)１２次元とその差分（Δ）、エネルギーの合計２５次元を用いた。学習データとして、音素バランス文と新聞記事読み上げ（１３０名、２万分）を用いた。triphoneHMMの状態数は２０００、混合数は１６で、辞書はウェブから１０００語抽出した。男性三人及び女性二人を被験者として２０単語の２回の繰り返しの発話をテストデータとした。

表１は、音声による認識率を示す表である。

表１において最低順位とは、誤認識の場合における正解の最低順位である。誤認識した際、最低でも８位以内の認識結果候補のうちに正解が入った。この結果を踏まえて、図２のステップＳ１０２０において、１０位までの認識結果候補を選択した。

つぎに、画像認識実験について説明する。２０物体に対応する画像を、各１００枚ずつウェブから取得し、図３の流れ図に示した方法で各物体ごとにクラスタリングを行った。クラスタごとに重心からの距離によってリランキングを行い、モデル構築のために用いる画像が１物体につき８０枚になるようにした。各物体で画像モデルに用いなかった残りの２０枚の画像のうち１枚をテストデータに用いた。Leave-one-outクロスバリデーションによる認識精度は９２．７５％となった。

つぎに、式（１）のロジスティック関数を用いた認識実験について説明する。学習データとして、音声及び画像がともにフィットする２０００組のデータと、音声及び画像の少なくとも一方がフィットしない２０００組のデータを使用した。学習方法は、フィッシャースコアリング法である。実験は、leave-one-outクロスバリデーションによって行った。

表２は、音声による認識率、画像による認識率及び統合認識率を示す表である。

音声または画像のみを用いるよりも、ロジスティック関数によって統合する方が認識率が高くなった。すなわち、音声または画像単体での誤りが統合により解消された。

一般的には、統合特徴を使用した場合の認識精度は、音声認識または画像認識のいずれか一方を使用した場合の認識精度よりも向上することが期待される。しかし、状況によっては、音声尤度の高い方から所定数の音声認識結果候補のうちに必ず正解が含まれることを前提として、音声尤度の高い方から所定数の音声認識結果候補についての画像認識結果のみに基づいて物体認識を行ってもよい。

１００…物体認識システム、１０１・・・音声認識部、１０３・・・画像モデルデータベース、１０５・・・画像認識部、１０７・・・画像認識部、１０９・・・物体認識部

Claims

入力された音声の音声認識結果候補及びその尤度を求める音声認識部と、
音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部と、
入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、
該画像尤度を使用して物体認識を行う物体認識部と、を備え、
該画像モデル生成部は、音声認識結果候補の画像モデルを生成する際に、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するように構成された物体認識システム。
該物体認識部が、該音声認識結果候補の該音声尤度と該音声認識結果候補の該画像尤度とに基づいて物体認識を行うように構成された請求項１に記載の物体認識システム。
該画像モデル生成部は、ウェブの情報から音声認識結果候補の画像モデルを生成する際に、ウェブから求めた画像の特徴量のクラスタリングを行ってクラスタごとに画像モデルを作成するように構成されている請求項１または２に記載の物体認識システム。
入力された音声の音声認識結果候補及びその尤度を求めるステップと、
音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求めるステップであって、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するステップと、
入力された画像の該画像モデルに基づく画像尤度を求めるステップと、
該画像尤度を使用して物体認識を行うステップと、を含む物体認識方法。