JP6427807B2 - 物体認証装置および物体認証方法 - Google Patents

物体認証装置および物体認証方法 Download PDF

Info

Publication number
JP6427807B2
JP6427807B2 JP2017065864A JP2017065864A JP6427807B2 JP 6427807 B2 JP6427807 B2 JP 6427807B2 JP 2017065864 A JP2017065864 A JP 2017065864A JP 2017065864 A JP2017065864 A JP 2017065864A JP 6427807 B2 JP6427807 B2 JP 6427807B2
Authority
JP
Japan
Prior art keywords
image
image model
model
likelihood
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017065864A
Other languages
English (en)
Other versions
JP2018169745A (ja
Inventor
幹生 中野
幹生 中野
智幸 佐畑
智幸 佐畑
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Priority to JP2017065864A priority Critical patent/JP6427807B2/ja
Priority to US15/934,322 priority patent/US10997972B2/en
Publication of JP2018169745A publication Critical patent/JP2018169745A/ja
Application granted granted Critical
Publication of JP6427807B2 publication Critical patent/JP6427807B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/5866Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using information manually generated, e.g. tags, keywords, comments, manually generated location and time information
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/80Recognising image objects characterised by unique random patterns
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Signal Processing (AREA)
  • Image Analysis (AREA)

Description

本発明は、物体認証装置および物体認証方法に関する。
ロボットが生活環境下で作業を行う際、ユーザに指示された物体を握持する物体握持タスクを達成することは最低限必要である。このような作業において、例えば、ユーザは音声で指示を行い、ロボットがユーザの音声を音声認識結果に基づいて物体認証を行う。また、ロボットが、撮像装置によってロボットの周囲の物体の画像情報を取得することも可能である。
このような物体を認識するシステムとして、音声情報と画像情報を統合した手法が提案されている(非特許文献1)。しかし、非特許文献1に記載の技術では、物体認証を行う際、音声モデルと画像モデルの両方が必要である。物体認証システムが、音声モデルを保持することは容易であるが、大量の画像モデルを保持するのはファイル容量が大きいため現実的ではない。
このため、物体を認識するシステムとして、音声尤度と画像尤度とに基づいて、対象となる物体を認識する技術が開示されている(例えば特許文献1参照)。
特開2014−170295号公報
特許文献1に記載の技術では、音声尤度に基づいて画像モデルから対象画像を読み出し、さらに、画像モデルに対象となる画像がない場合にウェブから画像を読み出して画像尤度に基づいて物体認証している。しかしながら、特許文献1に記載の技術では、ウェブから画像を検索するときに時間がかかってしまう可能性があり、物体認証速度の低下が懸念される。
本発明は、上記の問題点に鑑みてなされたものであって、物体認証の認識速度を向上させることができる物体認証装置および物体認証方法を提供することを目的とする。
(1)上記目的を達成するため、本発明の一態様に係る物体認証装置1は、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識部103と、前記音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部108と、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部111と、該画像尤度を使用して物体認証を行う物体認証部113と、を備え、前記画像モデル生成部は、前記音声認識結果候補の画像モデルを生成する際に、最初に該画像モデルを格納する画像モデルデータベース(画像モデルDB107)を検索し、画像モデルが該画像モデルデータベースにない場合に、ネットワークから取得した情報から該画像モデルを生成し、過去の物体認証履歴に応じて、前記画像モデルデータベースが格納する前記画像モデルを用いるか前記ネットワークから取得した情報から該画像モデルを作成して利用するかを決定する。
(2)また、本発明の一態様に係る物体認証装置1において、前記画像モデル生成部は、音声モデルについても、過去の物体認証履歴に基づいてローカルのものを利用するか前記ネットワークから取得した情報を利用するかを決定するようにしてもよい。
(3)また、本発明の一態様に係る物体認証装置1において、前記画像モデル生成部は、所定の物体認証頻度以下になった場合に、前記画像モデルおよび音声認識で用いる音響モデルのうち少なくとも1つを削除するようにしてもよい。
(4)上記目的を達成するため、本発明の一態様に係る物体認証方法は、音声認識部が、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識ステップと、画像モデル生成部が、前記音声認識結果候補の画像モデルを生成する際に、最初に該画像モデルを格納する画像モデルデータベースを検索し、該画像モデルが該画像モデルデータベースにない場合に、ネットワークから取得した情報から画像モデルを生成し、前記音声尤度の高い方から所定数の音声認識結果候補の該画像モデルを求める画像モデル生成ステップと、画像尤度算出部が、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出ステップと、物体認証部が、該画像尤度を使用して物体認証を行う物体認証ステップと、前記画像モデル生成部が、過去の物体認証履歴に応じて、前記画像モデルデータベースが格納する前記画像モデルを用いるか前記ネットワークから取得した情報から画像モデルを作成して利用するかを決定するステップと、を含む。
(1)、(4)によれば、過去の履歴に基づいて画像モデルをローカルのものを利用するか、ネットワーク上のものを利用するかを判断するので、ローカル上で探索するモデルを削減することができるので、物体認証の高速化を図ることができる。
また、(2)によれば、利用頻度の低いモデル(画像モデル、音響モデル)を削除するようにした。これにより、利用頻度の低い物体を正しい認証結果として誤認証する確立が低減するため、認証精度を向上させることができる。
また、(3)によれば、利用頻度の低いモデル(画像モデル、音響モデル)を削除するようにしたので、モデルの格納に必要な容量を削減することができ、不要な容量を確保する必要がなくなる。
本実施形態に係る物体認証装置の構成例を示すブロック図である。 本実施形態に係る利用頻度とデータベースへの保存可否の例を示す図である。 本実施形態に係る物体認証装置の物体認証の処理手順例を示すフローチャートである。 本実施形態に係る画像モデルを削除する処理手順例を示すフローチャートである。 本実施形態に係る画像を画像サーバーから取得して画像モデルを生成する処理手順例を示すフローチャートである。
以下、本発明の実施の形態について図面を参照しながら説明する。
図1は、本実施形態に係る物体認証装置1の構成例を示すブロック図である。図1に示すように、物体認証装置1は、音声信号取得部101、音響モデル・辞書DB102、音声認識部103、画像取得部106、画像モデルDB107、画像モデル生成部108、記憶部109、画像認識部110、通信部112、および物体認証部113を備える。また、音声認識部103は、音声尤度算出部104と削除部105を備える。画像モデル生成部108は、頻度検出部1081と削除部1082を備える。画像認識部110は、画像尤度算出部111を備える。
物体認証装置1には、収音装置2および撮像装置3が接続されている。また、物体認証装置1は、ネットワークを介して画像サーバー4が接続されている。
収音装置2は、例えばマイクロフォンであり、利用者が発話した音声信号を収音し、収音した音声信号をアナログ信号からデジタル信号に変換して、デジタル信号に変換した音声信号を物体認証装置1に出力する。なお、収音装置2は、アナログ信号の音声信号を物体認証装置1に出力するようにしてもよい。なお、収音装置2は、音声信号を、有線のコードやケーブルを介して、物体認証装置1に出力するようにしてもよく、無線で物体認証装置1に送信するようにしてもよい。
なお、収音装置2は、マイクロフォンアレイであってもよい。この場合、収音装置2は、それぞれ異なる位置に配置されたP個のマイクロフォンを有する。そして、収音装置2は、収音した音からPチャネル(Pは、2以上の整数)の音響信号を生成し、生成したPチャネルの音響信号を物体認証装置1に出力する。
撮像装置3は、例えば、CCD(Charged Coupled Devices)画像センサーカメラ、CMOS(Complementary Metal−Oxide−Semiconductor)画像センサーカメラ等である。撮像装置3は、画像を撮像し、撮像した画像を物体認証装置1に出力する。なお、撮像装置3は、画像を、有線のコードやケーブルを介して、物体認証装置1に出力するようにしてもよく、無線で物体認証装置1に送信するようにしてもよい。
画像サーバー4には、画像が格納されている。なお、画像の解像度は、同一であっても行っていてもよい。なお、画像サーバー4は、インターネット上の任意のサイトであってもよい。この場合、物体認証装置1は、音声認識部103によって認識された候補を、検索エンジンを用いて、インターネット上で画像検索し、例えば上位の画像を取得するようにしてもよい。この場合、物体認証装置1は、画像に付けられているラベルや名称も取得するようにしてもよい。
物体認証装置1は、取得した音声信号と画像信号を用いて物体を認識する。物体認証装置1は、例えば、人型ロボット、受け付け装置、産業用ロボット、スマートフォン、タブレット端末等に組み込まれている。
なお、収音装置2がマイクロフォンアレイの場合、物体認証装置1は、音源定位部、音源分離部、および音源同定部をさらに備える。この場合、物体認証装置1は、音声信号取得部101が取得した音声信号に対して予め生成した伝達関数を用いて音源定位部が音源定位を行う。そして、物体認証装置1は、音源定位部が定位して結果を用いて、話者同定を行う。物体認証装置1は、音源定位部が定位して結果を用いて、音声信号取得部101が取得した音声信号に対して音源分離を行う。そして、物体認証装置1の音声認識部103は、分離された音声信号に対して発話区間の検出と音声認識を行う(例えば特開2017−9657号公報参照)。また、物体認証装置1は、残響音抑圧処理を行うようにしてもよい。
音声信号取得部101は、収音装置2が出力する音声信号を取得し、取得した音声信号を音声認識部103に出力する。なお、取得した音声信号がアナログ信号の場合、音声信号取得部101は、アナログ信号をデジタル信号に変換し、デジタル信号に変換した音声信号を音声認識部103に出力する。
音響モデル・辞書DB(データベース)102には、例えば音響モデル、言語モデル、単語辞書等が格納されている。音響モデルとは、音の特徴量に基づくモデルであり、言語モデルとは、単語(語彙)とその並び方の情報のモデルである。また、単語辞書とは、多数の語彙による辞書であり、例えば大語彙単語辞書である。
音声認識部103は、音声信号取得部101が出力する音声信号を取得し、取得した音声信号から発話区間の音声信号を検出する。発話区間の検出は、例えば所定のしきい値以上の音声信号を発話区間として検出する。なお、音声認識部103は、発話区間の検出を周知の他の手法を用いて行ってもよい。音声認識部103は、発話句間毎の音声信号から音響特徴量である、例えばMSLS(Mel Scale Logarithmic Spectrum;メルスケール対数スペクトル)を抽出する。なお、MSLSは、音響認識の特徴量としてスペクトル特徴量を用い、MFCC(メル周波数ケプストラム係数;Mel Frequency Cepstrum Coefficient)を逆離散コサイン変換することによって得られる。なお、本実施形態において、発話は、例えば、「りんご」、「オートバイ」、「フォーク」等、物の名称の単語(語彙)である。
音声尤度算出部104は、抽出された音響特徴量に対して、音響モデル・辞書DB102を参照して、例えばHMM(Hidden Markov Model;隠れマルコフモデル)を用いて、音声尤度L(s;Λ)を算出する。なお、音声尤度L(s;Λ)は、事後確率p(Λ|s)の算出によって求める。ここで、sは音響特徴量、Λは音響モデル・辞書DB102が記憶するi番目の物体の音声モデルである。また、音声尤度Lは、0〜1の値であり、1に近いほど競合候補に対して尤度の差が大きかったことを表し信頼度が高いことを表す。また、音声尤度Lが0に近いほど信頼度が低いことを表す。
音声認識部103は、音声尤度算出部104が算出した音声尤度の高い方から所定の順位までの音声認識結果の候補に定める。所定の順位は、一例として10位である。音声認識部103は、音声尤度算出部104が算出した音声尤度Lを物体認証部113に出力する。
参考文献;www.ieice-hbkb.org/files/02/02gun_07hen_02.pdf(web検索 2017.3.19)、篠田浩一、伊藤影則、李晃伸、“2群(画像・音・言語)−7編(音声認識と合成) 2章 音声認識”ver.1、電子情報通信学会「知識ベース」、電子情報通信学会、2010、p2〜p12
削除部105は、画像モデル生成部108が出力する削除指示に応じて、対応する単語(語彙)の音響モデルを音響モデル・辞書DB102から削除する。削除部105は、削除する音響モデルを画像モデル生成部108に出力する。
画像取得部106は、撮像装置3が出力する画像を取得し、取得した画像を画像認識部110に出力する。
画像モデルDB107には、画像モデルが格納されている。なお、画像モデルには、画像モデル名(物体名)が付与されている。画像モデルとは、画像の特徴量に基づくモデルである。なお、画像モデルDB107は、画像を格納していてもよい。この場合、画像の解像度が同一であることが好ましい。解像度が異なる場合、画像モデル生成部108が、解像度を正規化して画像モデルを生成する。
画像モデル生成部108は、音声認識部103が出力した音声尤度の高い方から所定の順位までの音声認識結果の候補を用いて、音声尤度の高い方から所定の順位までの音声認識結果の候補の画像モデルが、画像モデルDB107に格納されているか否か探索する。
画像モデル生成部108は、画像モデルDB107に音声認識結果の候補の画像モデルが格納されている場合、対応する画像モデルを画像モデルDB107から取得する。
画像モデル生成部108は、画像モデルDB107に音声認識結果の候補の画像モデルが格納されていない場合、音声認識結果の候補に対応する画像を、記憶部109が記憶するURL(Uniform Resource Locator)アドレスを用いて通信部112を制御して画像サーバー4またはネットワーク(インターネット)上から取得する。なお、通信部112がアクセスするURLアドレスは、画像モデル生成部108または通信部112が記憶していてもよい。具体的には、画像モデルDB107に「ビー玉」の画像モデルが格納されていない場合、画像モデル生成部108は、「ビー玉」の画像を少なくとも1つ取得する。なお、画像モデル生成部108は、取得した画像の解像度を取得し、取得した解像度が所定の値と異なる場合、正規化するようにしてもよい。画像モデル生成部108は、取得した画像の特徴量を抽出し、抽出した特徴量を用いて画像モデルを生成する。なお、画像サーバー4またはネットワーク(インターネット)上から取得した画像を用いて画像モデルを生成する方法については、図5を用いて後述する。
画像モデル生成部108は、画像モデルDB107から取得した画像モデル、または生成した画像モデルを画像認識部110に音声尤度の高い順に出力する。
頻度検出部1081は、画像認識処理において、画像モデルが利用された(採用された)回数を検出し、検出した回数を、画像モデル名(物体名)に関連付けて画像モデルDB107に記憶させる。なお、頻度検出部1081は、検出した回数を、画像モデル名(物体名)に関連付けて記憶部109に記憶させるようにしてもよい。
削除部1082は、画像認識処理において利用回数が所定の回数(例えば5回)より多い画像モデルを残し、利用回数が所定回数以下の画像モデルを削除すると判別する。削除部1082は、対応する画像モデルを画像モデルDB107から削除する。削除部1082は、削除した画像モデルを、通信部112を介して画像サーバー4に格納させる。削除部1082は、削除する画像モデルに対応する単語(語彙、物体名)を削除する削除指示を音声認識部103の削除部105に出力する。削除部1082は、音声認識部103の削除部105が出力した音響モデルを、通信部112を介して画像サーバー4に格納させる。
なお、音響モデル・辞書DB102は、削除して画像サーバー4へ移動したことを示す情報を残しておいてもよい。
また、画像モデル生成部108は、ネットワークから音声信号を取得し、取得した音声信号から特徴量を算出して音響モデルを生成するようにしてもよい。
記憶部109は、画像サーバー4のURLアドレスを記憶する。
画像認識部110は、撮像装置3が出力した画像の画像特徴量を算出する。なお、画像特徴量は、例えば、対象物体全体に対するウォーブレット(wavelet)、対象物の局所情報に対するSIFT(Scale−Invariant Feature Transform)特徴量やSURF(Speeded Up Robust Features)特徴量等、局所情報のつながりであるJoint HOG等のいずれか1つであってもよい。また、画像認識部110は、撮像装置3が出力した画像に対して左右反転させた画像に対しても画像特徴量を算出するようにしてもよい。
画像尤度算出部111は、算出された画像特徴量と、画像モデル生成部108が出力した画像モデルとを、例えばHMMを用いて、候補毎に画像尤度L(v;o)を算出する。なお、画像尤度L(v;o)は、事後確率p(o|v)の算出によって求める。ここで、vは画像特徴量、oは画像モデル生成部108が出力するi番目の物体の画像モデルである。また、画像尤度Lは、0〜1の値であり、1に近いほど競合候補に対して尤度の差が大きかったことを表し信頼度が高いことを表す。また、画像尤度Lが0に近いほど信頼度が低いことを表す。
画像認識部110は、画像尤度算出部111が算出した尤度の高い方から所定の順位までの画像認識結果の候補に定める。所定の順位は、一例として10位である。画像認識部110は、画像尤度算出部111が算出した音声尤度Lを物体認証部113に出力する。
通信部112は、画像モデル生成部108の制御に応じて、画像サーバー4またはネットワーク(インターネット)にアクセスし、画像を取得する。
物体認証部113は、音声認識部103が出力する音声尤度Lと、画像認識部110が出力する画像尤度Lとを用いて、次式(1)のロジスティック関数によって統合して物体尤度Fを候補毎に求める。
Figure 0006427807
式(1)において、vは入力された画像、oはi番目の画像モデル、α、α、αはロジスティック関数のパラメータである。
物体認証部113は、次式(2)を用いて算出した物体尤度Fが最大となる候補i^を推定する。
Figure 0006427807
なお、式(2)において、arg max F(…)は、…を最大とするFを与える関数である。
なお、上述した例では、ロジスティック関数を用いて、音声尤度Lsと画像尤度Lvとを統合する例を説明したが、これに限られない。他の関数を用いて統合するようにしてもよい。
ここで、SIFT特徴量の概要について説明する。
SIFTの処理は、大きく分けて特徴点の検出と特徴量の記述の2段階である。特徴点の検出では、スケールの異なる平滑化画像の差分から画像特徴と思われる点(キーポイント)を決定する。そして、各キーポイントの周りで周辺の画像の勾配情報を用いることで情報を記述する。次に、各スケール間で差分を取ることで、画像の変化(物体と背景の境界など)が、どこに現れているかを算出する。この変化が極大となる点が、SIFTの特徴点(キーポイント)候補となる。この点を探索するために,差分画像を並べ、極値探索を行う。SIFT特徴は、このキーポイントの周りでの画像勾配を記述することで得られる。
次に、利用頻度とデータベース(音響モデル・辞書DB102、画像モデルDB107)への保存可否の例を説明する。
図2は、本実施形態に係る利用頻度とデータベースへの保存可否の例を示す図である。
図2に示すように、頻度検出部1081は、画像モデル名(物体名)毎に、画像認識処理の際に画像モデルを利用した回数を画像モデルDB107に記憶させる。
図2に示す例では、画像モデル名「イチゴ」の利用回数が10回、画像モデル名「レモン」の利用回数が8回、画像モデル名「トラック」の利用回数が3回である。削除部1082は、利用回数が所定の回数(例えば5回)以上の画像モデルを残し、所定回数より多い画像モデルを削除すると判別する。図2に示す例では、削除部1082は、利用回数が5回以下である画像モデル名「トラック」の画像モデルを画像モデルDB107から削除すると判別する。
次に、物体認証装置1が行う処理手順例を説明する。
図3は、本実施形態に係る物体認証装置1の物体認証の処理手順例を示すフローチャートである。
(ステップS1)音声認識部103は、音声信号取得部101が収音装置2から取得した音声信号から音響特徴量を抽出する。続けて、音声認識部103は、抽出した音響特徴量に対して、音響モデル・辞書DB102を参照して、例えばHMMを用いて、音声尤度L(s;Λ)を算出する。
(ステップS2)音声認識部103は、音声尤度算出部104が算出した尤度の高い方から所定の順位までの音声認識結果の候補に定める。
(ステップS3)画像モデル生成部108は、音声認識部103が出力した尤度の高い方から所定の順位までの音声認識結果の候補を用いて、尤度の高い方から所定の順位までの音声認識結果の候補の画像モデルが、画像モデルDB107に格納されているか否か判別する。画像モデル生成部108は、画像モデルDB107に音声認識結果の候補の画像モデルが格納されていると判別した場合(ステップS3;YES)、ステップS4に処理を進める。画像モデル生成部108は、画像モデルDB107に音声認識結果の候補の画像モデルが格納されていないと判別した場合(ステップS3;NO)、ステップS5に処理を進める。
(ステップS4)画像モデル生成部108は、対応する画像モデルを画像モデルDB107から取得する。画像モデル生成部108は、取得した画像モデルを画像認識部110に尤度の高い順に出力し、ステップS6に処理を進める。
(ステップS5)画像モデル生成部108は、音声認識結果の候補に対応する画像を、記憶部109が記憶するURLアドレスを用いて通信部112を制御して画像サーバー4またはネットワーク(Web;World Wide Web)から取得する。画像モデル生成部108は、取得した画像から画像モデルを生成し、生成した画像モデルを画像認識部110に尤度の高い順に出力し、ステップS6に処理を進める。
(ステップS6)画像尤度算出部111は、算出された画像特徴量と、画像モデル生成部108が出力した画像モデルとを、例えばHMMを用いて、候補毎に画像尤度L(v;o)を算出する。
(ステップS7)物体認証部113は、音声認識部103が出力する音声尤度Lと、画像認識部110が出力する画像尤度Lとを用いて、上述した式(1)のロジスティック関数によって統合して物体尤度Fを候補毎に求める。
(ステップS8)物体認証部113は、上述した式(2)を用いて算出した物体尤度Fが最大となる候補を求めることで、物体を認識する。
以上で、物体認証装置1の物体認証の処理を終了する。
次に、画像モデルを削除する処理手順例を説明する。
図4は、本実施形態に係る画像モデルを削除する処理手順例を示すフローチャートである。
(ステップS101)物体認証装置1は、図3に示した物体認証処理を行う。
(ステップS102)頻度検出部1081は、認証処理後、今回認証に利用した画像が、画像モデルDB107が格納していた画像モデルであるか判別する。頻度検出部1081は、今回認証に利用した画像が、画像モデルDB107が格納していた画像モデルであると判別した場合(ステップS102;YES)、既存画像と同じであると判別してステップS103の処理に進める。頻度検出部1081は、今回認証に利用した画像が、画像モデルDB107が格納していた画像モデルではないと判別した場合(ステップS102;NO)、既存画像と同じではないと判別してステップS104の処理に進める。
(ステップS103)頻度検出部1081は、頻度カウント用のカウント値Nに1を加算する(N=N+1)。頻度検出部1081は、ステップS104の処理に進める。
(ステップS104)削除部1082は、Nが閾値Nrefより多いか否かを判別する。削除部1082は、Nが閾値Nrefより多いと判別した場合(ステップS104;YES)、ステップS105の処理に進め、Nが閾値Nref未満であると判別した場合(ステップS104;NO)、処理を終了する。
(ステップS105)削除部1082は、対応する画像モデルを画像モデルDB107から削除する。続けて、削除部1082は、削除した画像モデルを、通信部112を介して画像サーバー4に格納させる。続けて、削除部1082は、削除する画像モデルに対応する単語(語彙、物体名)を削除する削除指示を音声認識部103の削除部105に出力する。続けて、削除部105は、画像モデル生成部108が出力する削除指示に応じて、対応する単語(語彙)の音響モデルを音響モデル・辞書DB102から削除する。続けて、削除部105は、削除する音響モデルを画像モデル生成部108に出力する。続けて、音声認識部103の削除部105が出力した音響モデルを、通信部112を介して画像サーバー4に格納させる。
すなわち、本実施形態の物体認証装置1は、過去の物体認証履歴に応じて、画像モデルデータDB107が格納する画像モデルを用いるかネットワークから取得した情報から画像モデルを作成して利用するかを決定して、画像モデルデータDB107に格納する画像モデルを選択している。
次に、画像を画像サーバー4から取得して画像モデルを生成する処理手順例を説明する。
図5は、本実施形態に係る画像を画像サーバー4から取得して画像モデルを生成する処理手順例を示すフローチャートである。
(ステップS201)画像モデル生成部108は、画像サーバー4から認識結果候補に対応する物体の画像を取得(収集)する。
(ステップS202)画像モデル生成部108は、候補ぞれぞれの画像毎に、例えばSIFT特徴量を抽出する。
(ステップS203)画像モデル生成部108は、SIFT特徴量に基づいて物体ごとにVisual Wordsを求める。ここで、Visual Wordsについて説明知る。例えば、Bag of Features(BoF)では、物体の画像からSIFT特徴量やSURF特徴量を抽出し,それらをk−means手法によってW個のクラスタに分類する。それぞれのクラスタのセントロイド(重心)となるベクトルのことをVisual Wordと呼び、その数は経験的に決定される。具体的には、画像モデル生成部108は、全画像のSIFT特徴量のk−meansクラスタリング(K平均法)を実行し、各クラスタの中心をVisual Wordsとする。なお、Visual Wordsは、代表的な局所パターンに相当する。
(ステップS204)画像モデル生成部108は、候補の各画像を、Visual Wordsを用いてベクトル量子化し、各画像のBag−of−features(BoF)表現を求める。なお、BoF表現は、Visual Wordsの出現頻度(ヒストグラム)によって画像を表現したものである。
(ステップS205)画像モデル生成部108は、認識候補の物体毎にBoFのk−meansクラスタリングを行い、クラスタ毎に画像モデルを生成する。
なお、上述した例では、画像モデル生成部108は、画像モデルDB107に音声認識された結果の候補の画像が格納されていない場合に画像サーバー4から画像を取得して画像モデルを生成する例を説明したが、これに限られない。画像モデル生成部108は、画像モデルDB107に音声認識された結果の候補の画像が格納されている場合であっても画像サーバー4から画像を取得するようにしてもよい。この場合、画像モデル生成部108は、画像サーバー4から取得した第2の画像に対して第2の画像モデルを生成するようにしてもよい。画像モデル生成部108は、画像モデルDB107から取得した第1の画像モデルと、生成した第2の画像モデルを、画像認識部110に出力するようにしてもよい。そして、画像尤度算出部111は、第1の画像モデルと、生成した第2の画像モデルそれぞれの画像尤度を算出し、画像尤度が大きいものを選択するようにしてもよい。
以上のように、本実施形態では、音声情報、画像情報について、過去に使用した履歴情報から判断して、良く使う画像は画像モデル・音声モデルをローカル(音響モデル・辞書DB102、画像モデルDB107)においておき、それ以外はネットワーク上から検索するようにした。また、本実施形態では、あまり使われなくなった画像は、ローカルから削除するようにした。
これにより、本実施形態によれば、過去の履歴に基づいて画像モデルをローカルのものを利用するか、ネットワーク上のものを利用するかを判断するので、ローカル上で探索するモデルを削減することができるので、物体認証の高速化を図ることができる。
また、本実施形態によれば、利用頻度の低いモデル(画像モデル、音響モデル)を削除するようにした。これにより、利用頻度の低い物体を正しい認証結果として誤認証する確立が低減するため、認証精度を向上させることができる。
また、本実施形態によれば、利用頻度の低いモデル(画像モデル、音響モデル)を削除するようにしたので、モデルの格納に必要な容量を削減することができ、不要な容量を確保する必要がなくなる。
なお、上述した例では、収音装置2と撮像装置3が物体認証装置1に接続されている例を説明したが、収音装置2と撮像装置3は、物体認証装置1が備えていてもよい。
なお、本発明における物体認証装置1の機能の全てまたは一部を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することにより物体認証装置1が行う処理の全てまたは一部を行ってもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータシステム」は、ホームページ提供環境(あるいは表示環境)を備えたWWWシステムも含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムが送信された場合のサーバーやクライアントとなるコンピュータシステム内部の揮発性メモリ(RAM)のように、一定時間プログラムを保持しているものも含むものとする。
また、上記プログラムは、このプログラムを記憶装置等に格納したコンピュータシステムから、伝送媒体を介して、あるいは、伝送媒体中の伝送波により他のコンピュータシステムに伝送されてもよい。ここで、プログラムを伝送する「伝送媒体」は、インターネット等のネットワーク(通信網)や電話回線等の通信回線(通信線)のように情報を伝送する機能を有する媒体のことをいう。また、上記プログラムは、前述した機能の一部を実現するためのものであってもよい。さらに、前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるもの、いわゆる差分ファイル(差分プログラム)であってもよい。
1…物体認証装置、2…収音装置、3…撮像装置、4…画像サーバー、101…音声信号取得部、102…音響モデル・辞書DB、103…音声認識部、104…音声尤度算出部、105…削除部、106…画像取得部、107…画像モデルDB、108…画像モデル生成部、1081…頻度検出部、1082…削除部、109…記憶部、110…画像認識部、111…画像尤度算出部、112…通信部、113…物体認証部

Claims (4)

  1. 入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識部と、
    前記音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部と、
    入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、
    該画像尤度を使用して物体認証を行う物体認証部と、を備え、
    前記画像モデル生成部は、
    前記音声認識結果候補の画像モデルを生成する際に、最初に該画像モデルを格納する画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合に、ネットワークから取得した情報から該画像モデルを生成し、
    過去の物体認証履歴に応じて、前記画像モデルデータベースが格納する前記画像モデルを用いるか前記ネットワークから取得した情報から該画像モデルを作成して利用するかを決定する、物体認証装置。
  2. 前記画像モデル生成部は、
    音声モデルについても、過去の物体認証履歴に基づいてローカルのものを利用するか前記ネットワークから取得した情報を利用するかを決定する、請求項1に記載の物体認証装置。
  3. 前記画像モデル生成部は、
    所定の物体認証頻度以下になった場合に、前記画像モデルおよび音声認識で用いる音響モデルのうち少なくとも1つを削除する、請求項1または請求項2に記載の物体認証装置。
  4. 音声認識部が、入力された音声の音声認識結果候補及びその尤度を音声尤度として求める音声認識ステップと、
    画像モデル生成部が、前記音声認識結果候補の画像モデルを生成する際に、最初に該画像モデルを格納する画像モデルデータベースを検索し、該画像モデルが該画像モデルデータベースにない場合に、ネットワークから取得した情報から画像モデルを生成し、前記音声尤度の高い方から所定数の音声認識結果候補の該画像モデルを求める画像モデル生成ステップと、
    画像尤度算出部が、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出ステップと、
    物体認証部が、該画像尤度を使用して物体認証を行う物体認証ステップと、
    前記画像モデル生成部が、過去の物体認証履歴に応じて、前記画像モデルデータベースが格納する前記画像モデルを用いるか前記ネットワークから取得した情報から画像モデルを作成して利用するかを決定するステップと、
    を含む物体認証方法。
JP2017065864A 2017-03-29 2017-03-29 物体認証装置および物体認証方法 Active JP6427807B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017065864A JP6427807B2 (ja) 2017-03-29 2017-03-29 物体認証装置および物体認証方法
US15/934,322 US10997972B2 (en) 2017-03-29 2018-03-23 Object authentication device and object authentication method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017065864A JP6427807B2 (ja) 2017-03-29 2017-03-29 物体認証装置および物体認証方法

Publications (2)

Publication Number Publication Date
JP2018169745A JP2018169745A (ja) 2018-11-01
JP6427807B2 true JP6427807B2 (ja) 2018-11-28

Family

ID=63670822

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017065864A Active JP6427807B2 (ja) 2017-03-29 2017-03-29 物体認証装置および物体認証方法

Country Status (2)

Country Link
US (1) US10997972B2 (ja)
JP (1) JP6427807B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11370444B2 (en) 2019-03-28 2022-06-28 Honda Motor Co., Ltd. Vehicle control device, terminal device and vehicle control system

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2020163924A (ja) * 2019-03-28 2020-10-08 本田技研工業株式会社 車両制御装置、端末装置、サーバ装置、車両、車両制御システム及び車両制御方法
KR20210066207A (ko) * 2019-11-28 2021-06-07 엘지전자 주식회사 객체를 인식하는 인공 지능 장치 및 그 방법

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9345957B2 (en) * 2011-09-30 2016-05-24 Microsoft Technology Licensing, Llc Enhancing a sport using an augmented reality display
JP5866728B2 (ja) * 2011-10-14 2016-02-17 サイバーアイ・エンタテインメント株式会社 画像認識システムを備えた知識情報処理サーバシステム
JP5828552B2 (ja) * 2011-12-22 2015-12-09 本田技研工業株式会社 物体分類装置、物体分類方法、物体認識装置及び物体認識方法
JP2014170295A (ja) * 2013-03-01 2014-09-18 Honda Motor Co Ltd 物体認識システム及び物体認識方法
JP2016191973A (ja) * 2015-03-30 2016-11-10 日本電気株式会社 情報転送装置、学習システム、情報転送方法及びプログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11370444B2 (en) 2019-03-28 2022-06-28 Honda Motor Co., Ltd. Vehicle control device, terminal device and vehicle control system

Also Published As

Publication number Publication date
US10997972B2 (en) 2021-05-04
JP2018169745A (ja) 2018-11-01
US20180286398A1 (en) 2018-10-04

Similar Documents

Publication Publication Date Title
JP6754184B2 (ja) 音声認識装置及び音声認識方法
CN107799126B (zh) 基于有监督机器学习的语音端点检测方法及装置
WO2019196196A1 (zh) 一种耳语音恢复方法、装置、设备及可读存储介质
CN104598644B (zh) 喜好标签挖掘方法和装置
CN111292764A (zh) 辨识系统及辨识方法
JP2019522840A (ja) アイデンティティ認証方法及び装置
WO2017206661A1 (zh) 语音识别的方法及系统
JP6427807B2 (ja) 物体認証装置および物体認証方法
US9595261B2 (en) Pattern recognition device, pattern recognition method, and computer program product
KR20210052036A (ko) 복수 의도어 획득을 위한 합성곱 신경망을 가진 장치 및 그 방법
KR20150145024A (ko) 화자적응 음성인식 시스템의 단말 및 서버와 그 운용 방법
JP6540742B2 (ja) 物体認識装置および物体認識方法
CN109947971A (zh) 图像检索方法、装置、电子设备及存储介质
JPWO2018061839A1 (ja) 送信装置、送信方法及び送信プログラム
JP5908924B2 (ja) 音声処理装置、方法、プログラムおよび集積回路
JP4447602B2 (ja) 信号検出方法,信号検出システム,信号検出処理プログラム及びそのプログラムを記録した記録媒体
US20170263250A1 (en) Voice processing system and voice processing method
JP6916130B2 (ja) 話者推定方法および話者推定装置
JP6565084B2 (ja) 物体認証装置および物体認証方法
JP5844375B2 (ja) 物体検索システムおよび物体検索方法
KR102642617B1 (ko) 인공 지능을 이용한 음성 합성 장치, 음성 합성 장치의 동작 방법 및 컴퓨터로 판독 가능한 기록 매체
CN113628637A (zh) 一种音频识别方法、装置、设备及存储介质
JP2019133447A (ja) 感情推定装置、コンピュータプログラム及び感情推定方法
CN113016029A (zh) 提供基于上下文的语音识别服务的方法及装置
CN114399005B (zh) 一种活体检测模型的训练方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20180911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181002

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181009

R150 Certificate of patent or registration of utility model

Ref document number: 6427807

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150