JP2014170295A - 物体認識システム及び物体認識方法 - Google Patents

物体認識システム及び物体認識方法 Download PDF

Info

Publication number
JP2014170295A
JP2014170295A JP2013040780A JP2013040780A JP2014170295A JP 2014170295 A JP2014170295 A JP 2014170295A JP 2013040780 A JP2013040780 A JP 2013040780A JP 2013040780 A JP2013040780 A JP 2013040780A JP 2014170295 A JP2014170295 A JP 2014170295A
Authority
JP
Japan
Prior art keywords
image
likelihood
image model
object recognition
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2013040780A
Other languages
English (en)
Inventor
Mikio Nakano
幹生 中野
Hitoshi Nishimura
仁志 西村
Yuko Ozasa
裕子 小篠
Yasuo Ariki
康雄 有木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Kobe University NUC
Original Assignee
Honda Motor Co Ltd
Kobe University NUC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd, Kobe University NUC filed Critical Honda Motor Co Ltd
Priority to JP2013040780A priority Critical patent/JP2014170295A/ja
Priority to US14/190,539 priority patent/US9508019B2/en
Publication of JP2014170295A publication Critical patent/JP2014170295A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/46Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
    • G06V10/462Salient features, e.g. scale invariant feature transforms [SIFT]
    • G06V10/464Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Image Analysis (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)

Abstract

【課題】認識精度を向上させるために、音声情報の他に画像情報を使用する、実用化することが可能な物体認識システムを提供する。
【解決手段】物体認識システム100は、入力された音声の音声認識結果候補及びその尤度を求める音声認識部101と、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部103と、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、該画像尤度を使用して物体認識を行う物体認識部107と、を備える。該画像モデル生成部は、音声認識結果候補の画像モデルを生成する際に、最初に画像モデルデータベース105を検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するように構成されている。
【選択図】図1

Description

本発明は、ロボットなどに使用される物体認識システム及び物体認識方法に関する。
ロボットが生活環境下で作業を行う際、ユーザに指示された物体を握持する物体握持タスクを達成することは最低限必要である。このような場合に、ユーザは通常音声で指示を行い、ロボットは音声認識結果に基づいて物体認識を行う。また、ロボットが、周囲の物体の画像情報を取得することも可能である。物体握持タスクのための物体認識手法として、音声情報と画像情報を統合した手法が提案されている(非特許文献1)。しかし、非特許文献1の手法では、物体認識を行う際、音声モデルと画像モデルの両方が必要である。大語彙辞書の発達により音声モデルを保持することは容易であるが、大量の画像モデルを準備するのは極めて困難であり現実的ではない。したがって、非特許文献1の物体認識手法は、実用化されていなかった。
このように、音声情報の他に画像情報を使用する物体認識システム及び物体認識方法は実用化できていなかった。そこで、認識精度を向上させるために、音声情報の他に画像情報を使用する、実用化することが可能な物体認識システム及び物体認識方法に対するニーズがある。
本発明の第1の態様による物体認識システムは、入力された音声の音声認識結果候補及びその尤度を求める音声認識部と、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部と、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、該画像尤度を使用して物体認識を行う物体認識部と、を備える。該画像モデル生成部は、音声認識結果候補の画像モデルを生成する際に、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するように構成されている。
本態様によれば、ウェッブの情報を利用することにより、音声情報の他に画像情報を使用する、実用化することが可能な物体認識システムが提供される。
第1の態様の第1の実施形態の物体認識システムは、該物体認識部が、該音声認識結果候補の該音声尤度と該音声認識結果候補の該画像尤度とに基づいて物体認識を行うように構成されている。
本実施形態によれば、音声尤度と画像尤度とに基づいて物体認識を行うことにより認識精度を向上することが可能となる。
第1の態様の第2の実施形態の物体認識システムにおいて、該画像モデル生成部は、ウェブの情報から音声認識結果候補の画像モデルを生成する際に、ウェブから求めた画像の特徴量のクラスタリングを行ってクラスタごとに画像モデルを作成するように構成されている。
本実施形態によれば、ウェブの情報から音声認識結果候補の画像モデルを生成する際に、たとえば、グラフ構造を利用する方法と比較して計算量を少なくすることができる。
本発明の第1の態様による物体認識方法は、入力された音声の音声認識結果候補及びその尤度を求めるステップと、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求めるステップであって、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するステップと、入力された画像の該画像モデルに基づく画像尤度を求めるステップと、該画像尤度を使用して物体認識を行うステップと、を含む。
本態様によれば、ウェッブの情報を利用することにより、音声情報の他に画像情報を使用する、実用化することが可能な物体認識方法が提供される。
本発明の一実施形態による物体認識システムの構成を示す図である。 物体認識システムの動作を説明するための流れ図である。 図2のステップS1040のウェブから画像モデルを生成する方法の詳細を説明するための流れ図である。
図1は、本発明の一実施形態による物体認識システム100の構成を示す図である。物体認識システム100は、音声入力を受け取り、音声認識を行って、認識結果候補とその尤度を求める音声認識部101と、画像モデルを生成する画像モデル生成部103と、画像モデルデータベース105と、画像入力を受け取り、画像モデルを使用して画像認識を行って、認識結果候補に対する尤度を求める画像認識部107と、音声の尤度と画像の尤度に基づいて物体認識を行う物体認識部109と、を備える。音声認識部101は、HMM(隠れマルコフモデル)と接続され、HMMを使用して音声認識を行う。画像モデル生成部103は、画像モデルデータベース105及びウェブと接続され、画像モデルデータベース105及びウェブの情報を利用して画像モデルを生成する。
図2は、物体認識システム100の動作を説明するための流れ図である。
図2のステップS1010において、音声認識部101は、音声入力を受け取り、音声特徴量にはMFCC (Mel Frequency Cepstrum Coefficient)を用い、HMMによって音声認識を行い、認識結果候補の音声尤度
Figure 2014170295
を算出する。ここで、sは入力音声、Λiはi番目の物体の音声モデルを示す。
図2のステップS1020において、音声認識部101は、音声尤度の高い方から所定の順位までの認識結果候補を定める。一例として、所定の順位は、10位とする。10位までの認識結果候補を選択した理由は後で説明する。
図2のステップS1030において、画像モデル生成部103は、選択された10位までの認識結果候補の画像モデルが画像モデルデータベース105に存在するかどうか判断する。存在すれば、ステップS1050に進む。存在しなければ、ステップS1040に進む。
図2のステップS1040において、画像モデル生成部103は、ウェブから画像モデルを生成する。ウェブから画像モデルを生成する方法については、後で詳細に説明する。
図2のステップS1050において、画像モデル生成部103は、画像モデルデータベース105から認識結果候補の画像モデルを取得する。
図2のステップS1060において、画像認識部107は、ウェブから生成した画像モデル、または画像モデルデータベース105から取得した画像モデルを使用して認識結果候補の画像尤度
Figure 2014170295
を算出する。
図2のステップS1070において、物体認識部109は、認識結果候補の音声尤度
Figure 2014170295
と画像尤度
Figure 2014170295
とを以下のロジスティック関数により統合して統合尤度を求める。
Figure 2014170295
ここで、vは画像入力、oはi番目の画像モデル、α、α、αはロジスティック関数のパラメータを示す。
図2のステップS1080において、物体認識部109は、統合尤度を使用して以下のように物体認識を行う。
Figure 2014170295
図3は、ウェブから画像モデルを生成する図2のステップS1040の詳細な手順を説明するための流れ図である。
図3のステップS2010において、画像モデル生成部103は、ウェブから認識結果候補の物体の画像を収集する。
図3のステップS2020において、画像モデル生成部103は、画像ごとに局所特徴量SIFT(Scale-Invariant Feature Transform)(Lowe, David G. (1999). "Object recognition from local scale-invariant features". Proceedings of the International Conference on Computer Vision. 2. pp. 1150-1157.)を抽出する。
図3のステップS2030において、画像モデル生成部103は、局所特徴量に基づいて物体ごとにVisual Wordsを求める。具体的に、全画像の局所特徴量SIFTのk-meansクラスタリング(K平均法)を実行し、各クラスタの中心をVisual Wordsとする。Visual Wordsは、代表的な局所パターンに相当する。
図3のステップS2040において、画像モデル生成部103は、各画像を、Visual Wordsを用いてベクトル量子化し、各画像のBag-of-features(BoF)表現を求める。BoF表現は、Visual Wordsの出現頻度(ヒストグラム)によって画像を表現したものである。
図3のステップS2050において、画像モデル生成部103は、認識候補の物体ごとにBoFのk-meansクラスタリングを行い、クラスタごとに画像モデルを作成する。
つぎに、音声認識、画像認識及び統合特徴を用いた認識の評価実験について説明する。
音声認識実験において、Juliusを用いて孤立単語認識を行った。ここで、Julius は、音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジンである(http://julius.sourceforge.jp/)。入力特徴ベクトルとしてMFCC (Mel Frequency Cepstrum Coefficient)12次元とその差分(Δ)、エネルギーの合計25次元を用いた。学習データとして、音素バランス文と新聞記事読み上げ(130名、2万分)を用いた。triphoneHMMの状態数は2000、混合数は16で、辞書はウェブから1000語抽出した。男性三人及び女性二人を被験者として20単語の2回の繰り返しの発話をテストデータとした。
表1は、音声による認識率を示す表である。
Figure 2014170295
表1において最低順位とは、誤認識の場合における正解の最低順位である。誤認識した際、最低でも8位以内の認識結果候補のうちに正解が入った。この結果を踏まえて、図2のステップS1020において、10位までの認識結果候補を選択した。
つぎに、画像認識実験について説明する。20物体に対応する画像を、各100枚ずつウェブから取得し、図3の流れ図に示した方法で各物体ごとにクラスタリングを行った。クラスタごとに重心からの距離によってリランキングを行い、モデル構築のために用いる画像が1物体につき80枚になるようにした。各物体で画像モデルに用いなかった残りの20枚の画像のうち1枚をテストデータに用いた。Leave-one-outクロスバリデーションによる認識精度は92.75%となった。
つぎに、式(1)のロジスティック関数を用いた認識実験について説明する。学習データとして、音声及び画像がともにフィットする2000組のデータと、音声及び画像の少なくとも一方がフィットしない2000組のデータを使用した。学習方法は、フィッシャースコアリング法である。実験は、leave-one-outクロスバリデーションによって行った。
表2は、音声による認識率、画像による認識率及び統合認識率を示す表である。
Figure 2014170295
音声または画像のみを用いるよりも、ロジスティック関数によって統合する方が認識率が高くなった。すなわち、音声または画像単体での誤りが統合により解消された。
一般的には、統合特徴を使用した場合の認識精度は、音声認識または画像認識のいずれか一方を使用した場合の認識精度よりも向上することが期待される。しかし、状況によっては、音声尤度の高い方から所定数の音声認識結果候補のうちに必ず正解が含まれることを前提として、音声尤度の高い方から所定数の音声認識結果候補についての画像認識結果のみに基づいて物体認識を行ってもよい。
100…物体認識システム、101・・・音声認識部、103・・・画像モデルデータベース、105・・・画像認識部、107・・・画像認識部、109・・・物体認識部

Claims (4)

  1. 入力された音声の音声認識結果候補及びその尤度を求める音声認識部と、
    音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部と、
    入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、
    該画像尤度を使用して物体認識を行う物体認識部と、を備え、
    該画像モデル生成部は、音声認識結果候補の画像モデルを生成する際に、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するように構成された物体認識システム。
  2. 該物体認識部が、該音声認識結果候補の該音声尤度と該音声認識結果候補の該画像尤度とに基づいて物体認識を行うように構成された請求項1に記載の物体認識システム。
  3. 該画像モデル生成部は、ウェブの情報から音声認識結果候補の画像モデルを生成する際に、ウェブから求めた画像の特徴量のクラスタリングを行ってクラスタごとに画像モデルを作成するように構成されている請求項1または2に記載の物体認識システム。
  4. 入力された音声の音声認識結果候補及びその尤度を求めるステップと、
    音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求めるステップであって、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するステップと、
    入力された画像の該画像モデルに基づく画像尤度を求めるステップと、
    該画像尤度を使用して物体認識を行うステップと、を含む物体認識方法。
JP2013040780A 2013-03-01 2013-03-01 物体認識システム及び物体認識方法 Pending JP2014170295A (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2013040780A JP2014170295A (ja) 2013-03-01 2013-03-01 物体認識システム及び物体認識方法
US14/190,539 US9508019B2 (en) 2013-03-01 2014-02-26 Object recognition system and an object recognition method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2013040780A JP2014170295A (ja) 2013-03-01 2013-03-01 物体認識システム及び物体認識方法

Publications (1)

Publication Number Publication Date
JP2014170295A true JP2014170295A (ja) 2014-09-18

Family

ID=51421398

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013040780A Pending JP2014170295A (ja) 2013-03-01 2013-03-01 物体認識システム及び物体認識方法

Country Status (2)

Country Link
US (1) US9508019B2 (ja)
JP (1) JP2014170295A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018169745A (ja) * 2017-03-29 2018-11-01 本田技研工業株式会社 物体認証装置および物体認証方法
JP2018169744A (ja) * 2017-03-29 2018-11-01 本田技研工業株式会社 物体認証装置および物体認証方法

Families Citing this family (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10438587B1 (en) * 2017-08-08 2019-10-08 X Development Llc Speech recognition biasing
US11437032B2 (en) * 2017-09-29 2022-09-06 Shanghai Cambricon Information Technology Co., Ltd Image processing apparatus and method
US11450319B2 (en) * 2017-09-29 2022-09-20 Cambricon (Xi'an) Semiconductor Co., Ltd. Image processing apparatus and method
KR102380494B1 (ko) * 2017-09-29 2022-03-29 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 화상처리장치 및 방법
US11609760B2 (en) 2018-02-13 2023-03-21 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11630666B2 (en) 2018-02-13 2023-04-18 Shanghai Cambricon Information Technology Co., Ltd Computing device and method
US11169803B2 (en) 2018-02-13 2021-11-09 Shanghai Cambricon Information Technology Co., Ltd. Computing device and method
CN116991225A (zh) 2018-02-14 2023-11-03 上海寒武纪信息科技有限公司 处理器的控制装置、方法及设备
EP3624020A4 (en) 2018-05-18 2021-05-05 Shanghai Cambricon Information Technology Co., Ltd CALCULATION PROCEDURES AND RELATED PRODUCTS
EP3798850A4 (en) 2018-06-27 2022-03-23 Shanghai Cambricon Information Technology Co., Ltd ON-CHIP CODE BREAKPOINT DEBUG METHOD, ON-CHIP PROCESSOR AND CHIP BREAKPOINT DEBUG SYSTEM
EP3757896B1 (en) 2018-08-28 2023-01-11 Cambricon Technologies Corporation Limited Method and device for pre-processing data in a neural network
WO2020062392A1 (zh) 2018-09-28 2020-04-02 上海寒武纪信息科技有限公司 信号处理装置、信号处理方法及相关产品
CN111385462A (zh) 2018-12-28 2020-07-07 上海寒武纪信息科技有限公司 信号处理装置、信号处理方法及相关产品
US20200334522A1 (en) 2019-04-18 2020-10-22 Cambricon Technologies Corporation Limited Data processing method and related products
CN111832737B (zh) 2019-04-18 2024-01-09 中科寒武纪科技股份有限公司 一种数据处理方法及相关产品
US11676028B2 (en) 2019-06-12 2023-06-13 Shanghai Cambricon Information Technology Co., Ltd Neural network quantization parameter determination method and related products
EP3998554A4 (en) 2019-06-12 2023-11-15 Shanghai Cambricon Information Technology Co., Ltd METHOD FOR DETERMINING QUANTIZATION PARAMETERS IN A NEURONAL NETWORK AND ASSOCIATED PRODUCTS
JP7146952B2 (ja) 2019-08-23 2022-10-04 安徽寒武紀信息科技有限公司 データ処理方法、装置、コンピュータデバイス、及び記憶媒体

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3434976B2 (ja) 1996-06-28 2003-08-11 三菱電機株式会社 画像処理装置
KR20020008848A (ko) * 2000-03-31 2002-01-31 이데이 노부유끼 로봇 장치, 로봇 장치의 행동 제어 방법, 외력 검출 장치및 외력 검출 방법
JP4048492B2 (ja) * 2003-07-03 2008-02-20 ソニー株式会社 音声対話装置及び方法並びにロボット装置
JP3848319B2 (ja) * 2003-11-11 2006-11-22 キヤノン株式会社 情報処理方法及び情報処理装置
US20050132420A1 (en) * 2003-12-11 2005-06-16 Quadrock Communications, Inc System and method for interaction with television content
US7659915B2 (en) * 2004-04-02 2010-02-09 K-Nfb Reading Technology, Inc. Portable reading device with mode processing
JP4661074B2 (ja) * 2004-04-07 2011-03-30 ソニー株式会社 情報処理システム、情報処理方法、並びにロボット装置
US7913155B2 (en) * 2006-02-15 2011-03-22 International Business Machines Corporation Synchronizing method and system
WO2009126785A2 (en) * 2008-04-10 2009-10-15 The Trustees Of Columbia University In The City Of New York Systems and methods for image archaeology
US8671069B2 (en) * 2008-12-22 2014-03-11 The Trustees Of Columbia University, In The City Of New York Rapid image annotation via brain state decoding and visual pattern mining
US20140039871A1 (en) * 2012-08-02 2014-02-06 Richard Henry Dana Crawford Synchronous Texts

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018169745A (ja) * 2017-03-29 2018-11-01 本田技研工業株式会社 物体認証装置および物体認証方法
JP2018169744A (ja) * 2017-03-29 2018-11-01 本田技研工業株式会社 物体認証装置および物体認証方法
US10861452B2 (en) 2017-03-29 2020-12-08 Honda Motor Co., Ltd. Object authentication device and object authentication method
US10997972B2 (en) 2017-03-29 2021-05-04 Honda Motor Co., Ltd. Object authentication device and object authentication method

Also Published As

Publication number Publication date
US20140249814A1 (en) 2014-09-04
US9508019B2 (en) 2016-11-29

Similar Documents

Publication Publication Date Title
JP2014170295A (ja) 物体認識システム及び物体認識方法
Sainath et al. Exemplar-based sparse representation features: From TIMIT to LVCSR
Wang et al. Using parallel tokenizers with DTW matrix combination for low-resource spoken term detection
JP5752060B2 (ja) 情報処理装置、大語彙連続音声認識方法及びプログラム
US11705105B2 (en) Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same
Cui et al. Multi-view and multi-objective semi-supervised learning for hmm-based automatic speech recognition
Lee et al. Joint learning of phonetic units and word pronunciations for ASR
CN1298172A (zh) 用于中等或大词汇量语音识别的上下文相关声模型
Kadyan et al. A comparative study of deep neural network based Punjabi-ASR system
Lugosch et al. Donut: Ctc-based query-by-example keyword spotting
Swain et al. Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition
Harwath et al. Zero resource spoken audio corpus analysis
Liu et al. Graph-based semisupervised learning for acoustic modeling in automatic speech recognition
JP2015125499A (ja) 音声通訳装置、音声通訳方法及び音声通訳プログラム
Saurav et al. Bangla speech recognition for voice search
Xiao et al. Paired phone-posteriors approach to ESL pronunciation quality assessment
Droppo et al. Context dependent phonetic string edit distance for automatic speech recognition
Irtza et al. A hierarchical framework for language identification
Manjunath et al. Indian Languages ASR: A Multilingual Phone Recognition Framework with IPA Based Common Phone-set, Predicted Articulatory Features and Feature fusion.
Taguchi et al. Learning place-names from spoken utterances and localization results by mobile robot
Ananthi et al. Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
Ballard et al. A multimodal learning interface for word acquisition
Matsui et al. Comparative study of speaker identification methods: dPLRM, SVM and GMM
Gamage et al. An i-vector gplda system for speech based emotion recognition