JP2014170295A - 物体認識システム及び物体認識方法 - Google Patents
物体認識システム及び物体認識方法 Download PDFInfo
- Publication number
- JP2014170295A JP2014170295A JP2013040780A JP2013040780A JP2014170295A JP 2014170295 A JP2014170295 A JP 2014170295A JP 2013040780 A JP2013040780 A JP 2013040780A JP 2013040780 A JP2013040780 A JP 2013040780A JP 2014170295 A JP2014170295 A JP 2014170295A
- Authority
- JP
- Japan
- Prior art keywords
- image
- likelihood
- image model
- object recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title description 19
- 238000004364 calculation method Methods 0.000 abstract description 3
- 238000002474 experimental method Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000006870 function Effects 0.000 description 4
- 238000002790 cross-validation Methods 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 238000003064 k means clustering Methods 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000010276 construction Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000005484 gravity Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000013077 scoring method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/46—Descriptors for shape, contour or point-related descriptors, e.g. scale invariant feature transform [SIFT] or bags of words [BoW]; Salient regional features
- G06V10/462—Salient features, e.g. scale invariant feature transforms [SIFT]
- G06V10/464—Salient features, e.g. scale invariant feature transforms [SIFT] using a plurality of salient features, e.g. bag-of-words [BoW] representations
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Acoustics & Sound (AREA)
- Signal Processing (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Image Analysis (AREA)
- Data Mining & Analysis (AREA)
- Quality & Reliability (AREA)
Abstract
【課題】認識精度を向上させるために、音声情報の他に画像情報を使用する、実用化することが可能な物体認識システムを提供する。
【解決手段】物体認識システム100は、入力された音声の音声認識結果候補及びその尤度を求める音声認識部101と、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部103と、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、該画像尤度を使用して物体認識を行う物体認識部107と、を備える。該画像モデル生成部は、音声認識結果候補の画像モデルを生成する際に、最初に画像モデルデータベース105を検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するように構成されている。
【選択図】図1
【解決手段】物体認識システム100は、入力された音声の音声認識結果候補及びその尤度を求める音声認識部101と、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部103と、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、該画像尤度を使用して物体認識を行う物体認識部107と、を備える。該画像モデル生成部は、音声認識結果候補の画像モデルを生成する際に、最初に画像モデルデータベース105を検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するように構成されている。
【選択図】図1
Description
本発明は、ロボットなどに使用される物体認識システム及び物体認識方法に関する。
ロボットが生活環境下で作業を行う際、ユーザに指示された物体を握持する物体握持タスクを達成することは最低限必要である。このような場合に、ユーザは通常音声で指示を行い、ロボットは音声認識結果に基づいて物体認識を行う。また、ロボットが、周囲の物体の画像情報を取得することも可能である。物体握持タスクのための物体認識手法として、音声情報と画像情報を統合した手法が提案されている(非特許文献1)。しかし、非特許文献1の手法では、物体認識を行う際、音声モデルと画像モデルの両方が必要である。大語彙辞書の発達により音声モデルを保持することは容易であるが、大量の画像モデルを準備するのは極めて困難であり現実的ではない。したがって、非特許文献1の物体認識手法は、実用化されていなかった。
Y.Ozasa et al., "Disambiguation in Unknown Object Detection by Integrating Image and Speech Recognition Confidences" ACCV, 2012
このように、音声情報の他に画像情報を使用する物体認識システム及び物体認識方法は実用化できていなかった。そこで、認識精度を向上させるために、音声情報の他に画像情報を使用する、実用化することが可能な物体認識システム及び物体認識方法に対するニーズがある。
本発明の第1の態様による物体認識システムは、入力された音声の音声認識結果候補及びその尤度を求める音声認識部と、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部と、入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、該画像尤度を使用して物体認識を行う物体認識部と、を備える。該画像モデル生成部は、音声認識結果候補の画像モデルを生成する際に、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するように構成されている。
本態様によれば、ウェッブの情報を利用することにより、音声情報の他に画像情報を使用する、実用化することが可能な物体認識システムが提供される。
第1の態様の第1の実施形態の物体認識システムは、該物体認識部が、該音声認識結果候補の該音声尤度と該音声認識結果候補の該画像尤度とに基づいて物体認識を行うように構成されている。
本実施形態によれば、音声尤度と画像尤度とに基づいて物体認識を行うことにより認識精度を向上することが可能となる。
第1の態様の第2の実施形態の物体認識システムにおいて、該画像モデル生成部は、ウェブの情報から音声認識結果候補の画像モデルを生成する際に、ウェブから求めた画像の特徴量のクラスタリングを行ってクラスタごとに画像モデルを作成するように構成されている。
本実施形態によれば、ウェブの情報から音声認識結果候補の画像モデルを生成する際に、たとえば、グラフ構造を利用する方法と比較して計算量を少なくすることができる。
本発明の第1の態様による物体認識方法は、入力された音声の音声認識結果候補及びその尤度を求めるステップと、音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求めるステップであって、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するステップと、入力された画像の該画像モデルに基づく画像尤度を求めるステップと、該画像尤度を使用して物体認識を行うステップと、を含む。
本態様によれば、ウェッブの情報を利用することにより、音声情報の他に画像情報を使用する、実用化することが可能な物体認識方法が提供される。
図1は、本発明の一実施形態による物体認識システム100の構成を示す図である。物体認識システム100は、音声入力を受け取り、音声認識を行って、認識結果候補とその尤度を求める音声認識部101と、画像モデルを生成する画像モデル生成部103と、画像モデルデータベース105と、画像入力を受け取り、画像モデルを使用して画像認識を行って、認識結果候補に対する尤度を求める画像認識部107と、音声の尤度と画像の尤度に基づいて物体認識を行う物体認識部109と、を備える。音声認識部101は、HMM(隠れマルコフモデル)と接続され、HMMを使用して音声認識を行う。画像モデル生成部103は、画像モデルデータベース105及びウェブと接続され、画像モデルデータベース105及びウェブの情報を利用して画像モデルを生成する。
図2は、物体認識システム100の動作を説明するための流れ図である。
図2のステップS1010において、音声認識部101は、音声入力を受け取り、音声特徴量にはMFCC (Mel Frequency Cepstrum Coefficient)を用い、HMMによって音声認識を行い、認識結果候補の音声尤度
を算出する。ここで、sは入力音声、Λiはi番目の物体の音声モデルを示す。
図2のステップS1020において、音声認識部101は、音声尤度の高い方から所定の順位までの認識結果候補を定める。一例として、所定の順位は、10位とする。10位までの認識結果候補を選択した理由は後で説明する。
図2のステップS1030において、画像モデル生成部103は、選択された10位までの認識結果候補の画像モデルが画像モデルデータベース105に存在するかどうか判断する。存在すれば、ステップS1050に進む。存在しなければ、ステップS1040に進む。
図2のステップS1040において、画像モデル生成部103は、ウェブから画像モデルを生成する。ウェブから画像モデルを生成する方法については、後で詳細に説明する。
図2のステップS1050において、画像モデル生成部103は、画像モデルデータベース105から認識結果候補の画像モデルを取得する。
図2のステップS1070において、物体認識部109は、認識結果候補の音声尤度
と画像尤度
とを以下のロジスティック関数により統合して統合尤度を求める。
ここで、vは画像入力、oiはi番目の画像モデル、α0、α1、α2はロジスティック関数のパラメータを示す。
図2のステップS1080において、物体認識部109は、統合尤度を使用して以下のように物体認識を行う。
図2のステップS1080において、物体認識部109は、統合尤度を使用して以下のように物体認識を行う。
図3は、ウェブから画像モデルを生成する図2のステップS1040の詳細な手順を説明するための流れ図である。
図3のステップS2010において、画像モデル生成部103は、ウェブから認識結果候補の物体の画像を収集する。
図3のステップS2020において、画像モデル生成部103は、画像ごとに局所特徴量SIFT(Scale-Invariant Feature Transform)(Lowe, David G. (1999). "Object recognition from local scale-invariant features". Proceedings of the International Conference on Computer Vision. 2. pp. 1150-1157.)を抽出する。
図3のステップS2030において、画像モデル生成部103は、局所特徴量に基づいて物体ごとにVisual Wordsを求める。具体的に、全画像の局所特徴量SIFTのk-meansクラスタリング(K平均法)を実行し、各クラスタの中心をVisual Wordsとする。Visual Wordsは、代表的な局所パターンに相当する。
図3のステップS2040において、画像モデル生成部103は、各画像を、Visual Wordsを用いてベクトル量子化し、各画像のBag-of-features(BoF)表現を求める。BoF表現は、Visual Wordsの出現頻度(ヒストグラム)によって画像を表現したものである。
図3のステップS2050において、画像モデル生成部103は、認識候補の物体ごとにBoFのk-meansクラスタリングを行い、クラスタごとに画像モデルを作成する。
つぎに、音声認識、画像認識及び統合特徴を用いた認識の評価実験について説明する。
音声認識実験において、Juliusを用いて孤立単語認識を行った。ここで、Julius は、音声認識システムの開発・研究のためのオープンソースの高性能な汎用大語彙連続音声認識エンジンである(http://julius.sourceforge.jp/)。入力特徴ベクトルとしてMFCC (Mel Frequency Cepstrum Coefficient)12次元とその差分(Δ)、エネルギーの合計25次元を用いた。学習データとして、音素バランス文と新聞記事読み上げ(130名、2万分)を用いた。triphoneHMMの状態数は2000、混合数は16で、辞書はウェブから1000語抽出した。男性三人及び女性二人を被験者として20単語の2回の繰り返しの発話をテストデータとした。
表1は、音声による認識率を示す表である。
表1において最低順位とは、誤認識の場合における正解の最低順位である。誤認識した際、最低でも8位以内の認識結果候補のうちに正解が入った。この結果を踏まえて、図2のステップS1020において、10位までの認識結果候補を選択した。
つぎに、画像認識実験について説明する。20物体に対応する画像を、各100枚ずつウェブから取得し、図3の流れ図に示した方法で各物体ごとにクラスタリングを行った。クラスタごとに重心からの距離によってリランキングを行い、モデル構築のために用いる画像が1物体につき80枚になるようにした。各物体で画像モデルに用いなかった残りの20枚の画像のうち1枚をテストデータに用いた。Leave-one-outクロスバリデーションによる認識精度は92.75%となった。
つぎに、式(1)のロジスティック関数を用いた認識実験について説明する。学習データとして、音声及び画像がともにフィットする2000組のデータと、音声及び画像の少なくとも一方がフィットしない2000組のデータを使用した。学習方法は、フィッシャースコアリング法である。実験は、leave-one-outクロスバリデーションによって行った。
表2は、音声による認識率、画像による認識率及び統合認識率を示す表である。
音声または画像のみを用いるよりも、ロジスティック関数によって統合する方が認識率が高くなった。すなわち、音声または画像単体での誤りが統合により解消された。
一般的には、統合特徴を使用した場合の認識精度は、音声認識または画像認識のいずれか一方を使用した場合の認識精度よりも向上することが期待される。しかし、状況によっては、音声尤度の高い方から所定数の音声認識結果候補のうちに必ず正解が含まれることを前提として、音声尤度の高い方から所定数の音声認識結果候補についての画像認識結果のみに基づいて物体認識を行ってもよい。
100…物体認識システム、101・・・音声認識部、103・・・画像モデルデータベース、105・・・画像認識部、107・・・画像認識部、109・・・物体認識部
Claims (4)
- 入力された音声の音声認識結果候補及びその尤度を求める音声認識部と、
音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求める画像モデル生成部と、
入力された画像の該画像モデルに基づく画像尤度を求める画像尤度算出部と、
該画像尤度を使用して物体認識を行う物体認識部と、を備え、
該画像モデル生成部は、音声認識結果候補の画像モデルを生成する際に、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するように構成された物体認識システム。 - 該物体認識部が、該音声認識結果候補の該音声尤度と該音声認識結果候補の該画像尤度とに基づいて物体認識を行うように構成された請求項1に記載の物体認識システム。
- 該画像モデル生成部は、ウェブの情報から音声認識結果候補の画像モデルを生成する際に、ウェブから求めた画像の特徴量のクラスタリングを行ってクラスタごとに画像モデルを作成するように構成されている請求項1または2に記載の物体認識システム。
- 入力された音声の音声認識結果候補及びその尤度を求めるステップと、
音声尤度の高い方から所定数の音声認識結果候補の画像モデルを求めるステップであって、最初に画像モデルデータベースを検索し、画像モデルが該画像モデルデータベースにない場合には、ウェブの情報から画像モデルを生成するステップと、
入力された画像の該画像モデルに基づく画像尤度を求めるステップと、
該画像尤度を使用して物体認識を行うステップと、を含む物体認識方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013040780A JP2014170295A (ja) | 2013-03-01 | 2013-03-01 | 物体認識システム及び物体認識方法 |
US14/190,539 US9508019B2 (en) | 2013-03-01 | 2014-02-26 | Object recognition system and an object recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013040780A JP2014170295A (ja) | 2013-03-01 | 2013-03-01 | 物体認識システム及び物体認識方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2014170295A true JP2014170295A (ja) | 2014-09-18 |
Family
ID=51421398
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2013040780A Pending JP2014170295A (ja) | 2013-03-01 | 2013-03-01 | 物体認識システム及び物体認識方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9508019B2 (ja) |
JP (1) | JP2014170295A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018169745A (ja) * | 2017-03-29 | 2018-11-01 | 本田技研工業株式会社 | 物体認証装置および物体認証方法 |
JP2018169744A (ja) * | 2017-03-29 | 2018-11-01 | 本田技研工業株式会社 | 物体認証装置および物体認証方法 |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10438587B1 (en) * | 2017-08-08 | 2019-10-08 | X Development Llc | Speech recognition biasing |
US11437032B2 (en) * | 2017-09-29 | 2022-09-06 | Shanghai Cambricon Information Technology Co., Ltd | Image processing apparatus and method |
US11450319B2 (en) * | 2017-09-29 | 2022-09-20 | Cambricon (Xi'an) Semiconductor Co., Ltd. | Image processing apparatus and method |
KR102380494B1 (ko) * | 2017-09-29 | 2022-03-29 | 상하이 캠브리콘 인포메이션 테크놀로지 컴퍼니 리미티드 | 화상처리장치 및 방법 |
US11609760B2 (en) | 2018-02-13 | 2023-03-21 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
US11630666B2 (en) | 2018-02-13 | 2023-04-18 | Shanghai Cambricon Information Technology Co., Ltd | Computing device and method |
US11169803B2 (en) | 2018-02-13 | 2021-11-09 | Shanghai Cambricon Information Technology Co., Ltd. | Computing device and method |
CN116991225A (zh) | 2018-02-14 | 2023-11-03 | 上海寒武纪信息科技有限公司 | 处理器的控制装置、方法及设备 |
EP3624020A4 (en) | 2018-05-18 | 2021-05-05 | Shanghai Cambricon Information Technology Co., Ltd | CALCULATION PROCEDURES AND RELATED PRODUCTS |
EP3798850A4 (en) | 2018-06-27 | 2022-03-23 | Shanghai Cambricon Information Technology Co., Ltd | ON-CHIP CODE BREAKPOINT DEBUG METHOD, ON-CHIP PROCESSOR AND CHIP BREAKPOINT DEBUG SYSTEM |
EP3757896B1 (en) | 2018-08-28 | 2023-01-11 | Cambricon Technologies Corporation Limited | Method and device for pre-processing data in a neural network |
WO2020062392A1 (zh) | 2018-09-28 | 2020-04-02 | 上海寒武纪信息科技有限公司 | 信号处理装置、信号处理方法及相关产品 |
CN111385462A (zh) | 2018-12-28 | 2020-07-07 | 上海寒武纪信息科技有限公司 | 信号处理装置、信号处理方法及相关产品 |
US20200334522A1 (en) | 2019-04-18 | 2020-10-22 | Cambricon Technologies Corporation Limited | Data processing method and related products |
CN111832737B (zh) | 2019-04-18 | 2024-01-09 | 中科寒武纪科技股份有限公司 | 一种数据处理方法及相关产品 |
US11676028B2 (en) | 2019-06-12 | 2023-06-13 | Shanghai Cambricon Information Technology Co., Ltd | Neural network quantization parameter determination method and related products |
EP3998554A4 (en) | 2019-06-12 | 2023-11-15 | Shanghai Cambricon Information Technology Co., Ltd | METHOD FOR DETERMINING QUANTIZATION PARAMETERS IN A NEURONAL NETWORK AND ASSOCIATED PRODUCTS |
JP7146952B2 (ja) | 2019-08-23 | 2022-10-04 | 安徽寒武紀信息科技有限公司 | データ処理方法、装置、コンピュータデバイス、及び記憶媒体 |
Family Cites Families (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3434976B2 (ja) | 1996-06-28 | 2003-08-11 | 三菱電機株式会社 | 画像処理装置 |
KR20020008848A (ko) * | 2000-03-31 | 2002-01-31 | 이데이 노부유끼 | 로봇 장치, 로봇 장치의 행동 제어 방법, 외력 검출 장치및 외력 검출 방법 |
JP4048492B2 (ja) * | 2003-07-03 | 2008-02-20 | ソニー株式会社 | 音声対話装置及び方法並びにロボット装置 |
JP3848319B2 (ja) * | 2003-11-11 | 2006-11-22 | キヤノン株式会社 | 情報処理方法及び情報処理装置 |
US20050132420A1 (en) * | 2003-12-11 | 2005-06-16 | Quadrock Communications, Inc | System and method for interaction with television content |
US7659915B2 (en) * | 2004-04-02 | 2010-02-09 | K-Nfb Reading Technology, Inc. | Portable reading device with mode processing |
JP4661074B2 (ja) * | 2004-04-07 | 2011-03-30 | ソニー株式会社 | 情報処理システム、情報処理方法、並びにロボット装置 |
US7913155B2 (en) * | 2006-02-15 | 2011-03-22 | International Business Machines Corporation | Synchronizing method and system |
WO2009126785A2 (en) * | 2008-04-10 | 2009-10-15 | The Trustees Of Columbia University In The City Of New York | Systems and methods for image archaeology |
US8671069B2 (en) * | 2008-12-22 | 2014-03-11 | The Trustees Of Columbia University, In The City Of New York | Rapid image annotation via brain state decoding and visual pattern mining |
US20140039871A1 (en) * | 2012-08-02 | 2014-02-06 | Richard Henry Dana Crawford | Synchronous Texts |
-
2013
- 2013-03-01 JP JP2013040780A patent/JP2014170295A/ja active Pending
-
2014
- 2014-02-26 US US14/190,539 patent/US9508019B2/en active Active
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018169745A (ja) * | 2017-03-29 | 2018-11-01 | 本田技研工業株式会社 | 物体認証装置および物体認証方法 |
JP2018169744A (ja) * | 2017-03-29 | 2018-11-01 | 本田技研工業株式会社 | 物体認証装置および物体認証方法 |
US10861452B2 (en) | 2017-03-29 | 2020-12-08 | Honda Motor Co., Ltd. | Object authentication device and object authentication method |
US10997972B2 (en) | 2017-03-29 | 2021-05-04 | Honda Motor Co., Ltd. | Object authentication device and object authentication method |
Also Published As
Publication number | Publication date |
---|---|
US20140249814A1 (en) | 2014-09-04 |
US9508019B2 (en) | 2016-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2014170295A (ja) | 物体認識システム及び物体認識方法 | |
Sainath et al. | Exemplar-based sparse representation features: From TIMIT to LVCSR | |
Wang et al. | Using parallel tokenizers with DTW matrix combination for low-resource spoken term detection | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
US11705105B2 (en) | Speech synthesizer for evaluating quality of synthesized speech using artificial intelligence and method of operating the same | |
Cui et al. | Multi-view and multi-objective semi-supervised learning for hmm-based automatic speech recognition | |
Lee et al. | Joint learning of phonetic units and word pronunciations for ASR | |
CN1298172A (zh) | 用于中等或大词汇量语音识别的上下文相关声模型 | |
Kadyan et al. | A comparative study of deep neural network based Punjabi-ASR system | |
Lugosch et al. | Donut: Ctc-based query-by-example keyword spotting | |
Swain et al. | Study of feature combination using HMM and SVM for multilingual Odiya speech emotion recognition | |
Harwath et al. | Zero resource spoken audio corpus analysis | |
Liu et al. | Graph-based semisupervised learning for acoustic modeling in automatic speech recognition | |
JP2015125499A (ja) | 音声通訳装置、音声通訳方法及び音声通訳プログラム | |
Saurav et al. | Bangla speech recognition for voice search | |
Xiao et al. | Paired phone-posteriors approach to ESL pronunciation quality assessment | |
Droppo et al. | Context dependent phonetic string edit distance for automatic speech recognition | |
Irtza et al. | A hierarchical framework for language identification | |
Manjunath et al. | Indian Languages ASR: A Multilingual Phone Recognition Framework with IPA Based Common Phone-set, Predicted Articulatory Features and Feature fusion. | |
Taguchi et al. | Learning place-names from spoken utterances and localization results by mobile robot | |
Ananthi et al. | Speech recognition system and isolated word recognition based on Hidden Markov model (HMM) for Hearing Impaired | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
Ballard et al. | A multimodal learning interface for word acquisition | |
Matsui et al. | Comparative study of speaker identification methods: dPLRM, SVM and GMM | |
Gamage et al. | An i-vector gplda system for speech based emotion recognition |