JPH06250686A - 音声認識モデル学習方法 - Google Patents

音声認識モデル学習方法

Info

Publication number
JPH06250686A
JPH06250686A JP5033236A JP3323693A JPH06250686A JP H06250686 A JPH06250686 A JP H06250686A JP 5033236 A JP5033236 A JP 5033236A JP 3323693 A JP3323693 A JP 3323693A JP H06250686 A JPH06250686 A JP H06250686A
Authority
JP
Japan
Prior art keywords
learning
phoneme
recognition
data
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP5033236A
Other languages
English (en)
Inventor
Otoya Shirotsuka
音也 城塚
Noriya Murakami
憲也 村上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
N T T DATA TSUSHIN KK
NTT Data Corp
Original Assignee
N T T DATA TSUSHIN KK
NTT Data Communications Systems Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by N T T DATA TSUSHIN KK, NTT Data Communications Systems Corp filed Critical N T T DATA TSUSHIN KK
Priority to JP5033236A priority Critical patent/JPH06250686A/ja
Publication of JPH06250686A publication Critical patent/JPH06250686A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】 音声認識システムの認識性能をより向上させ
ることが可能な音声認識モデル学習方法を提供する。 【構成】 音声認識システム1の認識モデル学習部6
に、認識対象データである認識辞書中の単語を構成する
音素の種類を単語別に調べる機能と、学習用テキストデ
ータ4を解析することによって、予め学習に使用可能な
全学習用音声データ2の音素毎の音素環境別の出現個数
を、認識対象データ中の単語を構成する音素について調
べる機能と、学習用テキストデータの解析によって得ら
れた各音素の音素環境別の出現個数から、なるべく認識
対象単語と一致する文脈の長い音素の音声データだけで
学習を行なうように認識単語毎の音素モデルの学習用音
声データを選び、音素モデルの学習を行なう機能とを持
たせる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は、音声認識システムにお
ける音声認識モデルの学習方法に関し、特に、予め認識
辞書中の単語を構成する音素と、それに対応する学習用
音声データ中の音素の出現個数を音素環境の一致する長
さ別に調べ、一致する音さとその出現個数に基づいて、
認識単語を構成する音素モデルの学習に使用する音声デ
ータの量を制限することにより、認識性能を向上させる
のに好適な音声認識モデル学習方法に関する。
【0002】
【従来の技術】従来の音素単位の学習と単語単位の認識
を行なう音声認識システムは、単語単位の学習と認識を
行なう音声認識システムに比べて、学習単位の種類が少
数に限定されるために学習用音声データの汎用性が高い
という長所がある半面、作成された単語の認識モデルの
性能が劣るという短所がある。これは単語の認識モデル
を構成する音素の認識モデルの学習に、音素の前後に存
在する先行音素と後続音素の環境を考慮せず、存在する
全ての当該音声データを学習に使用するために、認識単
語中の各音素のそれぞれの音素環境による音素の音声パ
タン上の変形を学習することができず、結果としてモデ
ルのパタン識別性能が低下することによる。この種の音
素単位の学習と単語単位の認識を行なう音声認識システ
ムを紹介する文献として、リー,ケー.エフ.,ラージ−ボ
キャブラリィ スピーカ−インデペンデント コンティ
ニュアス スピーチ リコグニション:ザ スフィンク
スシステム,ピーエイチデー ディサテーション,コン
ピュータ サイエンス デパートメント,カーネギー
メロン ユニバーシティ,エイプリル 1986(Lee,
K.F.,Large-Vocabulary Speaker-Independent Continuo
us Speech Recognition:The SPHINX System,PhD disse
rtation,Computer Science Department,Carnegie Mello
n University,April 1986)が挙げられる。この問題を克
服する方法として、音素の認識モデルにトライフォン型
の文脈依存型音素モデルや単語依存型音素モデルを使用
することが提案されてきた。トライフォン型の文脈依存
型音素モデルは、音素というカテゴリを先行する1音素
と後続の1音素の音素環境の違いによって区別し、同じ
音素でも異なる音素環境にあれば別の音素として扱うモ
デルである。例えば、「朝日」という単語は「a」
「s」「a」「h」「i」という5個の音素表記記号で
表わされるが、トライフォンで表記する場合、「#a
s」「asa」「sah」「ahi」「hi#」という
5個の音素表記で表わされる。このトライフォンの音素
表記の「#」は、単語順、単語末の無音(ポーズ)を表
わし、従って「朝日」の語順の「a」は、先行の音素
「a」と後続の音素「s」に挟まれ、「#as」と表わ
される。同様に「朝日」の「s」は、先行の音素「a」
と後続の音素「a」に挟まれており、「asa」と表わ
される。N種類の音素があれば、Nの3乗の種類のトラ
イフォンが理論的に存在する。このモデルは、バール,
エル.アール.,バキス,アール.,コーエン.ピー.エス.,コ
ール,エイ.ジー.,ジュリニク,エフ.,ルイス,ビー,エ
ル.,"ファサー リザルト オン ザ リコグニション
オブ ア コンティニュアス スピーチ リコグニシ
ョン”,アイ・イー・イー・イー アイ・シー・エイ・
エス・エス・ピー,エイプリル 1984(Bahl,L.R.,B
akis,R.,Cohen.P.S.,Cole,A.G.,Jelinek,F.,Lewis,B,
L.,"Further Results on the Recognitionof a continu
ous Speech Recognition",IEEE ICASSP,April 1984)に
おいて提案されている。一方、単語依存型音素モデル
は、単語を構成する音素の認識モデルの学習に、その単
語の音声データのみを使用するものであり、結果とし
て、それらの音素の認識モデルは、学習用音声データの
音素の全環境が単語を構成する音素の環境と全一致する
学習用音声データのみで学習した認識モデルであり、一
般的な前後1音素の一致する音素を1カテゴリとするト
ライフォンモデルよりも性能の高い認識モデルであると
いえる。これは、チョー,ワイ.,シュワルツ,アール.,ル
ーカス,エス.,キンボール,オー.,プライス,ピー.,カバ
ラ,エフ.,ダンハム,エム.,クラスナー,エム.,マクール,
ジエイ.,"ザ ロール オブ ワード−デペンデントコ
ーティキュレイトリイ イフェクト イン ア ホウニ
ム−ベースド スピーチ リコグニション システム”
アイ・イー・イー・イー アイ・シー・エイ・エス・エ
ス・ピー,エイプリル 1986(Chow,Y.,Schwarts,
R.,Roucos,S.,Kimball,O.,Price,P.,Kubala,F.,Dunham,
M.,Krasner,M.,Makhoul,J.,"The Role ofWord-Dependen
t Coarticulatory Effects in a Phoneme-Based Speech
Recognition System",IEEE ICASSP,April 1986)におい
て提案された。このモデルは、より詳細な音素の環境を
表現できるため、トライフォン型の文脈依存型音素モデ
ルより優れた能力を持っているが、学習用音声データと
して認識単語の音声データがなければ学習が行なえず、
充分な量の学習用音声データが集めることが難しいとい
う問題がある。このため、学習データ中に認識語彙中の
単語の音声データがモデルの学習に充分な数あるとき、
その単語を構成する音素の認識モデルに単語依存型音素
モデルを使用し、充分な数存在しない場合はトライフォ
ン型の文脈依存型音素モデルを使用するという方法をと
る手法が提案されている。この方法は例えば、マービ
ィ,エイチ.,ウィントルー,エム.,”1000−ワード
スピーカ−インデペンデント コンティニュアス−スピ
ーチ リコグニション ユージング ヒドゥン マルコ
フ モデル”,アイ・イー・イー・イー アイ・シー・
エイ・エス・エス・ピー,エイプリル 1988(Murve
it,H.,Weintroub,M.,"1000-Word Speaker-Independent
Continuous-speech Recognition Using Hidden Marcov
Models",IEEE ICASSP,April 1988)に述べられている。
【0003】
【発明が解決しようとする課題】上記従来技術では、ど
の程度、音素の認識モデルに音素の環境を反映させるか
によって、そのモデルの性能と学習用音声の汎用性が変
化する。一般に認識単位に高い性能をもたせるために
は、同一音素を音素の文脈によってより細かく分類し、
分類されたクラス毎に別々の認識モデルを用意して学習
することが必要である。しかし、この方法によって作成
された認識モデルは、認識モデルが表わす音素がその音
素環境によって細かく分類されているほど、認識モデル
性能が高いが、逆に、モデル化しなければならない音素
の種類が増えるために、1認識モデルあたりの学習用音
声データ量が少なくなり、認識モデルの性能が低下する
という問題がある。従来、この問題を改善するための方
法として学習用音声データ中に認識語彙中の単語の音声
データがモデルの学習に充分な数だけ存在するとき、そ
の単語を構成する音素のモデルに単語依存型音素モデル
を使用し、充分な数の学習用音声データが存在しない場
合は両隣の音素を考慮したトライフォン型の文脈依存型
音素モデルを使用するという方法が提案されている。こ
れは、モデルの記述力に優れた単語依存型音素モデル
と、学習の容易性に優れたトライフォン型の文脈依存型
音素モデルを組み合わせ、モデルの学習に使用できるデ
ータ量の多少によって、学習に使用する音素モデルの単
位を選択することにより、与えられた学習用音声データ
における音素毎の学習用音声データセットの最適化を行
なうものである。しかし、この方法では、学習用音声デ
ータの量によって選択できる音素モデルの種類が、全文
脈の一致するモデルと前後両隣の音素が一致するトライ
フォン型の文脈依存型音素モデルの2種類だけであり、
学習用音声データ中に、学習したい単語と非常に類似し
た単語の音声データが大量に含まれていても、類似単語
中の音声データを学習に優先的に使用することができな
いという問題がある。本発明の目的は、このような問題
点を改善し、認識モデルの学習用音声データが不足する
ことを防ぎながら、従来より長い音素の環境を反映した
音素モデルを学習に使用することによって、従来より良
好な認識性能を可能にする音声認識モデル学習方法を提
供することにある。
【0004】
【課題を解決するための手段】上記目的を達成するた
め、本発明の音声認識モデル学習方法は、音声認識シス
テムにおいて、認識対象データである認識辞書中の単語
を構成する音素の種類を単語別に調べる機能(図2の認
識対象データ解析部21)と、学習用テキストデータを
解析することによって、予め学習に使用可能な全学習音
声データの音素毎の音素環境別の出現個数を、認識対象
データ中の単語を構成する音素について調べる機能(学
習データ解析部22)と、学習用テキストデータの解析
によって得られた各音素の音素環境別の出現個数から、
なるべく認識対象単語と一致する文脈の長い音素の音声
データだけで学習を行なうように認識単語毎の音素モデ
ルの学習用音声データを選び、音素モデルの学習を行な
う機能(学習データ選択部23)とから構成された認識
モデル学習部(認識モデル学習部6)を有することに特
徴がある。
【0005】
【作用】本発明においては、予め認識対象データである
認識辞書を分析し、認識対象データに含まれる音素の種
類を単語別に調べ、記録する。次に、認識対象データに
含まれる音素について、学習に使用可能な学習用音声デ
ータに対応する学習用テキストデータを分析して、一致
する音素環境の長さと、その出現数を記録する。次に、
記録してある認識辞書中の単語の音素毎の、学習用音声
データ中に含まれる、一致する音素環境の長さ別の出現
頻度データを使用して、学習データ中の音素が、どの長
さまで、辞書中の単語の音素と音素環境が一致するもの
を学習に使用するかを決定する。そして、認識単語の音
素モデルの学習時に、音素環境の一致が決定した長さ以
上の音素の音声データだけを使用する。これにより、認
識モデルの学習用音声データの不足を防ぐと共に、従来
より長い音素の環境を反映した音素モデルを学習に使用
し、認識性能をより向上させることができる。
【0006】
【実施例】以下、本発明の一実施例を図面により説明す
る。図1は、本発明の一実施例における音声認識システ
ムの構成を示すブロック図、図2は本発明の一実施例に
おける認識モデル学習部の構成を示すブロック図であ
る。図1において、1は与えられた音声の認識を行なう
と共に、認識に用いる認識モデルの学習を行なう音声認
識システム、2は学習用音声データ、3は音声を入力す
る入力端子、4は学習用の音声データに対応した学習用
テキストデータ、5は学習用音声データまたは入力端子
3より入力された認識用の音声データを処理して、その
特徴パラメータを抽出する前処理部、6は抽出された音
声の特徴パラメータと、学習音声データに対応したテキ
ストデータを使用して、認識モデルの学習を行なう認識
モデル学習部、7は認識モデル学習部6で作成される認
識モデル、8は認識モデル7を参照して、入力端子3よ
り入力される認識用音声データを、抽出された音声の特
徴パラメータと作成された認識モデルを使用して行なう
音声認識部、9は音声認識部8の認識結果を出力する出
力端子である。このような構成により、本実施例の音声
認識システム1は、入力された既知の音声を使用した認
識モデルの学習、および、入力された未知の音声の認識
を行なう。すなわち、認識時には音声認識部8により、
認識モデル7を使用して、入力端子3から入力された音
声の認識を行ない、出力端子9より出力する。また、学
習時には、学習用音声データとそれに対応する学習用テ
キストデータに基づいて認識モデル学習部6により学習
を行ない、認識モデル7を作成する。
【0007】以下、図2を用いて、認識モデル学習部6
について述べる。本実施例においては、認識モデル学習
部は、認識対象の全単語が音素を表わす記号で表記され
た認識単語辞書を解析して、認識単語に含まれる音素の
種類を単語毎に記録する認識対象データ解析部21と、
同じく音素を表わす記号で表記された、学習用音声デー
タに対応する学習用テキストデータを解析して、認識単
語に含まれる音素について、その出現個数を認識単語の
音素環境との一致度別に調べる学習データ解析部22
と、学習データ解析部22が求めた、認識単語の音素環
境との一致度別の音素の出現個数に基づいて、認識単語
を構成する各音素の学習に、対応する学習用音声データ
中の音素それぞれについて、学習に使用するかしないか
を自動的に判断しながら、音素の認識モデルの学習を行
なう学習データ選択部23から構成されている。
【0008】次に、図2で示した認識対象データ解析部
21の処理動作を図3により詳述する。図3において、
認識対象の全単語が音素を表わす記号で表記された認識
単語辞書31が単語毎に解析され、学習データ解析結果
テーブル32に、認識単語を構成する音素が単語毎に書
き出される。図3では、例として、「小山」(koya
ma)という認識辞書中の単語が解析されて、学習デー
タ解析結果テーブル14にkoyamaという5種類、
6個の音素表記記号が書き出される処理動作を表わして
いる。
【0009】次に、本実施例の学習データ解析部22の
処理動作を図4により詳述する。図4において、学習用
テキストデータ4が解析され、学習データ解析結果テー
ブル32中の各音素について、学習用テキストデータ中
に出現する同じ種類の個数が、認識単語の音素環境と学
習用テキストデータ中の単語の音素環境の一致度の別ご
とに数えられ、それ結果が学習データ解析結果テーブル
32に記録される。図4では、例として、「小山」(k
oyama)という認識辞書中の単語の音素yについ
て、学習用テキストデータ中の一致する音素が調べら
れ、その中の単語「小山田」(oyamada)中の
「o」という2個の先行音素と「ama」という3個の
後続音素が認識単語の音素環境と一致する音素「y」
(o+y+ama)、同様に「おやつ」(oyats
u)という単語中の「o」という1個の先行音素と
「a」という後続音素が認識単語の音素環境と一致する
音素「y」(o+y+a)、「嫌味」(iyami)と
いう単語中の「a」という後続音素が認識単語の音素環
境と一致する音素「y」(+y+a)が存在することが
わかり、学習データ解析結果テーブル32の認識単語
「小山」の「y」に対応する欄にそれらの音素環境が明
記された音素とその出現個数が記述される処理動作が表
わされている。
【0010】次に、本実施例の学習データ選択部23の
処理動作を図5により詳述する。図5において、各認識
単語を構成する音素のそれぞれに対応する、学習用テキ
ストデータ中の音素の一致する音素環境の長さ別のリス
トとその出現個数を評価関数E51によって評価し、認
識単語中の各音素の学習に対応する学習用音声データ中
の音素を使用するか否かを決定する。次に、学習実行部
52において、評価関数E51が、学習に使用すると判
断した学習用テキストデータ2中の音素に対応する学習
用音声データ2’のみを使用して認識単語の音素モデル
の学習を行なう。図5では、評価関数E51によって認
識単語「小山」(koyama)の音素「y」に対応す
る学習用テキストデータ中の音素「ko+y+am
a」、「ko+y+am」、「ko+y+a」、「o+
y+a」、「+y+a」、「+y+」が評価され、音素
環境の一致の長い「ko+y+ama」、「ko+y+
am」、「ko+y+a」の3セットの音素を学習に使
用し、「o+y+a」、「+y+a」、「+y+」の3
セットの音素は使用しないという情報が学習データ解析
結果テーブル32に記入され、学習実行部52におい
て、その情報を使用して、音素環境の一致の長い「ko
+y+ama」、「ko+y+am」、「ko+y+
a」の3セットの音素の音声データのみを使用して、音
素モデルの連結学習が行なわれる処理動作が表わされて
いる。
【0011】次に、認識単語中の各音素と対応する、学
習用テキストデータ中の音素を評価して、学習用の音声
データとして使用するか否かを判断する評価関数E51
について述べる。評価関数E51は、認識単語中の音素
と対応する音素の音素環境の一致する長さとその出現個
数を調べて、認識単語の音素と音素環境の異なる学習用
音声デーータを追加することによる認識モデル学習度の
低下と、学習用音声データを追加したことによる認識モ
デルの学習度の向上の、二つの学習度の変化要因を考慮
して、与えられた学習用音声データから、それぞれの音
素の認識モデルの学習に最適な音素データを選び出す評
価関数である。具体的な例として以下の関数を挙げる。 学習可能な音素データの数が50個以上あるとき、
【数1】 学習可能な音素データの数が50個未満のとき、 L≧0 以上の式が音素データの評価関数である。Mは認識単語
と一致する音素の環境の長さの最大、関数P(L)は、
学習データ中に存在する、長さLの認識単語と一致する
音素環境を持った音素データの数を返す関数である。こ
の評価関数の狙いは、学習データの総量を音素の認識モ
デルの学習に使用するデータ個数が50個以上存在する
場合、一致する音素環境のより長いもののみ50個を学
習に使用し、学習に使用できるデータ個数が50個以下
の場合は、全ての学習データを音素環境の長さの違いに
関わらず学習に使用することにより、学習データの不足
を避けながら、音素モデルの学習度を向上させることで
ある。以上のように評価関数を満たす学習用音素データ
のみを学習時に使用することにより、本学習方法が達成
される。
【0012】
【発明の効果】本発明によれば、予め認識辞書中の単語
を構成する音素と、それに対応する、学習データ中の音
素の出現個数を音素環境の一致する長さ別に調べ、認識
辞書中の単語を構成する音素の音素環境と一致する度合
とその出現回数に基づいて、認識単語を構成する音素モ
デルの学習に使用する学習用音声データの量を制限する
ことによって、学習データの不足という問題を引き起こ
すことなしに音素モデルの学習度を向上させることがで
きる。また、本発明は、音素モデルの連結によって単語
の認識モデルを作成し、連結学習によって音素モデルの
学習を行なう音声認識システムにおいて、認識モデルの
認識性能の向上に効果がある。
【図面の簡単な説明】
【図1】本発明の一実施例における音声認識システムの
構成を示すブロック図である。
【図2】本発明の一実施例における認識モデル学習部の
構成を示すブロック図である。
【図3】本発明の一実施例における認識対象データ解析
部の処理動作を示す図である。
【図4】本発明の一実施例における学習データ解析部の
処理動作を示す図である。
【図5】本発明の一実施例における学習データ選択部の
処理動作を示す図である。
【符号の説明】
1 音声認識システム 2 学習用音声データ 2’ 学習用音声データ 3 入力端子 4 学習用テキストデータ 5 前処理部 6 認識モデル学習部 7 認識モデル 8 音声認識部 9 出力端子 21 認識対象データ解析部 22 学習データ解析部 23 学習データ選択部 31 認識単語辞書 32 学習データ解析結果テーブル 51 評価関数E 52 学習実行部

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】 認識の最小単位として音素の認識モデル
    を使用し、音素の認識モデルを連結して認識辞書中の単
    語の認識モデルを作成し、複数の音素が連続的に発声さ
    れる連続音声の各音素に対応する音声区間を自動的に検
    出して、該音声区間のデータを音素の認識モデルの学習
    に使用する音声認識モデル学習方法において、予め認識
    辞書中の単語を構成する音素と、該音素に対応する、学
    習用音声データ中の音素の出現個数を音素環境の一致す
    る長さ別に調べ、一致する長さと出現個数に基づいて、
    認識単語を構成する音素の認識モデルの学習に使用す
    る、音声データの量を制限することを特徴とする音声認
    識モデル学習方法。
JP5033236A 1993-02-23 1993-02-23 音声認識モデル学習方法 Pending JPH06250686A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP5033236A JPH06250686A (ja) 1993-02-23 1993-02-23 音声認識モデル学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP5033236A JPH06250686A (ja) 1993-02-23 1993-02-23 音声認識モデル学習方法

Publications (1)

Publication Number Publication Date
JPH06250686A true JPH06250686A (ja) 1994-09-09

Family

ID=12380829

Family Applications (1)

Application Number Title Priority Date Filing Date
JP5033236A Pending JPH06250686A (ja) 1993-02-23 1993-02-23 音声認識モデル学習方法

Country Status (1)

Country Link
JP (1) JPH06250686A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248975A (ja) * 1995-03-09 1996-09-27 Nec Corp 標準パターン学習装置およびこの装置を使用した音声認識装置
WO2006095853A1 (ja) * 2005-03-11 2006-09-14 National University Corporation NARA Institute of Science and Technology 学習処理方法、学習処理装置、および、プログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08248975A (ja) * 1995-03-09 1996-09-27 Nec Corp 標準パターン学習装置およびこの装置を使用した音声認識装置
WO2006095853A1 (ja) * 2005-03-11 2006-09-14 National University Corporation NARA Institute of Science and Technology 学習処理方法、学習処理装置、および、プログラム
JP2006252333A (ja) * 2005-03-11 2006-09-21 Nara Institute Of Science & Technology データ処理方法、データ処理装置およびそのプログラム

Similar Documents

Publication Publication Date Title
CN108305634B (zh) 解码方法、解码器及存储介质
Gaikwad et al. A review on speech recognition technique
US8731928B2 (en) Speaker adaptation of vocabulary for speech recognition
US5995928A (en) Method and apparatus for continuous spelling speech recognition with early identification
EP1800293B1 (en) Spoken language identification system and methods for training and operating same
Chengalvarayan et al. HMM-based speech recognition using state-dependent, discriminatively derived transforms on Mel-warped DFT features
Lee et al. Improved acoustic modeling for large vocabulary continuous speech recognition
EP1355295B1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP2002507010A (ja) 同時に起こるマルチモード口述のための装置及び方法
JP2001503154A (ja) 音声認識システムにおける隠れマルコフ音声モデルの適合方法
KR20010102549A (ko) 화자 인식 방법 및 장치
Shaikh Naziya et al. Speech recognition system—a review
Kumar et al. A comprehensive view of automatic speech recognition system-a systematic literature review
US20020082829A1 (en) Two-tier noise rejection in speech recognition
JP2955297B2 (ja) 音声認識システム
US5764851A (en) Fast speech recognition method for mandarin words
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP5196114B2 (ja) 音声認識装置およびプログラム
JPH06250686A (ja) 音声認識モデル学習方法
Kuzdeuov et al. Speech command recognition: Text-to-speech and speech corpus scraping are all you need
Jalalvand et al. A classifier combination approach for Farsi accents recognition
Nakamura et al. Analysis of spectral space reduction in spontaneous speech and its effects on speech recognition performances.
Pisarn et al. An HMM-based method for Thai spelling speech recognition
JPH08241096A (ja) 音声認識方法