JPH0962288A - 音声認識装置および標準パタンの学習方法 - Google Patents

音声認識装置および標準パタンの学習方法

Info

Publication number
JPH0962288A
JPH0962288A JP7220015A JP22001595A JPH0962288A JP H0962288 A JPH0962288 A JP H0962288A JP 7220015 A JP7220015 A JP 7220015A JP 22001595 A JP22001595 A JP 22001595A JP H0962288 A JPH0962288 A JP H0962288A
Authority
JP
Japan
Prior art keywords
standard pattern
voice
standard
pattern
learning
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP7220015A
Other languages
English (en)
Inventor
Akio Amano
明雄 天野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP7220015A priority Critical patent/JPH0962288A/ja
Publication of JPH0962288A publication Critical patent/JPH0962288A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【目的】本発明の目的は、信頼性高く音声パタンの変動
に対応可能な標準パタンを用いて高精度な音声認識を実
現することにある。 【構成】標準的学習処理では従来の標準パタンの学習方
法を用いて、音声パタン変動の知識に合致する標準パタ
ンも含めて標準パタンの学習を行なう。できあがった各
標準パタンについて、分布の広がりを測定する。測定さ
れた分布の広がりが変動知識に基づいて複数化された標
準パタンの分布の広がりよりも大きい場合には、この標
準パタンを複数化し、個々の標準パタンの分布の広がり
が、知識に基づいて複数化された標準パタンの分布の広
がりより大きくならず、全体としてバランスのとれた標
準パタンとなるようにする。 【効果】本発明によれば、音声パタンの変動に関する普
遍的な知識にもしたがったバランスのとれた標準パタン
を作成することができるので高精度な音声認識が可能と
なる。

Description

【発明の詳細な説明】
【0001】
【産業上の利用分野】本発明は音節や音韻(子音、母
音)等の音声言語表現上の基本的な単位を標準パタンと
して用いるような音声認識装置、およびその標準パタン
の作成方法に関する。
【0002】
【従来の技術】音声認識装置における標準パタンの単位
としては、単語単位、音節単位、音韻単位(母音、子音
まで細分化した単位)などいくつかの単位が考えられ
る。音声認識装置においてどの様な単位の標準パタンを
用いるかは、対象とする認識対象語彙数の大小、標準パ
タンに持たせる音声現象表現能力、標準パタンの学習に
使用できる学習用音声データの量などを考慮のうえ決定
する。
【0003】まず、標準パタンの個数の観点から考え
る。例えば、10数字のみを認識対象とするような小語
彙の音声認識装置では、単語単位(一桁数字単位)の標
準パタンを用いても、標準パタンの個数は10個程度で
すむ。しかしながら、日本語の任意の文章を認識対象に
したり、大語彙の単語認識(例えば日本人の全人名等)
を対象とする音声認識装置では、単語単位に標準パタン
を用意することは個数が多くなりすぎて実際問題として
不可能となる。そこで、標準パタンを音節や音韻の単位
で用意し、これを連結組合せて単語の標準パタンを作成
したり、あるいは音節単位に認識を行なった結果を後処
理して単語認識結果や文認識結果を得るようにする。日
本語の場合、音節の数は約120、また音韻の数は約4
0であるので、比較的少ない個数の標準パタンを用意す
るだけで全ての日本語に対応できることになる。すなわ
ち、小さい音声単位を用いれば少ない個数の標準パタン
によって広い範囲の認識対象をカバーでき、大きい音声
単位を用いると数多くの標準パタンが必要となる。
【0004】次に標準パタンの音声現象表現能力につい
て考える。前述のように日本語音声は120個程度の音
節により原理的には表現可能であるが、同じ音節でも先
行する音節、後続する音節によって音声パタンは大きく
変動する。また、同じ音節でも話者によって音声パタン
は大きく変形する。音節単位や音韻単位の標準パタンで
は、本来は前後環境によって変化する音声パタンを唯一
の標準パタンで代表することになるので、その表現能力
にはおのずと限界が生ずる。一方、単語のような大きな
単位で標準パタンを登録すると前後環境に基づく音節や
音韻のパタンの変動は、単語標準パタンの中に取り込ま
れ結果として音声現象を忠実に表現する標準パタンとな
る。すなわち、音声現象(特に前後環境に基づく音声パ
タンの変動)の表現能力の観点から考えると標準パタン
は大きい音声単位(例えば単語)を用いるのが望まし
い。
【0005】次に利用可能な学習用音声データの量の観
点から考える。前述のように小さい音声単位を用いると
標準パタンの個数は少なく抑えられ、大きな単位を用い
ると標準パタンの総数は多くなる。したがって、標準パ
タンの学習に利用できる学習用音声データの総量が一定
であるとすると、小さな音声単位を用いたほうが各標準
パタンあたりの学習用音声データの量が多くなり、信頼
性の高い標準パタンを作成できる。また、信頼性の程度
を同程度として考えると、大きい単位の標準パタンを用
いる場合の方が学習用音声データの必要量が大きくな
る。
【0006】上記の状況により、認識対象語彙数が少な
いときには単語単位の標準パタン、対象語彙数が多いと
きには音節、音韻あるいはそれに準じる単位の標準パタ
ンを用いるのが常識的考え方となっている。
【0007】従来技術の中にはこれらの改良として、前
後環境に依存して異なる標準パタンを用いる手法、さら
に前後環境に依存して異なる標準パタンを作成する際に
信頼性を高めるためにクラスタリングの技法を用いる手
法などがある。以下従来技術について簡単に説明する。
【0008】前後環境に依存して異なる標準パタンを用
いる手法としては、Kluwer Academic Publishers、 Nor
wel、 MA、 1989 “Automatic Speech Recognition”、
95頁-97頁に記載のような例がある。この例は英語を対
象としたもので認識の基本単位には英語の音韻(Phone)
を採用し、前後の音韻に依存して異なる音韻標準パタン
を持つようにしている。このように標準パタンを用意す
ることにより前後環境に基づく音声パタンの変動による
誤認識を削減することができる。英語の音韻は約40ほ
どあり、前後環境に依存して異なる標準パタンを持つよ
うにすると、その総数は組合せてきに大きくなり、数千
を超える。このような膨大な個数の標準パタンを信頼性
高く学習するためには膨大な量の学習用音声サンプルが
必要となり、現実的でない。本従来例ではこの問題に対
応するために類似の前後環境をまとめて扱い、標準パタ
ンの総数を抑える工夫をしている。
【0009】日本語の場合の同様の従来例として、電子
情報通信学会論文誌、D2、Vol.J76-D-2、No.10、PP.215
5-2164、1993年10月、“逐次状態分割法による隠れマル
コフ網の自動生成”に記載のような例がある。この例で
は日本語の音韻(子音と母音)を認識の基本単位とし、
前後の音韻環境に依存しないHMMから出発して、順次状
態を分割して前後の音韻環境による変動に対応するよう
にしている。状態分割はモデルを複数化することに対応
し、前後の音韻環境に依存して異なるモデルを設けるの
と同様である。本従来例では、どの様な音韻環境によっ
てモデルを分割するかの決定を学習サンプルの分布から
自動的に決定する様にしている。
【0010】
【発明が解決しようとする課題】上記従来技術では、前
後の音韻環境に依存して異なる標準パタンを設けること
により、前後の音韻環境に基づく音声パタンの変動を適
切に表現する標準パタンが用意でき、認識精度が向上す
る。また、前後の音韻環境を考慮することにより標準パ
タンの個数が増加し、個々の標準パタン当りの学習用音
声サンプル数が減り、個々の標準パタンの信頼性が低下
する問題に対しては、クラスタリングの技法等を用いる
ことにより、標準パタンの個数を削減して信頼性の低下
を防いでいる。
【0011】しかしながら、音韻環境が変わっても音声
パタンが変動しない場合もあり、単に音韻環境ごとに異
なる標準パタンを設ければよいわけでもない。また、学
習用音声サンプルをもとにクラスタリングの技法を用い
る場合でも、用いた学習用音声サンプルの分布の偏りの
影響を受け、逆効果となる場合もある。
【0012】本発明の目的は上記従来技術において考慮
が不十分であった音声パタンの変動に関する普遍的な知
識を利用することにより、より信頼性高く音声パタンの
変動に対応可能な標準パタンを作成する手段を提供する
ことにある。
【0013】
【課題を解決するための手段】上記本発明の目的は、標
準パタンの学習に際して、まず音声パタンの変動に関す
る普遍的な知識に基づいて標準パタンの複数化を行い、
前記普遍的な知識に該当しない音声パタンについては、
複数化された標準パタンの分布の広がりと同程度の分布
の広がりとなる範囲内で標準パタンの複数化を行うこと
により達成される。
【0014】
【作用】まず、標準パタンの作成処理の第一段階で、音
声パタンの変動に関する普遍的な知識に該当する標準パ
タンを複数化する。複数化された標準パタンについて標
準パタンの分布の広がりを測定し、これをその他の標準
パタンの複数化における基準値として用いる。音声パタ
ンの変動に関する普遍的な知識に該当しない標準パタン
については、まず、通常の標準パタン作成手法を用いて
標準パタンを作成した上で、それぞれの標準パタンの分
布の広がりを測定する。標準パタンの分布の広がりが先
の基準値より大幅に大きい場合には、この標準パタンに
ついて複数化の処理を施す。以上の処理により、音声パ
タンの変動に関する普遍的な知識にもしたがったバラン
スのとれた標準パタンの集合を作成することができ、高
精度な音声認識を実現できる。
【0015】
【実施例】以下、図を用いて本発明の実施例を説明す
る。本発明は、単語音声認識、連続音声認識のどちらに
も適用可能であるが、ここでは簡単のため単語音声認識
の場合を例にとって説明する。
【0016】図1は本発明の単語音声認識装置の一実施
例の構成を示すブロック図である。入力された音声は音
声入力手段1において電気信号に変換される。電気信号
に変換された音声はさらに音声分析手段2において分析
され、特徴ベクトルの時系列が出力される。一方、標準
パタン連結手段7では、標準パタン格納手段5に予め格
納されている認識基本単位の標準パタンを単語辞書6に
格納されている情報にしたがって連結し単語標準パタン
とする。標準パタン連結手段7で作成された標準パタン
と前記入力音声の特徴ベクトル時系列とが照合手段3に
て照合され、認識対象の各単語毎にスコアが求められ
る。判定手段4では前記各単語のスコアに基づいて認識
結果を出力する。
【0017】次に本発明の中で用いている認識基本単位
の標準パタンについて説明する。本発明では、標準パタ
ンとして確率モデルを採用している。図2は本発明の中
で用いている標準パタンである確率モデル(Hidden Ma
rkov Model、以下HMMと略す)を示した図である。図中
各円は状態を表わし、矢印は状態間の遷移を表わす。矢
印に添えた記号aijは状態iから状態jへの遷移が生じ
る確率を表わし、記号bij(k)は状態iから状態jへ
の遷移が生じたときに第k番目の分類に属する特徴ベク
トルが出力される確率を表わす。入力音声の特徴ベクト
ル時系列が与えられると、前記状態遷移確率、出力確率
を用いて入力音声の特徴ベクトル時系列がこの確率モデ
ル(HMM)から出力された確率を計算することができ
る。前記図1の中の照合手段3では、この確率計算の処
理が行なわれる。確率計算処理の詳細に関しては、Kluw
er Academic Publishers、 Norwel、 MA、 1989 “Auto
matic Speech Recognition”、95頁-97頁に記載されて
いる公知の方法を用いればよい。
【0018】次に本発明の音声認識装置において用いる
標準パタンの連結方法について図3を用いて説明する。
図3は単語辞書6にしたがって標準パタンを連結する様
子を説明する図である。前述の様に本発明の音声認識装
置では標準パタンとして状態遷移モデルであるHMMを用
いているので標準パタンの連結が容易に行なわれる。標
準パタンの連結は、先行するモデルの最終状態から出る
状態遷移先を後続するモデルの最初の状態にする様にす
ればよい。図3では、認識の基本単位として日本語の音
節を採用し、辞書中の単語「日立(/hitachi)」を取り
上げている。標準パタン格納手段5には日本語の音節
(日本語のかな文字「あ」「い」…「ん」に対応する音
声単位)に対応するHMMが格納されている。単語「日
立」のHMMを作成するには、まず、単語辞書6を調べ単
語「日立」が音節列/hi/、/ta/、/chi/から構成
されていることを読み出す。標準パタン連結手段7では
前記音節列にしたがって、順次標準パタン格納手段5か
ら/hi/のHMM、/ta/のHMM、/chi/のHMMを読み出
しこれを連結した大きな一つのHMMとする。
【0019】次に本発明の音声認識装置において用いる
標準パタンであるHMMの通常の学習方法について説明す
る。HMMは大量の学習用音声サンプルを用いてパラメタ
推定を行なうことにより実施する。図4に示したのはそ
の学習フローの概要を示すフローチャートである。まず
HMMの初期モデルを何らかの方法により作成し(10
1)、その後学習用音声サンプルを用いたパラメタ再推
定処理(102)を収束条件を満たすまで(103)繰
り返す。本学習方法は元々繰り返し推定アルゴリズムで
あり、繰り返し回数が増える毎にモデルの精度が向上す
る。したがって、初期モデルは必ずしも精度高く作成す
る必要はない。初期モデルの作成方法については何通り
かの方法があるが、例えば乱数を与えるような手法でよ
い。パラメタ再推定の方法については後述する。収束条
件判断についても何通りかの方法が考えられるが、例え
ば繰り返しの回数を固定して、一定回数(例えば5回)
の繰り返しを行なったら終了する様な方法で実用上問題
ない。
【0020】収束条件が満足されたら繰り返しを終了
し、パラメタ推定により得られた各HMMのパラメタを格
納する(104)。
【0021】次にHMMのパラメタ再推定処理について説
明する。図4のフローチャートに示したようにHMMのパ
ラメタ再推定処理は学習フローの中で繰り返し行なわれ
る。ここではその一回分の処理を図5のフローチャート
を用いて説明する。HMMのパラメタ再推定処理は学習用
の音声サンプルを用いて行なう。学習用の音声サンプル
の個数がNであるとすると、N回類似のパラメタ推定計算
処理を行ない、これが終了した後に各HMMのパラメタを
新しい値に更新する。各音声サンプルを用いたパラメタ
推定処理においては、まず音声サンプルの発声内容に合
わせて認識基本単位のHMMを連結し(203)、この連
結したHMMに対してForward-Backwardアルゴリズムと呼
ばれる手法を用いてパラメタ推定を行なう(204)。
連結されたHMMを元の認識基本単位に分解することによ
り、各認識基本単位のHMMのパラメタ推定値が得られる
(205)。ただし、この時点では各認識基本単位のHM
Mのパラメタの更新は行なわず、全音声サンプルについ
てパラメタ推定値が得られた後にそれまでに得られた全
パラメタ推定値を総合して各認識基本単位のHMMのパラ
メタの更新を行なう(207)。なお、パラメタ推定
(Forward-Backwardアルゴリズム)の具体的な計算手続
きについてはKluwer Academic Publishers、 Norwel、
MA、 1989 “Automatic Speech Recognition”、95頁-9
7頁に記載されている公知の方法を用いればよい。
【0022】次に本発明の主眼点の一つである、音声パ
タンの変動に関する普遍的な知識を利用した、標準パタ
ンの複数化について説明する。音声パタンの変動に関す
る普遍的な知識としては、母音の無声化、撥音の条件異
音などが考えられる。これらの知識は、該当する音韻と
その音韻の前後環境という形で与えられる。例えば、無
声化は無声子音(あるいは語尾)に挟まれた母音/i/
/u/が無声化して無声化母音/i//u/となる現象
として記述される。標準パタン学習用の音声サンプル中
に無声化した母音/i//u/、無声化しない母音/i
//u/のサンプルがある場合、/i//u/について
は、標準パタンを無声化した場合と無声化しない場合の
2種用意することとなる。このようにするためには、図
4、5に示したフローに若干の修正を施す必要がある。
修正したフローをそれぞれ図6、7に示す。基本的な学
習フローは変わらず、図6に示すように、まず準備段階
で学習用音声サンプル中に音声パタンの変動に関する普
遍的な知識に該当するサンプルがあるかどうかをチェッ
クし、ある場合には変動パタンも含めて標準パタンを複
数化するために、初期モデルも複数化しておく必要があ
る。図7では学習用音声サンプルに合わせて標準パタン
を連結する前に、知識に照らし合わせて、複数ある標準
パタンのいずれを用いるかを決定する必要がある。これ
らの点を除いては、フローは通常の学習フロー(図4、
5)と全く同様である。
【0023】次に本発明のもう一つの主眼点である標準
パタンの集合としてバランスを考慮した標準パタンの学
習方法について説明する。図8に示すのは本学習方法を
説明するフローチャートである。本学習においてはまず
図6、7に示した手法によりHMMの学習を行なう(30
1)。これによりでき上がった各HMMについて分布の広
がりを測定する(302)。HMMは各状態遷移毎に出力
確率分布を持っているので、この分布の分散を求める等
の方法により分布の広がりを測定することができる。分
布の広がりは例えば次式により求めることができる。
【0024】
【数1】
【0025】ただし、
【0026】
【数2】
【0027】分布の広がりとしては、(1)式に示す様
に、特徴ベクトルの各次元の分散VARkを総和したものを
求めた。なお、分散は式(2)により求められる。ここ
に、Vkは特徴ベクトルVの第k次元の値、μkはその平均
値である。
【0028】次に各HMMの分布の広がりが知識に基づい
て複数化された標準パタンの分布よりも大きいかどうか
の判定を行ない(303)、小さいと判定されれば処理
を終了する。
【0029】この条件を満足しない場合には最も分布の
広がりの大きなHMMを求め(304)、これを複数(例
えば2つ)に分割する(305)。次に複数化されたHM
Mに対する音節または音韻が含まれる音声サンプルを学
習用音声サンプルの中から選びだし、複数に分割された
それぞれのHMMを用いて認識処理を行なうことにより音
声サンプルを複数化されたHMMのいずれかに割り付ける
(306)。以上の割り付けにより二分された音声サン
プルを用いて、複数化されたそれぞれのHMMのパラメタ
推定を行ない分割されたHMMのパラメタを更新する(3
07)。以上の処理の後再び、各HMMについて分布の広
がりを測定し(302)、各HMMの分布の広がりが知識
に基づいて複数化された標準パタンの分布よりも大きい
かどうかの判定を行なう(303)という処理を繰り返
す。小さいと判定されれば処理を終了する。
【0030】HMMの複数化においては、もとのHMMに対し
て複数の適当な個数のHMMを作成する。ここでは、2つ
に分割する場合について説明する。
【0031】HMMを2つに分割するには例えばHMMが持つ
出力確率分布に対して、微小な変動分を加えた分布を新
たな第一の分布とし、元の分布から微小な変動分を差し
引いた分布を新たな第二の分布とする様な方法が考えら
れる。第一の分布としては例えば、出力確率密度の最大
値をとる特徴ベクトルの値から一定の範囲内について
は、確率密度の値を定数β倍(例えば1.01倍)す
る。その他の範囲内では確率密度の値が小さくなるよう
にやはり確率密度を定数γ倍する。なお、γの値は1よ
り小さい値であり、β倍による確率密度の増分とγ倍に
よる確率密度の減少分が相殺するように設定する。これ
により第一の分布が得られる。第二の分布は、出力確率
密度の最大値をとる特徴ベクトルの値から一定の範囲内
については、確率密度の値を定数2−β倍(βが1.0
1の場合0.99倍)し、その他の範囲内では確率密度
の値が小さくなるように確率密度を定数2−γ倍する。
この方法によって新たな分布が得られる様子を図9に示
す。図9では401が元の分布を示す。404から40
5の範囲が、出力確率密度の最大値をとる特徴ベクトル
の値から一定の範囲内を示す。402が新たな第一の分
布を、403が新たな第二の分布を表わす。
【0032】なお、前記HMMの分布の広がりの測定方法
として、HMMが持つ出力確率分布の分布形状の多峰性を
検出するような手法も考えられる。また、HMMの分割法
として、検出された多峰性のそれぞれの分布を新たなHM
Mの分布とするような分割方法も考えられる。
【0033】
【発明の効果】以上本発明によれば、音声パタンの変動
に関する普遍的な知識にもしたがったバランスのとれた
標準パタンを作成することができるので高精度な音声認
識が可能となる。
【0034】
【図面の簡単な説明】
【図1】本発明の音声認識装置の一実施例の構成を示す
ブロック図。
【図2】本発明の音声認識装置で用いる認識基本単位の
隠れマルコフモデルを説明する図。
【図3】本発明の音声認識装置で用いる認識基本単位の
隠れマルコフモデルを単語辞書にしたがって連結する様
子を説明する図。
【図4】本発明の標準パタンの学習方法を説明するフロ
ーチャート。
【図5】本発明の標準パタンの学習方法におけるパラメ
タ推定処理を説明するフローチャート。
【図6】本発明の標準パタンの学習方法を説明するフロ
ーチャート。
【図7】本発明の標準パタンの学習方法におけるパラメ
タ推定処理を説明するフローチャート。
【図8】本発明の標準パタンの学習方法の別の学習フロ
ーを説明するフローチャート。
【図9】本発明の標準パタンの学習方法の中で行なう隠
れマルコフモデルの分割方法を説明する図。
【符号の説明】
1・・・音声入力手段、2・・・音声分析手段、3・・
・照合手段、4・・・判定手段5・・・標準パタン格納
手段、6・・・単語辞書、7・・・標準パタン連結手
段、101・・・初期モデル作成処理、102・・・パ
ラメタ再推定処理、204・・・Forward-Backwardアル
ゴリズム、302・・・標準パタンの分布の広がり測定
処理、303・・・標準パタンの集合としてのバランス
判定処理、305・・・標準パタンの複数化処理。

Claims (10)

    【特許請求の範囲】
  1. 【請求項1】音声を入力する音声入力手段と、入力され
    た音声を分析して特徴ベクトルの時系列を出力する音声
    分析手段と、音節、または音韻、または音韻よりも小さ
    な音声基本単位に対する標準パタンを格納しておく標準
    パタン格納手段と、認識対象語の単語を音節、または音
    韻、または音韻よりも小さな音声基本単位の並びとして
    記述する単語辞書と、音節、または音韻、または音韻よ
    りも小さな音声基本単位に対する標準パタンを連結して
    認識対象語に対する標準パタンを構成する標準パタン連
    結手段と、前記入力音声の特徴ベクトルの時系列と前記
    連結して構成された標準パタンとを照合する照合手段と
    からなり、前記照合手段から出力される照合結果に基づ
    いて認識を行なうような音声認識装置において、前記音
    節、または音韻、または音韻よりも小さな音声基本単位
    に対する標準パタンを、前記音節、または音韻、または
    音韻よりも小さな音声基本単位の音声パタンの変動の程
    度に応じて複数設けるようにし、標準パタンが複数ある
    音節、または音韻、または音韻よりも小さな音声基本単
    位については前記照合処理において複数の標準パタンと
    照合するようにし、複数の照合結果を総合して認識結果
    を求めることを特徴とする音声認識装置。
  2. 【請求項2】前記標準パタンは、確率モデルにより構成
    し、学習用の音声サンプルを用いて前記確率モデルを学
    習するようにしたことを特徴とする請求項1記載の音声
    認識装置。
  3. 【請求項3】前記確率モデルは、隠れマルコフモデルで
    あることを特徴とする請求項2記載の音声認識装置。
  4. 【請求項4】前記音声パタンの変動に関する規則を設
    け、前記標準パタンの複数化は、前記規則に従う音節、
    または音韻、または音韻よりも小さな音声基本単位につ
    いてのみ行うようにしたことを特徴とする請求項1また
    は請求項2または請求項3記載の音声認識装置。
  5. 【請求項5】発声内容の判った学習用の音声サンプルに
    対して、発声内容にあわせて音節、または音韻、または
    音韻よりも小さな音声基本単位の標準パタンを連結して
    発声内容全体を表わす標準パタンを作成し、学習用の音
    声サンプルを用いて発声内容全体を表わす標準パタンと
    して標準パタンの学習を行ない、作成された発声内容全
    体を表わす標準パタンを音節、または音韻、または音韻
    よりも小さな音声基本単位に分解して音節、または音
    韻、または音韻よりも小さな音声基本単位の標準パタン
    とするような標準パタンの学習方法であって、前記学習
    処理を与えられた学習用の音声サンプルの個数分繰り返
    して行なうような標準パタンの学習方法において、作成
    された音節、または音韻、または音韻よりも小さな音声
    基本単位の標準パタンの音声パタンの分布の広がりの度
    合を測定し、分布の広がりが前記音声パタンの変動に関
    する規則に従う音声パタンの分布の広がりよりも広い標
    準パタンはこれを複数化して、複数化された標準パタン
    については、再度学習用の音声サンプルを用いて学習を
    行なうようにしたことを特徴とする標準パタンの学習方
    法。
  6. 【請求項6】前記標準パタンは確率モデルにより構成
    し、前記標準パタンに対する音声パタンの分布の広がり
    の度合の測定は前記確率モデルが持つ分布情報のなかの
    分散の値に基づいて行なうようにしたことを特徴とする
    請求項5記載の標準パタンの学習方法。
  7. 【請求項7】前記標準パタンは確率モデルにより構成
    し、前記標準パタンに対する音声パタンの分布の広がり
    の度合の測定は前記確率モデルが持つ分布の双峰性の検
    出に基づいて行なうようにしたことを特徴とする請求項
    5記載の標準パタンの学習方法。
  8. 【請求項8】前記標準パタンは確率モデルにより構成
    し、前記標準パタンの複数化は元の標準パタンが持つ分
    布情報にたいして、微小な変化分を加えることにより行
    なうことを特徴とする請求項5または請求項6または請
    求項7記載の標準パタンの学習方法。
  9. 【請求項9】前記標準パタンは確率モデルにより構成
    し、前記標準パタンの複数化は元の標準パタンが持つ分
    布情報にたいして、双峰性の検出を行ない、検出された
    複数の分布の中から成分の大きい分布を選択し、選択さ
    れた分布に基づいて行なうことを特徴とする請求項5ま
    たは請求項6または請求項7記載の標準パタンの学習方
    法。
  10. 【請求項10】前記確率モデルは隠れマルコフモデルで
    あることを特徴とする、請求項6または請求項7または
    請求項8または請求項9記載の標準パタンの学習方法。
JP7220015A 1995-08-29 1995-08-29 音声認識装置および標準パタンの学習方法 Pending JPH0962288A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP7220015A JPH0962288A (ja) 1995-08-29 1995-08-29 音声認識装置および標準パタンの学習方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP7220015A JPH0962288A (ja) 1995-08-29 1995-08-29 音声認識装置および標準パタンの学習方法

Publications (1)

Publication Number Publication Date
JPH0962288A true JPH0962288A (ja) 1997-03-07

Family

ID=16744603

Family Applications (1)

Application Number Title Priority Date Filing Date
JP7220015A Pending JPH0962288A (ja) 1995-08-29 1995-08-29 音声認識装置および標準パタンの学習方法

Country Status (1)

Country Link
JP (1) JPH0962288A (ja)

Similar Documents

Publication Publication Date Title
CN100559462C (zh) 语音处理装置、语音处理方法、程序、和记录介质
US6912499B1 (en) Method and apparatus for training a multilingual speech model set
US6539353B1 (en) Confidence measures using sub-word-dependent weighting of sub-word confidence scores for robust speech recognition
EP0387602B1 (en) Method and apparatus for the automatic determination of phonological rules as for a continuous speech recognition system
Lamel et al. High performance speaker-independent phone recognition using CDHMM.
US5953701A (en) Speech recognition models combining gender-dependent and gender-independent phone states and using phonetic-context-dependence
US5581655A (en) Method for recognizing speech using linguistically-motivated hidden Markov models
US5680510A (en) System and method for generating and using context dependent sub-syllable models to recognize a tonal language
US6236965B1 (en) Method for automatically generating pronunciation dictionary in speech recognition system
EP1447792B1 (en) Method and apparatus for modeling a speech recognition system and for predicting word error rates from text
US6711541B1 (en) Technique for developing discriminative sound units for speech recognition and allophone modeling
US20060064177A1 (en) System and method for measuring confusion among words in an adaptive speech recognition system
Chou Discriminant-function-based minimum recognition error rate pattern-recognition approach to speech recognition
Livescu et al. Subword modeling for automatic speech recognition: Past, present, and emerging approaches
US5819223A (en) Speech adaptation device suitable for speech recognition device and word spotting device
CN117043857A (zh) 用于英语发音评估的方法、设备和计算机程序产品
Kaiser et al. Overall risk criterion estimation of hidden Markov model parameters
EP1074019A1 (en) Adaptation of a speech recognizer for dialectal and linguistic domain variations
Razavi et al. Towards weakly supervised acoustic subword unit discovery and lexicon development using hidden Markov models
JP2000352993A (ja) 音声認識システム及びヒドン・マルコフ・モデルの学習方法
EP0802523A2 (en) Standard pattern production system employing information criterion
JPH0962288A (ja) 音声認識装置および標準パタンの学習方法
JPH08248974A (ja) 音声認識装置および標準パタンの学習方法
Galiano et al. Acoustic-phonetic decoding of Spanish continuous speech
Lee et al. Dynamic lexicon using phonetic features.