JPH0519786A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH0519786A JPH0519786A JP3170908A JP17090891A JPH0519786A JP H0519786 A JPH0519786 A JP H0519786A JP 3170908 A JP3170908 A JP 3170908A JP 17090891 A JP17090891 A JP 17090891A JP H0519786 A JPH0519786 A JP H0519786A
- Authority
- JP
- Japan
- Prior art keywords
- similarity
- time
- dictionary
- vector
- speakers
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【目的】 1名から数名の少数話者が発声した認識対象
音声を用いて不特定話者の音声の認識を可能にし、容易
に認識対象音声が変更でき、しかも高い認識率を得るこ
とができる音声認識方法を提供することを目的とする。 【構成】 まず認識対象音声を1名または数名の少数話
者が発声し、音響分析部1で分析し特徴パラメータを求
め、あらかじめ標準パターン格納部3に格納されている
多数の話者で作成した汎用の標準パターンとの類似度を
分析時間毎に求め、強調関数に通してフレーム毎に正規
化を行い、各類似度について時間方向の回帰係数を求め
てフレーム毎に正規化し、類似度と回帰係数の時系列を
パラメータとして、DP重み計算部10で求めたDPの
重みと共に辞書格納部11に登録しておく。認識時には
不特定話者の入力音声から辞書登録時と同様にしてパラ
メータ時系列を求め、辞書格納部に格納されているDP
重みにしたがってパターンマッチング部12で辞書との
DPマッチングを行い認識する。
音声を用いて不特定話者の音声の認識を可能にし、容易
に認識対象音声が変更でき、しかも高い認識率を得るこ
とができる音声認識方法を提供することを目的とする。 【構成】 まず認識対象音声を1名または数名の少数話
者が発声し、音響分析部1で分析し特徴パラメータを求
め、あらかじめ標準パターン格納部3に格納されている
多数の話者で作成した汎用の標準パターンとの類似度を
分析時間毎に求め、強調関数に通してフレーム毎に正規
化を行い、各類似度について時間方向の回帰係数を求め
てフレーム毎に正規化し、類似度と回帰係数の時系列を
パラメータとして、DP重み計算部10で求めたDPの
重みと共に辞書格納部11に登録しておく。認識時には
不特定話者の入力音声から辞書登録時と同様にしてパラ
メータ時系列を求め、辞書格納部に格納されているDP
重みにしたがってパターンマッチング部12で辞書との
DPマッチングを行い認識する。
Description
【0001】
【産業上の利用分野】本発明は、不特定話者を対象とす
る音声認識方法に関するものである。
る音声認識方法に関するものである。
【0002】
【従来の技術】従来の不特定話者を対象とする単語音声
認識は、図9に示すようにして行われていた。即ち、入
力音声を音響分析部14で分析し、あらかじめ多くの話
者が認識対象単語を発声したデータを用いて人間が目視
などで音声区間を切り出して作成した単語標準パタ−ン
15とのマッチングを単語認識部16で行い、単語の認
識を行っていた。不特定話者を対象とした音声認識は、
たとえば、”ワードスポッティング手法を用いた不特定
話者・少数語向け音声認識装置”(電子通信情報学会
SP88ー18)に記載された構成が知られている。
認識は、図9に示すようにして行われていた。即ち、入
力音声を音響分析部14で分析し、あらかじめ多くの話
者が認識対象単語を発声したデータを用いて人間が目視
などで音声区間を切り出して作成した単語標準パタ−ン
15とのマッチングを単語認識部16で行い、単語の認
識を行っていた。不特定話者を対象とした音声認識は、
たとえば、”ワードスポッティング手法を用いた不特定
話者・少数語向け音声認識装置”(電子通信情報学会
SP88ー18)に記載された構成が知られている。
【0003】この方法では、不特定話者用の認識対象単
語辞書を作成するために、実際に330名の話者が発声
した音声データを使用している。330名が10数字を
発声した音声データに対して人間がスペクトル波形など
を参考にして目視で音声区間を切出して、分析時間毎に
得られる特徴パラメータ(LPCケプストラム係数)の
時系列を求め、各単語毎に決められた発声時間になるよ
うに線形に音声データの圧縮を行ない、330名分のデ
ータの絶対値によって単語の標準パターンを作成する。
未知入力音声とこのようにして作成した標準パターンと
の照合を統計的距離尺度であるマハラノビス距離を用い
て行なうことによって、不特定話者の音声認識を可能に
している。この方法は、統計的距離尺度を用いて標準パ
ターンとの照合および比較を行なうことによって、不特
定話者のスペクトル変動を統計的に吸収しようという考
え方に基づいている。しかし、統計的距離尺度のための
標準パターン作成には、1つの認識単語に対して数百名
以上の話者が発声したデータが必要である。
語辞書を作成するために、実際に330名の話者が発声
した音声データを使用している。330名が10数字を
発声した音声データに対して人間がスペクトル波形など
を参考にして目視で音声区間を切出して、分析時間毎に
得られる特徴パラメータ(LPCケプストラム係数)の
時系列を求め、各単語毎に決められた発声時間になるよ
うに線形に音声データの圧縮を行ない、330名分のデ
ータの絶対値によって単語の標準パターンを作成する。
未知入力音声とこのようにして作成した標準パターンと
の照合を統計的距離尺度であるマハラノビス距離を用い
て行なうことによって、不特定話者の音声認識を可能に
している。この方法は、統計的距離尺度を用いて標準パ
ターンとの照合および比較を行なうことによって、不特
定話者のスペクトル変動を統計的に吸収しようという考
え方に基づいている。しかし、統計的距離尺度のための
標準パターン作成には、1つの認識単語に対して数百名
以上の話者が発声したデータが必要である。
【0004】不特定話者用認識の他の既存の方法とし
て、マルチ標準パターンを用いる方法がある。この方法
は、多くのデータを分析して、それらの中から代表的な
ものを複数個選択し、複数の標準パターンと未知入力の
照合を行なうことによって不特定話者のスペクトル変動
に対処しようとするものである。しかし、この方法にお
いても、複数の標準パターンを作成するためには、数百
名のデータの収集と分析を必要とする。
て、マルチ標準パターンを用いる方法がある。この方法
は、多くのデータを分析して、それらの中から代表的な
ものを複数個選択し、複数の標準パターンと未知入力の
照合を行なうことによって不特定話者のスペクトル変動
に対処しようとするものである。しかし、この方法にお
いても、複数の標準パターンを作成するためには、数百
名のデータの収集と分析を必要とする。
【0005】また、不特定話者の単語音声を認識するた
めの別の方法として、図10に示すような音素認識によ
る方法がある。単語の入力音声を音響分析部17で分析
して分析時間(分析時間)毎に特徴パラメータを抽出
し、セグメンテーション部18において入力音声を母音
区間と子音区間に切り分ける。音素標準パタ−ン19は
あらかじめ多数の話者が発声した音声データを音響分析
して音素毎に作成しておく。
めの別の方法として、図10に示すような音素認識によ
る方法がある。単語の入力音声を音響分析部17で分析
して分析時間(分析時間)毎に特徴パラメータを抽出
し、セグメンテーション部18において入力音声を母音
区間と子音区間に切り分ける。音素標準パタ−ン19は
あらかじめ多数の話者が発声した音声データを音響分析
して音素毎に作成しておく。
【0006】次に音素認識部20において、母音区間は
母音の音素標準パターンと、子音区間は子音の音素標準
パターンとそれぞれ照合して音素の認識を行い、入力音
声に対して音素記号列を求める。求められた音素記号列
を今度は単語認識部21で音素表記された単語辞書22
と照合して単語の類似度を算出し、認識を行う。この方
法は上記した方法に比べ、単語辞書を音素表記として登
録できるため、単語標準パターン作成のために膨大なデ
ータの収集・分析する必要がなく、単語辞書の変更が容
易であるという利点があるが、音素を認識の基本単位と
するため音素から音素へ時間的に変化する部分の情報が
利用されず、認識率の点で限界がある。
母音の音素標準パターンと、子音区間は子音の音素標準
パターンとそれぞれ照合して音素の認識を行い、入力音
声に対して音素記号列を求める。求められた音素記号列
を今度は単語認識部21で音素表記された単語辞書22
と照合して単語の類似度を算出し、認識を行う。この方
法は上記した方法に比べ、単語辞書を音素表記として登
録できるため、単語標準パターン作成のために膨大なデ
ータの収集・分析する必要がなく、単語辞書の変更が容
易であるという利点があるが、音素を認識の基本単位と
するため音素から音素へ時間的に変化する部分の情報が
利用されず、認識率の点で限界がある。
【0007】
【発明が解決しようとする課題】このように、最初に述
べた従来の技術による既存の不特定話者用音声認識方法
のような構成では、認識対象音声の標準パターン作成に
データの収集、音声区間の切出しなどの膨大な作業量が
あり、そのために容易に認識対象音声を変更できないと
いう課題を有していた。
べた従来の技術による既存の不特定話者用音声認識方法
のような構成では、認識対象音声の標準パターン作成に
データの収集、音声区間の切出しなどの膨大な作業量が
あり、そのために容易に認識対象音声を変更できないと
いう課題を有していた。
【0008】また、第2に述べた従来の技術では、単語
認識を行う際に音素から音素への遷移部分における時間
的な動きの要素が利用されないため、認識率の点で限界
があるという課題を有していた。
認識を行う際に音素から音素への遷移部分における時間
的な動きの要素が利用されないため、認識率の点で限界
があるという課題を有していた。
【0009】本発明は上記課題を解決するもので、1名
から数名の少数話者が発声した認識対象音声を用いて不
特定話者の音声の認識を可能にし、容易に認識対象音声
が変更でき、しかも高い認識率を得ることができる音声
認識方法を提供することを目的とする。
から数名の少数話者が発声した認識対象音声を用いて不
特定話者の音声の認識を可能にし、容易に認識対象音声
が変更でき、しかも高い認識率を得ることができる音声
認識方法を提供することを目的とする。
【0010】
【課題を解決するための手段】この目的を達成するため
に、本発明は、認識対象音声を1名から数名の少数の話
者が発声し、分析時間毎にm個(mは整数)の特徴パラ
メータを求め、次にあらかじめ多数の話者で作成してお
いたn種類(nは整数)の標準パターンとマッチングを
行なって分析時間毎にn個の類似度を求めて類似度ベク
トルとし、この類似度ベクトルを強調関数に通し分析時
間毎に正規化を行い、このn次元の類似度ベクトルで作
成した時系列パターンを辞書として登録しておく過程
と、入力音声を認識させるときに、入力音声を音響分析
し分析時間毎にm個の特徴パラメータを求め、次に前記
n種類の標準パターンとマッチングを行ないn次元の類
似度ベクトルを求め、辞書登録時と同様の強調関数を通
し分析時間毎に正規化を行い、類似度ベクトルの時系列
を作成し、辞書に登録されている類似度ベクトルの時系
列と動的計画法を用いて照合する過程とを設け、前記照
合する過程において、マッチングの重みを分析時間の平
均類似度の大きさに応じて変え、平均類似度が低い区間
でのマッチングは重みを小さくし、累積類似度への影響
を少なくすることにより認識対象音声を登録した話者お
よびその他の話者の入力音声を認識するように構成され
ている。
に、本発明は、認識対象音声を1名から数名の少数の話
者が発声し、分析時間毎にm個(mは整数)の特徴パラ
メータを求め、次にあらかじめ多数の話者で作成してお
いたn種類(nは整数)の標準パターンとマッチングを
行なって分析時間毎にn個の類似度を求めて類似度ベク
トルとし、この類似度ベクトルを強調関数に通し分析時
間毎に正規化を行い、このn次元の類似度ベクトルで作
成した時系列パターンを辞書として登録しておく過程
と、入力音声を認識させるときに、入力音声を音響分析
し分析時間毎にm個の特徴パラメータを求め、次に前記
n種類の標準パターンとマッチングを行ないn次元の類
似度ベクトルを求め、辞書登録時と同様の強調関数を通
し分析時間毎に正規化を行い、類似度ベクトルの時系列
を作成し、辞書に登録されている類似度ベクトルの時系
列と動的計画法を用いて照合する過程とを設け、前記照
合する過程において、マッチングの重みを分析時間の平
均類似度の大きさに応じて変え、平均類似度が低い区間
でのマッチングは重みを小さくし、累積類似度への影響
を少なくすることにより認識対象音声を登録した話者お
よびその他の話者の入力音声を認識するように構成され
ている。
【0011】
【作用】本発明は上記構成により、まず1名から数名の
少数の話者が発声した音声を分析して得られる特徴パラ
メータに対して多数の話者で作成したn種類の音素や音
節などの標準パターンとの類似度を単位時間毎(フレー
ム毎)に求める。この類似度は多数の話者で作成した汎
用性のある標準パターンとのマッチング結果なので、n
種類の類似度値の相対関係は個人性の影響を受けにく
い。したがって、単位時間毎の類似度の相対関係をパラ
メータとして使用すれば不特定話者に対して有効であ
る。
少数の話者が発声した音声を分析して得られる特徴パラ
メータに対して多数の話者で作成したn種類の音素や音
節などの標準パターンとの類似度を単位時間毎(フレー
ム毎)に求める。この類似度は多数の話者で作成した汎
用性のある標準パターンとのマッチング結果なので、n
種類の類似度値の相対関係は個人性の影響を受けにく
い。したがって、単位時間毎の類似度の相対関係をパラ
メータとして使用すれば不特定話者に対して有効であ
る。
【0012】さらに、認識率を向上させるためには認識
に寄与する部分を強調すればよいため、この類似度ベク
トルを、類似度の大きいところはより大きくし類似度の
小さいところは認識に寄与しないような小さい値にする
強調関数に通す。また音声区間全体に渡って1フレーム
内の類似度の相対関係の特徴を平等にとらえるため、類
似度ベクトルをフレーム毎に正規化する。このようにし
て求まるn次元の類似度ベクトルの時系列を辞書として
登録しておく。次に、入力音声を認識させる場合は、辞
書として用意したn次元の類似度ベクトルの時系列と、
入力音声から辞書作成時と同様の手続きで得られる類似
度ベクトルの時系列とを照合する。これにより、少数の
話者で作成した辞書で不特定話者の音声を認識すること
ができる。本発明では単位時間毎の類似度として、最も
信頼できるものを1つだけ用いるのではなく、複数の候
補を用いているのでより高い認識率を得ることができ
る。
に寄与する部分を強調すればよいため、この類似度ベク
トルを、類似度の大きいところはより大きくし類似度の
小さいところは認識に寄与しないような小さい値にする
強調関数に通す。また音声区間全体に渡って1フレーム
内の類似度の相対関係の特徴を平等にとらえるため、類
似度ベクトルをフレーム毎に正規化する。このようにし
て求まるn次元の類似度ベクトルの時系列を辞書として
登録しておく。次に、入力音声を認識させる場合は、辞
書として用意したn次元の類似度ベクトルの時系列と、
入力音声から辞書作成時と同様の手続きで得られる類似
度ベクトルの時系列とを照合する。これにより、少数の
話者で作成した辞書で不特定話者の音声を認識すること
ができる。本発明では単位時間毎の類似度として、最も
信頼できるものを1つだけ用いるのではなく、複数の候
補を用いているのでより高い認識率を得ることができ
る。
【0013】なお、どのような言葉も音素や音節の組合
せで記述できるのでn種類の音素や音節の標準パターン
は1度作成しておけば、認識対象音声を変更しても常に
同じものが使用できる。辞書を変更して他の音声を認識
できるようにする(すなわち認識語いの変更)には、少
数の話者が発声するのみで良い。したがって、簡単な手
続きで不特定話者の音声認識が可能であり、さらに、語
いの変更などに対して柔軟性のある認識装置の実現が可
能になる。
せで記述できるのでn種類の音素や音節の標準パターン
は1度作成しておけば、認識対象音声を変更しても常に
同じものが使用できる。辞書を変更して他の音声を認識
できるようにする(すなわち認識語いの変更)には、少
数の話者が発声するのみで良い。したがって、簡単な手
続きで不特定話者の音声認識が可能であり、さらに、語
いの変更などに対して柔軟性のある認識装置の実現が可
能になる。
【0014】
【実施例】以下、本発明の実施例について説明するが、
その前に本発明の概略について説明する。
その前に本発明の概略について説明する。
【0015】人の声は有声音では声帯の振動として発せ
られ、その振動音が喉頭、咽頭、舌、あご、唇など(こ
れらを調音器官と呼ぶ)で形成される声道を通る間に様
々な変調をうけて口から音声として出力される。ア、
イ、ウ、・・・などの音韻性は声道の形状として与えられ
る。無声音は音源が声帯でない場合もあるが、音韻性は
やはり声道の形状で決められる。ところが、声道を形成
する喉、舌、歯、あご、唇などの形状や寸法は人ごとに
微妙に異なっているし、声帯の大きさも性別や年齢で異
なる。このために、人ごとの声の違いが生じることにな
る。つまり、人の違いによる声の差異は調音器官の違い
によるところが大きい。
られ、その振動音が喉頭、咽頭、舌、あご、唇など(こ
れらを調音器官と呼ぶ)で形成される声道を通る間に様
々な変調をうけて口から音声として出力される。ア、
イ、ウ、・・・などの音韻性は声道の形状として与えられ
る。無声音は音源が声帯でない場合もあるが、音韻性は
やはり声道の形状で決められる。ところが、声道を形成
する喉、舌、歯、あご、唇などの形状や寸法は人ごとに
微妙に異なっているし、声帯の大きさも性別や年齢で異
なる。このために、人ごとの声の違いが生じることにな
る。つまり、人の違いによる声の差異は調音器官の違い
によるところが大きい。
【0016】一方、声がア、イ、ウ、・・・など音韻とし
てではなく、単語や文として発せられるとき、声道の形
が時間的に変化する。すなわち、声道の時間的変化によ
って言葉が形成される。たとえば、「赤い」(aka
i)と発声する場合、声道は、あごが開き舌の後方に狭
めのある/a/の発声から喉頭部の閉鎖と急激な開放を
伴う破裂音/k/に移り、さらに再び/a/の形状に戻
ってから徐々に舌を唇側に移動し、口を閉じた/i/に
移る。このような声道の変化パターンは発声しようとし
ている言葉によって決るものであり、人の違いによる差
異は少ないと考えられる。このように言葉としての音声
を静的な声道の形状とその時間的な変化に分割して考え
ると、前者のみが話者によって異なり、後者は話者によ
る差は小さいと見なすことが出来る。したがって、静的
な声道の形状の違いに基づく差異を何等かの方法で正規
化できれば、不特定話者の認識が可能となる。
てではなく、単語や文として発せられるとき、声道の形
が時間的に変化する。すなわち、声道の時間的変化によ
って言葉が形成される。たとえば、「赤い」(aka
i)と発声する場合、声道は、あごが開き舌の後方に狭
めのある/a/の発声から喉頭部の閉鎖と急激な開放を
伴う破裂音/k/に移り、さらに再び/a/の形状に戻
ってから徐々に舌を唇側に移動し、口を閉じた/i/に
移る。このような声道の変化パターンは発声しようとし
ている言葉によって決るものであり、人の違いによる差
異は少ないと考えられる。このように言葉としての音声
を静的な声道の形状とその時間的な変化に分割して考え
ると、前者のみが話者によって異なり、後者は話者によ
る差は小さいと見なすことが出来る。したがって、静的
な声道の形状の違いに基づく差異を何等かの方法で正規
化できれば、不特定話者の認識が可能となる。
【0017】ところで、声道の形状の違いは発せられた
音声信号中では周波数スペクトルの違いとして表現され
る。周波数スペクトルを話者間で正規化する最も単純な
方法は、音素や音節をなど短時間の音声標準パターンと
のマッチングを行なって、クラス分けをすることであ
る。不特定話者用として作成された汎用的な標準パター
ンを用いれば話者の違いに大きく左右されない類似度情
報を得ることが出来る。すなわち、スペクトルをパター
ンマッチングによって類似度情報に変換することは、話
者間の差異を軽減することに相当する。一方、声道の変
化パターンは話者による差異が少ないのであるから、1
名から数名の少数話者の情報を用いれば十分である。し
たがって、少数話者の単語や文節などの発声を類似度情
報の時間パターンとして辞書に登録すれば、それは不特
定話者用の辞書である。
音声信号中では周波数スペクトルの違いとして表現され
る。周波数スペクトルを話者間で正規化する最も単純な
方法は、音素や音節をなど短時間の音声標準パターンと
のマッチングを行なって、クラス分けをすることであ
る。不特定話者用として作成された汎用的な標準パター
ンを用いれば話者の違いに大きく左右されない類似度情
報を得ることが出来る。すなわち、スペクトルをパター
ンマッチングによって類似度情報に変換することは、話
者間の差異を軽減することに相当する。一方、声道の変
化パターンは話者による差異が少ないのであるから、1
名から数名の少数話者の情報を用いれば十分である。し
たがって、少数話者の単語や文節などの発声を類似度情
報の時間パターンとして辞書に登録すれば、それは不特
定話者用の辞書である。
【0018】(実施例1)以下、本発明の第一の実施例
について図1を参照しながら説明する。図1は、第一の
実施例の構成図である。
について図1を参照しながら説明する。図1は、第一の
実施例の構成図である。
【0019】図1において、1は音響分析部、2は特徴
パラメータ抽出部、3は標準パターン格納部、4は類似
度計算部、5は類似度の強調部、6は類似度の正規化
部、7は回帰係数計算部、8は回帰係数の正規化部、9
はパラメータ系列作成部、10はDP重み計算部、11
は辞書格納部、12はパターンマッチング部である。
パラメータ抽出部、3は標準パターン格納部、4は類似
度計算部、5は類似度の強調部、6は類似度の正規化
部、7は回帰係数計算部、8は回帰係数の正規化部、9
はパラメータ系列作成部、10はDP重み計算部、11
は辞書格納部、12はパターンマッチング部である。
【0020】第一の実施例では、フレームの平均類似度
の小さい区間においてDPパスの重みを小さくすること
により認識を行う方法について述べる。まず1名の話者
の音声を辞書に登録する場合について最初に説明を行
う。
の小さい区間においてDPパスの重みを小さくすること
により認識を行う方法について述べる。まず1名の話者
の音声を辞書に登録する場合について最初に説明を行
う。
【0021】本実施例では、まず最初に1名の発声した
認識対象音声を入力音声として辞書を作成しておき、認
識時にはその辞書を用いて不特定話者の入力音声の認識
を行う。
認識対象音声を入力音声として辞書を作成しておき、認
識時にはその辞書を用いて不特定話者の入力音声の認識
を行う。
【0022】図1において、入力音声が入力されると音
響分析部1で分析時間(フレームと呼ぶ、本実施例では
1フレーム=10msec)毎に線形予測係数(LPC)を
求める。
響分析部1で分析時間(フレームと呼ぶ、本実施例では
1フレーム=10msec)毎に線形予測係数(LPC)を
求める。
【0023】次に、特徴パラメータ抽出部2で、LPC
ケプストラム係数(C0〜C8まで9個)を求める。
ケプストラム係数(C0〜C8まで9個)を求める。
【0024】標準パターン格納部3には、あらかじめ多
くの話者が発声したデータから作成したn種類の音素標
準パターンを格納している。本実施例ではn=20と
し、
くの話者が発声したデータから作成したn種類の音素標
準パターンを格納している。本実施例ではn=20と
し、
【0025】
【外1】
【0026】の20個の音素標準パターンを使用する。
音素標準パターンは各音素の特徴フレーム(その音素の
特徴をよく表現する時間的な位置)を目視によって正確
に検出し、この特徴フレームを中心とした特徴パラメー
タの時間パターンを使用して作成する。本実施例では時
間パターンとして、特徴フレームの前8フレーム、後3
フレーム、計12フレーム分のLPCケプストラム係数
(C0〜C8)によってパラメータ系列を構成する。
音素標準パターンは各音素の特徴フレーム(その音素の
特徴をよく表現する時間的な位置)を目視によって正確
に検出し、この特徴フレームを中心とした特徴パラメー
タの時間パターンを使用して作成する。本実施例では時
間パターンとして、特徴フレームの前8フレーム、後3
フレーム、計12フレーム分のLPCケプストラム係数
(C0〜C8)によってパラメータ系列を構成する。
【0027】そして多くの人が発声した多量のデータに
対してパラメータ系列を抽出し、各要素の平均値ベクト
ル
対してパラメータ系列を抽出し、各要素の平均値ベクト
ル
【0028】
【外2】
【0029】と要素間の共分散行列
【0030】
【外3】
【0031】を求め標準パターンとする。このように本
実施例で用いている音素標準パターンは複数フレームの
特徴パラメータを使用している。すなわちパラメータの
時間的動きを考慮して標準パターンを作成しているのが
特徴である。
実施例で用いている音素標準パターンは複数フレームの
特徴パラメータを使用している。すなわちパラメータの
時間的動きを考慮して標準パターンを作成しているのが
特徴である。
【0032】この20種類の音素標準パターンと特徴パ
ラメータ抽出部2で得られた特徴パラメータ(LPCケ
プストラム係数)との類似度を、類似度計算部4でフレ
ーム毎に計算する。すなわち、入力を1フレームずつシ
フトさせながら標準パターンとマッチングを行ない、図
2のような類似度の時系列を求める。本実施例では類似
度計算の距離尺度として共分散行列を共通化したマハラ
ノビス距離を用いる。入力と音素pの標準パターンとの
類似度計算のためのマハラノビス距離dpは(数1)で
表される。ここで、
ラメータ抽出部2で得られた特徴パラメータ(LPCケ
プストラム係数)との類似度を、類似度計算部4でフレ
ーム毎に計算する。すなわち、入力を1フレームずつシ
フトさせながら標準パターンとマッチングを行ない、図
2のような類似度の時系列を求める。本実施例では類似
度計算の距離尺度として共分散行列を共通化したマハラ
ノビス距離を用いる。入力と音素pの標準パターンとの
類似度計算のためのマハラノビス距離dpは(数1)で
表される。ここで、
【0033】
【外4】
【0034】は入力の時間パターンである12フレーム
分の特徴パラメータによって構成されたベクトルであ
る。
分の特徴パラメータによって構成されたベクトルであ
る。
【0035】
【数1】
【0036】ここで共分散行列
【0037】
【外5】
【0038】を各音素共通とすると、(数2)のように
簡単な式に展開できる。共通化された共分散行列を
簡単な式に展開できる。共通化された共分散行列を
【0039】
【外6】
【0040】とする。
【0041】
【数2】
【0042】本実施例では、計算量の少ない(数2)を
用いる。
用いる。
【0043】
【外7】
【0044】、bpが音素pに対する標準パターンであ
り、標準パターン格納部3にあらかじめ格納されてい
る。このようにして得られた20種類の音素標準パタ−
ンに対する類似度を要素とするベクトル(図2の斜線部
分)を、類似度ベクトルと呼ぶことにする。
り、標準パターン格納部3にあらかじめ格納されてい
る。このようにして得られた20種類の音素標準パタ−
ンに対する類似度を要素とするベクトル(図2の斜線部
分)を、類似度ベクトルと呼ぶことにする。
【0045】次に類似度の強調部5において、類似度計
算部4で求まった類似度を指数関数で表される強調関数
に通すことによって、値の大きい類似度がより大きくな
るよう変換する。この強調関数Gは、入力音声の類似度
ベクトルを
算部4で求まった類似度を指数関数で表される強調関数
に通すことによって、値の大きい類似度がより大きくな
るよう変換する。この強調関数Gは、入力音声の類似度
ベクトルを
【0046】
【外8】
【0047】とすると(数3)で表される。
【0048】
【数3】
【0049】α、βは全音素、全フレームに対して共通
な定数である。強調前の類似度ベクトルを
な定数である。強調前の類似度ベクトルを
【0050】
【外9】
【0051】とすると、強調後の類似度ベクトル
【0052】
【外10】
【0053】は、ai'=G(ai)で表される。これにより全
フレームに対して新たに類似度ベクトルを計算する。
フレームに対して新たに類似度ベクトルを計算する。
【0054】なお、本実施例では強調関数を指数関数と
したが、類似度の大きいものを強調するような関数であ
れば指数関数でなくてもかまわない。
したが、類似度の大きいものを強調するような関数であ
れば指数関数でなくてもかまわない。
【0055】さらに類似度の正規化部6において、この
n次元の類似度ベクトルをフレーム毎に大きさ1に正規
化し新たな類似度ベクトル
n次元の類似度ベクトルをフレーム毎に大きさ1に正規
化し新たな類似度ベクトル
【0056】
【外11】
【0057】を作成する。これを式で表すと(数4)の
ようになる。
ようになる。
【0058】
【数4】
【0059】フレーム毎の類似度ベクトルの大きさを1
にすることにより、全音声区間に渡って類似度の相対関
係の特徴を平等に扱うことができるようになる。
にすることにより、全音声区間に渡って類似度の相対関
係の特徴を平等に扱うことができるようになる。
【0060】次に回帰係数計算部7で、正規化された各
類似度の時系列に対して類似度の時間的変化量である回
帰係数(n個)をフレーム毎に求める。回帰係数は、各
音素に対する類似度のそれぞれの時間方向の傾きであ
る。すなわち、たとえばまず音素/a/の標準パターンに
対する類似度の時系列の、あるフレームの前後2フレー
ムの類似度値(計5フレームの類似度値)の最小2乗近
似直線の傾き(類似度の時間的変化量)を求める。これ
を(数5)に示す。
類似度の時系列に対して類似度の時間的変化量である回
帰係数(n個)をフレーム毎に求める。回帰係数は、各
音素に対する類似度のそれぞれの時間方向の傾きであ
る。すなわち、たとえばまず音素/a/の標準パターンに
対する類似度の時系列の、あるフレームの前後2フレー
ムの類似度値(計5フレームの類似度値)の最小2乗近
似直線の傾き(類似度の時間的変化量)を求める。これ
を(数5)に示す。
【0061】
【数5】
【0062】ここでxt(t=1,2,3,・・・)は、音素/a/に対
する類似度の時系列を表し、K(/a/)は時刻t+2における
音素/a/の回帰係数である。これを各音素に対する類似
度について20個求め、さらに1フレーム毎に全フレー
ムに対して求め、回帰係数ベクトルの時系列とする。
する類似度の時系列を表し、K(/a/)は時刻t+2における
音素/a/の回帰係数である。これを各音素に対する類似
度について20個求め、さらに1フレーム毎に全フレー
ムに対して求め、回帰係数ベクトルの時系列とする。
【0063】次に回帰係数の正規化部8で、類似度と同
様に回帰係数ベクトルをフレーム毎に大きさ1に正規化
する。
様に回帰係数ベクトルをフレーム毎に大きさ1に正規化
する。
【0064】そしてパラメータ系列作成部9で、指数関
数によって強調を施した大きさ1のn次元の類似度ベク
トルおよび、そこから求めた大きさ1のn次元の回帰係
数ベクトルの時系列の両方をパラメータ系列とする。
数によって強調を施した大きさ1のn次元の類似度ベク
トルおよび、そこから求めた大きさ1のn次元の回帰係
数ベクトルの時系列の両方をパラメータ系列とする。
【0065】ここまでの手続きは辞書作成時、認識時と
もに同じである。まず最初に1名の発声した認識対象音
声を入力音声として辞書を作成し、認識時にはその辞書
を用いて不特定話者の入力音声の認識を行う。
もに同じである。まず最初に1名の発声した認識対象音
声を入力音声として辞書を作成し、認識時にはその辞書
を用いて不特定話者の入力音声の認識を行う。
【0066】辞書作成時には、DP重み計算部10にお
いて正規化前のフレームの平均類似度の大きさから辞書
軸側のDPの重みを計算し、これをパラメータ系列作成
部9で求まったパラメータ系列と共に辞書格納部11に
登録する。
いて正規化前のフレームの平均類似度の大きさから辞書
軸側のDPの重みを計算し、これをパラメータ系列作成
部9で求まったパラメータ系列と共に辞書格納部11に
登録する。
【0067】認識時には、パターンマッチング部12に
おいて、辞書登録時と同様の方法で求めたパラメータ系
列と辞書格納部11にあるパラメータ系列とを相関余弦
を用いてDPマッチングする。ただし辞書格納部11に
あるDP重みに従ってDPマッチングし、もっとも類似
度の大きい辞書項目を認識結果とする。
おいて、辞書登録時と同様の方法で求めたパラメータ系
列と辞書格納部11にあるパラメータ系列とを相関余弦
を用いてDPマッチングする。ただし辞書格納部11に
あるDP重みに従ってDPマッチングし、もっとも類似
度の大きい辞書項目を認識結果とする。
【0068】ここで、DP重み計算部10およびパター
ンマッチング部12について詳しく説明する。
ンマッチング部12について詳しく説明する。
【0069】パターンマッチング部12では、辞書軸側
を基本軸とした非対称DPを行う。DPマッチングを行
なう漸化式の例を(数6)に示す。ただし、辞書の長さ
をJフレーム、入力の長さをIフレーム、第iフレーム
と第jフレームの距離関数をl(i,j)、累積類似度をg
(i,j)とする。
を基本軸とした非対称DPを行う。DPマッチングを行
なう漸化式の例を(数6)に示す。ただし、辞書の長さ
をJフレーム、入力の長さをIフレーム、第iフレーム
と第jフレームの距離関数をl(i,j)、累積類似度をg
(i,j)とする。
【0070】
【数6】
【0071】これは、図3に示すような非対称DPパス
である。DPの重みw1、w2は辞書作成用音声からDP重
み計算部10において求められ、辞書格納部11に格納
されている。DP重み計算部10についてはあとで説明
する。
である。DPの重みw1、w2は辞書作成用音声からDP重
み計算部10において求められ、辞書格納部11に格納
されている。DP重み計算部10についてはあとで説明
する。
【0072】(数6)における距離関数l(i,j)の距離
尺度として本実施例では余弦相関を用いる。入力音声の
iフレームにおける類似度ベクトルを
尺度として本実施例では余弦相関を用いる。入力音声の
iフレームにおける類似度ベクトルを
【0073】
【外12】
【0074】、回帰係数ベクトルを
【0075】
【外13】
【0076】、辞書のjフレームにおける類似度ベクト
ルを
ルを
【0077】
【外14】
【0078】、回帰係数ベクトルを
【0079】
【外15】
【0080】とすると、l(i,j)は(数7)のようにな
る。
る。
【0081】
【数7】
【0082】ただし、pは類似度と回帰係数の混合比率
である。pの値は0.4〜0.6が良い。実際にはすでに類似
度ベクトル、回帰係数ベクトルとも大きさ1に正規化さ
れているため、それぞれ内積を求めp:(1−p)の重み
で足し合わせるだけでよい。すなわち(数8)のように
なる。
である。pの値は0.4〜0.6が良い。実際にはすでに類似
度ベクトル、回帰係数ベクトルとも大きさ1に正規化さ
れているため、それぞれ内積を求めp:(1−p)の重み
で足し合わせるだけでよい。すなわち(数8)のように
なる。
【0083】
【数8】
【0084】ここでDP重み計算部10において、(数
6)におけるDPの重みw1、w2を求める方法について説
明する。
6)におけるDPの重みw1、w2を求める方法について説
明する。
【0085】本発明では類似度ベクトルをフレーム毎に
正規化するため、音素から音素へのわたりの部分におけ
る音素標準パタ−ンへの類似度の相対関係を他の部分と
同等に扱うことができるという利点がある半面、あまり
類似度が小さい区間は信頼性が低いため音声区間全体を
一律の重みでDPマッチングすると誤認識の原因とな
る。本実施例では類似度を求めるための音素標準パター
ンは母音区間および子音区間で作成しているため、無音
区間などではどの音素標準パターンに対しても類似度は
小さく雑音の影響も受けやすいため、発声環境によって
類似度の現われ方はまちまちである。そこで類似度の小
さい区間よりも類似度の大きい区間におけるマッチング
スコアの重みを大きくすることによって、信頼性の低い
区間のマッチングスコアの累積類似度に対する影響を少
なくする。
正規化するため、音素から音素へのわたりの部分におけ
る音素標準パタ−ンへの類似度の相対関係を他の部分と
同等に扱うことができるという利点がある半面、あまり
類似度が小さい区間は信頼性が低いため音声区間全体を
一律の重みでDPマッチングすると誤認識の原因とな
る。本実施例では類似度を求めるための音素標準パター
ンは母音区間および子音区間で作成しているため、無音
区間などではどの音素標準パターンに対しても類似度は
小さく雑音の影響も受けやすいため、発声環境によって
類似度の現われ方はまちまちである。そこで類似度の小
さい区間よりも類似度の大きい区間におけるマッチング
スコアの重みを大きくすることによって、信頼性の低い
区間のマッチングスコアの累積類似度に対する影響を少
なくする。
【0086】まずフレームの平均類似度mを辞書音声区
間全体にわたってフレーム毎に求める。辞書音声のjフ
レームの正規化前の類似度ベクトルを
間全体にわたってフレーム毎に求める。辞書音声のjフ
レームの正規化前の類似度ベクトルを
【0087】
【外16】
【0088】とするとjフレームの平均類似度mは(数
9)で求まる。
9)で求まる。
【0089】
【数9】
【0090】DPパスの重みw1、w2は線形関数、シグモ
イド関数などの関数によって求める。たとえば次のよう
な関数が考えられる。(数6)において辞書音声のjフ
レームの正規化前の平均類似度をmとすると、DPパス
の重みは数式10で求められる。
イド関数などの関数によって求める。たとえば次のよう
な関数が考えられる。(数6)において辞書音声のjフ
レームの正規化前の平均類似度をmとすると、DPパス
の重みは数式10で求められる。
【0091】
【数10】
【0092】ただしS1、S2は、フレーム毎の平均類似度
の統計量から決定する。w2についても辞書音声のj-1フ
レームの正規化前の平均類似度をmとすると同様の式で
求められる。
の統計量から決定する。w2についても辞書音声のj-1フ
レームの正規化前の平均類似度をmとすると同様の式で
求められる。
【0093】また、DPパスの重みw1、w2をしきい値S
を用いて(数11)のように離散的に決定することもで
きる。
を用いて(数11)のように離散的に決定することもで
きる。
【0094】
【数11】
【0095】ただし、しきい値Sはフレーム毎の平均類
似度の統計量から決定する。w2についても辞書音声のj-
1フレームの正規化前の平均類似度をmとすると同様の
式で求められる。
似度の統計量から決定する。w2についても辞書音声のj-
1フレームの正規化前の平均類似度をmとすると同様の
式で求められる。
【0096】さらに、音声データにラベル付けされてい
る音素の始終端情報を用いて、辞書音声の促音や無声破
裂音の手前の無音区間を検出し、この区間でDPパスの
重みを小さくすることもできる。DPパスの重みw1、w2
は、(数12)によって求まる(図4参照)。
る音素の始終端情報を用いて、辞書音声の促音や無声破
裂音の手前の無音区間を検出し、この区間でDPパスの
重みを小さくすることもできる。DPパスの重みw1、w2
は、(数12)によって求まる(図4参照)。
【0097】
【数12】
【0098】なお本実施例では、類似度と類似度の時間
変化量を併用する方法について述べたが、類似度の時間
変化量は用いず、強調関数を通しフレーム毎に正規化し
た類似度ベクトルのみを用いてもかまわない。
変化量を併用する方法について述べたが、類似度の時間
変化量は用いず、強調関数を通しフレーム毎に正規化し
た類似度ベクトルのみを用いてもかまわない。
【0099】次に、2名以上の発声話者の音声を辞書に
登録する場合について説明を行う。認識方法はすでに述
べた1名の発声から辞書を登録した場合と同様である。
ただしラベルにより無音区間を検出する場合は、どちら
かの話者の音声データのラベルから決定する。まず最初
に複数話者の発声した同一音声をDPマッチングにより
時間調整を行って1つの辞書として登録する方法につい
て説明し、次に複数話者の発声した同一音声をマルチ標
準パターンとして辞書に登録する方法について説明す
る。
登録する場合について説明を行う。認識方法はすでに述
べた1名の発声から辞書を登録した場合と同様である。
ただしラベルにより無音区間を検出する場合は、どちら
かの話者の音声データのラベルから決定する。まず最初
に複数話者の発声した同一音声をDPマッチングにより
時間調整を行って1つの辞書として登録する方法につい
て説明し、次に複数話者の発声した同一音声をマルチ標
準パターンとして辞書に登録する方法について説明す
る。
【0100】発声話者が2名の場合は、2名の発声した
同一音声を、認識する場合と同様にDPマッチングを行
ない時間整合を行なう。時間整合について図5を用いて
説明を行なう。図5は「赤い」(akai)と2名の話者が発
声した例である。話者によって発声の時間長が異なるの
で、2名の話者の同一の認識対象音声間でDPマッチン
グを行ない、その結果からDPパスを逆トレースし時間
整合を行なう。時間整合することによって、同じ音素の
区間(/a/,/k/,/a/,/i/)が整合するようになる。そして
この時間的に整合したフレーム間で各類似度の平均値を
求め、その時系列を辞書として登録する。すなわち、図
5の斜線で示した話者1の第iフレームと話者2の第jフ
レームが時間的に整合する場合は、話者1の第iフレー
ムの類似度ベクトルを
同一音声を、認識する場合と同様にDPマッチングを行
ない時間整合を行なう。時間整合について図5を用いて
説明を行なう。図5は「赤い」(akai)と2名の話者が発
声した例である。話者によって発声の時間長が異なるの
で、2名の話者の同一の認識対象音声間でDPマッチン
グを行ない、その結果からDPパスを逆トレースし時間
整合を行なう。時間整合することによって、同じ音素の
区間(/a/,/k/,/a/,/i/)が整合するようになる。そして
この時間的に整合したフレーム間で各類似度の平均値を
求め、その時系列を辞書として登録する。すなわち、図
5の斜線で示した話者1の第iフレームと話者2の第jフ
レームが時間的に整合する場合は、話者1の第iフレー
ムの類似度ベクトルを
【0101】
【外17】
【0102】、話者2の第jフレームを
【0103】
【外18】
【0104】とすると、新しく類似度ベクトル
【0105】
【外19】
【0106】を求め、この類似度ベクトル
【0107】
【外20】
【0108】を辞書のiフレームの類似度ベクトルとし
て登録する。そして、新しく求まった類似度ベクトルの
時系列に対し、フレーム毎に回帰係数を求め、これを新
しい回帰係数ベクトルの時系列として辞書に登録する。
DP重みはどちらか一方の話者の平均類似度から求めて
登録する。3名以上の場合は、同じ作業を繰り返し、複
数話者の平均化した類似度ベクトルの時系列を作成し辞
書に登録する。
て登録する。そして、新しく求まった類似度ベクトルの
時系列に対し、フレーム毎に回帰係数を求め、これを新
しい回帰係数ベクトルの時系列として辞書に登録する。
DP重みはどちらか一方の話者の平均類似度から求めて
登録する。3名以上の場合は、同じ作業を繰り返し、複
数話者の平均化した類似度ベクトルの時系列を作成し辞
書に登録する。
【0109】こうすることによって、辞書の精度を向上
させ、より高い認識率を得ることができる。
させ、より高い認識率を得ることができる。
【0110】次に、複数話者の発声した音声をマルチ標
準パターンとして辞書に登録する方法であるが、認識対
象音声を複数話者が発声した音声の類似度ベクトル時系
列および回帰係数ベクトル時系列をそのまま辞書として
複数個登録する。DP重みも同様にそのまま辞書として
複数個登録する。この場合は、辞書項目毎に複数個登録
されている標準パターンの中のどの辞書で認識されても
その辞書項目を認識したものとする。
準パターンとして辞書に登録する方法であるが、認識対
象音声を複数話者が発声した音声の類似度ベクトル時系
列および回帰係数ベクトル時系列をそのまま辞書として
複数個登録する。DP重みも同様にそのまま辞書として
複数個登録する。この場合は、辞書項目毎に複数個登録
されている標準パターンの中のどの辞書で認識されても
その辞書項目を認識したものとする。
【0111】ただし、2名以上の話者の発声によって辞
書を作成する際、辞書パターンの男女差を減らすため、
男女各1名ずつまたは男女ほぼ同数の発声によって辞書
を作成する。
書を作成する際、辞書パターンの男女差を減らすため、
男女各1名ずつまたは男女ほぼ同数の発声によって辞書
を作成する。
【0112】以上、本実施例の構成を用いて212単語
を発声した20名の音声データの認識実験を行った。評
価話者20名とは異なる男女各1名の212単語発声デ
ータを用いて辞書を作成した。
を発声した20名の音声データの認識実験を行った。評
価話者20名とは異なる男女各1名の212単語発声デ
ータを用いて辞書を作成した。
【0113】女性話者1名のデータから辞書を作成した
場合、類似度の平均値がしきい値以下のところでDPパ
スの重みを小さくしたときは91.34%となり、重みを変
えなかったときの89.09%に比べ2.25%の認識率の向上
が見られた。音声データにラベル付けされている無音区
間に対するDPパスの重みを小さくしたときは90.98%
と、重みを変えなかったときの89.09%に比べ1.89%の
認識率の向上が見られた。 また男女各1名の計2名の
発声データを用いて時間整合を行って平均化した辞書を
用いた場合、類似度の平均値がしきい値以下のところで
DPパスの重みを小さくしたときは93.88%となり、重
みを変えなかったときの92.58%に比べ1.30%の認識率
の向上が見られた。音声データにラベル付けされている
無音区間に対するDPパスの重みを小さくしたときは9
3.83%と、重みを変えなかったときの92.58%に比べ1.2
5%の認識率の向上が見られた。
場合、類似度の平均値がしきい値以下のところでDPパ
スの重みを小さくしたときは91.34%となり、重みを変
えなかったときの89.09%に比べ2.25%の認識率の向上
が見られた。音声データにラベル付けされている無音区
間に対するDPパスの重みを小さくしたときは90.98%
と、重みを変えなかったときの89.09%に比べ1.89%の
認識率の向上が見られた。 また男女各1名の計2名の
発声データを用いて時間整合を行って平均化した辞書を
用いた場合、類似度の平均値がしきい値以下のところで
DPパスの重みを小さくしたときは93.88%となり、重
みを変えなかったときの92.58%に比べ1.30%の認識率
の向上が見られた。音声データにラベル付けされている
無音区間に対するDPパスの重みを小さくしたときは9
3.83%と、重みを変えなかったときの92.58%に比べ1.2
5%の認識率の向上が見られた。
【0114】以上のように、フレーム毎に得られる音素
類似度をパラメータとして単語辞書とのDPマッチング
を行う際、フレームの平均類似度の低い区間のDPパス
の重みを小さくし、全体の累積類似度に対する無音区間
におけるマッチングスコアの影響を小さくすることによ
り、精度良く音声の認識をすることができる。また、無
音区間のDPパスの重みを小さくすることによっても精
度良く認識することができる。この方法は、辞書を作成
する音声の発声速度が遅いほど無音区間が長くなるため
有効である。
類似度をパラメータとして単語辞書とのDPマッチング
を行う際、フレームの平均類似度の低い区間のDPパス
の重みを小さくし、全体の累積類似度に対する無音区間
におけるマッチングスコアの影響を小さくすることによ
り、精度良く音声の認識をすることができる。また、無
音区間のDPパスの重みを小さくすることによっても精
度良く認識することができる。この方法は、辞書を作成
する音声の発声速度が遅いほど無音区間が長くなるため
有効である。
【0115】(実施例2)第二の実施例では、辞書との
照合においてフレーム間距離を計算する際、類似度が定
常な区間において類似度の回帰係数よりも類似度の重み
を大きくすることにより認識を行う方法について述べ
る。
照合においてフレーム間距離を計算する際、類似度が定
常な区間において類似度の回帰係数よりも類似度の重み
を大きくすることにより認識を行う方法について述べ
る。
【0116】第二の実施例について図6を参照しながら
説明する。構成および動作は基本的には図1に示した第
一の実施例と同じであるので、同一構成部分には同一番
号を付して重複する部分は省略する。
説明する。構成および動作は基本的には図1に示した第
一の実施例と同じであるので、同一構成部分には同一番
号を付して重複する部分は省略する。
【0117】図6において、1は音響分析部、2は特徴
パラメータ抽出部、3は標準パターン格納部、4は類似
度計算部、5は類似度の強調部、6は類似度の正規化
部、7は回帰係数計算部、8は回帰係数の正規化部、9
はパラメータ系列作成部、13は混合比率計算部、11
は辞書格納部、12はパターンマッチング部である。第
一の実施例と異なるのはDP重み計算部10の代りに混
合比率計算部13を設けた点およびパターンマッチング
部11におけるDPの計算方法である。
パラメータ抽出部、3は標準パターン格納部、4は類似
度計算部、5は類似度の強調部、6は類似度の正規化
部、7は回帰係数計算部、8は回帰係数の正規化部、9
はパラメータ系列作成部、13は混合比率計算部、11
は辞書格納部、12はパターンマッチング部である。第
一の実施例と異なるのはDP重み計算部10の代りに混
合比率計算部13を設けた点およびパターンマッチング
部11におけるDPの計算方法である。
【0118】混合比率計算部13およびパターンマッチ
ング部11について詳細な説明を行う。
ング部11について詳細な説明を行う。
【0119】本実施例では類似度ベクトルおよび回帰係
数ベクトルをフレーム毎に大きさ1に正規化するため、
音素から音素へのわたりの部分の特徴を他の区間と同等
の重みで扱うことができるようになる半面、母音の定常
部など回帰係数の絶対値が小さい区間でフレーム毎に大
きさ1に正規化すると、ばらつきが大きくなるため同じ
母音区間で同じような回帰係数の相対関係が得られると
は限らない。そこで、本実施例ではDPマッチングをす
る際、フレーム間距離を求めるのに、母音の定常区間で
は類似度ベクトル間の距離を回帰係数ベクトル間の距離
よりも大きな重みで足し合わせる。
数ベクトルをフレーム毎に大きさ1に正規化するため、
音素から音素へのわたりの部分の特徴を他の区間と同等
の重みで扱うことができるようになる半面、母音の定常
部など回帰係数の絶対値が小さい区間でフレーム毎に大
きさ1に正規化すると、ばらつきが大きくなるため同じ
母音区間で同じような回帰係数の相対関係が得られると
は限らない。そこで、本実施例ではDPマッチングをす
る際、フレーム間距離を求めるのに、母音の定常区間で
は類似度ベクトル間の距離を回帰係数ベクトル間の距離
よりも大きな重みで足し合わせる。
【0120】DPマッチングを行なう漸化式は第一の実
施例と同様に(数6)で表される。ただしDP重みはw1
=1、w2=1である。また、(数6)において距離関数l
(i,j)の距離尺度は第一の実施例と同様に(数8)で表
される。(数8)において、pは類似度と回帰係数の混
合比率であるが、このpの値を可変としフレームの平均
類似度時間変化量の大きさに応じてpの値を連続的に求
める。
施例と同様に(数6)で表される。ただしDP重みはw1
=1、w2=1である。また、(数6)において距離関数l
(i,j)の距離尺度は第一の実施例と同様に(数8)で表
される。(数8)において、pは類似度と回帰係数の混
合比率であるが、このpの値を可変としフレームの平均
類似度時間変化量の大きさに応じてpの値を連続的に求
める。
【0121】まずフレームの類似度時間変化量nを辞書
音声区間全体にわたってフレーム毎に求める。辞書音声
のjフレームの正規化前の回帰係数ベクトルを
音声区間全体にわたってフレーム毎に求める。辞書音声
のjフレームの正規化前の回帰係数ベクトルを
【0122】
【外21】
【0123】とすると、jフレームの平均回帰係数nは
(数13)で求まる。
(数13)で求まる。
【0124】
【数13】
【0125】混合比率pの値は線形関数、シグモイド関
数などの関数によって求める。たとえば次のような関数
が考えられる。数式8において、辞書音声のjフレーム
の正規化前の回帰係数の平均値をxとすると、混合比率
pは(数14)で求まる。
数などの関数によって求める。たとえば次のような関数
が考えられる。数式8において、辞書音声のjフレーム
の正規化前の回帰係数の平均値をxとすると、混合比率
pは(数14)で求まる。
【0126】
【数14】
【0127】ただし、K1、K2はフレーム毎の平均回帰係
数の統計量から決定する。また、混合比率pをしきい値
Kを用いて(数15)のように離散的に決定することも
できる。
数の統計量から決定する。また、混合比率pをしきい値
Kを用いて(数15)のように離散的に決定することも
できる。
【0128】
【数15】
【0129】ただし、しきい値Kはフレーム毎の平均回
帰係数の統計量から決定する。さらに、音声データにラ
ベル付けされている音素の始終端情報を用いて、辞書音
声の母音の定常区間ではp=0.8、非定常区間ではp=0.5
とすることもできる。すなわち、混合比率pは(数1
6)によって求まる。
帰係数の統計量から決定する。さらに、音声データにラ
ベル付けされている音素の始終端情報を用いて、辞書音
声の母音の定常区間ではp=0.8、非定常区間ではp=0.5
とすることもできる。すなわち、混合比率pは(数1
6)によって求まる。
【0130】
【数16】
【0131】本実施例では、母音の定常区間を音素/a/,
/o/,/u/,/i/,/e/の始終端フレームから4フレーム以内
の区間とした(図7の斜線部分)。
/o/,/u/,/i/,/e/の始終端フレームから4フレーム以内
の区間とした(図7の斜線部分)。
【0132】なお、第一の実施例ですでに述べた方法と
同様にして、2名以上の少数話者の発声した同一音声か
ら作成し登録しても良い。混合比率pは第一の実施例で
DP重みを登録したときと同様にして登録する。
同様にして、2名以上の少数話者の発声した同一音声か
ら作成し登録しても良い。混合比率pは第一の実施例で
DP重みを登録したときと同様にして登録する。
【0133】以上、第二の実施例を用いて212単語を
発声した20名の音声データの認識実験を行った。評価
話者20名とは異なる男女各1名の212単語発声デー
タを用いて辞書を作成した。評価話者の20名と、辞書
作成話者2名は第一の実施例と同じ話者セットである。
発声した20名の音声データの認識実験を行った。評価
話者20名とは異なる男女各1名の212単語発声デー
タを用いて辞書を作成した。評価話者の20名と、辞書
作成話者2名は第一の実施例と同じ話者セットである。
【0134】女性話者1名のデータから辞書を作成した
場合、類似度の回帰係数の平均絶対値がしきい値以下の
ところで混合比率pを0.8、それ以外のところで0.5とし
たとき90.91%となり、一律に混合比率を0.5としたとき
の89.09%に比べ、1.82%の認識率の向上が見られた。
音声データのラベル情報を用いて母音定常区間に対する
混合比率pを0.8、非定常区間に対する混合比率を0.5と
したときは91.29%と、一律に混合比率を0.5としたとき
の89.09%に比べ、2.20%の認識率の向上が見られた。
場合、類似度の回帰係数の平均絶対値がしきい値以下の
ところで混合比率pを0.8、それ以外のところで0.5とし
たとき90.91%となり、一律に混合比率を0.5としたとき
の89.09%に比べ、1.82%の認識率の向上が見られた。
音声データのラベル情報を用いて母音定常区間に対する
混合比率pを0.8、非定常区間に対する混合比率を0.5と
したときは91.29%と、一律に混合比率を0.5としたとき
の89.09%に比べ、2.20%の認識率の向上が見られた。
【0135】また男女各1名の計2名の発声データを用
いて時間整合を行って平均化した辞書を用いた場合、類
似度の回帰係数の平均絶対値がしきい値以下のところで
混合比率pを0.8、それ以外のところで0.5としたとき9
3.56%となり、一律に混合比率を0.5としたときの92.58
%に比べ、0.98%の認識率の向上が見られた。音声デー
タのラベル情報を用いて母音定常区間に対する混合比率
pを0.8、非定常区間に対する混合比率を0.5としたとき
は93.78%と、一律に混合比率を0.5としたときの92.58
%に比べ、1.20%の認識率の向上が見られた。
いて時間整合を行って平均化した辞書を用いた場合、類
似度の回帰係数の平均絶対値がしきい値以下のところで
混合比率pを0.8、それ以外のところで0.5としたとき9
3.56%となり、一律に混合比率を0.5としたときの92.58
%に比べ、0.98%の認識率の向上が見られた。音声デー
タのラベル情報を用いて母音定常区間に対する混合比率
pを0.8、非定常区間に対する混合比率を0.5としたとき
は93.78%と、一律に混合比率を0.5としたときの92.58
%に比べ、1.20%の認識率の向上が見られた。
【0136】以上のように、フレーム毎に得られる音素
類似度をパラメータとして単語辞書とのDPマッチング
を行う際、フレームとフレームの距離を計算するとき
に、母音定常区間で類似度ベクトルの距離を回帰係数ベ
クトルの距離より大きい重みで足し合わせることによ
り、精度良く音声の認識をすることができる。また、ラ
ベル情報による母音定常区間ではなく、回帰係数の絶対
値の平均値の低い区間で類似度ベクトルの距離を回帰係
数ベクトルの距離より大きい重みで足し合わせることに
よっても、ある程度精度良く認識することができる。こ
の方法は、辞書を作成する音声の発声速度が遅いほど母
音の定常区間が長くなるため有効である。
類似度をパラメータとして単語辞書とのDPマッチング
を行う際、フレームとフレームの距離を計算するとき
に、母音定常区間で類似度ベクトルの距離を回帰係数ベ
クトルの距離より大きい重みで足し合わせることによ
り、精度良く音声の認識をすることができる。また、ラ
ベル情報による母音定常区間ではなく、回帰係数の絶対
値の平均値の低い区間で類似度ベクトルの距離を回帰係
数ベクトルの距離より大きい重みで足し合わせることに
よっても、ある程度精度良く認識することができる。こ
の方法は、辞書を作成する音声の発声速度が遅いほど母
音の定常区間が長くなるため有効である。
【0137】(実施例3)第三の実施例では、辞書との
照合において、フレームの平均類似度の小さい区間にお
いてDPパスの重みを小さくし、かつフレーム間距離を
計算する際に類似度が定常な区間において類似度の回帰
係数よりも類似度の重みを大きくすることにより認識を
行う方法について述べる。
照合において、フレームの平均類似度の小さい区間にお
いてDPパスの重みを小さくし、かつフレーム間距離を
計算する際に類似度が定常な区間において類似度の回帰
係数よりも類似度の重みを大きくすることにより認識を
行う方法について述べる。
【0138】第三の実施例について図8を参照しながら
説明する。第三の実施例では、構成および動作は図1お
よび図6に示した第一の実施例および第二の実施例を組
合せたものである。
説明する。第三の実施例では、構成および動作は図1お
よび図6に示した第一の実施例および第二の実施例を組
合せたものである。
【0139】DPマッチングを行う漸化式は第一の実施
例と同じく(数6)で表され、そのときの距離関数l
(i,j)は(数8)で表される。(数6)においてDPパ
スの重みであるw1、w2は、(数10)、(数11)、ま
たは(数12)で表される。(数8)において混合比率
pは、(数14)、(数15)、または(数16)で表
される。
例と同じく(数6)で表され、そのときの距離関数l
(i,j)は(数8)で表される。(数6)においてDPパ
スの重みであるw1、w2は、(数10)、(数11)、ま
たは(数12)で表される。(数8)において混合比率
pは、(数14)、(数15)、または(数16)で表
される。
【0140】なお、第一の実施例ですでに述べた方法と
同様にして、2名以上の少数話者の発声した同一音声か
ら作成し登録しても良い。
同様にして、2名以上の少数話者の発声した同一音声か
ら作成し登録しても良い。
【0141】以上、第三の実施例を用いて212単語を
発声した20名の音声データの認識実験を行った。評価
話者20名とは異なる男女各1名の212単語発声デー
タを用いて辞書を作成した。評価話者の20名と、辞書
作成話者2名は第一の実施例と同じ話者セットである。
発声した20名の音声データの認識実験を行った。評価
話者20名とは異なる男女各1名の212単語発声デー
タを用いて辞書を作成した。評価話者の20名と、辞書
作成話者2名は第一の実施例と同じ話者セットである。
【0142】女性話者1名のデータから辞書を作成した
場合、無音区間に対するDPパスの1フレームあたりの
重みを0.5、無音以外の区間に対する重みを1とし、母音
定常区間に対する類似度と回帰係数の距離の混合比率を
0.8、非定常区間に対する混合比率を0.5としたときの認
識率は92.42%となり、DPパスの重みも類似度と回帰
係数の混合比率も全区間で一定にしたときの認識率89.0
9%より、3.33%の向上が見られた。
場合、無音区間に対するDPパスの1フレームあたりの
重みを0.5、無音以外の区間に対する重みを1とし、母音
定常区間に対する類似度と回帰係数の距離の混合比率を
0.8、非定常区間に対する混合比率を0.5としたときの認
識率は92.42%となり、DPパスの重みも類似度と回帰
係数の混合比率も全区間で一定にしたときの認識率89.0
9%より、3.33%の向上が見られた。
【0143】また男女各1名の計2名の発声データを用
いて時間整合を行って平均化した辞書を用いた場合、無
音区間に対するDPパスの1フレームあたりの重みを0.
5、無音以外の区間に対する重みを1とし、母音定常区間
に対する類似度と回帰係数の距離の混合比率を0.8、非
定常区間に対する混合比率を0.5としたときの認識率は9
4.40%となり、DPパスの重みも類似度と回帰係数の混
合比率も全区間で一定にしたときの認識率92.58%よ
り、1.82%の向上が見られた。
いて時間整合を行って平均化した辞書を用いた場合、無
音区間に対するDPパスの1フレームあたりの重みを0.
5、無音以外の区間に対する重みを1とし、母音定常区間
に対する類似度と回帰係数の距離の混合比率を0.8、非
定常区間に対する混合比率を0.5としたときの認識率は9
4.40%となり、DPパスの重みも類似度と回帰係数の混
合比率も全区間で一定にしたときの認識率92.58%よ
り、1.82%の向上が見られた。
【0144】以上のように、フレーム毎に得られる音素
類似度をパラメータとして単語辞書とのDPマッチング
を行う際、フレームの平均類似度の低い無音区間のDP
パスの重みを小さくし全体の累積類似度に対するマッチ
ングスコアの影響を小さくする方法と、フレームとフレ
ームの距離を計算するときに、類似度の定常な区間で類
似度ベクトルの距離を回帰係数ベクトルの距離より大き
い重みで足し合わせる方法を併用することにより、さら
に精度良く音声の認識をすることができる。
類似度をパラメータとして単語辞書とのDPマッチング
を行う際、フレームの平均類似度の低い無音区間のDP
パスの重みを小さくし全体の累積類似度に対するマッチ
ングスコアの影響を小さくする方法と、フレームとフレ
ームの距離を計算するときに、類似度の定常な区間で類
似度ベクトルの距離を回帰係数ベクトルの距離より大き
い重みで足し合わせる方法を併用することにより、さら
に精度良く音声の認識をすることができる。
【0145】
【発明の効果】以上のように本発明は、入力音声の汎用
標準パターンに対する類似度または類似度とその回帰係
数の時系列を特徴パラメータとして認識を行う音声認識
方法において、単語辞書とのDPマッチングを行う際
に、辞書音声のフレームの平均類似度の小さい区間また
は無音区間でのDPパスの重みを小さくするようにした
ので、1名から数名の少数の話者が発声した認識対象音
声を辞書として登録するだけで、精度良く不特定話者の
音声の認識を行うことができる。
標準パターンに対する類似度または類似度とその回帰係
数の時系列を特徴パラメータとして認識を行う音声認識
方法において、単語辞書とのDPマッチングを行う際
に、辞書音声のフレームの平均類似度の小さい区間また
は無音区間でのDPパスの重みを小さくするようにした
ので、1名から数名の少数の話者が発声した認識対象音
声を辞書として登録するだけで、精度良く不特定話者の
音声の認識を行うことができる。
【0146】また、単語辞書とのDPマッチングを行う
際に、類似度の平均時間変化量の小さな区間または母音
の定常区間で類似度ベクトル間距離を類似度の回帰係数
ベクトル間距離より大きな重みで足し合わせるようにし
たので、精度良く不特定話者の音声の認識を行うことが
できる。
際に、類似度の平均時間変化量の小さな区間または母音
の定常区間で類似度ベクトル間距離を類似度の回帰係数
ベクトル間距離より大きな重みで足し合わせるようにし
たので、精度良く不特定話者の音声の認識を行うことが
できる。
【0147】さらにまた、上記2つの方法を併用するこ
とにより、さらに精度良く不特定話者の音声の認識を行
うことができる。
とにより、さらに精度良く不特定話者の音声の認識を行
うことができる。
【0148】これらの方法は、いずれも1名の話者の発
声を辞書とすることにより精度の良い不特定話者の音声
認識が可能であるが、男女同数の少数話者の発声した音
声データから辞書を作成することにより、さらに高い認
識率を得ることができる。
声を辞書とすることにより精度の良い不特定話者の音声
認識が可能であるが、男女同数の少数話者の発声した音
声データから辞書を作成することにより、さらに高い認
識率を得ることができる。
【0149】このように本発明は、不特定話者用音声認
識装置の性能向上およびいろいろな用途へ適用するため
の柔軟性の向上に対して極めて大きく貢献する。
識装置の性能向上およびいろいろな用途へ適用するため
の柔軟性の向上に対して極めて大きく貢献する。
【図1】本発明の第一の実施例における音声認識方法の
ブロック結線図
ブロック結線図
【図2】本発明の第一の実施例における類似度ベクトル
の時系列の概念図
の時系列の概念図
【図3】本発明の第一の実施例におけるDPパスの概念
図
図
【図4】本発明の第一の実施例における無音区間におけ
るDPパスの概念図
るDPパスの概念図
【図5】本発明の第一の実施例における2名の話者の登
録音声に対する時間整合の概念図
録音声に対する時間整合の概念図
【図6】本発明の第二の実施例における音声認識方法の
ブロック結線図
ブロック結線図
【図7】本発明の第二の実施例における母音定常部と非
定常部における混合比率の概念図
定常部における混合比率の概念図
【図8】本発明の第三の実施例における音声認識方法の
ブロック結線図
ブロック結線図
【図9】従来の音声認識方法を説明するブロック結線図
【図10】従来の音声認識方法を説明するブロック結線
図
図
1 音響分析部
2 特徴パラメータ抽出部
3 標準パターン格納部
4 類似度計算部
5 類似度の強調部
6 類似度の正規化部
7 回帰係数計算部
8 回帰係数の正規化部
9 パラメータ系列作成部
10 DP重み計算部
11 辞書格納部
12 パターンマッチング部
13 混合比率計算部
14 音響分析部
15 単語標準パターン
16 単語認識部
17 音響分析部
18 セグメンテーション部
19 音素標準パタ−ン
20 音素認識部
21 単語認識部
22 単語辞書
Claims (9)
- 【請求項1】 認識対象音声を1名から数名の少数の話
者が発声し、分析時間毎にm個(mは整数)の特徴パラ
メータを求め、次にあらかじめ多数の話者で作成してお
いたn種類(nは整数)の標準パターンとマッチングを
行なって分析時間毎にn個の類似度を求めて類似度ベク
トルとし、この類似度ベクトルを強調関数に通し分析時
間毎に正規化を行い、このn次元の類似度ベクトルで作
成した時系列パターンを辞書として登録しておく過程
と、入力音声を認識させるときに、入力音声を音響分析
し分析時間毎にm個の特徴パラメータを求め、次に前記
n種類の標準パターンとマッチングを行ないn次元の類
似度ベクトルを求め、辞書登録時と同様の強調関数を通
し分析時間毎に正規化を行い、類似度ベクトルの時系列
を作成し、辞書に登録されている類似度ベクトルの時系
列と動的計画法を用いて照合する過程とを有し、前記照
合する過程において、マッチングの重みを分析時間の平
均類似度の大きさに応じて変え、平均類似度が低い区間
でのマッチングは重みを小さくし、累積類似度への影響
を少なくすることにより認識対象音声を登録した話者お
よびその他の話者の入力音声を認識することを特徴とす
る音声認識方法。 - 【請求項2】 強調関数を通したn次元の各類似度ベク
トルの時系列それぞれの次元に対して類似度の時間変化
量を分析時間毎にn個求め、分析時間毎に正規化し、前
記類似度の時間変化量のn次元ベクトルと分析時間毎に
正規化した類似度のn次元ベクトルを併用して時系列パ
ターンを作成することを特徴とする請求項1記載の音声
認識方法。 - 【請求項3】 動的計画法を用いて辞書と照合する際
に、分析時間の平均類似度が低い無音区間におけるマッ
チングの重みを小さくし、累積類似度への影響を少なく
することを特徴とする請求項1または2記載の音声認識
方法。 - 【請求項4】 認識対象音声を1名から数名の少数の話
者が発声し、分析時間毎にm個の特徴パラメータを求め
る過程と、次にあらかじめ多数の話者で作成しておいた
n種類の標準パターンとマッチングを行なって分析時間
毎にn個の類似度を求めて類似度ベクトルとし、この類
似度ベクトルを強調関数に通したあと、n次元の各類似
度ベクトルの時系列それぞれの次元に対して類似度の時
間変化量を分析時間毎にn個求め、分析時間毎に正規化
し、この類似度の時間変化量のn次元ベクトルと分析時
間毎に正規化した類似度のn次元ベクトルを併用して時
系列パターンを作成し、これを辞書として登録しておく
過程と、入力音声を認識させるときに、入力音声を音響
分析し分析時間毎にm個の特徴パラメータを求め、次に
前記n種類の標準パターンとマッチングを行ないn次元
の類似度ベクトルを求め、辞書登録時と同様の強調関数
を通し、それぞれの次元に対して類似度の時間変化量を
分析時間毎にn個求め、分析時間毎に正規化し、この類
似度の時間変化量のn次元ベクトルと分析時間毎に正規
化した類似度のn次元ベクトルを併用して時系列パター
ンを作成し、辞書に登録されている時系列パターンと動
的計画法を用いて照合する過程を有し、前記照合する過
程において、分析時間間距離Lを類似度の時間変化量ベ
クトル間の距離Lkと類似度ベクトル間の距離Lsの重み
付き和L=pLs+(1−p)Lkとし、分析時間の各類
似度の時間変化量の平均の大きさに応じて混合比率pの
値を変え、類似度が定常な区間すなわち分析時間の平均
類似度時間変化量が小さい区間でpの値を大きくするこ
とによって、認識対象音声を登録した話者およびその他
の話者の入力音声を認識することを特徴とする音声認識
方法。 - 【請求項5】 動的計画法を用いて辞書と照合する際
に、分析時間の平均類似度時間変化量が小さい母音の定
常区間では、類似度の時間変化量ベクトル間の距離Lk
と類似度ベクトル間の距離Lsの混合比率pの値をそれ
以外の区間より大きくすることを特徴とする請求項4記
載の音声認識方法。 - 【請求項6】 請求項2または請求項3記載の音声認識
方法と、請求項4または請求項5記載の音声認識方法を
組み合せたことを特徴とする音声認識方法。 - 【請求項7】 同一の認識対象音声を2名以上の話者が
発声し、それぞれ分析して得られるn次元類似度ベクト
ルまたはn次元類似度ベクトルとn次元時間変化量ベク
トルの時系列に対して、DPマッチングによって話者間
の時間整合を行ない、時間的に整合した分析時間間で各
類似度の平均値を求め、その平均値の時系列パターンを
辞書に登録することを特徴とする請求項1乃至6のいず
れかに記載の音声認識方法。 - 【請求項8】 同一の認識対象音声を2名以上の話者が
発声し、それぞれ分析してn次元類似度ベクトルまたは
n次元類似度ベクトルとn次元時間変化量ベクトルの時
系列を複数個求め、これらを辞書として登録し、マルチ
標準パターンとして使用することを特徴とする請求項1
乃至6のいずれかに記載の音声認識方法。 - 【請求項9】 2名以上の話者の発声によって辞書を作
成する際に、男女各1名ずつまたは男女ほぼ同数の発声
によって辞書を作成することを特徴とする請求項7また
は8記載の音声認識方法。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17090891A JP2574557B2 (ja) | 1991-07-11 | 1991-07-11 | 音声認識方法 |
US07/808,692 US5345536A (en) | 1990-12-21 | 1991-12-17 | Method of speech recognition |
DE69127961T DE69127961T2 (de) | 1990-12-21 | 1991-12-19 | Verfahren zur Spracherkennung |
EP91121856A EP0492470B1 (en) | 1990-12-21 | 1991-12-19 | Method of speech recognition |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP17090891A JP2574557B2 (ja) | 1991-07-11 | 1991-07-11 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0519786A true JPH0519786A (ja) | 1993-01-29 |
JP2574557B2 JP2574557B2 (ja) | 1997-01-22 |
Family
ID=15913572
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP17090891A Expired - Fee Related JP2574557B2 (ja) | 1990-12-21 | 1991-07-11 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2574557B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058185A (ja) * | 2001-08-09 | 2003-02-28 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3114468B2 (ja) | 1993-11-25 | 2000-12-04 | 松下電器産業株式会社 | 音声認識方法 |
-
1991
- 1991-07-11 JP JP17090891A patent/JP2574557B2/ja not_active Expired - Fee Related
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003058185A (ja) * | 2001-08-09 | 2003-02-28 | Matsushita Electric Ind Co Ltd | 音声認識装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2574557B2 (ja) | 1997-01-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Desai et al. | Feature extraction and classification techniques for speech recognition: A review | |
Saksamudre et al. | A review on different approaches for speech recognition system | |
Arora et al. | Automatic speech recognition: a review | |
Friedland et al. | Prosodic and other long-term features for speaker diarization | |
JP4911034B2 (ja) | 音声判別システム、音声判別方法及び音声判別用プログラム | |
Washani et al. | Speech recognition system: A review | |
US20010010039A1 (en) | Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector | |
Mantena et al. | Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios | |
Gulzar et al. | A systematic analysis of automatic speech recognition: an overview | |
Jothilakshmi et al. | Large scale data enabled evolution of spoken language research and applications | |
Hasija et al. | Recognition of children Punjabi speech using tonal non-tonal classifier | |
Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
Sahoo et al. | MFCC feature with optimized frequency range: An essential step for emotion recognition | |
Dharun et al. | Voice and speech recognition for tamil words and numerals | |
Fu et al. | A survey on Chinese speech recognition | |
JP2574557B2 (ja) | 音声認識方法 | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
JP2879989B2 (ja) | 音声認識方法 | |
JP2011180308A (ja) | 音声認識装置及び記録媒体 | |
Hase et al. | Speech Recognition: A Concise Significance | |
JP2692382B2 (ja) | 音声認識方法 | |
JP2943445B2 (ja) | 音声認識方法 | |
JP2943473B2 (ja) | 音声認識方法 | |
Adam et al. | Analysis of Momentous Fragmentary Formants in Talaqi-like Neoteric Assessment of Quran Recitation using MFCC Miniature Features of Quranic Syllables | |
Shafie et al. | Sequential classification for articulation and Co-articulation classes of Al-Quran syllables pronunciations based on GMM-MLLR |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |