JP2003295887A - 音声認識方法および装置 - Google Patents

音声認識方法および装置

Info

Publication number
JP2003295887A
JP2003295887A JP2002096318A JP2002096318A JP2003295887A JP 2003295887 A JP2003295887 A JP 2003295887A JP 2002096318 A JP2002096318 A JP 2002096318A JP 2002096318 A JP2002096318 A JP 2002096318A JP 2003295887 A JP2003295887 A JP 2003295887A
Authority
JP
Japan
Prior art keywords
recognition
hmm
model
frame
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2002096318A
Other languages
English (en)
Other versions
JP2003295887A5 (ja
Inventor
Seiichi Nakagawa
聖一 中川
Nobuhisa Takahashi
伸寿 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Science and Technology Agency
Original Assignee
Japan Science and Technology Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Science and Technology Corp filed Critical Japan Science and Technology Corp
Priority to JP2002096318A priority Critical patent/JP2003295887A/ja
Publication of JP2003295887A publication Critical patent/JP2003295887A/ja
Publication of JP2003295887A5 publication Critical patent/JP2003295887A5/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 従来のHMMを用いた認識手法では不十分で
あった不特定話者の連続音声に対する認識精度について
一層の改善を図ることである。 【解決手段】 従来のDPマッチングやHMMで利用さ
れていない長区間にまたがるフレーム間の相関情報を利
用して、不特定話者の連続音声に対する認識率を向上さ
せる。そのため、複数の状態を持つ隠れマルコフモデル
(HMM)の音声認識モデルを用いて、その各状態ごと
に対応する区間の入力音声フレームをフォースアライメ
ントにより切り出し、切り出された各フレームに含まれ
る入力特徴パターンを平均化したものを上記状態数分繋
ぎ合わせ、その結果得られたベクトルを、新たな認識パ
ラメータとして認識を行なうものである。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、不特定話者が連続
的に発声した入力音声を認識するのに好適な高精度の音
声認識方法および装置に関するものであり、特に隠れマ
ルコフモデル(Hidden Markov Model :以下HMM)に
よる音声認識モデルを用いた音声認識において、認識率
を向上させる有用な手段を提供する。
【0002】
【従来の技術】音声認識の過程は、通常のパターン認識
の過程と同じく、分析・前処理、特徴抽出・セグメンテ
ーション、判定処理という3段階からなる。
【0003】音声認識の極だった特徴は、時間的なパタ
ーンの伸縮がある時系列(動的)パターンであることで
ある。音韻区間や単語区間が正確に抽出できれば、その
区間内のパターンを線形に伸縮して固定長にすれば通常
の静的パターンの認識手法が使える。そこで、通常は短
区間の音声パターンを静的なパターン認識法で距離や尤
度を求めたり記号化し、その結果の時系列パターンを標
準の時系列パターンと照合するために動的に時間軸を正
規化する方法が使われる。
【0004】また音声(言語)は、音韻(音素)−音節
−単語−文節(句)−文という階層をなしており、次段
階のパターン認識過程を経ることが必要である。例え
ば、音韻認識した結果(音韻候補系列、音韻ラティスと
いう)から単語を認識しなければならない。最初の認識
単位が単語単位であっても、単語候補系列(単語ラティ
ス)から文を認識しなければならない。
【0005】音声パターンは、時間標本化された特徴ベ
クトルの時系列として表現される。通常、特徴ベクトル
としてはスペクトル包絡を表現する特徴パラメータ(ケ
プストラム)が用いられる。
【0006】入力された音声パターンと、認識の対象と
なる単語等の標準パターンを、時間関数の制約のもと
で、あらゆる可能な照合を行い、その中で最小の累積照
合距離を、入力パターンと標準パターンの距離という。
入力音声パターンと、認識の対象となるすべての単語等
の標準パターンとの距離を計算し、その中で最小の距離
を示す単語等が認識結果とされる。この計算は動的計画
法(Dynamic rogramming:DP)を用いると効率よく解く
ことができるため、DPマッチング法と呼ばれている。
【0007】連続単語音声入力に対して、あらゆる可能
な単語列に対応する単語等の標準パターンの連結で表現
される標準パターンを用いたDPマッチング法を適用す
ると、両者の距離を最小とする単語列が得られるととも
に、フォースアライメントによって、入力音声パターン
の中の個別単語単位のセグメント(個別単語に対応する
入力特徴パラメータの組み合わせ)を切り出すことがで
きる。この操作を効率的に計算するアルゴリズムが開発
されている(例えば、中川聖一「確率モデルによる音声
認識」電子情報通信学会、1988)。
【0008】DPマッチングは、時系列パターンの時間
的構造の変動に対しては強力であるが、話者の個人差な
どに起因するスペクトルそのものの変動に対しては弱い
部分がある。パターンマッチングに基づく音声認識の立
場からは、これらの変動成分を統計量によって表現する
方法がある。その枠組みに登場したのが、隠れマルコフ
モデルHMMである。HMMは、DPマッチングを包含
しており、話者やコンテキストによる音声パターンの変
動を確率統計的にモデル化するものである。この考え方
は、時系列パターンの時間的構造の変動に対しても適用
できる。
【0009】HMMでは、時系列の音声パターンのつな
がりを、各状態の初期確率と他の状態につながる可能性
を示す状態遷移確率、および各状態で音声パターンが生
起する出力確率で表現する。あらかじめ各単語に相当す
るHMMを学習により求めておき、入力音声の出力シン
ボルの観測系列(たとえば10msごとの音声特徴パラ
メータの変化)と同じ順序でシンボルが出力される確率
を、各単語のHMMについて求め、最大確率を与えるH
MMに対応する単語を認識結果とする。実際の音声認識
では、各状態から出力するシンボル(特徴パラメータベ
クトル)の確率は離散的に与えられない場合が多く、連
続的分布に対応する多次元正規分布、あるいは、その混
合で表す混合多次元正規分布で近似される。
【0010】前述したように、音声パターンを表現する
特徴ベクトルとしては、通常、スペクトル包絡を表現す
る特徴パラメータ(ケプストラム)が用いられるが、従
来は連続する4フレーム分のメルケプトラム係数を1つ
のベクトルとし、このベクトルに対してKL展開を用い
て20次元に圧縮し入力ベクトルとするセグメント単位
入力HMMの方法にて音声認識の認識率の向上を図って
いた。しかしながら、このようなモデルにおいては、隣
接するフレーム間の相関は考慮されているが、長区間に
またがるフレーム間の相関は考慮されていないため、不
特定話者の連続音声に対する認識率は、単語で90%、
音節で70%程度であり、実用化のレベルには今1歩で
あった。
【0011】
【発明が解決しようとする課題】本発明の課題とすると
ころは、従来のHMMを用いた認識手法ではなお不十分
であった不特定話者の連続音声に対する認識精度につい
て一層の改善を図ることにある。
【0012】
【課題を解決するための手段】本発明は、従来のDPマ
ッチングやHMMで利用されていない長区間にまたがる
フレーム間の相関情報を利用して、不特定話者の連続音
声に対する認識率を向上させるものである。隣接しない
長区間にまたがるフレームには、文節や単語のような言
語的特徴以外に、発声者の声の質や方言によるアクセン
ト等による特徴が統計的に含まれていると考えられ、本
発明は、この情報を認識に利用可能にする。ここで隣接
しないフレーム間の特徴量を新たな認識パラメータとす
る場合、認識に必要な手順を簡略にするため、改めて時
間軸を正規化することなく認識パラメータを抽出できる
ことが望ましい。また比較するパラメータは、統計的な
特徴を持つと考えられるが、これは各状態の内部でのこ
とであり、隣接しないフレーム間の相関を認識に用いる
場合は、単なるベクトルデータの形で標準パターンとの
比較を行うのが望ましい。そこで本発明では、従来の音
節等を単位とするHMMの中間結果を利用して、長区間
にまたがるフレーム間の特徴パラメータを抽出する。こ
のため、HMMの各状態ごとに割り当てられる各フレー
ムの特徴量の平均値を求めてこれを1つの入力ベクトル
とする音節セグメントの統計量を用い音声認識を行なう
ようにした。
【0013】図1は、本発明の原理を例示的方法を用い
て示した概要説明図であり、認識に用いる音節セグメン
トモデルの生成過程を示す。図1(a)は、音節HMM
の例であり、1音節5状態4出力分布の場合を示す。図
1(b)は、入力フレームの時系列をHMMの状態に対
応させて切り出した状態セグメントを示す。区分された
各入力フレームの特徴ベクトルはメルケプストラム係数
であり、各フレームは、10次元の特徴ベクトルのボッ
クスで表現されている。図1(c)は、HMMの各状態
に対応付けられたフレームの特徴ベクトルを状態ごとに
平均化した状態平均セグメントである。平均化された1
0次元の特徴ベクトル4個で合計40次元のベクトルが
得られる。図1(d)は、これらの平均化された特徴ベ
クトルを状態数分連結して得られる新しい40次元の特
徴ベクトルの音節セグメントである。音節セグメント
は、さらに次元を圧縮されて、音節セグメントモデルへ
の入力ベクトルとなる。
【0014】次に、図1(a)の音節HMMを例にし
て、音節セグメントモデルの生成過程についてさらに詳
述する。音節HMMを用いた音声認識モデルの場合、入
力音声から音節の中の各状態に対応付けられたフレーム
をフォースアライメントにより、切り出すことができ
る。フォースアライメントは、標準パターンや標準モデ
ル(HMM)と入力時系列パターンを照合し、その照合
結果を逆に辿ることにより、入力時系列パターンの各フ
レームを標準パターンのフレームや標準モデルの状態に
対応させる手法である。
【0015】各フレームは、図1(b)のようにHMM
のいずれかの状態に対応付けられる。各状態には、時間
軸を正規化する前の複数の入力フレームのパターン、た
とえばメルケプストラム係数、が含まれる。これを状態
セグメントと呼ぶ。そこで、各フレームに含まれる入力
パターンを図1(c)のように平均化して状態平均セグ
メントをつくり、さらに図1(d)のように状態数分繋
ぎ合わせることにより得られる新たな入力ベクトルを、
音節セグメントと定義する。この入力ベクトルを混合多
次元正規分布等でモデル化したものを、ここでは音節セ
グメントモデルと呼ぶ。この音節セグメントモデルを用
いて、入力音声パターンに対して上述の方法で得られる
ベクトルを新たな認識パラメータとすることにより、長
区間にまたがるフレーム間の相関を利用した音声認識を
行うことができる。
【0016】ただし音節セグメントモデルは、HMMに
よる状態間の遷移確率モデルを利用していないことと、
複数フレームのパターンを平均していることのため、局
所的なフレーム間の相関が失われる。そこで、音節セグ
メントモデルとHMMとを併用することにより、さらに
高い認識率を得ることができる。
【0017】併用の際、音節セグメントモデルにより求
められる確率は、20次元のような固定次元の分布によ
り求められるもので、音節のフレーム数に依存しない。
一方、ベースHMMは、フレーム単位の確率をフレーム
数分連乗したものである。この両者を併用する場合、確
率を正規化しておくのが好ましい。
【0018】
【発明の実施の形態】次に、図2により、本発明の1実
施の形態による音声認識装置について説明する。図2に
おいて、1は音声認識装置、2は入力音声信号、3はA
/D変換部、4は特徴抽出部、5は音節HMM部、6は
音節セグメント生成部、7は状態フレーム切り出し部、
8は特徴平均化演算部、9は平均化特徴連結部、10は
音節セグメントモデル部、11は認識処理部、12は認
識出力である。
【0019】音声認識装置1へ入力音声信号2が入力さ
れると、まず、A/D変換部3でサンプリングされると
ともにフレーム単位にディジタル信号に変換され、特徴
抽出部4で分析されて、特徴を抽出される。ここで言う
フレームは、一定サンプリング周期の単位入力である。
音声のサンプリング条件は、サンプリング周波数12k
Hzで、分析窓長は21.33msである。フレーム単
位入力の場合、フレーム周期は8msecである。各フ
レームは、特徴抽出により、10次元のLPCメルケプ
ストラム係数の特徴ベクトルで表現される。なお、ベー
スHMMの音節HMM部5がセグメント単位入力の場合
は、4入力フレームの40次元をKL展開で20次元に
圧縮して用いている。
【0020】ベースとなるHMMの音節HMM部5に
は、連続出力分布型5状態4出力分布全共分散行列4混
合正規分布の音節モデルを用いた。すなわち、各状態に
おける特徴ベクトルの分布は4混合正規分布でモデル化
した。特徴量は10次元のLPCメルケプストラムの4
フレームを20次元に圧縮したものにΔケプストラム+
ΔΔケプストラム+Δpow +ΔΔpow を加えた計42次
元である。そして音節数は114である。
【0021】なお、LPCメルケプストラムとは、音声
を線形予測モデルでモデル化した時の線形予測係数から
得られる対数パワースペクトラムの逆フーリエ変換で定
義されるLPCケプストラム係数に対して、スペクトル
の周波数軸をメルスケールに変換したものである。
【0022】またΔケプストラムとΔΔケプストラムと
は、ケプストラム係数の時間の動的変化の特徴を表すた
めの特徴パラメータで、時間変化パターンを線形回帰曲
線で近似した時の、1次と2次の係数である。
【0023】またΔpow とΔΔpow とは、音声の強さを
表すパワーの時間変化パターンを線形回帰曲線で近似し
た時の、1次と2次の係数である。
【0024】特徴抽出部4から連続出力されるフレーム
は、音節HMM部5と音節セグメント生成部6に入力さ
れる。音節セグメント生成部6の状態フレーム切り出し
部7は、音節HMM部5から得られる各状態ごとの時間
情報に基づいて、入力フレームを状態対応で切り出し、
各フレームをHMMの状態ごとに区分する。
【0025】特徴平均化演算部8は、HMMの状態ごと
にその状態に属するフレームの特徴量を平均化する。
【0026】平均化特徴連結部9は、HMMの状態ごと
に平均化されたフレームの特徴量を状態数分連結して、
新しい特徴ベクトルとなる音節セグメントを生成し、音
節セグメントモデル部10へ入力する。
【0027】音節セグメントモデル部10は、HMMの
各状態に対応する区間の特徴量の平均を連結した音節セ
グメントを入力特徴パターンとして音節セグメントモデ
ルの作成とスコアの計算をする。音節セグメントモデル
は、対角共分散行列と全共分散行列で表現される混合多
次元正規分布のそれぞれで作成される。混合数は、全共
分散行列で1混合と4混合、対角共分散行列で16混合
と32混合をそれぞれ作成する。また、音節セグメント
の40次元の特徴量をKL展開し、20次元に圧縮した
入力ベクトルを用いたモデルもそれぞれ作成される。さ
らに、同様にしてΔケプストラムを併用したモデルも作
成される。
【0028】認識対象として入力される音声についても
音節セグメントが生成され、認識処理部11は、音節セ
グメントモデル部10に作成された音節セグメントモデ
ルに基づきその認識処理を行なう。このとき、認識処理
部11は、音節HMM部5を用いる認識処理も並行して
行ない、両者の認識結果による音節HMMの音響スコア
と音節セグメントモデルの音響スコアを併用して、音節
認識の精度を向上させることができる。この場合、尤度
の正規化のために音節セグメントの尤度はフレーム数分
倍した後、それぞれの音響スコアを重み付けで加算して
用いる。
【0029】ここでは、本発明の1実施形態のみを述べ
たが、ベースとなるHMMの単位(たとえば、音素HM
M、音節HMM、単語HMMなど)、HMMの状態数
(たとえば、3、4、5など)、サンプリング周波数
(たとえば、11.025kHz、12kHz、16k
Hz)やフレーム周期(たとえば、5ms、8ms、1
0ms)、特徴パラメータ(たとえば、LPCメルケプ
ストラム、MFCC=メル周波数ケプストラム係数な
ど)、次元圧縮法(たとえばKL展開、LDC=判別関
数、部分空間法など)、など様々な変形が可能であり、
それらはすべて本発明の実施の形態となるものである。
【0030】
【発明の効果】各条件における認識率の実験結果を表1
と表2に示す。ここで、D16とは音節セグメントモデ
ルで対角共分散行列をもつ16個の混合正規分布を、K
Lは、KL展開で40次元を20次元に圧縮したもの、
F4は全共分散行列をもつ4個の混合正規分布を表わ
す。また、Δは1次と2次の動的変化特徴を用いること
を表わす。frm とは、フレーム単位で入力パターンがH
MMに入力されるもの、seg とは、隣接する4フレーム
をまとめた入力パターンがHMMに入力されるものであ
る。表1のCCは、ベースHMMおよび音節セグメント
モデルで正しく認識された数、CSはベースHMMで正
しく認識され音節セグメントモデルで誤認識された数、
SCは、ベースHMMで誤認識され音節セグメントモデ
ルで正しく認識された数、SSはベースHMMおよび音
節セグメントモデルで誤認識された数を表す。
【0031】HMMの各状態に割り当てられる特徴ベク
トルを平均し、全状態のベクトルを連結して1つの入力
ベクトルとする音節セグメントモデルを作成し、ベース
のHMMモデルとの両方を併用することにより、音節認
識率が81.0%から85.4%に向上した。
【0032】このように、音節認識率を向上させること
によって、単語認識率の向上ができる。従って音声認識
システムや音声認識装置の性能を高精度化することがで
き、いろいろな分野に応用できる。たとえば、音声ワー
プロ(ディクテーション)の性能を向上できる。辞書に
登録されていない単語などの音声入力の認識の場合は、
音節列として認識結果を出力する。このような場合、音
節認識率が向上すると、全体の性能が向上する。
【0033】 〔表1〕 切り出し区間に関する音節セグメントモデルの音節認識率〔%〕及び、ベース モデルとの正解単語傾向の集計 モデル COR(%) CC CS SC SS D16 47.7 16516 14125 1520 5675 KL-D16 56.5 19351 11290 1804 5391 KL-D32 55.5 19198 11443 1813 6382 KL-F1 66.8 23227 7414 2046 5149 KL-F4 68.9 23747 6894 2302 4893 KL・F1+Δ 75.4 25919 4722 2595 4600 KL・F4+Δ 78.4 26612 4129 3141 4054 〔表2〕 ベースモデルと音節モデルの併用による切り出し区間の音節認識 モデル 音節認識率〔%〕 音節セグメントのみ 78.4 frm ・HMM のみ 81.0 frm ・HMM +音節セグメントモデル 85.3 seg ・HMM のみ 81.3 seg ・HMM +音節セグメントモデル 85.4
【図面の簡単な説明】
【図1】本発明の原理を例示的方法を用いて示した概要
説明図である。
【図2】本発明の1実施の形態による音声認識装置の構
成である。
【符号の説明】
1:音声認識装置 2:入力音声信号 3:A/D変換部 4:特徴抽出部 5:音節HMM部 6:音節セグメント生成部 7:状態フレーム切り出し部 8:特徴平均化演算部 9:平均化特徴連結部 10:音節セグメントモデル部 11:認識処理部 12:認識出力

Claims (4)

    【特許請求の範囲】
  1. 【請求項1】 複数の状態を持つ隠れマルコフモデル
    (HMM)の音声認識モデルを用いて、その各状態ごと
    に対応する区間の入力音声フレームをフォースアライメ
    ントにより切り出し、切り出された各フレームに含まれ
    る入力特徴パターンを平均化したものを上記状態数分繋
    ぎ合わせ、その結果得られたベクトルを、新たな認識パ
    ラメータとして認識を行なうことを特徴とする音声認識
    方法。
  2. 【請求項2】 上記認識パラメータと、フレームを状態
    に対応付けるのに用いた隠れマルコフモデル(HMM)
    の音声認識モデルを併用して認識を行なうことを特徴と
    する請求項1に記載の音声認識方法。
  3. 【請求項3】 複数の状態を持つ隠れマルコフモデル
    (HMM)の音声認識モデル部と、 入力音声フレームを、上記音声認識モデル部における隠
    れマルコフモデル(HMM)の各状態に対応する区間ご
    とにフォースアライメントにより切り出す状態フレーム
    切り出し部と、 切り出された各フレームに含まれる入力特徴パターンを
    上記区間ごとに平均化する特徴平均化演算部と、 上記区間ごとの各フレームの入力特徴パターンの平均結
    果を上記状態数分繋ぎ合わせて新たな特徴ベクトルを生
    成する平均化特徴連結部と、 生成された上記新たな特徴ベクトルを認識パラメータと
    して認識を行なう認識処理部と、 を備えていることを特徴とする音声認識装置。
  4. 【請求項4】 上記認識処理部は、上記新たな特徴ベク
    トルを認識パラメータとして行なう認識処理と、上記隠
    れマルコフモデル(HMM)の音声認識モデル部を用い
    た認識処理とを併用して認識を行なうものであることを
    特徴とする請求項3に記載の音声認識装置。
JP2002096318A 2002-03-29 2002-03-29 音声認識方法および装置 Pending JP2003295887A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2002096318A JP2003295887A (ja) 2002-03-29 2002-03-29 音声認識方法および装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2002096318A JP2003295887A (ja) 2002-03-29 2002-03-29 音声認識方法および装置

Publications (2)

Publication Number Publication Date
JP2003295887A true JP2003295887A (ja) 2003-10-15
JP2003295887A5 JP2003295887A5 (ja) 2005-02-17

Family

ID=29239429

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2002096318A Pending JP2003295887A (ja) 2002-03-29 2002-03-29 音声認識方法および装置

Country Status (1)

Country Link
JP (1) JP2003295887A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224020A (ja) * 2009-03-19 2010-10-07 National Institute Of Advanced Industrial Science & Technology 音声認識装置及び音声変換装置
CN109258509A (zh) * 2018-11-16 2019-01-25 太原理工大学 一种生猪异常声音智能监测系统与方法
CN117174111A (zh) * 2023-11-02 2023-12-05 浙江同花顺智能科技有限公司 重叠语音检测方法、装置、电子设备及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010224020A (ja) * 2009-03-19 2010-10-07 National Institute Of Advanced Industrial Science & Technology 音声認識装置及び音声変換装置
CN109258509A (zh) * 2018-11-16 2019-01-25 太原理工大学 一种生猪异常声音智能监测系统与方法
CN117174111A (zh) * 2023-11-02 2023-12-05 浙江同花顺智能科技有限公司 重叠语音检测方法、装置、电子设备及存储介质
CN117174111B (zh) * 2023-11-02 2024-01-30 浙江同花顺智能科技有限公司 重叠语音检测方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
TWI396184B (zh) 一種語音辨認所有語言及用語音輸入單字的方法
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US20030200086A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
US20010010039A1 (en) Method and apparatus for mandarin chinese speech recognition by using initial/final phoneme similarity vector
Mantena et al. Use of articulatory bottle-neck features for query-by-example spoken term detection in low resource scenarios
Sinha et al. Continuous density hidden markov model for context dependent Hindi speech recognition
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JP2955297B2 (ja) 音声認識システム
Sangjamraschaikun et al. Isarn digit speech recognition using HMM
Graciarena et al. Voicing feature integration in SRI's decipher LVCSR system
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP2003295887A (ja) 音声認識方法および装置
JP5300000B2 (ja) 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム
JP2886118B2 (ja) 隠れマルコフモデルの学習装置及び音声認識装置
JP2834471B2 (ja) 発音評価法
Hämäläinen et al. Analysis of acoustic reduction using spectral similarity measures
JP2943473B2 (ja) 音声認識方法
Khalifa et al. Statistical modeling for speech recognition
TWI460718B (zh) 一個辨認所有語言句子方法
JP2862306B2 (ja) 音声認識装置
JP2943445B2 (ja) 音声認識方法
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
Fotinea et al. Emotion in speech: Towards an integration of linguistic, paralinguistic, and psychological analysis

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20040210

A521 Written amendment

Effective date: 20040310

Free format text: JAPANESE INTERMEDIATE CODE: A523

A621 Written request for application examination

Effective date: 20040310

Free format text: JAPANESE INTERMEDIATE CODE: A621

A977 Report on retrieval

Effective date: 20060117

Free format text: JAPANESE INTERMEDIATE CODE: A971007

A131 Notification of reasons for refusal

Effective date: 20060207

Free format text: JAPANESE INTERMEDIATE CODE: A131

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20060613