JP2000137495A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法

Info

Publication number
JP2000137495A
JP2000137495A JP10310683A JP31068398A JP2000137495A JP 2000137495 A JP2000137495 A JP 2000137495A JP 10310683 A JP10310683 A JP 10310683A JP 31068398 A JP31068398 A JP 31068398A JP 2000137495 A JP2000137495 A JP 2000137495A
Authority
JP
Japan
Prior art keywords
pattern
phoneme
voice
recognition
similarity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP10310683A
Other languages
English (en)
Inventor
Hiroshi Kanazawa
博史 金澤
Mitsuyoshi Tatemori
三慶 舘森
Akinori Koshiba
亮典 小柴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP10310683A priority Critical patent/JP2000137495A/ja
Publication of JP2000137495A publication Critical patent/JP2000137495A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 統計的な手法とパターンマッチング手法とを
相補的に利用し、きわめて高性能の認識性能が得られる
音声認識装置を提供すること。 【解決手段】 発声された音声を入力し、入力された音
声を分析して音声パターンを生成し、生成された音声パ
ターンに対して隠れマルコフモデルを用いた音声認識を
行い、この音声認識により得られた認識結果に基づいて
前記音声パターンから対応する音韻パターンを抽出し、
抽出された音韻パターンに対する類似度を求め、求めら
れた音韻パターンに対する類似度の情報を用いて、前記
音声認識により得られた認識結果に対する検証を行うこ
とを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、パターンマッチン
グと統計処理を組み合わせた音声認識装置及び音声認識
方法に関する。
【0002】
【従来の技術】現在、音声認識における基本的な照合方
法として、HMM(Hidden Markov Mo
del:隠れマルコフモデル)を用いた照合方法があ
る。これは、入力音声の各時刻での音響的な特徴を確率
事象としてとらえ、各音韻ごとに作成したHMMに基づ
き、その音響的特徴の出現確率を求め、確率値を時間方
向に累積してゆき、発声終了時点で最終的に最も高い累
積値(=確率値)をもつカテゴリを認識結果とする方法
である。
【0003】この認識方法で用いるHMMは、各音韻ご
とに大量のデータから音響特徴の出現確率を推定するこ
とにより作成される。一般的に分布形には正規分布が適
用され、正規分布のパラメータを格納して、照合に利用
する。
【0004】出現確率の累積を求める際には、例えばV
iterbi照合などの動的計画法に基づく照合方法が
一般的である。これは、各時刻で、認識対象カテゴリに
属する全音韻に到達する最大尤度を求めておくものであ
り、前フレーム(フレームはディジタル時系列信号であ
る音声データをある固定時間で区切った単位)までの結
果と、現フレームの確率値によって漸化式を解くことに
より求められる。
【0005】一方、パターンマッチングに基づく認識方
法も提案されている。マッチング用のテンプレートの作
成には、例えば単語認識の場合には、多数話者から単語
音声を収集し、その音声を分析して求めた単語音声パタ
ーンを平均化したり、例えば主成分分析等を行い、圧縮
したパターンをテンプレートとしたりして効率化をはか
るなどの方法がとられる。こうして求められたテンプレ
ートと入力された音声とのマッチングを行い、類似度を
算出して最も高い類似度をとるカテゴリを認識結果とす
る。
【0006】
【発明が解決しようとする課題】従来の音声認識手法と
しては、大別すると上述したように、HMMなどの統計
的手法を用いる認識法と、テンプレートとの照合による
パターンマッチング的な手法を用いる認識法がある。
【0007】しかし、統計的な手法を用いた場合、照合
時に各時刻ごとの尤度を求め、その値を累積して行き、
最終時刻での累積値で認識結果を判定するため、各時刻
ごとの個別の音韻スコアの関係が認識結果に陽に反映さ
れず、誤認識の原因となる場合があった。例えば、ある
音声区間で2位以下の音韻のスコアが非常に低く、スコ
アが1位の音韻がその区間に該当するのが明らかな場合
でも、1位のスコアがあまり高くない場合にトータルの
スコアも向上せず、結果として誤認識を起こす場合があ
った。また、ある音声区間である音韻が非常に大きなス
コアをもったため、その音韻が支配的な単語が上位にき
てしまい、誤認識となる場合なども起こっている。これ
は、結局、スコアの累積値のみが認識結果を決定する尺
度になっているために起こっている問題である。
【0008】また、パターンマッチングによる手法を用
いる場合には、得られたパターンがどの音韻あるいは単
語に近いかという判定は可能であるが、時系列パターン
の場合、ある時刻の音韻パターンに対する類似度と、次
の時刻の音声パターンに対する類似度とをどのように統
合するかの基準が明確でなく、通常は類似度の和をとる
等の操作をするに留まっている。これは、テンプレート
マッチングがノンパラメトリックな手法であり、全体を
同一の尺度で見る基準が不明確なためである。このた
め、個別の時刻での音韻間の識別能力は優れているにも
かかわらず、異なるパターンに対する類似度の統合をす
る基準の不明確さから誤認識を起こす場面があった。
【0009】本発明は、上記事情を考慮してなされたも
ので、統計的な手法とパターンマッチング手法とを相補
的に利用し、きわめて高性能の認識性能が得られる音声
認識装置および音声認識方法を提供することを目的とす
る。
【0010】
【課題を解決するための手段】本発明(請求項1)に係
る音声認識装置は、発声された音声を入力する手段と、
入力された音声を分析して音声パターンを生成する手段
と、生成された音声パターンに対して隠れマルコフモデ
ル(Hidden Markov Model:HM
M)を用いた音声認識を行う手段と、この音声認識によ
り得られた認識結果に基づいて前記音声パターンから対
応する音韻パターンを抽出する手段と、抽出された音韻
パターンに対する類似度を求める手段と、求められた音
韻パターンに対する類似度の情報を用いて、前記音声認
識により得られた認識結果に対する検証を行う手段とを
備えたことを特徴とする。
【0011】好ましくは、前記検証を行う手段は、複数
の認識結果についてそれぞれ前記類似度の情報に基づい
た尤度の再計算を行い、再計算の結果、最も高い尤度を
持つものを認識結果として出力するようにしてもよい。
【0012】本発明(請求項3)に係る音声認識装置
は、発声された音声を入力し、始終端区間の単位でディ
ジタル時系列信号からなる音声データを生成する手段
と、生成された音声データを分析し、所定の特徴ベクト
ルからなる音声パターンを生成する手段と、生成された
音声パターンに対して隠れマルコフモデル(Hidde
nMarkov Model:HMM)を用いた音声認
識を行い、語彙と該語彙を形成する音韻の系列と各音韻
の区間情報と各音韻の尤度との組からなる認識結果の候
補を定められた順位を上限として複数求める手段と、こ
の音声認識により得られた各認識結果の候補のそれぞれ
について、該認識結果の候補の語彙を形成する各音韻の
区間情報に基づき前記音声パターンから対応する各音韻
の音韻パターンを抽出する手段と、各認識結果の候補の
それぞれについて、該認識結果の候補の語彙を形成する
各音韻ごとに前記音韻パターンに対する類似度を求める
手段と、各認識結果の候補のそれぞれについて、該認識
結果の候補の語彙を形成する各音韻の尤度にそれぞれそ
の音韻の音韻パターンに対する類似度に基づいて求めら
れた重み値を乗じた値を累積して全音韻の尤度の累積値
を求め、この値が最も大きい候補を認識結果として出力
する手段とを備えたことを特徴とする。
【0013】本発明(請求項4)に係る音声認識装置
は、発声された音声を入力して音声データを生成する手
段と、生成された音声データを分析して音声パターンを
生成する手段と、生成された音声パターンから、基準以
上の類似度を持つ音韻とその時刻を求める手段と、求め
られた音韻とその時刻を制約条件として、生成された音
声パターンに対して隠れマルコフモデル(Hidden
Markov Model:HMM)を用いた音声認
識を行う手段とを備えたことを特徴とする。
【0014】本発明(請求項5)に係る音声認識方法
は、発声された音声を入力し、入力された音声を分析し
て音声パターンを生成し、生成された音声パターンに対
して隠れマルコフモデル(Hidden Markov
Model:HMM)を用いた音声認識を行い、この
音声認識により得られた認識結果に基づいて前記音声パ
ターンから対応する音韻パターンを抽出し、抽出された
音韻パターンに対する類似度を求め、求められた音韻パ
ターンに対する類似度の情報を用いて、前記音声認識に
より得られた認識結果に対する検証を行うことを特徴と
する。
【0015】本発明(請求項6)に係る音声認識装置
は、発声された音声を入力して音声データを生成し、生
成された音声データを分析して音声パターンを生成し、
生成された音声パターンから基準以上の類似度を持つ音
韻とその時刻を求め、求められた音韻とその時刻を制約
条件として、生成された音声パターンに対して隠れマル
コフモデル(Hidden Markov Mode
l:HMM)を用いた音声認識を行うことを特徴とす
る。
【0016】本発明では、HMMによる認識処理に、パ
ターンマッチングの識別能力を組み込むことにより、高
精度の認識を行うようにしている。すなわち、まず、H
MMを用いた認識処理を行い、その結果として得られる
認識結果および音韻区間情報に基づき、例えば上位N位
までの認識結果に対して、各音韻のパターンを抽出し、
予め作成した音韻テンプレートとのマッチングを行うな
どして、HMM照合により求められた音韻パターンが、
正しいかどうかを検証する。例えば、類似度を基準に、
その音韻パターンの信頼度を求める。
【0017】次に、HMM照合により求められた例えば
上位N位の認識結果とその音韻区間、さらにパターンマ
ッチングにより求められた各音韻の信頼度を用いて、認
識結果の再スコアリングを行う。再スコアリングの際に
は、例えば、HMMの尤度に、音韻の信頼度に基づく重
み付けを行うなどの方法を用いる。
【0018】このような本発明によれば、統計的手法に
よる音声認識結果をパターンマッチング手法により検証
することで、統計的手法による認識の問題を解消し、き
わめて高性能の音声認識を実現することができる。
【0019】また、本発明では、まず、入力音声パター
ンから基準以上の類似度を持つ音韻とその時刻を求めて
おき、この結果を制約条件として入力音声パターンに対
して隠れマルコフモデルを用いた音声認識を行う。
【0020】このような本発明によれば、統計的手法に
よる音声認識処理の過程にパターンマッチング手法を取
り入れることで、統計的手法による認識の問題を解消で
き、きわめて高性能の音声認識を実現することができ
る。
【0021】なお、装置に係る本発明は方法に係る発明
としても成立し、方法に係る本発明は装置に係る発明と
しても成立する。また、装置または方法に係る本発明
は、コンピュータに当該発明に相当する手順を実行させ
るための(あるいはコンピュータを当該発明に相当する
手段として機能させるための、あるいはコンピュータに
当該発明に相当する機能を実現させるための)プログラ
ムを記録したコンピュータ読取り可能な記録媒体として
も成立する。
【0022】
【発明の実施の形態】以下、図面を参照しながら本発明
の実施の形態を説明する。 (第1の実施形態)本発明の第1の実施形態について説
明する。
【0023】図1は、本実施形態に係る音声認識装置の
基本構成例を示すブロック図である。図1に示されるよ
うに、本音声認識装置は、音声入力部11、音声分析部
12、認識部13、音韻パターン抽出部14、類似度計
算部15、検証部16、HMM格納部17、認識語彙リ
スト格納部18、音韻辞書格納部19を備えている。
【0024】図2に、本実施形態における音声認識処理
手順例を示す。まず、ステップS1において、音声入力
部11では、発声された音声を音響−電気変換しA/D
変換して、ディジタル時系列信号の音声データに変換す
る。そして、こうして得られた音声データに対して、あ
る固定時間(例えば、8ミリ秒)で区切ったフレームご
とに音声パワーを計算し、パワーの時系列を用いて、発
声された音声の始終端の時刻を検出する。この始終端区
間内の音声データは音声分析部12に送られる。なお、
同様の処理をリアルタイムで行うために、音声の始端を
検出した時点から音声分析部12に送ることも可能であ
る。
【0025】次に、ステップS2において、音声分析部
12では、与えられた音声データに対し例えば高速フー
リエ変換などを用いて周波数分析を行い、この時系列信
号を周波数パラメータの時系列データからなる音声パタ
ーンに変換する。例えば、256ポイントの高速フーリ
エ変換を行い、得られた128次元のパワースペクトル
を、Barkスケールにより、16次元のバンドパスフ
ィルター出力に圧縮して、各フレームあたり16次元の
特徴ベクトルからなる音声パターンを生成する。
【0026】こうして求められた音声パターンは、認識
部13に送られ、また音韻パターン抽出部14にも送ら
れる。次に、ステップS3において、認識部13では、
認識語彙リスト格納部18内の認識語彙リストに登録さ
れている認識対象語彙について、与えられた音声パター
ンとHMM格納部17内のHMMとのViterbi照
合により尤度を計算し、例えば上位N位までのスコアを
与える語彙と、その語彙を構成する音韻の区間を求め
る。
【0027】図3に、認識部13から出力される認識結
果の例を示す。図3の(a)に入力音声に対する正い区
間の例を、(b)に各音韻の尤度の累積値が最も高かっ
た第1位の認識結果の例を、(c)に第2位の認識結果
の例を、(d)に第3位の認識結果の例をそれぞれ示
す。
【0028】図3のように、ここでは、「A−S−O−
B−I(遊び)」という発声に対する認識結果を例示し
ており、1位は「K−A−S−A−I(火災)」、2位
は「A−S−A−I(浅い)」、3位は「A−S−O−
B−I(遊び)」という認識結果となっている(この認
識処理の時点では、正解候補は3位となっている。)な
お、図3(a)〜(d)において、棒状に示したもの
は、全音声区間での各音韻の時間長を示している。
【0029】この例では、入力音声の中で特徴のよく現
れている音韻は「A」「S」「I」であり、他の「O」
「B」についてはパターン変形の度合いが大きいため、
1位の結果では、「A」「S」「I」の継続時間が正解
単語(「遊び」)の場合に比べて長くなり、正しい区間
よりも「A」「S」「I」の占める割合が高くなってい
る。
【0030】これは、Viterbi照合により最大ス
コアを求める際に、「高いスコアの出ている音韻を必要
以上に重要視し、あまり特徴の出ていない音韻区間に
は、累積スコアをできるだけおとさないように、別の音
韻を非常に短い区間で当てはめ、全体としてもスコアを
最大にするような制御がなされる」ために起こることで
ある。また、これは、2位の結果である「A−S−A−
I(浅い)」に対しても同様のことが言える。
【0031】この点について、本実施形態では、以下の
処理によって認識結果を検証し、正解が得られるように
している。さて、認識部13により得られた図3に例示
するような情報は、音韻パターン抽出部14に送られ、
また検証部16にも送られる。
【0032】続いて、ステップS4において、音韻パタ
ーン抽出部14では、音声分析部12で得られた音声パ
ターンを対象とし、上記の情報に基づいて音韻区間ごと
に音韻パターンの抽出を行う。ここでは、後に行う類似
度計算に供するための処理として、時間方向の正規化や
パワーの正規化処理を行い、例えば、ノルム1の固定次
元の音韻パターンを求めるなどの処理を行う。
【0033】次に、ステップS5において、類似度計算
部15では、音韻辞書格納部19内の、予め作成された
パターンマッチング用の音韻辞書を用いて、音韻パター
ン抽出部14で得られた音韻パターンとの類似度計算を
行う。ここでは、例えば、複合類似度法(参考文献:中
川誠一著:「確率モデルによる音韻」pp.16−1
7)等を用いて、抽出された音韻パターンが対応する音
韻にどの程度似ているかどうかの判定を行う。
【0034】次に、ステップS6において、検証部16
による検証処理が行われる。すなわち、検証部16で
は、認識部13から送られた、(1)上位N位までの音
声認識結果となる語彙、(2)そのスコア、(3)語彙
を構成する音韻、(4)その区間情報と、類似度計算部
15から送られる認識結果に対応した各音韻の類似度情
報とを用いて、認識部13により行われたHMMによる
認識結果の検証を行う。
【0035】図4に、検証部16による検証処理手順例
を示す。ステップS61,S66,S67により、第1
位の認識結果から第N位の認識結果のそれぞれについ
て、以下の一連の処理(ステップS62〜S65)を行
う。
【0036】まず、第i位の認識結果に対する類似度を
読む(ステップS62)。次に、音韻の類似度に基づ
き、スコアリングの際の重み係数を決定する。例えば、
音韻ごとに重みの上限Wh、下限Wlを決めておき(ス
テップS63)、類似度の値S(たとえば、0.0〜
1.0の値)から重みWを、 W=Wl+(Wh−Wl)×S なる式で求める(ステップS64)。
【0037】あるいは、類似度の順位まで考慮して、例
えば、類似度の1位が該当する音韻であり、2位との類
似度差がある値以上である場合には、重みの上下限を上
方修正し、そうでない場合には下方修正するなどして調
整することも可能である。また、類似度の1位が該当す
る音韻でない場合には、上下限値の下方修正の度合いを
上げるなどの対応も可能である。
【0038】このようにして、重みを決定した後、HM
M照合で得られた認識結果に対する再スコアリングを行
う(ステップS65)。ここでは、認識結果における各
音韻の尤度に、類似度から求めた重みを乗じた値を新た
な尤度とし、認識語彙中の全音韻に対して重み付け尤度
を計算し、その累積値を最終的な認識語彙に対する尤度
とする。
【0039】このような一連の処理を繰り返して、上位
N位までの候補に対し、尤度の再計算を行い、最大尤度
を与える語彙を認識結果とする(ステップS68)。こ
のように、本実施形態によれば、HMMによるVite
rbi照合のスコアリングの問題を、パターンマッチン
グ結果による重みつけを導入することにより解消するこ
とができ、認識性能を高く保持することが可能となる。
【0040】(第2の実施形態)本発明の第2の実施形
態について説明する。図5は、本実施形態に係る音声認
識装置の基本構成例を示すブロック図である。図5に示
されるように、本音声認識装置は、音声入力部21、音
声分析部22、認識部23、類似度計算部25、HMM
格納部27、認識語彙リスト格納部28、音韻辞書格納
部29を備えている。
【0041】図6に、本実施形態における音声認識処理
手順例を示す。本実施形態の音声入力部21による音声
入力処理(ステップS101)と音声分析部22による
音声分析処理(ステップS102)は、第1の実施形態
と同様であるので、ここでの説明は省略する。
【0042】さて、本実施形態では、音声分析部22か
ら出力される音声パターンは、類似度計算部25に送ら
れ、また認識部23にも送られる。そして、ステップS
103において、類似度計算部25では、音声パターン
を対象として、1フレームづつシフトしながら音韻辞書
格納部29内の音韻辞書とのマッチングを行い、音韻辞
書に登録された全音韻の類似度の時系列を求める。そし
て、この類似度時系列の中からある基準以上の類似度を
持つ音韻とその時刻を求める。求められたこの情報は認
識部23へ送られる。
【0043】次に、ステップS104において、認識部
23では、音声分析部22より送られる音声パターン
と、上述した類似度計算部25より送られる情報とを入
力し、認識語彙リスト格納部28内の認識語彙リストに
登録されている認識対象語彙について、与えられた音声
パターンとHMM格納部27内のHMMとのViter
bi照合に基づいた認識を行う。ここで、類似度計算部
25より送られる情報は、HMMによるViterbi
照合の際の最適パスの制約として用いられる。
【0044】具体的には、認識対象語彙を構成する音韻
に、高い類似度を持つ音韻が含まれる場合には、その時
刻の範囲内を、Vitervi照合の最適パスが通るよ
うな最適パス探索を行うことにより、累積値最大という
基準に加えて、探索範囲の制限を加えることができ、認
識精度を向上させることができる。
【0045】類似度が高いかどうかという判断を行うた
めの基準は、例えば、その時刻において類似度が1位で
あり、かつ、その値があるしきい値を越え、かつ、2位
の類似度との差があるしきい値以上ある場合などとす
る。しきい値を変化させることにより、類似度による制
約のレベルを変化させることも可能である。
【0046】また、類似度計算部25の出力をもとに、
認識対象語彙から、高い類似度を持つ音韻が含まれない
語彙を削除し、尤度計算を行う語彙数を減らすことによ
り、認識時間を短縮できるという副次的な効果も期待で
きる。
【0047】なお、以上の各機能は、ソフトウェアとし
ても実現可能である。また、本実施形態は、コンピュー
タに所定の手段を実行させるための(あるいはコンピュ
ータを所定の手段として機能させるための、あるいはコ
ンピュータに所定の機能を実現させるための)プログラ
ムを記録したコンピュータ読取り可能な記録媒体として
も実施することもできる。本発明は、上述した実施の形
態に限定されるものではなく、その技術的範囲において
種々変形して実施することができる。
【0048】
【発明の効果】本発明によれば、統計的手法による音声
認識結果をパターンマッチング手法により検証すること
で、統計的手法による認識の問題を解消し、きわめて高
性能の音声認識を実現することができる。
【0049】また、本発明によれば、統計的手法による
音声認識処理の過程にパターンマッチング手法を取り入
れることで、統計的手法による認識の問題を解消でき、
きわめて高性能の音声認識を実現することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態に係る音声認識装置の
基本構成例を示す図
【図2】同実施形態における音声認識処理手順の一例を
示すフローチャート
【図3】認識部から出力される認識結果の例を示す図
【図4】検証部での処理手順の一例を示すフローチャー
【図5】本発明の第2の実施形態に係る音声認識装置の
基本構成例を示す図
【図6】同実施形態における音声認識処理手順の一例を
示すフローチャート
【符号の説明】
11,21…音声入力部 12,22…音声分析部 13,23…認識部 14…音韻パターン抽出部 15,25…類似度計算部 16…検証部 17,27…HMM格納部 18,28…認識語彙リスト格納 19,29…音韻辞書格納部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 小柴 亮典 兵庫県神戸市東灘区本山南町8丁目6番26 号 株式会社東芝関西研究所内 Fターム(参考) 5D015 HH05 HH12 HH23

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】発声された音声を入力する手段と、 入力された音声を分析して音声パターンを生成する手段
    と、 生成された音声パターンに対して隠れマルコフモデルを
    用いた音声認識を行う手段と、 この音声認識により得られた認識結果に基づいて前記音
    声パターンから対応する音韻パターンを抽出する手段
    と、 抽出された音韻パターンに対する類似度を求める手段
    と、 求められた音韻パターンに対する類似度の情報を用い
    て、前記音声認識により得られた認識結果に対する検証
    を行う手段とを備えたことを特徴とする音声認識装置。
  2. 【請求項2】前記検証を行う手段は、複数の認識結果に
    ついてそれぞれ前記類似度の情報に基づいた尤度の再計
    算を行い、再計算の結果、最も高い尤度を持つものを認
    識結果として出力することを特徴とする音声認識装置。
  3. 【請求項3】発声された音声を入力し、始終端区間の単
    位でディジタル時系列信号からなる音声データを生成す
    る手段と、 生成された音声データを分析し、所定の特徴ベクトルか
    らなる音声パターンを生成する手段と、 生成された音声パターンに対して隠れマルコフモデルを
    用いた音声認識を行い、語彙と該語彙を形成する音韻の
    系列と各音韻の区間情報と各音韻の尤度との組からなる
    認識結果の候補を定められた順位を上限として複数求め
    る手段と、 この音声認識により得られた各認識結果の候補のそれぞ
    れについて、該認識結果の候補の語彙を形成する各音韻
    の区間情報に基づき前記音声パターンから対応する各音
    韻の音韻パターンを抽出する手段と、 各認識結果の候補のそれぞれについて、該認識結果の候
    補の語彙を形成する各音韻ごとに前記音韻パターンに対
    する類似度を求める手段と、 各認識結果の候補のそれぞれについて、該認識結果の候
    補の語彙を形成する各音韻の尤度にそれぞれその音韻の
    音韻パターンに対する類似度に基づいて求められた重み
    値を乗じた値を累積して全音韻の尤度の累積値を求め、
    この値が最も大きい候補を認識結果として出力する手段
    とを備えたことを特徴とする音声認識装置。
  4. 【請求項4】発声された音声を入力して音声データを生
    成する手段と、 生成された音声データを分析して音声パターンを生成す
    る手段と、 生成された音声パターンから、基準以上の類似度を持つ
    音韻とその時刻を求める手段と、 求められた音韻とその時刻を制約条件として、生成され
    た音声パターンに対して隠れマルコフモデルを用いた音
    声認識を行う手段とを備えたことを特徴とする音声認識
    装置。
  5. 【請求項5】発声された音声を入力し、 入力された音声を分析して音声パターンを生成し、 生成された音声パターンに対して隠れマルコフモデルを
    用いた音声認識を行い、 この音声認識により得られた認識結果に基づいて前記音
    声パターンから対応する音韻パターンを抽出し、 抽出された音韻パターンに対する類似度を求め、 求められた音韻パターンに対する類似度の情報を用い
    て、前記音声認識により得られた認識結果に対する検証
    を行うことを特徴とする音声認識方法。
  6. 【請求項6】発声された音声を入力して音声データを生
    成し、 生成された音声データを分析して音声パターンを生成
    し、 生成された音声パターンから基準以上の類似度を持つ音
    韻とその時刻を求め、 求められた音韻とその時刻を制約条件として、生成され
    た音声パターンに対して隠れマルコフモデルを用いた音
    声認識を行うことを特徴とする音声認識方法。
JP10310683A 1998-10-30 1998-10-30 音声認識装置および音声認識方法 Pending JP2000137495A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP10310683A JP2000137495A (ja) 1998-10-30 1998-10-30 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP10310683A JP2000137495A (ja) 1998-10-30 1998-10-30 音声認識装置および音声認識方法

Publications (1)

Publication Number Publication Date
JP2000137495A true JP2000137495A (ja) 2000-05-16

Family

ID=18008207

Family Applications (1)

Application Number Title Priority Date Filing Date
JP10310683A Pending JP2000137495A (ja) 1998-10-30 1998-10-30 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP2000137495A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006243230A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 歌声評定装置およびプログラム
JP2008077099A (ja) * 2001-03-28 2008-04-03 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008077099A (ja) * 2001-03-28 2008-04-03 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2008203876A (ja) * 2001-03-28 2008-09-04 Qualcomm Inc 話し手に暗黙的に順応する技術を用いた音声認識システム
JP4546512B2 (ja) * 2001-03-28 2010-09-15 クゥアルコム・インコーポレイテッド 話し手に暗黙的に順応する技術を用いた音声認識システム
JP4546555B2 (ja) * 2001-03-28 2010-09-15 クゥアルコム・インコーポレイテッド 話し手に暗黙的に順応する技術を用いた音声認識システム
JP2006243230A (ja) * 2005-03-02 2006-09-14 Advanced Telecommunication Research Institute International 歌声評定装置およびプログラム
JP4524634B2 (ja) * 2005-03-02 2010-08-18 株式会社国際電気通信基礎技術研究所 歌声評定装置およびプログラム

Similar Documents

Publication Publication Date Title
US8271283B2 (en) Method and apparatus for recognizing speech by measuring confidence levels of respective frames
Gaikwad et al. A review on speech recognition technique
US7693713B2 (en) Speech models generated using competitive training, asymmetric training, and data boosting
US5167004A (en) Temporal decorrelation method for robust speaker verification
US20030200090A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
CN101154380B (zh) 说话人认证的注册及验证的方法和装置
Aggarwal et al. Performance evaluation of sequentially combined heterogeneous feature streams for Hindi speech recognition system
EP1675102A2 (en) Method for extracting feature vectors for speech recognition
JP4353202B2 (ja) 韻律識別装置及び方法、並びに音声認識装置及び方法
US20110218802A1 (en) Continuous Speech Recognition
JP3496706B2 (ja) 音声認識方法及びそのプログラム記録媒体
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
US20210065684A1 (en) Information processing apparatus, keyword detecting apparatus, and information processing method
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
JP3444108B2 (ja) 音声認識装置
JP4652232B2 (ja) 話者の圧縮表現用の音声信号の分析のための方法およびシステム
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2000137495A (ja) 音声認識装置および音声認識方法
Santoso et al. Categorizing error causes related to utterance characteristics in speech recognition
Wu et al. Dku-tencent submission to oriental language recognition ap18-olr challenge
Nahar et al. Effect of data augmentation on dnn-based vad for automatic speech recognition in noisy environment
KR20000025827A (ko) 음성인식시스템에서의 반음소모델 구축방법및 그를 이용한 발화 검증방법
Upadhyay et al. Analysis of different classifier using feature extraction in speaker identification and verification under adverse acoustic condition for different scenario
JPH0441357B2 (ja)

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20040316

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20040517

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20050419

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20050816