JPH0750400B2 - Hmm音声認識装置 - Google Patents

Hmm音声認識装置

Info

Publication number
JPH0750400B2
JPH0750400B2 JP63266473A JP26647388A JPH0750400B2 JP H0750400 B2 JPH0750400 B2 JP H0750400B2 JP 63266473 A JP63266473 A JP 63266473A JP 26647388 A JP26647388 A JP 26647388A JP H0750400 B2 JPH0750400 B2 JP H0750400B2
Authority
JP
Japan
Prior art keywords
hmm
voice
probability
speech
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP63266473A
Other languages
English (en)
Other versions
JPH02113298A (ja
Inventor
豪 川端
清宏 鹿野
Original Assignee
株式会社エイ・ティ・アール自動翻訳電話研究所
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 株式会社エイ・ティ・アール自動翻訳電話研究所 filed Critical 株式会社エイ・ティ・アール自動翻訳電話研究所
Priority to JP63266473A priority Critical patent/JPH0750400B2/ja
Publication of JPH02113298A publication Critical patent/JPH02113298A/ja
Publication of JPH0750400B2 publication Critical patent/JPH0750400B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Description

【発明の詳細な説明】 [産業上の利用分野] この発明はHMM音声認識装置に関し、特に、音声認識の
基礎技術であるHMM音声認識方式を用い、発声速度が大
きく変動した場合でも入力音声を正確に認識できるよう
なHMM音声認識装置に関する。
[従来の技術] 音声認識の基礎技術であるHMM音声認識方式について、
単語認識を例にとって、以下に説明する。HMM音声認識
方式は音声を確率的に状態遷移とみなして認識する方式
であり、音声はいくつかの「状態」とそれらの遷移を表
わす「弧」を用いて表現される。
第8図はHMMの実例を示す図である。第8図において、H
MMの各弧には状態間の遷移の確率と、記号の出力確率の
値が与えられており、これらの値に基づいて確率的に記
号列を出力することができる。HMMを用いて単語認識を
行なうためには、予め単語の種類だけHMMを用意し、そ
れぞれ学習用音韻データの記号列を最も高い確率で出力
するように単語HMMの確率値を学習しておき、次に入力
された未知音声データの記号列に対して、すべての単語
HMMからその記号列が出力される確率を計算して、最も
高い確率が得られる単語を認識結果とする。
この入力音声データに対する確率を計算する操作はVite
rbiアルゴリズムを用いて、次のような手順で実現され
る。
(記号の定義) i=i…N(N:入力された未知音声データの記号列の長
さ) j=1…M(M:HMMの状態の数) Oi=入力音声データのi番目の記号 P(i,j):累積確率テーブル a(j1,j2):HMMの状態j1からj2への遷移確率 b(j1,j2,k):HMMの状態j1からj2へ遷移において記号
kが出力される確率pdur(j,l):HMMの状態jにおける
継続時間を制限するための重み係数であり、学習データ
の統計によって求められる。
第9図にこの重み係数の分布の実例を示す。
(初期値の設定) P(0,0)=1.0 P(0,j)=1.0e(j=1…M) P(i,0)=1.0e(j=1…N) 記号列の出力確率はP(N,M)として求まる。
[発明が解決しようとする課題] 上述のごとく、HMM音声認識方式では、HMMの各状態の継
続時間を制限することが、認識率の向上に有効である。
しかし、従来の方式では、この制限の範囲が学習や統計
によって求められた分布によって固定されていたため、
入力音声の発生速度が学習データと著しく異なる場合に
は、この分布が不適切になり、認識性能が劣化するとい
う問題があった。
それゆえに、この発明の主たる目的は、入力音声発声速
度が大きく変動した場合でも入力音声を正確に認識し得
るHMM音声認識装置を提供することである。
[課題を解決するための手段] この発明は入力音声を音声パワー系列に変換し、その音
声パワー系列のスペクトルのうちのピーク値の時点を検
出して発声速度として出力する発声速度検出手段と、入
力音声を分析して、ベクトル量子化により記号化した記
号化列を出力する音声記号化手段と、発声速度検出手段
によって検出された発声速度に基づいて、音声記号化手
段の出力の記号化列の継続時間を制限し、HMM法に基づ
いて音声認識を行なう音声認識手段とを備えて構成され
る。
[作用] この発明に係るHMM音声認識装置は、入力音声を音声パ
ワー系列に変換し、その音声パワー系列のスペクトルの
うちのピーク値の時点を検出して発声速度として出力す
るとともに、入力音声を分析してベクトル量子化により
記号化した記号化列を出力し、検出された発声速度に基
づいて、音声の記号化列の継続時間を制限し、HMM法に
基づいて音声認識を行なう。
[発明の実施例] 第1図はこの発明の一実施例の単語認識システムの構成
例を示すブロック図であり、第2図は第1図に示した発
声速度検出部の構成例を示すブロック図であり、第3図
は発声速度検出部による発声速度検出の原理を説明する
ための図であり、第4図は第1図に示した音声記号化部
の構成例を示すブロック図であり、第5図はHMM法に基
づく音声認識部の構成例を示すブロック図である。
まず、第1図ないし第5図を参照して、この発明の一実
施例の構成について説明する。入力端子300から入力さ
れた音声は発声速度検出部301および音声記号化部302に
与えられる。発声速度検出部301は入力音声の発声速度3
03を求め、HMM法に基づく音声認識部305に与える。音声
記号化部302は入力音声を記号系列304に変換し、HMM法
に基づく音声認識部305に与える。HMM法に基づく音声認
識部305は発声速度303の値に用いて継続時間の制限を行
ないながら、記号系列304と単語HMMデータベース306中
の各単語HMMとの間の確率計算を行ない、最も高い確率
が得られるHMMに対応する単語を認識結果として出力す
る。
第1図に示した発声速度検出部301は第2図に示すよう
にして構成されている。すなわち、入力音声は音声パワ
ー計算部401に与えられ、音声パワー系列402に変換され
る。この音声パワー系列402はスペクトル計算部403に与
えられ、音声パワー概形スペクトル404に変換され、発
声速度決定部405に与えられる。この音声パワー概形ス
ペクトル404の実例を第3図に示す。発声速度決定部405
は、第3図に示した音声パワー概形スペクトル500のピ
ーク501を見つけ、横軸の値502を検出された発声速度と
して出力する。すなわち、第3図に示すように、発王速
度と音声パワースペクトルとは比例関係にあり、音声パ
ワースペクトルのピークを発王速度として検出する。
次に音声記号化部302は第4図に示すように構成され
る。すなわち、入力音声600はLPC分析部601によってLPC
分析され、続いてベクトル符号化部603によってベクト
ル符号帳605中のベクトル量子化コード604を用いて記号
化される。コード番号の時系列が記号系列606として出
力される。
第1図に示した単語HMMデータベース306は認識の対象と
なる各単語のHMMのパラメータ、すなわち遷移確率
(a),出力確率(b)および継続時間制限のための重
み係数(pdur)を保持している。
第1図に示したHMM法に基づく音声認識部305はたとえば
第5図に示すように構成される。すなわち、第1図に示
したHMM法に基づく音声認識部305は第5図においては70
0で表わされ、継続時間補正部701と、確率計算部702
と、単語判定部703とから構成される。継続時間補正部7
01は発声速度711の値を受取り、これを用いて単語HMMデ
ータベース704から受取った継続時間制限のための重み
係数705を補正する。
第6図は重み係数を補正するための説明図である。第6
図において、標準的な継続時間制限のための重み係数p
durは、たとえば実線801のような分布をとる。継続時間
補正部701は、受取った発声速度と標準的な発声速度の
比によって重み係数pdurの分布の横軸を伸縮することに
よって継続時間の補正を行なう。
次に、重み係数の補正についてより具体的に説明する。
(記号の定義) pdur(j,l):HMMの状態jにおける継続時間を制限する
ための重み係数(補正前) p′dur(j,l):HMMの状態jにおける継続時間を制限す
るための重み係数(補正後) R:(検出された発声速度)/(標準的な発声速度) (計算)l=1…Lmaxについて、 p′dur(j,l) =pdur(j,[l/R]) …(2) ただし、ここで[X]はガウス記号であり、Xを越えな
い最大の整数を表わす。また、Lmaxは十分大きな正の整
数とする。補正された重み係数はたとえば波線802のよ
うになる。
第5図において、確率計算部702は単語HMMデータベース
中の各単語について、補正後の重み係数706と遷移確率
および出力確率707の値を用いて、記号系列708に対する
確率を計算する。この確率計算にはViterbiアルゴリズ
ムが用いられる。
次に、確率計算の手順について説明する。
(記号の定義) i=1…N(N:入力された未知音声データの記号列の長
さ) j=1…M(M:HMMの状態の数) Oi:入力音声データのi番目の記号 P(i,j):累積確率テーブル a(j1,j2):HMMの状態j1からj2への遷移確率 b(j1,j2,k):HMMの状態j1からj2への遷移において記
号kが出力される確率p′dur(j,l):HMMの状態jにお
ける継続時間を制限するための重み係数であり、発声速
度によって補正されている。
(初期値の設定) P(0,0)=1.0 P(0,j)=1.0e−∽(j=1…M) P(i,0)=1.0e−∽(j=1…N) 記号列の出力確率はP(N,M)として求まる。
最後に、単語判定部703は、各単語に対する確率709のう
ち最も高い確率の単語を選び、確認結果710として出力
する。
第7図は発声速度の異なる単語データを入力し、認識結
果が正しい場合のHMM出力確率の分布を示した図であ
る。第7図において、分布を見やすくするために、確率
の対数をとった後、入力の記号列の長さNで正規化して
いる。
(正規化対数確率)=(1/N)logP(N,M) この表示方法では、分布が左側に寄るほど確率が高くな
る。発声速度が変化した場合の確率分布901は、変化し
ない場合の分布900に比べて、確率が低くなることがわ
かる。これに対して、この発明の一実施例を用いて、継
続時間を制限する重み係数を発声速度で補正する場合の
分布902は、発声速度が変化しない場合の分布900に近づ
いており、著しく改善効果を確認できる。
[発明の効果] 以上のように、この発明によれば、HMM音声認識処理に
先立ってあるいは同時に、入力音声の発声速度を検出
し、検出された発声速度を用いて、HMM音声認識におけ
るHMMの状態の継続時間の制限を行なうようにしたの
で、入力音声の発声速度が大きく変動した場合であって
も、正答に対するHMM出力確率が低下しないため、入力
音声を正確に認識することができる。
【図面の簡単な説明】
第1図はこの発明の一実施例である単語認識システムの
構成例を示すブロック図である。第2図は第1図に示し
た発声速度検出部の構成例を示すブロック図である。第
3図は発声速度検出の原理を説明するための図である。
第4図は音声記号化部の構成例を示すブロック図であ
る。第5図はHMM法に基づく音声認識部の構成例を示す
ブロック図である。第6図は音声認識部における係数補
正を説明するための図である。第7図はこの発明一実施
例の効果を示すために、認識結果が正しい場合のHMM出
力確率の分布図である。第8図は音声をモデル化するた
めのHMMの実例を示す図である。第9図はHMMの状態の継
続時間を制限するための重み係数の分布の実例を示す図
である。 図において、301は発声速度検出部、302は音声記号化
部、305はHMM法に基づく音声認識部、306は単語HMMデー
タベース、401は音声パワー計算部、403はスペクトル計
算部、405は発声速度決定部、601はLPC分析部、603はベ
クトル符号化部、605はベクトル符号帳、701は継続時間
補正部、702は確率計算部、703は単語判定部を示す。
───────────────────────────────────────────────────── フロントページの続き (56)参考文献 日本音響学会講演論文集 昭和63年3月 3−P−5 P.237−238 電子情報通信学会技術研究報告 SP88 −23 P.17−22(1988−6−24)

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力音声を音声パワー系列に変換し、その
    音声パワー系列のスペクトルのうちのピーク値の時点を
    検出して発声速度として出力する発声速度検出手段、 入力音声を分析して、ベクトル量子化により記号化した
    記号化列を出力する音声記号化手段、および 前記発声速度検出手段によって検出された発声速度に基
    づいて、前記音声記号化手段の出力の記号化列の継続時
    間を制限し、HMM法に基づいて音声認識を行なう音声認
    識手段を備えた、HMM音声認識装置。
JP63266473A 1988-10-22 1988-10-22 Hmm音声認識装置 Expired - Fee Related JPH0750400B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP63266473A JPH0750400B2 (ja) 1988-10-22 1988-10-22 Hmm音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP63266473A JPH0750400B2 (ja) 1988-10-22 1988-10-22 Hmm音声認識装置

Publications (2)

Publication Number Publication Date
JPH02113298A JPH02113298A (ja) 1990-04-25
JPH0750400B2 true JPH0750400B2 (ja) 1995-05-31

Family

ID=17431419

Family Applications (1)

Application Number Title Priority Date Filing Date
JP63266473A Expired - Fee Related JPH0750400B2 (ja) 1988-10-22 1988-10-22 Hmm音声認識装置

Country Status (1)

Country Link
JP (1) JPH0750400B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2976998B2 (ja) * 1992-04-10 1999-11-10 日本電信電話株式会社 発話速度測定装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集昭和63年3月3−P−5P.237−238
電子情報通信学会技術研究報告SP88−23P.17−22(1988−6−24)

Also Published As

Publication number Publication date
JPH02113298A (ja) 1990-04-25

Similar Documents

Publication Publication Date Title
JP4657736B2 (ja) ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法
JP4567290B2 (ja) 音響特性ベクトル変形を使用する分散型音声認識システム
JPS62231997A (ja) 音声認識システム及びその方法
JPH01102599A (ja) 音声認識方法
Lee et al. Corrective and reinforcement learning for speaker-independent continuous speech recognition
CN112802444A (zh) 语音合成方法、装置、设备及存储介质
JPS6254297A (ja) 音声認識装置
JP3535292B2 (ja) 音声認識システム
JP2002358097A (ja) 音声認識装置
JPH0750400B2 (ja) Hmm音声認識装置
JP3403838B2 (ja) 句境界確率計算装置および句境界確率利用連続音声認識装置
JP4666129B2 (ja) 発声速度正規化分析を用いた音声認識装置
JPH01204099A (ja) 音声認識装置
JPH0792989A (ja) 音声認識方法
JPH09258783A (ja) 音声認識装置
JPH08314490A (ja) ワードスポッティング型音声認識方法と装置
JP3868798B2 (ja) 音声認識装置
KR100322730B1 (ko) 화자적응방법
JPH0754434B2 (ja) 音声認識装置
JPH06324699A (ja) 連続音声認識装置
JPH05303391A (ja) 音声認識装置
JPH0457098A (ja) 連続音声の音韻認識装置
CN109903766A (zh) 远场语音指令识别方法及装置
CN115695943A (zh) 数字人视频生成方法、装置、设备及存储介质
JP2545961B2 (ja) 音声認識用学習方式

Legal Events

Date Code Title Description
LAPS Cancellation because of no payment of annual fees