JP3496706B2

JP3496706B2 - 音声認識方法及びそのプログラム記録媒体

Info

Publication number: JP3496706B2
Application number: JP24835197A
Authority: JP
Inventors: 貴敏實廣; 敏高橋; 清明相川
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1997-09-12
Filing date: 1997-09-12
Publication date: 2004-02-16
Anticipated expiration: 2017-09-12
Also published as: JPH1185188A

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は、言語的な各カテ
ゴリの特徴量をモデル化しておき、入力特徴量系列に対
する各モデルの確率を求めて入力データの認識を行う音
声認識方法及びそのプログラム記録媒体に関する。

【０００２】

【従来の技術】確率、統計論に基づいた確率モデルによ
る認識方法は、音声、文字、図形等のパターン認識にお
いて有用な技術である。以下では、特に、音声認識を例
に隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖ
Ｍｏｄｅｌ、以下ＨＭＭと記す）を用いた従来技術につ
いて説明する。隠れマルコフモデルについては、例え
ば、中川聖一「確率モデルによる音声認識」電子情報通
信学会編（１９８８）に説明がある。

【０００３】従来の音声認識装置において、ある音声
単位（音素、音節、単語など）をＨＭＭを用いてモデル
化しておく方法は、性能が高く、現在の主流になってい
る。図６に従来のＨＭＭを用いた音声認識装置の機能構
成例を示す。入力端子１１から入力された音声は、Ａ／
Ｄ変換部１２においてディジタル信号に変換される。そ
のディジタル信号から音声特徴パラメータ抽出部１３に
おいて音声特徴パラメータを抽出する。あらかじめ、あ
る音声単位ごとに作製したＨＭＭをモデルパラメータメ
モリ１４から読み出し、モデル確率計算部１５におい
て、入力音声に対する各モデルの確率を計算する。最も
大きな確率を示すモデルが表現する音声単位を認識結果
として認識結果出力部１６より出力する。

【０００４】現在よく用いられる音響モデルとしてのＨ
ＭＭは３状態３ループのものである。ＨＭＭをある音声
単位ごと（一般には、単語、音素や音節など）に作成す
る。各状態には、音声特徴パラメータの統計的な確率分
布がそれぞれ付与される。現在の主流では、音声単位と
して単語ではなく、音素や音節を用い、認識させたい語
彙に応じてそれらのＨＭＭを連結して用いる。認識装置
を構成するには、先ず、音響モデル学習用音声データを
用いて、音響モデルを生成する。データベース１７から
の学習用データを音声特徴パラメータ抽出部１８で特徴
パラメータへ変換し、これを用いて、音響モデルパラメ
ータ学習部１９において、初期音響モデル生成部２１で
得られた初期モデルを元にモデルを学習する。ここで得
られたモデルパラメータを認識装置で用いる。

【０００５】このような音声認識装置では、実際的な使
用を考えると、高い認識精度が必要なだけでなく、語彙
外発声を棄却できる能力が必要である。そのための方法
として、一般的には、語彙制約のない音声認識系を語彙
に基づく音声認識系と並列に動作させ、語彙制約なし認
識系で得られる累積尤度で、尤度正規化を行い、その正
規化尤度の大きさで判定するものがある。

【０００６】

【発明が解決しようとする課題】しかし、語彙制約なし
認識系の尤度で正規化した場合、語彙内単語に音素系列
として全く異なるものはリジェクトしやすいが、部分的
に異なるもの、例えば、数個の音素だけ異なる場合、に
対しては効果的に働かなくなる。

【０００７】

【課題を解決するための手段】この発明によれば語彙制
約なし認識系による尤度正規化に加え、部分的な照合を
取り入れることで、より精度の高いリジェクト方法を実
現する。部分的な照合としては、音素、音節、単語など
の単位が考えられる。ある単位を決め、その個々の部分
的な区間に対するカテゴリ間の尤度比を計算する。この
尤度比は相対的な確率と考えられ、この値が高ければ、
対象としているカテゴリの確率が高いと信頼でき、逆
に、尤度比が低ければ、対象カテゴリの確率は低いとい
える。この比に応じて対象となっている認識候補の確率
に重みづけする。これにより、認識精度とともにリジェ
クト精度を高めることができる。

【０００８】

【発明の実施の形態】この発明では認識処理時に部分区
間での相対的確率を反映することで、認識精度、リジェ
クト精度の向上を図る。部分区間の単位としては、音
素、音節、単語などが考えられる。以下の例では、音素
単位で扱う。音素単位で他の音素に対し相対的な尤度を
求め、その対数尤度を各経路の累積対数尤度に加えるこ
とで、各音素の確からしさに応じて重みづけする。あら
かじめ統計的にこの相対的な尤度分布を求めておき、こ
れを相対的確率モデルとする。その分布から認識時に尤
度を得る。ここでは、音素単位の相対的な尤度を音素信
頼度尤度と呼ぶことにする。

【０００９】これにより、音素信頼度尤度の小さい音素
は、認識処理の過程で枝刈りされる可能性が大きくな
る。また、最終的にその音素を含む候補が残った場合で
もその候補全体の尤度を下げることになり、誤認識が減
る。さらに、未知語の場合でも、単語より小さい単位、
音素単位あるいは音節単位で自由な連鎖を許容できる語
彙制約のない音声認識による尤度正規化で、リジェクト
しやすくなると考えられる。

【００１０】図１にこの発明を適用した認識装置のブロ
ック図を示す。入力音声をＡ／Ｄ変換し、音声特徴パラ
メータを抽出する。図６中のモデル確率計算部１５が、
ネットワーク探索部３１、累積尤度計算部３２、音響モ
デル尤度計算部３３に対応する。音響モデル尤度計算部
３３では、入力音声の特徴量と音響モデルの照合を行
い、その尤度を得て、累積尤度計算部３２へ送る。信頼
度尤度計算部３４において、音素単位での信頼度を計
算、累積尤度計算部３２で、累積尤度へ反映する。この
累積尤度が音素単位での確からしさ、つまり音素信頼度
尤度に応じて重みづけられたものになり、これを元にネ
ットワーク探索部３１で尤度の高い候補を残しながら探
索する。音声終端で、認識候補を確定し、結果出力部１
６へ送る。

【００１１】音素信頼度について以降で詳しく述べ
る。図２は、ある候補の第ｉ番目の音素を表すＨＭＭの
状態系列である。音素終端で、音素信頼度尤度ｐｉ（Ｘ
₁₂）の対数を計算し、定数α倍したあと、その時点での
累積対数尤度Ｌｉ（Ｘ₀₂）、（音響モデル尤度計算部３
３で求めた認識候補の累積対数尤度）に加えて補正す
る。ここで、Ｘ₁₂は時刻ｔ１からｔ２までの音声特徴量、α
は定数である。このＬ′ｉ（Ｘ₀₂）をその経路の累積対
数尤度とすることで、その音素の信頼度に応じ、重みづ
けすることになる。式（１）は対数計算であるための掛
算が加算になっている（請求項１）。

【００１２】さらに音声終端では、語彙制約なし音声認
識系から得られる累積対数尤度、および音声長によっ
て、認識候補の尤度を正規化する。この正規化尤度の大
きさにより、リジェクトする。この場合、語彙制約あり
音声認識も語彙制約なし音声認識系の何れに対しても前
記式（１）により累積対数尤度を用いる（請求項２）。
音素信頼度として以下のように定義する（請求項３）。

【００１３】

【数式１】ここで、ｇｉ（Ｘｔ）は時刻ｔの音声特徴量Ｘｔに対す
る、現在注目している候補の第ｉ音素モデルの対数尤
度、Ｎは音素モデルの総数、ｄｉは継続時間でｄｉ＝ｔ
２−ｔ１である。ηを定数として、値の大きなものに重
みを置いた平均確率注目候補（第ｉ音素）外の全音素モ
デルのＸｔに対する尤度の平均で、対象となる音素の確
率を割ることで（式（２）は対数計算であるから引算に
なっている）相対的な確率としている。ηｇｊ（Ｘｔ）
のイキスポーネシャルを取って、平均確率注目候補（第
ｉ音素）外の音素モデルのＸｔに対する確率としてい
る。

【００１４】また、この値の定義としては、相対的な
確率として、ｇｊ（Ｘｔ）の最大値を用いる場合、Ｃｉ（Ｘ₁₂）＝（1/di) Σ_t=t1 ^t2［ｇｉ（Ｘｔ）−max ｇｊ（Ｘｔ）］
（３）ｍａｘはｊについての最大となるｇｉ（Ｘｔ）を示すも考えられる。これも対数計算であるため引算となって
いるが請求項４と対応している。

【００１５】以下の実験では、（４）式を用いる（請求
項５）。

【数２】式（２）では対数演算を行うための計算量が多くなるの
で計算効率のため、この式（４）では確率の平均ではな
く、確率の対数に対する平均（１／（Ｎ−１））Σｇ
ｊ（Ｘｔ）で代用している。以上の値Ｃｉ（Ｘ₁₂）を確
率値として用いるため、以下のようにシグモイド関数を
用い、音素信頼度尤度ｐｉ（Ｘ₁₂）を定義する。

【００１６】ｐｉ（Ｘ₁₂）＝１／（１＋ｅｘｐ｛−ａ
｛Ｃｉ（Ｘ₁₂）＋ｂ｝｝（５）ここで、ａ，ｂは定数である。ｐｉ（Ｘ₁₂）は０〜１の
間の値を取ることになり、今注目している音素モデルが
他の音素モデルに対し、相対的に尤度が大きい場合に
は、１に近づき、そうでない場合は、０に近づくことに
なる。また、シグモイド関数中の定数ａは傾きを表し、
これは実験から設定する。定数ｂについては、実際の音
声から信頼度の統計を取り、その最小値を各音素モデル
ごとに設定する。このようにして、ｐｉ（Ｘ ₁₂ )を設定
することにより、対象とするカテゴリで得られる確率
と、他のカテゴリでの確率との分布差に基づいて求めら
れる変量を、あらかじめ統計的にモデル化する。

【００１７】なお図１における認識処理の流れを図７を
参照して簡単に説明する。入力音声をＡ／Ｄ変換し（Ｓ
１）、そのＡ／Ｄ変換された入力音声を音声分析して音
声特徴パラメータを得る（Ｓ２）。この例では、ある長
さの分析フレーム単位で分析と照合処理を行う。認識対
象のネットワークは、語彙に対応するものと、あらゆる
音節の接続を許した語彙制約なし認識系に対応するもの
を持ち、平行して照合計算を行う。

【００１８】まず音声の終端であるかを調べ（Ｓ３）
終端でなければまず、認識候補を探索し（Ｓ４）、その
候補がネットワーク上で現フレームで対象としている部
分（この実施例ではＨＭＭの状態にあたる）になってい
る候補であるかを調べ（Ｓ５）、そうであればその候補
と対応する音響モデルの尤度を図１の音響モデル尤度計
算部３３で計算する（Ｓ６）。その尤度計算した部分が
音素終端であるかを調べ（Ｓ７）、音素終端でなけれ
ば、その計算した尤度を、前フレームまでの累積尤度に
計算してステップＳ４に戻る（Ｓ８）。ステップＳ７で
計算対象の各部分が音素終端であれば、信頼度尤度計算
部３４において、音素信頼度尤度ｐｉ（Ｘｔ）を例えば
式（５）で計算してステップＳ８に移り（Ｓ９）、対数
尤度を累積尤度計算部３２において、前フレームまでの
累積尤度に加算していくが、この場合はステップＳ９で
計算した音素信頼度情報ｐｉ（Ｘｔ）にαを掛けたもの
も加える。つまり式（１）を計算する。

【００１９】ステップＳ５でネットワーク上のすべての
計算対象について、累積尤度を求めてしまうと、つまり
計算対象候補がないと、ネットワーク探索部３１で、累
積尤度の大きさに応じて見込みのありそうな候補を残
し、ステップＳ２に戻って次フレームの計算対象とする
（Ｓ１０）。このようなことを音声終端まで繰り返し、
ステップＳ３で音声終端が検出されると、語彙に対応し
たネットワークから、語彙内の認識結果を得て、語彙制
約なし認識系のネットワークからも認識結果を得る（Ｓ
１１）。この結果の累積尤度を用いて、尤度正規化を行
う（Ｓ１２）。具体的には、語彙内候補の対数尤度か
ら、語彙制約なし認識系による対数尤度を引き、入力音
声の長さで割る。ここで得られる値が大きいほど、語彙
内発声である可能性が高くなる。そこで、あらかじめし
きい値を決めておき、そのしきい値と比較して、大きけ
れば、語彙内と判定し、小さければ、語彙外と判定する
（Ｓ１３）。

【００２０】発声自体は全体的には了解可能であって
も、大きく発声変形して不明瞭な音素が存在する場合も
ある。そのため、音素信頼度尤度は必ずしも実際に該当
する音素において他の候補に対し、優位な値を得られな
いときもある。したがって、該当する音素の信頼度だけ
で重みづけすることは危険なので、信頼度尤度の履歴情
報を用いることも考えられる。

【００２１】音素単位で得られた信頼度尤度を保持して
おき、それを累積対数尤度と同時に伝搬していくことで
履歴を残す。各音素終端では、履歴を用いてその経路の
累積対数尤度に重みづけする。Ｌ′ｉ（Ｘ₀₂）＝Ｌｉ（Ｘ₀₂）＋α×（１／（Ｍ＋１））Σ_j=0 ^MＬｉｊ（６）Ｌｉｊは第ｉ音素信頼度対数尤度のｊ個前の履歴、Ｍは
履歴の数で、Ｍ＝０のときは履歴情報を用いない場合に
なる。

【００２２】次に実験例を述べる。分析条件をサンプリ
ング周波数１２ｋＨｚ、フレーム長３２ｍｓ、フレーム
周期８ｍｓとし、特徴量として１６次選択線形予測ケプ
ストラム、１６次Δケプストラム、Δパワーを用いた。
音響モデルとして２７音素４５０状態４混合分布のＨＭ
ｎｅｔを使用した。学習データは、ＡＴＲデータベース
Ａセット音素バランス２１６単語、重要語５２４０単語
の男女各１０名分、日本音響学会データベース５０３文
の男性３０名、女性３４名分を用いた。

【００２３】評価は、１００都市名および駅名を含む１
２０２単語での単語認識をタスクとした。語彙内の発声
として男性５名、女性４名による１００都市の発声を用
いた。未知語としては、ＡＴＲデータベースＣセットか
ら男女各１０名の音素バランス２１６単語を用いた。ま
た、簡単なため、ｇｉ（Ｘｔ）については、３状態音素
モデルの中心状態を用いて計算した。一般的には、信頼
度尤度用の音響モデルを作成して用いることも考えられ
る。

【００２４】尤度正規化して最終的に得られた候補の正
規化尤度をしきい値によって、リジェクトの判定を行っ
た。このしきい値を変えたときの実験結果として、図３
に誤棄却率（ＦａｌｓｅＲｅｊｅｃｔｉｏｎＲａｔ
ｅｓ）に対する誤受理率（ＦａｌｓｅＡｃｃｅｐｔａ
ｎｃｅＲａｔｅｓ）を図４に誤棄却率に対する単語認
識率（ＷｏｒｄＲｅｃｏｇｎｉｔｉｏｎＲａｔｅ
ｓ）を示す。図中、“ｎｏｐｈｏｎｅｍｅｃｏｎｆ
ｉｄｅｎｃｅｐｒｏｂ．”は、信頼度尤度を用いない
で語彙制約なし認識系の結果で正規化する場合であり、
これが従来法になる。図中、“ｎｏｈｉｓｔｏｒｙ”
は音素信頼度尤度を履歴なしで用いる場合、“ｈｉｓｔ
ｏｒｙ１，２”は履歴を音素１つ前あるいは２つ前まで
利用する場合である。また、シグモイド関数の係数ａと
しては、５．０×１０^-5のときの結果を図に示してい
る。ここで、信頼度尤度を加える際の係数はα＝１．０
とした。

【００２５】図３では、曲線が原点に近づくほど精度が
よいことを示しており、信頼度尤度を用いることで精度
の改善が得られたのがわかる。図５に示すように、誤受
理率と誤棄却率が等確率になる点では２％改善した。そ
の時の単語認識率は５％向上した。また、図４に示すよ
うに、リジェクト性能を高めた場合でも語彙内発声に対
する認識率は従来法とほとんど変わらないか、精度が高
くなっている。図５にリジェクトを全くしない場合の単
語認識結果を示すように、１４．０％の誤り改善率が得
られた。これは、信頼度尤度を用いることで認識処理内
で各音素の確からしさに応じて重みづけでき、それまで
誤認識していた場合でも部分的な精度改善により、正し
く認識できるようになっているといえる。

【００２６】履歴情報を用いた場合を比較すると、誤棄
却率の高い領域で履歴を考慮しない場合と若干精度がよ
くなっているが、この実験では大きな改善は見られてい
ない。しかし、騒音下でのように、音声が必ずしも明瞭
に取り込むことができない場合には、履歴なしで用いる
場合に比べ、安定した性能が得られると考えられる。

【００２７】

【発明の効果】以上述べたようにこの発明によれば、部
分区間において相対的確率を認識候補全体の確率に反映
することができ、語彙制約なし認識系による入力音声全
体に対する尤度正規化に加え、部分的な照合をとり入れ
ることができるので、認識精度を向上できるとともに、
精度の高いリジェクションが可能になる。

【図面の簡単な説明】

【図１】この発明の音声認識方法を適用した音声認識装
置の機能構成を示すブロック図。

【図２】信頼度尤度計算部１４と音響モデル尤度計算部
３３から累積尤度の計算するときの第ｉ音素ＨＭＭの状
態図。

【図３】誤受理率と誤棄却率をプロットした実験結果を
示す図。

【図４】単語認識率と誤棄却率をプロットした実験結果
を示す図。

【図５】等誤り率、等誤り率での単語認識率、リジェク
トしないときの単語認識率の各実験結果を示す図。

【図６】従来の音声認識装置の機能構成を示すブロック
図。

【図７】この発明の認識方法の処理手順の一例を示す流
れ図。

フロントページの続き (56)参考文献特開昭59−46698（ＪＰ，Ａ) 特開平９−62290（ＪＰ，Ａ) 特開平５−314320（ＪＰ，Ａ) 特許2864506（ＪＰ，Ｂ２) 特許3100180（ＪＰ，Ｂ２) 實廣，高橋，相川，部分的尤度分布の差に着目した未知語のリジェクション，日本音響学会平成９年度秋季研究発表会講演論文集，日本，1997年９月17 日，３−１−１，Ｐａｇｅｓ 87−88 (58)調査した分野(Int.Cl.⁷，ＤＢ名) G10L 15/00 - 15/28 ＪＩＣＳＴファイル（ＪＯＩＳ)

Claims

(57)【特許請求の範囲】

【請求項１】入力される音声信号をディジタル信号に
変換し、そのディジタル信号から音声特徴パラメータを
抽出し、その抽出した音声特徴パラメータに対して言語
的単位の各カテゴリの特徴を表現した確率モデルの確率
を計算し、最も高い確率を示すモデルが表現するカテゴ
リを認識結果として出力する音声認識方法において、音素、音節、単語などの部分区間での、対象とするカテ
ゴリで得られる確率と、他のカテゴリでの確率との分布
差に基づいて求められる変量を、あらかじめ統計的に相
対的確率モデルとしてモデル化しておき、各認識候補の全体確率に、対応する相対的確率モデルか
ら計算される確率を掛け合わせて認識結果を決定するた
めの確率とすることを特徴とする音声認識方法。
【請求項２】請求項１に記載の音声認識方法におい
て、単語より小さい単位、音素単位あるいは音節単位で自由
な連鎖を許容できる語彙制約のない音声認識処理によ
り、同じ入力音声での認識結果の確率と音声長を用いて
認識候補の確率との比を取り、その値に応じて認識候補
が語彙外であるかどうか判別する、ことを特徴とする音
声認識方法。
【請求項３】請求項１または２に記載の音声認識方法
において、部分区間での対象カテゴリと非対象カテゴリから得られ
る確率の分布差に基づいて求められる変量として、対象
とするカテゴリの確率を、非対象カテゴリの確率の平均
で割ったものを用いることを特徴とする音声認識方法。
【請求項４】請求項１または２に記載の音声認識方法
において、部分区間での対象カテゴリと非対象カテゴリから得られ
る確率の分布差に基づいて求められる変量として、対象とするカテゴリの確率を、全カテゴリの中の最大確
率で割ったものを用いることを特徴とする音声認識方
法。
【請求項５】請求項１または２に記載の音声認識方法
において、部分区間での対象カテゴリと非対象カテゴリから得られ
る確率の分布差に基づいて求められる変量として、対象とするカテゴリの対数確率を、それ以外のカテゴリ
の対数確率の平均で引いたものを用いることを特徴とす
る音声認識方法。
【請求項６】請求項１乃至５の何れかに記載の音声認
識方法において、上記相対確率モデルから計算される確率を、その計算ご
とに、各上記単語より小さい単位ごとに履歴情報として
記憶しておき、上記認識候補の確率に掛け合わせる確率
として、対応する上記履歴情報の平均を用いることを特
徴とする音声認識方法。
【請求項７】入力された音声信号から音声特徴パラメ
ータを抽出し、その抽出した音声特徴パラメータに対し
て言語的単位の各カテゴリの特徴を表現した確率モデル
の尤度を計算し最も高い尤度を示すモデルが表現するカ
テゴリを認識結果として出力する音声認識方法の各過程
をコンピュータに実行させるプログラムを記録した記録
媒体であって、上記音声認識方法は、上記尤度計算ごとに、その対象モ
デルが上記言語的単位の終端か否かを調べる判定過程
と、その過程が終端でないと判定すると、上記計算した尤度
をそれまでの累積尤度に加算して、カテゴリ候補を探索
する過程に移る過程と、上記判定過程が終端であると判定すると、上記対象カテ
ゴリで得られる尤度と、他のカテゴリで得られる尤度と
の分布差に基づいて求められた予め統計的モデルから信
頼度尤度を計算する過程と、その計算された信頼度尤度を、上記累積尤度の加算に対
し、更に加算して上記カテゴリ候補を探索する過程に移
る過程を有することを特徴とするコンピュータによる読
出し可能な記録媒体。
【請求項８】上記音声認識方法は、上記終端であると
判定され、かつ上記累積尤度を計算して、カテゴリ候補
を探索する過程に移り、認識対象のネットワーク上で対
象となる候補があるか否かを調べ、あればその対象候補
の尤度計算を行う過程と、対象となる候補がなければ、上記ネットワーク探索有効
な候補を残して、次の入力音声特徴パラメータの分析に
移る過程と、を有することを特徴とする請求項７記載の記録媒体。
【請求項９】上記音声認識方法は、上記認識対象のネ
ットワークが、語彙に対応するものと、あらゆる音節の
接続を許した語彙制約なしに対応するものとの両認識系
に対して探索を行い、上記入力音声信号が終端であるか否かを判定する過程
と、その過程で終端であると判定すると、語彙に対応したネ
ットワークから語彙内の認識結果を得、語彙制約なし認
識系のネットワークから認識結果を得る過程と、この認識結果を用いて前者の認識結果に対し、尤度正規
化を行う過程と、その尤度正規化された値を基準と比較して、語彙内か否
かを判定する過程とを含むことを特徴とする請求項８記
載の記録媒体。