JPH03276198A

JPH03276198A - 音声認識装置

Info

Publication number: JPH03276198A
Application number: JP2078281A
Authority: JP
Inventors: Shinobu Mizuta; 忍水田; Kunio Nakajima; 中島　邦男
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 1990-03-26
Filing date: 1990-03-26
Publication date: 1991-12-06
Anticipated expiration: 2014-10-12
Also published as: JP2961797B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［産業上の利用分野コこの発明は、音声の認識を行なう音声認識装置に関する
ものである。

［従来の技術］従来この種の装置として、例えば第２図に示すよ、うな
ものがあった。この図は丸山活輝、花沢利行、用端豪、
鹿野清宏著ｒＨＭＭ音韻連結学習を用いた英単語音声の
認識」　（日本音響学会講演論文集、平成元年３月１４
日発行、ｌ−６−２２）に記述されている内容を図示し
たものである。

図において、（１）は音声信号、（２）は音声分析部、
（３）は音声特徴系列、（４）は学習用特徴系列、（５
）は入力用特徴系列、（６）は記号モデル生成部、（７
）は記号モデル、（８）は認識対象モデル生成部、（９
）は認識対象辞書、（１０）は認識対象モデル、（１１
）は尤度計算部、（１２）は尤度、（１３）は選択部、
（１４）は認識結果である。

入力された音声（１）は、音声分析部（２）で複数の音
響的特徴パラメータによる音声特徴系列（３）に変換さ
れる。記号モデルを生成する場合、音声特徴系列は学習
用特徴系列（４）として記号モデル生成部（６）に入力
される。記号モデル生成部は、学習用特徴系列から音素
片・音素・音素列または音節の音声記述単位に付与した
識別記号に対応するカテゴリを表現する記号モデル（７
）を生成する。認識対象モデル生成部（８）は認識対象
辞書（９）に記述された認識対象語を表す識別記号列に
従って、記号モデルを連結することにより認識対象モデ
ル（１０）を生成する。認識処理を行なう場合は、前記
音声特徴系列は入力用特徴系列（５）として尤度計算部
（１１）に入力される。尤度計算部は前記のように生成
された各認識対象モデルについて、入力用特徴系列に対
する尤度（１２）を計算する。選択部（１３）はその中
で最も尤度の高い認識対象モデルを選択し、これを認識
結果（１４）として出力する。

次に、前記構成に従って上記従来例の詳細を示す。ここ
で、音響的特徴パラメータはＬＰＣケプストラム、ケプ
ストラム差分及びパワーの３種類の特徴ベクトル、識別
記号は音韻とし、英単語音声を認識するものとする。ま
た、認識方式としてベクトル量子化（Ｖｅｃｔｏｒ　Ｑ
ｕａｎｔｉｚａｔｉｏｎ、　Ｖ　Ｑと略す）に基づく離
散分布ＨＭＭ　（Ｈｉｄｄｅｎ　ｉ［ａｒｃｏｖ　ｌ［
。

ｄｅｌ　）による認識方式を用いる。これは、ごく簡単
には以下のような方式である。

ベクトル量子化（ＶＱ）は、入力ベクトルに対して予め
用意されたベクトルの組（ＶＱココ−ブックと呼ぶ）か
ら最近傍ベクトルを選択し、この最近傍ベクトルが入力
ベクトルをよく表現しているとしてその番号（ＶＱラベ
ルと呼ぶ）を出力することにより行われる。離散分布Ｈ
ＭＭは、いくつかの状態とその間の遷移により構成され
、状態量遷移の確率と遷移時に出力されるラベルの出力
確率分布をパラメータとする、ラベル列を表現する確率
モデルである。これを用いた音声認識は、入力音声各フ
レームの音響的特徴パラメータベクトルに対するＶＱに
より得られたＶＱラベル列の生起確率を複数のＨＭＭ間
で比較し、最も高い確率を得るＨＭＭを選択することで
行われる。

離散分布ＨＭＭにおいて、入力フレームに対するモデル
の局所尤度は人力ＶＱラベルの出力確率により表される
。この時本従来例では、第１フレームの３種類の音響的
特徴パラメータによるＶＱラベルの組（ＬＬ、Ｌ２．Ｌ
３）の各々に対する、状態遷移ｉを表すＨＭＭの特徴別
出力確率をそれぞれｂＬ１目、ｂＬ２．１．ｂＬ３，１
とすると、全体の出力確率Ｂ　ｉ＋は（１）式で与える
。

Ｂ　　＝ｂ　　ｚｘｂＬ２．、ｘｂ”□・旧・・（１）
入力用音声特徴系列の認識対象ＨＭＭに対する尤度は、
このＨＭＭに関して前記の系列が最適な状態遷移を行な
った場合に、各入力フレームと対応する状態遷移とから
得られる出力確率の総和にほぼ等しい。

以下に音声分析部、記号モデル生成部及び尤度計算部の
詳細動作を示す。

［ａ］音声分析部第３図に音声分析部の詳細を示す。図において、（１）
は音声信号、（２）は音声分析部、（３）は音声特徴系
列（ＶＱラベル列）、（Ａ１）は音響分析部、（Ａ２）
は特徴ベクトル系列、（Ａ３゜Ａ４．Ａ５）はＶＱココ
−ブック（３種）、（Ａ６）はベクトル量子化部である
。入力された音声信号（１）は、音響分析部（Ａ１）で
３種類の音響的特徴ベクトルからなる特徴ベクトル系列
（Ａ２）に変換される。ベクトル量子化部（Ａ６）では
、３つのｖＱココ−ブック（Ａ３）（Ａ４）（Ａ５）に
より特徴ベクトル系列を３つのＶＱラベルの組からなる
音声特徴系列（３）に変換する。

［ｂコ記号モデル生成部第４図に記号モデル生成部の詳細を示す。図において、
（４）は学習用特徴系列（単語ＶＱラベル列）、（６）
は記号モデル（音韻ＨＭＭ）生成部、（７）は記号モデ
ル（音韻ＨＭＭ）、（Ｂ１）は初期音韻ＨＭＭ、（Ｂ２
）は学習面音韻ＨＭＭ。

（Ｂ３）は音韻ＨＭＭ連結部、（Ｂ４）は学習用単語辞
書、（Ｂ５）は学習前単語ＨＭＭ、（Ｂ６）は単語ＨＭ
Ｍ学習部、（Ｂ７）は学習後単語ＨＭＭ、（Ｂ８）は単
語ＨＭＭ分解部、（Ｂ９）は学習機音韻ＨＭＭである。

処理手順は次のとおりである。

［１］初期音韻ＨＭＭ（Ｂｌ）を学習面音韻ＨＭＭ（Ｂ
２）とする。

［２コ学習用単語辞書（Ｂ４）に基づいて、学習面音韻
ＨＭＭを音韻ＨＭＭ連結部（Ｂ３）で連結し学習前単語
ＨＭＭ（Ｂ５）を生成する。ＨＭＭにおいて、モデルの
連結は単に結ぶだけでよい。

また、認識に必要な音韻が含まれていれば、学習用単語
辞書は認識に用いる辞書と異なってよい。

［３］単語ＨＭＭ学習部（Ｂ６）において、学習前単語
ＨＭＭに対して学習用特徴系列（単語ＶＱラベル列）（
４）を提示し、モデルの学習を行なう。この時用いるＨ
ＭＭの出力確率は（１）式により求める。

［４］　　［３］で生成された学習後単語ＨＭＭ　（Ｂ
７）を、単語ＨＭＭ分解部（Ｂ８）において分解し、学
習機音韻ＨＭＭ（Ｂ９）を生成する。

［５コ学習後音韻ＨＭＭを学習面音韻として［２コ以降
を必要回数繰り返した後、得られた音韻ＨＭＭを認識に
用いる記号モデル（７）とする。

［ｃ］尤度計算部入力用特徴系列（５）の、生成された認識対象（単語）
　ＨＭＭ　（１０）に対する尤度（１２）を求める。こ
の時、ＨＭＭの出力確率は前述の（１）式により求める
。

［発明が解決しようとする課題］音響的特徴パラメータの認識性能に対する効果は種類に
よって異なり、また識別記号により表現されるカテゴリ
によっても違うため、この点を考慮することで認識性能
を向上させることができる。

しかし、上記従来装置は（１）式かられかる通りすべて
の音響的特徴パラメータを均等に扱っており、その間の
認識性能に対する効果の差異を装置に反映させていない
という問題を有する。

この発明は係る問題点を解決するためなされたもので、
音響的特徴パラメータ間の認識性能に対する効果の差異
を各識別記号について考慮し、認識精度の高い音声認識
装置を提供することを目的とする。

［課題を解決するための手段］この発明に係る音声認識装置は、音声の記述単位に付与
した識別記号に対応したカテゴリを複数種類の音響的特
徴パラメータにより表現する記号モデルを、複数の認識
対象音声を前記識別記号の系列により表す認識対象辞書
に従って連結することにより認識対象モデルを生成し、
この認識対象モデルのうち入力音声に対する尤度が最も
高い値を得るものを認識結果として出力する音声認識装
置に、前記記号モデル生成手段による記号モデル生成時
および前記尤度計算手段による尤度計算時に、前記記号
モデルにより得られる尤度に対する前記複数種類の音響
的特徴パラメータの各々の寄与度を前記識別記号毎に個
別に設定する記号別寄与度設定手段と、この記号別寄与
度設定手段が前記寄与度設定を行なう際に参照する、前
記複数種類の音響的特徴パラメータの前記寄与度に関す
る情報を前記識別記号毎に記載した寄与度情報辞書とを
備える。

［作用コこの発明において寄与度情報辞書には、前記記号モデル
により得られる尤度に対する前記複数種類の音響的特徴
パラメータの各々の寄与度設定に関する情報が前記識別
記号の各々について記載され、記号別寄与度設定手段は
、この寄与度情報辞書をもとに、前記記号モデル生成手
段による記号モデル生成時および前記尤度計算手段によ
る尤度計算時における前記寄与度を、前記識別記号毎に
個別に設定する。

［実施例］ここでは、音響的特徴パラメータを静的特徴（ＬＰＣケ
プストラム）と動的特徴（ケプストラム回帰係数）の２
種類の特徴ベクトル、識別記号を音素片とし、単語音声
を離散分布ＨＭＭにより認識する場合について述べる。

これらの条件のもとて従来例の方式を用いた場合、前記
音声分析部では２種類の音響的特徴ベクトル（静的特徴
・動的特徴）からなる特徴ベクトル系列を予め用意され
た２つのＶＱココ−ブックに従ってＶＱラベル列に変換
し、これを前記音声特徴系列としてＨＭＭの学習および
入力音声の認識を行うことになる。

認識対象を表現する識別記号として音素片を用いる場合
、音声の定常部と過渡部を独立に扱うことができる。そ
して、音響的特徴として静的特徴と動的特徴を用いる場
合、時間的な特徴変動の小さい定常部においては静的特
徴が、また時間的な特徴変動の大きい過渡部においては
動的特徴が認識に有効な情報を担っていると考えられる
。しかし、従来装置によって（１）式に基づき前記出力
確率を求める場合、これら２種類の特徴の前記尤度に対
する寄与度は均等になり、特徴パラメータ間の認識性能
に対する効果の差異が装置に反映されない。そこで、定
常部音素片モデルでは静的特徴の、また過渡部音素片モ
デルでは動的特徴の寄与度を高くすることで認識性能の
向上を図る。

第１図はこの発明の一実施例の構成図である。

図において、（１）は音声信号、（２）は音声分析部、
（３）は音声特徴系列、（４）は学習用特徴系列、（５
）は入力用特徴系列、（６）は記号モデル生成部、（７
）は記号モデル、（８）は認識対象モデル生成部、（９
）は認識対象辞書、（１０）は認識対象モデル、（１１
）は尤度計算部、（１２）は尤度、（１３）は選択部、
（１４）は認識結果、（１５）は寄与度情報辞書、（１
６）は記号別寄与度設定部、（１７）は記号モデル生成
用音響的特徴寄与度、（１８）は尤度計算用音響的特徴
寄与度である。

以下この実施例の動作について説明する。入力された音
声（１）は、音声分析部（２）で複数の音響的特徴パラ
メータによる音声特徴系列（３）に変換される。記号モ
デルを生成する場合、音声特徴系列は学習用特徴系列（
４）として記号モデル生成部（６）に人力される。記号
モデル生成部は、学習用特徴系列から、音素片・音素等
の音声記述単位に付与した識別記号に対応するカテゴリ
を表現する記号モデル（７）を生成する。この時、記号
別寄与度設定部（１６）では寄与度情報辞書（１５）に
従って識別記号別に記号モデル生成用特徴寄与度（１７
）を設定し、記号モデル生成はこの寄与度に従って行な
われる。認識対象モデル生成部（８）は認識対象辞書（
９）に記述された認識対象語を表す識別記号列に従って
、記号モデルを連結することにより認識対象モデル（１
０）を生成する。認識処理を行なう場合は、前記音声特
徴系列は入力用特徴系列（５）として尤度計算部（１１
）に入力される。尤度計算部は前記のように生成された
各認識対象モデルについて、入力用特徴系列に対する尤
度（１２）を計算する。この時、前記記号別寄与度設定
部では前記寄与度情報辞書に錠って識別記号別に尤度計
算用特徴寄与度（１８）を設定する。選択部（１３）は
最も高い尤度を得た認識対象モデルを選択し、これを認
識結果（１４）として出力する。。

以下に、この実施例における記号別寄与度設定部での処
理を説明する。前述の通り、従来装置においてＨＭＭに
より複数種類の音響的特徴パラメータについて得られる
出力確率は（１）式により求められるが、この実施例で
は次に挙げる（２）式により求める。第１フレームの２
つのＶＱラベルの組Ｓ（静的特徴）、ｄ（動的特徴）の
各々に対する、状態遷移ｉを表すＨＭＭの特徴別出力確
率をそれぞれｂ″、１　ｂｄ、１とし、全体の出力確率
ｆｅｚをＢ１１＝　（ｂ’　ｚ）　ｘｘ　（ｂ’　ｚ）’−−−
−・・（２）Ｘ＝Ｗ、、、Ｙ＝Ｗ、ｄ（Ｗ、、、Ｗ、ｄ
は重み）とする。この時、２つの特徴別出力確率に対す
る重みＷ　＋　ｍ、Ｗ＋ｄにより２つの特徴パラメータ
の尤度へ寄与度を音素片毎に設定することができる。

そこで、記号別寄与度設定部では音素片毎にこれらの重
みを設定し、記号モデル生成時及び認識の際の尤度計算
時にこれを用いる。ここでは、状態遷移ｉを生じる音素
片ＨＭＭが定常部の場合と過渡部の場合について、２組
の重みＷ。＠＊　Ｗｃｄ及びＷ　ｔ、、Ｗ、、を設定す
る。

先に述べた形での定常部音素片と過渡部音素片における
静的特徴と動的特徴の寄与度設定は次の様に実現される
。先ず、寄与度情報辞書には認識に用いる各音素片につ
いて、それが定常部か過渡部かを記載しておく。記号別
寄与度設定部では、（２）式により前記出力確率を求め
る時に用いる前記重みの組（Ｗ、、、Ｗ、ｄ）を設定す
る。この時前記寄与度情報辞書から、音素片が定常部か
過渡部かによりこの重みの組をＷ、、、Ｗ。ｄ（定常部
）とＷ、、、Ｗｔ、（過渡部）のいずれかとする。ここ
で、重みはＷ　ｅ　ＩＩ≧Ｗ　ｃ　ｄ　％　Ｗ　ｔ　ｍ
≦Ｗｔｄの条件の満たすものとする。前記記号モデル生
成部でのモデル生成時及び前記尤度計算部での尤度計算
時に（２）式により出力確率を求める場合、前記の様な
重み設定により定常部音素片ＨＭＭでは静的特徴に対す
る出力確率を強調しくＷ、、≧Ｗｏｄ）、過渡部音素片
ＨＭＭでは動的特徴に対する出力確率を強調する（Ｗ、
≦ＷＬｄ）ことができる。

ここで、Ｂ　＋１のオーダーを音素片にかかわらず共通
にするため、Ｗ、、＋Ｗ、、＝Ｃ（定数）　　（Ｗｔ、
。

Ｗｌｌ、≧０）とする必要がある。なお、重みは記号モ
デル生成時と尤度計算時で共通でなくともよい。

この実施例では音響的特徴パラメータとして静的特徴と
動的特徴の２種類の特徴ベクトルを用い、音素片を識別
記号として離散ＨＭＭを単語音声から学習し、単語を認
識する場合について述べた。

しかし、音響的特徴パラメータはパワーや零交差数でも
よく、識別記号は音素や音節でもよく、認識に用いる音
声は文音声でもよい。また、認識方式は音素等のカテゴ
リ単位のテンプレートを用いたＤ　Ｔ　Ｗ　（Ｄｙｎａ
ｍｉｃ　Ｔｉｍｅ　Ｗａｒｐｉｎｇ）法などでもよい。

すなわち、この実施例におけるこれらの条件はこの発明
を制限しない。

［発明の効果コ以上のようにこの発明によれば、音声の記述単位に付与
した識別記号に対応したカテゴリを複数種類の音響的特
徴パラメータにより表現する記号モデルを、複数の認識
対象音声を前記識別記号の系列により表す認識対象辞書
に従って連結することにより認識対象モデルを生成し、
この認識対象モデルのうち入力音声に対する尤度が最も
高い値を得るものを認識結果として出力する音声認識装
置に、前記記号モデル生成手段による記号モデル生成時
および前記尤度計算手段による尤度計算時に、前記記号
モデルにより得られる尤度に対する前記複数種類の音響
的特徴パラメータの各々の寄与度を前記識別記号毎に個
別に設定する記号別寄与度設定手段と、この記号別寄与
度設定手段が前記寄与度設定を行なう際に参照する、前
記複数種類の音響的特徴パラメータの前記寄与度に関す
る情報を前記識別記号毎に記載した寄与度情報辞書とを
設けたので、　識別記号が表現するカテゴリの音響的な
特性を考慮した音響的特徴パラメータの強調を、識別記
号毎に行なうことによる精度の高い音声認識装置を提供
することができる。

【図面の簡単な説明】

第１図はこの発明の一実施例に係る音声認識装置を示す
構成図、第２図は従来例に係る音声認識装置を示す構成
図、第３図は第２図の音声分析部（２）を説明する構成
図、第４図は第２図の記号モデル生成部（６）を説明す
る構成図である。図において、（１）は音声信号、（２）は音声分析部、
（３）は音声特徴系列、（４）は学習用特徴系列、（５
）は入力用特徴系列、（６）は記号モデル生成部、（７
）は記号モデル、（８）は認識対象モデル生成部、（９
）は認識対象辞書、（１０）は認識対象モデル、（１１
）は尤度計算部、（１２）は尤度、（１３）は選択部、
（１４）は認識結果、（１５）は寄与度情報辞書、（１
６）は記号別寄与度設定部、（１７）は記号モデル生成
用音響的特徴寄与度、（１８）は尤度計算用音響的特徴
寄与度である。また、（Ａ１）は音響分析部、（Ａ２）
は特徴ベクトル系列、（Ａ３）。（Ａ４）、　　（Ａ５）　はＶＱ：＋−ドブツク、（Ａ
６）はベクトル量子化部、（Ｂ１）は初期音韻ＨＭＭ。（Ｂ２）は学習前音能ＨＭＭ、（Ｂ３）は音韻ＨＭＭ連
結部、（Ｂ４）は学習用単語辞書、（Ｂ５）は学習前単
語ＨＭＭ、（Ｂ６）は単語ＨＭＭ学習部、（Ｂ７）は学
習後単語ＨＭＭ、（Ｂ８）は単語ＨＭＭ分解部、ある。なお、す。図中同一符号は同一または相当部分を示（Ｂ９）は学習後音韻ＨＭＭで

Claims

【特許請求の範囲】

音声の記述単位に付与した識別記号に対応したカテゴリ
を複数種類の音響的特徴パラメータによりモデル表現す
る記号モデル生成手段と、複数の認識対象音声を前記識
別記号の系列により表す認識対象辞書と、この認識対象
辞書に従い、前記認識対象音声を表現する認識対象モデ
ルを前記記号モデルの連結によって生成する認識対象モ
デル生成手段と、この認識対象モデル生成手段で生成さ
れた認識対象モデルに対する入力音声の尤度を得る尤度
計算手段と、この尤度計算手段により得られた尤度のう
ち、最も高い値を得る認識対象モデルを選択し、それを
認識結果として出力する選択手段とを備える音声認識装
置において、前記記号モデル生成手段による記号モデル
生成時および前記尤度計算手段による尤度計算時に、前
記記号モデルにより得られる尤度に対する前記複数種類
の音響的特徴パラメータの各々の寄与度を前記識別記号
毎に個別に設定する記号別寄与度設定手段と、この記号
別寄与度設定手段が前記寄与度設定を行なう際に参照す
る、前記複数種類の音響的特徴パラメータの前記寄与度
に関する情報を前記識別記号毎に記載した寄与度情報辞
書を備えることを特徴とする音声認識装置。