JP2001356793A

JP2001356793A - 音声認識装置、及び音声認識方法

Info

Publication number: JP2001356793A
Application number: JP2000176895A
Authority: JP
Inventors: Shinichi Matsui; 紳一松井
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2000-06-13
Filing date: 2000-06-13
Publication date: 2001-12-26
Anticipated expiration: 2020-06-13
Also published as: JP4517457B2

Abstract

(57)【要約】【課題】本発明の課題は、発話速度に適応したモデル
を特別に用意しなくとも話者の発話速度に適応した音声
認識を可能とする音声認識装置、及び音声認識方法を提
供することである。【解決手段】特徴量調整部４は、平均微分量検出部３
において平均微分量として求められた入力音声について
の発話速度に反比例するように、微分特徴量検出部２に
よって求められた各フレームの微分特徴量を調整し、こ
の調整された微分特徴量で検出されている微分特徴量を
置き換え、比較部１４において隠れマルコフモデル１５
１〜１５ｎに基づく確率計算により前記入力音声を認識
する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置、及
び音声認識方法に係り、詳細には不特定話者の音声認識
に好適な音声認識装置、及び音声認識方法に関する。

【０００２】

【従来の技術】近年、音声認識の研究が盛んに行われ、
部分的には実用されている。その基本的手法はＨＭＭ
（Hidden Markov Model；隠れマルコフモデル）を利用
した統計手法によるものである。図６を参照してＨＭＭ
による音声認識の一般的な手法を説明する。まず、マイ
クから入力された音声はＡ／Ｄ変換部１０１で量子化さ
れた後、フレーム化部１０２によってフレーム（例えば
フレーム周波数１０ｍｓ程度の所定処理単位長のタイム
スライス）に区切られ、このフレームを処理単位として
特徴量検出部１０３によって特徴量が計算される。この
特徴量は多くの場合、ＭＦＣＣ（Mel-Frequency Cepstr
um Coefficients；メル周波数ケプストラム係数）と呼
ばれる３０次程度のベクトルが使用される。

【０００３】一方、単語毎にＨＭＭモデル１０５１〜１
０５ｎがトレーニング等によって予め与えられている。
ＨＭＭモデルとは各単語を音素程度の比較的少ない複数
の状態で表し、単語毎に状態の遷移確率と、各状態から
入力されたベクトル（特徴量）を出力する確率と、をパ
ラメータとして与えたものである。単語ＨＭＭモデル１
０５１〜１０５ｎは音素毎にトレーニングされたＨＭＭ
モデルをその単語を音素に分解するときの順に結合する
ことによっても得ることができる。

【０００４】単語ＨＭＭモデル１０５１〜１０５ｎと、
入力された音声から計算された特徴量である特徴ベクト
ル列とが比較部１０４に入力される。比較部１０４では
どのＨＭＭモデルが最も高い確率で与えられた特徴ベク
トル列を出力するかを確率計算によって求める。例えば
“やま”のＨＭＭモデルHMM（yama）で、入力音声の特
徴ベクトル列ｘ（ｉ）を評価する場合は、「モデルHMM
（yama）からその特徴ベクトル列ｘ（ｉ）が出力される
確率；シンボル（特徴ベクトル）発生確率」を計算す
る。比較部１０４は各単語ＨＭＭモデルについてシンボ
ル（特徴ベクトル）発生確率を計算し、その確率を最大
とするＨＭＭモデルに対応する単語を音声認識結果とし
て出力する。

【０００５】

【発明が解決しようとする課題】しかしながら、上述の
ＨＭＭモデルは多くの発話者に多くの語を発話させて求
めているため、平均的な発話速度でトレーニングされて
いる。そのため、平均よりも若干早口の発話者の音声や
若干遅く話す発話者の音声を認識する際も同一のＨＭＭ
モデルを使用することは、必ずしも最適なＨＭＭモデル
を用いた音声認識を行っているとは言えず、認識率が低
下する原因となっていた。また、発話速度に応じたＨＭ
Ｍモデルを別個に用意することは困難である。

【０００６】本発明の課題は、発話速度に適応したモデ
ルを特別に用意しなくとも話者の発話速度に適応した音
声認識を可能とする音声認識装置、及び音声認識方法を
提供することである。

【０００７】

【課題を解決するための手段】以上の課題を解決するた
め、請求項１記載の発明の音声認識装置は、入力音声に
ついて特徴量を検出する特徴量検出手段（例えば、図１
に示す特徴量検出部１３）と、前記入力音声について発
話速度を検出する発話速度検出手段（例えば、図１に示
す平均微分量検出部３）と、この発話速度検出手段によ
って検出された発話速度に反比例するように、前記特徴
量検出手段によって検出された特徴量の時間軸方向の変
化量を調整する特徴量調整手段（例えば、図１に示す特
徴量調整部４）と、この特徴量調整手段によって調整さ
れた変化量を含む特徴量を用いて、隠れマルコフモデル
（例えば、図１に示すＨＭＭモデル１５１〜１５ｎ）に
基づく確率計算を行うことにより前記入力音声を認識す
る認識手段（例えば、図１に示す比較部１４）と、を備
えることを特徴としている。

【０００８】また、請求項３記載の発明の音声認識方法
は、入力音声について特徴量を検出する特徴量検出工程
と、前記入力音声について発話速度を検出する発話速度
検出工程と、この発話速度検出工程において検出された
発話速度に反比例するように、前記特徴量検出工程にお
いて検出された特徴量の時間軸方向の変化量を調整する
特徴量調整工程と、この特徴量調整工程において調整さ
れた変化量を含む特徴量を用いて、隠れマルコフモデル
に基づく確率計算を行うことにより前記入力音声を認識
する認識工程と、を備えることを特徴としている。

【０００９】この請求項１または３記載の発明によれ
ば、入力音声の発話速度に反比例するように、入力音声
についての特徴量の時間軸方向の変化量を調整し、この
調整された変化量を含む前記特徴量を用いて、隠れマル
コフモデルに基づく確率計算を行うことにより前記入力
音声を認識するので、発話速度を加味した隠れマルコフ
モデルを特別に用意しなくとも話者の発話速度に適応し
た音声認識を行うことが可能となり、音声認識率を向上
することができる。

【００１０】また請求項２記載の発明のように、請求項
１記載の音声認識装置において、前記発話速度検出手段
は、前記特徴量の時間軸方向の変化量の平均を求めるこ
とにより発話速度を検出することが有効である。

【００１１】この請求項２記載の発明によれば、前記特
徴量の時間軸方向の変化量の平均を求めることにより発
話速度を検出するので、任意の話者の発話速度を特定す
ることができ、様々な発話速度に適応した音声認識を行
うことができる。

【００１２】

【発明の実施の形態】以下、図１〜図５を参照して本発
明に係る音声認識装置１の実施の形態を詳細に説明す
る。

【００１３】まず構成を説明する。図１は音声認識装置
１の構成を示すブロック図である。図１に示すように、
音声認識装置１は、Ａ／Ｄ変換部１１、フレーム化部１
２、特徴量検出部１３（特徴量検出手段）、比較部１４
（認識手段）、複数の単語ＨＭＭモデル１５１，１５
２，・・・１５ｎを備える他、微分特徴量検出部２、平均
微分量検出部３（発話速度検出手段）、及び特徴量調整
部４（特徴量調整手段）を備える。

【００１４】Ａ／Ｄ変換部１１は、マイクから入力され
たアナログ音声信号をＡ／Ｄ変換し、量子化音声信号と
してフレーム化部１２に出力する。フレーム化部１２
は、Ａ／Ｄ変換部１１から入力された量子化音声信号を
例えば８〜１６ｍｓ程度のシフト間隔（フレーム周波
数）で所定の処理単位長（フレーム長；例えば、２０〜
４０ｍｓ）に区切る。この区切られた各音声区間をフレ
ームと呼ぶ。フレームは一部重複させるようにして切り
出すのが望ましい。特徴量検出部１３はフレーム毎に特
徴量を検出する。特徴量は、例えばＭＦＣＣ（Mel-Freq
uency Cepstrum Coefficients；メル周波数ケプストラ
ム係数）と呼ばれる３０次程度の特徴ベクトル列を用い
る。

【００１５】ここで、図２を参照してＭＦＣＣの検出工
程を説明する。まず入力された音声信号について平均値
を計算し、エンファシス（高域強調）を施してスペクト
ルの傾斜を平坦化する。そして、フレーム化部１２にお
いてフレームを切り出す際、元の音声信号に時間窓を乗
じて重み付けする。例えば、時間窓としてハミング窓を
乗じることによってフレームの両端に急激な変化が起こ
らないようにしている。その後、特徴量検出部１３は人
間の聴覚特性に適した特徴量を抽出するため、音の周波
数の高さに対して、対数的な特性（メル尺度）を示すよ
うな重みがかかるように、まずＦＦＴ（高速フーリエ変
換；Fast FourierTransform）を計算して周波数軸に変
換し（ステップＳ１）、メル尺度に変換する（ステップ
Ｓ２）。更に、対数変換して（ステップＳ３）、重み付
けし（ステップＳ４）、ＦＦＴ（ＣＯＳ変換）した後
（ステップＳ５）、正規化する（ステップＳ６）。正規
化処理では、各特徴量の平均値はおよそ０になるように
正規化される。

【００１６】以上の過程で求められたＭＦＣＣの出力デ
ィメンションはエネルギー（≧０）の対数である。これ
はＭＦＣＣに限らず、ほぼ全ての特徴量に共通といえ
る。以下、特徴量検出部１３から出力される特徴量のデ
ィメンションはエネルギーの対数であるとして説明す
る。なお、特徴量はＭＦＣＣに限定されるものではなく
その他のものでもよい。また、特徴ベクトル列の次元も
任意である。ここではｎ次元とする。

【００１７】微分特徴量検出部２は、特徴量検出部１３
で検出された特徴量から、特徴量の時間軸方向の変化量
である微分特徴量を検出する。微分特徴量は隣り合うフ
レームの特徴量の差分から求められ、１回微分（特徴量
の変化量）または２回微分（特徴量の変化量の変化量）
を含む。一般に、特徴量検出部１３において求められた
特徴量と微分特徴量検出部２において求められた微分特
徴量とを含む特徴量を用いて、後述する比較部１４にお
ける確率計算が行われる。

【００１８】平均微分量検出部３は、微分量検出部２に
おいて検出された微分特徴量の絶対値平均等を計算する
ことにより平均微分量を求め、この平均微分量を現在認
識対象とされている話者についての平均的な発話速度を
表すパラメータとする。なお、平均微分量検出部３にお
いて検出される平均微分量は一つの単語毎に変動させる
ものではなく、話者の平均的な発話速度が認識できるよ
うに、所定の音声区間、例えば１０単語以上の音声区間
における各フレームの特徴量の差分（微分特徴量）の平
均をとるようにする。また発話速度の大きな変動は望ま
しくないので、極端に速い場合や遅い場合を平均微分量
の計算から外すようにリミッタを設けてもよい。

【００１９】ここで、ＨＭＭモデル１５１〜１５ｎ及び
ＨＭＭモデル１５１〜１５ｎを用いた音声認識について
図３〜図５を参照して説明する。図３は音声“ｙａｍ
ａ”の状態遷移の様子を模式的に示す図であり、図４は
図３の一部を示す図である。また、図５は、シンボル
（特徴ベクトル）発生確率分布を表すグラフである。

【００２０】図３に示すように、音声“ｙａｍａ”には
１２個の状態があると仮定する。図中の円はそれぞれ状
態を示し、矢印は状態が遷移する方向を示している。そ
して図４に示すように、各状態Ａ，Ｂ，Ｃにおいて、状
態Ａ→状態Ａ、状態Ｂ→状態Ｂ、状態Ｃ→状態Ｃのよう
に現在の状態を維持する（状態内遷移）確率をそれぞれ
ｐ（ａ）、ｐ（ｂ）、ｐ（ｃ）とし、状態Ａ→状態Ｂ、
状態Ｂ→状態Ｃ、状態Ｃ→状態Ｘのように異なる状態へ
遷移する（状態間遷移）確率をそれぞれｑ（ａ）、ｑ
（ｂ）、ｑ（ｃ）とする。ここで、ｑ（ａ）＝１−ｐ（ａ）ｑ（ｂ）＝１−ｐ（ｂ）ｑ（ｃ）＝１−ｐ（ｃ）であり、ｐ（ａ）、ｐ（ｂ）、ｐ（ｃ）、ｑ（ａ）、ｑ
（ｂ）、ｑ（ｃ）はトレーニングによって与えられてい
る。

【００２１】また、各状態Ａ，Ｂ，Ｃから特徴ベクトル
Ｘを発生する確率はprob(ａ，Ｘ)、prob(ｂ，Ｘ)、prob
(ｃ，Ｘ)で表され、それぞれトレーニングによって与え
られている。ここでは、確率prob(ａ，Ｘ)は状態内遷移
（状態Ａ→状態Ａ）と状態間遷移（状態Ａ→状態Ｂ）と
で同一であるとする。prob(ｂ，Ｘ)、prob(ｃ，Ｘ)につ
いても同様とする。

【００２２】各状態Ａ，Ｂ，Ｃで、特徴ベクトルＸを発
生する確率、すなわちシンボル発生確率の分布は図５に
示すように混合ガウス分布で表される。図５では簡単の
ためにベクトルを２次元としている。また、各次元は実
際は複数のガウス分布の混合であるが、図５では次式
（１）に示す１個のガウス分布を表すこととする。

【００２３】 prob(v0，v1)＝1/（2π*|V｜^1/2）*exp｛−(v0，v1)V^-1(v0，v1)V^t｝・・・(1) V：共分散行列

【００２４】一般に、ある状態から与えられた特徴ベク
トルが発生する確率はprob(状態，特徴ベクトル)で表さ
れる。ここで、probは状態毎に与えられたｎ次元混合分
布の確率密度である。

【００２５】ＨＭＭモデルに基づいて音声認識を行う場
合は、与えられている各ＨＭＭモデルについて、その各
状態から入力音声の特徴ベクトルがいくつ発生するかを
確率（シンボル（特徴ベクトル）発生確率）計算によっ
て求められる。シンボル（特徴ベクトル）発生確率を求
めるためには、例えば、入力音声の特徴ベクトルがＶ１
〜Ｖ２０の２０個のベクトルである場合は、「２０個の
ベクトルがどの状態でいくつ発生するか」を求めればよ
い。一例を挙げると、図４において、「Ｖ１、Ｖ２は状
態Ａで発生して、Ｖ３は状態Ａから状態Ｂへの遷移中に
発生し、Ｖ４〜Ｖ１０は状態Ｂで発生して、Ｖ１１は状
態Ｂから状態Ｃへの遷移中に発生し、Ｖ１２〜Ｖ２０は
状態Ｃで発生する」とした場合に求められる確率Ｐ１
は、次式（２）で表すことができる。

【００２６】 P1=prob(a,V1)*prob(a,V2)*prob(a,V3)*prob(b,V4)*・・・*prob(b,V11)*prob(c, V12)*・・・*prob(c,V20)*(p(a)^2)*(1-p(a))*(p(b)^7)*(1-p(b))*(p(c)^9) ・・・ (2)

【００２７】同様に２０個のベクトルがどの状態でいく
つ発生するかの全ての場合について確率Ｐ１，Ｐ２，・・
・，Ｐｍを計算する。それらの和ΣＰｍが「ＨＭＭモデ
ルが与えられた（入力された）特徴ベクトル列を発生す
る確率」となる。以上の確率計算は後述する比較部１４
において行われる。

【００２８】次に、ＨＭＭモデルと発話速度の関係を説
明する。特徴ベクトルの要素には隣接するフレームの特
徴ベクトルとの差分（または更にその差分）である微分
特徴量が含まれる。それらの微分特徴量は発話速度が速
い人は大きく、発話速度が遅い人は小さくなる。一方、
ＨＭＭモデル１５１〜１５ｎは多くの発話者による発話
音声でトレーニングされているため、平均的な発話速度
となっている。この平均的な発話速度でトレーニングさ
れたＨＭＭモデル１５１〜１５ｎを利用して、発話速度
の遅い音声を正しく認識させるためには、微分特徴量を
大きくして、平均的な発話速度での微分特徴量に近づけ
て、確率計算に用いるようにすればよい。逆に、発話速
度の速い音声の場合は、微分特徴量を小さくして、平均
的な発話速度での微分特徴量に近づけて、確率計算に用
いるようにすればよい。

【００２９】そこで、本実施の形態の音声認識装置１
は、微分特徴量検出部２で求められた各フレームの微分
特徴量を、平均微分量検出部３で求めた平均微分量（発
話速度）に応じて特徴量調整部４により調整し、検出さ
れている微分特徴量を調整した微分特徴量に置き換え
る。そして、調整後の微分特徴量を用いてその後の処理
（比較部１４におけるＨＭＭモデル１５１〜１５ｎに基
づいた音声認識）を行う。ここで、各フレームの微分特
徴量は、平均微分量検出部３において検出した平均微分
量に反比例するように調整される。すなわち、「（微分
特徴量）×（平均微分量）＝（定数）」となるように各
フレームの微分特徴量が調整される。このように微分特
徴量を調整することにより、発話速度が速い場合、すな
わち平均微分量が大きい場合は、微分特徴量が小さくな
るように調整され、逆に発話速度が遅い場合、すなわち
平均微分量が小さい場合は、微分特徴量が大きくなるよ
うに調整される。

【００３０】比較部１４は特徴量調整部４において微分
特徴量が調整された特徴ベクトルを用いて、平均的な発
話速度でトレーニングされた各ＨＭＭモデル１５１〜１
５ｎからのシンボル（特徴ベクトル）発生確率を計算
し、その確率が最も大きいＨＭＭモデルを音声認識結果
として出力する。

【００３１】次に動作を説明する。マイクから入力され
たアナログ音声信号はＡ／Ｄ変換部１１において量子化
音声信号に変換され、フレーム化部１２において時間軸
方向に複数のフレームに区切られる。各フレームの音声
信号は特徴量検出部１３に入力されて、ＭＦＣＣ等の特
徴量（特徴ベクトル列）が検出される。次に、微分特徴
量検出部２においてこの特徴量の時間軸方向の変化量、
または変化量の変化量である微分特徴量が計算される。
微分特徴量は平均微分量検出部３に出力されるととも
に、特徴量調整部４に出力される。平均微分量検出部３
では例えば、１０単語以上の音声区間にある複数のフレ
ームの各微分特徴量からその平均値である平均微分量、
すなわち発話速度を求める。求められた平均微分量は特
徴量調整部４に入力される。

【００３２】特徴量調整部４は、平均微分量検出部３に
おいて求められた平均微分量に基づいて、「（微分特徴
量）×（平均微分量）＝（定数）」となるように微分特
徴量検出部２から入力された各フレームの微分特徴量を
調整する。そして、検出されている微分特徴量を調整さ
れた微分特徴量で置き換え、その後、比較部１４では微
分特徴量が調整された特徴ベクトルにて、通常の平均的
な速度でトレーニングされているＨＭＭモデル１５１〜
１５ｎからのシンボル（特徴ベクトル）発生確率を求
め、その確率が最大となるＨＭＭモデルに対応する単語
を音声認識結果として出力する。

【００３３】以上説明したように、本実施の形態の音声
認識装置１は話者の発話速度を平均微分量として求め、
発話速度に反比例するように微分特徴量を調整し、微分
特徴量が調整された特徴ベクトルを用いて各ＨＭＭモデ
ル１５１〜１５ｎについてシンボル（特徴ベクトル）発
生確率を計算し、その確率が最大となるＨＭＭモデルに
対応する単語を音声認識結果とする。

【００３４】従って、発話速度が速い場合、すなわち平
均微分量が大きい場合は、微分特徴量が小さくなるよう
に調整され、逆に発話速度が遅い場合、すなわち平均微
分量が小さい場合は、微分特徴量が大きくなるように調
整されるので、平均的な速さのＨＭＭモデルに適合した
微分特徴量に調整することができ、発話速度に対応した
ＨＭＭモデルを特別に用意しなくとも、発話速度に適応
した音声認識を行うことが可能となり、音声認識率を向
上することができる。

【００３５】なお、本実施の形態において、所定の音声
区間における複数のフレームの微分特徴量から平均微分
量を求め、この平均微分量に反比例するように適切な微
分特徴量を計算により調整する例を示したが、特徴量の
調整の仕方はこれに限定されるものではなく、例えば、
テーブルによって話者の発話速度に応じた微分特徴量を
決定するようにしてもよい。この場合においても、テー
ブルに設定される微分特徴量は、上述のＨＭＭモデルと
発話速度の関係を利用し、平均微分量に反比例するよう
に設定されているものとする。

【００３６】

【発明の効果】請求項１及び請求項３記載の発明によれ
ば、入力音声の発話速度に反比例するように、入力音声
についての特徴量の時間軸方向の変化量を調整し、この
調整された変化量を含む前記特徴量を用いて、隠れマル
コフモデルに基づく確率計算を行うことにより前記入力
音声を認識するので、発話速度を加味した隠れマルコフ
モデルを特別に用意しなくとも話者の発話速度に適応し
た音声認識を行うことが可能となり、音声認識率を向上
することができる。

【００３７】請求項２記載の発明によれば、前記特徴量
の時間軸方向の変化量の平均を求めることにより発話速
度を検出するので、任意の話者の発話速度を特定するこ
とができ、様々な発話速度に適応した音声認識を行うこ
とができる。

【図面の簡単な説明】

【図１】音声認識装置１の構成を示すブロック図であ
る。

【図２】特徴量（ＭＦＣＣ）の検出工程を示す図であ
る。

【図３】音声“ｙａｍａ”の状態遷移の様子を模式的に
示す図である。

【図４】図３の一部を示す図である。

【図５】特徴ベクトルの発生確率分布を示すグラフであ
る。

【図６】ＨＭＭによる音声認識の従来の手法を説明する
図である。

【符号の説明】

１音声認識装置２微分特徴量検出部３平均微分量検出部４特徴量調整部１１Ａ／Ｄ変換部１２フレーム化部１３特徴量検出部１４比較部１５１〜１５ｎ単語ＨＭＭ

Claims

【特許請求の範囲】

【請求項１】入力音声について特徴量を検出する特徴量
検出手段と、前記入力音声について発話速度を検出する発話速度検出
手段と、この発話速度検出手段によって検出された発話速度に反
比例するように、前記特徴量検出手段によって検出され
た特徴量の時間軸方向の変化量を調整する特徴量調整手
段と、この特徴量調整手段によって調整された変化量を含む特
徴量を用いて、隠れマルコフモデルに基づく確率計算を
行うことにより前記入力音声を認識する認識手段と、を備えることを特徴とする音声認識装置。
【請求項２】前記発話速度検出手段は、前記特徴量の時
間軸方向の変化量の平均を求めることにより発話速度を
検出することを特徴とする請求項１記載の音声認識装
置。
【請求項３】入力音声について特徴量を検出する特徴量
検出工程と、前記入力音声について発話速度を検出する発話速度検出
工程と、この発話速度検出工程において検出された発話速度に反
比例するように、前記特徴量検出工程において検出され
た特徴量の時間軸方向の変化量を調整する特徴量調整工
程と、この特徴量調整工程において調整された変化量を含む特
徴量を用いて、隠れマルコフモデルに基づく確率計算を
行うことにより前記入力音声を認識する認識工程と、を備えることを特徴とする音声認識方法。