JPH10149190A

JPH10149190A - 音声認識方法及び音声認識装置

Info

Publication number: JPH10149190A
Application number: JP30795796A
Authority: JP
Inventors: Yoshihisa Nakato; 良久中藤; Takeshi Norimatsu; 武志則松; Mitsuhiko Serikawa; 光彦芹川
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1996-11-19
Filing date: 1996-11-19
Publication date: 1998-06-02

Abstract

(57)【要約】【課題】音声認識装置において、認識性能を落とすこ
となく処理量を削減すること。【解決手段】音声分析手段１０１は入力音声からフレ
ーム毎に求めた特徴量の時系列を抽出する。学習音声分
析手段１０２はあらかじめ用意した多量の学習用音声デ
ータを用いて認識対象語彙毎のフレーム毎に求めた特徴
量の時系列を抽出する。モデル作成手段１０３は学習用
音声データから求めた特徴量の時系列を用いて認識対象
語彙毎の標準モデルを作成し、標準モデルを構成する情
報を情報の重要度に応じて複数の階層に分離して保持し
ておく。類似度算出手段１０４は一部の階層の情報を用
いて入力音声の特徴量の時系列との類似度を求める。最
終判定手段１０５は得られた類似度を用いて入力音声が
どの語彙に最も似ていたかを判定する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力音声とあらか
じめ学習された認識対象語彙毎の標準モデルとを比較す
ることにより認識結果を導き出す音声認識方法及び音声
認識装置に関する。

【０００２】

【従来の技術】一般に音声認識装置では、あらかじめ基
準となる音声データを用いて、音韻あるいは単語毎の標
準モデルを作成しておき、入力音声と標準モデルとの間
の類似度を計算し、この類似度が最も大きい標準モデル
に対応する単語を見つけることで音声認識を行う。従来
この標準モデルを用いて認識を行う場合は、この標準モ
デルが有する情報即ち標準モデルの構成要素を全て用い
て認識を行っている。例えば標準モデルとして、特定の
単語や音韻等に関する音声の特徴量の時系列をあらかじ
め登録しておいたものを使用する場合には、その正規化
された特徴量全てを用いて認識の計算を行っている。
又、例えば標準モデルが連続分布型隠れマルコフモデル
の場合、モデルの構成要素である遷移確率、平均ベクト
ル、共分散行列、分岐確率等の全て用いて認識を行って
いる。（中川聖一著、「確率モデルによる音声認識」、
電子情報通信学会編、ｐ７２〜７３）

【０００３】

【発明が解決しようとする課題】しかしながら、例えば
標準モデルとして上記の正規化された特徴量の時系列を
用いる場合には、特徴量の時系列全てを用いて類似度の
計算を行っているため、特徴量の中には認識にほとんど
寄与しない特徴量も含まれている場合があり、無駄な計
算を行っている可能性がある。又標準モデルとして上記
の連続分布型隠れマルコフモデルを用いる音声認識装置
では、モデルの構成要素である遷移確率及び平均ベクト
ル及び分散及び分岐確率等を全て用いて複雑な確率計算
を行っているため多量の計算を必要とし、実時間での処
理を行う際の妨げとなっている。更に、上記以外の標準
モデルを使用する場合においても、モデルを構成してい
る全ての構成要素を用いることで、多量の計算を要する
場合が少なくない。又、雑音の無い静かな実験室環境で
作成された標準モデルを用いて認識を行う場合、雑音の
無い環境では高い認識率が得られたとしても、雑音のあ
る劣悪な環境においては、標準モデルを構成している全
ての構成要素をそのまま使用することで、かえって逆に
認識率を悪化させている場合がある。

【０００４】本発明は上記従来の課題を解決するもので
あり、あらかじめ学習により求めておいた音韻あるいは
単語等の標準モデルの有する構成要素を全て用いること
なく、認識率の保持可能な要素のみ、即ち重要と思われ
る一部分の要素のみを用いて認識を行うことで、より少
ない処理での認識が可能となる音声認識方法及び音声認
識装置を提供することを目的とするものである。

【０００５】

【課題を解決するための手段】本願の請求項１の発明
は、入力音声から特徴量の時系列を抽出し、学習音声デ
ータから認識対象語彙の標準モデルを作成し、前記標準
モデルの一部分の構成要素のみを利用して前記入力音声
の特徴量の時系列との類似度を求め、前記入力音声がど
の認識対象語彙に類似しているかを求めることを特徴と
するものである。

【０００６】本願の請求項２の発明は、入力音声からフ
レーム毎に求めた特徴量の時系列を抽出し、あらかじめ
用意した複数の学習用音声データを用いて認識対象語彙
毎のフレーム毎に求めた特徴量の時系列を抽出し、前記
認識対象語彙毎の特徴量の時系列から前記認識対象語彙
毎の標準モデルを作成し、前記標準モデルを構成する構
成要素を要素の重要度に応じて複数の階層に分離して保
持しておき、前記複数の階層のうち少なくとも一部の階
層を用いて前記入力音声の特徴量の時系列との類似度を
求め、前記入力音声がどの認識対象語彙に類似している
かを求めることを特徴とするものである。

【０００７】本願の請求項３の発明では、標準モデルを
構成する構成要素を前記要素の重要度に応じて複数の階
層に分離するステップは、前記標準モデルを作成する際
に使用した学習用音声データを前記標準モデルの個々の
要素を用いて音声認識して前記学習用音声データに関す
る認識率を求めるステップと、前記認識率に対する影響
度が大きい順に要素を階層化するステップとを含むこと
を特徴とするものである。

【０００８】本願の請求項４の発明は、入力音声からフ
レーム毎に求めた特徴量の時系列を抽出する入力音声分
析手段と、あらかじめ用意した不特定多数話者の複数の
学習用音声データを用いて認識対象語彙毎のフレーム毎
に求めた特徴量の時系列を抽出する学習音声分析手段
と、前記認識対象語彙毎の複数の特徴量の時系列を用い
て前記認識対象語彙毎の標準的な特徴量の時系列である
標準モデルを作成するモデル作成手段と、前記標準モデ
ルを構成する構成要素である特徴量のうち一部分の特徴
のみを使用して、前記入力音声の特徴量の時系列との類
似度を計算する類似度算出手段と、前記類似度を用いて
入力音声がどの語彙に最も似ていたかを判定する最終判
定手段と、を具備することを特徴とするものである。

【０００９】本願の請求項５の発明では、前記入力音声
分析手段及び学習音声分析手段は、特徴量として音声分
析により得られるケプストラム係数を用いるものであ
り、前記疑似度算出手段は、入力音声の特徴量の時系列
と標準モデルの特徴量との間の類似度を計算するときに
使用する一部分の特徴量として、前記音声分析により得
られるケプストラム係数の低次の係数のみを用いること
を特徴とするものである。

【００１０】本願の請求項６の発明は、入力音声のフレ
ーム毎に求めた特徴量の時系列を抽出する入力音声分析
手段と、あらかじめ用意した不特定多数話者の複数の学
習用音声データを用いて認識対象語彙毎のフレーム毎に
求めた特徴量の時系列を抽出する学習音声分析手段と、
前記認識対象語彙毎の複数の特徴量の時系列から前記認
識対象語彙毎の標準モデルとして隠れマルコフモデルを
作成するモデル学習手段と、前記隠れマルコフモデルを
構成する構成要素のうち一部分の要素のみを用いて、前
記入力音声の特徴量の時系列と前記隠れマルコフモデル
との間の類似度を計算する類似度算出手段と、前記類似
度を用いて入力音声がどの語彙に最も似ていたかを判定
する最終判定手段と、を具備することを特徴とするもの
である。

【００１１】本願の請求項７の発明では、前記モデル学
習手段は、認識対象語彙毎の隠れマルコフモデルとして
連続分布型隠れマルコフモデルを用い、前記類似度算出
手段は、隠れマルコフモデルを構成する構成要素である
遷移確率及び平均ベクトル及び共分散行列及び分岐確率
のうちの４つ未満の要素を用いて前記入力音声の特徴量
の時系列との間の類似度を計算することを特徴とするも
のである。

【００１２】本願の請求項８の発明では、前記類似度算
出手段は、認識対象語彙毎の連続分布型隠れマルコフモ
デルを構成する要素である共分散行列の代わりに分散を
用いることを特徴とするものである。

【００１３】本願の請求項９の発明では、前記類似度算
出手段は、認識対象語彙毎の連続分布型隠れマルコフモ
デルを構成する構成要素である遷移確率及び平均ベクト
ル及び共分散行列及び分岐確率のうち、前記平均ベクト
ル及び前記共分散行列のみを用いるものであり、入力音
声の特徴量との間のフレーム毎の類似度としてマハラノ
ビス距離を用いることを特徴とするものである。

【００１４】本願の請求項１０の発明では、前記類似度
算出手段は、認識対象語彙毎の連続分布型隠れマルコフ
モデルを構成する構成要素である遷移確率及び平均ベク
トル及び共分散行列及び分岐確率のうち、前記平均ベク
トル及び前記共分散行列及び前記分岐確率のみを用いる
ものであり、入力音声の特徴量と前記隠れマルコフモデ
ルとの間のフレーム毎の類似度として、前記分岐毎に求
めたマハラノビス距離を前記分岐確率で重み付けし分岐
数分総和した距離を用いることを特徴とするものであ
る。

【００１５】本願の請求項１１の発明では、前記類似度
算出手段は、認識対象語彙毎の連続分布型隠れマルコフ
モデルを構成する構成要素である遷移確率及び平均ベク
トル及び共分散行列及び分岐確率のうち、前記平均ベク
トルと前記共分散行列を全ての前記認識対象語彙に関し
て共通にして求めた共分散行列を用いるものであり、入
力音声の特徴量と前記隠れマルコフモデルとの間のフレ
ーム毎の類似度として、簡易マハラノビス距離を用いる
ことを特徴とするものである。

【００１６】本願の請求項１２の発明では、前記類似度
算出手段は、認識対象語彙毎の連続分布型隠れマルコフ
モデルを構成する構成要素である遷移確率及び平均ベク
トル及び共分散行列及び分岐確率のうち、前記平均ベク
トル及び前記共分散行列の対角成分である分散のみを用
いるものであり、入力音声の特徴量と前記平均ベクトル
との差分を求め、前記差分に分散の逆数を掛け、√２で
割り、更に２乗した値を前記特徴量の各次数毎に求めて
総和したものを前記入力音声の特徴量と前記隠れマルコ
フモデルとの間のフレーム毎の類似度とすることを特徴
とするものである。

【００１７】本願の請求項１３の発明では、前記類似度
算出手段は、認識対象語彙毎の連続分布型隠れマルコフ
モデルを構成する構成要素である遷移確率及び平均ベク
トル及び共分散行列及び分岐確率のうち、前記平均ベク
トル及び前記共分散行列の対角成分である分散及び前記
分岐確率のみを用いるものであり、入力音声の特徴量と
前記平均ベクトルとの差分を求め、前記差分に分散の逆
数を掛け、√２で割り、更に２乗した値を前記特徴量の
各次数毎に求めて総和したものを前記分岐確率で重み付
けして分岐数分足し合わせた値を前記入力音声の特徴量
と前記隠れマルコフモデルとの間のフレーム毎の類似度
とすることを特徴とするものである。

【００１８】本願の請求項１４の発明では、前記類似度
算出手段は、認識対象語彙毎の連続分布型隠れマルコフ
モデルを構成する主要な構成要素である遷移確率及び平
均ベクトル及び共分散行列及び分岐確率のうち前記平均
ベクトルのみを用いるものであり、入力音声の特徴量と
前記平均ベクトルとの差分を求め、前記特徴量の差分の
次数毎の値に前記次数の値を掛け、更に２乗したものを
前記次数分総和した値を前記入力音声の特徴量と前記隠
れマルコフモデルとの間のフレーム毎の類似度とするこ
とを特徴とするものである。

【００１９】本願の請求項１５の発明では、前記入力音
声分析手段及び学習音声分析手段は、フレーム毎に抽出
する特徴量としてＬＰＣケプルトラムと正規化自己相関
係数を用いるものであり、前記類似度算出手段は、入力
音声の特徴量と前記標準モデルを構成する平均ベクトル
の間のフレーム毎の類似度として重み付け群遅延スペク
トル距離を用いることを特徴とするものである。

【００２０】

【発明の実施の形態】以下本発明の実施の形態の音声認
識装置について図面を参照しながら説明する。図１は本
発明の実施の形態の音声認識装置のブロック構成図であ
る。図１に示すように、この実施の形態の音声認識装置
は音声が入力される音声分析手段１０１，あらかじめ学
習用音声データが入力される学習音声分析手段１０２，
学習音声からモデルを作成するモデル作成手段１０３，
モデルと入力された音声との類似度を算出する類似度算
出手段１０４，この類似度に基づいて音声を判定する最
終判定手段１０５を含んで構成されている。

【００２１】次に各ブロックについて詳細に説明する。
音声分析手段１０１は、入力された音声信号からフレー
ム（但し、フレームとは音声信号を所定期間で区切った
単位時間）毎に音声の特徴量（パラメータ）の時系列を
抽出する音声分析手段である。例えばフレーム毎にＬＰ
Ｃ分析（線形予測分析）等の音声分析を行うことにより
得られる特徴量を算出する部分である。ここで、ＬＰＣ
分析により得られる特徴量としては、例えば対数パワ
ー、デルタ対数パワー、自己相関係数、線形予測係数
（ＬＰＣ係数）、ＰＡＲＣＯＲ係数、反射係数、ＬＳＰ
係数、ＬＰＣケプストラム係数、ＬＰＣメルケプストラ
ム係数、デルタケプストラム係数等が考えられる。これ
らは全て音声の特徴を表現している特徴量なので、いず
れの係数を用いても、又いくつかの係数を併せて同時に
用いても何等差し支えない。ここで線形予測係数、ＰＡ
ＲＣＯＲ係数、反射係数等の特徴量に関しては、例え
ば、L.R.Rabiner とR.W.Schafer の共著、鈴木久喜訳
の、”音声のデジタル信号処理（上）（下）”、コロナ
社、に詳しく記載されており、ＬＳＰ係数に関しては、
例えば、F.K.Soong,B.H.Juang ："Line Spectrum Pair
(LSP) and Speech Data Compression",Proc.ICASSP,84,
pp.1.10.1-1.10.4 、に、ＬＰＣケプストラム係数、Ｌ
ＰＣメルケプストラム係数、デルタケプストラム係数等
に関しては、今井聖著の、”音声認識”、共立出版に詳
しく記載されている。

【００２２】一方、音声分析の別の方法として、フーリ
エ変換に基づくケプストラム分析やＰＳＥ分析及びウェ
ーブレット変換等を用いても、音声の周波数軸上の特性
を分離・抽出する手法であることには変わりないので、
使用しても何等差し支えない。例えば、ケプストラム分
析やＰＳＥ分析の場合にはリフターにより抽出したケプ
ストラム係数をスペクトル包絡として使用することでも
実現できる。これらの分析手法に関しては既に公知であ
り、例えばケプストラム分析に関しては、L.R.Rabiner
とR.W.Schafer の共著、鈴木久喜訳の、”音声のデジタ
ル信号処理（上）（下）”、コロナ社、に詳しく記載さ
れており、又ＰＳＥ分析に関しては、例えば、中島、鈴
木：“パワースペクトル包絡（ＰＳＥ）音声分析・合成
系”, 日本音響学会誌, ４４巻、１１号,pp.824-832,
（1988）に、ウェーブレット変換に関しては、河原：
“ウェーブレット解析の聴覚研究への応用”, 日本音響
学会誌, ４７巻、６号,pp.424-429,（1991）、に記載さ
れている。本実施の形態では以下、音声分析手法として
はＬＰＣ分析を使用し、特徴量としてはケプストラム係
数を用いることにする。

【００２３】学習音声分析手段１０２は、あらかじめ用
意した不特定話者の多量な学習用音声データを用いてフ
レーム毎に求めた特徴量の時系列を抽出する学習音声分
析手段であり、音声分析手段１０１と同じ方法で特徴量
の時系列を抽出する部分である。ここで用意する学習用
音声データは、認識対象語彙毎に複数の話者が複数回発
声した音声であるので、抽出された特徴量の時系列を認
識対象語彙毎に夫々まとめておくことで、標準モデルを
容易に作成できるようになる。尚ここで認識対象語彙と
は、単語であってもよく、又単語を細分割した音韻であ
ってもよい。

【００２４】モデル作成手段１０３は、学習音声分析手
段１０２で求めた認識対象語彙毎の特徴量の時系列を用
いて、認識対象語彙毎の標準モデルを作成し、標準モデ
ルを構成する全ての構成要素を要素の重要度に応じて複
数の階層に分離して保存しておくモデル作成手段であ
る。標準モデルとしては、複数の認識対象語彙毎の特徴
量の時系列の中の代表的な特徴量の時系列を標準モデル
としても良いし、複数の認識対象語彙毎の特徴量の時系
列を時間的あるいは周波数的に正規化することで得られ
る正規化された特徴量の時系列を用いてもよい。例え
ば、あらかじめ決定した対応付けの規則に従って、時間
的あるいは周波数的に特徴量の時系列を正規化する方法
としては、ＤＰマッチングがあり、既に公知である。

【００２５】更に、統計的な手法を用いて時間的あるい
は周波数的に複数の特徴量の時系列を正規化する方法と
して、隠れマルコフモデル（ＨＭＭ）があり、この手法
も既に公知で幅広く利用されている（中川聖一：“確率
モデルによる音声認識”、電子情報通信学会編）。この
ＨＭＭとは、あらかじめ個人差による音韻や単語をＨＭ
Ｍモデル（標準パターン）に学習させておき、入力音声
がモデルにどのくらい近いかを確率値として捉えて認識
するシステムに適用される方法である。人の音声は一般
的に発声毎にその時間構造が異なり、又声道の長さの違
いや話し方の違いによる個人差が必ず存在し、この発声
の個人差や調音結合等の揺らぎを吸収することが必要で
ある。ＨＭＭでは、これを統計的な手法により反映させ
ることができる。ＨＭＭは、記号（ラベル）系列を出力
するマルコフモデルであり、Ｎ個の「状態」ｓ₁，
ｓ₂，・・・ｓ_Nをもち、一定周期毎にこの状態を次々
に遷移すると共に、その遷移の際に、ラベルを一つずつ
出力するようなモデルである。このラベルに相当するも
のとして、音声分析により得られるスペクトルの特徴量
や、ベクトル量子化により得られるコードが考えられ
る。このように、次にどの状態に遷移するか、或いはど
のラベルが発生するかは、夫々「遷移確率」、「出力確
率」によって確率的に決められている。この出力確率の
取り扱いの違いにより連続分布型ＨＭＭと離散分布型Ｈ
ＭＭとに大きく分けることができる。更に連続分布型Ｈ
ＭＭは、特徴量の分布を１つの確率密度関数で表現する
単一分布型と、複数の確率密度関数で表現する混合分布
型と分けられ、更に特徴量間には相関はなく独立として
扱う、すなわ特徴量の分散を用いる無相関分布型と特徴
量間の相関を考慮する、すなわ特徴量の共分散を用いる
多次元分布型等がある。しかし、いずれの場合のモデル
を使用しても、複数の認識対象語彙毎の特徴量の時系列
を時間的あるいは周波数的に正規化している点では何等
問題はない。本実施の形態では以下、標準モデルとして
は単一無相関正規分布型の隠れマルコフモデルを使用す
ることにする。

【００２６】次に標準モデルを構成する全ての構成要素
を要素の重要度に応じて複数の階層に分離して保存して
おく方法を説明する。例えば標準モデルとして時間的あ
るいは周波数的に正規化された特徴量の時系列を用い、
特徴量としてＬＰＣケプストラム係数を用いる場合に
は、標準モデルの構成要素としてはＬＰＣケプストラム
係数がその要素に対応する。そしてケプストラム係数の
低次の係数から順に数個の係数を１まとめにして各階層
とする方法が考えられる。例えば特徴量として１６次の
ケプストラム係数を用いる場合には、０次の係数を第１
階層、１次から４次までを第２階層、５次から８次まで
を第３階層、９次から１２次までを第４階層、１３次か
ら１６次までを第５階層等のように保存しておくことで
階層化できる。ケプストラム係数の０次の係数は、パワ
ーを表し、ケプストラム係数の低次の係数はスペクトル
の大局的な形状を表現しており、特に母音等の認識に有
効な特徴量であり、又ケプストラム係数の高次の係数は
スペクトルの微細な形状を表現しており、認識性能の向
上への寄与は比較的少ないパラメータと考えられる。一
方、特徴量としてケプストラム係数以外の前述の特徴量
を用いても、スペクトルの特徴を表している点では同様
であるので何等問題はない。このように、認識への寄与
の大きい特徴量から順に階層化し、その一部分の階層の
みを用いて認識を行うことで処理量の削減が図れる。
又、標準モデルとして認識対象語彙毎の離散ＨＭＭを用
いる場合には、モデルを構成する各コードの遷移確率及
び出力確率を要素と見なし、夫々を別々の階層とみなす
ことで階層化できる。

【００２７】更に、標準モデルとして認識対象語彙毎の
連続分布型ＨＭＭを用いる場合にも、モデルを構成する
構成要素である遷移確率及び平均ベクトル及び共分散行
列及び分岐確率の夫々を別々の階層とみなすことで階層
化できる。

【００２８】又分離された複数の階層をその重要度に応
じて並べかえる方法として、標準モデルを作成する際に
使用した学習用音声データをモデルの個々の階層を用い
て音声認識し、認識率の大きい順に階層化する方法が考
えられる。即ち、認識率への寄与の大きい階層ほど重要
であるとみなし、認識時等にその階層を優先的に使用す
る方法である。

【００２９】類似度算出手段１０４は、標準モデルの一
部分の階層のみを用いて、入力音声の特徴量の時系列と
標準モデルとの間の類似度を計算するものである。類似
度としては、例えば標準モデルとして時間的あるいは周
波数的に正規化された特徴量の時系列を用い、更に特徴
量としてはケプストラム係数を用いる場合には、標準モ
デルを構成する係数の時系列を複数個の係数を１まとめ
にして階層化し、そのうちの１つ以上の階層を用いて入
力音声の特徴量とのユークリッド距離を算出し、これを
類似度として使用することができる。又ユークリッド距
離以外にマハラノビス距離、簡易マハラノビス距離、Ｒ
ＰＳ距離、ＷＧＤ距離等が考えられ、いずれの距離尺度
を用いても標準モデルの一部分の階層と入力音声との類
似度を求めている点では同じである。しかも耐雑音性に
優れた類似度であり、これらの距離尺度は既に公知であ
る。これらについては、松本、三井：“雑音下音声認識
のための重み付け群遅延スペクトル距離尺度”, 電子情
報通信学会誌, ＡＶｏｌ.Ｊ７４- Ａ、Ｎｏ. ８,pp.125
7-1266,（1991）に詳しく記載されている。

【００３０】更に、標準モデルとして認識対象語彙毎の
連続分布型隠れマルコフモデルを用いる場合には、まず
モデルを構成する主要な構成要素である遷移確率及び平
均ベクトル及び共分散行列あるいは分散及び分岐確率を
夫々階層として階層化しておき、例えば平均ベクトルの
階層及び共分散行列の階層のみを用いて計算したマハラ
ノビス距離を類似度として用いることができる。更に類
似度として、平均ベクトルの階層及び共分散行列の階層
及び分岐確率の階層のみを用いて分岐毎に求めたマハラ
ノビス距離を分岐確率で重み付けし分岐数分総和した距
離を用いることも可能である。又平均ベクトルの階層と
共分散行列を全ての認識対象語彙に関して共通にして求
めた共分散行列を階層としたものを用いて求めた簡易マ
ハラノビス距離を用いても良い。更に平均ベクトルの階
層と分散の階層のみを用いて、入力音声の特徴量と平均
ベクトルとの差分に分散の逆数を掛け更に２乗した値を
全ての次数について総和したものを用いることも可能で
ある。又、平均ベクトル及び分散及び分岐確率の夫々の
階層を用いて、入力音声の特徴量と平均ベクトルとの差
分に分散の逆数を掛け、更に２乗した値を特徴量の各次
数毎に求めて総和したものを、更に分岐確率で重み付け
して分岐数分足し合わせた値を用いることも可能であ
る。又、平均ベクトルの階層のみを用いて、次数毎の入
力音声の特徴量と平均ベクトルとの差分を求め、その値
に次数の値を掛け、更に２乗したものを次数分総和した
値を用いることも可能である。更に学習用音声及び入力
音声を音声分析して得られる特徴量としてＬＰＣケプス
トラムと正規化自己相関係数を用い、標準モデルを構成
する平均ベクトルと入力音声の特徴量との重み付け群遅
延スペクトル距離を用いることも可能である。これらの
距離尺度は、雑音環境下で有効な距離尺度であり、特に
実環境下での音声認識の際に有効であると考えられる。

【００３１】本実施の形態では、入力音声の特徴量の時
系列と標準モデルとの間の類似度として、標準モデルを
構成する平均ベクトルの階層と分散の階層のみを用い
て、入力音声の特徴量と平均ベクトルとの差分に分散の
逆数を掛け更に２乗した値を全ての次数について総和し
たものを用いることにする。

【００３２】最終判定手段１０５は、類似度算出手段１
０４で算出された類似度を用いて、入力音声がどの語彙
に最も似ていたかを判定する最終判定手段である。具体
的には、語彙毎の各モデルから得られた類似度の大小判
定を行い、類似度の値が大きいもの、あるいはモデルと
入力音声との距離が最も小さい語彙が認識されたと判定
する。

【００３３】以下、本発明の実施の形態の動作について
図１のブロック構成図を参照しながら詳細に説明する。
まず音声がマイクロホン等を通ってから音声分析手段１
０１に入力される。この波形データからハミング窓を介
して自己相関係数を算出する。そしてプリエンファス処
理，自己相関係数の正規化を行う。そして線形予測係数
を算出し、ケプストラム係数Ｃｔ(M) を算出して分析デ
ータとする。音声分析手段１０１ではこうして一定の時
間間隔ｔでのＭ次のケプストラム係数Ｃｔ(M)を抽出す
る。一定の時間間隔は、ここでは例えば狭帯域音声のサ
ンプリング周波数を８ＫＨｚ（帯域幅４ＫＨｚ）とした
とき、１６０点（２０ｍｓ）であり、この時間単位をフ
レームと呼ぶ。

【００３４】次に、あらかじめ用意した不特定話者の多
量な学習用音声データについて、学習音声分析手段１０
２において、認識対象語彙毎に音声分析手段１０１と同
じ要領で、フレームｔ毎のＭ次のケプストラム係数Ｃｔ
(M) を抽出し、語彙毎の特徴量の時系列を用意する。

【００３５】そしてモデル作成手段１０３において、ま
ず学習音声分析手段１０２で求めた認識対象語彙毎の複
数の特徴量の時系列を用いて学習することで、認識対象
語彙毎の標準モデルを作成する。ここでは、時間的ある
いは周波数的に複数の特徴量の時系列を正規化する方法
として、確率的な標準モデルである隠れマルコフモデル
（ＨＭＭ）を標準モデルとする。モデルを学習するアル
ゴリズムはBaum-Welchアルゴリズムといい、既に公知の
アルゴリズムである（中川聖一：“確率モデルによる音
声認識”、電子情報通信学会編）。入力音声の特徴量の
時系列を（数１）とする。

【数１】ｏ_t（ｋ次元のパラメータであり、各要素はｏ_tkであ
る）が状態ｉから状態ｊへの遷移が時刻ｔに起こる確率
γ(i,j,t｜Ｍ) を用いると、標準モデルＭの各要素、即
ち学習後の遷移確率ａ_ijM、平均ベクトルμ_ijMk、及び
分散σ_ijMk ²は、（数２）（数３）（数４）で求められ
る。

【数２】

【数３】

【数４】これを全ての標準モデルについて求める。

【００３６】このように求めた標準モデルを構成する全
ての構成要素即ち遷移確率、平均ベクトル、及び分散を
夫々別々の階層のデータとする。図２は作成した標準モ
デル（ＨＭＭ）を階層化する例を示している。ここで
は、例えば認識率への寄与が大きいと考えられる平均ベ
クトルを第１階層、分散を第２階層、遷移確率を第３階
層等と分離して保存しておく。この場合、平均ベクトル
が最も認識率への寄与が大きく、階層数が大きくなるほ
どその寄与は小さいことを利用している。更に必要と思
われる第１階層あるいは上位の複数の階層のみを用いて
標準モデルを再登録してもよい。例えば平均ベクトルの
み又は平均ベクトルと分散の双方を標準モデルとして再
登録する。

【００３７】また、標準モデルとして時間的あるいは周
波数的に正規化された特徴量の時系列を用い、特徴量と
してケプストラム係数の時系列、あるいは時系列を時間
的に正規化したものを用いる場合には、ケプストラム係
数の低次の係数から順に数個の係数を１束にして各階層
とする方法が考えられる。

【００３８】例えば図３は、作成した基本モデルとして
特徴量の時系列を階層化する例を示している。図のよう
に例えば特徴量として１次から９次までのケプストラム
係数を用いる場合には、１次から３次の係数を第１階
層、４次から６次までを第２階層、７次から９次までを
第３階層等のように保存しておくことで階層化できる。
この他、特徴量としてケプストラム係数以外の前述の特
徴量を用いても、スペクトルの特徴を表している点では
同様であるので何等問題はない。

【００３９】このように、認識への寄与の大きい特徴量
から順に階層化し、その一部分の階層のみを用いて認識
を行うことで処理量の削減が図れる。また、分離された
複数の階層をその重要度に応じて並べかえる方法とし
て、標準モデルを作成する際に使用した学習用音声デー
タをモデルの個々の階層を用いて音声認識し、認識率の
大きい順に階層化すること方法が考えられる。すなわ
ち、認識率への寄与の大きい階層ほど重要であるとみな
し、認識時などにその階層を優先的に使用する方法であ
る。

【００４０】図４はモデル作成手段の動作を示すフロー
チャートである。但し、認識対象語としては単語を用い
る。まず、あらかじめ複数の話者の複数の単語を夫々デ
ータファイルとして収録しておく。そしてステップＳ１
においてこのファイル名を入力する。ファイル名とは入
力音声分析データ，単語標準モデル等の各ファイル名称
である。次いでステップＳ２において特徴パラメータの
次元数，学習単語数等のモデル作成のため必要なパラメ
ータを入力する。そしてステップＳ３において学習に使
用する標準話者数ＩＳＰを１とし、モデルを作成する単
語数ＩＰも１とする。次いでステップＳ５においてあら
かじめ収録されている分析データの所定部分を読出し、
単語数及び話者数分を同時に読出す（ステップＳ３〜Ｓ
６）。そしてルーチンＳ８において各単語毎の平均値，
標準偏差を求めて標準モデルを作成する。そしてこの単
語標準モデルを記憶して（ステップＳ９）処理を終え
る。

【００４１】次に類似度算出手段１０４では、標準モデ
ルの一部分の階層のみを用いて、入力音声の特徴量の時
系列と標準モデルとの間の類似度を計算する。この類似
度の計算に用いる階層は認識率の最も大きい階層から順
に用いる。ここでは、平均ベクトルの階層と分散の階層
のみを用いる。そして入力音声の特徴量と平均ベクトル
との差分に分散の逆数を掛け、√２で割り、更に２乗し
た値を全ての次数について総和したものを類似度Ｌ_Mと
すると、（数５）のように書ける。

【数５】

【００４２】図５はこの類似度算出手段の動作を示すフ
ローチャートである。動作を開始するとファイル名及び
パラメータを入力する。ファイル名とは分析された入力
音声データ，単語標準モデル等の各ファイル名称であ
り、パラメータとは入力フレーム数，標準モデル数（単
語数），検出閾値等のパラメータである。そしてステッ
プＳ２において単語標準モデルデータを読込み、モデル
数ＩＷを１、フレーム数のループＩＦを１として動作を
開始する。そして前述した音声分析手段１０１の分析デ
ータを読取り、標準モデル毎の尤度を計算する。そして
フレーム数が最終分析フレームＮＦに達したかどうかを
チェックし、達していなければステップＳ５に戻って同
様の処理を繰り返す。又モデル数が最終モデル数ＮＷに
達したかどうかをチェックし、達していなければステッ
プＳ４に戻って同様の処理を繰り返す。このようなルー
プで尤度演算を行い、夫々の標準モデルに対する類似度
Ｌ_Mを算出する。

【００４３】最終判定手段１０５は、類似度算出手段１
０４で算出された類似度Ｌ_Mを用いて、入力音声がどの
語彙に最も似ていたかを判定する。具体的には、全ての
標準モデルの類似度Ｌ_Mを比較し、類似度の値が最も大
きい語彙を求めることで認識結果を求める。

【００４４】以上のように、本実施の形態の構成により
学習用音声データを用いて作成した標準モデルを、情報
の重要度に応じて複数の階層に分離し、モデルの必要な
階層のみを用いて音声認識することで、比較的簡単な構
成で、しかも認識率を低下させることなく処理量を大幅
に削減することができる音声認識装置を提供することが
できる。

【００４５】

【発明の効果】以上の実施の形態から明らかなように、
本発明によれば、入力音声のフレーム毎に求めた特徴量
の時系列を抽出し、あらかじめ用意した不特定話者の多
量な学習用音声データを用いてフレーム毎に求めた特徴
量の時系列を抽出し、学習用音声データの特徴量の時系
列から標準モデルを作成し、標準モデルを構成する全て
の構成要素を要素の重要度に応じて複数の階層に分離し
て保存しておき、標準モデルの一部分の階層のみを用い
て、入力音声の特徴量の時系列と標準モデルとの間の類
似度を計算し、類似度を用いて入力音声がどの語彙に最
も似ていたかを判定するように構成しているので、認識
率を低下させることなく処理量を大幅に削減することが
できるという顕著な効果が得られる。

【図面の簡単な説明】

【図１】本発明の実施の形態による音声認識装置のブロ
ック構成図である。

【図２】本実施の形態による階層化の一例を示す図であ
る。

【図３】本実施の形態による階層化の他の例を示す図で
ある。

【図４】本実施の形態による単語標準モデル作成手順を
示すフローチャートである。

【図５】本実施の形態による類似度算出処理手順を示す
フローチャートである。

【符号の説明】

１０１音声分析手段１０２学習音声分析手段１０３モデル作成手段１０４類似度算出手段１０５最終判定手段

Claims

【特許請求の範囲】

【請求項１】入力音声から特徴量の時系列を抽出し、学習音声データから認識対象語彙の標準モデルを作成
し、前記標準モデルの一部分の構成要素のみを利用して前記
入力音声の特徴量の時系列との類似度を求め、前記入力音声がどの認識対象語彙に類似しているかを求
めることを特徴とする音声認識方法。
【請求項２】入力音声からフレーム毎に求めた特徴量
の時系列を抽出し、あらかじめ用意した複数の学習用音声データを用いて認
識対象語彙毎のフレーム毎に求めた特徴量の時系列を抽
出し、前記認識対象語彙毎の特徴量の時系列から前記認識対象
語彙毎の標準モデルを作成し、前記標準モデルを構成する構成要素を要素の重要度に応
じて複数の階層に分離して保持しておき、前記複数の階層のうち少なくとも一部の階層を用いて前
記入力音声の特徴量の時系列との類似度を求め、前記入力音声がどの認識対象語彙に類似しているかを求
めることを特徴とする音声認識方法。
【請求項３】標準モデルを構成する構成要素を前記要
素の重要度に応じて複数の階層に分離するステップは、前記標準モデルを作成する際に使用した学習用音声デー
タを前記標準モデルの個々の要素を用いて音声認識して
前記学習用音声データに関する認識率を求めるステップ
と、前記認識率に対する影響度が大きい順に要素を階層化す
るステップとを含むものであることを特徴とする請求項
２記載の音声認識方法。
【請求項４】入力音声からフレーム毎に求めた特徴量
の時系列を抽出する入力音声分析手段と、あらかじめ用意した不特定多数話者の複数の学習用音声
データを用いて認識対象語彙毎のフレーム毎に求めた特
徴量の時系列を抽出する学習音声分析手段と、前記認識対象語彙毎の複数の特徴量の時系列を用いて前
記認識対象語彙毎の標準的な特徴量の時系列である標準
モデルを作成するモデル作成手段と、前記標準モデルを構成する構成要素である特徴量のうち
一部分の特徴のみを使用して、前記入力音声の特徴量の
時系列との類似度を計算する類似度算出手段と、前記類似度を用いて入力音声がどの語彙に最も似ていた
かを判定する最終判定手段と、を具備することを特徴と
する音声認識装置。
【請求項５】前記入力音声分析手段及び学習音声分析
手段は、特徴量として音声分析により得られるケプスト
ラム係数を用いるものであり、前記疑似度算出手段は、入力音声の特徴量の時系列と標
準モデルの特徴量との間の類似度を計算するときに使用
する一部分の特徴量として、前記音声分析により得られ
るケプストラム係数の低次の係数のみを用いることを特
徴とする請求項４記載の音声認識装置。
【請求項６】入力音声のフレーム毎に求めた特徴量の
時系列を抽出する入力音声分析手段と、あらかじめ用意した不特定多数話者の複数の学習用音声
データを用いて認識対象語彙毎のフレーム毎に求めた特
徴量の時系列を抽出する学習音声分析手段と、前記認識対象語彙毎の複数の特徴量の時系列から前記認
識対象語彙毎の標準モデルとして隠れマルコフモデルを
作成するモデル学習手段と、前記隠れマルコフモデルを構成する構成要素のうち一部
分の要素のみを用いて、前記入力音声の特徴量の時系列
と前記隠れマルコフモデルとの間の類似度を計算する類
似度算出手段と、前記類似度を用いて入力音声がどの語彙に最も似ていた
かを判定する最終判定手段と、を具備することを特徴と
する音声認識装置。
【請求項７】前記モデル学習手段は、認識対象語彙毎
の隠れマルコフモデルとして連続分布型隠れマルコフモ
デルを用い、前記類似度算出手段は、隠れマルコフモデルを構成する
構成要素である遷移確率及び平均ベクトル及び共分散行
列及び分岐確率のうちの４つ未満の要素を用いて前記入
力音声の特徴量の時系列との間の類似度を計算するもの
であることを特徴とする請求項６記載の音声認識装置。
【請求項８】前記類似度算出手段は、認識対象語彙毎
の連続分布型隠れマルコフモデルを構成する要素である
共分散行列の代わりに分散を用いることを特徴とする請
求項７記載の音声認識装置。
【請求項９】前記類似度算出手段は、認識対象語彙毎
の連続分布型隠れマルコフモデルを構成する構成要素で
ある遷移確率及び平均ベクトル及び共分散行列及び分岐
確率のうち、前記平均ベクトル及び前記共分散行列のみ
を用いるものであり、入力音声の特徴量との間のフレーム毎の類似度としてマ
ハラノビス距離を用いることを特徴とする請求項７記載
の音声認識装置。
【請求項１０】前記類似度算出手段は、認識対象語彙
毎の連続分布型隠れマルコフモデルを構成する構成要素
である遷移確率及び平均ベクトル及び共分散行列及び分
岐確率のうち、前記平均ベクトル及び前記共分散行列及
び前記分岐確率のみを用いるものであり、入力音声の特徴量と前記隠れマルコフモデルとの間のフ
レーム毎の類似度として、前記分岐毎に求めたマハラノ
ビス距離を前記分岐確率で重み付けし分岐数分総和した
距離を用いることを特徴とする請求項７記載の音声認識
装置。
【請求項１１】前記類似度算出手段は、認識対象語彙
毎の連続分布型隠れマルコフモデルを構成する構成要素
である遷移確率及び平均ベクトル及び共分散行列及び分
岐確率のうち、前記平均ベクトルと前記共分散行列を全
ての前記認識対象語彙に関して共通にして求めた共分散
行列を用いるものであり、入力音声の特徴量と前記隠れマルコフモデルとの間のフ
レーム毎の類似度として、簡易マハラノビス距離を用い
ることを特徴とする請求項７記載の音声認識装置。
【請求項１２】前記類似度算出手段は、認識対象語彙
毎の連続分布型隠れマルコフモデルを構成する構成要素
である遷移確率及び平均ベクトル及び共分散行列及び分
岐確率のうち、前記平均ベクトル及び前記共分散行列の
対角成分である分散のみを用いるものであり、入力音声の特徴量と前記平均ベクトルとの差分を求め、
前記差分に分散の逆数を掛け、√２で割り、更に２乗し
た値を前記特徴量の各次数毎に求めて総和したものを前
記入力音声の特徴量と前記隠れマルコフモデルとの間の
フレーム毎の類似度とすることを特徴とする請求項７記
載の音声認識装置。
【請求項１３】前記類似度算出手段は、認識対象語彙
毎の連続分布型隠れマルコフモデルを構成する構成要素
である遷移確率及び平均ベクトル及び共分散行列及び分
岐確率のうち、前記平均ベクトル及び前記共分散行列の
対角成分である分散及び前記分岐確率のみを用いるもの
であり、入力音声の特徴量と前記平均ベクトルとの差分を求め、
前記差分に分散の逆数を掛け、√２で割り、更に２乗し
た値を前記特徴量の各次数毎に求めて総和したものを前
記分岐確率で重み付けして分岐数分足し合わせた値を前
記入力音声の特徴量と前記隠れマルコフモデルとの間の
フレーム毎の類似度とすることを特徴とする請求項７記
載の音声認識装置。
【請求項１４】前記類似度算出手段は、認識対象語彙
毎の連続分布型隠れマルコフモデルを構成する主要な構
成要素である遷移確率及び平均ベクトル及び共分散行列
及び分岐確率のうち前記平均ベクトルのみを用いるもの
であり、入力音声の特徴量と前記平均ベクトルとの差分を求め、
前記特徴量の差分の次数毎の値に前記次数の値を掛け、
更に２乗したものを前記次数分総和した値を前記入力音
声の特徴量と前記隠れマルコフモデルとの間のフレーム
毎の類似度とすることを特徴とする請求項７記載の音声
認識装置。
【請求項１５】前記入力音声分析手段及び学習音声分
析手段は、フレーム毎に抽出する特徴量としてＬＰＣケ
プルトラムと正規化自己相関係数を用いるものであり、前記類似度算出手段は、入力音声の特徴量と前記標準モ
デルを構成する平均ベクトルの間のフレーム毎の類似度
として重み付け群遅延スペクトル距離を用いることを特
徴とする請求項４記載の音声認識装置。