JPH10149190A - 音声認識方法及び音声認識装置 - Google Patents

音声認識方法及び音声認識装置

Info

Publication number
JPH10149190A
JPH10149190A JP30795796A JP30795796A JPH10149190A JP H10149190 A JPH10149190 A JP H10149190A JP 30795796 A JP30795796 A JP 30795796A JP 30795796 A JP30795796 A JP 30795796A JP H10149190 A JPH10149190 A JP H10149190A
Authority
JP
Japan
Prior art keywords
speech
similarity
model
vocabulary
time series
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP30795796A
Other languages
English (en)
Inventor
Yoshihisa Nakato
良久 中藤
Takeshi Norimatsu
武志 則松
Mitsuhiko Serikawa
光彦 芹川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP30795796A priority Critical patent/JPH10149190A/ja
Publication of JPH10149190A publication Critical patent/JPH10149190A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 音声認識装置において、認識性能を落とすこ
となく処理量を削減すること。 【解決手段】 音声分析手段101は入力音声からフレ
ーム毎に求めた特徴量の時系列を抽出する。学習音声分
析手段102はあらかじめ用意した多量の学習用音声デ
ータを用いて認識対象語彙毎のフレーム毎に求めた特徴
量の時系列を抽出する。モデル作成手段103は学習用
音声データから求めた特徴量の時系列を用いて認識対象
語彙毎の標準モデルを作成し、標準モデルを構成する情
報を情報の重要度に応じて複数の階層に分離して保持し
ておく。類似度算出手段104は一部の階層の情報を用
いて入力音声の特徴量の時系列との類似度を求める。最
終判定手段105は得られた類似度を用いて入力音声が
どの語彙に最も似ていたかを判定する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、入力音声とあらか
じめ学習された認識対象語彙毎の標準モデルとを比較す
ることにより認識結果を導き出す音声認識方法及び音声
認識装置に関する。
【0002】
【従来の技術】一般に音声認識装置では、あらかじめ基
準となる音声データを用いて、音韻あるいは単語毎の標
準モデルを作成しておき、入力音声と標準モデルとの間
の類似度を計算し、この類似度が最も大きい標準モデル
に対応する単語を見つけることで音声認識を行う。従来
この標準モデルを用いて認識を行う場合は、この標準モ
デルが有する情報即ち標準モデルの構成要素を全て用い
て認識を行っている。例えば標準モデルとして、特定の
単語や音韻等に関する音声の特徴量の時系列をあらかじ
め登録しておいたものを使用する場合には、その正規化
された特徴量全てを用いて認識の計算を行っている。
又、例えば標準モデルが連続分布型隠れマルコフモデル
の場合、モデルの構成要素である遷移確率、平均ベクト
ル、共分散行列、分岐確率等の全て用いて認識を行って
いる。(中川聖一著、「確率モデルによる音声認識」、
電子情報通信学会編、p72〜73)
【0003】
【発明が解決しようとする課題】しかしながら、例えば
標準モデルとして上記の正規化された特徴量の時系列を
用いる場合には、特徴量の時系列全てを用いて類似度の
計算を行っているため、特徴量の中には認識にほとんど
寄与しない特徴量も含まれている場合があり、無駄な計
算を行っている可能性がある。又標準モデルとして上記
の連続分布型隠れマルコフモデルを用いる音声認識装置
では、モデルの構成要素である遷移確率及び平均ベクト
ル及び分散及び分岐確率等を全て用いて複雑な確率計算
を行っているため多量の計算を必要とし、実時間での処
理を行う際の妨げとなっている。更に、上記以外の標準
モデルを使用する場合においても、モデルを構成してい
る全ての構成要素を用いることで、多量の計算を要する
場合が少なくない。又、雑音の無い静かな実験室環境で
作成された標準モデルを用いて認識を行う場合、雑音の
無い環境では高い認識率が得られたとしても、雑音のあ
る劣悪な環境においては、標準モデルを構成している全
ての構成要素をそのまま使用することで、かえって逆に
認識率を悪化させている場合がある。
【0004】本発明は上記従来の課題を解決するもので
あり、あらかじめ学習により求めておいた音韻あるいは
単語等の標準モデルの有する構成要素を全て用いること
なく、認識率の保持可能な要素のみ、即ち重要と思われ
る一部分の要素のみを用いて認識を行うことで、より少
ない処理での認識が可能となる音声認識方法及び音声認
識装置を提供することを目的とするものである。
【0005】
【課題を解決するための手段】本願の請求項1の発明
は、入力音声から特徴量の時系列を抽出し、学習音声デ
ータから認識対象語彙の標準モデルを作成し、前記標準
モデルの一部分の構成要素のみを利用して前記入力音声
の特徴量の時系列との類似度を求め、前記入力音声がど
の認識対象語彙に類似しているかを求めることを特徴と
するものである。
【0006】本願の請求項2の発明は、入力音声からフ
レーム毎に求めた特徴量の時系列を抽出し、あらかじめ
用意した複数の学習用音声データを用いて認識対象語彙
毎のフレーム毎に求めた特徴量の時系列を抽出し、前記
認識対象語彙毎の特徴量の時系列から前記認識対象語彙
毎の標準モデルを作成し、前記標準モデルを構成する構
成要素を要素の重要度に応じて複数の階層に分離して保
持しておき、前記複数の階層のうち少なくとも一部の階
層を用いて前記入力音声の特徴量の時系列との類似度を
求め、前記入力音声がどの認識対象語彙に類似している
かを求めることを特徴とするものである。
【0007】本願の請求項3の発明では、標準モデルを
構成する構成要素を前記要素の重要度に応じて複数の階
層に分離するステップは、前記標準モデルを作成する際
に使用した学習用音声データを前記標準モデルの個々の
要素を用いて音声認識して前記学習用音声データに関す
る認識率を求めるステップと、前記認識率に対する影響
度が大きい順に要素を階層化するステップとを含むこと
を特徴とするものである。
【0008】本願の請求項4の発明は、入力音声からフ
レーム毎に求めた特徴量の時系列を抽出する入力音声分
析手段と、あらかじめ用意した不特定多数話者の複数の
学習用音声データを用いて認識対象語彙毎のフレーム毎
に求めた特徴量の時系列を抽出する学習音声分析手段
と、前記認識対象語彙毎の複数の特徴量の時系列を用い
て前記認識対象語彙毎の標準的な特徴量の時系列である
標準モデルを作成するモデル作成手段と、前記標準モデ
ルを構成する構成要素である特徴量のうち一部分の特徴
のみを使用して、前記入力音声の特徴量の時系列との類
似度を計算する類似度算出手段と、前記類似度を用いて
入力音声がどの語彙に最も似ていたかを判定する最終判
定手段と、を具備することを特徴とするものである。
【0009】本願の請求項5の発明では、前記入力音声
分析手段及び学習音声分析手段は、特徴量として音声分
析により得られるケプストラム係数を用いるものであ
り、前記疑似度算出手段は、入力音声の特徴量の時系列
と標準モデルの特徴量との間の類似度を計算するときに
使用する一部分の特徴量として、前記音声分析により得
られるケプストラム係数の低次の係数のみを用いること
を特徴とするものである。
【0010】本願の請求項6の発明は、入力音声のフレ
ーム毎に求めた特徴量の時系列を抽出する入力音声分析
手段と、あらかじめ用意した不特定多数話者の複数の学
習用音声データを用いて認識対象語彙毎のフレーム毎に
求めた特徴量の時系列を抽出する学習音声分析手段と、
前記認識対象語彙毎の複数の特徴量の時系列から前記認
識対象語彙毎の標準モデルとして隠れマルコフモデルを
作成するモデル学習手段と、前記隠れマルコフモデルを
構成する構成要素のうち一部分の要素のみを用いて、前
記入力音声の特徴量の時系列と前記隠れマルコフモデル
との間の類似度を計算する類似度算出手段と、前記類似
度を用いて入力音声がどの語彙に最も似ていたかを判定
する最終判定手段と、を具備することを特徴とするもの
である。
【0011】本願の請求項7の発明では、前記モデル学
習手段は、認識対象語彙毎の隠れマルコフモデルとして
連続分布型隠れマルコフモデルを用い、前記類似度算出
手段は、隠れマルコフモデルを構成する構成要素である
遷移確率及び平均ベクトル及び共分散行列及び分岐確率
のうちの4つ未満の要素を用いて前記入力音声の特徴量
の時系列との間の類似度を計算することを特徴とするも
のである。
【0012】本願の請求項8の発明では、前記類似度算
出手段は、認識対象語彙毎の連続分布型隠れマルコフモ
デルを構成する要素である共分散行列の代わりに分散を
用いることを特徴とするものである。
【0013】本願の請求項9の発明では、前記類似度算
出手段は、認識対象語彙毎の連続分布型隠れマルコフモ
デルを構成する構成要素である遷移確率及び平均ベクト
ル及び共分散行列及び分岐確率のうち、前記平均ベクト
ル及び前記共分散行列のみを用いるものであり、入力音
声の特徴量との間のフレーム毎の類似度としてマハラノ
ビス距離を用いることを特徴とするものである。
【0014】本願の請求項10の発明では、前記類似度
算出手段は、認識対象語彙毎の連続分布型隠れマルコフ
モデルを構成する構成要素である遷移確率及び平均ベク
トル及び共分散行列及び分岐確率のうち、前記平均ベク
トル及び前記共分散行列及び前記分岐確率のみを用いる
ものであり、入力音声の特徴量と前記隠れマルコフモデ
ルとの間のフレーム毎の類似度として、前記分岐毎に求
めたマハラノビス距離を前記分岐確率で重み付けし分岐
数分総和した距離を用いることを特徴とするものであ
る。
【0015】本願の請求項11の発明では、前記類似度
算出手段は、認識対象語彙毎の連続分布型隠れマルコフ
モデルを構成する構成要素である遷移確率及び平均ベク
トル及び共分散行列及び分岐確率のうち、前記平均ベク
トルと前記共分散行列を全ての前記認識対象語彙に関し
て共通にして求めた共分散行列を用いるものであり、入
力音声の特徴量と前記隠れマルコフモデルとの間のフレ
ーム毎の類似度として、簡易マハラノビス距離を用いる
ことを特徴とするものである。
【0016】本願の請求項12の発明では、前記類似度
算出手段は、認識対象語彙毎の連続分布型隠れマルコフ
モデルを構成する構成要素である遷移確率及び平均ベク
トル及び共分散行列及び分岐確率のうち、前記平均ベク
トル及び前記共分散行列の対角成分である分散のみを用
いるものであり、入力音声の特徴量と前記平均ベクトル
との差分を求め、前記差分に分散の逆数を掛け、√2で
割り、更に2乗した値を前記特徴量の各次数毎に求めて
総和したものを前記入力音声の特徴量と前記隠れマルコ
フモデルとの間のフレーム毎の類似度とすることを特徴
とするものである。
【0017】本願の請求項13の発明では、前記類似度
算出手段は、認識対象語彙毎の連続分布型隠れマルコフ
モデルを構成する構成要素である遷移確率及び平均ベク
トル及び共分散行列及び分岐確率のうち、前記平均ベク
トル及び前記共分散行列の対角成分である分散及び前記
分岐確率のみを用いるものであり、入力音声の特徴量と
前記平均ベクトルとの差分を求め、前記差分に分散の逆
数を掛け、√2で割り、更に2乗した値を前記特徴量の
各次数毎に求めて総和したものを前記分岐確率で重み付
けして分岐数分足し合わせた値を前記入力音声の特徴量
と前記隠れマルコフモデルとの間のフレーム毎の類似度
とすることを特徴とするものである。
【0018】本願の請求項14の発明では、前記類似度
算出手段は、認識対象語彙毎の連続分布型隠れマルコフ
モデルを構成する主要な構成要素である遷移確率及び平
均ベクトル及び共分散行列及び分岐確率のうち前記平均
ベクトルのみを用いるものであり、入力音声の特徴量と
前記平均ベクトルとの差分を求め、前記特徴量の差分の
次数毎の値に前記次数の値を掛け、更に2乗したものを
前記次数分総和した値を前記入力音声の特徴量と前記隠
れマルコフモデルとの間のフレーム毎の類似度とするこ
とを特徴とするものである。
【0019】本願の請求項15の発明では、前記入力音
声分析手段及び学習音声分析手段は、フレーム毎に抽出
する特徴量としてLPCケプルトラムと正規化自己相関
係数を用いるものであり、前記類似度算出手段は、入力
音声の特徴量と前記標準モデルを構成する平均ベクトル
の間のフレーム毎の類似度として重み付け群遅延スペク
トル距離を用いることを特徴とするものである。
【0020】
【発明の実施の形態】以下本発明の実施の形態の音声認
識装置について図面を参照しながら説明する。図1は本
発明の実施の形態の音声認識装置のブロック構成図であ
る。図1に示すように、この実施の形態の音声認識装置
は音声が入力される音声分析手段101,あらかじめ学
習用音声データが入力される学習音声分析手段102,
学習音声からモデルを作成するモデル作成手段103,
モデルと入力された音声との類似度を算出する類似度算
出手段104,この類似度に基づいて音声を判定する最
終判定手段105を含んで構成されている。
【0021】次に各ブロックについて詳細に説明する。
音声分析手段101は、入力された音声信号からフレー
ム(但し、フレームとは音声信号を所定期間で区切った
単位時間)毎に音声の特徴量(パラメータ)の時系列を
抽出する音声分析手段である。例えばフレーム毎にLP
C分析(線形予測分析)等の音声分析を行うことにより
得られる特徴量を算出する部分である。ここで、LPC
分析により得られる特徴量としては、例えば対数パワ
ー、デルタ対数パワー、自己相関係数、線形予測係数
(LPC係数)、PARCOR係数、反射係数、LSP
係数、LPCケプストラム係数、LPCメルケプストラ
ム係数、デルタケプストラム係数等が考えられる。これ
らは全て音声の特徴を表現している特徴量なので、いず
れの係数を用いても、又いくつかの係数を併せて同時に
用いても何等差し支えない。ここで線形予測係数、PA
RCOR係数、反射係数等の特徴量に関しては、例え
ば、L.R.Rabiner とR.W.Schafer の共著、鈴木久喜訳
の、”音声のデジタル信号処理(上)(下)”、コロナ
社、に詳しく記載されており、LSP係数に関しては、
例えば、F.K.Soong,B.H.Juang :"Line Spectrum Pair
(LSP) and Speech Data Compression",Proc.ICASSP,84,
pp.1.10.1-1.10.4 、に、LPCケプストラム係数、L
PCメルケプストラム係数、デルタケプストラム係数等
に関しては、今井聖著の、”音声認識”、共立出版に詳
しく記載されている。
【0022】一方、音声分析の別の方法として、フーリ
エ変換に基づくケプストラム分析やPSE分析及びウェ
ーブレット変換等を用いても、音声の周波数軸上の特性
を分離・抽出する手法であることには変わりないので、
使用しても何等差し支えない。例えば、ケプストラム分
析やPSE分析の場合にはリフターにより抽出したケプ
ストラム係数をスペクトル包絡として使用することでも
実現できる。これらの分析手法に関しては既に公知であ
り、例えばケプストラム分析に関しては、L.R.Rabiner
とR.W.Schafer の共著、鈴木久喜訳の、”音声のデジタ
ル信号処理(上)(下)”、コロナ社、に詳しく記載さ
れており、又PSE分析に関しては、例えば、中島、鈴
木:“パワースペクトル包絡(PSE)音声分析・合成
系”, 日本音響学会誌, 44巻、11号,pp.824-832,
(1988)に、ウェーブレット変換に関しては、河原:
“ウェーブレット解析の聴覚研究への応用”, 日本音響
学会誌, 47巻、6号,pp.424-429,(1991)、に記載さ
れている。本実施の形態では以下、音声分析手法として
はLPC分析を使用し、特徴量としてはケプストラム係
数を用いることにする。
【0023】学習音声分析手段102は、あらかじめ用
意した不特定話者の多量な学習用音声データを用いてフ
レーム毎に求めた特徴量の時系列を抽出する学習音声分
析手段であり、音声分析手段101と同じ方法で特徴量
の時系列を抽出する部分である。ここで用意する学習用
音声データは、認識対象語彙毎に複数の話者が複数回発
声した音声であるので、抽出された特徴量の時系列を認
識対象語彙毎に夫々まとめておくことで、標準モデルを
容易に作成できるようになる。尚ここで認識対象語彙と
は、単語であってもよく、又単語を細分割した音韻であ
ってもよい。
【0024】モデル作成手段103は、学習音声分析手
段102で求めた認識対象語彙毎の特徴量の時系列を用
いて、認識対象語彙毎の標準モデルを作成し、標準モデ
ルを構成する全ての構成要素を要素の重要度に応じて複
数の階層に分離して保存しておくモデル作成手段であ
る。標準モデルとしては、複数の認識対象語彙毎の特徴
量の時系列の中の代表的な特徴量の時系列を標準モデル
としても良いし、複数の認識対象語彙毎の特徴量の時系
列を時間的あるいは周波数的に正規化することで得られ
る正規化された特徴量の時系列を用いてもよい。例え
ば、あらかじめ決定した対応付けの規則に従って、時間
的あるいは周波数的に特徴量の時系列を正規化する方法
としては、DPマッチングがあり、既に公知である。
【0025】更に、統計的な手法を用いて時間的あるい
は周波数的に複数の特徴量の時系列を正規化する方法と
して、隠れマルコフモデル(HMM)があり、この手法
も既に公知で幅広く利用されている(中川聖一:“確率
モデルによる音声認識”、電子情報通信学会編)。この
HMMとは、あらかじめ個人差による音韻や単語をHM
Mモデル(標準パターン)に学習させておき、入力音声
がモデルにどのくらい近いかを確率値として捉えて認識
するシステムに適用される方法である。人の音声は一般
的に発声毎にその時間構造が異なり、又声道の長さの違
いや話し方の違いによる個人差が必ず存在し、この発声
の個人差や調音結合等の揺らぎを吸収することが必要で
ある。HMMでは、これを統計的な手法により反映させ
ることができる。HMMは、記号(ラベル)系列を出力
するマルコフモデルであり、N個の「状態」s1
2 ,・・・sN をもち、一定周期毎にこの状態を次々
に遷移すると共に、その遷移の際に、ラベルを一つずつ
出力するようなモデルである。このラベルに相当するも
のとして、音声分析により得られるスペクトルの特徴量
や、ベクトル量子化により得られるコードが考えられ
る。このように、次にどの状態に遷移するか、或いはど
のラベルが発生するかは、夫々「遷移確率」、「出力確
率」によって確率的に決められている。この出力確率の
取り扱いの違いにより連続分布型HMMと離散分布型H
MMとに大きく分けることができる。更に連続分布型H
MMは、特徴量の分布を1つの確率密度関数で表現する
単一分布型と、複数の確率密度関数で表現する混合分布
型と分けられ、更に特徴量間には相関はなく独立として
扱う、すなわ特徴量の分散を用いる無相関分布型と特徴
量間の相関を考慮する、すなわ特徴量の共分散を用いる
多次元分布型等がある。しかし、いずれの場合のモデル
を使用しても、複数の認識対象語彙毎の特徴量の時系列
を時間的あるいは周波数的に正規化している点では何等
問題はない。本実施の形態では以下、標準モデルとして
は単一無相関正規分布型の隠れマルコフモデルを使用す
ることにする。
【0026】次に標準モデルを構成する全ての構成要素
を要素の重要度に応じて複数の階層に分離して保存して
おく方法を説明する。例えば標準モデルとして時間的あ
るいは周波数的に正規化された特徴量の時系列を用い、
特徴量としてLPCケプストラム係数を用いる場合に
は、標準モデルの構成要素としてはLPCケプストラム
係数がその要素に対応する。そしてケプストラム係数の
低次の係数から順に数個の係数を1まとめにして各階層
とする方法が考えられる。例えば特徴量として16次の
ケプストラム係数を用いる場合には、0次の係数を第1
階層、1次から4次までを第2階層、5次から8次まで
を第3階層、9次から12次までを第4階層、13次か
ら16次までを第5階層等のように保存しておくことで
階層化できる。ケプストラム係数の0次の係数は、パワ
ーを表し、ケプストラム係数の低次の係数はスペクトル
の大局的な形状を表現しており、特に母音等の認識に有
効な特徴量であり、又ケプストラム係数の高次の係数は
スペクトルの微細な形状を表現しており、認識性能の向
上への寄与は比較的少ないパラメータと考えられる。一
方、特徴量としてケプストラム係数以外の前述の特徴量
を用いても、スペクトルの特徴を表している点では同様
であるので何等問題はない。このように、認識への寄与
の大きい特徴量から順に階層化し、その一部分の階層の
みを用いて認識を行うことで処理量の削減が図れる。
又、標準モデルとして認識対象語彙毎の離散HMMを用
いる場合には、モデルを構成する各コードの遷移確率及
び出力確率を要素と見なし、夫々を別々の階層とみなす
ことで階層化できる。
【0027】更に、標準モデルとして認識対象語彙毎の
連続分布型HMMを用いる場合にも、モデルを構成する
構成要素である遷移確率及び平均ベクトル及び共分散行
列及び分岐確率の夫々を別々の階層とみなすことで階層
化できる。
【0028】又分離された複数の階層をその重要度に応
じて並べかえる方法として、標準モデルを作成する際に
使用した学習用音声データをモデルの個々の階層を用い
て音声認識し、認識率の大きい順に階層化する方法が考
えられる。即ち、認識率への寄与の大きい階層ほど重要
であるとみなし、認識時等にその階層を優先的に使用す
る方法である。
【0029】類似度算出手段104は、標準モデルの一
部分の階層のみを用いて、入力音声の特徴量の時系列と
標準モデルとの間の類似度を計算するものである。類似
度としては、例えば標準モデルとして時間的あるいは周
波数的に正規化された特徴量の時系列を用い、更に特徴
量としてはケプストラム係数を用いる場合には、標準モ
デルを構成する係数の時系列を複数個の係数を1まとめ
にして階層化し、そのうちの1つ以上の階層を用いて入
力音声の特徴量とのユークリッド距離を算出し、これを
類似度として使用することができる。又ユークリッド距
離以外にマハラノビス距離、簡易マハラノビス距離、R
PS距離、WGD距離等が考えられ、いずれの距離尺度
を用いても標準モデルの一部分の階層と入力音声との類
似度を求めている点では同じである。しかも耐雑音性に
優れた類似度であり、これらの距離尺度は既に公知であ
る。これらについては、松本、三井:“雑音下音声認識
のための重み付け群遅延スペクトル距離尺度”, 電子情
報通信学会誌, AVol.J74- A、No. 8,pp.125
7-1266,(1991)に詳しく記載されている。
【0030】更に、標準モデルとして認識対象語彙毎の
連続分布型隠れマルコフモデルを用いる場合には、まず
モデルを構成する主要な構成要素である遷移確率及び平
均ベクトル及び共分散行列あるいは分散及び分岐確率を
夫々階層として階層化しておき、例えば平均ベクトルの
階層及び共分散行列の階層のみを用いて計算したマハラ
ノビス距離を類似度として用いることができる。更に類
似度として、平均ベクトルの階層及び共分散行列の階層
及び分岐確率の階層のみを用いて分岐毎に求めたマハラ
ノビス距離を分岐確率で重み付けし分岐数分総和した距
離を用いることも可能である。又平均ベクトルの階層と
共分散行列を全ての認識対象語彙に関して共通にして求
めた共分散行列を階層としたものを用いて求めた簡易マ
ハラノビス距離を用いても良い。更に平均ベクトルの階
層と分散の階層のみを用いて、入力音声の特徴量と平均
ベクトルとの差分に分散の逆数を掛け更に2乗した値を
全ての次数について総和したものを用いることも可能で
ある。又、平均ベクトル及び分散及び分岐確率の夫々の
階層を用いて、入力音声の特徴量と平均ベクトルとの差
分に分散の逆数を掛け、更に2乗した値を特徴量の各次
数毎に求めて総和したものを、更に分岐確率で重み付け
して分岐数分足し合わせた値を用いることも可能であ
る。又、平均ベクトルの階層のみを用いて、次数毎の入
力音声の特徴量と平均ベクトルとの差分を求め、その値
に次数の値を掛け、更に2乗したものを次数分総和した
値を用いることも可能である。更に学習用音声及び入力
音声を音声分析して得られる特徴量としてLPCケプス
トラムと正規化自己相関係数を用い、標準モデルを構成
する平均ベクトルと入力音声の特徴量との重み付け群遅
延スペクトル距離を用いることも可能である。これらの
距離尺度は、雑音環境下で有効な距離尺度であり、特に
実環境下での音声認識の際に有効であると考えられる。
【0031】本実施の形態では、入力音声の特徴量の時
系列と標準モデルとの間の類似度として、標準モデルを
構成する平均ベクトルの階層と分散の階層のみを用い
て、入力音声の特徴量と平均ベクトルとの差分に分散の
逆数を掛け更に2乗した値を全ての次数について総和し
たものを用いることにする。
【0032】最終判定手段105は、類似度算出手段1
04で算出された類似度を用いて、入力音声がどの語彙
に最も似ていたかを判定する最終判定手段である。具体
的には、語彙毎の各モデルから得られた類似度の大小判
定を行い、類似度の値が大きいもの、あるいはモデルと
入力音声との距離が最も小さい語彙が認識されたと判定
する。
【0033】以下、本発明の実施の形態の動作について
図1のブロック構成図を参照しながら詳細に説明する。
まず音声がマイクロホン等を通ってから音声分析手段1
01に入力される。この波形データからハミング窓を介
して自己相関係数を算出する。そしてプリエンファス処
理,自己相関係数の正規化を行う。そして線形予測係数
を算出し、ケプストラム係数Ct(M) を算出して分析デ
ータとする。音声分析手段101ではこうして一定の時
間間隔tでのM次のケプストラム係数Ct(M)を抽出す
る。一定の時間間隔は、ここでは例えば狭帯域音声のサ
ンプリング周波数を8KHz(帯域幅4KHz)とした
とき、160点(20ms)であり、この時間単位をフ
レームと呼ぶ。
【0034】次に、あらかじめ用意した不特定話者の多
量な学習用音声データについて、学習音声分析手段10
2において、認識対象語彙毎に音声分析手段101と同
じ要領で、フレームt毎のM次のケプストラム係数Ct
(M) を抽出し、語彙毎の特徴量の時系列を用意する。
【0035】そしてモデル作成手段103において、ま
ず学習音声分析手段102で求めた認識対象語彙毎の複
数の特徴量の時系列を用いて学習することで、認識対象
語彙毎の標準モデルを作成する。ここでは、時間的ある
いは周波数的に複数の特徴量の時系列を正規化する方法
として、確率的な標準モデルである隠れマルコフモデル
(HMM)を標準モデルとする。モデルを学習するアル
ゴリズムはBaum-Welchアルゴリズムといい、既に公知の
アルゴリズムである(中川聖一:“確率モデルによる音
声認識”、電子情報通信学会編)。入力音声の特徴量の
時系列を(数1)とする。
【数1】 t (k次元のパラメータであり、各要素はotkであ
る)が状態iから状態jへの遷移が時刻tに起こる確率
γ(i,j,t|M) を用いると、標準モデルMの各要素、即
ち学習後の遷移確率aijM 、平均ベクトルμijMk、及び
分散σijMk 2 は、(数2)(数3)(数4)で求められ
る。
【数2】
【数3】
【数4】 これを全ての標準モデルについて求める。
【0036】このように求めた標準モデルを構成する全
ての構成要素即ち遷移確率、平均ベクトル、及び分散を
夫々別々の階層のデータとする。図2は作成した標準モ
デル(HMM)を階層化する例を示している。ここで
は、例えば認識率への寄与が大きいと考えられる平均ベ
クトルを第1階層、分散を第2階層、遷移確率を第3階
層等と分離して保存しておく。この場合、平均ベクトル
が最も認識率への寄与が大きく、階層数が大きくなるほ
どその寄与は小さいことを利用している。更に必要と思
われる第1階層あるいは上位の複数の階層のみを用いて
標準モデルを再登録してもよい。例えば平均ベクトルの
み又は平均ベクトルと分散の双方を標準モデルとして再
登録する。
【0037】また、標準モデルとして時間的あるいは周
波数的に正規化された特徴量の時系列を用い、特徴量と
してケプストラム係数の時系列、あるいは時系列を時間
的に正規化したものを用いる場合には、ケプストラム係
数の低次の係数から順に数個の係数を1束にして各階層
とする方法が考えられる。
【0038】例えば図3は、作成した基本モデルとして
特徴量の時系列を階層化する例を示している。図のよう
に例えば特徴量として1次から9次までのケプストラム
係数を用いる場合には、1次から3次の係数を第1階
層、4次から6次までを第2階層、7次から9次までを
第3階層等のように保存しておくことで階層化できる。
この他、特徴量としてケプストラム係数以外の前述の特
徴量を用いても、スペクトルの特徴を表している点では
同様であるので何等問題はない。
【0039】このように、認識への寄与の大きい特徴量
から順に階層化し、その一部分の階層のみを用いて認識
を行うことで処理量の削減が図れる。また、分離された
複数の階層をその重要度に応じて並べかえる方法とし
て、標準モデルを作成する際に使用した学習用音声デー
タをモデルの個々の階層を用いて音声認識し、認識率の
大きい順に階層化すること方法が考えられる。すなわ
ち、認識率への寄与の大きい階層ほど重要であるとみな
し、認識時などにその階層を優先的に使用する方法であ
る。
【0040】図4はモデル作成手段の動作を示すフロー
チャートである。但し、認識対象語としては単語を用い
る。まず、あらかじめ複数の話者の複数の単語を夫々デ
ータファイルとして収録しておく。そしてステップS1
においてこのファイル名を入力する。ファイル名とは入
力音声分析データ,単語標準モデル等の各ファイル名称
である。次いでステップS2において特徴パラメータの
次元数,学習単語数等のモデル作成のため必要なパラメ
ータを入力する。そしてステップS3において学習に使
用する標準話者数ISPを1とし、モデルを作成する単
語数IPも1とする。次いでステップS5においてあら
かじめ収録されている分析データの所定部分を読出し、
単語数及び話者数分を同時に読出す(ステップS3〜S
6)。そしてルーチンS8において各単語毎の平均値,
標準偏差を求めて標準モデルを作成する。そしてこの単
語標準モデルを記憶して(ステップS9)処理を終え
る。
【0041】次に類似度算出手段104では、標準モデ
ルの一部分の階層のみを用いて、入力音声の特徴量の時
系列と標準モデルとの間の類似度を計算する。この類似
度の計算に用いる階層は認識率の最も大きい階層から順
に用いる。ここでは、平均ベクトルの階層と分散の階層
のみを用いる。そして入力音声の特徴量と平均ベクトル
との差分に分散の逆数を掛け、√2で割り、更に2乗し
た値を全ての次数について総和したものを類似度LM
すると、(数5)のように書ける。
【数5】
【0042】図5はこの類似度算出手段の動作を示すフ
ローチャートである。動作を開始するとファイル名及び
パラメータを入力する。ファイル名とは分析された入力
音声データ,単語標準モデル等の各ファイル名称であ
り、パラメータとは入力フレーム数,標準モデル数(単
語数),検出閾値等のパラメータである。そしてステッ
プS2において単語標準モデルデータを読込み、モデル
数IWを1、フレーム数のループIFを1として動作を
開始する。そして前述した音声分析手段101の分析デ
ータを読取り、標準モデル毎の尤度を計算する。そして
フレーム数が最終分析フレームNFに達したかどうかを
チェックし、達していなければステップS5に戻って同
様の処理を繰り返す。又モデル数が最終モデル数NWに
達したかどうかをチェックし、達していなければステッ
プS4に戻って同様の処理を繰り返す。このようなルー
プで尤度演算を行い、夫々の標準モデルに対する類似度
Mを算出する。
【0043】最終判定手段105は、類似度算出手段1
04で算出された類似度LM を用いて、入力音声がどの
語彙に最も似ていたかを判定する。具体的には、全ての
標準モデルの類似度LM を比較し、類似度の値が最も大
きい語彙を求めることで認識結果を求める。
【0044】以上のように、本実施の形態の構成により
学習用音声データを用いて作成した標準モデルを、情報
の重要度に応じて複数の階層に分離し、モデルの必要な
階層のみを用いて音声認識することで、比較的簡単な構
成で、しかも認識率を低下させることなく処理量を大幅
に削減することができる音声認識装置を提供することが
できる。
【0045】
【発明の効果】以上の実施の形態から明らかなように、
本発明によれば、入力音声のフレーム毎に求めた特徴量
の時系列を抽出し、あらかじめ用意した不特定話者の多
量な学習用音声データを用いてフレーム毎に求めた特徴
量の時系列を抽出し、学習用音声データの特徴量の時系
列から標準モデルを作成し、標準モデルを構成する全て
の構成要素を要素の重要度に応じて複数の階層に分離し
て保存しておき、標準モデルの一部分の階層のみを用い
て、入力音声の特徴量の時系列と標準モデルとの間の類
似度を計算し、類似度を用いて入力音声がどの語彙に最
も似ていたかを判定するように構成しているので、認識
率を低下させることなく処理量を大幅に削減することが
できるという顕著な効果が得られる。
【図面の簡単な説明】
【図1】本発明の実施の形態による音声認識装置のブロ
ック構成図である。
【図2】本実施の形態による階層化の一例を示す図であ
る。
【図3】本実施の形態による階層化の他の例を示す図で
ある。
【図4】本実施の形態による単語標準モデル作成手順を
示すフローチャートである。
【図5】本実施の形態による類似度算出処理手順を示す
フローチャートである。
【符号の説明】
101 音声分析手段 102 学習音声分析手段 103 モデル作成手段 104 類似度算出手段 105 最終判定手段

Claims (15)

    【特許請求の範囲】
  1. 【請求項1】 入力音声から特徴量の時系列を抽出し、 学習音声データから認識対象語彙の標準モデルを作成
    し、 前記標準モデルの一部分の構成要素のみを利用して前記
    入力音声の特徴量の時系列との類似度を求め、 前記入力音声がどの認識対象語彙に類似しているかを求
    めることを特徴とする音声認識方法。
  2. 【請求項2】 入力音声からフレーム毎に求めた特徴量
    の時系列を抽出し、 あらかじめ用意した複数の学習用音声データを用いて認
    識対象語彙毎のフレーム毎に求めた特徴量の時系列を抽
    出し、 前記認識対象語彙毎の特徴量の時系列から前記認識対象
    語彙毎の標準モデルを作成し、 前記標準モデルを構成する構成要素を要素の重要度に応
    じて複数の階層に分離して保持しておき、 前記複数の階層のうち少なくとも一部の階層を用いて前
    記入力音声の特徴量の時系列との類似度を求め、 前記入力音声がどの認識対象語彙に類似しているかを求
    めることを特徴とする音声認識方法。
  3. 【請求項3】 標準モデルを構成する構成要素を前記要
    素の重要度に応じて複数の階層に分離するステップは、 前記標準モデルを作成する際に使用した学習用音声デー
    タを前記標準モデルの個々の要素を用いて音声認識して
    前記学習用音声データに関する認識率を求めるステップ
    と、 前記認識率に対する影響度が大きい順に要素を階層化す
    るステップとを含むものであることを特徴とする請求項
    2記載の音声認識方法。
  4. 【請求項4】 入力音声からフレーム毎に求めた特徴量
    の時系列を抽出する入力音声分析手段と、 あらかじめ用意した不特定多数話者の複数の学習用音声
    データを用いて認識対象語彙毎のフレーム毎に求めた特
    徴量の時系列を抽出する学習音声分析手段と、 前記認識対象語彙毎の複数の特徴量の時系列を用いて前
    記認識対象語彙毎の標準的な特徴量の時系列である標準
    モデルを作成するモデル作成手段と、 前記標準モデルを構成する構成要素である特徴量のうち
    一部分の特徴のみを使用して、前記入力音声の特徴量の
    時系列との類似度を計算する類似度算出手段と、 前記類似度を用いて入力音声がどの語彙に最も似ていた
    かを判定する最終判定手段と、を具備することを特徴と
    する音声認識装置。
  5. 【請求項5】 前記入力音声分析手段及び学習音声分析
    手段は、特徴量として音声分析により得られるケプスト
    ラム係数を用いるものであり、 前記疑似度算出手段は、入力音声の特徴量の時系列と標
    準モデルの特徴量との間の類似度を計算するときに使用
    する一部分の特徴量として、前記音声分析により得られ
    るケプストラム係数の低次の係数のみを用いることを特
    徴とする請求項4記載の音声認識装置。
  6. 【請求項6】 入力音声のフレーム毎に求めた特徴量の
    時系列を抽出する入力音声分析手段と、 あらかじめ用意した不特定多数話者の複数の学習用音声
    データを用いて認識対象語彙毎のフレーム毎に求めた特
    徴量の時系列を抽出する学習音声分析手段と、 前記認識対象語彙毎の複数の特徴量の時系列から前記認
    識対象語彙毎の標準モデルとして隠れマルコフモデルを
    作成するモデル学習手段と、 前記隠れマルコフモデルを構成する構成要素のうち一部
    分の要素のみを用いて、前記入力音声の特徴量の時系列
    と前記隠れマルコフモデルとの間の類似度を計算する類
    似度算出手段と、 前記類似度を用いて入力音声がどの語彙に最も似ていた
    かを判定する最終判定手段と、を具備することを特徴と
    する音声認識装置。
  7. 【請求項7】 前記モデル学習手段は、認識対象語彙毎
    の隠れマルコフモデルとして連続分布型隠れマルコフモ
    デルを用い、 前記類似度算出手段は、隠れマルコフモデルを構成する
    構成要素である遷移確率及び平均ベクトル及び共分散行
    列及び分岐確率のうちの4つ未満の要素を用いて前記入
    力音声の特徴量の時系列との間の類似度を計算するもの
    であることを特徴とする請求項6記載の音声認識装置。
  8. 【請求項8】 前記類似度算出手段は、認識対象語彙毎
    の連続分布型隠れマルコフモデルを構成する要素である
    共分散行列の代わりに分散を用いることを特徴とする請
    求項7記載の音声認識装置。
  9. 【請求項9】 前記類似度算出手段は、認識対象語彙毎
    の連続分布型隠れマルコフモデルを構成する構成要素で
    ある遷移確率及び平均ベクトル及び共分散行列及び分岐
    確率のうち、前記平均ベクトル及び前記共分散行列のみ
    を用いるものであり、 入力音声の特徴量との間のフレーム毎の類似度としてマ
    ハラノビス距離を用いることを特徴とする請求項7記載
    の音声認識装置。
  10. 【請求項10】 前記類似度算出手段は、認識対象語彙
    毎の連続分布型隠れマルコフモデルを構成する構成要素
    である遷移確率及び平均ベクトル及び共分散行列及び分
    岐確率のうち、前記平均ベクトル及び前記共分散行列及
    び前記分岐確率のみを用いるものであり、 入力音声の特徴量と前記隠れマルコフモデルとの間のフ
    レーム毎の類似度として、前記分岐毎に求めたマハラノ
    ビス距離を前記分岐確率で重み付けし分岐数分総和した
    距離を用いることを特徴とする請求項7記載の音声認識
    装置。
  11. 【請求項11】 前記類似度算出手段は、認識対象語彙
    毎の連続分布型隠れマルコフモデルを構成する構成要素
    である遷移確率及び平均ベクトル及び共分散行列及び分
    岐確率のうち、前記平均ベクトルと前記共分散行列を全
    ての前記認識対象語彙に関して共通にして求めた共分散
    行列を用いるものであり、 入力音声の特徴量と前記隠れマルコフモデルとの間のフ
    レーム毎の類似度として、簡易マハラノビス距離を用い
    ることを特徴とする請求項7記載の音声認識装置。
  12. 【請求項12】 前記類似度算出手段は、認識対象語彙
    毎の連続分布型隠れマルコフモデルを構成する構成要素
    である遷移確率及び平均ベクトル及び共分散行列及び分
    岐確率のうち、前記平均ベクトル及び前記共分散行列の
    対角成分である分散のみを用いるものであり、 入力音声の特徴量と前記平均ベクトルとの差分を求め、
    前記差分に分散の逆数を掛け、√2で割り、更に2乗し
    た値を前記特徴量の各次数毎に求めて総和したものを前
    記入力音声の特徴量と前記隠れマルコフモデルとの間の
    フレーム毎の類似度とすることを特徴とする請求項7記
    載の音声認識装置。
  13. 【請求項13】 前記類似度算出手段は、認識対象語彙
    毎の連続分布型隠れマルコフモデルを構成する構成要素
    である遷移確率及び平均ベクトル及び共分散行列及び分
    岐確率のうち、前記平均ベクトル及び前記共分散行列の
    対角成分である分散及び前記分岐確率のみを用いるもの
    であり、 入力音声の特徴量と前記平均ベクトルとの差分を求め、
    前記差分に分散の逆数を掛け、√2で割り、更に2乗し
    た値を前記特徴量の各次数毎に求めて総和したものを前
    記分岐確率で重み付けして分岐数分足し合わせた値を前
    記入力音声の特徴量と前記隠れマルコフモデルとの間の
    フレーム毎の類似度とすることを特徴とする請求項7記
    載の音声認識装置。
  14. 【請求項14】 前記類似度算出手段は、認識対象語彙
    毎の連続分布型隠れマルコフモデルを構成する主要な構
    成要素である遷移確率及び平均ベクトル及び共分散行列
    及び分岐確率のうち前記平均ベクトルのみを用いるもの
    であり、 入力音声の特徴量と前記平均ベクトルとの差分を求め、
    前記特徴量の差分の次数毎の値に前記次数の値を掛け、
    更に2乗したものを前記次数分総和した値を前記入力音
    声の特徴量と前記隠れマルコフモデルとの間のフレーム
    毎の類似度とすることを特徴とする請求項7記載の音声
    認識装置。
  15. 【請求項15】 前記入力音声分析手段及び学習音声分
    析手段は、フレーム毎に抽出する特徴量としてLPCケ
    プルトラムと正規化自己相関係数を用いるものであり、 前記類似度算出手段は、入力音声の特徴量と前記標準モ
    デルを構成する平均ベクトルの間のフレーム毎の類似度
    として重み付け群遅延スペクトル距離を用いることを特
    徴とする請求項4記載の音声認識装置。
JP30795796A 1996-11-19 1996-11-19 音声認識方法及び音声認識装置 Pending JPH10149190A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP30795796A JPH10149190A (ja) 1996-11-19 1996-11-19 音声認識方法及び音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP30795796A JPH10149190A (ja) 1996-11-19 1996-11-19 音声認識方法及び音声認識装置

Publications (1)

Publication Number Publication Date
JPH10149190A true JPH10149190A (ja) 1998-06-02

Family

ID=17975214

Family Applications (1)

Application Number Title Priority Date Filing Date
JP30795796A Pending JPH10149190A (ja) 1996-11-19 1996-11-19 音声認識方法及び音声認識装置

Country Status (1)

Country Link
JP (1) JPH10149190A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250576A (ja) * 1999-02-23 2000-09-14 Motorola Inc 音声認識システムにおいて特徴を抽出する方法
JP2010230868A (ja) * 2009-03-26 2010-10-14 Toshiba Corp パターン認識装置、パターン認識方法、及び、プログラム
JP2016142625A (ja) * 2015-02-02 2016-08-08 西日本高速道路エンジニアリング四国株式会社 異常音の検出方法及びその検出値を用いた構造物の異常判定方法、並びに、振動波の類似度検出方法及びその検出値を用いた音声認識方法

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000250576A (ja) * 1999-02-23 2000-09-14 Motorola Inc 音声認識システムにおいて特徴を抽出する方法
JP2010230868A (ja) * 2009-03-26 2010-10-14 Toshiba Corp パターン認識装置、パターン認識方法、及び、プログラム
US9147133B2 (en) 2009-03-26 2015-09-29 Kabushiki Kaisha Toshiba Pattern recognition device, pattern recognition method and computer program product
JP2016142625A (ja) * 2015-02-02 2016-08-08 西日本高速道路エンジニアリング四国株式会社 異常音の検出方法及びその検出値を用いた構造物の異常判定方法、並びに、振動波の類似度検出方法及びその検出値を用いた音声認識方法

Similar Documents

Publication Publication Date Title
JP4141495B2 (ja) 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置
KR101120716B1 (ko) 음성 특성에 기초한 전화 호출자들의 자동 식별
EP0788090B1 (en) Transcription of speech data with segments from acoustically dissimilar environments
EP1199708B1 (en) Noise robust pattern recognition
Dua et al. GFCC based discriminatively trained noise robust continuous ASR system for Hindi language
US20050273325A1 (en) Removing noise from feature vectors
WO2002101719A1 (en) Voice recognition apparatus and voice recognition method
WO2001022400A1 (en) Iterative speech recognition from multiple feature vectors
Akbacak et al. Environmental sniffing: noise knowledge estimation for robust speech systems
US7617104B2 (en) Method of speech recognition using hidden trajectory Hidden Markov Models
JPH07110695A (ja) 音声符号化装置および方法
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
US20030036905A1 (en) Information detection apparatus and method, and information search apparatus and method
JP4696418B2 (ja) 情報検出装置及び方法
Ilyas et al. Speaker verification using vector quantization and hidden Markov model
JP2012053218A (ja) 音響処理装置および音響処理プログラム
KR101041035B1 (ko) 고속 화자 인식 방법 및 장치, 고속 화자 인식을 위한 등록방법 및 장치
JPH10254473A (ja) 音声変換方法及び音声変換装置
JPH10149190A (ja) 音声認識方法及び音声認識装置
Unnibhavi et al. A survey of speech recognition on south Indian Languages
Lingam Speaker based language independent isolated speech recognition system
KR20210081166A (ko) 다국어 음성 환경에서의 언어 식별 장치 및 방법
JP4236502B2 (ja) 音声認識装置
Nahar et al. Effect of data augmentation on dnn-based vad for automatic speech recognition in noisy environment
Kuah et al. A neural network-based text independent voice recognition system