JPH10307596A

JPH10307596A - 音声認識装置

Info

Publication number: JPH10307596A
Application number: JP9117831A
Authority: JP
Inventors: Takeo Oono; 剛男大野; Hiroyasu Kuwano; 裕康桑野; Masakatsu Hoshimi; 昌克星見
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1997-05-08
Filing date: 1997-05-08
Publication date: 1998-11-17

Abstract

(57)【要約】【課題】入力音声と標準パタンとの間の伝送系のスペ
クトル歪みに関する環境条件を素早く適合させ、応答性
を損なうことなく高い認識性能を得ることを目的とす
る。【解決手段】入力音声は特徴ベクトル時系列に変換す
る音響分析部１０１と、標準パタン格納部１０３に格納
された標準パタン特徴ベクトル時系列とを予備マッチン
グする予備マッチング部１０２と、平均ベクトル算出部
１０５で算出された平均入力音声特徴ベクトルと、予備
マッチングの結果得られた認識候補に基づき、平均標準
パタン特徴ベクトル格納部１０４からの認識候補に対応
した平均標準パタン特徴ベクトルとから、平均入力音声
特徴ベクトルと平均標準パタン特徴ベクトルの差に基づ
き、入力音声特徴ベクトル時系列を補正する補正部１０
６と、マッチング部１０７にて再度マッチングを行い最
終的な認識結果として出力する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、適応化機能を有す
る音声認識装置に関する。

【０００２】

【従来の技術】音声認識装置は、標準パタン音声の発声
環境と異なる環境において使用した場合、その認識性能
が低下することが知られている。こうした環境のうち、
認識性能を著しく低下させる要因の一つとして、音声入
力に用いるマイクロフォンの周波数特性、音声信号が伝
達される電話回線、音声認識装置内の伝達系の回線歪
み、および認識装置が置かれた周囲の壁面による音響的
反射などスペクトル上で乗法的に作用するスペクトル歪
みがある。

【０００３】標準パタン音声の発声環境と音声認識装置
が使用される環境とが異なる場合の対処方法としては、
音声認識装置が使用される環境が既知の場合には、音声
認識装置が使用される環境と同一の回線特性を標準パタ
ン作成用音声に付加し、標準パタンを作成する方法がと
られる。また、音声認識装置が使用される環境が未知、
あるいは環境が時間変化し特定できない場合には、認識
時の入力音声を用いて、認識装置の置かれた環境と標準
パタン音声が発声された環境の違いを学習し、入力音声
あるいは標準パタンを適応する方法がとられる。

【０００４】従来、認識時の入力音声を用いて、認識装
置の使用環境と標準パタン音声が発声された環境の違い
を学習し、入力音声あるいは標準パタンを適応すること
で、スペクトル歪みによる認識性能の低下を防ぐ手法と
しては、特開平０７−０１９１６８９号公報が知られて
いる。こうした認識時の入力音声を用いてスペクトル歪
みに対処する従来法の一例の構成を、図３に示す。

【０００５】従来法において入力音声は、音響分析部３
０１において特徴ベクトルの時系列、入力音声特徴ベク
トル時系列に変換され、予備マッチング部３０２に送ら
れる。標準パタン格納部３０３に格納された標準パタン
特徴ベクトル時系列と入力音声特徴ベクトル時系列とを
予備マッチング部３０２にて、例えばＤＰマッチング、
ＨＭＭ（Hidden Markov Model）などの時間軸を正規化
して類似度を計算する手法を用いてマッチングし、入力
音声が標準パタン中のどのパタンに類似しているか示す
１つあるいは複数の候補からなる認識候補結果と入力音
声特徴ベクトル時系列と標準パタン特徴ベクトル時系列
の時間軸対応付け結果を得る。

【０００６】平均ベクトル算出部３０５において、予備
マッチング部３０２における時間軸対応付け結果から入
力音声特徴ベクトル時系列を時間平均し、平均入力音声
特徴ベクトルを算出する。さらに、平均ベクトル算出部
３０５において、予備マッチング部３０２における認識
候補結果から入力音声に類似した標準パタンの標準パタ
ン特徴ベクトル時系列を時間平均することにより、平均
標準パタン特徴ベクトルを算出する。補正部３０６にお
いて、平均入力音声特徴ベクトルと平均標準パタン特徴
ベクトルの差を用いて、入力音声特徴ベクトル時系列を
補正し、マッチング部３０７において再度マッチングを
行うことにより最終的な認識結果を得るものである。

【０００７】

【発明が解決しようとする課題】しかしながら、平均ベ
クトル算出部において、入力音声特徴ベクトル時系列、
ならびに標準パタン特徴ベクトル時系列を時間平均する
ことにより、平均入力音声ベクトルと平均標準パタンベ
クトルを算出し、これら平均ベクトルの差から発声環境
の違いを補正する従来の方法では、標準パタン特徴ベク
トル時系列に関する時間平均を行う必要があり、予備マ
ッチング部において選び出される認識候補数が多くなる
と標準パタン特徴ベクトル時系列の時間平均計算に時間
がかかってしまうという問題点があった。

【０００８】また、音声認識装置が認識対象の言語単位
の特徴ベクトル時系列そのものを標準パタンとして記憶
するのではなく、認識対象言語単位よりも小さな言語単
位であるサブワードパタンを記憶し、このサブワードパ
タンの接続によって標準パタンを構成する場合、サブワ
ードパタンの接続により一度認識対象言語単位の標準パ
タンを作成した後に平均標準パタン特徴ベクトルを求
め、改めて時間平均を行う必要がある。この場合、認識
対象言語単位の標準パタンを構成するサブワードパタン
数が多くなると、平均標準パタン特徴ベクトルを計算す
るための時間がかかってしまうという問題点があった。

【０００９】本発明は、上述の問題を解決するものであ
り、予備マッチング部において選択される認識候補数が
多い場合にも、あるいは標準パタン格納部に認識対象言
語単位よりも小さな言語単位であるサブワードパタンが
格納されている場合においても、少ない計算量でスペク
トル歪みに関する環境の補正を可能とし、応答性を損な
うことのない高性能な音声認識装置を提供することを目
的とする。

【００１０】

【課題を解決するための手段】この課題を解決するため
の本発明は、第１に、入力音声の特徴ベクトルの時系列
である入力音声特徴ベクトル時系列を算出する音響分析
部と、標準パタン特徴ベクトル時系列を格納する標準パ
タン格納部と、標準パタンを構成する特徴ベクトルを、
各カテゴリーごとにあらかじめ時間平均することによっ
て得られる平均標準パタン特徴ベクトルを格納する平均
標準パタン特徴ベクトル格納部と、入力音声特徴ベクト
ル時系列と前記標準パタン特徴ベクトル時系列との時間
軸対応付けを行い、１つあるいは複数の認識候補と、時
間軸対応付け結果を出力する予備マッチング部と、前記
時間軸対応付け結果をもとに、入力音声特徴ベクトル時
系列を時間平均して平均入力音声特徴ベクトルを算出す
る平均ベクトル算出部と、前記予備マッチング部からの
認識候補結果にもとづき、前記平均入力音声特徴ベクト
ルと平均標準パタン特徴ベクトルの差を用いて入力音声
特徴ベクトル時系列に対して補正を行う補正部と、補正
部において補正された入力音声特徴ベクトル時系列と標
準パタン特徴ベクトル時系列との間で再度マッチングを
行い最終的な認識結果を出力するマッチング部とで構成
したものである。

【００１１】本発明による第２は、入力音声の特徴ベク
トルの時系列である入力音声特徴ベクトル時系列を算出
する音響分析部と、サブワードパタン特徴ベクトル時系
列を格納するサブワードパタン格納部と、サブワードパ
タンを構成するサブワードパタン特徴ベクトル時系列を
各カテゴリーごとにあらかじめ時間累積することによっ
て得られる累積サブワードパタン特徴ベクトルと、各サ
ブワードの時間長であるサブワード時間長を格納する累
積サブワードパタン情報格納部と、入力音声特徴ベクト
ル時系列と、前記サブワードパタン特徴ベクトル時系列
の接続によって構成される標準パタン特徴ベクトル時系
列との時間軸対応付けを行い、１つあるいは複数の認識
候補と、時間軸対応付け結果を出力する予備マッチング
部と、前記時間軸対応付け結果をもとに入力音声特徴ベ
クトル時系列を時間平均して平均入力特徴ベクトルを算
出する平均ベクトル算出部と、前記予備マッチング部か
らの認識候補結果にもとづき前記平均入力音声特徴ベク
トルと、累積サブワードパタン特徴ベクトルとサブワー
ド時間長から算出された平均標準パタンベクトルとの差
を用いて、入力音声特徴ベクトル時系列に対して補正を
行う補正部と、補正部において補正された入力音声特徴
ベクトル時系列と標準パタン特徴ベクトル時系列との間
で再度マッチングを行い最終的な認識結果を出力するマ
ッチング部とで構成したものである。

【００１２】

【発明の実施の形態】本発明の請求項１に記載の発明
は、認識時の入力音声を用いて、認識装置の置かれた環
境と、標準パタン音声が発声された環境の違いを適応す
る音声認識装置において、予備マッチング部において選
択される認識候補数が多い場合にも、平均標準パタン特
徴ベクトルをあらかじめ算出しておくことにより少ない
計算量でスペクトル歪みに関する環境の補正を可能にす
るという作用を有する。

【００１３】本発明の請求項２に記載の発明は、認識時
の入力音声を用いて、認識装置の置かれた環境と、標準
パタン音声が発声された環境の違いを適応する音声認識
装置において、標準パタンが認識対象言語単位よりも小
さな言語単位であるサブワードパタンの接続によって構
成される場合、累積サブワードパタン特徴ベクトルとサ
ブワードパタン時間長をあらかじめ算出しておくことに
より少ない計算量でスペクトル歪みに関する環境の補正
を可能にするという作用を有する。

【００１４】以下、図面を参照しながら本発明の実施例
について具体的に説明する。（実施の形態１）図１は、本発明の実施の形態１におけ
る音声認識装置のブロック図である。図１において、１
０１は入力音声の特徴ベクトルの時系列である入力音声
特徴ベクトル時系列を算出する音響分析部、１０２は入
力音声特徴ベクトル時系列と標準パタン特徴ベクトル時
系列との時間軸対応付けを行い、１つあるいは複数の認
識候補と時間軸対応付け結果を出力する予備マッチング
部、１０３は標準パタン特徴ベクトル時系列を格納する
標準パタン格納部、１０４は標準パタン特徴ベクトル時
系列を各カテゴリーごとにあらかじめ時間平均すること
によって得られる平均標準パタン特徴ベクトルを格納す
る平均標準パタン特徴ベクトル格納部、１０５は時間軸
対応付け結果をもとに、入力音声特徴ベクトル時系列を
時間平均して平均入力特徴ベクトルを算出する平均ベク
トル算出部、１０６は予備マッチング部からの認識候補
結果にもとづき、平均入力特徴ベクトルと平均標準パタ
ン特徴ベクトルとの差を用いて、入力音声特徴ベクトル
時系列に対して補正を行う補正部、１０７は補正部１０
６において補正された入力音声特徴ベクトル時系列と標
準パタン特徴ベクトル時系列との間で再度マッチングを
行い最終的な認識結果を出力するマッチング部である。

【００１５】以下に本発明の実施の形態１における音声
認識装置の動作について説明する。音響分析部１０１
は、スペクトル歪みを受けた入力音声を入力音声特徴ベ
クトル時系列（数１）に変換する。（tは離散的な時
刻）

【００１６】

【数１】

【００１７】ここで、認識対象としては、例えば単語な
どが考えられる。また、特徴ベクトルとしては、例えば
中川著「確立モデルによる音声認識」、電子情報通信学
会（１９８８年発行）にあげられている、ＬＰＣケプス
トラム係数、ＬＰＣメルケプストラム係数などが利用可
能である。

【００１８】予備マッチング部１０２は、音響分析部１
０１で得られた入力音声特徴ベクトル時系列（数１）を
標準パタン格納部１０３に格納されているj番目の標準
パタン特徴ベクトル時系列（数２）との間で時間軸正規
化マッチングを行い、その類似度を計算する。予備マッ
チング部１０２では、例えばＤＰマッチング、ＨＭＭ
（Hidden Markov Model）などの時間軸を正規化して類
似度を計算する手法を用いてマッチングする。このマッ
チング操作を標準パタン格納部の全ての標準パタンに対
して行うことにより、入力音声が標準パタン中いずれに
類似したかを示す１つあるいは複数の候補からなる認識
候補結果と入力音声の中の音声区間つまり音声の始終端
を特定する時間軸対応付け結果が得られる。

【００１９】

【数２】

【００２０】平均ベクトル算出部１０５は、音響分析部
１０１で得られた入力音声特徴ベクトル時系列（数１）
を予備マッチング部１０２において特定された音声区間
情報とともにその時間平均ベクトル、平均入力音声特徴
ベクトル（数３）が（数４）により

【００２１】

【数３】

【００２２】

【数４】

【００２３】

【数５】

【００２４】計算される。ここで、（数５）は音声の始
端時間を表し、Ｎは入力音声の音声区間の長さを表す。

【００２５】補正部１０６は、予備マッチング部１０２
で得られた認識候補結果にもとづき、平均標準パタンベ
クトル格納部１０４の認識候補に対応した平均標準パタ
ン特徴ベクトルと平均ベクトル算出部１０５からの平均
入力音声特徴ベクトル（数３）の差を用いて

【００２６】

【数６】

【００２７】

【数７】

【００２８】と補正値（数７）を計算する。ここでΩ
は、予備マッチング部で選択された認識候補のうち、補
正値算出に用いる標準パタンの集合で、（数８）はこの
集合に含まれる標準パタンの個数である。

【００２９】

【数８】

【００３０】さらに、この補正値（数７）を用いて

【００３１】

【数９】

【００３２】により、補正後の入力音声特徴ベクトル時
系列（数１０）が計算される。

【００３３】

【数１０】

【００３４】マッチング部１０７は、補正部１０６から
の補正後の入力音声特徴ベクトル時系列と標準パタン特
徴ベクトル時系列との間で再度マッチングを行い、その
類似度を計算する。このマッチングの結果、最も類似度
が高いと選択された候補が最終的な認識結果として出力
される。

【００３５】（実施の形態２）図２は、本発明の実施の
形態２の音声認識装置のブロック図である。図２におい
て、２０１は入力音声の特徴ベクトルの時系列である入
力音声特徴ベクトル時系列を算出する音響分析部、２０
２は入力音声特徴ベクトル時系列とサブワードパタン特
徴ベクトル時系列の接続によって構成される標準パタン
特徴ベクトル時系列との時間軸対応付けを行い、１つあ
るいは複数の認識候補と時間軸対応付け結果を出力する
予備マッチング部、２０３はサブワードパタン特徴ベク
トル時系列を格納するサブワードパタン格納部、２０４
サブワードパタンを構成するサブワードパタン特徴ベク
トル時系列を各カテゴリーごとに時間累積することによ
って得られる累積サブワードパタン特徴ベクトルと、各
サブワードの時間長であるサブワード時間長を格納する
累積サブワードパタン情報格納部、２０５は時間軸対応
付け結果をもとに、前記入力音声特徴ベクトル時系列を
時間平均して平均入力音声特徴ベクトルを算出する平均
ベクトル算出部、２０６は平均入力音声特徴ベクトルと
累積サブワードパタン特徴ベクトルとサブワード時間長
から算出される平均標準パタン特徴ベクトルとの差を用
いて、入力音声特徴ベクトル時系列に対して補正を行う
補正部、２０７は補正部２０６において補正された入力
音声特徴ベクトル時系列と標準パタン特徴ベクトル時系
列との間で再度マッチングを行い最終的な認識結果を出
力するマッチング部、２０８は単語辞書情報を格納する
単語辞書格納部である。

【００３６】以下に本発明の実施の形態２における音声
認識装置の動作について説明する。音響分析部２０１
は、スペクトル歪みを受けた入力音声を入力音声特徴ベ
クトル時系列（数１）に変換する。（tは離散的な時
刻）ここで、認識対象としては、例えば単語などが考えられ
る。特徴ベクトルとしては、ＬＰＣケプストラム係数、
ＬＰＣメルケプストラム係数などが考えられる。

【００３７】サブワードパタン格納部２０３には、標準
パタン特徴ベクトル時系列の構成に必要な、より言語的
に小さな言語単位であるサブワードの標準的的なパター
ンであるサブワードパターンが格納されている。ここ
で、単語を構成するサブワードパタンとしては、例え
ば、音素/a/、/i/、/u/、/e/、/o/、/k/などに対応した特徴
ベクトル時系列の標準パタンが考えられる。単語辞書格
納部２０８には、各単語がいずれのサブワードから構成
されるかを示す単語辞書情報が格納されている。例え
ば、認識対象単語”あさひ”に対応する標準パタン特徴
ベクトル時系列を構成するためには、/a//s//a//h///i/
に対応するサブワードパタンを接続すればよいという情
報が記憶されている。

【００３８】予備マッチング部２０２は、単語辞書格納
部２０８に格納される単語辞書情報に基づきサブワード
パタン格納部２０３に格納されるサブワードを接続し、
ｊ番目の標準パタン特徴ベクトル時系列（数２）を構成
し、標準パターン特徴ベクトル時系列と音響分析部２０
１からの入力音声特徴ベクトル時系列（数１）との間で
時間軸正規化マッチングを行い、その類似度を計算す
る。このマッチング操作を単語辞書に対応した全ての標
準パタンに対して行うことにより、入力音声が標準パタ
ン中いずれに類似したかを示す認識候補結果と、入力音
声の中の音声区間つまり音声の始終端を特定する時間軸
対応付け結果が得られる。

【００３９】平均ベクトル算出部２０５は、音響分析部
２０１で得られた入力音声特徴ベクトル時系列（数１）
を予備マッチング部２０２において特定された音声区間
情報とともにその時間平均ベクトル、平均入力音声特徴
ベクトル（数３）が（数４）により計算される。ここ
で、（数５）は音声の始端時間を表し、Ｎは入力音声の
音声区間の長さを表す。

【００４０】補正部２０６には、単語辞書格納部２０８
に格納されている単語辞書情報と予備マッチング部２０
２で得られた認識候補結果にもとづき累積サブワードパ
タン情報格納部２０４から認識候補を構成するサブワー
ドに対応した累積サブワードパタン特徴ベクトルとサブ
ワード時間長が入力され、認識候補に対応した平均標準
パタン特徴ベクトルが、

【００４１】

【数１１】

【００４２】で計算される。ここで、

【００４３】

【数１２】

【００４４】は、ｊ番目の標準パタンを構成するサブワ
ードパタンの集合で、

【００４５】

【数１３】

【００４６】はｉ番目のサブワードのサブワードパタン
特徴ベクトル時系列を時間累積した累積サブワードパタ
ン特徴ベクトル、

【００４７】

【数１４】

【００４８】はｉ番目のサブワードのサブワード時間長
である。さらに、補正部２０６においては、平均入力音
声特徴ベクトルと平均標準パタン特徴ベクトルから（数
６）と補正値（数７）を計算する。ここでΩは、予備マ
ッチング部２０２で選択された認識候補のうち、補正値
算出に用いる標準パタンの集合で、（数８）はこの集合
に含まれる標準パタンの個数である。この補正値（数
７）を用いて、（数９）により、補正後の入力音声特徴
ベクトル時系列（数１０）が計算される。

【００４９】マッチング部２０７は、補正部２０６から
の補正後の入力音声特徴ベクトル時系列と標準パタン特
徴ベクトル時系列との間で再度マッチングを行い、その
類似度を計算する。このマッチングの結果、最も類似度
が高いと選択された候補が、最終的な認識結果として出
力される。

【００５０】なお、本実施の形態においては、認識対象
言語単位を単語、サブワードを音素としたが、サブワー
ドを複数の音素にまたがった音声片とすることもでき
る。

【００５１】また、認識対象を連続発声文章とし、サブ
ワードを単語とすることもでき、本発明は、さまざまな
認識対象の言語単位、ならびに、認識対象を構成すさま
ざま々なサブワード単位に対し利用可能である。

【００５２】

【発明の効果】本発明によれば、認識時の入力音声を用
いて、認識装置の置かれた環境と、標準パタン音声が発
声された環境の違いを適応する音声認識装置において、
予備マッチング部において選択される認識候補数が多い
場合にも、あるいは、標準パタンが認識対象言語単位よ
りも小さな言語単位であるサブワードパタンの接続によ
って構成される場合においても、平均標準パタン特徴ベ
クトル、あるいは、累積サブワードパタン特徴ベクトル
とサブワードパタン時間長を、あらかじめ算出しておく
ことにより、少ない計算量でスペクトル歪みに関する環
境の補正を可能とし、高性能な音声認識装置を提供でき
るという効果を得ることができる。

【図面の簡単な説明】

【図１】本発明の実施の形態１の音声認識装置のブロッ
ク図

【図２】本発明の実施の形態２の音声認識装置のブロッ
ク図

【図３】従来技術の音声認識装置のブロック図

【符号の説明】

１０１、２０１、３０１音響分析部１０２、２０２、３０２予備マッチング部１０３、２０３、３０３標準パタン格納部１０４平均標準パタン特徴ベクトル格納部２０４累積サブワードパタン情報格納部１０５、２０５、３０５平均ベクトル算出部１０６、２０６、３０６補正部１０７、２０７、３０７マッチング部２０８単語辞書格納部

Claims

【特許請求の範囲】

【請求項１】入力音声の特徴ベクトルの時系列である
入力音声特徴ベクトル時系列を算出する音響分析部と、
標準パタン特徴ベクトル時系列を格納する標準パタン格
納部と、前記標準パタン特徴ベクトル時系列を各カテゴ
リーごとにあらかじめ時間平均することによって得られ
る平均標準パタン特徴ベクトルを格納する平均標準パタ
ン特徴ベクトル格納部と、前記入力音声特徴ベクトル時
系列と前記標準パタン特徴ベクトル時系列との時間軸対
応付けを行い、１つあるいは複数の認識候補と時間軸対
応付け結果を出力する予備マッチング部と、前記時間軸
対応付け結果をもとに、前記入力音声特徴ベクトル時系
列を時間平均して平均入力特徴ベクトルを算出する平均
ベクトル算出部と、前記予備マッチング部からの認識候
補結果にもとづき、前記平均入力特徴ベクトルと平均標
準パタン特徴ベクトルとの差を用いて、入力音声特徴ベ
クトル時系列に対して補正を行う補正部と、前記補正部
において補正された入力音声特徴ベクトル時系列と前記
標準パタン特徴ベクトル時系列との間で再度マッチング
を行い最終的な認識結果を出力するマッチング部とを備
えた音声認識装置。
【請求項２】入力音声の特徴ベクトルの時系列であ
る、入力音声特徴ベクトル時系列を算出する音響分析部
と、サブワードパタン特徴ベクトル時系列を格納するサ
ブワードパタン格納部と、前記サブワードパタンを構成
するサブワードパタン特徴ベクトル時系列を各カテゴリ
ーごとに時間累積することによって得られる累積サブワ
ードパタン特徴ベクトルと、各サブワードの時間長であ
るサブワード時間長を格納する累積サブワードパタン情
報格納部と、前記入力音声特徴ベクトル時系列と前記サ
ブワードパタン特徴ベクトル時系列の接続によって構成
される標準パタン特徴ベクトル時系列との時間軸対応付
けを行い、１つあるいは複数の認識候補と時間軸対応付
け結果を出力する予備マッチング部と、前記時間軸対応
付け結果をもとに、前記入力音声特徴ベクトル時系列を
時間平均して平均入力音声特徴ベクトルを算出する平均
ベクトル算出部と、前記予備マッチング部からの認識候
補結果にもとづき、前記平均入力音声特徴ベクトルと前
記累積サブワードパタン特徴ベクトルとサブワード時間
長から算出される平均標準パタン特徴ベクトルとの差を
用いて、前記入力音声特徴ベクトル時系列に対して補正
を行う補正部と、前記補正部において補正された入力音
声特徴ベクトル時系列と標準パタン特徴ベクトル時系列
との間で再度マッチングを行い最終的な認識結果を出力
するマッチング部とを備えた音声認識装置。
【請求項３】特徴ベクトルとして、ＬＰＣケプストラ
ム係数あるいはＬＰＣメルケプストラム係数であること
を特徴とする請求項１または請求項２に記載の音声認識
装置。
【請求項４】サブワードとして音素であることを特徴
とする請求項２に記載の音声認識装置。