JP2001255886A

JP2001255886A - 音声認識方法および音声認識装置

Info

Publication number: JP2001255886A
Application number: JP2000064919A
Authority: JP
Inventors: Satoru Suzuki; 哲鈴木; Takeo Oono; 剛男大野; Tatsuya Kimura; 達也木村
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2000-03-09
Filing date: 2000-03-09
Publication date: 2001-09-21
Anticipated expiration: 2020-03-09
Also published as: JP4461557B2

Abstract

(57)【要約】【課題】利用者に対して一定内容の発声を促す必要性
が無い、オンライン「教師なし」で話者の個人性特徴に
すばやく正規化できる話者正規化処理を用いる音声認識
装置を提供する。【解決手段】Ａ／Ｄ変換を行ってデジタル化された音
声を入力信号として、ＬＰＣケプストラム係数等の特徴
量を抽出し（Ｓ１０）、発声者の声道長の個人性に起因
する影響を正規化するために、ＬＰＣケプストラム等の
特徴量に周波数軸の変換を施し（Ｓ３０）、周波数軸変
換を施された入力音声の特徴量と予め複数話者から学習
した音響モデル特徴量とのマッチングを行なう（Ｓ５
０）。その後、Ｓ５０において算出された認識結果をも
とに入力発声を教師信号として最適な変換係数を求め
（Ｓ６０）、話者や音韻によるばらつきを吸収するため
変換係数平滑化を行い、新たな周波数軸変換係数を更新
する（Ｓ７０）。

Description

【発明の詳細な説明】

【０００１】

【産業上の利用分野】本発明は、不特定話者の音声を音
声認識させる分野等に利用される音声認識方法および音
声認識装置に関する。

【０００２】

【従来の技術】人の音声の音響的特徴は、主に音を発声
させる喉つまり音源と、その音が反響しながら伝播する
声道およびその形状とで構成される発声器官によって決
定される。つまり話者の音響的特徴の違いは、これら話
者の発声器官の特徴が主に起因して生じていると考える
事ができる。

【０００３】そのため、特に不特定話者を対象とした音
声認識装置において、音響モデルで表現される話者集団
の発声器官の特徴と比較して特異な特徴を持つ話者の認
識率が低下することがあると指摘されていた。

【０００４】そこで、この発声器官の特徴つまり個人性
を要因とした認識率の低下を防ぎ、かつ高い認識率を保
持することを目的として、話者適応化手法あるいは話者
正規化手法が提案されてきた。

【０００５】従来提案されてきた話者適応化、話者正規
化手法としては、音響モデルパラメータを既知の音響モ
デルパラメータを用いて再評価することにより音響モデ
ル自身を話者にあわせて更新あるいは選択する話者適応
方法と、個々の話者の特徴空間を変換して音響モデル学
習話者から表現される特徴空間にマッピングする話者正
規化方法との２つに大別できる。

【０００６】前者は、たとえば電子通信情報学会SP92―
16(1992年)に紹介されたベクトル場平滑化法のように、
適応化音声の量が増すに従い、話者適応システム性能は
話者依存での学習時の性能に近づくという特徴を持つた
め格段の認識性能の向上が期待できるものの、適応の効
果が現れるのに十分な学習音声量を獲得するまでに時間
を要するという欠点がある。

【０００７】後者は、たとえば論文「Frequency Warpin
gによる話者の正規化、松本、脇田、日本音響学会音声
研究会資料Ｓ79‐25,1979-7」においては、周波数正規
化スペクトルによって声道長正規化に効果があると主張
しており、さらに、論文「ＬＰＣ距離尺度における周波
数正規化に関する検討、小林、松本、日本音響学会講演
論文集1-1-5、昭和58年10月」においては、ＬＰＣスペ
クトルの周波数軸を伸縮する方法として一次の全域通過
フィルターを用いた方法を提案している。

【０００８】この後者の方法は、変換係数の変更により
話者の個人性を正規化できるという特徴を持つことか
ら、オンラインの話者適応化・正規化方法としては前者
に比べて、必要とする音声量がより少ない点で実用上有
効であると考えられる。さらに、話者正規化手法とし
て、特開平６−２１４５９６号公報において、声帯音源
特性に関する音声スペクトル傾斜の変動と、声道特性
（例えば声道長）に関する音声スペクトルの周波数軸方
向の伸縮という個人性を同時に正規化する方法が提案さ
れている。

【０００９】以下、この従来例の音声認識装置について
図９を用いて説明する。

【００１０】図９の音声認識装置は、入力された音声信
号の周波数特性を補正する周波数特性補正部１０と、入
力音声信号のケプストラム係数を入力音声特徴量として
抽出する特徴量抽出部２０と、入力音声信号に対し周波
数軸の変換を施す周波数軸変換部３０と、入力された音
声信号の区間を検出する音声区間検出部４０と、標準音
声信号の特徴量が標準音声特徴量として予め記憶されて
いる標準音声記憶部５０と、入力音声信号に対し周波数
特性補正部１０、特徴量抽出部２０、周波数軸変換部３
０により得られた入力音声特徴量と標準音声記憶部５０
に記憶されている標準音声特徴量との照合（マッチン
グ）を行なうマッチング部６０とから構成されている。

【００１１】ところで、この音声認識装置では、不特定
話者の音声をも良好に認識させることを目的として、実
際の音声認識処理とその音声認識処理の開始に先立って
話者適応学習処理がなされる。この２種類の処理を１つ
の装置で行なわせるため、図９の装置には、この装置の
動作、機能を話者適応フェーズと音声認識フェーズとの
いずれかに切換えるためのフェーズ選択部９０がさらに
設けられている。

【００１２】また、これと関連させて、標準音声記憶部
５０には、話者適応処理用の標準音声特徴量と音声認識
用の標準音声特徴量とが記憶されている。また、周波数
特性補正部１０には、話者適応学習用に、互いに異なる
複数の周波数特性補正係数が予め用意され、また、周波
数軸変換部３０には、話者適応学習用に、互いに異なる
複数の周波数軸変換係数が用意されている。

【００１３】次に、話者適応フェーズについて説明す
る。話者適応フェーズにおいては、未知話者に既知の発
声内容を発声させるようになっており、周波数特性補正
部１０、周波数軸変換部３０では、この音声信号に対し
て、各々、複数の周波数特性補正係数、複数の周波数軸
変換係数を順次に変えて処理を行ない、マッチング部６
０は、それぞれの場合について、周波数特性補正部１
０、特徴量抽出部２０、周波数軸変換部３０により得ら
れた入力音声特徴量を標準音声記憶部５０に記憶されて
いる話者適応処理用の標準音声特徴量とマッチングし
て、各入力音声特徴量と標準音声特徴量との尤度を求
め、そのうち最大尤度を与える周波数特性補正係数と周
波数軸変換係数とを選択し決定するようになっている。

【００１４】次に、音声認識フェーズについて説明す
る。音声認識フェーズにおいては、未知話者（実際に
は、話者適応フェーズで入力を行なった話者）の未知の
発声内容の音声信号に対して、周波数特性補正部１０、
周波数軸変換部３０では、上記話者適応フェーズにおい
て選択、決定された周波数特性補正係数と周波数軸変換
係数とに基づいて処理を行ない、マッチング部６０は、
このようにして周波数特性補正部１０、特徴量抽出部２
０、周波数軸変換部３０により得られた入力音声特徴量
を標準音声記憶部５０に記憶されている音声認識用の標
準音声特徴量とマッチングして、最大尤度を与える標準
音声特徴量に対応した語を認識結果候補として出力する
ようになっている。

【００１５】

【発明が解決しようとする課題】この方法は、上記のよ
うに話者に発声内容を指定して発声を行わせることによ
り話者の個人性特徴を正規化させる最適な変換係数を推
定する話者適応フェーズと、話者適応フェーズにおいて
推定された変換係数を用いて未知内容の発声を認識する
音声認識フェーズからなり、２つのフェーズを切り替え
て使用するように構成されている。

【００１６】しかしながら、「教師あり条件」での話者
正規化手法であるこの従来法は、事前に未知話者に対し
発声語彙を指定し学習データとして収録する必要がある
ため利用者への負担増を招いている。そこで、この負担
を取り除くために、話者に事前に発声を要求しない「教
師なし」条件で、かつ即効性のある方法での話者正規化
方法の確立が必要である。

【００１７】本発明では、発声者の発声器官の特徴つま
り個人性を正規化することにより、ここでは声道長差に
起因する影響を除去するために周波数軸変換を用いた
「教師なし」条件での話者正規化を行う手法を述べる。
具体的には、未知話者による内容未知の発声を用いて、
周波数軸変換係数の精度よい推定方法を確立すること
で、教師なし条件の話者正規化方法を実現するものであ
る。以下手法を実現するために生じる課題について述べ
る。

【００１８】従来法などでは、声道長の違いは音声スペ
クトルが伸縮する形で現れることに着目して、入力音声
スペクトルの周波数軸を変換し、音響モデルなどの標準
となる音声スペクトルとの差を吸収する周波数軸変換を
用いた話者正規化は効果があることを提示している。こ
のとき、周波数軸変換の際に与える周波数軸変換係数
が、声道長の違いに相当するともいえる。これを声道長
正規化と呼ぶ。

【００１９】一方、音声は、声道の形を変えることによ
って音韻の特徴を作り出されているため、同一話者であ
っても、発声される音韻によって声道長は異なってお
り、声道長推定値も一定の範囲で変化することが知られ
ている「音声認識における個人差の学習法について、古
井、日本音響学会音声研究会資料Ｓ７５−２５、1975-1
1」。つまり、発声される音韻によって、異なる話者で
はもちろんのこと同一話者内でも変動するものと考えら
れる。

【００２０】したがって、声道長差に起因する音声スペ
クトルへの影響を除去するために、入力音声の周波数軸
変換を行うにあたり、最適な周波数軸変換係数も、音韻
によって変動していると考えられる。

【００２１】そのため、最適な周波数軸変換係数を推定
し次回の発声に利用できるように「教師なし」条件での
話者正規化を考えた場合、今回発声された音韻と次回発
声される未知の音韻の違いによって、今回推定された最
適な周波数軸変換係数が必ずしも次回の発声には最適と
はいえず、このことが未知の発声内容に対応して正規化
を行うことを難しくする要因となっている。したがっ
て、個人性の特徴の一つである声道長正規化を行うにあ
たって、未知話者による発声内容が未知の入力音声を教
師信号として用いてオンライン「教師なし」話者正規
化を行うためには、周波数軸変換係数の推定精度をより
高める推定方法の確立が必要となる。

【００２２】また、この従来法では、音声スペクトルに
対して周波数軸を伸縮することによって、声道特性に関
する個人性正規化を行うにあたって、この際入力音声区
間全体に一律の変換係数を用いている。そのため、声道
特徴に無関係な無声音の区間に対しても周波数軸変換を
行うと、特徴量としての性質を失う原因になりかねず、
認識結果に悪影響を及ぼすことも考えられる。そこで、
入力音声区間全体に一律の変換係数を用いるのではな
く、有声音区間に限って周波数軸変換を行うことによ
り、精度よく周波数軸変換係数の推定を行うことができ
ると考えられる。

【００２３】本発明の目的は、上記の問題点を解決し、
利用者に対して予め発声を要求せず、発声ごとに話者
の音声から個人性を精度よく推定することにより、未知
話者による発声内容が未知の入力音声にすばやく話者正
規化できる話者正規化方法を備えた音声認識装置を提供
することである。

【００２４】

【発明が解決するための手段】本発明による音声認識方
法および音声認識装置は、声道長差に起因するスペクト
ルの伸縮の影響を除去するため、入力音声のスペクトル
に対して周波数軸変換を行なうことによる話者正規化方
式を用いる。未知話者による発声内容が未知の入力音声
を教師信号として、最尤推定により最適な周波数軸変換
係数を決定した上で、音韻の違いによる周波数軸変換係
数のばらつきを吸収するために、過去の周波数軸最適変
換係数との平滑化を行うものである。さらに推定した周
波数軸変換係数と過去の周波数軸最適変換係数とを比較
することによって、話者が交代した場合とみなして平滑
化を行うこともできる。

【００２５】同一話者内での声道長の変動には限界があ
るため、未知話者による発声内容が未知の入力音声を教
師信号として推定された周波数軸変換係数は、ばらつき
はあっても一定の範囲内に収束することが期待できる。
しかしこのとき、次のような問題が考えられる。（１）
周波数軸変換係数を変化させた場合に、高い尤度をかせ
ぐ周波数軸変換係数の範囲と、マッチング処理によって
出力される認識結果候補が発声内容と合致するつまり認
識正解する周波数軸変換係数の範囲とは必ずしも一致し
ない。（２）発声内容によって高い尤度をかせぐ周波数
軸変換係数の範囲の分布が異なる。（３）マッチング処
理によって出力される認識結果候補が発声内容と異なっ
ている場合つまり誤認識した場合には、誤った内容に対
して推定を行うことになってしまうため、マッチング処
理によって出力される認識結果候補が発声内容として正
しい場合つまり認識正解した場合に比べて、推定される
周波数軸変換係数が異なる値になることがありうる。

【００２６】そこで、過去の発声より求めた周波数軸変
換係数との平均して平滑化することにより、推定された
周波数軸変換係数のばらつきを吸収して、現在の話者へ
の最適周波数軸変換係数が求められるものと考える。

【００２７】さらに、話者が交代した場合には、前回の
発声から推定した最適周波数軸変換係数と今回の発声か
ら推定した最適周波数軸変換係数との差が大きくなるこ
とが考えられる。このことを利用して話者が交代した場
合には、平滑化処理を初期化するなどのこれに対処を行
うことが可能である。

【００２８】また、最適な周波数軸変換係数推定時に
は、音声区間検出手段から出力された無声音／有声音区
間情報に同期して、周波数軸変換を行う。このため周波
数軸変換係数推定にとって有効な音声区間あるいは音韻
にのみ周波数軸変換を行うことから、精度よく周波数軸
変換係数を推定できる。

【００２９】以上より、発声内容によらず、事前の発声
を必要としないオンライン「教師なし」話者正規化方法
を実現することが可能な高性能な音声認識装置を提供す
ることができる。

【００３０】

【発明の実施の形態】本発明の請求項１に記載の発明
は、入力音声の特徴量を抽出する特徴量抽出ステップ
と、前記入力音声の特徴量の周波数軸を少なくとも１つ
の周波数軸変換係数から構成される周波数軸変換係数列
を用いて変換する周波数軸変換ステップと、前記周波数
軸変換を施した入力音声の特徴量と予め複数の話者から
学習した音響モデル特徴量とをマッチングし、認識結果
候補を出力するマッチングステップと、前記認識結果候
補のうち少なくとも１つから表現される音素系列に対し
て少なくとも１つの周波数軸変換係数から構成される最
適な周波数軸変換係数列を推定する最適変換係数推定ス
テップと、前記求められた最適な周波数軸変換係数列と
保持された過去に求められた周波数軸変換係数列とを平
滑化し、新たな周波数軸変換係数列を更新・保持する変
換係数平滑化ステップとを有するもので、発声者の音声
特徴量から周波数軸上に現れる個人性を吸収することに
より、認識率の向上させる作用を有する。

【００３１】請求項２に記載の発明は、変換係数平滑化
ステップは、少なくとも１つの周波数軸変換係数から構
成される最新の周波数軸変換係数列と、保持された過去
に求められた少なくとも１つの周波数軸変換係数から構
成される周波数軸変換係数列とを比較することによって
話者の交代を検知することを特徴とするもので、話者交
代を検出した際には交代前話者の推定周波数変換係数の
影響を受けないように周波数軸変換係数を初期化するな
どによって、交代後話者への最適な周波数軸変換係数を
新たに求め、話者間の周波数軸変換係数の差異による、
認識率の低下を防ぐ作用を有する。

【００３２】請求項３に記載の発明は、入力音声の特徴
量を抽出する特徴量抽出ステップと、前記入力音声から
無声音／有声音区間を弁別検出する音声区間検出ステッ
プと、前記入力音声の特徴量の周波数軸を前記無声音／
有声音区間情報に応じて周波数軸変換係数列を用いて変
換する周波数軸変換ステップと、前記周波数軸変換を施
した入力音声の特徴量と予め複数の話者から学習した音
響モデル特徴量とをマッチングし、認識結果候補を出力
するマッチングステップと、前記認識結果候補のうち少
なくとも１つから表現される音素系列に対して少なくと
も１つの周波数軸変換係数から構成される最適な周波数
軸変換係数列を推定する最適変換係数推定ステップと、
前記求められた最適な周波数軸変換係数列と保持された
過去に求められた周波数軸変換係数列とを平滑化し、新
たな周波数軸変換係数列を更新・保持する変換係数平滑
化ステップとを有することを特徴とするもので、発声内
容によって変動する推定変換係数のばらつきを抑えるこ
とにより、周波数軸変換を用いた話者正規化のより高い
効果を与える作用を有する。

【００３３】請求項４に記載の発明は、最適変換係数推
定ステップは、前記認識結果候補を求めた際に使用した
少なくとも１つの周波数軸変換係数から構成される周波
数軸変換係数列を基に複数の周波数軸変換係数列候補を
設定し、それぞれの周波数軸変換係数毎に、前記マッチ
ングステップの認識結果候補のうち少なくとも１つから
表現される音素系列に対して、周波数軸変換を施して得
られた入力音声特徴量と予め複数の話者から学習した音
響モデル特徴量とマッチングにより尤度を求め、求めた
尤度のうちで最大尤度を与える少なくとも１つの周波数
軸変換係数から構成される周波数軸変換係数列を選択す
ることを特徴とするもので、事前に発声を行い話者の個
人性を学習する適応フェイズなどを設ずに、認識時の発
声そのものから学習を行う「教師なし」話者正規化を実
現する作用を有する。

【００３４】請求項５に記載の発明は、変換係数平滑化
ステップは、未知話者に最適な周波数軸変換係数を平滑
化する際に、保持された過去に求められた周波数軸変換
係数の平均値と最新の周波数軸変換係数との距離を求
め、所定の距離を満たす場合にのみ最新の係数として採
用し、新たな周波数軸変換係数として出力することを特
徴とするもので、発声内容によって変動する推定変換係
数のばらつきを抑えることにより、周波数軸変換を用い
た話者正規化のより高い効果を与える作用を有する。

【００３５】請求項６に記載の発明は、変換係数平滑化
ステップは、未知話者に最適な周波数軸変換係数を平滑
化する際に、保持された過去に求められた周波数軸変換
係数の平均値と最新の周波数軸変換係数との距離を求
め、所定の距離を満たさない場合には、過去の周波数軸
変換係数を任意の初期値を与えることによって初期化を
行うことを特徴とするもので、発声内容によって変動す
る推定変換係数のばらつきを抑えることにより、周波数
軸変換を用いた話者正規化のより高い効果を与える作用
を有する。

【００３６】請求項７に記載の発明は、入力音声の特徴
量を抽出する特徴量抽出手段と、前記入力音声の特徴量
の周波数軸を周波数軸変換係数列を用いて変換する周波
数軸変換手段と、前記周波数軸変換を施した入力音声の
特徴量と予め複数の話者から学習した音響モデル特徴量
とをマッチングし、認識結果候補を出力するマッチング
手段と、前記認識結果候補のうち少なくとも１つから表
現される音素系列に対して、少なくとも１つの周波数軸
変換係数から構成される最適な周波数軸変換係数列を推
定する最適変換係数推定手段と、前記求められた最適な
周波数軸変換係数列と保持された過去に求められた周波
数軸変換係数列とを平滑化し、新たな周波数軸変換係数
列を更新・保持する変換係数平滑化手段とを有すること
を特徴とするもので、話者の音声特徴量から周波数軸上
に現れる個人性を吸収する話者正規化によって、認識率
の向上させる作用を有する。

【００３７】請求項８に記載の発明は、変換係数平滑化
手段は、少なくとも１つの周波数軸変換係数から構成さ
れる最新の周波数軸変換係数列と、保持された過去に求
められた少なくとも１つの周波数軸変換係数から構成さ
れる周波数軸変換係数列とを比較することによって話者
の交代を検知することを特徴とするもので、話者交代を
検出した際には交代前話者の推定周波数変換係数の影響
を受けないように周波数軸変換係数を初期化するなどに
よって、交代後話者への最適な周波数軸変換係数を新た
に求め、話者間の周波数軸変換係数の差異による、認識
率の低下を防ぐ作用を有する。

【００３８】請求項９に記載の発明は、入力音声の特徴
量を抽出する特徴量抽出手段と、前記入力音声から無声
音／有声音区間を弁別検出する音声区間検出手段と、前
記入力音声の特徴量の周波数軸を前記無声音／有声音区
間情報に応じて周波数軸変換係数列を用いて変換する周
波数軸変換手段と、前記周波数軸変換を施した入力音声
の特徴量と予め複数の話者から学習した音響モデル特徴
量とをマッチングし、認識結果候補を出力するマッチン
グ手段と、前記認識結果候補のうち少なくとも１つから
表現される音素系列に対して、少なくとも１つの周波数
軸変換係数から構成される最適な周波数軸変換係数列を
推定する最適変換係数推定手段と、前記求められた最適
な周波数軸変換係数列と保持された過去に求められた周
波数軸変換係数列とを平滑化し、新たな周波数軸変換係
数列を更新・保持する変換係数平滑化手段とを有するこ
とを特徴とするもので、発声内容によって変動する推定
変換係数のばらつきを抑えることにより、周波数軸変換
を用いた話者正規化のより高い効果を与える作用を有す
る。

【００３９】以下、本発明の実施の形態について図を用
いて説明する。

【００４０】（実施の形態１）図１は、本発明の実施の
形態１における音声認識装置のブロック図である。図１
において、１は入力音声に対してＡ／Ｄ変換処理などを
行う音声取り込み手段、２は音声の音響的特徴をモデル
化した音響モデル、３は単語系列における単語間の関係
をモデル化した言語モデル、４はデータやプログラム装
置に入力する入力手段、５はデータやプログラムを記録
するメモリ、６はプログラムにしたがってデータを処理
したり装置全体を制御するＣＰＵ、７は認識結果候補を
出力する出力手段である。

【００４１】図２は、本発明の音声認識装置の処理手順
を示すフローチャートであり、この図を用いて音声認識
装置の処理手順を説明する。

【００４２】入力音声の特徴量抽出が行われるＳ１０で
は、マイクロフォン等から取りこまれた音声にＡ／Ｄ変
換を行ってデジタル化された音声を入力信号として、一
定フレーム周期毎にＬＰＣメルケプストラム係数を出力
する。具体的には、文献「音声認識、今井著、共立出
版、１９９５年１１月２５日」などに示されているこの
方法を利用して、プリエンファシス：１−ｚ^-1、窓周
期：２０ｍｓ、フレーム周期：１０ｍｓ、ＬＰＣ分析次
数：１０次、ケプストラム分析次数：１０次としてＬＰ
Ｃメルケプストラム係数を出力する。入力音声はここで
は、8kHzサンプリングされるものとする。

【００４３】音声区間検出処理が行われるＳ２０では、
無声音／有声音区間などの検出を行なう。たとえば、入
力音声信号のフレームパワーを求め、入力開始数フレー
ムでの平均値を求めておき、その平均値に比べ、フレー
ムパワーが2倍になったフレーム区間を有声音区間とす
る方法などを用いることにより、有声音区間とすること
もできる。あるいは、入力音声に1500Hz-3400Hz通過高
域フィルタを掛けて、同様にして高域音声入力が有った
ことを示す高域区間を求めておき、これを利用すること
により、有声音区間、無声音区間の判定を大まかな判定
をすることができる。

【００４４】周波数軸変換処理が行われるＳ３０では、
声道長の個人差に起因するスペクトルを伸縮することに
よって声道長正規化を行う周波数軸変換を施す。具体的
には、入力音声のスペクトルを表現しているＬＰＣメル
ケプストラム係数に対して、例えば（数１）で表わされ
る１次の全域透過フィルタＨ(ｚ）を作用させて、周波
数軸の変換を行なう。この周波数軸変換の手法は、論文
「LPC距離尺度における周波数正規化に関する検討、小
林松本熊田、1983、日本音響学会音声研究会資料S83-
47,1983 Dec. 22」に示されているものである。

【００４５】

【数１】

【００４６】また、実際に（数1）を用いて周波数軸を
変換によって、スペクトル伸縮による周波数軸変換後の
ＬＰＣメルケプストラム係数の算出方法としては、たと
えば、論文「Discrete representation of signals, Op
penheim and Johnson, Proc.IEEE,60,pp681-691,June19
72」で示されている手法を用いる。

【００４７】なお、本実施例では、ＬＰＣメルケプスト
ラムの次数を例えば１０次としたメル周波数変換の処理
も同時に行なう。メル尺度を最も良く近似する周波数軸
変換係数αの値は、サンプリング周波数８ｋHzの場合、
α_b=０．３１５付近とされており、この値をαの値を基
準として α=α_b＋0.05、α=α_b-0.05などと指定してス
ペクトルを伸縮させる。ここで指定する周波数軸変換係
数の値は、変換係数平滑化処理が行われるＳ７０から算
出された値を用いる。

【００４８】このとき、周波数軸変換係数の推定にとっ
て有効な区間あるいは音韻のみ周波数軸変換を行うこと
によって、精度よく変換係数を推定させるため、音声区
間検出処理から出力された無声音／有声音区間情報に同
期して周波数軸変換を行う。たとえば、音声区間検出処
理の行われるＳ２０より得た有声音区間のフレームにの
み、周波数軸変換を実施する。

【００４９】マッチング処理が行われるＳ５０では、Ｓ
３０において周波数軸変換された入力音声特徴量と予め
複数の話者から学習した音響モデル特徴量とを、言語モ
デルとして表現される単語辞書等を用いてマッチングを
行い、少なくとも１つの認識結果候補を出力する。な
お、このマッチングは、例えば、端点フリーＤＰ（ダイ
ナミック・プログラミング）マッチング法によりなされ
る。

【００５０】最適変換係数推定処理が行われるＳ６０で
は、マッチングにより出力される認識結果候補のうち少
なくとも１つから表現される音素系列に対して、複数の
周波数軸変換係数候補を設けて、それぞれの周波数軸変
換係数毎に、周波数軸変換された入力音声の特徴量と予
め複数の話者から学習した音響モデル特徴量とのマッチ
ングを行い尤度を求めて、最尤推定により最大尤度を与
える周波数軸変換係数を最適な周波数軸変換係数α_nと
して決定し、平滑バッファに登録する。

【００５１】この時、最適変換係数推定処理が行われる
Ｓ６０で推定される最適な周波数軸変換係数は発声内容
によってばらつきが生じたり、不正解の音素系列に対し
て推定を行った場合には、必ずしも最適でない場合もあ
りうることが問題となる。

【００５２】そこで、変換係数平滑化処理が行われるＳ
７０では、推定した最適な周波数軸変換係数のばらつき
を吸収するために、最適変換係数推定処理Ｓ６０で求め
られた周波数軸変換係数α_nと過去の周波数軸変換係数
を記憶した平滑化バッファより読み出された、たとえば
過去10回の周波数軸変換係数の平均により平滑化された
周波数軸変換係数を算出し、新たな周波数軸変換係数α
₀として更新・記憶する。

【００５３】次に、最適変換係数推定処理について、図
３（ａ）（ｂ）を用いて詳細に説明する。図３（ａ）で
示されるように、変換係数候補の値として、認識結果候
補を求めた際用いた周波数軸変換係数α₀に対して、α₀
-0.05、α₀、α₀+0.05の3点を設定し（Ｓ１０１）、そ
れぞれ周波数軸変換を施した入力音声特徴量と認識結果
候補第一位r(1)の単語の音素系列で表現される音響モデ
ル特徴量系列とから尤度を求める（Ｓ１０２）。たとえ
ば、周波数軸変換係数候補を、x0=α₀ -0.05、x1=α₀、
x2=α₀ +0.05 を設定し、それぞれ得られる尤度をy0,
y1, y2とする。

【００５４】

【数２】

【００５５】周波数変換係数およびその尤度からなる3
点を用いて二次曲線に近似すると、その二次近似曲線が
ピークをとる周波数変換係数αxは、次のようにあらわ
される（Ｓ１０３）。

【００５６】

【数３】

【００５７】さらに、前記3点同様に周波数軸変換係数
αxに対する尤度を求め（Ｓ１０４）、4点の中から最大
尤度を与える周波数軸変換係数α_nを採用する（Ｓ１０
５）ものである。

【００５８】次に、尤度距離の計算処理を図３（ｂ）の
処理フローチャートを用いて説明する。

【００５９】変換係数候補の値として設定された周波数
軸変換係数に対して、入力音声の特徴量に周波数軸変換
を施す（Ｓ１０６）。前記の周波数軸変換を施した入力
音声の特徴量と、認識結果候補第１位r(1)の単語の音素
系列から表現される音響モデル特徴量の系列とから尤度
を求める（Ｓ１０７）。

【００６０】なお、これまで最適変換係数推定の説明に
おいて、認識結果候補のうち第一位の候補r(１)のみを
用いたが、これを認識結果候補r(ｎ)をｎ位まで利用し
て、最大尤度を与える周波数軸変換係数を採用すること
もできる。

【００６１】また、上記の特徴量を周波数軸変換する際
に、音声区間検出処理が行われるＳ２０で算出される無
声音／有声音などの音声区間情報に同期して、複数の周
波数軸変換係数を用いることもできる。たとえば、無声
音の区間にのみ周波数軸変換を適応したり、逆に有声音
の区間にのみ周波数軸変換を適応したり、音声パワーの
同じ区間ごとに異なる周波数軸変換係数を用いることも
できる。

【００６２】なお、変換係数平滑化処理において、最適
変換係数推定処理Ｓ６０で算出された周波数軸変換係数
を平滑化バッファに登録する際に、発声される音韻によ
る声道長の変動に伴う最適な周波数軸変換係数のばらつ
きを吸収するため、さらには推定精度の低下を防ぐた
め、今回の発声に対して推定された最適な周波数軸変換
係数を評価し、平滑バッファに登録するか否かを判断す
る。その詳細について、図４を用いて説明する。

【００６３】前記の認識結果候補を求めた際用いた周波
数軸変換係数α₀つまり前回までの発声に対して推定さ
れた最適な周波数軸変換係数α₀と、今回の発声に対し
て推定された最適な周波数軸変換係数α_nを比較するに
あたって、たとえば、 |α₀ -α_n|< 0.100 という評価
関数（Ｓ１１０、Ｓ１１１）を用いて、この条件を満す
場合にのみ今回の発声に対して推定された周波数軸変換
係数α_nを採用・登録し、平滑化バッファ内の周波数軸
変換係数を平均化し、周波数軸変換係数α₀を更新する
（Ｓ１１２）。この周波数軸変換係数α₀は、次回の発
声に対して、図2のＳ３０などでの周波数軸変換に用い
られることになる。

【００６４】このように評価関数を用いることにより、
推定された周波数軸変換係数のばらつきを抑える事がで
きることから、平滑化された周波数軸変換係数を精度よ
く求めることができるため、周波数軸変換を用いた話者
正規化による効果をより高めることが可能となる。

【００６５】（実施の形態２）上記実施の形態１の音声
認識装置は、一人の話者が発声していることを前提とし
ているため、現在の発声話者に対して最適な周波数軸変
換係数が推定され、この変換係数を用いて次回の発声に
対して話者正規化が実施される。一方、家庭など複数の
話者が交代で利用することが想定される場でこの音声認
識装置を用いると、交代前話者に対して推定された周波
数軸変換係数を用いて、交代後の話者に対して話者正規
化が行われることになる。この時、交代直後に推定され
る周波数変換係数は交代後の話者にとって必ずしも最
適な値とは限らず、認識率を低下させる原因にもなり兼
ねない。

【００６６】そこで、本発明の実施の形態２では、この
ように複数の話者が交代するような状況においては、話
者交代を検出することによって、交代前話者の推定周波
数変換係数の影響を受けずに、交代後話者に対して最適
な周波数軸変換係数を求めることを可能とするものであ
る。

【００６７】本実施の形態の音声認識装置における話者
交代を検知する実施形態について、図６のフローチャー
トを用いて説明する。本実施形態は、実施の形態１の図
２で説明した実施例に加えて、話者交代を検知する手段
を有することを特徴としているもので、実施の形態１と
説明の重複を省くために異なる部分のみを説明する。

【００６８】図２同様、Ｓ６０にて今回の発声に対して
推定された最適な周波数軸変換係数に対して、過去所定
回数の発声に対して推定された最適な周波数軸変換係数
から算出される現話者に対して推定された最適な周波数
軸変換係数とを比較して、今回の周波数軸変換係数を評
価することにより話者の交代を検知し、話者交代を検知
した場合には、前回までの発声に対して推定された最適
な周波数軸変換係数保持している平滑化バッファを初期
化し、新しい話者の周波数軸変換係数の登録を行う（Ｓ
８０）。最後の処理として、図２同様に、現話者に対し
て推定された最適な周波数軸変換係数を算出する（Ｓ７
０）。

【００６９】ここで、Ｓ８０における話者交代検出話者
の処理の詳細について、図５を用いて説明する。話者の
交代の検出は、前回の発声に対して推定された周波数軸
変換係数α_n-1 と今回の発声に対して推定された周波
数軸変換係数α_nを比較して行い、たとえば |α_n - α
_n-1|< 0.150という評価関数（Ｓ１２０、Ｓ１２１）を
用いる。この条件を満たさない場合には、話者の交代を
検出したとみなし、平滑化バッファの初期化を行うこと
により（Ｓ１２２）、新しい話者に対する現話者に対し
て推定された最適な周波数軸変換係数α_nを出力する。

【００７０】このようにして、話者が交代しても認識率
を低下させず、しかも従来法のように指定された単語の
発声を促すこともなく、話者正規化を進めることが可能
となる。

【００７１】（実施の形態３）次に、本発明の実施の形
態３の音声認識装置について説明する。

【００７２】実施の形態１または実施の形態２では、一
段階のマッチング法を用いたが、実施の形態３では2段
階の認識方式について説明する。

【００７３】本発明の実施の形態３における音声認識装
置の動作フローチャートを図７に示すが、実施の形態１
または実施の形態２と異なる部分についてのみ説明する
ものとする。

【００７４】1段目の予備マッチングを行い(Ｓ５０)、
出力される認識結果候補のうち少なくとも１つから表現
される音素系列に対して最適な周波数軸変換係数を推定
した後(Ｓ６０)、話者交代を考慮して(Ｓ８０)、現話者
に対して推定された最適な周波数軸変換係数を算出する
(Ｓ７０)。さらにＳ７０にて求めた最適な周波数軸変
換係数を用いて周波数軸変換を施した（Ｓ３１）特徴量
を用いて、2段目の精密マッチング(Ｓ５１)を行う実施
形態も可能である。

【００７５】（実施例）以上、本実施例の構成を用い
て、１００単語を発声した男女５０名の音声データの認
識実験を行った。まず、オンライン「教師なし」話者正
規化を実現するために、変換係数平滑化の効果を調べる
実験を行った。この実験においては、あらかじめ話者正
規化を行わない条件で男女５０名について認識率を算出
して、その結果認識性能の悪い１０話者を対象とした。

【００７６】図８に示す実験結果より、話者正規化学習
は、評価発声データを７単語以上ではその効果がほぼ飽
和していることから、評価発声データ１０単語を単位と
すれば、オンライン「教師なし」話者正規化には十分効
果があることが分かる。

【００７７】次に、音声区間情報に同期して周波数軸変
換を行う効果について男女５０名について調べる実験を
行った。なお、変換係数平滑化のためのオンライン学習
データ数は１０とした。その結果（表１）に示すよう
に、話者正規化を行う前は９３．７６％であったのに対
し、音声区間情報を用いずに話者正規化を一律に行った
場合、９４．７８％、本実施例に基づく有声音区間のみ
に話者正規化を行った場合は、９５．４４％に認識率が
改善され、誤り率もそれぞれ約16.0％、約26.9％、改善
された。

【００７８】

【表１】

【００７９】また、50名の中で認識率の悪い10名につい
ても効果が認められ、最低話者についても77％から、83
％、87％と大幅に改善された。このことから、音声区間
情報に同期して周波数軸変換を行なうことによる効果が
認められる。

【００８０】なお、本実施例においては、単語マッチン
グ方法として端点フリーのＤＰマッチング法を用いた
が、ＨＭＭ（隠れマルコフモデル）での実施も可能であ
る。

【００８１】なお、本実施例においては、単語マッチン
グ時の距離尺度として共分散行列を共通化したマハラノ
ビス距離を用いたが、共分散行列を共通化しないマハラ
ノビス距離や、ＨＭＭから構成される音素モデルからを
用いて計算することもできる。

【００８２】また、本実施例においては、認識対象を単
語としたが、これを連続発声認識する際に利用すること
も可能である。

【００８３】なお、本実施例においては、音響的特徴を
表現する特徴量としてＬＰＣメルケプストラム係数を用
いたが、ＬＰＣケプストラム係数、メルケプストラム係
数、ケプストラム係数での実施も可能である。

【００８４】なお、本実施例においては、入力される音
声は、8kHzでサンプリングされたデータを用いたが、他
のサンプリング周波数についても実施可能である．な
お、本実施例においては、マッチングの際に音声区間情
報は用いなかったが、音声区間情報を用いて、音声の始
端を制限したマッチングなどを行うこともできる．

【００８５】

【発明の効果】本発明によれば、声道長差に起因するス
ペクトルの伸縮の影響を除去するため、入力音声のスペ
クトルに対して周波数軸変換を行なうにあたり、過去所
定回数の発声から推定した変換係数の平均値を用いて、
推定された周波数軸変換係数のばらつきの影響を抑える
ことにより、オンライン「教師なし」条件で話者正規化
を実現し、高性能な音声認識装置を提供できるという効
果を得る。さらに、有声音／無声音などの音声区間情報
を利用して、声道特性に無関係な区間に対しては周波数
軸変換を行わず有声音区間にのみ周波数軸変換を行う
ことにより、周波数軸変換係数の推定をより精度のよく
行なうことができるため認識率の向上を図ることが可能
である。

【図面の簡単な説明】

【図１】本発明の実施の形態における音声認識装置のブ
ロック図

【図２】本発明の実施の形態１における音声認識装置の
処理フローチャート

【図３】（ａ）最適変換係数推定処理のフローチャート（ｂ）尤度計算処理フローチャート

【図４】変換係数平滑化処理のフローチャート

【図５】話者交代検出処理のフローチャート

【図６】本発明の実施の形態２における音声認識装置の
話者交代検出処理のフローチャート

【図７】本発明の実施の形態３における音声認識装置の
２段階認識処理のフローチャート

【図８】変換係数学習データバッファの大きさと認識率
を示す図

【図９】従来例の音声認識装置の処理フローチャート

【符号の説明】

１音声取り込み手段２音響モデル３言語モデル４入力手段５メモリ６ＣＰＵ７出力手段

───────────────────────────────────────────────────── フロントページの続き (51)Int.Cl.⁷ 識別記号ＦＩテーマコート゛(参考） // Ｇ１０Ｌ 101:16 (72)発明者木村達也神奈川県川崎市多摩区東三田３丁目10番１号松下技研株式会社内Ｆターム(参考） 5D015 AA02 BB02 FF07 9A001 BB06 EE05 GG01 HH16 HH17

Claims

【特許請求の範囲】

【請求項１】入力音声の特徴量を抽出する特徴量抽出
ステップと、前記入力音声の特徴量の周波数軸を少なく
とも１つの周波数軸変換係数から構成される周波数軸変
換係数列を用いて変換する周波数軸変換ステップと、前
記周波数軸変換を施した入力音声の特徴量と予め複数の
話者から学習した音響モデル特徴量とをマッチングし、
認識結果候補を出力するマッチングステップと、前記認
識結果候補のうち少なくとも１つから表現される音素系
列に対して少なくとも１つの周波数軸変換係数から構成
される最適な周波数軸変換係数列を推定する最適変換係
数推定ステップと、前記求められた最適な周波数軸変換
係数列と保持された過去に求められた周波数軸変換係数
列とを平滑化し、新たな周波数軸変換係数列を更新・保
持する変換係数平滑化ステップとを有することを特徴と
する音声認識方法。
【請求項２】変換係数平滑化ステップは、少なくとも
１つの周波数軸変換係数から構成される最新の周波数軸
変換係数列と、保持された過去に求められた少なくとも
１つの周波数軸変換係数から構成される周波数軸変換係
数列とを比較することによって話者の交代を検知するこ
とを特徴とする請求項１記載の音声認識方法。
【請求項３】入力音声の特徴量を抽出する特徴量抽出
ステップと、前記入力音声から無声音／有声音区間を弁
別検出する音声区間検出ステップと、前記入力音声の特
徴量の周波数軸を前記無声音／有声音区間情報に応じて
周波数軸変換係数列を用いて変換する周波数軸変換ステ
ップと、前記周波数軸変換を施した入力音声の特徴量と
予め複数の話者から学習した音響モデル特徴量とをマッ
チングし、認識結果候補を出力するマッチングステップ
と、前記認識結果候補のうち少なくとも１つから表現さ
れる音素系列に対して少なくとも１つの周波数軸変換係
数から構成される最適な周波数軸変換係数列を推定する
最適変換係数推定ステップと、前記求められた最適な周
波数軸変換係数列と保持された過去に求められた周波数
軸変換係数列とを平滑化し、新たな周波数軸変換係数列
を更新・保持する変換係数平滑化ステップとを有するこ
とを特徴とする音声認識方法。
【請求項４】最適変換係数推定ステップは、前記認識
結果候補を求めた際に使用した少なくとも１つの周波数
軸変換係数から構成される周波数軸変換係数列を基に複
数の周波数軸変換係数列候補を設定し、それぞれの周波
数軸変換係数毎に、前記マッチングステップの認識結果
候補のうち少なくとも１つから表現される音素系列に対
して、周波数軸変換を施して得られた入力音声特徴量と
予め複数の話者から学習した音響モデル特徴量とマッチ
ングにより尤度を求め、求めた尤度のうちで最大尤度を
与える少なくとも１つの周波数軸変換係数から構成され
る周波数軸変換係数列を選択することを特徴とする請求
項１から３のいずれかに記載の音声認識方法。
【請求項５】変換係数平滑化ステップは、未知話者に
最適な周波数軸変換係数を平滑化する際に、保持された
過去に求められた周波数軸変換係数の平均値と最新の周
波数軸変換係数との距離を求め、所定の距離を満たす場
合にのみ最新の係数として採用し、新たな周波数軸変換
係数として出力することを特徴とする請求項１から４の
いずれかに記載の音声認識方法。
【請求項６】変換係数平滑化ステップは、未知話者に
最適な周波数軸変換係数を平滑化する際に、保持された
過去に求められた周波数軸変換係数の平均値と最新の周
波数軸変換係数との距離を求め、所定の距離を満たさな
い場合には、過去の周波数軸変換係数を任意の初期値を
与えることによって初期化を行うことを特徴とする請求
項２記載の音声認識方法。
【請求項７】入力音声の特徴量を抽出する特徴量抽出
手段と、前記入力音声の特徴量の周波数軸を周波数軸変
換係数列を用いて変換する周波数軸変換手段と、前記周
波数軸変換を施した入力音声の特徴量と予め複数の話者
から学習した音響モデル特徴量とをマッチングし、認識
結果候補を出力するマッチング手段と、前記認識結果候
補のうち少なくとも１つから表現される音素系列に対し
て少なくとも１つの周波数軸変換係数から構成される最
適な周波数軸変換係数列を推定する最適変換係数推定手
段と、前記求められた最適な周波数軸変換係数列と保持
された過去に求められた周波数軸変換係数列とを平滑化
し、新たな周波数軸変換係数列を更新・保持する変換係
数平滑化手段とを有することを特徴とする音声認識装
置。
【請求項８】変換係数平滑化手段は、少なくとも１つ
の周波数軸変換係数から構成される最新の周波数軸変換
係数列と、保持された過去に求められた少なくとも１つ
の周波数軸変換係数から構成される周波数軸変換係数列
とを比較することによって話者の交代を検知することを
特徴とする請求項７記載の音声認識装置。
【請求項９】入力音声の特徴量を抽出する特徴量抽出
手段と、前記入力音声から無声音／有声音区間を弁別検
出する音声区間検出手段と、前記入力音声の特徴量の周
波数軸を前記無声音／有声音区間情報に応じて周波数軸
変換係数列を用いて変換する周波数軸変換手段と、前記
周波数軸変換を施した入力音声の特徴量と予め複数の話
者から学習した音響モデル特徴量とをマッチングし、認
識結果候補を出力するマッチング手段と、前記認識結果
候補のうち少なくとも１つから表現される音素系列に対
して少なくとも１つの周波数軸変換係数から構成される
最適な周波数軸変換係数列を推定する最適変換係数推定
手段と、前記求められた最適な周波数軸変換係数列と保
持された過去に求められた周波数軸変換係数列とを平滑
化し、新たな周波数軸変換係数列を更新・保持する変換
係数平滑化手段とを有することを特徴とする音声認識装
置。