JPH10161692A

JPH10161692A - 音声認識装置及び音声認識方法

Info

Publication number: JPH10161692A
Application number: JP8336291A
Authority: JP
Inventors: Yasuhiro Komori; 康弘小森; Hiroki Yamamoto; 寛樹山本
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-12-03
Filing date: 1996-12-03
Publication date: 1998-06-19
Also published as: DE69725106D1; DE69725106T2; EP0847041A2; EP0847041B1; US5956679A; EP0847041A3

Abstract

(57)【要約】【課題】音声モデルに対して高速な雑音適応を行なう
ことを可能とする音声認識装置を提供する。【解決手段】雑音モデルと音声モデルを用いて雑音適
応音声モデルをＰＭＣ法によって作成するに際し、従来
のように全モデルの全分布に対してＰＭＣ変換を行うの
ではなく、雑音適応部２０４にて、音声モデルの分布を
グループ化またはクラスタリングして複数の代表分布を
作成し、その各代表分布とそのグループ内分布の位置関
係を保存して、代表分布のみをＰＭＣ変換する。そし
て、ＰＭＣ変換した代表分布と保存した位置関係とに基
づいて、雑音適応音声モデルを作成する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、入力音声に対して
音声認識を行う音声認識装置、及び音声認識方法に関す
るものである。

【０００２】

【従来の技術】近年、音声認識を実用化するために利用
環境の雑音に対する耐性が盛んに検討されている。その
中で少量の雑音データから、音声モデルを適応した雑音
適応音声モデルを作成することができるＰＭＣ法が提案
されている。

【０００３】図７は、ＰＭＣ法における雑音適用処理の
流れを示す概念図である。

【０００４】同図に示すように、ＰＭＣ法における雑音
適応処理は、まず音声モデル（音声ＨＭＭ）と雑音モデ
ル（雑音ＨＭＭ）に対して、それぞれコサイン変換処理
６０１，６０２と指数変換処理６０３，６０４を順次施
し、その結果を合成する処理６０５を行う。そして、そ
の合成結果に対して対数変換処理６０６と逆コサイン変
換処理６０７を施して、雑音適応音声モデル（ＰＭＣ−
ＨＭＭ）を得る。

【０００５】しかし、このＰＭＣ法において、認識性能
を上げるために音声モデルの種類を多くしたり分布数を
多くしたりすると、従来のＰＭＣ法では、全部の分布を
ＰＭＣ変換するため、非常に多くの処理量を必要とす
る。

【０００６】

【発明が解決しようとする課題】上述したように、従来
の音声認識方式において、ＰＭＣ法により少量の雑音デ
ータを用いて詳細な音声モデル（多数モデルや多数分
布）を雑音適応する場合には、従来のＰＭＣ法では全て
の分布をＰＭＣ変換するため、非常に多くの処理量を必
要する、という問題を生ずる。

【０００７】本発明は上記従来の問題点に鑑み、音声モ
デルに対して高速な雑音適応を行なうことを可能とする
音声認識装置、及び音声認識方法を提供することを目的
とする。

【０００８】

【課題を解決するための手段】上記目的を達成するため
に、第１の発明である音声認識装置は、音声を取り込む
音声入力手段と、前記音声入力手段によって取り込まれ
た入力音声を分析する音響分析手段と、前記音響分析手
段の分析結果と認識対象の類似性を求めるモデルを作成
するモデル作成手段と、前記分析結果と前記モデルの出
力確率を求める出力確率算出手段と、認識対象の言語的
制約を記述する制約記述手段とを有し、これらの手段を
用いて言語探索を行い、入力音声に対する認識候補と尤
度を求めて認識結果を決定し出力する音声認識装置にお
いて、前記モデル作成手段は、入力データより非音声区
間を抽出し、抽出した区間のデータを用いて雑音モデル
を作成する雑音モデル作成手段と、音声モデルの分布を
グループ化またはクラスタリングして複数の代表分布を
作成する代表分布作成手段と、前記各代表分布とそのグ
ループ内分布の位置関係を保存する保存手段と、前記代
表分布のみをＰＭＣ変換するＰＭＣ変換手段と、前記Ｐ
ＭＣ変換手段によってＰＭＣ変換した代表分布と前記保
存手段に保存されている位置関係とに基づいて、前記モ
デルとして雑音適応音声モデルを作成する雑音適応音声
モデル作成手段とを備えたものである。

【０００９】第２の発明である音声認識装置では、上記
第１の発明において、前記雑音適応音声モデル作成手段
は、前記代表分布とグループ内の各分布の差分べクト
ル、前記代表分布の平均値と分散、ＰＭＣ変換後の代表
分布の平均値と分散、及びグループ内の各分布の平均値
と分散に基づいて、雑音適応後のグループ内の分布の平
均値と分散を決定する決定手段を備えたものである。

【００１０】第３の発明である音声認識装置では、上記
第１または第２の発明において、前記代表分布作成手段
は、音声モデルの各状態に属している分布を１つのグル
ープとしたものである。

【００１１】第４の発明である音声認識装置では、上記
第１または第２の発明において、前記代表分布作成手段
は、各分布間の距離が近い分布を１つのグループとした
ものである。

【００１２】第５の発明である音声認識装置では、上記
第１または第２の発明において、前記代表分布作成手段
は、ある分布が近傍の複数のグループに属するように決
定する分布決定手段と、前記複数のグループに属する分
布が各々の代表分布で変換されたときに、その変換後の
複数の分布から１つの最終的な分布を作成する分布作成
手段とを備えたものである。

【００１３】第６の発明である音声認識装置では、上記
第１乃至第５の発明において、前記制約記述手段は、辞
書及び文法を認識対象の言語的制約としたものである。

【００１４】第７の発明である音声認識方法は、音声を
取り込む音声入力処理と、前記音声入力処理によって取
り込まれた入力音声を分析する音響分析処理と、前記音
響分析処理の分析結果と認識対象の類似性を求めるモデ
ルを作成するモデル作成処理と、前記分析結果と前記モ
デルの出力確率を求める出力確率算出処理と、認識対象
の言語的制約を記述する制約記述処理とを有し、これら
の処理を用いて言語探索を行い、入力音声に対する認識
候補と尤度を求めて認識結果を決定し出力する音声認識
方法において、前記モデル作成処理は、入力データより
非音声区間を抽出し、抽出した区間のデータを用いて雑
音モデルを作成する雑音モデル作成処理と、音声モデル
の分布をグループ化またはクラスタリングして複数の代
表分布を作成する代表分布作成処理と、前記各代表分布
とそのグループ内分布の位置関係を保存する保存処理
と、前記代表分布のみをＰＭＣ変換するＰＭＣ変換処理
と、前記ＰＭＣ変換処理によってＰＭＣ変換した代表分
布と前記保存処理に保存されている位置関係とに基づい
て、前記モデルとして雑音適応音声モデルを作成する雑
音適応音声モデル作成処理とを実行するようにしたもの
である。

【００１５】第８の発明である音声認識方法では、上記
第７の発明において、前記雑音適応音声モデル作成処理
は、前記代表分布とグループ内の各分布の差分べクト
ル、前記代表分布の平均値と分散、ＰＭＣ変換後の代表
分布の平均値と分散、及びグループ内の各分布の平均値
と分散に基づいて、雑音適応後のグループ内の分布の平
均値と分散を決定する決定処理を実行するようにしたも
のである。

【００１６】第９の発明である音声認識方法では、上記
第７または第８の発明において、前記代表分布作成処理
は、音声モデルの各状態に属している分布を１つのグル
ープとしたことにある。

【００１７】第１０の発明である音声認識方法では、上
記第７または第８の発明において、前記代表分布作成処
理は、各分布間の距離が近い分布を１つのグループとし
たものである。

【００１８】第１１の発明である音声認識方法では、上
記第７または第８の発明において、前記代表分布作成処
理は、ある分布が近傍の複数のグループに属するように
決定する分布決定処理と、前記複数のグループに属する
分布が各々の代表分布で変換されたときに、その変換後
の複数の分布から１つの最終的な分布を作成する分布作
成処理とを実行するようにしたものである。

【００１９】第１２の発明である音声認識方法では、上
記第７乃至第１１の発明において、前記制約記述処理
は、辞書及び文法を認識対象の言語的制約としたもので
ある。

【００２０】

【発明の実施の形態】以下、図面を参照して本発明の実
施の形態を説明する。

【００２１】図１は、本発明の実施の一形態に係る音声
認識装置の概略構成を示すブロック図である。

【００２２】図中の１０１はマイク１０１ａやＡ／Ｄ変
換器１０１ｂを含む音声入力部であり、１０２は音声パ
ラメータを求める音響分析部である。１０３は出力確率
計算を行なう出力確率計算部であり、１０４は雑音適応
後の音声認識用モデルである。また、１０５は言語探索
を行なう言語探索部であり、１０６は言語処理に用いる
文法・辞書であり、１０７は結果を出力する表示部であ
る。

【００２３】さらに、２０１は雑音モデルの学習部であ
り、２０２雑音モデル（ＨＭＭ）であり、２０３は音声
モデル（ＨＭＭ）であり、２０４は雑音適応の実行部で
ある。

【００２４】本実施形態の音声認識装置は、上記の要素
により構成され、図２に示すフローチャートに従って動
作する。

【００２５】まず、音声認識時では、音声入力部１０１
で切り出された音声は（ステップＳ３０１）、音響分析
部１０２にてフレーム毎に音声パラメータに分析され
（ステップＳ３０２）、出力確率計算部１０３におい
て、話者適応後のＨＭＭ１０４を用いて出力確率の計算
を行なう（ステップＳ３０３）。

【００２６】続いて、言語探索部１０５では、雑音適応
音声モデル１０４との認識用の文法・辞書１０６を用い
て言語探索を行ない認識結果とその尤度を求める（ステ
ップＳ３０４）。この結果をに認識結果として表示部１
０７に出力する（ステップＳ３０５）。

【００２７】一方、雑音適応時では、前記ステップＳ３
０１及びステップＳ３０２を経て、入力音声から非音声
データ（雑音）を取り出し、雑音モデル学習部２０１に
て雑音モデルを学習し（ステップＳ４０１）、雑音モデ
ル（雑音ＨＭＭ）２０２を作成する（ステップＳ４０
２）。この雑音モデル２０２と音声モデル（音声ＨＭ
Ｍ）２０３を用いて、雑音適応部２０４にて雑音適応音
声モデル（雑音適応音声ＨＭＭ）１０４を作成する（ス
テップＳ４０３）。

【００２８】次に、前記ステップＳ４０３の雑音適応処
理の詳細を図３フローチャートを用いて説明する。

【００２９】まず、音声モデル２０３の分布をグループ
化し（ステップＳ５０１）、各グループに属する分布を
用いて、代表分布を作成する（ステップＳ５０２）。こ
の代表分布は、次式（１），（２）で実現される。ｗは
重み係数を示し、Ｇはグループを示す。

【００３０】

【数１】続いて、代表分布とグループ内の各分布の位置関係を求
める（ステップＳ５０３）。代表分布は、ステップＳ５
０４にてＰＭＣ法により雑音適応（ＰＭＣ）変換が施さ
れる。ＰＭＣ法の処理手順は前述した通りである（図７
参照）。ＰＭＣ変換された代表分布とステップＳ５０３
で求めた位置関係とを用いて、各分布の雑音適応変換後
の位置を決定する（ステップＳ５０５）。各分布の雑音
適応の変換は次式（３），（４），（５），（６）で実
現される。

【００３１】平均値と分散の両方の適応を行なう場合に
は、

【００３２】

【数２】または、平均値のみ適応を行ない、分散の適応を行なわ
ない場合には、

【００３３】

【数３】となる。この雑音適応法の概念図を図４に示す。

【００３４】また、分布のグループ化に関しては、図５
に示すように音声モデルの各状態をグループとして代表
分布を作成する方法や、図６に示すように、近傍分布を
階層的にクラスタリングして（Ｌｅｖｅｌ０，１，２）
代表分布の作成する方法などがある。

【００３５】次に、本実施形態の実験結果を説明する。

【００３６】雑音のない音声データを用いて学習した全
状態数７１０余りの状態共有ｔｒｉｐｈｏｎｅＨＭＭ
（３状態６分布）を、雑音適応／環境適応し（ＭＣＭＳ
−ＰＭＣ：音講論Ｈ８春，２−５−１５、ｐ８７−８
８、１９９６．３．）、５２０単語の電話音声を認識す
る実験を行なった。

【００３７】次の表１は、音声認識率（％）とＰＭＣ変
換に要した時間の割り合いである。

【００３８】

【表１】この表１から明らかなように、本実施形態のＰＭＣ法
は、従来のＰＭＣ法に比べて、音声認識率について従来
とほぼ同等のレベルでありながら、変換時間を大幅に短
縮することができる。

【００３９】なお、本発明は図示の実施形態に限定され
ず種々の変形が可能である。その変形例としては例えば
次のようなものがある。

【００４０】（１）本実施形態では、分布のグループ化
を、１分布１グループとなるように行なったが、ある分
布が複数のグループに存在するようにグループ化しても
構わない。

【００４１】（２）本実施形態では、分布のグループ化
で、一分布が複数のグループに存在するようにグループ
化した場合に、変換により複数の変換後の分布が作成さ
れたときは、それらの分布を用いて雑音適応後の分布を
１つ作成する際に、それらの重心や平均より求めたり、
代表分布を求める式を用いたりすればよい。

【００４２】

【発明の効果】以上詳述したように、第１の発明である
音声認識装置によれば、雑音モデルと音声モデルを用い
て雑音適応音声モデルをＰＭＣ法によって作成するに際
し、従来のように全モデルの全分布に対してＰＭＣ変換
を行うのではなく、音声モデルの分布をグループ化また
はクラスタリングして複数の代表分布を作成し、その各
代表分布とそのグループ内分布の位置関係を保存し、代
表分布のみをＰＭＣ変換し、そのＰＭＣ変換した代表分
布と保存した位置関係とに基づいて、雑音適応音声モデ
ルを作成する。これにより、詳細な音声モデル（多数モ
デルや多数分布）を高速に雑音適応することができ、高
性能な音声認識を実現することが可能になる。

【００４３】第２の発明である音声認識装置によれば、
上記第１の発明において、雑音適応音声モデル作成手段
を簡易且つ的確に機能させることができる。

【００４４】第３の発明である音声認識装置によれば、
上記第１または第２の発明において、代表分布作成手段
を簡単な構成にすることができる。

【００４５】第４の発明である音声認識装置によれば、
上記第１または第２の発明において、代表分布作成手段
を簡単な構成にすることができる。

【００４６】第５の発明である音声認識装置によれば、
上記第１または第２の発明において、代表分布作成手段
を、簡易且つ的確に機能させることができる。

【００４７】第６の発明である音声認識装置によれば、
上記第１乃至第５の発明において、言語探索を的確に行
うことができる。

【００４８】第７の発明である音声認識方法によれば、
上記第１の発明と同等の効果を得ることができる。

【００４９】第８の発明である音声認識方法によれば、
上記第７の発明において、上記第２の発明と同等の効果
を得ることができる。

【００５０】第９の発明である音声認識方法によれば、
上記第７または第８の発明において、上記第３の発明と
同等の効果を得ることができる。

【００５１】第１０の発明である音声認識方法によれ
ば、上記第７または第８の発明において、上記第４の発
明と同等の効果を得ることができる。

【００５２】第１１の発明である音声認識方法によれ
ば、上記第７または第８の発明において、上記第５の発
明と同等の効果を得ることができる。

【００５３】第１２の発明である音声認識方法によれ
ば、上記第７乃至第１１の発明において、上記第６の発
明と同等の効果を得ることができる。

【図面の簡単な説明】

【図１】本発明の実施の一形態に係る音声認識装置の概
略構成を示すブロック図である。

【図２】実施形態の全体的な処理の流れを示すフローチ
ャートである。

【図３】実施形態における雑音適応部の処理の流れを示
すフローチャートである。

【図４】実施形態の雑音適応法の概念図である。

【図５】実施形態において状態をグループとした代表分
布の作成を示す図である。

【図６】実施形態において近傍分布を階層的なクラスタ
リングしてとした代表分布の作成を示す図である。

【図７】ＰＭＣ法における雑音適用処理の流れを示す概
念図である。

【符号の説明】

１０１音声入力部１０２音響分析部１０３出力確率計算部１０４雑音適応後の音声認識用モデル１０５言語探索部１０６文法・辞書１０７表示部２０１雑音モデルの学習部２０２雑音モデル（ＨＭＭ）２０３音声モデル（ＨＭＭ）２０４雑音適応の実行部

Claims

【特許請求の範囲】

【請求項１】音声を取り込む音声入力手段と、前記音
声入力手段によって取り込まれた入力音声を分析する音
響分析手段と、前記音響分析手段の分析結果と認識対象
の類似性を求めるモデルを作成するモデル作成手段と、
前記分析結果と前記モデルの出力確率を求める出力確率
算出手段と、認識対象の言語的制約を記述する制約記述
手段とを有し、これらの手段を用いて言語探索を行い、
入力音声に対する認識候補と尤度を求めて認識結果を決
定し出力する音声認識装置において、前記モデル作成手段は、入力データより非音声区間を抽出し、抽出した区間のデ
ータを用いて雑音モデルを作成する雑音モデル作成手段
と、音声モデルの分布をグループ化またはクラスタリングし
て複数の代表分布を作成する代表分布作成手段と、前記各代表分布とそのグループ内分布の位置関係を保存
する保存手段と、前記代表分布のみをＰＭＣ変換するＰＭＣ変換手段と、前記ＰＭＣ変換手段によってＰＭＣ変換した代表分布と
前記保存手段に保存されている位置関係とに基づいて、
前記モデルとして雑音適応音声モデルを作成する雑音適
応音声モデル作成手段とを備えたことを特徴とする音声
認識装置。
【請求項２】前記雑音適応音声モデル作成手段は、前記代表分布とグループ内の各分布の差分べクトル、前
記代表分布の平均値と分散、ＰＭＣ変換後の代表分布の
平均値と分散、及びグループ内の各分布の平均値と分散
に基づいて、雑音適応後のグループ内の分布の平均値と
分散を決定する決定手段を備えたことを特徴とする請求
項１記載の音声認識装置。
【請求項３】前記代表分布作成手段は、音声モデルの各状態に属している分布を１つのグループ
としたことを特徴とする請求項１または請求項２記載の
音声認識装置。
【請求項４】前記代表分布作成手段は、各分布間の距離が近い分布を１つのグループとしたこと
を特徴とする請求項１または請求項２記載の音声認識装
置。
【請求項５】前記代表分布作成手段は、ある分布が近傍の複数のグループに属するように決定す
る分布決定手段と、前記複数のグループに属する分布が各々の代表分布で変
換されたときに、その変換後の複数の分布から１つの最
終的な分布を作成する分布作成手段とを備えたことを特
徴とする請求項１または請求項２記載の音声認識装置。
【請求項６】前記制約記述手段は、辞書及び文法を認
識対象の言語的制約としたことを特徴とする請求項１乃
至請求項５記載の音声認識装置。
【請求項７】音声を取り込む音声入力処理と、前記音
声入力処理によって取り込まれた入力音声を分析する音
響分析処理と、前記音響分析処理の分析結果と認識対象
の類似性を求めるモデルを作成するモデル作成処理と、
前記分析結果と前記モデルの出力確率を求める出力確率
算出処理と、認識対象の言語的制約を記述する制約記述
処理とを有し、これらの処理を用いて言語探索を行い、
入力音声に対する認識候補と尤度を求めて認識結果を決
定し出力する音声認識方法において、前記モデル作成処理は、入力データより非音声区間を抽出し、抽出した区間のデ
ータを用いて雑音モデルを作成する雑音モデル作成処理
と、音声モデルの分布をグループ化またはクラスタリングし
て複数の代表分布を作成する代表分布作成処理と、前記各代表分布とそのグループ内分布の位置関係を保存
する保存処理と、前記代表分布のみをＰＭＣ変換するＰＭＣ変換処理と、前記ＰＭＣ変換処理によってＰＭＣ変換した代表分布と
前記保存処理に保存されている位置関係とに基づいて、
前記モデルとして雑音適応音声モデルを作成する雑音適
応音声モデル作成処理とを実行することを特徴とする音
声認識方法。
【請求項８】前記雑音適応音声モデル作成処理は、前記代表分布とグループ内の各分布の差分べクトル、前
記代表分布の平均値と分散、ＰＭＣ変換後の代表分布の
平均値と分散、及びグループ内の各分布の平均値と分散
に基づいて、雑音適応後のグループ内の分布の平均値と
分散を決定する決定処理を実行することを特徴とする請
求項７記載の音声認識方法。
【請求項９】前記代表分布作成処理は、音声モデルの各状態に属している分布を１つのグループ
としたことを特徴とする請求項７または請求項８記載の
音声認識方法。
【請求項１０】前記代表分布作成処理は、各分布間の距離が近い分布を１つのグループとしたこと
を特徴とする請求項７または請求項８記載の音声認識方
法。
【請求項１１】前記代表分布作成処理は、ある分布が近傍の複数のグループに属するように決定す
る分布決定処理と、前記複数のグループに属する分布が各々の代表分布で変
換されたときに、その変換後の複数の分布から１つの最
終的な分布を作成する分布作成処理とを実行することを
特徴とする請求項７または請求項８記載の音声認識方
法。
【請求項１２】前記制約記述処理は、辞書及び文法を
認識対象の言語的制約としたことを特徴とする請求項７
乃至請求項１１記載の音声認識方法。