JPH09258772A

JPH09258772A - 音声認識方法及び装置

Info

Publication number: JPH09258772A
Application number: JP8068046A
Authority: JP
Inventors: Tetsuo Kosaka; 哲夫小坂; Yasunori Ohora; 恭則大洞
Original assignee: Canon Inc
Current assignee: Canon Inc
Priority date: 1996-03-25
Filing date: 1996-03-25
Publication date: 1997-10-03
Anticipated expiration: 2016-03-25
Also published as: EP0798695A2; EP0798695A3; DE69715281D1; DE69715281T2; JP3397568B2; EP0798695B1; US5924067A

Abstract

(57)【要約】【課題】音声認識する際に、ＣＭＳ法とＰＭＳ法とを
単に組み合わせた場合には、回線特性の推定がうまくい
かない。【解決手段】音声部と非音声部とを含む音声を入力
し、音声入力の音声部から音声部のケプストラム長時間
平均を求め（ＣＭ学習部）、前記入力音声の非音声部か
ら非音声部のケプストラム長時間平均を求め（雑音ＨＭ
Ｍ学習部）、各ケプストラム長時間平均をケプストラム
領域から線形領域に変換した後線形スペクトル次元上で
差し引き、このデータに基いて音声認識を行う。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、隠れマルコフモデ
ル（ＨＭＭ）を用いて音声認識をおこなう、音声認識方
法及び装置に関するものである。

【０００２】

【従来の技術】実環境において音声認識を行う場合、特
に問題となるのはマイクや電話回線特性などの影響によ
る回線特性の歪みと、内部雑音などの加算性雑音であ
る。これらに対処する方法として、これまでＣｅｐｓｔ
ｒｕｍＭｅａｎＳｕｂｔｒａｃｔｉｏｎ（ＣＭＳ）
法やＰａｒａｌｌｅｌＭｏｄｅｌＣｏｍｂｉｎａｔ
ｉｏｎ（ＰＭＣ）法が提案されている。ＣＭＳ法は「Ｒ
ａｈｉｍ，ｅｔａｌ．：ＳｉｇｎａｌＢｉａｓＲ
ｅｍｏｖａｌｆｏｒＲｏｂｕｓｔＴｅｌｅｐｈｏ
ｎｅＢａｓｅｄＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉ
ｏｎｉｎＡｄｖｅｒｓｅＥｎｖｉｒｏｎｍｅｎｔ
ｓ，Ｐｒｏｃ．ｏｆＩＣＡＳＳＰ ’９４，（１９９
４）．」などに詳しく、ＰＭＣ法については「Ｍ．Ｊ．
Ｇａｌｅｓ，Ｓ．Ｙｏｕｎｇ：ＡｎＩｍｐｒｏｖｅｄ
ＡｐｐｒｏａｃｈｔｏｔｈｅＨｉｄｄｅｎＭａ
ｒｋｏｖＭｏｄｅｌＤｅｃｏｍｐｏｓｉｔｉｏｎ
ｏｆＳｐｅｅｃｈａｎｄＮｏｉｓｅ，Ｐｒｏｃ．ｏ
ｆＩＣＡＳＳＰ’９２，Ｉ−２３３−２３６，（１９
９２）．」に詳しく述べられている。

【０００３】ＣＭＳ法は回線特性の歪みを補償するため
の一手法である。これに対しＰＭＣ法は加算性雑音に対
処するための方法である。いずれも入力音声から雑音部
と音声部を検出し、その情報をもとに回線歪みや雑音の
ない環境で作成されたＨｉｄｄｅｎＭａｒｋｏｖＭ
ｏｄｅｌ（ＨＭＭ）を修正し、入力環境に適応させる。
これによって回線特性や雑音が変動した場合でも、柔軟
に対処できる。

【０００４】ＣＭＳ法はインパルス応答の畳み込みで作
用する乗算性雑音（回線歪み）を補償する方法である。
入力音声の長時間スペクトルを入力音声から差し引き、
またモデル作用に用いた音声の長時間スペクトルをモデ
ルから差し引くことにより回線特性の差を正規化する。
正規化処理は対数スペクトル領域やケプストラム領域で
行うのが一般的である。乗算性雑音はこの二者の領域で
は加法性歪みとしてあらわれるので、引き算により雑音
補償が可能となる。このうちケプストラム領域で行う方
法がＣＭＳと呼ばれている。

【０００５】ＰＭＣ法は無雑音環境で収録した音声で学
習したＨＭＭ（音声ＨＭＭ）と雑音で学習したＨＭＭ
（雑音ＨＭＭ）と加算合成して、モデルをより雑音重畳
環境に近づける方法である。ＰＭＣにおける雑音処理で
は、線形スペクトル領域で雑音と音声の加算性が成立す
ることを仮定している。一方、ＨＭＭは音声の特徴量と
して、ケプストラムなど対数スペクトル系のパラメータ
を用いることが多い。ＰＭＣ法では、これらのパラメー
タを線形スペクトル領域に変換し、音声ＨＭＭおよび雑
音ＨＭＭから得られる特徴量の線形スペクトル領域での
加算合成を行っている。音声と雑音との合成後、逆変換
を行って線形スペクトル領域からケプストラム領域に戻
すことによって、雑音重畳音声ＨＭＭを得ている。

【０００６】

【発明が解決しようとする課題】以上述べたようにＣＭ
Ｓ法を用いることにより、マイクや電話回線特性などの
影響による回線特性の歪みに対処することができる。ま
たＰＭＣ法を用いることにより、内部雑音などの加算性
雑音に対処することができる。よってＣＭＳとＰＭＣを
組み合わせることにより、回線歪みと加算性雑音の影響
がある場合でも同時に適応できる。しかし、単に両者を
組み合わせた場合、ＳＮＲ（信号対量子化雑音比）が低
い場合回線特性の推定がうまく行かない恐れがある。

【０００７】これは回線特性推定の際に加算性雑音が悪
影響を及ぼし、回線特性の推定がうまく行かないことに
起因する。特に加算性雑音の特性が白色雑音でない場合
が大きい。

【０００８】

【課題を解決するための手段】上記課題を解決する為
に、本発明は音声部と非音声部とを含む音声を入力し、
前記入力音声に含まれる音声部から音声部のケプストラ
ム長時間平均を求め、前記入力音声に含まれる非音声部
から非音声部のケプストラム長時間平均を求め、前記音
声部のケプストラム長時間平均から前記非音声部のケプ
ストラム長時間平均を線形スペクトル次元上で差し引く
音声認識方法及び装置を提供する。

【０００９】上記課題を解決する為に、本発明は好まし
くは前記差し引いて求めたデータにより入力音声を認識
する。

【００１０】上記課題を解決する為に、本発明は好まし
くは前記ケプストラム長時間平均を隠れマルコフモデル
のデータとする。

【００１１】上記課題を解決する為に、本発明は好まし
くは雑音データと音声データとを線形スペクトル次元で
加算合成したデータを用いて雑音重畳モデルを作成し、
前記雑音重畳モデルを用いて前記非音声部のケプストラ
ム長時間平均を求める。

【００１２】上記課題を解決する為に、本発明は好まし
くは前記各処理の制御プログラムを記憶した記憶部を利
用し、当該制御プログラムに従って各処理を実行する。

【００１３】上記課題を解決する為に、本発明は好まし
くは前記音声認識は、隠れマルコフモデルによる音声認
識とする。

【００１４】上記課題を解決する為に、本発明は好まし
くは前記認識結果を表示部に表示する。

【００１５】上記課題を解決する為に、本発明は好まし
くは前記認識結果を印字部に印字する。

【００１６】上記課題を解決する為に、本発明は好まし
くは前記各処理の制御プログラムを記憶した記憶媒体を
利用し、当該制御プログラムに従って各処理を実行す
る。

【００１７】

【発明の実施の形態】図２は本発明の音声認識装置の構
成を表わすブロック図である。１０１はＣＲＴや液晶表
示器等の表示部であり、本発明の音声認識の結果得られ
る文字列を表示する。１０２はＬＢＰやインクジェット
プリンタ等の印字部であり、本発明の音声認識の結果得
られる文字列を印字する。１０３はマイクロフォン等の
音声入力部であり、公衆回線等を介して入力するもので
あっても良い。１０４はＣＰＵであり、記憶部１０５や
ＣＤＲＯＭ等の着脱可能な記憶媒体１０７に記憶されて
いる制御プログラムに従って以下説明する各種処理を実
行するよう制御する。１０５は装置内に備える記憶部で
あって、ＣＰＵ１０４が実行する後述の各種処理の為の
制御プログラムやその為に必要な各種パラメータ（例え
ば音声認識に用いる辞書に相当するデータ等）、認識す
る音声データ等を記憶する。１０６は通信Ｉ／Ｆであっ
て、公衆回線やＬＡＮ等の通信手段を介してデータの受
授を行うべく通信の制御を行う。この通信Ｉ／Ｆによ
り、他の装置で入力された音声や、他の装置が記憶して
いる制御プログラムや各種パラメータを本装置にとり込
み、記憶部１０５に記憶させた後、以下説明する各処理
を開始するようにしても良い。１０７は例えばＣＤＲＯ
Ｍ、ＦＤ等の本体に着脱可能な記憶媒体であって、記憶
部１０５に記憶されているとして先に説明した制御プロ
グラム、各種パラメータ、音声データを記憶することの
可能な本体に着脱可能な記憶媒体であって、以下説明す
る各処理を開始する前にこの記憶媒体１０７から記憶部
１０５にデータをダウンロードしても良いし、或いはＣ
ＰＵ１０４が直接記憶媒体１０７にアクセスしても良
い。図３は記憶部１０５或いは記憶媒体１０７に記憶さ
れているデータのメモリマップであり、４０１〜４０３
に示すような各処理の制御プログラムが格納されてい
る。また、図３には図示していないが、この他にパラメ
ータ格納部、音声データ格納部、ワーキングエリア等も
備える。

【００１８】以下、図１に従って本発明の実施の形態を
詳細に説明する。図１は本発明音声認識処理の機能的な
ブロック構成図であり、データの流れがわかるようにし
てある。図１において、１は学習用音声データベース上
のデータからＣＭを計算するＣＭ計算部であり、ＣＭ導
出プログラム４０１−ａに従ってＣＭを計算する。２は
その結果得て記憶部１０５に記憶されたＣＭ（以後ＣＭ
（２）と称する）、３は学習用音声データベース上のデ
ータからＨＭＭを求めるためのＨＭＭ学習部、４はその
結果得て記憶部１０５に記憶されたＨＭＭ（以後ＨＭＭ
（４）と称する）、５は入力音声に含まれる音声部から
ＣＭを求めるためのＣＭ計算部であり、ＣＭ導出プログ
ラム４０１−ａに従ってＣＭを求める。６はその結果得
て記憶部１０５に記憶されたＣＭ（以後ＣＭ（６）と称
する）、７は入力音声に含まれる非音声部から雑音ＨＭ
Ｍを学習するための雑音ＨＭＭ学習部、８はその結果得
て記憶部１０５に記憶された雑音ＨＭＭ（以後ＨＭＭ
（８）と称する）、９は入力音声の音声部から得られた
ＣＭ（６）をケプストラム領域から線形スペクトル領域
へ変換するための変換部であり、線形スペクトル領域変
換プログラム４０１−ｂに従って実行される。１０は雑
音ＨＭＭ（８）をケプストラム領域から線形スペクトル
領域へ変換するための変換部であり、線形スペクトル領
域変換プログラム４０１−ｃに従って実行される。１１
は線形スペクトル領域からケプストラム領域への変換
部、１２はケプストラム領域から線形ケプストラム領域
への変換部、１３はＰＭＣ実行部であり、ＰＭＣ法デー
タ処理プログラムに従って実行される。１４はＰＭＣで
得られたモデルの線形スペクトル領域表現をケプストラ
ム領域へ変換するための変換部、１５は変換して最終的
に得られたＨＭＭ（以後ＨＭＭ（１５）と称する）、１
６は１５のＨＭＭ（１５）を用いて音声認識を行う音声
認識部である。

【００１９】本認識装置は入力音声の一部を取り込み、
そのデータでモデルの適応をおこなう、環境適応型とし
て動作する。まず環境適応モードにおける動作の説明を
行う。最初に音声入力部１０３より入力した入力音声は
音声部と音声が入っていない非音声部に分けられる。入
力音声はケプストラムなどのパラメータに変換されてい
るものとする。まず雑音ＨＭＭ学習部７により非音声部
のデータを用いて雑音用のＨＭＭを通常のＢａｕｍ−Ｗ
ｅｌｃｈアルゴリズムで学習する。これにより雑音ＨＭ
Ｍ（８）ができる。また入力音声の音声部のケプストラ
ムの長時間平均を５で計算する。それぞれをケプストラ
ム領域から線形スペクトル領域へ変換する。変換法は前
述のＭ．Ｊ．Ｇａｌｅｓ，ｅｔ．ａｌ．の文献に詳し
い。この場合変換は音声部のＣＭ（６）では平均値のみ
を用い、雑音ＨＭＭ（８）について平均値および分散の
値を用いる。入力データの音声部から計算したＣＭ
（６）の線形スペクトル領域ＣＭ（６）′での表現を以
下のように表わす。

【００２０】

【外１】

【００２１】非音声部から計算したＨＭＭ（８）の線形
スペクトル領域表現の平均値ＨＭＭ（８）′を以下のよ
うに表わす。

【００２２】

【外２】

【００２３】ここで添字ｌｉｎは線形スペクトル表現を
示す。次に

【００２４】

【外３】

【００２５】式（１）に示す計算を行い、この結果を１
１の変換部で線形スペクトル表現からケプストラム表現
への変換を行う。これを

【００２６】

【外４】以下のように表わす。

【００２７】この式（１）に示す引き算により入力音声
のＣＭ（６）の推定誤りを低減できる。ここでＫ₁は定
数である。また引数ｃｅｐはケプストラム表現を表わ
す。

【００２８】次に学習用音声データベースの一部のデー
タを用いてＣＭ学習部１でＣＭ（２）を計算する。

【００２９】

【外５】

【００３０】また同じく学習用音声データベースの一部
のデータを用いて音声認識用の音素や単語などを単位と
したＨＭＭ（４）をＨＭＭ学習部３で学習する。このＨ
ＭＭのパラメータのうち平均値ＨＭＭ（４）′を以下の
ように表わす。

【００３１】ＨＭＭ（４）′＝ｙ（ｔ）^cep

【００３２】これが適応前の雑音や回線変動に対応しな
いＨＭＭとなる。このＨＭＭ（４）′を用いても音声認
識は可能であるが、雑音や回線変動の影響を受けた場合
認識率が低下する。次に式（２）に示す計算を行う。

【００３３】

【外６】

【００３４】これによりＨＭＭ学習部３で求められたＨ
ＭＭ（４）のうち平均値が変換されてＨＭＭ（４）″が
求められたことになる。ここで出来たＨＭＭ（４）″は
雑音と回線変動のうち回線変動のみに対処したものとな
る。

【００３５】次に１２でこのＨＭＭ（４）″をケプスト
ラム表現から線形スペクトル表現に変換する。またＰＭ
Ｃ１３において１０から得られた雑音ＨＭＭ（８）′に
定数Ｋ₂をかけ、この雑音ＨＭＭ（８）′と回線変動の
みに対応したＨＭＭ（４）″をＰＭＣ法により混合し、
ＨＭＭ（１３）を求める。得られたＨＭＭ（１３）を１
４でケプストラム表現に変換することにより、雑音およ
び回線変動に適応したＨＭＭ（１４）が得られる。この
得られたＨＭＭ（１４）を用いて音声認識部１６におい
て一般的なＨＭＭを用いた音声認識法により音声認識を
おこなう。

【００３６】上述の実施の形態とは異なる実施の形態と
して、以下に適応モードと認識モードを別個に行わない
方法について説明する。図１の構成では、適応のための
音声入力と認識のための音声入力には別個に切替えてす
るようになっている。これに対し適応モードを設けない
構成も可能である。図２にこの構成を示す。認識対象語
彙が音声入力部１０３より入力されるとそのデータが音
声部と非音声部に分けられ１８の環境適応部に渡させ
る。この環境適応部は図１で説明した構成５〜構成１４
と同じものである。この環境適応部（８）により１７に
記憶されている適応前のＨＭＭ（ＨＭＭ（４）に相当）
が適応されて１９の適応後のＨＭＭが得られる（ＨＭＭ
（１４）に相当）。このＨＭＭを用い２０の音声認識部
で認識対象語彙が認識される。つまり先の例とは異な
り、１つの入力音声が適応と認識の両方で用いられるこ
とになる。

【００３７】

【発明の効果】従来のＣＭＳとＰＭＣの組合せでは加算
性雑音が大きい場合、ＣＭが正確に推定されず認識率が
低下するという問題があったが、本発明によれば雑音が
大きい場合でも、その雑音の影響を加味してＣＭが求め
られるため、回線変動の推定の精度が高まり、ひいては
認識性能の向上につながる。

【００３８】また、入力音声を適応と認識の両方に用い
るようにすることにより適応と認識を同時に行うため、
ユーザーに適応のための発生を強いることなく環境適応
が行われる。

【図面の簡単な説明】

【図１】本発明の音声認識装置のブロック構成図。

【図２】他の音声認識装置のブロック構成図。

【図３】音声認識装置の構成図。

【図４】記憶部内のメモリマップ例。

Claims

【特許請求の範囲】

【請求項１】音声部と非音声部とを含む音声を入力
し、前記入力音声に含まれる音声部から音声部のケプストラ
ム長時間平均を求め、前記入力音声に含まれる非音声部から非音声部のケプス
トラム長時間平均を求め、前記音声部のケプストラム長時間平均から前記非音声部
のケプストラム長時間平均を線形スペクトル次元上で差
し引くことを特徴とする音声認識方法。
【請求項２】前記差し引いて求めたデータにより入力
音声を認識することを特徴とする請求項１に記載の音声
認識方法。
【請求項３】前記ケプストラム長時間平均を隠れマル
コフモデルのデータとすることを特徴とする請求項１に
記載の音声認識方法。
【請求項４】雑音データと音声データとを線形スペク
トル次元で加算合成したデータを用いて雑音重畳モデル
を作成し、前記雑音重畳モデルを用いて前記非音声部のケプストラ
ム長時間平均を求めることを特徴とする請求項１に記載
の音声認識方法。
【請求項５】前記各処理の制御プログラムを記憶した
記憶部を利用し、当該制御プログラムに従って各処理を
実行することを特徴とする請求項１に記載の音声認識方
法。
【請求項６】前記音声認識は、隠れマルコフモデルに
よる音声認識とすることを特徴とする請求項２に記載の
音声認識方法。
【請求項７】前記認識結果を表示部に表示することを
特徴とする請求項２に記載の音声認識方法。
【請求項８】前記認識結果を印字部に印字することを
特徴とする請求項２に記載の音声認識方法。
【請求項９】前記各処理の制御プログラムを記憶した
記憶媒体を利用し、当該制御プログラムに従って各処理
を実行することを特徴とする請求項１に記載の音声認識
方法。
【請求項１０】音声部と非音声部とを含む音声を入力
する音声入力手段と、前記入力音声に含まれる音声部から音声部のケプストラ
ム長時間平均と、前記入力音声に含まれる非音声部から
非音声部のケプストラム長時間平均を求めるケプストラ
ム長時間平均導出手段と、前記音声部のケプストラム長時間平均から前記非音声部
のケプストラム長時間平均を線形スペクトル次元上で差
し引く差し引き手段とを有することを特徴とする音声認
識装置。
【請求項１１】前記差し引き手段により指し引いて求
めたデータにより音声を認識する音声認識手段を有する
ことを特徴とする請求項１０に記載の音声認識装置。
【請求項１２】前記ケプストラム長時間平均を隠れマ
ルコフモデルのデータとすることを特徴とする請求項１
０に記載の音声認識装置。
【請求項１３】雑音データと音声データとを線形スペ
クトル次元で加算合成したデータを用いて雑音重畳モデ
ルを作成する雑音重畳モデル作成手段と、前記ケプストラム長時間平均導出手段は前記雑音重畳モ
デルを用いて前記非音声部のケプストラム長時間平均を
求めることを特徴とする請求項１０に記載の音声認識装
置。
【請求項１４】前記各処理の制御プログラムを記憶し
た記憶部を有し、当該制御プログラムに従って各処理を
実行することを特徴とする請求項１０に記載の音声認識
装置。
【請求項１５】前記音声認識手段は、隠れマルコフモ
デルによる音声認識を行うことを特徴とする請求項１１
に記載の音声認識装置。
【請求項１６】前記認識結果を表示する表示手段を有
することを特徴とする請求項１１に記載の音声認識装
置。
【請求項１７】前記認識結果を印字する印字手段を有
することを特徴とする請求項１１に記載の音声認識装
置。
【請求項１８】前記音声認識装置は前記各処理の制御
プログラムを記憶した記憶媒体とすることを特徴とする
請求項１０に記載の音声認識装置。