JPH0426479B2

JPH0426479B2 -

Info

Publication number: JPH0426479B2
Application number: JP25894584A
Authority: JP
Inventors: Sadahiro Furui
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1984-12-07
Filing date: 1984-12-07
Publication date: 1992-05-07
Also published as: JPS61137199A

Description

【発明の詳細な説明】「産業上の利用分野」この発明は認識対象語彙のうちのどの単語が発
声されたかを高精度かつ高能率に自動的に判定す
る単語音声の認識方法に関するものである。

「従来の技術」マンマシンインターフエイスに使用する種々の
入力端末装置の一つとして、音声をそのまま入力
する、いわゆる音声入力装置がある。この装置
は、入力音声に含まれる言語の情報を抽出してそ
の意味内容を認識するものであり、このような入
力端末装置は他の入力装置に比べて、(イ)情報入力
速度が速い、(ロ)音声で入力できるので操作に熟練
する必要がない、(ハ)同時に手足、目、耳などを使
いながら入力できる、(ニ)電話から入力できる、な
どの利点がある。

音声入力装置の認識方法には、一つ一つの区切
つて発声された言語音声を認識するものと、複数
の単語や文章を連続して発声した音声を認識する
ものとがあり、後者の方が使い勝手は良いが高い
精度で認識を行うのが難しい。一方前者の方法
は、一問一答形式のようにやや使い方が限られる
が、実用的には広い応用範囲が期待され、後者の
方法よりも高い精度を得ることが可能である。

前者の単語音声の認識方法としては、あらかじ
め認識できる語彙の種類を決めてそれらの一つ一
つについて標準パターンを蓄積しておき、入力さ
れた音声波と各標準パターンとの類似の度合いを
調べて、最も類似の度合いの大きい語彙が発声さ
れたものと判定することが多い。このとき、音声
波をそのまま標準パターンとして蓄積しておい
て、入力音声波と比較するのは能率的でないの
で、周波数スペクトル、線形予測係数等のいわゆ
る特徴パラメータに変換してから比較を行うのが
望ましい。従来のこの種の方法では、特徴パラメ
ータとして上記の他に、ホルマント周波数、ケプ
ストラム係数、パーコール係数、対数断面積比、
零交差数などが用いられているが、安定に精度よ
くパラメータを抽出するのが困難であつたり、パ
ラメータの抽出に複雑な計算を要したり、異なる
話者に共通した単語音声の特徴を表現するパラメ
ータとして不十分であつたり、電話系のような伝
送路を通つたときに特性が変動して、認識の精度
が大きく低下する等の欠点があつた。

この発明の目的は、このような欠点を除去する
ため、電話系等を通つた音声から伝送歪等の影響
を受けにくく、しかも異なつた話者に共通に含ま
れる音声の特徴を比較的簡単に抽出し、高精度で
単語の認識を行うことができる単語音声の認識方
法を提供することにある。

「問題点を解決するための手段」この発明の標準パターン音声を入力しその周波
数スペクトルの時間的変化を示すパラメータを算
出し、このパラメータの時間波形から線形回帰係
数を全時点について算出し、認識対象語彙ごとの
パラメータ及び線形回帰係数の標準パターンを蓄
積する。この線形回帰係数及び前記パラメータを
単語音声の特徴パラメータとする。つまりこれら
パラメータ及びその線形回帰係数の同一時点のも
のを一種類のパラメータであるかのように使う。
前記パラメータとしては比較的簡単な方法により
抽出できる線形予測ケプストラム係数を用いるこ
とが好ましい。このように前記パラメータ及び線
形回帰係数を特徴パラメータとすることにより伝
送路の変動等の影響を受けにくく、しかも異なる
話者に対する認識精度を向上できる。

このパラメータ及びその線形回帰係数を入力音
声単語につき算出し、これらとあらかじめ蓄積し
てある各語彙の特徴パラメータとの非線形的な時
間正規化マツチング（対応づけ）により、どの語
彙が発声されたかを判定する。

「実施例」以下、この発明の実施例を第１図により説明す
る。第１図は、この発明の単語音声の認識方法の
実施例を機能的に示したものである。

音声入力端子１から認識すべき音声を入力し
て、音声区間検出回路２、線形予測分析回路３、
ケプストラム変換回路４、ケプストラムレジスタ
５を経由して線形予測ケプストラム係数を得る。
この実施例ではこの線形予測ケプストラム係数の
時間波形から回帰係数計算回路６で線形回帰係数
を抽出する。線形予測ケプストラム係数と線形回
帰係数との時間波形（これらをまとめて特徴パラ
メータ波形と呼ぶ）を一たん特徴パラメータレジ
スタ７に蓄え、学習モードと認識モードとをスイ
ツチ８で切換えて、学習モードの場合は特徴パラ
メータ波形をその語彙の標準パターンとして標準
パターン蓄積部９に蓄える。認識モードの場合
は、特徴パラメータ波形、各語彙の標準パターン
および重みレジスタ１１の内容を非線形時間正規
化回路１０に入力して、類似性の度合いの計算を
行う。すべての語彙の標準パターンとの類似の度
合いを比較回路１２に入力して、最も類似の度合
いの大きい語彙を判定し、その語彙を示すデータ
を出力端子１３に与える。

さらに詳しく動作を説明する。先ず音声入力端
子１から単語の認識に用いる音声波を入力する。
入力された音声波には通常、実際の音声の区間と
無音（雑音）の区間とが含まれているので、入力
された音声波を音声区間検出回路２に入力して、
音声区間の検出を行う。この検出には、すでによ
く知られているいくつかの方法、例えば入力信号
波の短時間エネルギー、ある一定値以上のエネル
ギーが継続する時間、等を用いることができる。
検出された音声区間の信号波は線形予測分析回路
３に送られ、線形予測係数の時間波形に変換され
る。

この技術は、すでに公知であるので（例えば、
文献，板倉・斎藤：統計的手法による音声スペク
トル密度とホルマント周波数の推定、電子通信学
会論文誌，53−Ａ，１，P.35，1970参照）、詳細
は省略するが、基本的にはまず低域通過フイルタ
に通したのち標本化及び量子化を行い、一定時間
ごとに短区間の波形を切り出してハミング窓等を
乗じ、積和の演算によつて相関係数を計算する。
ハミング窓の長さとしては、例えば30ms，これ
を更新する周期としては、例えば10msのような
値が用いられる。その相関係数から、繰返し演算
処理によつて代数方程式を解くことにより、容易
に線形予測係数が抽出される。これら相関係数及
び線形予測係数は、例えば第０次から第10次まで
の値を計算する。抽出された線形予測係数の時間
波形は、ケプストラム変換回路４により、いわゆ
る線形予測ケプストラム係数に変換される。線形
予測ケプストラム係数は、対数パワー・スペクト
ルのフーリエ変換によつて得られる従来のケプス
トラム係数とはやや異なるが、それによつて表現
されるスペクトル包絡は類似している。線形予測
ケプストラム係数は、音声の特徴を表現するパラ
メータとして優れた性質を有していることが知ら
れている（文献，古井貞煕：単音節認識とその大
語い単語音声認識への適用，電子通信学会論文
誌，J65−Ａ，２，P.175，1982参照）。

線形予測係数から線形予測ケプストラムへの変
換は、次の演算により行うことができる。

c₁＝a₁ ……(1) c_o＝_o-1 〓^k=1 （１−ｋ／ｎ）a_kc_o−ｋ＋a_o，１ｎｐ
(2) ここで、a_oはｎ次の線形回帰係数，C_oはｎ次の
線形予測ケプストラム，ｐは線形予測モデルの次
元数である。ｐとしては、前述のように10程度の
値が用いられる。

抽出された線形予測ケプストラム係数（以下簡
単のため単にケプストラム係数と呼ぶ）C_oの時
間波形は、一定間隔ごとに一定の時間長の区間が
ケプストラムレジスタ５に一旦蓄えられ、このレ
ジスタ５の内容は回帰係数計算回路６に送られ
て、線形回帰係数が演算される。このケプストラ
ムレジスタ５及び回帰係数計算回路６に入力され
る時間波形の長さとしては、例えば50m_s、これ
を更新する周期としては、例えば10m_sのような
値を用いる。時間波形x_j（ｊ＝−Ｍ，…Ｍ）であ
らわすと、この線形回帰係数ａは次の演算で求め
ることができる。

ａ＝（_M 〓^j=-M x_j・ｊ）／（_M 〓^j=-M j²） ……(3) 線形回帰係数は、各次数のケプストラム係数に
対して、10m_s毎に更新される回帰係数計算回路
６の入力に応じて計算され、この線形回帰係数は
ケプストラム係数とあわせて2p次元の特徴パラ
メータとして特徴パラメータレジスタ７に送られ
て蓄えられる。

スイツチ８は、学習モードと認識モードを選択
するスイツチであつて、各語彙に対して、最初に
スイツチ８を端子８ａに接続しておいて、後に認
識すべき音声を入力する本人あるいはその本人と
は異なる複数人の音声から特徴パラメータ波形を
求め、特徴パラメータレジスタ７に蓄えたのち標
準パターン蓄積部９に入力し、その語彙の標準パ
ターンとして蓄える。

その後認識すべき音声に対しては、スイツチ８
を端子８ｂに接続しておいて、特徴パラメータレ
ジスタ７の内容を非線形時間正規化回路１０に入
力する。同時に各語に対応した標準パターンを標
準パターン蓄積部９から一つ一つ読出し、非線形
時間正規化回路１０に入力する。非線形時間正規
化回路１０では、標準パターンと入力音声の特徴
パラメータの類似性の度合いを計算する。音声の
発声速度は、同じ話者が同じ言葉を繰返し発声し
てもその度ごとに部分的及び全体的に変化するの
で、両者を比較するには、共通の音（音韻）が対
応するように、一方の時間軸を適当に非線形に伸
縮して他方の時間軸にあわせ、対応する時点の特
徴パラメータどうしを比較する必要がある。一方
を基準にして、両者が最もよく合うように（両者
の類似度が最も大きくなるように）他方の時間軸
を非線形に伸縮する技術としては、動的計画法に
よる最適化の手法を使用できることが知られてい
る（文献：迫江，千葉：動的計画法を利用した音
声の時間正規化に基づく連続単語認識，日本音響
学会誌，27，９，P.483，1971）。

この発明の方法においても、非線形時間正規化
回路１０では、例えば動的計画法の演算を行う。
標準パターンのある時点ｋにおける特徴パラメー
タをr_ki（１ｉ2P）（Ｐ次のケプストラム係数
とＰ次の線形回帰係数とよりなる）、入力音声の
ある時点ｌにおける特徴パラメータをx_li（１ｉ
2P）（Ｐ次のケプストラム係数とＰ次の線形回
帰係数とよりなる）であらわすと、ここで両者の
距離（小さくなるほど類似度が大きいことを示す
数値として、次のような値を用いる。

ｄ＝１／2P_2P 〓ⁱ⁼¹ w_i ²（r_ki−x_li）² ……(4) ここでw_iは各特徴パラメータに対してあらかじ
め定められている重みを示す数値で、この値は予
備実験の結果にもとづいて比較的高い認識精度が
得られるような適切な値に定め、重みレジスタ１
１に蓄えておく。距離ｄの計算は(4)式に示すよう
に同一時点のＰ次のケプストラム係数とＰ次の線
形回帰係数とについて入力音声と標準パターンと
の差の二乗和として計算しており、つまりケプス
トラム係数と線形回帰係数との互に性質が異なる
ものを一緒に使つており、これらの平衡をとるた
めにw_iの重み付けを行うものであり、従つてw_iの
値としてはケプストラム係数について演算する際
に用いるとw_aと、線形回帰係数について演算す
る際に用いるw_bとの少くとも２つの値を用いる。
これら重みw_a〜w_bは重みレジスタ１１に蓄えて
おく。

動的計画法の演算によつて標準パターンと入力
音声の一致度が最もよくなるように時間軸を対応
づけたときの、対応する時点どうしの標準パター
ンと入力音声との特徴パラメータの距離を全音声
区間について平均した値を計算する。この値を、
入力音声と標準パターンとの総合的距離と呼ぶこ
とにする。各語彙に対応した標準パターンと入力
音声との総合的距離を比較回路１２に入力し、論
理回路によりこれらすべての総合的距離のうち、
最も総合的距離の小さい語彙を判定する。この判
定結果は、出力端子１３から出力される。

従来においては例えばケプストラム係数につい
てのみ入力音声と標準パターンとの距離を計算し
て最も近い語彙を求めていたが、この実施例にお
いては線形回帰係数についてもケプストラム係数
と同一時点のものをまとめて非線形時間正規化に
より類似の度合いを算出しており、この線形回帰
はケプストラム係数の時間波形の直線近似であ
り、この近似の傾斜が線形回帰係数であり、つま
りケプストラム係数の変化の傾向についても入力
音声と標準パターンとの類似の度合いを求めてい
る。その結果として、高品質のマイクロホンだけ
でなく、電話系を通つた音声、雑音や伝送歪の影
響を受けた音声等に対しても、しかも誰の音声に
対しても高い精度を示す単語音声認識システムを
実現することができる。これまでの実験によれ
ば、都市名100単語を認識対象語彙として、男性
４名の音声を標準パターンとして蓄積し、その話
者と異なる男性20名の音声に対して、前記実施例
による方法を適用することにより、97.4％の精度
で単語音声の認識ができることが示された、ケプ
ストラム係数のみを用いた従来の方法によれば、
93.8％の精度しか得られなかつたことと比較して
この発明が優れていることが理解される。

上述においては音声の周波数スペクトルの時間
に対する変化を示すパラメータとしてケプストラ
ム係数を用いたが、線形予測係数、ホルマント周
波数、パーコール係数、対数断面積比、零交差数
などを用いてもよい。

「発明の効果」以上説明したように、この発明によれば、電話
系等を通つた音声から伝送歪等の影響を受けにく
く、異なる話者の音声に共通に含まれる単語の特
徴をとり出して用いることにより高い精度で単語
音声の認識が行えるため、電話の音声を用いたバ
ンキングサービス等の種々のサービスに広く応用
することができる。

【図面の簡単な説明】

第１図はこの発明の実施例を示す単語音声の認
識方法のブロツク図である。１：音声入力端子、２：音声区間検出回路、
３：線形予測分析回路、４：ケプストラム変換回
路、５：ケプストラムレジスタ、６：回帰係数計
算回路、７：特徴パラメータレジスタ、８：スイ
ツチ、９：標準パターン蓄積部、１０：非線形時
間正規化回路、１１：重みレジスタ、１２：比較
回路、１３：出力端子。

Claims

【特許請求の範囲】１標準パターン音声を入力し、その周波数スペ
クトルの時間的変化を示すパラメータを算出し、
そのパラメータの時間波形から線形回帰係数をそ
の全時点について算出し、認識対象語彙ごとの上
記パラメータ及び線形回帰係数の標準パターンを
蓄積しておき、認識すべき音声波入力の周波数スペクトルの時
間的変化を示すパラメータを算出し、そのパラメ
ータの時間波形から線形回帰係数を全時点につい
て算出し、これらパラメータ及び線形回帰係数の
時間波形と、上記認識対象語彙の標準パターンと
を、非線形的な時間正規化を行うことによつて両
者の類似の度合いを算出し、すべての認識対象語
彙との類似の度合いを求め、そのうちの最も類似
の度合いが大きい語彙が入力されたと判定するこ
とを特徴とする単語音声の認識方法。