JPH10133688A

JPH10133688A - 音声認識装置

Info

Publication number: JPH10133688A
Application number: JP8285532A
Authority: JP
Inventors: 啓三郎 ▲高▼木; Keizaburo Takagi
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1996-10-28
Filing date: 1996-10-28
Publication date: 1998-05-22
Anticipated expiration: 2016-10-28
Also published as: US5953699A; DE69715343D1; EP0838803A2; EP0838803A3; EP0838803B1; DE69715343T2; JP3039623B2

Abstract

(57)【要約】【課題】自己の送出したガイダンス音声だけでなく相
手話者の周囲の雑音をも除去し、高性能な音声および雑
音の除去装置と、音声認識装置を提供することにある。【解決手段】入力音声の各時刻の特徴を特徴ベクトル
の時系列として出力する分析部１１と、標準話者音声の
各時刻の特徴を予め複数の異なった特徴ベクトルに変換
し、多重化特徴ベクトルの時系列として蓄積した多重化
標準パタン１２と、入力音声の特徴ベクトルの時系列と
多重化標準パタン１２の複数の特徴ベクトルの時系列と
のマッチングにおける各時刻の類似度または距離値が、
多重化標準パタン１２の多重化特徴ベクトルのうちの２
点を結ぶ線分と入力音声の特徴ベクトルとの間で計算さ
れるマッチング部１３とで構成される。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、音声認識装置に関
し、特に各時刻の特徴ベクトルの可動範囲を線分で近似
し、この範囲のあらゆる組み合わせの中で最適な組合せ
を距離値とするような距離計算方法を実施できる音声認
識装置に関するものである。

【０００２】

【従来の技術】従来、音声認識におけるマッチング方法
は、入力音声を１種類の特徴ベクトルの時系列に変換
し、これと予め同様の方法で標準音声を分析し１種類の
特徴ベクトルに変換して蓄積した標準パタンとの間で、
ＤＰマッチングなどの時間軸方向の非線形伸縮を許容し
たマッチング方法を用いて距離計算し、最も距離が最小
となる標準パタンのカテゴリを認識結果として出力する
ような方法が用いられてきた。すなわち、マッチングの
各時刻においては入力音声の特徴ベクトルと標準パタン
の特徴ベクトルとの間の１対１の距離または類似度を用
いて計算されていた。

【０００３】しかしこの方式においては、同一発声内容
であっても異なる話者の場合には音声の特徴は大きく異
なる場合が多く、標準話者とは異なる話者の音声に対し
ては高い性能が得られなかった。さらに同一話者の音声
であっても体調や心理的要因などにより音声の特徴が変
化し、安定な性能を得ることが出来なかった。この問題
点に対処するため、従来よりいわゆるマルチテンプレー
トと呼ばれる方法が採用されてきた。マルチテンプレー
トは、標準パタンを作成するために複数の標準話者音声
を用いて複数の特徴ベクトルに変換し、これを用いて標
準パタンの各時刻の特徴を複数の特徴ベクトルで表現す
るように構成する。距離計算時は、各時刻において１つ
の入力の特徴ベクトルと複数の標準パタンの特徴ベクト
ルとの間の全ての組み合わせについて距離または類似度
を求め、そのなかから最適なものを一つ採用する、いわ
ゆるビタビアルゴリズムや、あるいは全ての距離または
類似度間の重み付け和で表す、いわゆるＢａｕｍ−Ｗｅ
ｌｃｈアルゴリズムやｓｅｍｉ−ｃｏｎｔｉｎｕｏｕｓ
（半連続）方式などで行なっていた。

【０００４】

【発明が解決しようとする課題】しかしながら、従来の
音声認識における距離計算方法は、例えマルチテンプレ
ートであっても、音声の異なりを空間上の離散的な点で
のみ表現し、距離または類似度はその点に対する有限個
の組合せのなかからのみ計算しており、連続的に変化す
るような事象に対しては、その全ての事象を表現するに
は充分でない場合が多く、高い認識性能が得られなかっ
た。このような事象の例として、例えば、十分大きな周
囲雑音が存在するなかで行なう音声認識が挙げられる。
周囲雑音が存在すると入力音声のスペクトルにおいては
雑音のスペクトルが加法的に加わり、しかもそのレベル
は音声の各時刻において異なっており、事前に予測する
ことが出来ない。例えば、従来、この問題点に対して標
準パタン音声を有限個の数種類のＳＮＲ（音声対雑音
比）で作成し、ＳＮＲ条件が異なるマルチテンプレート
で音声認識を行なう方式が公知となっている。

【０００５】しかし、入力音声のＳＮＲはそもそも無限
の組み合わせが存在し、また事前に予測することが困難
であるため、有限個のテンプレートで対処することは原
理的に不可能である。また、連続的な変化を十分多くの
離散点で表現し、近似的に無視できるほど精度を高める
ことは一見可能であるように思われるが、例えばＳＮＲ
条件において、あらゆる雑音環境下で、全てのＳＮＲを
覆い尽くす程多量の音声を多数話者で収集することはデ
ータ収集のコストの観点から実用上不可能である。ま
た、可能であったとしても、連続的な事象を多くの点で
表現するのに要するメモリ量、距離計算量は膨大であ
り、引いては廉価な装置を提供することが出来ない。

【０００６】この他音声の特徴が連続的に変化する事象
の例としては、雑音下で発声された音声自体、話者が雑
音を聞くことによって変形するいわゆるＬｏｍｂａｒｄ
効果や、極めて多数の話者の音声に対する特徴の変化な
どが挙げられる。

【０００７】本発明の目的は、音声の特徴が各時刻にお
いて連続的に変化する事象に対して、その変化の範囲を
２つの両端のベクトルの組で記述し、２つのベクトルで
規定される線分に対して、この線分内を自由に動けるベ
クトルを用いて距離計算を行なうことができ、従来にな
い高性能な音声認識装置を実現することができる音声認
識装置を提供することにある。

【０００８】また本発明の第２の目的は上記した高性能
な装置を廉価に提供することにある。

【０００９】ところで、この線分内を自由に動けるベク
トルを用いて距離計算を行なう方式に関しては特願昭５
６−２１０２００号公報に開示されており、特公平１−
２８９６０号公報には上記距離計算を行なう方式の具体
的な利用方法が示されている。上記した２つの公知例の
目的は、時間方向に離散的な表現された特徴ベクトルに
関する距離計算を高精度に行なうことにあり、本発明の
目的と同じである。ただ、同一時刻において連続的に変
化する事象に対処するという点で本発明と上記した２つ
の公知例とは本質的に異なっており、また構成も異なる
ものとなっている。

【００１０】

【課題を解決するための手段】本発明による第１の音声
認識装置は、入力音声の各時刻の特徴を特徴ベクトルの
時系列として出力する分析部（図１の１１）と、標準話
者音声の各時刻の特徴を予め複数の異なった特徴ベクト
ルに変換し、多重化特徴ベクトルの時系列として蓄積し
た多重化標準パタン（図１の１２）と、入力音声の特徴
ベクトルの時系列と多重化標準パタンの複数の特徴ベク
トルの時系列とのマッチングにおける各時刻の類似度ま
たは距離値が、多重化標準パタンの多重化特徴ベクトル
のうちの２点を結ぶ線分と入力音声の特徴ベクトルとの
間で計算されるマッチング部（図１の１３）とで構成さ
れる。

【００１１】本発明による第２の音声認識装置は、入力
音声の各時刻の特徴を複数の異なった特徴ベクトルに変
換し、多重化特徴ベクトルの時系列として出力する多重
化分析部（図２の２１）と、標準話者音声を予め特徴ベ
クトルの時系列に変換して蓄積した標準パタン（図２の
２２）と、入力音声の多重化特徴ベクトルの時系列と標
準パタンの特徴ベクトルの時系列とのマッチングにおけ
る各時刻の類似度または距離値が、入力音声の多重化特
徴ベクトルのうちの２点を結ぶ線分と標準パタンの特徴
ベクトルとの間で計算されるマッチング部（図２の２
３）とで構成される。

【００１２】本発明による第３の音声認識装置は、本発
明による第１または第２の音声認識装置の入力音声の多
重化特徴ベクトルまたは多重化標準パタンの多重化特徴
ベクトルが、異なったレベルの雑音を付加することによ
り生成されるような構成となる。

【００１３】本発明による第４の音声認識装置は、本発
明による第２の音声認識装置に加えて入力音声をスペク
トルに変換した後にスペクトルサブトラクションを行な
うスペクトルサブトラクション部（図３の３０）を有
し、多重化分析部（図３の３１）はスペクトルサブトラ
クション部が出力するスペクトルに異なったレベルの白
色雑音を付加することにより、入力音声の多重化特徴ベ
クトルを生成するような構成となる。

【００１４】本発明による第５の音声認識装置は、本発
明による第２の音声認識装置に加えて入力音声をスペク
トルに変換した後にスペクトルサブトラクションを行な
うスペクトルサブトラクション部を有し、多重化分析部
はスペクトルサブトラクション部が出力するスペクトル
に対して異なったレベルの底上値（ｆｌｏｏｒｉｎｇｖ
ａｌｕｅ）を用いることにより、入力音声の多重化特徴
ベクトルを生成するような構成となる。

【００１５】本発明による第６の音声認識装置は、入力
音声の各時刻の特徴を特徴ベクトルの時系列として出力
する分析部（図４の４１）と、入力音声から周囲雑音を
抽出する雑音抽出部（図４の４２）と、標準話者音声を
予め特徴ベクトルの時系列に変換して蓄積した標準パタ
ン（図４の４３）と、雑音抽出部が抽出した雑音のレベ
ルを変化させて、標準パタンに加えることにより複数の
異なった特徴ベクトルを生成し、多重化標準パタン（図
４の４５）として蓄積する標準パタン変換部（図４の４
４）と、入力音声の特徴ベクトルの時系列と多重化標準
パタンの複数の特徴ベクトルの時系列とのマッチングに
おける各時刻の類似度または距離値が、多重化標準パタ
ンの多重化特徴ベクトルのうちの２点を結ぶ線分と入力
音声の特徴ベクトルとの間で計算されるマッチング部
（図４の４６）とで構成される。

【００１６】本発明による第７の音声認識装置は、本発
明による第１〜６の音声認識装置のマッチング部におけ
る各時刻の類似度または距離値が、１つのベクトル（図
５のＸ）と２つの両端点ベクトル（図５のＹ1 、Ｙ2 ）
で表される線分との間で求められ、１つのベクトルから
当該線分に対して垂線が下ろせる場合はその垂線の長さ
を用いて類似度または距離値を計算し、垂線が下ろせな
い場合は１つのベクトルから線分の両端点への長さのう
ち短い方を用いて類似度または距離値を計算するような
構成となる。

【００１７】

【作用】本発明は、従来の方式が有していた問題点、す
なわち標準パタンまたは入力音声の各時刻の特徴がパタ
ン空間上の離散的な点の集合でしか表すことができず、
連続的に変化する事象を表現することが出来ないため、
高い性能を得られない場合があるという問題点を解決す
るものである。すなわち、本発明は、入力音声または標
準パタンの各時刻の特徴をパタン空間上の両端を持った
線分として表現し、マッチング時には、点と線分との間
で距離計算を行なうようにしたもので、その効果として
各時刻において連続的に変化する事象を充分高い精度で
取り扱うことが出来、高い音声認識性能を得るものであ
る。以下、本発明の作用を本発明の第１の音声認識装置
を例にとり説明する。

【００１８】本発明の第１の音声認識装置は、従来のマ
ルチテンプレート方式が標準パタンの各時刻の特徴を離
散的な点の集合で表現していたものを、パタン空間上の
両端点で規定される線分または線分の集合で表現するも
のである。すなわち、図１において、分析部１１は、入
力音声の各時刻の特徴を特徴ベクトルの時系列として出
力する。この分析方法はこれまで種々の方法が公知とな
っており、その全てを説明することは行なわないが、音
声の特徴ベクトルを出力するものであればどのような方
式も用いることができる。一方、標準話者音声は、分析
部１１と同様の分析方法で分析されるが、各時刻の特徴
が変化し得る範囲の両端点またはその集合となるような
分析を行なう。例えば周囲雑音を例に説明すると、入力
音声に起こり得るＳＮＲを例えば、０ｄＢ〜４０ｄＢの
範囲で定め、両端としてＳＮＲが０ｄＢの場合とＳＮＲ
が４０ｄＢの場合の２種類の音声を特徴ベクトルに変換
し、これを多重化標準パタン１２として蓄積する。この
例では１組の両端点で表現したが、例えば、０ｄＢ〜４
０ｄＢの範囲を４分割し、４つの両端点の組で表現する
ことももちろん可能である。１組の場合、多重化標準パ
タン１２の両端点の多重化特徴ベクトルの時系列をＹ₁
(j) 、Ｙ₂(j) （ｊ＝０，１，…，Ｊ）とし、入力音声
の特徴ベクトルの時系列をＸ(i)(ｉ＝０，１，…，Ｉ）
とする。マッチング部１３は、長さの異なる２種類のパ
タンの間で時間方向の非線形伸縮を行なうようなマッチ
ングを行なう。このマッチングを行なうアルゴリズムと
しては、例えばＤＰマッチングやＨＭＭなどが挙げられ
る。このアルゴリズムのいずれの方法においても入力と
標準パタンのそれぞれの時間方向で規定される２次元格
子上の格子点距離を求めることが必要となる。今、ある
格子点（ｉ，ｊ）における距離計算を考える。ここでベ
クトルＸ(i) と空間上の両端点Ｙ₁(j) 、Ｙ₂(j) で表
される線分との距離を求めるが、上記従来技術に用いら
れた方式と同様に、まず以下の数１に示す３式から３点
間の距離を求める。

【００１９】

【数１】ここでｄ（Ｖ，Ｗ）は、２点Ｖ、Ｗ間の２乗距離を求め
る操作を表すものとする。次に、以下の数２に示すよう
にこの距離を基に、Ｘ(i) から線分（Ｙ₁(j) 、Ｙ
₂(j) ）に垂線が下ろせる場合の２乗距離Ｚを計算す
る。

【００２０】

【数２】最終的な２乗距離Ｄは、以下の表１に示すように垂線が
下ろせる場合と下ろせない場合の大小関係により決定さ
れる。

【００２１】

【表１】このような距離計算方法を用いることで、例えば０ｄＢ
〜４０ｄＢの間の中間的なＳＮＲの入力音声に対しても
常に最適な標準パタンが連続的な意味で選択されるた
め、精度の高い距離計算が可能であり、引いては高性能
な音声認識装置の提供が可能となる。

【００２２】

【発明の実施の形態】以下、図１から図５を参照しなが
ら本発明の実施の形態について説明する。最初に本発明
の第１の実施の形態について図１を参照して説明する。
図１は本発明の第１の実施の形態における音声認識装置
の構成を示すブロック図である。この音声認識装置は、
入力音声の各時刻の特徴を特徴ベクトルの時系列として
出力する分析部１１と、標準話者音声の各時刻の特徴を
予め複数の異なった特徴ベクトルに変換し、多重化特徴
ベクトルの時系列として蓄積した多重化標準パタン１２
と、入力音声の特徴ベクトルの時系列と多重化標準パタ
ン１２の複数の特徴ベクトルの時系列とのマッチングに
おける各時刻の類似度または距離値が、多重化標準パタ
ン１２の多重化特徴ベクトルのうちの２点を結ぶ線分と
入力音声の特徴ベクトルとの間で計算されるマッチング
部１３とで構成される。

【００２３】この音声認識装置は、従来のマルチテンプ
レート方式が標準パタンの各時刻の特徴を離散的な点の
集合で表現していたものを、パタン空間上の両端点で規
定される線分または線分の集合で表現するものである。
分析部１１は、入力音声の各時刻の特徴を特徴ベクトル
の時系列として出力する。この分析方法はこれまで種々
の方法が公知となっており、その全てを説明することは
行なわないが、音声の特徴ベクトルを出力するものであ
ればどのような方式も用いることができる。一方、標準
話者音声は、分析部１１と同様の分析方法で分析される
が、各時刻の特徴が変化し得る範囲の両端点またはその
集合となるような分析を行なう。例えば周囲雑音レベル
の場合を一例として説明すると、入力音声に起こり得る
ＳＮＲを例えば、０ｄＢ〜４０ｄＢの範囲で定め、両端
としてＳＮＲが０ｄＢの場合とＳＮＲが４０ｄＢの場合
の２種類の音声を特徴ベクトルに変換し、これを多重化
標準パタン１２として蓄積する。この他、各時刻の特徴
が連続的に変化する事象として種々のものが考えられ
る。その例として、高騒音下において話者自身の発声が
変化する現象（いわゆるＬｏｍｂａｒｄ効果）、多数話
者で構成された音響空間上の変化などが挙げられる。こ
の例では１組の両端点で表現した場合を示したが、例え
ば、０ｄＢ〜４０ｄＢの範囲を４分割し、４つの両端点
の組またはそれらを接続して折れ線近似で表現すること
ももちろん可能である。またここでは標準パタンとして
特徴ベクトルそのものを用いる場合を示すが、ＨＭＭな
どのように平均ベクトルとその分散などで表現しても良
い。多重化標準パタン１２の両端点の多重化特徴ベクト
ルの時系列を例えば１組で表現する場合、その両端点ベ
クトルの時系列をＹ₁(j) 、Ｙ₂(j) （ｊ＝０，１，
…，Ｊ）として記憶する。マッチング部１３は、長さの
異なる２種類のパタンの間で時間方向の非線形伸縮を行
なうようなマッチングを行なう。このマッチングを行な
うアルゴリズムとしては、例えばＤＰマッチングやＨＭ
Ｍなどが挙げられる。このアルゴリズムのいずれの方法
においても入力と標準パタンのそれぞれの時間方向で規
定される２次元格子上の格子点距離を求めることが必要
となる。各格子点（ｉ，ｊ）において、類似度または距
離値が、多重化標準パタンの多重化特徴ベクトルのうち
の２点を結ぶ線分と入力音声の特徴ベクトルとの間で計
算される。特徴ベクトルの多重化はベクトル全体に対し
て行なっても良いし、または一部のみについて行なうこ
とももちろん可能である。マッチング部１３は最終的に
累積の類似度が最大または距離が最小となる標準パタン
のカテゴリあるいはカテゴリ列を認識結果と出力する。

【００２４】次に、本発明の第２の実施の形態における
音声認識装置ついて図２を参照して説明する。図２は本
発明の第２の実施の形態における音声認識装置の構成を
示すブロック図である。この音声認識装置は、入力音声
の各時刻の特徴を複数の異なった特徴ベクトルに変換
し、多重化特徴ベクトルの時系列として出力する多重化
分析部２１と、標準話者音声を予め特徴ベクトルの時系
列に変換して蓄積した標準パタン２２と、入力音声の多
重化特徴ベクトルの時系列と標準パタン２２の特徴ベク
トルの時系列とのマッチングにおける各時刻の類似度ま
たは距離値が、入力音声の多重化特徴ベクトルのうちの
２点を結ぶ線分と標準パタン２２の特徴ベクトルとの間
で計算されるマッチング部２３とで構成される。

【００２５】この音声認識装置は、従来入力音声が１種
類の時系列特徴ベクトルとして各時刻において空間上の
１点で表現していたものを各時刻で起こり得る変化の両
端点で規定される線分またはその集合で表現し、音声認
識を行なうものである。多重化分析部２１は、入力音声
の各時刻の特徴を両端点あるいはその集合で表現し多重
化特徴ベクトルの時系列として出力する。分析方法につ
いては、音声の特徴ベクトルを出力するものであればど
のような方式も用いることができる。一方、標準話者音
声は、分析部２１と同様の分析方法で分析されるが、多
重化は行なわれておらず、従来用いられてきたＤＰマッ
チングのための標準パタンやＨＭＭのための標準パタン
等で構成される。

【００２６】次に、本発明の第３の実施の形態における
音声認識装置について説明する。この音声認識装置は、
上記した第１又は第２の実施の形態における音声認識装
置の入力音声の多重化特徴ベクトルまたは多重化標準パ
タンの多重化特徴ベクトルが、異なったレベルの雑音を
付加することにより生成されるような構成となってい
る。

【００２７】入力音声の多重化の例としては、本実施の
形態における音声認識装置で実現されているように連続
的に変化する付加雑音レベルが挙げられる。これは入力
音声は真の（雑音に汚辱されていない）音声にレベル未
知のホワイトノイズが加わっているという仮定を利用
し、多重化分析部２１では逆に入力音声から上限と下限
を定めたホワイトノイズを引き、空間上の両端点で表現
することができる。いま、入力音声のスペクトルの時系
列をｙ(j) とするとき、差し引くホワイトノイズレベル
の両端で生成される特徴ベクトルの時系列をＹ₁(j) 、
Ｙ₂(j) は、例えば以下の数３に示すように生成する。

【００２８】

【数３】ここで、Ｃ｛．｝はスペクトルを最終的な特徴ベクトル
に変換するための関数であり、ｗ₁，ｗ₂はホワイトノ
イズレベルの上限と下限である。このようになすこと
で、入力音声のホワイトノイズレベルが未知であって
も、規定された範囲内であれば、正しく除去されてる１
点が含まれていることになる。ここでは、ホワイトノイ
ズを例に説明したが、この他入力の音声のない位置で求
めた雑音を用いても良い。また、多重化特徴ベクトルと
して１対の場合を説明したが、複数対で表現しても良
い。マッチング部２３は、長さの異なる２種類のパタン
の間で時間方向の非線形伸縮を行なうようなマッチング
を行なう。このマッチングを行なうアルゴリズムとして
は、例えばＤＰマッチングやＨＭＭなどが挙げられる。
このアルゴリズムのいずれの方法においても入力と標準
パタンのそれぞれの時間方向で規定される２次元格子上
の格子点距離を求めることが必要となる。各格子点
（ｉ，ｊ）において、類似度または距離値が、入力音声
の多重化特徴ベクトルのうちの２点を結ぶ線分と標準パ
タン２２の特徴ベクトルとの間で計算される。マッチン
グ部２３は最終的に累積の類似度が最大または距離が最
小となる標準パタンのカテゴリあるいはカテゴリ列を認
識結果と出力する。

【００２９】次に、本発明の第４及び第５の実施の形態
について図３を参照して説明する。図３は本発明の第４
及び第５の音声認識装置の実施の形態を示すブロック図
である。この音声認識装置は、上記した第２の実施の形
態（図２参照）における音声認識装置の構成に加えて入
力音声をスペクトルに変換した後にスペクトルサブトラ
クションを行なうスペクトルサブトラクション部３０を
有する。多重化分析部３１は、第４の実施の形態におけ
る音声認識装置を構成する場合にはスペクトルサブトラ
クション部３０が出力するスペクトルに異なったレベル
の白色雑音を付加することにより、入力音声の多重化特
徴ベクトルを生成するような構成となっている。

【００３０】第５の実施の形態における音声認識装置を
構成する場合にはスペクトルサブトラクション部３０が
出力するスペクトルに対して異なったレベルの底上値
（ｆｌｏｏｒｉｎｇｖａｌｕｃ）を用いることによ
り、入力音声の多重化特徴ベクトルを生成するような構
成となっている。

【００３１】スペクトルサブトラクション部３０は、以
下の数４に示すように入力音声のスペクトル時系列ｙ
(j) から推定した周囲雑音のスペクトルｎを差し引い
て、雑音除去後のスペクトルｙ′(j) を生成する。

【００３２】

【数４】周囲雑音ｎの推定はこれまで種々の方法が提案されてお
り、ここで全てを説明することは行なわないが、例え
ば、音声検出と連動して、発声の直前の部分の平均スペ
クトルを用いる方法や音声検出には関係なく時定数が充
分大きな回帰平均を用いる方法なとがある。この他、ス
ペクトルサブトラクションに用いることの可能な方法で
あればどのような方法でも用いることができる。多重化
分析部３１は、上記した第４の実施の形態における音声
認識装置を構成する場合にはスペクトルサブトラクショ
ン部３０が出力するスペクトルに異なったレベルの白色
雑音を付加することにより、入力音声の多重化特徴ベク
トルを生成する。すなわち、スペクトルサブトラクショ
ン後のスペクトルｙ′(t) は、負になるコンポーネント
を含んでおり、特徴ベクトルにケプストラムや対数スペ
クトルを用いる場合には、対数の入力値の制限として正
の実数に変換する操作が必要となる。この操作の一例と
して、以下の数５に示すような操作を行う。

【００３３】

【数５】Ｃlip ［．］は、予め定められた０または正の値以下の
コンポーネントをその値に置換する操作を表し、θは付
加ホワイトノイズである。θを加える目的は、特徴ベク
トルへの変換のために行なわれる対数の動作点を調整す
るためのものである。例えば、θが大きな値をとると動
作点が大きくなり、対数化後のパタンの凹凸が小さくな
るが、逆に小さいと凹凸が大きくなるという効果を有す
る。この効果を用いれば、雑音のように音声認識に必要
ない部位は動作点を大きくとり、すなわち対数化後のパ
タンの凹凸を小さくすることで雑音を抑圧し、音声の場
合はなるべく特徴が現れやすいように対数化後のパタン
の凹凸を大きく（動作点を小さく）することが有効であ
る。しかし、この処理を行なう時点では入力音声が雑音
であるか音声であるかは決定できず、例え出来たとして
も完全には行なえないため、本発明ではこのような不確
定な決定を用いず、抑圧を最も大きくした場合と最も小
さくした場合の両端点を多重化特徴ベクトルで表現し、
マッチング時に最適な抑圧量を決定する。すなわち、抑
圧が最大となるθ₁と最小となるθ₂を用い、多重化の
ための２種類のスペクトルを以下の数６、数７に示すよ
うに求める。このスペクトルを用いて最終的な多重化特
徴ベクトルに変換する。

【００３４】

【数６】

【００３５】

【数７】一方、多重化分析部３１が、上記した第５の実施の形態
における音声認識装置を構成する場合にはスペクトルサ
ブトラクション部３０が出力するスペクトルに対して異
なったレベルの底上値（ｆｌｏｏｒｉｎｇｖａｌｕ
ｅ）を用いることにより、入力音声の多重化特徴ベクト
ルを生成する。すなわち、スペクトルサブトラクション
後のスペクトルｙ′(t) は、負になるコンポーネントを
含んでおり、特徴ベクトルにケプストラムや対数スペク
トルを用いる場合には、対数の入力値の制限として正の
実数に変換する操作が必要となる。この操作の一例とし
て、例えばＭ．Ｂｅｒｏｕｔｉ，Ｒ．Ｓｃｈｗａｒｔ
ｚ，ａｎｄＪＭａｋｈｏｕｌ：“Ｅｎｈａｎｃｅｍ
ｅｎｔｏｆＳｐｅｅｃｈＣｏｒｒｕｐｔｅｄｂ
ｙＡｃｏｕｓｔｉｃＮｏｉｓｅ”，ＩＣＡＳＳＰ，
ｐｐ．２０８−２１１ (１９７９）．（以下引用文献
［２］とする）に述べられている方法では、以下の数８
に示すように各コンポーネントｋ毎に最低値βｎ_kを定
め、この値以下のコンポーネントは全て最低値に置換す
る、いわゆる底上げを行なっている。

【００３６】

【数８】ただし、ｋはスペクトルのコンポーネントを示す添字、
ｎは推定した雑音のスペクトル、βは１より充分小さい
定数とする。このような処理を行なうことで対数の入力
値として正のものが与えられ、計算不能となることを防
ぐことができるが、同時にβの大小によることにより対
数化後のスペクトルの凹凸が変化し、その決定が困難と
なる。この問題は本発明の第４の音声認識装置が解決し
た問題と本質的に同一の問題であり、βの最適値は雑音
部分であるか音声部分であるかによって変化し、また音
声全体のＳＮＲによっても変化するため、この処理の際
に一意には決定できない。そこで、抑圧が最大となるβ
₁と最小となるβ₂を用い、多重化のための２種類のス
ペクトルを以下の数９、数１０に示すように求める。

【００３７】

【数９】

【００３８】

【数１０】このスペクトルを用いて最終的な多重化特徴ベクトルに
変換する。ここでは底上げ方法として引用文献［２］に
述べられている方法を示したが、以下の数１１に示すよ
うな方法も可能であり、この他スペクトルサブトラクシ
ョン処理に用いられる方法であればどのような方法も用
いることができる。

【００３９】

【数１１】次に、本発明の第６の実施の形態における音声認識装置
について図４を参照して説明する。図４は本発明の第６
の実施の形態における音声認識装置の構成を示すブロッ
ク図である。この音声認識装置は、入力音声の各時刻の
特徴を特徴ベクトルの時系列として出力する分析部４１
と、入力音声から周囲雑音を抽出する雑音抽出部４２
と、標準話者音声を予め特徴ベクトルの時系列に変換し
て蓄積した標準パタン４３と、雑音抽出部４２が抽出し
た雑音のレベルを変化させて、標準パタンに加えること
により複数の異なった特徴ベクトルを生成し、多重化標
準パタン４５として蓄積する標準パタン変換部４４と、
入力音声の特徴ベクトルの時系列と多重化標準パタン４
５の複数の特徴ベクトルの時系列とのマッチングにおけ
る各時刻の類似度または距離値が、多重化標準パタン４
５の多重化特徴ベクトルのうちの２点を結ぶ線分と入力
音声の特徴ベクトルとの間で計算されるマッチング部４
６とで構成される。

【００４０】この音声認識装置は、入力音声から例えば
発声の直前のスペクトル形状から雑音を推定し、その雑
音を用いて標準パタンを入力と同一の雑音環境なるよう
に変換し、認識を行なう方法である。雑音推定時は音声
と雑音との大きさの相対関係（すなわちＳＮＲ）が不明
であるため標準パタンのＳＮＲを一意に決定することが
出来ない。そのため、標準パタン４３をＳＮＲにおいて
最大値と最小値の両端点で規定される多重化特徴ベクト
ルで記述する。いま、入力音声の例えば発声直前で求め
た雑音のスペクトルをｎとすると、標準パタン変換部４
４は、標準パタン４２のスペクトルの時系列ｙ(j) を両
端点のＳＮＲに相当する係数α₁とα₂を用いて、以下
の数１２、数１３に示すように多重化標準パタンのスペ
クトルｙ′₁(j) 、ｙ′₂(j) に変換する。

【００４１】

【数１２】

【００４２】

【数１３】この多重化スペクトル時系列を最終的な特徴ベクトルの
時系列に変換して多重化標準パタン４５として蓄積し、
マッチングを行なう。

【００４３】次に、本発明の第７の実施の形態における
音声認識装置について図５を参照して説明する。図５は
本発明の音声認識装置におけるマッチング部の原理を示
す図である。本実施の形態における音声認識装置は、本
発明による上記した第１〜第６の実施の形態における音
声認識装置のマッチング部における各時刻の類似度また
は距離値が、１つのベクトル（図５のＸ）と２つの両端
点ベクトル（図５のＹ1 、Ｙ2 ）で表される線分との間
で求められ、１つのベクトルから当該線分に対して垂線
が下ろせる場合はその垂線の長さを用いて類似度または
距離値を計算し、垂線が下ろせない場合は１つのベクト
ルから線分の両端点への長さのうち短い方を用いて類似
度または距離値を計算するような構成となる。

【００４４】具体的には、ベクトルＸ(i) と空間上の両
端点Ｙ₁(j) 、Ｙ₂(j) で表される線分との距離を求め
るが、まず上記した従来技術に用いられた方式と同様
に、以下の数１４に示す式から３点間の距離を求める。

【００４５】

【数１４】ここで、ｄ（Ｖ，Ｗ）は、２点Ｖ、Ｗ間の２乗距離を求
める操作を表すものとする。次に、以下の数１５に示す
ようにこの距離を基に、Ｘ(i) から線分（Ｙ₁(j) ，Ｙ
₂(j) ）に垂線が下ろせる場合（図５の左）の２乗距離
Ｚを計算する。

【００４６】

【数１５】最終的な２乗距離Ｄは、以下の表２に示すように垂線が
下ろせる場合と下ろせない場合（図５の右）に相当する
以下のような大小関係により決定される。

【００４７】

【表２】

【００４８】

【発明の効果】以上から明らかなように、本発明によれ
ば、各時刻において連続的に変化するような事象をパタ
ン空間上の両端点で規定される線分または線分の集合で
表現し、距離計算時にはベクトルと線分との間で最適と
なる距離または尤度を計算することにより、高性能な音
声認識装置を提供することが可能となった。

【００４９】また、従来の方法におけるマルチテンプレ
ート方式では変化の範囲を充分広く表現するためには多
くのサンプル点が必要となり、これに要するメモリ量、
距離計算量が膨大となり、廉価な装置を提供出きなかっ
た（例えば各時刻において１０個のサンプル点で表現し
た場合には１０回の距離計算と１０点分のメモリが必要
となる）ものが、本発明によれば、１つの線分とベクト
ルとの距離計算に掛かる計算量は３回の距離計算で、メ
モリ量は２点分であり、より低価格な装置の提供が可能
となる。

【図面の簡単な説明】

【図１】本発明の第１の実施の形態における音声認識装
置の構成を示すブロック図である。

【図２】本発明の第２の実施の形態における音声認識装
置の構成を示すブロック図である。

【図３】本発明の第４及び第５の実施の形態における音
声認識装置の構成を示すブロック図である。

【図４】本発明の第６の実施の形態における音声認識装
置の構成を示すブロック図である。

【図５】本発明に係る音声認識装置の距離計算の原理を
示す図である。

【符号の説明】

１１，４１分析部１２，４５多重化標準パタン１３，２３，３３，４６マッチング部２１，３１多重化分析部２２，３２，４３標準パタン３０スペクトルサブトラクション部４２雑音抽出部４４標準パタン変換部Ｙ₁，Ｙ₂ 両端点特徴ベクトルＸ特徴ベクトル

Claims

【特許請求の範囲】

【請求項１】入力音声の各時刻の特徴を特徴ベクトル
の時系列として出力する分析部と、標準話者音声の各時
刻の特徴を予め複数の異なった特徴ベクトルに変換し、
多重化特徴ベクトルの時系列として蓄積した多重化標準
パタンと、前記入力音声の特徴ベクトルの時系列と前記
多重化標準パタンの複数の特徴ベクトルの時系列とのマ
ッチングにおける各時刻の類似度または距離値が、前記
多重化標準パタンの多重化特徴ベクトルのうちの２点を
結ぶ線分と入力音声の特徴ベクトルとの間で計算される
マッチング部を具備して構成されたことを特徴とする音
声認識装置。
【請求項２】入力音声の各時刻の特徴を複数の異なっ
た特徴ベクトルに変換し、多重化特徴ベクトルの時系列
として出力する多重化分析部と、標準話者音声を予め特
徴ベクトルの時系列に変換して蓄積した標準パタンと、
前記入力音声の多重化特徴ベクトルの時系列と前記標準
パタンの特徴ベクトルの時系列とのマッチングにおける
各時刻の類似度または距離値が、入力音声の多重化特徴
ベクトルのうちの２点を結ぶ線分と標準パタンの特徴ベ
クトルとの間で計算されるマッチング部を具備して構成
されたことを特徴とする音声認識装置。
【請求項３】前記入力音声の多重化特徴ベクトルまた
は前記多重化標準パタンの多重化特徴ベクトルが、異な
ったレベルの雑音を付加することにより生成されること
を特徴とする請求項１または２記載の音声認識装置。
【請求項４】前記入力音声をスペクトルに変換した後
にスペクトルサブトラクションを行なうスペクトルサブ
トラクション部を有し、前記多重化分析部は前記スペク
トルサブトラクション部が出力するスペクトルに異なっ
たレベルの白色雑音を付加することにより、前記入力音
声の多重化特徴ベクトルを生成することを特徴とする請
求項２記載の音声認識装置。
【請求項５】前記入力音声をスペクトルに変換した後
にスペクトルサブトラクションを行なうスペクトルサブ
トラクション部を有し、前記多重化分析部は前記スペク
トルサブトラクション部が出力するスペクトルに対して
異なったレベルの底上値（ｆｌｏｏｒｉｎｇｖａｌｕ
ｅ）を用いることにより、前記入力音声の多重化特徴ベ
クトルを生成することを特徴とする請求項２記載の音声
認識装置。
【請求項６】入力音声の各時刻の特徴を特徴ベクトル
の時系列として出力する分析部と、前記入力音声から周
囲雑音を抽出する雑音抽出部と、標準話者音声を予め特
徴ベクトルの時系列に変換して蓄積した標準パタンと、
前記雑音抽出部が抽出した雑音のレベルを変化させて、
前記標準パタンに加えることにより複数の異なった特徴
ベクトルを生成し、多重化標準パタンとして蓄積する標
準パタン変換部と、前記入力音声の特徴ベクトルの時系
列と前記多重化標準パタンの複数の特徴ベクトルの時系
列とのマッチングにおける各時刻の類似度または距離値
が、前記多重化標準パタンの多重化特徴ベクトルのうち
の２点を結ぶ線分と入力音声の特徴ベクトルとの間で計
算されるマッチング部を具備して構成されたことを特徴
とする音声認識装置。
【請求項７】前記マッチング部における各時刻の類似
度または距離値が、１つのベクトルと２つの両端点ベク
トルで表される線分との間で求められ、当該１つのベク
トルから当該線分に対して垂線が下ろせる場合はその垂
線の長さを用いて類似度または距離値を計算し、垂線が
下ろせない場合は当該１つのベクトルから当該線分の両
端点への長さのうち短い方を用いて類似度または距離値
を計算することを特徴とする請求項１乃至６のいずれか
一つに記載の音声認識装置。