JPH03120434A

JPH03120434A - 音声認識装置

Info

Publication number: JPH03120434A
Application number: JP25702489A
Authority: JP
Inventors: Yoichi Takebayashi; 洋一竹林; Hiroyuki Tsuboi; 宏之坪井; Hiroshi Kanazawa; 博史金澤
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1989-10-03
Filing date: 1989-10-03
Publication date: 1991-05-22

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】［発明の目的］（産業上の利用分野）本発明は単語音声等に対する認識性能を効果的に高める
ことのできる音声認識装置に関する。

（従来の技術）マンマシン・インターフェースを実現する重要な技術の
１つに音声認識処理があり、従来より種々の研究開発が
なされている。この種の音声認識処理は、従来一般的に
は入力音声データに対するＬＰＣ分析やケプストラム分
析等の信号処理や、音声スペクトルのホルマント抽出等
の前処理を行うことでその特徴情報を求めて行われてい
る。これらの手法は、例えば狭帯域通信の為の音声の帯
域圧縮や音声合成等の技術分野においても幅広く用いら
れている。

然し乍ら、これらの手法を音声認識処理の為の前処理と
して考えた場合、必ずしも最良であるとは云う難い。特
に音声認識の応用場面においては、その周囲の環境騒音
や音響伝達特性等の影響が無視できないことが多くあり
、上述した手法では問題が生じることが否めない。

例えばＬＰＧ分析は、声道を全極型として仮定した音声
の生成モデルに立脚してなされる音声分析の手法である
。具体的にはこのＬＰＧ分析は、音声の基本周波数（ピ
ッチ周波数）の影響を除去し、音声の周波数スペクトル
の概形（包絡成分）を複数の極にて近似することで、そ
の音声の特徴を理想モデルとして表現するものである。

この為、上述した音声認識の応用場面における環境騒音
下では、ＬＰＧ分析の前提となる理想環境下での音声生
成モデルが適合しなくなる。これ故、実際の音声認識環
境ではＬＰＧパラメータの抽出精度が著しく低下し、十
分なる認識性能を確保することが困難となる。

またケプストラム分析により求められるケプストラム係
数も、上述したＬＰＣパラメータと同様に音声ピッチの
影響を除去し、そのスペクトラム包絡から求められるも
のである。これ故、音声の帯域圧縮等りこは非常に有効
ではあるが、周囲雑音の影響を受けやすい環境下での音
声認識に適用するには問題がある。

更にはホルマント抽出に基づく前処理にあっても、騒音
環境下ではホルマント抽出エラーが生じ品い。またフィ
ルタ分析による手法にあっても、通常、その分析チャネ
ル数を６〜３０ｃｈ程度として音声の情報量を圧縮し、
これによってスペクトルの概形を求めているので、騒音
や音響伝達特性の影響が及ぶことが避けられない。

このように従来一般的に用いられている音声認識の為の
前処理は、その音声スペクトルの概形を抽出してデータ
圧縮することを目的としてなされているに過ぎず、騒音
等に対する性能に関しての配慮はなされていないと云え
る。換言すれば、従来一般的な音声認識の手法は、音声
の音韻的特徴を表すスペクトル包絡に着目し、上述した
分析処理を用いてその情報量を圧縮して音声認識処理に
用いている。これ故、応用場面での騒音や音響伝達特性
の影響を考慮した場合、種々の不具合が生じることが否
めなかった。

ところで音声認識処理は、典型的には第１２図（ａ）〜
（Ｃ）に示すようなパターン照合処理により行われる。

第１２図（ａ）に示す手法は、前述したＬＰＧ分析等に
より求められる入力音声パターンの次元数の低い特徴ベ
クトルをそのまま用いて辞書パターンとの照合を行うも
のである。このときの照合には、ＤＰマツチング法がし
ばしば用いられる。この認識処理に用いられる辞書につ
いては、単に標準パターンを蓄積（登録）することによ
りその学習が行われ、古典的な手法であると云える。

また第１２図（ｂ）に示す手法は、ＬＰＣ分析等が施さ
れた入力音声パターンから、予めその特徴抽出を行った
上でパターン照合処理を行うもので、統＝を的パターン
認識の典型的な例である。即ち、この処理は特徴抽出と
その特徴の類別と云う２段階の処理から１す、認識辞書
の学習は類別に関して行われる。このような手法によれ
ば、すべての単語クラスの音声パターンについて、その
特徴抽出による情報圧縮が成されるので高次元の特徴ベ
クトルを用いた認識処理が可能となると云う利点がある
。

更には第１２図（Ｃ）に示す手法は、文字認識や！１１
語音声認識等においてその有効性が注目されている複合
類似度法（部分空間法）を用いた例であり、入カバター
ンの類別処理および認識辞書の学習のそれぞれが特徴抽
出と一体的に処理される点を特徴としている。尚、認識
辞書の学習は、各単語クラス毎に独立にＫＬ展開を行う
ことで実現され、各音声クラスに属する多数個の高次元
の入力音声特徴ベクトルから、各クラスに属するパター
ンの本質的な特徴情報が求められる。しかしてこの第１
２図（Ｃ）に示す手法によれば、高次元の特徴ベクトル
を用いて入カバターンを高性能に認識することが可能と
なる。

しかして上述した第１２図（Ｃ）に示す手法を採用した
従°来一般的な音声認識装置では、例えば第１３図に示
すように入力音声データの時間的な音声パワーの変化か
らその音声区間を示す始端点Ｓと終端点Ｅとを検出し、
雑音の影響を排除してその音声区間検出を行っている。

そして入力音声データを分析してなる音声特徴パラメー
タの時系列、例えば１６チヤネルのフィルタバンク出力
から上記音声区間における音声特徴パラメータを、例え
ば時間軸方向に１６点に亘ってリサンプルし、これをそ
の特徴ベクトルとしてパターン照合処理（音声認識辞書
）に供するものとなっている。この例では、上記特徴ベ
クトルは周波数軸方向に１６チヤネル（１６次元）１時
間軸方向に１６次元の［１６Ｘ１６−２５６］次元の情
報として求められる。

ところが前述したように入力音声データを分析して求め
られる、例えば上記１６チヤネルのフィルタバンク出力
は、その音韻的特徴を表すスペクトル包絡に着目してデ
ータ圧縮したものであり、一般に音声認識には不要な韻
律的特徴を表す音声ピッチの情報（音声基本周波数）を
除去したものとなっている。むしろ音声ピッチ等の韻律
的特徴情報は、その音声認識処理において悪影響を及ぼ
すものとして積極的に除去されている。

この為、実験室や防音室内等の理想的環境下での音声認
識では、その理想モデルに従って効果的で高性能な音声
認識を行い得る、が、実際の応用面における騒音環境下
等にあっては、上述した如く求められる特徴ベクトルを
用いて理想モデルに基づく認識処理を行うことが困難と
なり、その認識性能が大幅に劣化する等の問題があった
。

（発明が解決しようとする課題）このように従来の音声認識装置にあっては、専ら音声デ
ータの特徴分析に基づく理想モデルでの解析に従い、音
声の類別に必要な音韻的特徴に着目して特徴ベクトルの
抽出を行って認識処理を行っているだけなので、実際的
に使用される騒音環境下での音声認識にあっては、騒音
や音響伝達特性の影響を受けて認識性能が劣化すると云
う不具合があった。

本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、音声認識処理における耐雑音性
の向上を図り、高騒音環境下における認識性能の向上を
図ってロバストな音声認識システムを構築するに有用な
音声認識装置を提供することにある。

［発明の構成］（課題を解決するための手段）本発明は、入力音声データを分析して求められる音声特
徴パラメータの時系列から音声特徴ベクトルを抽出し、
この音声特徴ベクトルを音声認識辞書との照合による認
識処理に供する音声認識装置に係り、特に上記音声特徴ベクトルを、例えば所定のフレーム周
期毎に入力音、声データを離散的フーリエ変換して求め
られる周波数スペクトルの情報に基づいて、その音声ピ
ッチ構造を表現し得る周波数スペクトルを含む周波数時
間軸スペクトルとして求めることを特徴とするものであ
る。

この際、例えば音声特徴パラメータの時系列として求め
られる周波数スペクトルの中のピッチ情報が顕著に表れ
ていない高域成分を統合することで、音声特徴ベクトル
の一部のベクトル要素を音声のピッチ情報を含まないも
のとして求め、これによってその音声特徴ベクトルの次
元数が徒に膨大化することを防ぐようにしたことを特徴
としている。

そしてこのようにして求められる音声特徴ベクトルに含
まれる音声のピッチ情報から、例えば入力音声データに
混入している雑音に影響されることのない音声認識を可
能とし、単語認識や入力音声データの母音や撥音等の静
的な音韻の高精度な認識を可能とするようにしたことを
特徴とするものである。

（作　用）本発明によれば、音声認識処理に用いられる入力音声デ
ータの音声特徴ベクトルとして、その入力音声データの
音声ピッチ構造を表現し得る周波数スペクトルを含む周
波数時間軸スペクトルを求め、これによって入力音声パ
ターンを表現するので、例えばそのホルマント周波数が
必ずしも明確でない場合であっても、その音声ピッチの
連続性や有声／無声の情報、更には入力音声エネルギー
（パワー）の時間的変化やその２スペクトルの動的な変
化を効果的に表現することが可能となる。

この結果、上述した音声のピッチ構造により示される音
韻的および韻律的な音声特徴を用いて入力音声データを
効果的に認識することが可能となり、また音声特徴ベク
トルの冗長度を高くして雑音の影響を受は難くし、類似
した認識対象カテゴリ間での識別性を高めて認識性能の
向上を図ることが可能となる。

（実施例）以下、図面を参照して本発明の一実施例に係る音声認識
装置につい、て説明する。

第１図は実施例装置の基本的な概略構成を示すブロック
図で、ｌは認識処理や後述する認識辞書の学習に供され
る音声データを入力する音声入力部である。この音声入
力部ｌは、例えばマイクロフォン等を介して入力される
音声データの、実質的に音声認識処理には用いられない
高周波数成分、具体的には６　ｋＨｚ以上の周波数成分
を除去するローパスフィルタ（Ｌ　Ｐ　Ｆ）と、このＬ
ＰＦを介した入力音声データを標本化周波数１２　ｋＨ
ｚ　、量子化ビット数１２ビツトでディジタル変換する
Ａ／Ｄ変換器を備えて構成される。

このようにして音声入力部ｌにてディジタル信号変換し
て取り込まれる入力音声データはＤＦＴ（Ｄｌｓｃｒｅ
ｔｅ　Ｆｏｕｒｉｅｒ　Ｔｒａｎｓｆ’ｏｒａ　；離散
的フーリエ変換）分析部２に入力されて分析処理され、
そのその特徴パラメータとして周波数スペクトルが求め
られる。このＤＦＴ処理は上記入力音声データのフレー
ム周期（８ｍ５ｅｃ）毎に行われ、その分析結果である
周波数スペクトル（特徴パラメータ）は時系列に出力さ
れる。

なお、このＤＦＴ分析分析部上具体的には２４■ｓｅｃ
のハミング窓を設定したプリエンファシス回路と、この
プリエンファシス回路の出力を２５６点に互って高速に
フーリエ変換するＦＦ７回路とにより構成される。この
ように構成されるＤＦＴ分析分析部上り、８　ｍ５ｅｃ
毎に２５６点のＤＦＴ分析がなされた１２８点のＤＦＴ
スペクトルが求められる。

このＤＦＴスペクトルの時系列を入力する特徴ベクトル
抽出部３は、音声区間検出部４にて求められる入力音声
データの音声区間の情報（始端点および終端点）に従っ
て、例えばその音声区間を１５等分して定められる時間
軸方向１６点におけるＤＦＴスペクトルをそれぞれリサ
ンプル抽出し、これをその音声データの特徴ベクトルと
して求める。尚、音声区間検出部４は、例えば入力音声
データのエネルギー変化等からその始端点と終端点とを
検出するものであり、その検出アルゴリズムは従来より
種々提唱されている手法を適宜採用可能である。

しかしてこの特徴ベクトル抽出部３にて求められる上述
したＤＦＴスペクトルのりサンプル系列によって示され
る音声特徴ベクトルは、時間周波数スペクトルとして入
力音声データの音声ピッチ構造を表現したものとなって
いる。パターン照合部６はこのような音声ピッチ構造を
表現してなる時間周波数スペクトルとして求められた音
声特徴ベクトルを入力し、認識辞書５に予め登録されて
いる複数の認識対象カテゴリの各辞書パターンとの間で
、例えば複合類似度法（部分空間法）に基づく類似度を
それぞれ計算する。そして認識結果出力部７は、上記パ
ターン照合部Ｂにて求められた各認識対象カテゴリの辞
書パターンとの類似度を相互に比較し、例えば最大類似
度値をとる認識対象カテゴリをその入力音声データに対
する認識結果として求めるものとなっている。

尚、パターン照合部Ｂにおける類似度演算の手法や、類
似度値に基づく認識結果の選択アルゴリズムについては
従来より種々提唱されている手法を適宜採用可能なもの
であり、ここでは本発明の主旨とは直接的な係わりがな
いことからその具体的な説明については省略する。

以上が本発明の一実施例に係る音声認識装置の基本的な
構成と、その構成要素の各部が果たす基本的な役割であ
る。

ここで本発明が特徴とするところは、パターン照合によ
る認識処理に供される音声特徴ベクトルを、前述したＤ
ＦＴ分析部２にて求められたＤＦＴスペクトルから、入
力音声データの音声ピッチ構造を表現する時間周波数ス
ペクトルとして求め、この時間周波数スペクトルとして
求められる特徴ベクトルを用いて音声認識処理を行うよ
うにした点にある。

即ち、第２図にその処理概念を示すように、例えばＤＦ
Ｔ分析処理によって入力音声データの高次元数の周波数
スペクトルを、そのピッチ情報が表現されるように所定
のフレーム周期で抽出しく処理Ｉ）、この周波数スペク
トルの時系列から所定の音声区間における周波数スペク
トルをリサンプル抽出して時間周波数スペクトルからな
る音声特徴ベクトルを求める（処理■）。

この音声特徴ベクトルとして求められた音声ピッチ構造
の情報を利用することで、時間周波数スペクトルにより
表現された音声特徴ベクトルにより、例えばピッチ周波
数ｆ。の幅（線スペクトルの間隔）からピッチの変化［
情報ａ］、スペクトルの共振からホルマントの変化［情
報ｂ］、ピッチの周期性の有無から有声／無声［情報Ｃ
］。更には破裂音［情報ｄ］、アクセント［情報ｅ］。

音声持続時間［情報ｆ］等が表現される（情報内容■）
。

この結果、上述した時間周波数スペクトルからなる音声
特徴ベクトルを用いることで、入力音声データを音韻的
および韻律的な観点からそれぞれ認識処理することが可
能となり、これらの特徴情報（特徴ベクトル）を用いた
認識辞書パターンとの照合により入力音声データに対す
る認識結果を求める（処理■）。

次に上述した如く時間周波数スペクトルで表現される特
徴ベクトルについて、今少し詳しく説明する。

第３図はＤＦＴ分析処理によって求められる音声データ
の周波数スペクトル（ＤＦＴスペクトル）Ａと、この音
声データを３２チヤネルのフィルタバンクを用いて分析
したフィルタ出力Ｂを示している。この第３図に示す音
声データは、／ｙｏｍｅ　ｊ　ｏ／と発声した音声デー
タに関するものであり、上記周波数スペクトルＡは６　
ｋＨｚ以下の周波数成分を周波数方向に等間隔に示しで
ある。

この第３図に示す周波数スペクトルＡとフィルタバンク
出力Ｂとをリーディング（人間の目視によるパターン認
識）すれば明らかなように、周波数スペクトルＡのパタ
ーンにはその入力音声のピッチ情報が表現されているこ
とが判る。これに対してフィルタ出力Ｂのパターンから
は入力音声のピッチ情報を読み取ることは困難である。

むしろフィルタ出力Ｂは、音声認識処理には不必要であ
ると考えられているピッチ情報を積極的に排除し、その
データ圧縮を図っていることから、当然のことながらそ
の出力バタ、−ンにはピッチ情報が正しく表現されるこ
とはない。

ここで音声ピッチの情報が表現されている上記Ｎ波数ス
ペクトルＡの出カバターンに着目すれば、そのピッチ情
報を抜き出して第４図に模式的に示すように、音声の始
終端でのピッチ周波数が音声のパワーレベルの変動と共
に変化していることが読み取られる。またそのピッチ周
波数が高くなるに従つて、その高調波成分である線スペ
クトルが増大し、その間隔が拡がっていることが読み取
られる。

このことは上述したＤＦＴ処理によって求められる周波
数スペクトルの時系列（時間周波数スペクトル）により
音声パターンを表現すれば、仮にそのホルマント周波数
が不明確であっても、ピッチの連続性や有声／無声の別
、音声エネルギーの変化、更にはスペクトルの動的な変
化の様子を効果的に表現し得ることが明らかとなる。

この結果、この時間周波数スペクトルにて示される音声
特徴ベクトルを用いることにより、その音声データに関
する全ての情報を効果的に表現することが可能となる。

そして音声の冗長度を活かして耐雑音性の向上を図り、
また類似カテゴリ間での識別性も顕著化することが可能
となるので、その演算量が増えるものの入力音声データ
を効果的に、しかも高精度に認識することを可能とする
等の効果が期待される。

次に前述したＤＦＴ分析分析部上求められる周波数スペ
クトルの時系列からの音声特徴ベクトル（時間周波数ス
ペクトル）の抽出処理の具体例について説明する。

第５図は音声特徴ベクトルの抽出処理の概念を模式的に
示す図である。

この処理は前述したＤＦＴ分析分析部上り入力音声デー
タｘ、　　（Ｐ−１＊２．〜．２５Ｂ）をＤＦＴ分析し
て求められる１２８点（次元）のＤＦＴスペクトルＸ＊
　　（ｋ−１，２，〜、１２ｇ）の内、ピッチ情報の表
現にはさほど寄与することのない、所謂認識処理には不
要な低域成分Ｘｋ　　（ｋ−１，２，３）と、高域成分
Ｘ　ｋ　　（ｋ−１１４，１１５，〜、１２８）とを除
去し、残されたＤＦＴスペクトルＸｈ・（ｋ−４，５，
〜、１１３）を用いて音声特徴ベクトルが求められる。

具体的には上記ＤＦＴスペクトルＸｋ（ｋ−４，５゜〜
、１１１）からＤＦＴパワースペクトルＩＸｋ１２（ｋ
−４，５，〜、１１Ｂ）を求め、これを対数化する。尚
、ここでは説明の簡単化の為に、以降、上記ＤＦＴパワ
ースペクトルｌＸｍ１２を単にＤＦＴスペクトルと称す
る。

しかる後、音声区間検出情報に従ってその音声区間のＤ
ＦＴスペクトルをリサンプルし、例えば時間軸方向に１
６次元１周波数軸方向に１１０次元の音声特徴ベクトル
Ｖを求める。従ってこの場合には、ＤＦＴスペクトルｌ
Ｘｋ　Ｉ２に帯域制限を加えた上で、（１６ｘｌｌＯ−
１７６０）次元の時間周波数スペクトルとして表現され
た音声特徴ベクトルＶが求められることになる。

尚、周波数軸方向の精度が十分に高いので、その特徴ベ
クトルＶの次元数が大き過ぎる場合には、例えば時間軸
方向の次元数を８次元や６次元として低次化するように
しても良い。

ところで音声の高域成分は、主としてｒｓＪや「ｊ」等
の摩擦音や無声音を表現する情報として重要であるが、
母音や他の有声子音を認識する上ではさほど役に立たな
い。このような考察に基づけば、上述したように高次元
数の周波数スペクトルを求めてその周波数精度を高める
ことは無駄が多いと考えられる。

第６図に示す音声特徴ベクトルの抽出処理はこのような
観点に立脚し、中・低域成分についてはそのままＤＦＴ
スペクトルを用いるが、高域成分についてはそのＤＦＴ
パワースペクトルを平滑化することで次元数の低減を図
った音声特徴ベクトルＶを抽出するようにしたものであ
る。

即ち、この例では低域に関する帯域制限は前述した例と
同様にして、その低域成分であるＤＦＴスペクトルＩ　
Ｘ、　　＋　２（ｋ−１，２，３）を切り捨てることに
より行う。そして中・低域成分であるＤＦＴスペクトル
Ｉ　Ｘｈ　　Ｉ　２（ｋ−４，５，〜、６５）をそのま
ま抽出し、これを特徴ベクトル化の為のＤＦＴスペクト
ルｌ　Ｙｓ　　ｌ　２（ｊ！−１，２，〜、６２）とす
る。

また高域成分については、ＤＦＴスペクトルｌ　Ｘｋ　
　ｌ　’　　（ｋ−６６，６７、〜、７Ｇ）のパワーを
平滑化してＤＦＴスペクトル１Ｙ６ｉ１２とし、同様に
してそのＤＦＴスペクトルｌ　Ｘｈ　　ｌ　’　　（ｋ
−７７，７８，〜ｌ！０）のパワーを平滑化してＤＦＴ
スペクトルＹ６４１２とする。

即ち、特徴ベクトル化の為のＤＦＴスペクトルとしてＩＹＩ　Ｉ’　　”　　ｌＸｍ−：＋　１２（ｊ）−１
，２，〜、６２）　　　（ｋ−４，５，〜、６５　）を
それぞれ求める。

このようにして上述した処理を施した後、これを対数化
処理することによってＤＦＴスペクトル１Ｙｒ１２を求
める。そしてこのＤＦＴスペクトルＩＹ、＋２をその音
声区間においてリサンプル処理することによって、例え
ば周波数軸方向に６４次元、°時間軸方向に１６次元の
時間周波数スペクトルとしてその音声特徴ベクトルＶが
求められることになる。尚、この場合においても、時間
軸方向の次元数を８次元、６次元と低く設定可能なこと
は勿論のことである。

また上述したよ゛うに高域成分のＤＦＴスペクトルのパ
ワーを平滑化した場合、これによって特徴ベクトルの一
部の要素（高域成分）についてはピッチ情報が失われる
が、その反面、特徴ベクトルの無意味なパターン変形を
、減少させることが可能となる。またこのようにして特
徴ベクトルの一部の要素（高域成分）にピッチ情報が含
まれないようにしても、その主成分である中・低域成分
にそのピッチ情報が十分に表現されていることから、ピ
ッチ情報に着目した音声認識処理に不具合が生じる虞れ
はない。むしろ母音や他の有声子音を：？！工する上で
はさほど役に立たない高域成分のＤＦＴスペクトルのパ
ワーの平滑化によって特徴ベクトルの次元数を低減させ
ることができるので、その分、その処理負担・を軽減し
得ると云う効果が期待できる。

以上のようにして求められる音声特徴ベクトルを用いて
、例えば複合類似度法による辞書パターンとの照合処理
を行えば、その特徴ベクトルに表現されるピッチ情報を
手掛りとして、入力音声が持つ特徴を効果的に、しかも
高精度に識別して音声認識することが可能となる。

次に音声の分析フレーム毎の１フレ一ム分の周波数スペ
クトルについて考察すると、従来のフィルタバンク出力
から求められる特徴ベクトルを用いて行われる音声認識
処理にあっては、次元数圧縮によりその冗長度が少なく
なっていることから、例えば騒音環境下では母音等の静
的音韻の認識が困難であった。然し乍ら、上述した如き
周波数スペクトルとして求められる特徴ベクトルでは、
その冗長度が高いので、上述した母音等の静的音韻に対
してもこれを精度良く認識することが可能となる。更に
は雑音が含まれる音声データであっても、上述したピッ
チ情報を表現した冗長性の高い音声特徴ベクトルを用い
てこれを認識処理することができるので、雑音による影
響を効果的に排除してその認識結果を求めることが可能
となる。換言すれば、その耐雑音性を十分に高めること
が可能となる。

更にはピッチ情報から検定される入力音声のアクセント
に従い、アクセント核の異なりを利用して同音異義語の
選択を行うことも可能となる。また非言語音である、例
えば「あ〜あ」　「え〜」等を認識することも可能とな
り、英語音声におけるｒＵｈ・・・Ｊ　　ｒｍ・・・」
等をも認識することも可能となる。

このようなピッチ情報を表現してなる時間周波数スペク
トルで示される音声特徴ベクトルについて更に考察して
みる。先ず音声の生成理論に従えば、音声Ｓい、は第７
図に示すように、ｇＬｌ）で表現される声帯波（Ｇｌｏ
ｔｔａｌ　）とｖ、１．で示される声道の伝達関数（Ｖ
ｏｃａｌ　Ｔｒａｃｔ　）とのたたみ込み処理（Ｃｏｎ
ｖｏｌｕｔｌｏｎ　）により、Ｓ（鑞）　″　ｇ　（１
）　＊　Ｖ　（１）として生成される。

これを周波数領域で表現するとＳ＜ｔ＋　　　　　　−Ｇ＜ｔ＞　　　　０　　Ｖ（１
）なる形式の積の関係となる。

しかして音声信号が有声音である場合、その音源信号ｇ
（１，は、周期Ｔ。（ピッチ周波数ｆｏ＝　　ｌ／Ｔｏ
　）の三角波に近い周期波形となるとなることが知られ
ている。そして周波数領域で表現される上記信号Ｇ　（
ｆ）の周波数スペクトルは第８図のａに示すような線ス
ペクトルとなる。また音響管で近似される母音等の声道
特性Ｖ　（ｔ）は、第８図のｂに示すようにホルマント
と称される幾つかの共振点（周波数伝達関数のピーク）
として表現される。

この結果、上述したように生成される音声信号Ｓ４．）
の周波数スペクトルについても前記Ｇ　ｃ、。

とＶ４１．との積で示されることから、やはり第８図の
Ｃに示すように線スペクトルとなる。しかして音声信号
ｓｔｒ＋を前述したようにＤＦＴ処理し、そのＤＦＴス
ペクトルＳ。）を求めると、そのスペクトル成分は第８
図のｄに示すようになり、前述した音声信号Ｓ目）の線
スペクトルの情報が現れるに過ぎない。

これに対して声道特性■、。の第１．第２．第３ホルマ
ント（共振周波数）が第８図のｂに示すように周波数Ｆ
、、Ｆ２．Ｆ、（Ｈｚ）として与えら′れ、音源信号Ｇ
（１）の人カスベクトルに上記Ｆ、、Ｆ２．Ｆ３　（Ｈ
ｚ）なる周波数成分が含まれないような場合、音声信号
Ｓ　１１）には上記Ｆｌ。

Ｆ　２　、　　Ｆ　ｓ　　（Ｉｌｚ）なる出力が生じる
ことはない。

この為、ホルマントの推定ができなくなると云う基本的
な問題が生じる。

即ち、従来−船釣な音声認識はその入カスベクトルをＸ
ｔｔ＞ｒ　出カスベクトルをＹ（ｔ＞ｒ　そしてその伝
達関数をＨ（ｔ）としたときＨｔｔ＋　　−Ｙ　（１）　／　Ｘ　（１）なる関係で
その伝達関数を推定し、この伝達関数Ｈ１）で示される
ホルマントを求めることによって行われる。これ故、入
カスベクトルＸ（１）が既知であっても、その特定のス
ペクトル成分Ｘ（ｆ’、）が［０］となる周波数・ｆ、
では、その伝達関数Ｈ（ｒ、）を求めることはできない
。従ってこのような音声信号Ｓ　ｌ）については、その
伝達関数である声道特性Ｖ３１．を推定することができ
ず、結局、そのホルマントも求めることができないと云
う問題が生じる。

このことは女声等の高ピツチ周波数の音声に対するホル
マントの正確な抽出が困難なことからも裏付けられ、線
形システムの同定理論からしても明らかである。

然し乍ら、従来にあってはこのような音声生成の基本モ
デルを前提とすることなく、例えば第９図に示すように
ＤＦＴ分析等によって求められる音声データのスペクト
ル成分を単にピッチの影響の低減、認識に不要な変動成
分の除去１次元数の縮小、データ量削減を目的として圧
縮処理し、その゛１死滑化されたスペクトルを認識処理
の対象としているので、上述したようにその特徴ベクト
ルからはホルマントの推定等が全くできない。

この点、本発明は理論的に正確な推定が不可能なホルマ
ント的な特徴を音声認識の為の特徴量として用いるので
はなく、その観点を全く異ならせてピッチ情報を表現し
ている周波数スペクトルの情報そのものを特徴ベクトル
として用い、音声認識に利用するものとなっている。こ
の結果、入カスベクトル成分が存在しない周波数にその
ホルマントがある場合でも、次元数が高く特徴量の豊富
なりＦＴスペクトルから、例えば複合類似度法等の強力
な特徴抽出手段を用いることにより、その冗長度を利用
して高性能に音声を認識することが可能となる。

つまりＤＦＴ分析された周波数スペクトルそのものを用
いて音声特徴ベクトルを表現しているので、上述した線
スペクトルで示されるような音声パターンの重要な特徴
を効果的に抽出することが可能となる。この結果、周波
数スペクトルにて表現される１フレームの静的なパター
ンのみならず、時間周波数スペクトルとして動的なパタ
ーンから入力音声の特徴を抽出して認識処理することが
でき、例えば母音等の１フレームの音声パターンを例に
とっても、これを・効果的に認識することが可能となる
。

しかして前述した時間周波数スペクトルにて表現された
音声特徴ベクトルに基づく認識処理においても同様な理
論が成立することから、有声／無声の情報やピッチの変
化、ホルマントの変化等の情報をその周波数スペクトル
として効果的に表現することが可能となるので、これら
の情報を用いて音声データを高精度に認識することが可
能となる。

ちなみに本発明者等の実験によれば次のような結果が得
られた。この実験は、成人男性２００名について１０数
字を含む１３単語をそれぞれ１回発声した音声データを
収集し、その中の１００名分を認識辞書の作成（学習）
に使用し、残りを評価用として用いて行った。

そしてその音声データについては、アナログ音声信号を
標本化周波数１２ｋｌｌｚでサンプリングし、これをデ
ィジタル化した後、フレーム周期８　ｔｉｓｅｃ。

フレーム長２４　ａｓｅｃでＤＦＴ分析し、［１６チヤ
ネル×６フレーム；９６次元］、［３２チャネル×６フ
レーム；１９２次元］、［６２チャネル×６フレーム；
３７２次元］の時間周波数スペクトルを特徴ベクトルと
してそれぞれ抽出し、単純類似度法および複合類似度法
を用いてそれぞれ認識処理を行った。次に示す表が、そ
の認識率を示す実験結果である。

この実験結果に示されるように、ピッチ情報を含む音声
特徴ベクトルを抽出し、複合類似度により音声認識処理
を行う本装置によれば、その計算量が増大するもののそ
の認識性能を飛躍的に高め得ることが確認された。

さて上述した説明は、ピッチ情報を表現した音声特徴ベ
クトルを用い・た音声認識処理について述べているが、
認識辞ｉＦ５を学習する場合にも上述したピッチ情報を
表現した音声特徴ベクトルを用いることが有効である。

第１０図は認識辞書５の学習機能を備えて構成される音
声認識処理の概略構成を示す図である。

この実施例装置は、学習用の各種認識対象カテゴリにつ
いての音声データを収集格納した学習用音声データファ
イル１１と、種々の雑音環境下で収集された雑音データ
を格納した学習用雑音データファイル１２を備えている
。

音声データ加工部１３は認識辞書５の学習モードが設定
されたとき、学習対象とするカテゴリの音声データを前
記学習用音声データファイル１１から読み出し、これに
前記学習用雑音データファイル１２から求められる雑音
データを加えることでその音声データに人工的なパター
ン変形やレベル変動等を与えるものである。この音声デ
ータ加工部１３にてパターン変形やレベル変動が加えら
れた音声データ（雑音が混入した音声データ）が前記Ｄ
ＦＴ分析部２に与えられてＤＦＴ分析され、そのＤＦＴ
スペクトルが求められる。

学習用特徴ベクトル抽出部１４は、例えば前述した認識
処理用の単語特徴ベクトル抽出部３と同様にして上記Ｄ
ＦＴスペクトルから所定次元数の時間周波数スペクトル
をその特徴ベクトルとして抽出し、学習部１５による認
識辞＠５の学習に供するものである。

しかしてこのようにして人工的にパターン変形やレベル
変動を与えて学習パターンを生成し、これを用いて認識
辞書５を学習する機能を備えた音声認識装置によれば、
ピッチ情報を含む音声特徴ベクトルの次元数が高く、そ
のパターン空間の自由度が高いことから高性能な認識辞
ｉｉ５の設計に際して必要となる大量の音声データを簡
易にして効果的に与えることが可能となる。この結果、
学習用音声データファイル１１に収集された音声データ
を有効に活用して認識辞書性能を効果的に高めることが
可能となる。そして特徴ベクトルに示される音声ピッチ
情報を利用して、耐雑音性よく高精度に入力音声を認識
、することが可能となる。

尚、前述した例では音声のエネルギー変化等からその音
声区間を検出し、検出された音声区間のＤＦＴスペクト
ルを抽出して音声特徴ベクトルを生成して認識処理を行
ったが、例えば第１１図に示すようなワードスポツティ
ング法を利用した連続パターンマツチングによる音声認
識装置にも同様に適用することができる。

この連続パターンマツチングは連続パターン照合範囲決
定部８ａ、特徴ベクトル抽出部８ｂ、パターン照合部８
ｃにより構成される連続パターン照合部８において、入
力音声の特徴パラメータの時系列（ここではＤＦＴスペ
クトルの時系列）からワードスポツティング的にその音
声区間を固定的に定めることなく順次連続的に特徴ベク
トル（ここでは時間周波数スペクトル）を抽出し、これ
らの各特徴ベクトルについてそれぞれ認識辞書とのパタ
ーン照合により類似度の時系列を求めるものである。

具体的には成るフレーム周期において、そのフレークイ
ミングを終端点とする複数の音声区間を設定し、これら
の各区間についてそれぞれ特徴ベクトルを抽出する。そ
してこれらの各特徴ベクトルについてそれぞれ認識辞書
５とのパターン照合によりその類似度を求める。この処
理をフレーム周期の時間経過に伴ってフレーム周期ごと
に実行することで類似度の時系列を求める。

このようにして連続パターン照合部８にて求められる類
似度の時系列を、類似度判定部９にて判定処理し、例え
ば最大類似度値をとる認識対象カテゴリとその音声区間
の情報を求める等して音声データに対する認識結果や学
習用の特徴ベクトルを抽出する為の情報を得る。

本発明で用いられるピッチ情報を表現してなる音声特徴
ベクトルは、このような連続パターンマツチングによっ
て認識処理が行われる音声認識装置についても非常に有
効である。特にこの場合には連続パターンマツチングに
よる音声区間の誤検出に対するミスマツチングの排除効
果と相俟ってその認識性能を飛躍的に高めることが可能
となる。

また上述したように音声データに雑音データを人工的に
加えて学習用音声データを生成し、これを用いて認識辞
書の学習を行う実施例装置によれば、例えばそのパター
ン変形の度合いやそのレベル変動を異ならせて種々の学
習用音声データを生成することが可能となるので、少な
い音声データを有効に用いて数多くの学習データを作り
出し、認工辞書の学習を高精度に行わせることが可能と
なる。

つまり音声データに対する雑音データの混入量（雑音レ
ベル）を種々変化させると共に、そのパターン変形の度
合いも変化させることにより、同一の音声データをベー
スとして雑音データを加えた種々の学習用データを作成
し、これを用いて認識辞書の学習を行うようにする。特
に前述した時間周波数スペクトルで表現される次元数の
高い特徴ベクトルとを用いる場合、その認識辞書の学習
に多くの学習用データを必要とすることから上述した如
く学習用データを人工的に生成することは非常に有用で
あると云える。

尚、本発明は上述した実施例に限定されるものではない
。例えばピッチ情報を表現する周波数スペクトルの次元
数を幾つに設定するか、また時間周波数スペクトルとし
ての時間軸方向の次元数を幾つに設定するかについては
、その仕様に応じて決定すれば良い。また認識辞書の学
習に際して実施例では、学習用データを人工的に作成し
た後、これをＤＦＴ分析しているが、その処理を逆にし
て実行することも可能であり、また特徴ベクトルの生成
時にパターン変形を加えるようにしても良い。その他、
認識処理（辞書パターンとの照合処理）の手法について
も前述した複合類似文法以外の手法を用いることが勿論
可能であり、特徴ベクトルのピッチ情報だけを抜き出し
て有声／無声判定等を行うようにすることも可能である
。また実施例ではＤＦＴ分析によってピッチ情報を含む
音声特徴ベクトルを求めるものとして説明したが、ピッ
チ情報を含むケプストラムをその周波数スペクトルとし
て求めて同様に処理することも可能である。その他、本
発明はその要旨を逸脱しない範囲で種々変形して実施す
ることができる。

［発明の効果］以上説明したように本発明によれば、入力音声が有する
ピッチ情報を含むようにして求められる音声特徴パラメ
ータ、例えばＤＦＴスペクトルを積極的に利用して、そ
のピッチ情報が表現されるように音声特徴ベクトルを求
めて認識処理に供するので、音声特徴ベクトルとしての
自由度（音声パターン表現能力）を高め、音声が有する
冗長度を有効に活用して高精度に音声を認識することが
可能となる。そして音声認識処理における耐雑音性能や
認識率を向上させ、更には音声の韻律情報が重要となる
発話の認識や発声感情の認識等を行うことも可能となり
、音声入力の為の有用なヒユーマンインターフェースと
して実用上多大なる効果が奏せられる。

【図面の簡単な説明】

第１図は本発明の一実施例に係る音声認識装置の基本構
成を示す概略構成図、第２図は実施例装置における特徴
的な音声特徴ベクトルの抽出概念を模式的に示す図、第
３図は入力音声のＤＦＴ分析パターンとフィルタバンク
出カバターンを示す図、第４図は第３図に示すＤＦＴ分
析パターンのピッチ情報を模式的に示す図である。また第５図および第６図はそれぞれＤＦＴスペクトルか
らの時間周波数スペクトル（音声特徴ベクトル）の抽出
処理例を示す図、第７図乃至第９図は音声のピッチ情報
について説明する為の音声生成のモデルとそのスペクト
ル成分について示す模式図、第１０図および第１１図は
それぞれ本発明の実施例に係る認識辞書の学習機能を備
−えた音声認識装置の概略構成図である。そして第１２図は音声認識処理の典型的な方式をモデル
化して示す図、第１３図は従来−船釣に用いられている
音声認識の為の音声特徴ベクトルの抽出過程を模式的に
示す図である。１・・・音声入力部、２・・・ＤＦＴ分析部、３・・・
特徴ベクトル抽出部、４・・・音声区間検出部、５・・
・認識辞書、６・・・パターン照合部、７・・・認識結
果出力部、訃・・連続パターン照合部、９・・・類似度
判定部、１１・・・学習用音用データ、ファイル、１２
・・・雑音データファイル、１３・・・音声データ加工
部。

Claims

【特許請求の範囲】（１）入力音声データを分析して音声特徴パラメータの
時系列を求め、この音声特徴パラメータの時系列から抽
出される音声特徴ベクトルと音声認識辞書とを照合して
前記入力音声データに対する認識結果を求める音声認識
装置において、前記音声特徴ベクトルを、入力音声データの音声ピッチ
構造を表現し得る周波数スペクトルを含む情報として求
めることを特徴とする音声認識装置。（２）音声特徴パラメータは、入力音声データを離散的
フーリエ変換して求められる周波数スペクトルの情報と
して所定のフレーム周期毎に抽出されることを特徴とす
る請求項（１）に記載の音声認識装置。（３）音声特徴ベクトルは、音声特徴パラメータの時系
列から抽出された周波数時間軸スペクトルの情報として
与えられることを特徴とする請求項（１）に記載の音声
認識装置。（４）音声特徴ベクトルは、入力音声の始終
端間における音声特徴パラメータの時系列の一部をリサ
ンプルして求められることを特徴とする請求項（３）に
記載の音声認識装置。（５）音声特徴ベクトルは、音声
特徴パラメータとして求められる周波数スペクトルの高
域成分を統合することで、その一部のベクトル要素を音
声のピッチ情報を含まないものとして求められることを
特徴とする請求項（１）に記載の音声認識方式。（６）請求項（１）に記載の音声認識装置において、１
フレームの音声特徴パラメータから求められる音声特徴
ベクトルに含まれる音声のピッチ情報から、母音や撥音
等の静的な音韻を認識する手段を備えたことを特徴とす
る音声認識装置。（７）請求項（１）に記載の音声認識装置において、音
声特徴ベクトルとの照合に用いられる音声認識辞書の学
習手段と、入力音声データに人工的なパターン変形を加
えて上記音声認識辞書の学習に供する手段とを設けたこ
とを特徴とする音声認識装置。