JPH03120434A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH03120434A
JPH03120434A JP25702489A JP25702489A JPH03120434A JP H03120434 A JPH03120434 A JP H03120434A JP 25702489 A JP25702489 A JP 25702489A JP 25702489 A JP25702489 A JP 25702489A JP H03120434 A JPH03120434 A JP H03120434A
Authority
JP
Japan
Prior art keywords
speech
voice
recognition
input
feature vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP25702489A
Other languages
English (en)
Inventor
Yoichi Takebayashi
洋一 竹林
Hiroyuki Tsuboi
宏之 坪井
Hiroshi Kanazawa
博史 金澤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP25702489A priority Critical patent/JPH03120434A/ja
Publication of JPH03120434A publication Critical patent/JPH03120434A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Document Processing Apparatus (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 [発明の目的] (産業上の利用分野) 本発明は単語音声等に対する認識性能を効果的に高める
ことのできる音声認識装置に関する。
(従来の技術) マンマシン・インターフェースを実現する重要な技術の
1つに音声認識処理があり、従来より種々の研究開発が
なされている。この種の音声認識処理は、従来一般的に
は入力音声データに対するLPC分析やケプストラム分
析等の信号処理や、音声スペクトルのホルマント抽出等
の前処理を行うことでその特徴情報を求めて行われてい
る。これらの手法は、例えば狭帯域通信の為の音声の帯
域圧縮や音声合成等の技術分野においても幅広く用いら
れている。
然し乍ら、これらの手法を音声認識処理の為の前処理と
して考えた場合、必ずしも最良であるとは云う難い。特
に音声認識の応用場面においては、その周囲の環境騒音
や音響伝達特性等の影響が無視できないことが多くあり
、上述した手法では問題が生じることが否めない。
例えばLPG分析は、声道を全極型として仮定した音声
の生成モデルに立脚してなされる音声分析の手法である
。具体的にはこのLPG分析は、音声の基本周波数(ピ
ッチ周波数)の影響を除去し、音声の周波数スペクトル
の概形(包絡成分)を複数の極にて近似することで、そ
の音声の特徴を理想モデルとして表現するものである。
この為、上述した音声認識の応用場面における環境騒音
下では、LPG分析の前提となる理想環境下での音声生
成モデルが適合しなくなる。これ故、実際の音声認識環
境ではLPGパラメータの抽出精度が著しく低下し、十
分なる認識性能を確保することが困難となる。
またケプストラム分析により求められるケプストラム係
数も、上述したLPCパラメータと同様に音声ピッチの
影響を除去し、そのスペクトラム包絡から求められるも
のである。これ故、音声の帯域圧縮等りこは非常に有効
ではあるが、周囲雑音の影響を受けやすい環境下での音
声認識に適用するには問題がある。
更にはホルマント抽出に基づく前処理にあっても、騒音
環境下ではホルマント抽出エラーが生じ品い。またフィ
ルタ分析による手法にあっても、通常、その分析チャネ
ル数を6〜30ch程度として音声の情報量を圧縮し、
これによってスペクトルの概形を求めているので、騒音
や音響伝達特性の影響が及ぶことが避けられない。
このように従来一般的に用いられている音声認識の為の
前処理は、その音声スペクトルの概形を抽出してデータ
圧縮することを目的としてなされているに過ぎず、騒音
等に対する性能に関しての配慮はなされていないと云え
る。換言すれば、従来一般的な音声認識の手法は、音声
の音韻的特徴を表すスペクトル包絡に着目し、上述した
分析処理を用いてその情報量を圧縮して音声認識処理に
用いている。これ故、応用場面での騒音や音響伝達特性
の影響を考慮した場合、種々の不具合が生じることが否
めなかった。
ところで音声認識処理は、典型的には第12図(a)〜
(C)に示すようなパターン照合処理により行われる。
第12図(a)に示す手法は、前述したLPG分析等に
より求められる入力音声パターンの次元数の低い特徴ベ
クトルをそのまま用いて辞書パターンとの照合を行うも
のである。このときの照合には、DPマツチング法がし
ばしば用いられる。この認識処理に用いられる辞書につ
いては、単に標準パターンを蓄積(登録)することによ
りその学習が行われ、古典的な手法であると云える。
また第12図(b)に示す手法は、LPC分析等が施さ
れた入力音声パターンから、予めその特徴抽出を行った
上でパターン照合処理を行うもので、統=を的パターン
認識の典型的な例である。即ち、この処理は特徴抽出と
その特徴の類別と云う2段階の処理から1す、認識辞書
の学習は類別に関して行われる。このような手法によれ
ば、すべての単語クラスの音声パターンについて、その
特徴抽出による情報圧縮が成されるので高次元の特徴ベ
クトルを用いた認識処理が可能となると云う利点がある
更には第12図(C)に示す手法は、文字認識や!11
語音声認識等においてその有効性が注目されている複合
類似度法(部分空間法)を用いた例であり、入カバター
ンの類別処理および認識辞書の学習のそれぞれが特徴抽
出と一体的に処理される点を特徴としている。尚、認識
辞書の学習は、各単語クラス毎に独立にKL展開を行う
ことで実現され、各音声クラスに属する多数個の高次元
の入力音声特徴ベクトルから、各クラスに属するパター
ンの本質的な特徴情報が求められる。しかしてこの第1
2図(C)に示す手法によれば、高次元の特徴ベクトル
を用いて入カバターンを高性能に認識することが可能と
なる。
しかして上述した第12図(C)に示す手法を採用した
従°来一般的な音声認識装置では、例えば第13図に示
すように入力音声データの時間的な音声パワーの変化か
らその音声区間を示す始端点Sと終端点Eとを検出し、
雑音の影響を排除してその音声区間検出を行っている。
そして入力音声データを分析してなる音声特徴パラメー
タの時系列、例えば16チヤネルのフィルタバンク出力
から上記音声区間における音声特徴パラメータを、例え
ば時間軸方向に16点に亘ってリサンプルし、これをそ
の特徴ベクトルとしてパターン照合処理(音声認識辞書
)に供するものとなっている。この例では、上記特徴ベ
クトルは周波数軸方向に16チヤネル(16次元)1時
間軸方向に16次元の[16X16−256]次元の情
報として求められる。
ところが前述したように入力音声データを分析して求め
られる、例えば上記16チヤネルのフィルタバンク出力
は、その音韻的特徴を表すスペクトル包絡に着目してデ
ータ圧縮したものであり、一般に音声認識には不要な韻
律的特徴を表す音声ピッチの情報(音声基本周波数)を
除去したものとなっている。むしろ音声ピッチ等の韻律
的特徴情報は、その音声認識処理において悪影響を及ぼ
すものとして積極的に除去されている。
この為、実験室や防音室内等の理想的環境下での音声認
識では、その理想モデルに従って効果的で高性能な音声
認識を行い得る、が、実際の応用面における騒音環境下
等にあっては、上述した如く求められる特徴ベクトルを
用いて理想モデルに基づく認識処理を行うことが困難と
なり、その認識性能が大幅に劣化する等の問題があった
(発明が解決しようとする課題) このように従来の音声認識装置にあっては、専ら音声デ
ータの特徴分析に基づく理想モデルでの解析に従い、音
声の類別に必要な音韻的特徴に着目して特徴ベクトルの
抽出を行って認識処理を行っているだけなので、実際的
に使用される騒音環境下での音声認識にあっては、騒音
や音響伝達特性の影響を受けて認識性能が劣化すると云
う不具合があった。
本発明はこのような事情を考慮してなされたもので、そ
の目的とするところは、音声認識処理における耐雑音性
の向上を図り、高騒音環境下における認識性能の向上を
図ってロバストな音声認識システムを構築するに有用な
音声認識装置を提供することにある。
[発明の構成] (課題を解決するための手段) 本発明は、入力音声データを分析して求められる音声特
徴パラメータの時系列から音声特徴ベクトルを抽出し、
この音声特徴ベクトルを音声認識辞書との照合による認
識処理に供する音声認識装置に係り、 特に上記音声特徴ベクトルを、例えば所定のフレーム周
期毎に入力音、声データを離散的フーリエ変換して求め
られる周波数スペクトルの情報に基づいて、その音声ピ
ッチ構造を表現し得る周波数スペクトルを含む周波数時
間軸スペクトルとして求めることを特徴とするものであ
る。
この際、例えば音声特徴パラメータの時系列として求め
られる周波数スペクトルの中のピッチ情報が顕著に表れ
ていない高域成分を統合することで、音声特徴ベクトル
の一部のベクトル要素を音声のピッチ情報を含まないも
のとして求め、これによってその音声特徴ベクトルの次
元数が徒に膨大化することを防ぐようにしたことを特徴
としている。
そしてこのようにして求められる音声特徴ベクトルに含
まれる音声のピッチ情報から、例えば入力音声データに
混入している雑音に影響されることのない音声認識を可
能とし、単語認識や入力音声データの母音や撥音等の静
的な音韻の高精度な認識を可能とするようにしたことを
特徴とするものである。
(作 用) 本発明によれば、音声認識処理に用いられる入力音声デ
ータの音声特徴ベクトルとして、その入力音声データの
音声ピッチ構造を表現し得る周波数スペクトルを含む周
波数時間軸スペクトルを求め、これによって入力音声パ
ターンを表現するので、例えばそのホルマント周波数が
必ずしも明確でない場合であっても、その音声ピッチの
連続性や有声/無声の情報、更には入力音声エネルギー
(パワー)の時間的変化やその2スペクトルの動的な変
化を効果的に表現することが可能となる。
この結果、上述した音声のピッチ構造により示される音
韻的および韻律的な音声特徴を用いて入力音声データを
効果的に認識することが可能となり、また音声特徴ベク
トルの冗長度を高くして雑音の影響を受は難くし、類似
した認識対象カテゴリ間での識別性を高めて認識性能の
向上を図ることが可能となる。
(実施例) 以下、図面を参照して本発明の一実施例に係る音声認識
装置につい、て説明する。
第1図は実施例装置の基本的な概略構成を示すブロック
図で、lは認識処理や後述する認識辞書の学習に供され
る音声データを入力する音声入力部である。この音声入
力部lは、例えばマイクロフォン等を介して入力される
音声データの、実質的に音声認識処理には用いられない
高周波数成分、具体的には6 kHz以上の周波数成分
を除去するローパスフィルタ(L P F)と、このL
PFを介した入力音声データを標本化周波数12 kH
z 、量子化ビット数12ビツトでディジタル変換する
A/D変換器を備えて構成される。
このようにして音声入力部lにてディジタル信号変換し
て取り込まれる入力音声データはDFT(Dlscre
te Fourier Transf’ora ;離散
的フーリエ変換)分析部2に入力されて分析処理され、
そのその特徴パラメータとして周波数スペクトルが求め
られる。このDFT処理は上記入力音声データのフレー
ム周期(8m5ec)毎に行われ、その分析結果である
周波数スペクトル(特徴パラメータ)は時系列に出力さ
れる。
なお、このDFT分析分析部上具体的には24■sec
のハミング窓を設定したプリエンファシス回路と、この
プリエンファシス回路の出力を256点に互って高速に
フーリエ変換するFF7回路とにより構成される。この
ように構成されるDFT分析分析部上り、8 m5ec
毎に256点のDFT分析がなされた128点のDFT
スペクトルが求められる。
このDFTスペクトルの時系列を入力する特徴ベクトル
抽出部3は、音声区間検出部4にて求められる入力音声
データの音声区間の情報(始端点および終端点)に従っ
て、例えばその音声区間を15等分して定められる時間
軸方向16点におけるDFTスペクトルをそれぞれリサ
ンプル抽出し、これをその音声データの特徴ベクトルと
して求める。尚、音声区間検出部4は、例えば入力音声
データのエネルギー変化等からその始端点と終端点とを
検出するものであり、その検出アルゴリズムは従来より
種々提唱されている手法を適宜採用可能である。
しかしてこの特徴ベクトル抽出部3にて求められる上述
したDFTスペクトルのりサンプル系列によって示され
る音声特徴ベクトルは、時間周波数スペクトルとして入
力音声データの音声ピッチ構造を表現したものとなって
いる。パターン照合部6はこのような音声ピッチ構造を
表現してなる時間周波数スペクトルとして求められた音
声特徴ベクトルを入力し、認識辞書5に予め登録されて
いる複数の認識対象カテゴリの各辞書パターンとの間で
、例えば複合類似度法(部分空間法)に基づく類似度を
それぞれ計算する。そして認識結果出力部7は、上記パ
ターン照合部Bにて求められた各認識対象カテゴリの辞
書パターンとの類似度を相互に比較し、例えば最大類似
度値をとる認識対象カテゴリをその入力音声データに対
する認識結果として求めるものとなっている。
尚、パターン照合部Bにおける類似度演算の手法や、類
似度値に基づく認識結果の選択アルゴリズムについては
従来より種々提唱されている手法を適宜採用可能なもの
であり、ここでは本発明の主旨とは直接的な係わりがな
いことからその具体的な説明については省略する。
以上が本発明の一実施例に係る音声認識装置の基本的な
構成と、その構成要素の各部が果たす基本的な役割であ
る。
ここで本発明が特徴とするところは、パターン照合によ
る認識処理に供される音声特徴ベクトルを、前述したD
FT分析部2にて求められたDFTスペクトルから、入
力音声データの音声ピッチ構造を表現する時間周波数ス
ペクトルとして求め、この時間周波数スペクトルとして
求められる特徴ベクトルを用いて音声認識処理を行うよ
うにした点にある。
即ち、第2図にその処理概念を示すように、例えばDF
T分析処理によって入力音声データの高次元数の周波数
スペクトルを、そのピッチ情報が表現されるように所定
のフレーム周期で抽出しく処理I)、この周波数スペク
トルの時系列から所定の音声区間における周波数スペク
トルをリサンプル抽出して時間周波数スペクトルからな
る音声特徴ベクトルを求める(処理■)。
この音声特徴ベクトルとして求められた音声ピッチ構造
の情報を利用することで、時間周波数スペクトルにより
表現された音声特徴ベクトルにより、例えばピッチ周波
数f。の幅(線スペクトルの間隔)からピッチの変化[
情報a]、スペクトルの共振からホルマントの変化[情
報b]、ピッチの周期性の有無から有声/無声[情報C
]。更には破裂音[情報d]、アクセント[情報e]。
音声持続時間[情報f]等が表現される(情報内容■)
この結果、上述した時間周波数スペクトルからなる音声
特徴ベクトルを用いることで、入力音声データを音韻的
および韻律的な観点からそれぞれ認識処理することが可
能となり、これらの特徴情報(特徴ベクトル)を用いた
認識辞書パターンとの照合により入力音声データに対す
る認識結果を求める(処理■)。
次に上述した如く時間周波数スペクトルで表現される特
徴ベクトルについて、今少し詳しく説明する。
第3図はDFT分析処理によって求められる音声データ
の周波数スペクトル(DFTスペクトル)Aと、この音
声データを32チヤネルのフィルタバンクを用いて分析
したフィルタ出力Bを示している。この第3図に示す音
声データは、/yome j o/と発声した音声デー
タに関するものであり、上記周波数スペクトルAは6 
kHz以下の周波数成分を周波数方向に等間隔に示しで
ある。
この第3図に示す周波数スペクトルAとフィルタバンク
出力Bとをリーディング(人間の目視によるパターン認
識)すれば明らかなように、周波数スペクトルAのパタ
ーンにはその入力音声のピッチ情報が表現されているこ
とが判る。これに対してフィルタ出力Bのパターンから
は入力音声のピッチ情報を読み取ることは困難である。
むしろフィルタ出力Bは、音声認識処理には不必要であ
ると考えられているピッチ情報を積極的に排除し、その
データ圧縮を図っていることから、当然のことながらそ
の出力バタ、−ンにはピッチ情報が正しく表現されるこ
とはない。
ここで音声ピッチの情報が表現されている上記N波数ス
ペクトルAの出カバターンに着目すれば、そのピッチ情
報を抜き出して第4図に模式的に示すように、音声の始
終端でのピッチ周波数が音声のパワーレベルの変動と共
に変化していることが読み取られる。またそのピッチ周
波数が高くなるに従つて、その高調波成分である線スペ
クトルが増大し、その間隔が拡がっていることが読み取
られる。
このことは上述したDFT処理によって求められる周波
数スペクトルの時系列(時間周波数スペクトル)により
音声パターンを表現すれば、仮にそのホルマント周波数
が不明確であっても、ピッチの連続性や有声/無声の別
、音声エネルギーの変化、更にはスペクトルの動的な変
化の様子を効果的に表現し得ることが明らかとなる。
この結果、この時間周波数スペクトルにて示される音声
特徴ベクトルを用いることにより、その音声データに関
する全ての情報を効果的に表現することが可能となる。
そして音声の冗長度を活かして耐雑音性の向上を図り、
また類似カテゴリ間での識別性も顕著化することが可能
となるので、その演算量が増えるものの入力音声データ
を効果的に、しかも高精度に認識することを可能とする
等の効果が期待される。
次に前述したDFT分析分析部上求められる周波数スペ
クトルの時系列からの音声特徴ベクトル(時間周波数ス
ペクトル)の抽出処理の具体例について説明する。
第5図は音声特徴ベクトルの抽出処理の概念を模式的に
示す図である。
この処理は前述したDFT分析分析部上り入力音声デー
タx、  (P−1*2.〜.25B)をDFT分析し
て求められる128点(次元)のDFTスペクトルX*
  (k−1,2,〜、12g)の内、ピッチ情報の表
現にはさほど寄与することのない、所謂認識処理には不
要な低域成分Xk  (k−1,2,3)と、高域成分
X k  (k−114,115,〜、128)とを除
去し、残されたDFTスペクトルXh・(k−4,5,
〜、113)を用いて音声特徴ベクトルが求められる。
具体的には上記DFTスペクトルXk(k−4,5゜〜
、111)からDFTパワースペクトルIXk12(k
−4,5,〜、11B)を求め、これを対数化する。尚
、ここでは説明の簡単化の為に、以降、上記DFTパワ
ースペクトルlXm12を単にDFTスペクトルと称す
る。
しかる後、音声区間検出情報に従ってその音声区間のD
FTスペクトルをリサンプルし、例えば時間軸方向に1
6次元1周波数軸方向に110次元の音声特徴ベクトル
Vを求める。従ってこの場合には、DFTスペクトルl
Xk I2に帯域制限を加えた上で、(16xllO−
1760)次元の時間周波数スペクトルとして表現され
た音声特徴ベクトルVが求められることになる。
尚、周波数軸方向の精度が十分に高いので、その特徴ベ
クトルVの次元数が大き過ぎる場合には、例えば時間軸
方向の次元数を8次元や6次元として低次化するように
しても良い。
ところで音声の高域成分は、主としてrsJや「j」等
の摩擦音や無声音を表現する情報として重要であるが、
母音や他の有声子音を認識する上ではさほど役に立たな
い。このような考察に基づけば、上述したように高次元
数の周波数スペクトルを求めてその周波数精度を高める
ことは無駄が多いと考えられる。
第6図に示す音声特徴ベクトルの抽出処理はこのような
観点に立脚し、中・低域成分についてはそのままDFT
スペクトルを用いるが、高域成分についてはそのDFT
パワースペクトルを平滑化することで次元数の低減を図
った音声特徴ベクトルVを抽出するようにしたものであ
る。
即ち、この例では低域に関する帯域制限は前述した例と
同様にして、その低域成分であるDFTスペクトルI 
X、  + 2(k−1,2,3)を切り捨てることに
より行う。そして中・低域成分であるDFTスペクトル
I Xh  I 2(k−4,5,〜、65)をそのま
ま抽出し、これを特徴ベクトル化の為のDFTスペクト
ルl Ys  l 2(j!−1,2,〜、62)とす
る。
また高域成分については、DFTスペクトルl Xk 
 l ’  (k−66,67、〜、7G)のパワーを
平滑化してDFTスペクトル1Y6i12とし、同様に
してそのDFTスペクトルl Xh  l ’  (k
−77,78,〜l!0)のパワーを平滑化してDFT
スペクトルY6412とする。
即ち、特徴ベクトル化の為のDFTスペクトルとして IYI I’  ”  lXm−:+ 12(j)−1
,2,〜、62)   (k−4,5,〜、65 )を
それぞれ求める。
このようにして上述した処理を施した後、これを対数化
処理することによってDFTスペクトル1Yr12を求
める。そしてこのDFTスペクトルIY、+2をその音
声区間においてリサンプル処理することによって、例え
ば周波数軸方向に64次元、°時間軸方向に16次元の
時間周波数スペクトルとしてその音声特徴ベクトルVが
求められることになる。尚、この場合においても、時間
軸方向の次元数を8次元、6次元と低く設定可能なこと
は勿論のことである。
また上述したよ゛うに高域成分のDFTスペクトルのパ
ワーを平滑化した場合、これによって特徴ベクトルの一
部の要素(高域成分)についてはピッチ情報が失われる
が、その反面、特徴ベクトルの無意味なパターン変形を
、減少させることが可能となる。またこのようにして特
徴ベクトルの一部の要素(高域成分)にピッチ情報が含
まれないようにしても、その主成分である中・低域成分
にそのピッチ情報が十分に表現されていることから、ピ
ッチ情報に着目した音声認識処理に不具合が生じる虞れ
はない。むしろ母音や他の有声子音を:?!工する上で
はさほど役に立たない高域成分のDFTスペクトルのパ
ワーの平滑化によって特徴ベクトルの次元数を低減させ
ることができるので、その分、その処理負担・を軽減し
得ると云う効果が期待できる。
以上のようにして求められる音声特徴ベクトルを用いて
、例えば複合類似度法による辞書パターンとの照合処理
を行えば、その特徴ベクトルに表現されるピッチ情報を
手掛りとして、入力音声が持つ特徴を効果的に、しかも
高精度に識別して音声認識することが可能となる。
次に音声の分析フレーム毎の1フレ一ム分の周波数スペ
クトルについて考察すると、従来のフィルタバンク出力
から求められる特徴ベクトルを用いて行われる音声認識
処理にあっては、次元数圧縮によりその冗長度が少なく
なっていることから、例えば騒音環境下では母音等の静
的音韻の認識が困難であった。然し乍ら、上述した如き
周波数スペクトルとして求められる特徴ベクトルでは、
その冗長度が高いので、上述した母音等の静的音韻に対
してもこれを精度良く認識することが可能となる。更に
は雑音が含まれる音声データであっても、上述したピッ
チ情報を表現した冗長性の高い音声特徴ベクトルを用い
てこれを認識処理することができるので、雑音による影
響を効果的に排除してその認識結果を求めることが可能
となる。換言すれば、その耐雑音性を十分に高めること
が可能となる。
更にはピッチ情報から検定される入力音声のアクセント
に従い、アクセント核の異なりを利用して同音異義語の
選択を行うことも可能となる。また非言語音である、例
えば「あ〜あ」 「え〜」等を認識することも可能とな
り、英語音声におけるrUh・・・J  rm・・・」
等をも認識することも可能となる。
このようなピッチ情報を表現してなる時間周波数スペク
トルで示される音声特徴ベクトルについて更に考察して
みる。先ず音声の生成理論に従えば、音声Sい、は第7
図に示すように、gLl)で表現される声帯波(Glo
ttal )とv、1.で示される声道の伝達関数(V
ocal Tract )とのたたみ込み処理(Con
volutlon )により、S(鑞) ″ g (1
) * V (1)として生成される。
これを周波数領域で表現すると S<t+      −G<t>    0  V(1
)なる形式の積の関係となる。
しかして音声信号が有声音である場合、その音源信号g
(1,は、周期T。(ピッチ周波数fo=  l/To
 )の三角波に近い周期波形となるとなることが知られ
ている。そして周波数領域で表現される上記信号G (
f)の周波数スペクトルは第8図のaに示すような線ス
ペクトルとなる。また音響管で近似される母音等の声道
特性V (t)は、第8図のbに示すようにホルマント
と称される幾つかの共振点(周波数伝達関数のピーク)
として表現される。
この結果、上述したように生成される音声信号S4.)
の周波数スペクトルについても前記G c、。
とV41.との積で示されることから、やはり第8図の
Cに示すように線スペクトルとなる。しかして音声信号
str+を前述したようにDFT処理し、そのDFTス
ペクトルS。)を求めると、そのスペクトル成分は第8
図のdに示すようになり、前述した音声信号S目)の線
スペクトルの情報が現れるに過ぎない。
これに対して声道特性■、。の第1.第2.第3ホルマ
ント(共振周波数)が第8図のbに示すように周波数F
、、F2.F、(Hz)として与えら′れ、音源信号G
(1)の人カスベクトルに上記F、、F2.F3 (H
z)なる周波数成分が含まれないような場合、音声信号
S 11)には上記Fl。
F 2 、  F s  (Ilz)なる出力が生じる
ことはない。
この為、ホルマントの推定ができなくなると云う基本的
な問題が生じる。
即ち、従来−船釣な音声認識はその入カスベクトルをX
tt>r 出カスベクトルをY(t>r そしてその伝
達関数をH(t)としたとき Htt+  −Y (1) / X (1)なる関係で
その伝達関数を推定し、この伝達関数H1)で示される
ホルマントを求めることによって行われる。これ故、入
カスベクトルX(1)が既知であっても、その特定のス
ペクトル成分X(f’、)が[0]となる周波数・f、
では、その伝達関数H(r、)を求めることはできない
。従ってこのような音声信号S l)については、その
伝達関数である声道特性V31.を推定することができ
ず、結局、そのホルマントも求めることができないと云
う問題が生じる。
このことは女声等の高ピツチ周波数の音声に対するホル
マントの正確な抽出が困難なことからも裏付けられ、線
形システムの同定理論からしても明らかである。
然し乍ら、従来にあってはこのような音声生成の基本モ
デルを前提とすることなく、例えば第9図に示すように
DFT分析等によって求められる音声データのスペクト
ル成分を単にピッチの影響の低減、認識に不要な変動成
分の除去1次元数の縮小、データ量削減を目的として圧
縮処理し、その゛1死滑化されたスペクトルを認識処理
の対象としているので、上述したようにその特徴ベクト
ルからはホルマントの推定等が全くできない。
この点、本発明は理論的に正確な推定が不可能なホルマ
ント的な特徴を音声認識の為の特徴量として用いるので
はなく、その観点を全く異ならせてピッチ情報を表現し
ている周波数スペクトルの情報そのものを特徴ベクトル
として用い、音声認識に利用するものとなっている。こ
の結果、入カスベクトル成分が存在しない周波数にその
ホルマントがある場合でも、次元数が高く特徴量の豊富
なりFTスペクトルから、例えば複合類似度法等の強力
な特徴抽出手段を用いることにより、その冗長度を利用
して高性能に音声を認識することが可能となる。
つまりDFT分析された周波数スペクトルそのものを用
いて音声特徴ベクトルを表現しているので、上述した線
スペクトルで示されるような音声パターンの重要な特徴
を効果的に抽出することが可能となる。この結果、周波
数スペクトルにて表現される1フレームの静的なパター
ンのみならず、時間周波数スペクトルとして動的なパタ
ーンから入力音声の特徴を抽出して認識処理することが
でき、例えば母音等の1フレームの音声パターンを例に
とっても、これを・効果的に認識することが可能となる
しかして前述した時間周波数スペクトルにて表現された
音声特徴ベクトルに基づく認識処理においても同様な理
論が成立することから、有声/無声の情報やピッチの変
化、ホルマントの変化等の情報をその周波数スペクトル
として効果的に表現することが可能となるので、これら
の情報を用いて音声データを高精度に認識することが可
能となる。
ちなみに本発明者等の実験によれば次のような結果が得
られた。この実験は、成人男性200名について10数
字を含む13単語をそれぞれ1回発声した音声データを
収集し、その中の100名分を認識辞書の作成(学習)
に使用し、残りを評価用として用いて行った。
そしてその音声データについては、アナログ音声信号を
標本化周波数12kllzでサンプリングし、これをデ
ィジタル化した後、フレーム周期8 tisec。
フレーム長24 asecでDFT分析し、[16チヤ
ネル×6フレーム;96次元]、[32チャネル×6フ
レーム;192次元]、[62チャネル×6フレーム;
372次元]の時間周波数スペクトルを特徴ベクトルと
してそれぞれ抽出し、単純類似度法および複合類似度法
を用いてそれぞれ認識処理を行った。次に示す表が、そ
の認識率を示す実験結果である。
この実験結果に示されるように、ピッチ情報を含む音声
特徴ベクトルを抽出し、複合類似度により音声認識処理
を行う本装置によれば、その計算量が増大するもののそ
の認識性能を飛躍的に高め得ることが確認された。
さて上述した説明は、ピッチ情報を表現した音声特徴ベ
クトルを用い・た音声認識処理について述べているが、
認識辞iF5を学習する場合にも上述したピッチ情報を
表現した音声特徴ベクトルを用いることが有効である。
第10図は認識辞書5の学習機能を備えて構成される音
声認識処理の概略構成を示す図である。
この実施例装置は、学習用の各種認識対象カテゴリにつ
いての音声データを収集格納した学習用音声データファ
イル11と、種々の雑音環境下で収集された雑音データ
を格納した学習用雑音データファイル12を備えている
音声データ加工部13は認識辞書5の学習モードが設定
されたとき、学習対象とするカテゴリの音声データを前
記学習用音声データファイル11から読み出し、これに
前記学習用雑音データファイル12から求められる雑音
データを加えることでその音声データに人工的なパター
ン変形やレベル変動等を与えるものである。この音声デ
ータ加工部13にてパターン変形やレベル変動が加えら
れた音声データ(雑音が混入した音声データ)が前記D
FT分析部2に与えられてDFT分析され、そのDFT
スペクトルが求められる。
学習用特徴ベクトル抽出部14は、例えば前述した認識
処理用の単語特徴ベクトル抽出部3と同様にして上記D
FTスペクトルから所定次元数の時間周波数スペクトル
をその特徴ベクトルとして抽出し、学習部15による認
識辞@5の学習に供するものである。
しかしてこのようにして人工的にパターン変形やレベル
変動を与えて学習パターンを生成し、これを用いて認識
辞書5を学習する機能を備えた音声認識装置によれば、
ピッチ情報を含む音声特徴ベクトルの次元数が高く、そ
のパターン空間の自由度が高いことから高性能な認識辞
ii5の設計に際して必要となる大量の音声データを簡
易にして効果的に与えることが可能となる。この結果、
学習用音声データファイル11に収集された音声データ
を有効に活用して認識辞書性能を効果的に高めることが
可能となる。そして特徴ベクトルに示される音声ピッチ
情報を利用して、耐雑音性よく高精度に入力音声を認識
、することが可能となる。
尚、前述した例では音声のエネルギー変化等からその音
声区間を検出し、検出された音声区間のDFTスペクト
ルを抽出して音声特徴ベクトルを生成して認識処理を行
ったが、例えば第11図に示すようなワードスポツティ
ング法を利用した連続パターンマツチングによる音声認
識装置にも同様に適用することができる。
この連続パターンマツチングは連続パターン照合範囲決
定部8a、特徴ベクトル抽出部8b、パターン照合部8
cにより構成される連続パターン照合部8において、入
力音声の特徴パラメータの時系列(ここではDFTスペ
クトルの時系列)からワードスポツティング的にその音
声区間を固定的に定めることなく順次連続的に特徴ベク
トル(ここでは時間周波数スペクトル)を抽出し、これ
らの各特徴ベクトルについてそれぞれ認識辞書とのパタ
ーン照合により類似度の時系列を求めるものである。
具体的には成るフレーム周期において、そのフレークイ
ミングを終端点とする複数の音声区間を設定し、これら
の各区間についてそれぞれ特徴ベクトルを抽出する。そ
してこれらの各特徴ベクトルについてそれぞれ認識辞書
5とのパターン照合によりその類似度を求める。この処
理をフレーム周期の時間経過に伴ってフレーム周期ごと
に実行することで類似度の時系列を求める。
このようにして連続パターン照合部8にて求められる類
似度の時系列を、類似度判定部9にて判定処理し、例え
ば最大類似度値をとる認識対象カテゴリとその音声区間
の情報を求める等して音声データに対する認識結果や学
習用の特徴ベクトルを抽出する為の情報を得る。
本発明で用いられるピッチ情報を表現してなる音声特徴
ベクトルは、このような連続パターンマツチングによっ
て認識処理が行われる音声認識装置についても非常に有
効である。特にこの場合には連続パターンマツチングに
よる音声区間の誤検出に対するミスマツチングの排除効
果と相俟ってその認識性能を飛躍的に高めることが可能
となる。
また上述したように音声データに雑音データを人工的に
加えて学習用音声データを生成し、これを用いて認識辞
書の学習を行う実施例装置によれば、例えばそのパター
ン変形の度合いやそのレベル変動を異ならせて種々の学
習用音声データを生成することが可能となるので、少な
い音声データを有効に用いて数多くの学習データを作り
出し、認工辞書の学習を高精度に行わせることが可能と
なる。
つまり音声データに対する雑音データの混入量(雑音レ
ベル)を種々変化させると共に、そのパターン変形の度
合いも変化させることにより、同一の音声データをベー
スとして雑音データを加えた種々の学習用データを作成
し、これを用いて認識辞書の学習を行うようにする。特
に前述した時間周波数スペクトルで表現される次元数の
高い特徴ベクトルとを用いる場合、その認識辞書の学習
に多くの学習用データを必要とすることから上述した如
く学習用データを人工的に生成することは非常に有用で
あると云える。
尚、本発明は上述した実施例に限定されるものではない
。例えばピッチ情報を表現する周波数スペクトルの次元
数を幾つに設定するか、また時間周波数スペクトルとし
ての時間軸方向の次元数を幾つに設定するかについては
、その仕様に応じて決定すれば良い。また認識辞書の学
習に際して実施例では、学習用データを人工的に作成し
た後、これをDFT分析しているが、その処理を逆にし
て実行することも可能であり、また特徴ベクトルの生成
時にパターン変形を加えるようにしても良い。その他、
認識処理(辞書パターンとの照合処理)の手法について
も前述した複合類似文法以外の手法を用いることが勿論
可能であり、特徴ベクトルのピッチ情報だけを抜き出し
て有声/無声判定等を行うようにすることも可能である
。また実施例ではDFT分析によってピッチ情報を含む
音声特徴ベクトルを求めるものとして説明したが、ピッ
チ情報を含むケプストラムをその周波数スペクトルとし
て求めて同様に処理することも可能である。その他、本
発明はその要旨を逸脱しない範囲で種々変形して実施す
ることができる。
[発明の効果] 以上説明したように本発明によれば、入力音声が有する
ピッチ情報を含むようにして求められる音声特徴パラメ
ータ、例えばDFTスペクトルを積極的に利用して、そ
のピッチ情報が表現されるように音声特徴ベクトルを求
めて認識処理に供するので、音声特徴ベクトルとしての
自由度(音声パターン表現能力)を高め、音声が有する
冗長度を有効に活用して高精度に音声を認識することが
可能となる。そして音声認識処理における耐雑音性能や
認識率を向上させ、更には音声の韻律情報が重要となる
発話の認識や発声感情の認識等を行うことも可能となり
、音声入力の為の有用なヒユーマンインターフェースと
して実用上多大なる効果が奏せられる。
【図面の簡単な説明】
第1図は本発明の一実施例に係る音声認識装置の基本構
成を示す概略構成図、第2図は実施例装置における特徴
的な音声特徴ベクトルの抽出概念を模式的に示す図、第
3図は入力音声のDFT分析パターンとフィルタバンク
出カバターンを示す図、第4図は第3図に示すDFT分
析パターンのピッチ情報を模式的に示す図である。 また第5図および第6図はそれぞれDFTスペクトルか
らの時間周波数スペクトル(音声特徴ベクトル)の抽出
処理例を示す図、第7図乃至第9図は音声のピッチ情報
について説明する為の音声生成のモデルとそのスペクト
ル成分について示す模式図、第10図および第11図は
それぞれ本発明の実施例に係る認識辞書の学習機能を備
−えた音声認識装置の概略構成図である。 そして第12図は音声認識処理の典型的な方式をモデル
化して示す図、第13図は従来−船釣に用いられている
音声認識の為の音声特徴ベクトルの抽出過程を模式的に
示す図である。 1・・・音声入力部、2・・・DFT分析部、3・・・
特徴ベクトル抽出部、4・・・音声区間検出部、5・・
・認識辞書、6・・・パターン照合部、7・・・認識結
果出力部、訃・・連続パターン照合部、9・・・類似度
判定部、11・・・学習用音用データ、ファイル、12
・・・雑音データファイル、13・・・音声データ加工
部。

Claims (1)

  1. 【特許請求の範囲】 (1)入力音声データを分析して音声特徴パラメータの
    時系列を求め、この音声特徴パラメータの時系列から抽
    出される音声特徴ベクトルと音声認識辞書とを照合して
    前記入力音声データに対する認識結果を求める音声認識
    装置において、 前記音声特徴ベクトルを、入力音声データの音声ピッチ
    構造を表現し得る周波数スペクトルを含む情報として求
    めることを特徴とする音声認識装置。 (2)音声特徴パラメータは、入力音声データを離散的
    フーリエ変換して求められる周波数スペクトルの情報と
    して所定のフレーム周期毎に抽出されることを特徴とす
    る請求項(1)に記載の音声認識装置。 (3)音声特徴ベクトルは、音声特徴パラメータの時系
    列から抽出された周波数時間軸スペクトルの情報として
    与えられることを特徴とする請求項(1)に記載の音声
    認識装置。(4)音声特徴ベクトルは、入力音声の始終
    端間における音声特徴パラメータの時系列の一部をリサ
    ンプルして求められることを特徴とする請求項(3)に
    記載の音声認識装置。(5)音声特徴ベクトルは、音声
    特徴パラメータとして求められる周波数スペクトルの高
    域成分を統合することで、その一部のベクトル要素を音
    声のピッチ情報を含まないものとして求められることを
    特徴とする請求項(1)に記載の音声認識方式。 (6)請求項(1)に記載の音声認識装置において、1
    フレームの音声特徴パラメータから求められる音声特徴
    ベクトルに含まれる音声のピッチ情報から、母音や撥音
    等の静的な音韻を認識する手段を備えたことを特徴とす
    る音声認識装置。 (7)請求項(1)に記載の音声認識装置において、音
    声特徴ベクトルとの照合に用いられる音声認識辞書の学
    習手段と、入力音声データに人工的なパターン変形を加
    えて上記音声認識辞書の学習に供する手段とを設けたこ
    とを特徴とする音声認識装置。
JP25702489A 1989-10-03 1989-10-03 音声認識装置 Pending JPH03120434A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP25702489A JPH03120434A (ja) 1989-10-03 1989-10-03 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP25702489A JPH03120434A (ja) 1989-10-03 1989-10-03 音声認識装置

Publications (1)

Publication Number Publication Date
JPH03120434A true JPH03120434A (ja) 1991-05-22

Family

ID=17300679

Family Applications (1)

Application Number Title Priority Date Filing Date
JP25702489A Pending JPH03120434A (ja) 1989-10-03 1989-10-03 音声認識装置

Country Status (1)

Country Link
JP (1) JPH03120434A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272106B1 (en) 1994-05-06 2001-08-07 Nit Mobile Communications Network, Inc. Method and device for detecting double-talk, and echo canceler
WO2006016752A1 (en) * 2004-08-11 2006-02-16 Ilshin Industry Company Limited Adhesive interlining for lining

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6272106B1 (en) 1994-05-06 2001-08-07 Nit Mobile Communications Network, Inc. Method and device for detecting double-talk, and echo canceler
WO2006016752A1 (en) * 2004-08-11 2006-02-16 Ilshin Industry Company Limited Adhesive interlining for lining

Similar Documents

Publication Publication Date Title
US11056097B2 (en) Method and system for generating advanced feature discrimination vectors for use in speech recognition
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
Hibare et al. Feature extraction techniques in speech processing: a survey
Shanthi et al. Review of feature extraction techniques in automatic speech recognition
JPS59226400A (ja) 音声認識装置
JPH10133693A (ja) 音声認識装置
JPS59121100A (ja) 連続音声認識装置
Nanavare et al. Recognition of human emotions from speech processing
Dave et al. Speech recognition: A review
Hidayat et al. Speech recognition of KV-patterned Indonesian syllable using MFCC, wavelet and HMM
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
Deiv et al. Automatic gender identification for hindi speech recognition
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
Nazifa et al. Gender prediction by speech analysis
JPH03120434A (ja) 音声認識装置
US20060190257A1 (en) Apparatus and methods for vocal tract analysis of speech signals
JPS63165900A (ja) 会話音声認識方式
Mengistu et al. Text independent Amharic language dialect recognition: A hybrid approach of VQ and GMM
Majidnezhad A HTK-based method for detecting vocal fold pathology
Tripathi et al. Robust vowel region detection method for multimode speech
Bhattachajee et al. An experimental analysis of speech features for tone speech recognition
TWI395200B (zh) 一種不用樣本能辨認所有語言的辨認方法
Kelbesa An Intelligent Text Independent Speaker Identification using VQ-GMM model based Multiple Classifier System
Khan et al. Word spotting in continuous speech using wavelet transform