JPH0465399B2

JPH0465399B2 -

Info

Publication number: JPH0465399B2
Application number: JP19627286A
Authority: JP
Inventors: Yoichi Yamada; Keiko Takahashi
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 1986-08-21
Filing date: 1986-08-21
Publication date: 1992-10-19
Also published as: JPS6350899A

Description

【発明の詳細な説明】（産業上の利用分野）この発明は音声認識装置、特にマツチング技術
を用いた音声認識装置に関するものである。

（従来の技術）音声認識を行う一般的な技術として以下に述べ
るスペクトルマツチング技術がある。先ず、この
発明の説明に先立ち、第５図及び第６図を用いて
従来提案されているスペクトルマツチング技術を
用いた音声認識装置につき簡単な説明を行う。

Ａ／Ｄ変換された入力音声信号Ｄ１は周波数分
析部１０へ入力される。周波数分析部１０はこの
入力信号Ｄ１に対し入力中心周波数の異なる（中
心周波数の番号付けを以後チヤネルと称す）バン
ドパスフイルタによる周波数分析及び対数変換を
行つた周波数スペクトルＤ２を所定の時間間隔
（以後フレームと称する。）毎に算出し（第６図
Ａ）、スペクトル正規化部１１及び音声区間検出
部１２へ出力する。

音声区間検出部１２は周波数スペクトルＤ２の
値の大きさなどから始端時刻と終端時刻とを決定
し始端時刻信号Ｄ３及び終端時刻信号Ｄ４をスペ
クトル正規化部１１へ出力する。

スペクトル正規化部１１は周波数スペクトルＤ
２からスペクトルの最小自乗近似直線減じ正規化
スペクトル（第６図Ａ及びＢ）とする処理を始端
時刻から終端時刻まで行い正規化スペクトルパタ
ンＤ５としてスペクトル類似度計算部１３へ出力
する。

上記処理を所定の時間間隔（フレーム）毎に音
声始端時刻から音声終端時刻まで繰り返し行う。

次にスペクトル類似度計算部１３は正規化スペ
クトルパタンＤ５と、予めスペクトル標準パタン
記憶部１４に格納して用意されている全ての標準
パタンとの類似度を算出し、各人識対象カテゴリ
に対するスペクトル類似度Ｄ６を判定部１５へ出
力する。

判定部１５は全ての標準パタンの中で最大の類
似度を与える標準パタンが属するカテゴリ名を認
識結果として出力する。

以上述べた音声認識装置におけるスペクトルマ
ツチング技術によれば、スペクトル正規化を行う
ことにより話者の相違により発生する声帯音源特
性の相違を吸収することが出来、不特定話者が発
声する音声の認識に対して有効である。

（発明が解決しようとする問題点）このスペクトルマツチング技術は入力音声パタ
ン全体のスペクトル形状を抽出し、スペクトル標
準パタンとの類似度計算を行うものである。

従つてパタン全体のスペクトル形状が類似した
カテゴリ、例えば「イイエ」と「レイ」を考える
と、母音「イ」と母音「エ」のホルマント周波数
の出現位置は同一音声内においては明らかな相違
があるが、発声時刻及び発声話者が変動する場合
を考えると両母音のホルマント周波数の出現位置
の分布はオーバーラツプする部分があるため、正
規化スペクトル情報（例えばホルマント周波数）
が出現するチヤネル上の絶対位置の標準的な値で
あるところのスペクトル標準パタンと類似度計算
を行つた場合に両者を正確に識別判定することが
困難となる場合がある。即ち、同一音声内におけ
るスペクトルの変化量（相対的な性質を有し、例
えば「イ」から「エ」への遷移部、「エ」から
「イ」への遷移部の情報）を表わす特徴量が欠落
していることにより認識性能の低下を招くという
問題点があつた。

この発明は上述した問題点を除去するために成
されたものであり、従つてこの発明の目的は入力
音声の正規化スペクトルの変化方向を定量化した
特徴を追加し、この特徴を標準パタンとの類似度
演算に使用する構成とすることにより、認識性能
の優れた音声認識装置を提供することにある。

（問題点を解決するための手段）この目的の達成を図るため、この発明による音
声認識装置によれば、 (a) 音声区間内の各フレーム毎に該フレームの周
辺における時間の進行に従つた正規化スペクト
ルのチヤネル方向に対する遷移方向を定量化し
た値をスペクトル変化量パタンとして各チヤネ
ル毎に算出するスペクトル変化量パタン計算部
と、 (b) スペクトル変化量標準パタンを予め格納した
スペクトル変化量標準パタン記憶部と、 (c) このスペクトル変化量パタンと、スペクトル
変化量標準パタンとの類似度計算を行い各認識
対象カテゴリに対するスペクトル変化量類似度
を算出するスペクトル変化量類似度計算部とを
設ける。

(d) そして、さらに、このスペクトル類似度とス
ペクトル変化量類似度の両者を参照することに
より各認識対象カテゴリ毎に総合類似度を計算
し、この総合類似度が全ての認識対象カテゴリ
の中で最大となるカテゴリ名を認識結果として
出力するように構成した判定部を具えている。

この発明の実施に当つては、好ましくはこのス
ペクトル変化量パタン抽出部にはフレーム間距離
算出手段と、極大フレーム判定手段と、スペクト
ル変化量パタン抽出手段とを設けるのが良い。

このフレーム間距離算出手段は、音声区間内の
音声始端フレームから音声終端フレームまでの各
フレーム毎に、該フレームと該フレームの直前フ
レームとのフレーム間距離を算出する機能を有す
るのが好適である。

さらに極大フレーム判定手段は、算出した音声
区間内の各フレームにおけるフレーム間距離が極
大となるフレームを変化量極大フレームと判定す
る機能を有するのが好適である。

さらに、スペクトル変化量パタン抽出手段は、
変化量極大フレームについて該フレームにおける
各チヤネルに対して、該フレームよりフレーム番号負方向かつ該チ
ヤネルよりチヤネル番号負方向である領域該フレームよりフレーム番号正方向から該チ
ヤネルよりチヤネル番号正方向である領域該フレームよりフレーム番号負方向かつ該チ
ヤネルよりチヤネル番号正方向である領域該フレームよりフレーム番号正方向かつ該チ
ヤネルよりチヤネル番号負方向である領域の４領域の正規化スペクトルに着目し、及び
項で説明された領域における正規化スペクトル値
と、及び項で説明された領域における正規化
スペクトル値の相対関係を表わす値、例えば両正
規化スペクトル値の差値、を該フレーム及び該チ
ヤネルにおけるスペクトル変化量とする処理を施
し、この処理を音声区間内における全ての変化量
極大フレームについて行いスペクトル変化量パタ
ンを作成する機能を有するのが好適である。

（作用）このように、この発明の音声認識装置によれ
ば、従来の識別判定に用いられているスペクト類
似度の他に、同一音声区間内におけるスペクトル
の変化量を表わす特徴量であつて、しかも、スペ
クトルの遷移方向を考慮したスペクトル変化量類
似度を加えた総合類似度で識別判定を行うので、
正確かつ安定な認識が可能となる。

（実施例）以下、図面を参照してこの発明の音声認識装置
の一実施例につき説明する。

第１図はこの発明の一実施例を示す機能ブロツ
ク図、第２図Ａはこの発明の一主要部を構成する
スペクトル変化量抽出部の一例を示す機能ブロツ
ク図、第２図Ｂは第２図Ａのスペクトル変化量抽
出部の動作手順を説明するための流れ図である。
第１図及び第２図Ａ及Ｂを用いてこの発明の音声
認識装置及びその動作説明を行うが、第１図にお
いて第５図に示した構成成分に対応する構成成分
については同一符号を付して示し、その詳細な説
明は、特に相違する場合を除き、省略する。

この発明の実施例の音声認識装置によれば、第
５図に示した従来提案されている構成成分の他
に、発声音の特徴であるスペクトル変化量を抽出
するスペクトル変化量計算部１６と、スペクトル
変化量標準パタンを予め読み出し自在に記憶させ
てあるスペクトル変化量標準パタン記憶部１７
と、スペクトル変化量パタン及びスペクトル変化
量標準パタンの類似度を計算するスペクトル変化
量類似度計算部１８とを設けると共に、判定部を
総合類似度で認識判定出来る判定部１９として構
成している。

このスペクトル変化量計算部１６には、音声区
間検出部１２から始端時刻信号Ｄ３及び終端時刻
信号Ｄ４を供給すると共に、スペクトル正規化部
１１から正規化スペクトルパタンＤ５を供給す
る。このスペクトル変化量計算部１６は第２図Ｂ
の説明の項で後述する手法によりスペクトル変化
量パタンＤ８を算出し、スペクトル変化量類似度
計算部１８へ出力する。

このスペクトル変化量類似度計算部１８はスペ
クトル変化量パタンＤ８と、予めスペクトル変化
量標準パタン記憶部１７に記憶されている全ての
スペクトル変化量標準パタンＤ９との類似度を計
算し、各認識対象カテゴリに対するスペクトル変
化量類似度Ｄ１０を判定部１９へ出力する。

この判定部１９は認識対象カテゴリ毎にスペク
トル類似度Ｄ６と、スペクトル変化量類似度Ｄ１
０との両者を参照して最大の総合類似度を求めて
認識結果Ｄ１１を出力するが、この実施例では両
者Ｄ６及びＤ１０の総和を算出し、この類似度総
和値が全ての認識対象カテゴリの中で最大となる
カテゴリ名を認識結果Ｄ１１として出力する。

次に、第２図Ａ及びＢの機能ブロツク図及び動
作の流れ図によりスペクトル変化量計算部１６の
動作説明を詳細に行う。

スペクトル変化量計算部１６は第２図Ａに示す
ようにこの実施例ではフレーム間距離算出手段２
０、極大フレーム判定手段２１及びスペクトル変
化量パタン抽出手段２２を具えている。そして、
これら手段２０〜２２による処理手順につき第２
図Ｂを参照して以下説明する。尚、以下の説明に
おいて、処理ステツプをＳで表わす。

() フレーム間距離算出手段音声区間内のあるフレーム（フレーム番号を
ｊとする）におけるフレーム間距離をDST(j)、
周波数分析チヤネル数をCHNNO、正規化ス
ペクトル出力をＳ（ｉ、ｊ）（但しｉはチヤネル
番号）とする。先ず、隣接するフレーム間での
正規化スペクトル出力の差値△Ｓ（ｉ、ｊ）を
求め、次にその絶対値｜△Ｓ（ｉ、ｊ）｜を求
め、続いて下記(1)式に従つてDST(j)を求める
（S1）。

DST(j)＝_CHNNO 〓ⁱ⁼¹ ｜Ｓ（ｉ、ｊ）−Ｓ（ｉ、ｊ−１）｜
……(1) すなわち上記(1)式に示されるように該フレーム
における正規化スペクトル出力と該フレームの
直前フレームにおける正規化スペクトル出力間
の各チヤネル成分の差分絶対値の総和としてフ
レーム間距離DST(i)を音声区間における始端
フレームSFRから終端フレームEFRまでの全
てのフレームに対して算出する（S1、S2）。

() 極大フレーム判定手段フレーム番号ｊ＝SFRと初期化を行つた後
（S3）、音声区間内において各フレーム毎に算
出したフレーム間距離DST(j)が極大かどうか
比較して判定し（S4）、極大となるフレームを
変化量極大フレームとして検出する。

() スペクトル変化量パタン抽出手段 (イ) 変化量極大フレームである場合（S5〜S7） (a) 高域から低域方向へのスペクトル量算出
（S5）各チヤネル毎に当該極大フレーム周辺に
おける高域から低域方向へのスペクトル量
HTOL（ｉ、ｊ）（但しｉ：チヤネル番号）
を以下の(2)式により算出する。

HTOL（ｉ、ｊ）＝_j-1 〓^t=j-TL _i+FL 〓^f=i+1 Ｓ（ｆ、ｔ）＋_j+TL 〓^t=j+1 _i-1 〓^f=i-FL Ｓ（ｆ、ｔ） ……(2) (2)式の第１項はフレーム番号負方向及び
チヤネル番号正方向の領域の、又、第２項
はフレーム番号正方向及びチヤネル番号負
方向の領域の正規化スペクトル値である。

(b) 低域から高域方向へのスペクトル量算出
（S6）各チヤネル毎に該フレーム周辺における
低域から高域方向へのスペクトル量
LTOH（ｉ、ｊ）（但しｉ：チヤネル番号）
を以下の(3)式により算出する。

LTOH（ｉ、ｊ）＝_j-1 〓^t=j-TL _i-1 〓^f=i-FL Ｓ（ｆ、ｔ）＋_j+TL 〓^t=j+1 _i+FL 〓^f=i+1 5S（ｆ、ｔ） ……(3) (3)式におてえ第１項はフレーム番号負方
向及びチヤネル番号負方向の領域の、又、
第２項はフレーム番号正方向及びチヤネル
番号正方向の領域の正規化スペクトル値で
ある。

但し、これら(2)式及び(3)式において、ｆ
はチヤネル番号の変数、ｔはフレーム番号
の変数であり、又、TL、FLは経験によつ
て定まる所定の定数で、この実施例では
TL＝３、FL＝２程度とすることが好まし
い。尚、この(2)式及び(3)式を算出する計算
手順は任意に定めることが出来る。

上記(2)式で示される値は該フレーム及び
該チヤネル周辺における時間の進行に従つ
て高域チヤネルから低域チヤネル方向へ遷
移する正規化スペクトル値であり、(3)式で
示される値は該フレーム及び該チヤネル周
辺における時間の進行に従つて低域チヤネ
ルから高域チヤネル方向へ遷移する正規化
スペクトル値である。

(c) スペクトル変化量算出（S7）これら(2)式及び(3)式で与えられる正規化
スペクトル値の相対関係を表わす値とし
て、この実施例においては、次の(4)式で定
義される、該フレーム（フレーム番号ｊ）
における各チヤネル毎のスペクトル変化量
パタンDS（ｉ、ｊ）（但しｉ：チヤネル番
号）で与えられる。

DS（ｉ、ｊ）＝HTOL（ｉ、ｊ）−LTOH（ｉ、ｊ）
……(4) このスペクトル変化量パタンDS（ｉ、
ｊ）を抽出する算出ステツプを処理ステツ
プ（S7）で行う。

(4)式の値DS（ｉ、ｊ）が正値である場合
は時間の進行に従つて高域チヤネルから低
域チヤネル方向へ遷移する正規化スペクト
ル値が大、(4)式の値が負値である場合は時
間の進行に従つて低域チヤネルから高域チ
ヤネル方向へ遷移する正規化スペクトル値
が大である。

(ロ) 変化量極大フレームでない場合（S8）この場合の処理もスペクトル変化量パタン
抽出手段２２で行う。

この場合には、該フレームにおける各チヤ
ネル毎のスペクトル変化量パタンDS（ｉ、
ｊ）の値は全てのチヤネルについて０とする
（S8）。

上述した各処理（S4〜S8）の終了後、フレー
ム番号ｊに１を加算する（S9）。次に、ｊ≦EFR（EFR：終端フレーム番号）を満足するか否かの判定を行い（S10）、この条
件を満足する時ステツプS4からの処理を繰り返
し行い、満足しない時は処理を終了する。

具体例の説明第３図Ａは発声音「イイエ」及び第３図Ｂは発
声音「レイ」の正規化スペクトルを横軸にフレー
ム番号及び縦軸にチヤネル番号を取つて表わした
図である。

濃淡の濃い部分が正規化出力値が大であること
を表している。

これら図から理解出来るように、第３図ＡにＢ
で示した領域及び第３図ＢのＣで示した領域にお
いてスペクトル変化量パタンDS（ｉ、ｊ）は負値
となり、第３図ＡのＡで示した領域及び第３図Ｂ
のＤで示した領域においてスペクトル変化量パタ
ンDS（ｉ、ｊ）は正値となる。従つてスペクトル
変化量計算部１６から出力されるスペクトル変化
量パタンＤ８と、スペクトル変化量標準パタンＤ
９との間の類似度であるところのスペクトル変化
量類似度Ｄ１０は両者の間で明白な相違がある。

第４図は判定部１９における発声音の音声パタ
ンと、この発声音に類似する音声の標準パタンと
の総合類似度を説明する図であり、第４図Ａは第
３図Ａの音声パタンを有する発声音「イイエ」の
カテゴリ名「イイエ」及びカテゴリ名「レイ」に
対する総合類似度を表わし、第４図Ｂは第３図Ｂ
の音声パタンを有する発声音「レイ」のカテゴリ
名「イイエ」及びカテゴリ名「レイ」に対する総
合類似度を表わしている。尚、図中〓〓〓〓はス
ペクトル変化量類似度Ｄ１０を表わし、〓〓〓〓
はスペクトル類似度Ｄ６をそれぞれ表わしてい
る。

これら図から理解出来るように発声音「イイ
エ」及び「レイ」のそれぞれの特徴量であるスペ
クトル変化量類似度が対比されるべき「レイ」及
び「イイエ」の標準パタンのスペクトル変化量類
似度よりも大きいため、「イイエ」及び「レイ」
の発声音の音声パタンと標準パタンとでスペクト
ル類似度に差が無くても、スペクトル類似度との
併用により正確な認識処理を行なうことが出来
る。

この発明は上述した実施例にのみ限定されるも
のではなく、多くの変形又は変更を行い得ること
明らかである。例えば、スペクトル変化量計算部
１６の各機能手段は何ら実施例で説明したものに
限定されるものではない。又、これら機能手段で
行われる動作手順も上述した実施例に限定される
ものではない。

さらに、スペクトル変化量類似度計算部１８及
びスペクトル変化量標準パタン記憶部１７につい
ては詳細な説明を省略したが、これらはスペクト
ル類似度計算部１３及びスペクトル標準パタン記
憶部１４と同様にして構成出来る。

又、第１図に示した音声認識装置の動作はメモ
リ、制御部、その他の通常の電子回路等を用いて
構成したマイクロコンピユーター等によつてソフ
ト的に処理することが出来る。

（発明の効果）上述した説明から明らかなように、この発明の
音声認識装置では、正規化スペクトル類似度とス
ペクトル変化量類似度を用いて認識判定を行う構
成としたので、入力音声内におけるスペクトルの
遷移方向を加味した正確かつ安定な認識が可能と
なり認識性能の優れた音声認識装置の実現が可能
となる。

【図面の簡単な説明】

第１図はこの発明の音声認識装置の一実施例を
示す機能ブロツク図、第２図Ａは第１図の音声認
識装置のスペクトル変化量計算部の一実施例を示
す機能ブロツク図、第２図Ｂはこの発明のスペク
トル変化量パタン抽出の処理手順を示す動作の流
れ図、第３図Ａ及びＢはこの発明の説明に供する
発声音「イイエ」及び「レイ」の正規化スペクト
ルをそれぞれ示す図、第４図はこの発明における
スペクトル変化量類似度の認識への貢献を説明す
るための、標準パタンに対する総合類似度の説明
図、第５図は従来の音声認識装置を示す機能ブロ
ツク図、第６図はスペクトルマツチング技術の説
明図である。１０……周波数分析部、１１……スペクトル正
規化部、１２……音声区間検出部、１３……スペ
クトル類似度計算部、１４……スペクトル標準パ
タン記憶部、１６……スペクトル変化量計算部、
１７……スペクトル変化量標準パタン記憶部、１
８……スペクトル変化量類似度計算部、１９……
判定部、２０……フレーム間距離算出手段、２１
……極大フレーム判定手段、２２……スペクトル
変化量パタン抽出手段。

Claims

【特許請求の範囲】１入力音声に対し複数のチヤネルによる周波数
分析、対数変換を行い周波数スペクトルを抽出す
る周波数分析部と、前記周波数スペクトルに基づいて音声区間を検
出する音声区間検出部と、前記周波数スペクトル及び音声区間に基づいて
前記周波数スペクトルに対して声帯音源特性の正
規化を行つた正規化スペクトルパタンを算出する
スペクトル正規化部と、スペクトル標準パタンを予め格納したスペクト
ル標準パタン記憶部と、前記正規化スペクトルパタン及びスペクトル標
準パタンの類似度計算を行い各認識対象カテゴリ
に対するスペクトル類似度を算出するスペクトル
類似度計算部と、全ての認識対象カテゴリの中で最大の類似度を
与えるカテゴリ名を認識結果として出力する判定
部とを具える音声認識装置において、 (a) 音声区間内の各フレーム毎に該フレームの周
辺における時間の進行に従つた正規化スペクト
ルのチヤネル方向に対する遷移方向を定量化し
た値をスペクトル変化量パタンとして各チヤネ
ル毎に算出するスペクトル変化量パタン計算部
と、 (b) スペクトル変化量標準パタンを予め格納した
スペクトル変化量標準パタン記憶部と、 (c) スペクトル変化量パタンと、スペクトル変化
量標準パタンとの類似度計算を行い各認識対象
カテゴリに対するスペクトル変化量類似度を算
出するスペクトル変化量類似度計算部とを具え、 (d) 前記判定部における最大の類似度を、前記ス
ペクトル類似度とスペクトル変化量類似度の両
者を参照することにより各認識対象カテゴリ毎
に算出された総合類似度のうちの最大の総合類
似度としたことを特徴とする音声認識装置。２前記スペクトル変化量パタン計算部は、 (a) 音声区間内の各フレーム毎に、該フレームと
該フレームの直前フレームとのフレーム間距離
を算出するフレーム間距離算出手段と、 (b) 前記算出した音声区間内の各フレームにおけ
るフレーム間距離が極大となるフレームを変化
量極大フレームと判定する極大フレーム判定手
段と、 (c) 前記変化量極大フレームと判定されたフレー
ムについて該フレームにおける各チヤネルに対
して、下記の〜項の各領域すなわち該フレームよりフレーム番号負方向かつ該
チヤネルよりチヤネル番号負方向である領域該フレームよりフレーム番号正方向かつ該
チヤネルよりチヤネル番号正方向である領域該フレームよりフレーム番号負方向かつ該
チヤネルよりチヤネル番号正方向である領域該フレームよりフレーム番号正方向かつ該
チヤネルよりチヤネル番号負方向である領域の正規化スペクトル値を算出し、及び項の
領域における正規化スペクトル値と、及び
項の領域における正規化スペクトル値の相対関
係を表わす値を該フレーム及び該チヤネルにお
けるスペクトル変化量パタンとする処理を施
し、前記変化量極大フレームと判定されなかつ
たフレームのスペクトル変化量パタンの値は全
てのチヤネルについて０とするスペクトル変化
量パタン抽出手段とを具えることを特徴とする特許請求の範囲第１項
に記載の音声認識装置。