JP2616913B2

JP2616913B2 - 音声スペクトル分析方法

Info

Publication number: JP2616913B2
Application number: JP61278052A
Authority: JP
Inventors: 奉文中谷; 尚五中村
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 1985-11-21
Filing date: 1986-11-21
Publication date: 1997-06-04
Anticipated expiration: 2012-06-04
Also published as: US4833717A; JPS63153598A

Description

【発明の詳細な説明】技術分野本発明は、音声スペクトル分析方法、より詳細には、
音声認識システムにおける時間−周波数パターン（Time
Spectrum Pattern）から音声の特徴量としてローカル
ピークを抽出する音声スペクトル分析方法に関する。

従来技術単語音声認識において、音声スペクトルより音源に依
存する個人差、つまり、音声スペクトルの傾きを補正
し、BTSP（Binary Time Spectrum Pattern）としてフォ
ルマントに類似するローカルピークの抽出方法等の有効
性については既に提案されている。前記傾きを補正する
方法として、現在、最小自乗推定法が広く用いられてい
るが、演算時間等に問題がある。この補正方法として、
ディジタルフィルタを用いた方法があるが、このディジ
タルフィルタを用いた方法は、音声スペクトルの傾き補
正のために、データの１フレーム分を低周波から高周
波，高周波から低周波、即ち、1ch−15ch,15ch−1chと
数回繰り返しサンプリングして（第７図参照）スペクト
ル波形を時間信号波形とみなし、これに直線位相のディ
ジタルフィルタ（H.P.F;C.I.C.フィルタ）によつてフィ
ルタリングを行ない、傾きを取り除き、ローカルピーク
を抽出するものである。

しかし、多チャンネルの音声単語を処理するためには
上記の方法では信号の流れがスムーズでないため処理上
の問題点が生ずる。

目的本発明は、上述のごとき実情に鑑みてなされたもの
で、特に、TSP（時間−周波数パターン）の周波数パタ
ーン上のローカルピークを抽出し、これを特徴量として
比較するマッチング法を用いる音声スペクトル分析方法
において、前記ローカルピークを抽出するための効率的
な方法を提供することを目的としてなされたものであ
る。

構成本発明は、上記目的を達成するために、時刻をパラメ
ータとした周波数パターンの（TSP）の各時刻に対する
一組のパターンをシーケンシャルな時間信号とし、それ
を適当なハイパスフィルタに通して近似的に低周波数成
分を除去して重畳しているローカルピークに相当する高
周波成分を抽出する音声スペクトル分析方法において、
TSP信号をシーケンシャル時間信号に変換する際、ｉ番
目のフレーム信号をｉ＋１番目のフレーム信号へ接続す
るのに、連続的に接続するか、フレーム間に適当な零を
挿入するかによつて接続して擬似的周期信号を構成し、
得られた擬似的周期信号をハイパスフィルタを通すこと
により連続的にローカルピークを抽出するようにしたこ
と、或いは、TSP信号をシーケンシャル時間信号に変換
する際、ｉ番目のフレーム信号が低周波成分１チャンネ
ルから高周波成分Ｎチャンネルの順に時系列化している
とした時、ｉ＋１番目のフレーム信号はＮチャンネルか
ら１チャンネルの順に、ｉ＋２番目のフレーム信号は１
チャンネルからＮチャンネルの順に順次接続して擬似的
周期信号を構成し、ハイパスフィルタを通すことにより
連続的にピークを抽出するようにしたことを特徴とした
ものである。以下、本発明の実施例に基いて説明する。

音声認識の方法として音声信号のスペクトルパターン
を適当な時間間隔で標本化したTSPを用いたマッチング
方法がある。これはTSPの周波数パターン上のローカル
ピークを抽出し、それを特徴量として比較するマッチン
グ方法である。

時間−周波数パターン（TSP）は、時刻をパラメータ
とした周波数パターンであり、第２図に示すような構成
となつており、各時刻に対する一組のパターンをフレー
ムと呼んでいる。第２図のTSP信号を第３図のようなシ
ーケンシャル時間信号と考え、それを適当なハイパスフ
ィルタに通す。第３図のシーケンシャル信号は、近似的
に、低周波信号にローカルピークに対応する高周波成分
が混入したものと考えることができ、したがつて、ハイ
パスフィルタによつて、その高周波成分を抽出すること
ができる。

本発明は、隣接したフレームの音声スペクトルが急激
な変化をしていないことに着目してなされたもので、最
初に、本発明の第１の実施例について説明すると、この
実施例は、単語の音声スペクトルデータを連続的に接続
した信号、つまり、１フレームの１チャンネル−Ｎチャ
ンネル,2フレームの１チャンネル−Ｎチャンネル…のよ
うに構成した信号を、ディジタルフィルタの入力として
与えるようにしたもので、以下に実施例として15chのバ
ンドパスフィルタバンク構成におけるローカルピーク抽
出方法について説明する。

音声入力信号は、前処理を行なつた後、Ｎチャンネル
のバンドパスフィルタバンクで周波数分析され、整流平
滑後、その出力がＴ秒毎にディジタル化され、１フレー
ム分の音声スペクトルデータが得られる。更に具体的に
は、入力音声は、15ch, Ｑ＝６のバンドパスフィルタバンク（250Hz〜6.3kHz）
で周波数分析され、整流平滑された出力が10msec毎に12
bitの分解能でA/D変換され、各フレームの音声スペクト
ルデータが得られる。このようなデータを1chから15ch
までのシーケンシャルデータに変換し、最後に零を１個
付け加える。これを繰り返すことによつて、第３図に示
すようなデータを構成する。次に、第３図のデータを時
間信号と考え、第１図のフィルタに通す。第１図のフィ
ルタは直線位相ハイパスフィルタであり、その周波数特
性は第４図に示す通りである。このディジタルフィルタ
として単係数のFIRフィルタと同等であるC.I.C.フィル
タを用いる。C.I.C.フィルタは単独では直線位相のL.P.
F.であるが、カスケード接続をおこなつた後、位相合わ
せを行ない加算することによつてH.P.F.を構成すること
ができる。これにより、次式で表わされる第１図のH.P.
F.構成を得ることができる。

第５図は、音声スペクトルデータ（ａ）を、本実施例
による方法で処理した結果（ｄ）と、従来の方法（現在
のBTSP方式に組み込まれているもの）で処理した結果
（ｃ）と、最小自乗推定法で処理した結果（ｂ）とを比
較した図である。

しかし、上記第１の実施例においては、データの後に
必ず次フレームの１チャンネルデータが来るためこの間
のデータの相関性は小さい。従って一般にはＮチャンネ
ル−１チャンネル間で大きな信号ギャップを発生してス
ペクトルの傾きに不要な過度的な信号を付加することに
なる。

そこでこの不要分を除去する方法を本発明の第２の実
施例として提案する。つまり、この第２の実施例による
と、隣接したフレームの音声スペクトルで急激な変化を
していないことから、Ｎチャンネル（又は１チャンネ
ル）の後に次フレームのＮチャンネル（又は１チャンネ
ル）を接続すれば、この間の信号ギャップは非常に小さ
いので接続部で上述の如き大きな過度的信号が発生しな
いことになる。

以下にその実施例として15chのバンドパスフィルタバ
ンク構成におけるローカルピーク抽出方法について説明
する。

入力音声は、前記第１の実施例と同様、15ch,1/3oct,
Q＝６のバンドパスフィルタバンク（250Hz−6.3KHz）で
周波数分析され、整流平滑後その出力が10msec毎に12bi
tの分解能でA/D変換され、各フレームの音声スペクトル
データが得られる。このようなデータを１チャンネルか
ら15チャンネルまでシーケンシャルデータに変換したの
が第７図に示した従来の技術であり、隔フレームごとに
チャンネルを逆に接続したのが第６図に示した本実施例
である。このようにすると、低周波成分が1/2になり、
この時間信号に変換したデータを第１図に示した直線位
相ハイパスフィルタで濾波する際の除去比が大きくとれ
ることになる。このフィルタの周波数特性は第４図に示
した通りである。

なお、本発明は、ハードウェアで実施できるがソフト
ウェアでも実現できることは言うに及ばない。

第８図は、上述のごとき音声スペクトルの分析に使用
して好適な電気回路の一例を示すブロック線図、第９図
は、その信号波形図で、10はフィルタバンク、11はホー
ルド回路、12はタイマー、13はアップダウン（U/D）カ
ウンタ、14はC.I.C.カウンタ、15はコントロール回路、
16はバッファ回路で、U/Dカウンタ13によって、ホール
ド回路11の出力を１〜15〜１〜15〜1chと切り換えると
ともに、コントロール回路15によってバッファ回路16の
出力を１フレームおきに反転して第９図に示すような出
力信号を得ている。

第10図は、第８図に示した回路の従来例を示す図で、
図中、第８図に示した回路と同様な作用をする部分には
第８図の場合と同一の参照番号が付してある。而して、
第８図に示した回路と第10図に示した回路との相異は、
第10図に示した従来回路においては、ゲート回路17を具
備しているのに対し、第８図の回路は、このゲート回路
17を具備していない点にある。そのため、第10図の回路
においては、ゲート回路17をコントロール回路16で制御
するようにしており、このゲート回路17を制御する信号
T₀は例えば第11図にＡにて示す１周期分を取り出して得
ている。従って、第10図に示した従来例においては、１
フレーム（Tf）の中で第11図に示した処理をしなければ
ならないが、第８図に示した回路においては、１フレー
ム（Tf）で１回の処理で済ませることができ、扱う信号
の時間を４倍以上にとることができ、処理が非常に楽に
なる。特に、ソフトで処理する場合には、その効果が大
きく、また、処理時間が短いので、他の時間に他のJob
をすることができる。

効果以上の説明から明らかなように、本発明によると、連
続的に信号を通しながらローカルピークの抽出を可能と
するものであり、ハードウェア間の変動が自動的に反映
されるため、その性質を積極的に利用することが可能で
ある。また、本発明の第１の実施例によると、BTSPに組
み込まれている従来の方式に比べ、時間−周波数信号を
一方向のシーケンシャル信号として連続的に処理するこ
とができる。ローカルピークの抽出をソフトウェアで実
施する場合、従来通りの方法が使用でき、ハードウェア
による場合は、従来方法と比べ、簡単になる。また、本
発明の第２の実施例によると、時間−周波数信号（TS
P）を双方向のシーケンシャル信号として連続的に処理
することができ、従来のように同じフレームを何回か繰
返す必要がなくハードウェアによる場合にも従来と比べ
メモリ等を必要とせず簡単になる。

【図面の簡単な説明】

第１図は、本発明の実施に使用するハイパスフィルタの
一例を示す図、第２図は、時間−周波数パターン図、第
３図は、本発明の第１の実施例によるシーケンシャル時
間信号波形図、第４図は、ハイパスフィルタの周波数振
幅特性図、第５図は、ローカルピークの各例を示す図
で、（ａ）図は音声スペクトル、（ｂ）図は最小２乗推
定法による処理結果、（ｃ）図は従来のBTSPを用いた方
法による処理結果、（ｄ）図は本発明による処理結果を
示す図、第６図は、本発明の第２の実施例を説明するた
めのシーケンシャル時間信号波形図、第７図は、従来の
ローカルピーク抽出法の一例を説明するための図、第８
図は、本発明による音声スペクトル分析に使用して好適
な電気回路の一例を示すブロック線図、第９図は、第８
図の動作説明をするための信号波形図、第10図は、第８
図に示した回路の従来例を示す電気的ブロック線図、第
11図は、第10図の動作説明するための信号波形図であ
る。１〜５……遅延回路、6,7……加算器、8,9……係数器、
10……フィルタバンク、11……ホールド回路、12……タ
イマー、13……アップダウン（U/D）カウンタ、14……
C.I.Cカウンタ、15……コントロール回路、16……バッ
ファ回路、17……ゲート回路。

Claims

(57)【特許請求の範囲】

【請求項１】時刻をパラメータとした周波数パターン
（TSP）の各時刻に対する一組のパターンをシーケンシ
ャルな時間信号とし、それを適当なハイパスフィルタに
通して近似的に低周波数成分を除去して重畳しているロ
ーカルピークに相当する高周波成分を抽出する音声スペ
クトル分析方法において、TSP信号をシーケンシャル時
間信号に変換する際、ｉ番目のフレーム信号をｉ＋１番
目のフレーム信号へ接続するのに、連続的に接続する
か、フレーム間に適当な零を挿入するかによって接続し
て擬似的周期信号を構成し、得られた前記擬似的周期信
号をハイパスフィルタに通すようにしたことを特徴とす
る音声スペクトル分析方法。
【請求項２】時刻をパラメータとした周波数パターン
（TSP）の各時刻に対する一組のパターンをシーケンシ
ャルな時間信号とし、それを適当なハイパスフィルタに
通して近似的に低周波数成分を除去して重畳しているロ
ーカルピークに相当する高周波成分を抽出する音声スペ
クトル分析方法において、TSP信号をシーケンシャル時
間信号に変換する際、ｉ番目のフレーム信号が低周波成
分１チャンネルから高周波成分Ｎチャンネルの順に時系
列化しているとした時、ｉ＋１番目のフレーム信号はＮ
チャンネルから１チャンネルの順に、ｉ＋２番目のフレ
ーム信号は１チャンネルからＮチャンネルの順に順次接
続して擬似的周期信号を構成し、ハイパスフィルタに通
すようにしたことを特徴とする音声スペクトル分析方
法。