JPS5960500A

JPS5960500A - 音響信号分析装置

Info

Publication number: JPS5960500A
Application number: JP17180982A
Authority: JP
Inventors: 坂田　富生
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 1982-09-30
Filing date: 1982-09-30
Publication date: 1984-04-06
Also published as: JPS6329280B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の技術分野」この発明は、音声認識装置゛に使用される音響信号分析
装置ｄに関する。

〔発明の技術的背景とその問題点〕

近年、音声認識装置は、各分野に多用されるなど、極め
て有用な装置になりつつある。このような音声認識装置
は、基本的には入力音声信号を分析して特徴パラメータ
（スペクトルパラメータ）を抽出する分析部、この分析
部からのスペクトルパラメータに正規１ヒ等の処理を行
なう前処理部および認識結果を出力する認識部とからな
る。すなわち、分析部で抽出されたスペクトルパラメー
タに基づいて、入力音声信号の音韻、音節、および単語
等の認識が行なわれることになろう上記分析部は、音響分析装置からなり、上記スペクトル
パラメータとして、チャネルフィルタによる周波数スペ
クトルが利用される。このチャネルフィルタは、例えば
デジタルフィルタで、対ｆｉｌ波数帯域を適当に分割す
るように周波数特性が設定されたものである。

ところで、音声認識装置は、特定の話者だけを特徴とす
る特定話者用と、不特定多数の話者を特徴とする特定話
者用とに大別される。この中で、特定話者用音声ｉ忍識
装置では、話者は予め自分の声を標準・？ターンとして
登録しておく必要がある。これは、同一の音韻、単語で
あっても、音響分析装ｆＦＩ　Ｖｃより帛られる特徴・
ぐラメータから々るＡ’ターンは、話者によって変動し
また同じ話者でもその時々によって相当変動するからで
ある。この変動は、通常、発声者毎の発声器官形状の相
違に起因する周波数方向の変動、および発声の仕方の相
違に起因する時間軸方向の変動枯大別できる。従来では
、上記の変動の中で時間軸方向の変動は、不等間隔サン
プリング、ダイナミックプログ２ミング等の手段により
吸収されていた。しかしながら、周波数軸方向の変動に
対しては、これを吸収するための効果的な手段がなかっ
た。そのため、話者毎に全ての標準ノ９ターンを登録す
る必要があり、認識対象語数が増加した場合には標準パ
５ターンの登録が話者にとって大きな・負担になる。ま
た、多くの話者の標準・母ターンを登録しておくことに
なるため、標鴎ハターンを記憶するメモリは大容歌のも
のが必要となる欠点があった。

〔発明の目的〕

この発明は上記の事情を攬みてなされたもので、特定話
者用音声認識装置において、話者毎の周波数軸方向の変
動に影響されない特徴パラメータを抽出して、認識に必
要な標準パターンの登録礒を特別に大きくすることなく
、確実に音声認識を行なうことができるようにした高性
能の音響分析装置を提供することを目的とする。

〔発明のｉｄ要〕

すなわち、この発明においては　１，４ｉ波数分析用の
例えばデジタルフィルタであるチャネルフィルタを構成
する各ＢＰＦの周波数特性を、話者毎の周波数軸方向の
変動を吸収するように可変設定する。この手段として、
予め設定される標準スペクトルノ々ラメータとチャネル
フィルタから出力するスペクトルノクラメータに基づい
て、制御パラメータ計算手段により所定の制御ｆｆｌ＋
パラメータを求める。このｔｌｉｌＪ　御パラメータに
基づいて、話者に適合した周波数特性、すなわち標準ス
ペクトルノヤラメータに適合するようなチャネルフィル
タの周波数特性を設定するようなフィルタパラメータを
フィルタパラメータ計算手段より求めるものである。

〔発明の実施例〕

以下図面を参照してこの発明の一実施例について説明す
る。図はこの発明に係る音響分析装置の構成を示すブロ
ック図である。図中、１はアナログ・７′ジタル変換部
（以下Ａ／Ｄ変換部と称する）で、アナログ信号である
音声入力−信号Ｓを量子化されたサンプル値のデジタル
信号系列に変換する。デジタルフィルタ部２は、上記デ
ジタル信号系列が与えられ、フィルタパラメータＦに基
づいて周波数分析を行なって、音声入力信号Ｓに対応す
るスペクトル・ぐラメータ（特徴／４ラメータ）Ｐを抽
出し出力する。フィルタパラメータＦは、フィルタ／臂
うメータ計算部３により算出されて設定される。このフ
ィルタノ臂うメータ計算部３は、制能１パラメータ人と
標準フィルタノぐラメータＢとに基づいて、入力信号Ｓ
の発生源である話者の声道特性に尊台したデジタルフィ
ルタ部２の周波数特性を得ることができるようなフィル
タフ９２メータＦを算出する。標準フィルタパラメータ
Ｂは、予め標賭フィルタノやラメータメモリ４゛に格納
されているっまた、制仰ノ千うメータＡは、側副パラメ
ータ計算部５で算出されて出力する。この制ｉｌｌ　／
＃シラメータ計算５は、スペクトルノ卆うメータＰおよ
び標準スペクトルパラメータＲとに基づいて制量パラメ
ータ人を算出して出力する。標準スペクトルノぐラメー
タＲは、予め音韻カテゴリ１かに標準スペクトルノや２
メータメモリ６に格納されている。そして、例えばキー
ｚ’　　Ｈｅ等の外部入力装置（図示せず）から与えら
れる音韻カテゴリコードＣにより、そのコードＣに対応
する標準スペクトルパラメータＲがメモリ６から選択さ
れて出力する。

このような構成において、その動作を説明する。いま発
声者から発声した音声入力信号Ｓは、Ａ／Ｄ変換部１で
サンプリング、Ｉ子１ヒされてデジタル値の時系列（ｉ
ｔ号りとして変換される。

デジタルフィルタ部２は、ｎチャネル分のバンドｉ４ス
フイルタ（ＢＰＦ’）の機能をＨし、上記のようなデジ
タル信号りに対して各チャネルのＢＰＦ出力を時分割で
計算し、１フレーム毎にｎチャネル分の川波数スペクト
ルパラメータセットＰ１〜ｐｎを出力する。この場合、
標準フィルタパラメータＢが、標準フィルタパラメータ
メモリ４からフィルタノ量うメータ計算部３を介して、
そのままフィルタ・ぐラメータＦとしてデジタルフィル
タ部２に与えられる。すなわち、デジタルフィルタ部２
は、標準の周波数特性で動作することになる。さらに、
発声者は、発声する音韻のカテがリコードＣをキーピー
ド等により与える。このコードＣにより、標準スペクト
ルノやラメータメモリ６は、そのカテがリコードに対応
する音韻の標準スペクトルノ臂うメータ七ツ）Ｒを制御
／ぐラメータ計算部５へ出力する。

制御パラメータ計算部５は、このノやラメータセツ）Ｒ
を一時的に記憶する。一方、発声者の音声信号Ｓから抽
出された上記スペクトルノやラメータセットの系列Ｐ　
ｉ　Ｉ　〜ＩＩ’　ｉ　ｎ　（ｉ　＝　１　、２・・・
ｎ）も制ωｌｌノやラメータ計算部５へ与えられる。

＋１ｉ１１匍ノ臂ラメ一タ計算部５は、スにクトルパラ
メータセットの系列Ｐｉ、〜Ｐｉｎから適当なフレーム
ｊのス（クトルノ母うメータセットＰｊｌ〜Ｐｊｎを抽
出し、これを一時的に記憶しておく。この場合、フレー
ムｊの選択方法としては、音声区間中でエネルギーが最
大になるフレーム、または隣接フレーム間のスペクトル
変化が最小になるフレーム等が考えられるっそして、発
声者が、予め決められた種類の音韻を入力し終ると、制
御パラメータ計算部５では下記のような・方法により、
制御パラメータＡを算出する。いま、仮に発声者から与
えられる音韻数が３つの場合とする。この場合、入力さ
れた音韻から抽出した３ｆ！類のスペクトルパラメータ
セラ）Ｐおよび標準スペクトルノやラメータセットＲを
下記のようになるとする。すなわち、のように、それぞれ行列で表現される。

ここで、ＰｉＪ：ｉ番目の入力音韻のｊチャネルのくやラメータ
値。

ＲＩＪ’：１番目の標準音韻のｊチャネルの７やラメー
タ値。

であり、［ｉ＝１〜３Ｊおよび「ｊ＝１〜ｎ」である。

そして、制御ノクラメータＡについても、同様にのように行列で表現されるとする。そして、スペクトル
ノ譬うメータセットＰおよび標準スペクトルパラメータ
セラ）Ｒとの間には、下記のような関係式が成立する。

すなわち、Ａ　−Ｐ＝Ｒ・・・・・四・・・・曲・・曲間＋４）で
ある。この式（４）より、制７１１１１　ｚ４’ラメー
タＡは、各入力音韻スペクトルＰとそれに対応する標準
スペクトルＲとのずれを補正するための、入力音韻スペ
クトル／ぐラメータＰに対する補正係数となる。上記式
（４）から、制御パラメータＡを求めることができる。

すなわち、ＡはＡ＝Ｐ−Ｒ・・−・・・・・・・・・・・・・・（５）
である。こ、でＰ　はＰの一般逆行列であり、「Ｐ＋−
（ＰＴ−Ｐ）−１・ｐ　Ｔ　Ｊの式で求めることができ
る。但し、Ｐ　は転置行列である。ところで、上記式（
３）に示すように、ｉｔｉ！Ｉｎ…パジメータＡが３重
対角行列で表現される場合、人力音韻スペクトルＰの標
準スペクトルＲに対するずれが隣接したチャネル範囲内
におさまると仮定できるとした場合である。これに対し
て、上記ずれがもつと大きい場合には、さらに広い帯行
列で表現する必要があり、そのため入力する音韻の種類
もそれに合わせて増加する必要がある。

上記のようにして求められた制御パラメータＡは、フィ
ルタパラメータ計算部３に与えられる。フィルタパラメ
ータ計算部３は、側副パラメータ数タよび標孕フイルタ
ノやラメータＢとから、新たなフィルタフ９ラメータＦ
を算出して、その結果をデジタルフィルタ部２に出力す
る。

具体的には、フィルタパラメータ計算部３では下記のよ
うな手法により、フィルタパラメータＦを算出する。ま
ず、制御パラメータＡ１１〜Ａｎｎより、修正用ノぐラ
メータ”１１〜Ｅ　ｎｎを求める。

Ｂ　ｉ　、　Ｉ　＝　ｌ　−Ａ　ｉ　　、　ｉ　（＋　
＝　１〜ｎ　　）　＝・・ｆ６１Ｅ＋　、　ｊ　　＝＝
　Ａｉ　、　ｊ（＋　＝＝　１〜ｎ　　、、ｊ＝＝ｉ−
ｇ〜１十ｇ）・・・・・・・・　（７）である。ここで、ｇは、上記式（３）の帯行列の幅をｍ
とすると、ｒｇ＝（ｍ−１）／２Ｊで与えられる。入力
音韻スペクトルＰが標準スペクトルＲと一致するときは
、Ｅ、１〜ＩｎｎはＯとなるから、Ｅ目〜Ｅｎｎはデジ
タルフ・イルタ部２の周波数特性、すなわち標県フィル
タ・ぐラメータα目〜α、！、α、１〜αｎ！（！は１
チャネル分のフィルタパラメータ数）の修正の程度を表
わす。この修正・卆うメータＨａｔ〜Ｅｎｎは、以下の
ような関係式で表現さ几る。すなわち、となり、ここで
［Ｈコは係数行列である。この式（８）および修正ノぐ
ラメータＢ□、〜Ｅｎｎにより、フィルタノぐラメータ
の修正項δα１．・・・δαｎ！を求める。そして、新
たなフィルタノやラメータＦ（α“、□〜α°、！、α
清〜α°ｎメ）は、のような関係式で表現される。すな
わち、フィルタパラメータＦは、標準フィルタノぐラメ
ータＢに修修正項δα、、・・・δαｎ！を加えること
により、求められる。このようにして、算出されたフィ
ルタノやラメータＦがデジタルフィルタ部２に与えられ
、デジタルフィルタ部２は、フィルタ／４’ラメ−ター
Ｆにより定まる周波数特性を有するチャネルフィルタと
して動作する。

このようにして、複数の音・韻カテゴリに対応する周波
数スペクトル（標準スペクトルパラメータＲ）に基づい
て、デジタルフィルタ部２を構成する各ＢＰＦの周波数
特性を所定の値に変更することができる。したがって、
発声器からの音声信号Ｓが、発声者の発声器官構造のイ
目違等に起因してその音声の周波数特性に変動を生じて
も、その変動に応じてデジタルフィルタ部２の周波数特
性を可変できるため、周波数軸方向の変動を吸収できる
ことになる。そのため、発声者毎の周波数変動が除去さ
れた安定なスペクトルパラメータ（特徴パラメータ）を
抽出することができる。

なお、上記実施例において、制１ｆｆＩ！パラメータＡ
およびフィルタパラメータＦを算出するためのアルゴリ
ズムは他のものでもよい。また、デジタルフィルタ部２
は、例えばクロック周波数により周波数特性の可変なス
イッチト・キャパシタフィルタ等のチャネルフィルタで
もよい。

〔発明の効果〕

以上詳述したようにこの発明によれば、特定話者用音声
認識装置において、話者（発声者）毎の周波数軸方向に
対する変動に影響されない安定な音声の特致ノクラメー
タを抽出できる。したがって、音声認識に必要な標準パ
ターンの登録績を特別に大きくすることなく、確実に音
声認識を行なうことができるものである。

【図面の簡単な説明】

図はこの発明の一実施例に係る音響分析装置の１１　ａ
Ｍを示すブロック図である。２・・・デジタルフィルタ部、３・・・フイルタノ母う
メータ計！ｆＦ、部、４・・・標準フィルタパラメータ
メモリ、５・・・制匍ノヤラメータ計算部、６・・・標
準スペクトルパラメータメモリ。

Claims

【特許請求の範囲】

フイルタノやラメータの設定により周波数特性が可変さ
れ音響入力信号に対応するスペクトルパラメータを抽出
するチャネルフィルタ手段と、予め音韻カテゴリ毎に設
定される標準スペクトルパラメータを記憶するメモリと
、このメモリからの標準スペクトルパラメータおよび上
記チャネルフィルタ手段からのスイクトルノやラメータ
に基づいて所定の制量パラメータを算出する制御ノ４ラ
メータ計算手段と、上記制ｄ／４′ラメ、−タに基づい
て上記標皐スペクトルノやラメータに適合するような上
記フィルタ手段の周波数特性を設定するための上記フィ
ルタ・ぐラメータを算出するフィルタパラメータ計算手
段とを具備することを特徴とする音響信号分析装置。