JPH0136959B2

JPH0136959B2 -

Info

Publication number: JPH0136959B2
Application number: JP56208357A
Authority: JP
Inventors: Akihiro Kimura; Juji Kijima
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-12-23
Filing date: 1981-12-23
Publication date: 1989-08-03
Also published as: JPS58108591A

Description

【発明の詳細な説明】 (1) 発明の技術分野本発明は音声認識装置における話者正規化機能
付き音声認識装置に関し、特に不特定話者を対象
とした音声認識装置に不可決な話者正規化機能付
き音声認識装置に関するものである。

(2) 技術の背景入力された音声にもとづき各種処理を行なうよ
うな場合、入力された音声が何であるかを認識し
なければならない。そのために入力された音声信
号より特徴抽出を行ないその特徴を辞書と比較し
て入力音声信号が何かということを識別すること
が行なわれている。

しかしながら音声には個人差があるために不特
定話者を対象とした音声認識装置では、各話者の
個人差を取除く、いわゆる話者正規化処理を入力
音声に対して行なう必要がある。

(3) 従来技術と問題点従来、不特定話者を対象として音声認識を行な
う場合には、第１図に示すように、例えばマイク
ロフオン１より入力された音声信号をAD変換部
２に伝達してこれをサンプリングしたのち、後述
する逆フイルタ３により話者正規化を行ない、こ
れをスペクトル分析部４にて高速フーリエ変換し
て音声スペクトルを作成し、特徴抽出部５にてそ
の特徴抽出を行ない、パターンマツチング部６に
より辞書７に格納されている標準パターンとのマ
ツチングを求め、そのもつとも一致度の高い標準
パターンのものを認識結果として出力している。

ここで、前記逆フイルタ３は下記式の特性Ｈ
（Ｚ）を有するものである。

Ｈ（Ｚ）＝（１−αZ^-1）² …… Ｚ＝e〓〓ω：正規化周波数したがつてこの逆フイルタ３の特性は上記αを
変えることにより定まるものであるので、認識に
先立ち、話者毎に特定文章を読上げてこれにより
このαを学習し、話者正規化をはかるものであ
る。なおこのαは個人別に異なるものであり、自
己相関関係より求められる。

しかしながら、このようにして音声波に時間領
域の処理のみの上記式の逆フイルタをかけて数
次の平担化フイルタ処理を行うのみでは、周波数
領域（例えば０〜5KHz）でこの式の関数の形
の範囲でしか正規化できないので、個人毎に細か
い相違があるようなものに対しては充分正規規化
することができないという欠点があつた。

(4) 発明の目的したがつて本発明はこのような問題を改善する
ために、話者間の音声スペクトルの各周波数にお
ける強度軸方向の差異を細かく正規化する装置を
提供するものである。

(5) 発明の構成そしてこのために本発明における話者正規化機
能付き音声認識装置では、音声信号入力手段と話
者特性正規化手段とスペクトル分析手段と特徴抽
出手段とパターンマツチング手段と辞書部を具備
する音声認識装置において、スペクトル分析対象
の全音声区間についてのスペクトル時系列のパワ
ー重み付平均値からなる音声スペクトル概形を作
成する音声スペクトル概形作成手段と、この作成
された音声スペクトル概形を保持する保持手段を
設け、音声認識に先立ち各話者に特有の音声スペ
クトル概形を任意の音声から学習してこれを前記
保持手段に保持しておき、認識時にこの音声スペ
クトル概形により入力音声のスペクトルを正規化
することにより話者間のスペクトルの各周波数に
おける強度軸方向の差異を正規化するようにした
ことを特徴とする。

(6) 発明の実施例本発明の一実施例を詳述するに先立ちその動作
原理について説明する。

本発明では発声された音声の短区間スペクトル
のパワー加重平均をその発声者の固有の音声スペ
クトル概形とし、認識時にその音声スペクトル概
形を入力音声のスペクトルから差引くことにより
話者正規化を行なうものである。第２図に示す如
く、学習に際して入力音声を時間軸ｔ方向に、例
えば10msec程の時間間隔△ｔでt₁，t₂，t₃…と区
間分割し、第３図に示す如く、その区間のスペク
トル又はスペクトル包絡を作成し、これを｛Si
（ω）｝とする。ここでｉは区間番号、ωは正規化
周波数（図示の例では5KHz）である。そしてそ
の区間の正規化対数のパワーを｛Pi｝（０≦Pi≦
１）とする。換言すれば、このPiは第２図の各区
間の音声波形のパワーに対応するものであり、Si
（ω）は第３図のスペクトル包絡線に対応するも
のである。そしてこれらにより音声スペクトル概
形（ω）を次の式により求める。

（ω）＝〓ⁱ Si（ω）Pi／〓ⁱ Pi …… 一方音声認識時は、入力音声のスペクトル包絡
を｛S′i（ω）｝とすると、特徴抽出するスペクト
ルS″i（ω）は次の式のようにして求める。

S″i（ω）＝S′i（ω）−（ω） …… すなわち（ω）は話者の個人性を示すもので
あり、音声認識に先立ち特定文章を読上げること
によりこれを作成しておく。そして音声認識時に
は入力された音声信号より得られたスペクトル包
絡S′i（ω）よりこの個人特性分の（ω）を引け
ば各正規化周波数までのスペクトルに対して細か
く補正された正規化スペクトルS″i（ω）を得るこ
とができるので、これにより特徴抽出することに
より正確な音声認識を行なうことができる。

次に本発明の一実施例を第４図にもとづき説明
する。

第４図において第１図と同符号部は同一部分を
示すものであり、８はスペクトル加重平均部、９
はスペクトル概形メモリ、１０は加算部、Ｓは切
換スイツチである。

スペクトル加重平均部８は、学習時において前
記式の演算を行なつて話者個人の音声スペクト
ル概形（ω）を算出するものである。

スペクトル概形メモリ９は前記スペクトル加重
平均部８にて演算されて求められた音声スペクト
ル概形（ω）を保持するメモリである。

次に第４図の動作について説明する。

先ず音声認識に先立ち特定話者に対する学習の
ために切換スイツチＳを固定接点S₁と接続させ
る。そして特定話者が学習のためにあらかじめ特
定の文章を読上げるとその音声信号がマイクロフ
オン１からAD変換部２に伝達されてデイジタル
信号として出力され、これがスペクトル分析部４
にて高速フーリエ交換（FFT）されてスペクト
ル分析される。このときスペクトル分析部４から
はスペクトル加重平均部８に対してそのスペクト
ル分析されたスペクトル曲線のみならず、正規化
対数パワーPiも伝達される。かくしてこのスペク
トル加重平均部８にて前記式の演算が行なわ
れ、その結果得られた音声スペクトル概形
（ω）がスペクトル概形メモリ９に記憶されるこ
とになる。

認識時には切換スイツチＳを固定接点S₂側に切
換える。そして特定話者が認識のためにマイクロ
フオン１から入力した音声信号はAD変換部２に
よりデイジタル値に変換されたのち、スペクトル
分析部４にて高速フーリエ変換されてスペクトル
分析される。そして加算部１０においてスペクト
ル概形メモリ９に記憶されている音声スペクトル
概形（ω）の符号反転されたものの加算、つま
り減算を行なうことにより、その個人的特性分が
補償され、これにもとづき特徴抽出部５にて特徴
抽出（例えば帯域パワーの抽出等）が行なわれ
る。そしてこの特徴抽出されたものと辞書に記入
されたものとの比較がパターンマツチング部で行
なわれ、そのもつとも一致したものを認識結果と
して出力することになる。このようにして認識時
には一定したスペクトル概形（ω）を使用でき
るので、音声認識に重要な時間変動情報を見落す
ことなく正しい認識を行うことができる。

ところで本発明において音声スペクトル概形
（ω）を使用するのは以下のことによる。

話者毎の音声の違いは特に母音区間のスペクト
ルに現れることはよく知られている。具体的には
各母音（アイウエオ）のホルマント周波数の位置
や、各ホルマントの強度の相対的関係に話者毎の
違いが現れる。したがつて、話者毎の学習用音声
データよりその話者特有の各母音のスペクトル情
報（ホルマント周波数および各ホルマントの相対
強度関係など）を事前に学習しておけばほぼ完全
にその話者の母音を認識することができる。その
ため認識に先立ち母音のみを学習させる音声認識
装置さえ発表されている。本発明では、学習用音
声データとして母音を発声させるのではなく、任
意の発音内容の音声からその話者の母音の情報を
学習することを目的としている。本発明では、音
声中の母音はパワーが大きいことに注目し、全音
声区間のスペクトル時系列のパワー重み付平均を
式を用いて計算することにより、等価的に全母
音（アイウエオ）の平均スペクトルの近似値を求
めている。上述のように、本当は各母音の平均ス
ペクトルを求めたいのであるが、本発明の適用さ
れる音声認識装置の前処理部では認識結果さえ得
られず、ましてや不特定の話者の任意発声内容の
音声中の母音位置を検出しその母音の種類を決定
することは不可能であるため、本発明では全母音
の平均スペクトルの近似値を求めている。しか
し、本発明の全母音の平均スペクトルの近似値で
も話者の個人性を表現する情報を十分含んでお
り、これを認識音声データから差し引くことによ
り、音声データから話者性を取り除くことが十分
に可能となる。

(7) 発明の効果したがつて本発明によれば話者間のスペクトル
の各周波数における強度軸方向の差異が学習によ
り細かく正規化することが可能となるので、不特
定話者を対象とした音声認識装置において、時間
変動情報を落すこともない、非常に安定した、高
い認識率を得ることができる。

【図面の簡単な説明】

第１図は従来の音声認識装置の説明図、第２図
は本発明における分割区間の説明図、第３図は音
声スペクトル包絡の説明図、第４図は本発明の一
実施例構成図である。図中、１はマイクロフオン、２はAD変換部、
３は逆フイルタ、４はスペクトル分析部、５は特
徴抽出部、６はパターンマツチング部、７は辞
書、８はスペクトル加重平均部、９はスペクトル
概形メモリ、１０は加算部をそれぞれ示す。

Claims

【特許請求の範囲】

１音声信号入力手段と話者特性正規化手段とス
ペクトル分析手段と特徴抽出手段とパターンマツ
チング手段と辞書部を具備する音声認識装置にお
いて、スペクトル分析対象の全音声区間について
のスペクトル時系列のパワー重み付平均値からな
る音声スペクトル概形を形成する音声スペクトル
概形作成手段と、この作成された音声スペクトル
概形を保持する保持手段を設け、音声認識に先立
ち各話者に特有の音声スペクトル概形を任意の音
声から学習してこれを前記保持手段に保持してお
き、認識時にこの音声スペクトル概形により入力
音声のスペクトルを正規化することにより話者間
のスペクトルの各周波数における強度軸方向の差
異を正規化するようにしたことを特徴とする話者
正規化機能付き音声認識装置。