JPS58108591A

JPS58108591A - 話者正規化機能付き音声認識装置

Info

Publication number: JPS58108591A
Application number: JP56208357A
Authority: JP
Inventors: 晋太木村; 裕二木島
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 1981-12-23
Filing date: 1981-12-23
Publication date: 1983-06-28
Also published as: JPH0136959B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（１）　　発明の技術分針本発明は音声認識装置における話者正規化方式に関し、
特に不特定話者を対象とした音声認識装置に不可決な話
者正規化方式に関するものである。

（２）技術の背景入力され九音声にもとづき各種処理を行なうような場合
、入力された音声が何であるかを認識しなければならな
い。そのために入力された音声信号より特徴抽出を行な
いその特徴を辞書と比較して入力音声信号が何かという
ことを識別することが行なわれている。

しかしながら音声には個人差があるために不特定話者を
対象とした音声認識装置では、各話者の個人差を欧除く
、いわゆる話者正規住処Ｓｔ入力音声に対して行なう必
要がある。

（３）従来技術と問題点従来、不特定話者を対象として音声認識を行なう場合に
は、１１１１１図に示すように１例えばマイク四ツオン
１より入力され九音声信号をＡＤ変換部２に伝達してこ
れをサンプリングしたのち、後述する逆フィルタ３によ
り話者正規化を行ない、これをスペクトル分析部４にて
高速フーリエ変換して音声スペクトルを作成し、特徴抽
出部５にてその特徴抽出を行ない、パターンマツチｙ／
部６により辞書７に格納されている標準パターンとのマ
ツチングを求め、そのもつとも一致度の高い標準パター
ンのものを認識結果として出力している。

ここで、前記逆フィルタ３は下記■式の特性Ｈφ）を有
するものである。

Ｈ弱）＝（１−αｒ１）３・・・・・・・・・・・・・
・・■ｚ＝ｃｉ′　　ω：正規化周波数したがってこの逆フィルタ３の特性は上記αを変えるこ
とＫより定まるものであるので、認識に先立ち、話者毎
に特定文章を読上げてこれよりとのαを学資し、話者正
規化をはかるものである。

なおこのαは個人別に異なるものであ抄、自己相関関係
より求められる。

しかしながら、このようにして音声波に時間領域の処理
のみの上記０式の逆フィルタをかけて数次の平担化フィ
ルタ処理を行うのみでは、周波数領域（例えばＯ〜５　
ＫＨｚ　）でこの０式の関数の形の範囲でしか正規化で
きないので、個人毎に細かい相違があるようなものに対
しては充分正規化することができないという欠点があっ
九。

（４）発明の目的したがって本発明はこのような問題を改善するために、
話者間の音声スペクトルの各周波数における強度軸方向
の差異を細かく正規化する方式を提供するものである。

（５）　　発明の構成そしてこのために本発明における話者正規化方式では、
音声信号入力手段と話者特性正規化手段とスペクトル分
析手段と特徴抽出手段とパターンマツチング手段と辞書
部を具備する音声認識方式において、音声スペクトル概
形を作成する音声スペクトル概形作成手段と、この作成
された音声スペクトル概形を保持する保持手段を設け、
音声−繊に先立ち各話者に特有の音声スペクトル概形を
任嵩の音声から学習してこれを前記保持手段に保持して
おき、認識時にこの音声スペクトル概形により入力音声
のスペクトルを正規化することにより話者間のスペクト
ルの各周波数における強度軸方向の差異を正規化するよ
うにしたことを特徴とする。

（６）発明の実施例本発明の一実施例を詳述するに先立ちその動作原理につ
いて説明する。

本発明では発声された音声の短区間スペクトルのパワー
加重平均をその発声者の固有の音声スペクトル概形とし
、認識時にその音声スペクトル概形を入力音声のスペク
トルから差引くこと−により話者正規化を行なうもので
ある。第２図に示す如く、学習に際して入力音声を時間
軸を方向に、例えば１０　ｍ５ｅｃ程の時間間隔Δｔで
’Ｉ、”＊ｓ　Ｇ・・・と区間分割し、第３図に示す如
く、その区間のスペクトル又はスペクトル包絡を作成し
、これを（８（（ω））とする。ここで１は区間番号、
ωは正規化周波数（図示の例ｒ５家５ＫＨｚ　）である
。そしてその区間の正規化対数・ノパワーｔ　（Ｐ４）
（０≦Ｐ（≦１）とする。

換言すれば、とのＰｉは第２図の各区間の音声波形のパ
ワーに対応するものであり、８４（ω）は第３図のスペ
クトル包結線に対応するものである。そしてこれらＫよ
り音声スペクトル概′形「（＃）を次の■式により求め
る。

■（ω）＝・ｓ＜（ω）　Ｐ　Ｓ　／　４　Ｐ　％・・
・・・・・・・■を一方音声認識時は、入力音声のスペクトル包絡を（Ｓ９
（ω））とすると、特徴抽出するスペクトルｒｉ（ω）
は次の０式のようにして求める。

８〜（ω）＝８’ｉＣω）−８Ｃω）・・・・・・・・
・・・・・・・■すなわちＳ（ω）は話者の個人性を示
すものであり、音声認識に先立ち特定文章を読上げるこ
とＫよりこれを作成しておく。そして音声認識時には入
力された音声信号より得られ九スペクトル包絡６／ｊ　
（ω）よ妙この個人製性分の１（ω）を引けば各正規化
周波数までのスペクトルに対して細かく補正され九正規
化スペクトルＳ〜（ω）を得ることができるので、これ
よ抄特徴抽出するととＫより正確な音声認識を行なうこ
とができる。

次に本発明の一実施例を第４図にもとづき説明する。

第４図において第１図と同符号部は同一部分を示すもの
であり、８はスペクトル加重平均部、９はスペクトル概
形メモリ、ｌｏは加算部、Ｓは切換スイッチである。

スペクトル加重平均部８は、学習時において前記０式の
演算を行なって話者個人の音声スペクトｂａｓｅｒ＜ω
）ｔ−算出するものである。

スペクトル概形メモリ９は前記スペクトル加重平均部８
にて演算されて求められ九音声スペクトル概形「（ω）
を保持するメモリである。

次に第４図の動作について説明する。

先ず音声認識に先立ち特定話者に対する学習のために切
換スイッチ８を固定接点ｓＩ＆接続させる。

そして特定話者が学習のためにあらかじめ特定の文章を
読上げるとその音声信号がマイクロフォン１からＡＤ変
換部２−６に伝達されてディジタル信号として出力され
、これがスペクトル分析部４にて高速フーリエ交換（Ｆ
ＦＴ）されてスペクトル分析される。このときスペクト
ル分析部４からはスペクトル加重平均部８に対してその
スペクトル分析され木スペクトル曲線のみならず、゛、
正規化対数パワーＰ（も伝達される。かくしてこのスペ
クトル加重平均部８にて前記０式の演算が行なわれ、そ
の結果得られた音声スペクトル概形Ｓ（ω）がスペクト
ル概形メモリ９に配憶されることになる。

認識時には切換スイッチｓｌ固定接点Ｓ、側に切換える
。そして特定話者が認識のためにマイクロフォンｌから
入力した音声信号はＡＤ変換部２によりディジタル値に
変換されたのち、スペクトル、分析部４にて高速フーリ
エ変換されてスペクトル分析される。そして加算部１０
においてスペクトル概形メモリ９に記憶されている音声
スペクトル概形ｇ（ω）の符号反転されたものの加算、
つまり減算を行なうことＫより、その個人的特性分が補
償され、これＫもとづき特徴抽出部５にて特徴抽出（例
えば帯域パワーの抽出等）が行なわれる。

そしてこの特徴抽出されたものと辞書に記入されタモの
との比較がパターンマツチング部で行なわれ、そのもつ
とも一致しえものを認識結果とじて出力することになる
。

（７）発明の効果したがって本発明によれば話者間のスペクトルの各周波
数における強度軸方向の差異が学習により細かく正規化
することが可能となるので、不特定話者を対象とし友音
声認識装置において、非常に安定した、高い認識率を得
ることができる。

【図面の簡単な説明】

萬１図は従来の音声認識装置の説明図、第２図は本発明
＆’ＣｆＩＰける分割区間の説明図、第３図は音声スペ
クトル包絡の説明図、第４図は本発明の一実施例構成図
である。図中、ｌはマイクロフォン、２はＡＤ変換部、３は逆フ
ィルタ、４はスペクトル分析部、５は特徴抽出部、６は
パターンマツチング部、７は辞書、８はスペクトル加重
平均部、９はスペクトル概形メモリ、１０は加算部をそ
れぞれ示す。特許出願人　　富士通株式会社代理人弁理士　　山　谷　晧　榮才１芭才３因才、１ｍ才２図

Claims

【特許請求の範囲】

（１）　　音声信号入力手段と話者特性正規化手段とス
ペクトル分析手段と特徴抽出手段とパターンマツチング
手段と辞書部を具備する音声認識方式において、音声ス
ペクトル概形を形成する音声スペクトル概形作成手段と
、この作成された音声スペクトル概形を保持する保持手
段を設け、音声認識に先立ち各話者に４Ｉ有の音声スペ
クトル概形を任意の音声から学習してこれを前記保持手
段に保持しておき、認識時にこの音声スペクトル概形に
よ抄入力音声のスペクトルを正規化することにより話者
間のスペクトルの各周波数における強度軸方向の差異を
正規化するようＫし九ことを特徴とする話者正規化方式
。