JPS58132299A

JPS58132299A - 不特定話者単語音声認識方法

Info

Publication number: JPS58132299A
Application number: JP57014685A
Authority: JP
Inventors: 貞煕古井; 管村　昇
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 1982-02-01
Filing date: 1982-02-01
Publication date: 1983-08-06
Also published as: JPH0221598B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】

〈発明の背景〉この！ＩＩｅｍ１はあらかじめ蓄積し九暉織対象単錯を
示す被数のバタン系列と、未知入力音声単一との！ツテ
ングを行って、不特定話者の未知入力音声を線繊する不
特定話省単−音声随繊方式に関するものである。従来不特定話者が発声した単一音声を認識する方式とし
ては、主に次の二つの方式が用いられている。その一つ
Ｆｉａえば日本音譬字会昭和５６都度場亭研究発表会−
演一文集１．Ｊｌ−１−２ＪＩ「不特定話者用率晴音声
ｉｉ＊装置の試作」に示されるもので、音声波から麹出
した特鐵量（スペクトルパラメータ）の系列に関して、
多数話者の音声が為い種度で正しく各単ＩＩＫ分−され
るようなｍ別関数を作成し、未知入力音声の％敞量の系
ターにζＯＭＩ［ｔＪ用し九と虐の関数値によって単鯖
のｔｈ１織を行う方式である。他の一つは各単一毎に多
赦瞼看の特徴量の系列から代表的な複数の系列を選んで
蓄えてお自、未知入力音声の特徴音の系り舗と、これら
の系列との時間正規化マツチングを行って、最も傭らし
い単ｌｌＦが尭声された鴫のとｇ織する方式である。前者の方式は５ｕｔｎｓ数の次元１［Ｋありように時間
正規化され友特微量系ターを未知入力音声から自動的に
抽出する方法と、纏切な識別関数の作ＩＲ法中修正味と
に−一な点が多く、後者の方式は１織対象単一のスペク
トルパラメータを短時間毎にすべて蓄積しておく必ｇ：
が６？、Ｌ７１Ｐｔ各単−毎にＩｉＩ数の系列を蓄積す
るので単唾数が大きくなると記憶容量が膨大な１のとな
るとともに、マツチングの際の計算量も長大となる問題
点かめる。〈勤−の概簀〉この尭−の目的は鑵舅関数を用いず、従って識別関数の
作成、修正のよりな崩−を惨うことなく、しか１少ない
記憶容量、少ｅ？計算量で不特定話者の単緩曾声を高い
一鐵皐で認識することができゐ不特定−看単緒音声醋繊
方武１−＊供することにある。この発明によれば複数の話者の音声から、クラスタリン
！手法により音声の短時間のスペクトルの特徴を表わす
ｊ！曾−バタンを作成し、この擬音−バタンを蓄積しｉ
ｉ繊すべき単一を擬音類バタン系ターとして蓄積し、こ
の場合不特定話者によるバタン系列の変動を前置して多
数の話者の音声のスペクトル系夕嵯のクラスタリングに
よっても単醋毎に系列１ｍ歓傭作成して蓄えてお龜、不
特定話者よシの未知入力単一音Ｆｉｌをスペクトル分析
し、これと上記複数各単曙ごとの複数の擬音−パタン系
＾との時間正規化マツチングを行うことにより未知入力
音声単一のｇ繊をする。〈夷總例〉第１図はこの発明による音声値一方式の実−例を示し、
音声入力は音声入力端子ｌよ）スペクトルパラメータ抽
出ｓ２に入力される。抽出されたスペクトルパラメータ
はスイッチ８□により褒ｆ酬榛準パタンを作成する襞音
−橡準バメン作成部８、を友は擬音類ｓｔｓバタンとの
距離

【計算するスペクトル距離計算部６へ供給される。作成部３で作成された歪音＃Ａ橡準パタンは豪音−榛準
−（タン蓄積ｓ４に記憶され、この記憶された捩脅１ｉ
ＩＩＩＩＩ（タンは距−計算ｓ５へ供給される。距離計
算ｓ５で計算されたスペクトル履細はスイッチ８虐によ
ル最小のものｔａ択する最小スペクトル距−パタン選択
鄭６、またＦ１系＾関１ｌｌｉ−計算部８、もしくは時
間正規化スペクトルマツチングｓ１２に切替え供給され
る。選択ｓ６で選択された単騎ごとの債音−標準バタン
の４列は擬音類バタン系列蓄積部７に蓄積され、この−
音韻バタン系列はスペクトル距離計算ｓｓで計算され九
スペクトル距−の値を用いて食ｇ−単醋の学資入力音声
と襞音韻バタン系ハとの時間正緘化マツチングを行い、
全体的な距離の計算が系タ場間庫−計算部８で行われる
。距離計算ｓ８で計算され友系列間ｆｉ廟は系夕婦間圧
離蓄積ｆｉＡ９に蓄積される。これら系列間距離に−も
とづいて代表・的な４判が代表系列４択部１０で選択さ
れて代表系列蓄積部１１に蓄・横される。時間正規化ス
ベタトルマツテング部１２ではスペクトル廠層針ＳＷＳ
で計算され友スペクトル距随の＊を用いて未知入力音声
と代表系列とのマツチングを行う。そのもつともよくマ
ツチングしたものは最小スペクトルｍｓ系列選択部１３
で選択され、繍禰Ｍ釆出力増子１４へ出力される。〈スペクトルパラメータ抽出部のｈ〉スペクトルパラメータ抽出ｓ２は例えば萬２−に示すよ
うに構成される。即ち入力端子２１よシ入力された音声
信号は低域過通フィルタ２２により、例えば４ＫＨｇ以
上の高域周波数成分が除去される。仁の高域除去された
音声信号はＡ／Ｄ餐換１）２　ＢＦＣおいて、例えｉｊ
　８　Ｋ）Ｉｊの橡本化胸獣数、１２ビツトの童子化精
度でディジタル信号に変換される。次にこのディジタル
信号１ｊ　へミンク窓乗算回路２４に入力され、町えば
１６ｍ５の短時間ごとに、例えば３２ｍ５の長さのへミ
ング窓が乗じられて音声信号が切シ出される。切シ出さ
れた音声信号は相関関数演算１路２５に入力されて、例
えば１０次壕での相関関数が計算される。この計算は次
式によル行われる。ここでｒｋｉｊｋ次の相関関数、Ｍは切ｐ出された音声
信号に富まれる標本点の数、Ｘ（Ｊ）はＪ書目の標本点
における音声信号の麺である。「。は切ヤ出された区間
の平均パワー倉ＩＩ！構しているので、この＊　ｒｏを
音声区間検出−路２６に入力し、この龍ｒ、があらかじ
め定めたしきい値よルも大きい区間が、あらかじめ定め
次長さよｐも長く続いたときこの区間を音声区間、それ
以外全雑音または無音区間と判定する。その音声区間と
判定された区間の各次数の相関関数を、−じ標本点の０
次の相関関数ｒｏで徐算して正規化することによル相＠
係数Ｋｆｌｌ　Ｌ、九のちクダ屈乗算回路２７に入力し
ラグ窓を乗する。ラグ層を乗じ九のちの相関係数は線形
子細分析回路２８に入力され、−形予欄係数Ｋｆ換され
る。この具体的アルゴリズムは例えば文献、振音・ｍｓ
：＊計的手決による音声スペクトルＷＩ＆とホルマン）
Ｍ［Ｉ波数の推定、電子通信学会１＠５３−Ａ、ｌ　、
ＰＪＩ５．１９７０に示されている方法を用いる。次にこの線形子側係数をケプストラム変換−路２９に入
力して例えば１６次までのケプストラムＫ１１ｌする。この計算には友とえば文献、Ｈ，８゜Ａｔ１ｌ　　：　
　１ｆｆｅｃｔｉｖｅｎｅｓｓ　　ｏｆ　　１４０ｅａ
ｒ　　ｐｒｅｄｉｃｔｉｏｎｃｈａｒａｃｔ＠ｒｉｓｔ
ｉｃｓ　ｏｆ　ｔｈｅ　５ｐｅｅｃｈ　ｗａｖｅ　ｆｏ
ｒａｕｔｏｍａｔｉｃ　　５ｐｅａｋｅｒ　　１ｄｅａ
ｔ目１ｃａｔ１ｏｎ　　ａｎｄｖｅｒ目１ｃａｔｉｏｎ
　、　Ｊ、　Ａｃｏｎ畠ｔ、　８ｏｃ−Ａｍ＠ｒ　ｅ　
５５　＋６、ｐ−１８０４，１９７４に示されている方
法を用いる。同時に回路２８で得られた４Ｉ形予＃Ｊ　
４ＪＡ数と回路２７よシの相＠係数とをＬＰＧ相関係数
抽出翻路３０に入力し、−じ＜１６次域での相関係数を
抽出する。この計算にはたとえは文献、ム、　Ｈ、Ｇｒ
ａｙ　Ｊ　、　Ｄ　、　Ｍａｒｋｅｌ　：　Ｄｉｓｔａ
ｎｃｅｍｅａｓｕｒ＠　ｆｏｒ　　５ｐｅｅｃｈ　　ｐ
ｒｏｃｅｓ＋５１５１ｇ　　、　　Ｉ　　Ｈｇ　　ＨＴ
ｒａｎｓ、ムｃｏｎｓｔ、　５ｐｅｅｃｈ　＆　８１ｇ
ａａｌ　Ｐｒｏｃ＠ｓｉ。１８８Ｆ−２４，５，ｐ３８０．１９７６に示されてい
る方法を用いる。このようにして抽出された１６次首で
の相関係数とケプストラムの値は出力端子８１から出力
される。〈責ｆ１１１１Ｉ―率バタン作成部の例〉次に［１＠中
の擬音−欅準パメン作成１１３の１例１第８図を参照し
て説明する。まず入力端子４１よｐスペクトルパラメー
タのセット（この一つ一つのセットｔ−７レームと呼ぶ
）を次々に入力し、これｔいったんスペクトルパラメー
タ蓄積部４２に＃える。つぎｋこれらのスペクトルパラ
メータのうちポーズ区間、即ちパワーレベルがああし龜
い値よｐも小さい７レームのスペクトルパラメータセク
ト中近談ＩＩＩＩ似スペクトルパラメータセット１除去
し、この４１１　Ｄ　（Ｎ　：ｙ　ｖ　−Ａとすりｔ７
Ｌ’−ム関ｌｌ［＃ＩＭ針算計算４ａに入力する。７レ
一ム間１ｌＩＩＩ１１計算−路４３では各スペクトルパ
ラメータセット相互間（フレーム相互間）のＩ［ＩＩＩ
を計算し、この値ＶｒＮｘＮの行列の形で７レ一五関距
離行列蓄積鄭４４に蓄える。この距離の計算方法として
は、例えばスペクトルパラメータのセットが相関４ＡＩ
ＩＩＬとケプストラムで表構されているときに鉱、これ
らを用いて次のよりなＷＬＲ距膝を計算する。ここでＤｉｊＦｉｉ番目の７レームとｊ！Ｉｆｉのフレ
ームとのスペクトル＠＠（ＷＬ、Ｒ距＊）を表わしてお
”）　、０１ｋ　−Ｃｊｋはに次のケプストラム、β轟
ｋ。 ρｊｋはに次の相関係数、ｎはパラメータの最高次数で
るる。つぎにこのフレーム間型−行列をしきい髄内７レーム計
数（２）路４５に入力し、同時にし古い伽入カー子４６
からあらかじめ定められ良しきい１ｉｌＬＶｒ入力して
、各フレーム１ごとＫＤ１ｊ≦＃（＃扛しきい値）とな
るｊの値とその個数を数えあける。この＠数をＭｌとする。この値Ｍ五と鳩樵嬌のフレーム
番号ｊｔＬきい髄内７レーム番号蓄積ｓ４７に入力し蓄
える。次に制御部５１にあらかじめ用意しておく擬音Ｗ
ＡＩＩｌ準バタン番号カウンタを１にセットしてし自い
飯内７レーム番号＃横琳４７に蓄えられている内容會最
大りラスタｉ＠択回路４８に入力し、すべての鳩のうち
の最大饅とその１の値管−べる。こののち轟番目のフレ
ームのスベクトルパラメータと、Ｄｉｊ≦−となる鳩櫨
類の７レームのスペク−すをパラメータとをスペクトル
パラメータ蓄積部４！から読出してスペクトルパラメー
タ平ｊ４１回ｊｌ１４Ｇに入力する。スペクトルパラメ
ータ平均回路４９ではこれら入力されたスペクトルパラ
メータの値を、各パラメータの各次数ととに平均化して
、平均ｍＶｒａｔｓ俸隼パタンのスペクトルパラメータ
として擬音−５ＩＩＩバタン出力端子５０よｐ出力する
。つぎにしきい髄内７レー五番号蓄積部４７に蓄えられて
いるフレーム番号から、上述の平均化に用いたフレーム
の書号管除去し、′制一部５１の愛ｆ−―準パタン番号
カウンタを一つ上けてこの状膠における最大のＭｌの値
を−ベ、上述と同僚にして擬音噴欅準パタンを出力する
。この操作ｔＴｏらかじり設定された数の＊ｔｓｎ＊パ
タンか出力されるか、しきい髄内７レーム番号蓄積部４
７に蓄えられている７レ一ム番号がつきるまで−返し、
次々Ｋｌ！貴−＊＊パメン【出力する。この襞を一橡率パタンを侍る九めに複鎖の話者からの音
声を入力し、＃述のような操作によシ、つｔｂ感覚的で
は、なく物塩的な尺＊１用いて短時間（フレーム）のス
ペクトルパラメータを似た−のにクラス分けし、このク
ラス分けした短時間スペクトルパラメータの系列によシ
すべての音声を表現することができ、すべての音声をｆ
電バタンの系列で表わすことがで自ることと対応するか
らその短時間のスペクトルパラメータｔｒｉｍ榛準バタ
ンと呼ぶ。〈代表系列Ｉ！Ａ択部の例〉纂１図中の代表系夕嵯選択部ｌＯの一例を幕４図に示す
。即ち系ター間距＊＊積部９からの糸夕１ｊ関本麹行伺
は系り間距離入力端子６１ｔ経てしきい髄内系判計数（
ロ）路６２に入力され、同時にしきい値入力端子６３か
らめらかじめ定められたしきい値が一路６２に入力され
、各系列ｍごとに距離がし龜い値よｐ４小さい系夕ｑの
番号りとその１−数を数えあげる。この個数を−とする
。この籠−と−Ｗ／１類の系＾の番号りはしきｂ髄内系
列番号蓄積部６４に蓄えられる。次に１１１１＃部６７
にあらかじめ用意しである代表単一番号カウンタ１１に
セットして、しきい儀内系ガ番号薔積ｓ６４に蓄えられ
ている内移動歳大−ラスタＳ択囲路６５に入力し、すべ
ての−のうちの最大値とそのｍの値を調べる。このｍの値を１＃層の代表単語番号として代表率１ｌｌ
Ｆ書号出力端子６６から出力する。つぎにし暑い髄内系タ一番号蓄積部６４に＃見られてい
る系列の番号のうち、上述の代表単一の系列からしきい
値よｐも小さいｊ！ｇＩｌｌＡＫある一嫌側の系列の番
号ｔ−鍮去し、制＃ｓ６７の代表単一番号カウンタを一
つ上げてこの状勝における壷穴の−の値を−べ、代表単
層番号ｍを出力する。この操作をあらかじめ設定され丸
数の代表単層番号が出力されるか、し暑い髄内系内番号
蓄積＠６４に蓄えられている系列番号がつきるまでｄ返
し、次々に代表率ａＳ号を出力する。１繊５？ｌ康となる台率−を複数の艙看によりそれぞれ
入力した音声について前述の代表系列選択錫層を行って
、台率−について複数の音声【クラス分けし、その多い
数のクラスから願に代表音声とする。纂Ｉｌｌ中の系りＵ関距珈計糎部８および時間正嵐化ス
ペクトル！ツテング１１１１２においては、たとえは文
献、嵐舒：大饋い単鎖音声認識にお社るＬＰＣスペクト
ルマツチング尺度の評価、日本音響宇金音声研究会資料
、８８０−６０．１９８０に示されている動的計１１ｉ
Ｉ＃ｉ−を用い九時間軸非−形伸縮！ツテング法を用い
る。〈認識手順〉この不特定話者単＃ｆｊ”認識方式は使用に際してつぎ
の三つの段階に分けられる。０）ＩＩ膏ｗＡ４１１１準バタンの作成と蓄積体）　擬
音−バタン系列の作成と蓄積の）未知単曙音声認識まずα）のＩＲ＃ではスイッチ町は擬音１ｌｉＩＩｌ樟
準Ｉくタン作＊Ｉ１３　Ｋｉ１絖される。１人を良は複
数の話者が尭声した背戸入力（この場合の音声は必ずし
１繍織対象単−でなくてよい）は入力端子ｌからスペク
トルパラメータ袖山ｓ２に供給され、短時間スペクトル
分析され、９！ｉ時間（ｒｌＩえは１６０１１１　）ご
とにスペクトルパラメータのセット（Ｐｔ）（１ｗｚ　
Ｊ　、　Ｈ）が抽出される。この抽出され九パラメータ
は相関係数中ケプストラムなどであり、”はパラメータ
の１数を表わしている。つぎに短時間ごとに抽出され友
多くのスペクトルパラメータのセットを用いて襞ｔｉｍ
榛準バタン作成部３で！Ｉ！音−―準パタンを作成する
。この作成は＃！３−について説明したように必要に応
じて前処理として■音区間、近接類似スペクトルパラメ
ータセット等の小会ｌ！なパラメータセットを除去し、
次にスペクトルパラメータセット相互間のスペクトル距
離を計算し、この距１ｉ１に４とづいてスペクトルパラ
メータセットのクラスタリング（クラス分ケ）を行い、
このクラスタリングにょ力得られた代表的なスペクトル
パラメータセットをあらかじめ設定され次パメン数だけ
豪音鯛バタン醤横鄭４ＫＩＦ検する。（２）の＊音−パタン系ターの作成ＪＦＷｔＲ１１＃で
はスイッチ８Ｉはスペクトル距離計算部５に接続され、
スイッチ８．は筐ず最小スペクトル距履バタンａ択部６
に接続される。各−城対象単一ごとに多数の話者の音声
を羨ｆ−榛準バタンを用いた系列として表わしてｉつた
ん蓄積する。即ちスペクトルパラメータ抽出部２からの
各音声をスペクトル分析し次パラメータと、ａｔ−バタ
ン蓄積部４に＃積されているも擬音＊榛準バタンとのス
ペクトル距離計算部スペクトル距離計算部５で短時間ご
とに行われ、その計算結果よ多最小スペクトル距廟バタ
ン選ＩＲ部６で最小スペクトルｍａｔ有する愛せ−榛準
バタンがｓＩＲされる。このような操作を多数ｍ、ｔの
単ｌｉｔ声（同−ｍｍ対象単曙）ノそれぞれについて行
ｂ１これら各単ｌＩｆ声を擬音−バメンの系りＵでＩＲ
塊する。順ち各音声はａｔ−パタンを示す記号の系ダ一
で表埃される。これらはいったん擬音−バタン系列蓄積
ｓ７に蓄積される。つぎにスイッチ８．は系列関＊Ｓ計算部８に接続される
。この状態で上述多数話者の単一音声を上述の錫塩と同
じ順序でそれぞれスペクトル分１？Ｌスペクトル距離計
算ｓ５で短時間ごとに各襞ｔ−榛準パタンとのスペクト
ル距ａｔ＃ｆｓする。コノ龜拳計算ＩＩＩ果を系列関距
庫計算部８に入力して擬音−パタン系りｑ＃積１１７Ｋ
ＩＦ積されている各系列と入力率Ｓｉ声の時間正購化ス
ペクトル！ツテンダを行い、各系列とのｌｌｌ１ｌＩを
計算する。上述多数鎗庸の単一音声のすべてについて同
機の手続ｍｅ行い、それぞれの単一音声と各系列との距
■計算ｌ１ＩＩＩＩｋＶｒｔ′ｃ表系列選択部１Ｇに入
力する。これらの−一計算緒！＆は多数防看の率賭音声
相互間の距離を表わしているので、代ｌＩ系タリ遍択部
１１では襞曾−―準パタン作成ｍＪＩＫおける演算と同
儂の演算によｐ単ｍｔ声のクラスタリング、即ち擬音−
パＩン系内蓄積部７Ｋｌｌ積されている擬音−バタン系
内のクラスタリングを行う。具体的には第４ＷＪに示し
たように各単ｌｌｔ声ととＫその単ｌｌｌ１ｌｆ声から
の距ｌＩＩがあらかじめ設定したしきい値よル小さい単
一音声の歓ｔｉｉｉべ、この数がＩＩｋ賜大きい単一音
声ｔｌ［ｉの代表単一音声とする。すべての単一音声か
らむの代表単１１１１ｆ声と、この代表単＃音声からし
龜い麹よルも小さい距離にめる単一音声１鹸去し、惰ｐ
の単一音声相互間の距離ｔもとに２番目の代表単＃音声
【Ｓパする。以上の操作をあらかじめ定めた一定数の代
表単一音声が選択されるか、ナベての阜＃音声が除去さ
れつくされるまで繰返し、選択された代表単一音声に対
応する襞ｆ−バタン系夕舗を擬音−バタン系列蓄積部７
から読出して代Ｉｉ！系ター蓄積部１１に＃積する。こ
の操作を一鐵対破単鮒のすべてについて行い、各−緘対
象単腑ごとに複数の代表系ターを代表系タ１１１１横ｓ
ｌｌに蓄積する。 ω）の未知音声線繊！Ｒ１１＃ではスイッチ８、扛スペ
クトル１ａｉ−計算部５に接続され、スイッチ８１は時
間正規化スペクトルマツチングｓ１２に快続される。入力端子１からの入力音声はスペクトルパラメータ抽出
部２でスペクトル分析され、その分析Ｎｊ米について短
時間ごとにスペクトル距離計算部６で＊　ｔ　ｍ　ｍ　
準バタン薔＆部４から読出した各−音線バタンとのスペ
クトル距離”を計算する。この計算Ｍ乗と代Ｉ！系夕（
Ｉｌｌｌｌｌ１ｌｉｌｌ積した認識対駅阜醋の優ｔ−パ
タン系タリと１用いて音声の時間伸櫂を吸収するスペク
トルマツチングを時ｒ＆１］正購化スベクトル！ツテン
グ部１２で行い、１ＩＩｋ４よくマツチングされたもの
を最小スペクトル距離系列選択部】３で選択して線繊結
果として出力端子１４に出力する。この−各ｍｍ対象単
一に対して検数の代表系夕４があるので、最小スペクト
ル距離系列選択ｓ１３ではスペクトル距離が最も小さい
３櫨譲楢度の系列ｔと夛出し、その単晴名に関する多数
決による決定を行ｊＬに、信一度の高い単醗決定會行う
ことができる。〈効　果〉以上の７１！）段階のうち（１）における媛音ｗＡｓ準
パタンの決定は、何ら言−情報を必豪とぜず、物輿的な
パラメータのみを用いたクラスタリングによってなされ
るので砲めて容易に行うことができる。襞曾−標準バタンの決定のために入力する音声は８ｏ単
語程度でよく、ＩＩＩｔ織対破単−である必豪蝶ない。（２））では多数鈷看の単一音声相互間の距離【計算す
る友めに＊単錯ｔＦｗをいつ九ん蓄積する必要があるが
、この発明方式によれは各単一音声はａｔ−パタン名（
記号）を単位とする記号系列で表魂されるので、その記
憶容重はスペクトルパラメータ１−＊積する方式に比べ
大幅に少なくてすむ。擬音韻バタンの数はたとえば２５
６個程度てよい。オ九単−音声相互間の距ｓＩ【計算する際、系列間距離
計算部８でマツチングの都度スペクトル距離を計算する
必１１がなく、スペクトル距離計算部６で計算した擬音
−バタンとのＩｌ［＃Ｉｉ１の髄のみを参雇して共通に
利用できるので時間正規化マツチングにおけｂＷｉ層計
算回数を大幅に減少することができる。このようにして
計算された単一音声相互間の距離に鳴とづ込て各単＃毎
に代表的な系列がクラスタリングによって自動的に決定
されるので、この処理４極めて容易に行うことができる
。これらの代表系夕１線記号系列であるので広い範囲の
声の個人！１がカバーされるように各章１ｍ）ｆｌＫ１
０迩ルａｍあるいはそれ以上の代表系ターを蓄積して１
その記憶容ｉＩＦは憶めて少なくてすむ。６）ては入力率＃音声と慧織対砿単暗との距−を史）に
おける単一音声相互間の彪−の計算とＩＷＩ憚にして行
うので、時間正魂化スペクトル！ツテングにおける距離
計算同数を大幅に減少することかで龜る。つま夛従来に
おいて各ｇｌｌｌＩ対象単罎をスペクトルパラメータと
して記憶しておき、禾知人力単緒音声のスペクトルパラ
メータとの時間正規化マツチングを行っているため、そ
の都度Ｗｉ雛計算憂行うことになｐ１各単睡について複
数の榛準パタンを用いるような場合には特に計簀量が膨
大になる関城点が６つ次。しかしこの発明では耐層計算
を計算部５で行ったのちにその計算結果を用いて、つ普
シ檄準バタ７におきかえてマツチングを行っているため
その計算は−る簡単である。なおスペクトルパラメーメ慣出［，１１１１１榛準パタ
ン作成ｓ３、スペクトル距離計算部６、最小スペクトル
両層パタン４択部６、系＾関距離計ａＳＳ、代１１系？
４１１１１ＲＷＡ　１ｏ、時ｌ５ａｉＥ、Ｉｔ化Ｘベク
トルマツチングｓ１２および最小スペクトルｉｌ［１ｌ
ＩＩ糸夕４１ｓ択ｓ１３の一部又は全部は電子計算機に
よりその機能を実行させることができる。普友系夕匂関
距離計算ｓ８と時間止端化スペクトルマツチング部１２
は同一の機＊ｌｉ！を有するので、同−回路首たは同一
計算機プログラムによって実行すること１可能である。交換機と内線を通った３１単＃Ｉｉについて音声緒５ｉ
Ｉｔ行った。未知音声のｗＩ、ｉｌは８１名で、優音−
Ｆｉ１名で作ル、単＃静書、即ち代表系夕４Ｉ＃積部１
１の蓄積代表系列は２６４名の音声愛用いて＃述したク
ラスタ化によ多作成した。その代表系列の数は１単−当
ル平均１７．６でめつ友。この時の認識事は４８．０％
となった。一方単一辞薔として本人を除く８０名の系列
をその１筐用いた場合は随一率は９７．２５１となった
。つまルこの尭桐によれに少ない系列で高い＆１繊卓が
得られる。以上説倒したようにこの発明による不籍定姑者単−音声
Ｉ＃緘万式によればマツチ′ンダに必豪な距離針簀が入
力音声と襞ｆＩＩＩＩＪＩＩ４準バタンとの計算だけで
よく、計ＩＫ重を大＠に減少できる祠点がめる。例えけ鋪音−標準パタンの数をｎ１繍域率−数をｍ１各
単曙の平場５ｅｔｒ４Ａバタン（代表音声）数を１、マ
ツチングのウィンドｔ−Ｗとすると、従来のバラメータ
蓄積方式とこの発明の方式との計算＠数はｍ７Ｗ：ｎの
関係になる。−ＫｌｉｌｌｉＲ対象単曙の標準バタンは
−ｆ−パタンの系ターで表現しているのでこのための記
憶寝量は、従来のパラメータその鴨のを蓄積してお（方
式に比べ数十分の−で済む利点がある。また擬音−バタ
ンおよび各単請の代六系ターはクラスタリングによって
自動的かつ容易に作ることかで含、しか％ｈ！ＩｌＪ地
的尺度にもとづいているためＰ４＃１１のための有効性
が高い利点がある。

【図面の簡単な説明】

＃１１図はこの発ＢＡによる不特定話者単鍔音声認４方
式の基本的な構成を示すブロック図、ａｌｉ２ＢｔＪは
Ｍｌ−中のスペクトルバラメータ抽出部２の一？Ｉｌを
示すブロック図、纂３図は１８１図中の擬音韻襟準パタ
ン作成ｓ８の一例會示すブロック図、第４図Ｖｉ總１図
中の代表系列選択部］Ｏの一例を示すブロック図である
。１：ｆ声入力端子、２ニスベクトルバクメ一タ抽出部、
８：擬音−標準バタン作成部、４：＊曾−橡準バタン畜
積部、５ニスベクトル距離計算部、６：最小スペクトル
距層バタンａ択部、７：擬音−バタン系夕４１蓄積部、
８：系内関距離計算部、９：系列間両−＃積部、ｌＯ：
代゛衆糸ダ１ＩＪｌｆｆｉＬ　　ｌｌ：代表系ＰＭ４横
部、ｌ　２　：　時Ｍ正ｆｉ化スペクトル！ツテング部
、１３：ｊｌｋ小スペクトル距＃１１系列選択部、１４
：繍戚結未出力端子。特許出−人　　日本亀信電鈷公仕代鳥人　単針　阜大　２　　圃ｌｌ？３　　聞才　４　ｖ

Claims

【特許請求の範囲】

α１　物層的な尺度を用いたクラスタリング手法によっ
て作成し九曾声の短時間のスペクトルの特徴を費わす襞
音−バタンと、これらの襞音−バタンを用いて−Ｊｌ！
対象単ｉｌＦを襞音−パタン系りνとして表わした賜の
とをあらかじめｌｌＦ役してお書、未知入力単−音声管
スベクトル分析し、これと上記優音−バタンとの距Ｓｔ
−計算し、その計算ｌ１ＩＩ釆を用いて上記責音−バタ
ン系列と時間正規化！ツテンダ管行う仁とＫよｐ１未知
入力音声単錯を１１１歳する単一音声１１１１１におい
て、上記襞音−パタンを値数の艙看の音声から作成して
これを不特定の話者の未知入力音声単一のＷｔａに共通
に用い、上記擬音−バタン系列を多数のｍｓの音声のス
ペクトル系ハのクラスタリングによって各単踏毎に被数
個作成し、これらと承知人力単一音声の時間正規化！ツ
テンダを行うととによｐ１未知入力音声単一を認識する
ことをｑＩｌ轍とする不特定話者単ＩＩ＃音声ｋＩＩａ
方式。