JPS59172699A

JPS59172699A - 音声認識デ−タ作成方法

Info

Publication number: JPS59172699A
Application number: JP58048539A
Authority: JP
Inventors: 曜一郎佐古; 雅男渡; 誠赤羽; 平岩　篤信
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1983-03-23
Filing date: 1983-03-23
Publication date: 1984-09-29
Also published as: JPH0546560B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識に使用するデータを作成する音声認識
データ作成方法に関する。

背景技術とその問題点音声認識においては、特定話者に対する単語認識による
ものかずでに実用化されている。これは認識対象とする
全ての単語について特定話者にこれらを発音させ、バン
ドパスフィルタバンク等によりその音響パラメータを検
出して記憶（登録）しＣおく。そし°ζ特定話者が発声
したときその音響パラメータを検出し、登録された各単
語の音響パラメータと比較し、これらが一致したときそ
の単語であるとの認識を行う。

このような装置において、話者の発声の時間軸が登録時
と異なっている場合には、一定時間（５〜２０ｍ　ｓｅ
ｃ　）毎に抽出される音響パラメータの時系列を伸縮し
て時間軸を整合させる。これによって発声速度の変動に
対処させるようにしている。

ところがこの装置の場合、認識対象とする全ての単語に
ついてその単語の全体の音響パラメータをあらかじめ登
録格納しておかなければならず、膨大な記憶容量と演算
とを必要とする。このため認織梧い数に限界があった。

これに対して音＠（日本路でいえばローマ字表記したと
きのＡ、Ｉ、Ｕ、Ｅ、Ｏ，に、Ｓ、Ｔ’等）あるいは音
節（ＫＡ、Ｋｌ、ＫＵ等）単位での認識を行うことが提
案されている。しかしこの場合に、母音等の準定常部を
有する音韻の認識は容易であっても、破裂音（Ｋ、　Ｔ
、　　Ｐ等）のように音韻的特徴が非常に短いものを音
響パラメータのみで一つの音韻に特定することは極めて
困難である。

そこで従来は、各音節ごとに離散的に発音された音声を
登録し、離散的に発声された音声を単語認識と同様に時
間軸整合させて認識を行っており、特殊な発声を行うた
めに限定された用途でしか利用できなかった。

さらに不特定話者を認識対象とした場合には、音響パラ
メータに個人差による大きな分散があり、上述のように
時間軸の整合だけでは認識を行うことができない。そご
で例えば一つの単語について複数の音響パラメータを登
録して近似の音響パラメータを認識する方法や、単語全
体を固定次元のパフメータに変換し、識別函数によって
判別する方法が提案されているが、いずれも膨大な記憶
容量を必要としたり、演算量が多く、認識語い数が極め
て少なくなってしまう。

とごろで音韻の発声現象を観察すると、母音や摩擦音（
Ｓ、　　Ｈ等）の音韻は長く伸ばして発声することかで
きる。例えば“はい”という発声を考えた場合に、この
音＊ａＣよ第１図Ａに示すように、［無音→Ｈ−＋Ａ→
■→無音」に変化する。これに対して同じ“はい”の発
声を第１図Ｂのように行うこともできる。ここでＨ，Ａ
、Ｉの準定當部の長さは発声ごとに変化し、これによっ
て時間軸の変動を生じる。ところがこの場合に、各音韻
間の過渡部（斜線で示す）は比較的時間軸の変動が少い
ことが判明した。

この為、この音韻間の過渡部に着目して不特定話者に対
しても良好に音声認識を行えるようにした第２図乃至第
５図に示す如き音声認識装置が提案されている。以下、
この第２図乃至第５図に示す音声認識装置について説明
する。

第２図において、（１１は音響分析部を示し、この音響
分析部（１）は音声信号を音響パラメータ時系列に変換
するものである。マイクロフォン（２）に供給された音
声信号がマイクアンプ（３）、５．５ｋｔｌｚ以下のロ
ーパスフィルタ（４）を通じてＡＤ変換回路（５）に供
給される。またクロック発生器（６）からのｊ２．５ｋ
Ｈｚ（８０μｓｅｃ間隔）のザンブリングクロソクがＡ
Ｄ変換回路（５）に供給され、このタイミングで音声信
号がそれぞれ所定ビット数（−１ワード）のデジタル信
号に変換される。この変換された音声信号が５×６４ワ
ードのレジスタ（７）に供給される。またクロック発生
器（６）からの５．１２ｍ　ｓｅｃ間隔のフレームクロ
ックが５進カウンタ（８）に供給され、このカウント値
がレジスタ（７）に供給されて音声信号が６４ワードず
つシフトされ、シフトされた４×６４ワードの信号がレ
ジスタ（７）から取り出される。

このレジスタ（７）から取り出された４　Ｘ　６４＝　
２５６ワードの信号が高速フーリエ変換（ＦＦＴ）回路
（９１に供給される。ここでこのＦＦＴｌ路（９）にお
いて、例えばＴの時間長に含まれるｎ９個のサンプリン
グデータによって表される波形函数をｔＪ　ｎｇ　Ｔ　
（１）　　　　　　　　　　　・・・・・・・・・（１
）としたとき、これをフーリエ変換して、＝Ｕ１ｎｔ　
Ｔ（’Ｊ　＋Ｊ　Ｕ２　ｎ（Ｔ（ｆｌ　　”　”　’　
”　（２）の信号が得られる。

さらにこのＦＦＴｌ路（９）からの信号がパワーベクト
ルの検出回路００）に供給され、ｌ　Ｉｆ’　ｌ　−ＵｌｎｆＴ（ｆ）”＋　Ｕ２　ｎｒ
Ｔ（ｆ）”　　　・・・・・・（Ｊツバワースベクトル
信号が取り出される。ここでフーリエ変換された信号は
周波数軸上で対称になっているので、フーリエ変換によ
っζ取り出されるｎ９個のデータの半分は冗長データで
ある。そこで半分のデータを排除して＋１１ｆｆａｉｌ
のデータが取り出される。ずなわち上述のＦＦＴｌ路（
９）に供給された２５６ワードの信号が変換されて１２
８ワードのパワースペクトル信号が取り出される。

このパワースペクトル信号がエンファシス回路（１１）
に供給されて聴感上の補正を行うための重み付けが行わ
れる。ここで重み付けとしては、例えば周波数の高域成
分を増強する補正が行われる。

この様にして音声分析部（１）におい”Ｃ１音声信号の
音響パラメータ時系列として車み付けされたパワースペ
クトル信号が得られる。そして、この音声分析部（１）
からの重み付けされたパワースペクトル信号が過渡パラ
メータ抽出部（１２）及び過渡点検出部（１３）に夫々
供給される。この過渡パラメータ抽出部（１２）は音声
分析部（１１からの音声信号の音響パラメータ時系列か
ら音声信号の音韻的特徴を保持した低次の過渡点パラメ
ータを抽出するものであり、また過渡点検出部（１３）
は音声分析部（１）からの音声信号の音響パラメータ時
系列から音声信号の過渡点を検出して過渡点検出信号を
発生ずるものであり、この過渡点検出部（１３）からの
過渡点検出信号が過渡パラメータ抽出部（１２）に供給
され、過渡パラメータ抽出部（１２）において過渡点に
おける音声信号の音韻的特徴を保持した低次の過渡点パ
ラメータが抽出される。

以下、これら過渡パラメータ抽出部（１２）及び過渡点
検出部（１３）について説明する。

音声分析部（１）のエンファシス回路（１１）からの重
め付けされたパワースペクトル信号が帯域分割回路（１
４）にイ」（給され、聴感特性に合わせて周波数メルス
ケールに応じて例えば３２の帯域に分割される。ここで
パワースペクトルの分割点と異なる場合にはその信号が
各帯域に按分されてそれぞれの帯域の信号の量に応じた
信号が取り出される。

これによって上述の１２８ワードのパワースペクトル信
号が、音響的特徴を保持したまま３２ワードに圧縮され
る。

この信号が対数回路（１５）に供給され、各信号の対数
値に変換される。これによって上述のエンファシス回路
（１１）での重み付は等による冗長度が排除される。こ
こでこの対数パワースペクトルｌｏｇ　ｌ　Ｕ２ＴＩＴ
（ｆ）　ｌ　　　　　　　−（４１をスペクトルパラメ
ータＸ（１）（ｉ＝０．１・・・・・・３１）と称する
。

このスペクトルパラメータｘ（１〉が離散的フーリエ変
換（Ｄ　Ｆ　Ｔ）回路（１６）に供給される。ここでこ
のＤＦＴ回路（１６）において、例えば分割された帯域
の数をＭとすると、このＭ次元スペクトルパラメータｘ
ａ＋　　（ｉ＝０．１−Ｍ−１）を２Ｍ点の実数対称パ
ラメータとみなしてＤＦＴを行う。

従ってとなる。さらにこのＤＦＴを行う函数は偶函数とみなさ
れるためＷ７７１ｉ　　、Ｏ５（ｚｇ−１ＴｒＬ＞２Ｍ　　　　
　２Ｍ π・１−ｒｎとなり、これらよりとなる。このＤＦＴによりスペクトルの包絡特性を表現
する音響パラメータが抽出される。

このようにしてＤ　Ｆ　Ｔされたスペクトルパラメータ
ｘ（１）について、低次元で各音韻の変化例えばＨ−Ａ
、Ａ→Ｉ等間を分離性の良いパラメータに圧縮するため
の周波数軸方向における３２ワードからなる信号からＤ
ＦＴにより０〜Ｐ−１（例えばＰ−８）次までの低次成
分であるＰ次元の値が取り出され、これをローカルパラ
メータＬω＋（ｐ＝０．１・・・・・・Ｐ−１）とする
と・・・・・（力となり、ここでスペクトルパラメータが対称であること
を考慮してｘａ＋　−ｘ　（２Ｍ−４−１）　　　　　　−１８９
，（８）とおくと、ローカルパラメータＬω）は・・・
・・（９）但し、ｐ＝０＋　　１・・・・・・ｐ−ｉとなされる。

このようにして周波数軸方向における３２ワードの信号
がＰ（例えば８）ワードに圧縮される。

このローカルパラメータＬω）がメモリ装置（１７）に
供給される。このメモリ装置（１７）は１行Ｐワードの
記憶部が例えば１６行マトリクス状に配されたもので、
ローカルパラメータＬ（ロ）が各次元ごとに順次記憶さ
れると共に、上述のクロック発生器（６）からの５．１
２ｍ　ｓｅｃ間隔のフレームクロックが供給されて、各
行のパラメータが順次横方向ヘシフトされる。これによ
ってメモリ装置（１７）には５゜１２ｍ５ｅｃ間隔のＰ
次元のローカルパラメータＬ（Ｐ）が１６フレーム（８
１，９２ｍ５ｅｃ　）分記憶され、フレームクロックご
とに順次新しいパラメータに更新される。

一方、音声分析部（１）のエンファシス回路（１１）か
らの重み付けされた信号が過渡点検出部（１３）の帯域
分割回路（１８）に供給され、上述と同様にメルスケー
ルに応じてＮ（例えば２０）の帯域に分割され、それぞ
れの帯域の信号の量に応じた信号Ｖ（ｎ）（ｎ＝０．］
・・・・・・Ｎ−１）が取り出される。

この信号がバイアス付き対数回路（１９）に供給されてＶ’（１１）　＝　ｌｏｇ　　（Ｖ（ｎ＋　＋　Ｂ　）
　　　　　　・＝　−−（１０１が形成される。また信
号Ｖ　（ｎ）が累算回路（２ｏ）に供給されて０給されてｖ’ａ　＝ｌｏｇ　　（Ｖａ　十Ｂ）　　　　　　−−
−（１１）が形成される。そしてこれらの信号が演算回
路（２１）に供給されてＶ（ｎ）　−Ｖ’　ａ　−Ｖ’（ω　　　　　　　・・
・・・・・・・（１２）が形成される。

ここで上述のような信号Ｖ　（ｎ）を用いることにより
、この信号は音韻から音韻への変化に対して各次（ｎ＝
ｏ、１・・・・・・Ｎ−１）の変化が同稈度となり、音
韻の種類による変化量のばらつきを回避できる。また対
数をとり演算を行って正規化パラメータ■（１）を形成
したことにより、人力音声のレベルの変化によるパラメ
ータＶ　（ｎ）の変動が排除される。さらにバイアスＢ
を加算して演算を行ったことにより、イ反にＢ−＋■と
するとパラメータＶＣＩＬ）＝０となることから明かな
ように、人力音声の微少成分（ノイズ等）に対する感度
を下げることができる。

このパラメータＶ　（ｎ）がメモリ装置（２２）に供給
されζ２Ｗ＋１（例えば９）フレーム分が記憶される。

この記憶された信号が演算回路（２３）に供給されて但し、ＧＦＮ−（Ｉ　；−Ｗ＋ｔ≦Ｉ≦ｗ＋　ｔｌが形
成され、この信号とパラメータｖ〈１）が演算回路（２
４）に供給されてが形成される。このＴ　（１＋が過渡点検出バラメーク
であって、ごのＴ　＋ｕがピーク判別回路（２５）に供
給されて、人力音声信号の音韻の過渡点が検出される。

ここでパラメータＴ　、、、が、フレームｔを挟んで前
後Ｗフレームずつで定義されているので、不要な凹凸や
多極を生じるおそれがない。なお第３図は例えば“ゼロ
”という発声を、サンプリング周波数１２．５ｋＨｚ、
　１２ビツトデンタルデータとし、５．１２ｍ５ｅｃフ
レ一ム周期で２５６点のＦＦＴを行い、帯域数Ｎ−２０
、バイアスＢ＝Ｏ１検出フレーム数２ｗ＋１＝９で上述
の検出を行った場合を示している。図中Ａは音声波形、
Ｂは音韻、Ｃは検出信号であって、「無音→Ｚ」　「Ｚ
−＋Ｅ」　「Ｅ−４Ｒ」ｒＲ−ＯＪｒＯ−無音」の各過
渡部で顕著なピークを発生ずる。ここで無音部にノイズ
による多少の凹凸が形成されるがこれはバイアスＢを大
きくすることにより破線図示のように略０になる。

この過渡点検出信号Ｔ（Ｌ）が過渡パラメータ抽出部（
１２）のメモリ装置（１７）に供給され、この検出信号
のタイミングに相当するローカルパラメータＬ−が８番
目の行にシフトされた時点でメモリ装置（１７）の読み
出しが行われる。ここでメモリ装置（１７）の睨み出し
は、各次元Ｐごとに１６７し−ム分の信号が横方向に＠
め出される。そして読み出された信号がＤＦＴｕ路（２
６）に供給される。

このＤ　Ｆ　’１’１’（２６）において上述と同様に
ＤＦＴが行われ、音響パラメータ時系列の時間的変化の
包絡特性が抽出される。このＤＦＴされた信号の内から
０〜Ｑ−１（例えばＱ−３）次までのＱ次元の値を取り
出す。このＤＦＴを各次元Ｐごとに行い、全体でＰＸＱ
（＝２４）ワードの過渡点パラメータＫ（Ｐ、Ｑ＋　　
（１）＝０．　１・・・ｐ−１）（ｑ−〇、１・・・Ｑ
−１）が形成される。ここで、Ｋ　（０，ｏ＞は定数な
ので、ｐ＝ｏのときにｑ＝１〜Ｑとしてもよい。

すなわち第４図において、Ａのような入力音声信号（Ｈ
ＡＩ）に対してＢのような過渡点が検出されている場合
に、この信号の全体のパワースペクトルはＣのようにな
っζいる。そして例えば１’　Ｈ→Ａ」の過渡点のパワ
ースペクトルがＤのようであったとすると、この信号が
エンファシスされてＥのようになり、メルスケールで圧
縮されてＦのようになる。この信号がＤＦＴされてＧの
ようになり、Ｈのように前後の１６フレ一ム分がマトリ
クスされ、この信号が順次時間軸を方向にＤＦＴされて
例えば２４　（＝　８ｘ　３　）の過渡点パラメータＫ
　ｏｐ、　ｑ＞が形成される。

この様にして得られた過渡パラメータ抽出部（１２）か
らの過渡点パラメータＫ　＜ｐ、　ｑ）が音声判定部（
２７）に供給され、この音声判定部（２７）において音
声信号の認識判定がなされる。以下、この音声判定部（
２７）にってい説明する。

過渡パラメータ抽出部（１２）のＤＦＴ回路（２６）か
らの過渡点パラメータＫ　ｏｐ、　ｑ）が音声判定部（
２７）のマハラノビス距離算出回路（２８）に供給され
ると共に、メモリ装置（２９）からのクラスタ係数がマ
ハラノビス距離算出回路（２８）に供給されて各クラス
タ係数とのマハラノビス距離が算出される。

ここでクラスタ係数は複数の話者の発音から上述と同様
に過渡点パラメータを抽出し、これを音韻の内容に応じ
て分類し統計解析して得られたものである。

そしてこの算出されたマハラノビス距離が判定回路（３
０）に供給され、検出された過渡点が、何の音韻から何
の音韻への過渡点であるかが判定され、出力端子（３１
）に取り出される。

すなわち例えば“はい”いいえ”０（ゼロ）。

〜“９　（キュウ）”の１２単語について、あらかじめ
多数（百Å以上）の話者の音声を前述の装置に供給し、
過渡点を検出し過渡点パラメータを抽出する。この過渡
点パラメータを例えば第５図に示′４″ようなテーブル
に分類し、この分類（クラスタ）ごとに統計解析する。

図中＊は無音を示す。

これらの過渡点パラメータについて、任意のサンプルを
Ｒｒ’？’ｎ　　（ｒ＝１．　２・−＝２４）　　（ａ
はクラスタ指標で例えばａ＝１は＊−Ｈ，ａ＝２はＨ−
Ａに対応する。ｎは話者番号）として、共分散′マトリ
クスＥはアンサンプル平均を計算し、この逆マトリクスＢｒ（？）ｓ−（Ａｔ（？い；１．ｓ　　　　　　　−
−−−−（１７Ｊを求める。

ここで任意の過渡点バラン・−タＫｒとクラスタａとの
距離が、マハラノビスの距離 −，０，わ、。　　　　　　　　　−−−−−（１８１
従ってメモリ装置（２９）に上述のＢｒ（ｔｐ９及びＲ
ｒ（８）を求めて記憶しておくことにより、マハラノビ
ス距離算出回路（２８）にて入力音声の過渡点パラメー
タとのマハラノビス距離が算出される。

これによってマハラノビス距離算出回路（２８）から入
力音声の過渡点ごとに各クラスタとの最小距離と過渡点
の順位が取り出される。これらが判定回路（３０）に供
給され、入力音声が無音になった時点において認識判定
を行う。例えば各単語ごとに、各過渡点パラメータとク
ラスタとの最小距離の平方根の平均値による単語距離を
求める。なお過渡点の一部脱落を考慮して各単語は脱落
を想定した複数のタイプについて単語距離を求める。

ただし過渡点の順位関係がテーブルと異なっているもの
はリジェクトする。そしてこの単語距離が最小になる単
語を認識判定する。

こうして音声認識が行われるわけであるが、斯かる構成
よりなる音声認識装置によれば音声の過渡点の音韻の変
化を検出しているので、時間軸の変動がなく、不特定話
者についても良好な認識を行うことができる。

また過渡点において上述のようなパラメータの抽出を行
ったことにより、一つの過渡点を例えば２４次元で認識
することができ、認識を極めて容易かつ正確に行うこと
ができる。

とごろで、この様にしてなる音声認識装置のメモリ装置
（２９）に記憶しておく音声認識データを作成するには
、音声分析部（１）、過渡点検出部（１３）及び過渡パ
ラメータ抽出部（１２）により音韻間の過渡点における
過渡点バラン；りを抽出し、これを音韻の内容に応じて
分類し統計解析してクラスタ係数を得るのであるが、こ
の場合過渡点検出信号（波形）とパラメータとをティス
プレィし視察により観測して対応づけを行っている為ば
らつきが大きく、又例えばｒＫＡＪという音節に対して
過渡点検出信号が第６図Ａに示す如く音韻間で１つ、全
体で３つのピークを生じるべきところが、同図Ｂに示す
如く４つのピークを生したり、同図Ｃに示す如く２つの
ピークしか得られなかったり同図りに示す如くピークは
３つあるけれども１箇所の音韻間に２つと偏っていたり
して、判断等に手数がかかる等の不都合があった。又、
これを自動化しようとすると不要な組み合わせに対する
演算を必要としたりしてかなり演算時間がかかつてしま
うという不都合があった。

発明の目的本発明は斯かる点に鑑み演算時間の短縮及び信頼性向上
を計ろうとするものである。

発明の概要本発明は、音声信号より音響パラメータ時系列を得、こ
の音響パラメータ時系列のピーク位置と強度とより無音
及び音韻を分類するようにした音声認識データ作成方法
であり、斯かる本発明音声認識データ作成方法によれば
演算時間の短縮及び信頼性ｎ１を計ることができる。

実施例以−ト、第７図乃至第９図を参照しながら本発明音声認
識データ作成方法の一実施例について説明しよう。この
第７図乃至第９図において第１図乃至第６図と対応する
部分に同一符号を付してその詳細な説明は省略する。

本例においては過渡点検出部（１３）のピーク判別回路
（２５）からの過渡点検出信号Ｔ　（ｇをプリクラスタ
リング回路（３２）に供給する。このプリクラスタリン
グ回路（３２）は過渡点検出信号Ｔ（ｔ）のピーク値と
それに対応するフレーム番号とより本来あるべき過渡点
検出信号Ｔ＜ｏのピーク位置を判別し検出して過渡点検
出信号及びクラスタリング信号を形成する。ここでこの
プリクラスタリング回路（３２）について更に説明する
。

まず、音声信号がｒＡＪ　　ｒＩＪ　　ｒＵＪ　ｒＥＪ
ｒＯＪｒ’ＮＪの母音叉はＮの音韻である場合、第８図
に示すフローチャートの如く、ブロック　（８ａ）にて
本来あるべき過渡点の数２１が変数ｉに設定され、ブロ
ック（８ｂ）にて過渡点検出信号Ｔ〈υのピーク点の個
数ＮＰが２以上であるかどうかが判別され、２以上でな
い場合は本来あるべき過渡点に対応するピーク点が不足
していることが検出され、ブロック（８ｃ）にてパラメ
ータの分類（クラスタリング）ができない処理がなされ
る。又、ピーク点の個数ＮＰが２以上である場合は、過
渡点検出信号Ｔ（ｔ）のピーク点をピーク値の大きさの
降順に並べた時の１番大きなピーク値のフレーム番号（
以下、降順ｉ　（この場合は１）番目のフレーム番号と
いう。）と降順２番目のフレーム番号との差の絶対値が
所定数ａフレーム以下であるかどうかによりピーク点と
ピーク点との間隔がａフレーム以下すなわち１箇所の音
韻間にこれらのピーク点が位置するかどうかが判別され
、ａフレーム以下である（位置する）場合ブロック（８
ｅ）にて変数ｉに「１」が加えられ、再びブロック（８
ｂ）及び（８ｄ）にて上述の処理がなされる。又、ａ以
下でない（ｌ箇所の音韻間にこれらのピーク点が位置し
ない）場合ブロック（８ｆ）にて降順１番目のフレーム
番号が降順３番目のフレーム番号より小さいかどうかが
判別され、小さい場合にはブロック（８ｇ）にて降順１
番目のフレームが「＊−母音（又はＮ）Ｊに対応し、降
順３番目のフレームが１母音（又はＮ）−、＊Ｊに対応
することを示す過渡点検出信号及びクラスタリング信号
が形成される。又小さくない場合にはこれとは逆にブロ
ック（８ｈ）にて降順３番目のフレームが［＊→母音（
又はＮ）Ｊに対応し、降順１番目のフレームが［母音（
又はＮ）→＊］に対応することを示す過渡点検出信号及
びクラスタリング信号が形成される。

次に、音声信号が１“Ｋｌ　　ｒＴＪ　　ｒＨＪ　　ｒ
ＰＪと母音との組み合わせされた音節である場合、第９
図に不ずフローチャートの如く、ブロック（９ａ）にて
ピーク点の個数ＮＰが本来あるべき音韻間の数３以上あ
るかどうかが判別され、３以上ない場合史にブロック（
９ｂ）にて２番目のピーク点めフレーム番号から１番目
のピーク点のフレーム番号を引いたフレーム数が所定数
ａ１フレーム以上大きいかどうかにより、１番目及び３
番目のピーク点が１箇所の音韻間に位置していないかど
うかが判別され、ａ１フレーム以上大きい（音韻間毎に
ピーク点が位置している）とき、「−＊−子音」に対応
するピーク点はなく、１番目のピーク点のフレームが「
子音→母音」に対応し、２番目のピーク点のフレームが
「母音−＊」に対応することを示す過渡点検出信号及び
クラスタリング信号が形成される。又、ａ１フレーム以
上大きくない（１箇所の音韻間にピーク点が偏って位置
している）とき、ブロック（９ｄ）にてパラメータの分
類ができない処理がなされる。

そして、ブロック（９ａ）にてピーク点の個数ＮＰが３
以上あることが判別された過渡点検出信号Ｔα）がブロ
ック（９ｅ）にて１番目のピーク点のピーク値が相対的
に２番目のピーク点のピーク値よりも所定値８２以上大
きく且つ絶対的に所定値８３以上大きいかどうかが判別
され、これを満たすときブロック（９ｆ）にて変数ｉに
値２が設定され、ブロック（９ｇ）にて変数ｉ　　（＝
２）がピーク点の個数ＮＰ以１・であるかどうか判別さ
れ、Ｎ’Ｐ以下である場合ブロック（９ｈ）にて降順１
番目のフレーム番号と降順ｉ　（この場合２）番目のフ
レーム番号との差の絶対値が所定値ａ４以下であるかど
うかにより、ピーク点とピーク点との間隔がａ４フレー
ム以下即ぢ１箇所の音韻間にこれらのピーク点が位置す
るかが判別され、ａ４フレーム以下である（位置する）
場合変数ｊに「１」が加えられ、鮮びブロック（９ｇ）
及び（９ｈ）にて上述の処理がなされ、ブロック（９ｇ
）にて変数ｉがピーク点の個数Ｎｐ４ｉ−越えたことが
検出されるとブロック（９ｊ）にてパラメータの分類が
できない処理がなされる。又、ブロック（９ｈ）にてａ
４フレーム以下でない（降順１番目及び３番目のフレー
ムが１箇所の音韻間に位置してない）場合、ブロック（
９ｋ）にて降順１番目のフレーム番号が降順３番目のフ
レーム番号より小さいかどうか判別され、小さい場合に
はブロック（９１）にて「＊−子音」に対応するピーク
点はなく降順１番目のフレームが１子音−母音」に対応
し、降順３番目のフレ−ムが１母音→＊」に対応するこ
とをポず過渡点検出信号及びクラスタリング信号が形成
される。

又、ブロック（９ｋ）にて小さくない場合はこれとは逆
にブロック（９ｍ）にて「＊→子音」に対応するピーク
点はなく、降順３番目のフレームが「子音−母音」に対
応し、降順１番目のフレームが「母音−＊」に対応する
ことを不す過渡点検出信号及びクラスタリング信号が形
成される。

そして又、ブロック（９ｅ）にて条件が満たされないか
どうかにより、１番目のピーク点が１番大きなピーク値
をとらないかどうかが判別され、とらない場合ブロック
（９ｏ）おて変数ｉに値２が設定され、ブロック（９ｐ
）にてピーク点の個数ＮＰが２以上であるかどうかが判
別され、ＮＰが２以上である場合ブロック（９ｑ）にて
降順ｉ　（この場合２）番目のフレーム番号が１番目の
ピーク点のフレーム番号に等しくないかどうかにより降
順ｉ番目のフレームが１番目のピーク点のフレームでな
いかどうかが判別され、等しくない場合ブロック（９ｒ
）にて変数ｉにｒｌＪが加えられ、再びブロック（９ｐ
）及び（９ｑ）にて上述の処理がなされ、ブロック（９
ｐ）にて変数ｉがＮＰ以下でない場合フロック（９ｓ）
にてパラメータの分類ができない処理がなされる。又、
ブロック（９ｑ）にて等しくない場合ブロック（９ｔ）
にて降順１番目のフレーム番号と降順ｉ　（例えば４）
番目のフレーム番号との差の絶対値が所定数ａ５フレー
ム以下であるかどうかによりピーク点とピーク点との間
隔ａ５フレーム以ド即ち１箇所の音韻間にこれらのピー
ク点が位置するかどうかが判別され、ａ５フレーム以下
である（位置する）場合ブロック（９ｒ）にて変数ｉに
「１」が加えられ再びブロック（９ｐ）　。

（９ｑ）及び（９ｔ）にて上述の処理がなされ、ブロッ
ク（９Ｌ）にてａ５フレーム以下でない場合ブロック（
９ｕ）にて降順１番目のフレーム番号が降順ｉ　（例え
ば５）番目のフレーム番号より小さいかどうかが判別さ
れ、小さい場合にはブロック（９ｖ）にて１番目のピー
ク点のフレームが「＊→子音」に対応し、降順１番目の
フレームが１子音−母音」に対応し、降順５番目のフレ
ームが「母音−＊」に対応することを示す過渡点検出信
号及びクラスタリング信号が形成される。又、ブロック
（９ｕ）にて小さい場合、ブロック（９ｗ）にて１番目
のピーク点のフレームが「＊−子音」に対応し、降順５
番目のフレームが「子音−母音」に対応し、降順１番目
のフレームが「母音−＊」に対応することを示す過渡点
検出信号及びクラスタリング信号が形成される。

そして更に、ブロック（９ｎ）にて条件が満たされない
場合ブロック（９Ｘ）にて変数ｉに値３が設定されブロ
ック（９ｙ）にてピーク点の個数ＮＰが変数ｉ以上であ
るかどうか判別され、ｉ以上である場合ブロック（９ｚ
）にて降順２番目のフレーム番号と降順ｌ　（この場合
３）番目のフレーム番号との差の絶対値が所定数ａ６フ
レーム以−トであるかどうかによりピーク点とピーク点
との間隔がａ６フレーム以下即ち１箇所の音韻間にこれ
らのピーク点が位置するかどうかが判別され、ａ８フレ
ーム以上である（位置する）場合ブロック（９α）に゛
ζ変数ｉに１が加えられ、再びブロック（９ｙ）及び（
９ｚ）にて上述の処理がなされ、ブロック（９ｙ）にて
変数１ｌＪ（Ｎｐ以下でない場合ブロック（９β）にて
パラメータの分類ができない処理がなされる。又、ブロ
ック（９ｚ）にてａＧフレーム以下でない場合ブロック
（９γ）にて降順２番目のフレーム番号が降順ｉ　（例
えば５）番目のフレーム番号より小さいかどうかが判別
され、小さい場合にはブロック（９δ）にて１番目のピ
ーク点のフレームが　１−＊−子音」に対応し、降順２
番目のフレームが１子音−母音」に対応し、降順５番目
のフレームが「母音→＊」に対応することを示す過渡点
検出信号及びクラスタリング信号が形成される。又、ブ
ロック（９γ）にて小さくない場合、ブロック（９ε）
にて１番目のピーク点のフレームが「＊−子音」に対応
し、降順５番目のフレームが１子音−母音」に対応し、
降順２番目のフレームが　１母音→＊」に対応すること
を示す過渡点検出信号及びクラスタリング信号が形成さ
れる。

このブリクラスタリング回路（３２）からの過渡点検出
信号を過渡パラメータ抽出部（１２）のメモリ装置（１
７）に供給する。又、過渡パラメータ抽出部（１２）の
ＤＦＴ回路（２６）からの過渡点パラメータＫ　（Ｐ、
　Ｑ）をデータ集積部（３３）のメモリ装置（３４）に
供給する。一方、プリクラスタリング回路（３２）から
のクラスタリング信号をメモリ装置（３４）のアドレス
を指定するメモリ制御回路（３５）に供給し、このメモ
リ制御回路（３５）からの制御信号をメモリ装置（３４
）に供給する。この場合、メモリ制御回路（３５）はク
ラスタリング信号に応じて第５図に示すようなテーブル
に応じて過渡点パラメータが分類されるようにメモリ装
置（３４）のアドレスを指定する。その他音声分析部（
１１、過渡パラメータ抽出部（１２）及び過渡点検出部
（１３）は第２図に示すものと同様に構成する。

斯かる構成によれば、音声分析部（１）にて音声信号が
音響パラメータ時系列に変換され、過渡点検出部（１３
）にてこの音響パラメータ時系列が処理されピーク判別
回路（２５）からの過渡点検出信号′Ｉ’　（ｔ）が得
られこの過渡点検出信号Ｔ　＜ｔ＋がプリクラスタリン
グ回路（３２）により処理され、過渡点検出信号Ｔ　（
１１のピーク値とそれに対応するフレーム番すとより本
来あるべき過渡点検出信号及びクラスタリング信号が形
成される。そして、このプリクラスクリング回路（３２
）からの過渡点検出信号が過渡パラメータ抽出部（１２
）に供給され、この過渡パラメータ抽出部（１２）にお
いて音響パラメータ時系列から音韻間の過渡点における
過渡点パラメータＫ　＋ｐ、　Ｑ）が抽出され、この過
渡点パラメータＫ　（Ｐ、　Ｑ）がデータ集積部（３３
）のメモリ装置（３４）に順次記憶される。このとき、
プリクラスタリング回路（３２）からのクラスタリング
信号に応じてメ°ｅり制御回路（３５）がメモリ装置（
３４）のアドレスを指定し、メモリ装置（３４）に記憶
される過渡点パラメータＫ　（Ｐ、　Ｑ）が無音及び音
韻に応じて分類される。

以上述べた如く本例によれば、音声信号より音響バラメ
ーク時系列を得、この音響パラメータ時系列から過渡点
検出信号を得て、この過渡点検出信号のピーク値とそれ
に対応するフレーム番号とより無音及び音韻を分類する
ようにした為、音声認識データを作成するのに、過渡点
検出信号Ｔα）と過渡点パラメータとを自動で音韻の内
容に応じて分類できるので、視察で行なう場合に比べて
信頼性の向上が計れると共に、演算時間の短縮を計るこ
とができる。

尚、本発明は上述の母音及び子音に限らずその他の子音
及びこの子音と母音との組み合わされた音節に対しても
本発明の要旨を逸脱することなくその他種々の構成を取
ることは勿論である。

発明の効果本発明音声認識データ作成方法によれば、音声信号より
音響パラメータ時系列を得、この音響パラメータ時系列
のピーク位置と強度とより無音及び音韻を分類するよう
にした為、信頼性向上及び演算時間の短縮を針ることが
できる。

【図面の簡単な説明】

第１図、第３図、第４図、第５図及び第６図は音声認識
装置の例の説明に供する線図、第２図は音声認識装置の
例を示す構成図、第７図は本発明音声認識データ作成方
法の一実施例を示す構成図、第８図及び第９図は夫々第
７図の説明に供する線図である。ｆｌｌは音声分析部、（１２）は過渡パラメータ抽出部
、（１３）は過渡点検出部、（３２）はプリクラスタリ
ング回路、（３３）はデータ集積部、（３４）はメモリ
装置、（３５）はメモリ制御回路がある。同　　松隈秀盛第５図手続補正書昭和５８年９　月　２０日１、事件の表示昭和５８年特許願第４８５３９　　号２、発明の名称　音声認識データ作成方法３袖正をする
者事件との関係　　特許出願人住所　東京部品用凶兆品用６丁目７番３５号名称（２］
８）　　ソニー株式会社代表取締役　大　賀　典　雄４　代　理　人　東京都覇宿区西新宿１丁目８番１号帽
「イ６ビル）置東京（０３）３４３−５８２１　（代表
）（３３８８）　　弁理士　伊　　　　藤　　　　貞５
、袖、、ｉｌＪ、命令の１日１刊　　　昭和　　年　　
月　　日６、袖ｊｌ：、により増加する発明の数７、補
　正　の　月　象　　明細書の発明の詳細な説明の欄８
、補止の内容（１）明細書中、第８頁第１３行〜末行［このＭ次元ス
ペクトルパラメータｘ（ｉ）（ｉ＝０　、１・・・Ｍ−
１）を２ＭＡの実数対称パラメータとみなしてＤＦＴを
行う。従ってとあるな「このＭ次元スペクトルパラメータｘ（ｉ）　（ｉ　＝
　０　。１・・・Ｍ−１）を２Ｍ−１点の実数対称パラメータと
みなして２Ｍ−２点のＤＦＴを行う。従ってに訂正する
。（２）同、第９頁第１行〜第２行ｍ　＝　０　、１−−−・−２Ｍ−Ｉ　　　Ｊとあるをｍ＝０　　１　　・・・２Ｍ−３Ｊに訂正する。（３）　　同、同頁第５行〜第８行となり、これらよりとあるなとなり、これらよりに訂正する。（４）同、第１０頁第４行〜第７行・・・・・・　（力」とあるをに訂正する。（５）　　同、第１０頁第１０行［乍）＝Ｘ（２Ｍ　　ｉ　　１）　　　　　　　　・・
・・・・（８）」とあるなｒ　”（ｉ）＝　Ｘ（２Ｍ−ｉ−２）　　　　　　　　
・・・・・・１８１Ｊに訂正する。（６）同、同頁第１１行〜第１２行・・・・・（９）」＋Ｘ（Ｍ−１）ｃＯ３Ｏ３用（９）」に訂正する。（７）同、第１５頁第１０行〜第１１行「ここで、Ｋ（
ｏ、りは定数なので、」とあるを下記の通りに訂正する
。ｒＫ（ｏ、ｏ）は音声波形のパワーを表現しているので
パワー正規化のため」以　　　上

Claims

【特許請求の範囲】

音声信号より音響パラメータ時系列を得、該音響パラメ
ータ時系列のピーク位置と強度とより無音及び音韻を分
類するようにしたことを特徴とする音声認識データ作成
方法。