JPS59170897A

JPS59170897A - 音声過渡点検出方法

Info

Publication number: JPS59170897A
Application number: JP58045233A
Authority: JP
Inventors: 曜一郎佐古; 雅男渡; 誠赤羽; 平岩　篤信
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 1983-03-17
Filing date: 1983-03-17
Publication date: 1984-09-27
Also published as: JPH0552510B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音声認識に使用し゛ζζ過通音声過渡点検出方
法に関する。

／ｒ景技術とその問題点音声認識においては、特定記ｉ者に対する単語認識によ
るものがずでに実用化されている。これば認識対象とす
る全゛この単語について特定話者にこれらを発音させ、
ハントバスフイルタノ＼ンク等によりその音響パラメー
タを検出して記憶（登録）しておく。そして特定話者が
発声したときその音響パラメータを検出し、登録された
各単語の音響パラメータと比較し、ごれらか一致したと
きそのｆｆｉ語であるとの認識を行・う。

このような装置においζ、話者の発声の時間軸が登録時
と異なっている場合には、一定時間（５〜２Ｑｍ　５ｅ
ｃ）毎に抽出される音響パラメータの時系列を伸縮して
時間軸を整合さセる。これによって発声速度の変動に対
処させるようにしている。

ところがこの装置の場合、認識対象とする全ての単語に
ついてそのｆｆｉ詔の全体の音響パラメータをあらかじ
め登録格納しておかなりればならず、膨大な記憶容量と
演算を必要とする。このため認識語い数に限界があった
。

一方音聞く日本語でいえばローマ字表記したときのＡ、
　　１．　　Ｕ、　Ｅ、　０．　Ｋ、　Ｓ、　’１”等
）あるいは音節（ＫＡ、Ｋ１．ＫＵ、等）単位での認識
を行うことが提案されている。しかしこの場合に、母音
等の準定常部を有する音韻の認識は容易であ−２でも、
破裂音（Ｋ、Ｔ、Ｐ等）のように音韻的特徴が卵重に短
いものを音響パラメータのみで−・つの音韻に特定する
ことは極めて困難である。

そこで従来は、各音節ごとに離散的に発音された音声を
登録し、離散的に発声された音声を単語認識と同様に時
間軸整合させて認識を行っており、特殊な発声を行うた
めに限定された用途でしか利用できなかった。

さらに不特定話者を認識対象とした場合には、音響パラ
メータに個人差による大きな分散があり、上述のように
時間軸の整合たけでは認識を行うことができない。そこ
で例えば一つの単語について複数の音響パラメータを登
録して近似の音響パラメータを認識する方法や、単語全
体を固定次元のパラメータに変換し、識別函数によって
判別する方法が提案されているが、いづれも膨大な記憶
容量を必要としたり、演Ｗ、量が多く、認識語い数が極
めて少くなってしまう。

ごれに対して本発明打は先に、イ・特定話者に対しても
、容易かつ確実に音声認識を行えるよっにした新規な音
ｒ４認識方法を提案した。Ｊａ’ｌ−にまずその−例に
つい”で説明しょ−）。

とごろで音韻の発声現象を観察すると、母音や摩擦音（
Ｓ、Ｈ等）等の音■旧ま１乏く伸し゛ζ発声するごとが
できる。例えば°゛はい゛という発声をｂえた場合に、
この音韻は第１図Ａにボずように、Ｉ無音−Ｈ→Ａ−１
−無音−１に変化する。これに対して同じ゛はいパの発
声を第１図Ｂのように行うこともできる。ここで１（、
Ａ、Ｉの準定音邪の長さは発声ごとに変化し、これによ
って時間軸の変動を牛しる。ところがこの場合に、各音
韻間の過渡部（斜線で示す）は比較的時間軸の変動が少
いことか判明した。

そこで第２図において、マイクｔ：１フォン（１）に（
ＪＬ給された音声信号がマイクアンプ（２）、　５．５
　ｋｌｌｚ以−トのローパスフィルタ（３）を通じてＡ
　−１）変換回路（４）に供給される。またクロック発
生器（５）からの１２．５　Ｘ１ｌｚ　（８０μｓｅｃ
間隔）のザンプリンタクロソクがＡ−Ｄ変換回路（４）
に供給され、このタイミングで音声信号がそれぞれ所定
ビット数（−１ワード）のデジタル信号に変換される。

この変換された音声信号が５×６４ワードのレジスタ（
６）に供給される。またクロック発生器（５）からの５
．１２ｍ　ｓｅｃ間隔のフレームクロックが５進カウン
タ（７）に供給され、このカラン１〜値がレジスタ（６
）に供給されて音声信号が６４ワードずつシフトされ、
シフトされた４×６４ワードの信号がレジスタ（６）か
ら取り出される。

このレジスタ（６）から取り出された４　Ｘ　６４＝　
　２５６ワードの信号が高速フーリエ変換（ＦＦＴ）回
路（８）に供給される。ここでごのＦＦＴ回路（８）に
おいて、例えばＴの時間長に含まれるｎ１個のサンプリ
ングデータによって表される波形函数をＵ　ｎＩＴ（ｆ
）　　　　　　　　　　・・・・・・（１）としたとき
、これをフーリエ変換して、ヨＵｉｎｆＴ（ｔ　）＋　
ｊＵｚｎｌｒｆ）−・＝（２１の信号か得られる。

さらにごのＦＦＴ回路（８）からの信号がパワースペク
トルの検出回路（９）に供給され、”　’　−Ｕ＋Ｊ”
Ｕ２ｎｆＴ（ｆ）　　　　−−＋３＋ツバワ一スベクト
ル信号が取り出される。ごごでフーリエ変換された信号
は周波数軸上で対称になっているので、フーリエ変換に
よって取り出されるｎ、ｆ個のデータの半分は冗長デー
タである。そこで半分のデータを排除して４−　ｎ　ｒ
個のデータが取り出される。すなわち上述のＦＦＴ回路
（８）に（Ｊ（給された　２５６ワードの信号が変換さ
れて　１２８ワードのバワースベク１−ル信号が取り出
される。

このパワースペクトル信号がエンファシス回路００）に
供給されて聴感」二の補正を行うための重み付けが行わ
れる。ここで重み付けとしては、例えば周波数の面域成
分を増強する補止が行われる。

この重み付けされた信号が帯域分割回路（１１）に供給
され、聴感特性に合せた周波数メルスケールに応じて例
えば３２の帯域に分割される。ごごでパワースペクトル
の分割点と異なる場合にはその信号が各帯域に按分され
てそれぞれの帯域の信号の帝に応じた信号が取り出され
る。これによって１−述の　１２８ワードのパワースペ
クトル信号が、音響的特徴を保存したまま３２ワードに
圧縮される。

この信号が対数回路（１２）に供給され、各信号の対数
値に変換される。これによって上述のエンファシス回路
００）での重み付は等による冗長度が排除される。ここ
でごの対数パワースペクトルをスペクトルパラメータＸ
（１）　　（ｉ　＝　０　、　１−３１）と称する。

ごのスベク）・ルパラメータＸ　（ｉ）が離散的フーリ
エ変換（ＤＦＴ）回路（１３）に供給される。ここでこ
のＤＦＴ回路（１３）において、例えば分割された帯域
の数をＭとすると、このＭ次元スペクトルパラメータＸ
（１）　　（ｉ　＝　０．　１−＝Ｍ　−１）を２Ｍ点
の実数対称バラメークとみなしてＤＦＴを行う。

ｍ＝０．１　　・−２Ｍ−１となる。さらにこのＤ　Ｆ　′Ｆを行う函数は遇函数と
みなされるためとなり、これらよりとなる。このＤＦＴによりスペク１−ルの包絡特性・を
表現する音響パラメータか抽出される。

このようにしてＤ　Ｆ　Ｔされたスベク１−ルパラメー
タＸ　（ｉ）について、０〜Ｐ−１（例えばＰ−８）次
までのＰ次元の値を取り出し１、これをローカルパラメ
ータ１．、　ＣＰ）　　（ｐ　−０、１・＝　Ｐ　−１
）とすると・・・・・・（７）となり、ここでスペクトルパラメータが対称であること
を考慮してＸ　（ｉ）　−Ｎ＜　２Ｍ−１−］　）　　　　　　　
　　°゛−゛−（ｓｌとおくと、ローカルバラメークＬ
　（Ｐ）はとなる。このようにして３２ワードの信号か
Ｐ（例えば８）ワードに圧縮される。

このローカルパラメータＬ　（Ｐ）がメモリ装置（１４
）に供給される。このメモリ装置（１４）は１行Ｐワー
ドの記憶部が例えは１６行マトリクス状に配されたもの
で、ローカルパラメータＬ（Ｐ）が各次元ごとに順次記
憶されると共に、上述のクロック発生器（５）からの５
．１２ｍ５ｅｃ間隔のフレームクロックが供給されて、
各行のパラメータが順次横方向ヘシフトされる。これに
よってメモリ装置（１４）には５．１２ｍ５ｅｃ間隔の
Ｐ次元のローカルパラメータＬ　（１１が１６フレーム
（８１，９２ｍ５ｅｃ　）分記憶され、フレームクロッ
クごとに順次新しいバラメータに更新される。

さらに例えはエンファシス回路００）からの信号が音声
過渡点検出回路（２０）に供給されて音韻間の過渡点が
検出される。

この過渡点検出信号′ｒ（１）がメ七り装置（１４）に
供給され、この検出信号のタイミンクに相当するローカ
ルバラメークＬ　（ｐ）が８番目の行にシフトされた時
点てメモリ装置ｉ￥（１４）の読み出しが行われる。こ
こでメモリ装置（１４）の読め出しは、各次７ＣＰごと
に１６フレ一ム分の信号が横力向に読み出される。そし
て読み出された信号がＩ）　ＦＴ回路（１５）に供給さ
れる。

このＤ　Ｆ　Ｔ回路（１５）において上述と同様にＤ　
Ｆ　Ｔが行われ、音響パラメータの字系列変化の包絡特
性が抽出される。このＤ　ＦＴされた信号の内から０〜
Ｑ−１（例えばＱ＝３＞次までのＱへ元の値を取り出す
。このＤＦＴを各次元Ｐごとに行い、全体でｐｘＱ（＝
２４）ワードの過渡点パラメータＫ（Ｐ、Ｑ）（ｐ＝０
．１・・・Ｐ−１）　　（Ｑ＝０゜１・・・Ｑ−１）が
形成される。こごで、Ｋ　（０，［１）は定数なので、
ｐ＝ｏのときにｑ＝’ｌ〜Ｑとしてもよい。

ずなわぢ第３図において、第３図Ａのような人力音声信
号（ＨＡＴ）に対して第３図Ｂのよフな過渡点が検出さ
れている場合に、この信号の全体のパワースペクトルは
第３図Ｃのようにな−２ている。そして例えばｌ−Ｈ−
・Ａ」の過渡点のバワースベク１−ルが第３図りのよう
であったとすると、この信すがエンファシスされて第３
図Ｅのようになり、メルスゲールで圧縮されて第３図Ｆ
のようになる。この信号力月）ＦＴされて第３図Ｇのよ
うになり、第３図■］のように前後の１６フレ一ム分が
マ（・リックされ、この信号が順次時間軸を方向にＤ　
Ｆ　Ｔされて過渡点パラメータＫ　（Ｐ、　Ｑ）が形成
される。

この過渡点パラメータＫ　ａｐ、ｑ）がマハラノビス距
離算出回路（１６）にイバ給されると共に、メモリ装置
（１７）からのクラスタ糸数が回路（１６）に供給され
て各クラスタ糸数とのマハラノビス距離が算出される。

ここでクラスタ糸数は複数の話者の発音から上述と同様
に過渡点パラメータを抽出し、これを音韻の内容に応じ
て分類し統計解析して得られたものである。

そしてこの算出されたマハラノピス距離が判定回ｌｌ８
（１８）に供給され、検出された過渡点が、何の音韻か
ら何の音韻への過渡点であるかが判定され、出力端子（
１９）に取り出される。

すなわち例えば“はい”いいえ““０（ゼロ）〜“９　
（キュ９）゛の１２単語について、あらかじめ多数（百
人以−に）の話者の音声を前述の装置に供給し、過渡点
を検出し過渡点パラメータを抽出する。この過渡点パラ
メータを例えば第４図にボすようなテーブルに分類し、
この分類（クラスタ）ごとに統計解析する。図中＊は無
音を示す。

これらの過渡点パラメータについて、任意のサンプルＲ
〔、ｎ（ｒ　＝　１　、　２−２４）　　（ａはクラス
タ指標で例えばａ−１は＊−Ｈ，ａ＝２はＨ−Ａに対応
する。ｎは話者番号）として、共分散マトリクス（ａ）　　　　　（ａ）但し、Ｈ，、、：　Ｅ（ｌ（、ｒ、　ｎ）Ｅはアンサン
プル平均を計数し、この逆マトリクスを求める。

こごで任意の過渡点パラメータＫｔとクラスタａとの距
離が、マハラノビスの距離を求めて記憶しておくことにより、マハラノビス距離算
出回路（１６）にて人力音声の過渡点パラメータとのマ
ハラノビス距離が算出される。

これによって回路（１６）から入力音弘の過渡点ごとに
各クラスタとの最小距離と過渡点の順位が取り出される
。これらが判定回路（１８）に（」（給され、入力音声
が無声になった時点において認識’１１定を行う。例え
は各単語ごとに、各過渡点パラメータとクラスタとの最
小距離の平均値による単語距離を求める。なお過渡点の
一部脱落を考慮し゛Ｃ各単語は脱落を想定した複数のタ
イプについ°ζ単語距離を求める。ただし過渡点の順位
関係かテーブルと異なっているものはリジェクＩ−する
。そしてこの単語距離が最小になる単語を認識’ｌ′Ｉ
ｌ定する。

従ってこの装置によれば音声の過渡点の８韻の変化を検
出しているので、時間軸の変動がなく、不特定話者につ
いて良好な認識をｊＩうことができる。

また過渡点において上述のようなパラメータの抽出を行
ったごとにより、一つの過渡点を例えは２４次九で認識
することができ、認識を極めて容易かつ正確に行うこと
ができる。

なお上述の装置において１２０名の話者にて学習を行い
、この１２０名以外の話者にて−に連１２単語について
実験を行った結果、９８．２％の平均認識率が得られた
。

さらに−１−述の例で“はい”のＩ−Ｈ＝　Ａ　Ｊと′
８（ハチ）”のｆ’　Ｈ−・Ａ」は同じクラスタに分類
可能である。従って認識すべき言語の音韻数をαとして
ａＰ２個のクラスタをあらかじめ計算してクラスタ係数
をメモリ装置（１７）に記憶させておけば、種類の単語
の認識に適用でき、多くの梧いの認識を容易に行うこと
ができる。

とごろで従来の過渡点検出としては例えば音響パラメー
タＬ　（Ｐ）の変化量の総和を用いる方法がある。すな
わちフレームごとにＰ次のパラメータが抽出されている
場合に、ＧフレームのパラメータをＬω）（Ｇ）（ｐ＝
０．１・・・Ｐ−１）としたときのような差分量の絶対
値の総和を利用して検出を行う。

ごごでＰ＝１次凡のときには、第５図Ａ、１３に示すよ
うにパラメータＬ（Ｐ）（Ｇ）の変化点においてパラメ
ータＴ（６）のピークがｉＭられる。ところが例えばＰ
＝２次元の場合に、第５図Ｃ２Ｄに示ず０次、１次のパ
ラメータＬω）　　（Ｃ；）　、Ｌ＋ｉ＋　　（Ｃ）が
上述と同様の変化であっても、それぞれの差分量の変イ
、ヒが第５図Ｂ、Ｉ？のようであった場合に、パラメー
タＴの）のピークが２つになっ゛ζ過渡点を一点に定め
ることができなくなってしまう。これは２次元以上のパ
ラメータを取った場合に−・般的に起こりうる。

また上述の説明ではＬ（ｐ＋（Ｇ）の変化は第５図Ｈの
ようになり、これから検出されたパラメータＴｏには第
５図■に不ずように多数の凹凸が４１してしまう。

このためＬ述の方法では、検出が不正確であると共に、
検出のレベルも不安定であるなど、種々の欠点があった
。

発明の目的本発明はこのような点に鑑み、容易かつ安定な音声過渡
点検出方法を提供するものである。

発明の概要本発明は入力音声ｆ茜号を人間の聴覚特性に応じて等し
く重み付けして音響バラメークを抽出する手段と、この
音響パラメータのレベルに対して正規化を行う手段とを
有し、この正規化された音響パラメータを複数フレーム
に且つて監視すると共に、この複数フレームの中心フレ
ーム及びその′前後の所定フレームを除いて平均値を求
め、この平均値よりのこの複数フレームの夫々の差を求
めこれにより、この音響バラメークのピークを検出する
ようにしたもので、斯る本発明に依れば容易がつ安定な
音声過渡点を検出することができる。

実施例以下に図面を参照しながら本発明音声過渡点検出方法の
一実施例につい゛Ｃ説明しよう。

第６図において、第２図のエンファシス回路ＱＯＩから
の重み付けされた信号が帯域分割回路（２１）に供給さ
れ、上述と同様にメルスケールに応じＣＮ（例えば２０
）の帯域に分割され、それぞれの帯域の信号の量に応し
た信号Ｖ（１１１（ｎ−〇、　　ｌ・・・Ｎ−１）が取
り出される。この信号がバイアス付き対数回路（２２）
に供給されてＶ’ｉｎ）−１ｏｇ　　（Ｖ　くｎ＋　　１−　Ｂ　　
）　　　　　　　　　　　　　　　−旧−−（１０１が
形成される。また信号Ｖ　（ｎ）が累算回路（２３）に
供給されて ■ａ−為＼１．）／ユ０が形成され、この信号■８が対数回路（２２）に供給さ
れてｖ′、　＝　　ｌｏｇ（Ｖａ　＋Ｂ）　　　　　　−−
（１１）が形成される。そしてこれらの信号が演旅回路
（２４）に供給されてＶ（ｎ）−ＶａＶ（ｎ）・・−・−−（１，２）が形成
される。

ここで上述のような信号Ｖ（ｌυを用いることにより、
この信号は音韻から音韻への変化に対して各人（ｎ＝−
０，ｉ・・・Ｎ−１）の変化が同程度となり、音韻の種
類による変化量のばらつきを回避できる。

また対数をとり演算をｉ子って正規化パラメータＶ　（
ｎ）を形成したごとにより、人力音声のし１ルの変化に
よるパラメータＶ　（ｎ）の変動が排除される。さらに
バイアスＢを加算し′Ｃ演算を行ったことにより、仮り
にＢ−■とするとパラメータｖ　ｔｎ＋　−０となる、
−とから明らかなように、人力音声の微少成分（ノイズ
等）に対する感度を士けることができる。

このパラメータｖ　（ｎ）がメモリ装置（２５）に供給
されて２Ｗ＋１（例えば９）フレーム分が記憶される。

この記憶された信号が平均値を求める演算回路（２６）
に供給される。この場合、この演算回１ｉ（２６）は複
数フレーム２Ｗ＋１の中心フレーム（例えば５番目のフ
レーム）及びその前後の所定フレーム２　（例えば１フ
レーム）を除いて平均値を求める如くなされる。この演
算回路（２６）に於が形成され、この平均値信号Ｙｌ’
１．ｌ　とパラメータＶ　（＋１）が演算回路（２７）
に供給されて但し　ａ≧１が形成される。このＴ（Ｌ）が過渡点検出パラメータで
あって、このＴα）がピーク判別回路（２８）に供給さ
れて、入力音声信号の音韻の過渡点が検出され、出力端
子（２９）に取り出されて例えは第２図のメモリ装置（
１４）の出力回路に供給される。

ごごでバラメークＴ（０が、フレームｔを挾んで前後Ｗ
フレームずつで定義されているので、不要な凹凸や多極
を生じるおそれがない。史に複数フレームの平均値を求
め、この平均値よりのこの複数フレームの夫々の巻を求
めこれより音響パラメータＴ　ｎ）のピークを検出する
ようにしているのでより安定し過渡点を検出できる。又
更に平均値を得るのに１次几過渡検出パラメータにあま
り役に立っていない複数フレームの中心フレーム及びそ
の前後の所定フレームを除去して演算しているのでより
安定なピーク検出をすることができ安定な過渡点を検出
できる。なお第７図は例えば“ゼロ”という発音を、ザ
ンブリング周波数１２．５　ｋＨｚ。

１２ビツトデジタルデータとし、５．１２ｍ５ｅｃフレ
一ム周期で２５６点のＦＩ”Ｔを行い、帯域数Ｎ＝２０
、バイアスＢ＝０．検出フレーム数２Ｗ＋１＝９で上述
の検出を行った場合を示している。第７図Ａは音声波形
、第７図Ｂは音韻、第７図Ｃは検出信号であっ”Ｃ１［
無音−ＺＪ　ｒＺ→Ｅｌｆ−Ｅ→Ｒ」）Ｒ−・０ＪＩ−
０−無音」の各過渡部で顕著なピークを発生ずる。ごこ
で無音部にノイズによる多少の凹凸が形成されるがこれ
はバイアスＢを大きくすることにより破線図示のように
略Ｏになる。

こうして音声過渡点が検出されるわけであるが、本発明
によれば音韻の種類や入力音声のレベルの変化による検
出パラメータの変動が少く、常に安定な検出を行うこと
ができる。

なお本発明は」二連の新規な音声認識方法に限らず、検
出された過渡点と過渡点の間の定常部を検出したり、検
出された過渡点を用いて定常部の時間軸を整合する場合
にも適用できる。また音声合成において、過渡点の解析
を行う場合などにも（ｆ効に利用できる。又本発明は上
述実施例に限らず本発明の要旨を逸脱することなくその
他種々の構成が取り得ることは勿論である。

発明の効果本発明に依れば容易かつ安定に音声過渡点を検出するこ
とができる利益がある。

【図面の簡単な説明】

第１図〜第４図は音声認識装置の例の説明に供する線図
、第５図は過渡点検出の説明に供する線図、第６図は本
発明音声過渡点検出力法の−・例の系統図、第７図は本
発明の説明に供する線図である。（１）はマイクロフォン、（３）はローパスフィルタ、
（４）は、へ−Ｄ変換回路、（５）はクロック発生器、
（６）はレシスク、（７）ばカウンタ、（８）は高速フ
ーリエ変換回路、（９）はパワースペクトル検出回１洛
、００）はエンファシス回路、（２１）は帯域分割回路
、（２２）は対数回路、（２３）　、　　（２４）　、
　　（２６）　、　　（２７）は演算回路、（２５）は
メモリ装置、（２８）はピーク判別回路、（２９）は出
力端子である。手続補正書（′４旨′ｔ’ｌ”ｒ審判長　　　　　　　　　　　　
殿）１弔（′１の表小昭和５８年特許願第　４５２３３　　号２、発明の名称
　音声過渡点検出方法３４袖止をする名串イ′Ｉとの関係　　　’４’；’Ｊ、ｉ′１出願人佳
＋ｉｌｉ　　東卓部品用区北品用６１”’　＋１７番３
番号５号（２１８）ソニー株式会社代表取締役　火　賀　リ１．！力、１１６、抽ｊ日こよ
り増ＪＪＩ目−る発明の故７　補　１１：　　の　月　
象　　明細書の発明の詳細な説明の島（１）明細書中、
第７頁１６行〜第９頁下かも８行「を２Ｍ点の・・・・
・・どなる。」とあるを次のように訂正する。［を２Ｍ−１点の実数対称パラメータとみなして２Ｍ−
２点のＤＦＴを行う。従ってｍ＝　０　、１　＝　２Ｍ−３となる。さらにとのＤＦＴを行う函数は遇函数とみなさ
れるため π・ｉｊｍ −１となり、これらよりとなる。このＤ　Ｆ　’Ｉ’によりスペクトルの包絡特
性を表現する音響パラメータが抽出される。このようにしてＤＦＴされたスペクトルパラメータｘ（
ｉｌ　Ｋついて、ｏ〜Ｆ−］（例えばＰ−８）次までの
Ｐ次元の値を取り出１−１これをローカルパラメータ秋
ｐｉ（Ｐ＝０．１・・・Ｐ−］）とするととなり、ここでスペクトルパラメータが対称であること
を考慮してｘ（ｉ）　−ｘ（２Ｍ−ｉ−２）　　　　　　　　−°
”　（８１とおくと、ローカルパラメータＬ（ｐ）は“
°２　　　　　　・・・・・（９） −４−ｘ　（Ｍ−１）ＣＯ３−Ｍ− 但し、ｐ＝Ｑ　、ｉ・・・ｐ−１となる。」（２）　　同、Ｗ１０頁１１行「タイミンク」とあるを
「タイミング」に訂正する。（３）同、第１０頁下から２行「字系列変化」とあるを
「一時系列変化」に訂正する。（４）同、第１１頁５〜６行［定数なので、］と）〕る
な「音声波形のパワーを表現しているのでパワー正規化
のため」に訂正する。（５）　　同、第１５頁９行＋　４ｍ”　「クラスタ系
数」とあるを夫々「クラスタ係数」に訂正する。（６）同、第１５頁９行「ＣｌＦ３個」とあるを「ｄ−
Ｐ２個程度」に訂正する。（７）　　同、第２０頁下から５行「夫々の巻」とある
を「夫々の差」に訂正する。以　　　上７５

Claims

【特許請求の範囲】

人力音声信号を人間の聴覚特性に応じて等しく重み付け
して音響パラメータを抽出する手段と、この音響パラメ
ータのレヘルに対して正規化を行う手段とを有し、この
正規化された音響パラメータを複数フレームに鼠って監
視すると共に、該複数フレームの中心フレーム及びその
前後の所定フレームを除いて平均値を求め、該平均値よ
りの上記複数フレームの夫々の差を求め、これにより上
記音響パラメータのピークを検出するようにしたことを
特徴とする音声過渡点検出力法。