JPS59226400A

JPS59226400A - 音声認識装置

Info

Publication number: JPS59226400A
Application number: JP58102023A
Authority: JP
Inventors: 二矢田　勝行; 藤井　諭; 森井　秀司; 郁夫井上
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-06-07
Filing date: 1983-06-07
Publication date: 1984-12-19
Also published as: EP0128755B1; DE3473666D1; US4736429A; JPS6336676B2; EP0128755A1

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は音素を基本単位とする音声認識装置に関するも
のである。

従来例の構成とその問題点第１図によって従来例の構成を説明する。図において１
はスペクトル分析部であり、２９チヤンネルの帯域フィ
ルタ群で構成されている。各々のフィルタの出力を１フ
レーム（１ｏｍｓｃｃ）コとにパワー値に変換し、２９
チヤンネルの帯域パワーを得る。２は帯域パワーからロ
ーカルピークを抽出するローカルピーク抽出部であり、
１フレームごとに周波数の低い順に３個（ｐｉ　＋　ｐ
２１　ｐ３とするン、捷たパワーの太さい順に３個（ｐ
６＋　＋　Ｐ６２　＋　ｐｅｖ　）ずつ求める。−リバ
３はセグメンテーション用のパラメータを抽出するセグ
メンテーションパラメータ抽出部であり、帯域パワー情
報を使用して、全域パワー、スペクトルの傾き、低域、
中域モーメントがフレームごとに抽出される。セグメン
テーション部４では、セグメンテーションパラメータ抽
出部３で得ら７′したパラメータの時間的な動きによっ
て、ｆＪ音区間、子音区間、半母音区間を決定する。音
素判別部５では、セグメンテーション部４で決定さｔ′
した谷区間に対して、ローカルピーク抽出部２で得られ
たローカルピークによって音素の判別を行なう。音素の
判別は判別図格納部６に格納されている判別図にローカ
ルビータの位置を当てはめることによって行なう。判別
図は、母音、子音、半母音の各々に対して別々に用意さ
れており、セグメンテー／ヨン部４によって選択される
。甘た、母音、半母音に対してはｐ、＋ｐ、ｐ。

を、子音に対してばｐ８１．ｐｅ２．ｐｏ５を用いる。

音素系列作成部７ては、音素判別部５Ｖこよって得もｔ
′１．タフレームごとの音素判別結果を、セグメンテー
ション部４で得らｎた各セグメンテーション区間ごとに
寸とめ、谷区間ＶＣ灯してｉ−１素置号を・割り当てる
。セグメンテー／ヨン部４でセグメンテーションができ
ない／ａ、　ｏ／、　／ｉ、　ｕ／　などの母音連続に
対しては、フレームごとの音素判別結果の時間的な連続
性によってセグメンテーションを行なう。このよつにし
て入力音声を音素系列に変換する。

弔語マツチング都８では、音素系列作成部７でイ１）ら
旧、た入力音素系列と１ｎ語辞１９に蓄積されているｉ
ｌ′Ｌｉ１ｉｉ辞膚の各項目を時間軸伸縮マツチング法
によって比較し、入力音素系列に最も近い辞書項１」の
内容を認識結果として出力する。

このような構成の音声認識装置は以下のような問題点を
有する。

すなわちセグメンテーションパラメータ抽出部３で抽出
されるセグメンテーション用のパラメータでは検出でき
にくいご素がある。（４’！ｊに鼻音Ｘ、半母音）。こ
れらの音素は０普との却似性が人すく、ハラメータのみ
で検出するには限界がある。

さらに他の欠点としてフレームごとの音素判別率が低い
。従来例では特徴パラメータとしてローカルピークの位
置を使用し、これを゛ト１］別図に適用することによっ
て音素の判別を行なっている。この方法は母普や一部の
半母音に対しては、かなりのγ４ｊ別率が期待できるが
、その他の子音の判別を行なうには限界がある。

発明の目的本発明は、従来ψ１」における上記の問題点を解決し、
高い音声認識装置得ることを目的としたものである。

発明の構成本発明は」−記目的を達成するもので入力音声を線形予
測分析法で分析してＬＰＧケプストラム係数を抽出する
ＬＰＧ分析部と、前記ＬＰＧ分析部の結果と標準パター
ン格納部からのＩＵ音注性音素標準パターンとの類似度
を、線形判別関数、マノ・ラノビス距離、ベイズ判定な
どの統訓的距離尺度によって１算して母音性音素に対す
る入力Ｍｎの尤度を求める第１の尤度計算部と、前記第
１の光度計算部の結果によりその時間的継続性を利用し
てセグメンテーションと認識を行う第１の認識部と、入
力音声丑たはその分析結果に基づき有声と無声を判別す
る有声・無声判定部と、入力音声の低域パワー情報と高
域パワー情報を求めるセグメンテーション用パラメータ
抽出部と、前記結果より求められた前記パワー情報の時
間的変動と前記第１の尤度計算部の結果と前記有声・無
声判定部の結果とから子音性音素のセグメンテーション
を行う子−？イ″性音素セグメンテーンヨン部と、前記
子ｇ、　（ｉ！ｌ：、　Ｍ″素セグメンテ−７３７部で
得ら７″した区間に３’４　Ｌ、ＬＰＧ分析部からの係
数と標準パターン格納部からの子に性片素の標準パター
ンとの類似度を１算する第２の尤度計算部と、前記第２
の尤度１ＨＨ４＋≦の結果に基づき子音ダ１ユ音素を認
識する第２の認識部と、ｎ！Ｊ記第１の認識部の結果と
第２の認識部の結果とＶこより音素系列を１′１：成す
る音素系列作成部と％ＡｉＪ記音素系列１′「取部の結
果と単語辞１部に含捷れでいる辞１−項目との間でマツ
チングを行うマツチング部とを備え、前記マツチング部
よりば素系列ＶＣ最も艮くの１似した辞喜項（］を出力
することを特徴とする音声認識装置を提供するものであ
る。

実施例の説明本発明における実施例を図によって説明する。

第２図は実施例における方法を説明するためのプロ７ノ
ク図である。１ｏはＬＰＧ分析部であり、入力音声に対
して、２０　ｍ５ｅｃのハミング窓を施し、線形予測分
析（ＬＰＧ分析）を行なって、１５次の線形予測係数を
求め、それらを１６次のＬＰＧケプストラム係数（Ｈ（
ｎ＝１．２・・・・・・１５）を求める。ＬＰＧケプス
トラム係数は１フレーム（１０ｍｓｅｃ　）ごとに求め
られ、入カバノファ１１および母音尤度計算部１２へ送
られる。母音尤度計算部１２は入力パラメータＣｎ　と
、母音・鼻音標準パターン格納部１３ｖＣ格納されてい
る５母音と鼻音の標準パターン各々との間の翻似度を統
計ぽう距離尺度で求め、類似度の高いｌｌ＠ＩＣ５１１
，（べかえ、その判別結果をフレームごとに尤度バッフ
ァ１４へ送出する。標準パターンは、各母音および鼻音
（ｈメカ／、ばつ斤）に対して、多くのデータＵでよっ
て平均値および共分散行列をあらかじめ求めておく。

統計的距離尺度には、ベイズ２１４ノ定、マハラノビス
距離、線形判別関数などがあり、それらのいずれを使用
しても、はぼ同様に良好な結果が得られる。

次に各距離尺度について簡単に説明する。

ン４素中の平均値ベクトルをｆｌｉｐ、共分散行列をΣ
。

とすると、入力Ｃ＝（Ｃ，、Ｃ２・・・・・（４）、ｄ
＝１６に対する確率密度Ｆｐ　は次式で与えられる。

・・・・・（１）ただし、１Σｐ１は行列式の値を表わし添字Ｔは転置を
表わす。−１１記の対数をとって、対数尤度り。

を求める。

Ｍｐ　＝（（［：　ｆｌｉｐ）齢（Ｃ／／１１））　　
　　　・・・・・（４）次に煽−Σｐ′と（〜、１４゛
素ｐとｐ′を判別する線形判別関数はＤ　　７Ｍｐ−Ｍｐ’ ＝＝　ｈＴＣ４−Ｔ　　　　　　　　　　　　・・・・
・（５）但しＴは定数である。

式（２）７式（４）または式（５）で６旬音と鼻音に対
し音素ごとに尤度を計算し、大きさの比較を行なうのが
、母音尤度計算部１２の機能である。

また母音・鼻音標準パターン格納部１３にｆｄ有声およ
び無声の標準パターンが格納されており、母音・鼻音と
同様な方法で母音尤度計算部１２によって尤度が計算さ
れ、入力フレームに対する有声・無声判定が行なわｎ、
その結果が先度バッファ１４へ送出される。

一方、入力音声はセグメンテー／ヨン用パラメータ抽出
部１５に送られる。この部分では、低域フィルタ、高域
フィルタによって、低域ハヮーイ１？報（ｐＬ　）と高
域パワー情報（ｐＨ）がフレームごとに求めらｎる。１
次全域パワーも同時（ｌこ求められる。こちらのパワー
情報は平滑化されて、パ“ノー情報バッファ１６へ送出
される。

次に子音セダメンテー／ヨン部１７の機能について説明
する。

第３図は低域または高域パワー情報からディップを抽出
する方法を示している。（２Ｌ）　Ｉｉｊフィルタの整
流出力を時系列でプロットしたものてあり、子音区間の
大きなディップの他に細かいディップが数多く左右する
。後者は不要なディップであるので平１１９化を行なっ
て取除く（第３図（ｂ））。次に（ｂ）の信号を微分す
ることによって（Ｃ）の信号を得る。

そして（Ｃ）の信号から最大値と最小値間の太きさｐと
、最小値から最大値壕での時間長（フレーム数）Ｌを求
めるｏ　ｐ＞　ｐｍｉｎ　＋　Ｌ　＜　Ｌｍａｘの条件
を適用し、条件を満足するディップに対し、（Ｃ）で最
小値から最大値寸での区間をディップ区間（子音候補）
とする。

この方法はパワーディップの太ささの計算をパワーの変
化速度の検出に置きかえ、その最大値。

最小値を計算することによって簡易にしかも高い精度で
ディップ区間を検出することができる。

次に低域ハワーデイノプ、高域パワーデインプの一方ま
たは両方によって検出された子音候補のうちから、子音
区間を特定する方法を述べる。低域パワー情報からイ：
Ｉられたｎｉ■述の方法によるディップの太ささをｐｇ
　％高域パワー情報から得られたそれをｐｈ　　とする
。低域情報による子音候補区間と高域情報による子音候
補区間が重畳している場合％２次元座標（１）６．１）
ｈ）を第４図に示す判別図に適用する。（ｐｌ、ｐｈ）
が判別図上で付加区間（斜線の内１則）に位置した場合
、その子音候補は棄却する。（ｐｌ、ｐｈ）が子音区間
に位置した場合、低域パワーディップ区間と高域パワー
ディップ区間の論理和に相当する部分を子音として特定
する。低域と高域情報による子音候補区間に゛重畳がな
い場合、一方を０（たとえば（ｐｌ、０月として判別図
に適用する。

このように相補的な性質を持った低域パワー情報と高域
パワー情報をパラメータとし、その各々によって子音候
補区間を探し、さらにそれを判別図に適用することによ
って子音区間を決定する方法は、従来の方法に比較して
、有声から無声まで広い範囲の子音に有効であり、高い
精度で子音区間を検出することができる。特に有声子音
のＡＶ。

／ｄ／、　／η／、　／ｒ／、無声子音１ｈ／、有声無
声両方の性質を示す／Ｚ／に対して有効である。

しかし、上に述べたディップ情報を利用したセグメンテ
ーション法は鼻音区間Ｖこついてはその検出率が７３係
程度であり、他の有声子音に比べて検出率が充分とはい
えない。また撥音は持続時間が長すぎるため、ディップ
情報は利用できないという弱点がある。本実施例では前
に述べた母音尤度計算Ｔ４ＩＳ１２において鼻音と判定
さｎだフレームの連続性を利用することによる第２の子
音区間検出方法によって上記弱点を解消している。すな
わチ全テノフレームに５１Ｍ汁と鼻、音のパターンヲ適
用すると、鼻音／ｍ／、　／ｎ／、撥音に相当する区間
の各フレームは外音／Ｎ／　として認識され、その他ス
ペクトルパターンが鼻音Ｖ７ｃ類似している音素（／ｂ
／、　／ｄ／、　／η／、　／ｒ／）も／Ｎ／　として
認識される確率が高い。したがって／Ｎ／として認識さ
れる区間を参照す几は、ディップが存在しない区間にお
いても、有声子音の検出を行なうことができる。本実施
例では／Ｎ／　と認識されたフレームが、尤度第２位の
フレームも含めて５フレーム以」二連続する区間を子音
区間としている。

以上述べたθ音として認識さｔｌ、たフレームの連続性
を見ることによるセグメンテーション法は、／ｍ／、　
／ｎ／、撥音、　／ｂ／、　／ｄ／、　／η／に対し有
効である。

次に有声・無声判定結果を利用した第３の子音区間検出
方法について述べる。持続時間が長い無声子音／！３／
、　１０／、　／ｈ／や／Ｚ／は持続時間がＬｍａｘ　
以上となり、ディップが検出できない場合がある。この
場合、フレームごとの有声・無声判定結果の時間的連続
性によってセグメンテーションを行なうことができる。

有声・無声判定の方法は零交差波、スペクトルの＃き、
第１次の自己相関係数の値などを利用する方法があり、
どの方法でもよい。

本実施例ではＬＰＧケプストラム係数０１〜ｃ５を使用
し、有声・無声の標準パターンとの間の距離を式（４）
のマハラノビス距離を適用してδ１算し、判別した場合
、９６．４％のフレーム認識率を待ている。

本実施例においては、無声区間が連続（ッて７フレーム
以上続く区間は子音区間としてセグメンテーションを行
なう。

次に」−述した第１〜第３の子音区間の検出法の適用例
について述べる。

第１〜第３の子音区間の検出法の組合わせとしては種々
可能であるが、低域、高域ノくワー情報を利用した第１
の子音区間検出法に、フレームごとの音素認識結果を利
用した第２の子音区間検出法と有声無声判定結果を利用
した第３の子音区間検出法のうちのいず１１か一方又は
両方を組合Ｊつせるのが重重しい。

ここでは第３．第１．第２の子晋区間検υに法をこの順
に適用した例を示す。

適用法は以下に示す通りである。

（１）音声区間に対し、先ず第３のルールす）を適用し
，無声区間が７フレ一ム以上連続する区間を子音区間と
する。

（ｉｉ）　　（１）の区間を除去した区間に第１のルー
ルと記す）を適用し，ディップによる子音区間を求める
。

θ１１）有声区間に対して第２のルールを適用し、／Ｎ
／と認識された区間が５７レ一ム以上連続する区間を子
音区間とする。

（Ｖ）上記（１）〜θ１１）で求められた全区間を子音
区間とする。ただし、（１）と（１１）または（１１）
と（１１１）のルールよって区間が重畳して求められた
場合、原則としてディップによって求められた区間を優
先する。

なお上記実施例では、第１の子音区間検出法に第２又は
第３の子音区間検出法のいずれか一方又は両方を組み合
わせる場合について述べたが、第１の子音区間検出法の
みであっても実用−１＝は問題とならない。

以上は語中子音のセグメンテーンヨン法についでの説明
であったが、次に谷語頭子音検出法について詳細に説明
する。

１ず、低域，高域パワー情報を利用する第１の語頭子音
検出法について述べる。

第６図には、低域捷たは高域・々ワーの語頭における時
間的変化の例を示している。

語頭が主に破裂性の子音で始まる時、Ｃワー値の時間的
変化をプロットすると第６図の（ａ）、　（Ｃ）のよう
になる。これは破裂性のためにノ々ワーが急激に立−４
−が９、後続の母音との渡りの部分において（ａ）のよ
うに凹状になったり、（Ｃ）のように１度なだらかｆな
ってから再び立上がるからである。

（ｂ）、　（（１）は（ａ）、（Ｃ）のパワーの時間的
変化の値をそ几ぞれ微分したものである。Ｐ１〜Ｐ５１
Ｐｌ’〜Ｐ５′は（ａ）、　（Ｃ）の変曲点のフレーム
番号を示している，。

ここでは音声区間の始凍るフレーム番号を１にしている
。ここで、（ａ）、　（ｂ）のようにＰｌ，Ｐ３の微分
値が止，Ｐｌの微分値が負、かつＰ３（ｍ（ｍはフレー
ム番号を示すいさ値）を満足する時、語頭からＰｓｉで
を語頭子音区間としで判定する。

つぎに（Ｃ）、　（ｄ）のよつにＰ１′〜Ｐ３′の微分
値が正の場合Ｐ５′　における微分値を／１とすると、
ａ）　ａ（ａはあるいさ値）、かつＰ５’　＜　ｎ　（
　ｎはフレーム番号を示すいさ値）を満足する時、語頭
からＰ５′寸でを′ｌ治頭千ば一区間として判定する。

以上の方法を低域パワー、高域ノ々ワーに対して適用し
、いずれか一方に（ａ）又は（Ｃ）の傾向が表われｎば
、その区間を子音と判定する。この方法は、無声破裂音
は低域パワーに、又有声破裂音は高域パワーに特徴が現
われやすいため、破裂音全体に対して有効である。

次に、フレーム毎の音素認識の結果を利用する第２の語
頭子音検出法について述べる。本実施例の音素認識は、
各フレーム（例えば１フレームは１０ｍＳｅＣとする）
　４ｉｉに行なう。フレーム毎のー）４素認識は本実施
例ではＬＰＣり゛プストラム係数を用いて、あらかじめ
用意しである各音素の標準パターンとの比較によって行
なう。標準パターンとしては５母音（　Ａ／．　／１／
．　／ｕ／．　／ｅ／．　１０／　）　。

鼻音（／Ｎ／で表わす）と無声子音（／Ｓ／で表わす）
を用いた。このようにして、各フレーム毎に類似度の最
も大きい音素（第１候袖）−Ｓ素）と２番目に類似度の
太さい音素（第２候補音素）を求める。フレーム毎の第
１候補音素と第２候補音素全そ几ぞれフレーム番号の順
に並べた系列を第１候補音素時系列とする。

このようにして求めたフレーム毎の音素時系列を使用す
る第２の方法は、以下に述べるような２つの場合に分け
る。

貰ず最初は、」二記音素系列を語頭から頓に見た時、Ｑ
Ｔ／が第１候補または第２候補音素系列を含めであるフ
レーム数以」−（例えば４フレ一ム以上連続した時この
区間を子音区間であると判定する例えば／ｍ＝−／をフ
レーム毎に音素認識した時、音素認識の結果が第７図の
ようになったとすると／Ｎ／が第１，２候補を含めて５
つフレーム連続しているので、１〜５フレームまでを語
頭子音区間とする。

この方法は、特に／ｍ／、／ｎ／、／ｂ／、／ｄ／、／
ｇ／等に対して有効である。

次に、第１候補音素系列を語頭から順に見た時に、持続
時間の比較的短い語頭子音が存在する場合、語頭付近の
スペクトル変化が激しいために認識さｎだフレーム毎の
音素系列が不安定になる傾向がある。そこで、語頭から
同一１廿音が連続して現わｎるまでの不安定な区間が一
定フレーム数以上（例えば３フレ一ム以上）の時、この
区間を語頭子音とする。例えば／ｇａ／をフレーム毎に
音素認識を行ない第１候補音素不列が／Ａｌ工ＡＡＡＡ
／となった場合、母音／Ａ／が妥定して出現するまでの
区間／ＡＩＩ／を子音区間とする。

）　　　以上述べた２つの条件のうちどちらが一方を満
０　　足すればその区間を子音と判定する。

次に、有声・無声判定を利用する第３の語頭子音検出法
について述べる。

語頭の無声子音のセグメンテーションは、各フレーム毎
に行なう有声・無声’Ｉ′ｌｌ定を利用することによっ
て、正確に行なうことが出来る。

有声・無声判定の方法は零交差彼、スペクトルの傾き、
第１次の自己相関係数の値等を利用する方法があるが、
どの方法を用いてもよい。本実施・例では、有声・無声
判定の標準パターンと比較することによって判定してい
る。

ここで、語頭から無声の判定があるフレーム数以上連続
する時（例えば４フレ一ム以上）この区間を子音区間と
判定する。この方法は、すべての無声子音に対して有効
である。

次に／Ｚ／のように、音素の前半部分は有声性をもち、
後半の部分は無声性をもつ音素があるので、語頭からあ
る時間長以下有声フレームの後、無声フレームが続く時
この区間を子音とする。例えば／Ｚ　Ｕ／　　をフレー
ム毎に判定を行ない／ＶＶＶｖＵ’Ｕｔｙｙｖｖｖ／　
にｙ、＝りり、／Ｖ／　Ｉｄ有声、　／Ｕ／　Ｉｒ、ｒ
無声を表わす）七なった時、無声フレームが終わるとこ
ろまでを語頭子音とする。

本実姉例は土Ｆ第１〜第３０語頭子音検出法を次のよつ
な１１１１番で適用する。

・　フレニム毎の有声・無声判定を使用して検出する第
２の方法・　音声スペクトルの低域、高域パワーの時間的変動の
特徴を使用して検出する第１の方法・　フレーム毎に６
母音、鼻音と無声子音を対象として音素認識を行ないそ
の結果を使用して検出する第３の方法以上述べた順番で適用して、子音が検出された場合は最
初に検出された方法でセグメンテーションを行ない、そ
れ以後の方法は適用しない。

なお不実施例では第１〜第３０語頭子音検出法をある順
に併用する場合について述べたが本発明はこれに限定さ
れるものではなく、第１〜第３の語頭子音検出法の適用
順は任意に選べるものであり、また第１〜第３０語頭子
音検出法のうち少なくとも１方向を使用することによっ
て充分効果を発揮するものである。

以上説明した部分について、第８図、第９図の具体例で
説明する。第８図は／ｄａりｅｋｉ／（打撃）と発声１
−タ場合、第９図［／ｎｏｈａｒａ／　（ｊｌ！ｌ−原
）と発声した場合である。図において３０および４０は
四晋・鼻音判別結果の第１位の尤度を持つ音素記号を時
系列で表わしたものである。同様に３１＋４１は第２位
の音素の時系列である。

３２．４２は有声・無声判別結果の時系列であジＶＵ、
−ｔのフレームが有声と判別さ汎たこと、Ｕは無声と判
別さｔ′したことを示す。３０〜３２、または４０〜４
２の結果は尤度バッファ１４に蓄積されている情報と等
価である。

３３．４３は低域パワー情報の時間的な動きを、そして
６３４・　４４は高域パワー情報の時間的な動きを表わ
したものである。これらは、ノくワー情報バッファ１６
に蓄積されている情報と等価である。

先ず第８図において、／ｄ／ば３６に示すよつにＶ素判
別結果の第１位の尤度を持つ音素の時系列が鼻Ｋ（Ｎ）
であるので子音としてセグメンテーションされる。寸た
この部分は高域ノくワー情報３４が低下していることに
よっても検出できる。、Ｑ／は３６に示すように高域・
ζワー情報３４に明らかなパワーディップが存在するこ
とで検出できる。

この部分は尤度第１位の音素の時系列３０．尤度第２位
の音素の時系列３１．低域ノ切−情報３３では検出でき
ない。／に／のｒ＞ｉＪに生じる無音区間／Ｑ／は低域
パワー情報３３．高域・ぐワー情報３４のパワーが低下
してディップを形成していることで検出でさる。／に／
はこのノくワーデイノプの外に、有声・無声判定結果の
時系列３２が、３８に示すよつに無声（Ｕで示す）にな
っていることで検出でさる。

次に第９図において、語頭子音／ｎ／は、低域パワー情
報４３．高域パワー情報４４では顕著なノ特徴を見出せ
ないが、音素判別結果の尤度第１位の音素の時系列４０
において４６ｔ／′Ｃ示すように＾Σ音フレームが連続
していることで検出できる〇／ｈ／は４６に示すように
低域パワー情報４３゜高域パワー情報４４のパワーディ
ップで検出でさる。−！た／ｒ／は、高域パワー情報４
４のディップ４７によって検出できる。

以上、例によって示したように、低域パワー。

高域パワーの時間変化、母音・鼻音判別結果の時間的連
続性および有声・無声判別結果を併用することによって
、精度の冒い子音セグメンテーションを行なうことが可
能となった。

第２図の子音尤度計算部１８は、子音セグメンテーショ
ン部１７で検出さｆ′した子音区間に７・」シて、入カ
バノファ１１から送出されてくる入力パラメータと、子
音標準パターン格納部１９の各々の子音標準パターンと
の間で尤度８１貌を行ない、尤度の高い音素から順に並
べる。子音認識部２ｏは、子音標準パターン格納部１９
かも送出されてくる結果と、時間的な持続性（フレーム
数）などを考慮して、その区間の子音を決定する。

次にＪＵ音認識部２１の機能を第１０図によって説明す
る。第１０図は第８図、第９図と同様な形式である。（
ただし、有声・無声判別結果は省略しである。）第１０
図において、語頭の１０／は音素判別結果の先度第１位
の音素の時系列６Ｑグ）連続上Ｆで認識される。半１ｊ
ｌ音−／ｊ／の部分（’ｔ　５５に示されるように尤度
第１位の音素の時系列５゜の結果かられかるように工か
らＥ［変化しているが、各々の持続時間が’ｔｒｌ＜、
しかもＩからＥに変化するパターンは、典型的な／ｊ／
の・ζターンであるので、この部分を／コ／として認識
する。

／２Ｌ／の部分ば６６に示されるように音素判別結果の
先度第１位の音素の時系列６０の連続性より認識される
。／ｕ／の部分は先度第１位の音素の時系列６ｏと先度
第２位の音素の時系列６１を用い、６７に示すよつに０
と　が混在しているがＵの方が優勢であるので／ｕ／と
して認識する。語尾の撥音／Ｎ／も５８に示すように尤
度第１位の音素の時系列５ｏより、前記と同様に認識さ
れる（撥音は母音に含める）。

次に前記のうち半母音の認識についてさらに詳しく説明
する。半母音（音も含む）を認識する場合、母音認識部
２１の一部に設けらｎた半母音候補検出用母音時系列パ
ターン格納部に、予め、多数の話者の発声した単語音声
データを基［作成された母音時系列から、半母音区間付
近に共通して現われる母音の時系列の変化（これを旬音
時系列パターンと呼ぶ）のうち出現頻度の特に多いもの
をいくつか抽出し、格納しておく。半利旨の判定には、
尤度バッファ１４から送出さｎる母音時系列と、半母音
候補検出用母音時系列パターン格納部に格納さ几ている
半母音候補検出のための（ｊＪ音待時系列パターンが逐
次比較照合され、一致したものについて、更にパターン
の持続時間２片素結合規則り有声無声無音判定結果を考
慮して米母音の判定及びセグメンテーションが行なわれ
る。

ここで、実際に、半母音／ｙ／及び／Ｗ／　を認識した
例を図を用いて説明する。第１１図は、不実椎例による
半母冨の認識例である。先ず、ａは／１ｅｓｕｕｒｙｏ
ｏ　／　（手数料）といつ発声から／ｒｙｏ／の７９ｉ
　Ｇを例として抜き出して示したものである。

（ａ）において２３は予め、分析区間毎につけられた音
素ラベルであり、２４は子音の認識結果である。

この例で、入力音声を１υ、音゛時系列Ｖこ変換した結
果２５から、半ＲＪＭ−候補検出用母音時系列パターン
の１つである”ＩＥＵＯ”によって半旬晋／ｙ／の候補
区間が検出さｔｚる。この例ではパターンの”Ｉ　Ｅ　
Ｕ”の区間が半母音候補区間、Ｉｔ　ＯＩｔの区間が後
続ｆυ片区間である。後続ＩＵ：　ｆ区間が閾［直重−
にあジーｆた、半ｔｒＪ音候補区間が閾値以下であるこ
と、および、子片あるいは無声・無音区間と半母音候補
区間との位置関係が考慮され最終的に、２６の半ｌＵ音
／ｙ／の認識結果がイ↓Ｉられる。

次に、（ｂ）は／ａｗａ／（泡）といつ発声を例として
示したもので、２了は予め、分析区間毎につけら１．た
音素ラベルであり２８は子音の認識結果である。ここで
、入力音声を母音時系列に変換した結果２９から、半母
音候補検出用母音時系列パターンの１つである”ＡＯＡ
”によって半母音／Ｗ／候補区間が検出される。この例
では、パターゾ゛Ｏ”の区間が半母音候補区間、＋１　
Ａ　１１の区間がそれぞれれ先行母音区間、後続母音区
間となる。先行Ｊ〃Ｍ区間、後続母音区間がそれぞれ閾
値以」二あり、半母音候補区間が閾値以下であることか
ら、例えば／ａｏａｏ／　（青々）という発声の／ａｏ
ａ／の部分と区別され、半母音／Ｗ／が存在すると゛ト
１」断される。更Ｖこ、半母音候補区間に子Ｍが認識さ
れている場合、鼻音性をもたない子音の場合には、子持
区間も含めて半母音候補区間とし、その区間が閾値以内
であジ、しかも無声・無音区間ではない場合には、半母
音を優先して、３０の半ｆＪＭ−／ｗ／の認識結果が得
られる。

音素系動作５ｙ、部２２ば、子音認識部２０がら送出さ
れる子音認識結果と、ｔユ蛭認識部２１がら送出される
母音認識結果を総合して、音素系列を生成する部分であ
る。この部分では日本語の音形規則、例えば、撥音以外
の子音が２つ以上連続する場合は、その間に母音／１／
寸たば／ｕ／がイｒ在する。とか、母音／ｉ／や／Ｕ／
　　は無声化しやすい・・・などの規則によって、音素
の判別結果を修止する（幾能も有する。

このようにして作成された音素系列は、単語マノチンダ
部８において、単語辞書９の内容と１つずつ比較され、
最も類似度の高い単語が認識結果として出力さ註る。

第１２図は認識処理の高速化を目的とした本発明の他の
実施例で、より実用的なブロック構成である。第２図で
は、子音部に対する距離Ｇ」算は、子音セグメンテーシ
ョンの後であるため１時間的な遅れが生じ、このため人
カバノファ１１が必要であった。第１２図はこの部分を
改良し、高速化を行なったものである。第１２図で第２
図と同じ番号のブロックは、同一の機能を有する。第１
２図の標準パターン格納部６ｏは、第２図における母音
・鼻音標皐パターン格納部１３と子音槽重パターン格納
部１９の両方を含んでいる。尤度計算部６１は母音・無
音および子音に対する尤度をいっしょに計算し、それら
を別々に尤度バッファ６２に蓄積しておく。子音認識部
２０では先度バッファ６２の子音尤度の中で、子音セグ
メンテーション部１了で子音区間と決定された部分の情
報のみを使用して子音の認識を行なう。このような構成
にすると、不要な部分の尤度１で計算するＣとになるが
、子音認識の時間遅汎がなく、余分の入力バッファが不
要となる。そして複雑な尤度降１初部の１部が共用でき
るので回路構成が簡単になる利点がある。その他の部分
は第２図と同様である。

上記実施例は従来１３’ｌｌに比し以下のような利点を
有する。

（１）従来例では、音声信号を帯域フィルタで分析し、
ローカルピークを抽出してそれを特徴パラメータとして
いたが、本実施例ではＬＰＧ分析によってＬＰＧケプス
トラム係数を抽出し、特徴パラメータとした。ＬＰＧ分
析で（は−音声波形から個人性を多く含む声帯音源情報
を除去でさるため、不特定話者の発声に対して強いシス
テムとすることがでさた。しかも声帯音源情報の除去に
よって相対的に音韻性が強調さ汎るため、フレームごと
の音素判別率を高くでさた。

寸タローカルピークが主に音声のフォルマントを表わす
パラメータであるのに対し、ＬＰＧり一プストラム係数
はフォルマントを含んだＪＪＩｉ数スペクトル概形全体
を表わす・２ラメータであるため、後者の方が情報量が
多く、認識率の向−１−に役立った。特にフォルマント
構造がはっきりしない無声子音間の判別には効果が高い
。

（２）従来ψ１１においては、フレームごとの音素判別
のために、ローカルピークを判別図に当てはめる方法で
あったが、本実施例ではマノ・ラノビス距離、ベイズ判
定、線形判別関数などの統計的距離尺度によって入力Ｌ
ＰＧケプストラム係数と標準パターンとの間でノくター
ンマツチング全行なう方法を採用した。フレームごとの
平均ｆＵ音認識率が従来例では７８．４係であったが、
本発明では８５．２チに向上した。

（３）　　従来例では、セグメンテーションパラメータ
のみで子音の存在を検出していたが、鼻音や／ｒ／など
の有声子音は検出できない場合が多かった。本実施例で
は、セグメンテーションパラメータの他に、６母音と鼻
音（／′ｍ／、／ｎ／。

はつ音）を対象とした前記フレームごとの音素認識結果
、およびフレームごとの有声・無声判別結果を併用した
。すなわち、音素認識結果で鼻音フレームが連続する場
合は有声子音区間とし、有声・無声判別結果で無声フレ
ームが連続する場合はその区間を無声子音区間とした。

これによって子音のセグメンテーション脱落率を大さく
減少するＣとかで＠た。

（４）セグメンテーション用のパラメータとして。

低域パワーおよび高域パワー情報を心入した。

こ１らのパラメータによって全域パワーとスペクトルの
傾きを用いる従来例よりも、セグメンテーションをより
確実に行なりことができるよりになった。

（６）男女計４０名が発声した２００都市名単語を対象
とした不特定話者単語認識実験において。

従来例による平均認識率が８８裂であったのに対し、本
実施例によると９６％という良好な結果を得ることがで
さた。丑だ、本実殉例では、従来例よりも個人差による
認識率のばらつきが小さく、不特定話者認識により適し
ていることが証明さ′ｎだ。

−１−詑の結果は主に、特徴パラメータとしてＬＰＧケ
プストラム係数を使用し、統計的距離尺度で尤度計算を
行なうようにしたこと、セグメンテーション精度を向上
させたことに依っている。

発明の効果以４−のようＶＣ本発明は入力音声を線形予４１１１分
析法で分析してＬＰＧケプヌトラム係数を抽出するＬＰ
Ｇ分析部と、前記ＬＰＧ分析部の結果と標準パターン格
納バ１ｓからの履Ｍ゛性音素の標準ツクターンとの類似
度を、線形判別関数、マノ・マノビス距離。

ベイズ判定などの統計的距離尺度によって計算して母音
性音素に対する入力音声−の尤度を求める第１の尤度旧
算部と、前記第１の尤度計算部の結果によりその時間的
継続性を利用してセグメ・ンテーンヨンと認識を行う第
１の認識部と、入力音声また（はその分析結果に基づき
有声と無声を判別する有声・無声判定部と、入力音声の
低域パワー情報と高域パワー情報を求めるセグメンテー
／ヨン用パラメータ抽出部と、前記結果より求めらｎｆ
ｃ前記パワー情報の時間的変動と前記第１の尤度計算部
の結果と前記有声・無声判定部の結果とから子音性音素
のセグメンテーションを行う子音性音素士グメンテー／
ヨン部と、前記子音１牛音累セグメンテ一ンヨン部で得
らｔ″１．り区間に対し、ＬＰＧ分析部からの係数と標
準パターン格納部からの子音性音素の標準パターンとの
石似度を８１算する第２の尤度計算部と、前記第２の尤
１＝ｔｉ部の結果に基づき子音性音素を認識する第２の
認識部と、前記第１の認識部の結果と第２の認識部の結
果と（ｌこよジ音素系列を作成する音素系列作成部と、
前記音素系列作成部の結果と単語辞１部に含丑れている
辞書項目との間でマツチングを行うマツチング部とを備
え、前記マツチング部より片素系列に最も良く類似した
辞書項目を出力することを特徴とする音声認識装置を提
供するもので、フレームどとの音素判別率の向上、平均
母音認識率の向」二。

子音セグメンテーション脱落率の減少、セグメンテーシ
ョンの確度の向上をはかることがでさ、不特定話名に対
しても高速で高い認識率を得ることがでさる利点を有す
る。

【図面の簡単な説明】

第１図は従来の音声認識装置の構成を示すブロック図、
第２図は本発明の一実施例である音声認識装置の構成を
示すブロック図、第３図（２Ｌ）〜（Ｃ）は本発明の低
域パワー情報または面域パワー情報からパワーディップ
を検出する方法を説明する図、第４図は低域ハワーデイ
ノプ、高域パワーディップの太ささによって、子音区間
と子音の付加を判別するための゛Ｆｌｌ別図、第６図は
母音またはω音と１７で全てのフレームを認識１７、こ
の結果から子音区間を検出する方法を説明する図、第６
図（２Ｌ）〜（ｄ）は本発明の語頭子音のセクメンテー
ション法ヲ説明するパワーによる子音検出を示す図、第
７図は本発明に係る冨素認識結果による子音検出法の例
を示す図、第８図及び第９図は本発明のセグメンテーシ
ョンの方法を具体例に基づいて説明する図、第１０図は
本発明の母音の認識方法を具体例に基づいて説明する図
、第１１図（＋Ｌ）は本発明による半１０・・・・・・
ＬＰＣ分析部、１１・り一人カバノファ。１２・・・・・母音尤度計算部、１３・　・・母音・鼻
１イ°標準ハターン格納部、１４・・・・尤［ハ、ファ
、１５・・　セフ”メンテ−／ヨン用パラメータ抽出部
％１６・・・・ハワｌ’Ｗ報ハノフハ１７−−・子音セ
グメンテーンヨン部％　１８・・・・・子音尤度計算剖
、１９・・・・・子音標準パターン格納部、２０・・・
子音゛認識部、２１・・・・・旬音認識部、２２・・・
・・音素系列作成部。６０・・・・・・標準パターン格納部、６１　・・・尤
度計算ｉ１Ｓ、ｅ２・・・・・・尤度バッファ。代理人の氏名　弁理士　中　尾　敏　男　はが１名第３
図第４図ｔ）　　　　Ｉｔｌ　　　　１５　　／／第５図第１１図３，７．　ｙＷＨＮＷＷＷＷ特許庁長官殿１事件の表示昭和６８年１）°に′［願第　１０２Ｑ２３０２発明の
名称音声認識装置３補正をする各ＩＪｌｌ′ｌとの＋、１８ｈＮ　　　　　　　４’５　
　　　許　　　出　　　願　　　人任　所　　大阪府門
真市大字門真１００６番地名　４′１・　（５８２）松
下電器産業株式会社代表

【”５１１１　　　下　　俊　
　彦４代理人　〒５７１住　所　　大阪府門真市大字門真１００６番地松下電器
産業株式会社内し】フ−ｏ　　　　　　　　　　　　　　　　　　　　
−−明　　　　細　　　　書１、発明の名称音声認識装置２、特許請求の範囲（１）入力音声を線形予測分析法で分析してＬＰＣケプ
ストラム係数を抽出するＬＰＣ分析部と、前記ＬＰＣ分
析部の結果と標準パターン格納部からの母音性音素の標
準パターンとの類似度を、線形判別関数、マハラノビス
距離、ベイズ判定などの統計的距離尺度によって計算し
て母音性音素に対する入力音声の尤度を求める第１の尤
度計算部と、前記第１の尤度計算部の結果によりその時
間的継続性を利用してセグメンテーションと認識を行う
°第１の認識部と、入力音声寸だはその分析結果に基づ
き有声と無声を判別する有声・無声判定部と、入力音声
の低域パワー情報と高域パワー情報を求めるセグメンテ
ーション川パラメータ抽出部と、前記結果より求められ
た前記パワー情報の時間的変動と前記第１の尤度計算部
の結果と前記有声・無声判定部の結果とから子音性音素
のセグメンテ−ジョンを行う子音性音素セグメンテーシ
ョン部と、前記子音性音素セグメンテーション部で得ら
れた区間に対し、ＬＰＣ分析部からの係数と標準パター
ン格納部からの子音性音素の標準パターンとの類似度を
割算する第２の尤度計算部と、前記第２の尤度引算部の
結果に基づき子音性音素を認識する第２の認識部と、前
記第１の認識部の結果と第２の認識部の結果とにより音
素系列を作成する迂素系列作取部と、前記音素系列作成
部の結果と単語辞書部に含寸れている辞書項目との間で
マツチングを行うマツチング部とを備え、前記マツチン
グ部より音素系列に最も良く類似した辞書項目を出力す
ることを特徴とする音声認識装置。（２）第１及び第２の尤度計算部が互いに一部を共用し
て構成されていることを特徴とする特許請求の範囲第１
項記載の音声認識装置。３、発明の詳細な説明産業上の利用分野本発明は音素を基本単位とする音声認識装置に関するも
のである。従来例の構成とその問題点第１図によって従来例の構成を説明する。図において１
はスペクトル分析部であシ、２９チヤンネルの帯域フィ
ルタ群で構成されている。各々のフィルタの出力を１フ
レーム（１０ｍｓｅｃ）ごとにパワー値に変換し、２９
チヤンネルの帯域パワーを得る。２は帯域パワーからロ
ーカルピークを抽出するローカルピーク抽出部であり、
１フレームごとに周波数の低い順に３個（Ｐ１＋　ｐ２
．　Ｉ）３とする）、またパワーの大きい順に３個（ｐ
ｅｌ　、Ｐｅ２＋ｐ、３　）ずつ求める。一方、３はセ
グメンテーション用のパラメータを抽出するセグメンテ
ー７ヨンパラメータ抽出部であり、帯域パワー情報を使
用して、全域パワー、スペクトルの傾き、低域、中域モ
ーメントがフレームごとに抽出される。セグ音区間、半
母音区間を決定する。音素判別部５では、セグメンテー
ション部４て決定された各区間に対して、ローカルピー
ク抽出部２て得られたローカルピークによって音素の判
別を行なう。音素の判別は判別図格納部６に格納されて
いる判別図にローカルピークの位置を当てはめることに
よって行なう。判別図は、１ユ音、子音、半母音の各々
に対して別々に用意されており、セグメンテーション部
４によって選択される。また、母音、半母音に対してｉ
ｌ′ｉｐ１．　ｐ２．１）３　を、子音に対してはｐｅ
ｌ・Ｐｅ２・Ｐｅ３を用いる。音素系列作成部７では、音素判別部６によって得られた
フレームごとの音素判別結果を、セグメンテーション部
４で得られた各セグメンテーション区間ごとに１とめ、
各区間に対して音素記号を割り轟でる。セグメンテ＝ン
ヨン部４でセグメンテーションがてきない／ａｏ／、／
ｌｕ／などの旬音連続に対しては、フレームごとの音素
判別結果の時間的な連続性によってセグメンテーション
を行なう。とのようにして入力音声を音素系列に変換す
る。単語マツチング部８では、音素系列作成部７で得られた
入力音素系列と単語辞書９に蓄積されている単語辞書の
各項目を時間軸伸縮マツチング法によって比較し、入力
音素系列に最も近い辞１項目の内容を認識結果として出
力する。このような構成の音声認識装置は以下のような問題点を
有する。すなワチセグメンテーションパラメータ抽出部３で抽出
されるセグメンテーション用のパラメータでは検出でき
にくい音素がある。（髄にμ音／ｒ／、半母音）。これ
らの音素（／ｉ母音との類似性が大きく、パラメータの
みて検出するには限界がある。さらに他の欠点としてフレームごとのｉ等素判別率が低
い。従来例では特徴パラメータとしてローカルピークの
位置を使用し、これを判別図に適１１Ｊすることによっ
て音素の判別を行なっているっこの方法は母音や一部の
半母音に対しては、かなりの判別率が期待できるが、そ
の他の子音の判別を行なうには限界がある。発明の目的本発明は、従来例における上記の問題点を解決し、高い
音声認識率を得ることを目的としたものである。発明の構成本発明は上記目的を達成するもので入力音声を線形予測
分析法で分析してＬＰＣケグストラム係数を抽出するＬ
ＰＣ分析部七、前記ＬＰＣ分析部の結果と標準パターン
格納部からの母音性音素の標準パターンとの類似度を、
線形判別関数、マノ・ラノビス距離、ベイズ判定などの
続開的距離尺度によってｇｔＷして母音性音素に対する
入力音声の尤度を求める第１の尤度割算部と、前記第１
の尤度割算部の結果によりその時間的継続性を利用して
セグメンテーションと認識を行う第１の認識部と、入力
ｉＦ’・ま／へはその分析結果に基づき有声と無声を判
別する有声・無声判定部と、入力音声の低域パワー情報
と高域パワー情報を求めるセグメンテーション用パラメ
ータ抽出部と、前記結果より求められた前記パワー情報
の時間的変動と前記第１の尤度ｉ−１［部の結果と前記
有声・無声判定部の結果とから子音性音素のセグメンテ
ーションを行う子音性音素セグメンテーション部と、前
記子音性音素セグメンテーション部で得られた区間に対
し、ＬＰＧ分析部からの係数と標準パターン格納部から
の子音性音素の標準パターンとの類似度を計算する第２
の尤度計算部と、前記第２の尤度計算部の結果に基づき
子音性音素を認識する第２の認識部と、前記第１の認識
部の結果と第２の認識部の結果とにより音素系列を作成
する音素系列作成部と、前記音素系列作成部の結果と単
語辞書部に含１れている辞書項目との間でマツチングを
行うマツチング部とを備え、前記マツチング部より音素
系列に最も良く類似した辞書項目を出力することを特徴
とする音声認識装置を提供するものである。実施例の説明本発明における実施例を図によって説明する。第２図は実施例における方法を説明するだめのブロック
図である。１０はＬＰＣ分析部であり、入力音声に対し
て、２０ｍ５ｅｃのハミング窓を施し、線形予測分析（
ＬＰＧ分析）を行なって、１５次の線形予測係数を求め
、それらを１６次のＬＰＣケプストラム係数Ｃｎ（ｎ−
１，２・・・・・１６）を求める。ＬＰＣケプストラム
係数は１フレ・−ム（１０ｍ５ｔｘ　）ことに求められ
、入カバ、ファ１１および母音尤度計算部１２へ送られ
る。母音尤度計算部１２は入力パラメータＣｎと、母音
・鼻音標準パターン格納部１３に格納されている５母音
と鼻音の標準パターン各々との間の類似度を統泪的距離
尺度で求め、類似度の高いＩｌｌに並べかえ、その判別
結果をフレームごとに尤度バッファ１４へ送出する。標
準パターンは各母音および鼻音（／　ｍ　、／　、　／
　ｎ　／　、はつ音“）に対して、多くのデータによっ
て犯均値および共分散行列をあらかじめ求めておく。統割的距離尺度には、ベイズ判定、マハラノビス距離、
線形判別関敬などかあり、それらのいずれを使用しても
、はぼ同様に良好な結果が得られる。次に各距離尺度について簡単に説明する。音素ｐの平均値ベクトルを／Ｉｌｐ、共分散行列をΣ２
とすると、入力Ｃ＝（Ｃ１，Ｃ２・・・・・・ｃｄ）、
ｄ−１５に対する確率密度Ｐｐは次式で与えられる。・・・・・・・（１）ただし、１Σｐ１は行列式の値を表わし添字Ｔは転置を
表わす。上記の対数をとって、対数尤度Ｌｐを求める。１Ｌｐ−ソＣ−〃１ｐ　）・Σｉ・（Ｃ−〃１ｐ）−八ｐ
（２）寸だマハラノビス距離は式（４）で定義される。Ｍｐ−（Ｃ−−ｌ１ｐ）Σ士’　（Ｃ−−１ｔｐ）　　
　　　　　　　　　　　　・　　　　（・りこの場合式
０１）でΣ９を各音素に共通として工。＝Ｉとして簡略化を図ってもよい。次にΣ２−Σ、′　とし、音素ｐとｐ′を判別する線形
判別関数はＤ２二Ｍ　−Ｍ　’ ｐ　　　　ｐ −ａ　Ｔ（Ｃ−１−ｂ　　　　　　　　　、、、、、、
、、（６）但しａは線形判別係数、ｂは定数である。式（２）９式（ｌり寸たは式（６）で５母音と鼻音に対
し音素ごとに尤度を計算し、大きさの比較を行なうのが
、母音尤度計算部１２の機能である。また母音・鼻音標準パターン格納部１３には鳴声および
無声の標準パターンが格納されており、母音・鼻音と同
様な方法で母音尤度計算部１２によって尤度が計算され
、入力フレームに対する有声・無声判定が行なわれ、そ
の結果が尤度バッファ１４へ送出される。一方、入力音声はセグメンテーンヨン用パラメータ抽出
部１５に送られる。この部分では、低域フィルタ、高域
フィルタによって、低域パワー情報（ｐＬ）と高域パワ
ー情報（ｐＨ）がフレームごとに求められる。また全域
パワーも同時に求められる。これらのパワー情報は平滑
化されて、パワー情報バッファ１６へ送出される。次に子音セグメンテーション部１７の機能について説明
する・第、３図は低域まだは高域パワー情報がらディ。ブを抽出する方法を示している。（ａ）はフィルタの整
流出力を時系列でプロットしたものてあり、子音区間の
大きなディップの他に細かいディップが数多く左右する
。後者は不要なディップであるので平滑化を行なって取
除く（第３図（ｂ））。次に（ｂ）の信号を微分するこ
とによって（ｃ）の信号を得る。そして（ｃ）の信号から最大値と最小値間の大きさｐと
、最小値から最大値捷での時間長（フレーム数）Ｌを求
める。ｐ＞ｐｒｒｌＸｎ、Ｌ＜Ｌｍａｘ　　の条件を適
用し、条件を満足するディ、プに７１シ、（ｃ）で最小
値から最大値までの区間りをディ、プ区間（子音候補〕
とする。この方法はパワーディップの大きさの：Ｉ’　；（：Ｊ
−をパワーの変化速度の検出に置きかえ、その最大値。最小値を計算することによって簡易にしかも高い精度で
ディップ区間を検出することができる。次に低域パヮーディンプ、高域パワーディップの一方寸
たけ両方によって検出された子音候補のうちから、子音
区１′￥Ｊ１を特定する方法を述べる。低域パワー情報
から７４ｆられた前述の方法によるディップの大きさを
ｐｅ、高域パワー情報から得られたそれをｐｈとする。低域情報による子音候補区間と高域情（・１ｋによる子
音候補区間が重畳している場合、２次元部ｆ票（Ｐ（ｇ
＋　Ｐｈ）を第４図に示す判別図に適用する。（ｐｃ、
ｐｈ）が判別図上で付加区間（斜線の内側）に位置した
場合、その子音候補は棄却する。（ｐｅ、ｐｈ）が子音
区間に位置した場合、低域パワーディップ区間と高域パ
ワーディップ区間の論理和に相当する部分を子音として
特定する。低域と高域情報による子音候補区間に重信が
ない」場合、一方を０（たとえば（ｐβ、０））として
判別図に適用する。このように相補的な性質を持った低域パワー情報と高域
パワー情報をペラメータとし、その各々によって子音候
補区間を探し、さらにそれを判別図に適用することによ
って子音区間を決定する方法は、従来の方法に比較して
、有声から無声まで広い範囲の子音に有効であり、高い
精度で子音区間を検出することができる。特に有声子音
の／ｂ／。／’ａ／、／η／、／ｒ／、無声子音／ｈ／、有声無声
両方の性質を示す／ｚ／に対して有効である。しかし、上に述べたディ、プ情報を利用したセグメンテ
ーション法は鼻音区間についてはその検出率が７３％程
度であり、他の有声子音に比べて検出率が充分とはいえ
ない。また撥音は持続時間が長ずきるため、ティップ′
ｉｈ報は利用できないという弱点がある。本実施例では
前に述べた母音尤度計算部１２において鼻音と判定され
たフレームの連続性を利用することによる第２の子音区
間検出方法によって上記弱点を解消している。すなわち
全てのフレームに５母音と鼻音のパターンを適用すると
、鼻音／　ｒｎ　／　、　／　ｎ　／　＋撥音に相当す
る区間の各フレームは鼻音（以後／Ｎ／と表わす）とし
て認識され、その他スペクトルパターンが鼻音に類似し
ている音素（／ｂ／、／ｄ／、／η／　、　／ｒ／　）
も／Ｎ／とじて認識される確率か高い。しだがって／Ｎ
／として認識される区間を参照すれば、ティ、プが存在
し２ない区間においても、有声子音の検出を行なうこと
ができる。本実施例では／Ｎ／と認識されたフレームが
、尤度第２位のフレームも含めて６フレーム以−に連続
する区間を子音区間としている。以−に述べた鼻音として認識されたフレームの連続性を
見ることによるセグメンテーション法は、／ｍ／、／ｎ
／、撥音、／ｂ／、／ｃｌ／、／η／に対し有効である
。次に有声・無声判定結果を利用した第３の子音区間検出
力法について述べる。持続時間が長い無声子音／ｓ／、
／ｃ／、／ｈ／や／　ｚ　／は持続時間がＬｍａｘ以１
−、となり、ディップが検出できない場合がある。この
場合、フレームごとの有声・無声判定結果の時間的連続
性によってセグメンテーションを行なうことができる。　゛有声・無声判定の方法は零交差波、スペクトルの傾き、
第１次の自己相関係数の値などを利用する方法があり、
どの方法でもよい。本実施例で１ＬＰｃケプストラム係数０１〜ｃ５を使用
し、有声・無声の標僧パターンとの間の距離を式（４）
のマハラノビス距離を適用して計算し、判別した場合、
９６．４％のフレーム認識率を得ている。本実施例においては、無声区間か連続してＹフレーム以
上続く区間は子音区間としてセグメンテーションを行な
う。次に上述した第１〜第３の子音区間の検出法の適用例に
ついて述べる。第１〜第３の子音区間の検出法の組合わせとしては種々
可能であるが、低域、高域パワー情報を利用した第１の
子音区間検出法に、フレームことの音素認識結果を利用
した第２の子音区間噴出法と有声無声判定結果を利用し
た第３の子ｇ−区間検出法のうちのいずれか一方又は両
方を組合わせるのが望ましい。ここでは第３．第１．第２の子音区間検出法をこの順に
適用した例を示す。（１）　　音声区間に対し、先ず第３のルール（■と記
す）を適用し、無声区間が７フレ一ム以上連続する区間
を子音区間とする。（ｉｉ）　　（ｉ）の区間を除去した区間に第１のルー
ル（■と記す）を適用し、ディノブによる子音区間を求
める。（面　有声区間に対して第２のルール（■と記す）を適
用し、／Ｎ／と認識された区間が５フレ一ムμｍに連続
する区間を子音区間とする。（１■）上記（１）〜（１１０で求められた全区間を子
音区間とする。ただし、（ｊ）と（１１）捷たけ（１１
）と（ｉｉＤのルー、・しによって区間が重畳して求め
られた場合、原則としてディップによって求められた区
間を優先する。なお上記実施例では、第１の子音区間検出法に第２又は
第３の子音区間検出法のいずれか一方又は両方を組み合
わせる場合について述べだが、第１の子音区間検出法の
みであっても実用上は問題とならない。以北は語中子音のセグメンテーション法についての説明
であったが、次に各語頭子音検出法について詳細に説明
する。まず、低域，高域パワー情報を利用する第１の語頭子音
検出法について述べる。第６図には、低域まだは高域パワーの語頭における時間
的変化の例を示している。語頭が王に破裂性の子音で始する時、パワー値の時間的
変化をプロ、、トすると第６図の（ａ）　、　（ｃ）の
ようになる。これは破裂性のためにパワーが急激に立上
がり、後続の母音との渡りの部分において（ａ）のよう
に凹状になったり、（Ｃ）のように１度なだらかになっ
てから再び立上がるからである。（ｂ）　、　（ｄ）は（ａ）、（Ｃ）のパワーの時間的
変化の値をそれぞれ微分したものである．Ｐ１〜Ｐ３，
Ｐ１’〜Ｐ３′は（ａ）　、　（Ｃ）の変曲点のフレー
ム番号を示している。ここでは音声区間の始まるフレーム番号を１にしている
。ここで、（ａ）　、　（ｂ）のようにＰｌ，Ｐ３の微
分値が正，Ｐ２の微分値が負、かつＰ３〈ｍ（ｍはフレ
ーム番号を示すいき値）を満足する時、語，頭からＰ３
までを語頭子音区間として判定する。つぎに（Ｃ）、　（ΦのようにＰ，′〜Ｐ３′の微分値
か正の場合Ｐ３′における微分値をσとすると、σ〉ａ
（ａはあるいきｆ直）、かつＰ３’　（ｎ　（、ｎはク
レーム番号を示すいき値）をａ足する時、語頭からｐ３
／−４でを語頭子音区間として判定する。以」二の方法を低域パワー、高域、Ｃターに対して適用
し、いずれか一方に（ａ）又は（Ｃ）の傾向が表われれ
ば、その区間を子音と判定する。この方法は、無声破裂
音は低域パワーに、又有声破裂音は高域パワーに特徴が
現われやすいだめ、破裂音全体に対して有効である。次に、フレーム毎の音素認識の結果を利用する第２０語
頭子音噴出法について述べる。本実施例の音素認識は、
各フレーム（例えば１フレームは１０ｍ５ｅｃとする）
毎に行なう。フレーム毎の音素認識は本実施例ではＬＰ
Ｃケプストラム係数を用いて、あらかじＶ〕用意しであ
る各音素の標党・くター　ンとの比小父によって杓なう
。（票準）（ターンとしては６母音（／ａ／、／ｉ／、
／ｕ／、／ｅ／、１０／　）。鼻音（／Ｎ／で表わす）と無声子音（／Ｓ／で表わす）
を用いた。このようにして、各フレーム毎に類似度の最
も大きい音素（第１候補音素）と２番目ＫＭ似度の大き
い音素（第２候補音素）を求める。フレーム毎の第１候
補音素と第２候補音素をそれぞれフレーム番号の順に並
べた系列を第１候補音素および第２候補音素時系列とす
る９このようにして求めたフレーム毎の音素時系列を使
用する第２の方法は、以下に述べるような２つの場合に
分ける。捷ず最初は、上記音素系列を語頭から順に見た時７Ｎ／
が第１候補まだは第２候補音素系列を含めであるフレー
ム数以北（例えば４フレーム以−ヒ）連続した時この区
間を子音区Ｔ４］であると判定する。例えば／ｍａ／をフレーム毎に音素認識した時、音素認
識の結果が第７図のようになったとすると／　Ｎ　／が
第１，２候補を含めて５つフレーム連続しているので、
１〜５フレ一ム寸でを語頭子音区間とする。この方法は、特に／ｍ／、／ｎ／、／ｂ／、／ｄ／、／
ｇ／等に対して有効である。次に、第１候補音素系列を語頭から順に見た時に、持続
時間の比較的短い語頭子音が存在する場合、語Ｉ／＋ｆ
ｆ付近のスペクトル変化が激しいために認識されたフレ
ーム毎の音素系列が不安定になる傾向がある１、そこで
、語いから同−ｍ音が連続して現われる丑での不安定な
区間が一定フレーム数以上（例えば３フレームｌ、、ｔ
　Ｊ：　）の時、この区間を語頭子音とする。例えば／
ｇａ／をフレーム毎に音素認識を行ない第１候補音素系
列が／Ａ　Ｉ　Ｉ　ＡＡＡＡ／となった場合、母音／Ａ
／が安定して出現する寸での区間／ＡＩＩ／を子音区間
とする。以上述べた２つの重性のうちどちらかτ方を６４足す７
１．けその区間を子音と判定する。次に、有声・無声判定を徂１用する第３の語頭子音検出
法について述べる、語頭の無声子音のセグメンテーションは、各フレーム毎
に行なう有声・無声判定を利用することによって、正確
に行なうことが出来る。有声・無声判定の方法は零交差波、スペクトルの傾き、
第１次の自己相関係数の値等を利用する方法があるが、
どの方法を用いてもよい。本実施例では、有声・無声判
定の標準パターンと比較することによって判定している
。ここで、語頭から無声の判定があるフレーム数以上連続
する時（例えば４フレーム以１＝　）この区間を子音区
間と判定する。この方法は、すべての無声子音に対して
有効である。次に／Ｚ／のように、音素の前半部分は有声性声フレー
ムが、読り時この区間を子音とする。例えば／ＺＵ／を
フレーム毎に判定を行ない、／ＶＶＶＶＵＵＵＶＶＶＶ
／（たたし／Ｖ／は有声、／Ｕ／は無声を表わす）とな
った時、無声フレームが終わるところまでを語頭子音と
する。本実施例は上記第１〜第３の語頭子音検出法を次のよう
な順番で適用する。・　フレーム毎の有声・無声判定を使用して検出する第
２の方法・　音声スペクトルの低域、高域パワーの時１′用的変
動の特徴を使用して検出する：Ａ１の方法・　フレーム
毎に６母音、鼻音と無声子音をχ・」象として音素、認
識を行ないその結果を使用して検出する第３の方法以−に述べだｌ１ｌｆ！　ｌ’ｉで適用して、子音か検
出された場合は最初に検出された方法でセグメンテーシ
ョンを行ない、それ以後のノｊ法は適用しない。なお本実施例では第１〜第３０語頭子音検出法をあるＩ
ｌｌ’ｉに併用する。１遍合について述べたが本発明は
こオＬに限定さ：ｔ′１．．るものではなく、第１〜第
３０語頭子１て検出法の適用順は任意に顆べるものであ
り、−ま／こ第１〜第３の語頭子音検出法のうち少なく
とも１方法を使用することによって充分効果を発揮する
ものである。以−」−説明した部分について、第８図、第９図の具体
例で説明する。第８図は／ｄａ　　ｅｋｉ／（打撃）ト
発声Ｌ　７’ＣＪＡ　合、第９図は／ｎｏｈａｒａ／　
（野原）と発声した場合である。図におてい３ｏおよび
４゜は母音ｈ　Ｉ＞音判別結果の第１位の尤度を持つ音
素記号を時系列で表わしたものである。同様に３１゜４
１は第２位の音素の時系列である。３２　、４２は有声
・無声判別結果の時系列でありｖは、そのフレームが有
声と判別されたこと、Ｕは無声と判別されたことを示す
。３０〜３２、または４０〜４２の結果は尤度バッファ
１４に蓄積されている情報と等価である。３３．４３は低域パワー情報の時間的な動きを、そして
、３４．４４は高域パワー情゛（１の時間的な動きを表
わしたものである。これら（Ｌニー＋：、パワー情報バ
ッファ１６に蓄積されている情報と等価である・先ず第８図において、／ｃｌ／ば３５に示ずように音素
判別結果の第１位の尤度を持つ音素の時系列が鼻音（財
）であるので子音としてセグメンテーションされる。ま
たこの部分は高域パワー情報３４が低下していることに
よっても検出できる。／／は３６に示すように高域パワ
ー情報３４に明らかなパワーディップが存在することで
検出できろ。この部分は尤度第１位の音素の時系列３０．先度第２位
の音素の時系列３１．低域パワー情報３３では検出でき
ない。／に／の前に生じる無音区間／Ｑ／は低域パワー
情報３３．高域パワー情報３４のパワーか低［；シてデ
ィ、プを形成していることで検出できる。／に／はこの
パワーディップの外に、有声・無声判別結果の時系列３
２が、３８に示すように無声（Ｕで示す）になっている
ととて検出できる。次に第９図に２いて、語頭子音／ｎ／は、低域パワー債
報４３．高域パワー情報４４ては顕著な躬徴を見出せな
いか、音素判別結果の尤度第１位の音素の時系列４Ｑに
おいて４５に示すように鼻音フレームが連続しているこ
とで検出できる。／ｈ／は４６に示すように低域パワー情報４３゜高域パ
ワー情報４４のパワーディップで検出できる・また／ｒ
／は、高域・々ター情報４４のディ。プ４７によって検出できる。以上、例によって示したように、低域パワー。高域パワーの時間変化、母音・鼻音判別結果の時間的連
続１（１−および有声・無声判別結果を併用することに
よって、精度の高い子音セグメンテーションを行なうこ
とが可能となった。第２図の子音尤度５」鼻部１８は、子音セグメンテーシ
ョン部１７で検出された子音区間に討して、入力バッフ
ァ１１から送出されてくる入力パラメータと、子音標準
パターン格納部１９の各々の子音標準パターンとの間で
尤度訓算を行ない、尤度の高い音素から順に並べる。子
音認識部２０は、子音尤度計算部１８から送出されてく
る結果と、時間的な持続性（フンーム数）などを考ｆソ
して、その区間の子音を決定する。次に母音認識部２１の機能を第１０図によって説明する
。第１０図は第８図、第９図と同様な形式である。（−
たたし、有声・無声判別結果は省略しである。）第１０
図において、語頭の１０／は音素判別結果の尤度第１位
の音素の時系列５０の連続性で認識される。半母音／Ｊ
／の）４１５分は５６に示されるように尤度第１位の音
素の時系列５０の結襲かられかるようにＩからＥに変化
しているが、各々の持続時間が短く、しかも工からＥに
変化するパターンは、典型的な／Ｊ／のパターンである
ので、この部分を／ｊ／とじて認識する。／　ａ　／の部分は５６に示されるように昏末判別結果
の尤度第１位の音素の時系列ら０の連続性より認識され
る５／ｕ／の部分は尤度第１位の音素の時系列６０と尤
度第２位の音素の時系列６１を用い、６７に示すように
０とＵが混在しているがＵの方が優勢であるので／１１
／として認識する。語尾の撥音／Ｎ／も５８に示すよう
に尤度第１位の音素の時系列６０より、前記と同様に認
識される（撥音は母音に含める）。次に前記のうち半母音の認識についてさらに詳しく説明
する。半母音（拗音も含む）を認識する場合、母音認識
部２１の一部に設けられた半母音候補検出用母音時系列
パターン格納部に、予め、多数の話者の発声したｍ語音
声データを基に作成された母音時系列から、半母音区間
伺近に共通して現われる母音の時系列の変化（これを母
音時系列パターンと呼ぶ）のうち出現頻度の特に多いも
のをいくつか抽出し、格納しておく。半母音の判定には
、尤度バッファ１４から送出される母音時系列と、半母
音候補検出用母音時系列パターン格納部に格納されてい
る半母音候補検出のだめの母音時系列パターンとが逐次
比較照合され、　Ｈしたものについて、更にパターンの
持続時間、音素結合規則、有声無声無音判定結果を考慮
して半母音の判定及びセグメンテーションが行なわれる
。ここで、実際に、半母音／ｉ／及び／Ｗ／を認識し／ζ
例を図を用いて説明する。第１１図は、本実施例による
半母音の認識例である。先ず、ａ　＋ｄ／１ｅｓｕｕｒ
ｊｏｏ／　（手数料）という発声から／ｒｉｏ／の部分
を例として抜き出して示したものである。（−）において２３は予め、分析区間毎につけられ／こ
音素ラベルであり、２４は子音の認識結果であるつこの
例で、入力音声を旬音時系々１］に変換した結果２６か
ら、半母音候補検出用母音時系列パターンの１つである
”　Ｉ　ＥＵＯ”　によって半母音／ｉ／の候補区間が
検出される。この例ではパターンの”ＩＥＵ”の区間が
半母音候補区間、°′○′″の区間が後続母音区間であ
る。後続母音区間が閾値以上あシまた、半母音候ｔＤｊ
区間が閾値以下であること、お、よび、子音あるいは無
声・無音区間と半母音候補区間との位置関係が考慮され
最終的に、２６の半母音／ｉ／の認識結果が得られる。次に、申）は／ａＷａ／（泡）という発声を例として示
したもので、２７は予め、分析区間毎につけられた音素
ラベルであり２８は子音の認識結果である。ここで、入
力音声をＵ昔時系列に変換した結果２９から、半母音候
補検出用旬音時系列パターンの１つである’ＡＯＡ”に
よって半母音／Ｗ／候補区間が検出される。この例では
、パターン゛′Ｏ″′の区間が半母音候補区間、”Ａ″
の区間がそれぞれ先行母音区間、後続母音区間となる。先行ｆｌ音区間、後続母音区間がそれぞれ閾値以上あり
、半母音候補区間が閾値以下であることから、例えば／
ａｏａｏ／　（青々）という発声の／ａｏａ／の部分と
区別さノＬ、半母音／Ｗ／が存在すると判断される。更
に、半母音候補区間に子音が認識されている場合、鼻音
性をもたない子音の場合には、子音区間も含めて半母音
候補区間とし、その区間が閾値以内であり、しかも無声
・無音区間ではない場合には、半母音を優先して、３０
の半母音／Ｗ／の認識結果が得られる。音素系列作成部２２は、子音認識部２０から送出される
子音認識結果と、母音認識部２１から送出される母音認
識結果を総合して、音素系列を生成する部分である。こ
の部分では日本語の音形規則、例えば、撥音以外の子音
が２つ以上連続する場合は、その間に母音／】／捷たは
／ｕ／が存在する、とか、母音／１／や／ｕ／は無声化
しゃすい・・・・・・などの規則によって、音素の判別
結果を修正する機能も有する。このようにして作成された音素系列は、単語マツチング
部８において、単語辞書９の内容と１つずつ比較され、
最す類似度の高い単語が認識結果とし、て出力される。第１２図は認識処理の高速化を目的とした本発明の他の
実施例て、より実用的なブロック構成である。第２図で
は、子音部に対する距離Ｍ−Ｖｊｆｉｉは、子音セグメ
ンテーションの後であるため、時間的な遅れが生じ、こ
のため入カバソファ１１が必要であった。第１２図はこ
の部分を改良し、高速化を行なったものである。第１２
図で第２図と同じ番号のブロックは、同一の機能を有す
る。第１２図の標準パターン格納部６０は、第２図にお
ける勾音・ハ、音標準パターン格納部１３と子音標準パ
ターン格納部１９の両方を含んでいる。尤度割算部６１
は母音・鼻音および子音に対する尤度をいっしょに計算
し、それらを別々に尤度バ・ソファ６２に蓄積しておく
。子音認識部２ｏでは尤度バッファ６２０子音尤度の中
で、子音セグメンテーション部１７で子音区間と決定さ
れた部分の情報のみを使用して子音の認識を行なう。こ
の」＝うな構成にすると、不要な部分の尤度寸で計やす
ることになるが、子音認識の時間遅れがなく、余分の入
力バノファが不要となる。そして複雑な尤度割算部の１
部が共用できるので回路構成がｆｆ１Ｍ弔になる利点が
ある。その他の部分は第２図と同様である。上記実施例は従来例に比し塚、下のような利点を有する
。（１）従来例でに１、音声信号を帯域フィルタで分析シ
、ローカルピークを抽出してそれを特徴パ、　　ラメー
タとしていだが、本実施例ではＬＰＣ分析によってＬＰ
Ｃケプストラム係数を抽出し、特徴パラメータとした。ＬＰＣ分析では音声波形から個人性を多く含む声帯音源
情報を除去できるため、不特定話者の発声に対して強い
システムとすることかできた。しかも声帯音源情報の除
去によって相対的に音韻性が強調されるだめ、フレーム
ごとの音素判別率を高くできたつまだローカルピークか
主に音声のフォルマントを表わすパラメータであるのに
７寸し、ＬＰＣケプストラム係数はフォルマントを含ん
だ周波数スペクトル概形全体を表わずパラメータである
ため、後者の方が情報量が多く、認識率の向上に役立っ
た。特にフォルマント構造がはっきりしない無声子音間
の判別には効果か高い。（２）従来例においては、フレーノ、ごとの音素？ｌ’
４ｊ別のだめに、ローカルピークを判別図に当てはめる
方法であったが、本実施例ではマハラノビス距離、ベイ
ズ判定、線形判別関数などの統計的距離尺度によって入
力ＬＰＣケフストラム係数と標準パターンとの間でパタ
ーンマツチングを行なう方法を採用した。フレームごと
の平均母音認識率が従来例では７８．４％であったが、
本発明では８５．２％に向上した。（３）従来例では、セグメンテーションパラメータのみ
で子音の存在を検出していたが、鼻音や／ｒ／なとの有
声子音は検出できない場合が多かった。本実施例では、
セグメンテーションパラメータの他に、６１υ音と鼻音
（／ｍ／、／ｎ／。はつ音）を対象とした前記フレームごとの音素認識結果
、およびフレームごとの有声・無声判別結果を併用した
。すなわち、音素認識結果で鼻音フレームが連続する場
合は有声子音区間とし、有声・無声判別結果で無声フレ
ームが連続する場合はその区間を無声子音区間としだ。これに」；って子音のセグメンテーション脱落率を大き
く減少することかできた。（４）　　セグメンテーション用のパラメータとして、
低域パワーおよび高域パワー情報を導入した。こノ１らのパラメータによって全域パワーとスペクトル
の傾きを用いる従来例よりも、セグメンテーションをよ
り確実に行なうことかできるようになった。（６）男女計４０名が発声した２００都市名単語を対象
とした不特定話者単語認識実験において、従来例による
平均認識率が８８％であったのに対し、本実施例による
と９６％という良好な結果を得ることができた。寸だ、
本実施例では、従来例よりも個人差による認識率のばら
つきか小さく、不特定話者認識により適していることが
証明された。上記の結果は主に、特徴パラメータとしてＬＰＣケプス
トラム係数を使用し、統計的距離尺度で尤度割算を行な
うようにしたこと、セグメンテーション精度を向上させ
たことに依っている。発明の効果以上のように本発明は入力音声を線形予測分析法で分析
してＬＰＣケプストラム係数を抽出するＬＰＣ分析部と
、前記ＬＰＣ分析部の結果と標準パターン格納部からの
母音性音素の標準パターンとの類似度を、線形判別関数
、マハラノビス距離。ベイズ判定などの紐引的距離尺度によって計算して母音
性音素に対する入力音声の尤度を求める第１の尤度計算
部と、前記第１の尤度計算部の結果によりその時間的継
続性を利用してセグメンテーションと認識を行う第１の
認識部と、入力音声丑たはその分析結果に基づき有声と
無声を判別する有声・無声判定部と、入力音声の低域パ
ワー情報と高域パワー情報を求めるセグメンテーション
用パラメータ抽出部と、前記結果より求められた前記パ
ワー情報の時間的変動と前記第１の尤度割算部の結果と
前記有声・無声判定部の結果とから子音性音素のセグメ
ンテーションを行う子音性音素セグメンテーション部と
、前記子音性音素セグメンテーション部で得られた区間
に対し、ＬＰＣ分析部からの係数と標準パターン格納部
からの子音性音素の標準パターンとの類似度を計算する
第２の尤度計算部と、前記第２の尤度割算部の結果に基
づき子音性音素を認識する第２の認識部と、前記第１の
認識部の結果と第２の認識部の結果とにより音素系列を
作成する音素系列作成部と、前記音素系列作成部の結果
と単語辞書部に含まれている辞書項目への間でマツチン
グを行うマツチング部とを備え、前記マツチング部より
音素系列に最も良く類似した辞書項目を出力することを
特徴とする音声認識装置を提供するもので、フレームご
との音素判別率の向上、平均母音認識率の向上。子音セグメンテーション脱落率の減少、セグメンテーシ
ョンの確度の向」二をはかることかでき、不特定話者に
対しても高速て高い認識率を得ることができる利点を有
する。４、図面の簡単な説明第１図は従来の音声認識装置の構成を示すブロック図、
第２図は本発明の一実施例である音声認識装置の構成を
示すブロック図、第３図（ａ）〜（ｃ）は本発明の低域
パワー情報または高域パワー情報からパワーディップを
検出する方法を説明する図、第４図は低域パワーディッ
プ、高域パワーディップの大きさによって、子音区間と
子音の付加を判加するだめの判別図、第６図は母音１プ
杜は鼻音として全てのフレームを認識し、この結果から
子音区間を検出する方法を説明する図、第６図０）〜（
ｄ）は本発明の語頭子音のセグメンテーション法を説明
するパワーによる子音検出を示す図、第７図は本発明に
係る音素認識結果による子音検出法の例を示す図、第８
図及び第９図は本発明のセグメンテーションの方法を具
体例に基づいて説明する図、第１０図は本発明の母音の
認識方法を具体例に基づいて説明する図、第１１図（ａ
）は本発明による半母音／ｉ／の検出例を示す図、第１
１図（ｂ）は本発明による半母音／Ｗ／の検出例を示す
図、第１２図は他の実施例のブロック図である。１ｏ・・・ＬＰＣ分析部、１１・・・・・入力バノファ
、１２　・　母音尤度割算部、１３　・・・母音・鼻音
標準ハターン格納部、１４・−・尤度バノフーア、１６
・・・セグメンテーンヨンＩＩＪパラメータ抽出部、１
６・・　パワー情報バ、ファ、１７・・・・子音セグメ
ンテーション部、１８・・・　子音尤度計算部、１９・
・・・子音標準パターン格納部、２ｏ・・・子音認識部
、２１・・・・・匂音認識部、２２・・・・音素系列作
成部、６０・・・・・・標準パターン格納部、６１・・
・・・尤度計算部、６２・・・・・尤ｉバ、ｙフ了。

Claims

【特許請求の範囲】

（１）入力音声を線形予測分析法で分析してＬＰＧケプ
ストラム係数を抽出するＬＰＧ分析部と、前記ＬＰＧ分
析部の結果と標準パターン格納部からの旬蛭性片素の標
準パターンとの類似度を。線形判別関数、マハラノビス距離、ベイズ判定などの統
ｄ１的距離尺度によって計算して七月イ性賛素に対する
入力音声の尤度を求める第１の尤度計算部と、前記第１
の尤度計算部の結果によりその時間的継続性を利用して
セグメンテーションと認識を行う第１の認識部と、入力
音声せたはその分析結果に基づき有声と無声を判別する
有声・無声判定部と、入力音声の低域パワー情報と高域
パワー情報を求めるセグメンテーション用パラメ・−夕
抽出部と、前記結果より求められた前記パワー情報の時
間的変動と前記第１の尤度Ｊ１算部の結果と前記有声・
無声判定部の結果とから子音性音素のセグメンテー／ヨ
ンを行う子音性音素セグメンテーンヨン部と、前記子音
性音素セグメンテーンヨン部で得らｎた区間に対し、Ｌ
ＰＧ分析部からの係数と標準パターン格納部からの子音
性音素の標準パターンとの類似度を計算する第２の尤度
計算部と、前記第２の尤度計算部の結果に基づき子音性
音素を認識する第２の認識部と、前記第１の認識部の結
果と第２の認識部の結果とにより音素系列を作成する昔
素系列作Ｆｙ、部と、前記音素系列作成部の結果と単語
辞書部に含寸れている辞書項目との間でマツチングを行
うマツチング部とを備え、前記マツチング部より音素系
列に最も良く類似した辞書項目を出力することを特徴と
する音声認識装置。
（２）第１及び第２の尤度計算部が互いに一部を共用し
て構成されていることを特徴とする特許請求の範囲第１
項記載の音声認識装置。