JPS59226400A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS59226400A
JPS59226400A JP58102023A JP10202383A JPS59226400A JP S59226400 A JPS59226400 A JP S59226400A JP 58102023 A JP58102023 A JP 58102023A JP 10202383 A JP10202383 A JP 10202383A JP S59226400 A JPS59226400 A JP S59226400A
Authority
JP
Japan
Prior art keywords
consonant
unit
section
phoneme
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP58102023A
Other languages
English (en)
Other versions
JPS6336676B2 (ja
Inventor
二矢田 勝行
藤井 諭
森井 秀司
郁夫 井上
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP58102023A priority Critical patent/JPS59226400A/ja
Priority to US06/618,368 priority patent/US4736429A/en
Priority to EP84303870A priority patent/EP0128755B1/en
Priority to DE8484303870T priority patent/DE3473666D1/de
Publication of JPS59226400A publication Critical patent/JPS59226400A/ja
Publication of JPS6336676B2 publication Critical patent/JPS6336676B2/ja
Granted legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音素を基本単位とする音声認識装置に関するも
のである。
従来例の構成とその問題点 第1図によって従来例の構成を説明する。図において1
はスペクトル分析部であり、29チヤンネルの帯域フィ
ルタ群で構成されている。各々のフィルタの出力を1フ
レーム(1omscc)コとにパワー値に変換し、29
チヤンネルの帯域パワーを得る。2は帯域パワーからロ
ーカルピークを抽出するローカルピーク抽出部であり、
1フレームごとに周波数の低い順に3個(pi + p
21 p3とするン、捷たパワーの太さい順に3個(p
6+ + P62 + pev )ずつ求める。−リバ
3はセグメンテーション用のパラメータを抽出するセグ
メンテーションパラメータ抽出部であり、帯域パワー情
報を使用して、全域パワー、スペクトルの傾き、低域、
中域モーメントがフレームごとに抽出される。セグメン
テーション部4では、セグメンテーションパラメータ抽
出部3で得ら7′したパラメータの時間的な動きによっ
て、fJ音区間、子音区間、半母音区間を決定する。音
素判別部5では、セグメンテーション部4で決定さt′
した谷区間に対して、ローカルピーク抽出部2で得られ
たローカルピークによって音素の判別を行なう。音素の
判別は判別図格納部6に格納されている判別図にローカ
ルビータの位置を当てはめることによって行なう。判別
図は、母音、子音、半母音の各々に対して別々に用意さ
れており、セグメンテー/ヨン部4によって選択される
。甘た、母音、半母音に対してはp、+p、p。
を、子音に対してばp81.pe2.po5を用いる。
音素系列作成部7ては、音素判別部5Vこよって得もt
′1.タフレームごとの音素判別結果を、セグメンテー
ション部4で得らnた各セグメンテーション区間ごとに
寸とめ、谷区間VC灯してi−1素置号を・割り当てる
。セグメンテー/ヨン部4でセグメンテーションができ
ない/a、 o/、 /i、 u/ などの母音連続に
対しては、フレームごとの音素判別結果の時間的な連続
性によってセグメンテーションを行なう。このよつにし
て入力音声を音素系列に変換する。
弔語マツチング都8では、音素系列作成部7でイ1)ら
旧、た入力音素系列と1n語辞19に蓄積されているi
l′Li1ii辞膚の各項目を時間軸伸縮マツチング法
によって比較し、入力音素系列に最も近い辞書項1」の
内容を認識結果として出力する。
このような構成の音声認識装置は以下のような問題点を
有する。
すなわちセグメンテーションパラメータ抽出部3で抽出
されるセグメンテーション用のパラメータでは検出でき
にくいご素がある。(4’!jに鼻音X、半母音)。こ
れらの音素は0普との却似性が人すく、ハラメータのみ
で検出するには限界がある。
さらに他の欠点としてフレームごとの音素判別率が低い
。従来例では特徴パラメータとしてローカルピークの位
置を使用し、これを゛ト1]別図に適用することによっ
て音素の判別を行なっている。この方法は母普や一部の
半母音に対しては、かなりのγ4j別率が期待できるが
、その他の子音の判別を行なうには限界がある。
発明の目的 本発明は、従来ψ1」における上記の問題点を解決し、
高い音声認識装置得ることを目的としたものである。
発明の構成 本発明は」−記目的を達成するもので入力音声を線形予
測分析法で分析してLPGケプストラム係数を抽出する
LPG分析部と、前記LPG分析部の結果と標準パター
ン格納部からのIU音注性音素標準パターンとの類似度
を、線形判別関数、マノ・ラノビス距離、ベイズ判定な
どの統訓的距離尺度によって1算して母音性音素に対す
る入力Mnの尤度を求める第1の尤度計算部と、前記第
1の光度計算部の結果によりその時間的継続性を利用し
てセグメンテーションと認識を行う第1の認識部と、入
力音声丑たはその分析結果に基づき有声と無声を判別す
る有声・無声判定部と、入力音声の低域パワー情報と高
域パワー情報を求めるセグメンテーション用パラメータ
抽出部と、前記結果より求められた前記パワー情報の時
間的変動と前記第1の尤度計算部の結果と前記有声・無
声判定部の結果とから子音性音素のセグメンテーション
を行う子−?イ″性音素セグメンテーンヨン部と、前記
子g、 (i!l:、 M″素セグメンテ−737部で
得ら7″した区間に3’4 L、LPG分析部からの係
数と標準パターン格納部からの子に性片素の標準パター
ンとの類似度を1算する第2の尤度計算部と、前記第2
の尤度1HH4+≦の結果に基づき子音ダ1ユ音素を認
識する第2の認識部と、n!J記第1の認識部の結果と
第2の認識部の結果とVこより音素系列を1′1:成す
る音素系列作成部と%AiJ記音素系列1′「取部の結
果と単語辞1部に含捷れでいる辞1−項目との間でマツ
チングを行うマツチング部とを備え、前記マツチング部
よりば素系列VC最も艮くの1似した辞喜項(]を出力
することを特徴とする音声認識装置を提供するものであ
る。
実施例の説明 本発明における実施例を図によって説明する。
第2図は実施例における方法を説明するためのプロ7ノ
ク図である。1oはLPG分析部であり、入力音声に対
して、20 m5ecのハミング窓を施し、線形予測分
析(LPG分析)を行なって、15次の線形予測係数を
求め、それらを16次のLPGケプストラム係数(H(
n=1.2・・・・・・15)を求める。LPGケプス
トラム係数は1フレーム(10msec )ごとに求め
られ、入カバノファ11および母音尤度計算部12へ送
られる。母音尤度計算部12は入力パラメータCn と
、母音・鼻音標準パターン格納部13vC格納されてい
る5母音と鼻音の標準パターン各々との間の翻似度を統
計ぽう距離尺度で求め、類似度の高いll@IC511
,(べかえ、その判別結果をフレームごとに尤度バッフ
ァ14へ送出する。標準パターンは、各母音および鼻音
(hメカ/、ばつ斤)に対して、多くのデータUでよっ
て平均値および共分散行列をあらかじめ求めておく。
統計的距離尺度には、ベイズ214ノ定、マハラノビス
距離、線形判別関数などがあり、それらのいずれを使用
しても、はぼ同様に良好な結果が得られる。
次に各距離尺度について簡単に説明する。
ン4素中の平均値ベクトルをflip、共分散行列をΣ
とすると、入力C=(C,、C2・・・・・(4)、d
=16に対する確率密度Fp は次式で与えられる。
・・・・・(1) ただし、1Σp1は行列式の値を表わし添字Tは転置を
表わす。−11記の対数をとって、対数尤度り。
を求める。
Mp =(([: flip)齢(C//11))  
   ・・・・・(4)次に煽−Σp′と(〜、14゛
素pとp′を判別する線形判別関数は D  7Mp−Mp’ == hTC4−T            ・・・・
・(5)但しTは定数である。
式(2)7式(4)または式(5)で6旬音と鼻音に対
し音素ごとに尤度を計算し、大きさの比較を行なうのが
、母音尤度計算部12の機能である。
また母音・鼻音標準パターン格納部13にfd有声およ
び無声の標準パターンが格納されており、母音・鼻音と
同様な方法で母音尤度計算部12によって尤度が計算さ
れ、入力フレームに対する有声・無声判定が行なわn、
その結果が先度バッファ14へ送出される。
一方、入力音声はセグメンテー/ヨン用パラメータ抽出
部15に送られる。この部分では、低域フィルタ、高域
フィルタによって、低域ハヮーイ1?報(pL )と高
域パワー情報(pH)がフレームごとに求めらnる。1
次全域パワーも同時(lこ求められる。こちらのパワー
情報は平滑化されて、パ“ノー情報バッファ16へ送出
される。
次に子音セダメンテー/ヨン部17の機能について説明
する。
第3図は低域または高域パワー情報からディップを抽出
する方法を示している。(2L) Iijフィルタの整
流出力を時系列でプロットしたものてあり、子音区間の
大きなディップの他に細かいディップが数多く左右する
。後者は不要なディップであるので平119化を行なっ
て取除く(第3図(b))。次に(b)の信号を微分す
ることによって(C)の信号を得る。
そして(C)の信号から最大値と最小値間の太きさpと
、最小値から最大値壕での時間長(フレーム数)Lを求
めるo p> pmin + L < Lmaxの条件
を適用し、条件を満足するディップに対し、(C)で最
小値から最大値寸での区間をディップ区間(子音候補)
とする。
この方法はパワーディップの太ささの計算をパワーの変
化速度の検出に置きかえ、その最大値。
最小値を計算することによって簡易にしかも高い精度で
ディップ区間を検出することができる。
次に低域ハワーデイノプ、高域パワーデインプの一方ま
たは両方によって検出された子音候補のうちから、子音
区間を特定する方法を述べる。低域パワー情報からイ:
Iられたni■述の方法によるディップの太ささをpg
 %高域パワー情報から得られたそれをph  とする
。低域情報による子音候補区間と高域情報による子音候
補区間が重畳している場合%2次元座標(1)6.1)
h)を第4図に示す判別図に適用する。(pl、ph)
が判別図上で付加区間(斜線の内1則)に位置した場合
、その子音候補は棄却する。(pl、ph)が子音区間
に位置した場合、低域パワーディップ区間と高域パワー
ディップ区間の論理和に相当する部分を子音として特定
する。低域と高域情報による子音候補区間に゛重畳がな
い場合、一方を0(たとえば(pl、0月として判別図
に適用する。
このように相補的な性質を持った低域パワー情報と高域
パワー情報をパラメータとし、その各々によって子音候
補区間を探し、さらにそれを判別図に適用することによ
って子音区間を決定する方法は、従来の方法に比較して
、有声から無声まで広い範囲の子音に有効であり、高い
精度で子音区間を検出することができる。特に有声子音
のAV。
/d/、 /η/、 /r/、無声子音1h/、有声無
声両方の性質を示す/Z/に対して有効である。
しかし、上に述べたディップ情報を利用したセグメンテ
ーション法は鼻音区間Vこついてはその検出率が73係
程度であり、他の有声子音に比べて検出率が充分とはい
えない。また撥音は持続時間が長すぎるため、ディップ
情報は利用できないという弱点がある。本実施例では前
に述べた母音尤度計算T4IS12において鼻音と判定
さnだフレームの連続性を利用することによる第2の子
音区間検出方法によって上記弱点を解消している。すな
わチ全テノフレームに51M汁と鼻、音のパターンヲ適
用すると、鼻音/m/、 /n/、撥音に相当する区間
の各フレームは外音/N/ として認識され、その他ス
ペクトルパターンが鼻音V7c類似している音素(/b
/、 /d/、 /η/、 /r/)も/N/ として
認識される確率が高い。したがって/N/として認識さ
れる区間を参照す几は、ディップが存在しない区間にお
いても、有声子音の検出を行なうことができる。本実施
例では/N/ と認識されたフレームが、尤度第2位の
フレームも含めて5フレーム以」二連続する区間を子音
区間としている。
以上述べたθ音として認識さtl、たフレームの連続性
を見ることによるセグメンテーション法は、/m/、 
/n/、撥音、 /b/、 /d/、 /η/に対し有
効である。
次に有声・無声判定結果を利用した第3の子音区間検出
方法について述べる。持続時間が長い無声子音/!3/
、 10/、 /h/や/Z/は持続時間がLmax 
以上となり、ディップが検出できない場合がある。この
場合、フレームごとの有声・無声判定結果の時間的連続
性によってセグメンテーションを行なうことができる。
有声・無声判定の方法は零交差波、スペクトルの#き、
第1次の自己相関係数の値などを利用する方法があり、
どの方法でもよい。
本実施例ではLPGケプストラム係数01〜c5を使用
し、有声・無声の標準パターンとの間の距離を式(4)
のマハラノビス距離を適用してδ1算し、判別した場合
、96.4%のフレーム認識率を待ている。
本実施例においては、無声区間が連続(ッて7フレーム
以上続く区間は子音区間としてセグメンテーションを行
なう。
次に」−述した第1〜第3の子音区間の検出法の適用例
について述べる。
第1〜第3の子音区間の検出法の組合わせとしては種々
可能であるが、低域、高域ノくワー情報を利用した第1
の子音区間検出法に、フレームごとの音素認識結果を利
用した第2の子音区間検出法と有声無声判定結果を利用
した第3の子音区間検出法のうちのいず11か一方又は
両方を組合Jつせるのが重重しい。
ここでは第3.第1.第2の子晋区間検υに法をこの順
に適用した例を示す。
適用法は以下に示す通りである。
(1)音声区間に対し、先ず第3のルールす)を適用し
,無声区間が7フレ一ム以上連続する区間を子音区間と
する。
(ii)  (1)の区間を除去した区間に第1のルー
ルと記す)を適用し,ディップによる子音区間を求める
θ11)有声区間に対して第2のルールを適用し、/N
/と認識された区間が57レ一ム以上連続する区間を子
音区間とする。
(V)上記(1)〜θ11)で求められた全区間を子音
区間とする。ただし、(1)と(11)または(11)
と(111)のルールよって区間が重畳して求められた
場合、原則としてディップによって求められた区間を優
先する。
なお上記実施例では、第1の子音区間検出法に第2又は
第3の子音区間検出法のいずれか一方又は両方を組み合
わせる場合について述べたが、第1の子音区間検出法の
みであっても実用−1=は問題とならない。
以上は語中子音のセグメンテーンヨン法についでの説明
であったが、次に谷語頭子音検出法について詳細に説明
する。
1ず、低域,高域パワー情報を利用する第1の語頭子音
検出法について述べる。
第6図には、低域捷たは高域・々ワーの語頭における時
間的変化の例を示している。
語頭が主に破裂性の子音で始まる時、Cワー値の時間的
変化をプロットすると第6図の(a)、 (C)のよう
になる。これは破裂性のためにノ々ワーが急激に立−4
−が9、後続の母音との渡りの部分において(a)のよ
うに凹状になったり、(C)のように1度なだらかfな
ってから再び立上がるからである。
(b)、 ((1)は(a)、(C)のパワーの時間的
変化の値をそ几ぞれ微分したものである。P1〜P51
Pl’〜P5′は(a)、 (C)の変曲点のフレーム
番号を示している,。
ここでは音声区間の始凍るフレーム番号を1にしている
。ここで、(a)、 (b)のようにPl,P3の微分
値が止,Plの微分値が負、かつP3(m(mはフレー
ム番号を示すいさ値)を満足する時、語頭からPsiで
を語頭子音区間としで判定する。
つぎに(C)、 (d)のよつにP1′〜P3′の微分
値が正の場合P5′ における微分値を/1とすると、
a) a(aはあるいさ値)、かつP5’ < n (
 nはフレーム番号を示すいさ値)を満足する時、語頭
からP5′寸でを′l治頭千ば一区間として判定する。
以上の方法を低域パワー、高域ノ々ワーに対して適用し
、いずれか一方に(a)又は(C)の傾向が表われnば
、その区間を子音と判定する。この方法は、無声破裂音
は低域パワーに、又有声破裂音は高域パワーに特徴が現
われやすいため、破裂音全体に対して有効である。
次に、フレーム毎の音素認識の結果を利用する第2の語
頭子音検出法について述べる。本実施例の音素認識は、
各フレーム(例えば1フレームは10mSeCとする)
 4iiに行なう。フレーム毎のー)4素認識は本実施
例ではLPCり゛プストラム係数を用いて、あらかじめ
用意しである各音素の標準パターンとの比較によって行
なう。標準パターンとしては5母音( A/. /1/
. /u/. /e/. 10/ ) 。
鼻音(/N/で表わす)と無声子音(/S/で表わす)
を用いた。このようにして、各フレーム毎に類似度の最
も大きい音素(第1候袖)−S素)と2番目に類似度の
太さい音素(第2候補音素)を求める。フレーム毎の第
1候補音素と第2候補音素全そ几ぞれフレーム番号の順
に並べた系列を第1候補音素時系列とする。
このようにして求めたフレーム毎の音素時系列を使用す
る第2の方法は、以下に述べるような2つの場合に分け
る。
貰ず最初は、」二記音素系列を語頭から頓に見た時、Q
T/が第1候補または第2候補音素系列を含めであるフ
レーム数以」−(例えば4フレ一ム以上連続した時この
区間を子音区間であると判定する例えば/m=−/をフ
レーム毎に音素認識した時、音素認識の結果が第7図の
ようになったとすると/N/が第1,2候補を含めて5
つフレーム連続しているので、1〜5フレームまでを語
頭子音区間とする。
この方法は、特に/m/、/n/、/b/、/d/、/
g/等に対して有効である。
次に、第1候補音素系列を語頭から順に見た時に、持続
時間の比較的短い語頭子音が存在する場合、語頭付近の
スペクトル変化が激しいために認識さnだフレーム毎の
音素系列が不安定になる傾向がある。そこで、語頭から
同一1廿音が連続して現わnるまでの不安定な区間が一
定フレーム数以上(例えば3フレ一ム以上)の時、この
区間を語頭子音とする。例えば/ga/をフレーム毎に
音素認識を行ない第1候補音素不列が/Al工AAAA
/となった場合、母音/A/が妥定して出現するまでの
区間/AII/を子音区間とする。
)   以上述べた2つの条件のうちどちらが一方を満
0  足すればその区間を子音と判定する。
次に、有声・無声判定を利用する第3の語頭子音検出法
について述べる。
語頭の無声子音のセグメンテーションは、各フレーム毎
に行なう有声・無声’I′ll定を利用することによっ
て、正確に行なうことが出来る。
有声・無声判定の方法は零交差彼、スペクトルの傾き、
第1次の自己相関係数の値等を利用する方法があるが、
どの方法を用いてもよい。本実施・例では、有声・無声
判定の標準パターンと比較することによって判定してい
る。
ここで、語頭から無声の判定があるフレーム数以上連続
する時(例えば4フレ一ム以上)この区間を子音区間と
判定する。この方法は、すべての無声子音に対して有効
である。
次に/Z/のように、音素の前半部分は有声性をもち、
後半の部分は無声性をもつ音素があるので、語頭からあ
る時間長以下有声フレームの後、無声フレームが続く時
この区間を子音とする。例えば/Z U/  をフレー
ム毎に判定を行ない/VVVvU’Utyyvvv/ 
にy、=りり、/V/ Id有声、 /U/ Ir、r
無声を表わす)七なった時、無声フレームが終わるとこ
ろまでを語頭子音とする。
本実姉例は土F第1〜第30語頭子音検出法を次のよつ
な1111番で適用する。
・ フレニム毎の有声・無声判定を使用して検出する第
2の方法 ・ 音声スペクトルの低域、高域パワーの時間的変動の
特徴を使用して検出する第1の方法・ フレーム毎に6
母音、鼻音と無声子音を対象として音素認識を行ないそ
の結果を使用して検出する第3の方法 以上述べた順番で適用して、子音が検出された場合は最
初に検出された方法でセグメンテーションを行ない、そ
れ以後の方法は適用しない。
なお不実施例では第1〜第30語頭子音検出法をある順
に併用する場合について述べたが本発明はこれに限定さ
れるものではなく、第1〜第3の語頭子音検出法の適用
順は任意に選べるものであり、また第1〜第30語頭子
音検出法のうち少なくとも1方向を使用することによっ
て充分効果を発揮するものである。
以上説明した部分について、第8図、第9図の具体例で
説明する。第8図は/daりeki/(打撃)と発声1
−タ場合、第9図[/nohara/ (jl!l−原
)と発声した場合である。図において30および40は
四晋・鼻音判別結果の第1位の尤度を持つ音素記号を時
系列で表わしたものである。同様に31+41は第2位
の音素の時系列である。
32.42は有声・無声判別結果の時系列であジVU、
−tのフレームが有声と判別さ汎たこと、Uは無声と判
別さt′したことを示す。30〜32、または40〜4
2の結果は尤度バッファ14に蓄積されている情報と等
価である。
33.43は低域パワー情報の時間的な動きを、そして
634・ 44は高域パワー情報の時間的な動きを表わ
したものである。これらは、ノくワー情報バッファ16
に蓄積されている情報と等価である。
先ず第8図において、/d/ば36に示すよつにV素判
別結果の第1位の尤度を持つ音素の時系列が鼻K(N)
であるので子音としてセグメンテーションされる。寸た
この部分は高域ノくワー情報34が低下していることに
よっても検出できる。、Q/は36に示すように高域・
ζワー情報34に明らかなパワーディップが存在するこ
とで検出できる。
この部分は尤度第1位の音素の時系列30.尤度第2位
の音素の時系列31.低域ノ切−情報33では検出でき
ない。/に/のr>iJに生じる無音区間/Q/は低域
パワー情報33.高域・ぐワー情報34のパワーが低下
してディップを形成していることで検出でさる。/に/
はこのノくワーデイノプの外に、有声・無声判定結果の
時系列32が、38に示すよつに無声(Uで示す)にな
っていることで検出でさる。
次に第9図において、語頭子音/n/は、低域パワー情
報43.高域パワー情報44では顕著なノ特徴を見出せ
ないが、音素判別結果の尤度第1位の音素の時系列40
において46t/′C示すように^Σ音フレームが連続
していることで検出できる〇/h/は46に示すように
低域パワー情報43゜高域パワー情報44のパワーディ
ップで検出でさる。−!た/r/は、高域パワー情報4
4のディップ47によって検出できる。
以上、例によって示したように、低域パワー。
高域パワーの時間変化、母音・鼻音判別結果の時間的連
続性および有声・無声判別結果を併用することによって
、精度の冒い子音セグメンテーションを行なうことが可
能となった。
第2図の子音尤度計算部18は、子音セグメンテーショ
ン部17で検出さf′した子音区間に7・」シて、入カ
バノファ11から送出されてくる入力パラメータと、子
音標準パターン格納部19の各々の子音標準パターンと
の間で尤度81貌を行ない、尤度の高い音素から順に並
べる。子音認識部2oは、子音標準パターン格納部19
かも送出されてくる結果と、時間的な持続性(フレーム
数)などを考慮して、その区間の子音を決定する。
次にJU音認識部21の機能を第10図によって説明す
る。第10図は第8図、第9図と同様な形式である。(
ただし、有声・無声判別結果は省略しである。)第10
図において、語頭の10/は音素判別結果の先度第1位
の音素の時系列6Qグ)連続上Fで認識される。半1j
l音−/j/の部分(’t 55に示されるように尤度
第1位の音素の時系列5゜の結果かられかるように工か
らE[変化しているが、各々の持続時間が’trl<、
しかもIからEに変化するパターンは、典型的な/j/
の・ζターンであるので、この部分を/コ/として認識
する。
/2L/の部分ば66に示されるように音素判別結果の
先度第1位の音素の時系列60の連続性より認識される
。/u/の部分は先度第1位の音素の時系列6oと先度
第2位の音素の時系列61を用い、67に示すよつに0
と が混在しているがUの方が優勢であるので/u/と
して認識する。語尾の撥音/N/も58に示すように尤
度第1位の音素の時系列5oより、前記と同様に認識さ
れる(撥音は母音に含める)。
次に前記のうち半母音の認識についてさらに詳しく説明
する。半母音(音も含む)を認識する場合、母音認識部
21の一部に設けらnた半母音候補検出用母音時系列パ
ターン格納部に、予め、多数の話者の発声した単語音声
データを基[作成された母音時系列から、半母音区間付
近に共通して現われる母音の時系列の変化(これを旬音
時系列パターンと呼ぶ)のうち出現頻度の特に多いもの
をいくつか抽出し、格納しておく。半利旨の判定には、
尤度バッファ14から送出さnる母音時系列と、半母音
候補検出用母音時系列パターン格納部に格納さ几ている
半母音候補検出のための(jJ音待時系列パターンが逐
次比較照合され、一致したものについて、更にパターン
の持続時間2片素結合規則り有声無声無音判定結果を考
慮して米母音の判定及びセグメンテーションが行なわれ
る。
ここで、実際に、半母音/y/及び/W/ を認識した
例を図を用いて説明する。第11図は、不実椎例による
半母冨の認識例である。先ず、aは/1esuuryo
o / (手数料)といつ発声から/ryo/の79i
 Gを例として抜き出して示したものである。
(a)において23は予め、分析区間毎につけられた音
素ラベルであり、24は子音の認識結果である。
この例で、入力音声を1υ、音゛時系列Vこ変換した結
果25から、半RJM−候補検出用母音時系列パターン
の1つである”IEUO”によって半旬晋/y/の候補
区間が検出さtzる。この例ではパターンの”I E 
U”の区間が半母音候補区間、It OItの区間が後
続fυ片区間である。後続IU: f区間が閾[直重−
にあジーfた、半trJ音候補区間が閾値以下であるこ
と、および、子片あるいは無声・無音区間と半母音候補
区間との位置関係が考慮され最終的に、26の半lU音
/y/の認識結果がイ↓Iられる。
次に、(b)は/awa/(泡)といつ発声を例として
示したもので、2了は予め、分析区間毎につけら1.た
音素ラベルであり28は子音の認識結果である。ここで
、入力音声を母音時系列に変換した結果29から、半母
音候補検出用母音時系列パターンの1つである”AOA
”によって半母音/W/候補区間が検出される。この例
では、パターゾ゛O”の区間が半母音候補区間、+1 
A 11の区間がそれぞれれ先行母音区間、後続母音区
間となる。先行J〃M区間、後続母音区間がそれぞれ閾
値以」二あり、半母音候補区間が閾値以下であることか
ら、例えば/aoao/ (青々)という発声の/ao
a/の部分と区別され、半母音/W/が存在すると゛ト
1」断される。更Vこ、半母音候補区間に子Mが認識さ
れている場合、鼻音性をもたない子音の場合には、子持
区間も含めて半母音候補区間とし、その区間が閾値以内
であジ、しかも無声・無音区間ではない場合には、半母
音を優先して、30の半fJM−/w/の認識結果が得
られる。
音素系動作5y、部22ば、子音認識部20がら送出さ
れる子音認識結果と、tユ蛭認識部21がら送出される
母音認識結果を総合して、音素系列を生成する部分であ
る。この部分では日本語の音形規則、例えば、撥音以外
の子音が2つ以上連続する場合は、その間に母音/1/
寸たば/u/がイr在する。とか、母音/i/や/U/
  は無声化しやすい・・・などの規則によって、音素
の判別結果を修止する(幾能も有する。
このようにして作成された音素系列は、単語マノチンダ
部8において、単語辞書9の内容と1つずつ比較され、
最も類似度の高い単語が認識結果として出力さ註る。
第12図は認識処理の高速化を目的とした本発明の他の
実施例で、より実用的なブロック構成である。第2図で
は、子音部に対する距離G」算は、子音セグメンテーシ
ョンの後であるため1時間的な遅れが生じ、このため人
カバノファ11が必要であった。第12図はこの部分を
改良し、高速化を行なったものである。第12図で第2
図と同じ番号のブロックは、同一の機能を有する。第1
2図の標準パターン格納部6oは、第2図における母音
・鼻音標皐パターン格納部13と子音槽重パターン格納
部19の両方を含んでいる。尤度計算部61は母音・無
音および子音に対する尤度をいっしょに計算し、それら
を別々に尤度バッファ62に蓄積しておく。子音認識部
20では先度バッファ62の子音尤度の中で、子音セグ
メンテーション部1了で子音区間と決定された部分の情
報のみを使用して子音の認識を行なう。このような構成
にすると、不要な部分の尤度1で計算するCとになるが
、子音認識の時間遅汎がなく、余分の入力バッファが不
要となる。そして複雑な尤度降1初部の1部が共用でき
るので回路構成が簡単になる利点がある。その他の部分
は第2図と同様である。
上記実施例は従来13’llに比し以下のような利点を
有する。
(1)従来例では、音声信号を帯域フィルタで分析し、
ローカルピークを抽出してそれを特徴パラメータとして
いたが、本実施例ではLPG分析によってLPGケプス
トラム係数を抽出し、特徴パラメータとした。LPG分
析で(は−音声波形から個人性を多く含む声帯音源情報
を除去でさるため、不特定話者の発声に対して強いシス
テムとすることがでさた。しかも声帯音源情報の除去に
よって相対的に音韻性が強調さ汎るため、フレームごと
の音素判別率を高くでさた。
寸タローカルピークが主に音声のフォルマントを表わす
パラメータであるのに対し、LPGり一プストラム係数
はフォルマントを含んだJJIi数スペクトル概形全体
を表わす・2ラメータであるため、後者の方が情報量が
多く、認識率の向−1−に役立った。特にフォルマント
構造がはっきりしない無声子音間の判別には効果が高い
(2)従来ψ11においては、フレームごとの音素判別
のために、ローカルピークを判別図に当てはめる方法で
あったが、本実施例ではマノ・ラノビス距離、ベイズ判
定、線形判別関数などの統計的距離尺度によって入力L
PGケプストラム係数と標準パターンとの間でノくター
ンマツチング全行なう方法を採用した。フレームごとの
平均fU音認識率が従来例では78.4係であったが、
本発明では85.2チに向上した。
(3)  従来例では、セグメンテーションパラメータ
のみで子音の存在を検出していたが、鼻音や/r/など
の有声子音は検出できない場合が多かった。本実施例で
は、セグメンテーションパラメータの他に、6母音と鼻
音(/′m/、/n/。
はつ音)を対象とした前記フレームごとの音素認識結果
、およびフレームごとの有声・無声判別結果を併用した
。すなわち、音素認識結果で鼻音フレームが連続する場
合は有声子音区間とし、有声・無声判別結果で無声フレ
ームが連続する場合はその区間を無声子音区間とした。
これによって子音のセグメンテーション脱落率を大さく
減少するCとかで@た。
(4)セグメンテーション用のパラメータとして。
低域パワーおよび高域パワー情報を心入した。
こ1らのパラメータによって全域パワーとスペクトルの
傾きを用いる従来例よりも、セグメンテーションをより
確実に行なりことができるよりになった。
(6)男女計40名が発声した200都市名単語を対象
とした不特定話者単語認識実験において。
従来例による平均認識率が88裂であったのに対し、本
実施例によると96%という良好な結果を得ることがで
さた。丑だ、本実殉例では、従来例よりも個人差による
認識率のばらつきが小さく、不特定話者認識により適し
ていることが証明さ′nだ。
−1−詑の結果は主に、特徴パラメータとしてLPGケ
プストラム係数を使用し、統計的距離尺度で尤度計算を
行なうようにしたこと、セグメンテーション精度を向上
させたことに依っている。
発明の効果 以4−のようVC本発明は入力音声を線形予4111分
析法で分析してLPGケプヌトラム係数を抽出するLP
G分析部と、前記LPG分析部の結果と標準パターン格
納バ1sからの履M゛性音素の標準ツクターンとの類似
度を、線形判別関数、マノ・マノビス距離。
ベイズ判定などの統計的距離尺度によって計算して母音
性音素に対する入力音声−の尤度を求める第1の尤度旧
算部と、前記第1の尤度計算部の結果によりその時間的
継続性を利用してセグメ・ンテーンヨンと認識を行う第
1の認識部と、入力音声また(はその分析結果に基づき
有声と無声を判別する有声・無声判定部と、入力音声の
低域パワー情報と高域パワー情報を求めるセグメンテー
/ヨン用パラメータ抽出部と、前記結果より求めらnf
c前記パワー情報の時間的変動と前記第1の尤度計算部
の結果と前記有声・無声判定部の結果とから子音性音素
のセグメンテーションを行う子音性音素士グメンテー/
ヨン部と、前記子音1牛音累セグメンテ一ンヨン部で得
らt″1.り区間に対し、LPG分析部からの係数と標
準パターン格納部からの子音性音素の標準パターンとの
石似度を81算する第2の尤度計算部と、前記第2の尤
1=ti部の結果に基づき子音性音素を認識する第2の
認識部と、前記第1の認識部の結果と第2の認識部の結
果と(lこよジ音素系列を作成する音素系列作成部と、
前記音素系列作成部の結果と単語辞1部に含丑れている
辞書項目との間でマツチングを行うマツチング部とを備
え、前記マツチング部より片素系列に最も良く類似した
辞書項目を出力することを特徴とする音声認識装置を提
供するもので、フレームどとの音素判別率の向上、平均
母音認識率の向」二。
子音セグメンテーション脱落率の減少、セグメンテーシ
ョンの確度の向上をはかることがでさ、不特定話名に対
しても高速で高い認識率を得ることがでさる利点を有す
る。
【図面の簡単な説明】
第1図は従来の音声認識装置の構成を示すブロック図、
第2図は本発明の一実施例である音声認識装置の構成を
示すブロック図、第3図(2L)〜(C)は本発明の低
域パワー情報または面域パワー情報からパワーディップ
を検出する方法を説明する図、第4図は低域ハワーデイ
ノプ、高域パワーディップの太ささによって、子音区間
と子音の付加を判別するための゛Fll別図、第6図は
母音またはω音と17で全てのフレームを認識17、こ
の結果から子音区間を検出する方法を説明する図、第6
図(2L)〜(d)は本発明の語頭子音のセクメンテー
ション法ヲ説明するパワーによる子音検出を示す図、第
7図は本発明に係る冨素認識結果による子音検出法の例
を示す図、第8図及び第9図は本発明のセグメンテーシ
ョンの方法を具体例に基づいて説明する図、第10図は
本発明の母音の認識方法を具体例に基づいて説明する図
、第11図(+L)は本発明による半10・・・・・・
LPC分析部、11・り一人カバノファ。 12・・・・・母音尤度計算部、13・ ・・母音・鼻
1イ°標準ハターン格納部、14・・・・尤[ハ、ファ
、15・・ セフ”メンテ−/ヨン用パラメータ抽出部
%16・・・・ハワl’W報ハノフハ17−−・子音セ
グメンテーンヨン部% 18・・・・・子音尤度計算剖
、19・・・・・子音標準パターン格納部、20・・・
子音゛認識部、21・・・・・旬音認識部、22・・・
・・音素系列作成部。 60・・・・・・標準パターン格納部、61 ・・・尤
度計算i1S、e2・・・・・・尤度バッファ。 代理人の氏名 弁理士 中 尾 敏 男 はが1名第3
図 第4図 t)    Itl    15  //第5図 第11図 3,7. yWHNWWWW 特許庁長官殿 1事件の表示 昭和68年1)°に′[願第 102Q2302発明の
名称 音声認識装置 3補正をする各 IJll′lとの+、18hN       4’5 
   許   出   願   人任 所  大阪府門
真市大字門真1006番地名 4′1・ (582)松
下電器産業株式会社代表
【”5111   下  俊 
 彦4代理人 〒571 住 所  大阪府門真市大字門真1006番地松下電器
産業株式会社内 し】フ−o                    
−−明    細    書 1、発明の名称 音声認識装置 2、特許請求の範囲 (1)入力音声を線形予測分析法で分析してLPCケプ
ストラム係数を抽出するLPC分析部と、前記LPC分
析部の結果と標準パターン格納部からの母音性音素の標
準パターンとの類似度を、線形判別関数、マハラノビス
距離、ベイズ判定などの統計的距離尺度によって計算し
て母音性音素に対する入力音声の尤度を求める第1の尤
度計算部と、前記第1の尤度計算部の結果によりその時
間的継続性を利用してセグメンテーションと認識を行う
°第1の認識部と、入力音声寸だはその分析結果に基づ
き有声と無声を判別する有声・無声判定部と、入力音声
の低域パワー情報と高域パワー情報を求めるセグメンテ
ーション川パラメータ抽出部と、前記結果より求められ
た前記パワー情報の時間的変動と前記第1の尤度計算部
の結果と前記有声・無声判定部の結果とから子音性音素
のセグメンテ−ジョンを行う子音性音素セグメンテーシ
ョン部と、前記子音性音素セグメンテーション部で得ら
れた区間に対し、LPC分析部からの係数と標準パター
ン格納部からの子音性音素の標準パターンとの類似度を
割算する第2の尤度計算部と、前記第2の尤度引算部の
結果に基づき子音性音素を認識する第2の認識部と、前
記第1の認識部の結果と第2の認識部の結果とにより音
素系列を作成する迂素系列作取部と、前記音素系列作成
部の結果と単語辞書部に含寸れている辞書項目との間で
マツチングを行うマツチング部とを備え、前記マツチン
グ部より音素系列に最も良く類似した辞書項目を出力す
ることを特徴とする音声認識装置。 (2)第1及び第2の尤度計算部が互いに一部を共用し
て構成されていることを特徴とする特許請求の範囲第1
項記載の音声認識装置。 3、発明の詳細な説明 産業上の利用分野 本発明は音素を基本単位とする音声認識装置に関するも
のである。 従来例の構成とその問題点 第1図によって従来例の構成を説明する。図において1
はスペクトル分析部であシ、29チヤンネルの帯域フィ
ルタ群で構成されている。各々のフィルタの出力を1フ
レーム(10msec)ごとにパワー値に変換し、29
チヤンネルの帯域パワーを得る。2は帯域パワーからロ
ーカルピークを抽出するローカルピーク抽出部であり、
1フレームごとに周波数の低い順に3個(P1+ p2
. I)3とする)、またパワーの大きい順に3個(p
el 、Pe2+p、3 )ずつ求める。一方、3はセ
グメンテーション用のパラメータを抽出するセグメンテ
ー7ヨンパラメータ抽出部であり、帯域パワー情報を使
用して、全域パワー、スペクトルの傾き、低域、中域モ
ーメントがフレームごとに抽出される。セグ音区間、半
母音区間を決定する。音素判別部5では、セグメンテー
ション部4て決定された各区間に対して、ローカルピー
ク抽出部2て得られたローカルピークによって音素の判
別を行なう。音素の判別は判別図格納部6に格納されて
いる判別図にローカルピークの位置を当てはめることに
よって行なう。判別図は、1ユ音、子音、半母音の各々
に対して別々に用意されており、セグメンテーション部
4によって選択される。また、母音、半母音に対してi
l′ip1. p2.1)3 を、子音に対してはpe
l・Pe2・Pe3を用いる。 音素系列作成部7では、音素判別部6によって得られた
フレームごとの音素判別結果を、セグメンテーション部
4で得られた各セグメンテーション区間ごとに1とめ、
各区間に対して音素記号を割り轟でる。セグメンテ=ン
ヨン部4でセグメンテーションがてきない/ao/、/
lu/などの旬音連続に対しては、フレームごとの音素
判別結果の時間的な連続性によってセグメンテーション
を行なう。とのようにして入力音声を音素系列に変換す
る。 単語マツチング部8では、音素系列作成部7で得られた
入力音素系列と単語辞書9に蓄積されている単語辞書の
各項目を時間軸伸縮マツチング法によって比較し、入力
音素系列に最も近い辞1項目の内容を認識結果として出
力する。 このような構成の音声認識装置は以下のような問題点を
有する。 すなワチセグメンテーションパラメータ抽出部3で抽出
されるセグメンテーション用のパラメータでは検出でき
にくい音素がある。(髄にμ音/r/、半母音)。これ
らの音素(/i母音との類似性が大きく、パラメータの
みて検出するには限界がある。 さらに他の欠点としてフレームごとのi等素判別率が低
い。従来例では特徴パラメータとしてローカルピークの
位置を使用し、これを判別図に適11Jすることによっ
て音素の判別を行なっているっこの方法は母音や一部の
半母音に対しては、かなりの判別率が期待できるが、そ
の他の子音の判別を行なうには限界がある。 発明の目的 本発明は、従来例における上記の問題点を解決し、高い
音声認識率を得ることを目的としたものである。 発明の構成 本発明は上記目的を達成するもので入力音声を線形予測
分析法で分析してLPCケグストラム係数を抽出するL
PC分析部七、前記LPC分析部の結果と標準パターン
格納部からの母音性音素の標準パターンとの類似度を、
線形判別関数、マノ・ラノビス距離、ベイズ判定などの
続開的距離尺度によってgtWして母音性音素に対する
入力音声の尤度を求める第1の尤度割算部と、前記第1
の尤度割算部の結果によりその時間的継続性を利用して
セグメンテーションと認識を行う第1の認識部と、入力
iF’・ま/へはその分析結果に基づき有声と無声を判
別する有声・無声判定部と、入力音声の低域パワー情報
と高域パワー情報を求めるセグメンテーション用パラメ
ータ抽出部と、前記結果より求められた前記パワー情報
の時間的変動と前記第1の尤度i−1[部の結果と前記
有声・無声判定部の結果とから子音性音素のセグメンテ
ーションを行う子音性音素セグメンテーション部と、前
記子音性音素セグメンテーション部で得られた区間に対
し、LPG分析部からの係数と標準パターン格納部から
の子音性音素の標準パターンとの類似度を計算する第2
の尤度計算部と、前記第2の尤度計算部の結果に基づき
子音性音素を認識する第2の認識部と、前記第1の認識
部の結果と第2の認識部の結果とにより音素系列を作成
する音素系列作成部と、前記音素系列作成部の結果と単
語辞書部に含1れている辞書項目との間でマツチングを
行うマツチング部とを備え、前記マツチング部より音素
系列に最も良く類似した辞書項目を出力することを特徴
とする音声認識装置を提供するものである。 実施例の説明 本発明における実施例を図によって説明する。 第2図は実施例における方法を説明するだめのブロック
図である。10はLPC分析部であり、入力音声に対し
て、20m5ecのハミング窓を施し、線形予測分析(
LPG分析)を行なって、15次の線形予測係数を求め
、それらを16次のLPCケプストラム係数Cn(n−
1,2・・・・・16)を求める。LPCケプストラム
係数は1フレ・−ム(10m5tx )ことに求められ
、入カバ、ファ11および母音尤度計算部12へ送られ
る。母音尤度計算部12は入力パラメータCnと、母音
・鼻音標準パターン格納部13に格納されている5母音
と鼻音の標準パターン各々との間の類似度を統泪的距離
尺度で求め、類似度の高いIllに並べかえ、その判別
結果をフレームごとに尤度バッファ14へ送出する。標
準パターンは各母音および鼻音(/ m 、/ 、 /
 n / 、はつ音“)に対して、多くのデータによっ
て犯均値および共分散行列をあらかじめ求めておく。 統割的距離尺度には、ベイズ判定、マハラノビス距離、
線形判別関敬などかあり、それらのいずれを使用しても
、はぼ同様に良好な結果が得られる。 次に各距離尺度について簡単に説明する。 音素pの平均値ベクトルを/Ilp、共分散行列をΣ2
とすると、入力C=(C1,C2・・・・・・cd)、
d−15に対する確率密度Ppは次式で与えられる。 ・・・・・・・(1) ただし、1Σp1は行列式の値を表わし添字Tは転置を
表わす。上記の対数をとって、対数尤度Lpを求める。 1 Lp−ソC−〃1p )・Σi・(C−〃1p)−八p
(2)寸だマハラノビス距離は式(4)で定義される。 Mp−(C−−l1p)Σ士’ (C−−1tp)  
            ・    (・りこの場合式
01)でΣ9を各音素に共通として工。 =Iとして簡略化を図ってもよい。 次にΣ2−Σ、′ とし、音素pとp′を判別する線形
判別関数は D2二M −M ’ p    p −a T(C−1−b         、、、、、、
、、(6)但しaは線形判別係数、bは定数である。 式(2)9式(lり寸たは式(6)で5母音と鼻音に対
し音素ごとに尤度を計算し、大きさの比較を行なうのが
、母音尤度計算部12の機能である。 また母音・鼻音標準パターン格納部13には鳴声および
無声の標準パターンが格納されており、母音・鼻音と同
様な方法で母音尤度計算部12によって尤度が計算され
、入力フレームに対する有声・無声判定が行なわれ、そ
の結果が尤度バッファ14へ送出される。 一方、入力音声はセグメンテーンヨン用パラメータ抽出
部15に送られる。この部分では、低域フィルタ、高域
フィルタによって、低域パワー情報(pL)と高域パワ
ー情報(pH)がフレームごとに求められる。また全域
パワーも同時に求められる。これらのパワー情報は平滑
化されて、パワー情報バッファ16へ送出される。 次に子音セグメンテーション部17の機能について説明
する・ 第、3図は低域まだは高域パワー情報がらディ。 ブを抽出する方法を示している。(a)はフィルタの整
流出力を時系列でプロットしたものてあり、子音区間の
大きなディップの他に細かいディップが数多く左右する
。後者は不要なディップであるので平滑化を行なって取
除く(第3図(b))。次に(b)の信号を微分するこ
とによって(c)の信号を得る。 そして(c)の信号から最大値と最小値間の大きさpと
、最小値から最大値捷での時間長(フレーム数)Lを求
める。p>prrlXn、L<Lmax  の条件を適
用し、条件を満足するディ、プに71シ、(c)で最小
値から最大値までの区間りをディ、プ区間(子音候補〕
とする。 この方法はパワーディップの大きさの:I’ ;(:J
−をパワーの変化速度の検出に置きかえ、その最大値。 最小値を計算することによって簡易にしかも高い精度で
ディップ区間を検出することができる。 次に低域パヮーディンプ、高域パワーディップの一方寸
たけ両方によって検出された子音候補のうちから、子音
区1′¥J1を特定する方法を述べる。低域パワー情報
から74fられた前述の方法によるディップの大きさを
pe、高域パワー情報から得られたそれをphとする。 低域情報による子音候補区間と高域情(・1kによる子
音候補区間が重畳している場合、2次元部f票(P(g
+ Ph)を第4図に示す判別図に適用する。(pc、
ph)が判別図上で付加区間(斜線の内側)に位置した
場合、その子音候補は棄却する。(pe、ph)が子音
区間に位置した場合、低域パワーディップ区間と高域パ
ワーディップ区間の論理和に相当する部分を子音として
特定する。低域と高域情報による子音候補区間に重信が
ない」場合、一方を0(たとえば(pβ、0))として
判別図に適用する。 このように相補的な性質を持った低域パワー情報と高域
パワー情報をペラメータとし、その各々によって子音候
補区間を探し、さらにそれを判別図に適用することによ
って子音区間を決定する方法は、従来の方法に比較して
、有声から無声まで広い範囲の子音に有効であり、高い
精度で子音区間を検出することができる。特に有声子音
の/b/。 /’a/、/η/、/r/、無声子音/h/、有声無声
両方の性質を示す/z/に対して有効である。 しかし、上に述べたディ、プ情報を利用したセグメンテ
ーション法は鼻音区間についてはその検出率が73%程
度であり、他の有声子音に比べて検出率が充分とはいえ
ない。また撥音は持続時間が長ずきるため、ティップ′
ih報は利用できないという弱点がある。本実施例では
前に述べた母音尤度計算部12において鼻音と判定され
たフレームの連続性を利用することによる第2の子音区
間検出方法によって上記弱点を解消している。すなわち
全てのフレームに5母音と鼻音のパターンを適用すると
、鼻音/ rn / 、 / n / +撥音に相当す
る区間の各フレームは鼻音(以後/N/と表わす)とし
て認識され、その他スペクトルパターンが鼻音に類似し
ている音素(/b/、/d/、/η/ 、 /r/ )
も/N/とじて認識される確率か高い。しだがって/N
/として認識される区間を参照すれば、ティ、プが存在
し2ない区間においても、有声子音の検出を行なうこと
ができる。本実施例では/N/と認識されたフレームが
、尤度第2位のフレームも含めて6フレーム以−に連続
する区間を子音区間としている。 以−に述べた鼻音として認識されたフレームの連続性を
見ることによるセグメンテーション法は、/m/、/n
/、撥音、/b/、/cl/、/η/に対し有効である
。 次に有声・無声判定結果を利用した第3の子音区間検出
力法について述べる。持続時間が長い無声子音/s/、
/c/、/h/や/ z /は持続時間がLmax以1
−、となり、ディップが検出できない場合がある。この
場合、フレームごとの有声・無声判定結果の時間的連続
性によってセグメンテーションを行なうことができる。  ゛ 有声・無声判定の方法は零交差波、スペクトルの傾き、
第1次の自己相関係数の値などを利用する方法があり、
どの方法でもよい。 本実施例で1LPcケプストラム係数01〜c5を使用
し、有声・無声の標僧パターンとの間の距離を式(4)
のマハラノビス距離を適用して計算し、判別した場合、
96.4%のフレーム認識率を得ている。 本実施例においては、無声区間か連続してYフレーム以
上続く区間は子音区間としてセグメンテーションを行な
う。 次に上述した第1〜第3の子音区間の検出法の適用例に
ついて述べる。 第1〜第3の子音区間の検出法の組合わせとしては種々
可能であるが、低域、高域パワー情報を利用した第1の
子音区間検出法に、フレームことの音素認識結果を利用
した第2の子音区間噴出法と有声無声判定結果を利用し
た第3の子g−区間検出法のうちのいずれか一方又は両
方を組合わせるのが望ましい。 ここでは第3.第1.第2の子音区間検出法をこの順に
適用した例を示す。 (1)  音声区間に対し、先ず第3のルール(■と記
す)を適用し、無声区間が7フレ一ム以上連続する区間
を子音区間とする。 (ii)  (i)の区間を除去した区間に第1のルー
ル(■と記す)を適用し、ディノブによる子音区間を求
める。 (面 有声区間に対して第2のルール(■と記す)を適
用し、/N/と認識された区間が5フレ一ムμmに連続
する区間を子音区間とする。 (1■)上記(1)〜(110で求められた全区間を子
音区間とする。ただし、(j)と(11)捷たけ(11
)と(iiDのルー、・しによって区間が重畳して求め
られた場合、原則としてディップによって求められた区
間を優先する。 なお上記実施例では、第1の子音区間検出法に第2又は
第3の子音区間検出法のいずれか一方又は両方を組み合
わせる場合について述べだが、第1の子音区間検出法の
みであっても実用上は問題とならない。 以北は語中子音のセグメンテーション法についての説明
であったが、次に各語頭子音検出法について詳細に説明
する。 まず、低域,高域パワー情報を利用する第1の語頭子音
検出法について述べる。 第6図には、低域まだは高域パワーの語頭における時間
的変化の例を示している。 語頭が王に破裂性の子音で始する時、パワー値の時間的
変化をプロ、、トすると第6図の(a) 、 (c)の
ようになる。これは破裂性のためにパワーが急激に立上
がり、後続の母音との渡りの部分において(a)のよう
に凹状になったり、(C)のように1度なだらかになっ
てから再び立上がるからである。 (b) 、 (d)は(a)、(C)のパワーの時間的
変化の値をそれぞれ微分したものである.P1〜P3,
P1’〜P3′は(a) 、 (C)の変曲点のフレー
ム番号を示している。 ここでは音声区間の始まるフレーム番号を1にしている
。ここで、(a) 、 (b)のようにPl,P3の微
分値が正,P2の微分値が負、かつP3〈m(mはフレ
ーム番号を示すいき値)を満足する時、語,頭からP3
までを語頭子音区間として判定する。 つぎに(C)、 (ΦのようにP,′〜P3′の微分値
か正の場合P3′における微分値をσとすると、σ〉a
(aはあるいきf直)、かつP3’ (n (、nはク
レーム番号を示すいき値)をa足する時、語頭からp3
/−4でを語頭子音区間として判定する。 以」二の方法を低域パワー、高域、Cターに対して適用
し、いずれか一方に(a)又は(C)の傾向が表われれ
ば、その区間を子音と判定する。この方法は、無声破裂
音は低域パワーに、又有声破裂音は高域パワーに特徴が
現われやすいだめ、破裂音全体に対して有効である。 次に、フレーム毎の音素認識の結果を利用する第20語
頭子音噴出法について述べる。本実施例の音素認識は、
各フレーム(例えば1フレームは10m5ecとする)
毎に行なう。フレーム毎の音素認識は本実施例ではLP
Cケプストラム係数を用いて、あらかじV〕用意しであ
る各音素の標党・くター ンとの比小父によって杓なう
。(票準)(ターンとしては6母音(/a/、/i/、
/u/、/e/、10/ )。 鼻音(/N/で表わす)と無声子音(/S/で表わす)
を用いた。このようにして、各フレーム毎に類似度の最
も大きい音素(第1候補音素)と2番目KM似度の大き
い音素(第2候補音素)を求める。フレーム毎の第1候
補音素と第2候補音素をそれぞれフレーム番号の順に並
べた系列を第1候補音素および第2候補音素時系列とす
る9このようにして求めたフレーム毎の音素時系列を使
用する第2の方法は、以下に述べるような2つの場合に
分ける。 捷ず最初は、上記音素系列を語頭から順に見た時7N/
が第1候補まだは第2候補音素系列を含めであるフレー
ム数以北(例えば4フレーム以−ヒ)連続した時この区
間を子音区T4]であると判定する。 例えば/ma/をフレーム毎に音素認識した時、音素認
識の結果が第7図のようになったとすると/ N /が
第1,2候補を含めて5つフレーム連続しているので、
1〜5フレ一ム寸でを語頭子音区間とする。 この方法は、特に/m/、/n/、/b/、/d/、/
g/等に対して有効である。 次に、第1候補音素系列を語頭から順に見た時に、持続
時間の比較的短い語頭子音が存在する場合、語I/+f
f付近のスペクトル変化が激しいために認識されたフレ
ーム毎の音素系列が不安定になる傾向がある1、そこで
、語いから同−m音が連続して現われる丑での不安定な
区間が一定フレーム数以上(例えば3フレームl、、t
 J: )の時、この区間を語頭子音とする。例えば/
ga/をフレーム毎に音素認識を行ない第1候補音素系
列が/A I I AAAA/となった場合、母音/A
/が安定して出現する寸での区間/AII/を子音区間
とする。 以上述べた2つの重性のうちどちらかτ方を64足す7
1.けその区間を子音と判定する。 次に、有声・無声判定を徂1用する第3の語頭子音検出
法について述べる、 語頭の無声子音のセグメンテーションは、各フレーム毎
に行なう有声・無声判定を利用することによって、正確
に行なうことが出来る。 有声・無声判定の方法は零交差波、スペクトルの傾き、
第1次の自己相関係数の値等を利用する方法があるが、
どの方法を用いてもよい。本実施例では、有声・無声判
定の標準パターンと比較することによって判定している
。 ここで、語頭から無声の判定があるフレーム数以上連続
する時(例えば4フレーム以1= )この区間を子音区
間と判定する。この方法は、すべての無声子音に対して
有効である。 次に/Z/のように、音素の前半部分は有声性声フレー
ムが、読り時この区間を子音とする。例えば/ZU/を
フレーム毎に判定を行ない、/VVVVUUUVVVV
/(たたし/V/は有声、/U/は無声を表わす)とな
った時、無声フレームが終わるところまでを語頭子音と
する。 本実施例は上記第1〜第3の語頭子音検出法を次のよう
な順番で適用する。 ・ フレーム毎の有声・無声判定を使用して検出する第
2の方法 ・ 音声スペクトルの低域、高域パワーの時1′用的変
動の特徴を使用して検出する:A1の方法・ フレーム
毎に6母音、鼻音と無声子音をχ・」象として音素、認
識を行ないその結果を使用して検出する第3の方法 以−に述べだl1lf! l’iで適用して、子音か検
出された場合は最初に検出された方法でセグメンテーシ
ョンを行ない、それ以後のノj法は適用しない。 なお本実施例では第1〜第30語頭子音検出法をあるI
ll’iに併用する。1遍合について述べたが本発明は
こオLに限定さ:t′1..るものではなく、第1〜第
30語頭子1て検出法の適用順は任意に顆べるものであ
り、−ま/こ第1〜第3の語頭子音検出法のうち少なく
とも1方法を使用することによって充分効果を発揮する
ものである。 以−」−説明した部分について、第8図、第9図の具体
例で説明する。第8図は/da  eki/(打撃)ト
発声L 7’CJA 合、第9図は/nohara/ 
(野原)と発声した場合である。図におてい3oおよび
4゜は母音h I>音判別結果の第1位の尤度を持つ音
素記号を時系列で表わしたものである。同様に31゜4
1は第2位の音素の時系列である。32 、42は有声
・無声判別結果の時系列でありvは、そのフレームが有
声と判別されたこと、Uは無声と判別されたことを示す
。30〜32、または40〜42の結果は尤度バッファ
14に蓄積されている情報と等価である。 33.43は低域パワー情報の時間的な動きを、そして
、34.44は高域パワー情゛(1の時間的な動きを表
わしたものである。これら(Lニー+:、パワー情報バ
ッファ16に蓄積されている情報と等価である・ 先ず第8図において、/cl/ば35に示ずように音素
判別結果の第1位の尤度を持つ音素の時系列が鼻音(財
)であるので子音としてセグメンテーションされる。ま
たこの部分は高域パワー情報34が低下していることに
よっても検出できる。//は36に示すように高域パワ
ー情報34に明らかなパワーディップが存在することで
検出できろ。 この部分は尤度第1位の音素の時系列30.先度第2位
の音素の時系列31.低域パワー情報33では検出でき
ない。/に/の前に生じる無音区間/Q/は低域パワー
情報33.高域パワー情報34のパワーか低[;シてデ
ィ、プを形成していることで検出できる。/に/はこの
パワーディップの外に、有声・無声判別結果の時系列3
2が、38に示すように無声(Uで示す)になっている
ととて検出できる。 次に第9図に2いて、語頭子音/n/は、低域パワー債
報43.高域パワー情報44ては顕著な躬徴を見出せな
いか、音素判別結果の尤度第1位の音素の時系列4Qに
おいて45に示すように鼻音フレームが連続しているこ
とで検出できる。 /h/は46に示すように低域パワー情報43゜高域パ
ワー情報44のパワーディップで検出できる・また/r
/は、高域・々ター情報44のディ。 プ47によって検出できる。 以上、例によって示したように、低域パワー。 高域パワーの時間変化、母音・鼻音判別結果の時間的連
続1(1−および有声・無声判別結果を併用することに
よって、精度の高い子音セグメンテーションを行なうこ
とが可能となった。 第2図の子音尤度5」鼻部18は、子音セグメンテーシ
ョン部17で検出された子音区間に討して、入力バッフ
ァ11から送出されてくる入力パラメータと、子音標準
パターン格納部19の各々の子音標準パターンとの間で
尤度訓算を行ない、尤度の高い音素から順に並べる。子
音認識部20は、子音尤度計算部18から送出されてく
る結果と、時間的な持続性(フンーム数)などを考fソ
して、その区間の子音を決定する。 次に母音認識部21の機能を第10図によって説明する
。第10図は第8図、第9図と同様な形式である。(−
たたし、有声・無声判別結果は省略しである。)第10
図において、語頭の10/は音素判別結果の尤度第1位
の音素の時系列50の連続性で認識される。半母音/J
/の)415分は56に示されるように尤度第1位の音
素の時系列50の結襲かられかるようにIからEに変化
しているが、各々の持続時間が短く、しかも工からEに
変化するパターンは、典型的な/J/のパターンである
ので、この部分を/j/とじて認識する。 / a /の部分は56に示されるように昏末判別結果
の尤度第1位の音素の時系列ら0の連続性より認識され
る5/u/の部分は尤度第1位の音素の時系列60と尤
度第2位の音素の時系列61を用い、67に示すように
0とUが混在しているがUの方が優勢であるので/11
/として認識する。語尾の撥音/N/も58に示すよう
に尤度第1位の音素の時系列60より、前記と同様に認
識される(撥音は母音に含める)。 次に前記のうち半母音の認識についてさらに詳しく説明
する。半母音(拗音も含む)を認識する場合、母音認識
部21の一部に設けられた半母音候補検出用母音時系列
パターン格納部に、予め、多数の話者の発声したm語音
声データを基に作成された母音時系列から、半母音区間
伺近に共通して現われる母音の時系列の変化(これを母
音時系列パターンと呼ぶ)のうち出現頻度の特に多いも
のをいくつか抽出し、格納しておく。半母音の判定には
、尤度バッファ14から送出される母音時系列と、半母
音候補検出用母音時系列パターン格納部に格納されてい
る半母音候補検出のだめの母音時系列パターンとが逐次
比較照合され、 Hしたものについて、更にパターンの
持続時間、音素結合規則、有声無声無音判定結果を考慮
して半母音の判定及びセグメンテーションが行なわれる
。 ここで、実際に、半母音/i/及び/W/を認識し/ζ
例を図を用いて説明する。第11図は、本実施例による
半母音の認識例である。先ず、a +d/1esuur
joo/ (手数料)という発声から/rio/の部分
を例として抜き出して示したものである。 (−)において23は予め、分析区間毎につけられ/こ
音素ラベルであり、24は子音の認識結果であるつこの
例で、入力音声を旬音時系々1]に変換した結果26か
ら、半母音候補検出用母音時系列パターンの1つである
” I EUO” によって半母音/i/の候補区間が
検出される。この例ではパターンの”IEU”の区間が
半母音候補区間、°′○′″の区間が後続母音区間であ
る。後続母音区間が閾値以上あシまた、半母音候tDj
区間が閾値以下であること、お、よび、子音あるいは無
声・無音区間と半母音候補区間との位置関係が考慮され
最終的に、26の半母音/i/の認識結果が得られる。 次に、申)は/aWa/(泡)という発声を例として示
したもので、27は予め、分析区間毎につけられた音素
ラベルであり28は子音の認識結果である。ここで、入
力音声をU昔時系列に変換した結果29から、半母音候
補検出用旬音時系列パターンの1つである’AOA”に
よって半母音/W/候補区間が検出される。この例では
、パターン゛′O″′の区間が半母音候補区間、”A″
の区間がそれぞれ先行母音区間、後続母音区間となる。 先行fl音区間、後続母音区間がそれぞれ閾値以上あり
、半母音候補区間が閾値以下であることから、例えば/
aoao/ (青々)という発声の/aoa/の部分と
区別さノL、半母音/W/が存在すると判断される。更
に、半母音候補区間に子音が認識されている場合、鼻音
性をもたない子音の場合には、子音区間も含めて半母音
候補区間とし、その区間が閾値以内であり、しかも無声
・無音区間ではない場合には、半母音を優先して、30
の半母音/W/の認識結果が得られる。 音素系列作成部22は、子音認識部20から送出される
子音認識結果と、母音認識部21から送出される母音認
識結果を総合して、音素系列を生成する部分である。こ
の部分では日本語の音形規則、例えば、撥音以外の子音
が2つ以上連続する場合は、その間に母音/】/捷たは
/u/が存在する、とか、母音/1/や/u/は無声化
しゃすい・・・・・・などの規則によって、音素の判別
結果を修正する機能も有する。 このようにして作成された音素系列は、単語マツチング
部8において、単語辞書9の内容と1つずつ比較され、
最す類似度の高い単語が認識結果とし、て出力される。 第12図は認識処理の高速化を目的とした本発明の他の
実施例て、より実用的なブロック構成である。第2図で
は、子音部に対する距離M−Vjfiiは、子音セグメ
ンテーションの後であるため、時間的な遅れが生じ、こ
のため入カバソファ11が必要であった。第12図はこ
の部分を改良し、高速化を行なったものである。第12
図で第2図と同じ番号のブロックは、同一の機能を有す
る。第12図の標準パターン格納部60は、第2図にお
ける勾音・ハ、音標準パターン格納部13と子音標準パ
ターン格納部19の両方を含んでいる。尤度割算部61
は母音・鼻音および子音に対する尤度をいっしょに計算
し、それらを別々に尤度バ・ソファ62に蓄積しておく
。子音認識部2oでは尤度バッファ620子音尤度の中
で、子音セグメンテーション部17で子音区間と決定さ
れた部分の情報のみを使用して子音の認識を行なう。こ
の」=うな構成にすると、不要な部分の尤度寸で計やす
ることになるが、子音認識の時間遅れがなく、余分の入
力バノファが不要となる。そして複雑な尤度割算部の1
部が共用できるので回路構成がff1M弔になる利点が
ある。その他の部分は第2図と同様である。 上記実施例は従来例に比し塚、下のような利点を有する
。 (1)従来例でに1、音声信号を帯域フィルタで分析シ
、ローカルピークを抽出してそれを特徴パ、  ラメー
タとしていだが、本実施例ではLPC分析によってLP
Cケプストラム係数を抽出し、特徴パラメータとした。 LPC分析では音声波形から個人性を多く含む声帯音源
情報を除去できるため、不特定話者の発声に対して強い
システムとすることかできた。しかも声帯音源情報の除
去によって相対的に音韻性が強調されるだめ、フレーム
ごとの音素判別率を高くできたつまだローカルピークか
主に音声のフォルマントを表わすパラメータであるのに
7寸し、LPCケプストラム係数はフォルマントを含ん
だ周波数スペクトル概形全体を表わずパラメータである
ため、後者の方が情報量が多く、認識率の向上に役立っ
た。特にフォルマント構造がはっきりしない無声子音間
の判別には効果か高い。 (2)従来例においては、フレーノ、ごとの音素?l’
4j別のだめに、ローカルピークを判別図に当てはめる
方法であったが、本実施例ではマハラノビス距離、ベイ
ズ判定、線形判別関数などの統計的距離尺度によって入
力LPCケフストラム係数と標準パターンとの間でパタ
ーンマツチングを行なう方法を採用した。フレームごと
の平均母音認識率が従来例では78.4%であったが、
本発明では85.2%に向上した。 (3)従来例では、セグメンテーションパラメータのみ
で子音の存在を検出していたが、鼻音や/r/なとの有
声子音は検出できない場合が多かった。本実施例では、
セグメンテーションパラメータの他に、61υ音と鼻音
(/m/、/n/。 はつ音)を対象とした前記フレームごとの音素認識結果
、およびフレームごとの有声・無声判別結果を併用した
。すなわち、音素認識結果で鼻音フレームが連続する場
合は有声子音区間とし、有声・無声判別結果で無声フレ
ームが連続する場合はその区間を無声子音区間としだ。 これに」;って子音のセグメンテーション脱落率を大き
く減少することかできた。 (4)  セグメンテーション用のパラメータとして、
低域パワーおよび高域パワー情報を導入した。 こノ1らのパラメータによって全域パワーとスペクトル
の傾きを用いる従来例よりも、セグメンテーションをよ
り確実に行なうことかできるようになった。 (6)男女計40名が発声した200都市名単語を対象
とした不特定話者単語認識実験において、従来例による
平均認識率が88%であったのに対し、本実施例による
と96%という良好な結果を得ることができた。寸だ、
本実施例では、従来例よりも個人差による認識率のばら
つきか小さく、不特定話者認識により適していることが
証明された。 上記の結果は主に、特徴パラメータとしてLPCケプス
トラム係数を使用し、統計的距離尺度で尤度割算を行な
うようにしたこと、セグメンテーション精度を向上させ
たことに依っている。 発明の効果 以上のように本発明は入力音声を線形予測分析法で分析
してLPCケプストラム係数を抽出するLPC分析部と
、前記LPC分析部の結果と標準パターン格納部からの
母音性音素の標準パターンとの類似度を、線形判別関数
、マハラノビス距離。 ベイズ判定などの紐引的距離尺度によって計算して母音
性音素に対する入力音声の尤度を求める第1の尤度計算
部と、前記第1の尤度計算部の結果によりその時間的継
続性を利用してセグメンテーションと認識を行う第1の
認識部と、入力音声丑たはその分析結果に基づき有声と
無声を判別する有声・無声判定部と、入力音声の低域パ
ワー情報と高域パワー情報を求めるセグメンテーション
用パラメータ抽出部と、前記結果より求められた前記パ
ワー情報の時間的変動と前記第1の尤度割算部の結果と
前記有声・無声判定部の結果とから子音性音素のセグメ
ンテーションを行う子音性音素セグメンテーション部と
、前記子音性音素セグメンテーション部で得られた区間
に対し、LPC分析部からの係数と標準パターン格納部
からの子音性音素の標準パターンとの類似度を計算する
第2の尤度計算部と、前記第2の尤度割算部の結果に基
づき子音性音素を認識する第2の認識部と、前記第1の
認識部の結果と第2の認識部の結果とにより音素系列を
作成する音素系列作成部と、前記音素系列作成部の結果
と単語辞書部に含まれている辞書項目への間でマツチン
グを行うマツチング部とを備え、前記マツチング部より
音素系列に最も良く類似した辞書項目を出力することを
特徴とする音声認識装置を提供するもので、フレームご
との音素判別率の向上、平均母音認識率の向上。 子音セグメンテーション脱落率の減少、セグメンテーシ
ョンの確度の向」二をはかることかでき、不特定話者に
対しても高速て高い認識率を得ることができる利点を有
する。 4、図面の簡単な説明 第1図は従来の音声認識装置の構成を示すブロック図、
第2図は本発明の一実施例である音声認識装置の構成を
示すブロック図、第3図(a)〜(c)は本発明の低域
パワー情報または高域パワー情報からパワーディップを
検出する方法を説明する図、第4図は低域パワーディッ
プ、高域パワーディップの大きさによって、子音区間と
子音の付加を判加するだめの判別図、第6図は母音1プ
杜は鼻音として全てのフレームを認識し、この結果から
子音区間を検出する方法を説明する図、第6図0)〜(
d)は本発明の語頭子音のセグメンテーション法を説明
するパワーによる子音検出を示す図、第7図は本発明に
係る音素認識結果による子音検出法の例を示す図、第8
図及び第9図は本発明のセグメンテーションの方法を具
体例に基づいて説明する図、第10図は本発明の母音の
認識方法を具体例に基づいて説明する図、第11図(a
)は本発明による半母音/i/の検出例を示す図、第1
1図(b)は本発明による半母音/W/の検出例を示す
図、第12図は他の実施例のブロック図である。 1o・・・LPC分析部、11・・・・・入力バノファ
、12 ・ 母音尤度割算部、13 ・・・母音・鼻音
標準ハターン格納部、14・−・尤度バノフーア、16
・・・セグメンテーンヨンIIJパラメータ抽出部、1
6・・ パワー情報バ、ファ、17・・・・子音セグメ
ンテーション部、18・・・ 子音尤度計算部、19・
・・・子音標準パターン格納部、2o・・・子音認識部
、21・・・・・匂音認識部、22・・・・音素系列作
成部、60・・・・・・標準パターン格納部、61・・
・・・尤度計算部、62・・・・・尤iバ、yフ了。

Claims (2)

    【特許請求の範囲】
  1. (1)入力音声を線形予測分析法で分析してLPGケプ
    ストラム係数を抽出するLPG分析部と、前記LPG分
    析部の結果と標準パターン格納部からの旬蛭性片素の標
    準パターンとの類似度を。 線形判別関数、マハラノビス距離、ベイズ判定などの統
    d1的距離尺度によって計算して七月イ性賛素に対する
    入力音声の尤度を求める第1の尤度計算部と、前記第1
    の尤度計算部の結果によりその時間的継続性を利用して
    セグメンテーションと認識を行う第1の認識部と、入力
    音声せたはその分析結果に基づき有声と無声を判別する
    有声・無声判定部と、入力音声の低域パワー情報と高域
    パワー情報を求めるセグメンテーション用パラメ・−夕
    抽出部と、前記結果より求められた前記パワー情報の時
    間的変動と前記第1の尤度J1算部の結果と前記有声・
    無声判定部の結果とから子音性音素のセグメンテー/ヨ
    ンを行う子音性音素セグメンテーンヨン部と、前記子音
    性音素セグメンテーンヨン部で得らnた区間に対し、L
    PG分析部からの係数と標準パターン格納部からの子音
    性音素の標準パターンとの類似度を計算する第2の尤度
    計算部と、前記第2の尤度計算部の結果に基づき子音性
    音素を認識する第2の認識部と、前記第1の認識部の結
    果と第2の認識部の結果とにより音素系列を作成する昔
    素系列作Fy、部と、前記音素系列作成部の結果と単語
    辞書部に含寸れている辞書項目との間でマツチングを行
    うマツチング部とを備え、前記マツチング部より音素系
    列に最も良く類似した辞書項目を出力することを特徴と
    する音声認識装置。
  2. (2)第1及び第2の尤度計算部が互いに一部を共用し
    て構成されていることを特徴とする特許請求の範囲第1
    項記載の音声認識装置。
JP58102023A 1983-06-07 1983-06-07 音声認識装置 Granted JPS59226400A (ja)

Priority Applications (4)

Application Number Priority Date Filing Date Title
JP58102023A JPS59226400A (ja) 1983-06-07 1983-06-07 音声認識装置
US06/618,368 US4736429A (en) 1983-06-07 1984-06-07 Apparatus for speech recognition
EP84303870A EP0128755B1 (en) 1983-06-07 1984-06-07 Apparatus for speech recognition
DE8484303870T DE3473666D1 (en) 1983-06-07 1984-06-07 Apparatus for speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP58102023A JPS59226400A (ja) 1983-06-07 1983-06-07 音声認識装置

Publications (2)

Publication Number Publication Date
JPS59226400A true JPS59226400A (ja) 1984-12-19
JPS6336676B2 JPS6336676B2 (ja) 1988-07-21

Family

ID=14316150

Family Applications (1)

Application Number Title Priority Date Filing Date
JP58102023A Granted JPS59226400A (ja) 1983-06-07 1983-06-07 音声認識装置

Country Status (4)

Country Link
US (1) US4736429A (ja)
EP (1) EP0128755B1 (ja)
JP (1) JPS59226400A (ja)
DE (1) DE3473666D1 (ja)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5997200A (ja) * 1982-11-26 1984-06-04 株式会社日立製作所 音声認識方式
US4860358A (en) * 1983-09-12 1989-08-22 American Telephone And Telegraph Company, At&T Bell Laboratories Speech recognition arrangement with preselection
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
EP0243479A4 (en) * 1985-10-30 1989-12-13 Central Inst Deaf LANGUAGE PROCESSING ARRANGEMENT AND METHOD.
JPH0760318B2 (ja) * 1986-09-29 1995-06-28 株式会社東芝 連続音声認識方式
EP0290190B1 (en) * 1987-04-30 1991-10-09 Oki Electric Industry Company, Limited Pattern matching system
EP0364501A4 (en) * 1987-06-09 1993-01-27 Central Institute For The Deaf Speech processing apparatus and methods
US5255342A (en) * 1988-12-20 1993-10-19 Kabushiki Kaisha Toshiba Pattern recognition system and method using neural network
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
JPH03171199A (ja) * 1989-11-30 1991-07-24 Takayama:Kk 音声認識方法
US6236964B1 (en) * 1990-02-01 2001-05-22 Canon Kabushiki Kaisha Speech recognition apparatus and method for matching inputted speech and a word generated from stored referenced phoneme data
DE69128990T2 (de) * 1990-09-07 1998-08-27 Toshiba Kawasaki Kk Sprecherkennungsvorrichtung
JP3050934B2 (ja) * 1991-03-22 2000-06-12 株式会社東芝 音声認識方式
DE4111995A1 (de) * 1991-04-12 1992-10-15 Philips Patentverwaltung Schaltungsanordnung zur spracherkennung
JP3066920B2 (ja) * 1991-06-11 2000-07-17 キヤノン株式会社 音声認識方法及び装置
JPH04362698A (ja) * 1991-06-11 1992-12-15 Canon Inc 音声認識方法及び装置
JPH0573100A (ja) * 1991-09-11 1993-03-26 Canon Inc 音声合成方法及びその装置
US5526466A (en) * 1993-04-14 1996-06-11 Matsushita Electric Industrial Co., Ltd. Speech recognition apparatus
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
JP3450411B2 (ja) * 1994-03-22 2003-09-22 キヤノン株式会社 音声情報処理方法及び装置
EP0703566A1 (en) * 1994-09-23 1996-03-27 Aurelio Oskian Device for recognizing speech
AU712743B2 (en) * 1994-12-08 1999-11-18 Regents Of The University Of California, The Method and device for enhancing the recognition of speech among speech-impaired individuals
US5684925A (en) * 1995-09-08 1997-11-04 Matsushita Electric Industrial Co., Ltd. Speech representation by feature-based word prototypes comprising phoneme targets having reliable high similarity
US5754978A (en) * 1995-10-27 1998-05-19 Speech Systems Of Colorado, Inc. Speech recognition system
DE19610848A1 (de) * 1996-03-19 1997-09-25 Siemens Ag Rechnereinheit zur Spracherkennung und Verfahren zur rechnergestützten Abbildung eines digitalisierten Sprachsignals auf Phoneme
WO1997037345A1 (en) * 1996-03-29 1997-10-09 British Telecommunications Public Limited Company Speech processing
US6109107A (en) 1997-05-07 2000-08-29 Scientific Learning Corporation Method and apparatus for diagnosing and remediating language-based learning impairments
US5927988A (en) * 1997-12-17 1999-07-27 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI subjects
US6019607A (en) * 1997-12-17 2000-02-01 Jenkins; William M. Method and apparatus for training of sensory and perceptual systems in LLI systems
US6159014A (en) * 1997-12-17 2000-12-12 Scientific Learning Corp. Method and apparatus for training of cognitive and memory systems in humans
AU777693B2 (en) 1999-03-05 2004-10-28 Canon Kabushiki Kaisha Database annotation and retrieval
JP2001117579A (ja) * 1999-10-21 2001-04-27 Casio Comput Co Ltd 音声照合装置、音声照合方法、及び音声照合処理プログラムを記憶した記憶媒体
DE60036486T2 (de) 1999-10-28 2008-06-12 Canon K.K. Methode und apparat zum prüfen von musterübereinstimmungen
US7310600B1 (en) 1999-10-28 2007-12-18 Canon Kabushiki Kaisha Language recognition using a similarity measure
US6882970B1 (en) 1999-10-28 2005-04-19 Canon Kabushiki Kaisha Language recognition using sequence frequency
GB0011798D0 (en) * 2000-05-16 2000-07-05 Canon Kk Database annotation and retrieval
GB0015233D0 (en) 2000-06-21 2000-08-16 Canon Kk Indexing method and apparatus
GB0023930D0 (en) 2000-09-29 2000-11-15 Canon Kk Database annotation and retrieval
GB0027178D0 (en) 2000-11-07 2000-12-27 Canon Kk Speech processing system
GB0028277D0 (en) * 2000-11-20 2001-01-03 Canon Kk Speech processing system
EP1286329B1 (en) * 2001-08-23 2006-03-29 Culturecom Technology (Macau) Ltd. Method and system for phonetic recognition
JP3678421B2 (ja) * 2003-02-19 2005-08-03 松下電器産業株式会社 音声認識装置及び音声認識方法
US20050153267A1 (en) * 2004-01-13 2005-07-14 Neuroscience Solutions Corporation Rewards method and apparatus for improved neurological training
US20050175972A1 (en) * 2004-01-13 2005-08-11 Neuroscience Solutions Corporation Method for enhancing memory and cognition in aging adults
US9020816B2 (en) * 2008-08-14 2015-04-28 21Ct, Inc. Hidden markov model for speech processing with training method
US20140207456A1 (en) * 2010-09-23 2014-07-24 Waveform Communications, Llc Waveform analysis of speech
RU2466468C1 (ru) * 2011-06-30 2012-11-10 Даниил Александрович Кочаров Система и способ распознавания речи
EP2737479B1 (en) * 2011-07-29 2017-01-18 Dts Llc Adaptive voice intelligibility enhancement
GB2495755A (en) * 2011-10-20 2013-04-24 Gm Global Tech Operations Inc Correction of fuel injection timings in an internal combustion engine

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161798A (en) * 1981-03-30 1982-10-05 Nippon Telegraph & Telephone Voice recognition unit

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57161798A (en) * 1981-03-30 1982-10-05 Nippon Telegraph & Telephone Voice recognition unit

Also Published As

Publication number Publication date
EP0128755B1 (en) 1988-08-24
DE3473666D1 (en) 1988-09-29
US4736429A (en) 1988-04-05
JPS6336676B2 (ja) 1988-07-21
EP0128755A1 (en) 1984-12-19

Similar Documents

Publication Publication Date Title
JPS59226400A (ja) 音声認識装置
Ahmad et al. A unique approach in text independent speaker recognition using MFCC feature sets and probabilistic neural network
US7957959B2 (en) Method and apparatus for processing speech data with classification models
Bezoui et al. Feature extraction of some Quranic recitation using mel-frequency cepstral coeficients (MFCC)
Samantaray et al. A novel approach of speech emotion recognition with prosody, quality and derived features using SVM classifier for a class of North-Eastern Languages
Martinez et al. Prosodic features and formant modeling for an ivector-based language recognition system
Kumar et al. Improvements in the detection of vowel onset and offset points in a speech sequence
Ponting et al. The use of variable frame rate analysis in speech recognition
Verma et al. Age driven automatic speech emotion recognition system
Quan et al. Reduce the dimensions of emotional features by principal component analysis for speech emotion recognition
Shahzadi et al. Recognition of emotion in speech using spectral patterns
Deekshitha et al. Broad phoneme classification using signal based features
Pandey et al. Multilingual speaker recognition using ANFIS
KR101560833B1 (ko) 음성 신호를 이용한 감정 인식 장치 및 방법
JP3444108B2 (ja) 音声認識装置
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Pao et al. Emotion recognition from Mandarin speech signals
Nidhyananthan et al. A framework for multilingual text-independent speaker identification system
Driaunys et al. Implementation of hierarchical phoneme classification approach on LTDIGITS corpora
Dass The Comparative Analysis of Speech Processing Techniques at Different Stages
Bhattachajee et al. An experimental analysis of speech features for tone speech recognition
JP2658426B2 (ja) 音声認識方法
Deekshitha et al. Implementation of Automatic segmentation of speech signal for phonetic engine in Malayalam
Al Hindawi et al. The exploitation of Multiple Feature Extraction Techniques for Speaker Identification in Emotional States under Disguised Voices
JP2943445B2 (ja) 音声認識方法