JPH02124600A

JPH02124600A - 音声認識装置

Info

Publication number: JPH02124600A
Application number: JP1079771A
Authority: JP
Inventors: Jun Kametani; 亀谷　潤
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 1988-07-20
Filing date: 1989-03-30
Publication date: 1990-05-11
Anticipated expiration: 2012-02-12
Also published as: JP2580768B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔産業上の利用分野〕この発明は電話回線やマイクロフォン等の入力媒体を持
つ不特定話者用の音声信号識別符に関し、特に無声破裂
音を分離し、その時間的特徴を用いて無声破裂音を独立
に識別することができる音声信号識別符に関する。

〔従来の技術〕

従来、音声信号識別符は第６図に示すような構成になっ
ていた。

すなわち、この音声信号識別符は、先ず音声始終端検出
部３１において入力信号中から音声信号の存在する区間
を検出し、音響分析部３２においてその音声信号の特徴
ベクトルを時系列の形で抽出する。

次に音素認識部３３において、前記特徴ベクトルに基づ
き、標準パターンもしくは識別関数を用いた音素候補列
に変換する。最後に上位レベル認識部３４で単語単位あ
るいは音節単位の認識を行う。

〔発明が解決しようとする課題〕

前述した従来の音声信号識別符は、以下のような問題が
ある。

音響分析部３２で抽出される特徴ベクトルは、チャネル
フィルタバンク分析による各周波数帯域のパワーもしく
はＬＰＣケプストラムまたはメルケプストラム分析によ
るケプストラム係数である。

これらの特徴ベクトルは、破裂性の子音（日本語では／
ｐ／、／ｌ／、／に／、／ｂ／、／ｄ／／ｇ／の各音素
）に対して必ずしも有効ではないことが知られている。

（イ）チャネルフィルタバンクによる周波数分析による
ものにあっては、破裂音そのものの周波数特性が低域か
ら高域に渡りほぼ平坦であるため、母音に見られるよう
なフォルマント構造の違いによる音素の識別を行うこと
は困難である。

（ロ）ケプストラム分析によるものにあっては、ケプス
トラム係数を算出するために音声信号をある一定の区間
に渡って切り出して分析する必要があることから、破裂
音のような継続時間の短い音素は、後続母音の特徴に破
裂音の特徴が隠される危険性が高い。

いずれの場合にしても、従来の音響分析方法を使用する
音声信号識別符では、破裂音の音素認識率が低く、音声
信号識別符全体の認識率も低いものであった。

この発明の目的は、前記従来の課題を解決するために、
無声破裂音を分離してその時間的特徴を用いることによ
り無声破裂音を独立に識別することができる音声信号識
別符を提供することにある。

〔課題を解決するための手段〕

請求項１記載の発明は、音声始終端検出部と、音響分析
部と、音素認識部と、波形包絡検出部と、無声破裂音識
別部と、この無声破裂音識別部と前記音素認識部との出
力側に接続される上位レベル認識部とを備える音声信号
識別符であって、前記音声始終端検出部は、入力された
音声信号の無声破裂音の有無を検出し、この無声破裂音
に対応する音声信号部分と無声破裂音以外の音声信号部
分を時系列的に各々波形包絡検出部と音響分析部に出力
するものであり、前記音響分析部は、音声始終端検出部から入力した無声
破裂音以外の音声信号部分を特徴ベクトルの時系列を示
す信号に変換して音声認識部に出力するものであり、前記音素認識部は、音響分析部から入力した特徴ベクト
ルの信号を音素候補列の信号に変換して上位レベル認識
部に出力するものであり、前記波形包絡検出部は、音声
始終端検出部から入力した無声破裂音に対応する音声信
号部分の包絡波形を検出しその包絡波形を示すエンベロ
ープ信号を無声破裂音識別部に出力するものであり、前
記無声破裂音識別部は、波形包絡検出部から入力したエ
ンベロープ信号に基づいて無声破裂音の音素の種類を識
別し、その識別信号を上位レベル認識部に出力するもの
であり、前記上位レベル認識部は、音素認識部から入力した無声
破裂音以外の音素候補列の信号と無声破裂音識別部から
入力した無声破裂音の音素の識別信号を時系列的に結合
して前記音声信号の認識を行い、その認識信号を出力す
るものであることを特徴とする。

また、請求項２記載の発明は、音声データバッファと、
線形予測分析部と、予測残差識別部と、波形包絡検出部
と、無声破裂音識別部と、音韻情報抽出部と、音素認識
部と、上位レベル認識部とを備える音声信号識別符であ
って、前記音声データバッファは、入力信号を所定サンプル数
毎フレーム化して格納し、予測残差識別部からの制御信
号受信時に破裂点位置にマークを有するマーク付フレー
ム信号を波形包絡検出部に送出するものであり、前記線形予測分析部は、音声データバッファから時系列
的に格納フレームを読み出し線形予測分析法によって算
出した予測係数と予測残差を各々示す予測係数信号と予
測残差波形信号とを各々音韻情報抽出部と予測残差識別
部に送出するものであり、前記予測残差識別部は、線形予測分析部からの予測残差
波形信号が示す音声区間フレームの無声破裂音の有無を
検出し、無声破裂音検出時に音韻情報抽出部に破裂音識
別符を送出すると共に破裂点を示すマーク情報と制御信
号とを各々波形包絡検出部と音声データバッファに送出
し、無声破裂音非検出時に音韻情報抽出部に音声信号部
分符を送出するものであり、前記波形包絡検出部は、音声データバッファからのマー
ク付フレーム信号とマーク情報に基づいて検出した無声
破裂音の包絡波形を示すエンベロープ信号を無声破裂音
識別部に送出するものであり、前記無声破裂音識別部は、波形包絡検出部からのエンベ
ロープ信号に基づいて識別した無声破裂音の音素種類を
示す識別信号を上位レベル認識部に送出するものであり
、前記音韻情報抽出部は、線形予測分析部からの予測係数
信号に基づいて算出したＬＰＣケプストラム係数を示す
ＬＰＣケプストラム係数信号を予測残差識別部からの音
声信号識別符受信時に音素認識部に送出し、破裂音識別
符受信時には前記ＬＰＣケプストラム係数に破裂音識別
符を立てたＬＰＣケプストラム係数信号を音素認識部に
送出するものであり、前記音素認識部は、音韻情報抽出部からのＬＰＣケプス
トラム係数信号を音素候補列でなる音素信号に変換して
上位レベル認識部に送出するものであり、前記上位レベル認織部は、音素認識部からの音素信号に
基づいて音節単位又は単語単位の認識を行う機能を有し
、かつ前記破裂音識別符所有の音素信号受信時に、この
音素信号の音素候補列と無声破裂音識別部からの識別信
号が示す無声破裂音の音素とを置換して前記認識を行う
ものであることを特徴とする。

〔実施例〕

先ず、請求項１記載の発明の実施例について図面を参照
して説明する。

第１図は請求項１記載の発明の一実施例に係る音声信号
識別符のブロック図である。

音声信号識別符は、音声始終端検出部１と、この音声始
終端検出部１と順次直列に接続される音響分析部２．音
素認識部３と、これら音響分析部２゜音素認識部３と並
列に配置され音声始終端検出部１と順次直列に接続され
る波形包絡検出部４．無声破裂音識別部５と、音素認識
部３と無声破裂音識別部５との出力側に接続される上位
レベル認識部６とを備えている。

音声始終端検出部１は、入力媒体７からの入力信号Ｓ。

を無音部分と音声部分に識別するところである。この識
別は、入力信号Ｓ。のパワー、零交差回数、特定の周波
数帯域のパワー等の情報を用いて行われる。また入力信
号Ｓ。は、入力媒体７においてディジクル信号化されて
おり、かつ標本化周期ごとにサンプル化されている。音
声始終端検出部１は、音声部分の始端サンプルと終端サ
ンプルを検出して音声部分の有無を識別する。この音声
部分のサンプルと始端サンプルの前の数サンプルが音声
信号Ｓ１とされる。

この音声始終端検出部１は、音声信号ＳＩの中に無声破
裂音を示す信号が含まれている場合には、無声破裂音に
対応した部分を無声破裂音信号Ｓ２として波形包絡検出
部４に出力し、無声破裂音以外の部分を示す非無声破裂
音信号Ｓ３を音響分析部２に出力する機能を有する。無
声破裂音は、般に第２図〜第４図に示すように閉止無音
区間ａに続いて急激な立上がり点（破裂点）ｂを有する
。

従って音声始終端検出部１は、この破裂点すを示すサン
プルを検出することにより無声破裂音の有無を判断する
。この無声破裂音を示す無声破裂音信号Ｓ２は、少なく
とも破裂点すの数サンプル前の閉止無音区間内の点Ｃか
ら気合区間ｄの終点までのサンプルで構成しである。な
お、第２図に示す／ｐ／の無声破裂音には気合区間が存
在しないため、無声破裂音信号Ｓ２の終点は、破裂点す
の数サンプル後の点となる。また、音声始終端検出部１
は、無声破裂音信号Ｓ２が波形包絡検出部４に出力され
た場合には、一定時間だけ音響分析部２の動作を停止し
、非無声破裂音信号Ｓ２が音響分析部２に出力された場
合には、一定時間だけ波形包絡検出部４の動作を停止す
る機能を有する。

音響分析部２は、音声始終端検出部１からの非無声破裂
音信号Ｓ３を入力して信号Ｓ３のサンプルを一定長のフ
レーム毎にまとめ、フレーム単位でメルケプストラム分
析等を行うことにより、信号Ｓ、を特徴ベクトルの時系
列に変換し、この特徴ベクトルの時系列を示す特徴ベク
トル信号ｓ４を音素認識部３に出力する機能を有する。

音素認識部３は、音響分析部２からの特徴ベクトル信号
Ｓ４を入力し、この特徴ベクトルを、標準音素パターン
とパターンマツチングするかまたは識別関数を用いる等
によって音素候補列に変換し、この音素候補列を示す音
素信号Ｓ、を上位レベル認識部６に出力する機能を有す
る。

一方、波形包絡検出部４は、音声始終端検出部１からの
無声破裂音信号Ｓ２を入力し、信号ｓ２の包絡波形を検
出し、この包絡波形を示すエンベロープ信号Ｓ６として
無声破裂音識別部５に出力する機能を有する。例えば第
４図に示す無声破裂音の音素／に／を示す信号Ｓ２の場
合には、０点から開音区間ｄの終端内に存在する気合等
の包絡波形が検出されることになる。この包絡波形の検
出には、所定のカットオフ周波数を有したローパスフィ
ルタが用いられる。

無声破裂音識別部５は、波形包絡検出部４からのエンベ
ロープ信号Ｓ６を入力し、このエンベロープ信号Ｓ６の
特徴に基づいて、入力したエンベロープ信号Ｓ６が無声
破裂音素、またはあいまいな音素、または雑音に対応す
るか識別し、識別結果を識別信号Ｓ７として上位レベル
認識部６に出力する機能を有する。具体的に説明する。

無声破裂音の波形的特徴には、第２図〜第４図に示すよ
うに、音素の違いによる差異がはっきり現れる。

従ってこの音素の特徴量として、包絡波形の極値の数ｎ
（第３図／１／ではｎ＝０、第３図／１／ではｎ＝１、
第４図／に／ではｎ＝２）、破裂点ｂのサンプルのパワ
ーと破裂点すの次の点ｅのサンプルのパワーとの比Ｒ，
，，気音区開音区間間Ｔ等を用い、この特徴量で決めら
れる／ｐ／、／ｌ／。

／に／の無声破裂音素と、あいまいな音素および雑音の
５クラスを認識関数とすることにより、入力したエンベ
ロープ信号Ｓ６がこれらのいずれのクラスに対応するか
を識別するのである。

上位レベル認識部６は、音素認識部３からの音素信号Ｓ
５と、無声破裂音識別部５からの識別信号Ｓ７に基づき
、前記入力音声信号ＳＩの音節単位または単語単位の認
識を行い、認識信号Ｓ８として出力する機能を有する。

具体的に説明する。

入力した音素信号Ｓ、がいかなる音素に該当するかを示
すためのラベル付けをし、入力した識別信号Ｓ７につい
ては、この信号Ｓ７が示す音素の区間（例えば第２図に
あっては点Ｃから開音区間ｄの終端まで）のサンプルを
１フレームにまとめ、このフレームがいかなる無声破裂
音素に該当するがを示ずためのラベル付けを行う。この
ようにラベル付けした信号Ｓ５と３７を時系列に沿って
結合し、この結合した信号を、単語辞書に基づいて単語
候補列に変換するかまたは音韻規則に基づいて音節候補
列に変換した後この候補列を示す認識信号Ｓ８を出力す
るのである。

ここで、この実施例が示す動作について説明する。

入力媒体７からの信号Ｓ。が無声破裂音を含む単語また
は連続語に係る場合には、音声始終端検出部１が入力信
号Ｓ。の中から音声信号Ｓ１を識別し、さらに信号Ｓ、
の中から無声破裂音信号Ｓ２゜非無声破裂音信号Ｓ３を
時系列的に抽出して順次波形包絡検出部４．音素分析部
２に入力させていく。例えば、音声信号Ｓ＋が順に無声
破裂音、非無声破裂音でなる単語を示すものであるとき
は、音声始終端検出部１は先ず無声破裂音信号Ｓ２が波
形包絡検出部４に入力し、その間音響分析部２の動作を
停止する。

波形包絡検出部４に入力した信号Ｓ２は、その包絡波形
が検出され、エンベロープ信号Ｓ６として出力される。

信号Ｓ６は、無声破裂音識別部５によってそれが無声破
裂音素／ｐ／、／ｌ、／。

／に／のいずれに該当するか識別され、識別信号Ｓ７と
して無声破裂音識別部５から上位レベル認識部６に出力
される。上位レベル認識部６に入力した識別信号Ｓ、は
、それに対応した無声破裂音素のラベル付けがなされる
。

この処理終了後、音声始終端検出部１が、波形包絡検出
部４の動作を停止させた状態で非無声破裂音信号Ｓ３を
音響分析部２に入力する。音響分析部２に入力した信号
Ｓ３は、特徴ベクトルの時系列に変換され、特徴ベクト
ル信号Ｓ４として音素認識部３に出力される。音素認識
部３に入力した信号Ｓ４は、標準パターンとのマンチン
グ等によって音素候補列に変換され、音素信号Ｓ５とし
て上位レベル認識部８に出力される。上位レベル認識部
６に入力した信号Ｓ５は、いかなる非無声破裂音素に該
当するかのラベル付けがなされる。

このとき上位レベル認識部６は、上位レベル認識部６に
時間的に先行して入力し、ラベル付けされた前記無声破
裂音素の識別信号Ｓ７の後に、ラベル付けされた前記非
無声破裂音素の音素信号Ｓ５を結合する。このように結
合された信号は、単語候補列または音節候補列に変換さ
れ、認識信号Ｓ８として出力される。

上位レベル認識部６から出力された認識信号Ｓ８は、装
置全体の作業目的に応じてホストコンピュータ８または
さらに上位の認識部９に入力する。

また、入力媒体７からの入力信号Ｓ。が無声破裂音を含
まない単語または連続語に係る場合には、音声始終端検
出部１で識別された音声信号Ｓ１は、非無声破裂音信号
Ｓ３と同値であり、音響分析部２、音素認識部３で順次
特徴ベクトル信号Ｓａ、音素信号Ｓ５に変換され上位レ
ベル認識部６に入力する。上位レベル認識部６に入力し
た信号Ｓ５は、前記の如きラベル付けがなされた後、単
語候補列または音節候補列に変換され、認識信号Ｓｅと
して出力される。

次に、請求項２記載の発明の実施例について第５図を参
照して説明する。

第５図は請求項２記載の発明の一実施例に係る音声信号
識別符のブロック図である。

この例における音声信号識別符は、音声データバッファ
１１と、この音声データバッファ１１に接続された線形
予測分析部１２と、この線形予測分析部１２に接続され
た音韻情報抽出部１４と、これら音声データバッファ１
１．線形予測分析部１２及び音韻情報抽出部１４とに接
続された予測残差識別部１３と、音韻情報抽出部１４に
接続された音素認識部１５と、音素認識部１５に接続さ
れた上位レベル認識部１８と、音声データバッファ１１
及び予測残差識別部１３に接続された波形包絡検出部１
６と、波形包絡検出部１６に接続された無声破裂音識別
部１７とを備えている。

音声データバッファ１１は、電話回線やマイクロフォン
等の入力媒体１９から入力した入力信号Ｓ、。

を所定の標本化周期でサンプリングしかっディジタル化
する機能を有する。さらにこの音声データバッファ１１
は、ディジタル化された入力信号ＳＩＯを所定サンプル
数ごとフレーム化し、このフレーム単位で蓄積しておく
メモリ機能をも有する。この音声データバッファ１１は
、必要に応じてその時点以前のフレームを取り出せるリ
ングバッファ形式をとっている。またこの音声データバ
ッファ１１は、予測残差識別部１３からの制御信号ＳＩ
３の受信時に制御信号ＳＩ３の原因となった予測残差波
形に対応したフレームに破裂点を示すマークを付け、こ
のフレームと後続のフレームを数個付加したマーク付フ
レーム信号Ｓｈｏを波形包絡検出部１６に送出する機能
も有する。なお、前記マークは制御信号ＳＩ３が示す破
裂点に対応するパルス位置に付けるようになっている。

線形予測分析部１２は、音声データバッファ１１から入
力信号Ｓ１゜のフレームをフレーム単位で読み出しくＳ
Ｚ）　、線形予測分析を行って線形予測係数を算出する
と共に、この線形予測係数を使い逆フィルタリングする
ことによって当該フレームに対する予測残差波形を算出
する機能を有する。この線形予測分析部１２は、線形予
測係数を示す予測係数信号ＳＩ４を音韻情報抽出部１４
に出力し、予測残差波形を示す予測残差波形信号Ｓ、□
を予測残差識別部１３に出力する機能を有する。

予測残差識別部１３は、線形予測分析部１２からの予測
残差波形信号Ｓ、□を分析し、この予測残差波形信号Ｓ
１゜に対応するフレームが無音区間のフレームか音声区
間のフレームかを判断する機能を有する。この判断は、
予測残差波形信号Ｓ１□にパワー及び振幅の大きい正の
パルスが存在するか否かで行われる。

この予測残差識別部１３は、予測残差波形信号ＳＩ２が
音声区間のフレームであると判定した場合には、このフ
レームが無声破裂音を含むか否かを判断する機能を有す
る。第２図〜第４図に示したように破裂点すは閉止無音
区間ａの後に急激に立ち上がる点である。従って予測残
差波形信号Ｓ１２が十分長い間無サンプル状態で急に振
幅の大きな正パルスのサンプルが生じるときに破裂点す
が存在する、即ち無声破裂音が存在すると判断する。そ
してこの予測残差識別部１３は、予測残差波形信号３１
２に基づいてそれに対応するフレームが無声破裂音を有
していると判断した場合には、音韻情報抽出部１４に破
裂音識別符Ｓ１５を出力する機能を有する。

この動作と並行して予測残差識別部１３は、制御信号Ｓ
１３を音声データバッファ１１に送出すると共にマーク
位置等を示すマーク情報ＳＩ６を波形包絡検出部１６に
出力する機能をも有する。また予測残差識別部１３は、
無声破裂音が存在していないと判断した場合には音声信
号識別符ＳＩ７を音韻情報抽出部１４に出力する機能を
有する。

一方、予測残差波形信号ＳＩ□が無音区間のフレームで
あると判定した場合には、予測残差識別部１３は、次の
フレームの予測残差波形信号ＳＩ□が入力するまで信号
を一切出力しないようになっている。

音韻情報抽出部１４は、線形予測分析部１２からの予測
係数信号Ｓ１４の内容を一時的にレジスタ（図示せず）
に保持しておき、予測残差識別部１３からの音声信号識
別符ＳＩ７を受信した場合に、保持している線形予測係
数に基づいて音声認識に適したＬ　Ｐ　Ｃケプストラム
係数（線形予測係数によるケプストラム係数）を算出す
る機能を有する。この係数を示すＬＰＣケプストラム係
数信号Ｓｌｌ＋は、音素認識部１５に出力されるように
なっている。また音韻情報抽出部１４は、予測残差識別
部１３がらの破裂音識別符Ｓ　Ｉ５を受信した場合に、
無声破裂音区間に相当する数フレーム分に対し破裂音識
別符を立てたＬＰＣケプストラム係数信号Ｓ１８を音素
認識部１５に出力する機能を有する。

音素認識部１５は、音韻情報抽出部１４からのＬＰＣケ
プストラム係数信号ＳＩ８に基づいて標準音素パターン
とのマツチングや識別関数等によって音素候補列に変換
する機能を有する。この変換は、ＬＰＣケプストラム係
数信号ＳＩ８の入力ごと、即ちフレーム単位で行われ、
かつ各フレームには音素レベルでのラベル付けが行われ
るようになっている。この音素認識部１５は、この音素
候補列を示す音素信号ＳＩ９を所要の前記破裂音識別符
をも含めて上位レベル認識部１８に出力する機能を有す
る。

波形包絡検出部１６は、予測残差識別部１３からのマー
ク情報ＳＩ６に基づき音声データバッファ１１がらのマ
ーク付フレーム信号Ｓ　ｚｏが示す破裂点の位置を固定
し、その点から数１０サンプル間の波形に対してその包
絡特性を抽出し、その包絡波形を示すエンベロープ信号
Ｓｏｌを無声破裂音識別部１７に出力する機能を有する
。

無声破裂音識別部１７は、波形包絡検出部１６からのエ
ンベロープ信号ＳＺ＋を入力し、このエンベロープ信号
ＳＫＩの特徴に基づいて、入力したエンベロープ信号Ｓ
ＫＩが無声破裂音素、あいまいな音素又は雑音に対応す
るかを識別し、識別結果をラベル付けし識別信号Ｓ２□
として上位レベル認識部１８に出力する機能を有する。

その具体的内容は第１図の無声破裂音識別部５と同様の
ため説明を省略する。

上位レベル認識部１８は、音素認識部１５からの音素信
号Ｓ　１９を入力し、この音素信号ＳＩ９に基づいて音
節又は単語単位の認識をする機能を有する。

このとき音素信号Ｓ１９の中から前記破裂音識別符を検
出した場合には、この音素信号ＳＩ９のラベルと一致し
たラベルを有した識別信号Ｓ２□を検出し、この識別信
号Ｓ２□が示す無声破裂音の音素と前記破裂音識別符を
有する音素信号Ｓ１９の音素候補列ｃ１とを置換する機能を有する。またこの上位レベル認識部
１８はその認識結果を示す認識信号Ｓ２３をシステムの
タスクに応じてホストコンピュータ２０又は上位の認識
部２１に出力する機能を有する。

ここで、この実施例が示す動作について説明する。

入力媒体１９から例えば第３図に示す音声が入力したと
すると、この入力信号Ｓ、。は、音声データパンファ１
１によってサンプリングされ所定サンプル数ごとにフレ
ーム化される。フレーム化された入力信号ＳＩＯは、フ
レーム単位で音声データバッファ１１に時系列的に格納
されていく。

音声データバッファ１１に格納されているフレームのう
ち、時系列的に最初のフレームがフレーム信号Ｓｌ＋と
して線形予測分析部１２によって読み出される。

フレーム信号Ｓｌ＋を入力した線形予測分析部１２は、
フレーム信号３．１１に基づいて線形予測分析を行い予
測係数信号Ｓ、４．予測残差波形信号Ｓ１□を各々音韻
情報抽出部１４．予測残差識別部１３に出力する。

予測残差波形信号Ｓ１□を入力した予測残差識別部１３
は、予測残差波形信号Ｓ　１２の示す前記最初のフレー
ムが例えば第３図の破裂点すを含む数サンプルで構成さ
れている場合には、先ず予測残差波形信号ＳＩ□を音声
区間のフレームであると判断し、次に破裂点すを含むフ
レームであると判断する。

この判断に基づいて予測残差識別部１３は、音声データ
バッファ１１．音韻情報抽出部１４及び波形包絡検出部
１６に各々制御信号Ｓ、３．破裂音識別符ＳＩ５及びマ
ーク情報ＳＩ６を送出する。

制御信号Ｓ１３を入力した音声データバッファ１１は、
当該フレームに破裂点すを示すマークを付け、当該フレ
ームと数個の後続フレームをマーク付フレーム信号Ｓｚ
ｏとして波形包絡検出部１６に出力する。

マーク付フレーム信号Ｓｈｏを入力した波形包絡検出部
１６は、破裂点すを固定し、第３図の気合区間ｄ内の無
声破裂音／１．／が含まれる数１０サンプルについてそ
の包絡特性を抽出する。そして波形包絡検出部１６は、
／１／の包絡波形を示すエンベロープ信号Ｓｏｌを無声
破裂音識別部１７に出力する。

無声破裂音識別部１７に入力したエンベロープ信号Ｓ２
１は、音素／１．／であることが識別され、音素／１／
を示すラベル付けがされた後識別信号８２２として上位
レベル認識部１８に出力される。

一方、予測係数信号Ｓ　１４と破裂音識別符Ｓ１５とを
入力した音韻情報抽出部１４は、予測係数信号ＳＩ４に
基づいてＬＰＣケプストラム係数を算出する。そして音
韻情報抽出部１４は、第３図の気合区間ｄ内の無声破裂
音／１／を含むように音声データバッファ１１から線形
予測分析部１２を介して当該フレームに後続する数フレ
ーム分を入力し、前記破裂点すを含むｒ、　ｐ　ｃケプ
ストラム係数にこれらのＬＰＣケプストラム係数を加え
かつ破裂音識別符を立ててＬＰＣケプストラム係数信号
５ｌ１１として音素認識部１５に送出する。

このＬＰＣケプストラム係数信号ＳＩＢは、音素認識部
１５によって／１．／を含む音素候補列に変換されかつ
ラベル付けされる。この音素候補列は、音素信号Ｓｌ’
ｌとして上位レベル認識部１８に送出される。

音素信号ＳＩ９を入力した上位レベル認識部１８は、レ
ジストしである識別信号Ｓ２゜を読み出し、この識別信
号Ｓ２□の示す音素／１／のラベルと一致する音素を前
記音素候補列の中から認識する。

上位レベル認識部１８による上記認識と並行して線形予
測分析部１２は、第３図の開音区間ｄ以降のフレームを
順次音声データバッファ１１から読み出し線形予測分析
を行って予測係数信号Ｓ１４．予測残差波形信号ＳＩ２
を各々音韻情報抽出部１４．予測残差識別部１３に送出
する。

予測残差識別部１３は、予測残差波形信号ＳＩ□に破裂
点すが含まれていないことを確認し、音声信号識別符Ｓ
ｌ？を音韻情報抽出部１４に送出する。このとき予測残
差識別部１３からは音声データバッファ１１に対して制
御信号ＳＩ３が送出されず、音声データバッファ１１．
波形包絡検出部１６．無声破裂音識別部１７は休止状態
となっている。

予測残差波形信号ＳＩ４と音声信号識別符ＳＩＴとを入
力した音韻情報抽出部１４は、予測係数信号Ｓ＋ａに対
応したＬＰＣケプストラム係数を算出しこれを示すＬＰ
Ｃケプストラム係数係数信号Ｓｌｌ前素認識部１５に送
出する。

音素認識部１５に入力したＬＰＧケプストラム係数信号
Ｓ＋ａは、開音区間ｄ以降の音素に対する音素候補列に
変換され、ラベル付けされた後音素信号ＳＩ９として上
位レベル認識部１８に送出される。

上位レベル認識部１８は、前述のように認識した無声破
裂音／１．／のあとに時系列的に開音区間ｄ以降の音素
の前記音素候補列を結合し、音節単位又は単語単位の認
識を行う。この認識結果は認識信号３２３としてホスト
コンピュータ２０又は上位の認識部２１に送出される。

尚、入力信号ＳＩＯが無声破裂音を含まない音声信号の
場合には、第３図の開音区間ｄ以降の信号と同様に処理
される。

〔発明の効果〕

これらの発明は以上説明したように構成されているため
、無声破裂音の識別率の向上と装置全体の音声認識率の
向上を図ることができる効果がある。

【図面の簡単な説明】

第１図は請求項１記載の発明の一実施例を示すブロック
図、第２図〜第４図は無声破裂音の波形的特徴を示す図、第５図は請求項２記載の発明の一実施例を示すブロック
図、第６図は従来の音声信号識別符を示すブロック図である
。１・・・・・音声始終端検出部２・・・・・音響分析部３．１５・・・音素認識部４．１６・・・波形包絡検出部５．１７・・・無声破裂音識別部６．１８・・・上位レベル認識部７１９・・・入力媒体１１・・・・・音声データバッファ１２・・・・・線形予測分析部１３・・予測残差識別部１４・・音韻情報抽出部

Claims

【特許請求の範囲】

（１）音声始終端検出部と、音響分析部と、音素認識部
と、波形包絡検出部と、無声破裂音識別部と、この無声
破裂音識別部と前記音素認識部との出力側に接続される
上位レベル認識部とを備える音声認識装置であって、前記音声始終端検出部は、入力された音声信号の無声破
裂音の有無を検出し、この無声破裂音に対応する音声信
号部分と無声破裂音以外の音声信号部分を時系列的に各
々波形包絡検出部と音響分析部に出力するものであり、前記音響分析部は、音声始終端検出部から入力した無声
破裂音以外の音声信号部分を特徴ベクトルの時系列を示
す信号に変換して音声認識部に出力するものであり、前記音素認識部は、音響分析部から入力した特徴ベクト
ルの信号を音素候補列の信号に変換して上位レベル認識
部に出力するものであり、前記波形包絡検出部は、音声始終端検出部から入力した
無声破裂音に対応する音声信号部分の包絡波形を検出し
その包絡波形を示すエンベロープ信号を無声破裂音識別
部に出力するものであり、前記無声破裂音識別部は、波
形包絡検出部から入力したエンベロープ信号に基づいて
無声破裂音の音素の種類を識別し、その識別信号を上位
レベル認識部に出力するものであり、前記上位レベル認識部は、音素認識部から入力した無声
破裂音以外の音素候補列の信号と無声破裂音識別部から
入力した無声破裂音の音素の識別信号を時系列的に結合
して前記音声信号の認識を行い、その認識信号を出力す
るものであることを特徴とする音声認識装置。
（２）音声データバッファと、線形予測分析部と、予測
残差識別部と、波形包絡検出部と、無声破裂音識別部と
、音韻情報抽出部と、音素認識部と、上位レベル認識部
とを備える音声認識装置であって、前記音声データバッファは、入力信号を所定サンプル数
毎フレーム化して格納し、予測残差識別部からの制御信
号受信時に破裂点位置にマークを有するマーク付フレー
ム信号を波形包絡検出部に送出するものであり、前記線形予測分析部は、音声データバッファから時系列
的に格納フレームを読み出し線形予測分析法によって算
出した予測係数と予測残差を各々示す予測係数信号と予
測残差波形信号とを各々音韻情報抽出部と予測残差識別
部に送出するものであり、前記予測残差識別部は、線形予測分析部からの予測残差
波形信号が示す音声区間フレームの無声破裂音の有無を
検出し、無声破裂音検出時に音韻情報抽出部に破裂音識
別符を送出すると共に破裂点を示すマーク情報と制御信
号とを各々波形包絡検出部と音声データバッファに送出
し、無声破裂音非検出時に音韻情報抽出部に音声信号識
別符を送出するものであり、前記波形包絡検出部は、音声データバッファからのマー
ク付フレーム信号とマーク情報に基づいて検出した無声
破裂音の包絡波形を示すエンベロープ信号を無声破裂音
識別部に送出するものであり、前記無声破裂音識別部は、波形包絡検出部からのエンベ
ロープ信号に基づいて識別した無声破裂音の音素種類を
示す識別信号を上位レベル認識部に送出するものであり
、前記音韻情報抽出部は、線形予測分析部からの予測係数
信号に基づいて算出したＬＰＣケプストラム係数を示す
ＬＰＣケプストラム係数信号を予測残差識別部からの音
声信号識別符受信時に音素認識部に送出し、破裂音識別
符受信時には前記ＬＰＣケプストラム係数に破裂音フラ
グを立てたＬＰＣケプストラム係数信号を音素認識部に
送出するものであり、前記音素認識部は、音韻情報抽出部からのＬＰＣケプス
トラム係数信号を音素候補列でなる音素信号に変換して
上位レベル認識部に送出するものであり、前記上位レベル認識部は、音素認識部からの音素信号に
基づいて音節単位又は単語単位の認識を行う機能を有し
、かつ前記破裂音フラグ所有の音素信号受信時に、この
音素信号の音素候補列と無声破裂音識別部からの識別信
号が示す無声破裂音の音素とを置換して前記認識を行う
ものであることを特徴とする音声認識装置。