JP2580768B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JP2580768B2
JP2580768B2 JP1079771A JP7977189A JP2580768B2 JP 2580768 B2 JP2580768 B2 JP 2580768B2 JP 1079771 A JP1079771 A JP 1079771A JP 7977189 A JP7977189 A JP 7977189A JP 2580768 B2 JP2580768 B2 JP 2580768B2
Authority
JP
Japan
Prior art keywords
signal
unit
phoneme
plosive
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP1079771A
Other languages
English (en)
Other versions
JPH02124600A (ja
Inventor
潤 亀谷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
Nippon Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Electric Co Ltd filed Critical Nippon Electric Co Ltd
Priority to JP1079771A priority Critical patent/JP2580768B2/ja
Publication of JPH02124600A publication Critical patent/JPH02124600A/ja
Application granted granted Critical
Publication of JP2580768B2 publication Critical patent/JP2580768B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は電話回線やマイクロフォン等の入力媒体を
持つ不特定話者用の音声認識装置に関し、特に無声破裂
音を分離し、その時間的特徴を用いて無声破裂音を独立
に識別することができる音声認識装置に関する。
〔従来の技術〕 従来、音声認識装置は第6図に示すような構成になっ
ていた。
すなわち、この音声認識装置は、先ず音声始終端検出
部31において入力信号中から音声信号の存在する区間を
検出し、音響分析部32においてその音声信号の特徴ベク
トルを時系列の形で抽出する。次に音素認識部33におい
て、前記特徴ベクトルに基づき、標準パターンもしくは
識別関数を用いた音素候補列に変換する。最後に上位レ
ベル認識部34で単語単位あるいは音節単位の認識を行
う。
〔発明が解決しようとする課題〕
前記した従来の音声認識装置は、以下のような問題が
ある。
音響分析部32で抽出される特徴ベクトルは、チャネル
フィルタバンク分析による各周波数帯域のパワーもしく
はLPCケプストラムまたはメルケプストラム分析による
ケプストラム係数である。これらの特徴ベクトルは、破
裂性の子音(日本語では/p/,/t/,/k/,/b/,/d/,/g/の各
音素)に対して必ずしも有効ではないことが知られてい
る。
(イ)チャネルフィルタバンクによる周波数分析による
ものにあっては、破裂音そのものの周波数特性が低域か
ら高域に渡りほぼ平坦であるため、母音に見られるよう
なフォルマント構造の違いによる音素の識別を行うこと
は困難である。
(ロ)ケプストラム分析によるものにあっては、ケプス
トラム係数を算出するために音声信号をある一定の区間
に渡って切り出して分析する必要があることから、破裂
音のような継続時間の短い音素は、後続母音の特徴に破
裂音の特徴が隠される危険性が高い。
いずれの場合にしても、従来の音響分析方法を使用す
る音声認識装置では、破裂音の音素認識率が低く、音声
認識装置全体の認識率も低いものであった。
この発明の目的は、前記従来の課題を解決するため
に、無声破裂音を分離してその時間的特徴を用いること
により無声破裂音を独立に識別することができる音声認
識装置を提供することにある。
〔課題を解決するための手段〕
請求項1記載の発明は、音声始終端検出部と、音響分
析部と、音素認識部と、波形包絡検出部と、無声破裂音
識別部と、この無声破裂音識別部と前記音素認識部とこ
の出力側に接続される上位レベル認識部とを備える音声
認識装置であって、 前記音声始終端検出部は、入力された音声信号の無声
破裂音の有無を検出し、この無声破裂音に対応する音声
信号部分と無声破裂音以外の音声信号部分を時系列的に
各々波形包絡検出部と音響分析部に出力するものであ
り、 前記音響分析部は、音声始終端検出部から入力した無
声破裂音以外の音声信号部分を特徴ベクトルの時系列を
示す信号に変換して音素認識部に出力するものであり、 前記音素認識部は、音響分析部から入力した特徴ベクト
ルの信号を音素候補列の信号に変換して上位レベル認識
部に出力するものであり、 前記波形包絡検出部は、音声始終端検出部から入力し
た無声破裂音に対応する音声信号部分の包絡波形を検出
しその包絡波形を示すエンベロープ信号を無声破裂音識
別部に出力するものであり、 前記無声破裂音識別部は、波形包絡検出部から入力し
たエンベロープ信号に基づいて音声破裂音の音素の種類
を識別し、その識別信号を上位レベル認識部に出力する
ものであり、 前記上位レベル認識部は、音素認識部から入力した音
声破裂音以外の音素候補列の信号と無声破裂音認識部か
ら入力した無声破裂音の音素の識別信号を時系列的に結
合して前記音声信号の認識を行い、その認識信号を出力
するものであることを特徴とする。
また、請求項2記載の発明は、音声データバッファ
と、線形予測分析部と、予測残差識別部と、波形包絡検
出部と、無声破裂音識別部と、音韻情報抽出部と、音素
認識部と、上位レベル認識部とを備える音声認識装置で
あって、 前記音声データバッファは、入力信号を所定サンプル
数毎フレーム化して格納し、予測残差識別部からの制御
信号受信時に破裂点位置にマークを有するマーク付フレ
ーム信号を波形包絡検出部に送出するものであり、 前記線形予測分析部は、音声データバッファから時系
列的に格納フレームを読み出し線形予測分析法によって
算出した予測係数と予測残差を各々示す予測係数信号と
予測残差波形信号とを各々音韻情報抽出部と予測残差識
別部に送出するものであり、 前記予測残差識別部は、線形予測分析部からの予測残
差波形信号が示す音声区間フレームの無声破裂音の有無
を検出し、音声破裂音検出時に音韻情報抽出部に破裂音
識別符を送出すると共に破裂点を示すマーク情報と制御
信号とを各々波形包絡検出部と音声データバッファに送
出し、音声破裂音非検出時に音韻情報抽出部に音声信号
識別符を送出するものであり、 前記波形包絡検出部は、音声データバッファからのマ
ーク付フレーム信号とマーク情報に基づいて検出した音
声破裂音の包絡波形を示すエンベロープ信号を無声破裂
音識別部に送出するものであり、 前記無声破裂音識別部は、波形包絡検出部からのエン
ベロープ信号に基づいて識別した無音破裂音の音素種類
を示す識別信号を上位レベル認識部に送出するものであ
り、 前記音韻情報抽出部は、線形予測分析部からの予測係
数信号に基づいて算出したLPCケプストラム係数を示すL
PCケプストラム係数信号を予測残差識別部からの音声信
号識別符受信時に音素認識部に送出し、破裂音識別符受
信時には前記LPCケプストラム係数に破裂音フラグを立
てたLPCケプストラム係数信号を音素認識部に送出する
ものであり、 前記音素認識部は、音韻情報抽出部からのLPCケプス
トラム係数信号を音素候補列でなる音素信号に変換して
上位レベル認識部に送出するものであり、 前記上位レベル認識部は、音素認識部からの音素信号
に基づいて音節単位又は単語単位の認識を行う機能を有
し、かつ前記破裂音フラグ所有の音素信号受信時に、こ
の音素信号の音素候補列と無声破裂音識別部からの識別
信号が示す無声破裂音の音素とを置換して前記認識を行
うものであることを特徴とする。
〔実施例〕
先ず、請求項1記載の発明の実施例について図面を参
照して説明する。
第1図は請求項1記載の発明の一実施例に係る音声認
識装置のブロック図である。
音声認識装置は、音声始終端検出部1と、この音声始
終端検出部1と順次直列に接続される音響分析部2,音素
認識部3と、これら音響分析部2,音素認識部3と並列に
配置され音声始終端検出部1と順次直列に接続される波
形包絡検出部4,無声破裂音識別部5と、音素認識部3と
音声破裂音識別部5との出力側に接続される上位レベル
認識部6とを備えている。
音声始終端検出部1は、入力媒体7からの入力信号S0
を無音部分と音声部分に識別するところである。この識
別は、入力信号S0のパワー,零交差回数,特定の周波数
帯域のパワー等の情報を用いて行われる。また入力信号
S0は、入力媒体7においてディジタル信号化されてお
り、かつ標本化周期ごとにサンプル化されている。音声
始終端検出部1は、音声部分の始端サンプルと終端サン
プルを検出して音声部分の有無を識別する。この音声部
分のサンプルと始端サンプルの前の数サンプルが音声信
号S1とされる。
この音声始終端検出部1は、音声信号S1の中に無声破
裂音を示す信号が含まれている場合には、無声破裂音に
対応した部分を無声破裂音信号S2として波形包絡検出部
4に出力し、無声破裂音以外の部分を示す非無声破裂音
信号S3を音響分析部2に出力する機能を有する。無声破
裂音は、一般に第2図〜第4図に示すように閉止無音区
間aに続いて急激な立上がり点(破裂点)bを有する。
従って音声始終端検出部1は、この破裂点bを示すサン
プルを検出することにより無声破裂音の有無を判断す
る。この無声破裂音を示す無声破裂音信号S2は、少なく
とも破裂点bの数サンプル前の閉止無音区間内の点cか
ら気音区間dの終点までのサンプルで構成してある。な
お、第2図に示す/p/の無声破裂音には気音区間が存在
しないため、無声破裂音信号S2の終点は、破裂点bの数
サンプル後の点となる。また、音声始終端検出部1は、
無声破裂音信号S2が波形包絡検出部4に出力された場合
には、一定時間だけ音響分析部2の動作を停止し、非無
声破裂音信号S2が音響分析部2に出力された場合には、
一定時間だけ波形包絡検出部4の動作を停止する機能を
有する。
音響分析部2は、音声始終端検出部1からの非無声破
裂音信号S3を入力して信号S3のサンプルを一定長のフレ
ーム毎にまとめ、フレーム単位でメルケプストラム分析
等を行うことにより、信号S3を特徴ベクトルの時系列に
変換し、この特徴ベクトルの時系列を示す特徴ベクトル
信号S4を音素認識部3に出力する機能を有する。
音素認識部3は、音響分析部2からの特徴ベクトル信
号S4を入力し、この特徴ベクトルを、標準音素パターン
とパターンマッチングするかまたは識別関数を用いる等
によって音素候補列に変換し、この音素候補列を示す音
素信号S5を上位レベル認識部6に出力する機能を有す
る。
一方、波形包絡検出部4は、音声始終端検出部1から
の無声破裂音信号S2を入力し、信号S2の包絡波形を検出
し、この包絡波形を示すエンベロープ信号S6として無声
破裂音識別部5に出力する機能を有する。例えば第4図
に示す無声破裂音の音素/k/を示す信号S2の場合には、
c点から気音区間dの終端内に存在する気音等の包絡波
形が検出されることになる。この包絡波形の検出には、
所定のカットオフ周波数を有したローパスフィルタが用
いられる。
無声破裂音識別部5は、波形包絡検出部4からのエン
ベロープ信号S6を入力し、このエンベロープ信号S6の特
徴に基づいて、入力したエンベロープ信号S6が無声破裂
音素、またはあいまいな音素、または雑音に対応するか
識別し、識別結果を識別信号S7として上位レベル認識部
6に出力する機能を有する。具体的に説明する。無声破
裂音の波形的特徴には、第2図〜第4図に示すように、
音素の違いによる差異がはっきり現れる。従ってこの音
素の特徴量として、包絡波形の極値の数n(第2図/p/
ではn=0、第3図/t/ではn=1、第4図/k/ではn=
2),破裂点bのサンプルのパワーと破裂点bの次の点
eのサンプルのパワーとの比Rp,気音区間dの時間T等
を用い、この特徴量で決められる/p/,/t/,/k/の無声破
裂音素と、あいまいな音素および雑音の5クラスを認識
関数とすることにより、入力したエンベロープ信号S6
これらのいずれのクラスに対応するかを識別するのであ
る。
上位レベル認識部6は、音素認識部3からの音素信号
S5と、無声破裂音識別部5からの識別信号S7に基づき、
前記入力音声信号S1の音節単位または単語単位の認識を
行い、認識信号S8として出力する機能を有する。具体的
に説明する。入力した音素信号S5がいかなる音素に該当
するかを示すためのラベル付けをし、入力した識別信号
S7については、この信号S7が示す音素の区間(例えば第
2図にあっては点cから気音区間dの終端まで)のサン
プルを1フレームにまとめ、このフレームがいかなる無
声破裂音素に該当するかを示すためのラベル付けを行
う。このようにラベル付けした信号S5とS7を時系列に沿
って結合し、この結合した信号を、単語辞書に基づいて
単語候補列に変換するかまたは音韻規則に基づいて音節
候補列に変換した後この候補列を示す認識信号S8を出力
するのである。
ここで、この実施例が示す動作について説明する。
入力媒体7からの信号S0が無声破裂音を含む単語また
は連続語に係る場合には、音声始終端検出部1が入力信
号S0の中から音声信号S1を識別し、さらに信号S1の中か
ら無声破裂音信号S2,非無声破裂音信号S3を時系列的に
抽出して順次波形包絡検出部4,音素分析部2に入力させ
ていく。例えば、音声信号S1が順に無声破裂音,非無声
破裂音でなる単語を示すものであるときは、音声始終端
検出部1は先ず音声破裂音信号S2が波形包絡検出部4に
入力し、その間音響分析部2の動作を停止する。
波形包絡検出部4に入力した信号S2は、その包絡波形
が検出され、エンベロープ信号S6として出力される。信
号S6は、無声破裂音識別部5によってそれが無声破裂音
素/p/,/t/,/k/のいずれに該当するか識別され、識別信
号S7として無声破裂音識別部5から上位レベル認識部6
に出力される。上位レベル認識部6に入力した識別信号
S7は、それに対応した無声破裂音素のラベル付けがなさ
れる。
この処理終了後、音声始終端検出部1が、波形包絡検
出部4の動作を停止させた状態で非無声破裂音信号S3
音響分析部2に入力する。音響分析部2に入力した信号
S3は、特徴ベクトルの時系列に変換され、特徴ベクトル
信号S4として音素認識部3に出力される。音素認識部3
に入力した信号S4は、標準パターンとのマッチング等に
よって音素候補列に変換され、音素信号S5として上位レ
ベル認識部8に出力される。上位レベル認識部6に入力
した信号S5は、いかなる非無声破裂音素に当該するかの
ラベル付けがなされる。このとき上位レベル認識部6
は、上位レベル認識部6に時間的に先行して入力し、ラ
ベル付けされた前記無声破裂音素の識別信号S7の後に、
ラベル付けされた前記非無声破裂音素の音素信号S5を結
合する。このように結合された信号は、単語候補列また
は音節候補列に変換され、認識信号S8として出力され
る。
上記レベル認識部6から出力された認識信号S8は、装
置全体の作業目的に応じてホストコンピュータ8または
さらに上位の認識部9に入力する。
また、入力媒体7からの入力信号S0が無声破裂音を含
まない単語または連続語に係る場合には、音声始終端検
出部1で識別された音声信号S1は、非無声破裂音信号S3
と同値であり、音響分析部2,音素認識部3で順次特徴ベ
クトル信号S4,音素信号S5に変換され上位レベル認識部
6に入力する。上位レベル認識部6に入力した信号S
5は、前記の如きラベル付けがなされた後、単語候補列
または音節候補列に変換され、認識信号S8として出力さ
れる。
次に、請求項2記載の発明の実施例について第5図を
参照して説明する。
第5図は請求項2記載の発明の一実施例に係る音声認
識装置のブロック図である。
この例における音声認識装置は、音声データバッファ
11と、この音声データバッファ11に接続された線形予測
分析部12と、この線形予測分析部12に接続された音韻情
報抽出部14と、これら音声データバッファ11,線形予測
分析部12及び音韻情報抽出部14とに接続された予測残差
識別部13と、音韻情報抽出部14に接続された音素認識部
15と、音素認識部15に接続された上位レベル認識部18
と、音声データバッファ11及び予測残差識別部13に接続
された波形包絡検出部16と、波形包絡検出部16に接続さ
れた無声破裂音識別部17とを備えている。
音声データバッファ11は、電話回線やマイクロフォン
等の入力媒体19から入力した入力信号S10を所定の標本
化周期でサンプリングしかつディジタル化する機能を有
する。さらにこの音声データバッファ11は、ディジタル
化された入力信号S10を所定サンプル数ごとフレーム化
し、このフレーム単位で蓄積しておくメモリ機能をも有
する。この音声データバッファ11は、必要に応じてその
時点以前のフレームを取り出せるリングバッファ形式を
とっている。またこの音声データバッファ11は、予測残
差識別部13からの制御信号S13の受信時に制御信号S13
原因となった予測残差波形に対応したフレームに破裂点
を示すマークを付け、このフレームと後続のフレームを
数個付加したマーク付フレーム信号S20を波形包絡検出
部16に送出する機能も有する。なお、前記マークは制御
信号S13が示す破裂点に対応するパルス位置に付けるよ
うになっている。
線形予測分析部12は、音声データバッファ11から入力
信号S10のフレームをフレーム単位で読み出し(S11)、
線形予測分析を行って線形予測係数を算出すると共に、
この線形予測係数を使い逆フィルタリングすることによ
って当該フレームに対する予測残差波形を算出する機能
を有する。この線形予測分析部12は、線形予測係数を示
す予測係数信号S14を音韻情報抽出部14に出力し、予測
残差波形を示す予測残差波形信号S12を予測残差識別部1
3に出力する機能を有する。
予測残差識別部13は、線形予測分析部12からの予測残
差波形信号S12を分析し、この予測残差波形信号S12に対
応するフレームが無音区間のフレームか音声区間のフレ
ームかを判断する機能を有する。この判断は、予測残差
波形信号S12にパワー及び振幅の大きい正のパルスが存
在するか否かで行われる。
この予測残差識別部13は、予測残差波形信号S12が音
声区間のフレームであると判定した場合には、このフレ
ームが無声破裂音を含むか否かを判断する機能を有す
る。第2図〜第4図に示したように破裂点bは閉止無音
区間aの後に急激に立ち上がる点である。従って予測残
差波形信号S12が十分長い間無サンプル状態で急に振幅
の大きな正パルスのサンプルが生じるときに破裂点bが
存在する、即ち無声破裂音が存在すると判断する。そし
てこの予測残差識別部13は、予測残差波形信号S12に基
づいてそれに対応するフレームが無声破裂音を有してい
ると判断した場合には、音韻情報抽出部14に破裂音識別
符S15を出力する機能を有する。この動作と並行して予
測残差識別部13は、制御信号S13を音声データバッファ1
1に送出すると共にマーク位置等を示すマーク情報S16
波形包絡検出部16に出力する機能をも有する。また予備
残差識別部13は、無声破裂音が存在していないと判断し
た場合には音声信号識別符S17を音韻情報抽出部14に出
力する機能を有する。
一方、予測残差波形信号S12が無音区間のフレームで
あると判定した場合には、予測残差識別部13は、次のフ
レームの予測残差波形信号S12が入力するまで信号を一
切出力しないようになっている。
音韻情報抽出部14は、線形予測分析部12からの予測係
数信号S14の内容を一時的にレジスタ(図示せず)に保
持しておき、予測残差識別部13からの音声信号識別符S
17を受信した場合に、保持している線形予測係数に基づ
いて音声認識に適したLPCケプストラム係数(線形予測
係数によるケプストラム係数)を算出する機能を有す
る。この係数を示すLPCケプストラム係数信号S18は、音
素認識部15に出力されるようになっている。また音韻情
報抽出部14は、予測残差識別部13からの破裂音識別符S
15を受信した場合に、無声破裂音区間に相当する数フレ
ーム分に対し破裂音フラグを立てたLPCケプストラム係
数信号S18を音素認識部15に出力する機能を有する。
音素認識部15は、音韻情報抽出部14からのLPCケプス
トラム係数信号S18に基づいて標準音素パターンとのマ
ッチングや識別関数等によって音素候補列に変換する機
能を有する。この変換は、LPCケプストラム係数信号S18
の入力ごと、即ちフレーム単位で行われ、かつ各フレー
ムには音素レベルでのラベル付けが行われるようになっ
ている。この音素認識部15は、この音素候補列を示す音
素信号S19を所要の前記破裂音フラグをも含めて上位レ
ベル認識部18に出力する機能を有する。
波形包絡検出部16は、予測残差識別部13からのマーク
情報S16に基づき音声データバッファ11からのマーク付
フレーム信号S20が示す破裂点の位置を固定し、その点
から数10サンプル間の波形に対してその包絡特性を抽出
し、その包絡波形を示すエンベロープ信号S21を無声破
裂音組織部17に出力する機能を有する。
無声破裂音識別部17は、波形包絡検出部16からのエン
ベロープ信号S21を入力し、このエンベロープ信号S21
特徴に基づいて、入力したエンベロープ信号S21が無声
破裂音素,あいまいな音素又は雑音に対応するかを識別
し、識別結果をラベル付けし識別信号S22として上位レ
ベル認識部18に出力する機能を有する。その具体的内容
は第1図の無声破裂音識別部5と同様のため説明を省略
する。
上位レベル認識部18は、音素認識部15からの音素信号
S19を入力し、この音素信号S19に基づいて音節又は単語
単位の認識をする機能を有する。このとき音素信号S19
の中から前記破裂音フラグを検出した場合には、この音
素信号S19のラベルと一致したラベルを有した識別信号S
22を検出し、この識別信号S22が示す無声破裂音の音素
と前記破裂音フラグを有する音素信号S19の音素候補列
とを置換する機能を有する。またこの上位レベル認識部
18はその認識結果を示す認識信号S23をシステムのタス
クに応じてホストコンピュータ20又は上位の認識部21に
出力する機能を有する。
ここで、この実施例が示す動作について説明する。
入力媒体19から例えば第3図に示す音声が入力したと
すると、この入力信号S10は、音声データバッファ11に
よってサンプリングされ所定サンプル数ごとにフレーム
化される。フレーム化された入力信号S10は、フレーム
単位で音声データバッファ11に時系列的に格納されてい
く。
音声データバッファ11に格納されているフレームのう
ち、時系列的に最初のフレームがフレーム信号S11とし
て線形予測分析部12によって読み出される。
フレーム信号S11を入力した線形予測分析部12は、フ
レーム信号S11に基づいて線形予測分析を行い予測係数
信号S14,予測残差波形信号S12を各々音韻情報抽出部14,
予測残差識別部13に出力する。
予測残差波形信号S12を入力した予測残差識別部13
は、予測残差波形信号S12の示す前記最初のフレームが
例えば第3図の破裂点bを含む数サンプルで構成されて
いる場合には、先ず予測残差波形信号S12を音声区間の
フレームであると判断し、次に破裂点bを含むフレーム
であると判断する。この判断に基づいて予測残差識別部
13は、音声データバッファ11,音韻情報抽出部14及び波
形包絡検出部16に各々制御信号S13,破裂音識別符S15
びマーク情報S16を送出する。
制御信号S13を入力した音声データバッファ11は、当
該フレームに破裂点bを示すマークを付け、当該フレー
ムと数個の後続フレームをマーク付フレーム信号S20
して波形包絡検出部16に出力する。
マーク付フレーム信号S20を入力した波形包絡検出部1
6は、破裂点bを固定し、第3図の気音区間d内の無声
破裂音/t/が含まれる数10サンプルについてその包絡特
性を抽出する。そして波形包絡検出部16は、/t/の包絡
波形を示すエンベロープ信号S21を無声破裂音識別部17
に出力する。
無声破裂音識別部17に入力したエンベロープ信号S21
は、音素/t/であることが識別され、音素/t/を示すラベ
ル付けがされた後識別信号S22として上位レベレル認識
部18に出力される。
一方、予測係数信号S14と破裂音識別符S15とを入力し
た音韻情報抽出部14は、予測係数信号S14に基づいてLPC
ケプストラム係数を算出する。そして音韻情報抽出部14
は、第3図の気音区間d内の無声破裂音/t/を含むよう
に音声データバッファ11から線形予測分析部12を介して
当該フレームに後続する数フレーム分を入力し、前記破
裂点bを含むLPCケプストラム係数にこれらのLPCケプス
トラム係数を加えかつ破裂音フラグを立ててLPCケプス
トラム係数信号S16として音素認識部15に送出する。
このLPCケプストラム係数信号S18は、音素認識部15に
よって/t/を含む音素候補列に変換されかつラベル付け
される。この音素候補列は、音素信号S19として上位レ
ベル認識部18に送出される。
音素信号S19を入力した上位レベル認識部18は、レジ
ストしてある識別信号S22を読み出し、この識別信号S22
の示す音素/t/のラベルと一致する音素を前記音素候補
列の中から認識する。
上位レベル認識部18による上記認識と並行して線形予
測分析部12は、第3図の気音区間d以降のフレームを順
次音声データバッファ11から読み出し線形予測分析を行
って予測係数信号S14,予測残差波形信号S12を各々音韻
情報抽出部14,予測残差識別部13に送出する。
予測残差識別部13は、予測残差波形信号S12に破裂点
bが含まれていないことを確認し、音声信号識別符S17
を音韻情報抽出部14に送出する。このとき予測残差識別
部13からは音声データバッファ11に対して制御信号S13
が送出されず、音声データバッファ11,波形包絡検出部1
6,音声破裂音識別部17は休止状態となっている。
予測残差波形信号S14と音声信号識別符S17とを入力し
た音韻情報抽出部14は、予測係数信号S14に対応したLPC
ケプストラム係数を算出しこれを示すLPCケプストラム
係数信号S18を音素認識部15に送出する。
音素認識部15に入力したLPCケプストラム係数信号S18
は、気音区間d以降の音素に対する音素候補列に変換さ
れ、ラベル付けされた後音素信号S19として上位レベル
認識部18に送出される。
上位レベル認識部18は、前述のように認識した無声破
裂音/t/のあとに時系列的に気音区間d以降の音素の前
記音素候補列を結合し、音節単位又は単語単位の認識を
行う。この認識結果は認識信号S23としてホストコンピ
ュータ20又は上位の認識部21に送出される。
尚、入力信号S10が無声破裂音を含まない音声信号の
場合には、第3図の気音区間d以降の信号と同様に処理
される。
〔発明の効果〕
これらの発明は以上説明したように構成されているた
め、無声破裂音の識別率の向上と装置全体の音声認識率
の向上を図ることができる効果がある。
【図面の簡単な説明】
第1図は請求項1記載の発明の一実施例を示すブロック
図、 第2図〜第4図は無声破裂音の波形的特徴を示す図、 第5図は請求項2記載の発明の一実施例を示すブロック
図、 第6図は従来の音声認識装置を示すブロック図である。 1……音声始終端検出部 2……音響分析部 3,15……音素認識部 4,16……波形包絡検出部 5,17……無声破裂音識別部 6,18……上位レベル認識部 7,19……入力媒体 11……音声データバッファ 12……線形予測分析部 13……予測残差識別部 14……音韻情報抽出部

Claims (2)

    (57)【特許請求の範囲】
  1. 【請求項1】音声始終端検出部と、音響分析部と、音素
    認識部と、波形包絡検出部と、無声破裂音識別部と、こ
    の無声破裂音識別部と前記音素認識部との出力側に接続
    される上位レベル認識部とを備える音声認識装置であっ
    て、 前記音声始終端検出部は、入力された音声信号の無声破
    裂音の有無を検出し、この無声破裂音に対応する音声信
    号部分と無声破裂音以外の音声信号部分を時系列的に各
    々波形包絡検出部と音響分析部に出力するものであり、 前記音響分析部は、音声始終端検出部から入力した無声
    破裂音以外の音声信号部分を特徴ベクトルの時系列を示
    す信号に変換して音素認識部に出力するものであり、 前記音素認識部は、音響分析部から入力した特徴ベクト
    ルの信号を音素候補列の信号に変換して上位レベル認識
    部に出力するものであり、 前記波形包絡検出部は、音声始終端検出部から入力した
    無声破裂音に対応する音声信号部分の包絡波形を検出し
    その包絡波形を示すエンベロープ信号を無声破裂音識別
    部に出力するものであり、 前記無声破裂音識別部は、波形包絡検出部から入力した
    エンベロープ信号に基づいて音声破裂音の音素の種類を
    識別し、その識別信号を上位レベル認識部に出力するも
    のであり、 前記上位レベル認識部は、音素認識部から入力した音声
    破裂音以外の音素候補列の信号と無声破裂音認識部から
    入力した無声破裂音の音素の識別信号を時系列的に結合
    して前記音声信号の認識を行い、その認識信号を出力す
    るものであることを特徴とする音声認識装置。
  2. 【請求項2】音声データバッファと、線形予測分析部
    と、予測残差識別部と、波形包絡検出部と、無声破裂音
    識別部と、音韻情報抽出部と、音素認識部と、上位レベ
    ル認識部とを備える音声認識装置であって、 前記音声データバッファは、入力信号を所定サンプル数
    毎フレーム化して格納し、予測残差識別部からの制御信
    号受信時に破裂点位置にマークを有するマーク付フレー
    ム信号を波形包絡検出部に送出するものであり、 前記線形予測分析部は、音声データバッファから時系列
    的に格納フレームを読み出し線形予測分析法によって算
    出した予測係数と予測残差を各々示す予測係数信号と予
    測残差波形信号とを各々音韻情報抽出部と予測残差識別
    部に送出するものであり、 前記予測残差識別部は、線形予測分析部からの予測残差
    波形信号が示す音声区間フレームの無声破裂音の有無を
    検出し、音声破裂音検出時に音韻情報抽出部に破裂音識
    別符を送出すると共に破裂点を示すマーク情報と制御信
    号とを各々波形包絡検出部と音声データバッファに送出
    し、音声破裂音非検出時に音韻情報抽出部に音声信号識
    別符を送出するものであり、 前記波形包絡検出部は、音声データバッファからのマー
    ク付フレーム信号とマーク情報に基づいて検出した音声
    破裂音の包絡波形を示すエンベロープ信号を無声破裂音
    識別部に送出するものであり、 前記無声破裂音識別部は、波形包絡検出部からのエンベ
    ロープ信号に基づいて識別した無音破裂音の音素種類を
    示す識別信号を上位レベル認識部に送出するものであ
    り、 前記音韻情報抽出部は、線形予測分析部からの予測係数
    信号に基づいて算出したLPCケプストラム係数を示すLPC
    ケプストラム係数信号を予測残差識別部からの音声信号
    識別符受信時に音素認識部に送出し、破裂音識別符受信
    時には前記LPCケプストラム係数に破裂音フラグを立て
    たLPCケプストラム係数信号を音素認識部に送出するも
    のであり、 前記音素認識部は、音韻情報抽出部からのLPCケプスト
    ラム係数信号を音素候補列でなる音素信号に変換して上
    位レベル認識部に送出するものであり、 前記上位レベル認識部は、音素認識部からの音素信号に
    基づいて音節単位又は単語単位の認識を行う機能を有
    し、かつ前記破裂音フラグ所有の音素信号受信時に、こ
    の音素信号の音素候補列と無声破裂音識別部からの識別
    信号が示す無声破裂音の音素とを置換して前記認識を行
    うものであることを特徴とする音素認識装置。
JP1079771A 1988-07-20 1989-03-30 音声認識装置 Expired - Lifetime JP2580768B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1079771A JP2580768B2 (ja) 1988-07-20 1989-03-30 音声認識装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP63-179222 1988-07-20
JP17922288 1988-07-20
JP1079771A JP2580768B2 (ja) 1988-07-20 1989-03-30 音声認識装置

Publications (2)

Publication Number Publication Date
JPH02124600A JPH02124600A (ja) 1990-05-11
JP2580768B2 true JP2580768B2 (ja) 1997-02-12

Family

ID=26420764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1079771A Expired - Lifetime JP2580768B2 (ja) 1988-07-20 1989-03-30 音声認識装置

Country Status (1)

Country Link
JP (1) JP2580768B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EA029204B1 (ru) 2011-05-11 2018-02-28 Стемрад Лтд. Устройство и способ для защиты активного костного мозга в заднем подвздошном гребне от внешнего ионизирующего излучения
JP6480124B2 (ja) * 2014-08-19 2019-03-06 大学共同利用機関法人情報・システム研究機構 生体検知装置、生体検知方法及びプログラム
CN113053364A (zh) * 2019-12-27 2021-06-29 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会誌39巻2号(昭和58年)P.75〜81

Also Published As

Publication number Publication date
JPH02124600A (ja) 1990-05-11

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JP3162994B2 (ja) 音声のワードを認識する方法及び音声のワードを識別するシステム
US4284846A (en) System and method for sound recognition
JP4911034B2 (ja) 音声判別システム、音声判別方法及び音声判別用プログラム
JPS6147440B2 (ja)
RU2466468C1 (ru) Система и способ распознавания речи
JPS6336676B2 (ja)
US4477925A (en) Clipped speech-linear predictive coding speech processor
JP2580768B2 (ja) 音声認識装置
JPS6138479B2 (ja)
Sangeetha et al. Robust automatic continuous speech segmentation for indian languages to improve speech to speech translation
JP3523382B2 (ja) 音声認識装置及び音声認識方法
US4783808A (en) Connected word recognition enrollment method
KR0136608B1 (ko) 음성신호 검색용 음성인식 장치
JP2798919B2 (ja) 音声区間検出方式
JP3032215B2 (ja) 有音検出装置及びその方法
KR100334238B1 (ko) 음성 파형의 포락선 정보를 이용한 음성/비음성 판별 장치및 그 방법
JP3110025B2 (ja) 発声変形検出装置
JPH0640274B2 (ja) 音声認識装置
JPH0682275B2 (ja) 音声認識装置
Yi et al. A vocoder based on speech recognition and synthesis
JPH0376475B2 (ja)
JPH10124090A (ja) 音声認識方法およびこの方法を実施する装置
JPS61249099A (ja) 音声認識装置
JPS59170894A (ja) 音声区間の切り出し方式