JPH02124600A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH02124600A
JPH02124600A JP1079771A JP7977189A JPH02124600A JP H02124600 A JPH02124600 A JP H02124600A JP 1079771 A JP1079771 A JP 1079771A JP 7977189 A JP7977189 A JP 7977189A JP H02124600 A JPH02124600 A JP H02124600A
Authority
JP
Japan
Prior art keywords
signal
plosive
phoneme
section
voiceless
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP1079771A
Other languages
English (en)
Other versions
JP2580768B2 (ja
Inventor
Jun Kametani
亀谷 潤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP1079771A priority Critical patent/JP2580768B2/ja
Publication of JPH02124600A publication Critical patent/JPH02124600A/ja
Application granted granted Critical
Publication of JP2580768B2 publication Critical patent/JP2580768B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 〔産業上の利用分野〕 この発明は電話回線やマイクロフォン等の入力媒体を持
つ不特定話者用の音声信号識別符に関し、特に無声破裂
音を分離し、その時間的特徴を用いて無声破裂音を独立
に識別することができる音声信号識別符に関する。
〔従来の技術〕
従来、音声信号識別符は第6図に示すような構成になっ
ていた。
すなわち、この音声信号識別符は、先ず音声始終端検出
部31において入力信号中から音声信号の存在する区間
を検出し、音響分析部32においてその音声信号の特徴
ベクトルを時系列の形で抽出する。
次に音素認識部33において、前記特徴ベクトルに基づ
き、標準パターンもしくは識別関数を用いた音素候補列
に変換する。最後に上位レベル認識部34で単語単位あ
るいは音節単位の認識を行う。
〔発明が解決しようとする課題〕
前述した従来の音声信号識別符は、以下のような問題が
ある。
音響分析部32で抽出される特徴ベクトルは、チャネル
フィルタバンク分析による各周波数帯域のパワーもしく
はLPCケプストラムまたはメルケプストラム分析によ
るケプストラム係数である。
これらの特徴ベクトルは、破裂性の子音(日本語では/
p/、/l/、/に/、/b/、/d//g/の各音素
)に対して必ずしも有効ではないことが知られている。
(イ)チャネルフィルタバンクによる周波数分析による
ものにあっては、破裂音そのものの周波数特性が低域か
ら高域に渡りほぼ平坦であるため、母音に見られるよう
なフォルマント構造の違いによる音素の識別を行うこと
は困難である。
(ロ)ケプストラム分析によるものにあっては、ケプス
トラム係数を算出するために音声信号をある一定の区間
に渡って切り出して分析する必要があることから、破裂
音のような継続時間の短い音素は、後続母音の特徴に破
裂音の特徴が隠される危険性が高い。
いずれの場合にしても、従来の音響分析方法を使用する
音声信号識別符では、破裂音の音素認識率が低く、音声
信号識別符全体の認識率も低いものであった。
この発明の目的は、前記従来の課題を解決するために、
無声破裂音を分離してその時間的特徴を用いることによ
り無声破裂音を独立に識別することができる音声信号識
別符を提供することにある。
〔課題を解決するための手段〕
請求項1記載の発明は、音声始終端検出部と、音響分析
部と、音素認識部と、波形包絡検出部と、無声破裂音識
別部と、この無声破裂音識別部と前記音素認識部との出
力側に接続される上位レベル認識部とを備える音声信号
識別符であって、前記音声始終端検出部は、入力された
音声信号の無声破裂音の有無を検出し、この無声破裂音
に対応する音声信号部分と無声破裂音以外の音声信号部
分を時系列的に各々波形包絡検出部と音響分析部に出力
するものであり、 前記音響分析部は、音声始終端検出部から入力した無声
破裂音以外の音声信号部分を特徴ベクトルの時系列を示
す信号に変換して音声認識部に出力するものであり、 前記音素認識部は、音響分析部から入力した特徴ベクト
ルの信号を音素候補列の信号に変換して上位レベル認識
部に出力するものであり、前記波形包絡検出部は、音声
始終端検出部から入力した無声破裂音に対応する音声信
号部分の包絡波形を検出しその包絡波形を示すエンベロ
ープ信号を無声破裂音識別部に出力するものであり、前
記無声破裂音識別部は、波形包絡検出部から入力したエ
ンベロープ信号に基づいて無声破裂音の音素の種類を識
別し、その識別信号を上位レベル認識部に出力するもの
であり、 前記上位レベル認識部は、音素認識部から入力した無声
破裂音以外の音素候補列の信号と無声破裂音識別部から
入力した無声破裂音の音素の識別信号を時系列的に結合
して前記音声信号の認識を行い、その認識信号を出力す
るものであることを特徴とする。
また、請求項2記載の発明は、音声データバッファと、
線形予測分析部と、予測残差識別部と、波形包絡検出部
と、無声破裂音識別部と、音韻情報抽出部と、音素認識
部と、上位レベル認識部とを備える音声信号識別符であ
って、 前記音声データバッファは、入力信号を所定サンプル数
毎フレーム化して格納し、予測残差識別部からの制御信
号受信時に破裂点位置にマークを有するマーク付フレー
ム信号を波形包絡検出部に送出するものであり、 前記線形予測分析部は、音声データバッファから時系列
的に格納フレームを読み出し線形予測分析法によって算
出した予測係数と予測残差を各々示す予測係数信号と予
測残差波形信号とを各々音韻情報抽出部と予測残差識別
部に送出するものであり、 前記予測残差識別部は、線形予測分析部からの予測残差
波形信号が示す音声区間フレームの無声破裂音の有無を
検出し、無声破裂音検出時に音韻情報抽出部に破裂音識
別符を送出すると共に破裂点を示すマーク情報と制御信
号とを各々波形包絡検出部と音声データバッファに送出
し、無声破裂音非検出時に音韻情報抽出部に音声信号部
分符を送出するものであり、 前記波形包絡検出部は、音声データバッファからのマー
ク付フレーム信号とマーク情報に基づいて検出した無声
破裂音の包絡波形を示すエンベロープ信号を無声破裂音
識別部に送出するものであり、 前記無声破裂音識別部は、波形包絡検出部からのエンベ
ロープ信号に基づいて識別した無声破裂音の音素種類を
示す識別信号を上位レベル認識部に送出するものであり
、 前記音韻情報抽出部は、線形予測分析部からの予測係数
信号に基づいて算出したLPCケプストラム係数を示す
LPCケプストラム係数信号を予測残差識別部からの音
声信号識別符受信時に音素認識部に送出し、破裂音識別
符受信時には前記LPCケプストラム係数に破裂音識別
符を立てたLPCケプストラム係数信号を音素認識部に
送出するものであり、 前記音素認識部は、音韻情報抽出部からのLPCケプス
トラム係数信号を音素候補列でなる音素信号に変換して
上位レベル認識部に送出するものであり、 前記上位レベル認織部は、音素認識部からの音素信号に
基づいて音節単位又は単語単位の認識を行う機能を有し
、かつ前記破裂音識別符所有の音素信号受信時に、この
音素信号の音素候補列と無声破裂音識別部からの識別信
号が示す無声破裂音の音素とを置換して前記認識を行う
ものであることを特徴とする。
〔実施例〕
先ず、請求項1記載の発明の実施例について図面を参照
して説明する。
第1図は請求項1記載の発明の一実施例に係る音声信号
識別符のブロック図である。
音声信号識別符は、音声始終端検出部1と、この音声始
終端検出部1と順次直列に接続される音響分析部2.音
素認識部3と、これら音響分析部2゜音素認識部3と並
列に配置され音声始終端検出部1と順次直列に接続され
る波形包絡検出部4.無声破裂音識別部5と、音素認識
部3と無声破裂音識別部5との出力側に接続される上位
レベル認識部6とを備えている。
音声始終端検出部1は、入力媒体7からの入力信号S。
を無音部分と音声部分に識別するところである。この識
別は、入力信号S。のパワー、零交差回数、特定の周波
数帯域のパワー等の情報を用いて行われる。また入力信
号S。は、入力媒体7においてディジクル信号化されて
おり、かつ標本化周期ごとにサンプル化されている。音
声始終端検出部1は、音声部分の始端サンプルと終端サ
ンプルを検出して音声部分の有無を識別する。この音声
部分のサンプルと始端サンプルの前の数サンプルが音声
信号S1とされる。
この音声始終端検出部1は、音声信号SIの中に無声破
裂音を示す信号が含まれている場合には、無声破裂音に
対応した部分を無声破裂音信号S2として波形包絡検出
部4に出力し、無声破裂音以外の部分を示す非無声破裂
音信号S3を音響分析部2に出力する機能を有する。無
声破裂音は、般に第2図〜第4図に示すように閉止無音
区間aに続いて急激な立上がり点(破裂点)bを有する
従って音声始終端検出部1は、この破裂点すを示すサン
プルを検出することにより無声破裂音の有無を判断する
。この無声破裂音を示す無声破裂音信号S2は、少なく
とも破裂点すの数サンプル前の閉止無音区間内の点Cか
ら気合区間dの終点までのサンプルで構成しである。な
お、第2図に示す/p/の無声破裂音には気合区間が存
在しないため、無声破裂音信号S2の終点は、破裂点す
の数サンプル後の点となる。また、音声始終端検出部1
は、無声破裂音信号S2が波形包絡検出部4に出力され
た場合には、一定時間だけ音響分析部2の動作を停止し
、非無声破裂音信号S2が音響分析部2に出力された場
合には、一定時間だけ波形包絡検出部4の動作を停止す
る機能を有する。
音響分析部2は、音声始終端検出部1からの非無声破裂
音信号S3を入力して信号S3のサンプルを一定長のフ
レーム毎にまとめ、フレーム単位でメルケプストラム分
析等を行うことにより、信号S、を特徴ベクトルの時系
列に変換し、この特徴ベクトルの時系列を示す特徴ベク
トル信号s4を音素認識部3に出力する機能を有する。
音素認識部3は、音響分析部2からの特徴ベクトル信号
S4を入力し、この特徴ベクトルを、標準音素パターン
とパターンマツチングするかまたは識別関数を用いる等
によって音素候補列に変換し、この音素候補列を示す音
素信号S、を上位レベル認識部6に出力する機能を有す
る。
一方、波形包絡検出部4は、音声始終端検出部1からの
無声破裂音信号S2を入力し、信号s2の包絡波形を検
出し、この包絡波形を示すエンベロープ信号S6として
無声破裂音識別部5に出力する機能を有する。例えば第
4図に示す無声破裂音の音素/に/を示す信号S2の場
合には、0点から開音区間dの終端内に存在する気合等
の包絡波形が検出されることになる。この包絡波形の検
出には、所定のカットオフ周波数を有したローパスフィ
ルタが用いられる。
無声破裂音識別部5は、波形包絡検出部4からのエンベ
ロープ信号S6を入力し、このエンベロープ信号S6の
特徴に基づいて、入力したエンベロープ信号S6が無声
破裂音素、またはあいまいな音素、または雑音に対応す
るか識別し、識別結果を識別信号S7として上位レベル
認識部6に出力する機能を有する。具体的に説明する。
無声破裂音の波形的特徴には、第2図〜第4図に示すよ
うに、音素の違いによる差異がはっきり現れる。
従ってこの音素の特徴量として、包絡波形の極値の数n
(第3図/1/ではn=0、第3図/1/ではn=1、
第4図/に/ではn=2)、破裂点bのサンプルのパワ
ーと破裂点すの次の点eのサンプルのパワーとの比R,
,,気音区開音区間間T等を用い、この特徴量で決めら
れる/p/、/l/。
/に/の無声破裂音素と、あいまいな音素および雑音の
5クラスを認識関数とすることにより、入力したエンベ
ロープ信号S6がこれらのいずれのクラスに対応するか
を識別するのである。
上位レベル認識部6は、音素認識部3からの音素信号S
5と、無声破裂音識別部5からの識別信号S7に基づき
、前記入力音声信号SIの音節単位または単語単位の認
識を行い、認識信号S8として出力する機能を有する。
具体的に説明する。
入力した音素信号S、がいかなる音素に該当するかを示
すためのラベル付けをし、入力した識別信号S7につい
ては、この信号S7が示す音素の区間(例えば第2図に
あっては点Cから開音区間dの終端まで)のサンプルを
1フレームにまとめ、このフレームがいかなる無声破裂
音素に該当するがを示ずためのラベル付けを行う。この
ようにラベル付けした信号S5と37を時系列に沿って
結合し、この結合した信号を、単語辞書に基づいて単語
候補列に変換するかまたは音韻規則に基づいて音節候補
列に変換した後この候補列を示す認識信号S8を出力す
るのである。
ここで、この実施例が示す動作について説明する。
入力媒体7からの信号S。が無声破裂音を含む単語また
は連続語に係る場合には、音声始終端検出部1が入力信
号S。の中から音声信号S1を識別し、さらに信号S、
の中から無声破裂音信号S2゜非無声破裂音信号S3を
時系列的に抽出して順次波形包絡検出部4.音素分析部
2に入力させていく。例えば、音声信号S+が順に無声
破裂音、非無声破裂音でなる単語を示すものであるとき
は、音声始終端検出部1は先ず無声破裂音信号S2が波
形包絡検出部4に入力し、その間音響分析部2の動作を
停止する。
波形包絡検出部4に入力した信号S2は、その包絡波形
が検出され、エンベロープ信号S6として出力される。
信号S6は、無声破裂音識別部5によってそれが無声破
裂音素/p/、/l、/。
/に/のいずれに該当するか識別され、識別信号S7と
して無声破裂音識別部5から上位レベル認識部6に出力
される。上位レベル認識部6に入力した識別信号S、は
、それに対応した無声破裂音素のラベル付けがなされる
この処理終了後、音声始終端検出部1が、波形包絡検出
部4の動作を停止させた状態で非無声破裂音信号S3を
音響分析部2に入力する。音響分析部2に入力した信号
S3は、特徴ベクトルの時系列に変換され、特徴ベクト
ル信号S4として音素認識部3に出力される。音素認識
部3に入力した信号S4は、標準パターンとのマンチン
グ等によって音素候補列に変換され、音素信号S5とし
て上位レベル認識部8に出力される。上位レベル認識部
6に入力した信号S5は、いかなる非無声破裂音素に該
当するかのラベル付けがなされる。
このとき上位レベル認識部6は、上位レベル認識部6に
時間的に先行して入力し、ラベル付けされた前記無声破
裂音素の識別信号S7の後に、ラベル付けされた前記非
無声破裂音素の音素信号S5を結合する。このように結
合された信号は、単語候補列または音節候補列に変換さ
れ、認識信号S8として出力される。
上位レベル認識部6から出力された認識信号S8は、装
置全体の作業目的に応じてホストコンピュータ8または
さらに上位の認識部9に入力する。
また、入力媒体7からの入力信号S。が無声破裂音を含
まない単語または連続語に係る場合には、音声始終端検
出部1で識別された音声信号S1は、非無声破裂音信号
S3と同値であり、音響分析部2、音素認識部3で順次
特徴ベクトル信号Sa、音素信号S5に変換され上位レ
ベル認識部6に入力する。上位レベル認識部6に入力し
た信号S5は、前記の如きラベル付けがなされた後、単
語候補列または音節候補列に変換され、認識信号Seと
して出力される。
次に、請求項2記載の発明の実施例について第5図を参
照して説明する。
第5図は請求項2記載の発明の一実施例に係る音声信号
識別符のブロック図である。
この例における音声信号識別符は、音声データバッファ
11と、この音声データバッファ11に接続された線形
予測分析部12と、この線形予測分析部12に接続され
た音韻情報抽出部14と、これら音声データバッファ1
1.線形予測分析部12及び音韻情報抽出部14とに接
続された予測残差識別部13と、音韻情報抽出部14に
接続された音素認識部15と、音素認識部15に接続さ
れた上位レベル認識部18と、音声データバッファ11
及び予測残差識別部13に接続された波形包絡検出部1
6と、波形包絡検出部16に接続された無声破裂音識別
部17とを備えている。
音声データバッファ11は、電話回線やマイクロフォン
等の入力媒体19から入力した入力信号S、。
を所定の標本化周期でサンプリングしかっディジタル化
する機能を有する。さらにこの音声データバッファ11
は、ディジタル化された入力信号SIOを所定サンプル
数ごとフレーム化し、このフレーム単位で蓄積しておく
メモリ機能をも有する。この音声データバッファ11は
、必要に応じてその時点以前のフレームを取り出せるリ
ングバッファ形式をとっている。またこの音声データバ
ッファ11は、予測残差識別部13からの制御信号SI
3の受信時に制御信号SI3の原因となった予測残差波
形に対応したフレームに破裂点を示すマークを付け、こ
のフレームと後続のフレームを数個付加したマーク付フ
レーム信号Shoを波形包絡検出部16に送出する機能
も有する。なお、前記マークは制御信号SI3が示す破
裂点に対応するパルス位置に付けるようになっている。
線形予測分析部12は、音声データバッファ11から入
力信号S1゜のフレームをフレーム単位で読み出しくS
Z) 、線形予測分析を行って線形予測係数を算出する
と共に、この線形予測係数を使い逆フィルタリングする
ことによって当該フレームに対する予測残差波形を算出
する機能を有する。この線形予測分析部12は、線形予
測係数を示す予測係数信号SI4を音韻情報抽出部14
に出力し、予測残差波形を示す予測残差波形信号S、□
を予測残差識別部13に出力する機能を有する。
予測残差識別部13は、線形予測分析部12からの予測
残差波形信号S、□を分析し、この予測残差波形信号S
1゜に対応するフレームが無音区間のフレームか音声区
間のフレームかを判断する機能を有する。この判断は、
予測残差波形信号S1□にパワー及び振幅の大きい正の
パルスが存在するか否かで行われる。
この予測残差識別部13は、予測残差波形信号SI2が
音声区間のフレームであると判定した場合には、このフ
レームが無声破裂音を含むか否かを判断する機能を有す
る。第2図〜第4図に示したように破裂点すは閉止無音
区間aの後に急激に立ち上がる点である。従って予測残
差波形信号S12が十分長い間無サンプル状態で急に振
幅の大きな正パルスのサンプルが生じるときに破裂点す
が存在する、即ち無声破裂音が存在すると判断する。そ
してこの予測残差識別部13は、予測残差波形信号31
2に基づいてそれに対応するフレームが無声破裂音を有
していると判断した場合には、音韻情報抽出部14に破
裂音識別符S15を出力する機能を有する。
この動作と並行して予測残差識別部13は、制御信号S
13を音声データバッファ11に送出すると共にマーク
位置等を示すマーク情報SI6を波形包絡検出部16に
出力する機能をも有する。また予測残差識別部13は、
無声破裂音が存在していないと判断した場合には音声信
号識別符SI7を音韻情報抽出部14に出力する機能を
有する。
一方、予測残差波形信号SI□が無音区間のフレームで
あると判定した場合には、予測残差識別部13は、次の
フレームの予測残差波形信号SI□が入力するまで信号
を一切出力しないようになっている。
音韻情報抽出部14は、線形予測分析部12からの予測
係数信号S14の内容を一時的にレジスタ(図示せず)
に保持しておき、予測残差識別部13からの音声信号識
別符SI7を受信した場合に、保持している線形予測係
数に基づいて音声認識に適したL P Cケプストラム
係数(線形予測係数によるケプストラム係数)を算出す
る機能を有する。この係数を示すLPCケプストラム係
数信号Sll+は、音素認識部15に出力されるように
なっている。また音韻情報抽出部14は、予測残差識別
部13がらの破裂音識別符S I5を受信した場合に、
無声破裂音区間に相当する数フレーム分に対し破裂音識
別符を立てたLPCケプストラム係数信号S18を音素
認識部15に出力する機能を有する。
音素認識部15は、音韻情報抽出部14からのLPCケ
プストラム係数信号SI8に基づいて標準音素パターン
とのマツチングや識別関数等によって音素候補列に変換
する機能を有する。この変換は、LPCケプストラム係
数信号SI8の入力ごと、即ちフレーム単位で行われ、
かつ各フレームには音素レベルでのラベル付けが行われ
るようになっている。この音素認識部15は、この音素
候補列を示す音素信号SI9を所要の前記破裂音識別符
をも含めて上位レベル認識部18に出力する機能を有す
る。
波形包絡検出部16は、予測残差識別部13からのマー
ク情報SI6に基づき音声データバッファ11がらのマ
ーク付フレーム信号S zoが示す破裂点の位置を固定
し、その点から数10サンプル間の波形に対してその包
絡特性を抽出し、その包絡波形を示すエンベロープ信号
Solを無声破裂音識別部17に出力する機能を有する
無声破裂音識別部17は、波形包絡検出部16からのエ
ンベロープ信号SZ+を入力し、このエンベロープ信号
SKIの特徴に基づいて、入力したエンベロープ信号S
KIが無声破裂音素、あいまいな音素又は雑音に対応す
るかを識別し、識別結果をラベル付けし識別信号S2□
として上位レベル認識部18に出力する機能を有する。
その具体的内容は第1図の無声破裂音識別部5と同様の
ため説明を省略する。
上位レベル認識部18は、音素認識部15からの音素信
号S 19を入力し、この音素信号SI9に基づいて音
節又は単語単位の認識をする機能を有する。
このとき音素信号S19の中から前記破裂音識別符を検
出した場合には、この音素信号SI9のラベルと一致し
たラベルを有した識別信号S2□を検出し、この識別信
号S2□が示す無声破裂音の音素と前記破裂音識別符を
有する音素信号S19の音素候補列c1 とを置換する機能を有する。またこの上位レベル認識部
18はその認識結果を示す認識信号S23をシステムの
タスクに応じてホストコンピュータ20又は上位の認識
部21に出力する機能を有する。
ここで、この実施例が示す動作について説明する。
入力媒体19から例えば第3図に示す音声が入力したと
すると、この入力信号S、。は、音声データパンファ1
1によってサンプリングされ所定サンプル数ごとにフレ
ーム化される。フレーム化された入力信号SIOは、フ
レーム単位で音声データバッファ11に時系列的に格納
されていく。
音声データバッファ11に格納されているフレームのう
ち、時系列的に最初のフレームがフレーム信号Sl+と
して線形予測分析部12によって読み出される。
フレーム信号Sl+を入力した線形予測分析部12は、
フレーム信号3.11に基づいて線形予測分析を行い予
測係数信号S、4.予測残差波形信号S1□を各々音韻
情報抽出部14.予測残差識別部13に出力する。
予測残差波形信号S1□を入力した予測残差識別部13
は、予測残差波形信号S 12の示す前記最初のフレー
ムが例えば第3図の破裂点すを含む数サンプルで構成さ
れている場合には、先ず予測残差波形信号SI□を音声
区間のフレームであると判断し、次に破裂点すを含むフ
レームであると判断する。
この判断に基づいて予測残差識別部13は、音声データ
バッファ11.音韻情報抽出部14及び波形包絡検出部
16に各々制御信号S、3.破裂音識別符SI5及びマ
ーク情報SI6を送出する。
制御信号S13を入力した音声データバッファ11は、
当該フレームに破裂点すを示すマークを付け、当該フレ
ームと数個の後続フレームをマーク付フレーム信号Sz
oとして波形包絡検出部16に出力する。
マーク付フレーム信号Shoを入力した波形包絡検出部
16は、破裂点すを固定し、第3図の気合区間d内の無
声破裂音/1./が含まれる数10サンプルについてそ
の包絡特性を抽出する。そして波形包絡検出部16は、
/1/の包絡波形を示すエンベロープ信号Solを無声
破裂音識別部17に出力する。
無声破裂音識別部17に入力したエンベロープ信号S2
1は、音素/1./であることが識別され、音素/1/
を示すラベル付けがされた後識別信号822として上位
レベル認識部18に出力される。
一方、予測係数信号S 14と破裂音識別符S15とを
入力した音韻情報抽出部14は、予測係数信号SI4に
基づいてLPCケプストラム係数を算出する。そして音
韻情報抽出部14は、第3図の気合区間d内の無声破裂
音/1/を含むように音声データバッファ11から線形
予測分析部12を介して当該フレームに後続する数フレ
ーム分を入力し、前記破裂点すを含むr、 p cケプ
ストラム係数にこれらのLPCケプストラム係数を加え
かつ破裂音識別符を立ててLPCケプストラム係数信号
5l11として音素認識部15に送出する。
このLPCケプストラム係数信号SIBは、音素認識部
15によって/1./を含む音素候補列に変換されかつ
ラベル付けされる。この音素候補列は、音素信号Sl’
lとして上位レベル認識部18に送出される。
音素信号SI9を入力した上位レベル認識部18は、レ
ジストしである識別信号S2゜を読み出し、この識別信
号S2□の示す音素/1/のラベルと一致する音素を前
記音素候補列の中から認識する。
上位レベル認識部18による上記認識と並行して線形予
測分析部12は、第3図の開音区間d以降のフレームを
順次音声データバッファ11から読み出し線形予測分析
を行って予測係数信号S14.予測残差波形信号SI2
を各々音韻情報抽出部14.予測残差識別部13に送出
する。
予測残差識別部13は、予測残差波形信号SI□に破裂
点すが含まれていないことを確認し、音声信号識別符S
l?を音韻情報抽出部14に送出する。このとき予測残
差識別部13からは音声データバッファ11に対して制
御信号SI3が送出されず、音声データバッファ11.
波形包絡検出部16.無声破裂音識別部17は休止状態
となっている。
予測残差波形信号SI4と音声信号識別符SITとを入
力した音韻情報抽出部14は、予測係数信号S+aに対
応したLPCケプストラム係数を算出しこれを示すLP
Cケプストラム係数係数信号Sll前素認識部15に送
出する。
音素認識部15に入力したLPGケプストラム係数信号
S+aは、開音区間d以降の音素に対する音素候補列に
変換され、ラベル付けされた後音素信号SI9として上
位レベル認識部18に送出される。
上位レベル認識部18は、前述のように認識した無声破
裂音/1./のあとに時系列的に開音区間d以降の音素
の前記音素候補列を結合し、音節単位又は単語単位の認
識を行う。この認識結果は認識信号323としてホスト
コンピュータ20又は上位の認識部21に送出される。
尚、入力信号SIOが無声破裂音を含まない音声信号の
場合には、第3図の開音区間d以降の信号と同様に処理
される。
〔発明の効果〕
これらの発明は以上説明したように構成されているため
、無声破裂音の識別率の向上と装置全体の音声認識率の
向上を図ることができる効果がある。
【図面の簡単な説明】
第1図は請求項1記載の発明の一実施例を示すブロック
図、 第2図〜第4図は無声破裂音の波形的特徴を示す図、 第5図は請求項2記載の発明の一実施例を示すブロック
図、 第6図は従来の音声信号識別符を示すブロック図である
。 1・・・・・音声始終端検出部 2・・・・・音響分析部 3.15・・・音素認識部 4.16・・・波形包絡検出部 5.17・・・無声破裂音識別部 6.18・・・上位レベル認識部 719・・・入力媒体 11・・・・・音声データバッファ 12・・・・・線形予測分析部 13・ ・予測残差識別部 14・ ・音韻情報抽出部

Claims (2)

    【特許請求の範囲】
  1. (1)音声始終端検出部と、音響分析部と、音素認識部
    と、波形包絡検出部と、無声破裂音識別部と、この無声
    破裂音識別部と前記音素認識部との出力側に接続される
    上位レベル認識部とを備える音声認識装置であって、 前記音声始終端検出部は、入力された音声信号の無声破
    裂音の有無を検出し、この無声破裂音に対応する音声信
    号部分と無声破裂音以外の音声信号部分を時系列的に各
    々波形包絡検出部と音響分析部に出力するものであり、 前記音響分析部は、音声始終端検出部から入力した無声
    破裂音以外の音声信号部分を特徴ベクトルの時系列を示
    す信号に変換して音声認識部に出力するものであり、 前記音素認識部は、音響分析部から入力した特徴ベクト
    ルの信号を音素候補列の信号に変換して上位レベル認識
    部に出力するものであり、 前記波形包絡検出部は、音声始終端検出部から入力した
    無声破裂音に対応する音声信号部分の包絡波形を検出し
    その包絡波形を示すエンベロープ信号を無声破裂音識別
    部に出力するものであり、前記無声破裂音識別部は、波
    形包絡検出部から入力したエンベロープ信号に基づいて
    無声破裂音の音素の種類を識別し、その識別信号を上位
    レベル認識部に出力するものであり、 前記上位レベル認識部は、音素認識部から入力した無声
    破裂音以外の音素候補列の信号と無声破裂音識別部から
    入力した無声破裂音の音素の識別信号を時系列的に結合
    して前記音声信号の認識を行い、その認識信号を出力す
    るものであることを特徴とする音声認識装置。
  2. (2)音声データバッファと、線形予測分析部と、予測
    残差識別部と、波形包絡検出部と、無声破裂音識別部と
    、音韻情報抽出部と、音素認識部と、上位レベル認識部
    とを備える音声認識装置であって、 前記音声データバッファは、入力信号を所定サンプル数
    毎フレーム化して格納し、予測残差識別部からの制御信
    号受信時に破裂点位置にマークを有するマーク付フレー
    ム信号を波形包絡検出部に送出するものであり、 前記線形予測分析部は、音声データバッファから時系列
    的に格納フレームを読み出し線形予測分析法によって算
    出した予測係数と予測残差を各々示す予測係数信号と予
    測残差波形信号とを各々音韻情報抽出部と予測残差識別
    部に送出するものであり、 前記予測残差識別部は、線形予測分析部からの予測残差
    波形信号が示す音声区間フレームの無声破裂音の有無を
    検出し、無声破裂音検出時に音韻情報抽出部に破裂音識
    別符を送出すると共に破裂点を示すマーク情報と制御信
    号とを各々波形包絡検出部と音声データバッファに送出
    し、無声破裂音非検出時に音韻情報抽出部に音声信号識
    別符を送出するものであり、 前記波形包絡検出部は、音声データバッファからのマー
    ク付フレーム信号とマーク情報に基づいて検出した無声
    破裂音の包絡波形を示すエンベロープ信号を無声破裂音
    識別部に送出するものであり、 前記無声破裂音識別部は、波形包絡検出部からのエンベ
    ロープ信号に基づいて識別した無声破裂音の音素種類を
    示す識別信号を上位レベル認識部に送出するものであり
    、 前記音韻情報抽出部は、線形予測分析部からの予測係数
    信号に基づいて算出したLPCケプストラム係数を示す
    LPCケプストラム係数信号を予測残差識別部からの音
    声信号識別符受信時に音素認識部に送出し、破裂音識別
    符受信時には前記LPCケプストラム係数に破裂音フラ
    グを立てたLPCケプストラム係数信号を音素認識部に
    送出するものであり、 前記音素認識部は、音韻情報抽出部からのLPCケプス
    トラム係数信号を音素候補列でなる音素信号に変換して
    上位レベル認識部に送出するものであり、 前記上位レベル認識部は、音素認識部からの音素信号に
    基づいて音節単位又は単語単位の認識を行う機能を有し
    、かつ前記破裂音フラグ所有の音素信号受信時に、この
    音素信号の音素候補列と無声破裂音識別部からの識別信
    号が示す無声破裂音の音素とを置換して前記認識を行う
    ものであることを特徴とする音声認識装置。
JP1079771A 1988-07-20 1989-03-30 音声認識装置 Expired - Lifetime JP2580768B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1079771A JP2580768B2 (ja) 1988-07-20 1989-03-30 音声認識装置

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP63-179222 1988-07-20
JP17922288 1988-07-20
JP1079771A JP2580768B2 (ja) 1988-07-20 1989-03-30 音声認識装置

Publications (2)

Publication Number Publication Date
JPH02124600A true JPH02124600A (ja) 1990-05-11
JP2580768B2 JP2580768B2 (ja) 1997-02-12

Family

ID=26420764

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1079771A Expired - Lifetime JP2580768B2 (ja) 1988-07-20 1989-03-30 音声認識装置

Country Status (1)

Country Link
JP (1) JP2580768B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016042162A (ja) * 2014-08-19 2016-03-31 大学共同利用機関法人情報・システム研究機構 生体検知装置、生体検知方法及びプログラム
US10600524B2 (en) 2011-05-11 2020-03-24 Stemrad Ltd. Radiation protection device and methods thereof
CN113053364A (zh) * 2019-12-27 2021-06-29 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10600524B2 (en) 2011-05-11 2020-03-24 Stemrad Ltd. Radiation protection device and methods thereof
JP2016042162A (ja) * 2014-08-19 2016-03-31 大学共同利用機関法人情報・システム研究機構 生体検知装置、生体検知方法及びプログラム
CN113053364A (zh) * 2019-12-27 2021-06-29 北京搜狗科技发展有限公司 一种语音识别方法、装置和用于语音识别的装置

Also Published As

Publication number Publication date
JP2580768B2 (ja) 1997-02-12

Similar Documents

Publication Publication Date Title
JP3180655B2 (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
JPS6147440B2 (ja)
JPH09500223A (ja) 多言語音声認識システム
JPS6247320B2 (ja)
US4769844A (en) Voice recognition system having a check scheme for registration of reference data
JPH0341838B2 (ja)
US4477925A (en) Clipped speech-linear predictive coding speech processor
JPH02124600A (ja) 音声認識装置
US4783808A (en) Connected word recognition enrollment method
Mahmud Performance Analysis of Different Acoustic Features Based on LSTM for Bangla Speech Recognition
JP3039453B2 (ja) 音声認識装置
JP3032215B2 (ja) 有音検出装置及びその方法
JP2798919B2 (ja) 音声区間検出方式
JPH0233200A (ja) データベース検索方式
JP2529207B2 (ja) 音韻認識装置
JPS61249099A (ja) 音声認識装置
JPH0640274B2 (ja) 音声認識装置
Webb et al. A microcomputer based speech recognition system
JPS6069694A (ja) 語頭子音のセグメンテ−ション法
JPS6027433B2 (ja) 日本語情報入力装置
Das et al. Machine recognition of Hindi consonants and distinctive features using vector quantization
JPS6131480B2 (ja)
JPS6126099A (ja) 音声基本周波数抽出方法
JPH0552520B2 (ja)
JPH10274994A (ja) 類似単語識別方法およびその装置