JPS60159900A - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPS60159900A
JPS60159900A JP1626184A JP1626184A JPS60159900A JP S60159900 A JPS60159900 A JP S60159900A JP 1626184 A JP1626184 A JP 1626184A JP 1626184 A JP1626184 A JP 1626184A JP S60159900 A JPS60159900 A JP S60159900A
Authority
JP
Japan
Prior art keywords
feature extraction
recognition
phoneme recognition
speech
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP1626184A
Other languages
English (en)
Inventor
高井 紀代
入路 友明
一宏 津賀
別所 由実
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP1626184A priority Critical patent/JPS60159900A/ja
Publication of JPS60159900A publication Critical patent/JPS60159900A/ja
Pending legal-status Critical Current

Links

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】 産業上の利用分野 本発明は音声認識装置の改良に関し、特に認識精度の向
上を図るようにしたものに関する。
従来例の構成とその問題点 音声認識技術はワードプロセッサや計棹機への入力等、
マン・マシン・インターフIイスとじて実用化が期待さ
れている分野である。最近のマイクロプロセッサやDS
P<ディジタルシグナルプロセッサ)の高性能化に伴っ
て、音声認識技術が我々に身近なものとなりつつあるが
、技術レベルとしてはまだまだ誤認識が多く、実用に充
分な認識率が得られているとは言い難い。
次に図面を用いて従来の音声認識装置の一例を説明する
。第1図は音声認識装置の構成を示すブロック図である
。1はマイクロフォンで、このマイクロフォン1から音
声信号が入力され、入力された音声信号は特徴抽出部2
で特徴パラメータの時系列に変換される。特徴抽出の手
法としては、LPC(線形予測〉パラメータやフィルタ
バンクを用いたものが多く開発されているが、ここでは
、1Gチヤネルのフィルタバンクを用いた場合について
説明する。入力音声信号は周波数軸上に並べられた16
個の帯域フィルタのそれぞれの出力の大きざを表わす1
6個の数値の組として出力される。3は認識規則部で、
認識手法に応じた認識規則が格納されている。例えば、
マツチングを用いる場合には、認識すべき音韻の標準パ
ターンが格納されることになる。標準パターンとは、各
音韻に対してあらかじめ前記特徴抽出と同じ方法で抽出
された特徴間で、認識処理開始前に入力者が標準パター
ン作成のための発生を行なう登録型と、たくさんの発声
データを平均化して普遍的なパターンをあらかじめ作成
しておく不特定型とがあるが、ここでは後者を採用する
。すなわち、認識規則部3には、各音韻の普遍的な標準
パターンが格納されている。4は音韻認識部で、入力さ
れた特徴量とC準パターンの特徴間との距離をめ、距離
の最も小さくなる音韻を認識結果として音韻列で出力す
る。5は単語辞書部で、認識すべき単語を音韻列で記憶
している。6は単語認識部で、音声認識部4の出力音韻
列と単語辞書部4の各単語を比較し、最も類似度の高い
ものが認識単語として、認識結果出力端7に出力される
認識に用いられている手法として、LPGパラメータや
16〜20チヤネルのフィルタバンクを用いた方法が主
流となっている。しかしながら、LPCパラメータを用
いた方法では、分析窓は2071LSeCi程度と長く
とる必要があるため、子音部や過渡部のように早い時間
でスペクトルが急に変化する場合には、その変化を捕え
ることができない。
また16〜20チヤネルのフィルタバンクでは、1チヤ
ネルが広い帯域をカバーするために、フィルタのQを低
くする必要があり、周波数分解能が悪くなる。
以上の理由から、LPCパラメータや1G〜20チヤネ
ルにフィルタバンクを用いた方法では、比較的変化の少
ない母音定常部では正しく認識するが、スペクトルが時
間的に早く変化する子音部や過渡部では認識率が悪いの
が現状である。
また、16〜20チヤネルのフィルタの荒さを解消する
ために100〜200チヤネルの比較的多くのフィルタ
を用いて周波数分解能をあげることは子音部や過渡部の
認識に効果的であるが、処理時間が膨大になるという問
題点がある。
発明の目的 本発明は音声認識装置において、特徴抽出部、音声認識
部を階層化し、定常部では荒い特徴抽出を、非定常部で
は細かい特徴抽出を行なうことにより、前記問題点を解
消し、認識率を向上せしめることを目的とする。
発明の構成 LPCパラメータや16〜2Gチヤネルの荒いフィルタ
バンクを用いた場合でも、スペクトル変化の少ない母音
定常部では比較的安定な認識率が得られていることに鑑
み、まず荒い特徴抽出を行ない、その結果をもとにして
母音定常部、非定常部(子音部、過渡部)のセグメンテ
ーションを行ない、非定常部と判定された範囲について
は、さらに周波数分解能、時間分解能の高い精密な特徴
抽出を行なうことにより非定常部についてもより正確な
認識結果を得ることができる。このように本発明は階層
化された特徴抽出部、音声認識部を備えることを特徴と
するものである。
実施例の説明 以下本発明の一実施例を図面に基づいて説明する。第2
図は本発明の一実施例の構成を示したブロック図である
。マイク0フオン11から入力された音声信号は、A/
D変換器12を介して16K HZでサンプリングされ
、入力音声格納バッファ13に記憶される。14は第1
の特徴抽出部で°、従来例で用いたのと同じ16チヤネ
ルのフィルタバンクを用いる。15は第1の認識規則部
で、各音韻の標準パターンが格納されている。16は第
1の音声認識部で、入力された特徴間と標準パターンの
距離をめ、第1回目の音声認識を行なう。17は音声選
択部で、特徴抽出部14で出力される一定時間毎の特徴
量間の差をめたスペクトル変化量を線用する。
同時にスペクトル変化量と第1の音声認識結果を用いて
、定常部、非定常部の切りだしを行なうとともに非定常
部の分類も行なう。すなわち、切りだされた非定常部に
対して無声破裂音、有声破裂音、無声摩擦音、有声摩擦
音、破擦音、鼻音、半母音の分類を行なう。その結果を
用いて、第2の特徴抽出を施す部分を決定し、第2の特
徴抽出部18において、入力音声格納バッファ13に格
納された入力音声に対してさらに周波数分解能の高い細
かい特徴抽出を行なう。ここではフィルタバンクとして
、1オクターブ24チヤネルで、7オクターブをカバー
するように、−周波数軸上に並列に並べられた168チ
ヤネルのフィルタを用いる。しかし常に168チヤネル
のフィルタを用いて特徴抽出されるのではなく、フィル
タの使用範囲、すなわち特徴抽出を行なう周波数帯域に
ついても音声選択部11で前後の母音、非定常部の分類
結果から決定される。例えば、″鼻音11 + 11母
音i 11という結果が得られた場合には、2.5に〜
5.5にであり、中心周波数78Hzの場合を1チヤネ
ルとして高域に向って各チャネル毎に番号をつけると、
120チヤネルから149チヤネルの30チヤネル分だ
けフィルタリングを行なえばよい。こうして得られた第
2の特徴間をもとに、第2の認識規則部19に格納され
た認識規則を用いて第2の音声認識部20で第2回目の
音声認識を行ない音韻系列を得る。第2の認識規則部1
9には、第1の認識規則部15と同様に、あらかじめ第
2の特徴抽出部で同じ方法で抽出された標準パターンが
格納されている。第2の音声認識部20では、第1の音
声認識部と同様に、標準パターンと入力音声から抽出さ
れた特徴量との距離をめ、最小となるものを認識結果と
して出力する。21は単語辞書部で、その4R成は従来
例と同じである。第1の音声認識結果と第2の音声認識
結果を入力として、単語認識部22で単語辞書部21内
の単語との類似麿をめ、もつとも近いものを単語認識結
果として、認識結果出力端23に出力する。
このように、特徴抽出部、音韻認識部をlli!i層化
して2段階に分け、第1の段階では定常部の認識、非定
常部の切りだし、非定常部の分類を行ない、その認識結
果に基づいて、第2の段階での特徴抽出の仕様を決定す
る。この第2の段階で行なわ・れる特徴抽出は、周波数
の時間的変化に追従する必要があるため、周波数分解能
、時間分解能とともに第1段階のものより高性能である
必要がある。
しかしながら、特徴抽出の対象となる範囲が第1の認識
結果より限定されているので、処理時間が大幅に増加す
ることはない。
本実施例では、特徴抽出・認識の手法として、第1段階
、第2段階ともにフィルタバンクおよびパターンマツチ
ングを用いたが、本発明は特徴抽出・認識の手法の種類
に関係ないことは言うまでもない。
発明の効果 以上従来例でも説明したように、LPCパラメータや1
6〜20チヤネルの荒いフィルタ・バンクを用いた特徴
抽出法等では、周波数分解能、時間分解能ともに限界が
あるため定常部では比較的安定な認識率が得られるが、
非定常部では充分な認識率を得ることが困難であったの
に対し、本発明によれば、入力した音声を一旦入力音声
記憶手段に格納しておき、非定常部に対してのみ再度周
波数分解能の高い特徴抽出を行なって、スペクトルの時
間的変化を正確にとらえ、非定常部の認識率を向上され
ることができる。さらに、第1の認識結果に基づいて第
2の特徴抽出範囲が限定されているので、対象音声すべ
てに対して周波数分解能率の高い特徴抽出を行なった場
合に比べて、格段に少ない処理時間で、同等の効果を得
ることができる。
【図面の簡単な説明】
第1図は従来例における音声認識装置の構成図、第2図
は本発明の一実施例における音声認識装置の構成図であ
る。 11・・・マイクロホン、13・・・入力音声格納バッ
ファ、14・・・第1の特徴抽出部、15・・・第1の
認識規則部、16・・・第1の音韻認識部、17・・・
畜肉選択部、18・・・第2の特徴抽出部、19・・・
第2の認識規則部、20・・・第2の音韻認識部、21
・・・単語認識部、22・・・甲浦辞書部 代理人 森 本 義 弘

Claims (1)

  1. 【特許請求の範囲】 1、音声入力手段、入力音声記憶手段、第1の特徴抽出
    手段、第2の特徴抽出手段、第1の音韻認識手段、第2
    の音韻認識手段および音声選択手段を有し、前記音声入
    力手段から入力された音声を前記音声記憶手段に格納し
    、前記音声記憶手段から取り出された音声に対して前記
    第1の特徴抽出手段を用いて特徴抽出を行って第1の特
    徴パラメータを抽出し、前記第1の特徴パラメータを前
    記第1の音韻認識手段に入力し第1の音韻認識を行って
    第1の音韻認識結果を得、前記第1の特徴パラメータお
    よび前記第1の音韻認識結果を前記音声選択手段に入力
    して定常部、非定常部の切りだしおよび非定常部の分類
    を行ない、非定常部の分類結果については前記入力音声
    記憶手段の出力とともに前記第2の特徴抽出手段に入力
    して第2の特徴パラメータを抽出し、前記第2の特徴パ
    ラメータを前記第2の音韻認識手段に入力し、第2の音
    韻認識を行って第2の音韻認識結果を得、定常部につい
    ては前記第1の音韻認識結果を採用し、非定常部につい
    ては前記第2の音韻認識結果を採用して最終的な認識結
    果を得るようにした音声認識装置。 2、第2の特徴抽出手段として、第1の特徴抽出手段よ
    りも周波数分解能、時間分解能の高い精密な特徴抽出手
    段を用いることを特徴とする特許請求の範囲第1項記載
    の音声認識装置。
JP1626184A 1984-01-31 1984-01-31 音声認識装置 Pending JPS60159900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP1626184A JPS60159900A (ja) 1984-01-31 1984-01-31 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP1626184A JPS60159900A (ja) 1984-01-31 1984-01-31 音声認識装置

Publications (1)

Publication Number Publication Date
JPS60159900A true JPS60159900A (ja) 1985-08-21

Family

ID=11911612

Family Applications (1)

Application Number Title Priority Date Filing Date
JP1626184A Pending JPS60159900A (ja) 1984-01-31 1984-01-31 音声認識装置

Country Status (1)

Country Link
JP (1) JPS60159900A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62119600A (ja) * 1985-11-20 1987-05-30 富士通株式会社 単語音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62119600A (ja) * 1985-11-20 1987-05-30 富士通株式会社 単語音声認識装置

Similar Documents

Publication Publication Date Title
EP0178509B1 (en) Dictionary learning system for speech recognition
Vergin et al. Generalized mel frequency cepstral coefficients for large-vocabulary speaker-independent continuous-speech recognition
KR100870889B1 (ko) 음신호 처리 방법, 음신호 처리 장치 및 기록 매체
EP0128755A1 (en) Apparatus for speech recognition
Gu et al. Perceptual harmonic cepstral coefficients for speech recognition in noisy environment
JPH036517B2 (ja)
JPS5972496A (ja) 単音識別装置
Yapanel et al. A new perspective on feature extraction for robust in-vehicle speech recognition.
Christensen et al. A comparison of three methods of extracting resonance information from predictor-coefficient coded speech
Deiv et al. Automatic gender identification for hindi speech recognition
Chapaneri et al. Efficient speech recognition system for isolated digits
JPS60159900A (ja) 音声認識装置
Tanaka A dynamic processing approach to phoneme recognition (part I)--Feature extraction
Prasad et al. Identification of F1 and F2 in Speech Using Modified Zero Frequency Filtering.
Elghonemy et al. Speaker independent isolated Arabic word recognition system
Waardenburg et al. The automatic recognition of stop consonants using hidden Markov models
US20100063816A1 (en) Method and System for Parsing of a Speech Signal
Ananthapadmanabha et al. Relative occurrences and difference of extrema for detection of transitions between broad phonetic classes
Zheng et al. A Chinese speech recognition system
Sahu et al. Odia isolated word recognition using DTW
CN115295014A (zh) 一种提高拼音模糊匹配正确率的拼音相似度计算方法
JPS6136798A (ja) 音声セグメンテ−シヨン法
JPS6011898A (ja) 音声認識装置
JPS61249099A (ja) 音声認識装置
JPS6250800A (ja) 音声認識装置