JPH0752355B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0752355B2
JPH0752355B2 JP60165794A JP16579485A JPH0752355B2 JP H0752355 B2 JPH0752355 B2 JP H0752355B2 JP 60165794 A JP60165794 A JP 60165794A JP 16579485 A JP16579485 A JP 16579485A JP H0752355 B2 JPH0752355 B2 JP H0752355B2
Authority
JP
Japan
Prior art keywords
voice
standard pattern
pattern
segment
input voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60165794A
Other languages
English (en)
Other versions
JPS6227798A (ja
Inventor
一広 山畳
利一 安江
吉明 北爪
利之 井関
俊夫 上村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Ltd
Original Assignee
Hitachi Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Ltd filed Critical Hitachi Ltd
Priority to JP60165794A priority Critical patent/JPH0752355B2/ja
Publication of JPS6227798A publication Critical patent/JPS6227798A/ja
Publication of JPH0752355B2 publication Critical patent/JPH0752355B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 〔発明の利用分野〕 本発明は、標準パターンを記憶しておき、入力音声パタ
ーンを該標準パターンと照合することにより、該入力音
声の認識を行なう音声認識装置に係り、特に、話者の発
声変動や突発的な雑音の影響を排除した標準パターンを
作成し安定な認識を行なう音声認識装置に関する。
〔発明の背景〕
音声認識装置は、認識対象とする各音声に対して標準パ
ターンが用意されており、入力音声パターンを上記各標
準パターンと比較照合、即ちマッチングを行って最も良
好な一致が得られる標準パターンを決定することによっ
て入力音声パターンが、該標準パターンと同一音声であ
ると判定される。
上記標準パターンを登録する方法として、入力音声をそ
のままメモリに記憶させる方法は、例えば、単語認識装
置では、1つの単語に対しその入力パターン長に比例す
るメモリを必要とし、更に単語数分のメモリが必要とな
り、そのメモリ量は膨大なものとなる。
一方、音声には、母音部等継続時間が100msec程度の定
常部分がかなりの割合で存在する。たとえば従来の装置
では、特開昭58-137899に記載のようにこのような定常
部分を検出し、その区間の中央位置の情報をその区間の
代表値とすることによって情報量の圧縮を行っていた。
また、特開昭58-82300号公報には、連続する類似した特
徴パターンについては、その特徴パターンとその連続回
数とを標準パターンメモリ部に記憶することにより、情
報量の圧縮を行なっている。これらの従来技術において
は、入力音声と標準パターンとを両者が圧縮された状態
で照合している。また、この圧縮した標準パターンを用
いて突発的な雑音や、話者の発声変動が入ることを排除
するためには、話者に同じ語を複数回発声させて、1回
目の発声データから標準パターンを作成し、2回目以降
の発声データを、入力パターンとし、1回目で作成した
標準パターンとのマッチングを行ない、その距離が、あ
る閾値より小さければ前記標準パターンは、有効である
とすればよい。逆に、距離が閾値を超えた場合には、1
回目の発声データで作成した標準パターンは無効とし、
2回目の発声データから作成した標準パターンと入れか
える。その検定に3回目以降の発声データを使用すれば
よい。
しかしこのような方法では標準パターンは、過去に発声
されたデータの1回分であるにすぎず、そのときに偶然
入った雑音等の不要な情報まで標準パターンの中に含ま
れており、これが認識率低下の原因となっていた。この
ような不要情報の影響を少なくするには、話者が複数回
発声したデータの平均値を用いて標準パターンを作成す
れば良い。しかし、話者の発声時間は、毎回異なるた
め、そのパターン長も異なり、単純に平均化すること
は、不可能であった。
〔発明の目的〕
本発明の目的は、話者の発声変動や、突発的雑音等の不
要情報を排除した安定で学習可能な圧縮標準パターンを
作成するようにし、かつ、認識時には、該標準パターン
と、圧縮しない入力パターンとの高精度なマッチングを
行なうことのできる音声認識装置を提供することにあ
る。
〔発明の概要〕
この目的を達成するため、本発明では、標準パターン作
成時には、入力音声の発声時間の変化に関係なく入力音
声情報を一定数のセグメントにグループ化し、各セグメ
ントに含まれるデータの平均値をそのセグメントの代表
値として、圧縮標準パターンを作成する。2回目以降の
発声データに関しても、同様の情報圧縮を行ない、既に
作成されている標準パターンの各セグメントのデータと
の間で平均値を求めれば、標準パターンの平均化を行な
うことが、できる。
更に、標準パターン作成時に、各セグメントに含まれる
フレーム数に関する情報を復元用制御データとして記憶
しておき、マッチング処理時には、前記標準パターンと
復元用制御データを用いて、圧縮処理を行なわない入力
音声データとのマッチング処理を行なう。
〔発明の実施例〕
以下、本発明を実施例により説明する。第1図は本発明
の一実施例としての特定話者の音声認識装置を示すブロ
ック図である。
同図において、最初に、話者の音声を記憶部5に登録す
る。まず、マイク等からの入力音声信号が分析部1に取
込まれると、分析部1は、周波数スペクトル分解して認
識の基になる特徴パラメータと、音声検出パラメータを
出力する。
さらに詳細には、分析部1では、入力音声信号の中から
音声帯域の信号だけを取出すために3.6KHzの低域通過フ
ィルタを通しその後8KHzでサンプリングし、アナログデ
ィジタル変換によって12ビットのディジタル音声信号に
する。更にこれを16個の帯域通過フィルタにより周波数
スペクトル分解し、低域通過フィルタで平滑化した後、
20msec間隔でサンプリングして16個の特徴パラメータを
出力する。また、20msecの区間の短区間エネルギを計算
し、対数変換した後、音声検出パラメータとして出力す
る。この20msecの時間単位は、特徴パラメータ、音声検
出パラメータが分析部1から出力されるタイミングであ
り、また分析の基本単位でもありフレームと呼ぶ。
音声検出部2は、分析部から入力した音声検出パラメー
タを用いてそのフレームの音声が有音か無音かを判定す
る。有音/無音の判別のために、音声検出閾値を設定し
この値を超えるかどうかで有音/無音の判定を行なう。
そしてこの情報を用いて音声区間を検出する。それは、
過去の有音継続時間を調べ、現在まで有音区間が、所定
時間以上続いたときそれを音声とみなす。更に、無音区
間が所定時間以上続いたときに音声が終了したとして、
その直前の有音区間を音声区間として、照合部3および
圧縮処理部4に出力する。
圧縮処理部4では、音声検出部2からの音声区間情報に
基づいて音声情報を圧縮する。圧縮処理部4には、入力
音声の時間長に比例した長さの特徴パラメータが分析部
1の周波数帯域別に得られる。
第2図は、同じ単語を2回発声した時のある周波数帯fn
チャンネルのデータを表したものである。このように、
同じ話者が同じ単語を発声しても、その発声時間は毎回
異なる。それに伴って特徴パラメータの情報量も変化す
る。
このように、入力音声の時間長に応じて情報量の変化す
る特徴パラメータを、入力音声の時間長に関係なく正規
化するため全体を一定数のセグメント、例えば8コのセ
グメントS1〜S8にグループ化する。そして各セグメント
内のサンプル値を平均して、そのセグメントの値とす
る。
第3図においてt1〜tmは、サンプリングフレームの番
号、f1〜f16は分析部1におけるフィルタチャンネル、1
31,118,…の数字は、特徴パラメータを表わしている。
この場合、入力音声のサンプリング間隔は、20msecであ
るが、短い話や単音節の場合には、発声時間は200msec
程度であり、また、単語の場合は、約1sec程度の発声時
間となるため、10〜50フレーム程度の特徴パラメータが
得られる。
また、グループ化するセグメント数は、認識精度によっ
て決定されるが、語の長さには関係なく一定数とする。
各セグメントに含まれるフレームは、セグメント数を
N、Nセグメントにグループ化する前の入力フレーム数
をmとしたとき、第iセグメントめには、 フレームのデータが含まれる。ここで、関数F(x)
は、xの小数点以下の切捨てを行なう関数である。
セグメントS1〜S8におけるフィルタチャンネルf1〜f16
のサンプル値の平均値を求め、その代表値を求めた結果
は、第4図のようになる。
更にこのとき、各セグメントに含まれるフレーム数を、
フレーム制御情報としてn1〜n8にセットする。
以上により特徴パラメータの時間軸上での正規化が行な
われたことになる。
この圧縮されたデータは、記憶部5に送られ、他のデー
タと区別するためのラベルをつけて登録される。
このようにして、あらかじめ決められた音声を登録した
あと認識フェーズに入る。認識時には、入力音声信号を
分析部1で分析し、更に登録時と同様に音声検出部2で
音声検出を行なう。照合部3では、入力音声信号を分析
した特徴パラメータと音声区間情報を取込み、有効な音
声区間の特徴パラメータを照合対象とする。そして記憶
部5に登録されている圧縮された特徴パラメータを、復
元部6で、復元し照合部3で照合処理を行なう。
復元時には、記憶部5に音声データのラベルが入力され
ると、そこから圧縮されたデータとフレーム制御情報が
復元部6に出力される。
第5図は復元のモデル例で、横軸がフレーム,縦軸があ
るチャネルの成分量を表わしており、上に圧縮されたデ
ータを、下にその復元データを示している。圧縮された
データS1は、フレーム制御情報より3フレーム分の代表
値であるので、復元情報のT1〜T3フレームの値はS1とな
る。又、次のT4,T5フレームの値はS2となる。このよう
にして復元部では、圧縮データを復元して照合部3に出
力する。照合部3では、入力音声との比較照合により最
良の標準音声の名称を認識結果として出力する。以上が
認識の流れである。
次に、圧縮された標準パターンに含まれる突発的雑音等
の不要情報を取り除くための学習処理について述べる。
第6図に、学習処理の処理フローを示す。
まず、話者に、同じ単語をもう1度発声させて2回目の
音声信号を入力する。この信号を、登録,認識時と同様
に分析,音声検出を行ない、この信号と、前記標準パタ
ーンの間で、照合処理を行なう。その結果は学習処理部
7へ送られる。学習処理部7では、その照合結果から、
前記標準パターンと入力音声が著しく異った語であると
判定される場合は、学習処理は行なわない。しかし、判
定の結果、ある程度の類似度が確認された場合には、学
習処理を行なう。
学習処理は、2回目の入力音声信号に対して、登録時と
同様の圧縮処理を行ない、前記標準パターンとセグメン
ト数の同じ圧縮パターンを作る。標準パターンと新たに
作った圧縮パターンは、時間軸上での正規化が行なわれ
ているので、単純に各セグメント間の加算平均により学
習が可能である。よって、この新たに作ったパターン
と、標準パターンの各セグメントS1〜S8の各フィルタチ
ャンネルf1〜f16ごとに平均値を求めてその代表値とす
る。更にフレーム制御情報も、各セグメントごとに平均
値を求める。
このような学習処理を何度かくり返せば、標準パターン
が平均化されるため突発的に入力音声信号に入りこんだ
雑音等の影響を減少していく。
なお本発明は、上記実施例に限定されるものではない。
本実施例では、音声検出パラメータに短区間音声エネル
ギの対数値を用いたが、エネルギをそのまま用いても良
く、また音声パワーの他に高域成分と低域成分の比率を
表した高域/低域パワー比とを組合せることもでき、こ
の場合、エネルギの小さい無声音声も容易に検出できる
ようになる。更に圧縮処理において、各セグメントに含
まれるフレームを決定する際に、本実施例では、小数点
以下を切捨てたが、切捨てを行なわずに、各セグメント
の先頭フレームと最終フレームは、そのセグメントに含
まれる比率に応じた量だけを加えるようにすれば、より
正確なセグメント分割が可能となる。
〔発明の効果〕
本発明によれば、標準パターンを圧縮するので、標準パ
ターンエリアを縮小することができる。この圧縮の際、
各セグメント内のフレーム数も圧縮標準パターンととも
に記憶するので、復元時にこのフレーム数を利用して正
確に元の標準パターンを復元することができる。また、
復元した標準パターンと、認識対象である未圧縮の入力
音声パターンとを照合するので、照合精度が高く、認識
率が向上する効果がある。さらに、学習手段を備えるこ
とにより、標準パターン作成時の入力音声信号に含まれ
る突発的な雑音や話者の発声変動等の不要情報の影響の
少ないより標準的な標準パターンが作成できる。
【図面の簡単な説明】
第1図は、本発明の一実施例を示すブロック図、第2図
は、同じ単語を2回発声したときの或る周波数帯チャン
ネルのデータを比較して示した説明図、第3図,第4図
はそれぞれ標準パターン作成時のセグメント分割の説明
図、第5図は、標準パターン復元の説明図、第6図は、
学習処理の処理フローを示すチャートである。 符号の説明 1……分析部 2……音声検出部 3……照合部 4……圧縮処理部 5……記憶部 6……復元部 7……学習処理部 t1〜tm,t′〜t′……入力フレーム S1〜S8,S′〜S′……セグメント f1〜f16……周波数フィルタチャンネル n1〜n8……フレーム制御情報 T1〜Tm……復元したフレーム。
───────────────────────────────────────────────────── フロントページの続き (72)発明者 井関 利之 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所マイクロエレクトロニク ス機器開発研究所内 (72)発明者 上村 俊夫 神奈川県横浜市戸塚区吉田町292番地 株 式会社日立製作所マイクロエレクトロニク ス機器開発研究所内 (56)参考文献 特開 昭58−136098(JP,A) 特開 昭58−82300(JP,A) 特開 昭60−158498(JP,A) 特開 昭57−63598(JP,A) 特開 昭51−81504(JP,A)

Claims (2)

    【特許請求の範囲】
  1. 【請求項1】標準パターンを記憶し、該記憶された標準
    パターンと入力音声パターンとを照合することにより、
    該入力音声の認識を行なう音声認識装置において、 入力音声を分析し、フレーム毎の入力音声パターンを求
    める音声分析手段と、 該音声分析手段により求められた入力音声パターンを、
    その発声時間の変化に関係なく、各々ほぼ同数のフレー
    ムを含む一定数のセグメントに分割し、各セグメント内
    の入力音声パターンを構成するデータの平均値をそのセ
    グメントの代表値として求める圧縮手段と、 該圧縮手段により得られたセグメント毎の代表値を、各
    セグメントに含まれるフレーム数とともに、圧縮標準パ
    ターンとして記憶する圧縮標準パターン記憶手段と、 該圧縮標準パターン記憶手段から得られる、前記セグメ
    ント毎の代表値およびフレーム数に基づき、各標準パタ
    ーンを復元する復元手段と、 該復元手段により復元された標準パターンと前記音声分
    析手段からの入力音声パターンとを照合する照合手段
    と、 を備えたことを特徴とする音声認識装置。
  2. 【請求項2】特許請求の範囲第1項記載の音声認識装置
    において、同一の入力音声に対して前記圧縮手段により
    得られた複数の圧縮標準パターンについて、対応するセ
    グメントの代表値の平均値を求め、該平均値を新たな圧
    縮標準パターンとして用いる学習手段を備えたことを特
    徴とする音声認識装置。
JP60165794A 1985-07-29 1985-07-29 音声認識装置 Expired - Lifetime JPH0752355B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60165794A JPH0752355B2 (ja) 1985-07-29 1985-07-29 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60165794A JPH0752355B2 (ja) 1985-07-29 1985-07-29 音声認識装置

Publications (2)

Publication Number Publication Date
JPS6227798A JPS6227798A (ja) 1987-02-05
JPH0752355B2 true JPH0752355B2 (ja) 1995-06-05

Family

ID=15819115

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60165794A Expired - Lifetime JPH0752355B2 (ja) 1985-07-29 1985-07-29 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0752355B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6444997A (en) * 1987-08-13 1989-02-17 Ricoh Kk Reference pattern registration system
JP2749811B2 (ja) * 1987-12-09 1998-05-13 株式会社リコー 標準パターン作成方式

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS5882300A (ja) * 1981-11-11 1983-05-17 住友電気工業株式会社 音声認識方式
JPS58136098A (ja) * 1982-02-08 1983-08-12 株式会社京三製作所 認識パタ−ン学習方式

Also Published As

Publication number Publication date
JPS6227798A (ja) 1987-02-05

Similar Documents

Publication Publication Date Title
EP0302663B1 (en) Low cost speech recognition system and method
US5025471A (en) Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
KR100766761B1 (ko) 화자-독립형 보이스 인식 시스템용 보이스 템플릿을구성하는 방법 및 장치
CA2085895A1 (en) Continuous speech processing system
JPH0968994A (ja) パターンマッチングによる単語音声認識方法及びその方法を実施する装置
US5487129A (en) Speech pattern matching in non-white noise
US5522013A (en) Method for speaker recognition using a lossless tube model of the speaker's
Kamble et al. Emotion recognition for instantaneous Marathi spoken words
WO1983002190A1 (en) A system and method for recognizing speech
JPH0752355B2 (ja) 音声認識装置
JP2003044078A (ja) 発声速度正規化分析を用いた音声認識装置
GB2216320A (en) Selective addition of noise to templates employed in automatic speech recognition systems
JP2813209B2 (ja) 大語彙音声認識装置
JPH04324499A (ja) 音声認識装置
JP2001083978A (ja) 音声認識装置
JP2664136B2 (ja) 音声認識装置
JPH07210197A (ja) 話者識別方法
JP2658426B2 (ja) 音声認識方法
JPH0690631B2 (ja) 音声認識方法
Elghonemy et al. Speaker independent isolated Arabic word recognition system
JPH1165589A (ja) 音声認識装置
JP2746803B2 (ja) 音声認識方法
JPH0424717B2 (ja)
JP2744622B2 (ja) 破裂子音識別方式
JPH0451840B2 (ja)