JPH0632006B2 - 音声認識装置 - Google Patents

音声認識装置

Info

Publication number
JPH0632006B2
JPH0632006B2 JP60251279A JP25127985A JPH0632006B2 JP H0632006 B2 JPH0632006 B2 JP H0632006B2 JP 60251279 A JP60251279 A JP 60251279A JP 25127985 A JP25127985 A JP 25127985A JP H0632006 B2 JPH0632006 B2 JP H0632006B2
Authority
JP
Japan
Prior art keywords
pattern
voice
standard
standard pattern
input
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP60251279A
Other languages
English (en)
Other versions
JPS62111295A (ja
Inventor
武志 則松
正宏 浜田
明寿 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP60251279A priority Critical patent/JPH0632006B2/ja
Publication of JPS62111295A publication Critical patent/JPS62111295A/ja
Publication of JPH0632006B2 publication Critical patent/JPH0632006B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Description

【発明の詳細な説明】 産業上の利用分野 本発明は、標準パターンと入力音声パターンとのパター
ンマッチングにより認識結果を導き出す音声認識装置に
関するものである。
従来の技術 一般に、音声認識装置では、入力音声パターンと辞書に
蓄えられた各標準パターンとの類似度を計算し、類似度
の最大となる標準パターンを認識結果とする方法が行な
われている。二つの音声パターンの類似度を計算するた
めには動的計画法(ダイナミック プログラミング法)
を用いて、二つのパターンの時間軸を非線形に伸縮する
パターンマッチング(以下、DPマッチングと記す。)
が使用されている。特に、単語音声認識装置では、この
DPマッチング法により高い認識率を得ている。(例え
ば、「ダイナミック プログラミングオプティミゼイシ
ョン フォ スポークン ワード レコグニション」
(H.Sakoe and S.Chiba,“Dynamic programming optimi
zation for sporken word recognition”,IEEE trans.
Acoustic Speech,Signal Processing,Vol.ASSP−27
pp.336−349,1979)) 発明が解決しようとする問題点 しかしながら上記の音声認識装置では、スペクトルの形
状のみによるパターンマッチングを行うため、異なった
音声パターン間のDPマッチングにおいても、極端な時
間軸の非線形伸縮のため両者の距離が小さくなる場合が
あり、認識論を生じる原因となっていた。例えば、「大
阪」と「大分」とはエネルギー系列で見ると、前者は三
つ、後者は二つのエネルギーの山があり明らかに異なっ
た二つのパターンであるが、音韻的には似通っているた
めDPマッチングにより距離が小さくなってしまう。
また、類似した音声パターン間のDPマッチングでは、
音声パターン全体に渡ってDPマッチングを行なうた
め、両者間の違いが埋もれてしまい、その結果、パター
ン間の距離が小さくなり誤認識を生じやすいという問題
点を有していた。
また、認識対象外単語が入力された時にも標準パターン
の一つにマッチングしてしまい、対象外単語のリジェク
ト性能には限界があった。
本発明は上記問題点に鑑み、類似音声パターン間での誤
認識および極端なDPマッチングによる誤認識を極力抑
え、さらに認識対象外単語が入力された時のリジェクト
性能を高め、標準パターンの増加を防止することのでき
る音声認識装置を提供するものである。
問題点を解決するための手段 上記問題点を解決するために本発明の音声認識装置は入
力音声からエネルギー系列を含む特徴ベクトルの時系列
を出力する音声分析手段と、前記音声分析手段から出力
されるエネルギー系列から、音声パターン中の音声部分
と無音声部分を判別し、無音声区間の個数およびそのフ
レーム位置を検出する無音声区間検出手段と、発声の仕
方,個人差により欠落の生じるパターンを欠落のない標
準パターンの一部として管理するパターン管理手段と、
標準パターン各々の無音声区間の最も確かな順位を統計
的手段や、同一人の複数回発声により決定し記憶する無
音声情報報記憶手段と、無音声区間点の優先順位に従っ
て無音声区間のフレーム位置の交点をマッチングパスが
必ず通過するように制限を加えたパターンマッチングを
行ない、両者間の距離を算出し、距離の最小となる標準
パターンを認識結果とするパターンマッチング手段を備
えたものである。
作用 本発明は上記に述べた構成によって、あらかじめ語頭,
語尾の欠落する可能性のあるパターンを標準パターンの
一部として管理し、各標準パターン中の無音声区間を検
出しておき最も確実な無音声区間点から順位ずけをした
テーブルを一つ或は複数個ずつ持ち、入力音声パターン
と標準パターンとの間で無音声区間のフレーム位置を合
わせて必ずその交点をマッチングパスが通過するように
制限をしたパターンマッチングを行ない認識結果を導き
出す事により、類似パターン間の誤認識および極端なマ
ッチングによる誤認識を極力抑えることができ、さらに
認識対象外単語が入力された時には極力リジェクトする
ことができる。
実施例 以下本発明の一実施例の音声認識装置について、図面を
参照しながら説明する。
第1図は本発明の一実施例における音声認識装置のブロ
ック図である。第1図において、1は音声入力部で、話
者の音声がマイクロホン等を通して入力される。2は音
声分析手段で、入力された音声信号から特徴ベクトルの
時系列を抽出する。3は無音声区間検出手段で、音声の
エネルギー系列から無音声区間部分を検出する。4は無
音声情報記憶手段で、各標準パターンの無音声区間を多
数の音声データより統計的手段等で一つ或は複数個の順
位ずけを行ない無音声区間の優先順位テーブルとして記
憶する。5は標準パターンの特徴ベクトルの時系列を記
憶するパターン記憶手段、6はパターン記憶手段5で記
憶された各標準パターンを管理するパターン管理手段、
7は入力パターンと各標準パターンとの間でパターンマ
ッチングを行うパターンマッチング手段、8はパターン
マッチング手段7の結果から導き出した認識候補音声を
LED等に表示する。
第2図は本実施例の構成を示す回路図で、上記の無音声
区間検出手段3、無音声情報記憶手段4、パターン記憶
手段5、パターン管理手段6、パターンマッチング手段
7をマイクロコンピュータ17で実現したものである。
10は音声の入力を行なうマイクロホン、11はマイク
ロホン10から入力された音声信号をアナログ−ディジ
タル変換するアナログ/ディジタル変換器(以下A/D
変換器という。)である。13は入力音声の特徴ベクト
ルの時系列を記憶する入力パターンメモリ、15は標準
パターン音声の特徴ベクトルの時系列を記憶する標準パ
ターンメモリ、14は各標準パターンを管理する標準パ
ターン管理テーブル、16は各標準パターンの無音声区
間の個数、フレーム位置及び優先順位を記憶する無音声
区間テーブル、18は認識候補音声を出力する認識結果
出力器である。
第3図は本実施例のマイクロコンピュータの動作を説明
するための要部フローチャートであり、第4図は第3図
のフローチャートを説明するための図である。以上の構
成による本実施例の動作を、第3図のフローチャートに
沿って詳細に説明する。
まず、マイクロホン10から音声を入力し、A/D変換
器11で音声信号をアナログ−ディジタル変換したあ
と、音声分析部12で音声パターンの特徴ベクトル(例
えば、10次元の線形予測係数)の時系列とエネルギー
系列を求め、入力パターンメモリ13に記憶する。次
に、ステップ20で入力パターンメモリ13に記憶され
たエネルギー系列からエネルギー値が閾値を下回る区間
が一定時間Tを超える区間を無音声区間として検出
し、無音声区間の個数と各無音声区間の最終フレーム位
置を記憶部17bに記憶する。なお、あらかじめ各標準
パターンの特徴ベクトルの時系列が標準パターンメモリ
15に、各標準パターンのメモリ配置、フレームの長さ
が標準パターン管理テーブル14に、各標準パターンに
対応した無音声区間の個数とフレーム位置及び、その優
先順位が無音声区間テーブル16に蓄えられているもの
とする。また、標準パターン管理テーブル14の中で
は、発音により語頭,語尾の不安定な標準パターンにつ
いては欠落のない標準パターンを代表パターンとし、そ
の部分パターンを欠落の生じた標準パターンとして別に
管理している。そのため、標準パターンメモリ15には
代表パターンだけが登録されている。
ステップ21では、標準パターン管理テーブル14に従
って標準パターンを記憶部17bにセットする。次にス
テップ22で入力パターンの無音声区間数Iと標準パ
ターンの無音声区間数Jとを比較する。I≦J
時は、ステップ23に進み入力音声の無音声区間のフレ
ーム位置を無音声区間テーブル16の優先順位に従って
標準パターンの無音声区間のフレーム位置と一致させ
る。ここでは入力パターンに一つ、標準パターンに三つ
最も確からしい無音声区間が存在する場合について説明
する。
入力パターンのフレーム長をI、その無音声区間の最終
フレーム位置をI、標準パターンのフレーム長をJ、
その各無音声区間の最終フレーム位置をJ,J,J
とする。ここで優先順位の最も高いフレームをJ
すると、入力パターンのIと標準パターンのJフレ
ームとを対応ずければよい。
そこで、ステップ24では、 0〈i〈I かつ J〈j≦J または I〈i≦I かつ 0〈j〈J の条件を満たす入力パターンの第iフレームと標準パタ
ーンの第jフレームとの特徴ベクトル間の距離を無限大
にセットする。この設定は第4図において、斜線の部分
に対応する各ベクトル間距離を無限大に設定することで
あり、すなわちマッチングパスが斜線の部分を絶対に通
過しないように制限を加えたことと等価である。
ステップ24の設定が終ると、ステップ25により入力
パターンと標準パターン間でDPマッチングを行ない、
両者間の距離を算出し記憶部17bに記憶する。ここで得
られる距離は、入力パターンの第Iフレームと標準パ
ターンの第Jフレームの交点をマッチングパスが必ず
通過するように制限を加えたDPマッチングを行なった
時に得られる結果である。ここで、入力パターンの第I
フレームと標準パターンの第Jフレームの交点が整
合窓の範囲を超える場合は両者のDPマッチングは不可
能であるためこの標準パターンは認識候補からはずす。
この後、ステップ26で無音声区間テーブル16より他
の優先順位が存在するかを調べ、存在するときはその優
先順位に従ってステップ23からの処理を続ける。存在
しないときは別の標準パターンとのマッチングを行なう
ため、ステップ27で標準パターンが最終かどうかを判
定し、最終でなければステップ21に戻り、他の標準パ
ターンについて同様の処理を続ける。ステップ27の条
件が満足すると、ステップ28では、ステップ25で得
られた距離値のうち最小値を与える標準パターンを認識
候補音声と判定し、認識結果出力器18に認識候補音声
を出力する。なお、本実施例では、入力パターンの無音
声区間の個数が1個の場合について説明したが、無音声
区間が2個以上存在する場合にもI≦Jであれば無
音声区間テーブルに従って同様の処理を行なうことがで
きる。
例えば、標準パターン,入力音声パターンの無音声区間
の個数が各々3,2の場合、無音声区間テーブルの順位
に従った上位2個に一致させる。また、入力音声につい
て無音声区間の順位ずけが多段に設定された閾値等に依
って順位ずけられる場合、前後後の順位には関係なく無
音声区間テーブル、及び入力音声から得られる入力音声
の無音声区間の順位ずけをされた無音声区間候補の上位
からDPパス上の交点を決め、あるいは第1番目の候補
からの交点を決め、次に時間的順序に従って他の交点を
決める事も可能である。
以上のように本実施例によれば、音声パターン中の無音
声区間を検出する無音声区間検出手段と標準パターン管
理手段を持ち、各標準パターンに一つ或は複数個の優先
順位を決定した無音声区間テーブルの順位に従って入力
パターンと標準パターンの無音声区間のフレーム位置の
交点を通過するように制限を加えたDPマッチングを行
なうことにより、入力パターンの語頭,語尾が欠落した
場合や無音声区間の検出の一部を誤った場合でも最適な
マッチングを行うことができ、極端なマッチングによる
誤認識,およ音韻的に類似したパターン間の誤認識を減
少させることができる。
また語頭,語尾の不安定な標準パターンについては欠落
のない代表パターン一つで管理できるのでテンプレート
を増やす必要がない。
また整合窓の幅を最適に選べば、認識対象外単語入力時
のリジェクトに大きな効果がる。
発明の効果 以上のように本発明は、音声パターン中の無音声区間の
個数とそのフレーム位置を検出する無音声区間検出手段
と,語頭,語尾が欠落する可能性のある標準パターンを
代表パターン一つで管理するパターン管理手段と、各標
準パターンに無音声区間の優先順位を一つ或は複数個定
め管理する無音声情報記憶手段とを持ち、入力音声を分
析して得られる無音声区間について、無音声区間の優先
順位に従って入力パターンと標準パターンで無音声区間
のフレーム位置を合わせ、その交点をマッチングパスが
必ず通過するように制限したDPマッチングを行ない、
距離の最小となる標準パターンを認識結果として導き出
すことにより、同単語間では二つのパターンを最適にマ
ッチングさせ、異単語間では極端なマッチングを生じさ
せることになり、音韻の類似したパターン間での誤認
識,および極端なマッチングによる誤認識を極力抑える
ことのでき、また認識対象外単語が入力された時には極
力リジェクトすることのできる音声認識装置を提供する
ことができる。また無音声区間の優先順位を一義的に決
定できないパターンや発音の仕方によって無音声区間数
の異なるパターンについてもテンプレート数をを増やさ
ずに精度良く認識する事ができる音声認識装置を提供で
きる。
【図面の簡単な説明】
第1図は本発明の一実施例における音声認識装置の構成
を示すブロック図、第2図は同装置の構成を示すブロッ
ク図、第3図は同装置の動作説明のための要部フローチ
ャート、第4図は第3図のフローチャート説明のための
特性図である。 2……音声分析手段、3……無音声区間検出手段、4…
…無音声情報記憶手段、5……パターン記憶手段、6…
…パターン管理手段、7……パターンマッチング手段、
10……マイクロホン、13……入力パターンメモリ、
14……標準パターン管理テーーブル、15……標準パ
ターンメモリ、16……無音声区間テーブル、17……
マイクロコンピュータ。
フロントページの続き (56)参考文献 特開 昭61−138298(JP,A) 特開 昭60−202498(JP,A) 特開 昭59−62899(JP,A) 日本音響学会講演論文集 昭和59年10月 1−9−20 P.39−40

Claims (1)

    【特許請求の範囲】
  1. 【請求項1】入力音声からエネルギー系列を含む特徴ベ
    クトルの時系列を出力する音声分析手段と、前記音声分
    析手段から出力されるエネルギー系列から、音声パター
    ン中の音声部分と無音声部分を判別し、無音声区間の個
    数およびそのフレーム位置を検出する無音声区間検出手
    段と、前記音声分析手段から得られる特徴ベクトルの時
    系列をあらかじめ標準パターンとして記憶しておくパタ
    ーン記憶手段と、発声の仕方,個人差によって音声パタ
    ーンの語頭部あるいは語尾部が欠落する標準パターンに
    関して、欠落のないパターンを代表パターンとして、欠
    落のあるパターンの標準パターンは代表パターンの一部
    分として管理するパターン管理手段と、前記パターン記
    憶手段と前記パターン管理手段により記憶,管理された
    各標準パターンについて前記無音声区間検出手段より得
    られる無音声区間のフレーム位置を、音声認識対象単語
    各々の多数の音声データの統計的性質から得られる最も
    確実な無音声区間点から順位付けを行ない、また一義的
    に順位付けを決定できない標準パターンに対しては可能
    な複数種類の順位付けを行い、あらかじめ無音声区間の
    優先順位テーブルとして記憶する無音声情報記憶手段
    と、前記パターン記憶手段により蓄えられた各標準パタ
    ーンと入力パターンとの間で、前記無音声情報記憶手段
    に記憶された各標準パターンの最も確実な無音声区間点
    から順に入力パターンの最も確実な無音声区間点とその
    フレーム位置を一致させパターンマッチングを行い両者
    間の距離を算出し、得られた各々の累積距離のうち最小
    となる標準パターンを認識結果とするパターンマッチン
    グ手段とを備えたことを特徴とする音声認識装置。
JP60251279A 1985-11-08 1985-11-08 音声認識装置 Expired - Lifetime JPH0632006B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP60251279A JPH0632006B2 (ja) 1985-11-08 1985-11-08 音声認識装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP60251279A JPH0632006B2 (ja) 1985-11-08 1985-11-08 音声認識装置

Publications (2)

Publication Number Publication Date
JPS62111295A JPS62111295A (ja) 1987-05-22
JPH0632006B2 true JPH0632006B2 (ja) 1994-04-27

Family

ID=17220432

Family Applications (1)

Application Number Title Priority Date Filing Date
JP60251279A Expired - Lifetime JPH0632006B2 (ja) 1985-11-08 1985-11-08 音声認識装置

Country Status (1)

Country Link
JP (1) JPH0632006B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0792675B2 (ja) * 1986-03-19 1995-10-09 株式会社リコー 音声認識装置
JPH01156876A (ja) * 1987-12-14 1989-06-20 Toshiba Corp パターン認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
日本音響学会講演論文集昭和59年10月1−9−20P.39−40

Also Published As

Publication number Publication date
JPS62111295A (ja) 1987-05-22

Similar Documents

Publication Publication Date Title
US5218668A (en) Keyword recognition system and method using template concantenation model
JP3434838B2 (ja) ワードスポッティング法
US5390278A (en) Phoneme based speech recognition
US5018201A (en) Speech recognition dividing words into two portions for preliminary selection
US6122615A (en) Speech recognizer using speaker categorization for automatic reevaluation of previously-recognized speech data
WO2021030918A1 (en) User-defined keyword spotting
CN112750445B (zh) 语音转换方法、装置和系统及存储介质
JPWO2005096271A1 (ja) 音声認識装置及び音声認識方法
Paliwal Lexicon-building methods for an acoustic sub-word based speech recognizer
US20030220792A1 (en) Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded
JPH0372997B2 (ja)
KR101122590B1 (ko) 음성 데이터 분할에 의한 음성 인식 장치 및 방법
JPH0247760B2 (ja)
JP3444108B2 (ja) 音声認識装置
KR100504982B1 (ko) 환경 적응형 다중 음성인식 장치 및 음성인식 방법
EP0177854B1 (en) Keyword recognition system using template-concatenation model
JPH0632006B2 (ja) 音声認識装置
JP2853418B2 (ja) 音声認識方法
KR100319237B1 (ko) 유성음/무성음/묵음 정보를 이용한 동적 시간정합고립단어 인식 시스템
US20220005462A1 (en) Method and device for generating optimal language model using big data
KR100673834B1 (ko) 문맥 요구형 화자 독립 인증 시스템 및 방법
KR20210052563A (ko) 문맥 기반의 음성인식 서비스를 제공하기 위한 방법 및 장치
JP3291073B2 (ja) 音声認識方式
JPS6147999A (ja) 音声認識装置
JP2001013988A (ja) 音声認識方法及び装置

Legal Events

Date Code Title Description
EXPY Cancellation because of completion of term