JPS6048100A

JPS6048100A - 音声認識装置

Info

Publication number: JPS6048100A
Application number: JP15659883A
Authority: JP
Inventors: 相良　良二; 文雄前原
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-08-26
Filing date: 1983-08-26
Publication date: 1985-03-15

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は、予め登録しである音声の標準パターンを用い
て入力音声を認識する音声認識装置に関する。

従来例の構成とその問題点近年、人間−機械系の入力手段として音声が注目を集め
ており、各種の音声認識装置が商品化されている。この
様な音声認識装置には単語単位の認識を行なうものと、
単音節単位の認識を行なうものとがあり、いずれの場合
でも語頭や七グメント境界の検出手段の精度が認識率に
大きく影響を及ぼし、音声入力装置の使い易さを決める
大きな要因となる。そこで単肝節認識では母音と子音の
セグメント境界を正確に検出する方法が多数提案されて
いる。才だ単語認識においても、語頭の音節のセグメン
ト境界は語頭の位置合わぜに有用である。

以下第１図を参照しながら、従来の音声認識装置につい
て説明する。

同図において、１は音声を電気信号に変換するマイクロ
フォン等からなる入力手段、２は入力手段１からの電気
信号をディジタル化するＡ／Ｄ変換手段、３はＡ／Ｄ変
換手段２に」こってディジタル化された音声信号から母
音と子音のセグメント境界を検出するセグメント境界検
出手段、４はセグメント境界検出手段３によって検出さ
れたセグメント境界を基準にしてＡ／Ｄ変換手段２の出
力から音声の特徴を抽出する特徴抽出手段、５は特徴抽
出手段４によって抽出きれた音声の特徴を入カバターン
として一時的に記憶しておく入カバターン記憶手段、６
は認識対象となる複数個の音声の特徴を標準パターンと
して予め記憶せしめておく標準パターン記憶手段、７は
標準パターン記憶千成６１りるいは入カバターン記憶手
段５と特徴抽１１）Ｄ段４とを接続するモード切換スイ
ッチであｐ、標Ｉ＜ｔ５パターン記憶手段６に音声の特
徴を予め記憶ぜしめる登録モートと入カバターン記憶手
段５に１゛仲１ｊの特徴を記憶せしめる認識モードとを
選択する１１段である。８は入カバターン記憶手段５に
記憶された入カバターンと標準パターン記憶手段６に記
憶された複数個の標準パターンとを比較し、人力音声を
特定の単語あるいは単音節と認識する認識処理手段、９
は認識処理手段８によって認識さｉシた単語あるいは単
音節忙対応する信号全出力する出力手段である。

上記のように構成された音声認識装置、について、以下
具体的に動作を説明する。

丑ず登録モード時には、モード切換スイッチ７をＡ側に
接続し、出力手段９より出力される各種の出力信号に対
応した単語または単音節を発声して入力手段１に入力す
る事によって、音声の登録が為される。即ち、入力され
た音声を入力手段１によって電気信号に変換し、この電
気信号をＡ／Ｄ変換手段２によシディジタル化し、この
ディジクル化された音声信号よシセグメント境界検出手
段３によって母音と子音のセグメント境界を検出し、こ
のセグメント境界を基準にして特徴抽出手段４により音
声の特徴を抽出して、標準パターン記憶手段６にこの音
声の特徴を登録する。

次に認識モード時には、モード切換スイッチ７をＢ側に
接続し、登録モート時に登録された複数個の単語または
単音節の内から所望のものを入力手段１に入力すれば、
認識処理手段８によって入カバターンに最も類似してい
ると判定された標準パターンに対応した信号が出力手段
９から出力される。即ち、入力手段１に入力されてＡ／
Ｄ変換ｆ段２によってディジクル化された音声は、セグ
メント境界検出手段３によ−）で検出されたセグメント
境界を基準にして特徴抽出手段４により特徴パターンに
変換され、−具入カパターン記憶手段らに記憶された後
、標準パターン記憶手段６に記憶されている複数個のも
１°こ準パターンと比較されて、Ｊ’ｌも類似している
単語−１たは単音節に対応した信号が出力手段９がら出
力される。

イー記のように構成された鴇声認識装置では、母１′Ｓ
°と子音のセグメント境界の検出精度が認識率に大きな
影響を及ぼす。そこで種々のセグメント境７１！険出法
が提案されているが、一方法としご母音パワーと標準エ
ンベロープとの類似度を用いる方法の有効性が報告され
ている。以下、第２図を参照しなから、従来のセグメン
ト境界検出手段３について説明する。

第２図は従来のセグメント境界検出手段３のプ１」ツク
図である。同図において、３ａは母音のポルマントの帯
域にあわせたフィルタ、３Ｊｊフイルタ３ａの出力のパ
ワーを言１算するパワー計算手段、３Ｃは予め定めてお
いた標準エンベロープを記憶しておく標準エンベロープ
記憶手段、３ｄはパワー計算手段３ｂの出力と標準エン
ベローフ゛との距離を割算する距離計算手段　３ｅは距
ｉｔ＋、＝−を算手段３ｄによって計算された距離カニ
最／Ｊ％となる７へをめ、その点をセグメン゛１・−境
界として１１３ツノ１−る境界検出手段である。

」−記のように構成されたセグメント境界検（［手段に
ついて、以下具体的に動イ／は説明１１−る。

第１図に示すＡ／Ｄ変換手段２によってテイジタル化さ
れた音声信号は、フィルり３ａによってろ波されて母音
の部分で大きな出力カニ得られる信号に変換され、・く
ワー言−（算手段３ｂによって整流。

平滑化されて音声のホルマントの存在する壱ヲ域のバン
ド・パワーく第３図の１０）が出力される。

このバント・パワーは、距離計算手段３ｄによって標準
エンベロープ記憶手段３Ｃに記憶されていル標準エンベ
ロープ（第３図の１１）を１点１′つシフトしたものと
比較され、両者の距離（第３図の１２）が計算される。

即ち、標準エンベローフ。

ｆ（ｎ）（ｎ＝−ｎｌ、−ｎ１＋１．−＝、、−１，０
，１、・。

ｎ２；　ただしｎ、　、＞ｏ　、　ｎ２＞Ｏ）をｍ点だ
けシフトしだも・のとバンド・ノくワーの波形ｐ　（ｎ
）　（ｎ−〇。

１．２．・・、Ｎ、ただしＮ）Ｏ）との各点での差の絶
力Ｊ値和、ｎ　＝　ｍ　−ｎ　まただし、ｎ１＝ｎ、　、　ｎ１＋１　、−　、　Ｎ−ｎ
２あるいｔよ二乗和ｎ：：　ｍ　−ｎ　１か各ｍについて泪ｒ１１される。次にｄｌ（ｍ）あるい
はｄ２（ｍ）か最小となるｍか境界検出手段３ｅによっ
て検出され、セグメント境界として出力される。

しかし、上記のように構成された音声認識装置では、発
声のし方や、発声された音節の母音の違いによるバンド
・パワーの変動に追従できず、セグメント境界の検出誤
りひいては認識誤りが生じ易いという欠点を有していた
。発声した音節によ１７＼では、バンド・パワーは第４
図の１０に示すようになり、これに対して標準エンベロ
ープ１１との比較による距離の最小値はｍ８の位置とな
り、実際の子音と母音の境界点ｍ。とは相描違った位置
として検出、されてし丑っていた。

発明の目的本発明は上記問題点に鑑み、発声のし方や発声された音
節の母音の違いによるバンド・パワーの変動に追従でき
、より正確なセグメント境界の検出が可能で、したがっ
て認識率の向上を図ることのできる音声認識装置を提供
することを目的とする。

発明の構成本発明は、予め定められた複数個の標準エンベロープを
記憶しておく標準エンベローブ記憶手段と、パワー計算
手段から出力されるバンド・パワーの波形に応じて標準
エンベロープの選択を行なう標準エンベロープ選択手段
とを、セグメント境界検出手段内に備えた音声認識装置
であり、バンド・パワーの波形・大きさに応じて複数個
の標準エンベロープの中の１つを選択してセグメント境
界の検出に用いることにより、音声のパワーの変動に左
右されない安定なセグメント境界が検出でき、高い認識
率を得ることのできるものである。

実施例の説明以下、本発明の構成について図面とともに説明す７．。

第５図は本発明の一実施例における単音節認識装置のセ
グメント境界検出手段のブロック図であイ［）。

同図において、３ａはフィルタ、３ｂはパワー言１３す
手段、３ｄは距離割算手段、３ｅは境界検出手段で、以
上は第２図の構成と同じものである。

第２図の構成と異なる点は、パワー計算手段３ｂに、に
って算出された母音パワーの最大値を検出する最大値検
出手段３ｆど、予め定められた複数個の標僧エンベロー
プを記憶しておき最大値検出手段３ｆＪ：ｐ出力される
バンド・パワーの最大値に応じた標準エンベロープをエ
ンベロープ選択スイッチ３ｈにより選択して出力する標
準エンベロープ１：１シ憶手段３ｑとを設けた点である
。

以上のように構成したセグメント境界検出手段について
、以下具体的に動作を説明する。

窮１図に示す入力手段１およびＡ／Ｄ変換手段２によっ
てディジタル信号に変換された単音節音声は、フィルタ
３ａによってろ波されて母音部で大きな出力が得られる
信号に変換され１．＜ワー計算手段３ｂによって整流、
平滑化されて・くンド・パワーｐ（ｎ）（ｎ＝０．１、
−、Ｎ）　（第３図の１０）が出力される。バンド・パ
ワーの最大値が最大値検出手段３ｆによって検出され、
音声のノくンド・パワー波形に応じた標準エンベロープ
が選択される。即ち、バンド・パワーの最大値に応じた
大きさの標準エンベロープが得られる位置にエンベロー
プ選択スイッチ３ｈが接続され、予め標準エンベロープ
記憶手段３ｑに記憶しである複数個の標準エンベロープ
ｆ、（ｎ）、　、ｆ２（ｎＬ　ｆ３（ロ）、ｆ４（ｎ）
（第６図の１３〜１６）のうちの１つが選択されて出力
される。距離計算手段３ｄでは、標準エンベロープ記憶
手段３ｑから出力された標準エンベロープを順次一点ず
つシフトしたものとパワー計算手段３ｂによって算出さ
れた母音パワーとの距離が各点毎に創算される。即ち、
エンベロープ選択スイッチ３ｈがＳ、（β＝１．２，３
．４）に接続され、標準エンベロープ記憶手段３ｑから
標準エンベロープｆＩ１．（ｎ）（ｎ−−ｎ１ｌ−ｎ１
＋１．・・・、−１，○ｌ’　Ｉ”’ｌ”２）が出力さ
れたとすると１．ｆ、（ｎ）をｍ点だけシフトし／こｆ
ρ（ｎ−ｍ）とｆｉＪ音パワーの時間波形ｐＯとの各点
での差の絶対値和ｎ、、、＝ｍ　−ｎ　まただし、（ｍ＝ｎ１．　ｎ１＋１、−７−、Ｎ−ｎ２）
あるいけ二乗和ｎ　＝ｍ　−ｎｌが各ｍについて計算され−る。この後、ｄ　１（ｒｒｈ
　）あるいはｄ２（ｍ）が最小となるｍが境界検出手段
３ｅによって検出され、セグメント境界として出力され
る。

以上のように本実施例によれば、最大値検出手段３ｆと
標準エンベロープ記憶手段３ｑとを設けることにより、
単音節の母音の違いによる音声パワーの変動や発声の大
きさによる音声パワーの変動に応じて適切な形、大きさ
の標準エンベロープが選択でき、より正確なセグメント
境界の検出を行なうことができる。単音節認識ではセグ
メント境界を基準にして特徴抽出を行なうため、セグメ
ント境界の検出が正確であるほど認識装置の認識率が向
上し、使い易さの面で効果は大きい。

なお本実施例では認識対象を単音節に限定したが、本セ
グメント境界検出手段は単語の語頭の単音節にも適用可
能で、単語の語頭の時間合わせがより正確に行なえるよ
うに在り認識率の向上につながる。壕だエンベロープの
切り換えはパワーの最大値に応じて行なう必要はなく、
音声の大きさを表わす他のパラメータを用いても良い。

また、標準エンベロープの数も４つに限定する必要はな
い。

発明の効果以上のように本発明は、予め定め、られた複数個の標準
エンベロープを記憶しておく標準エンベロープ記憶手段
と、音声のパワーに応じて標準エンベロープを切り換え
る標準エンベロープ切換手段を設ける乙とにより、音声
゛のパワーの変動によらない正確なセグメンＦ　境界の
検出を行なうことができ、その結果高い認ｊｉｉｌｔ−
率が得られるようになり、その効果は大なるものがある
。

【図面の簡単な説明】

第１図は音声認識装置のブロック図、第２図は従来のセ
グメント境界検出部のブロック図、第３１凶に［同セグ
メント境界検出部の説明のための原理図、第４図はセグ
メント検出誤りの例を示す原理図、第５図は本発明の一
実施例における音声認識装置のセグメント境界検出手段
のブロック図、第６１２１はそれぞれ標準エンベロープ
の例を示す特性図でｈる。１・・・・・・入力手段、２・・・・・・Ａ／Ｄ変換手
段、３・・・・・・セグメント境界検出手段、３ａ・・
・・・・フィルタ、３ｂ・・・・・・パワー計算手段、
３ｃ・・・・・・標準エンベロープ記憶手段、３ｄ・・
・・・・距離計算手段、３ｅ・・・・・・境界検出手段
、３ｆ・・・・・・最大値検出手段、３ｑ・・・・・・
標準エンベロープ記憶手段、３ｈ・・・・・・エンベロ
ープ選択スイッチ、４・・・・・・特徴抽出手段、５・
・・・・・入カバターン記憶手段、６・・・・・・標準
パターン記憶手段、７・・・・・・モード選択スイッチ
、８・・・・・・認識処理手段、９・・・・・・出力手
段、１０・・・・バンド・パワー波形、１１・・・・・
・標準エンベロープ、１２・・・・−・バンド・パワー
波形と標準エンベロープの距ＮＢ、１３・°−°−標Ｓ
エンベローフｆ１（ｎ）、１４・・・・・標準エンベロ
ープｆ２（ｎ）　＋　１５・・・・・・標準エンベロー
プＪ’３（ｎ）、１６・・・・・・標準エンベロー、；
’　ｆ４（ｎ）。

Claims

【特許請求の範囲】

入力された音声を電気信号に変換する入力手段と、上記
電気信号をディジタル化するＡ／Ｄ変換手段と、上記デ
ィジタル化された電気信号から音声の母音部と子音部の
セグメント境界を検出するセグメント境界検出手段と、
上記セグメント境界検出手段によって検出されたセグメ
ント境界を基準にして上記母音部と上記子音部の特徴を
抽出する特徴抽出手段と、上記特徴抽出手段にノよって
抽出された音声の特徴を入カバターンとして一時的に記
憶する入カバターン記憶手段と、予め入力しておく音声
から上記特徴抽出手段によって抽出された特徴を標準パ
ターンとして複数個記憶しておく標準パターン記憶手段
と、上記標準パターン記憶手段に記憶されている上記各
標準パターンと上記入カバターンとを比較し上記入カバ
ターンを特定の上記標準パターンと認識する認識処理手
段と、上記認識処理手段によって認識された標準ノ（タ
ーンに対応した信号を出力する出力手段とを備え、上記
セグメント境界検出子・段は、上記ディジタル化された
音声信号から音声のパワー波形を検出するパワー検出手
段と、予め定められた複数個の標準エンベロニブを記憶
しておく標準エンベロープ記憶手段と、上記標準エンベ
ロープ記憶手段の中から上記パワー検出手段で検出した
）（ワー波形に応じた標準エンベロープを選択する選択
手段と、上記選択した標準エンベロープと上記パワー波
形との距離が溌小となる点を上記母音部と上記子音部の
セグメント境界として出力する手段とで構成されること
を特徴とする音声認識装置。