JPS60125899A

JPS60125899A - 音声認識装置

Info

Publication number: JPS60125899A
Application number: JP23387083A
Authority: JP
Inventors: 相良　良二; 楠原　久代
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1983-12-12
Filing date: 1983-12-12
Publication date: 1985-07-05

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】産業上の利用分野本発明は一子め登録しである音声の標準パターンを用い
て入力音声を認識する音声認識装置に関する。

従来例の構成とその問題点近年−人間−機械系の入力手段として音声がθぞ目を集
めており、各種の音声認識装置が部品化されている。こ
の様な音声認識装置には単語単位の認識を行なうものと
、単音節単位の認識を行なうものとがあり、いずれの場
合でも語頭やセグメン）・境界の検出手段の精度が認識
率に大きく影響を及ぼし、音声入力装置の使い易さを決
める大きな装置となる。そこで単音節認識では母音と子
音のセグメント境界を正確に検出する方法が多数提案さ
れ、ている。寸だ単語認識においても、語頭の音節のセ
グメント境界は語頭の位置合わせに有用である。

以下第１図を参照しながら、従来の音声認識装置につい
て説明する。

同図において、１は音声を電気信号に変換するマイクロ
フォン等からなる入力手段、２は入力手段１からの電気
信号をティジタル化するＡ／Ｄ変換手段、３ばＡ／Ｄ変
換手段２によってティジタル化された音・車信号から母
音と子音のセグメント境界を検出するセグメント境界検
出手段−４はセグメント境界検出手段３に依って検出さ
れたセグメント境界を基準にして上記Ａ／Ｄ変換手段２
の出力から音声の特徴を抽出する特徴抽出手段、５は上
記特徴抽出手段４に依って抽出された音声の特徴を入カ
バターンとして一時的に記憶しておく入カバターン記憶
手段、６は認識対象となる複数個の音声の特徴を標準パ
ターンとして予め記憶せしめておく標準パターン記憶手
段、７は上記標準パターン記憶手段６あるいは土肥入カ
バターン自己憶手段了と上記特徴抽出手段４とを接続す
るモード切換スイッチであり、標準パターン記憶手段６
に音声の特徴を予め記憶せしめる登録モードと入カバタ
ーン記憶手段５に音声の特徴を記憶せしめる認識モード
とを選択する手段である−、８は−に記入カバターン記
憶手段６に記憶された入カバターンと上記標準パターン
記憶手段６に記憶された複数個の標準パターンとを比較
し入力音声を特定の単語あるいは単音節と認識する認識
処理手段−９は上記認識処理手段８に依って認識された
ηう詔あるいは単音節に対応する信号を出力する出力手
段である。

上記のように構成された音声認識装置について、以下具
体的に動作を説明する。

まず登録モード時には、モード切換スイッチ７をＡ側に
接続し一上記出力手段９より出力さノ１−る各種の出力
信号に対応した単語捷だは単音節を発声して入力手段１
に入力する事に依って、音声の登録が為される。即ち一
人力された音声を入力手段１に依って電気信号に変換し
、この電気信号を上記Ａ／Ｄ変換手段２によりティ／タ
ル化し、このティ／タル化された音声信号よりセグメン
ト境界検出手段によって母音と子音のセグメント境界を
検出し、このセグメント境界を基準にして特徴抽出手段
４により音声の特徴を抽出して、標準ノくターン記憶手
段６Ｖｒｃこの音声の特徴を登録する。

次に認識モード時には、モード切換スイ、ノチ７をＢ側
に接続し、登録モード時に登録された複数個の単Ｒ４た
は単音節の内から所望のものを入力手段１に入力すれば
、認識処理手段８によって入カバターンに最も類似して
いると判定された標準パターンに対応した信号が出力手
段９から出力さ７する。即ち一人力手段１に入力されて
Ａ／Ｄ変換手段２によってティ／タル化された音声は、
セグメント境界検出手段３によって検出されたセグメン
ト境界を基準Ｖこして特徴抽出手段４により特徴パター
ンに変換され、一旦入力パターン記憶手段らに記憶され
た後−標準パターン記憶手段６に記憶されている複数個
の標準パターンと比較さバーて一最も類似している単語
または単音節に対応した信号が出力手段９から出力され
る。

上記のように構成された音声認識装置では、母音と子音
のセグメント境界の検出精度が認識率に大きな影響を及
ぼす。そこで種々のセグメント境界検出手段パワーと標準エンベロープとの類似度を用いる方法の有
効性が報告さハ、でいる。以下、第２図を参照しながら
、従来のセグメント境界検出手段３について説明する。

第２図は従来のセグメント境界検出手段３のブロック図
である。同図において、３ａは母音のボルマン！・の帯
域にあわせたフィルタ、３ｂは上記フィルタ３ａの出力
の対数パワーを計算する対数パワー計算手段−３０は予
め定めておいた標準エンベロープを記憶しておく標準エ
ンベローフ記憶手段、３ｄは上記対数パワー計算手段３
ｂの出ヵと標準エンベロープとの距離を計算する距離計
算手段、３ｅは上記距離計算手段３ｄに依って計算さね
５た距離が最小となる点をめ、その点をセグメント境界
として出力する境界検出手段である。

上記のように構成されたセグメント境界検出手段につい
て一以下具体的に動作を説明する。

Ａ／Ｄ変換手段２によってディジタル化された音声信号
は、フィルタ３ａに依って３波されて母音の部分で大き
な出力が得られる信号に変換され一対数パワー計算手段
３ｂによって整流・平滑化されて音声のホルマントの存
在する帯域のノ（ンド・パワーの対数値（第３図、１ｏ
）が出力される。

このバンドパワーは、距離計算手段３ｄによって標準エ
ンベロープ記憶手段３Ｃに記憶されている標準エンベロ
ープ（第３図、１１）を１点ずつシフトしたものと比較
され、両者の距離（第３図。

１２）が割算される。即ち、標準エンベロープｆ（ｎ）
（ｎ＝−ｎ、　、−ｎ、−１−１，−＝・−、−１、０
、１、−＝・。

ｎ２；ただしｎ、）Ｏ＋　ｎ　２　＞　Ｏ）をｍ点だけ
シフトしたものと対数バンド・パワーの波形１１ｏｑ　
（ｐ（ｎ））（ｎ−〇、１．２、−−−、Ｎ　；だたし
Ｎ）＞Ｏ）　との各点での差の絶対値和ｒｎ＝＝ｎ、　＋　ｎ、＋１１　”””　Ｉ　Ｎ”２あ
るいは二乗和が各ｍについて計算される。次にｄ、（ｍ）　あるいは
ｄ２（ｍ）が最小となるｍが境界検出手段３ｅによって
検出され、セグメント境界として出力される。

しかし、上記のように構成された音声認識装置では、有
声子音など子音部に比較的大きなノくワーを持つ子音で
一語頭すなわち子音の先頭をセグメント境界と見なして
し捷うという誤り、ひいては認識誤りが生じ易いという
欠点を有していた。セグメント境界の検出誤りの例を第
４図に示す。同図で点線で示しているのが本来のセグメ
ント境界である。

発明の目的本発明は上述の欠点を解消し、語頭の子音部に比較的大
きなパワーを持つ音節が入力された場合でも正確なセグ
メント境界検出、ひいては正確な認識を行なうことので
きる音声認識装置を提供することを目的とする。

発明の構成本発明は、パワー計算手段から出力されるノ（ンド・パ
ワーの波形より−その差分波形まだはさらＩ／（その高
次の差分波形を算出しそれらを一定の重みで加算して、
バンド・・くワー波形の変動情報を表わすパラメータを
算出する傾き・ズラメータ計算手段と、上記傾き〕々ラ
メータ計算手段によって計やさハ、た傾きパラメータが
最大となる点を検出する最大値検出手段とを−セグメン
ト境界検出手段内に備えた廿声認識装置であり、音声の
・ぐンド・パワー波形そのものの変化及び変化の速さか
ら子音部と母−音部の境界を検出することにより一語頭
の子音の大きさに左右されない安定なセグメント境界を
検出することができ−高い認識率を得ることのできるも
のである。

実施例の説明以下、本発明の実施例について図面とともに説明する。

第６図は本発明の一実施例における単音節認識装置のセ
グメント境界検出手段のブロック図である。

同図において−３８はフィルタで第２図の構成と同じも
のである。第２図の構成と異なる点は、上記フィルタ３
ａの出力のパワーを計算するパワー計算手段３ｆと一上
記パワー割算手段３ｆに依って計算された母音パワーの
波形の差分及び高次の差分を計算し、両者をある重みで
加算して母音パワーの変化及び変化の速さを表わすパラ
メータを算出する傾きパラメータ計算手段３ｑと−」−
記傾きパラメータ計算手段３ｑに依って算出されたパラ
メータの平滑化を行なう平滑化手段３ｈと、上記平滑化
手段３ｈより出力される平滑化された傾きパラメータが
最大になる点を検出する最大点検出手段３１とを設けた
点である。

以上のように構成したセグメント境界検出手段について
、以下具体的に動作を説明する。

入力手段１およびＡ／Ｄ変換手段２に依ってティ／タル
信号に変換された単音節音声はフィルり３ａに依って３
波されて母音部で大きな出力が得られる信号に変換され
−・くワー計算手段３ｆに依って整流・平滑化さｈ−て
・・ンド・・くワーｐ　（ｎ）（ｎ−〇、１．・・・　
、Ｎ）（第６図、１３）が出力されるｎ」−記／・ンド
・ノくワーｐ　（ｎ）は、傾きノくラメータ計勢手段３
ｑに依ってｍ点離れた点の間の差分を表わす信号ｑ（ｎ）　−ｐ（ｎ＋ｍ／２）　−ｐ（ｎ−ｍ／２）（
ｎ−毛ユ＋１．・・・・Ｎ−晋）　２に変換され（第６図、１４）−さらにβ点離ね、た点の
間の差分（第６図、１５） β　ｌｒ　（ｎ）＝ｑ　（ｎ＋−）　−ｑ　（ｎ−−）２　２すなわちｐ（ｎ）の２階差分が計算され、最後にｑ　（
ｎ）とｒ（ｎ）がｍ１対ｍ２の重みで加算され、傾きパ
ラメータ ”　（ｎ）　−ｍ、　ｑ（ｎ）　＋ｍ２ｒ　（ｎ）（ｒ
ｎ　１．　ｎ’）２は定数）として出力される□上記類きパラメータＳ　（ｎ）は、
平滑化手段３ｈによって平滑化され余分な凹凸が除去さ
れて、・・ンド・パワーの変化と変化の速さの情報を含
んだパラメータｔ（ｎ）（第６図、１６　）として出力
される。上記平滑化手段３ｈ」：り出力されたパラメー
タｔ　（ｎ）が最大となる点（第６図。

１７）が最大点検出手段３１によ−て検出さノ１゜、セ
グメント境界として出力さ引−る。

以上のように本実施例によねば、パワー削豹手段３ｆと
傾きパラメータ計算手段３ｑと平滑化手段３ｈと最大点
検出手段３１とを設けることにより、比較的大きなパワ
ーを持つ有声子音の場合でも、パワー波形の急檄な変化
点をとらえることができ、より正確なセグメント境界の
検出を行なうことができる。単音節認識ではセグメント
境界を基準にして物像抽出を行なうだめ−セグメント境
界の検出が正確であるほど認識装置の認識率が向上し、
使い易さの面で効果は大きい１、なお、本実施例では認
識対象を単音節に限定したか一本セグメント境界検出手
段は単語の語頭の？１′ｌ音節にも適用可能で、単語の
語頭の時間合わせがより正確ｒ（行なえるようになり認
識率の向上につながる。寸だ、パワー計算手段３ｆには
対数パワー計９手段３ｂを用いても良く、平滑化手段３
ｈを特に用いる必要もない○捷だ、傾きパラメータとし
ては、さらに高次の差分を用いても良く、２階差分捷て
に限ピする必要はない。

発明の効果以−１−のように本発明は、母音パワーの波形から変化
の様子を表わすパラメータを抽出する傾きパラメータ針
設手段と−そのパラメータが最大トなる点を検出する最
大点検出手段を設けることにより、子音部力パワーの大
きさによらない正確なセグメント境界の検出を行なうこ
とができ、その結果ｌ’；５１い認識率が１号られるよ
うになり、その効果は犬なるものがある。

【図面の簡単な説明】

第１図は従来の音声認識装置のブロック図、第２図は同
装置のセグメント境界検出部のブロック図−第３図は従
来のセグメント境界検出の原理図〜第４図はセグメント
検出誤りの例を示す原理図、第６図は本発明の一実施例
における音声認識装置のセグメント境界検出手段を示す
ブロック図、第６図は本実施例のセグメント境界検出の
原理図である。１・・・入力手段−２・・　Ａ／Ｄ変換手段、３・・・
・セグメント境界検出手段、３ａ・・フィルタ、３ｂ・
・　・対数パワー計算手段、３ｃ・・・・［４工ンベロ
ープ記憶手段−３ｄ・・・距離計算手段、３ｅ・・・・
境界検出手段、３ｆ・・・・・パワー計算手段、３ｑ・
・・・傾きパラメータ計算手段、３ｈ・・・・平滑化手
段、３１・・・・最大点検出手段、４・・・特徴抽出手
段−５・・・・入カバターン記憶手段、６・・・・標準
パターン記憶手段、７・・・・・・モード選択スイッチ
、８・・・・・認識処理手段−９・・・・・・出力手段
、１０・　対敬化・・ント・パワー波形、１１・　標準
エンベロープ、１２　−バンド・パワー波形と標準エン
ベロープの距離、１３・　バンド・パワー波形、１４・
・・ンドパワーの一階差分波形、１５　・・・・ント・
パワーの２階差分波形、１６・・・・平滑化された傾き
パラメータ、１７・・・・・検出され、たセグメント境
界。代、Ｆ！１１人の氏名　弁理士　中　尾　敏　男　ほか
１名図４図

Claims

【特許請求の範囲】

人力された音声を電気信号に変換する入力手段と、上記
電気信号をディ／タル化する変換手段と、−に記ティ／
タル化された音声信号から上記音声の母音部と子音部の
セグメント境界を検出するセグメント境界検出手段と一
十記セグメント境界検出手段によって検出された上記セ
グメント境界を基Ｗ４にして上記母音部と上記子音部の
特徴を抽出する特徴抽出手段と、」二記特徴抽出手段に
よって抽出された上記音声の特徴を入カバターンとして
記憶する入カバターン記憶手段と、予め入力しておいた
音ｊ侶から」二記特徴抽出手段によって抽出されプこ７
Ｐ、ｌｒ徴を標準パターンとして複数個記憶しておく標
７ｑ＋パターン記憶手段と一上記標準パターン記憶手段
に記憶されている各標準パターンと上記入カバターンと
を比較し上記入カバターンを特定の標ｓイ／パターンと
認識する認識処理手段と、上記認識処理手段によって認
識された上記特定の標準パターンに対応した信号を出力
する出力手段とをｆ＋ｉｉｉえ、上記セグメント境界検
出手段は、上記ティ／タル化された音声信号から上記音
声のパワー波形を（ト）出するパワー計算手段と、上記
パワー波形の各点における傾きパラメータを計神−する
バラメー村１算手段と、上記パラメータ割算手段の結果
の最大点を検出する最大点検出手段とを具備することを
特徴とする音声認識装置。