JPH03245193A

JPH03245193A - 単語音声認識方式

Info

Publication number: JPH03245193A
Application number: JP2041302A
Authority: JP
Inventors: Fumihiro Tanido; 谷戸　文広; Norio Higuchi; 樋口　宜男; Kazuoki Katagishi; 一起片岸
Original assignee: Kokusai Denshin Denwa KK
Current assignee: KDDI Corp
Priority date: 1990-02-23
Filing date: 1990-02-23
Publication date: 1991-10-31

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】（産業上の利用分野）本発明は、単語音声認識方式での環境雑音下における音
声区間の検出か困難な場合および認識対象単語に類似単
晶が含まれる場合の単語音声認識方式に関する。

（従来の技術）単語音声認識方式は、手入力による指示を行うことか難
しい荷物の仕訳作業等の運送分野などに広く利用されて
いる。また、単語音声認識装置として６周囲の環境に左
右されないすなわち周囲雑音等条件か変化しても、常に
高い正確さを以って単語音声を識別されねばならない。

しかしなから、従来の単語音声認識方式では、入力され
た音声信号の中から単語音声の始端と終端を固定的に発
見してこの区間の音声信号の特徴とあらかじめシステム
に記憶されている各単語毎の標準パターンとの間て動的
計画法（ＤＰ）によりもっと６距離が小さくなるような
対応付けを行っている。更に、このようにしてすべての
単語の標準パターンとの距離を求め、距離が最小の単語
を認識結果としている。

（発明が解決しようとする課Ｍ）上述の従来技術においては、単語音声の始端と終端を決
定せねばならないか、環境雑音がある場合や、１話回線
経由の場合など音声信号と背景雑音の弁別が困難な場合
が数多く見られ、かつ環境雑音・背景雑音の特性は必ず
しも一定てはなく大きく変動することがしばしば発生す
る。このため、従来用いられている短時間平均エネルギ
ーと零交差数を組み合わせた音声検出方式では正確に音
声区間を検出することは困難であり、その結果誤った音
声区間と標準パターンとの間でＤＰマッチンクを行なっ
てしまい、発声単語を誤認識することが発生する。

本発明はこのような従来の課題を解決するものであり、
様々な環境下で６従来よりも単語音声を高い確率で認識
てきる単語音声認識方式を提供することを目的とする。

（課題を解決するための手段）本発明はこのような従来の課題を解決する６のてあり、
様々な環境下でも従来よりも単語音声を高い確率で認識
できることを特徴とする単語音声認識方式である。

本発明は、音声信号から単語音声を検出する際に音声の
エネルギー関数と零交差数の関係から単語音声の区間で
あろうと思われる区間をある幅をもって求め、その前後
に含まれる単語音声区間として不確かな区間を始端候補
区間と終端候補区間とし、始端候補区間の任意の１点を始端とし終端候補区間の任
意の１点を終端とするすべての始端から終端までの単語
音声の区間絹み合わせ中の特徴パラメータの系列と、単
語音声標準パターンとを比較し距離を求め、最も路側の小さい標準パターンの種別により音声単語を
識別することを特徴とする単語音声認識方式である。

（実施例）本発明の実施例を第１図を以って説明する。

音響分析部１は入力された音声信号を短時間（本実施例
では１０ｍ５程度）毎に音響分析して特徴パラメータの
系列に変換するための手段である。

単語音声検出部２は特徴パラメータの系列から単語音声
の始端候補区間と終端候補区間を求める手段である。

最適経路発見部３は始端候補と終端候補のすべての組み
合わせを標準パターンとマツチングし、かつ標準パター
ンと最も距離の小さい組み合わせを発見する手段である
。

ｍ＊パターン記憶部４はシステムに登録された各単語の
標準パターンを記憶する標準パターン記憶手段である。

上述、音声検出部２、最適経路発見部３が本発明を適用
した部分である。

次に本実施例の動作について説明する。

音声入力は音響分析部１により特徴パラメータの系列に
変換し、その結果を出力する。

単語音声検出部２ては音声入力の特徴パラメータから単
語音声の始端候補区間及び終端候補区間を求める。以下
、第２図により始端候補区間及び終端候補区間の決定方
法を説明する。なお、特徴パラメータは短時間平均エネ
ルギ、零交差数、および音声スペクトルて構成しである
。

まず、特徴パラメータの中から短時間平均エネルギか閾
値Ｅ２を越えた時点Ｐ２を求める。また、Ｐ２より以前
て平均エネルキか閾値Ｅ１を最６近傍で越えた時点Ｐ１
を求める。なお、閾値Ｅ１と閾値Ｅ２の関係はＥｌ＜Ｅ
２である。

時点ＰＩより以前の２５０ｍ秒゛の区間について特徴パ
ラメータの中の零交差数が閾値Ｎより大になる時点の数
か３以上あれは、Ｐｌから最６違い時点て零交差数かＮ
より大となった時点ＰＯを求め、そうでない場合はＰｌ
より以前のある時点（本実施例では２５０ｍ秒）をＰＯ
とする。このＰＯからＰ２を始端候補区間とする。終端
候補区間については逆方向に同一の論理を適用して求め
る。

つまり、特徴パラメータでＰ２以降について次のように
解析する。

特徴パラメータの中から短時間平均エネルギが閾値Ｅ２
を割り込んだ時点Ｐ３を求める。また、Ｐ３より以降で
平均エネルギか閾値Ｅ１を最も近傍で割り込んだ時点Ｐ
４を求める。時点Ｐ４より以降の２５０ｍ秒の区間につ
いて特徴パラメータの中の零交差数が閾値Ｎより大にな
る時点の数が３以上あれば、Ｐ４より最も遠い時点で零
交差数がＮより大となった時点Ｐ５を求め、そうでない
場合はＰ４よりある時間（本実施例では２５０ｍ秒）以
降の時点をＰ５とする。このＰ３からＰ５を終端候補区
間とする。

最適経路発見部３ては標準パターン記憶部４に記憶され
ている各単語の標準パターンと単語音声検出部２から得
られた単語音声の特徴パラメータとの間て、第３図に示
すような始端候補区間内に両者をマツチングさせる際の
始点があり、終端候補区間内に終点かある様なすべての
対応付けの中から、両者の距離か最小となる対応付けを
発見する。具体的には連続ＤＰマツチング等の動的計画
法に基づく手法を適用する。

この様にして標準パターンとして登録しであるすべての
単語に対する最小距離を求めて、この中で最も小さい距
離を与える単語を認識結果として出力する。

（発明の効果）本発明は上記実施例より明らかなように、入力された単
語音声から始端候補区間と終端候補区間とを検出し、こ
の区間内に始端及び終端を有する様な標準パターンとの
最良のマツチングを与える組み合わせを発見することに
より、従来方式では雑音などの影響により単語音声の始
端及び終端の検出が困難な場合に対しても、適切な単語
音声区間と標準パターンとのマツチングが可能となり、
広範な環境下で正確な音声認識か行なえるという効果を
有する。

【図面の簡単な説明】

第１図は本発明の実施例における単語音声認識装置のブ
ロック図、第２図は始端候補区間および終端候補区間の検出方法の
説明図、第３図は単語音声と標準パターンのマツチング経路に関
する説明図である。１・・・音響分析部、２・・・単語音声検出部、３・・
・　最適経路発見部、４・・・　標準パターン記憶部。

Claims

【特許請求の範囲】　入力された音声信号を音響分析し、あらかじめ記録さ
れている各々の単語音声の標準パターンとの間で距離が
最小となる対応付けを見いだし、その中で得られた距離
が最小の単語を認識結果とする単語音声認識方式におい
て、音声信号から単語音声を検出する際に音声のエネルギー
関数と零交差数の関係から単語音声の区間をある幅をも
って求め、その前後に含まれる単語音声区間として不確
かな区間を始端候補区間と終端候補区間とし、始端候補区間の任意の１点を始端とし終端候補区間の任
意の１点を終端とするすべての始端から終端までの単語
音声の区間組み合わせ中の特長パラメータの系列と、単
語音声標準パターンとを比較し距離を求め、最も距離が小さい標準パターンとの種別により音声単語
を識別することを特徴とする単語音声認識方式。