JP2658426B2

JP2658426B2 - 音声認識方法

Info

Publication number: JP2658426B2
Application number: JP1249535A
Authority: JP
Inventors: 利幸森井
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 1989-09-26
Filing date: 1989-09-26
Publication date: 1997-09-30
Anticipated expiration: 2012-09-30
Also published as: JPH03110599A

Description

【発明の詳細な説明】産業上の利用分野本発明は、音声データを認識する装置に用いる音声認
識方法に関するものである。

従来の技術従来、音声認識システムとして、第２の機能ブロック
図に示す構成が知られている。

第２図に示すように、まず、マイクロホンから入力さ
れた音声信号10に対し、音響分析部11において、LPC（l
inear predictive coding:線形予測符号化）分析やフィ
ルター分析などの音響分析を行ない、特徴パラメータを
含む音声情報を抽出する。次に、上記音声情報に対し、
セグメンテーション部12において、子音セグメンテーシ
ョンを行なった後、音素判別部13において、音素標準パ
ターン格納部14に格納された音素標準パターンとマッチ
ングを行ない、音素を判別して音素系列を作る。次に、
上記音素系列に対し、音素系列作成部15において、音形
規則格納部16に格納された音形規則と照合し、修正を加
えて最終的な音素系列を作成する。そして、単語マッチ
ング部17において、上記最終的な音素系列と単語辞書格
納部18に格納された単語辞書とのマッチングを行ない、
類似度の一番大きいものを認識結果19とする。

ここで、上記音素判別部13において、音素マッチング
に用いられ、音素標準パターン格納部14に格納された不
特定話者・多数語用音素標準パターンは第３図に示すよ
うにして作成する。まず、防音室内でマイクロホンから
入力された多人数・多数語の音声データ20をA/D変換部2
1においてA/D変換し、収録して音声データベース22を作
る。次に、上記音声データに対し、音響分析23において
音響分析を行ない、特徴パラメータを抽出する。一方、
音響分析23で得られるパワー情報などをもとに、人が目
視によってそれぞれのデータに対して音素のラベリング
24を行ない、ラベリングデータベース25を作る。そし
て、標準パターン作成部26において、上記特徴パラメー
タとラベリングデータとを用いてLPCケプストラム係数
を特徴パラメータとした音素標準パターン27を作成す
る。

この音声認識システムの実用化に際しては、認識され
る音声が環境から受ける影響を低減する認識アルゴリズ
ムが必要になる。特に、環境ノイズは認識率の低下の最
も大きい要因であり、音響分析におけるノイズ対策は必
須である。従来における環境ノイズ対策は、その環境ノ
イズを付加した音素標準パターンを作成して音素認識に
用いるという方法であったが、このノイズ付加音素標準
パターンは第４図に示すようにして作成する。まず、あ
らかじめ音声認識を行なう環境のノイズ28を収録し、A/
D変換部29においてA/D変換を行なってノイズデータベー
ス30を作成する。次に、ノイズ混合部32において、第３
図で説明した音素標準パターン作成過程で作成され、音
声データベース格納部31に格納されたノイズのないクリ
ーンな音声データベースと、上記ノイズデータベース30
とを指定された比で混合し、ノイズ付加音声データベー
ス33を作成する。次に、上記ノイズ付加音声データに対
し、音響分析部34において音響分析を行ない、特徴パラ
メータを抽出する。次に、標準パターン作成部36におい
て、第３図で説明した音素標準パターン作成過程で作成
され、ラベリングデータベース格納部35に格納されたラ
ベリングデータベースと、上記音響分析部34で抽出され
た特徴パラメータとを用い、LPCケプストラム係数を特
徴パラメータとしたノイズ付加音素標準パターン37を作
成する。

このようにして作成されたノイズ付加音素標準パター
ン37を第２図で説明した音素判別部13における音素判別
に用いることにより、ノイズに適合した音声認識を行な
うことができる。

発明が解決しようとする課題上記のように音声認識システムの実用化に際しては、
認識される音声が環境から受ける影響を低減する認識ア
ルゴリズムが必要になる。特に、環境ノイズは認識率の
低下の最も大きい要因であり、音響分析におけるノイズ
対策は必須である。しかし、環境ノイズは、その環境や
時間によって様々なパワーと周波数成分を持つので、そ
れぞれに対する適応が容易でない。また、LPCケプスト
ラム係数を特徴パラメータとしているため、ノイズ成分
の扱いが難しくなっている。そのため、従来の音素認識
システムにおける音素標準パターンの環境ノイズ適合法
としては、その環境ノイズを付加した音素標準パターン
を作成して音素認識に用いるという方法が認識率向上に
最も有効なものであった。しかし、ノイズ付加音素標準
パターンを作成するためには、その環境ノイズを収録
し、それを音声データに付加したものを多人数・多数語
について収集し、その音声データから音声データベース
を作り、その音声データベースから音素標準パターンを
作成するという大変労力と時間のかかるデータ処理を行
わなくてはならない。また、いくつかの環境ノイズを付
加した音素標準パターンを格納しておき、認識時にその
中から最も適した音素標準パターンを選択して音素認識
に使用するという方法も考えられるが、ノイズのパワー
スペクトル上にピークがある場合などを含めると、それ
だけではすべての環境ノイズに対して対応することはで
きない。また、実環境で用いられる音声認識装置に組み
込むということを考えると、認識時の環境ノイズ学習に
よって音素標準パターンのノイズ適合を行なうことが望
ましい。

本発明は、上記のような従来技術の課題を解決するも
のであり、認識時における短時間の環境ノイズ学習によ
って標準パターンをその環境ノイズに適合するように変
形し、その標準パターンをマッチングに使用することに
より、環境ノイズに適合した音声認識を行なうことがで
き、したがって、認識率の向上を図ることができるよう
にした音声認識方法を提供することを目的とするもので
ある。

課題を解決するための手段上記課題を解決するための本発明の技術的手段は、予
め多数の音声データをLPC分析して抽出した多数のパラ
メータを統計処理することによって得られた音声標準パ
ターンを格納し、認識時の環境ノイズを音響分析して得
られた平均的なノイズの周波数的特徴を表わす自己相関
関数のベクトルと、前記音声標準パターンから変換され
た自己相関係数のベクトルとを加算して新たな自己相関
係数を得、この新たな自己相関係数のベクトルから変換
して得られた環境のノイズに対応した音声標準パターン
をマッチングに用いることにより音声認識を行うように
したものである。

そして、上記音声認識が音素を認識の基本単位とした
場合、各音素には、例えばある子音は短かく母音は長め
というように、それぞれ異なる継続時間があり、音声デ
ータの一定のS/N比に対して、各音素のS/N比はその継続
時間内で細かく変化するので、このS/N比の変化をマッ
チング用の標準パターンに生かすために、上記自己相関
係数のベクトルの加算の割合を、ノイズ環境において発
声された基準音声から算出したS/N比をもとに、複数の
ノイズ付加音声データから各音素の継続時間内のS/N比
を単位時間毎に分析することによって得られる音声デー
タのS/N比とそれに対応する各音素の単位時間毎のS/N比
との関係が格納されている音声別S/N比対応表の値を参
照して算出する。また、上記標準パターンが線型予測係
数から導かれるLPCケプストラム係数を特徴パラメータ
とする音素標準パターンであり、上記マッチングが音素
標準パターンを用いた音素マッチングであるのが好まし
い。

作用したがって、本発明によれば、様々な性質を持つ環境
ノイズの平均的な周波数的特徴を標準パターンに直接混
合するので、標準パターンの環境ノイズ適合を認識時の
短時間のノイズ学習によって容易に実現することがで
き、そして、その環境ノイズに適合した標準パターンを
マッチングに使用することにより環境ノイズに適合した
音声認識を行なうことができる。

実施例以下、本発明の実施例について図面を参照しながら説
明する。

第１図は本発明の一実施例における音声認識方法を具
現化する機能ブロック図である。

第１図に示すように、まず、認識時において、環境ノ
イズを含む基準音声データ１を短時間入力する。この基
準音声データに対し、音響分析部２において、ノイズの
みの区間と音声が含まれている区間に分離して音響分析
を行ない、ノイズ区間からノイズの平均的な周波数的特
徴を表わす自己相関係数ベクトル３を算出すると共に、
音声のパワーとノイズ区間のパワー比からS/N比４を算
出する。算出されたS/N比４をもとに、混合比算出部５
において、音素別S/N比対応表６を参照し、ノイズの自
己相関係数ベクトルと音声の自己相関係数ベクトルを混
合する比を算出する。この音素別S/N比対応表６は、音
声データの一定のS/N比に対する、各音素の単位時間毎
（局所的）のS/N比の位置を表にしたもので、様々なノ
イズレベルのノイズ付加音声データを分析することによ
ってそれぞれの音素別局所的S/N比を得、得られた音素
別局所的S/N比を格納している。

上記混合比算出部５において混合比を算出するには、
音素別S/N比対応表６に格納した複数の音素別局所的S/N
比の中から、音響分析部２において算出した基準音声の
S/N比４に最も近いS/N比のノイズ付加音声データの音素
別局所的S/N比を２つ選択する。そして、この２つの値
の間を線形補間することによって混合比の算出を行な
う。

自己相関係数演算部７では、音素標準パターン格納部
８に格納された音素標準パターンに対する自己相関係数
ベクトルと、音響分析部２において算出したノイズの平
均的な周波数的特徴を表わす自己相関係数ベクトル３と
を、混合比算出部５で算出された混合比で加算して新た
な自己相関係数を得、この新たに得られた自己相関係数
から新音素標準パターン９を導く。そして、この新音素
標準パターンを第２図に示す音声認識システムの音素判
別部13における音素マッチングに用いることにより、ノ
イズに適合した音声認識を実現することができ、その手
順は上記従来例と同様であるので、その説明を省略す
る。

次に、音素判別に、上記ノイズ適合法で作成される音
素標準パターンを用いた場合の効果を示すために音素識
別実験を行ない、その評価した結果について説明する
（ただし、本実施例において示す音素識別実験結果は、
ノイズレベルを前音声区間について一様に指定する方法
についての実験結果である。）。

評価条件は次の通りである。評価対象音素群は母音・
鼻音群と語中子音群（有声子音/m,n,η,b,d,r,z/、摩擦
音/z,s,h/）である。評価対象話者は男女10人（計20
人）であり、特に、語中子音については、オープンの評
価をするために、一人一人の評価に用いる音素標準パタ
ーンをその評価対象話者を除いた19人で作成した。評価
データとして用いるノイズ付加音声データは、母音・鼻
音については「疑似HOTHノイズ（−6dB/oct）付加音声
データ」、語中子音については「展示会の実環境ノイズ
付加音声データ」であり、ノイズレベルは両方ともS/N
比で15dBである。

上記の条件に基づいて、ノイズの入っていないクリー
ンな音素標準パターンに上記ノイズ適合法を適用するこ
とによって導かれた新たな音素標準パターンを用いて評
価を行なった。また、この実験では評価するノイズ付加
音声データの全体のS/N比を基準音声のS/N比とすること
により基準音声を省略した。ノイズの平均的な周波数的
特徴を表わす自己相関係数ベクトルは、約10秒間のノイ
ズのみのデータを分析することによって求めた。

次の第１ないし第３表は比較例１であるノイズの入っ
ていないクリーンな音素標準パターンで評価した結果
と、比較例２であるノイズ付加音声データから作成した
音素標準パターンで評価した結果と、本発明実施例によ
るノイズ適合により得られた音素標準パターンで評価し
た結果を表わしたものである。

上記識別（判別）結果からも明らかなように、本発明
実施例によるノイズ適合法を用いることにより、比較例
２のノイズ付加音素標準パターンの識別率には及ばない
ものの、識別率が改善されていることがわかる。比較例
１と２の識別率の差を100％としたとき、本発明実施例
が改善した識別率の割合は、第１表で示す母音・鼻音が
57.5％、語中子音でも第２表で示す有声子音が65.5％〜
56.7％、第３表で示す摩擦音が73.4％〜91.7％改善さ
れ、短時間のノイズ学習でありながらも、大きい効果が
ある事を示している。

このように上記実施例によれば、自己相関係数の演算
により、様々な性質を持つ環境ノイズに適合した音素標
準パターンを認識時の短時間のノイズ学習によって容易
に得ることができ、その音素標準パターンを音素識別部
における音素マッチングに使用することにより、環境ノ
イズに適合した音声認識を行なうことができ、これによ
り認識率を向上させることができる。

発明の効果以上述べたように本発明によれば、様々な性質を持つ
環境ノイズの平均的な周波数的特徴を標準パターンに直
接混合するので、標準パターンの環境ノイズ適合を認識
時の短時間のノイズ学習によって容易に実現することが
で、そして、その環境ノイズに適合した標準パターンを
マッチングに使用することにより環境ノイズに適合した
音声認識を行なうことができ、したがって、認識率を向
上させることができる。

【図面の簡単な説明】

第１図は本発明の一実施例における音声認識方法を具現
化する機能ブロック図、第２図は従来の音声認識システ
ムを示す機能ブロック図、第３図は従来の音素標準パタ
ーン作成システムを示す機能ブロック図、第４図は従来
のノイズ付加音素標準パターン作成システムを示す機能
ブロック図である。２……音響分析部、５……混合比演算部、６……音素別
S/N比対応表、７……自己相関係数演算部、８……標準
パターン格納部。

───────────────────────────────────────────────────── フロントページの続き (56)参考文献特開昭62−65088（ＪＰ，Ａ) 特開昭58−23098（ＪＰ，Ａ) 特開昭58−44500（ＪＰ，Ａ) 特開平１−319099（ＪＰ，Ａ) 特開平２−118699（ＪＰ，Ａ) 特開平２−83597（ＪＰ，Ａ) 特公昭61−2960（ＪＰ，Ｂ２) 古井「ディジタル音声処理」東海大学出版会（昭和50年）Ｐ62〜64，155〜156

Claims

(57)【特許請求の範囲】

【請求項１】予め多数の音声データをLPC分析して抽出
した多数のパラメータを統計処理することによって得ら
れた音声標準パターンを格納し、認識時の環境ノイズを
音響分析して得られた平均的なノイズの周波数的特徴を
表わす自己相関関数のベクトルと、前記音声標準パター
ンから変換された自己相関係数のベクトルとを加算して
新たな自己相関係数を得、この新たな自己相関関数のベ
クトルから変換して得られた環境のノイズに対応した音
声標準パターンをマッチングに用いることにより音声認
識を行うことを特徴とする音声認識方法。
【請求項２】音声認識が音素を認識の基本単位とし、自
己相関係数のベクトルの加算の割合を、ノイズ環境にお
いて発生された基準音声から算出したS/N比をもとに、
複数のノイズ付加音声データから各音素の継続時間内の
S/N比を単位時間毎に分析することによって得られる、
音声データのS/N比とそれに対応する各音素の単位時間
毎のS/N比との関係が格納されている音素別S/N比対応表
の値を参照して算出することを特徴とする請求項１記載
の音声認識方法。
【請求項３】標準パターンが線形予測係数から導かれる
LPCケプストラム係数を特徴パラメータとする音素標準
パターンであり、マッチングが音素標準パターンを用い
た音素マッチングであることを特徴とする請求項１また
は２記載の音声認識方法。