JP2006171750A

JP2006171750A - 音声認識のための特徴ベクトル抽出方法

Info

Publication number: JP2006171750A
Application number: JP2005358661A
Authority: JP
Inventors: Chan-Woo Kim; 燦佑金
Original assignee: LG Electronics Inc
Current assignee: LG Electronics Inc
Priority date: 2004-12-13
Filing date: 2005-12-13
Publication date: 2006-06-29
Also published as: EP1675102A3; KR20060066483A; CN1819017A; EP1675102A2; US20060129392A1

Abstract

【課題】音声の最も特徴的な情報の１つである有声音／無声音情報をさらにパラメータ化して、学習過程及び認識過程に用いることにより、音声認識率を向上し得る音声認識のための特徴ベクトル抽出方法を提供する。
【解決手段】音声認識のための特徴ベクトル抽出方法は、入力された音声信号から音声の全体的なスペクトルの形状に関連した特徴ベクトルを抽出する過程と、有声音／無声音の決定の結果をパラメータ化して特徴ベクトルを抽出する過程とを含む。
【選択図】図１

Description

本発明は、音声認識に関し、特に、認識率の高い音声認識のための特徴ベクトル抽出方法に関する。

一般に、音声認識方法は、隠れマルコフモデル（Hidden Markov Model；ＨＭＭ）に基づく方式と、動的時間伸縮法（Dynamic Time Warping；ＤＴＷ）に基づく方式とに大別される。

ＨＭＭに基づく音声認識方法は、音声データベースの学習（training）過程でＨＭＭパラメータを得て、実際に音声が入力されると、マルコフプロセッサにより、最尤法（Maximum Likelihood method；ＭＬ法）に基づいて認識率の最も高いモデルを検索する方法であって、音声の把握に必要な特徴ベクトルを抽出し、該抽出された特徴ベクトルを用いて学習及び音声認識を行う。前記学習過程においては、ＨＭＭパラメータを求めるために、期待値−最大化アルゴリズム（Expectation-Maximization algorithm；Ｅ−Ｍアルゴリズム）、又はＢａｕｍ−Ｗｅｌｃｈ再推定（Baum-Welch re-estimation）などのアルゴリズムが用いられ、前記音声認識過程においては、ビタビアルゴリズム（Viterbi algorithm）などが用いられる。

また、認識率をより高めるために、前処理過程として、ウィナーフィルタリング（Wiener Filtering）などを行うこともあり、後処理過程として、言語モデルを利用して文法を考慮する技法を用いることもある。

ＨＭＭに基づく音声認識方法は、連続音声認識（Continuous Speech Recognition；ＣＳＲ）に適用することができ、大語彙認識に適し、高い認識率を有するため、最近、その使用範囲が広くなっている。

ＤＴＷに基づく音声認識方法は、基準パターンと与えられた入力パターンとを比較して相互間の類似性を判別する方法である。同じ単語を発声する場合にも話者、感情、周辺環境によって異なる持続時間を有するため、このような持続時間の不一致を非線形最適化する方法であって、部分最適化に基づいて全体最適化を行う特性を有する。

ＤＴＷに基づく音声認識方法は、認識対象語彙が少ない孤立単語の認識に主に用いられ、基準パターンを容易に作成することができるため、音声認識システムの業務内容を容易に変更し得るという利点がある。

しかしながら、従来のＨＭＭに基づく音声認識方法及びＤＴＷに基づく音声認識方法は、人間の発音の把握において音声の全体的なスペクトルの形状に関連した特徴ベクトルが重要であると判断して、音声の全体的なスペクトルの形状に関連した特徴ベクトルのみを抽出して用いるだけで、音声の最も特徴的な情報の１つである有声音／無声音（voiced/unvoiced）情報を全く活用していなかったため、認識率の向上に限界があるという問題があった。

本発明は、このような従来技術の問題を解決するためになされたもので、認識率の高い音声認識のための特徴ベクトル抽出方法を提供することを目的とする。

このような目的を達成するために、本発明に係る音声認識のための特徴ベクトル抽出方法は、入力された音声信号から音声の全体的なスペクトルの形状に関連した特徴ベクトルを抽出する過程と、有声音／無声音の決定の結果をパラメータ化して特徴ベクトルを抽出する過程と、を含むことを特徴とする。

その有声音／無声音の決定は、数式１から求めたｒ_ｘ[0]とmaxｒ_ｘ[n]との比（η＝maxｒ_ｘ[n]／ｒ_ｘ[0]）を用いることを特徴とする。数式１において、ｋは１〜３のいずれか１つの整数であり、ｋ＝２のとき、自己相関関数を用いる。

また、ｒ_ｘ[0]とmaxｒ_ｘ[n]との比が閾値以上であると、該当音声区間が有声音であると判別し、ｒ_ｘ[0]とmaxｒ_ｘ[n]との比が閾値未満であると、該当音声区間が無声音であると判別することを特徴とする。

本発明に係る音声認識のための特徴ベクトル抽出方法は、音声認識において、音声の最も特徴的な情報の１つである有声音／無声音情報をさらにパラメータ化して、学習過程及び認識過程に用いることにより、音声認識率を向上し得るという効果がある。

本発明は、有声音／無声音の決定の結果をパラメータ化して、既存の音声の全体的なスペクトルの形状に関連した特徴ベクトルと共に、学習過程のモデルパラメータとして用い、認識過程にも適用する。

全ての音声は、有声音又は無声音に区分されるが、このような有声音／無声音情報は、音声の生成時における声帯の振動有無によって決定される。即ち、音声の生成時に声帯が振動すると該当音声は有声音であり、音声の生成時に声帯が振動しないと該当音声は無声音である。例えば、全ての母音（vowel）、及び破裂音（plosive sound）中の［ｂ］、［ｄ］、［ｇ］などは有声音であり、破裂音中の［ｋ］、［ｐ］、［ｔ］、及び摩擦音（fricative sound）中の［ｆ］、［ｔｈ］、［ｓ］、［ｓｈ］などは無声音である。そのうち［ｐ］と［ｂ］、及び［ｄ］と［ｔ］のような音声は、発音時の口形状が類似しているが、有声音か無声音かによって全く異なる単語となる。従って、有声音／無声音情報は、音を大きく２つのカテゴリに分ける重要な基準となる。

以下、添付した図面を参照して本発明の好ましい実施形態について説明する。

図１は本発明に係る音声認識のための特徴ベクトル抽出方法を示すフローチャートである。

図１に示すように、本発明に係る音声認識のための特徴ベクトル抽出方法は、まず、入力された音声信号から音声の全体的なスペクトルの形状に関連した特徴ベクトルを抽出する（Ｓ１１０）。音声の全体的なスペクトルの形状に関連した特徴ベクトルは、線形予測係数（Linear Prediction Coefficient；ＬＰＣ）、線形予測ケプストラム係数（Linear Prediction Cepstral Coefficient；ＬＰＣＣ）、メル周波数ケプストラム係数（Mel-Frequency Cepstral Coefficient；ＭＦＣＣ）、知覚線形予測係数（Perceptual Linear Prediction Coefficient；ＰＬＰＣ）などである。

その後、有声音／無声音の決定に関連したパラメータを抽出し、該抽出したパラメータに、実験により求めた適切なゲイン値Ｇの加重値を適用することにより、有声音／無声音の決定に関連した特徴ベクトルを抽出する（Ｓ１２０）。この有声音／無声音の決定には様々な方法があるが、最も容易な方法は数式２を用いるものである。

式中、Ｎ_ｆは有声音／無声音の決定が行われるフレームの長さである。数式２は、ｋ＝１であると、既知の平均振幅差関数（Average Magnitude Difference Function；ＡＭＤＦ）となり、ｋ＝２であると、既知の自己相関関数を二乗した値と類似する。当該ｋの値は、１〜３のいずれか１つの整数を用いることができるが、実験によると、ｋ＝２の場合に最も高い性能を示し、また、ｋ＝１の場合は、累乗計算を必要としないという利点があるため、ｋ＝１、２の両方ともピッチ抽出（pitch extraction）に多く用いられる。本発明においては、ｋの値として１〜３のいずれか１つの整数を用いることができるが、一実施形態として、ｋ＝２の場合と類似した結果を示す自己相関関数を用いる場合を図２に基づいて説明する。自己相関関数は、数式３に示すとおりである。

図２及び図３は有声音／無声音の波形を示すグラフであり、図２のＡ）及びＢ）は有声音の場合、図３のＡ）及びＢ）は無声音の場合で、各図Ｂ）はそれぞれ自己相関関数を示す。

図２のＡ）及びＢ）に示すように、有声音の場合は、波形の変化が大きくて類似した形状が繰り返されるが、図３のＡ）及びＢ）に示すように、無声音の場合は、波形の変化が大きくなくて形状に一貫性がない。また、ピッチが存在し得る範囲において、図２のＢ）の場合は、ｒ_ｘ[0]とmaxｒ_ｘ[n]の値に差が少ないが、図３のＢ）の場合は差が大きい。

前記ｒ_ｘ[0]とmaxｒ_ｘ[n]との比（η）はη＝maxｒ_ｘ[n]／ｒ_ｘ[0]のように表される。この式中、可能なピッチ範囲を５０〜５００Ｈｚと仮定すると、８ＫＨｚサンプリングレートにおけるｎの範囲は数式４の通りになる。

η＝maxｒ_ｘ[n]／ｒ_ｘ[0]で数式４の範囲とすると、図２のＢ）の場合は、ηの値が０．７５程度であり、図３のＢ）の場合は、ηの値が０．２５程度である。

すなわち、ηの値が大きいと有声音の可能性が高くて、ηの値が小さいと無声音の可能性が高いことが分かる。従って、この提案に係るηの値をパラメータとして用いて、該ηの値が閾値以上であると該当音声を有声音と判別し、該ηの値が閾値未満であると無声音と判別することができる。

ｎの範囲は、サンプリングレートによって異なる。

有声音／無声音情報を以上のようなパラメータとして用いることなく、その結果だけ１ビットで表示することもできるが、有声音／無声音の決定の結果が正確でない場合、認識性能の低下をもたらし得るため、以上のようにパラメータとして用いることが好ましい。

その後、上記抽出された各特徴ベクトルを学習過程及び認識過程などに活用する（Ｓ１３０）。抽出された特徴ベクトルは、ＨＭＭ又はＤＴＷに基づく音声認識方法において認識率を高めるためにパラメータを追加して用いることができ、ニューラルネットワークによる音声認識方法にも適用することができる。

また、性能を向上させるために、選択的に、微分係数（differential coefficient）や加速度係数（acceleration coefficient）などの特徴ベクトルを追加することもできる。

本発明に係る音声認識のための特徴ベクトル抽出方法を示すフローチャートである。有声音の波形例を示すグラフである。無声音の波形例を示すグラフである。

Claims

有声音／無声音の決定に関連したパラメータを用いて特徴ベクトルとして活用することを特徴とする音声認識のための特徴ベクトル抽出方法。
前記有声音／無声音の決定が、数式１から求めたｒ_ｘ[0]とmaxｒ_ｘ[n]との比（η＝maxｒ_ｘ[n]／ｒ_ｘ[0]）を用いることを特徴とする請求項１に記載の音声認識のための特徴ベクトル抽出方法。
前記ｋが１、２、３のいずれか１つであることを特徴とする請求項２に記載の音声認識のための特徴ベクトル抽出方法。
前記ｒ_ｘ[0]とmaxｒ_ｘ[n]との比（η）が閾値以上であると、該当音声が有声音と判別されることを特徴とする請求項２に記載の音声認識のための特徴ベクトル抽出方法。
前記ｒ_ｘ[0]とmaxｒ_ｘ[n]との比（η）が閾値未満であると、該当音声が無声音と判別されることを特徴とする請求項２に記載の音声認識のための特徴ベクトル抽出方法。
音声認識が、隠れマルコフモデルに基づく音声認識であることを特徴とする請求項１に記載の音声認識のための特徴ベクトル抽出方法。
音声認識が、動的時間伸縮法に基づく音声認識であることを特徴とする請求項１に記載の音声認識のための特徴ベクトル抽出方法。
音声認識が、ニューラルネットワークに基づく音声認識であることを特徴とする請求項１に記載の音声認識のための特徴ベクトル抽出方法。
前記有声音／無声音の決定に関連したパラメータの代りに、有声音／無声音情報の結果だけ１ビットで表示して用いることを特徴とする請求項１に記載の音声認識のための特徴ベクトル抽出方法。
前記有声音／無声音の決定に関連したパラメータに微分係数及び加速度係数を追加して共に用いることを特徴とする請求項１に記載の音声認識のための特徴ベクトル抽出方法。
入力された音声信号から音声の全体的なスペクトルの形状に関連した特徴ベクトルを抽出する過程と、
有声音／無声音の決定の結果をパラメータ化して特徴ベクトルを抽出する過程と、
を含むことを特徴とする音声認識のための特徴ベクトル抽出方法。
前記有声音／無声音の決定が、自己相関関数の数式２から求めたｒ_ｘ[0]と可能なピッチ範囲内でのmaxｒ_ｘ[n]との比（η＝maxｒ_ｘ[n]／ｒ_ｘ[0]）を用いることを特徴とする請求項１１に記載の音声認識のための特徴ベクトル抽出方法。
前記ｒ_ｘ[0]と可能なピッチ範囲内でのmaxｒ_ｘ[n]との比（η＝maxｒ_ｘ[n]／ｒ_ｘ[0]）が閾値以上であると、該当音声が有声音と判別されることを特徴とする請求項１２に記載の音声認識のための特徴ベクトル抽出方法。
前記ｒ_ｘ[0]と可能なピッチ範囲内でのmaxｒ_ｘ[n]との比（η＝maxｒ_ｘ[n]／ｒ_ｘ[0]）が閾値未満であると、該当音声が無声音と判別されることを特徴とする請求項１２に記載の音声認識のための特徴ベクトル抽出方法。
隠れマルコフモデル、動的時間伸縮法、及びニューラルネットワークのいずれか１つの方法に基づく音声認識に適用されることを特徴とする請求項１１に記載の音声認識のための特徴ベクトル抽出方法。
前記有声音／無声音の決定の結果をパラメータ化する代わりに、有声音／無声音情報の結果だけ１ビットで表示して用いることを特徴とする請求項１１に記載の音声認識のための特徴ベクトル抽出方法。
前記有声音／無声音の決定に関連したパラメータに微分係数及び加速度係数を追加して共に用いることを特徴とする請求項１１に記載の音声認識のための特徴ベクトル抽出方法。