JPH0968995A - 音声認識方法 - Google Patents
音声認識方法Info
- Publication number
- JPH0968995A JPH0968995A JP7226173A JP22617395A JPH0968995A JP H0968995 A JPH0968995 A JP H0968995A JP 7226173 A JP7226173 A JP 7226173A JP 22617395 A JP22617395 A JP 22617395A JP H0968995 A JPH0968995 A JP H0968995A
- Authority
- JP
- Japan
- Prior art keywords
- voice
- word
- standard pattern
- vowel
- frame
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】
【目的】 本発明は音声認識に関するものであり、子音
のように継続長が短くスペクトル変化に特徴のある部分
は時間的に詳細に、母音のように時間的に定常で継続長
の長い部分は時間的に粗く照合することにより情報の冗
長性を省き、認識性能の高い音声認識方法を提供するも
のである。 【構成】 未知入力音声を音響分析部1でフレームごと
にLPC分析し、特徴パラメータ抽出部2でP個(Pは
正の整数)の特徴パラメータをフレームごとに求める。
次に音声区間検出部3で入力音声の始端および終端フレ
ームを音声パワー情報などを用いて検出する。次にDP
照合部5で、入力音声と単音節標準パターンとの距離を
求める。最後に距離比較部6で、DP照合部5で求めた
距離の中で最小の値をもつ標準パターンに対応する音声
名を認識結果として選択する。
のように継続長が短くスペクトル変化に特徴のある部分
は時間的に詳細に、母音のように時間的に定常で継続長
の長い部分は時間的に粗く照合することにより情報の冗
長性を省き、認識性能の高い音声認識方法を提供するも
のである。 【構成】 未知入力音声を音響分析部1でフレームごと
にLPC分析し、特徴パラメータ抽出部2でP個(Pは
正の整数)の特徴パラメータをフレームごとに求める。
次に音声区間検出部3で入力音声の始端および終端フレ
ームを音声パワー情報などを用いて検出する。次にDP
照合部5で、入力音声と単音節標準パターンとの距離を
求める。最後に距離比較部6で、DP照合部5で求めた
距離の中で最小の値をもつ標準パターンに対応する音声
名を認識結果として選択する。
Description
【0001】
【産業上の利用分野】本発明は人間の声を機械に認識さ
せる音声認識方法に関するものである。
せる音声認識方法に関するものである。
【0002】
【従来の技術】近年、使用者の声を登録することなし
に、誰の声でも認識できる不特定話者用の音声認識装置
が実用として使われるようになった。不特定話者用の実
用的な方法として、特許(特開昭61−188599号
公報)を従来例として説明する。
に、誰の声でも認識できる不特定話者用の音声認識装置
が実用として使われるようになった。不特定話者用の実
用的な方法として、特許(特開昭61−188599号
公報)を従来例として説明する。
【0003】従来例の方法は入力音声の始端、終端を求
めて音声区間を決定し、音声区間を一定時間長に(Jフ
レーム)に線形伸縮し、これと単語標準パターンとの類
似度を統計的距離尺度を用いてパターンマッチングをす
ることによって求め、単語を認識する方法である。
めて音声区間を決定し、音声区間を一定時間長に(Jフ
レーム)に線形伸縮し、これと単語標準パターンとの類
似度を統計的距離尺度を用いてパターンマッチングをす
ることによって求め、単語を認識する方法である。
【0004】以下、従来例について図7、図8を用いて
詳細に説明する。図7は従来例の音声認識方法の処理の
流れを示すフローチャートである。図7において1は音
響分析部、2は特徴パラメータ抽出部、3は音声区間検
出部、10は時間軸線形正規化部、4は標準パターン格
納部、11は距離計算部、6は距離比較部である。
詳細に説明する。図7は従来例の音声認識方法の処理の
流れを示すフローチャートである。図7において1は音
響分析部、2は特徴パラメータ抽出部、3は音声区間検
出部、10は時間軸線形正規化部、4は標準パターン格
納部、11は距離計算部、6は距離比較部である。
【0005】図7において、入力音声が入力されると音
響分析部1で分析時間(フレームと呼ぶ、本従来例では
1フレーム=10ms)ごとに線形予測(LPC)分析を行
なう。次に、特徴パラメータ抽出部2でP個の特徴パラ
メータをフレームごとに求める。特徴パラメータは、L
PCメルケプストラム係数(本例ではC1〜C9まで9
個)、正規化残差C0、および音声対数パワーの時間差分
値V0を用いる。次に音声区間検出部3で入力音声の始端
フレーム、終端フレームを検出する。音声区間の検出は
音声パワーを用いる方法が一番簡単であるがどのような
方法を用いてもよい。検出された音声区間に対して、入
力音声の特徴パラメータ時系列を時間軸線形正規化部1
0でJフレームに線形伸縮する。これを概念的に示した
のが図8である。通常、計算量および標準パターンの推
定パラメータ数削減のため、Jは実際の単語のフレーム
数よりも小さく取る。これは単語の音声区間全体につい
て等間隔にフレームを間引くことに相当する。検出され
た入力音声区間の始端フレームを1フレーム目、終端フ
レームをIフレーム目とすると、伸縮後の第jフレーム
と入力音声の第iフレームの関係は
響分析部1で分析時間(フレームと呼ぶ、本従来例では
1フレーム=10ms)ごとに線形予測(LPC)分析を行
なう。次に、特徴パラメータ抽出部2でP個の特徴パラ
メータをフレームごとに求める。特徴パラメータは、L
PCメルケプストラム係数(本例ではC1〜C9まで9
個)、正規化残差C0、および音声対数パワーの時間差分
値V0を用いる。次に音声区間検出部3で入力音声の始端
フレーム、終端フレームを検出する。音声区間の検出は
音声パワーを用いる方法が一番簡単であるがどのような
方法を用いてもよい。検出された音声区間に対して、入
力音声の特徴パラメータ時系列を時間軸線形正規化部1
0でJフレームに線形伸縮する。これを概念的に示した
のが図8である。通常、計算量および標準パターンの推
定パラメータ数削減のため、Jは実際の単語のフレーム
数よりも小さく取る。これは単語の音声区間全体につい
て等間隔にフレームを間引くことに相当する。検出され
た入力音声区間の始端フレームを1フレーム目、終端フ
レームをIフレーム目とすると、伸縮後の第jフレーム
と入力音声の第iフレームの関係は
【0006】
【数1】
【0007】となる。ただし、[]はその数を越えない
最大の整数を表す。伸縮後のJフレーム分の特徴パラメ
ータを時系列に並べ入力時系列パターンXを作成する。
最大の整数を表す。伸縮後のJフレーム分の特徴パラメ
ータを時系列に並べ入力時系列パターンXを作成する。
【0008】
【数2】
【0009】この入力時系列パターンXと標準パターン
格納部4に格納されている認識対象語彙の各々の標準パ
ターンとの距離を距離計算部11で求める。標準パター
ンの作成方法および距離の求めかたについては後述す
る。最後に距離比較部6で、距離計算部11で求めた各
々の標準パターンとの距離の中で最小(類似度が最大)
の値をもつ標準パターンに対応する音声名を認識結果と
して選択し、出力する。
格納部4に格納されている認識対象語彙の各々の標準パ
ターンとの距離を距離計算部11で求める。標準パター
ンの作成方法および距離の求めかたについては後述す
る。最後に距離比較部6で、距離計算部11で求めた各
々の標準パターンとの距離の中で最小(類似度が最大)
の値をもつ標準パターンに対応する音声名を認識結果と
して選択し、出力する。
【0010】以下に、単語標準パターンの作成方法、お
よび入力時系列パターンと単語標準パターンとの距離計
算の方法について述べる。
よび入力時系列パターンと単語標準パターンとの距離計
算の方法について述べる。
【0011】ある単語ωnの標準パターンは次のような
手順で作成する。 (1)多数の人(ここでは100名)が単語ωnを発声したM個
の学習用音声データを用意する。 (2)各データを(数1)を用いて線形に伸縮を行ないJ
フレームに正規化する。(3)第m番目の発声データに対し
て伸縮後の特徴パラメータを時系列に並べ、時系列パタ
ーンCmを求める。(m=1,...,M) (4)M個の時系列パターンCm(m=1,...,M)を用いてその統
計量(平均値、共分散)を求めることにより標準パター
ンを作成する。
手順で作成する。 (1)多数の人(ここでは100名)が単語ωnを発声したM個
の学習用音声データを用意する。 (2)各データを(数1)を用いて線形に伸縮を行ないJ
フレームに正規化する。(3)第m番目の発声データに対し
て伸縮後の特徴パラメータを時系列に並べ、時系列パタ
ーンCmを求める。(m=1,...,M) (4)M個の時系列パターンCm(m=1,...,M)を用いてその統
計量(平均値、共分散)を求めることにより標準パター
ンを作成する。
【0012】これをN個の認識対象語彙それぞれに対し
て求めておく。第m番目の発声データに対して伸縮後の
特徴パラメータを時系列に並べた時系列パターンCmは
次のように表される。
て求めておく。第m番目の発声データに対して伸縮後の
特徴パラメータを時系列に並べた時系列パターンCmは
次のように表される。
【0013】
【数3】
【0014】これをM個の学習用音声データについて求
める。時間パターンCmを一つのベクトルとして扱うこ
とにより、パラメータのフレーム間の相関を考慮するこ
とになる。M個のJ×P次元のベクトルCm(m=1,...,
M)からその平均値ベクトルμおよび共分散行列Wを求
める。以下、第n番目の単語ωnに対する平均値ベクトル
をμn、共分散行列をWnと表記する。
める。時間パターンCmを一つのベクトルとして扱うこ
とにより、パラメータのフレーム間の相関を考慮するこ
とになる。M個のJ×P次元のベクトルCm(m=1,...,
M)からその平均値ベクトルμおよび共分散行列Wを求
める。以下、第n番目の単語ωnに対する平均値ベクトル
をμn、共分散行列をWnと表記する。
【0015】入力時系列パターンXと単語標準パターン
との距離計算は、共分散行列を共通化したベイズ判定に
基づく距離を用いて計算する。
との距離計算は、共分散行列を共通化したベイズ判定に
基づく距離を用いて計算する。
【0016】ベイズ判定に基づく距離は以下のようにし
て求める。(数2)で表される入力ベクトルXが観測さ
れたときにそれが単語ωnである確率P(ωn|X)はベイ
ズの定理より
て求める。(数2)で表される入力ベクトルXが観測さ
れたときにそれが単語ωnである確率P(ωn|X)はベイ
ズの定理より
【0017】
【数4】
【0018】となる。P(X|ωn)は事前確率で、入力
がカテゴリーωnであったときに入力ベクトルXが観測
される確率、P(X)は生起し得るすべての入力を考えた
場合のベクトルXが観測される確率である。単語ωnの
出現確率P(ωn)は各単語同じと仮定して定数とし、入
力Xが一定とするとP(X)が定数となるので、事前確率
P(X|ωn)を最大とするカテゴリーωnを判定結果とす
ればよい。
がカテゴリーωnであったときに入力ベクトルXが観測
される確率、P(X)は生起し得るすべての入力を考えた
場合のベクトルXが観測される確率である。単語ωnの
出現確率P(ωn)は各単語同じと仮定して定数とし、入
力Xが一定とするとP(X)が定数となるので、事前確率
P(X|ωn)を最大とするカテゴリーωnを判定結果とす
ればよい。
【0019】パラメータの分布を正規分布と考えると、
事前確率P(X|ωn)は(数5)で表される。
事前確率P(X|ωn)は(数5)で表される。
【0020】
【数5】
【0021】ここでtは転置行列を表す。両辺の対数を
とって識別に不要な定数項を省略しさらに−2倍すると
次式を得る。
とって識別に不要な定数項を省略しさらに−2倍すると
次式を得る。
【0022】
【数6】
【0023】この式は単語ωnに対するベイズ判定に基
づく距離である。計算量および推定パラメータ数削減の
ため、共分散行列を共通化してこの式を線形一次判別式
に展開する。認識対象語彙の各々の標準パターンの共分
散行列Wnを共通化し、Wとする。Wは次式のようにし
て求める。
づく距離である。計算量および推定パラメータ数削減の
ため、共分散行列を共通化してこの式を線形一次判別式
に展開する。認識対象語彙の各々の標準パターンの共分
散行列Wnを共通化し、Wとする。Wは次式のようにし
て求める。
【0024】
【数7】
【0025】したがって
【0026】
【数8】
【0027】とおくことができる。これを(数6)に代
入し識別に不要な定数項を省略すると、
入し識別に不要な定数項を省略すると、
【0028】
【数9】
【0029】となり、
【0030】
【数10】
【0031】
【数11】
【0032】とおくことにより、
【0033】
【数12】
【0034】のような線形一次判別式になることがわか
る。このようにしてAn,Bnを認識対象語彙の各々に対
して求め、標準パターン格納部に格納しておく。距離計
算部では上式を用いて入力時系列パターンXと、単語ω
nの標準パターンとの距離Lnを求める。
る。このようにしてAn,Bnを認識対象語彙の各々に対
して求め、標準パターン格納部に格納しておく。距離計
算部では上式を用いて入力時系列パターンXと、単語ω
nの標準パターンとの距離Lnを求める。
【0035】
【発明が解決しようとする課題】従来例の方法は、計算
量が少なく実用的な方法である。しかし従来の方法で
は、パラメータの推定精度の面から標準パターンのフレ
ーム数Jを大きくすることができず、音声区間全体につ
いて等間隔にフレームを間引いて認識することになる。
このため、子音のように継続長が短く詳細に照合を行な
う必要がある部分の情報が欠落してしまい、十分な音声
認識率が得られないという問題があった。一方、母音の
ように時間的に定常で継続長の長い部分の情報が冗長に
なってしまうという問題があった。
量が少なく実用的な方法である。しかし従来の方法で
は、パラメータの推定精度の面から標準パターンのフレ
ーム数Jを大きくすることができず、音声区間全体につ
いて等間隔にフレームを間引いて認識することになる。
このため、子音のように継続長が短く詳細に照合を行な
う必要がある部分の情報が欠落してしまい、十分な音声
認識率が得られないという問題があった。一方、母音の
ように時間的に定常で継続長の長い部分の情報が冗長に
なってしまうという問題があった。
【0036】また、従来の方法は入力音声と標準パター
ンの照合の距離尺度として、音声全体を一つのベクトル
として一次判別関数で表される統計的距離尺度を用いて
いたため、少ない計算量で認識することができたが、近
年の計算機の急速な高速化にともない、計算量が増えて
も認識性能を向上させる必要性がでてきた。
ンの照合の距離尺度として、音声全体を一つのベクトル
として一次判別関数で表される統計的距離尺度を用いて
いたため、少ない計算量で認識することができたが、近
年の計算機の急速な高速化にともない、計算量が増えて
も認識性能を向上させる必要性がでてきた。
【0037】さらに、従来の方法は単語標準パターンを
作成するために、多数の人が発声した学習用音声データ
が必要となるため、認識対象語彙の変更が容易ではない
という問題があった。
作成するために、多数の人が発声した学習用音声データ
が必要となるため、認識対象語彙の変更が容易ではない
という問題があった。
【0038】本発明は上記従来の課題を解決するもの
で、その第一の目的は従来例よりも認識率を向上させる
音声認識方法を提供することである。
で、その第一の目的は従来例よりも認識率を向上させる
音声認識方法を提供することである。
【0039】第二の目的は、識別性能の高い距離尺度を
用いて、さらに認識率を向上させる音声認識方法を提供
することである。
用いて、さらに認識率を向上させる音声認識方法を提供
することである。
【0040】第三の目的は、日本語のかな文字表記から
単語標準パターンを作成することができる、認識対象語
彙の変更が容易で高精度な音声認識方法を提供すること
である。
単語標準パターンを作成することができる、認識対象語
彙の変更が容易で高精度な音声認識方法を提供すること
である。
【0041】
【課題を解決するための手段】本発明では第一に、以下
の手段によって上記課題を解決した。
の手段によって上記課題を解決した。
【0042】単語音声中の子音部は基準フレームを中心
にフレームを連続にとって標準パターンを作成し、母音
部はフレームを線形に伸縮して標準パターンを作成す
る。認識の際には子音部はフレームを連続に照合し、母
音部はフレームを伸縮させて照合を行なう。このような
フレームの取り方をすることにより音声認識性能を向上
させることができる。
にフレームを連続にとって標準パターンを作成し、母音
部はフレームを線形に伸縮して標準パターンを作成す
る。認識の際には子音部はフレームを連続に照合し、母
音部はフレームを伸縮させて照合を行なう。このような
フレームの取り方をすることにより音声認識性能を向上
させることができる。
【0043】計算量および標準パターンの推定パラメー
タ数を増大させないために、入力音声と標準パターンの
照合は、音声全体を一つのベクトルとしてフレーム間相
関を考慮した一次判別関数で表される統計的距離尺度を
用いる。または、計算量は2倍になるが、フレームを独
立に扱い、そのかわりに特徴パラメータの時間変化量で
ある動的特徴パラメータを併用し一次判別関数で表され
る統計的距離尺度を用いる。
タ数を増大させないために、入力音声と標準パターンの
照合は、音声全体を一つのベクトルとしてフレーム間相
関を考慮した一次判別関数で表される統計的距離尺度を
用いる。または、計算量は2倍になるが、フレームを独
立に扱い、そのかわりに特徴パラメータの時間変化量で
ある動的特徴パラメータを併用し一次判別関数で表され
る統計的距離尺度を用いる。
【0044】本発明では第二に、以下の手段によって上
記課題を解決した。第一の手段における入力音声と標準
パターンの照合の距離尺度として二次判別関数で表され
る統計的距離尺度を用いる。ただし特徴パラメータの単
語全体の時系列パターンを一つのベクトルとして標準パ
ターンを作成しようとすると、共分散の推定のために膨
大な学習サンプルが必要となるため、時間パターンをフ
レーム毎に独立のベクトルとして扱う。二次判別関数で
表される統計的距離尺度を用いることによりさらに音声
認識性能を向上させることができる。特徴パラメータの
時間変化量である動的特徴パラメータを併用するとさら
に、音声認識性能を向上させることができる。
記課題を解決した。第一の手段における入力音声と標準
パターンの照合の距離尺度として二次判別関数で表され
る統計的距離尺度を用いる。ただし特徴パラメータの単
語全体の時系列パターンを一つのベクトルとして標準パ
ターンを作成しようとすると、共分散の推定のために膨
大な学習サンプルが必要となるため、時間パターンをフ
レーム毎に独立のベクトルとして扱う。二次判別関数で
表される統計的距離尺度を用いることによりさらに音声
認識性能を向上させることができる。特徴パラメータの
時間変化量である動的特徴パラメータを併用するとさら
に、音声認識性能を向上させることができる。
【0045】本発明では第三に、以下の手段によって上
記課題を解決した。音節、CV(子音+母音)、VC
(母音+子音)、VCV(母音+子音+母音)、又はC
VC(子音+母音+子音)などの単位ごとに第一、第二
の手段と同様に標準パターンを作成しておき、これらを
接続して任意の単語標準パターンを作成し、第一、第二
の手段と同様に認識する。日本語のかな文字表記にした
がって単語標準パターンを作成することができるため、
認識対象語彙の変更を容易にすることができる。
記課題を解決した。音節、CV(子音+母音)、VC
(母音+子音)、VCV(母音+子音+母音)、又はC
VC(子音+母音+子音)などの単位ごとに第一、第二
の手段と同様に標準パターンを作成しておき、これらを
接続して任意の単語標準パターンを作成し、第一、第二
の手段と同様に認識する。日本語のかな文字表記にした
がって単語標準パターンを作成することができるため、
認識対象語彙の変更を容易にすることができる。
【0046】
【作用】日本語は子音と母音によって構成される。一般
に、母音部はスペクトルの時間的変化が少なく定常的あ
り、その継続長は発声速度の相違によって伸縮しやすい
という特徴がある。一方、子音部はスペクトルの時間的
変化に音素を識別するための情報があり、その継続長は
比較的短く発声速度が異なっても伸縮しにくいという特
徴がある。
に、母音部はスペクトルの時間的変化が少なく定常的あ
り、その継続長は発声速度の相違によって伸縮しやすい
という特徴がある。一方、子音部はスペクトルの時間的
変化に音素を識別するための情報があり、その継続長は
比較的短く発声速度が異なっても伸縮しにくいという特
徴がある。
【0047】本発明は第一に、子音部は基準フレームを
中心にフレームを連続にとり伸縮させずに照合を行な
い、母音部はフレームを伸縮させて照合を行なうことに
よって、子音部の局所的なスペクトルの時間的変化の特
徴と母音部の大局的なスペクトルの特徴を発声速度に影
響されずに適切にとらえることができるようになり、認
識性能が向上する。標準パターンの子音部を連続にとる
かわりに母音部のフレームを少なくすることにより、標
準パターンのフレーム数は増大しない。
中心にフレームを連続にとり伸縮させずに照合を行な
い、母音部はフレームを伸縮させて照合を行なうことに
よって、子音部の局所的なスペクトルの時間的変化の特
徴と母音部の大局的なスペクトルの特徴を発声速度に影
響されずに適切にとらえることができるようになり、認
識性能が向上する。標準パターンの子音部を連続にとる
かわりに母音部のフレームを少なくすることにより、標
準パターンのフレーム数は増大しない。
【0048】音声全体を一つのベクトルとしてフレーム
間相関を考慮した一次判別関数で表される統計的距離尺
度を用いると、計算量および推定パラメータ数を増大さ
せずに認識率の向上を図ることができる。フレームを独
立に扱い、そのかわりに特徴パラメータの時間変化量で
ある動的特徴パラメータを併用し一次判別関数で表され
る統計的距離尺度を用いると、計算量は2倍になるが、
認識率の向上を図ることができる。
間相関を考慮した一次判別関数で表される統計的距離尺
度を用いると、計算量および推定パラメータ数を増大さ
せずに認識率の向上を図ることができる。フレームを独
立に扱い、そのかわりに特徴パラメータの時間変化量で
ある動的特徴パラメータを併用し一次判別関数で表され
る統計的距離尺度を用いると、計算量は2倍になるが、
認識率の向上を図ることができる。
【0049】本発明は第二に、入力音声と標準パターン
の照合の際、フレームを独立に扱い二次判別関数で表さ
れる統計的距離尺度を用いることによりさらに音声認識
性能を向上させることができる。特徴パラメータの時間
変化量である動的特徴パラメータを併用すると、フレー
ムを独立に扱うことによって失われた時間変化の特徴量
をとらえることができるようになるため、さらに音声認
識性能を向上させることができる。
の照合の際、フレームを独立に扱い二次判別関数で表さ
れる統計的距離尺度を用いることによりさらに音声認識
性能を向上させることができる。特徴パラメータの時間
変化量である動的特徴パラメータを併用すると、フレー
ムを独立に扱うことによって失われた時間変化の特徴量
をとらえることができるようになるため、さらに音声認
識性能を向上させることができる。
【0050】本発明は第三に、音節、CV(子音+母
音)、VC(母音+子音)、VCV(母音+子音+母
音)又はCVC(子音+母音+子音)などの標準パター
ンを接続して任意の単語標準パターンを作成し認識する
ことにより、日本語のかな文字表記にしたがって単語標
準パターンを作成することができるため、認識対象語彙
の変更を容易にすることができる。
音)、VC(母音+子音)、VCV(母音+子音+母
音)又はCVC(子音+母音+子音)などの標準パター
ンを接続して任意の単語標準パターンを作成し認識する
ことにより、日本語のかな文字表記にしたがって単語標
準パターンを作成することができるため、認識対象語彙
の変更を容易にすることができる。
【0051】また、ワードスポッティング機能を導入す
ることによって、騒音に対して頑強な、実用性の高い認
識装置が実現できる。
ることによって、騒音に対して頑強な、実用性の高い認
識装置が実現できる。
【0052】
(実施例1)以下、本発明における第1の実施例につい
て説明する。
て説明する。
【0053】第1の実施例では、日本語の発声の最小の
単位である音節を単独に発声した単音節を認識対象と
し、音声全体を一つのベクトルとして共分散行列を共通
化したベイズ判定に基づく一次判別関数で表される統計
的距離尺度を用いて入力音声と単音節標準パターンの照
合を行ない認識する音声認識方法について説明する。
単位である音節を単独に発声した単音節を認識対象と
し、音声全体を一つのベクトルとして共分散行列を共通
化したベイズ判定に基づく一次判別関数で表される統計
的距離尺度を用いて入力音声と単音節標準パターンの照
合を行ない認識する音声認識方法について説明する。
【0054】第1の実施例では未知入力音声の単音節区
間を検出し、これとあらかじめ作成しておいた単音節標
準パターンとの照合を行なうことにより単音節の認識を
行なう。
間を検出し、これとあらかじめ作成しておいた単音節標
準パターンとの照合を行なうことにより単音節の認識を
行なう。
【0055】日本語の単音節は子音部とそれにつづく母
音部によって構成される。一般に、母音部はスペクトル
の時間的変化が少なく定常的あり、その継続長は発声速
度の相違によって伸縮しやすいという特徴がある。一
方、子音部はスペクトルの時間的変化に音素を識別する
ための情報があり、その継続長は比較的短く発声速度が
異なっても伸縮しにくいという特徴がある。そこで、子
音部はフレーム(分析時間の単位;本実施例では1フレ
ーム=10ms)を連続にとり伸縮させずに入力音声と標準
パターンの照合を行ない、母音部はフレームを伸縮させ
て照合を行なう。母音部はスペクトルが定常的であるた
め、隣接した数フレーム分をまとめて1フレームの標準
パターンにしても識別性能の低下は少ない。子音部はフ
レームを連続に密にとるかわりに母音部はフレームを間
引いて疎にとることによって、単音節標準パターン全体
のフレーム数を増大させずに認識率の向上を図ることが
できる。
音部によって構成される。一般に、母音部はスペクトル
の時間的変化が少なく定常的あり、その継続長は発声速
度の相違によって伸縮しやすいという特徴がある。一
方、子音部はスペクトルの時間的変化に音素を識別する
ための情報があり、その継続長は比較的短く発声速度が
異なっても伸縮しにくいという特徴がある。そこで、子
音部はフレーム(分析時間の単位;本実施例では1フレ
ーム=10ms)を連続にとり伸縮させずに入力音声と標準
パターンの照合を行ない、母音部はフレームを伸縮させ
て照合を行なう。母音部はスペクトルが定常的であるた
め、隣接した数フレーム分をまとめて1フレームの標準
パターンにしても識別性能の低下は少ない。子音部はフ
レームを連続に密にとるかわりに母音部はフレームを間
引いて疎にとることによって、単音節標準パターン全体
のフレーム数を増大させずに認識率の向上を図ることが
できる。
【0056】第1の実施例について図1、図2、図3を
参照しながら説明する。図1は第1の実施例の音声認識
方法の処理の流れを示すフローチャートである。図1に
おいて、1は未知入力音声を分析時間(フレーム)ごと
に線形予測(LPC)分析する音響分析部、2は特徴パ
ラメータをフレームごとに求める特徴パラメータ抽出
部、3は入力音声の始端フレームおよび終端フレームを
検出する音声区間検出部、4は単音節標準パターンを格
納する標準パターン格納部、5は入力音声と単音節標準
パターンとの距離を求めるDP照合部、6はDP照合部
5で求めた各々の標準パターンとの距離の中で最小(類
似度が最大)の値をもつ標準パターンに対応する音声名
を認識結果とする距離比較部である。
参照しながら説明する。図1は第1の実施例の音声認識
方法の処理の流れを示すフローチャートである。図1に
おいて、1は未知入力音声を分析時間(フレーム)ごと
に線形予測(LPC)分析する音響分析部、2は特徴パ
ラメータをフレームごとに求める特徴パラメータ抽出
部、3は入力音声の始端フレームおよび終端フレームを
検出する音声区間検出部、4は単音節標準パターンを格
納する標準パターン格納部、5は入力音声と単音節標準
パターンとの距離を求めるDP照合部、6はDP照合部
5で求めた各々の標準パターンとの距離の中で最小(類
似度が最大)の値をもつ標準パターンに対応する音声名
を認識結果とする距離比較部である。
【0057】次にその動作を説明する。単音節標準パタ
ーンはあらかじめ作成して標準パターン格納部4に格納
しておく。単音節標準パターンの作成方法は後述する。
未知入力音声が入力されると音響分析部1で分析時間
(フレーム)ごとに線形予測(LPC)分析を行なう。
次に、特徴パラメータ抽出部2でP個(Pは正の整数)
の特徴パラメータをフレームごとに求める。特徴パラメ
ータは、LPCメルケプストラム係数(本例ではC1〜C9
まで9個)、正規化残差C0、および音声対数パワーの時
間差分値V0を用いる。次に音声区間検出部3で入力音声
の始端フレームおよび終端フレームを音声パワー情報な
どを用いて検出する。第1の実施例では音声区間の検出
は音声パワーを用いるがどのような方法を用いてもよ
い。次にDP照合部5で、入力音声の特徴パラメータ時
系列と、標準パターン格納部4に格納されているある単
音節標準パターンとをDP法により動的に照合を行な
い、その単音節標準パターンに対する距離を求める。こ
れを認識対象とする全ての単音節に対して求める。DP
照合および距離計算の方法は後述する。最後に距離比較
部6で、DP照合部5で求めた各々の標準パターンとの
距離の中で最小(類似度が最大)の値をもつ標準パター
ンに対応する音声名を認識結果として選択し、出力す
る。
ーンはあらかじめ作成して標準パターン格納部4に格納
しておく。単音節標準パターンの作成方法は後述する。
未知入力音声が入力されると音響分析部1で分析時間
(フレーム)ごとに線形予測(LPC)分析を行なう。
次に、特徴パラメータ抽出部2でP個(Pは正の整数)
の特徴パラメータをフレームごとに求める。特徴パラメ
ータは、LPCメルケプストラム係数(本例ではC1〜C9
まで9個)、正規化残差C0、および音声対数パワーの時
間差分値V0を用いる。次に音声区間検出部3で入力音声
の始端フレームおよび終端フレームを音声パワー情報な
どを用いて検出する。第1の実施例では音声区間の検出
は音声パワーを用いるがどのような方法を用いてもよ
い。次にDP照合部5で、入力音声の特徴パラメータ時
系列と、標準パターン格納部4に格納されているある単
音節標準パターンとをDP法により動的に照合を行な
い、その単音節標準パターンに対する距離を求める。こ
れを認識対象とする全ての単音節に対して求める。DP
照合および距離計算の方法は後述する。最後に距離比較
部6で、DP照合部5で求めた各々の標準パターンとの
距離の中で最小(類似度が最大)の値をもつ標準パター
ンに対応する音声名を認識結果として選択し、出力す
る。
【0058】以下、単音節標準パターンを作成する方法
について説明する。不特定話者音声認識用の音声標準パ
ターンは、多数の人が発声した学習用音声データを用い
てその統計量(平均値、共分散)を求めることにより作
成する。
について説明する。不特定話者音声認識用の音声標準パ
ターンは、多数の人が発声した学習用音声データを用い
てその統計量(平均値、共分散)を求めることにより作
成する。
【0059】日本語の単音節は子音部とそれにつづく母
音部によって構成される。単音節標準パターンは、おな
じカテゴリー(単音節)の各学習用音声データから非線
形にフレームを抽出しこれらのフレームの特徴パラメー
タを時系列に並べたベクトルを求め、このベクトルの集
合から作成する。非線形にフレームを抽出する方法は以
下のとおりである。
音部によって構成される。単音節標準パターンは、おな
じカテゴリー(単音節)の各学習用音声データから非線
形にフレームを抽出しこれらのフレームの特徴パラメー
タを時系列に並べたベクトルを求め、このベクトルの集
合から作成する。非線形にフレームを抽出する方法は以
下のとおりである。
【0060】子音はスペクトルの時間的変化に音素を識
別するための情報があり、その継続長は比較的短く発声
速度が異なっても伸縮しにくいという特徴がある。そこ
で子音部については、その子音の特徴を最も表している
時間的な位置を基準フレームとし、学習用音声データか
ら各基準フレームの前後数フレームを連続して抽出す
る。母音部はその連続した時間パターンの終端から、音
声の終端フレームまでの間を線形にフレームを伸縮させ
て抽出する。図2がその概念図を示している。
別するための情報があり、その継続長は比較的短く発声
速度が異なっても伸縮しにくいという特徴がある。そこ
で子音部については、その子音の特徴を最も表している
時間的な位置を基準フレームとし、学習用音声データか
ら各基準フレームの前後数フレームを連続して抽出す
る。母音部はその連続した時間パターンの終端から、音
声の終端フレームまでの間を線形にフレームを伸縮させ
て抽出する。図2がその概念図を示している。
【0061】図2において、子音の基準フレームは、子
音ごとに定められている一定の基準に基づいて、目視に
よって学習用音声データに音素ラベル21としてラベル
付けされている。本実施例では、無声破裂音(/c/,/p/,/
t/,/k/)は破裂フレーム、鼻音(/m/,/n/)および無声摩擦
音(/h/,/s/)は母音へのわたりの部分、有声破裂音(/b/,
/d/,/g/,/r/)は破裂フレーム(バズバーの終端)、/z/
は有声性から無声性へ変わる部分をそれぞれ基準フレー
ムとしている。また単母音(「あ」,「い」,「う」,
「え」,「お」)と半母音(「や」,「ゆ」,「よ」,
「わ」)は語頭の音声パワー22の立ち上がりのフレー
ムを基準フレームと定義している。そして特徴パラメー
タ時系列23において、この基準フレームを中心に前L1
フレーム、後L2フレームを連続して抽出する。L1および
L2の値は子音ごとに異なる。L1およびL2は子音を識別す
るために有効なフレームを予備実験により検討して決定
した。さらにこの連続した時間パターンの終端フレーム
から、音節の終端フレームまでの母音部を線形に伸縮し
て抽出することにより、時系列パターンCm24を作成
する。拗音の/j/は子音から後続母音へのゆっくりとし
たスペクトル遷移に特徴があり発声速度によって伸縮し
やすいため、母音部と同様に線形に伸縮する。
音ごとに定められている一定の基準に基づいて、目視に
よって学習用音声データに音素ラベル21としてラベル
付けされている。本実施例では、無声破裂音(/c/,/p/,/
t/,/k/)は破裂フレーム、鼻音(/m/,/n/)および無声摩擦
音(/h/,/s/)は母音へのわたりの部分、有声破裂音(/b/,
/d/,/g/,/r/)は破裂フレーム(バズバーの終端)、/z/
は有声性から無声性へ変わる部分をそれぞれ基準フレー
ムとしている。また単母音(「あ」,「い」,「う」,
「え」,「お」)と半母音(「や」,「ゆ」,「よ」,
「わ」)は語頭の音声パワー22の立ち上がりのフレー
ムを基準フレームと定義している。そして特徴パラメー
タ時系列23において、この基準フレームを中心に前L1
フレーム、後L2フレームを連続して抽出する。L1および
L2の値は子音ごとに異なる。L1およびL2は子音を識別す
るために有効なフレームを予備実験により検討して決定
した。さらにこの連続した時間パターンの終端フレーム
から、音節の終端フレームまでの母音部を線形に伸縮し
て抽出することにより、時系列パターンCm24を作成
する。拗音の/j/は子音から後続母音へのゆっくりとし
たスペクトル遷移に特徴があり発声速度によって伸縮し
やすいため、母音部と同様に線形に伸縮する。
【0062】ある単音節ωnの標準パターンは次のよう
な手順で作成する。 (1)多数の人(ここでは100名)が単音節ωnを発声したM
個の学習用音声データを用意する。 (2)各データを非線形に伸縮を行ないJフレームに正規
化する。 (3)第m番目の発声データに対して伸縮後の特徴パラメー
タを時系列に並べ、時系列パターンCmを求める。(m=
1,...,M) (4)M個の時系列パターンCm(m=1,...,M)を用いてその統
計量(平均値、共分散)を求めることにより標準パター
ンを作成する。
な手順で作成する。 (1)多数の人(ここでは100名)が単音節ωnを発声したM
個の学習用音声データを用意する。 (2)各データを非線形に伸縮を行ないJフレームに正規
化する。 (3)第m番目の発声データに対して伸縮後の特徴パラメー
タを時系列に並べ、時系列パターンCmを求める。(m=
1,...,M) (4)M個の時系列パターンCm(m=1,...,M)を用いてその統
計量(平均値、共分散)を求めることにより標準パター
ンを作成する。
【0063】第m番目の学習用音声データから、時系列
パターンCmを求める方法について述べる。
パターンCmを求める方法について述べる。
【0064】標準パターンのフレーム数をJフレームと
し、このうちのLフレーム(L=L1+L2+1)を連続にとると
する。第m番目の学習用音声データの{基準フレーム−L
1}フレームを1フレーム目、音声区間の終端フレームを
Iフレーム目とすると、このデータの第iフレームと伸
縮後の第jフレームの関係は(数13)で表される。た
だし、[]はその数を越えない最大の整数を表す。第1
の実施例ではJ=20、L=10とする。Jはすべての単音節
について同じ値でなければならないが、Lは単音節毎に
異なってもよい。
し、このうちのLフレーム(L=L1+L2+1)を連続にとると
する。第m番目の学習用音声データの{基準フレーム−L
1}フレームを1フレーム目、音声区間の終端フレームを
Iフレーム目とすると、このデータの第iフレームと伸
縮後の第jフレームの関係は(数13)で表される。た
だし、[]はその数を越えない最大の整数を表す。第1
の実施例ではJ=20、L=10とする。Jはすべての単音節
について同じ値でなければならないが、Lは単音節毎に
異なってもよい。
【0065】
【数13】
【0066】伸縮後のJフレーム分の特徴パラメータを
時系列に並べ時間パターンCmを作成する。
時系列に並べ時間パターンCmを作成する。
【0067】
【数14】
【0068】これをM個の学習用音声データについて求
める。時間パターンCmを一つのベクトルとして扱うこ
とにより、パラメータのフレーム間の相関を考慮するこ
とになる。M個のJ×P次元のベクトルCm(m=1,...,
M)からその平均値ベクトルμおよび共分散行列Wを求
める。
める。時間パターンCmを一つのベクトルとして扱うこ
とにより、パラメータのフレーム間の相関を考慮するこ
とになる。M個のJ×P次元のベクトルCm(m=1,...,
M)からその平均値ベクトルμおよび共分散行列Wを求
める。
【0069】さらにこれをN個の認識対象とする単音節
に対してそれぞれ求める。以下、第n番目の単音節ωnに
対する平均値ベクトルをμn、共分散行列をWnと表記す
る。
に対してそれぞれ求める。以下、第n番目の単音節ωnに
対する平均値ベクトルをμn、共分散行列をWnと表記す
る。
【0070】未知入力音声の特徴パラメータの時系列パ
ターンと単音節標準パターンとの距離計算は、共分散行
列を共通化したベイズ判定に基づく距離を用いて計算す
る。
ターンと単音節標準パターンとの距離計算は、共分散行
列を共通化したベイズ判定に基づく距離を用いて計算す
る。
【0071】ベイズ判定に基づく距離は以下のようにし
て求める。いま、未知入力音声の伸縮後の特徴パラメー
タをJフレーム分並べてできる入力ベクトルXを
て求める。いま、未知入力音声の伸縮後の特徴パラメー
タをJフレーム分並べてできる入力ベクトルXを
【0072】
【数15】
【0073】入力ベクトルXが観測されたときにそれが
単音節ωnである確率P(ωn|X)は、従来例と同様にし
て求められる。ベイズの定理よりP(ωn|X)は、
単音節ωnである確率P(ωn|X)は、従来例と同様にし
て求められる。ベイズの定理よりP(ωn|X)は、
【0074】
【数16】
【0075】となる。P(X|ωn)は事前確率で、入力
がカテゴリーωnであったときにベクトルXが観測され
る確率、P(X)は生起し得るすべての入力を考えた場合
のベクトルXが観測される確率である。単語ωnの出現
確率P(ωn)は各単語同じと仮定して定数とし、入力X
が一定とするとP(X)が定数となるので、事前確率P
(X|ωn)を最大とするカテゴリーωnを判定結果とすれ
ばよい。
がカテゴリーωnであったときにベクトルXが観測され
る確率、P(X)は生起し得るすべての入力を考えた場合
のベクトルXが観測される確率である。単語ωnの出現
確率P(ωn)は各単語同じと仮定して定数とし、入力X
が一定とするとP(X)が定数となるので、事前確率P
(X|ωn)を最大とするカテゴリーωnを判定結果とすれ
ばよい。
【0076】パラメータの分布を正規分布と考えると、
事前確率P(X|ωn)は(数17)で表される。
事前確率P(X|ωn)は(数17)で表される。
【0077】
【数17】
【0078】ここでtは転置行列を表す。両辺の対数を
とって識別に不要な定数項を省略しさらに−2倍すると
次式を得る。
とって識別に不要な定数項を省略しさらに−2倍すると
次式を得る。
【0079】
【数18】
【0080】この式は単音節ωnに対するベイズ判定に
基づく距離である。ここで、計算量および推定パラメー
タ数削減のため、従来例と同様に共分散行列を共通化し
てこの式を線形判別式に展開する。各単音節標準パター
ンの共分散行列Wnを共通化し、Wとする。Wは次式の
ようにして求める。
基づく距離である。ここで、計算量および推定パラメー
タ数削減のため、従来例と同様に共分散行列を共通化し
てこの式を線形判別式に展開する。各単音節標準パター
ンの共分散行列Wnを共通化し、Wとする。Wは次式の
ようにして求める。
【0081】
【数19】
【0082】したがって
【0083】
【数20】
【0084】とおくことができる。これを(数18)に
代入し識別に不要な定数項を省略すると
代入し識別に不要な定数項を省略すると
【0085】
【数21】
【0086】となり、
【0087】
【数22】
【0088】
【数23】
【0089】とおくことにより、
【0090】
【数24】
【0091】のような線形一次判別式になることがわか
る。このようにしてAn,Bnを認識対象とする単音節の
各々に対して求め、標準パターン格納部4に格納してお
く。
る。このようにしてAn,Bnを認識対象とする単音節の
各々に対して求め、標準パターン格納部4に格納してお
く。
【0092】以下、DP照合部5で、入力音声と単音節
標準パターンとを、DP法により動的に時間整合を行な
って照合し、距離を求める方法について詳しく説明す
る。
標準パターンとを、DP法により動的に時間整合を行な
って照合し、距離を求める方法について詳しく説明す
る。
【0093】音声区間検出部で検出された音声区間の始
端フレームを第1フレーム、終端フレームを第Iフレー
ムとする。入力音声の第iフレームの特徴パラメータを
P個並べたものをxi
端フレームを第1フレーム、終端フレームを第Iフレー
ムとする。入力音声の第iフレームの特徴パラメータを
P個並べたものをxi
【0094】
【数25】
【0095】とする。そして、入力音声のr(1),r(2),
…,r(j),…,r(J)番目のフレームのxを並べてJフレー
ム分の時間パターンXを作成する。これが入力ベクトル
になる。
…,r(j),…,r(J)番目のフレームのxを並べてJフレー
ム分の時間パターンXを作成する。これが入力ベクトル
になる。
【0096】
【数26】
【0097】単音節ωnの標準パターンをAn,Bnと
し、Anを
し、Anを
【0098】
【数27】
【0099】と書くとき、入力ベクトルXと単音節ωn
の標準パターンとの距離Lnは
の標準パターンとの距離Lnは
【0100】
【数28】
【0101】であるから、
【0102】
【数29】
【0103】となる。そこで、Lnが最小となるようなr
(j)をDP法により求めればよい。Lnが最小となるとき
の値をDP法によって以下のような漸化式で求める。
(j)をDP法により求めればよい。Lnが最小となるとき
の値をDP法によって以下のような漸化式で求める。
【0104】
【数30】
【0105】ただしmはmsからmeまでの整数でms,m
eの値は単音節毎、標準パターンのフレームごとに異な
る。j=1からj=Lまでの連続部では
eの値は単音節毎、標準パターンのフレームごとに異な
る。j=1からj=Lまでの連続部では
【0106】
【数31】
【0107】とし、入力音声を伸縮させず連続的に標準
パターンと照合する。伸縮部のms,meの値は、本実施
例ではその単音節の標準パターンが
パターンと照合する。伸縮部のms,meの値は、本実施
例ではその単音節の標準パターンが
【0108】
【数32】
【0109】の間で伸縮するように決定した。これらの
DPパスを連続部に関しては図3(a)に、伸縮部に関
しては図3(b)に示す。
DPパスを連続部に関しては図3(a)に、伸縮部に関
しては図3(b)に示す。
【0110】入力音声の終端フレームにおける単音節標
準パターンの最終フレームの累積距離g(I,J)をBnから
引いたものが、入力ベクトルXと単音節ωnの標準パタ
ーンとの距離Lnである。
準パターンの最終フレームの累積距離g(I,J)をBnから
引いたものが、入力ベクトルXと単音節ωnの標準パタ
ーンとの距離Lnである。
【0111】
【数33】
【0112】これをすべての単音節標準パターンについ
て求める。なお、第1の実施例では入力音声の音声区間
を検出してから照合を行なう方法について説明したが、
入力音声の音声区間検出をせず、ノイズを含む全入力音
声区間について、
て求める。なお、第1の実施例では入力音声の音声区間
を検出してから照合を行なう方法について説明したが、
入力音声の音声区間検出をせず、ノイズを含む全入力音
声区間について、
【0113】
【数34】
【0114】で表される漸化式によって連続DPマッチ
ングを行ない、g(i,J)が最小となる入力フレームiを求
め、そのときのフレームをIminとするとき、
ングを行ない、g(i,J)が最小となる入力フレームiを求
め、そのときのフレームをIminとするとき、
【0115】
【数35】
【0116】を単音節ωnの標準パターンとの距離とす
ることによって、音声区間を検出しなくても、認識を行
なうことができる。これをワードスポッティングとい
う。
ることによって、音声区間を検出しなくても、認識を行
なうことができる。これをワードスポッティングとい
う。
【0117】ただし、ワードスポッティングを行なう場
合には事後確率化された距離尺度を用いなければならな
い。その方法は以下のとおりである。(数16)におい
て、ワードスポッティングを行なう場合には異なった入
力区間における入力Xについて比較しなければならない
ため、入力Xが一定とはならない。したがってP(X)の
項を考慮した事後確率P(ωn|X)を最大とするカテゴ
リーωnを判定結果とする必要がある。
合には事後確率化された距離尺度を用いなければならな
い。その方法は以下のとおりである。(数16)におい
て、ワードスポッティングを行なう場合には異なった入
力区間における入力Xについて比較しなければならない
ため、入力Xが一定とはならない。したがってP(X)の
項を考慮した事後確率P(ωn|X)を最大とするカテゴ
リーωnを判定結果とする必要がある。
【0118】P(X)は生起し得るすべての入力を考えた
場合のベクトルXが観測される確率である。そこで、事
後確率化のための周囲情報パターンとして、生起し得る
すべての入力についての平均値ベクトルおよび共分散行
列を求めておく。すなわち、認識対象とする全単音節学
習用音声データの特徴パラメータ時系列に対してJフレ
ームの時間窓を1フレームずつシフトさせながら作成し
たJフレームの時系列パターンから平均値ベクトルμe
と共分散行列Weを求めておく。ただしノイズを含む区
間から、発声された音声をスポッティングするために
は、事後確率化のため周囲情報パターンにノイズ区間を
含めて作成しておく必要がある。P(X)は周囲情報パタ
ーンの平均値ベクトルμe、共分散行列Weから求まる。
場合のベクトルXが観測される確率である。そこで、事
後確率化のための周囲情報パターンとして、生起し得る
すべての入力についての平均値ベクトルおよび共分散行
列を求めておく。すなわち、認識対象とする全単音節学
習用音声データの特徴パラメータ時系列に対してJフレ
ームの時間窓を1フレームずつシフトさせながら作成し
たJフレームの時系列パターンから平均値ベクトルμe
と共分散行列Weを求めておく。ただしノイズを含む区
間から、発声された音声をスポッティングするために
は、事後確率化のため周囲情報パターンにノイズ区間を
含めて作成しておく必要がある。P(X)は周囲情報パタ
ーンの平均値ベクトルμe、共分散行列Weから求まる。
【0119】パラメータの分布を正規分布と考えると、
事後確率P(ωn|X)は(数36)で表される。
事後確率P(ωn|X)は(数36)で表される。
【0120】
【数36】
【0121】ここでtは転置行列を表す。両辺の対数を
とって−2倍すると次式を得る。
とって−2倍すると次式を得る。
【0122】
【数37】
【0123】この式は単音節ωnに対する事後確率化し
たベイズ判定に基づく距離である。ここで、計算量およ
び推定パラメータ数削減のため、共分散行列を共通化し
てこの式を線形判別式に展開する。認識対象語彙の各々
の標準パターンの共分散行列Wnと周囲情報パターンの
共分散行列Weを共通化し、Wとする。Wは次式のよう
にして求める。gは周囲情報パターンを混入する割合で
あり、ここではg=Nとする。
たベイズ判定に基づく距離である。ここで、計算量およ
び推定パラメータ数削減のため、共分散行列を共通化し
てこの式を線形判別式に展開する。認識対象語彙の各々
の標準パターンの共分散行列Wnと周囲情報パターンの
共分散行列Weを共通化し、Wとする。Wは次式のよう
にして求める。gは周囲情報パターンを混入する割合で
あり、ここではg=Nとする。
【0124】
【数38】
【0125】したがって、
【0126】
【数39】
【0127】とおくことができる。これを(数37)に
代入すると
代入すると
【0128】
【数40】
【0129】となり、
【0130】
【数41】
【0131】
【数42】
【0132】とおくことにより、
【0133】
【数43】
【0134】のような線形一次判別式になることがわか
る。ワードスポッティングを行なう場合には、このよう
にしてAn,Bnを認識対象とする単音節の各々に対して
求め、標準パターン格納部4に格納しておく。
る。ワードスポッティングを行なう場合には、このよう
にしてAn,Bnを認識対象とする単音節の各々に対して
求め、標準パターン格納部4に格納しておく。
【0135】なお、無声摩擦音や、語頭のバズバーなど
のようにスペクトルが定常で発声によって伸縮の激しい
音素については、基準フレームを中心とした連続パター
ンの時間的に前の部分に母音部と同様の線形伸縮するパ
ターンを設けてもよい。
のようにスペクトルが定常で発声によって伸縮の激しい
音素については、基準フレームを中心とした連続パター
ンの時間的に前の部分に母音部と同様の線形伸縮するパ
ターンを設けてもよい。
【0136】また、第1の実施例では単音節を認識する
場合の例を述べたが、単語認識も同様に行なうことがで
きる。その場合も標準パターンは、子音部は基準フレー
ムを中心に連続に、母音部は線形に伸縮させて全体でJ
フレームになるように作成する。認識する際には、連続
部は伸縮させないようにしながら第1の実施例と同様に
DP法により照合を行なう。
場合の例を述べたが、単語認識も同様に行なうことがで
きる。その場合も標準パターンは、子音部は基準フレー
ムを中心に連続に、母音部は線形に伸縮させて全体でJ
フレームになるように作成する。認識する際には、連続
部は伸縮させないようにしながら第1の実施例と同様に
DP法により照合を行なう。
【0137】(実施例2)以下、本発明における第2の
実施例について説明する。
実施例について説明する。
【0138】第2の実施例では、日本語単音節を認識対
象とし、ベイズ判定に基づく二次判別関数で表される統
計的距離尺度を用いて、入力音声と単音節標準パターン
のフレーム毎に得られる特徴パラメータベクトルと動的
特徴パラメータベクトルの照合を行ない認識する音声認
識方法について説明する。
象とし、ベイズ判定に基づく二次判別関数で表される統
計的距離尺度を用いて、入力音声と単音節標準パターン
のフレーム毎に得られる特徴パラメータベクトルと動的
特徴パラメータベクトルの照合を行ない認識する音声認
識方法について説明する。
【0139】第2の実施例では第1の実施例と同じく未
知入力音声の単音節区間を検出し、これとあらかじめ作
成しておいた単音節標準パターンとの照合を行なうこと
により単音節の認識を行なう。
知入力音声の単音節区間を検出し、これとあらかじめ作
成しておいた単音節標準パターンとの照合を行なうこと
により単音節の認識を行なう。
【0140】第2の実施例について図4を参照しながら
説明する。図4は、第2の実施例の処理の流れを示すフ
ローチャートである。
説明する。図4は、第2の実施例の処理の流れを示すフ
ローチャートである。
【0141】図4において1は未知入力音声をフレーム
ごとにLPC分析を行なう音響分析部、2は特徴パラメ
ータをフレームごとに求める特徴パラメータ抽出部、7
は特徴パラメータの時間変化量を求める動的特徴パラメ
ータ抽出部、3は入力音声の始終端フレームを検出する
音声区間検出部、4は単音節標準パターンを格納する標
準パターン格納部、5は入力音声と単音節標準パターン
との距離を求めるDP照合部、6はDP照合部5で求め
た距離の中で最小の値をもつ標準パターンに対応する音
声名を認識結果とする距離比較部である。
ごとにLPC分析を行なう音響分析部、2は特徴パラメ
ータをフレームごとに求める特徴パラメータ抽出部、7
は特徴パラメータの時間変化量を求める動的特徴パラメ
ータ抽出部、3は入力音声の始終端フレームを検出する
音声区間検出部、4は単音節標準パターンを格納する標
準パターン格納部、5は入力音声と単音節標準パターン
との距離を求めるDP照合部、6はDP照合部5で求め
た距離の中で最小の値をもつ標準パターンに対応する音
声名を認識結果とする距離比較部である。
【0142】次にその動作を説明する。単音節標準パタ
ーンはあらかじめ作成して標準パターン格納部4に格納
しておく。単音節標準パターンの作成方法は後述する。
未知入力音声が入力されると音響分析部1でフレームご
とにLPC分析を行ない、特徴パラメータ抽出部2でP
個の特徴パラメータをフレームごとに求める。特徴パラ
メータは第1の実施例と同様である。そして動的特徴パ
ラメータ抽出部7で特徴パラメータの各次元についてそ
の時間変化量である回帰係数をフレーム毎にP個求め
る。次に音声区間検出部3で入力音声の始終端フレーム
を検出し、DP照合部5で、入力音声の特徴パラメータ
時系列と、単音節標準パターンとを二次判別関数で表さ
れる統計的距離尺度を用いてDP法により動的に照合を
行ない、各単音節標準パターンに対する距離を求める。
最後に距離比較部6で、DP照合部5で求めた各々の標
準パターンとの距離の中で最小の値をもつ標準パターン
に対応する音声名を認識結果として選択し、出力する。
ーンはあらかじめ作成して標準パターン格納部4に格納
しておく。単音節標準パターンの作成方法は後述する。
未知入力音声が入力されると音響分析部1でフレームご
とにLPC分析を行ない、特徴パラメータ抽出部2でP
個の特徴パラメータをフレームごとに求める。特徴パラ
メータは第1の実施例と同様である。そして動的特徴パ
ラメータ抽出部7で特徴パラメータの各次元についてそ
の時間変化量である回帰係数をフレーム毎にP個求め
る。次に音声区間検出部3で入力音声の始終端フレーム
を検出し、DP照合部5で、入力音声の特徴パラメータ
時系列と、単音節標準パターンとを二次判別関数で表さ
れる統計的距離尺度を用いてDP法により動的に照合を
行ない、各単音節標準パターンに対する距離を求める。
最後に距離比較部6で、DP照合部5で求めた各々の標
準パターンとの距離の中で最小の値をもつ標準パターン
に対応する音声名を認識結果として選択し、出力する。
【0143】未知入力音声の特徴パラメータの時系列パ
ターンと単音節標準パターンとの距離計算は、ベイズ判
定に基づく距離を用いて計算する。
ターンと単音節標準パターンとの距離計算は、ベイズ判
定に基づく距離を用いて計算する。
【0144】ベイズ判定に基づく距離は二次判別関数で
あり、計算量が距離を求めるベクトルの次元数の2乗に
比例するため、ベクトルの次元数が大きいと計算量が爆
発的に増大する。また共分散の推定のためには膨大な学
習サンプルが必要となる。そこでベクトルの次元数を減
らす必要がある。第1の実施例では特徴パラメータの単
音節全体の時系列パターンを一つのベクトルとして入力
音声と単音節標準パターンの距離を求めたが、第2の実
施例では、これをフレーム毎に分割して扱う。すなわ
ち、P個の特徴パラメータからなるP次元のベクトルをJ
フレーム分並べたものを標準パターンとし、それぞれの
フレームと入力音声の対応するフレームとの距離をベイ
ズ判定に基づく距離によって求め、その和を入力音声と
単音節標準パターンとの距離とする。しかしこのように
フレームを独立に扱うと、特徴パラメータの動的な変化
を捉らえることができなくなる。そこで特徴パラメータ
の時間変化量を動的特徴パラメータとして導入する。本
実施例では、あるフレームの前後2フレーム(計5フレ
ーム)分のp番目の特徴パラメータの回帰係数をそのフ
レームのp番目の動的特徴パラメータとする。動的特徴
パラメータ抽出部7ではフレーム毎にP個の動的特徴パ
ラメータを求める。
あり、計算量が距離を求めるベクトルの次元数の2乗に
比例するため、ベクトルの次元数が大きいと計算量が爆
発的に増大する。また共分散の推定のためには膨大な学
習サンプルが必要となる。そこでベクトルの次元数を減
らす必要がある。第1の実施例では特徴パラメータの単
音節全体の時系列パターンを一つのベクトルとして入力
音声と単音節標準パターンの距離を求めたが、第2の実
施例では、これをフレーム毎に分割して扱う。すなわ
ち、P個の特徴パラメータからなるP次元のベクトルをJ
フレーム分並べたものを標準パターンとし、それぞれの
フレームと入力音声の対応するフレームとの距離をベイ
ズ判定に基づく距離によって求め、その和を入力音声と
単音節標準パターンとの距離とする。しかしこのように
フレームを独立に扱うと、特徴パラメータの動的な変化
を捉らえることができなくなる。そこで特徴パラメータ
の時間変化量を動的特徴パラメータとして導入する。本
実施例では、あるフレームの前後2フレーム(計5フレ
ーム)分のp番目の特徴パラメータの回帰係数をそのフ
レームのp番目の動的特徴パラメータとする。動的特徴
パラメータ抽出部7ではフレーム毎にP個の動的特徴パ
ラメータを求める。
【0145】いま、未知入力音声の第iフレームのP個の
特徴パラメータからなるベクトルを、
特徴パラメータからなるベクトルを、
【0146】
【数44】
【0147】また、P個の動的特徴パラメータからなる
ベクトルを、
ベクトルを、
【0148】
【数45】
【0149】とする。単音節標準パターンは第1の実施
例と同様にして、各学習用音声データを非線形に伸縮を
行なってJフレームに正規化し、第n番目の単音節ωnに
対する第jフレームの特徴パラメータの平均値ベクトル
μnjおよび共分散行列Wnj、動的特徴パラメータの平均
値ベクトル
例と同様にして、各学習用音声データを非線形に伸縮を
行なってJフレームに正規化し、第n番目の単音節ωnに
対する第jフレームの特徴パラメータの平均値ベクトル
μnjおよび共分散行列Wnj、動的特徴パラメータの平均
値ベクトル
【0150】
【外1】
【0151】および共分散行列
【0152】
【外2】
【0153】を、j=1〜JまでJフレーム分求め、これら
を標準パターン格納部4に格納しておく。
を標準パターン格納部4に格納しておく。
【0154】このとき入力の第iフレームと単音節ωnの
第jフレームのベイズ判定に基づく距離は(数46)で
表される。
第jフレームのベイズ判定に基づく距離は(数46)で
表される。
【0155】
【数46】
【0156】ここでtは転置行列を表す。単音節ωnに対
する標準パターンの1,2,…,j,…,J番目のフレームと、
入力音声のr(1),r(2),…,r(j),…,r(J)番目のフレーム
がそれぞれ対応するとき、入力音声と単音節ωnとの距
離Lnは
する標準パターンの1,2,…,j,…,J番目のフレームと、
入力音声のr(1),r(2),…,r(j),…,r(J)番目のフレーム
がそれぞれ対応するとき、入力音声と単音節ωnとの距
離Lnは
【0157】
【数47】
【0158】とする。したがって(数46)(数47)
より
より
【0159】
【数48】
【0160】となる。そこで、Lnが最小となるようなr
(j)をDP法により求めればよい。Lnが最小となるとき
の値を第1の実施例と同様に、DP法によって以下のよ
うな漸化式で求める。
(j)をDP法により求めればよい。Lnが最小となるとき
の値を第1の実施例と同様に、DP法によって以下のよ
うな漸化式で求める。
【0161】
【数49】
【0162】ただしmはmsからmeまでの整数でms,m
eの値は第1の実施例と同様である。連続部では(数3
1)であり伸縮させずに照合を行なう。
eの値は第1の実施例と同様である。連続部では(数3
1)であり伸縮させずに照合を行なう。
【0163】入力音声の終端フレームにおける単音節標
準パターンの最終フレームの累積距離g(I,J)が、入力
音声と単音節ωn標準パターンとの距離Lnである。
準パターンの最終フレームの累積距離g(I,J)が、入力
音声と単音節ωn標準パターンとの距離Lnである。
【0164】
【数50】
【0165】これをすべての単音節標準パターンについ
て求める。なお、第2の実施例ではフレーム毎に独立に
距離計算を行なうため、標準パターンのフレーム数は、
単音節毎に異なってもよい。その場合、入力音声と単音
節ωnとの距離Lnは(数47)のかわりに
て求める。なお、第2の実施例ではフレーム毎に独立に
距離計算を行なうため、標準パターンのフレーム数は、
単音節毎に異なってもよい。その場合、入力音声と単音
節ωnとの距離Lnは(数47)のかわりに
【0166】
【数51】
【0167】とする。ここでJnは単音節ωnのフレーム
数である。第2の実施例では、ベイズ判定に基づく距離
を用いているため、従来例に比べ計算量が多い。従来例
および第1の実施例では、音声全体を一つのベクトルと
して共分散行列を共通化したベイズ判定に基づく距離を
用いるため、フレーム数をJ、フレームあたりのパラメ
ータ数をP個とすると、1単音節あたりの積和の計算回
数はJP回である。これはJ=20、P=11とすると220回
になる。一方、ベイズ判定に基づく距離ではベクトルの
次元数をPとすると積和の計算回数はP(P+3)/2
回である。フレームを独立に扱い特徴パラメータベクト
ルと動的特徴パラメータベクトルを使用する場合、1フ
レームあたりの積和の計算回数はP(P+3)/2×2
回となるから、JフレームではJP(P+3)回とな
る。これはJ=20、P=11とすると3080回になる。すなわ
ち、第2の実施例の積和計算量は従来例の14倍になる。
数である。第2の実施例では、ベイズ判定に基づく距離
を用いているため、従来例に比べ計算量が多い。従来例
および第1の実施例では、音声全体を一つのベクトルと
して共分散行列を共通化したベイズ判定に基づく距離を
用いるため、フレーム数をJ、フレームあたりのパラメ
ータ数をP個とすると、1単音節あたりの積和の計算回
数はJP回である。これはJ=20、P=11とすると220回
になる。一方、ベイズ判定に基づく距離ではベクトルの
次元数をPとすると積和の計算回数はP(P+3)/2
回である。フレームを独立に扱い特徴パラメータベクト
ルと動的特徴パラメータベクトルを使用する場合、1フ
レームあたりの積和の計算回数はP(P+3)/2×2
回となるから、JフレームではJP(P+3)回とな
る。これはJ=20、P=11とすると3080回になる。すなわ
ち、第2の実施例の積和計算量は従来例の14倍になる。
【0168】なお、第2の実施例では、照合の距離尺度
としてベイズ判定に基づく二次判別関数で表される統計
的距離尺度を用いたが、共分散行列を共通化したベイズ
判定に基づく一次判別関数で表される統計的距離尺度を
用いることもできる。これにより、従来例に比べ計算量
が二倍程度で従来例よりも高い認識率が得られる。
としてベイズ判定に基づく二次判別関数で表される統計
的距離尺度を用いたが、共分散行列を共通化したベイズ
判定に基づく一次判別関数で表される統計的距離尺度を
用いることもできる。これにより、従来例に比べ計算量
が二倍程度で従来例よりも高い認識率が得られる。
【0169】また、第2の実施例では、入力音声と単音
節標準パターンのフレーム毎に得られる特徴パラメータ
ベクトルと動的特徴パラメータベクトルの照合を行ない
認識したが、特徴パラメータベクトルだけを用いてもよ
い。その場合には認識率はやや落ちるが、計算量が半分
ですむというメリットがある。
節標準パターンのフレーム毎に得られる特徴パラメータ
ベクトルと動的特徴パラメータベクトルの照合を行ない
認識したが、特徴パラメータベクトルだけを用いてもよ
い。その場合には認識率はやや落ちるが、計算量が半分
ですむというメリットがある。
【0170】また、第1の実施例と同様に連続DPマッ
チングを行なうことにより、ワードスポッティングを行
なうことが可能である。ワードスポッティングを行なう
場合、異なる入力区間について比較するため、距離尺度
は事後確率化された距離尺度を用いる必要がある。その
方法は以下のとおりである。
チングを行なうことにより、ワードスポッティングを行
なうことが可能である。ワードスポッティングを行なう
場合、異なる入力区間について比較するため、距離尺度
は事後確率化された距離尺度を用いる必要がある。その
方法は以下のとおりである。
【0171】事後確率化のための周囲情報パターンとし
て、生起し得るすべての入力についての平均値ベクトル
および共分散行列を求めておく必要がある。認識対象と
する全単音節学習用音声データの全音声区間に対して作
成した1フレームの特徴パラメータの平均値ベクトルμ
eおよび共分散行列We、動的特徴パラメータの平均値ベ
クトル
て、生起し得るすべての入力についての平均値ベクトル
および共分散行列を求めておく必要がある。認識対象と
する全単音節学習用音声データの全音声区間に対して作
成した1フレームの特徴パラメータの平均値ベクトルμ
eおよび共分散行列We、動的特徴パラメータの平均値ベ
クトル
【0172】
【外3】
【0173】および共分散行列
【0174】
【外4】
【0175】を求めておき、これらも標準パターンとし
て標準パターン格納部4に格納しておく。ただしノイズ
を含む区間から、発声された音声をスポッティングする
ためには、事後確率化のため周囲情報パターンにノイズ
区間を含めて作成しておく必要がある。
て標準パターン格納部4に格納しておく。ただしノイズ
を含む区間から、発声された音声をスポッティングする
ためには、事後確率化のため周囲情報パターンにノイズ
区間を含めて作成しておく必要がある。
【0176】事後確率化されたベイズ判定に基づく距離
は(数52)で表される。
は(数52)で表される。
【0177】
【数52】
【0178】したがって、入力音声と単音節ωnとの距
離Lnは(数48)のかわりに(数53)を用い、DP
の漸化式は(数49)のかわりに(数54)を用いる。
離Lnは(数48)のかわりに(数53)を用い、DP
の漸化式は(数49)のかわりに(数54)を用いる。
【0179】
【数53】
【0180】
【数54】
【0181】(実施例3)以下、本発明における第3の
実施例について説明する。
実施例について説明する。
【0182】第3の実施例では、学習用単語音声データ
から音節を切りだし、第2の実施例と同様にしてフレー
ム毎の特徴パラメータベクトルと動的特徴パラメータベ
クトルから音節標準パターンを作成し、これらを連結し
て単語標準パターンを作成して、第2の実施例と同様に
してベイズ判定に基づく二次判別関数で表される統計的
距離尺度を用いて照合を行ない単語を認識する方法につ
いて説明する。
から音節を切りだし、第2の実施例と同様にしてフレー
ム毎の特徴パラメータベクトルと動的特徴パラメータベ
クトルから音節標準パターンを作成し、これらを連結し
て単語標準パターンを作成して、第2の実施例と同様に
してベイズ判定に基づく二次判別関数で表される統計的
距離尺度を用いて照合を行ない単語を認識する方法につ
いて説明する。
【0183】第3の実施例について図5、図6を参照し
ながら説明する。図5は第3の実施例の処理の流れを示
すフローチャートである。
ながら説明する。図5は第3の実施例の処理の流れを示
すフローチャートである。
【0184】図5において1は未知入力音声をフレーム
ごとにLPC分析する音響分析部、2は特徴パラメータ
をフレームごとに求める特徴パラメータ抽出部、7は特
徴パラメータの時間変化量を求める動的特徴パラメータ
抽出部、3は入力音声の始終端フレームを検出する音声
区間検出部、8はかな表記単語辞書、9は音節標準パタ
ーンを格納する音節標準パターン格納部、5は入力音声
と各単語標準パターンとの距離を求めるDP照合部、6
はDP照合部5で求めた距離の中で最小(類似度が最
大)の値をもつ標準パターンに対応する音声名を認識結
果とする距離比較部である。
ごとにLPC分析する音響分析部、2は特徴パラメータ
をフレームごとに求める特徴パラメータ抽出部、7は特
徴パラメータの時間変化量を求める動的特徴パラメータ
抽出部、3は入力音声の始終端フレームを検出する音声
区間検出部、8はかな表記単語辞書、9は音節標準パタ
ーンを格納する音節標準パターン格納部、5は入力音声
と各単語標準パターンとの距離を求めるDP照合部、6
はDP照合部5で求めた距離の中で最小(類似度が最
大)の値をもつ標準パターンに対応する音声名を認識結
果とする距離比較部である。
【0185】次にその動作を説明する。音節標準パター
ンはあらかじめ作成して音節標準パターン格納部9に格
納しておく。音節標準パターンの作成方法は後述する。
未知入力音声が入力されると音響分析部1でフレームご
とにLPC分析を行ない、特徴パラメータ抽出部2でP
個の特徴パラメータをフレームごとに求める。特徴パラ
メータは第1の実施例と同様である。そして動的特徴パ
ラメータ抽出部7で特徴パラメータの各次元についてそ
の時間変化量である回帰係数をフレーム毎にP個求め
る。次に音声区間検出部3で入力音声の始終端フレーム
を検出する。次にかな表記単語辞書8に書かれている単
語のかな文字表記にしたがって、音節標準パターン格納
部9に格納されている音節標準パターンを連結し、単語
標準パターンを作成する。DP照合部5で、第2の実施
例と同様に入力音声の特徴パラメータ時系列と、各単語
標準パターンとをDP法により動的に照合を行ない、各
単語標準パターンに対する距離を求める。最後に距離比
較部6で、DP照合部5で求めた各々の標準パターンと
の距離の中で最小(類似度が最大)の値をもつ標準パタ
ーンに対応する音声名を認識結果として選択し、出力す
る。
ンはあらかじめ作成して音節標準パターン格納部9に格
納しておく。音節標準パターンの作成方法は後述する。
未知入力音声が入力されると音響分析部1でフレームご
とにLPC分析を行ない、特徴パラメータ抽出部2でP
個の特徴パラメータをフレームごとに求める。特徴パラ
メータは第1の実施例と同様である。そして動的特徴パ
ラメータ抽出部7で特徴パラメータの各次元についてそ
の時間変化量である回帰係数をフレーム毎にP個求め
る。次に音声区間検出部3で入力音声の始終端フレーム
を検出する。次にかな表記単語辞書8に書かれている単
語のかな文字表記にしたがって、音節標準パターン格納
部9に格納されている音節標準パターンを連結し、単語
標準パターンを作成する。DP照合部5で、第2の実施
例と同様に入力音声の特徴パラメータ時系列と、各単語
標準パターンとをDP法により動的に照合を行ない、各
単語標準パターンに対する距離を求める。最後に距離比
較部6で、DP照合部5で求めた各々の標準パターンと
の距離の中で最小(類似度が最大)の値をもつ標準パタ
ーンに対応する音声名を認識結果として選択し、出力す
る。
【0186】以下、音節標準パターンを作成する方法に
ついて図6(a)を用いて説明する。音韻環境を考慮し
て、音韻バランスが取れた種々の単語セットを多数の人
が発声した音声データを学習用音声データとして用意す
る。学習用音声データにはあらかじめ音節64の始終端
位置と子音の基準フレームを目視によって音素ラベル6
1としてラベル付けを行なっておく。そして各音節の始
端から終端までの音声データを切りだし、音節毎に、第
2の実施例と同様に子音部は基準フレームを中心に連続
に母音部は線形伸縮させて音節標準パターンの特徴パラ
メータ時系列63を作成する。無声摩擦音や、語頭のバ
ズバーなどのようにスペクトルが定常で発声によって伸
縮の激しい音素については、基準フレームを中心とした
連続パターンの時間的に前の部分に母音部と同様の線形
伸縮するパターンを設けてもよい。
ついて図6(a)を用いて説明する。音韻環境を考慮し
て、音韻バランスが取れた種々の単語セットを多数の人
が発声した音声データを学習用音声データとして用意す
る。学習用音声データにはあらかじめ音節64の始終端
位置と子音の基準フレームを目視によって音素ラベル6
1としてラベル付けを行なっておく。そして各音節の始
端から終端までの音声データを切りだし、音節毎に、第
2の実施例と同様に子音部は基準フレームを中心に連続
に母音部は線形伸縮させて音節標準パターンの特徴パラ
メータ時系列63を作成する。無声摩擦音や、語頭のバ
ズバーなどのようにスペクトルが定常で発声によって伸
縮の激しい音素については、基準フレームを中心とした
連続パターンの時間的に前の部分に母音部と同様の線形
伸縮するパターンを設けてもよい。
【0187】入力音声を単語標準パターンとDP法によ
り時間伸縮して照合を行なうときも第2の実施例のよう
に、子音部は伸縮させず連続になるようにしながら単語
の始端から終端まで照合を行なう。DPパスは音節毎に
(数32)で表される範囲に届くようにフレーム毎に変
えてもよいし、音節標準パターンの長さをその音節の平
均継続長の1/2のように音節毎に変えれば伸縮部で一
律にしてもよい。
り時間伸縮して照合を行なうときも第2の実施例のよう
に、子音部は伸縮させず連続になるようにしながら単語
の始端から終端まで照合を行なう。DPパスは音節毎に
(数32)で表される範囲に届くようにフレーム毎に変
えてもよいし、音節標準パターンの長さをその音節の平
均継続長の1/2のように音節毎に変えれば伸縮部で一
律にしてもよい。
【0188】なお、第3の実施例では音節単位に認識を
するが、CV(子音+母音)、VC(母音+子音)、V
CV(母音+子音+母音)又はCVC(子音+母音+子
音)などの音声片を単位としてもよい。その場合も子音
部は基準フレームを中心として連続に照合を行なう。図
6(b)は認識の単位をCV・VCとしたときの切り出
し方の例である。
するが、CV(子音+母音)、VC(母音+子音)、V
CV(母音+子音+母音)又はCVC(子音+母音+子
音)などの音声片を単位としてもよい。その場合も子音
部は基準フレームを中心として連続に照合を行なう。図
6(b)は認識の単位をCV・VCとしたときの切り出
し方の例である。
【0189】また、第3の実施例では、照合の距離尺度
としてベイズ判定に基づく二次判別関数で表される統計
的距離尺度を用いたが、共分散行列を共通化したベイズ
判定に基づく一次判別関数で表される統計的距離尺度を
用いることもできる。これにより、少ない計算量で認識
対象語彙の変更が容易な音声認識方法を実現することが
できる。
としてベイズ判定に基づく二次判別関数で表される統計
的距離尺度を用いたが、共分散行列を共通化したベイズ
判定に基づく一次判別関数で表される統計的距離尺度を
用いることもできる。これにより、少ない計算量で認識
対象語彙の変更が容易な音声認識方法を実現することが
できる。
【0190】また、第3の実施例では、入力音声と単音
節標準パターンのフレーム毎に得られる特徴パラメータ
ベクトルと動的特徴パラメータベクトルの照合を行ない
認識したが、特徴パラメータベクトルだけを用いてもよ
い。その場合には認識率はやや落ちるが、計算量が半分
ですむというメリットがある。
節標準パターンのフレーム毎に得られる特徴パラメータ
ベクトルと動的特徴パラメータベクトルの照合を行ない
認識したが、特徴パラメータベクトルだけを用いてもよ
い。その場合には認識率はやや落ちるが、計算量が半分
ですむというメリットがある。
【0191】また、連続DPマッチングを行なうことに
よって、第1、第2の実施例と同様にして、ワードスポ
ッティングを行なうことも可能である。
よって、第1、第2の実施例と同様にして、ワードスポ
ッティングを行なうことも可能である。
【0192】第1、第2、第3の実施例の効果を確認す
るため、男女計150名が発声した110単音節音声お
よび地名100単語音声を用いて認識実験を行なった。
このうち100名(男女各50名)のデータを用いて音
声標準パターンを作成し、残りの50名のデータを評価
した。
るため、男女計150名が発声した110単音節音声お
よび地名100単語音声を用いて認識実験を行なった。
このうち100名(男女各50名)のデータを用いて音
声標準パターンを作成し、残りの50名のデータを評価
した。
【0193】(表1)に評価条件を示す。(表2)に従
来例による110単音節認識率および地名100単語認識率、
第1の実施例による110単音節認識率、第2の実施例に
よる110単音節認識率、第3の実施例による地名100単語
認識率を示す。
来例による110単音節認識率および地名100単語認識率、
第1の実施例による110単音節認識率、第2の実施例に
よる110単音節認識率、第3の実施例による地名100単語
認識率を示す。
【0194】
【表1】
【0195】
【表2】
【0196】(表2)において計算量は、標準パターン
のフレーム数Jを20、フレーム毎の特徴パラメータの個
数Pを11とした場合の、入力音声と標準パターンの距離
を求める際の積和の演算回数で従来例による方法を1と
したときの比を表している。第3の実施例による方法で
は、地名100単語に出現する音節の総フレーム数分だけ
距離計算を行なえばよいので計算量はそれほど増大しな
い。
のフレーム数Jを20、フレーム毎の特徴パラメータの個
数Pを11とした場合の、入力音声と標準パターンの距離
を求める際の積和の演算回数で従来例による方法を1と
したときの比を表している。第3の実施例による方法で
は、地名100単語に出現する音節の総フレーム数分だけ
距離計算を行なえばよいので計算量はそれほど増大しな
い。
【0197】このように第1の実施例による方法では、
単音節認識率が従来法の47.2%に比べ68.0%
と、計算量や推定パラメータ数を増大させることなく認
識率を向上させることができる。
単音節認識率が従来法の47.2%に比べ68.0%
と、計算量や推定パラメータ数を増大させることなく認
識率を向上させることができる。
【0198】また第2の実施例による方法では、単音節
認識率が第1の実施例による方法に比べ75.4%と、
さらに大きく認識率を向上させることができる。
認識率が第1の実施例による方法に比べ75.4%と、
さらに大きく認識率を向上させることができる。
【0199】また従来法では認識対象語彙の変更が困難
であったが、第3の実施例による方法では、かな表記か
ら単語標準パターンが作成できるため認識対象語彙の変
更が容易になり、認識率の面でも単語認識率が従来法の
97.3%から98.9%に向上した。
であったが、第3の実施例による方法では、かな表記か
ら単語標準パターンが作成できるため認識対象語彙の変
更が容易になり、認識率の面でも単語認識率が従来法の
97.3%から98.9%に向上した。
【0200】本実施例はいずれも、ワードスポッティン
グが可能な方法でありワードスポッティングを導入する
ことによって、騒音に対して頑強な、実用性の高い認識
装置が実現できる。
グが可能な方法でありワードスポッティングを導入する
ことによって、騒音に対して頑強な、実用性の高い認識
装置が実現できる。
【0201】
【発明の効果】本発明は第一に、子音部は基準フレーム
を中心に連続にフレームをとり、母音部は線形伸縮させ
て標準パターンを作成し、認識時には子音部は伸縮させ
ずに照合を行ない、母音部はフレームを伸縮させて照合
を行なうことによって、子音部の局所的なスペクトルの
時間的変化の特徴と母音部の大局的なスペクトルの特徴
を発声速度に影響されずに適切にとらえることができる
ようになるため、認識性能の高い音声認識方法を実現す
ることができる。入力音声と標準パターンの照合に、音
声全体を一つのベクトルとしてフレーム間相関を考慮し
た一次判別関数で表される統計的距離尺度を用いること
により、計算量および標準パターンの推定パラメータ数
を増大させることなく、認識率を向上させることができ
る。また、計算量は2倍になるがフレームを独立に扱
い、そのかわりに特徴パラメータの時間変化量である動
的特徴パラメータを併用し一次判別関数で表される統計
的距離尺度を用いることによっても、認識率を向上させ
ることができる。
を中心に連続にフレームをとり、母音部は線形伸縮させ
て標準パターンを作成し、認識時には子音部は伸縮させ
ずに照合を行ない、母音部はフレームを伸縮させて照合
を行なうことによって、子音部の局所的なスペクトルの
時間的変化の特徴と母音部の大局的なスペクトルの特徴
を発声速度に影響されずに適切にとらえることができる
ようになるため、認識性能の高い音声認識方法を実現す
ることができる。入力音声と標準パターンの照合に、音
声全体を一つのベクトルとしてフレーム間相関を考慮し
た一次判別関数で表される統計的距離尺度を用いること
により、計算量および標準パターンの推定パラメータ数
を増大させることなく、認識率を向上させることができ
る。また、計算量は2倍になるがフレームを独立に扱
い、そのかわりに特徴パラメータの時間変化量である動
的特徴パラメータを併用し一次判別関数で表される統計
的距離尺度を用いることによっても、認識率を向上させ
ることができる。
【0202】本発明は第2に、さらに、時間パターンを
フレーム毎に独立のベクトルとして扱い、二次判別関数
で表される統計的距離尺度を用いることにより、さらに
音声認識性能を向上させることができる。また特徴パラ
メータの時間変化量である動的特徴パラメータを併用す
るとさらに、音声認識性能を向上させることができる。
フレーム毎に独立のベクトルとして扱い、二次判別関数
で表される統計的距離尺度を用いることにより、さらに
音声認識性能を向上させることができる。また特徴パラ
メータの時間変化量である動的特徴パラメータを併用す
るとさらに、音声認識性能を向上させることができる。
【0203】本発明は第三に、さらに、音節やCV(子
音+母音)、VC(母音+子音)、VCV(母音+子音
+母音)又はCVC(子音+母音+子音)などの音声片
を組合わせることにより、認識対象語彙の変更が容易で
高精度な音声認識方法を実現することができる。
音+母音)、VC(母音+子音)、VCV(母音+子音
+母音)又はCVC(子音+母音+子音)などの音声片
を組合わせることにより、認識対象語彙の変更が容易で
高精度な音声認識方法を実現することができる。
【0204】また、ワードスポッティング機能を導入す
ることによって、騒音に対して頑強な、実用性の高い認
識装置が実現できる。
ることによって、騒音に対して頑強な、実用性の高い認
識装置が実現できる。
【0205】このように本発明は実用上有効な方法であ
り、その効果は大きい。
り、その効果は大きい。
【図1】本発明の第1の実施例の処理の流れを示すフロ
ーチャート
ーチャート
【図2】同第1の実施例において標準パターンの作成方
法を説明する概念図
法を説明する概念図
【図3】同第1の実施例におけるDPパスを示す図
【図4】同第2の実施例の処理の流れを示すフローチャ
ート
ート
【図5】同第3の実施例の処理の流れを示すフローチャ
ート
ート
【図6】同第3の実施例において標準パターンの作成方
法を説明する概念図
法を説明する概念図
【図7】従来例の処理の流れを示すフローチャート
【図8】従来例において標準パターンの作成方法を説明
する概念図
する概念図
1 音響分析部 2 特徴パラメータ抽出部 3 音声区間検出部 4 標準パターン格納部 5 DP照合部 6 距離比較部 7 動的特徴パラメータ抽出部 8 かな表記単語辞書 9 音節標準パターン格納部 10 時間軸線形正規化部 11 距離計算部
───────────────────────────────────────────────────── フロントページの続き (72)発明者 二矢田 勝行 神奈川県川崎市多摩区東三田3丁目10番1 号 松下技研株式会社内
Claims (12)
- 【請求項1】 入力音声に対してフレームごとにP個
(Pは正の整数)の特徴パラメータを抽出し、前記入力
音声とあらかじめ作成した単語音声標準パターンとを、
統計的距離尺度を用いて、子音部は伸縮させず母音部は
伸縮することにより時間整合して照合し、入力音声と各
単語音声標準パターンの類似度を求め、前記類似度が最
大となる単語音声標準パターンに対応する単語音声名を
認識結果とすることを特徴とする音声認識方法。 - 【請求項2】 単語音声標準パターンが、認識対象とす
るN種(Nは正の整数)の単語音声の各々に属する学習
用単語音声データの始端から終端までの間を、子音部は
基準フレームを中心に連続にとり母音部は各々のデータ
の母音区間を線形に伸縮することにより単語全体をJフ
レーム(Jは正の整数)に非線形に伸縮し、各フレーム
ごとにP個(Pは正の整数)の特徴パラメータを抽出し
て時間的順序に並べて得られるP×J次元のベクトルを
用いて作成したものである請求項1記載の音声認識方
法。 - 【請求項3】 単語音声標準パターンが、認識対象とす
るN種(Nは正の整数)の単語音声の各々に属する学習
用単語音声データの始端から終端までの間を、子音部は
基準フレームを中心に連続にとり母音部は各々のデータ
の母音区間を線形に伸縮することにより単語全体をJフ
レーム(Jは正の整数)に非線形に伸縮し、各フレーム
ごとにP個(Pは正の整数)の特徴パラメータを抽出し
て時間的順序に並べて得られるJ個のP次元のベクトル
を用いて作成したものである請求項1記載の音声認識方
法。 - 【請求項4】 入力音声に対しフレームごとにP個(P
は正の整数)の特徴パラメータとその時間変化量である
P個の動的特徴パラメータを抽出し、入力音声区間とあ
らかじめ作成した単語音声標準パターンとを、統計的距
離尺度を用いて、子音部は伸縮させず母音部は伸縮する
ことにより時間整合して照合し、入力音声と各単語音声
標準パターンの類似度を求め、前記類似度が最大となる
単語音声標準パターンに対応する単語名を認識結果とす
ることを特徴とする音声認識方法。 - 【請求項5】 単語音声標準パターンが、認識対象とす
るN種(Nは正の整数)の単語音声の各々に属する学習
用単語音声データの始端から終端までの間を、子音部は
基準フレームを中心に連続にとり母音部は各々のデータ
の母音区間を線形に伸縮することにより単語全体をJフ
レーム(Jは正の整数)に非線形に伸縮し、各フレーム
ごとにP個(Pは正の整数)の特徴パラメータを抽出
し、さらにフレームごとに各特徴パラメータの時間変化
量である動的特徴パラメータをP個求め、特徴パラメー
タを時間的順序に並べて得られるJ個のP次元のベクト
ルと動的特徴パラメータを時間的順序に並べて得られる
J個のP次元のベクトルを用いて作成したものである請
求項4記載の音声認識方法。 - 【請求項6】 単語音声標準パターンが、音韻環境を考
慮したM種(Mは正の整数)の単語セットの学習用音声
データを、音節、(子音+母音)、(母音+子音)、
(母音+子音+母音)又は(子音+母音+子音)などの
音声片単位に切り分け、音声片ごとに、各々に属する学
習用音声片データの始端から終端までの間を、子音部は
基準フレームを中心に連続にとり母音部は各々のデータ
の母音区間を線形に伸縮することにより音声片全体をJ
フレーム(Jは正の整数)に非線形に伸縮し、各フレー
ムごとにP個(Pは正の整数)の特徴パラメータを抽出
し、特徴パラメータを時間的順序に並べて得られるJ個
のP次元のベクトルを用いて音声片音声標準パターンを
作成し、前記音声片音声標準パターンを認識対象とする
N種(Nは正の整数)の単語の各々の音声片表記列にし
たがって接続することにより作成したものである請求項
1記載の音声認識方法。 - 【請求項7】 単語音声標準パターンが、音韻環境を考
慮したM種(Mは正の整数)の単語セットの学習用音声
データを、音節、(子音+母音)、(母音+子音)、
(母音+子音+母音)、又は(子音+母音+子音)など
の音声片単位に切り分け、音声片ごとに、各々に属する
学習用音声片データの始端から終端までの間を、子音部
は基準フレームを中心に連続にとり母音部は各々のデー
タの母音区間を線形に伸縮することにより音声片全体を
Jフレーム(Jは正の整数)に非線形に伸縮し、各フレ
ームごとにP個(Pは正の整数)の特徴パラメータを抽
出し、さらにフレームごとに各特徴パラメータの時間変
化量である動的特徴パラメータをP個求め、特徴パラメ
ータを時間的順序に並べて得られるJ個のP次元のベク
トルと動的特徴パラメータを時間的順序に並べて得られ
るJ個のP次元のベクトルを用いて音声片音声標準パタ
ーンを作成し、前記音声片音声標準パターンを認識対象
とするN種(Nは正の整数)の単語の各々の音声片表記
列にしたがって接続することにより単語音声標準パター
ンを作成したものである請求項4記載の音声認識方法。 - 【請求項8】 統計的距離尺度が、共分散行列を共通化
したベイズ判定に基づく距離などの一次判別関数で表さ
れることを特徴とする請求項1、2、4、5又は7記載
の音声認識方法。 - 【請求項9】 統計的距離尺度が、ベイズ判定に基づく
距離やマハラノビス距離などの二次判別関数で表される
ことを特徴とする請求項3ないし7のいずれか記載の音
声認識方法。 - 【請求項10】 日本語の単音節を認識対象とすること
を特徴とする請求項1ないし9のいずれか記載の音声認
識方法。 - 【請求項11】 母音部は動的計画法(DP法)より時
間整合して照合することを特徴とする請求項1ないし1
0のいずれか記載の音声認識方法。 - 【請求項12】 事後確率を基本とした統計的距離尺度
を用いて連続DPマッチングを行なうことにより、未知
入力音声の音声区間検出をせず、ノイズを含む十分に長
い区間から音声の部分を抽出して認識するワードスポッ
ティング機能を持つことを特徴とする請求項1ないし1
1のいずれか記載の音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07226173A JP3129164B2 (ja) | 1995-09-04 | 1995-09-04 | 音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP07226173A JP3129164B2 (ja) | 1995-09-04 | 1995-09-04 | 音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0968995A true JPH0968995A (ja) | 1997-03-11 |
JP3129164B2 JP3129164B2 (ja) | 2001-01-29 |
Family
ID=16841032
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP07226173A Expired - Fee Related JP3129164B2 (ja) | 1995-09-04 | 1995-09-04 | 音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3129164B2 (ja) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6213443B1 (en) | 1998-05-07 | 2001-04-10 | Canon Kabushiki Kaisha | Anti-vibration apparatus and exposure apparatus using the same |
US6823304B2 (en) | 2000-12-20 | 2004-11-23 | Renesas Technology Corp. | Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant |
JP2009151305A (ja) * | 2007-12-20 | 2009-07-09 | Toshiba Corp | 話認認証の検証のための方法および装置、話者認証システム |
KR101250565B1 (ko) * | 2010-12-22 | 2013-04-03 | 재단법인 포항산업과학연구원 | 고로수재슬래그 골재를 이용한 콘크리트 또는 모르타르용 골재 조성물 및 이의 제조방법 |
WO2016036163A3 (ko) * | 2014-09-03 | 2016-04-21 | 삼성전자 주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR101502302B1 (ko) * | 2013-11-02 | 2015-03-12 | 김상규 | 위생 변기용 변기좌대 |
-
1995
- 1995-09-04 JP JP07226173A patent/JP3129164B2/ja not_active Expired - Fee Related
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6213443B1 (en) | 1998-05-07 | 2001-04-10 | Canon Kabushiki Kaisha | Anti-vibration apparatus and exposure apparatus using the same |
US6823304B2 (en) | 2000-12-20 | 2004-11-23 | Renesas Technology Corp. | Speech recognition apparatus and method performing speech recognition with feature parameter preceding lead voiced sound as feature parameter of lead consonant |
JP2009151305A (ja) * | 2007-12-20 | 2009-07-09 | Toshiba Corp | 話認認証の検証のための方法および装置、話者認証システム |
KR101250565B1 (ko) * | 2010-12-22 | 2013-04-03 | 재단법인 포항산업과학연구원 | 고로수재슬래그 골재를 이용한 콘크리트 또는 모르타르용 골재 조성물 및 이의 제조방법 |
WO2016036163A3 (ko) * | 2014-09-03 | 2016-04-21 | 삼성전자 주식회사 | 오디오 신호를 학습하고 인식하는 방법 및 장치 |
Also Published As
Publication number | Publication date |
---|---|
JP3129164B2 (ja) | 2001-01-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108198547B (zh) | 语音端点检测方法、装置、计算机设备和存储介质 | |
Morgan et al. | Pushing the envelope-aside [speech recognition] | |
US6553342B1 (en) | Tone based speech recognition | |
EP1647970A1 (en) | Hidden conditional random field models for phonetic classification and speech recognition | |
Schuller et al. | Static and dynamic modelling for the recognition of non-verbal vocalisations in conversational speech | |
Nasereddin et al. | Classification techniques for automatic speech recognition (ASR) algorithms used with real time speech translation | |
Ananthi et al. | SVM and HMM modeling techniques for speech recognition using LPCC and MFCC features | |
Saleem et al. | Forensic speaker recognition: A new method based on extracting accent and language information from short utterances | |
Ranjan et al. | Isolated word recognition using HMM for Maithili dialect | |
Nivetha | A survey on speech feature extraction and classification techniques | |
Kurian | A survey on speech recognition in Indian languages | |
JP3129164B2 (ja) | 音声認識方法 | |
Unnibhavi et al. | LPC based speech recognition for Kannada vowels | |
Manjunath et al. | Automatic phonetic transcription for read, extempore and conversation speech for an Indian language: Bengali | |
Mubassıra et al. | Implementation of recurrent neural network with language model for automatic articulation identification system in bangla | |
JP5300000B2 (ja) | 調音特徴抽出装置、調音特徴抽出方法、及び調音特徴抽出プログラム | |
Burget | Complementarity of speech recognition systems and system combination | |
Hassine et al. | Hybrid techniques for Arabic Letter recognition | |
Athiyaa et al. | Spoken language identification system using MFCC features and Gaussian Mixture Model for Tamil and Telugu Languages | |
Tailor et al. | Review on Speech Recognition System for Indian Languages | |
Parris et al. | Language identification using multiple knowledge sources | |
Correia et al. | Anti-spoofing: Speaker verification vs. voice conversion | |
Holmes | Modelling segmental variability for automatic speech recognition | |
Deekshitha et al. | Segmentation of continuous speech for broad phonetic engine | |
JP2574557B2 (ja) | 音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |