JP2008107408A

JP2008107408A - 音声認識装置

Info

Publication number: JP2008107408A
Application number: JP2006287803A
Authority: JP
Inventors: Jun Ishii; 純石井
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2006-10-23
Filing date: 2006-10-23
Publication date: 2008-05-08
Anticipated expiration: 2026-10-23
Also published as: JP4749990B2

Abstract

【課題】騒音が大きい場合や周波数特性が異なる場合でも、高い音声認識率を保持することができる音声認識装置を得ることを目的とする。
【解決手段】音声認識装置の使用環境を表す指標として、音声信号のＳＮＲを計算するＳＮＲ計算部８と、ＳＮＲ計算部８により計算されたＳＮＲに応じて音響スコアと継続時間長スコアの重み係数αを計算する重み係数計算部９とを設ける。これにより、騒音が大きい場合でも高い音声認識率を保持することができる。
【選択図】図１

Description

この発明は、人間から発声された音声を認識して、その発声内容を出力する音声認識装置に関するものであり、特に音響スコアと音声片単位の継続時間長スコアを用いて音声を認識する音声認識装置に関するものである。

音声認識装置は、ユーザである人間から発声された音声の内容を認識する機械であり、例えば、音声による機器操作や電話の自動応答システムなどに実用されている。
従来の音声認識装置の構成は、例えば、以下の非特許文献１，２に詳細に開示されているが、音声を認識する際に用いる音響スコアと継続時間長スコアの寄与度は、予め定められた比率としている。

「確率モデルによる音声認識」中川聖一著、１９８８年、コロナ社出版「デジタル音声処理」古井貞煕著、１９８５年、東海大学出版

従来の音声認識装置は以上のように構成されているので、音声を認識する際に用いる音響スコアと継続時間長スコアの寄与度が適正であれば、精度よく音声を認識することができる。しかし、入力音声に周囲騒音が混入すると音響スコアが低下するため、音響スコアと継続時間長スコアの寄与度のバランスが悪くなり、音声の認識率が低下することがある課題があった。
また、マイクやＡ／Ｄ変換器の周波数特性が、音響標準パタンを作成する際に使用された音声信号の周波数特性と異なる場合には音響スコアが低下するため、音響スコアと継続時間長スコアの寄与度のバランスが悪くなり、音声の認識率が低下することがある課題があった。

この発明は上記のような課題を解決するためになされたもので、騒音が大きい場合や周波数特性が異なる場合でも、高い音声認識率を保持することができる音声認識装置を得ることを目的とする。

この発明に係る音声認識装置は、使用環境に適する音響スコアと継続時間長スコアの重み係数を算出する重み係数算出手段を設け、照合手段が重み係数算出手段により算出された重み係数と標準パタン作成手段により作成された標準パタンを用いて、音響分析手段により抽出された音声区間の音響特徴量と単語辞書に格納されている各単語を照合し、各単語の照合スコアを算出するようにしたものである。

この発明によれば、使用環境に適する音響スコアと継続時間長スコアの重み係数を算出する重み係数算出手段を設け、照合手段が重み係数算出手段により算出された重み係数と標準パタン作成手段により作成された標準パタンを用いて、音響分析手段により抽出された音声区間の音響特徴量と単語辞書に格納されている各単語を照合し、各単語の照合スコアを算出するように構成したので、騒音が大きい場合や周波数特性が異なる場合でも、高い音声認識率を保持することができる効果がある。

実施の形態１．
図１はこの発明の実施の形態１による音声認識装置を示す構成図であり、図において、音声区間検出部１はユーザから発声された音声を含む音声信号（入力信号）を入力すると、その音声信号の中に含まれている音声を検出して、その音声信号における音声区間（音声が含まれている区間）を検出する処理を実施する。なお、音声区間検出部１は音声区間検出手段を構成している。
音響分析部２は入力した音声信号のうち、音声区間検出部１により検出された音声区間の音声信号に対する音響分析を実施して、その音声区間の音響特徴量を抽出する処理を実施する。なお、音響分析部２は音響分析手段を構成している。

単語辞書３は音声認識対象の単語のテキスト表記［Ｗ（１），Ｗ（２），・・・，Ｗ（Ｎ）］（括弧内は単語番号、Ｎは総単語数）を格納している。
継続時間長標準パタン格納部４は短い音声片単位の継続時間長の標準パタンである継続時間長標準パタンを格納しているメモリである。
「継続時間長標準パタン」は、照合処理部１０が後述する照合処理を実施したとき、音声片単位の継続時間の妥当性が高い場合には、高い照合スコアを出力させる標準パタンである。
また、「音声片」は、例えば、音節や音素であり、音響標準パタンにＨＭＭ（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）を用いる場合には１状態の単位の音声である。
音響標準パタン格納部５は音声片単位の音響標準パタンを格納しているメモリである。

単語継続時間長標準パタン作成部６は継続時間長標準パタン格納部４に格納されている継続時間長標準パタンを参照して、単語辞書３に格納されている各単語に対応する単語継続時間長標準パタンを作成する処理を実施する。
単語音響標準パタン作成部７は音響標準パタン格納部５に格納されている音響標準パタンを参照して、単語辞書３に格納されている各単語に対応する単語音響標準パタンを作成する処理を実施する。
なお、継続時間長標準パタン格納部４、音響標準パタン格納部５、単語継続時間長標準パタン作成部６及び単語音響標準パタン作成部７から標準パタン作成手段が構成されている。

ＳＮＲ計算部８は音声認識装置の使用環境を表す指標として、音声信号のＳＮＲ（ＳｉｇｎａｌｔｏＮｏｉｓｅＲａｔｉｏ：信号対雑音比）を計算する処理を実施する。
重み係数計算部９はＳＮＲ計算部８により計算されたＳＮＲに応じて音響スコアと継続時間長スコアの重み係数αを計算する処理を実施する。
なお、ＳＮＲ計算部８及び重み係数計算部９から重み係数算出手段が構成されている。

照合処理部１０は重み係数計算部９により計算された重み係数αと、単語継続時間長標準パタン作成部６により作成された単語継続時間長標準パタン及び単語音響標準パタン作成部７により作成された単語音響標準パタンとを用いて、音響分析部２により抽出された音声区間の音響特徴量と単語辞書３に格納されている各単語を照合し、各単語の照合スコアを算出する処理を実施する。なお、照合処理部１０は照合手段を構成している。
認識結果出力部１１は照合処理部１０により算出された照合スコアが高い上位数個の単語を音声認識結果として出力する処理を実施する。なお、認識結果出力部１１は認識結果出力手段を構成している。

図１では、音声認識装置の構成要素である音声区間検出部１、音響分析部２、単語継続時間長標準パタン作成部６、単語音響標準パタン作成部７、ＳＮＲ計算部８、重み係数計算部９、照合処理部１０及び認識結果出力部１１が専用のハードウェア（例えば、ＭＰＵなどを実装している半導体集積回路基板）で構成されていることを想定しているが、音声区間検出部１、音響分析部２、単語継続時間長標準パタン作成部６、単語音響標準パタン作成部７、ＳＮＲ計算部８、重み係数計算部９、照合処理部１０及び認識結果出力部１１の処理内容を記述している音声認識プログラムを音声認識装置のメモリに格納し、音声認識装置のＣＰＵが当該メモリに格納されている音声認識プログラムを実行するようにしてもよい。
図２はこの発明の実施の形態１による音声認識装置の処理内容を示すフローチャートである。

次に動作について説明する。
音声区間検出部１は、ユーザから発声された音声を含む音声信号を入力すると（ステップＳＴ１）、その音声信号の中に含まれている音声を検出して、その音声信号における音声区間（音声が含まれている区間）を検出する（ステップＳＴ２）。
ここで、音声信号は、ユーザから発声された音声を含む信号がデジタル化されたものである。
音声信号のデジタル化には、例えば、サンプリング周波数が１６ＫＨｚ、量子化ビット数が１６ビットのＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）符号化が用いられる。
なお、音声区間検出部１における音声区間の検出処理は、例えば、非特許文献２の８．２節に開示されている方法を利用すればよいので、詳細な処理内容は省略する。

ＳＮＲ計算部８は、音声区間検出部１が音声信号における音声区間を検出すると、音声認識装置の使用環境を表す指標として、音声信号のＳＮＲを計算する（ステップＳＴ３）。
ここで、ＳＮＲは、音声のパワーと、周囲の騒音のパワーとのパワー比である。ＳＮＲが高い場合には、相対的に音声パワーが大きく品質の良い音声であると言える。一方、ＳＮＲが低い場合には、相対的に騒音パワーが大きく品質の悪い音声と言える。

具体的には、下記の式（１）を用いて、音声信号のＳＮＲを計算する。

ただし、Ｓｉｇは音声区間の平均パワー、Ｎｏｉは非音声区間（音声区間以外の区間）の平均パワーである。

ＳＮＲ計算部８は、音声区間の開始フレームをＴｓ、終了フレームをＴｅとして、下記の式（２）を用いて、音声区間の平均パワーＳｉｇを計算する。

ただし、ｘ_t（ｍ）はフレームｔのサンプル番号ｍの信号の値であり、Ｆは１フレーム当りのサンプル数である。

また、ＳＮＲ計算部８は、上述したように、Ｎｏｉは非音声区間の平均パワーであるので、下記の式（３）に示すように、例えば、音声区間の開始フレームＴｓのＫフレーム前から１フレーム前までの区間で計算している。

重み係数計算部９は、ＳＮＲ計算部８がＳＮＲを計算すると、そのＳＮＲに応じて音響スコアと継続時間長スコアの重み係数αを計算する（ステップＳＴ４）。
以下、重み係数αの計算方法について説明する。
まず、音響スコアと継続時間長スコアを用いる音声の認識処理においては、認識対象単語ｉ（ｉは単語番号）を仮定する場合のスコアＬ_iは、下記の式（４）で表される。
Ｌ_i＝Ａ_i＋Ｄ_i （４）
ただし、Ａ_iは単語ｉを仮定する場合の音響スコア、Ｄ_iは単語ｉを仮定する場合の継続時間長スコアである。

音響スコアＡ_iは、後述する単語音響標準パタン作成部７により作成される単語音響標準パタンと、音響分析部２により抽出される音響特徴量との音響的な類似度を表すものである。主に、スペクトル情報の類似度によってスコアが計算される。
また、継続時間長スコアＤ_iは、単語ｉを構成する音声片（音素、音節、ＨＭＭの状態など）毎の継続時間を求め、後述する単語継続時間長標準パタン作成部６により作成される単語継続時間長標準パタンを用いて計算する継続時間長の妥当性を表すスコアである。

重み係数計算部９が上記の式（４）によってスコアＬ_iを計算するとき、周囲に騒音が存在する場合には、周囲騒音が音声信号に混入し、騒音が無い場合と比べて音響スコアＡ_iが低い値になる。
その理由は、音響標準パタン格納部５に格納されている音響標準パタン（照合処理部１０が照合に用いる音響標準パタン）が、周囲に騒音が無い状況で発声した音声から作成されているので、騒音が混入している音声信号と不整合が生じるからである。
一方、継続時間長スコアＤ_iは、周囲の騒音の影響によってスコアが低下することが無い。
したがって、音響スコアと継続時間長スコアの重み係数αが従来のように固定値であるとすると、周囲に騒音が存在する場合は、音響スコアＡ_iの低下に伴ってスコアＬ_iに占める音響スコアＡ_iの比率が低くなり、誤認識を引き起こす可能性が高くなる。

そこで、重み係数計算部９は、周囲に騒音が存在する場合の誤認識を防止するため、ＳＮＲ計算部８により計算されたＳＮＲに応じて音響スコアと継続時間長スコアの重み係数αを変更するようにしている。
即ち、重み係数計算部９は、下記の式（５）に示すように、周囲の騒音が大きくなり、ＳＮＲが悪くなるほど、重み係数αを小さな値に設定する。
これにより、騒音の影響で音響スコアＡ_iが低下しても、継続時間長スコアとの寄与度のバランスを適正に保つことが可能になり、誤認識を減らすことができる。
α＝ｙ＋ＳＮＲ×ｚ（５）
ただし、ｙは定数、ｚは正の定数である。

ここでは、重み係数計算部９が、ＳＮＲが悪くなるほど、重み係数αを小さな値に設定するものについて示したが、ＳＮＲが予め定められた値以上の場合や、騒音パワーＮｏｉが予め定められた値以下の静かな環境の場合、重み係数αを固定値にしてもよい。
また、重み係数αの上限値と下限値を予め設定して、重み係数αの変動範囲を制限してもよい。

以上の説明においては、音響標準パタン格納部５に格納されている音響標準パタン（照合処理部１０が照合に用いる音響標準パタン）が、周囲に騒音が無い状況で発声した音声から作成されているものとして説明したが、周囲に騒音が有る状況で作成されて、騒音が音響標準パタンに混入している場合でも実現可能である。
この場合、音響標準パタン格納部５に格納されている音響標準パタンを作成したときのＳＮＲと、ＳＮＲ計算部８により計算されたＳＮＲとの差が大きくなると、不整合により音響スコアＡ_iが低下する。
したがって、音響標準パタン格納部５に格納されている音響標準パタンを作成したときのＳＮＲと、ＳＮＲ計算部８により計算されたＳＮＲとの差が小さい場合には、音響スコアＡ_iと継続時間長スコアＤ_iの重み係数αを大きな値に設定する。
一方、音響標準パタン格納部５に格納されている音響標準パタンを作成したときのＳＮＲと、ＳＮＲ計算部８により計算されたＳＮＲとの差が大きい場合には、音響スコアＡ_iと継続時間長スコアＤ_iの重み係数αを小さな値に設定する。
これにより、音響スコアＡ_iと継続時間長スコアＤ_iの比率のバランスが適正に保たれて認識率が向上する。

次に、音響分析部２は、音声信号を入力し、音声区間検出部１が音声区間を検出すると、音声区間の音声信号に対する音響分析を実施して、その音声区間の音響特徴量を抽出する（ステップＳＴ５）。
音響特徴量は、音声信号を５ミリ秒〜２０ミリ秒程度の一定時間間隔のフレームで切り出し、そのフレームに対する音響分析を実施して得られる音響特徴量ベクトルの時系列Ｏ＝［ｏ（１），ｏ（２），・・・，ｏ（Ｔ）］（Ｔは総フレーム数）である。
なお、音響特徴量は、少ない情報量で音声の特徴を表現することができるものであり、例えば、ケプストラムの１次から１２次元、ケプストラムの１次から１２次元の動的特徴及び対数パワーの動的特徴の物理量で構成する特徴量ベクトルである。

次に、単語継続時間長標準パタン作成部６は、継続時間長標準パタン格納部４に格納されている継続時間長標準パタンを参照して、単語辞書３に格納されている各単語に対応する単語継続時間長標準パタンを作成する（ステップＳＴ６）。
単語辞書３には、音声認識の対象となる単語のテキスト表記［Ｗ（１），Ｗ（２），・・・，Ｗ（Ｎ）］（括弧内は単語番号、Ｎは総単語数）が格納されている。
例えば、認識対象が地名の場合には、Ｗ（１）が「よこはま」、Ｗ（２）が「かまくら」、Ｗ（３）が「ふじさわ」・・・として、単語辞書３に格納されている。

継続時間長標準パタン格納部４に格納されている継続時間長標準パタンは、短い音声片単位の継続時間長の標準パタンである。
後述する照合処理部１０が照合処理を実施したとき、音声片単位の継続時間の妥当性が高い場合には、高いスコアを出力する標準パタンである。
ここで、音声片は、例えば、音節や音素であり、音響標準パタンにＨＭＭを用いる場合には１状態の単位の音声である。

以下、音声片単位をＨＭＭの１状態とする場合の継続時間長標準パタン［ψ（１），ψ（２），・・・，ψ（Ｍ）］（括弧内は状態番号、Ｍは総状態数）を用いて、単語継続時間長標準パタン［Ψ（１），Ψ（２），・・・，Ψ（Ｎ）］（括弧内は単語番号、Ｎは総単語数）を作成する方法について説明する。
状態ｓ（ｎ）（ｎは状態番号）の継続時間長標準パタンψ（ｎ）は、照合処理を実施したとき、状態ｓ（ｎ）に連続して割り当てられるフレーム数を継続時間長として、その妥当性をスコアとして出力する。
状態ｓ（ｎ）において、τフレーム連続した場合の継続時間長スコアｄ_n（τ）は、例えば、下記の式（６）に示すような確率値で与えることができる。
ｄ_n（τ）＝Ｐ（τ｜Ψ（ｎ））（６）

ただし、Ｐ（τ｜Ψ（ｎ））は、多数の単語や文が発声された音声を用いて求めるものとする。
単語や文をＨＭＭで構成した際に含まれる状態ｓ（ｎ）の個数がＣ（ｓ（ｎ））、τフレーム連続した回数がＣ（τ，ｓ（ｎ））とすると、Ｐ（τ｜Ψ（ｎ））は、下記のように求められる。
Ｐ（τ｜Ψ（ｎ））＝Ｃ（τ，ｓ（ｎ））／Ｃ（ｓ（ｎ））（７）
その他、継続時間長の平均値と分散を求め、ガウス分布を仮定した確率密度関数を利用して、Ｐ（τ｜Ψ（ｎ））を求めるようにしてもよい。

単語ｉの単語継続時間長標準パタンは、音節と状態系列の対応を予め定義しておき、単語辞書３に登録されている単語のテキスト表記Ｗ（ｉ）にしたがって継続時間長標準パタンを連結することにより作成する。
例えば、音節と状態系列の対応が図３のような場合には、単語ｉのテキスト表記が「よこはま」であれば、音節「よ」に対応する継続時間長標準パタンの系列ψ（７６）、ψ（９２）、ψ（１０４）、音節「こ」に対応する継続時間長標準パタンの系列ψ（４）、ψ（９）、ψ（５）、音節「は」に対応する継続時間長標準パタンの系列ψ（１０）、ψ（３０）、ψ（２１）、音節「ま」に対応する継続時間長標準パタンの系列ψ（１０１）、ψ（２００）、ψ（２０２）を並べたものが単語継続時間長標準パタンΨ（ｉ）になる。

次に、単語音響標準パタン作成部７は、音響標準パタン格納部５に格納されている音響標準パタンを参照して、単語辞書３に格納されている各単語に対応する単語音響標準パタンを作成する（ステップＳＴ７）。
音響標準パタン格納部５に格納されている音響標準パタンは、音声片単位の音響標準パタンであり、音響分析部２により抽出される音響特徴量Ｏに対して音響的なスコアを計算するためのものである。
音響的なスコアを計算する方法としては、例えば、ＨＭＭを用いることができる。ＨＭＭについては、非特許文献１に詳細が記載されているので説明は省略する。
以下、音声片単位がＨＭＭの１状態の場合を例にして、単語音響標準パタンの作成方法について説明する。

ＨＭＭの状態ｓ（ｎ）の音響標準パタンλ（ｎ）は、音響分析部２により抽出される音響特徴量Ｏが、ＨＭＭの状態ｓ（ｎ）に音響的に近いときに、高いスコアを出すものである。
単語ｉの単語音響標準パタン［Λ（１），Λ（２），・・・，Λ（Ｎ）］（括弧内は単語番号、Ｎは総単語数）は、音節と状態系列の対応を予め定義しておき、単語辞書３に登録されている単語のテキスト表記Ｗ（ｉ）にしたがって音響標準パタンを連結することにより作成する。
例えば、音節と状態系列の対応が図３のような場合には、単語ｉのテキスト表記が「よこはま」であれば、音節「よ」に対応する音響標準パタンの系列λ（７６）、λ（９２）、λ（１０４）、音節「こ」に対応する音響標準パタンの系列λ（４）、λ（９）、λ（５）、音節「は」に対応する音響標準パタンの系列λ（１０）、λ（３０）、λ（２１）、音節「ま」に対応する音響標準パタンの系列λ（１０１）、λ（２００）、λ（２０２）を並べたものが単語音響標準パタンΛ（ｉ）になる。

次に、照合処理部１０は、重み係数計算部９により計算された重み係数αと、単語継続時間長標準パタン作成部６により作成された単語継続時間長標準パタンΨ（ｉ）と、単語音響標準パタン作成部７により作成された単語音響標準パタンΛ（ｉ）とを用いて、音響分析部２により抽出された音声区間の音響特徴量と単語辞書３に格納されている認識対象単語ｉを照合し、認識対象単語ｉの照合スコアＬ_iを算出する（ステップＳＴ８）。
音声片がＨＭＭの１状態に相当する場合には、認識対象単語ｉの照合スコアＬ_iは、下記の式（８）で表される。

式（８）において、Ｑは状態の時系列［ｑ１，ｑ２，・・・，ｑＴ］（Ｔは音声区間の総フレーム数）であり、照合スコアＬ_iが最大になる最適状態系列Ｑを求め、このときのスコアＬ_iを単語ｉのスコアとするものである。
最適状態系列Ｑは、例えば、非特許文献１の３章で説明されているＶｉｔｅｒｂｉアルゴリズムで求めることが可能である。
ｌｏｇＰ（Ｏ，Ｑ｜Λ（ｉ））は音響スコアに相当する。ＨＭＭを用いた音響スコア計算については、非特許文献１の３章に記載されている。

また、ｌｏｇＰ（Ｑ｜Ψ（ｉ））は継続時間長スコアに相当し、継続時間長スコアは下記の式（９）によって求める。

式（９）において、Ｋ_iは単語ｉの継続時間長標準パタンの総数である。また、τ_kはｋ番目の状態の継続時間長である。

図４はＨＭＭを用いた照合の最適パスの一例を示す説明図である。
図４において、横軸はフレーム時刻、縦軸は状態である。Ｓ（ｉ，ｋ）は単語ｉのｋ番目の状態を示し、矢印が最適パスを表している。
図４の例では、状態Ｓ（ｉ，１）に４フレーム、状態Ｓ（ｉ，２）に１フレーム、状態Ｓ（ｉ，３）に３フレーム、状態Ｓ（ｉ，４）に１フレーム、状態Ｓ（ｉ，５）に１フレームが継続時間になっている。この場合の継続時間長スコアは、下記の式（１０）で表される。

式（８）における音響スコアと継続時間長スコアの重み係数αは、ＳＮＲが高い場合は大きく、ＳＮＲが低い場合は小さく設定する重み係数である。したがって、周囲の騒音が大きくてＳＮＲが低下し、音響スコアＡ_iが低くなった場合には、重み係数αを小さく設定して、継続時間長スコアＤ_iの比率が高くなり過ぎることを防ぐので誤認識が減る。

最後に、認識結果出力部１１は、照合処理部１０が認識対象単語ｉの照合スコアＬ_iを算出すると、認識対象単語ｉの照合スコアＬ_iを比較して、照合スコアＬ_iが高い上位Ｎｂ個の単語を選択し、上位Ｎｂ個の単語を音声認識結果として出力する（ステップＳＴ９）。

以上で明らかなように、この実施の形態１によれば、音声認識装置の使用環境を表す指標として、音声信号のＳＮＲを計算するＳＮＲ計算部８と、ＳＮＲ計算部８により計算されたＳＮＲに応じて音響スコアと継続時間長スコアの重み係数αを計算する重み係数計算部９とを設け、照合処理部１０が重み係数計算部９により計算された重み係数αと、単語継続時間長標準パタン作成部６により作成された単語継続時間長標準パタンΨ（ｉ）と、単語音響標準パタン作成部７により作成された単語音響標準パタンΛ（ｉ）とを用いて、音響分析部２により抽出された音声区間の音響特徴量と単語辞書３に格納されている認識対象単語ｉを照合して、認識対象単語ｉの照合スコアＬ_iを算出するように構成したので、周囲の騒音が大きくてＳＮＲが低下しても、音響スコアと継続時間長スコアの比率を適正に保つことができるようになり、その結果、高い音声認識率を保持することができる効果を奏する。

実施の形態２．
図５はこの発明の実施の形態２による音声認識装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
騒音パワー計算部２１は音声認識装置の使用環境を表す指標として、音声区間検出部１により検出された音声区間ではない非音声区間のパワーから騒音パワーを計算する処理を実施する。
重み係数計算部２２は騒音パワー計算部２１により計算された騒音パワーに応じて音響スコアと継続時間長スコアの重み係数αを計算する処理を実施する。
なお、騒音パワー計算部２１及び重み係数計算部２２から重み係数算出手段が構成されている。

図５では、音声認識装置の構成要素である音声区間検出部１、音響分析部２、単語継続時間長標準パタン作成部６、単語音響標準パタン作成部７、騒音パワー計算部２１、重み係数計算部２２、照合処理部１０及び認識結果出力部１１が専用のハードウェア（例えば、ＭＰＵなどを実装している半導体集積回路基板）で構成されていることを想定しているが、音声区間検出部１、音響分析部２、単語継続時間長標準パタン作成部６、単語音響標準パタン作成部７、騒音パワー計算部２１、重み係数計算部２２、照合処理部１０及び認識結果出力部１１の処理内容を記述している音声認識プログラムを音声認識装置のメモリに格納し、音声認識装置のＣＰＵが当該メモリに格納されている音声認識プログラムを実行するようにしてもよい。
図６はこの発明の実施の形態２による音声認識装置の処理内容を示すフローチャートである。

上記実施の形態１では、ＳＮＲ計算部８が音声認識装置の使用環境を表す指標として、音声信号のＳＮＲを計算し、重み係数計算部９がＳＮＲ計算部８により計算されたＳＮＲに応じて音響スコアと継続時間長スコアの重み係数αを計算するものについて示したが、騒音パワー計算部２１が音声認識装置の使用環境を表す指標として、音声区間検出部１により検出された音声区間ではない非音声区間のパワーから騒音パワーを計算し、重み係数計算部２２が騒音パワー計算部２１により計算された騒音パワーに応じて音響スコアと継続時間長スコアの重み係数αを計算するようにしてもよく、上記実施の形態１と同様の効果を奏することができる。

図５の音声認識装置では、ＳＮＲ計算部８及び重み係数計算部９の代わりに、騒音パワー計算部２１及び重み係数計算部２２を実装している点以外は、図１の音声認識装置と同様であるため、ここでは、騒音パワー計算部２１及び重み係数計算部２２の処理内容のみを説明する。

騒音パワー計算部２１は、音声区間検出部１が音声区間を検出すると、下記の式（１１）に示すように、音声区間ではない非音声区間の平均パワーを計算し、その非音声区間の平均パワーを騒音パワーＮｏｉとして重み係数計算部２２に出力する（ステップＳＴ１１）。

なお、式（１１）は、前述の式（３）と同じである。

重み係数計算部２２は、騒音パワー計算部２１が騒音パワーＮｏｉを計算すると、その騒音パワーＮｏｉに応じて音響スコアと継続時間長スコアの重み係数αを計算する（ステップＳＴ１２）。
以下、重み係数αの計算方法について説明する。
まず、音響スコアと継続時間長スコアを用いる音声の認識処理においては、認識対象単語ｉを仮定する場合のスコアＬ_iは、前述の式（４）で表される。

重み係数計算部２２が上記の式（４）によってスコアＬ_iを計算するとき、周囲に騒音が存在する場合には、周囲騒音が音声信号に混入し、騒音が無い場合と比べて音響スコアＡ_iが低い値になる。
その理由は、上述したように、音響標準パタン格納部５に格納されている音響標準パタン（照合処理部１０が照合に用いる音響標準パタン）が、周囲に騒音が無い状況で発声した音声から作成されているので、騒音が混入している音声信号と不整合が生じるからである。
一方、継続時間長スコアＤ_iは、周囲の騒音の影響によってスコアが低下することが無い。
したがって、音響スコアと継続時間長スコアの重み係数αが従来のように固定値であるとすると、周囲に騒音が存在する場合は、音響スコアＡ_iの低下に伴ってスコアＬ_iに占める音響スコアＡ_iの比率が低くなり、誤認識を引き起こす可能性が高くなる。

そこで、重み係数計算部２２は、周囲に騒音が存在する場合の誤認識を防止するため、騒音パワー計算部２１により計算された騒音パワーＮｏｉに応じて音響スコアと継続時間長スコアの重み係数αを変更するようにしている。
即ち、重み係数計算部２２は、下記の式（１２）に示すように、周囲の騒音が大きくなり、騒音パワーＮｏｉが大きくなるほど、重み係数αを小さな値に設定する。
これにより、騒音の影響で音響スコアＡ_iが低下しても、継続時間長スコアとの寄与度のバランスを適正に保つことが可能になり、誤認識を減らすことができる。
α＝ｙ−Ｎｏｉ×ｚ（１２）
ただし、ｙは定数、ｚは正の定数である。

ここでは、重み係数計算部２２が、騒音パワーＮｏｉが大きくなるほど、重み係数αを小さな値に設定するものについて示したが、騒音パワーＮｏｉが予め定められた値以下の静かな環境であるならば、重み係数αを固定値にしてもよい。
また、重み係数αの上限値と下限値を予め設定して、重み係数αの変動範囲を制限してもよい。

以上の説明においては、音響標準パタン格納部５に格納されている音響標準パタン（照合処理部１０が照合に用いる音響標準パタン）が、周囲に騒音が無い状況で発声した音声から作成されているものとして説明したが、周囲に騒音が有る状況で作成されて、騒音が音響標準パタンに混入している場合でも実現可能である。
この場合、音響標準パタン格納部５に格納されている音響標準パタンを作成したときの騒音パワーと、騒音パワー計算部２１により計算された騒音パワーとの差が大きくなると、不整合により音響スコアＡ_iが低下する。
したがって、音響標準パタン格納部５に格納されている音響標準パタンを作成したときの騒音パワーと、騒音パワー計算部２１により計算された騒音パワーとの差が小さい場合には、音響スコアＡ_iと継続時間長スコアＤ_iの重み係数αを大きな値に設定する。
一方、音響標準パタン格納部５に格納されている音響標準パタンを作成したときの騒音パワーと、騒音パワー計算部２１により計算された騒音パワーとの差が大きい場合には、音響スコアＡ_iと継続時間長スコアＤ_iの重み係数αを小さな値に設定する。
これにより、音響スコアＡ_iと継続時間長スコアＤ_iの比率のバランスが適正に保たれて認識率が向上する。

以上で明らかなように、この実施の形態２によれば、音声認識装置の使用環境を表す指標として、騒音パワーを計算する騒音パワー計算部２１と、騒音パワー計算部２１により計算された騒音パワーに応じて音響スコアと継続時間長スコアの重み係数αを計算する重み係数計算部２２とを設け、照合処理部１０が重み係数計算部２２により計算された重み係数αと、単語継続時間長標準パタン作成部６により作成された単語継続時間長標準パタンΨ（ｉ）と、単語音響標準パタン作成部７により作成された単語音響標準パタンΛ（ｉ）とを用いて、音響分析部２により抽出された音声区間の音響特徴量と単語辞書３に格納されている認識対象単語ｉを照合して、認識対象単語ｉの照合スコアＬ_iを算出するように構成したので、周囲の騒音が大きくて音響スコアＡ_iが低下しても、音響スコアＡ_iと継続時間長スコアＤ_iの比率を適正に保つことができるようになり、その結果、高い音声認識率を保持することができる効果を奏する。

実施の形態３．
図７はこの発明の実施の形態３による音声認識装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
音節全接続辞書３１は全ての音節が接続可能であることを表す辞書である。例えば、図９に示すように、音節がネットワーク状に接続されている言語制約が音節全接続辞書３１である。
音節全接続音響標準パタン作成部３２は音節全接続辞書３１と音響標準パタン格納部５に格納されている音響標準パタンを参照して、音節全接続音響標準パタンを作成する処理を実施する。

音節全接続照合部３３は音節全接続音響標準パタン作成部３２により作成された音節全接続音響標準パタンと音響分析部２により抽出された音響特徴量Ｏを照合して照合スコアＬｓを算出する処理を実施する。
重み係数計算部３４は音節全接続照合部３３により算出された照合スコアＬｓに応じて音響スコアと継続時間長スコアの重み係数αを計算する処理を実施する。
なお、音節全接続辞書３１、音節全接続音響標準パタン作成部３２、音節全接続照合部３３及び重み係数計算部３４から重み係数算出手段が構成されている。

図７では、音声認識装置の構成要素である音声区間検出部１、音響分析部２、単語継続時間長標準パタン作成部６、単語音響標準パタン作成部７、音節全接続音響標準パタン作成部３２、音節全接続照合部３３、重み係数計算部３４、照合処理部１０及び認識結果出力部１１が専用のハードウェア（例えば、ＭＰＵなどを実装している半導体集積回路基板）で構成されていることを想定しているが、音声区間検出部１、音響分析部２、単語継続時間長標準パタン作成部６、単語音響標準パタン作成部７、音節全接続音響標準パタン作成部３２、音節全接続照合部３３、重み係数計算部３４、照合処理部１０及び認識結果出力部１１の処理内容を記述している音声認識プログラムを音声認識装置のメモリに格納し、音声認識装置のＣＰＵが当該メモリに格納されている音声認識プログラムを実行するようにしてもよい。
図８はこの発明の実施の形態３による音声認識装置の処理内容を示すフローチャートである。

上記実施の形態１では、ＳＮＲ計算部８が音声認識装置の使用環境を表す指標として、音声信号のＳＮＲを計算し、重み係数計算部９がＳＮＲ計算部８により計算されたＳＮＲに応じて音響スコアと継続時間長スコアの重み係数αを計算するものについて示したが、音節全接続照合部３３が音節全接続音響標準パタン作成部３２により作成された音節全接続音響標準パタンと音響分析部２により抽出された音響特徴量Ｏを照合して照合スコアＬｓを算出し、重み係数計算部３４が音節全接続照合部３３により算出された照合スコアＬｓに応じて音響スコアと継続時間長スコアの重み係数αを計算するようにしてもよい。

図７の音声認識装置では、ＳＮＲ計算部８及び重み係数計算部９の代わりに、音節全接続辞書３１、音節全接続音響標準パタン作成部３２、音節全接続照合部３３及び重み係数計算部３４を実装している点以外は、図１の音声認識装置と同様であるため、ここでは、音節全接続辞書３１、音節全接続音響標準パタン作成部３２、音節全接続照合部３３及び重み係数計算部３４の処理内容のみを説明する。

音節全接続音響標準パタン作成部３２は、音節全接続辞書３１と音響標準パタン格納部５に格納されている音響標準パタンを参照して、音節全接続音響標準パタンを作成する（ステップＳＴ２１）。
ここで、音節全接続辞書３１は全ての音節が接続可能であることを表す辞書であり、例えば、図９に示すように、音節がネットワーク状に接続されている言語制約が音節全接続辞書３１である。
音節全接続音響標準パタンには、音節標準パタンΛｓ（１）〜Λｓ（Ｎｓ）（Ｎｓは音節数）と、全音素が接続可能であるという接続ルール情報が含まれる。

音節全接続照合部３３は、音響分析部２が音響特徴量Ｏを抽出すると（ステップＳＴ５）、その音響特徴量Ｏと音節全接続音響標準パタン作成部３２により作成された音節全接続音響標準パタンを照合して照合スコアＬｓを算出する（ステップＳＴ２２）。
照合スコアＬｓは、下記の式（１３）に示すように、音響分析部２により抽出された音響特徴量Ｏに対して、照合スコアＬｓが最大になる音節標準パタンの最適系列Λｓ（ｐ₁），Λｓ（ｐ₂），・・・，Λｓ（ｐＭ）（ｐ_jは最適系列のｊ番目の音節番号）を求めることで計算する。

なお、音節標準パタンの最適系列は、例えば、非特許文献２の８．８節に示されている連続音声認識の手法を用いることによって抽出することができる。
ここでは、音節全接続標準パタンを用いることでスコアを計算したが、音素全接続標準パタンやＨＭＭの状態全接続標準パタンでスコアを計算するようにしてもよい。

重み係数計算部３４は、音節全接続照合部３３が照合スコアＬｓを算出すると、その照合スコアＬｓに応じて音響スコアと継続時間長スコアの重み係数αを計算する（ステップＳＴ２３）。
以下、重み係数αの計算方法について説明する。
音節全接続照合部３３により算出される照合スコアＬｓは、音声信号が音響標準パタン格納部５に格納されている音響標準パタンを学習した音声と、周波数特性や背景騒音環境が異なる場合には低い値となる。
この場合には、照合処理部１０が計算する認識対象単語ｉの音響スコアＡ_iも低い値になる。

したがって、前述の式（４）の音響スコアＡ_iと継続時間長スコアＤ_iの重み係数αは、音節全接続照合スコアＬｓが低ければ小さく設定し、音節全接続照合スコアＬｓが高ければ大きく設定することで、音響スコアＡ_iと継続時間長スコアＤ_iのバランスを保ち、誤認識を減らすことができる。
例えば、下記の式（１４）を用いることで、音節全接続照合スコアＬｓから重み係数αを求めることが可能である。
α＝ｙ＋Ｌｓ×ｚ（１４）
ただし、ｙは定数、ｚは正の定数である。
なお、重み係数αの上限値と下限値を予め設定して、重み係数αの変動範囲を制限してもよい。

以上で明らかなように、この実施の形態３によれば、音節全接続照合部３３が音節全接続音響標準パタン作成部３２により作成された音節全接続音響標準パタンと音響分析部２により抽出された音響特徴量Ｏを照合して照合スコアＬｓを算出し、重み係数計算部３４が音節全接続照合部３３により算出された照合スコアＬｓに応じて音響スコアと継続時間長スコアの重み係数αを計算するように構成したので、音声信号が音響標準パタン格納部５に格納されている音響標準パタンを学習した音声と、周波数特性や背景騒音環境が異なることで、音響スコアＡ_iが低くなる場合でも、音響スコアＡ_iと継続時間長スコアＤ_iの比率を適正に保つことができるようになり、その結果、高い音声認識率を保持することができる効果を奏する。

実施の形態４．
図１０はこの発明の実施の形態４による音声認識装置を示す構成図であり、図において、図１と同一符号は同一または相当部分を示すので説明を省略する。
騒音標準パタン格納部４１は周囲の騒音が大きくてＳＮＲが低い音声の音響特徴量が入力されると高いスコアを出力させる騒音標準パタンを格納している。
騒音音響スコア計算部４２は音響分析部２により抽出された音声区間の音響特徴量Ｏと騒音標準パタン格納部４１に格納されている騒音標準パタンを照合して、騒音音響スコアＬ_noを計算する処理を実施する。
重み係数計算部４３は騒音音響スコア計算部４２により計算された騒音音響スコアＬ_noに応じて音響スコアと継続時間長スコアの重み係数αを計算する処理を実施する。
なお、騒音標準パタン格納部４１、騒音音響スコア計算部４２及び重み係数計算部４３から重み係数算出手段が構成されている。

図１０では、音声認識装置の構成要素である音声区間検出部１、音響分析部２、単語継続時間長標準パタン作成部６、単語音響標準パタン作成部７、騒音音響スコア計算部４２、重み係数計算部４３、照合処理部１０及び認識結果出力部１１が専用のハードウェア（例えば、ＭＰＵなどを実装している半導体集積回路基板）で構成されていることを想定しているが、音声区間検出部１、音響分析部２、単語継続時間長標準パタン作成部６、単語音響標準パタン作成部７、騒音音響スコア計算部４２、重み係数計算部４３、照合処理部１０及び認識結果出力部１１の処理内容を記述している音声認識プログラムを音声認識装置のメモリに格納し、音声認識装置のＣＰＵが当該メモリに格納されている音声認識プログラムを実行するようにしてもよい。
図１１はこの発明の実施の形態４による音声認識装置の処理内容を示すフローチャートである。

上記実施の形態１では、ＳＮＲ計算部８が音声認識装置の使用環境を表す指標として、音声信号のＳＮＲを計算し、重み係数計算部９がＳＮＲ計算部８により計算されたＳＮＲに応じて音響スコアと継続時間長スコアの重み係数αを計算するものについて示したが、騒音音響スコア計算部４２が音響分析部２により抽出された音声区間の音響特徴量Ｏと騒音標準パタン格納部４１に格納されている騒音標準パタンを照合して、騒音音響スコアＬ_noを計算し、重み係数計算部４３が騒音音響スコア計算部４２により計算された騒音音響スコアＬ_noに応じて音響スコアと継続時間長スコアの重み係数αを計算するようにしてもよく、上記実施の形態１と同様の効果を奏する。

図１０の音声認識装置では、ＳＮＲ計算部８及び重み係数計算部９の代わりに、騒音標準パタン格納部４１、騒音音響スコア計算部４２及び重み係数計算部４３を実装している点以外は、図１の音声認識装置と同様であるため、ここでは、騒音標準パタン格納部４１、騒音音響スコア計算部４２及び重み係数計算部４３の処理内容のみを説明する。

騒音音響スコア計算部４２は、音響分析部２が音声区間の音響特徴量Ｏを抽出すると、音声区間の音響特徴量Ｏと騒音標準パタン格納部４１に格納されている騒音標準パタンを照合して、騒音音響スコアＬ_noを計算する（ステップＳＴ３１）。
騒音標準パタン格納部４１に格納されている騒音標準パタンは、周囲の騒音が大きくて、ＳＮＲが低い音声の音響特徴量が入力されると、高いスコアを出力させる標準パタンである。騒音標準パタンは、例えば、色々な騒音データで学習した１状態のＨＭＭで構成することができる。
騒音音響スコアＬ_noは、下記の式（１５）によって計算することができる。
Ｌ_no＝Ｐ（Ｏ｜λ_no）（１５）
ただし、λ_noは騒音標準パタンである。

重み係数計算部４３は、騒音音響スコア計算部４２が騒音音響スコアＬ_noを計算すると、その騒音音響スコアＬ_noに応じて音響スコアと継続時間長スコアの重み係数αを計算する（ステップＳＴ３２）。
以下、重み係数αの計算方法について説明する。
まず、音響スコアと継続時間長スコアを用いる音声の認識処理においては、認識対象単語ｉを仮定する場合のスコアＬ_iは、前述の式（４）で表される。

重み係数計算部４３が上記の式（４）によってスコアＬ_iを計算するとき、周囲に騒音が存在する場合には、周囲騒音が音声信号に混入し、騒音が無い場合と比べて音響スコアＡ_iが低い値になる。
一方、継続時間長スコアＤ_iは、周囲の騒音の影響によってスコアが低下することが無い。
したがって、音響スコアと継続時間長スコアの重み係数αが従来のように固定値であるとすると、周囲に騒音が存在する場合は、音響スコアＡ_iの低下に伴ってスコアＬ_iに占める音響スコアＡ_iの比率が低くなり、誤認識を引き起こす可能性が高くなる。

そこで、重み係数計算部４３は、周囲に騒音が存在する場合の誤認識を防止するため、騒音音響スコア計算部４２により計算された騒音音響スコアＬ_noに応じて音響スコアと継続時間長スコアの重み係数αを変更するようにしている。
即ち、重み係数計算部４３は、下記の式（１６）に示すように、騒音が存在してＳＮＲが悪くなり、騒音音響スコアＬ_noが大きくなると、音響スコアＡ_iが低下するので、重み係数αを小さな値に設定する。
これにより、騒音の影響で音響スコアＡ_iが低下しても、継続時間長スコアとの寄与度のバランスを適正に保つことが可能になり、誤認識を減らすことができる。
α＝ｙ−Ｌ_no×ｚ（１６）
ただし、ｙは定数、ｚは正の定数である。
なお、重み係数αの上限値と下限値を予め設定して、重み係数αの変動範囲を制限してもよい。

以上で明らかなように、この実施の形態４によれば、騒音音響スコア計算部４２が音響分析部２により抽出された音声区間の音響特徴量Ｏと騒音標準パタン格納部４１に格納されている騒音標準パタンを照合して、騒音音響スコアＬ_noを計算し、重み係数計算部４３が騒音音響スコア計算部４２により計算された騒音音響スコアＬ_noに応じて音響スコアと継続時間長スコアの重み係数αを計算するように構成したので、周囲の騒音が大きく音響スコアＡ_iが低下しても、音響スコアＡ_iと継続時間長スコアＤ_iの比率を適正に保つことができるようになり、その結果、高い音声認識率を保持することができる効果を奏する。

この発明の実施の形態１による音声認識装置を示す構成図である。この発明の実施の形態１による音声認識装置の処理内容を示すフローチャートである。音節と状態系列の対応関係を示す説明図である。ＨＭＭを用いた照合の最適パスの一例を示す説明図である。この発明の実施の形態２による音声認識装置を示す構成図である。この発明の実施の形態２による音声認識装置の処理内容を示すフローチャートである。この発明の実施の形態３による音声認識装置を示す構成図である。この発明の実施の形態３による音声認識装置の処理内容を示すフローチャートである。音節全接続辞書を示す説明図である。この発明の実施の形態４による音声認識装置を示す構成図である。この発明の実施の形態４による音声認識装置の処理内容を示すフローチャートである。

符号の説明

１音声区間検出部（音声区間検出手段）、２音響分析部（音響分析手段）、３単語辞書、４継続時間長標準パタン格納部（標準パタン作成手段）、５音響標準パタン格納部（標準パタン作成手段）、６単語継続時間長標準パタン作成部（標準パタン作成手段）、７単語音響標準パタン作成部（標準パタン作成手段）、８ＳＮＲ計算部（重み係数算出手段）、９重み係数計算部（重み係数算出手段）、１０照合処理部（照合手段）、１１認識結果出力部（認識結果出力手段）、２１騒音パワー計算部（重み係数算出手段）、２２重み係数計算部（重み係数算出手段）、３１音節全接続辞書（重み係数算出手段）、３２音節全接続音響標準パタン作成部（重み係数算出手段）、３３音節全接続照合部（重み係数算出手段）、３４重み係数計算部（重み係数算出手段）、４１騒音標準パタン格納部（重み係数算出手段）、４２騒音音響スコア計算部（重み係数算出手段）、４３重み係数計算部（重み係数算出手段）。

Claims

入力信号の中に含まれている音声を検出して、上記入力信号における音声区間を検出する音声区間検出手段と、上記音声区間検出手段により検出された音声区間に対する音響分析を実施して、上記音声区間の音響特徴量を抽出する音響分析手段と、音声認識対象の単語を格納している単語辞書と、上記単語辞書に格納されている各単語に対応する継続時間長の標準パタン及び音響の標準パタンを作成する標準パタン作成手段と、使用環境に適する音響スコアと継続時間長スコアの重み係数を算出する重み係数算出手段と、上記重み係数算出手段により算出された重み係数と上記標準パタン作成手段により作成された標準パタンを用いて、上記音響分析手段により抽出された音声区間の音響特徴量と上記単語辞書に格納されている各単語を照合し、各単語の照合スコアを算出する照合手段と、上記照合手段により算出された照合スコアが高い上位数個の単語を音声認識結果として出力する認識結果出力手段とを備えた音声認識装置。
重み係数算出手段は、入力信号の信号対雑音比を算出し、上記信号対雑音比に応じて音響スコアと継続時間長スコアの重み係数を算出することを特徴とする請求項１記載の音声認識装置。
重み係数算出手段は、音声区間検出手段により検出された音声区間ではない非音声区間のパワーから騒音パワーを算出し、上記騒音パワーに応じて音響スコアと継続時間長スコアの重み係数を算出することを特徴とする請求項１記載の音声認識装置。
重み係数算出手段は、音節全接続辞書と音響標準パタンを参照して、音節全接続の音響標準パタンを作成し、上記音節全接続の音響標準パタンと音響分析手段により抽出された音声区間の音響特徴量を照合して照合スコアを算出し、上記照合スコアに応じて音響スコアと継続時間長スコアの重み係数を算出することを特徴とする請求項１記載の音声認識装置。
重み係数算出手段は、音響分析手段により抽出された音声区間の音響特徴量と騒音標準パタンを照合して照合スコアを算出し、上記照合スコアに応じて音響スコアと継続時間長スコアの重み係数を算出することを特徴とする請求項１記載の音声認識装置。