JP5895501B2

JP5895501B2 - 音声認識装置および音声認識方法

Info

Publication number: JP5895501B2
Application number: JP2011273199A
Authority: JP
Inventors: 利行花沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2011-12-14
Filing date: 2011-12-14
Publication date: 2016-03-30
Anticipated expiration: 2031-12-14
Also published as: JP2013125119A

Description

本発明は、音声の認識結果をリスコアリングし認識精度を改善する音声認識装置に関するものである。

音声認識は一般に入力音声の特徴ベクトルと予め用意した音響モデルの特徴ベクトルとの間でビタビアルゴリズムやＤＰマッチングと呼ばれる動的計画法を用いたパターンマッチングを行い、類似度が一番高い標準パターンを認識結果とする。さらに音声の継続時間長の情報もパターンマッチングの類似度に反映させることに認識精度が向上する場合があることが知られている。
また、音声の継続時間長の情報もパターンマッチングの類似度に反映させるには、ビタビアルゴリズムやＤＰマッチングの演算量が非常に大きくなるという問題があり、文献１では、少ない演算量でパターンマッチングの類似度に反映させる技術が開示されている。

特許第２８４５０１９号

しかし、例えば「１階（いっかい）」と「２階（にかい）」のように音響的には類似しているが、発話の促音「っ」の有無に違いがあるような単語の認識に対しては十分な認識性能の向上が得られないという課題がある。
これは、（１）通常の音響モデルでは音声のモデルと無音（促音）のモデルとの境界は実際の音声・無音境界とは必ずしも一致しないため、従来の継続時間長を考慮に入れたパターンマッチングでは促音の有無を精度よく認識スコアに反映できない、（２）認識スコアは発話区間全体を均等に評価して算出するため、促音の無音区間で認識スコアに多少の差がついても、他の部分のスコア差に埋もれてしまう可能性がある、等の理由によるものである。

この発明は上記課題を解決するためになされたもので、音声の認識結果をリスコアリングし認識精度を向上させることを目的とする。

この発明に係る音声認識装置は、入力音声を分析して特徴ベクトルを出力する分析手段と、該分析手段で出力された特徴ベクトルと、予め記憶され単語の特徴ベクトルをモデル化した音響モデルの特徴ベクトルと、を照合して前記単語の第１の認識スコアを算出し、該第１の認識スコアに基づいて前記入力音声の認識候補である複数の単語を出力する第１の認識手段と、該第１の認識手段で出力された認識候補の第１の認識スコアが最も高い第１の単語と、該第１の単語以外の第２の単語との対について所定の条件を満たす単語の対が存在するか否かを判定し、存在する場合には認識候補である前記複数の単語の中で促音が存在する単語について前記音響モデルの無音区間の特徴ベクトルを用いて入力音声の無音区間を検出し、該無音区間の継続時間に基づいて、前記複数の単語に対する促音らしさを数値化した促音スコアを算出し、存在しない場合には前記促音スコアを所定の値とする促音スコア算出手段と、前記第１の認識手段で算出された第１の認識スコアと前記促音スコア算出手段によって算出された促音スコアとに基づいて前記複数の単語の第２の認識スコアを算出し、該第２の認識スコアに基づいて前記入力音声の認識結果を出力する第２の認識手段と、を備えたものである。

この発明は、入力音声の特徴ベクトルと音響モデルの単語の特徴ベクトルを照合して、認識候補の複数の単語と第１の認識スコアを出力し、出力された複数の単語に対する促音スコアを算出して、第１の認識スコアと促音スコアに基づいて算出した第２の認識スコアの順に入力音声の認識結果を出力するので、促音の有無に違いがある単語間での認識精度を向上することができる。

この発明の実施の形態１における音声認識装置１の構成図である。この発明の実施の形態１における継続時間計測量メモリ１２で保持するデータを算出する処理のフロー図である。この発明の実施の形態１における促音に関する継続時間と確率密度を示す図である。この発明の実施の形態１における促音スコアを算出する処理のフロー図である。この発明の実施の形態１におけるリスコアリング手段１８で最終認識結果１７を決定する処理のフロー図である。この発明の実施の形態１における入力音声の残響有無別に促音に関する継続時間とパワーを示す図である。この発明の実施の形態２における音声認識装置１の構成図である。この発明の実施の形態２における単語対メモリ２２が保持する単語の対２３の例である。

実施の形態１．
図１はこの発明による音声認識装置の実施の形態１の構成を示すブロック図である。
図１の音声認識装置１は、音声認識装置１の外部から音声信号が入力される入力端２と、入力端２から入力された入力音声（入力音声信号）３と、入力音声３を分析し入力音声３の特徴ベクトル４とパワー情報５を出力する分析手段６と、分析手段６から出力された特徴ベクトル４と音響モデルメモリ７に格納されている音響モデル８とを照合して認識スコア（第１の認識スコア）９を算出し、認識スコア９の高い順に入力音声３の認識候補である複数の単語と各単語の認識スコアを中間認識結果１０として出力する照合手段（第１の認識手段）１１と、照合手段１１から出力された中間認識結果１０の複数の単語に対して継続時間統計量メモリ１２に格納されている促音の無音区間に関する継続時間情報１３を用いて促音スコア１４を出力する促音スコア算出手段１５と、促音スコア算出手段１５で出力された促音スコア１４を用いて照合手段１１で算出された複数の各単語の認識スコア９を修正した修正認識スコア（第２の認識スコア）１６を算出し、修正認識スコア１６の高い順に複数の単語を最終認識結果１７として出力するリスコアニング手段（第２の認識手段）１８から構成されている。

入力端２はマイク等からの音声が音声信号として入力されるライン入力端子である。
特徴ベクトル３は、例えばMFCC(Mel Frequency Cepstral Coefficient）とする。
音響モデルメモリ７には、音声認識する対象の単語の特徴ベクトルをモデル化した音響モデルが格納されている。
音響モデル８は、例えばHMM（Hidden Markov Moderl）とする。
継続時間計測量メモリ１２については後述する。
促音スコア１４は、発話の無音区間を検出して、無音区間が促音らいしいか否かを数値化したものである。

次に、継続時間計測量メモリ１２について説明する。
継続時間計測量メモリ１２には、促音の無音区間に関する継続時間情報１３として以下のデータを算出し保持しておく。
（ａ）発話の促音による無音区間の継続時間長の平均値と分散
（ｂ）発話の促音以外による無音区間の継続時間長の平均値と分散
（ｃ）発話の促音と促音以外による無音区間の継続時間長の境界値Ｄｂ
なお以後、表現を簡潔にするため、前記「促音と促音以外による無音区間の継続時間長の境界値Ｄｂ」を「促音継続時間境界値Ｄｂ」と記す。

次に、継続時間継続量メモリ１２で保持するデータ（促音の無音区間に関する継続時間情報１３）を算出する手順について説明する。
図２は、継続時間計測量メモリ１２で保持するデータを算出する処理のフロー図である。
（手順１）発話の促音による無音区間がある単語と、促音以外による無音区間がある単語のそれぞれに対して複数個の発話のデータを用意し、各発話の無音区間の継続時間長を算出する（Ｓ１０１）。
なお促音以外の無音区間がある単語とは、発話の中に破裂音（「か」行、「た」行、「が」行、「だ」行、「ぱ」行、「ば」行の子音）等を含む単語である。

まず、発話の無音区間について、継続時間長を算出する方法の例を述べる。
（１−１）各発話と、音声認識する対象の単語の特徴ベクトルをモデル化した音響モデルをビタビアルゴリズムによって対応付け、その結果をトレースバックして発話の無音区間を検出する。
（１−２）上記（１−１）で検出した無音区間に対して音声パワー（以後、パワーと記す）を用い、検出した無音区間の始端から予め設定した所定の時間だけ遡った時点から時間軸の順方向にパワー値を調べ、予め設定した閾値以下となる時点を促音の無音区間の始端とする。この始端をＴ１とする。同様に前記トレースバックによって検出した無音区間の終端から予め設定した所定の時間だけ後方の時点から時間軸の逆方向にパワー値を調べ、パワー値が予め設定した閾値以下となる時点を無音区間の終端とする。この終端をＴ２とする。

このようにパワー情報を用いて促音の無音区間を決定することにより、パターンマッチングの結果をトレースバックして検出した区間よりも正確に促音の無音区間を決定できる。
発話の無音区間の始端Ｔ１と終端Ｔ２から、発話の無音区間の継続時間長Ｄｘを下記のとおり式（１）で算出する。

Ｄｘ＝Ｔ２−Ｔ１・・・式（１）

式中でＤｘは発話の無音区間の継続時間長、Ｔ２は発話の無音区間の始端、Ｔ２は発話の無音区間の終端である。

（手順２）上記（手順１）で算出した継続時間長Ｄｘのデータを促音のデータと、それ以外（すなわち破裂音）のデータの２カテゴリに分け、カテゴリごとに継続時間長の平均値と分散を算出する（Ｓ１０２）。

（手順３）各カテゴリの継続時間長の分布として正規分布を仮定し、上記（手順２）で算出した平均と分散に基づき、促音のデータと、それ以外のデータで、両者の確率密度が等しくなる継続時間を促音継続時間境界値Ｄｂとして算出する（Ｓ１０３）。
図３は、促音の無音区間に関する継続時間と確立密度を示す図である。
図３では、継続時間と確率密度に関する促音の無音区間の分布１９と促音以外の無音区間の分布２０とを示し、促音の分布１９と促音以外の発話の無音区間の分布２０とが重なる継続時間、即ち確立密度が等しくなる継続時間が促音継続時間境界値Ｄｂ２１であることを示している。

次に、音声認識装置１の動作について説明する。
実施の形態１では、建物の階数を認識対象とする場合を例として説明する。
入力端２から入力音声３が入力されると、分析手段６は入力音声３を特徴ベクトル４およびパワー情報５に変換して出力する。
そして、照合手段１１は、音響モデルメモリ７に格納されている音響モデル８を用いて、例えばビタビアルゴリズムによって前記特徴ベクトル４とパターンマッチングを行う。そして、単語に対する認識スコア９を算出して、認識スコア９の高い上位Ｎ個の単語を中間認識結果１０として出力する。本例ではＮ＝３とする。前記中間認識結果１０は、各単語の単語番号（図示せず）とひらがな表記（図示せず）と認識スコア９から構成される。

ここでは、中間認識結果１０としてひらがな表記を含む構成として説明するが、音素表記を含む構成であってもよい。
そして、促音スコア算出手段１５は中間認識結果１０のひらがな表記を参照し、中間認識結果１０の認識スコア９が高い順に１位と２位以下の単語の対で、促音の有無が異なる対が存在するか否かを調べる。

促音の有無が異なる対が存在しない場合は、促音スコア１４Ｓｑの値として０を出力する。
例えば中間認識結果１０の１位が「さんかい」、２位が「にかい」、３位が「ごかい」の場合、１位の発話の無音区間は「か」の子音/k/の閉鎖区間だけであり促音を含まない。同様に２位、３位の単語も促音を含まないため、１位と２位の対である「さんかい」と「にかい」、および１位と３位の対である「さんかい」と「ごかい」の対はいずれも促音を含まない単語の対であるため、促音スコア１４Ｓｑの値として０を出力する。

一方、促音の有無が異なる対が存在する場合は、後述する手順で促音スコア１４を算出して出力する。
例えば中間認識結果１０の１位が「いっかい」、２位が「にかい」の場合、１位は促音を含み、２位は含まないため、１位と２位の対では促音の有無が異なるので促音スコア１４を算出して出力する。

以下に、促音スコア算出手段１５で促音スコア１４を算出する手順について説明する。
図４は、促音スコア算出手段１５で促音スコア１４を算出する処理のフロー図である。
（手順１）図１の入力音声３の単語の中の無音区間を検出する。
この無音区間の検出方法としては、例えば中間認識結果１０の中で促音が存在する単語について音響モデルメモリ７の音響モデル８を用いて、例えばビタビアルゴリズムによって、入力音声３と促音が存在する単語のモデルとのパターンマッチングを行いトレースバックすることにより、入力音声３の単語の中の無音区間を検出することができる。

さらに検出した無音区間に対して、分析手段６で出力したパワー情報５を用いて、無音区間の始端から予め設定した所定の時間だけ遡った時点から時間軸の順方向にパワー値を調べ、予め設定した閾値以下となる時点を促音の無音区間の始端とし、この始端をＴ１とする。
同様に前記トレースバックによって検出した無音区間の終端から予め設定した所定の時間だけ後方の時点から時間軸の逆方向にパワー値を調べ、パワー値が予め設定した閾値以下となる時点を無音区間の終端とし、この終端をＴ２とする。

このようにパワー情報５を用いて促音の無音区間を決定することにより、パターンマッチングの結果をトレースバックして検出した区間よりも正確に発話の無音区間を決定できる。
発話の無音区間の始端Ｔ１と終端Ｔ２から、発話の無音区間の継続時間長Ｄｘを下記のとおり算出する。（Ｓ２０１）

Ｄｘ＝Ｔ２−Ｔ１・・・式（２）
式中でＤｘは発話の無音区間の継続時間長、Ｔ２は発話の無音区間の始端、Ｔ２は発話の無音区間の終端である。

（手順２）次に継続時間統計量メモリ１２に保持しているパワー情報を用いた促音の無音区間に関する継続時間情報１３の促音継続時間境界値Ｄｂを参照して、例えば式（３）または式（４）によって促音スコア１４Ｓｑを算出する（Ｓ２０２）。

Ｓｑ＝（Ｄｘ−Ｄｂ）^α（Ｄｘ≧Ｄｂの場合）・・・式（３）
Ｓｑ＝−（Ｄｂ−Ｄｘ）^α（Ｄｘ＜Ｄｂの場合）・・・式（４）

式中でＳｑは促音スコア１４、Ｄｘは発話の無音区間の継続時間長、Ｄｂは継続時間情報１３の促音継続時間境界値Ｄｂ、αは実験的に定めた定数である。

式（３）からわかるとおり、促音スコア１４Ｓｑは継続時間長Ｄｘが促音継続時間境界値Ｄｂ以上の場合０以上の値となる。逆に式（４）ではＤｘがＤｂより小さい場合、促音スコア１４Ｓｑは負の値となる。このＳｑを促音らしさのスコアとして使用する。

次に、リスコアリング手段１８は、促音スコア算出手段１５で算出した促音スコア１４と照合手段１１で出力された中間認識結果１０を入力とし、最終認識結果１７を決定して出力する。
図５は、リスコアリング手段１８で音声認識装置１の最終的な認識結果である最終認識結果１７を決定する処理のフロー図である。

（手順１）促音スコア１４Ｓｑの値を判定し（Ｓ３０１）、促音スコア１４Ｓｑの値が０である場合は、認識スコア９Ｓを修正せずに中間認識結果１０をそのまま、最終認識結果１７として出力する（Ｓ２０２）。

（手順２）促音スコア１４Ｓｑが０でない場合であって、発話の無音区間に促音を含む単語の候補に対しては、式（５）に示すとおり促音スコア１４Ｓｑをβ倍して、照合手段１１で算出された中間認識結果１０の各単語の認識スコア９Ｓに加算して修正認識スコア１６（修正後の認識スコア）Ｓ’１を求める。ここでβは実験的に定めた正の定数である。
例えば「いっかい」は発話の無音区間が促音なので、修正認識スコア１６Ｓ’１を求める。
一方、発話の無音区間に促音を含まない単語の候補に対しては、式（６）に示すとおり促音スコア１４Ｓｑをβ倍して減算した修正認識スコア１６（修正後の認識スコア）Ｓ’２を求める。
例えば「にかい」は発話の無音区間が促音ではないので、修正認識スコア１６Ｓ’２を求める。（Ｓ３０３）

Ｓ’１＝Ｓ＋β*Ｓｑ・・・式（５）
Ｓ’２＝Ｓ−β*Ｓｑ・・・式（６）
式中の記号の意味は以下のとおりである。
Ｓ’１：発話の無音区間が促音である単語の修正認識スコア１６
Ｓ’２：発話の無音区間が促音ではない単語の修正認識スコア１６
Ｓ：当該単語の修正前の（中間認識結果１０の）認識スコア９
Ｓｑ：促音スコア１４
β：実験的に定めた定数

（手順３）上記手順で算出した修正認識スコア１６が高い順に中間認識結果１０を並べ替え、音声認識装置１の最終認識結果１７として出力する（Ｓ３０４）。
以上が音声認識装置１の動作である。

このように、修正認識スコアを計算することにより、促音スコア１４が正の値すなわち発話の無音区間が促音らしい場合には、中間認識結果１０の単語の対のうち、「いっかい」のような発話の中に促音を含む単語に対しては認識スコア９が増加するように修正され、「にかい」のような促音を含まない単語に対しては認識スコア９が減少するように修正されて修正認識スコア１６が計算されるので、促音を含む単語の認識順位を上位に修正する作用がある。

逆に促音スコア１４が負の値すなわち発話の無音区間が促音らしくない場合には、中間認識結果１０の単語の対のうち、「いっかい」のような発話の中に促音を含む単語に対しては認識スコア９が減少するように修正され、「にかい」のような促音を含まない単語に対しては認識スコア９が増加するように修正されて修正認識スコア１６が計算されるので、促音を含まない単語の認識順位を上位に修正する作用がある。

以上説明したとおり、入力音声３の特徴ベクトル４と音響モデル８の単語の特徴ベクトルとを照合して、認識スコア９の上位の複数の単語を中間認識結果として出力し、認識スコア９の１位の単語と２位以下の単語の対について、促音の有無の異なる対があれば入力音声３から無音区間を検出し、パワー情報５を用いて修正した無音区間の継続時間と、促音と促音以外による無音区間の継続時間長の境界値と、を用いて促音スコアを算出し、認識スコア９を促音スコア１４でリスコアリングして最終認識結果１７を出力するので、「いっかい」と「にかい」、「にかい」と「じゅっかい」のように促音の有無に違いがある単語間での認識精度を向上させる効果がある。
即ち、音声の認識結果の中の特定の一部の無音区間を検証して、認識結果をリスコアリングするので、促音の有無に違いがある単語間での認識精度を向上させる効果がある。

また、実施の形態１では、建物の階数を認識対象として説明したが、これに限らず促音の有無に違いがある他の単語間でも促音スコアによって認識スコアを修正するリスコアリングすることにより、促音の有無に違いがある単語間での誤認識を低減させる効果がある。

なお、本例では促音スコア１４は式（３）または式（４）で算出したが、他にも継続時間長の分布として正規分布を仮定し、継続時間計測量メモリ１２の（ａ）発話の促音による無音区間の継続時間長の平均値と分散、（ｂ）発話の促音以外による無音区間の継続時間長の平均値と分散、を用いて、促音の無音区間の継続時間長分布と促音以外の無音区間の継続時間長分布対数確率密度差等を促音スコア１４として用いてもよい。
また測定した無音区間の継続時間長に対して増加関数となる他の関数を用いてよく、同様の効果を得ることができる。

また、本実施の形態では、パワー値が所定の閾値以下になった区間を無音区間とみなし継続時間長を算出したが、入力音声３に騒音や残響が重畳した場合には、無音区間のパワー値が増加するため、特に発話の無音区間の始端Ｔ１の検出精度が低下する場合がある。
このような場合には、発話の無音区間の始端Ｔ１の代わりに、発話の語頭のパワー値が最大となる時点Ｔ３を用い、この発話の語頭のパワー値が最大となる時点Ｇ３から発話の無音区間の終端Ｔ２までの継続時間を発話の無音区間の継続時間長としてもよい。
このように、発話の語頭のパワー値が最大となる時点Ｔ３から発話の無音区間の終端Ｔ２までの継続時間を発話の無音区間の継続時間長とすることによって、騒音や残響があっても安定して促音の無音区間の継続時間を測定できる効果がある。

図６は、入力音声の残響の有無別に促音の無音区間に関する継続時間とパワーを示す図である。ここでは、「いっかい」という発話に対する、発話の語頭のパワー値が最大となる時点から発話の無音区間の終端までの継続時間の測定例を示している。
図６で、前記継続時間はＤｘ２で示している。図６の（ａ）が残響無しの場合、図６の（ｂ）が残響ありの場合である。
図６から発話の無音区間の継続時間長Ｄｘを算出することにより、残響があっても安定して促音の無音区間に関する継続時間を測定できることが判る。
このことから、例えば、入力音声３に騒音や残響がある場合に、発話の語頭のパワー値が最大となる時点から発話の無音区間の終端までの継続時間によって発話の無音区間の継続時間長Ｄｘを式（７）により算出する。

Ｄｘ＝Ｔ３−Ｔ２・・・式（７）
式中でＤｘは発話の無音区間の継続時間長、Ｔ３は発話の語頭のパワー値が最大となる時点、Ｔ２は発話の無音区間の終端である。

また、本実施の形態では、リスコアリング手段１８で修正認識スコア１６の高い順に並び替えられた複数の単語を最終認識結果１７として音声認識装置１から出力するとしているが、リスコアリング手段１１で修正認識スコア１６が最も高い１つの単語を最終認識結果１７として出力するようにしてもよい。このように構成することで、音声認識装置１から出力された単語をそのまま音声認識の結果として利用することができる。

実施の形態２．
次に、実施の形態２について図７を用いて説明する。
図７は、この発明による音声認識装置１の実施の形態２の構成を示すブロック図である。図１と同一符号は同一又は相当部分を示し説明を省略する。
図７は、図１の全体構成に対して新たに単語対メモリ２２が追加され、促音スコア算出手段１５に接続されている。
実施の形態２では、促音スコア算出手段１５で中間認識結果１０の認識スコア単語の対について促音の有無が異なる対が存在するか否かを調べる代わりに、促音スコア１４の計算対象とする単語の対２３を単語対メモリ２２に予め記憶しておくことが異なる。
以下、実施の形態２においても建物の階数を認識対象とする場合を例に説明する。

単語対メモリ２２には、促音スコア１４の計算対象とする単語の対（照合手段１１によって出力された認識候補の単語のひらがな表記の対）２３を保持する。
図８は、単語対メモリ２２で保持する単語の対２３の例である。
図８の各行が１組の対を表している。例えば、図中の１行目には「いっかい」と「にかい」、２行目には「にかい」と「じゅっかい」、３行目には「よんかい」と「ろっかい」、４行目には「ごかい」と「ろっかい」、５行目には「きゅーかい」と「じゅっかい」等が単語の対として保持されている。

次に、実施の形態２における音声認識装置１の動作について説明する。
入力端２から入力音声３が入力されると、分析手段６および照合手段１１は実施の形態１と同様に動作し、照合手段１１は認識スコア９を算出し、認識スコア９の高い上位Ｎ個の中間認識結果１０を出力する。本例ではＮ＝３とする。前記中間認識結果１０は、複数の単語の単語番号（図示せず）とひらがな表記（図示せず）と認識スコア９から構成される。
中間認識結果１０は、ひらがな表記を含む構成の代わりに音素表記を含む構成であってもよい。

促音スコア算出手段１５は、中間認識結果１０のひらがな表記を参照し、中間認識結果１０の１位と２位以下の単語の対が、単語対メモリ２２で保持する単語の対２３の中に存在するか否かを調べる。
中間認識結果１０の１位と２位以下の単語の対が、単語対メモリ２２で保持する単語の対２３の中に存在しない場合は、促音スコア１４Ｓｑの値として０を出力する。
例えば、中間認識結果１０の１位が「さんかい」、２位が「にかい」、３位が「ごかい」で、単語対メモリ２２が保持する単語の対２３が図８の場合、１位と２位の対である「さんかい」と「にかい」、および１位と３位の対である「さんかい」と「ごかい」の対はいずれも単語対メモリ２２中に存在しないため、促音スコア１４Ｓｑの値として０を出力する。

一方、中間認識結果１０の１位と２位以下の単語の対が、単語対メモリ２２が保持する単語の対２３の中に存在する場合は、実施の形態１と同様に促音スコアを算出して出力する。
例えば、中間認識結果１０の１位が「いっかい」、２位が「にかい」の場合、単語対メモリ２２が保持する単語の対２３の中の１行目に「いっかい」と「にかい」の対が存在するので促音スコア１４を算出して出力する。

次に、リスコアリング手段１８は、促音スコア算出手段１５で算出した促音スコア１４と照合手段１１で出力された中間認識結果１０を入力とし、最終認識結果１７を決定して出力する。最終認識結果１７の決定は実施の形態１と同様の手順で行う。

以上説明した通り、本実施の形態２では、促音の単語を含む単語の対２３を単語対メモリ２２に登録しておくことにより、この単語の対２３と中間認識結果１０の認識スコア９の高い順に１位の単語と２位以下の単語の対とを対応させて、一致すると促音スコア１４を算出して修正認識スコア１６を計算するので、実施の形態１のように促音の有無が異なる対が存在するか否かを調べるよりも促音スコア１４および修正認識スコア１６を計算するための演算量を抑える効果がある。

なお、本例では促音スコア１４は式（３）または式（４）で算出したが、他にも継続時間長の分布として正規分布を仮定し、促音の継続時間長分布とそれ以外の発話の無音区間の継続時間長分布対数確率密度差等を促音スコアとして用いてもよい。
また測定した無音区間の継続時間長に対して増加関数となる他の関数を用いてよく、同様の効果を得ることができる。

また、本実施の形態２では、パワー値が所定の閾値以下になった区間を無音区間とみなし継続時間長を算出したが、入力音声に騒音や残響が重畳した場合には、無音区間のパワーが増加するため、特に発話の無音区間の始端の検出精度が低下する場合がある。このような場合には発話の無音区間の始端Ｔ１の代わりに、発話語頭のパワーが最大となる時点Ｔ３を用い、この語頭のパワーが最大となる時点から発話の無音区間の終端Ｔ２までの継続時間を発話の無音区間の継続時間長としてもよい。これによって騒音や残響があっても安定して継続時間が測定できる効果がある。

１音声認識装置、２入力端、３入力音声、４特徴ベクトル５パワー情報、６分析手段、７音響モデルメモリ、８音響モデル、９認識スコア、１０中間認識結果、１１照合手段、１２継続時間統計量メモリ、１３促音の無音区間に関する継続時間情報、１４促音スコア、１５促音スコア算出手段、１６修正認識スコア、１７最終認識結果、１８リスコアリング手段、１９促音の無音区間の分布、２０促音以外（破裂音）の無音区間の分布、２１促音継続時間境界値Ｄｘ、２２単語対メモリ、２３単語の対。

Claims

入力音声を分析して特徴ベクトルを出力する分析手段と、
該分析手段で出力された特徴ベクトルと、予め記憶され単語の特徴ベクトルをモデル化した音響モデルの特徴ベクトルと、を照合して前記単語の第１の認識スコアを算出し、該第１の認識スコアに基づいて前記入力音声の認識候補である複数の単語を出力する第１の認識手段と、
該第１の認識手段で出力された認識候補の第１の認識スコアが最も高い第１の単語と、該第１の単語以外の第２の単語との対について所定の条件を満たす単語の対が存在するか否かを判定し、存在する場合には認識候補である前記複数の単語の中で促音が存在する単語について前記音響モデルの無音区間の特徴ベクトルを用いて入力音声の無音区間を検出し、該無音区間の継続時間に基づいて、前記複数の単語に対する促音らしさを数値化した促音スコアを算出し、存在しない場合には前記促音スコアを所定の値とする促音スコア算出手段と、
前記第１の認識手段で算出された第１の認識スコアと前記促音スコア算出手段によって算出された促音スコアとに基づいて前記複数の単語の第２の認識スコアを算出し、該第２の認識スコアに基づいて前記入力音声の認識結果を出力する第２の認識手段と、
を備えたことを特徴とする音声認識装置。
前記促音スコア算出手段での所定の条件は、促音の有無が異なる対であることを特徴とする請求項１記載の音声認識装置。
前記分析手段は、入力音声を分析して更にパワー情報を出力し、
前記促音スコア算出手段は、前記無音区間の始端と終端をパワー情報を用いて修正することを特徴とする請求項１または請求項２記載の音声認識装置。
前記促音スコア算出手段は、前記無音区間の継続時間と、予め記憶された促音と促音以外の無音区間の継続時間長の境界値とに基づいて前記促音スコアを算出することを特徴とする請求項１〜３のいずれか１項に記載の音声認識装置。
促音スコア算出手段での所定の条件は、予め記憶された単語の対と一致することを特徴とする請求項１〜４のいずれか１項に記載の音声認識装置。
音声認識装置による音声の認識結果を出力する方法において、
前記音声認識装置の分析手段で、入力音声を分析して特徴ベクトルを出力する分析ステップと、
前記音声認識装置の第１の認識手段で、前記分析ステップで出力された特徴ベクトルと、予め記憶され単語の特徴ベクトルをモデル化した音響モデルの特徴ベクトルと、を照合して前記単語の第１の認識スコアを算出し、該第１の認識スコアに基づいて前記入力音声の認識候補である複数の単語を出力する第１の認識ステップと、
前記音声認識装置の促音スコア算出手段で、前記第１の認識ステップで出力された認識候補の第１の認識スコアが最も高い第１の単語と、該第１の単語以外の第２の単語との対について所定の条件を満たす単語の対が存在するか否かを判定し、存在する場合には認識候補である前記複数の単語の中で促音が存在する単語について前記音響モデルの無音区間の特徴ベクトルを用いて入力音声の無音区間を検出し、該無音区間の継続時間に基づいて、前記複数の単語に対する促音らしさを数値化した促音スコアを算出し、存在しない場合には前記促音スコアを所定の値とする促音スコア算出ステップと、
前記音声認識装置の第２の認識手段で、前記第１の認識ステップで算出された第１の認識スコアと前記促音スコア算出ステップで算出された促音スコアとに基づいて前記複数の単語の第２の認識スコアを算出し、該第２の認識スコアに基づいて前記入力音声の認識結果を出力する第２の認識ステップと、
を備えたことを特徴とする音声認識方法。