JP5895501B2 - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法 Download PDF

Info

Publication number
JP5895501B2
JP5895501B2 JP2011273199A JP2011273199A JP5895501B2 JP 5895501 B2 JP5895501 B2 JP 5895501B2 JP 2011273199 A JP2011273199 A JP 2011273199A JP 2011273199 A JP2011273199 A JP 2011273199A JP 5895501 B2 JP5895501 B2 JP 5895501B2
Authority
JP
Japan
Prior art keywords
recognition
score
word
speech
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2011273199A
Other languages
English (en)
Other versions
JP2013125119A (ja
Inventor
利行 花沢
利行 花沢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2011273199A priority Critical patent/JP5895501B2/ja
Publication of JP2013125119A publication Critical patent/JP2013125119A/ja
Application granted granted Critical
Publication of JP5895501B2 publication Critical patent/JP5895501B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声の認識結果をリスコアリングし認識精度を改善する音声認識装置に関するものである。
音声認識は一般に入力音声の特徴ベクトルと予め用意した音響モデルの特徴ベクトルとの間でビタビアルゴリズムやDPマッチングと呼ばれる動的計画法を用いたパターンマッチングを行い、類似度が一番高い標準パターンを認識結果とする。さらに音声の継続時間長の情報もパターンマッチングの類似度に反映させることに認識精度が向上する場合があることが知られている。
また、音声の継続時間長の情報もパターンマッチングの類似度に反映させるには、ビタビアルゴリズムやDPマッチングの演算量が非常に大きくなるという問題があり、文献1では、少ない演算量でパターンマッチングの類似度に反映させる技術が開示されている。
特許第2845019号
しかし、例えば「1階(いっかい)」と「2階(にかい)」のように音響的には類似しているが、発話の促音「っ」の有無に違いがあるような単語の認識に対しては十分な認識性能の向上が得られないという課題がある。
これは、(1)通常の音響モデルでは音声のモデルと無音(促音)のモデルとの境界は実際の音声・無音境界とは必ずしも一致しないため、従来の継続時間長を考慮に入れたパターンマッチングでは促音の有無を精度よく認識スコアに反映できない、(2)認識スコアは発話区間全体を均等に評価して算出するため、促音の無音区間で認識スコアに多少の差がついても、他の部分のスコア差に埋もれてしまう可能性がある、等の理由によるものである。
この発明は上記課題を解決するためになされたもので、音声の認識結果をリスコアリングし認識精度を向上させることを目的とする。
この発明に係る音声認識装置は、入力音声を分析して特徴ベクトルを出力する分析手段と、該分析手段で出力された特徴ベクトルと、予め記憶され単語の特徴ベクトルをモデル化した音響モデルの特徴ベクトルと、を照合して前記単語の第1の認識スコアを算出し、該第1の認識スコアに基づいて前記入力音声の認識候補である複数の単語を出力する第1の認識手段と、該第1の認識手段で出力された認識候補の第1の認識スコアが最も高い第1の単語と、該第1の単語以外の第2の単語との対について所定の条件を満たす単語の対が存在するか否かを判定し、存在する場合には認識候補である前記複数の単語の中で促音が存在する単語について前記音響モデルの無音区間の特徴ベクトルを用いて入力音声の無音区間を検出し、該無音区間の継続時間に基づいて、前記複数の単語に対する促音らしさを数値化した促音スコアを算出し、存在しない場合には前記促音スコアを所定の値とする促音スコア算出手段と、前記第1の認識手段で算出された第1の認識スコアと前記促音スコア算出手段によって算出された促音スコアとに基づいて前記複数の単語の第2の認識スコアを算出し、該第2の認識スコアに基づいて前記入力音声の認識結果を出力する第2の認識手段と、を備えたものである。
この発明は、入力音声の特徴ベクトルと音響モデルの単語の特徴ベクトルを照合して、認識候補の複数の単語と第1の認識スコアを出力し、出力された複数の単語に対する促音スコアを算出して、第1の認識スコアと促音スコアに基づいて算出した第2の認識スコアの順に入力音声の認識結果を出力するので、促音の有無に違いがある単語間での認識精度を向上することができる。
この発明の実施の形態1における音声認識装置1の構成図である。 この発明の実施の形態1における継続時間計測量メモリ12で保持するデータを算出する処理のフロー図である。 この発明の実施の形態1における促音に関する継続時間と確率密度を示す図である。 この発明の実施の形態1における促音スコアを算出する処理のフロー図である。 この発明の実施の形態1におけるリスコアリング手段18で最終認識結果17を決定する処理のフロー図である。 この発明の実施の形態1における入力音声の残響有無別に促音に関する継続時間とパワーを示す図である。 この発明の実施の形態2における音声認識装置1の構成図である。 この発明の実施の形態2における単語対メモリ22が保持する単語の対23の例である。
実施の形態1.
図1はこの発明による音声認識装置の実施の形態1の構成を示すブロック図である。
図1の音声認識装置1は、音声認識装置1の外部から音声信号が入力される入力端2と、入力端2から入力された入力音声(入力音声信号)3と、入力音声3を分析し入力音声3の特徴ベクトル4とパワー情報5を出力する分析手段6と、分析手段6から出力された特徴ベクトル4と音響モデルメモリ7に格納されている音響モデル8とを照合して認識スコア(第1の認識スコア)9を算出し、認識スコア9の高い順に入力音声3の認識候補である複数の単語と各単語の認識スコアを中間認識結果10として出力する照合手段(第1の認識手段)11と、照合手段11から出力された中間認識結果10の複数の単語に対して継続時間統計量メモリ12に格納されている促音の無音区間に関する継続時間情報13を用いて促音スコア14を出力する促音スコア算出手段15と、促音スコア算出手段15で出力された促音スコア14を用いて照合手段11で算出された複数の各単語の認識スコア9を修正した修正認識スコア(第2の認識スコア)16を算出し、修正認識スコア16の高い順に複数の単語を最終認識結果17として出力するリスコアニング手段(第2の認識手段)18から構成されている。
入力端2はマイク等からの音声が音声信号として入力されるライン入力端子である。
特徴ベクトル3は、例えばMFCC(Mel Frequency Cepstral Coefficient)とする。
音響モデルメモリ7には、音声認識する対象の単語の特徴ベクトルをモデル化した音響モデルが格納されている。
音響モデル8は、例えばHMM(Hidden Markov Moderl)とする。
継続時間計測量メモリ12については後述する。
促音スコア14は、発話の無音区間を検出して、無音区間が促音らいしいか否かを数値化したものである。
次に、継続時間計測量メモリ12について説明する。
継続時間計測量メモリ12には、促音の無音区間に関する継続時間情報13として以下のデータを算出し保持しておく。
(a)発話の促音による無音区間の継続時間長の平均値と分散
(b)発話の促音以外による無音区間の継続時間長の平均値と分散
(c)発話の促音と促音以外による無音区間の継続時間長の境界値Db
なお以後、表現を簡潔にするため、前記「促音と促音以外による無音区間の継続時間長の境界値Db」を「促音継続時間境界値Db」と記す。
次に、継続時間継続量メモリ12で保持するデータ(促音の無音区間に関する継続時間情報13)を算出する手順について説明する。
図2は、継続時間計測量メモリ12で保持するデータを算出する処理のフロー図である。
(手順1)発話の促音による無音区間がある単語と、促音以外による無音区間がある単語のそれぞれに対して複数個の発話のデータを用意し、各発話の無音区間の継続時間長を算出する(S101)。
なお促音以外の無音区間がある単語とは、発話の中に破裂音(「か」行、「た」行、「が」行、「だ」行、「ぱ」行、「ば」行の子音)等を含む単語である。
まず、発話の無音区間について、継続時間長を算出する方法の例を述べる。
(1−1)各発話と、音声認識する対象の単語の特徴ベクトルをモデル化した音響モデルをビタビアルゴリズムによって対応付け、その結果をトレースバックして発話の無音区間を検出する。
(1−2)上記(1−1)で検出した無音区間に対して音声パワー(以後、パワーと記す)を用い、検出した無音区間の始端から予め設定した所定の時間だけ遡った時点から時間軸の順方向にパワー値を調べ、予め設定した閾値以下となる時点を促音の無音区間の始端とする。この始端をT1とする。同様に前記トレースバックによって検出した無音区間の終端から予め設定した所定の時間だけ後方の時点から時間軸の逆方向にパワー値を調べ、パワー値が予め設定した閾値以下となる時点を無音区間の終端とする。この終端をT2とする。
このようにパワー情報を用いて促音の無音区間を決定することにより、パターンマッチングの結果をトレースバックして検出した区間よりも正確に促音の無音区間を決定できる。
発話の無音区間の始端T1と終端T2から、発話の無音区間の継続時間長Dxを下記のとおり式(1)で算出する。
Dx=T2−T1 ・・・ 式(1)

式中でDxは発話の無音区間の継続時間長、T2は発話の無音区間の始端、T2は発話の無音区間の終端である。
(手順2)上記(手順1)で算出した継続時間長Dxのデータを促音のデータと、それ以外(すなわち破裂音)のデータの2カテゴリに分け、カテゴリごとに継続時間長の平均値と分散を算出する(S102)。
(手順3)各カテゴリの継続時間長の分布として正規分布を仮定し、上記(手順2)で算出した平均と分散に基づき、促音のデータと、それ以外のデータで、両者の確率密度が等しくなる継続時間を促音継続時間境界値Dbとして算出する(S103)。
図3は、促音の無音区間に関する継続時間と確立密度を示す図である。
図3では、継続時間と確率密度に関する促音の無音区間の分布19と促音以外の無音区間の分布20とを示し、促音の分布19と促音以外の発話の無音区間の分布20とが重なる継続時間、即ち確立密度が等しくなる継続時間が促音継続時間境界値Db21であることを示している。
次に、音声認識装置1の動作について説明する。
実施の形態1では、建物の階数を認識対象とする場合を例として説明する。
入力端2から入力音声3が入力されると、分析手段6は入力音声3を特徴ベクトル4およびパワー情報5に変換して出力する。
そして、照合手段11は、音響モデルメモリ7に格納されている音響モデル8を用いて、例えばビタビアルゴリズムによって前記特徴ベクトル4とパターンマッチングを行う。そして、単語に対する認識スコア9を算出して、認識スコア9の高い上位N個の単語を中間認識結果10として出力する。本例ではN=3とする。前記中間認識結果10は、各単語の単語番号(図示せず)とひらがな表記(図示せず)と認識スコア9から構成される。
ここでは、中間認識結果10としてひらがな表記を含む構成として説明するが、音素表記を含む構成であってもよい。
そして、促音スコア算出手段15は中間認識結果10のひらがな表記を参照し、中間認識結果10の認識スコア9が高い順に1位と2位以下の単語の対で、促音の有無が異なる対が存在するか否かを調べる。
促音の有無が異なる対が存在しない場合は、促音スコア14Sqの値として0を出力する。
例えば中間認識結果10の1位が「さんかい」、2位が「にかい」、3位が「ごかい」の場合、1位の発話の無音区間は「か」の子音/k/の閉鎖区間だけであり促音を含まない。同様に2位、3位の単語も促音を含まないため、1位と2位の対である「さんかい」と「にかい」、および1位と3位の対である「さんかい」と「ごかい」の対はいずれも促音を含まない単語の対であるため、促音スコア14Sqの値として0を出力する。
一方、促音の有無が異なる対が存在する場合は、後述する手順で促音スコア14を算出して出力する。
例えば中間認識結果10の1位が「いっかい」、2位が「にかい」の場合、1位は促音を含み、2位は含まないため、1位と2位の対では促音の有無が異なるので促音スコア14を算出して出力する。
以下に、促音スコア算出手段15で促音スコア14を算出する手順について説明する。
図4は、促音スコア算出手段15で促音スコア14を算出する処理のフロー図である。
(手順1)図1の入力音声3の単語の中の無音区間を検出する。
この無音区間の検出方法としては、例えば中間認識結果10の中で促音が存在する単語について音響モデルメモリ7の音響モデル8を用いて、例えばビタビアルゴリズムによって、入力音声3と促音が存在する単語のモデルとのパターンマッチングを行いトレースバックすることにより、入力音声3の単語の中の無音区間を検出することができる。
さらに検出した無音区間に対して、分析手段6で出力したパワー情報5を用いて、無音区間の始端から予め設定した所定の時間だけ遡った時点から時間軸の順方向にパワー値を調べ、予め設定した閾値以下となる時点を促音の無音区間の始端とし、この始端をT1とする。
同様に前記トレースバックによって検出した無音区間の終端から予め設定した所定の時間だけ後方の時点から時間軸の逆方向にパワー値を調べ、パワー値が予め設定した閾値以下となる時点を無音区間の終端とし、この終端をT2とする。
このようにパワー情報5を用いて促音の無音区間を決定することにより、パターンマッチングの結果をトレースバックして検出した区間よりも正確に発話の無音区間を決定できる。
発話の無音区間の始端T1と終端T2から、発話の無音区間の継続時間長Dxを下記のとおり算出する。(S201)
Dx=T2−T1 ・・・ 式(2)
式中でDxは発話の無音区間の継続時間長、T2は発話の無音区間の始端、T2は発話の無音区間の終端である。
(手順2)次に継続時間統計量メモリ12に保持しているパワー情報を用いた促音の無音区間に関する継続時間情報13の促音継続時間境界値Dbを参照して、例えば式(3)または式(4)によって促音スコア14Sqを算出する(S202)。
Sq=(Dx−Db)α(Dx≧Dbの場合) ・・・ 式(3)
Sq=−(Db−Dx)α(Dx<Dbの場合) ・・・ 式(4)

式中でSqは促音スコア14、Dxは発話の無音区間の継続時間長、Dbは継続時間情報13の促音継続時間境界値Db、αは実験的に定めた定数である。
式(3)からわかるとおり、促音スコア14Sqは継続時間長Dxが促音継続時間境界値Db以上の場合0以上の値となる。逆に式(4)ではDxがDbより小さい場合、促音スコア14Sqは負の値となる。このSqを促音らしさのスコアとして使用する。
次に、リスコアリング手段18は、促音スコア算出手段15で算出した促音スコア14と照合手段11で出力された中間認識結果10を入力とし、最終認識結果17を決定して出力する。
図5は、リスコアリング手段18で音声認識装置1の最終的な認識結果である最終認識結果17を決定する処理のフロー図である。
(手順1)促音スコア14Sqの値を判定し(S301)、促音スコア14Sqの値が0である場合は、認識スコア9Sを修正せずに中間認識結果10をそのまま、最終認識結果17として出力する(S202)。
(手順2)促音スコア14Sqが0でない場合であって、発話の無音区間に促音を含む単語の候補に対しては、式(5)に示すとおり促音スコア14Sqをβ倍して、照合手段11で算出された中間認識結果10の各単語の認識スコア9Sに加算して修正認識スコア16(修正後の認識スコア)S’1を求める。ここでβは実験的に定めた正の定数である。
例えば「いっかい」は発話の無音区間が促音なので、修正認識スコア16S’1を求める。
一方、発話の無音区間に促音を含まない単語の候補に対しては、式(6)に示すとおり促音スコア14Sqをβ倍して減算した修正認識スコア16(修正後の認識スコア)S’2を求める。
例えば「にかい」は発話の無音区間が促音ではないので、修正認識スコア16S’2を求める。(S303)
S’1=S+β*Sq ・・・ 式(5)
S’2=S−β*Sq ・・・ 式(6)
式中の記号の意味は以下のとおりである。
S’1:発話の無音区間が促音である単語の修正認識スコア16
S’2:発話の無音区間が促音ではない単語の修正認識スコア16
S:当該単語の修正前の(中間認識結果10の)認識スコア9
Sq:促音スコア14
β:実験的に定めた定数
(手順3)上記手順で算出した修正認識スコア16が高い順に中間認識結果10を並べ替え、音声認識装置1の最終認識結果17として出力する(S304)。
以上が音声認識装置1の動作である。
このように、修正認識スコアを計算することにより、促音スコア14が正の値すなわち発話の無音区間が促音らしい場合には、中間認識結果10の単語の対のうち、「いっかい」のような発話の中に促音を含む単語に対しては認識スコア9が増加するように修正され、「にかい」のような促音を含まない単語に対しては認識スコア9が減少するように修正されて修正認識スコア16が計算されるので、促音を含む単語の認識順位を上位に修正する作用がある。
逆に促音スコア14が負の値すなわち発話の無音区間が促音らしくない場合には、中間認識結果10の単語の対のうち、「いっかい」のような発話の中に促音を含む単語に対しては認識スコア9が減少するように修正され、「にかい」のような促音を含まない単語に対しては認識スコア9が増加するように修正されて修正認識スコア16が計算されるので、促音を含まない単語の認識順位を上位に修正する作用がある。
以上説明したとおり、入力音声3の特徴ベクトル4と音響モデル8の単語の特徴ベクトルとを照合して、認識スコア9の上位の複数の単語を中間認識結果として出力し、認識スコア9の1位の単語と2位以下の単語の対について、促音の有無の異なる対があれば入力音声3から無音区間を検出し、パワー情報5を用いて修正した無音区間の継続時間と、促音と促音以外による無音区間の継続時間長の境界値と、を用いて促音スコアを算出し、認識スコア9を促音スコア14でリスコアリングして最終認識結果17を出力するので、「いっかい」と「にかい」、「にかい」と「じゅっかい」のように促音の有無に違いがある単語間での認識精度を向上させる効果がある。
即ち、音声の認識結果の中の特定の一部の無音区間を検証して、認識結果をリスコアリングするので、促音の有無に違いがある単語間での認識精度を向上させる効果がある。
また、実施の形態1では、建物の階数を認識対象として説明したが、これに限らず促音の有無に違いがある他の単語間でも促音スコアによって認識スコアを修正するリスコアリングすることにより、促音の有無に違いがある単語間での誤認識を低減させる効果がある。
なお、本例では促音スコア14は式(3)または式(4)で算出したが、他にも継続時間長の分布として正規分布を仮定し、継続時間計測量メモリ12の(a)発話の促音による無音区間の継続時間長の平均値と分散、(b)発話の促音以外による無音区間の継続時間長の平均値と分散、を用いて、促音の無音区間の継続時間長分布と促音以外の無音区間の継続時間長分布対数確率密度差等を促音スコア14として用いてもよい。
また測定した無音区間の継続時間長に対して増加関数となる他の関数を用いてよく、同様の効果を得ることができる。
また、本実施の形態では、パワー値が所定の閾値以下になった区間を無音区間とみなし継続時間長を算出したが、入力音声3に騒音や残響が重畳した場合には、無音区間のパワー値が増加するため、特に発話の無音区間の始端T1の検出精度が低下する場合がある。
このような場合には、発話の無音区間の始端T1の代わりに、発話の語頭のパワー値が最大となる時点T3を用い、この発話の語頭のパワー値が最大となる時点G3から発話の無音区間の終端T2までの継続時間を発話の無音区間の継続時間長としてもよい。
このように、発話の語頭のパワー値が最大となる時点T3から発話の無音区間の終端T2までの継続時間を発話の無音区間の継続時間長とすることによって、騒音や残響があっても安定して促音の無音区間の継続時間を測定できる効果がある。
図6は、入力音声の残響の有無別に促音の無音区間に関する継続時間とパワーを示す図である。ここでは、「いっかい」という発話に対する、発話の語頭のパワー値が最大となる時点から発話の無音区間の終端までの継続時間の測定例を示している。
図6で、前記継続時間はDx2で示している。図6の(a)が残響無しの場合、図6の(b)が残響ありの場合である。
図6から発話の無音区間の継続時間長Dxを算出することにより、残響があっても安定して促音の無音区間に関する継続時間を測定できることが判る。
このことから、例えば、入力音声3に騒音や残響がある場合に、発話の語頭のパワー値が最大となる時点から発話の無音区間の終端までの継続時間によって発話の無音区間の継続時間長Dxを式(7)により算出する。
Dx=T3−T2 ・・・ 式(7)
式中でDxは発話の無音区間の継続時間長、T3は発話の語頭のパワー値が最大となる時点、T2は発話の無音区間の終端である。
また、本実施の形態では、リスコアリング手段18で修正認識スコア16の高い順に並び替えられた複数の単語を最終認識結果17として音声認識装置1から出力するとしているが、リスコアリング手段11で修正認識スコア16が最も高い1つの単語を最終認識結果17として出力するようにしてもよい。このように構成することで、音声認識装置1から出力された単語をそのまま音声認識の結果として利用することができる。
実施の形態2.
次に、実施の形態2について図7を用いて説明する。
図7は、この発明による音声認識装置1の実施の形態2の構成を示すブロック図である。図1と同一符号は同一又は相当部分を示し説明を省略する。
図7は、図1の全体構成に対して新たに単語対メモリ22が追加され、促音スコア算出手段15に接続されている。
実施の形態2では、促音スコア算出手段15で中間認識結果10の認識スコア単語の対について促音の有無が異なる対が存在するか否かを調べる代わりに、促音スコア14の計算対象とする単語の対23を単語対メモリ22に予め記憶しておくことが異なる。
以下、実施の形態2においても建物の階数を認識対象とする場合を例に説明する。
単語対メモリ22には、促音スコア14の計算対象とする単語の対(照合手段11によって出力された認識候補の単語のひらがな表記の対)23を保持する。
図8は、単語対メモリ22で保持する単語の対23の例である。
図8の各行が1組の対を表している。例えば、図中の1行目には「いっかい」と「にかい」、2行目には「にかい」と「じゅっかい」、3行目には「よんかい」と「ろっかい」、4行目には「ごかい」と「ろっかい」、5行目には「きゅーかい」と「じゅっかい」等が単語の対として保持されている。
次に、実施の形態2における音声認識装置1の動作について説明する。
入力端2から入力音声3が入力されると、分析手段6および照合手段11は実施の形態1と同様に動作し、照合手段11は認識スコア9を算出し、認識スコア9の高い上位N個の中間認識結果10を出力する。本例ではN=3とする。前記中間認識結果10は、複数の単語の単語番号(図示せず)とひらがな表記(図示せず)と認識スコア9から構成される。
中間認識結果10は、ひらがな表記を含む構成の代わりに音素表記を含む構成であってもよい。
促音スコア算出手段15は、中間認識結果10のひらがな表記を参照し、中間認識結果10の1位と2位以下の単語の対が、単語対メモリ22で保持する単語の対23の中に存在するか否かを調べる。
中間認識結果10の1位と2位以下の単語の対が、単語対メモリ22で保持する単語の対23の中に存在しない場合は、促音スコア14Sqの値として0を出力する。
例えば、中間認識結果10の1位が「さんかい」、2位が「にかい」、3位が「ごかい」で、単語対メモリ22が保持する単語の対23が図8の場合、1位と2位の対である「さんかい」と「にかい」、および1位と3位の対である「さんかい」と「ごかい」の対はいずれも単語対メモリ22中に存在しないため、促音スコア14Sqの値として0を出力する。
一方、中間認識結果10の1位と2位以下の単語の対が、単語対メモリ22が保持する単語の対23の中に存在する場合は、実施の形態1と同様に促音スコアを算出して出力する。
例えば、中間認識結果10の1位が「いっかい」、2位が「にかい」の場合、単語対メモリ22が保持する単語の対23の中の1行目に「いっかい」と「にかい」の対が存在するので促音スコア14を算出して出力する。
次に、リスコアリング手段18は、促音スコア算出手段15で算出した促音スコア14と照合手段11で出力された中間認識結果10を入力とし、最終認識結果17を決定して出力する。最終認識結果17の決定は実施の形態1と同様の手順で行う。
以上説明した通り、本実施の形態2では、促音の単語を含む単語の対23を単語対メモリ22に登録しておくことにより、この単語の対23と中間認識結果10の認識スコア9の高い順に1位の単語と2位以下の単語の対とを対応させて、一致すると促音スコア14を算出して修正認識スコア16を計算するので、実施の形態1のように促音の有無が異なる対が存在するか否かを調べるよりも促音スコア14および修正認識スコア16を計算するための演算量を抑える効果がある。
なお、本例では促音スコア14は式(3)または式(4)で算出したが、他にも継続時間長の分布として正規分布を仮定し、促音の継続時間長分布とそれ以外の発話の無音区間の継続時間長分布対数確率密度差等を促音スコアとして用いてもよい。
また測定した無音区間の継続時間長に対して増加関数となる他の関数を用いてよく、同様の効果を得ることができる。
また、本実施の形態2では、パワー値が所定の閾値以下になった区間を無音区間とみなし継続時間長を算出したが、入力音声に騒音や残響が重畳した場合には、無音区間のパワーが増加するため、特に発話の無音区間の始端の検出精度が低下する場合がある。このような場合には発話の無音区間の始端T1の代わりに、発話語頭のパワーが最大となる時点T3を用い、この語頭のパワーが最大となる時点から発話の無音区間の終端T2までの継続時間を発話の無音区間の継続時間長としてもよい。これによって騒音や残響があっても安定して継続時間が測定できる効果がある。
1 音声認識装置、2 入力端、3 入力音声、4 特徴ベクトル5 パワー情報、6 分析手段、7 音響モデルメモリ、8 音響モデル、9 認識スコア、10 中間認識結果、11 照合手段、12 継続時間統計量メモリ、13 促音の無音区間に関する継続時間情報、14 促音スコア、15 促音スコア算出手段、16 修正認識スコア、17 最終認識結果、18 リスコアリング手段、19 促音の無音区間の分布、20 促音以外(破裂音)の無音区間の分布、21 促音継続時間境界値Dx、22 単語対メモリ、23 単語の対。

Claims (6)

  1. 入力音声を分析して特徴ベクトルを出力する分析手段と、
    該分析手段で出力された特徴ベクトルと、予め記憶され単語の特徴ベクトルをモデル化した音響モデルの特徴ベクトルと、を照合して前記単語の第1の認識スコアを算出し、該第1の認識スコアに基づいて前記入力音声の認識候補である複数の単語を出力する第1の認識手段と、
    該第1の認識手段で出力された認識候補の第1の認識スコアが最も高い第1の単語と、該第1の単語以外の第2の単語との対について所定の条件を満たす単語の対が存在するか否かを判定し、存在する場合には認識候補である前記複数の単語の中で促音が存在する単語について前記音響モデルの無音区間の特徴ベクトルを用いて入力音声の無音区間を検出し、該無音区間の継続時間に基づいて、前記複数の単語に対する促音らしさを数値化した促音スコアを算出し、存在しない場合には前記促音スコアを所定の値とする促音スコア算出手段と、
    前記第1の認識手段で算出された第1の認識スコアと前記促音スコア算出手段によって算出された促音スコアとに基づいて前記複数の単語の第2の認識スコアを算出し、該第2の認識スコアに基づいて前記入力音声の認識結果を出力する第2の認識手段と、
    を備えたことを特徴とする音声認識装置。
  2. 前記促音スコア算出手段での所定の条件は、促音の有無が異なる対であることを特徴とする請求項記載の音声認識装置。
  3. 前記分析手段は、入力音声を分析して更にパワー情報を出力し、
    前記促音スコア算出手段は、前記無音区間の始端と終端をパワー情報を用いて修正することを特徴とする請求項または請求項記載の音声認識装置。
  4. 前記促音スコア算出手段は、前記無音区間の継続時間と、予め記憶された促音と促音以外の無音区間の継続時間長の境界値とに基づいて前記促音スコアを算出することを特徴とする請求項1〜3のいずれか1項に記載の音声認識装置。
  5. 促音スコア算出手段での所定の条件は、予め記憶された単語の対と一致することを特徴とする請求項1〜4のいずれか1項に記載の音声認識装置。
  6. 音声認識装置による音声の認識結果を出力する方法において、
    前記音声認識装置の分析手段で、入力音声を分析して特徴ベクトルを出力する分析ステップと、
    前記音声認識装置の第1の認識手段で、前記分析ステップで出力された特徴ベクトルと、予め記憶され単語の特徴ベクトルをモデル化した音響モデルの特徴ベクトルと、を照合して前記単語の第1の認識スコアを算出し、該第1の認識スコアに基づいて前記入力音声の認識候補である複数の単語を出力する第1の認識ステップと、
    前記音声認識装置の促音スコア算出手段で、前記第1の認識ステップで出力された認識候補の第1の認識スコアが最も高い第1の単語と、該第1の単語以外の第2の単語との対について所定の条件を満たす単語の対が存在するか否かを判定し、存在する場合には認識候補である前記複数の単語の中で促音が存在する単語について前記音響モデルの無音区間の特徴ベクトルを用いて入力音声の無音区間を検出し、該無音区間の継続時間に基づいて、前記複数の単語に対する促音らしさを数値化した促音スコアを算出し、存在しない場合には前記促音スコアを所定の値とする促音スコア算出ステップと、
    前記音声認識装置の第2の認識手段で、前記第1の認識ステップで算出された第1の認識スコアと前記促音スコア算出ステップで算出された促音スコアとに基づいて前記複数の単語の第2の認識スコアを算出し、該第2の認識スコアに基づいて前記入力音声の認識結果を出力する第2の認識ステップと、
    を備えたことを特徴とする音声認識方法。
JP2011273199A 2011-12-14 2011-12-14 音声認識装置および音声認識方法 Active JP5895501B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2011273199A JP5895501B2 (ja) 2011-12-14 2011-12-14 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2011273199A JP5895501B2 (ja) 2011-12-14 2011-12-14 音声認識装置および音声認識方法

Publications (2)

Publication Number Publication Date
JP2013125119A JP2013125119A (ja) 2013-06-24
JP5895501B2 true JP5895501B2 (ja) 2016-03-30

Family

ID=48776392

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2011273199A Active JP5895501B2 (ja) 2011-12-14 2011-12-14 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP5895501B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6261043B2 (ja) * 2013-08-30 2018-01-17 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6193499A (ja) * 1984-10-12 1986-05-12 株式会社リコー 音声パタ−ン照合方式
JPS63236095A (ja) * 1987-03-25 1988-09-30 キヤノン株式会社 音声認識方法
JP2664785B2 (ja) * 1989-11-07 1997-10-22 シャープ株式会社 音声認識装置
JP4758919B2 (ja) * 2007-01-22 2011-08-31 日本放送協会 音声認識装置及び音声認識プログラム

Also Published As

Publication number Publication date
JP2013125119A (ja) 2013-06-24

Similar Documents

Publication Publication Date Title
US10157610B2 (en) Method and system for acoustic data selection for training the parameters of an acoustic model
US9373321B2 (en) Generation of wake-up words
JP4355322B2 (ja) フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置
US8374869B2 (en) Utterance verification method and apparatus for isolated word N-best recognition result
US20140156276A1 (en) Conversation system and a method for recognizing speech
US20090119103A1 (en) Speaker recognition system
US20140025379A1 (en) Method and System for Real-Time Keyword Spotting for Speech Analytics
US20100161330A1 (en) Speech models generated using competitive training, asymmetric training, and data boosting
KR100682909B1 (ko) 음성 인식 방법 및 장치
JP2014524599A (ja) 音声認識システムにおいて、誤った肯定を低減すること
AU2018271242A1 (en) Method and system for real-time keyword spotting for speech analytics
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
US10418030B2 (en) Acoustic model training device, acoustic model training method, voice recognition device, and voice recognition method
JP2002358097A (ja) 音声認識装置
JP5895501B2 (ja) 音声認識装置および音声認識方法
JPH11184491A (ja) 音声認識装置
KR101892736B1 (ko) 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법
JP2004251998A (ja) 対話理解装置
JP3633254B2 (ja) 音声認識システムおよびそのプログラムを記録した記録媒体
JP5473116B2 (ja) 音声認識装置およびその特徴量正規化方法
JP5961530B2 (ja) 音響モデル生成装置とその方法とプログラム
KR20100073160A (ko) 음성인식 시스템의 발화검증 방법 및 장치
JP5158877B2 (ja) 音声認識方法および装置
KR101752709B1 (ko) 음성인식시스템에서 발화검증 방법 및 그 음성인식시스템
JPH08241096A (ja) 音声認識方法

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20140326

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140919

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20150626

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20150728

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20150903

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160202

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160215

R151 Written notification of patent or utility model registration

Ref document number: 5895501

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250