JP5895501B2 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP5895501B2 JP5895501B2 JP2011273199A JP2011273199A JP5895501B2 JP 5895501 B2 JP5895501 B2 JP 5895501B2 JP 2011273199 A JP2011273199 A JP 2011273199A JP 2011273199 A JP2011273199 A JP 2011273199A JP 5895501 B2 JP5895501 B2 JP 5895501B2
- Authority
- JP
- Japan
- Prior art keywords
- recognition
- score
- word
- speech
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 26
- 239000013598 vector Substances 0.000 claims description 29
- 238000004364 calculation method Methods 0.000 claims description 17
- 230000000694 effects Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000005259 measurement Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 239000006185 dispersion Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000012795 verification Methods 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 1
Images
Description
また、音声の継続時間長の情報もパターンマッチングの類似度に反映させるには、ビタビアルゴリズムやDPマッチングの演算量が非常に大きくなるという問題があり、文献1では、少ない演算量でパターンマッチングの類似度に反映させる技術が開示されている。
これは、(1)通常の音響モデルでは音声のモデルと無音(促音)のモデルとの境界は実際の音声・無音境界とは必ずしも一致しないため、従来の継続時間長を考慮に入れたパターンマッチングでは促音の有無を精度よく認識スコアに反映できない、(2)認識スコアは発話区間全体を均等に評価して算出するため、促音の無音区間で認識スコアに多少の差がついても、他の部分のスコア差に埋もれてしまう可能性がある、等の理由によるものである。
図1はこの発明による音声認識装置の実施の形態1の構成を示すブロック図である。
図1の音声認識装置1は、音声認識装置1の外部から音声信号が入力される入力端2と、入力端2から入力された入力音声(入力音声信号)3と、入力音声3を分析し入力音声3の特徴ベクトル4とパワー情報5を出力する分析手段6と、分析手段6から出力された特徴ベクトル4と音響モデルメモリ7に格納されている音響モデル8とを照合して認識スコア(第1の認識スコア)9を算出し、認識スコア9の高い順に入力音声3の認識候補である複数の単語と各単語の認識スコアを中間認識結果10として出力する照合手段(第1の認識手段)11と、照合手段11から出力された中間認識結果10の複数の単語に対して継続時間統計量メモリ12に格納されている促音の無音区間に関する継続時間情報13を用いて促音スコア14を出力する促音スコア算出手段15と、促音スコア算出手段15で出力された促音スコア14を用いて照合手段11で算出された複数の各単語の認識スコア9を修正した修正認識スコア(第2の認識スコア)16を算出し、修正認識スコア16の高い順に複数の単語を最終認識結果17として出力するリスコアニング手段(第2の認識手段)18から構成されている。
特徴ベクトル3は、例えばMFCC(Mel Frequency Cepstral Coefficient)とする。
音響モデルメモリ7には、音声認識する対象の単語の特徴ベクトルをモデル化した音響モデルが格納されている。
音響モデル8は、例えばHMM(Hidden Markov Moderl)とする。
継続時間計測量メモリ12については後述する。
促音スコア14は、発話の無音区間を検出して、無音区間が促音らいしいか否かを数値化したものである。
継続時間計測量メモリ12には、促音の無音区間に関する継続時間情報13として以下のデータを算出し保持しておく。
(a)発話の促音による無音区間の継続時間長の平均値と分散
(b)発話の促音以外による無音区間の継続時間長の平均値と分散
(c)発話の促音と促音以外による無音区間の継続時間長の境界値Db
なお以後、表現を簡潔にするため、前記「促音と促音以外による無音区間の継続時間長の境界値Db」を「促音継続時間境界値Db」と記す。
図2は、継続時間計測量メモリ12で保持するデータを算出する処理のフロー図である。
(手順1)発話の促音による無音区間がある単語と、促音以外による無音区間がある単語のそれぞれに対して複数個の発話のデータを用意し、各発話の無音区間の継続時間長を算出する(S101)。
なお促音以外の無音区間がある単語とは、発話の中に破裂音(「か」行、「た」行、「が」行、「だ」行、「ぱ」行、「ば」行の子音)等を含む単語である。
(1−1)各発話と、音声認識する対象の単語の特徴ベクトルをモデル化した音響モデルをビタビアルゴリズムによって対応付け、その結果をトレースバックして発話の無音区間を検出する。
(1−2)上記(1−1)で検出した無音区間に対して音声パワー(以後、パワーと記す)を用い、検出した無音区間の始端から予め設定した所定の時間だけ遡った時点から時間軸の順方向にパワー値を調べ、予め設定した閾値以下となる時点を促音の無音区間の始端とする。この始端をT1とする。同様に前記トレースバックによって検出した無音区間の終端から予め設定した所定の時間だけ後方の時点から時間軸の逆方向にパワー値を調べ、パワー値が予め設定した閾値以下となる時点を無音区間の終端とする。この終端をT2とする。
発話の無音区間の始端T1と終端T2から、発話の無音区間の継続時間長Dxを下記のとおり式(1)で算出する。
式中でDxは発話の無音区間の継続時間長、T2は発話の無音区間の始端、T2は発話の無音区間の終端である。
図3は、促音の無音区間に関する継続時間と確立密度を示す図である。
図3では、継続時間と確率密度に関する促音の無音区間の分布19と促音以外の無音区間の分布20とを示し、促音の分布19と促音以外の発話の無音区間の分布20とが重なる継続時間、即ち確立密度が等しくなる継続時間が促音継続時間境界値Db21であることを示している。
実施の形態1では、建物の階数を認識対象とする場合を例として説明する。
入力端2から入力音声3が入力されると、分析手段6は入力音声3を特徴ベクトル4およびパワー情報5に変換して出力する。
そして、照合手段11は、音響モデルメモリ7に格納されている音響モデル8を用いて、例えばビタビアルゴリズムによって前記特徴ベクトル4とパターンマッチングを行う。そして、単語に対する認識スコア9を算出して、認識スコア9の高い上位N個の単語を中間認識結果10として出力する。本例ではN=3とする。前記中間認識結果10は、各単語の単語番号(図示せず)とひらがな表記(図示せず)と認識スコア9から構成される。
そして、促音スコア算出手段15は中間認識結果10のひらがな表記を参照し、中間認識結果10の認識スコア9が高い順に1位と2位以下の単語の対で、促音の有無が異なる対が存在するか否かを調べる。
例えば中間認識結果10の1位が「さんかい」、2位が「にかい」、3位が「ごかい」の場合、1位の発話の無音区間は「か」の子音/k/の閉鎖区間だけであり促音を含まない。同様に2位、3位の単語も促音を含まないため、1位と2位の対である「さんかい」と「にかい」、および1位と3位の対である「さんかい」と「ごかい」の対はいずれも促音を含まない単語の対であるため、促音スコア14Sqの値として0を出力する。
例えば中間認識結果10の1位が「いっかい」、2位が「にかい」の場合、1位は促音を含み、2位は含まないため、1位と2位の対では促音の有無が異なるので促音スコア14を算出して出力する。
図4は、促音スコア算出手段15で促音スコア14を算出する処理のフロー図である。
(手順1)図1の入力音声3の単語の中の無音区間を検出する。
この無音区間の検出方法としては、例えば中間認識結果10の中で促音が存在する単語について音響モデルメモリ7の音響モデル8を用いて、例えばビタビアルゴリズムによって、入力音声3と促音が存在する単語のモデルとのパターンマッチングを行いトレースバックすることにより、入力音声3の単語の中の無音区間を検出することができる。
同様に前記トレースバックによって検出した無音区間の終端から予め設定した所定の時間だけ後方の時点から時間軸の逆方向にパワー値を調べ、パワー値が予め設定した閾値以下となる時点を無音区間の終端とし、この終端をT2とする。
発話の無音区間の始端T1と終端T2から、発話の無音区間の継続時間長Dxを下記のとおり算出する。(S201)
式中でDxは発話の無音区間の継続時間長、T2は発話の無音区間の始端、T2は発話の無音区間の終端である。
Sq=−(Db−Dx)α(Dx<Dbの場合) ・・・ 式(4)
式中でSqは促音スコア14、Dxは発話の無音区間の継続時間長、Dbは継続時間情報13の促音継続時間境界値Db、αは実験的に定めた定数である。
図5は、リスコアリング手段18で音声認識装置1の最終的な認識結果である最終認識結果17を決定する処理のフロー図である。
例えば「いっかい」は発話の無音区間が促音なので、修正認識スコア16S’1を求める。
一方、発話の無音区間に促音を含まない単語の候補に対しては、式(6)に示すとおり促音スコア14Sqをβ倍して減算した修正認識スコア16(修正後の認識スコア)S’2を求める。
例えば「にかい」は発話の無音区間が促音ではないので、修正認識スコア16S’2を求める。(S303)
S’2=S−β*Sq ・・・ 式(6)
式中の記号の意味は以下のとおりである。
S’1:発話の無音区間が促音である単語の修正認識スコア16
S’2:発話の無音区間が促音ではない単語の修正認識スコア16
S:当該単語の修正前の(中間認識結果10の)認識スコア9
Sq:促音スコア14
β:実験的に定めた定数
以上が音声認識装置1の動作である。
即ち、音声の認識結果の中の特定の一部の無音区間を検証して、認識結果をリスコアリングするので、促音の有無に違いがある単語間での認識精度を向上させる効果がある。
また測定した無音区間の継続時間長に対して増加関数となる他の関数を用いてよく、同様の効果を得ることができる。
このような場合には、発話の無音区間の始端T1の代わりに、発話の語頭のパワー値が最大となる時点T3を用い、この発話の語頭のパワー値が最大となる時点G3から発話の無音区間の終端T2までの継続時間を発話の無音区間の継続時間長としてもよい。
このように、発話の語頭のパワー値が最大となる時点T3から発話の無音区間の終端T2までの継続時間を発話の無音区間の継続時間長とすることによって、騒音や残響があっても安定して促音の無音区間の継続時間を測定できる効果がある。
図6で、前記継続時間はDx2で示している。図6の(a)が残響無しの場合、図6の(b)が残響ありの場合である。
図6から発話の無音区間の継続時間長Dxを算出することにより、残響があっても安定して促音の無音区間に関する継続時間を測定できることが判る。
このことから、例えば、入力音声3に騒音や残響がある場合に、発話の語頭のパワー値が最大となる時点から発話の無音区間の終端までの継続時間によって発話の無音区間の継続時間長Dxを式(7)により算出する。
式中でDxは発話の無音区間の継続時間長、T3は発話の語頭のパワー値が最大となる時点、T2は発話の無音区間の終端である。
次に、実施の形態2について図7を用いて説明する。
図7は、この発明による音声認識装置1の実施の形態2の構成を示すブロック図である。図1と同一符号は同一又は相当部分を示し説明を省略する。
図7は、図1の全体構成に対して新たに単語対メモリ22が追加され、促音スコア算出手段15に接続されている。
実施の形態2では、促音スコア算出手段15で中間認識結果10の認識スコア単語の対について促音の有無が異なる対が存在するか否かを調べる代わりに、促音スコア14の計算対象とする単語の対23を単語対メモリ22に予め記憶しておくことが異なる。
以下、実施の形態2においても建物の階数を認識対象とする場合を例に説明する。
図8は、単語対メモリ22で保持する単語の対23の例である。
図8の各行が1組の対を表している。例えば、図中の1行目には「いっかい」と「にかい」、2行目には「にかい」と「じゅっかい」、3行目には「よんかい」と「ろっかい」、4行目には「ごかい」と「ろっかい」、5行目には「きゅーかい」と「じゅっかい」等が単語の対として保持されている。
入力端2から入力音声3が入力されると、分析手段6および照合手段11は実施の形態1と同様に動作し、照合手段11は認識スコア9を算出し、認識スコア9の高い上位N個の中間認識結果10を出力する。本例ではN=3とする。前記中間認識結果10は、複数の単語の単語番号(図示せず)とひらがな表記(図示せず)と認識スコア9から構成される。
中間認識結果10は、ひらがな表記を含む構成の代わりに音素表記を含む構成であってもよい。
中間認識結果10の1位と2位以下の単語の対が、単語対メモリ22で保持する単語の対23の中に存在しない場合は、促音スコア14Sqの値として0を出力する。
例えば、中間認識結果10の1位が「さんかい」、2位が「にかい」、3位が「ごかい」で、単語対メモリ22が保持する単語の対23が図8の場合、1位と2位の対である「さんかい」と「にかい」、および1位と3位の対である「さんかい」と「ごかい」の対はいずれも単語対メモリ22中に存在しないため、促音スコア14Sqの値として0を出力する。
例えば、中間認識結果10の1位が「いっかい」、2位が「にかい」の場合、単語対メモリ22が保持する単語の対23の中の1行目に「いっかい」と「にかい」の対が存在するので促音スコア14を算出して出力する。
また測定した無音区間の継続時間長に対して増加関数となる他の関数を用いてよく、同様の効果を得ることができる。
Claims (6)
- 入力音声を分析して特徴ベクトルを出力する分析手段と、
該分析手段で出力された特徴ベクトルと、予め記憶され単語の特徴ベクトルをモデル化した音響モデルの特徴ベクトルと、を照合して前記単語の第1の認識スコアを算出し、該第1の認識スコアに基づいて前記入力音声の認識候補である複数の単語を出力する第1の認識手段と、
該第1の認識手段で出力された認識候補の第1の認識スコアが最も高い第1の単語と、該第1の単語以外の第2の単語との対について所定の条件を満たす単語の対が存在するか否かを判定し、存在する場合には認識候補である前記複数の単語の中で促音が存在する単語について前記音響モデルの無音区間の特徴ベクトルを用いて入力音声の無音区間を検出し、該無音区間の継続時間に基づいて、前記複数の単語に対する促音らしさを数値化した促音スコアを算出し、存在しない場合には前記促音スコアを所定の値とする促音スコア算出手段と、
前記第1の認識手段で算出された第1の認識スコアと前記促音スコア算出手段によって算出された促音スコアとに基づいて前記複数の単語の第2の認識スコアを算出し、該第2の認識スコアに基づいて前記入力音声の認識結果を出力する第2の認識手段と、
を備えたことを特徴とする音声認識装置。 - 前記促音スコア算出手段での所定の条件は、促音の有無が異なる対であることを特徴とする請求項1記載の音声認識装置。
- 前記分析手段は、入力音声を分析して更にパワー情報を出力し、
前記促音スコア算出手段は、前記無音区間の始端と終端をパワー情報を用いて修正することを特徴とする請求項1または請求項2記載の音声認識装置。 - 前記促音スコア算出手段は、前記無音区間の継続時間と、予め記憶された促音と促音以外の無音区間の継続時間長の境界値とに基づいて前記促音スコアを算出することを特徴とする請求項1〜3のいずれか1項に記載の音声認識装置。
- 促音スコア算出手段での所定の条件は、予め記憶された単語の対と一致することを特徴とする請求項1〜4のいずれか1項に記載の音声認識装置。
- 音声認識装置による音声の認識結果を出力する方法において、
前記音声認識装置の分析手段で、入力音声を分析して特徴ベクトルを出力する分析ステップと、
前記音声認識装置の第1の認識手段で、前記分析ステップで出力された特徴ベクトルと、予め記憶され単語の特徴ベクトルをモデル化した音響モデルの特徴ベクトルと、を照合して前記単語の第1の認識スコアを算出し、該第1の認識スコアに基づいて前記入力音声の認識候補である複数の単語を出力する第1の認識ステップと、
前記音声認識装置の促音スコア算出手段で、前記第1の認識ステップで出力された認識候補の第1の認識スコアが最も高い第1の単語と、該第1の単語以外の第2の単語との対について所定の条件を満たす単語の対が存在するか否かを判定し、存在する場合には認識候補である前記複数の単語の中で促音が存在する単語について前記音響モデルの無音区間の特徴ベクトルを用いて入力音声の無音区間を検出し、該無音区間の継続時間に基づいて、前記複数の単語に対する促音らしさを数値化した促音スコアを算出し、存在しない場合には前記促音スコアを所定の値とする促音スコア算出ステップと、
前記音声認識装置の第2の認識手段で、前記第1の認識ステップで算出された第1の認識スコアと前記促音スコア算出ステップで算出された促音スコアとに基づいて前記複数の単語の第2の認識スコアを算出し、該第2の認識スコアに基づいて前記入力音声の認識結果を出力する第2の認識ステップと、
を備えたことを特徴とする音声認識方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011273199A JP5895501B2 (ja) | 2011-12-14 | 2011-12-14 | 音声認識装置および音声認識方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011273199A JP5895501B2 (ja) | 2011-12-14 | 2011-12-14 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013125119A JP2013125119A (ja) | 2013-06-24 |
JP5895501B2 true JP5895501B2 (ja) | 2016-03-30 |
Family
ID=48776392
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011273199A Active JP5895501B2 (ja) | 2011-12-14 | 2011-12-14 | 音声認識装置および音声認識方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5895501B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6261043B2 (ja) * | 2013-08-30 | 2018-01-17 | 本田技研工業株式会社 | 音声処理装置、音声処理方法、及び音声処理プログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6193499A (ja) * | 1984-10-12 | 1986-05-12 | 株式会社リコー | 音声パタ−ン照合方式 |
JPS63236095A (ja) * | 1987-03-25 | 1988-09-30 | キヤノン株式会社 | 音声認識方法 |
JP2664785B2 (ja) * | 1989-11-07 | 1997-10-22 | シャープ株式会社 | 音声認識装置 |
JP4758919B2 (ja) * | 2007-01-22 | 2011-08-31 | 日本放送協会 | 音声認識装置及び音声認識プログラム |
-
2011
- 2011-12-14 JP JP2011273199A patent/JP5895501B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2013125119A (ja) | 2013-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10157610B2 (en) | Method and system for acoustic data selection for training the parameters of an acoustic model | |
US9373321B2 (en) | Generation of wake-up words | |
JP4355322B2 (ja) | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 | |
US8374869B2 (en) | Utterance verification method and apparatus for isolated word N-best recognition result | |
US20140156276A1 (en) | Conversation system and a method for recognizing speech | |
US20090119103A1 (en) | Speaker recognition system | |
US20100161330A1 (en) | Speech models generated using competitive training, asymmetric training, and data boosting | |
US20140025379A1 (en) | Method and System for Real-Time Keyword Spotting for Speech Analytics | |
KR100682909B1 (ko) | 음성 인식 방법 및 장치 | |
JP2014524599A (ja) | 音声認識システムにおいて、誤った肯定を低減すること | |
AU2018271242A1 (en) | Method and system for real-time keyword spotting for speech analytics | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
US10418030B2 (en) | Acoustic model training device, acoustic model training method, voice recognition device, and voice recognition method | |
JP2002358097A (ja) | 音声認識装置 | |
JP5895501B2 (ja) | 音声認識装置および音声認識方法 | |
JPH11184491A (ja) | 音声認識装置 | |
JP5961530B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
KR101892736B1 (ko) | 실시간 단어별 지속시간 모델링을 이용한 발화검증 장치 및 방법 | |
JP2004251998A (ja) | 対話理解装置 | |
JP3633254B2 (ja) | 音声認識システムおよびそのプログラムを記録した記録媒体 | |
JP5473116B2 (ja) | 音声認識装置およびその特徴量正規化方法 | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP2017211513A (ja) | 音声認識装置、その方法、及びプログラム | |
KR20100073160A (ko) | 음성인식 시스템의 발화검증 방법 및 장치 | |
JP5158877B2 (ja) | 音声認識方法および装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD01 | Notification of change of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7421 Effective date: 20140326 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140919 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150626 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150728 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150903 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160202 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160215 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 5895501 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |