JP2921059B2 - 連続音声認識装置 - Google Patents
連続音声認識装置Info
- Publication number
- JP2921059B2 JP2921059B2 JP2200530A JP20053090A JP2921059B2 JP 2921059 B2 JP2921059 B2 JP 2921059B2 JP 2200530 A JP2200530 A JP 2200530A JP 20053090 A JP20053090 A JP 20053090A JP 2921059 B2 JP2921059 B2 JP 2921059B2
- Authority
- JP
- Japan
- Prior art keywords
- unit
- input
- recognition
- candidate
- connection
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Description
【発明の詳細な説明】 産業上の利用分野 本発明は音響信頼度と接続信頼度に可変にそれぞれ重
み付けした線形結合で表される評価値を用いて認識結果
を得る連続音声認識装置に関するものである。
み付けした線形結合で表される評価値を用いて認識結果
を得る連続音声認識装置に関するものである。
従来の技術 近年、音声認識技術の発達とともに、連続音声認識装
置が種々の分野で実用化されようとしており、実用化す
るためには、認識装置を実用する上での種々の問題点を
解決する必要がある。この実用上の問題点の1つに、入
力連続音声中に不明瞭に発声された部分が存在する場
合、この部分を誤認識してしまい、誤った認識文を出力
してしまうという点がある。
置が種々の分野で実用化されようとしており、実用化す
るためには、認識装置を実用する上での種々の問題点を
解決する必要がある。この実用上の問題点の1つに、入
力連続音声中に不明瞭に発声された部分が存在する場
合、この部分を誤認識してしまい、誤った認識文を出力
してしまうという点がある。
従来の連続音声認識装置では、上記問題点を解決する
ために、最高の音響信頼度で認識された素片を単に接続
して文単位の認識結果を得るのではなく、認識された素
片の音響信頼度と接続信頼度の線形結合として評価関数
を設定してこの評価値が最高のものを認識結果とするの
で、素片の音響信頼度が低くても前後の素片との文法上
のつながり(接続信頼度)が高ければ評価値が高くな
り、入力連続音声中に不明瞭に発声された部分が存在し
ても正しく認識できるようになる。
ために、最高の音響信頼度で認識された素片を単に接続
して文単位の認識結果を得るのではなく、認識された素
片の音響信頼度と接続信頼度の線形結合として評価関数
を設定してこの評価値が最高のものを認識結果とするの
で、素片の音響信頼度が低くても前後の素片との文法上
のつながり(接続信頼度)が高ければ評価値が高くな
り、入力連続音声中に不明瞭に発声された部分が存在し
ても正しく認識できるようになる。
以下、第3図、第4図、第5図を参照しながら、上述
したような従来の連続音声認識装置で素片を単語とした
ものを例として説明を行う。
したような従来の連続音声認識装置で素片を単語とした
ものを例として説明を行う。
第3図は、従来の連続音声認識装置のブロック図、第
4図はワードラチス生成のフローチャート、第5図は接
続部における処理を示したフローチャートである。第3
図において、1は信号入力端子、2は分析部、4は特徴
パラメータ保管部、5は照合部、6はワードラチス保管
部、8は予測部、9は接続部、10は認識結果出力端子、
12はスイッチである。以上のように構成された音声認識
装置について以下その動作について説明する。
4図はワードラチス生成のフローチャート、第5図は接
続部における処理を示したフローチャートである。第3
図において、1は信号入力端子、2は分析部、4は特徴
パラメータ保管部、5は照合部、6はワードラチス保管
部、8は予測部、9は接続部、10は認識結果出力端子、
12はスイッチである。以上のように構成された音声認識
装置について以下その動作について説明する。
最初に標準音声登録時については第3図を参照しなが
ら説明する。まず、スイッチ12を分析部の出力が特徴パ
ラメータ保管部に入力されるように操作し、信号入力端
子1から単語単位で入力された標準音声を分析部2に入
力し、フレームごとの特徴パラメータを算出し、特徴パ
ラメータ保管部4に登録する。そして、標準音声を入力
して上記の処理を認識すべき全単語について繰り返し、
登録を終了する。
ら説明する。まず、スイッチ12を分析部の出力が特徴パ
ラメータ保管部に入力されるように操作し、信号入力端
子1から単語単位で入力された標準音声を分析部2に入
力し、フレームごとの特徴パラメータを算出し、特徴パ
ラメータ保管部4に登録する。そして、標準音声を入力
して上記の処理を認識すべき全単語について繰り返し、
登録を終了する。
次に認識時については第3図と第4図とを参照しなが
ら説明する。まずスイッチ12を分析部の出力が照合部に
入力されるように操作し、登録時と同様に信号入力端子
1より認識すべき信号を入力し(処理21)、分析部2で
フレームごとの特徴パラメータを算出する(処理22)。
次に照合部5において標準音声と入力信号との照合を行
う。まず、フレーム番号=1、単語番号=1とし、初期
化を行う(処理23、24)。そして、フレーム番号のフレ
ームを始端として単語番号番目の認識すべき単語との照
合を行い(処理27)、判定閾値以上の類似度を示した場
合(処理28)、この時の単語を認識単語候補、類似度を
音響信頼度とし、認識の始端と終端とともにワードラチ
ス保管部に出力する(処理29)。この後、単語番号に1
を加算して(処理30)次の認識すべき単語についての処
理に移る。以上の処理が認識すべき単語すべてについて
終了したとき(処理26)、フレーム番号に1を加算して
(処理31)次のフレームを始端として同様の処理を行
う。以上の処理がすべてのフレーム、すべての認識すべ
き単語について終了したならば(処理25)、照合部5で
の処理を終了する。この処理によりワードラチスとして
入力連続音声中に存在する可能性のある認識単語候補名
とその始端位置、終端位置、音響信頼度が記録されてワ
ードラチス保管部6に出力される。
ら説明する。まずスイッチ12を分析部の出力が照合部に
入力されるように操作し、登録時と同様に信号入力端子
1より認識すべき信号を入力し(処理21)、分析部2で
フレームごとの特徴パラメータを算出する(処理22)。
次に照合部5において標準音声と入力信号との照合を行
う。まず、フレーム番号=1、単語番号=1とし、初期
化を行う(処理23、24)。そして、フレーム番号のフレ
ームを始端として単語番号番目の認識すべき単語との照
合を行い(処理27)、判定閾値以上の類似度を示した場
合(処理28)、この時の単語を認識単語候補、類似度を
音響信頼度とし、認識の始端と終端とともにワードラチ
ス保管部に出力する(処理29)。この後、単語番号に1
を加算して(処理30)次の認識すべき単語についての処
理に移る。以上の処理が認識すべき単語すべてについて
終了したとき(処理26)、フレーム番号に1を加算して
(処理31)次のフレームを始端として同様の処理を行
う。以上の処理がすべてのフレーム、すべての認識すべ
き単語について終了したならば(処理25)、照合部5で
の処理を終了する。この処理によりワードラチスとして
入力連続音声中に存在する可能性のある認識単語候補名
とその始端位置、終端位置、音響信頼度が記録されてワ
ードラチス保管部6に出力される。
また、予測部8は接続部9から入力された認識単語候
補に後続可能な単語を文法または統計情報などを用いて
求め、次単語候補としてその接続信頼度(確率などで表
現する)とともに接続部9に出力するように動作する。
補に後続可能な単語を文法または統計情報などを用いて
求め、次単語候補としてその接続信頼度(確率などで表
現する)とともに接続部9に出力するように動作する。
次に接続部9の処理については第3図と第5図を参照
しながら説明する。
しながら説明する。
上記接続部ではワードラチス保管部6より入力された
認識単語候補名を接続して複数の認識結果候補を生成
し、これらのうち、最高の評価値を持つものを認識結果
とし、認識結果出力端子8に出力する。認識結果候補を
求めるには、まず、認識途中結果を空文字列とし(処理
1)、認識途中結果内の最後尾の認識単語候補の終端位
置である認識途中結果終端位置を0(フレーム番号)と
して(処理2)初期化を行う。次に、 認識途中結果終端位置−gap≦始端位置 ≦認識途中結果終端位置+gap (式1,1) の始端位置の条件をみたす(後続可能な)認識単語候補
が存在するならば(処理4)、その認識単語候補名を認
識途中結果内の文字列の最後尾に接続する(処理5)。
ここでgapは照合部での処理における始端位置と終端位
置の検出誤差に対応するための定数である。その後、下
記の式2によって、認識途中結果終端位置の更新を行う
(処理6)。
認識単語候補名を接続して複数の認識結果候補を生成
し、これらのうち、最高の評価値を持つものを認識結果
とし、認識結果出力端子8に出力する。認識結果候補を
求めるには、まず、認識途中結果を空文字列とし(処理
1)、認識途中結果内の最後尾の認識単語候補の終端位
置である認識途中結果終端位置を0(フレーム番号)と
して(処理2)初期化を行う。次に、 認識途中結果終端位置−gap≦始端位置 ≦認識途中結果終端位置+gap (式1,1) の始端位置の条件をみたす(後続可能な)認識単語候補
が存在するならば(処理4)、その認識単語候補名を認
識途中結果内の文字列の最後尾に接続する(処理5)。
ここでgapは照合部での処理における始端位置と終端位
置の検出誤差に対応するための定数である。その後、下
記の式2によって、認識途中結果終端位置の更新を行う
(処理6)。
認識途中結果終端位置 =認識途中結果終端位置+(認識単語候補の終端 位置−認識単語候補の始端位置) (式2) そして、処理34で接続した認識単語候補が文頭からi
番目であるとすると、接続部4は文頭かi−1番目の認
識単語候補を予測部に送り、次単語候補(文頭からi番
目の単語になり得る単語候補)とその接続信頼度を予測
部から得る(処理7)。そして、これらを使って下記の
式3によって評価値を更新する(処理9)。このとき、
単語列(W1,W2,…,Wi)から構成される認識途中結果の
評価関数h(Wi)は以下のように表される。
番目であるとすると、接続部4は文頭かi−1番目の認
識単語候補を予測部に送り、次単語候補(文頭からi番
目の単語になり得る単語候補)とその接続信頼度を予測
部から得る(処理7)。そして、これらを使って下記の
式3によって評価値を更新する(処理9)。このとき、
単語列(W1,W2,…,Wi)から構成される認識途中結果の
評価関数h(Wi)は以下のように表される。
ただしh(W0)=0である。
ここでg(Wi)は単語Wiの音響信頼度、f(Wi−1,W
i)は単語Wi−1から単語Wiへの接続信頼度、α、βは
重み(定数)である。その後、処理4から処理9を処理
4での条件が満たされなくなるまで繰り返す。その後、 入力音声フレーム長−gap≦認識途中結果終端 位置≦入力音声フレーム長+gap (式1,2) なる条件で認識途中結果終端位置を判定し(処理10)、
この条件が満たされたならば、このときの認識途中結果
を認識結果候補としてその評価値とともに保存する(処
理13)。以上の認識途中結果を求める手続きを接続部9
に入力されるワードラチス全体について行い、存在し得
るだけの認識結果候補をもとめ、それらの中で最高の評
価値を持つ認識結果候補を認識結果として認識結果出力
端子11より出力する。
i)は単語Wi−1から単語Wiへの接続信頼度、α、βは
重み(定数)である。その後、処理4から処理9を処理
4での条件が満たされなくなるまで繰り返す。その後、 入力音声フレーム長−gap≦認識途中結果終端 位置≦入力音声フレーム長+gap (式1,2) なる条件で認識途中結果終端位置を判定し(処理10)、
この条件が満たされたならば、このときの認識途中結果
を認識結果候補としてその評価値とともに保存する(処
理13)。以上の認識途中結果を求める手続きを接続部9
に入力されるワードラチス全体について行い、存在し得
るだけの認識結果候補をもとめ、それらの中で最高の評
価値を持つ認識結果候補を認識結果として認識結果出力
端子11より出力する。
発明が解決しようとする課題 しかしながら、上記のような構成では、音響信頼度と
接続信頼度にかける重み(式3におけるαとβ)が固定
であるために、両信頼度が評価値に効率よく反映され
ず、信頼度の導入が認識率の向上に全く関与しないとい
う課題を有していた。
接続信頼度にかける重み(式3におけるαとβ)が固定
であるために、両信頼度が評価値に効率よく反映され
ず、信頼度の導入が認識率の向上に全く関与しないとい
う課題を有していた。
また、上記のような構成では、入力音声中に息継ぎな
どの無音区間が存在した場合、認識素片候補が接続でき
ないために認識結果が出力されなかったり、無音区間の
存在をあらかじめ想定して式1,1におけるgapの値を大き
くした場合には膨大な数の認識結果候補を出力してしま
い、結局は正しい認識結果を出力しないという課題を有
していた。
どの無音区間が存在した場合、認識素片候補が接続でき
ないために認識結果が出力されなかったり、無音区間の
存在をあらかじめ想定して式1,1におけるgapの値を大き
くした場合には膨大な数の認識結果候補を出力してしま
い、結局は正しい認識結果を出力しないという課題を有
していた。
本発明は、素片接続における次素片予測の情報量また
は入力音声中の無音時間またはその両者に応じて音響信
頼度と接続信頼度にかける重み(式3におけるαとβ)
を変化させ、それぞれの信頼度が忠実に認識率の向上に
つながる連続音声認識装置を提供することを目的とす
る。
は入力音声中の無音時間またはその両者に応じて音響信
頼度と接続信頼度にかける重み(式3におけるαとβ)
を変化させ、それぞれの信頼度が忠実に認識率の向上に
つながる連続音声認識装置を提供することを目的とす
る。
課題を解決するための手段 この目的を達成するために、第1の発明に係る連続音
声認識装置は、入力信号のフレームごとの特徴パラメー
タを検出する分析部と、分析部の出力と標準信号の素片
ごとの特徴パラメータとを照合して認識素片候補とその
音響信頼度を出力する照合部と、接続部より入力された
認識途中結果より予測される次素片候補とその接続信頼
度とその予測される次素片候補の情報量を出力する予測
部と、照合部の出力である認識素片候補を接続して認識
結果を出力するとともに認識途中結果を予測部に出力す
る接続部とから構成される。
声認識装置は、入力信号のフレームごとの特徴パラメー
タを検出する分析部と、分析部の出力と標準信号の素片
ごとの特徴パラメータとを照合して認識素片候補とその
音響信頼度を出力する照合部と、接続部より入力された
認識途中結果より予測される次素片候補とその接続信頼
度とその予測される次素片候補の情報量を出力する予測
部と、照合部の出力である認識素片候補を接続して認識
結果を出力するとともに認識途中結果を予測部に出力す
る接続部とから構成される。
第2の発明に係る連続音声認識装置は、入力信号のフ
レームごとの特徴パラメータを検出する分析部と、入力
信号の無音区間を検出する検出部と、分析部の出力と標
準信号の素片ごとの特徴パラメータとを照合して認識素
片候補とその音響信頼度を出力する照合部と、接続部よ
り入力された認識途中結果より予測される次素片候補と
その接続信頼度とを出力する予測部と、上記照合部の出
力である認識素片候補を接続して認識結果を出力すると
ともに認識途中結果を予測部に出力する接続部とから構
成される。
レームごとの特徴パラメータを検出する分析部と、入力
信号の無音区間を検出する検出部と、分析部の出力と標
準信号の素片ごとの特徴パラメータとを照合して認識素
片候補とその音響信頼度を出力する照合部と、接続部よ
り入力された認識途中結果より予測される次素片候補と
その接続信頼度とを出力する予測部と、上記照合部の出
力である認識素片候補を接続して認識結果を出力すると
ともに認識途中結果を予測部に出力する接続部とから構
成される。
第3の発明に係る連続音声認識装置は、入力信号のフ
レームごとの特徴パラメータを検出する分析部と、入力
信号の無音区間を検出する検出部と、分析部の出力と標
準信号の素片ごとの特徴パラメータとを照合して認識素
片候補とその音響信頼度を出力する照合部と、接続部よ
り入力された認識途中結果より予測される次素片候補と
その接続信頼度とその次素片候補の情報量とを出力する
予測部と、照合部の出力である認識素片候補を接続して
認識結果を出力するとともに認識途中結果を予測部に出
力する接続部とから構成される。
レームごとの特徴パラメータを検出する分析部と、入力
信号の無音区間を検出する検出部と、分析部の出力と標
準信号の素片ごとの特徴パラメータとを照合して認識素
片候補とその音響信頼度を出力する照合部と、接続部よ
り入力された認識途中結果より予測される次素片候補と
その接続信頼度とその次素片候補の情報量とを出力する
予測部と、照合部の出力である認識素片候補を接続して
認識結果を出力するとともに認識途中結果を予測部に出
力する接続部とから構成される。
作用 第1の発明の連続音声認識装置は、分析で入力信号の
フレームごとの特徴パラメータを検出し、照合部で分析
部の出力と標準信号の素片ごとの特徴パラメータとを照
合して認識素片候補とその音響信頼度を出力し、予測部
で接続部より入力された認識途中結果より予測される次
素片候補とその接続信頼度とその予測される次素片候補
の情報量とを接続部に出力し、接続部で照合部より入力
された音響信頼度と、予測部より入力された接続信頼度
とを予測部より入力された次素片候補の情報量に応じて
それぞれ重み付けした線形結合で表される評価値を用い
て認識素片候補を接続して認識結果を得るとともに認識
途中結果を予測部に出力する。
フレームごとの特徴パラメータを検出し、照合部で分析
部の出力と標準信号の素片ごとの特徴パラメータとを照
合して認識素片候補とその音響信頼度を出力し、予測部
で接続部より入力された認識途中結果より予測される次
素片候補とその接続信頼度とその予測される次素片候補
の情報量とを接続部に出力し、接続部で照合部より入力
された音響信頼度と、予測部より入力された接続信頼度
とを予測部より入力された次素片候補の情報量に応じて
それぞれ重み付けした線形結合で表される評価値を用い
て認識素片候補を接続して認識結果を得るとともに認識
途中結果を予測部に出力する。
第2の発明の連続音声認識装置は、分析部で入力信号
のフレームごとの特徴パラメータを検出し、検出部で上
記入力信号の無音区間を検出し、照合部で分析部の出力
と標準信号の素片ごとの特徴パラメータとを照合して認
識素片候補とその音響信頼度を出力し、予測部で接続部
より入力された認識途中結果より予測される次素片候補
とその接続信頼度とを接続部に出力し、接続部で照合部
より入力された音響信頼度と、予測部より入力された接
続信頼度とを検出部より入力された無音区間の時間長に
応じてそれぞれ重み付けした線形結合で表される評価値
を用いて認識素片候補を接続して認識結果を得るととも
に認識途中結果を予測部に出力する。
のフレームごとの特徴パラメータを検出し、検出部で上
記入力信号の無音区間を検出し、照合部で分析部の出力
と標準信号の素片ごとの特徴パラメータとを照合して認
識素片候補とその音響信頼度を出力し、予測部で接続部
より入力された認識途中結果より予測される次素片候補
とその接続信頼度とを接続部に出力し、接続部で照合部
より入力された音響信頼度と、予測部より入力された接
続信頼度とを検出部より入力された無音区間の時間長に
応じてそれぞれ重み付けした線形結合で表される評価値
を用いて認識素片候補を接続して認識結果を得るととも
に認識途中結果を予測部に出力する。
第3の発明の連続音声認識装置は、分析部で入力信号
のフレームごとの特徴パラメータを検出し、検出部で上
記入力信号の無音区間を検出し、照合部で分析部の出力
と標準信号の素片ごとの特徴パラメータとを照合して認
識素片候補とその音響信頼度を出力し、予測部で接続部
より入力された認識途中結果より予測される次素片候補
とその接続信頼度とその次素片候補の情報量とを接続部
に出力し、接続部で照合部より入力された音響信頼度
と、予測部より入力された上記接続信頼度とを予測部よ
り入力された次素片候補の情報量と検出部より入力され
た無音区間の時間長とに応じてそれぞれ重み付けした線
形結合で表される評価値を用いて認識素片候補を接続し
て認識結果を得るとともに認識途中結果を予測部に出力
する。
のフレームごとの特徴パラメータを検出し、検出部で上
記入力信号の無音区間を検出し、照合部で分析部の出力
と標準信号の素片ごとの特徴パラメータとを照合して認
識素片候補とその音響信頼度を出力し、予測部で接続部
より入力された認識途中結果より予測される次素片候補
とその接続信頼度とその次素片候補の情報量とを接続部
に出力し、接続部で照合部より入力された音響信頼度
と、予測部より入力された上記接続信頼度とを予測部よ
り入力された次素片候補の情報量と検出部より入力され
た無音区間の時間長とに応じてそれぞれ重み付けした線
形結合で表される評価値を用いて認識素片候補を接続し
て認識結果を得るとともに認識途中結果を予測部に出力
する。
実施例 以下、第1、第2および第3の発明の実施例について
第1図、第2図、第1表を参照しながら説明する。
第1図、第2図、第1表を参照しながら説明する。
下記実施例は、請求項3に記載されている連続音声認
識装置について説明しているが、本実施例内容における
評価値算出処理では次素片候補の情報量、または無音区
間の時間長を入力に使用しない場合でも有効であるの
で、請求項1記載の発明および請求項2記載の発明の実
施例と兼ねて記載する。
識装置について説明しているが、本実施例内容における
評価値算出処理では次素片候補の情報量、または無音区
間の時間長を入力に使用しない場合でも有効であるの
で、請求項1記載の発明および請求項2記載の発明の実
施例と兼ねて記載する。
第1図は本発明の一実施例における単語を素片とした
連続音声認識装置のブロック図である。1は信号入力端
子、2は分析部、3は検出部、4は特徴パラメータ保管
部、5は照合部、6はワードラチス保管部、7は重み付
け部(1)、8は予測部、9は接続部、10は重み付け部
(2)、11は認識結果出力端子、12はスイッチである。
以上のように構成された音声認識装置について以下その
動作について説明する。
連続音声認識装置のブロック図である。1は信号入力端
子、2は分析部、3は検出部、4は特徴パラメータ保管
部、5は照合部、6はワードラチス保管部、7は重み付
け部(1)、8は予測部、9は接続部、10は重み付け部
(2)、11は認識結果出力端子、12はスイッチである。
以上のように構成された音声認識装置について以下その
動作について説明する。
まず標準信号登録時には、スイッチ11を分析部の出力
が特徴パラメータ保管部に入力されるように操作し、信
号入力端子1から入力された標準信号を分析部2に入力
し、フレームごとにLPCケプストラムなどの特徴パラメ
ータを算出し、特徴パラメータ保管部4に入力する。標
準信号を入力して上記の処理を認識すべき全単語につい
て繰り返し、登録を終了する。
が特徴パラメータ保管部に入力されるように操作し、信
号入力端子1から入力された標準信号を分析部2に入力
し、フレームごとにLPCケプストラムなどの特徴パラメ
ータを算出し、特徴パラメータ保管部4に入力する。標
準信号を入力して上記の処理を認識すべき全単語につい
て繰り返し、登録を終了する。
また実施例では、予測部8には認識すべき全単語(前
単語)と、次単語候補としてその単語に後続可能な認識
されるべき単語と、あらかじめ統計的に求めておいた接
続確率(前単語が出現した後にそれぞれの次単語候補が
出現する確率)をこの接続信頼度として登録しておく。
また次単語候補の情報量として実施例ではパープレキシ
ティe(Wi)を使用し、下記の式0で算出して予測部8
に登録しておく。
単語)と、次単語候補としてその単語に後続可能な認識
されるべき単語と、あらかじめ統計的に求めておいた接
続確率(前単語が出現した後にそれぞれの次単語候補が
出現する確率)をこの接続信頼度として登録しておく。
また次単語候補の情報量として実施例ではパープレキシ
ティe(Wi)を使用し、下記の式0で算出して予測部8
に登録しておく。
これはWi−1を前単語、Wiを次単語候補としてみた場
合で、p(Wi−1,Wi)は単語Wi−1に後続する単語Wiの
接続信頼度である。この登録の例を第1表に示す。
合で、p(Wi−1,Wi)は単語Wi−1に後続する単語Wiの
接続信頼度である。この登録の例を第1表に示す。
そして上記予測部8は接続部9より認識単語候補が入
力されると、その認識単語候補に後続可能な単語とその
接続確率とパープレキシティをそれぞれ次単語候補と持
続確率と次単語候補の情報量として接続部9に出力する
ように動作する。
力されると、その認識単語候補に後続可能な単語とその
接続確率とパープレキシティをそれぞれ次単語候補と持
続確率と次単語候補の情報量として接続部9に出力する
ように動作する。
次に認識時については第1図と第4図とを参照しなが
ら説明する。まずスイッチ12を分析部の出力が照合部に
入力されるように操作し、登録時と同様に信号入力端子
1より認識すべき信号を入力し(処理21)、分析部2で
フレームごとの特徴パラメータを算出する(処理22)。
次に照合部5において標準音声と入力信号との照合を行
う。まず、フレーム番号=1、単語番号=1とし、初期
化を行う(処理23、24)。そして、フレーム番号のフレ
ームを始端として単語番号番目の認識すべき単語との照
合を行い(処理27)、判定閾値以上の類似度を示した場
合(処理28)、この時の単語を認識単語候補、類似度を
音響信頼度とし、認識の始端と終端とともにワードラチ
ス保管部に出力する(処理29)。この後、単語番号に1
を加算して(処理30)次の認識すべき単語についての処
理に移る。以上の処理が認識すべき単語すべてについて
終了したとき(処理26)、フレーム番号に1を加算して
(処理31)次のフレームを始端として同様の処理を行
う。以上の処理がすべてのフレーム、すべての認識すべ
き単語について終了したならば(処理25)、照合部5で
の処理を終了する。この処理によりワードラチスとして
入力連続音声中に存在する可能性のある認識単語候補名
とその始端位置、終端位置、音響信頼度が記録されてワ
ードラチス保管部6に出力される。上記のワードラチス
生成方法は従来例と同様のものである。また上記入力信
号は検出部にも入力され、フレームごとに入力信号のパ
ワーが計算され、一定閾値以下の場合にはこのフレーム
では無音であると判断する。無音フレームの連続を無音
区間とし、その開始位置、終了位置を1組として接続部
9に出力する。
ら説明する。まずスイッチ12を分析部の出力が照合部に
入力されるように操作し、登録時と同様に信号入力端子
1より認識すべき信号を入力し(処理21)、分析部2で
フレームごとの特徴パラメータを算出する(処理22)。
次に照合部5において標準音声と入力信号との照合を行
う。まず、フレーム番号=1、単語番号=1とし、初期
化を行う(処理23、24)。そして、フレーム番号のフレ
ームを始端として単語番号番目の認識すべき単語との照
合を行い(処理27)、判定閾値以上の類似度を示した場
合(処理28)、この時の単語を認識単語候補、類似度を
音響信頼度とし、認識の始端と終端とともにワードラチ
ス保管部に出力する(処理29)。この後、単語番号に1
を加算して(処理30)次の認識すべき単語についての処
理に移る。以上の処理が認識すべき単語すべてについて
終了したとき(処理26)、フレーム番号に1を加算して
(処理31)次のフレームを始端として同様の処理を行
う。以上の処理がすべてのフレーム、すべての認識すべ
き単語について終了したならば(処理25)、照合部5で
の処理を終了する。この処理によりワードラチスとして
入力連続音声中に存在する可能性のある認識単語候補名
とその始端位置、終端位置、音響信頼度が記録されてワ
ードラチス保管部6に出力される。上記のワードラチス
生成方法は従来例と同様のものである。また上記入力信
号は検出部にも入力され、フレームごとに入力信号のパ
ワーが計算され、一定閾値以下の場合にはこのフレーム
では無音であると判断する。無音フレームの連続を無音
区間とし、その開始位置、終了位置を1組として接続部
9に出力する。
次に接続部9の処理については第1図と第2図を参照
しながら説明する。
しながら説明する。
上記接続部ではワードラチス保管部6より入力された
認識単語候補名を接続して複数の認識結果候補を生成
し、これらのうち、最高の評価値を持つものを認識結果
とし、認識結果出力端子8に出力する。認識結果候補を
求めるには、まず、認識途中結果を空文字列とし(処理
1)、認識途中結果内の最後尾の認識単語候補の終端位
置である認識途中結果終端位置を0(フレーム番号)と
して(処理2)初期化を行い、検出部より無音区間の開
始位置、終了位置といった無音区間の位置情報を入力す
る(処理3)。次に、 認識途中結果終端位置−gap≦始端位置≦認識 途中結果終端位置+gap (式1,1) の始端位置の条件をみたす(後続可能な)認識単語候補
が存在するならば(処理4)、その認識単語候補名を認
識途中結果内の文字列の最後尾に接続する(処理5)。
ここでgapは照合部での処理における始端位置と終端位
置の検出誤差に対応するための定数である。ただし式1
を満たす認識単語候補が存在せず(処理4)、かつ、 入力音声フレーム長−gap≦認識途中結果終端 位置≦入力音声フレーム長+gap (式1,2) が満たされない場合で(処理10)、 認識途中結果終端位置−gap≦無音区間の開始 位置≦認識途中結果終端位置+gap (式1,3) を満たす場合(処理11)は無音区間が存在すると判断
し、認識途中結果終端位置を無音区間の時間長だけ延長
して(処理12)再び処理4にもどる。式1,3を満たさな
い場合(処理11)は後続可能な単語が存在しないため、
それまでの認識途中結果が誤っていると判断して処理を
打ち切る。この方法により発声者の息継ぎなどによる入
力音声中の無音区間が存在した場合でもgapの値を変更
することなく処理が行えることになる。
認識単語候補名を接続して複数の認識結果候補を生成
し、これらのうち、最高の評価値を持つものを認識結果
とし、認識結果出力端子8に出力する。認識結果候補を
求めるには、まず、認識途中結果を空文字列とし(処理
1)、認識途中結果内の最後尾の認識単語候補の終端位
置である認識途中結果終端位置を0(フレーム番号)と
して(処理2)初期化を行い、検出部より無音区間の開
始位置、終了位置といった無音区間の位置情報を入力す
る(処理3)。次に、 認識途中結果終端位置−gap≦始端位置≦認識 途中結果終端位置+gap (式1,1) の始端位置の条件をみたす(後続可能な)認識単語候補
が存在するならば(処理4)、その認識単語候補名を認
識途中結果内の文字列の最後尾に接続する(処理5)。
ここでgapは照合部での処理における始端位置と終端位
置の検出誤差に対応するための定数である。ただし式1
を満たす認識単語候補が存在せず(処理4)、かつ、 入力音声フレーム長−gap≦認識途中結果終端 位置≦入力音声フレーム長+gap (式1,2) が満たされない場合で(処理10)、 認識途中結果終端位置−gap≦無音区間の開始 位置≦認識途中結果終端位置+gap (式1,3) を満たす場合(処理11)は無音区間が存在すると判断
し、認識途中結果終端位置を無音区間の時間長だけ延長
して(処理12)再び処理4にもどる。式1,3を満たさな
い場合(処理11)は後続可能な単語が存在しないため、
それまでの認識途中結果が誤っていると判断して処理を
打ち切る。この方法により発声者の息継ぎなどによる入
力音声中の無音区間が存在した場合でもgapの値を変更
することなく処理が行えることになる。
処理4で後続可能な次単語候補が存在した時は、認識
途中結果内の文字列の最後尾に次単語候補名を接続し
(処理5)、下記の式2によって認識途中結果終端位置
の更新を行う(処理6)。
途中結果内の文字列の最後尾に次単語候補名を接続し
(処理5)、下記の式2によって認識途中結果終端位置
の更新を行う(処理6)。
認識途中結果終端位置=認識途中結果終端位置+ (認識単語候補の終端位置−認識単語候補の始端 位置) (式2) そして、処理5で接続した認識単語候補が文頭からi
番目であるとすると、接続部4は文頭からi−1番目の
認識単語候補を予測部に送り、次単語候補(文頭からi
番目の単語になり得る単語候補)とその接続信頼度とを
予測部から得る(処理7)。また予測部より文頭からi
−1番目の認識単語候補からみた次単語候補(i番目の
単語候補)の情報量を得る。そして、これらを使って下
記の式3によって評価値を更新する(処理7)。このと
き、単語列(W1,W2,…,Wi)から構成される認識途中結
果の評価関数h(Wi)は以下のように表される。
番目であるとすると、接続部4は文頭からi−1番目の
認識単語候補を予測部に送り、次単語候補(文頭からi
番目の単語になり得る単語候補)とその接続信頼度とを
予測部から得る(処理7)。また予測部より文頭からi
−1番目の認識単語候補からみた次単語候補(i番目の
単語候補)の情報量を得る。そして、これらを使って下
記の式3によって評価値を更新する(処理7)。このと
き、単語列(W1,W2,…,Wi)から構成される認識途中結
果の評価関数h(Wi)は以下のように表される。
ただしh(W0)=0, a∝γ・τ・e(Wi), b∝δ/(τ・e(Wi)) である。
ここでg(Wi)はワードラチス保管部6が重み付け部
(1)7に出力する単語Wiの音響信頼度であり、重み付
け部(1)7で重みaがつけられて接続部9に入力され
る。またf(Wi−1,Wi)は予測部8が重み付け部(2)
10に出力する単語Wi−1から単語Wiへの接続信頼度であ
り、重み付け部(2)10で重みbがつけられて接続部9
に入力される。音響信頼度の重みaは予測部8から入力
される次単語候補の情報量に比例させ、接続信頼度の重
みbは予測部8から入力される次単語候補の情報量に反
比例する関数とする。またτは認識単語候補Wi直前に無
音区間が存在した場合の無音区間の時間長(無音区間の
終了位置−無音区間の開始位置)であるが、無音区間が
存在しない場合に(τ=0)がbが無限大になってしま
わないように最小値を設けておく。なおγ、δは定数
(固定)である。この方法により、次単語候補の情報量
が大きいときには音響的信頼度が優先され、小さいとき
には接続信頼度が優先される。よって不明瞭に発声され
がちな一連の単語列(このような単語列は次単語候補の
情報量が小さく、無音区間は存在しにくい傾向にある)
が入力されて、音響信頼度が低い場合でも接続信頼度を
優先して評価値を上げることができるため、認識率を向
上することができる。その後、処理4から処理9までを
処理4の条件が満たされなくなるまで繰り返す。その
後、式1,2が満たされたならば(処理10)、このときの
認識途中結果を認識結果候補としてその評価値とともに
保存する(処理13)。以上の認識途中結果を求める手続
きを接続部9に入力されるワードラチス全体について行
い、存在し得るだけの認識結果候補をもとめ、それらの
中で最高の評価値を持つ認識結果候補を認識結果として
認識結果出力端子11より出力する。
(1)7に出力する単語Wiの音響信頼度であり、重み付
け部(1)7で重みaがつけられて接続部9に入力され
る。またf(Wi−1,Wi)は予測部8が重み付け部(2)
10に出力する単語Wi−1から単語Wiへの接続信頼度であ
り、重み付け部(2)10で重みbがつけられて接続部9
に入力される。音響信頼度の重みaは予測部8から入力
される次単語候補の情報量に比例させ、接続信頼度の重
みbは予測部8から入力される次単語候補の情報量に反
比例する関数とする。またτは認識単語候補Wi直前に無
音区間が存在した場合の無音区間の時間長(無音区間の
終了位置−無音区間の開始位置)であるが、無音区間が
存在しない場合に(τ=0)がbが無限大になってしま
わないように最小値を設けておく。なおγ、δは定数
(固定)である。この方法により、次単語候補の情報量
が大きいときには音響的信頼度が優先され、小さいとき
には接続信頼度が優先される。よって不明瞭に発声され
がちな一連の単語列(このような単語列は次単語候補の
情報量が小さく、無音区間は存在しにくい傾向にある)
が入力されて、音響信頼度が低い場合でも接続信頼度を
優先して評価値を上げることができるため、認識率を向
上することができる。その後、処理4から処理9までを
処理4の条件が満たされなくなるまで繰り返す。その
後、式1,2が満たされたならば(処理10)、このときの
認識途中結果を認識結果候補としてその評価値とともに
保存する(処理13)。以上の認識途中結果を求める手続
きを接続部9に入力されるワードラチス全体について行
い、存在し得るだけの認識結果候補をもとめ、それらの
中で最高の評価値を持つ認識結果候補を認識結果として
認識結果出力端子11より出力する。
以上のように、本実施例は請求項3に記載の発明につ
いてであるが、評価値算出処理では無音区間の時間長を
使用しない場合(請求項1に記載)、または次素片候補
の情報量を使用しない場合(請求項2に記載)でも有効
である。
いてであるが、評価値算出処理では無音区間の時間長を
使用しない場合(請求項1に記載)、または次素片候補
の情報量を使用しない場合(請求項2に記載)でも有効
である。
発明の効果 第1の発明の連続音声認識装置は、次素片候補の情報
量に応じて音響信頼度と接続信頼度にかける重みを変化
させるために、両信頼度を評価値に効率よく反映させる
ことができ、認識率の向上につなげることができる。す
なわち、入力信号の音響信頼度が低い場合でも次素片候
補の情報量が小さければ接続信頼度を優先して評価値が
上げることができるため、正しい認識結果が得ることが
できるようになる。
量に応じて音響信頼度と接続信頼度にかける重みを変化
させるために、両信頼度を評価値に効率よく反映させる
ことができ、認識率の向上につなげることができる。す
なわち、入力信号の音響信頼度が低い場合でも次素片候
補の情報量が小さければ接続信頼度を優先して評価値が
上げることができるため、正しい認識結果が得ることが
できるようになる。
第2の発明の連続音声認識装置は、入力音声中の無音
区間の時間長に応じて音響信頼度と接続信頼度にかける
重みを変化させるために、両信頼度を評価値に効率よく
反映させることができ、認識率の向上につなげることが
できる。すなわち、入力信号の音響信頼度が低い場合で
も無音区間が存在しなければ接続信頼度を優先して評価
値を上げることができるため、正しい認識結果が得るこ
とができる。
区間の時間長に応じて音響信頼度と接続信頼度にかける
重みを変化させるために、両信頼度を評価値に効率よく
反映させることができ、認識率の向上につなげることが
できる。すなわち、入力信号の音響信頼度が低い場合で
も無音区間が存在しなければ接続信頼度を優先して評価
値を上げることができるため、正しい認識結果が得るこ
とができる。
また、入力音声中に息継ぎなどの無音区間が存在した
場合は認識結果候補を大幅に増やすことなく認識素片候
補を接続できるため、認識結果が出力されなかったりす
ることがなくなる。
場合は認識結果候補を大幅に増やすことなく認識素片候
補を接続できるため、認識結果が出力されなかったりす
ることがなくなる。
第3の発明の連続音声認識装置は、次素片候補の情報
量と入力音声中の無音区間の時間長とに応じて音響信頼
度と接続信頼度にかける重みを変化させるために、第
1、第2の発明の効果が得られるだけでなく、次素片候
補の情報量と無音区間の時間長が比例するといった入力
信号である音声の特徴を取り入れているので、入力信号
の品質を高めることにより認識率を向上させることがで
きる。
量と入力音声中の無音区間の時間長とに応じて音響信頼
度と接続信頼度にかける重みを変化させるために、第
1、第2の発明の効果が得られるだけでなく、次素片候
補の情報量と無音区間の時間長が比例するといった入力
信号である音声の特徴を取り入れているので、入力信号
の品質を高めることにより認識率を向上させることがで
きる。
第1図は本発明の一実施例における音声認識装置のブロ
ック図、第2図は本発明の一実施例における接続部にお
ける処理のフローチャート、第3図は従来例における音
声認識装置のブロック図、第4図は従来例におけるワー
ドラチス生成フローチャート、第5図は従来例における
接続部における処理のフローチャートである。 1……入力端子、2……分析部、3……検出部、4……
特徴パラメータ保管部、5……照合部、6……ワードラ
チス保管部、7……重み付け部(1)、8……予測部、
9……接続部、10……重み付け部(2)、11……出力端
子、12……スイッチ。
ック図、第2図は本発明の一実施例における接続部にお
ける処理のフローチャート、第3図は従来例における音
声認識装置のブロック図、第4図は従来例におけるワー
ドラチス生成フローチャート、第5図は従来例における
接続部における処理のフローチャートである。 1……入力端子、2……分析部、3……検出部、4……
特徴パラメータ保管部、5……照合部、6……ワードラ
チス保管部、7……重み付け部(1)、8……予測部、
9……接続部、10……重み付け部(2)、11……出力端
子、12……スイッチ。
フロントページの続き (56)参考文献 特開 昭60−135999(JP,A) 特開 平1−37599(JP,A) 特開 昭63−83799(JP,A) 特開 昭59−143200(JP,A) 特開 平1−316798(JP,A) 特開 昭63−311398(JP,A) 情報処理学会第43回(平成3年後期) 全国大会6V−7.p2−563 (58)調査した分野(Int.Cl.6,DB名) G10L 3/00 - 9/18 JOISファイル(JICST)
Claims (3)
- 【請求項1】入力信号の単位時間(以下、フレーム)ご
との特徴パラメータを検出する分析部と、上記分析部の
出力と標準信号の一定時間(以下、素片)ごとの特徴パ
ラメータとを照合して認識素片候補とその類似度(以
下、音響信頼度)を出力する照合部と、上記照合部の出
力である上記認識素片候補を接続して認識結果を出力す
るとともに認識途中結果を予測部に出力する接続部と、
上記接続部より入力された上記認識途中結果より予測さ
れる次素片候補とその素片が出現する信頼度(以下、接
続信頼度)とその予測される次素片候補の情報量とを上
記接続部に出力する上記予測部とを具備し、上記接続部
では、上記照合部より入力された上記音響信頼度と、上
記予測部より入力された上記接続信頼度とを上記予測部
より入力された上記次素片候補の情報量に応じてそれぞ
れ重み付けした線形結合で表される評価値を用いて上記
認識素片候補を接続して連続音声認識結果を得ることを
特徴とする連続音声認識装置。 - 【請求項2】入力信号のフレームごとの特徴パラメータ
を検出する分析部と、上記入力信号の無音区間を検出す
る検出部と、上記分析部の出力と標準信号の素片ごとの
特徴パラメータとを照合して認識素片候補とその音響信
頼度を出力する照合部と、上記照合部の出力である上記
認識素片候補を接続して認識結果を出力するとともに認
識途中結果を予測部に出力する接続部と、上記接続部よ
り入力された上記認識途中結果より予測される次素片候
補とその接続信頼度とを上記接続部に出力する上記予測
部と具備し、上記接続部では、上記照合部より入力され
た上記音響信頼度と、上記予測部より入力された上記接
続信頼度とを上記検出部より入力された無音区間の時間
長に応じてそれぞれ重み付けした線形結合で表される評
価値を用いて上記認識素片候補を接続して連続音声認識
結果を得ることを特徴とする連続音声認識装置。 - 【請求項3】入力信号のフレームごとの特徴パラメータ
を検出する分析部と、上記入力信号の無音区間を検出す
る検出部と、上記分析部の出力と標準信号の素片ごとの
特徴パラメータとを照合して認識素片候補とその音響信
頼度を出力する照合部と、上記照合部の出力である上記
認識素片候補を接続して認識結果を出力するとともに認
識途中結果を予測部に出力する接続部と、上記接続部よ
り入力された上記認識途中結果より予測される次素片候
補とその接続信頼度とその次素片候補の情報量とを上記
接続部に出力する上記予測部とを具備し、上記接続部で
は、上記照合部より入力された上記音響信頼度と、上記
予測部より入力された上記接続信頼度とを上記検出部よ
り入力された上記次素片候補の情報量と上記検出部より
入力された無音区間の時間長とに応じてそれぞれ重み付
けした線形結合で表される評価値を用いて上記認識素片
候補を接続して連続音声認識結果を得ることを特徴とす
る連続音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2200530A JP2921059B2 (ja) | 1990-07-26 | 1990-07-26 | 連続音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2200530A JP2921059B2 (ja) | 1990-07-26 | 1990-07-26 | 連続音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH0484197A JPH0484197A (ja) | 1992-03-17 |
JP2921059B2 true JP2921059B2 (ja) | 1999-07-19 |
Family
ID=16425841
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2200530A Expired - Fee Related JP2921059B2 (ja) | 1990-07-26 | 1990-07-26 | 連続音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2921059B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11380314B2 (en) | 2019-03-25 | 2022-07-05 | Subaru Corporation | Voice recognizing apparatus and voice recognizing method |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP1370956B1 (de) * | 2001-03-15 | 2005-08-10 | Robert Bosch Gmbh | Bussystem aus wenigstens zwei datenbussen |
JP4728972B2 (ja) | 2007-01-17 | 2011-07-20 | 株式会社東芝 | インデキシング装置、方法及びプログラム |
JP5060224B2 (ja) | 2007-09-12 | 2012-10-31 | 株式会社東芝 | 信号処理装置及びその方法 |
-
1990
- 1990-07-26 JP JP2200530A patent/JP2921059B2/ja not_active Expired - Fee Related
Non-Patent Citations (1)
Title |
---|
情報処理学会第43回(平成3年後期)全国大会6V−7.p2−563 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11380314B2 (en) | 2019-03-25 | 2022-07-05 | Subaru Corporation | Voice recognizing apparatus and voice recognizing method |
Also Published As
Publication number | Publication date |
---|---|
JPH0484197A (ja) | 1992-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5675706A (en) | Vocabulary independent discriminative utterance verification for non-keyword rejection in subword based speech recognition | |
US7254529B2 (en) | Method and apparatus for distribution-based language model adaptation | |
US5440662A (en) | Keyword/non-keyword classification in isolated word speech recognition | |
RU2393549C2 (ru) | Способ и устройство для распознавания речи | |
US6108628A (en) | Speech recognition method and apparatus using coarse and fine output probabilities utilizing an unspecified speaker model | |
TWI396184B (zh) | 一種語音辨認所有語言及用語音輸入單字的方法 | |
JPH0883091A (ja) | 音声認識装置 | |
US7617104B2 (en) | Method of speech recognition using hidden trajectory Hidden Markov Models | |
CN112750445B (zh) | 语音转换方法、装置和系统及存储介质 | |
Jeon et al. | Voice trigger detection from LVCSR hypothesis lattices using bidirectional lattice recurrent neural networks | |
JPH10105187A (ja) | クラスタ構成をベースとする信号セグメント化方法 | |
Rose et al. | Integration of utterance verification with statistical language modeling and spoken language understanding | |
JP3496706B2 (ja) | 音声認識方法及びそのプログラム記録媒体 | |
JP2921059B2 (ja) | 連続音声認識装置 | |
Shinozaki et al. | Hidden mode HMM using bayesian network for modeling speaking rate fluctuation | |
TW202129628A (zh) | 細粒度解碼之語音辨識系統 | |
JP3461789B2 (ja) | 音声認識装置および音声認識方法、並びに、プログラム記録媒体 | |
JP3868798B2 (ja) | 音声認識装置 | |
JP4236502B2 (ja) | 音声認識装置 | |
JP2875179B2 (ja) | 話者適応化装置及び音声認識装置 | |
JP3044741B2 (ja) | 標準パターン学習方法 | |
JP2001013988A (ja) | 音声認識方法及び装置 | |
JP2986703B2 (ja) | 音声認識装置 | |
JP2815667B2 (ja) | 話者認識方法 | |
JP2901850B2 (ja) | 統計的言語モデルを用いた音声認識方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
LAPS | Cancellation because of no payment of annual fees |