JP2002297182A - 音声認識装置および音声認識方法 - Google Patents

音声認識装置および音声認識方法

Info

Publication number
JP2002297182A
JP2002297182A JP2001095790A JP2001095790A JP2002297182A JP 2002297182 A JP2002297182 A JP 2002297182A JP 2001095790 A JP2001095790 A JP 2001095790A JP 2001095790 A JP2001095790 A JP 2001095790A JP 2002297182 A JP2002297182 A JP 2002297182A
Authority
JP
Japan
Prior art keywords
likelihood
garbage
model
word
silence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2001095790A
Other languages
English (en)
Other versions
JP2002297182A5 (ja
JP3584002B2 (ja
Inventor
Kazuyoshi Okura
計美 大倉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sanyo Electric Co Ltd
Original Assignee
Sanyo Electric Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sanyo Electric Co Ltd filed Critical Sanyo Electric Co Ltd
Priority to JP2001095790A priority Critical patent/JP3584002B2/ja
Publication of JP2002297182A publication Critical patent/JP2002297182A/ja
Publication of JP2002297182A5 publication Critical patent/JP2002297182A5/ja
Application granted granted Critical
Publication of JP3584002B2 publication Critical patent/JP3584002B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Abstract

(57)【要約】 【課題】 認識候補の追加・削除を行っても迅速に音声
認識し得る音声認識方法を提供すること。 【解決手段】 単語モデル作成部1は単語の前後に無音
モデルを連結して単語モデルを作成する。尤度演算部5
は入力音声信号のフレーム特徴量と基準モデルの特徴量
を比較して基準モデル毎の尤度を算出する。マッチング
演算部9は、フレーム特徴量に対する基準モデル毎の尤
度を参照しビタビマッチグ法によって得点を算出する。
この際、無音モデルの尤度として、当該フレーム特徴量
の基準モデルに対する尤度の最大値、あるいは当該フレ
ーム特徴量の基準モデルに対する尤度の上位N個の平均
値が無音モデルの尤度よりも大きい場合には、当該最大
値あるいは平均値を無音モデルの尤度として置換える。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、音声認識装置およ
び音声認識方法に関するものであり、特に、不要語を含
んだ音声から適切な単語を精度よく確定し得るものであ
る。
【0002】
【従来の技術】不要語(例えば、無意味な音声や助詞
等)を含んだ音声から単語辞書中の単語を認識する手法
として、例えば、特開平7−77998号公報に記載さ
れた手法が公知である。
【0003】かかる従来の音声認識手法においては、ま
ず、単語辞書に記憶された全ての認識候補(必要語)の
音声特徴量から不要語の特徴量を生成し、この不要語の
特徴量を認識辞書に予め登録しておく。そして、入力音
声信号の内、この不要語の特徴量にマッチングするもの
を不要語として認識し、この不要語として認識された単
語を認識結果から除去して必要語の音声認識結果を得る
というものである。
【0004】かかる従来手法における不要語の特徴量の
生成は、以下のように行われる。まず、不要語の特徴量
の生成に先立ち、必要語の特徴量を生成する。この必要
語の特徴量の生成は、一つの必要語について数種の音声
特徴量をサンプルとして入力し、これら各サンプルを音
響分析し学習処理することによって当該必要語の特徴量
を生成する。次に、このように生成された全ての必要語
の特徴量を平均化処理し、この平均値を不要語の特徴量
として設定する。
【0005】
【発明が解決しようとする課題】このように、上記従来
の認識手法では、全ての認識候補(必要語)の音声特徴
量から不要語の音声特徴量を生成するものであるから、
認識辞書中の認識候補が追加・修正されると、そのたび
に不要語の音声特徴量を一々再生成しなければならず、
よって、認識候補の追加や削除において面倒な作業を強
いられるものであった。
【0006】また、音声認識処理の際に、必要語のみな
らず不要語の音声特徴量についても入力音声信号との尤
度演算や近似距離演算を行わなければならず、その分、
音声認識処理ステップが追加され、このため、認識結果
導出までの所要時間が大きくなってしまうとの問題があ
った。
【0007】そこで、本発明は、認識候補の追加・削除
を行っても迅速に音声認識し得る音声認識方法を提供す
ることを課題とする。
【0008】
【課題を解決するための手段】上記課題に鑑み、本発明
は、以下の特徴を有する。
【0009】請求項1の発明は、音声認識装置に関する
ものであって、入力音声信号を音響分析してフレーム特
徴量を抽出する音響分析手段と、単語の基準モデルの両
端に無音モデルを連結して単語モデルを作成する単語モ
デル作成手段と、前記フレーム特徴量と基準モデルの特
徴量とを比較して当該単語モデルに対する当該フレーム
特徴量の尤度を演算する尤度演算手段と、前記演算され
た尤度に基づいて当該単語モデルの前記入力音声信号に
対するマッチング度合いを演算するマッチング演算手段
と、このマッチング度合いに応じて認識候補を設定する
認識候補設定手段と、前記無音モデルに対するガーベジ
尤度を設定するガーベジ尤度設定手段とを有し、前記マ
ッチング演算部は、無音モデルの尤度として、前記尤度
演算部によって演算された無音モデルの尤度と、前記ガ
ーベジ尤度設定手段によって設定されたガーベジ尤度の
何れか一方を選択してマッチング演算を行うことを特徴
とする。
【0010】請求項2の発明は、請求項1の特徴に加
え、さらに、マッチング演算部は、前記尤度演算部によ
って演算された無音モデルの尤度と、前記ガーベジ尤度
設定手段によって設定されたガーベジ尤度を比較し、何
れか大きい方の尤度を選択するとの特徴を備えるもので
ある。
【0011】請求項3の発明は、請求項1または2の特
徴に加え、さらに、ガーベジ設定手段は、前記フレーム
特徴量の基準モデル特徴量に対する尤度を演算処理して
ガーベジ尤度を算出するとの特徴を備えるものである。
【0012】請求項4の発明は、請求項1または2の特
徴に加え、さらに、ガーベジ設定手段は、前記フレーム
特徴量の基準モデル特徴量に対する尤度の内、最も大き
な尤度をガーベジ尤度とするとの特徴を備えるものであ
る。
【0013】請求項5の発明は、請求項1または2の特
徴に加え、さらに、ガーベジ設定手段は、前記フレーム
特徴量の基準モデル特徴量に対する尤度の内、尤度の大
きさが上位からN番目までの尤度を平均化演算してガー
ベジ尤度を算出するとの特徴を有するものである。
【0014】請求項6の発明は、請求項1または2の特
徴に加え、さらに、ガーベジ設定手段は、前記フレーム
特徴量の基準モデル特徴量に対する尤度の内、尤度の大
きさが上位からK番目の尤度をガーベジ尤度とするとの
特徴を有するものである。
【0015】請求項7の発明は、音声認識方法に関する
ものであって、入力音声信号を音響分析してフレーム特
徴量を抽出するステップと、単語の基準モデルの両端に
無音モデルを連結して単語モデルを作成するステップ
と、前記フレーム特徴量と基準モデルの特徴量とを比較
して当該単語モデルに対する当該フレーム特徴量の尤度
を演算するステップと、前記演算された尤度に基づいて
当該単語モデルの前記入力音声信号に対するマッチング
度合いを演算するステップと、このマッチング度合いに
応じて認識候補を設定するステップと、前記無音モデル
に対するガーベジ尤度を設定するステップとを有し、前
記マッチング演算のステップは、無音モデルの尤度とし
て、前記尤度演算ステップによって演算された無音モデ
ルの尤度と、前記ガーベジ尤度設定ステップによって設
定されたガーベジ尤度の何れか一方を選択してマッチン
グ演算を行うことを特徴とする。
【0016】請求項8の発明は、請求項7の特徴に加
え、さらに、マッチング演算ステップは、前記尤度演算
ステップによって演算された無音モデルの尤度と、前記
ガーベジ尤度設定手段によって設定されたガーベジ尤度
を比較し、何れか大きい方の尤度を選択するとの特徴を
備えるものである。
【0017】請求項9の発明は、請求項7または8の特
徴に加え、さらに、ガーベジ設定ステップは、前記フレ
ーム特徴量の基準モデル特徴量に対する尤度を演算処理
してガーベジ尤度を算出するとの特徴を備えるものであ
る。
【0018】請求項10の発明は、請求項7または8の
特徴に加え、さらに、ガーベジ設定ステップは、前記フ
レーム特徴量の基準モデル特徴量に対する尤度の内、最
も大きな尤度をガーベジ尤度とするとの特徴を備えるも
のである。
【0019】請求項11の発明は、請求項7または8の
特徴に加え、さらに、ガーベジ設定ステップは、前記フ
レーム特徴量の基準モデル特徴量に対する尤度の内、尤
度の大きさが上位からN番目までの尤度を平均化演算し
てガーベジ尤度を算出するとの特徴を備えるものであ
る。
【0020】請求項12の発明は、請求項7または8の
特徴に加え、さらに、ガーベジ設定ステップは、前記フ
レーム特徴量の基準モデル特徴量に対する尤度の内、尤
度の大きさが上位からN番目の尤度をガーベジ尤度とす
るとの特徴を備えるものである。
【0021】本発明の特徴およびその効果は、以下の実
施の形態を参照することにより、明らかとなろう。
【0022】
【発明の実施の形態】まず、本実施の形態に係る文字認
識装置および文字認識方法の概要について、図1〜図3
を参照して説明する。
【0023】音声認識装置に対し音声が入力されると、
この音声入力信号から認識対象の音声信号が切り出され
る。この切り出しは、例えば、音声入力信号のパワーを
監視することにより行われる。
【0024】すなわち、マイクロフォンに対して音声が
入力されると、マイクロフォンからの入力音声信号は、
そのパワーが無音レベルから立ちあがる。この立ちあが
りから次に音声信号のレベルが無音レベルに達するまで
の区間が、本来認識対象とされるべき音声信号の区間で
ある。かかる音声信号区間をそのまま切り出すと、認識
対象とされるべき音声信号の先頭あるいは末尾がカット
されてしまう恐れがある。そこで、かかる音声信号区間
を確実に認識対象とするために、通常、かかる音声信号
区間の前後にある無音信号を一定区間だけ含むようにし
て音声信号が切り出される。
【0025】たとえば、図1〜図3では、切り出された
音声信号は、「○○ええがぞうがおおきい○○」であ
る。ここで、○は無音信号である。実際にマイクロフォ
ンに入力された音声信号の言語の意味は、「エ〜、画像
が大きい」である。この内、「エ〜」は音声入力を開始
する際に入力者からしばしば発声される意味のない不要
語である。また、「画像」は認識辞書に登録された認識
候補(単語)、「が」は認識辞書にない助詞(不要
語)、「大きい」は認識辞書に登録された認識候補(単
語)である。
【0026】以上のようにして入力され、且つ、切り出
された音声信号は、一定周期(フレーム周期)毎に音響
分析され、音響的な特徴量(以下、「フレーム特徴量」
という)が抽出される。抽出された各フレーム特徴量
は、基準音節の特徴量と比較され、各基準音節との間の
近似度合い、即ち、尤度が算出される。
【0027】ここで、音声認識装置内のメモリには、基
準音節の特徴量、すなわち50音(あいうえお、等)、
濁音(がきぐげご、等)、半濁音(ぱぴぷぺぽ、等)、
拗音(ぎゃぎゅぎょ、等)の各音節の特徴量と共に、無
音音節の特徴量が、予め記憶されている。
【0028】上記フレーム周期で音響分析され抽出され
たフレーム特徴量は、メモリに記憶された全ての基準音
節の特徴量と比較され、各基準音節毎に尤度が算出され
る。例えば、図1においては、フレーム特徴量は
「○」、「○」、「え」、「え」、「が」、「ぞ」、
「う」、「が」、「お」、「お」、「き」、「い」、
「○」、「○」に対応する部分の特徴量であり、これら
各フレーム特徴量と基準音節の特徴量が順次比較され、
尤度が算出される。
【0029】図1の下部に示したブロックのうち、最左
欄は上述の基準音節であり、この最左欄に続く右方の各
欄内の数字は、これら各基準音節に対する各フレーム特
徴量の尤度である。例えば、図1において、認識対象と
される音声信号(前後に無音を含むように切り出された
音声信号)の内、最初のフレーム特徴量は「○(無音信
号)」の部分に対応した特徴量で、この特徴量が各基準
音節の全ての特徴量と順番に比較され、各基準音節に対
する尤度が算出される。図1では、基準音節「あ」に対
する尤度は0.1、基準音節「い」に対する尤度は0.1、
…、基準音節「無音」に対する尤度は0.9である。
【0030】このようにして最初のフレーム特徴量に対
する尤度の算出が全て終了すると、次に、次のフレーム
特徴量「○(無音信号)」の部分について基準音節に対
する尤度の算出がなされる。以下、同様にして、音声信
号の全期間「え」、「え」、「が」、…、「い」、
「○」、「○」の部分のフレーム特徴量について基準音
節「あ」、「い」、「う」、…、「ぺ」、「ぽ」、「○
(無音)」に対する尤度の算出が行われる。
【0031】このようにして算出された尤度は、基準音
節と各フレームとを相関軸とするマトリックス上に、そ
れぞれの尤度がマッピングされるように、メモリ(RA
M:Random Access Memory)上に書きこまれる。すなわ
ち、図1の下部に示すマトリックス上の尤度が、そのま
まメモリ上にマッピングされ記憶される。
【0032】以上のようにして、各基準音節に対する尤
度の算出およびメモリへの書きこみがなされると、次
に、単語辞書中の一つの認識候補に対する音声入力信号
のマッチング度合いが算出される。
【0033】図1の上部のブロックは、認識候補「おお
きい」に対する尤度の得点(マッチング度合い)を示す
ものである。
【0034】上述の通り、音声信号の切り出しは無音部
分を含むようにして行われるため、認識候補に対する音
声信号のマッチングを算出する場合には、認識候補の前
後に無音音節を付加したもの認識候補音節とする。すな
わち、図1のように認識候補が「おおきい」であれば、
「おおきい」を構成するそれぞれの音節「お」、
「お」、「き」、「い」の前後に、音節「○(無音)」
を付加し、これらの音節を連結したものを認識候補音節
とする。
【0035】このようにして、認識候補音節の構成がな
されると、次に、かかる認識候補音節の各音節に対し
て、上記音声信号のフレーム特徴量の尤度が割り振られ
る。
【0036】まず、音声信号から最初に抽出されたフレ
ーム特徴量(「○(無音信号)」部分の特徴量)と認識
候補音節の各音節との間の尤度が、上記RAMから読み
出される。すなわち、上記RAMに記憶された基準音節
に対する音声信号の尤度(図1の下部ブロックに割り振
られた尤度)の内、当該フレーム特徴量「○(無音信
号)」に対応する各音節「○(無音)」、「お」、
「お」、「き」、「い」、「○(無音)」の尤度をRA
Mから読み出し、これら各尤度を、図1の上部ブロック
の内、第1のフレーム特徴量とこれら認識候補の各音節
とが交差する欄中に割り振る。
【0037】次に、音声信号から2番目に抽出されたフ
レーム特徴量(「○(無音信号)」の部分の特徴量)と
各音節との間の尤度をRAMから読み出し、これを、上
記と同様にして、図1の上部ブロックの欄中に配布す
る。
【0038】以下、同様にして、第3番目に抽出したフ
レーム特徴量から最後に抽出した特徴量までの尤度を図
1の上部ブロックに割り振る。
【0039】このようにして図1の上部ブロックに割り
振られた尤度は、実際には、各フレームと認識候補音節
とを相関軸とするようにして、RAM内の所定の領域に
記憶される。
【0040】以上のようにして、認識候補音節に対する
音声信号の尤度の設定および配布が終了すると、次に、
このように配布された尤度群を用いて、当該認識音節に
対する音声信号のマッチング度合いが算出される。
【0041】かかるマッチング度合いの算出は、まず、
図1の左下角の欄から右上角の欄まで各欄を通って進む
ルートを設定し、当該ルート上にある各欄中の尤度の合
計値を算出する。かかるルート設定は、例えば、一つの
欄から見て前の欄が左横または左斜め下の何れかになる
ように設定する。あるいは、これに替えて、一つの欄か
ら見て前の欄が左横、左斜め下または真下の何れかにな
るようにルートを設定するようにしてもよい。かかるD
Pマッチングには種々の定式化があり、たとえば、東海
大学出版会「デジタル音声処理(第1刷)」P167〜
P167に記載されているものを使用し得る。
【0042】なお、本実施の形態では尤度を用いて説明
を行っているが、これは対数尤度でも良いし、距離(フ
レーム特徴量と各音節の特徴量の差:絶対値)の逆数に
基づく値でも良い。また、これに遷移確率等を加えれば
周知のHMM(Hidden Markov Model)でも表現でき
る。
【0043】このようにして設定され得る全てのルート
について、上記の尤度の合計値算出を行い、各ルートに
ついて算出された合計値の内、最も値の大きな合計値
を、当該認識候補に対する音声信号のマッチング度合い
(得点)とする。
【0044】図1の例においては、認識候補が「おおき
い」であり、音声信号中に「おおきい」の部分が含まれ
ているので、図1の上部ブロック中において、音声信号
の「おおきい」の各フレーム部分と認識候補音節の交差
する欄の尤度が高くなっている。したがって、当該認識
候補「おおきい」に対するマッチング度合い(得点)
は、かかる交差する欄中の尤度の影響によって大きなも
のとなる。
【0045】これに対し、音声信号中に含まれていない
ような認識候補(例えば「ちいさい」等)についてマッ
チング度合い(得点)を算出すると、図1の上部ブロッ
クにおける各欄の尤度は、何れも低い値となるから、マ
ッチング度合い(得点)も低いものとなる。
【0046】したがって、各認識候補について算出した
マッチング度合い(得点)を相互に比較し、得点の最も
高いものから順に上位数個の認識候補を選択して暫定的
な認識候補とすれば、この認識候補中に適正な認識候補
が含まれている可能性は高いものとなる。
【0047】そして、この暫定的な認識候補を、例え
ば、音声認識装置のモニター上に全てを表示せしめ、そ
の中から操作者に適切なものを選択させることで、認識
結果として確定させるようにする。
【0048】あるいは、かかる方法に代えて、あらかじ
め認識候補を内容種別によって区分する(例えば、「大
きい」や「小さい」等の大きさの区分、「画像」や「音
声」等の情報の区分、等)ようにして種々の辞書を構成
しておき、上記マッチング度合い(得点)の上位数個
(たとえば、5個)の認識候補を各辞書から取り出し、
取り出した各辞書からの認識候補について組み合わせを
作成し(たとえば、2辞書で5個づつの認識候補であれ
ば5個×5個=25個の組み合わせ)、組み合わされた
認識候補間を無音で連結すると共に前後に無音を付加し
て認識候補音節を生成し(例えば、「がぞう」と「おお
きい」の組み合わせであれば、「○○がぞう○○おおき
い○○」の認識候補音節)、この認識候補音節と上記音
声信号のマッチング度合い(得点)を上記と同様にして
再度算出し、各組み合わせの内最も得点の高いものを認
識結果として確定するようにしてもよい。
【0049】以上のように、認識候補の前後に無音音節
を付加して認識候補音節を生成し、この認識候補音節と
音声信号とのマッチング度合いを判別するようにすれ
ば、上記のように無音信号部分を含めて音声信号を切り
出すようにしても、この無音信号部分の影響が認識候補
の前後に付加した認識候補音節「○(無音)」によって
吸収されるので、比較的精度のよい認識結果を得ること
ができるようになる。
【0050】しかしながら、音声信号に不要語が付加さ
れている場合には、この認識候補音節「○(無音)」の
特徴量と不要語の特徴量は通常非近似であるから、この
認識候補音節「○(無音)」によって不要語の影響を吸
収することはできず、このため、認識候補の確定精度が
低下してしまう。
【0051】そこで、本実施の形態では、認識候補音節
「○(無音)」に対する尤度の割り当て方を改良し、こ
れにより、音声信号に含まれる無音部分の影響のみなら
ず、音声信号中の不要語の影響をも同時に吸収し得るよ
うにする。具体的には、切り出し音声信号をフレーム周
期で音響分析して抽出した各フレーム特徴量の、認識候
補音節「○(無音)」の特徴量に対する尤度(以下、
「無音モデル尤度」という)の設定を改良する。
【0052】詳しくは、図2に示すように、それぞれの
フレーム特徴量の各標準音節に対する尤度の内、最高の
尤度を無音モデル尤度に設定する。すなわち、図2の上
部ブロックにおいて、フレーム特徴量「え」「え」
「が」「ぞ」「う」「が」「お」「お」「き」「い」の
無音モデル尤度には、これら各フレーム特徴量の基準音
節に対する尤度の最高値である0.9、0.9、0.9、0.9、0.
9、0.8、0.9、1.0をそれぞれ割り当てる。
【0053】このように尤度の割り当てを行うと、マッ
チング度合いの得点が最高となるルートは、例えば図2
の上部ブロックでは、無音モデル尤度の欄を通った後、
矢印で示すように「お」「お」「き」「い」の部分で斜
め右上に進み、その後再び無音モデル尤度の欄を通るル
ートとなる。すなわち、切り出し音声信号の「○」
「○」「が」「ぞ」「う」「が」の部分と、「おおき
い」に続く「○」「○」の部分では、無音モデル尤度の
欄の尤度が最高値に設定されるため、尤度の合計値が最
高となるルートは、通常、この無音モデル尤度の欄を通
るものとなる。
【0054】したがって、切り出し音声に無音信号の部
分の他に不要語が含まれているような場合であっても、
無音信号部分と不要語による尤度の乱れは、全て、無音
モデル尤度によって吸収されることとなる。
【0055】ところで、上記実施の形態では、無音モデ
ル尤度として、各フレーム特徴量の基準音節に対する尤
度の最高値を設定するようにしたが、このようにする
と、音声信号の内、本来、尤度が強調されるべき部分、
すなわち認識候補に対応する部分の尤度が強調されない
といった不都合が生じる。
【0056】例えば図2の上部ブロックにおいて、矢印
で示したルート上の欄の尤度は、認識候補と音声信号が
一致する箇所であるから、他の欄の尤度に比べて、尤度
が充分に強調されていなければならない。しかしなが
ら、かかる矢印上の欄は、上記の通り、当該区間の無音
モデル尤度と同一の尤度が設定されている。このため、
本来、マッチング度合い(得点)に大きく影響する必要
のある矢印上の欄の尤度が、それ程、強調されないこと
になり、その結果、認識結果の精度が外乱による影響等
を受けやすくなるとの不都合が生じる。
【0057】そこで、かかる不都合を改善するために、
図3の実施の形態においては、各フレーム特徴量の基準
音節に対する尤度の内、上位N個の尤度の平均値(以
下、「ガーベジ用尤度」という)を算出し、ガーベジ用
尤度が無音モデル尤度よりも大きいとき、このガーベジ
用尤度を無音モデル尤度に置換えるようにした。
【0058】このようにガーベジ用尤度への置換えを行
うと、図3に示すように、矢印ルート上にある欄の尤度
が無音モデル尤度よりも数段大きくなり、よって、本来
強調されるべき矢印ルート上の欄の尤度が、効果的に強
調されるようになる。また、音声信号のうち、無音部分
の無音モデル尤度は適正に強調され、さらに、不要語部
分(認識対象でない「がぞう」の部分を含む)の無音モ
デル尤度も適正に強調されているので、当該期間の無音
モデル尤度によって無音部分および不要語部分の影響を
効果的に吸収できるようになる。
【0059】以上が本実施の形態の概要である。以下、
本実施の形態をさらに詳細に示す種々の実施例について
説明する。
【0060】図4に本実施例のブロック図を示す。図に
おいて、1はマイクロフォン等の音声入力部、2は音声
入力部からの音声入力信号から音声信号を切り出す音声
信号切り出し部である。かかる音声信号切り出し部2
は、上述の通り、音声入力信号のパワーを監視し、前後
に無音信号を含むように音声信号を切り出す。
【0061】3は音響分析部で、切り出された音声信号
を所定のフレーム周期毎に音響分析し、特徴パラメータ
(以下、「フレーム特徴パラメータ」という)を抽出す
る。フレーム特徴パラメータとしては、例えば線形予測
係数やLPCケプストラム、周波数帯域毎のエネルギな
どとする。かかる音響分析については既に周知であるの
で、ここでは詳細な説明を割愛する。なお、かかるフレ
ーム特徴パラメータとは、上記実施の形態におけるフレ
ーム特徴量と同義である。
【0062】4は各基準モデル毎の音響特性パラメータ
を記憶した基準モデルパラメータ部で、上記音響分析部
3と同様の方法により基準モデルを音響分析し、そのパ
ラメータを各モデルの基準パラメータとして記憶してい
る。ここで基準モデルとは、例えば、上記実施の形態で
言うところの基準音節に相当する。かかる基準モデル
は、上記実施の形態で示した如く、無音モデルを含むも
のである。かかる基準モデルは、上記実施の形態の如く
基準音節としてもよいし、これに代えて、基準音素とす
ることもできる。また、各単語全体の特徴パラメータを
基準モデルとすることもできる。なお、基準モデルとし
ては、Hidden Markov Model等を用
いることができる。また、基準モデルパラメータは離散
分布や連続分布等で表現できる。
【0063】5は尤度演算部で、音響分析部3で抽出さ
れた所定フレーム周期毎のフレーム特徴パラメータと基
準パラメータ部4の各基準モデル毎の特徴パラメータと
を比較し、両者間の尤度を算出する。この尤度の算出方
法としては、たとえば社団法人電子情報通信学会発行
「確率モデルによる音声認識」の第3章等に記載されて
いる周知の方法を用いることができる。
【0064】6はRAM部で、尤度演算部5にて算出さ
れた各フレーム毎の尤度を各基準モデルと関連付けて記
憶する。例えば、上記実施の形態で示した図1〜図3の
下部にマトリックス状に示した尤度をRAM上にマッピ
ングして記憶する。
【0065】7は認識辞書部で、認識候補としての単語
が記憶されている。かかる認識辞書部には、図5に示す
如く、「大きさ」や「情報の種類」等のカテゴリーに区
分して複数の認識辞書が準備されている。
【0066】8は単語モデル作成部で、認識評価の対象
となる単語の基準モデルを連結すると共にその前後に無
音モデルを付加して単語モデルを作成する。例えば、図
6に示す如く、認識対象の単語が「おおきい」であれ
ば、作成される単語モデルは「○おおきい○」(○は無
音モデル)となる。
【0067】9はマッチング演算部で、上記の如くRA
M部6に記憶された基準モデル毎の尤度と後述のガーベ
ジ用尤度算出部10からのガーベジ用尤度を参照し、単
語モデル作成部8からの単語モデルについてマッチング
度合い(得点)を演算する。かかるマッチング度合い
(得点)の算出は、例えば、上記実施の形態に示した如
く、単語モデルを構成する各基準モデル(無音モデルを
含む)と、音声信号から抽出した各フレーム特徴パラメ
ータとの間の尤度をマッピングしてマトリックスを構成
し(図1〜図3の上部参照)、このマトリックスを左下
の角から右上の角に進む種々のルートにおける尤度の合
計得点の内、最高得点をマッチング度合いとする(ビタ
ビマッチング法)。
【0068】ここで、RAMに記憶された無音モデルの
尤度としては、上記実施の形態の如く、フレーム周期で
抽出された各フレーム特徴パラメータの基準パラメータ
に対する尤度群の内、最高の尤度を無音モデルの尤度に
置換える方法や、フレーム特徴パラメータの基準パラメ
ータに対するそれぞれの尤度群の内、上位N個の平均値
を無音モデルの尤度に置換える方法、等とする。なお、
このように算出され置換えられる尤度が、ガーベジ用尤
度算出部10で算出されるガーベジ用尤度である。
【0069】10はガーベジ用尤度算出部で、RAM部
6に記憶された基準モデル毎の尤度を参照し、ガーベジ
用尤度を算出する。ここで、ガーベジ用尤度としては、
上記実施の形態の如く、フレーム周期で抽出されたフレ
ーム特徴パラメータの基準パラメータに対する尤度群の
内、最高の尤度をガーベジ用尤度とする方法や、フレー
ム特徴パラメータの基準パラメータに対する尤度の内、
上位N個の平均値をガーベジ用尤度とする方法、等とす
る。
【0070】11は認識候補記憶部で、マッチング演算
部9で算出されたマッチング度合い(得点)を単語毎に
比較し、得点の高いものからM個を認識候補の単語とし
て記憶する。ここで、認識候補とされる単語は、上記
「大きさ」や「情報の種類」等の辞書(カテゴリー)毎
にM個が記憶される。このように記憶された認識候補の
単語は、そのまま表示して操作者の意図するものを選択
させるようにしてもよいし、あるいは、後述するよう
に、再度、かかるM個の認識候補を対象として、音声認
識処理を行うようにしてもよい。
【0071】図7は上記マッチング演算部9の詳細を示
すブロック図である。91は無音モデル尤度決定部で、
RAM部6に記憶されている無音モデルの尤度とガーベ
ジ用尤度算出部10からのガーベジ用尤度を比較し、無
音モデルの尤度を決定する。
【0072】図8に無音モデル決定部91における無音
モデルの尤度の決定方法を示す。単語モデルの各基準モ
デルの尤度は、ステップS1にて、その基準モデルが無
音モデルであるが否かが判別される。ここで、無音モデ
ルではないと判別されると、当該モデルの尤度は認識対
象の単語に関する尤度として、RAM部6に記憶された
ままとされる。
【0073】ステップS1にて、当該尤度が無音モデル
の尤度であると判別されると、ステップS2、S3に
て、当該無音モデルの尤度とガーベジ用尤度算出部10
からのガーベジ用尤度の何れが大きいかが判別され、ガ
ーベジ用尤度の方が大きいと、ステップS5、S6に
て、当該無音モデルの尤度がガーベジ用尤度に置換えら
れる。かかる置換えは、RAM部6の当該無音モデルの
尤度をガーベジ用尤度に書き替えるようにしてもよい
し、あるいは、RAM部6の当該無音モデルの尤度は書
き替えずに、マッチング演算部9における演算時にの
み、当該無音モデルについてはガーベジ用尤度を用いる
よう処理するようにしてもよい。
【0074】以上の実施例における音声認識動作につい
て図9を参照して説明する。
【0075】所定の音声入力モードにおいて操作者が音
声を入力すると、認識辞書部7に格納された種々の辞書
の内、当該モードにて使用されるべき辞書が選択され、
さらにこれら辞書のうち一の辞書が認識対象の辞書とし
て設定される(ステップS101、S102)。認識対
象の辞書が設定されると、この辞書中に格納された種々
の単語の内、一の単語が認識対象の単語(W1)として
読み出される(ステップS103、S104)。そし
て、この単語(W1)は、上記の通り入力音声信号と比
較され、単語認識のための尤度計算と得点計算(マッチ
ング処理)がなされる(ステップS105)。
【0076】辞書内から読み出された単語(W1)につ
いて得点計算がなされると、この得点は、認識候補記憶
部11に先の処理によって記憶されているM個の単語
(Ws1、Ws2、…、Wsm)の内、最も得点の低い
単語と比較され、これよりも得点が大きければ、この先
に記憶された単語に代えて、当該単語(W1)が得点と
共に記憶される。今、単語(W1)は当該辞書から読み
出された最初の単語であるので、認識候補記憶部11に
は未だ認識候補の単語が記憶されていない。従って、単
語(W1)は得点と共にそのまま認識候補記憶部11に
記憶される(ステップS106)。
【0077】上記単語(W1)の処理が終了すると、ス
テップS103に戻り、当該認識辞書から次の単語(W
2)が読み出され、ステップS104〜S106と同様
の処理がなされる。このとき、当該辞書からM個の単語
が読み出されるまでは、認識候補記憶部11にはM個の
認識候補が記憶されないので、辞書から読み出された単
語はその得点と共に順番に認識候補記憶部11に記憶さ
れる。そして、当該辞書から読み出される単語がM+1
個目になったときに、この単語(Wm+1)の得点が認
識候補記憶部11に記憶されているM個の単語の得点と
比較され、これよりも大きければ、この単語(Wm+
1)とその得点が認識候補記憶部11に記憶されると共
に、先に認識候補記憶部11に記憶されていたM個の単
語の内、最も得点の低い単語とその得点が認識候補記憶
部11から消去される。
【0078】以上の処理を当該辞書に記憶されている全
ての単語について行うと、ステップS104にて、当該
辞書に対する認識候補の設定が終了したことが判別さ
れ、処理はステップS101に戻る。このとき、認識候
補記憶部11には、当該辞書に記憶された単語のうち、
音声入力信号との間で得点の高い上位M個の単語が認識
候補として記憶されている。
【0079】以上のようにして、最初の辞書について認
識候補の設定が終了すると、ステップS101〜S10
3にて次の辞書が認識対象の辞書として選択され、この
辞書中の単語について、順次、上記ステップS103〜
S106の処理が行われる。これにより、当該2番目の
辞書について、上位M個の単語が認識候補として認識候
補記憶部11に記憶される。
【0080】以上の動作が、当該音声入力モードにて使
用されるべき全ての辞書について行われると、ステップ
S102にて、全ての辞書についての音声認識処理が終
了したと判別される。このとき、認識候補記憶部11に
は、当該音声入力モードにて使用されるべき全ての辞書
について、辞書毎にそれぞれM個の単語が認識候補とし
て記憶されている。
【0081】そして、かかるM個の認識候補は、ステッ
プS107において辞書区分毎に例えば音声認識装置の
モニター上に表示される。操作者は、モニター上に表示
された認識候補の内、所望のものを選択する。これによ
り、入力音声に対する単語が辞書区分毎に確定される。
【0082】以上の音声認識動作では、辞書区分毎の認
識候補としてM個の単語をモニター上に表示し、操作者
に選択させるようにした。しかしながら、認識候補とし
て表示される単語の数が多いと、その分、操作者に無駄
な選択動作を強いることになる。表示される単語の数は
なるべく少ない方が良く、且つ、その単語の認識候補と
しての精度も高いほうが好ましい。
【0083】そこで以下の実施例では、M個の単語を認
識候補としてそのまま表示せずに、さらに単語の数を絞
ると共に認識候補として精度を上げようにした。
【0084】図10に当該実施例の構成を示す。図10
の構成は、上記図4の実施例に比べて、単語モデル作成
部8と認識候補記憶部11の構成が相違するのみであ
り、その他の構成は上記図4の構成と同一である。
【0085】本実施例では、上記実施例と同様の処理に
よって認識候補記憶部11に辞書区分毎に記憶されたM
個の単語の内、各辞書区分から一つずつ単語を選択し、
これを無音モデルで連結して再度単語モデルを作成し、
この単語モデルと入力音声とのマッチングを演算するも
のである。
【0086】単語モデル作成部8にて作成される単語モ
デルの例を図11に示す。この単語モデルは、認識候補
記憶部11に辞書区分毎に記憶されたM個の単語の内、
一の辞書区分から単語「がぞう」を選択し、他の一の辞
書区分から単語「おおきい」を選択して組み合わせたも
のである。
【0087】例えば、音声入力モードに応じて使用され
るべき辞書が2つの場合、上記実施例の処理と同様にし
て各辞書毎にM個の単語がそれぞれ認識候補として設定
されたとすると、各辞書区分から一つずつ選択して作成
した単語モデルの総数は、M×M個となる。同様に、音
声入力モードに応じて使用されるべき辞書が3つの場
合、単語モデルの総数は、M×M×M個となる。
【0088】本実施例では、このように作成したMのP
乗(Pは音声入力モードに応じて使用されるべき辞書の
数)個の単語モデルの全てについて、入力音声信号との
尤度計算およびマッチング処理を行い、得点の最も高い
ものからL個の単語モデルを判別し、この単語モデルに
おいて連結されている各単語を認識候補とするものであ
る。
【0089】このように複数の単語を連結して単語モデ
ルを作成しこれを入力音声と比較するようにすると、各
単語モデルの単語が入力音声中に1つ含まれているか、
2つ含まれているか、3つ含まれているか、あるいは、
全く含まれていないか、すなわち、音声入力信号中に含
まれている単語の数に応じて、各単語モデル間における
マッチング得点の格差が大きなものとなる。
【0090】この点について上記実施例と比較して説明
すると、上記の実施例では一つの単語のみを対象として
単語モデルを作成し、これと入力音声信号とのマッチン
グ度合い(得点)を算出するものであった。したがっ
て、音声入力信号中には単語モデルの単語以外に多くの
不要な単語が必ず含まれ、このため各単語モデルの得点
は、例え入力音声信号中にその単語が含まれていたとし
ても、それ程大きくならず、このため、単語モデル間の
マッチング度合い(得点)の格差はそれ程大きくならな
い。これに対し、本実施例のように複数の単語を対象と
して単語モデルを作成し、これと入力音声信号とを比較
してマッチング度合い(得点)を算出するようにすれ
ば、入力音声中に単語モデルを構成する単語が一つ存在
するか、2つ存在するかで、単語モデル間の得点の格差
は大きなものとなる。入力音声信号中に全ての単語が余
すところなく含まれていれば、その単語によって構成さ
れる単語モデルの得点は極めて高いものとなる。
【0091】したがって、単語モデルを構成する場合に
は、上記実施例のように一つの単語から単語モデルを構
成するよりも、本実施例のように複数の単語から単語モ
デルを構成する方が、単語モデル間の得点の格差が大き
くなり、よって、精度の高い認識候補の単語を操作者に
提供できるようになる。
【0092】しかしながら、入力音声モードに応じて使
用される全ての単語辞書から全ての単語を一つずつ連結
して単語モデルを作成すると、その単語モデルの数は膨
大なものなる。かかる膨大な数の単語モデルについて入
力音声信号とのマッチング処理を行うとなると、膨大な
処理時間を要し、且つ、不要な連結による単語モデルに
対する無駄な処理を繰り返す結果ともなる。
【0093】そこで、本実施例では、上記図4〜図9で
得られた辞書区分毎のM個の単語のみを対象とし、各辞
書区分から一つずつ単語を選択しこれを連結して単語モ
デルを作成し、これを入力音声信号と比較することで、
最終的な認識候補の数を絞ると共にその精度を上げるも
のである。
【0094】以下、本実施例の動作について図12を参
照して説明する。なお、かかる動作は、音声入力モード
に応じて使用されるべき辞書が2つの場合の動作であ
る。また、図12において、ステップS101〜S10
6による動作は上記実施例と同様である。すなわち、か
かるステップにより、辞書毎にそれぞれM個の単語が認
識候補として設定される。
【0095】しかして、使用されるべき2つの辞書につ
いてM個の単語が認識候補として設定されると、動作は
ステップS102からステップS201に移行し、これ
ら辞書の内、第1の辞書について設定された認識候補の
単語(Ws11)が読み出されると共に(ステップS2
01、S203)、第2の辞書について設定された認識
候補の単語(Ws21)が読み出される(ステップS2
03、S204)。そして、これらの各単語(Ws1
1)(Ws21)を無音モデルで接続し、その両端にさ
らに無音モデルを連結して単語モデルを作成する(ステ
ップS205)。
【0096】このようにして単語モデルが作成される
と、この単語モデルについて、上記実施例と同様に、入
力音声信号との間の尤度計算と得点計算(マッチング処
理)が行われる(ステップS206)。そして、この単
語モデルがその得点と共に認識候補記憶部11に記憶さ
れる。
【0097】以上のようにして一つの単語モデルに対す
る処理が終了すると、ステップS203に戻り、第2の
辞書の単語(W22)が読み出される。そして、この単
語(W22)が、上記と同様にして、上記第1の辞書の
単語(W11)と連結され、新たな単語モデルが作成さ
れる(ステップS205)。
【0098】作成された単語モデルは、上記と同様に、
入力音声信号との間の尤度計算および得点計算がなされ
(ステップS206)、この得点と共に認識候補記憶部
11に記憶される。
【0099】以上のステップS203〜S206の動作
は、第2の辞書について設定されたM番目の単語(Ws
2m)が第1の辞書の単語(Ws11)と連結されて得
点計算され、これが認識候補記憶部11に記憶されるま
で繰り返される。
【0100】第2の辞書について設定されたM個の単語
の全てが読み出され、上記の処理が終了すると、ステッ
プS201に戻り、第1の辞書について設定された次の
単語(Ws12)が読み出される(ステップS201、
S202)。そして、この単語が、上記と同様ステップ
S203〜S206の処理を繰り返すことにより、第2
の辞書に応じたM個の単語と順次連結されてM個の単語
モデルが作成され、これら各単語モデルと入力音声信号
の間の尤度計算と得点計算が順次行われる。そして、計
算された得点はその単語モデルと共に順次、認識候補記
憶部11に記憶される。
【0101】以上の処理は、第1の辞書について設定さ
れたM個の単語の全てが第2の辞書のM個の単語と連結
されて処理されるまで繰り返される。
【0102】以上の処理が終了すると、認識候補記憶部
11には合計M×M個の単語モデルとその得点が記憶さ
れている。かかるM×M個の単語モデルは、ステップS
207において、その得点が比較され、このうち、上位
L個の単語モデルが選択される。そして、かかる上位L
個の単語モデルに含まれる各辞書の単語を判別し、この
単語を辞書毎の認識候補としてモニター上に表示する。
【0103】なお、かかる実施例は、音声入力モードに
応じて使用される辞書が2つの場合の動作であったが、
これに限定されるものではない。例えば、辞書が3つの
場合には、図12のステップS201およびS202
(第1の辞書用)と、ステップS203およびS204
(第2の辞書用)に相当するステップを、ステップS2
04の下にもう1段追加すれば良い。対象となる辞書が
増えるに応じて、かかるステップを追加し、各辞書に応
じたM個の単語が全て組み合わせられるようにすればよ
い。
【0104】また、対象となる辞書が3つ以上(例えば
K個)ある場合であっても、K個の辞書から一つずつ単
語を選択するのではなく、この内、J個(J<K)の辞
書を選択し、この選択したJ個の辞書に応じた単語を一
つずつ選択してこれを連結するようにしても良い。
【0105】さらに、本実施例では、各辞書について設
定されたM個の単語を組み合わせてMのP乗(Pは辞書
の個数)個の単語モデルを作成するものであったが、各
辞書に設定されたM個の単語に加え、ヌル(無し)を単
語として追加し、各辞書について設定される単語をM+
1個とて、M+1のP乗個の単語モデルを作成するよう
にしても良い。この場合、ヌルと単語との組み合わせ
は、ヌルを除いて単語を連結することにより行う。例え
ば、対象となる辞書が3つあり、第1の辞書の単語がヌ
ル、第2の辞書の単語がWs1、第3の辞書の単語がW
s2であるとすると、これらを組み合わせた単語モデル
は、単語Ws1と単語Ws2とを無音モデルで連結し、
その両端にさらに無音モデルを連結するようにして作成
される。対象となる辞書が2つで、第1の辞書がヌル、
第2の辞書がWs2の場合には、単語モデルは、単語W
s2の両端に無音モデルを連結した、例えば図6と同様
の単語モデルとなる。
【0106】このようにM個の単語の他に別途ヌルを追
加すると、操作者が音声入力モードによって入力を求め
られている種類・区分の全てについて単語を入力しなか
った場合でも、入力された種別の単語は正しく認識でき
るようになる。例えば、音声入力モードがA、B、Cの
3つの種類・区分の単語の入力を要求するものであった
場合に、操作者がAとBの種別・区分の単語しか入力し
なかったとする。この場合、図12の実施例ではステッ
プS101〜S106にてA、B、Cの種別・区分に応
じた辞書についてM個の単語が認識候補として設定され
るが、この内、Cの辞書について設定されたM個の単語
は、操作者が入力しなかった種類・区別に応じたもので
あるから、何れも認識候補としては誤りである。しか
し、図12の実施例では、ステップS201〜S206
によって、このCの辞書についても認識候補の単語が設
定され、モニター上に表示されることになってしまう。
【0107】そこで、A、B、Cの辞書について設定さ
れたM個の単語にさらにヌルを追加しておけば、Cの辞
書についてヌルが選択された場合の単語モデルの得点が
他よりも高くなる。すなわち、この場合の単語モデル
は、A、Bの辞書の単語をそれぞれWa、Wbとする
と、○+Wa+○+Wb+○(○は無音モデル)とな
り、他方、入力された音声はAとBの種類・区分に応じ
たものであるから、WaとAの音声部分、WbとBの音
声部分がマッチングし、全体としての得点が大きくな
る。
【0108】なお、単語モデルの長さに得点が比例する
ようなマッチング方法の場合には、ヌルが選択されると
単語モデルの長さが小さくなるので得点の正規化が必要
となる。かかる正規化は、例えば、単語モデルの長さに
応じて得点を平均化することによって達成される。
【0109】この点は、上記図4の実施例のように、一
つの単語のみを対象とした場合でも同様である。すなわ
ち、単語の音節数は画一的ではなく、単語に応じて音節
数は相違する。例えば、「がめん」は3音節、「おんせ
い」は4音節である。かかる場合にも、単語モデルの長
さは音節数に応じて変化するが、正規化処理により得点
が単語モデルの長さに応じて平均化されるので、単語モ
デルの長さに応じた得点の格差は是正される。
【0110】以上、本発明に係る種々の実施例について
説明したが、本発明はかかる実施例に制限されるもので
はない。
【0111】例えば、上記実施例では、一つの単語から
単語モデルを作成する場合、単語の両端に無音モデルを
一つだけ追加するようにしたが、2つ以上追加するよう
にしても良く、また、単語の前後で無音モデルの数を変
化させるようにしてもよい。
【0112】また、2つ以上の単語を連結して単語モデ
ルを作成する場合、上記実施例では単語間に介在させる
無音モデルの数を1つとしたが、これを2つ以上とする
こともでき、また、無音モデルを介在させることなしに
直接単語を連結するようにしても良い。さらに、単語W
aと単語Wbの間に介在する無音モデルの数を2つ、単
語Wbと単語Wcの間に介在する無音モデルの数を1つ
といった具合に、単語間の位置に応じて無音モデルの数
を変えるようにしても良い。
【0113】また、上記実施例では、ガーベジ尤度とし
て、フレーム特徴量の基準モデル特徴量に対する尤度の
内、最も大きな尤度または上位N個の尤度の平均値を採
用したが、これに代えて上位K番目の尤度をガーベジ尤
度として設定するようにしても良い。この際、統計的に
K番目の尤度がN個の尤度の平均値近傍となるようにK
を選んでやれば、平均値処理を省略しながら平均値を採
用したと同様の効果が得られる。
【0114】また、上記実施例では、単語モデル作成部
8にて無音モデルを付加するようにしたが、これに代え
て、単語に予め無音モデルを付加して認識辞書部7に記
憶させるようにしても良い。
【0115】また、上記実施例では、各辞書について認
識候補として設定されたM個の単語の他、別途、ヌルを
追加して各単語を連結するようにしたが、この場合、全
ての辞書についてヌルを設定すると、単語モデルは無音
モデルのみからなることになる。従って、全てがヌルの
単語モデルはマッチングの対象から除くようににてもよ
い。あるいは。全てがヌルの場合にマッチングの得点が
上位H番目より上位である場合には、当該入力音声に対
する処理結果は採用せず、操作者に再度音声入力を促す
ようにしても良い。
【0116】また、上記実施例では、各辞書毎に設定さ
れる認識候補を画一的にM個としたが、辞書毎に認識候
補の数を変えるようにしても良い。この際、予め、辞書
毎に認識候補の数を設定しておいても良いし、あるいは
認識処理時の得点に応じて当該辞書についての認識候補
の数を設定するようにしても良い。後者の場合、例え
ば、得点の閾値を設定しておき得点が閾値以上のものの
みを認識候補とするようにしても良い。この場合、認識
候補の数は得点と閾値に依存し、M個以上にもM個未満
にもなり得る。
【0117】また、上記実施例では、例えば、図12に
おいて、ステップS105による特性分析および計算処
理と、ステップS206による特性分析および計算処理
は同一のものとしたが、ステップS105の特性分析お
よび計算処理を粗くし、ステップS206の特性分析お
よび計算処理を精密にするようにしても良い。すなわ
ち、ステップS105においては、対象となる単語モデ
ルの数が多いので粗の処理により処理速度を優先し、ス
テップS206では、対象となる単語モデルの数が少な
いので密の処理により精度を上げる。これにより、全体
の処理速度を高めながら、精度の良い認識結果を得るこ
とができるようになる。
【0118】ここで、認識処理精度は、音声信号のスペ
クトル、スペクトルの変化量、パワーおよびパワーの変
化量等の音響分析パラメータについて、処理対象とする
パラメータを変化させることによって粗の処理と密の処
理を切り分ける。例えば、粗の処理はスペクトルのパラ
メータのみを対象とし、密の処理はスペクトル、スペク
トルの変化量、パワーおよびパワーの変化量を対象とす
る。あるいは、入力音声信号の抽出フレーム数を粗の処
理と密の処理とで変化させても良い。例えば、密の処理
のフレーム数を100としたとき、粗の処理のフレーム
数に50に間引くようにする。
【0119】その他、特性分析やマッチング処理等につ
いても種々の変更が可能である。さらに、ガーベジモデ
ルの生成も上記のように当該フレームの最大尤度を取る
方法や上位N個の平均を取る方法の他、種々の変更が可
能である。
【0120】
【発明の効果】本発明によれば、フレーム特徴量に対す
る無音モデルの尤度を適宜ガーベジ用尤度に置換えるも
のであるから、無音部分を含めて入力音声信号を切り出
したとしても、この無音部分のマッチング演算に対する
影響は無音モデルによって吸収され、且つ、音声信号中
の不要語部分のマッチング演算に対する影響はガーベジ
用尤度への置換えによって吸収されるから、不要語を含
んで音声入力がなされても、精度良く、音声認識を行う
ことができる。
【0121】また、ガーベジ用尤度は、フレーム特徴量
の基準モデル特徴量に対する尤度に基づいて演算される
ものであるから、認識対象の単語が辞書に追加されたと
しても、従来例のように全ての単語に基づいて別途演算
して再設定する必要はなく、単語の追加、変更における
装置の自由度を向上させることができる。
【図面の簡単な説明】
【図1】 実施の形態の概要を説明するための図
【図2】 実施の形態の概要を説明するための図
【図3】 実施の形態の概要を説明するための図
【図4】 実施例の構成を示す図
【図5】 実施例に係る認識辞書部の記憶状態を示す図
【図6】 実施例に係る単語モデルの構成を示す図
【図7】 実施例に係るマッチング演算部の構成を示す
【図8】 実施例に係る無音モデル尤度の設定方法を示
す図
【図9】 実施例の動作を示す図
【図10】 第2の実施例の構成を示す図
【図11】 第2の実施例に係る単語モデルの構成を示
す図
【図12】 第2の実施例の動作を示す図
【符合の説明】
1 音声入力部 2 音声信号切り出し部 3 音響分析部 4 基準モデルパラメータ部 5 尤度演算部 6 RAM部 7 認識辞書部 8 単語モデル作成部 9 マッチング演算部 10 ガーベジ用尤度算出部 11 認識候補記憶部

Claims (12)

    【特許請求の範囲】
  1. 【請求項1】 入力音声信号を音響分析してフレーム特
    徴量を抽出する音響分析手段と、単語の基準モデルの両
    端に無音モデルを連結して単語モデルを作成する単語モ
    デル作成手段と、前記フレーム特徴量と基準モデルの特
    徴量とを比較して当該単語モデルに対する当該フレーム
    特徴量の尤度を演算する尤度演算手段と、前記演算され
    た尤度に基づいて当該単語モデルの前記入力音声信号に
    対するマッチング度合いを演算するマッチング演算手段
    と、このマッチング度合いに応じて認識候補を設定する
    認識候補設定手段と、前記無音モデルに対するガーベジ
    尤度を設定するガーベジ尤度設定手段とを有し、 前記マッチング演算部は、無音モデルの尤度として、前
    記尤度演算部によって演算された無音モデルの尤度と、
    前記ガーベジ尤度設定手段によって設定されたガーベジ
    尤度の何れか一方を選択してマッチング演算を行うこと
    を特徴とする音声認識装置。
  2. 【請求項2】 請求項1において、マッチング演算部
    は、前記尤度演算部によって演算された無音モデルの尤
    度と、前記ガーベジ尤度設定手段によって設定されたガ
    ーベジ尤度を比較し、何れか大きい方の尤度を選択する
    ことを特徴とする音声認識装置。
  3. 【請求項3】 請求項1または2において、ガーベジ設
    定手段は、前記フレーム特徴量の基準モデル特徴量に対
    する尤度を演算処理してガーベジ尤度を算出することを
    特徴とする音声認識装置。
  4. 【請求項4】 請求項1または2において、ガーベジ設
    定手段は、前記フレーム特徴量の基準モデル特徴量に対
    する尤度の内、最も大きな尤度をガーベジ尤度とするこ
    とを特徴とする音声認識装置。
  5. 【請求項5】 請求項1または2において、ガーベジ設
    定手段は、前記フレーム特徴量の基準モデル特徴量に対
    する尤度の内、尤度の大きさが上位からN番目までの尤
    度を平均化演算してガーベジ尤度を算出することを特徴
    とする音声認識装置。
  6. 【請求項6】 請求項1または2において、ガーベジ設
    定手段は、前記フレーム特徴量の基準モデル特徴量に対
    する尤度の内、尤度の大きさが上位からK番目の尤度を
    ガーベジ尤度とすることを特徴とする音声認識装置。
  7. 【請求項7】 入力音声信号を音響分析してフレーム特
    徴量を抽出するステップと、単語の基準モデルの両端に
    無音モデルを連結して単語モデルを作成するステップ
    と、前記フレーム特徴量と基準モデルの特徴量とを比較
    して当該単語モデルに対する当該フレーム特徴量の尤度
    を演算するステップと、前記演算された尤度に基づいて
    当該単語モデルの前記入力音声信号に対するマッチング
    度合いを演算するステップと、このマッチング度合いに
    応じて認識候補を設定するステップと、前記無音モデル
    に対するガーベジ尤度を設定するステップとを有し、 前記マッチング演算のステップは、無音モデルの尤度と
    して、前記尤度演算ステップによって演算された無音モ
    デルの尤度と、前記ガーベジ尤度設定ステップによって
    設定されたガーベジ尤度の何れか一方を選択してマッチ
    ング演算を行うことを特徴とする音声認識方法。
  8. 【請求項8】 請求項7において、マッチング演算ステ
    ップは、前記尤度演算ステップによって演算された無音
    モデルの尤度と、前記ガーベジ尤度設定手段によって設
    定されたガーベジ尤度を比較し、何れか大きい方の尤度
    を選択することを特徴とする音声認識方法。
  9. 【請求項9】 請求項7または8において、ガーベジ設
    定ステップは、前記フレーム特徴量の基準モデル特徴量
    に対する尤度を演算処理してガーベジ尤度を算出するこ
    とを特徴とする音声認識方法。
  10. 【請求項10】 請求項7または8において、ガーベジ
    設定ステップは、前記フレーム特徴量の基準モデル特徴
    量に対する尤度の内、最も大きな尤度をガーベジ尤度と
    することを特徴とする音声認識方法。
  11. 【請求項11】 請求項7または8において、ガーベジ
    設定ステップは、前記フレーム特徴量の基準モデル特徴
    量に対する尤度の内、尤度の大きさが上位からN番目ま
    での尤度を平均化演算してガーベジ尤度を算出すること
    を特徴とする音声認識方法。
  12. 【請求項12】 請求項7または8において、ガーベジ
    設定ステップは、前記フレーム特徴量の基準モデル特徴
    量に対する尤度の内、尤度の大きさが上位からN番目の
    尤度をガーベジ尤度とすることを特徴とする音声認識方
    法。
JP2001095790A 2001-03-29 2001-03-29 音声認識装置および音声認識方法 Expired - Fee Related JP3584002B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001095790A JP3584002B2 (ja) 2001-03-29 2001-03-29 音声認識装置および音声認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001095790A JP3584002B2 (ja) 2001-03-29 2001-03-29 音声認識装置および音声認識方法

Publications (3)

Publication Number Publication Date
JP2002297182A true JP2002297182A (ja) 2002-10-11
JP2002297182A5 JP2002297182A5 (ja) 2004-09-30
JP3584002B2 JP3584002B2 (ja) 2004-11-04

Family

ID=18949797

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001095790A Expired - Fee Related JP3584002B2 (ja) 2001-03-29 2001-03-29 音声認識装置および音声認識方法

Country Status (1)

Country Link
JP (1) JP3584002B2 (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003096324A1 (fr) * 2002-05-10 2003-11-20 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale
JP2004157614A (ja) * 2002-11-01 2004-06-03 Advanced Telecommunication Research Institute International 行動分析装置
JP2007280104A (ja) * 2006-04-07 2007-10-25 Pioneer Electronic Corp 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003096324A1 (fr) * 2002-05-10 2003-11-20 Asahi Kasei Kabushiki Kaisha Dispositif de reconnaissance vocale
CN1320520C (zh) * 2002-05-10 2007-06-06 旭化成株式会社 语音识别设备和语音识别方法
US7487091B2 (en) 2002-05-10 2009-02-03 Asahi Kasei Kabushiki Kaisha Speech recognition device for recognizing a word sequence using a switching speech model network
JP2004157614A (ja) * 2002-11-01 2004-06-03 Advanced Telecommunication Research Institute International 行動分析装置
JP2007280104A (ja) * 2006-04-07 2007-10-25 Pioneer Electronic Corp 情報処理装置、情報処理方法、情報処理プログラムおよびコンピュータに読み取り可能な記録媒体

Also Published As

Publication number Publication date
JP3584002B2 (ja) 2004-11-04

Similar Documents

Publication Publication Date Title
US11373633B2 (en) Text-to-speech processing using input voice characteristic data
US20200410981A1 (en) Text-to-speech (tts) processing
JP3337233B2 (ja) 音声符号化方法及び装置
US20200082805A1 (en) System and method for speech synthesis
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
US11763797B2 (en) Text-to-speech (TTS) processing
JP2815579B2 (ja) 音声認識における単語候補削減装置
JP2002507010A (ja) 同時に起こるマルチモード口述のための装置及び方法
JPH1097276A (ja) 音声認識方法及び装置並びに記憶媒体
KR20050083547A (ko) 음성 처리 장치 및 방법, 기록 매체와 프로그램
JP2010078877A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP2007240589A (ja) 音声認識信頼度推定装置、その方法、およびプログラム
JP3660512B2 (ja) 音声認識方法、その装置及びプログラム記録媒体
JPH0250198A (ja) 音声認識システム
JP2005148342A (ja) 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体
TW201322250A (zh) 多語言語音合成方法
JP4532862B2 (ja) 音声合成方法、音声合成装置および音声合成プログラム
JP3584002B2 (ja) 音声認識装置および音声認識方法
JP3600178B2 (ja) 音声認識装置および音声認識方法
JP7159655B2 (ja) 感情推定システムおよびプログラム
KR100474253B1 (ko) 단어의 첫 자음 발성을 이용한 음성인식 방법 및 이를 저장한 기록 매체
US6934680B2 (en) Method for generating a statistic for phone lengths and method for determining the length of individual phones for speech synthesis
JP4580317B2 (ja) 音声合成装置および音声合成プログラム
JP3299170B2 (ja) 音声登録認識装置
Elbarougy Extracting a discriminative acoustic features from voiced segments for improving speech emotion recognition accuracy

Legal Events

Date Code Title Description
TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20040713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20040730

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20070806

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20080806

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees