JP2003150189A - 音声認識装置 - Google Patents
音声認識装置Info
- Publication number
- JP2003150189A JP2003150189A JP2001348785A JP2001348785A JP2003150189A JP 2003150189 A JP2003150189 A JP 2003150189A JP 2001348785 A JP2001348785 A JP 2001348785A JP 2001348785 A JP2001348785 A JP 2001348785A JP 2003150189 A JP2003150189 A JP 2003150189A
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- dictionary
- likelihood
- appearance frequency
- language likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
い、前記言語尤度に言語尤度重み係数を乗じて認識スコ
アに加える認識方式において、認識の場面ごとに語彙辞
書を用意して場面に応じて前記語彙辞書を切り替える場
合に、各場面の語彙辞書ごとに適切な言語尤度重み係数
を設定する音声認識装置を提供する。 【解決手段】 言語尤度作成手段17によって、出現頻
度付き語彙辞書内の語彙数が大きい場合には言語尤度重
み係数を大きく設定し、語彙数が小さい場合は言語尤度
重み係数を小さく設定するようにした。
Description
ごとに認識対象とする語彙辞書を切り替えて音声認識を
行う音声認識装置に関するものである。
て、認識対象語彙の言語尤度を用いる技術が従来から検
討されている。例えば単語の認識を行う場合、認識対象
とする語彙の出現確率を予め求めておき、前記出現確率
の対数値を言語尤度として用い、音響尤度と一定の重み
で荷重平均した値を認識スコアとする方法である。しか
し前記の一定の重みが常に最適値であるとは限らない。
として、音響尤度と言語尤度を荷重平均する際の重み係
数を、入力音声に応じて変更する技術が特開平8−24
8981号公報で開示されている。図4はこの特開平8
−248981号公報で開示されている技術を用いた従
来の音声認識装置の一構成例である。同図において1は
音声信号の入力端、2は入力音声信号、3は音響分析を
行う分析手段、4は入力音声信号の特徴ベクトルの時系
列、5はパターン照合を行う照合手段、6は音響モデル
メモリ、7は県名語彙辞書、8は言語尤度付き語彙辞
書、9は認識語彙情報、10は音響尤度、11は重み係
数決定手段、12は言語尤度重み係数、13は統合手
段、14は認識結果である。
業の電話番号を案内するタスクで、先ず県名を認識し、
その県内の企業名を認識する場合を例として説明する。
最初から一度に日本全国の企業名を認識対象としない理
由は日本全国では企業数が膨大になり認識が非常に困難
だからである。
彙辞書であり、日本全国の県名を認識語彙として持つも
のとして構成する。すなわち県名語彙辞書内には日本全
国の県名WPiの音素系列PPi, (i=1〜K)が格納されてい
る。Kは県名語彙辞書7に含まれる語彙数である。音素
系列PPiは例えばWP1が北海道、WP2が青森県とすると、
前記音素系列PP1は/hoQkaidoo/、PP2は/aomorikeN/であ
る。
K)は、各都道府県ごとに、県内に存在する企業の名称を
認識語彙として持つものとして構成する。例えばD1は北
海道に存在する企業の名称を認識語彙とする辞書、D2は
青森県に存在する企業の名称を認識語彙とする辞書であ
る。各言語尤度付き語彙辞書Dk内には認識語彙情報9と
して当該県内に存在する企業の名称である認識語彙
Wk,i, (i=1〜Nk)の音素系列Pk,iと、言語尤度SGk,iと電
話番号TELk,iが格納されている。Nkは言語尤度付き語彙
辞書Dkに含まれる語彙数である。前記言語尤度SGk,
iは、一定期間以上の過去の電話番号問い合わせ記録か
ら各語彙(企業名)Wk,iごとに語彙の出現確率を求めてお
き、前記出現確率を対数化したものとする。
ての音素に対する音響モデルを格納している。前記音響
モデルは例えば連続分布型のHMM(Hidden Markov Model)
とする。
当該企業の電話番号を案内するタスクで、先ず県名を認
識し、その県内の企業名を認識する場合を例として、本
認識装置の動作を説明する。音声認識装置の利用者は第
1県内にある○社の電話番号を問い合わせるものとす
る。
CCを県名語彙辞書7の出力であるPPに接続する。この接
続状態で以下のように県名の認識を行う。本例では県名
の認識では言語尤度を用いないこととする。
声すると入力音声信号2として分析手段3に入力され
る。分析手段3は音声信号2を例えばLPC(Linear Predi
ctiveCoding)法を用いて音響分析を行い、特徴ベクトル
の時系列4を出力する。この特徴ベクトルは例えばLP
Cケプストラムである。
ている語彙WPi,(i=1〜K)の音素系列PPiを読み込み、音
響モデルメモリ6に格納されている音素モデルを連結し
て認識語彙WPiの音素系列を表現する単語モデルを作成
し、特徴ベクトルの時系列4を入力として特徴ベクトル
の時系列4と例えばビタビアルゴリズムを用いてパター
ンマッチングを行い、語彙WPiに対する音響尤度SAiを求
める。この処理を語彙WPi,(i=1〜K)の全てに対して順次
行うことによって、全ての語彙に対する音響尤度SAi,(i
=1〜K)を求め、音響尤度の一番高い候補の県名を認識結
果とする。本例では認識結果は「第1県」で正認識であ
るとする。
を開始する前に照合手段5の入力端子CCを言語尤度付き
語彙辞書(第1県)の出力端子C1に接続する。この接続
状態で以下のように企業名認識を行う。
声すると音声信号2として分析手段3に入力される。分
析手段3は音声信号2の音響分析を行い、特徴ベクトル
の時系列4を出力する。
1県)認識語彙辞書D1から認識語彙情報9である語彙W1,
i,(i=1〜N)の音素系列P1,iと、言語尤度SG1,iと電話番
号TEL1,iを読み込み、音響モデルメモリ6に格納されて
いる音素モデルを連結して認識語彙W1,iの音素系列P1,i
を表現する単語モデルを作成し、特徴ベクトルの時系列
4を入力として特徴ベクトルの時系列4と例えばビタビ
アルゴリズムを用いてパターンマッチングを行い、語彙
W1,iに対する音響尤度SAiを求める。このパターンマッ
チング処理を語彙Wi,(i=1〜N1)の全てに対して順次行う
ことによって、全ての語彙に対する音響尤度SAi,(i=1〜
N1)を求める。
する音響尤度10であるSAi,(i=1〜N1)を入力とし、
(1)式に示すように音響尤度の一番高いものSA(1)と二
番目に高いものSA(2)との差DAに基づいて、DAが大きけ
れば、音響尤度による認識の信頼性が高いものとみなし
音響尤度SAと言語尤度SGを統合する際の言語尤度重み係
数wを大きくし、逆にDAが小さければ音響尤度による認
識の信頼性が低いものとみなして前記言語尤度重み係数
wを小さくする。
語彙W1,i, (i=1〜N1)に対する音響尤度SAi, (i=1〜N1)
と、言語尤度SGi, (i=1〜N1)を入力として(2)式によっ
て各語彙に対する統合尤度Si, (i=1〜N1)を求め、統合
尤度Siの一番高い語彙を認識結果として出力する。
来の技術では、音響尤度の信頼性を判断する尺度として
音響尤度の第一位と第二位の差を用い、音響尤度SAiの
信頼性が高いと判断される場合には音響尤度に対する重
みを大きくし、逆に音響尤度SAiの信頼性が低いと判断
される場合には音響尤度に対する重みを小さくすること
により、認識精度の向上をはかっていた。しかし音響尤
度の第一位と第二位の差は音響尤度の信頼性を判断する
尺度として必ずしも正確ではない。また他の尺度を用い
た場合でも音響尤度の信頼性を正確に求めることは困難
であり、結果として言語尤度に対する前記重み係数wは
常に適切な値として求められるとは限らないという問題
点があった。
れたもので、言語尤度に対してより適切な重み係数を与
えて音声認識精度を改善する音声認識装置を提供するこ
とを目的とする。
発明は、認識の各場面ごとに認識対象とする語彙を切り
替えて音声認識を行う音声認識装置であって、前記各場
面ごとに認識語彙とその出現頻度を保持する複数個の出
現頻度付き語彙辞書と、各認識語彙の出現頻度から計算
される出現確率の対数値に、前記出現頻度付き語彙辞書
ごとに異なる重み係数を乗じて言語尤度を計算する言語
尤度作成手段と、前記各場面ごとの認識語彙と前記言語
尤度を保持する言語尤度付き語彙辞書と、前記各場面に
関し、この言語尤度付き語彙辞書の言語尤度を含むデー
タと音素モデルとから作成された単語モデルと、入力音
声信号の特徴ベクトルの時系列と、からパターンマッチ
ングを行い語彙に対する音響尤度を求め、音響尤度と言
語尤度の和を語彙に対する認識スコアとして該認識スコ
アの一番高い候補を認識結果として出力する照合手段
と、を備えたことを特徴とする音声認識装置にある。
頻度付き語彙辞書内の語彙数が大きい辞書ほど前記重み
係数を大きな値に設定して前記言語尤度付き語彙辞書を
作成することを特徴とする。
頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未
満の出現頻度付き語彙辞書では、前記重み係数を0とし
て前記言語尤度付き語彙辞書を作成することを特徴とす
る。
頻度付き語彙辞書内の語彙の総出現頻度が大きい辞書ほ
ど前記重み係数を大きな値に設定して前記言語尤度付き
語彙辞書を作成することを特徴とする。
頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者
の値を参照し、前記重み係数を前記認識語彙数が大きい
辞書ほど大きな値を設定し、また前記総出現頻度が大き
い辞書ほど大きな値に設定して前記言語尤度付き語彙辞
書を作成することを特徴とする。
頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未
満の出現頻度付き語彙辞書では、前記重み係数を0とす
るが、一方前記総出現頻度が所定の閾値以上の辞書では
前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻
度の両者の値を参照し、前記重み係数を前記認識語彙数
が大きい辞書ほど大きな値を設定し、また前記総出現頻
度が大きい辞書ほど大きな値に設定して前記言語尤度付
き語彙辞書を作成することを特徴とする。
実施の形態による音声認識装置の構成を示すブロック図
である。同図において1は音声信号の入力端、2は入力
音声信号、3は音響分析を行う分析手段、4は入力音声
信号の特徴ベクトルの時系列、5はパターン照合を行う
照合手段、6は音響モデルメモリ、7は県名語彙辞書、
8は言語尤度付き語彙辞書、9は認識語彙情報、14は
認識結果であり、これらは基本的に従来のものと同一符
号のものに相当する。15は出現頻度付き語彙辞書、1
6は出現頻度付き語彙情報、17は言語尤度作成手段、
18は言語尤度付き語彙情報である。
名を認識し当該企業の電話番号を案内するタスクで、先
ず県名を認識し、その県内の企業名を認識する場合を例
として説明する。
であり県名を認識するための語彙辞書である。
1〜K)は、各都道府県ごとに、県内に存在する企業の名
称を認識語彙として持つものとして構成する。例えばD0
1は北海道に存在する企業の名称を認識語彙とする辞
書、D02は青森県に存在する企業の名称を認識語彙とす
る辞書である。
(k=1〜K)には出現頻度付き語彙情報16として図2に示
すように、当該県内に存在する企業の名称である認識語
彙Wk,i, (i=1〜Nk)の音素系列Pk,iと、出現頻度Ck,iと
電話番号TELk,iが格納されている。Nkは出現頻度付き語
彙辞書D0kに含まれる語彙数である。前記出現頻度Ck, i
は一定期間以上の過去の電話番号問い合わせ記録から各
語彙(企業名)Wk,iごとに問い合わせ回数を求めておいた
ものとする。
説明する。本発明の音声認識装置では認識を行う前に、
言語尤度作成手段17によって言語尤度付き語彙辞書8
であるDk, (k=1〜K)を作成しておく。この言語尤度付き
語彙辞書8の作成方法を説明する。
現頻度付き語彙辞書(第1県)の出力端子A1に接続する。
また言語尤度作成手段17の出力端子BBを言語尤度付き
語彙辞書(第1県)の入力端子B1に接続する。そして言語
尤度作成手段17は出現頻度付き語彙辞書(第1県)D01
から出現頻度付き語彙情報16として認識対象とする語
彙W1,i, (i=1〜N1)の音素系列P1,iと、電話番号TEL1,i
と、出現頻度C1,iを入力し、(3)、(4)式によって各語
彙W1,iに対する言語尤度SG1,iを求め、出力端子BBを通
して言語尤度付き語彙辞書(第1県)に出力する。(3)式
中でg1は認識語彙数N1が大きい程、大きな値をとるもの
とする。例えば(5)式にしたがって値を求める。式中で
a, bは経験的に決定した0以上の定数である。
素系列P1,iと電話番号TELk,iは、出現頻度付き語彙辞書
D01から入力したものをそのまま出力端子BBを通して言
語尤度付き語彙辞書D1に蓄える。したがって言語尤度付
き語彙辞書D1は図3に示すように言語尤度付き語彙情報
18として、語彙W1,i, (i=1〜N1)に対する音素系列
P1,iと、言語尤度SG1,iと、電話番号TEL1,iを蓄えるこ
とになる。以上で言語尤度付き語彙辞書(第1県)D1の作
成を完了する。
端子BBの接続を順次切り替えて、前記と同様の方法で各
出現頻度付き語彙辞書D0k, (k=1〜K)の全てに対して対
応する言語尤度付き語彙辞書Dk, (k=1〜K)を作成する。
ように日本全国の企業名を認識し当該企業の電話番号を
案内するタスクで、先ず県名を認識し、その県内の企業
名を認識する場合を例として説明する。音声認識装置の
利用者は第1県内にある社の電話番号を問い合わせるも
のとする。認識を開始する前に照合手段5の入力端子CC
を県名語彙辞書の出力であるPPに接続する。この接続状
態で以下のように県名の認識を行う。
声すると入力音声信号2として分析手段3に入力され
る。分析手段3は音声信号2を例えば従来技術と同様に
LPC法を用いて音響分析を行い、特徴ベクトルの時系列
4を出力する。この特徴ベクトルは例えばLPCケプス
トラムである。
ている語彙WPi, (i=1〜K)の音素系列PPiを読み込み、音
響モデルメモリ6に格納されている音素モデルを連結し
て認識語彙WPiの音素系列を表現する単語モデルを作成
し、特徴ベクトルの時系列4を入力として特徴ベクトル
の時系列4と例えばビタビアルゴリズムを用いてパター
ンマッチングを行い、語彙WPiに対する音響尤度SAiを求
める。この処理を語彙WPi, (i=1〜K)の全てに対して順
次行うことによって、全ての語彙に対する音響尤度SAi,
(i=1〜K)を求め、音響尤度の一番高い候補の県名を認
識結果とする。本例では認識結果は「第1県」で正認識
であるとする。
を開始する前に照合手段5の入力端子CCを言語尤度付き
語彙辞書(第1県)の出力端子C1に接続する。この接続
状態で以下のように企業名認識を行う。
発声すると入力音声信号2として分析手段3に入力され
る。分析手段3は音声信号2を前記と同様にLPC法を用
いて音響分析を行い、特徴ベクトルの時系列4を出力す
る。
1県)であるD1に格納されている語彙W1,i, (i=1〜N)の
音素系列P1,iと、言語尤度SG1,iと電話番号TEL1,iを読
み込み、音響モデルメモリ6に格納されている音素モデ
ルを連結して認識語彙W1,iの音素系列P1,iを表現する単
語モデルを作成し、特徴ベクトルの時系列4と例えばビ
タビアルゴリズムを用いてパターンマッチングを行い、
語彙W1,iに対する音響尤度SAiを求める。そして(6)式
のとおり言語尤度SG1,iとの和をとることによって語彙W
1,iに対する認識スコアS1,iを求める。この処理を語彙W
1,i, (i=1〜N1)の全てに対して順次行うことによって、
全ての語彙に対する認識スコアS1,i, (i=1〜N1)を求
め、認識スコアの一番高い候補の電話番号を認識結果1
4として出力する。
ある□社の電話番号を問い合わせる場合は以下のように
動作する。認識を開始する前に照合手段5の入力端子CC
を県名語彙辞書の出力であるPPに接続する。この接続状
態で以下のように県名の認識を行う。
声すると音声信号2として分析手段3に入力される。分
析手段3は音声信号2の音響分析を行い、特徴ベクトル
の時系列4を出力する。この特徴ベクトルは例えばLP
Cケプストラムである。
ている語彙WPi,(i=1〜K)の音素系列PPiを読み込み、音
響モデルメモリ6に格納されている音素モデルを連結し
て認識語彙WPiの音素系列を表現する単語モデルを作成
し、特徴ベクトルの時系列4と例えばビタビアルゴリズ
ムを用いてパターンマッチングを行い、語彙WPiに対す
る音響尤度SAiを求める。この処理を語彙WPi, (i=1〜K)
の全てに対して順次行うことによって、全ての語彙に対
する認識スコアSAi,(i=1〜K)を求め、認識スコアの一番
高い候補の県名を認識結果とする。本例では認識結果は
「第2県」で正認識であるとする。
を開始する前に照合手段5の入力端子CCを言語尤度付き
語彙辞書(第2県)の出力端子C2に接続する。この接続
状態で以下のように企業名認識を行う。
発声すると音声信号2として分析手段3に入力される。
分析手段3は音声信号2を前記と同様にLPC法を用いて
音響分析を行い、特徴ベクトルの時系列4を出力する。
2県)であるD2に格納されている語彙W2,i, (i=1〜N2)の
音素系列P2,iと、言語尤度SG2,iと電話番号TEL2,iを読
み込み、音響モデルメモリ6に格納されている音素モデ
ルを連結して認識語彙W2,iの音素系列P2,iを表現する単
語モデルを作成し、特徴ベクトルの時系列4と例えばビ
タビアルゴリズムを用いてパターンマッチングを行い、
語彙W2,iに対する音響尤度SAiを求める。そして(7)式
のとおり言語尤度SG2,iとの和をとることによって語彙W
2,iに対する認識スコアS2,iを求める。この処理を語彙W
2,i, (i=1〜N2)の全てに対して順次行うことによって、
全ての語彙に対する認識スコアSi, (i=1〜N2)を求め、
認識スコアの一番高い候補の電話番号を認識結果として
出力する。
コアSを求める際に言語尤度SGを音響尤度SAに加算して
用いるが、前記言語尤度は(3)、(5)式に示したように
認識語彙数が大きい程、大きな値をとるようになってい
る。本例において第1県内の企業名の認識語彙数がN1,
第2県内の企業名の認識語彙数がN2で、N1 > N2とする
と、第1県内の企業名の言語尤度のほうが第2県内の企
業名の言語尤度よりも大きな値となり、認識スコアにお
ける言語尤度の寄与度が大きくなる。このように言語尤
度を設定することによって第1県のように語彙数が大き
く認識の難易度が高い語彙辞書を用いる場合には、言語
尤度の重みを大きくして認識精度を確保するようにし、
逆に第2県のように語彙数が小さく認識の難易度が低い
語彙辞書を用いる場合には、低出現頻度の語彙が認識さ
れにくくなるのを防ぐことができる。
2について説明する。この実施の形態2による音声認識
装置の全体の構成は図1に示すものと基本的に同じであ
り、言語尤度作成手段17の動作を変更するものある。
言語尤度作成手段17の動作は以下のとおりである。
現頻度付き語彙辞書(第1県)D01の出力端子A1に接続す
る。また言語尤度作成手段17の出力端子BBを言語尤度
付き語彙辞書(第1県)D1の入力端子B1に接続する。そし
て言語尤度作成手段17は出現頻度付き語彙辞書(第1
県)D01から出現頻度付き語彙情報16として認識対象と
する語彙W1,i, (i=1〜N1)の音素系列P1,iと、電話番号T
EL1,iと、出現頻度C1, iを入力し、まず(8)式によって
出現頻度付き語彙辞書(第1県)D01の全語彙の総出現頻
度TC1を求める。次に予め設定した閾値TTと比較して、T
C1 ≧ TT の場合には実施の形態1と同様に(9)式によ
って各語彙W1,iに対する言語尤度SG1,iを求め、出力端
子BBを通して言語尤度付き語彙辞書(第1県)D1に出力す
る。(9)式の右辺は実施の形態1で説明した(3)式と同
一のものである。一方、TC1 < TTの場合には全語彙の
総出現頻度が小さいので、統計的に信頼性のある言語尤
度を求められないものとみなし、(10)式のように全て
の語彙に対して言語尤度を0として、出力端子BBを通し
て言語尤度付き語彙辞書(第1県)D1に出力する。
素系列P1,iと電話番号TEL1,iは、出現頻度付き語彙辞書
D01から入力したものをそのまま出力端子BBを通して言
語尤度付き語彙辞書D1に蓄える。以上で言語尤度付き語
彙辞書(第1県)D1の作成を完了する。言語尤度作成手段
17の入力端子AAと出力端子BBの接続を順次切り替え
て、前記と同様の方法で各出現頻度付き語彙辞書D0k,
(k=1〜K)の全てに対して対応する言語尤度付き語彙辞書
Dk, (k=1〜K)を作成する。
順で作成した言語尤度付き語彙辞書8を用いて音声認識
を行う。音声認識の動作は実施の形態1で説明した音声
認識装置の認識動作と同一なので説明を省略する。
成手段17において出現頻度付き語彙辞書内の全語彙の
総出現頻度が所定の閾値より小さい語彙辞書では当該語
彙辞書中の各語彙の言語尤度を全て0として、音声認識
の際に実質的に言語尤度を用いないようにしたので、実
施の形態1の音声認識装置が有する「語彙数が大きく認
識の難易度が高い語彙辞書を用いる場合には、言語尤度
の重みを大きくして認識精度を確保するようにし、逆に
語彙数が小さく認識の難易度が低い語彙辞書を用いる場
合には低出現頻度の語彙が認識されにくくなるのを防ぐ
ことができる」という効果に加え、統計的に信頼性の低
い言語尤度を使用して認識性能に悪影響をおよぼすこと
を避けることができる。
3について説明する。この実施の形態3による音声認識
装置の全体の構成は図1に示すものと基本的に同じであ
り、言語尤度作成手段17の動作を変更するものある。
言語尤度作成手段17の動作は以下のとおりである。
現頻度付き語彙辞書(第1県)D01の出力端子A1に接続す
る。また言語尤度作成手段17の出力端子BBを言語尤度
付き語彙辞書(第1県)D1の入力端子B1に接続する。そし
て言語尤度作成手段17は出現頻度付き語彙辞書(第1
県)D01から出現頻度付き語彙情報16として認識対象と
する語彙W1,i, (i=1〜N1)の音素系列P1,iと、電話番号T
EL1,iと、出現頻度C1, iを入力し、実施の形態2と同様
に(8)式によって出現頻度付き語彙辞書(第1県)D01の
全語彙の総出現頻度TC1を求め、総出現頻度TC1が大きい
ほど、言語尤度の重み係数が大きな値をとるように決め
る。前記言語尤度の重み係数をg2とすると、例えば(1
1)式にしたがって言語尤度の重み係数g2を求める。(1
1)式中でa2, b2は経験的に決定した0以上の定数であ
る。そして(12)式によって各語彙W1,iに対する言語尤
度SG1,iを求め、出力端子BBを通して言語尤度付き語彙
辞書(第1県)D1に出力する。
素系列P1,iと電話番号TEL1,iは、出現頻度付き語彙辞書
D01から入力したものをそのまま出力端子BBを通して言
語尤度付き語彙辞書D1に蓄える。以上で言語尤度付き語
彙辞書(第1県)D1の作成を完了する。言語尤度作成手段
17の入力端子AAと出力端子BBの接続を順次切り替え
て、前記と同様の方法で各出現頻度付き語彙辞書D0k,
(k=1〜K)の全てに対して対応する言語尤度付き語彙辞書
Dk, (k=1〜K)を作成する。
順で作成した言語尤度付き語彙辞書8を用いて音声認識
を行う。音声認識の動作は実施の形態1で説明した音声
認識装置の認識動作と同一なので説明を省略する。
成手段17において出現頻度付き語彙辞書内の全語彙の
総出現頻度が大きいほど言語尤度は大きな値をとる。す
なわち総出現頻度が大きく、出現頻度の統計的な信頼度
が大きい語彙辞書では認識スコアにおける言語尤度の寄
与度を大きくして認識精度を向上させることが可能であ
り、逆に総出現頻度が小さく、出現頻度の統計的な信頼
度が小さい語彙辞書では言語尤度を小さくして認識スコ
アにおける音響尤度の寄与度を相対的に大きくして認識
精度を向上させることができる。
4について説明する。この実施の形態4による音声認識
装置の全体の構成は図1に示すものと基本的に同じであ
り、言語尤度作成手段17の動作を変更するものある。
言語尤度作成手段17の動作は以下のとおりである。
現頻度付き語彙辞書(第1県)D01の出力端子A1に接続す
る。また言語尤度作成手段17の出力端子BBを言語尤度
付き語彙辞書(第1県)D1の入力端子B1に接続する。そし
て言語尤度作成手段17は出現頻度付き語彙辞書(第1
県)D01から出現頻度付き語彙情報16として認識対象と
する語彙W1,i, (i=1〜N1)の音素系列P1,iと、電話番号T
EL1,iと、出現頻度C1, iを入力し、実施の形態2と同様
に(8)式によって出現頻度付き語彙辞書(第1県)D01の
全語彙の総出現頻度TC1を求め、言語尤度の重み係数を
認識語彙数N1と総出現頻度TC1の両者に依存する変数と
して、認識語彙数N1が大きいほど大きな値をとり、また
総出現頻度TC1が大きいほど大きな値をとるように決め
る。前記言語尤度の重み係数をg3とすると、例えば(1
3)式にしたがってg3の値を求める。(13)式中でa3,a
4,b4は経験的に決定した0以上の定数である。そして
(14)式によって各語彙W1,iに対する言語尤度SG1,iを
求め、出力端子BBを通して言語尤度付き語彙辞書(第1
県)D1に出力する。
素系列P1,iと電話番号TEL1,iは、出現頻度付き語彙辞書
D01から入力したものをそのまま出力端子BBを通して言
語尤度付き語彙辞書D1に蓄える。以上で言語尤度付き語
彙辞書(第1県)D1の作成を完了する。言語尤度作成手段
17の入力端子AAと出力端子BBの接続を順次切り替え
て、前記と同様の方法で各出現頻度付き語彙辞書D0k,
(k=1〜K)の全てに対して対応する言語尤度付き語彙辞書
Dk, (k=1〜K)を作成する。
順で作成した言語尤度付き語彙辞書8を用いて音声認識
を行う。音声認識の動作は実施の形態1で説明した音声
認識装置の認識動作と同一なので説明を省略する。
成手段17において出現頻度語彙辞書内の認識語彙数、
あるいは全語彙の総出現頻度が大きいほど言語尤度が大
きな値をとる。すなわち認識語彙数が多く認識の難易度
が高い語彙辞書を用いる場合や総出現頻度が大きく、総
出現頻度の統計的な信頼度が大きい語彙辞書を用いる場
合には認識スコアにおける言語尤度の寄与度を大きくし
て認識精度を向上させることが可能であり、逆に語彙数
が小さく認識の難易度が低い語彙辞書を用いる場合や総
出現頻度が小さく、総出現頻度の統計的な信頼度が小さ
い語彙辞書では言語尤度を小さくして認識スコアにおけ
る音響尤度の寄与度を相対的に大きくして認識精度を向
上させることができる。
5について説明する。この実施の形態5による音声認識
装置の全体の構成は図1に示すものと基本的に同じであ
り、言語尤度作成手段17の動作を変更するものある。
言語尤度作成手段17の動作は以下のとおりである。
現頻度付き語彙辞書(第1県)D01の出力端子A1に接続す
る。また言語尤度作成手段17の出力端子BBを言語尤度
付き語彙辞書(第1県)D1の入力端子B1に接続する。そし
て言語尤度作成手段17は出現頻度付き語彙辞書(第1
県)D01から出現頻度付き語彙情報16として認識対象と
する語彙W1,i, (i=1〜N1)の音素系列P1,iと、電話番号T
EL1,iと、出現頻度C1, iを入力し、実施の形態2と同様
に(8)式によって出現頻度付き語彙辞書(第1県)D01の
全語彙の総出現頻度TC1を求める。次に予め設定した閾
値TTと比較して、TC1 ≧ TT の場合には(15)式によっ
て各語彙W1,iに対する言語尤度SG1,iを求め、出力端子B
Bを通して言語尤度付き語彙辞書(第1県)D1に出力す
る。(15)式の右辺は実施の形態4で説明した(14)式
と同一のものである。一方、TC1 < TTの場合には全語
彙の総出現頻度が小さいので、統計的に信頼性のある言
語尤度を求められないものとみなし、実施の形態2と同
様に(10)式のとおり全ての語彙に対して言語尤度を0
として、出力端子BBを通して言語尤度付き語彙辞書(第
1県)D1に出力する。
素系列P1,iと電話番号TEL1,iは、出現頻度付き語彙辞書
D01から入力したものをそのまま出力端子BBを通して言
語尤度付き語彙辞書D1に蓄える。以上で言語尤度付き語
彙辞書(第1県)D1の作成を完了する。言語尤度作成手段
17の入力端子AAと出力端子BBの接続を順次切り替え
て、前記と同様の方法で各出現頻度付き語彙辞書D0k,
(k=1〜K)の全てに対して対応する言語尤度付き語彙辞書
Dk, (k=1〜K)を作成する。
順で作成した言語尤度付き語彙辞書8を用いて音声認識
を行う。音声認識の動作は実施の形態1で説明した音声
認識装置の認識動作と同一なので説明を省略する。
成手段17において出現頻度語彙辞書内の全語彙の総出
現頻度が所定の閾値以上の語彙辞書では、出現頻度語彙
辞書内の認識語彙数、あるいは全語彙の総出現頻度が大
きいほど言語尤度が大きな値をとる。一方、出現頻度語
彙辞書内の全語彙の総出現頻度が所定の閾値より小さい
語彙辞書では当該語彙辞書中の各語彙の言語尤度を全て
0としている。このように言語尤度を設定することによ
り認識語彙数が認識の難易度が高い語彙辞書を用いる場
合や総出現頻度が大きく、総出現頻度の統計的な信頼度
が大きい語彙辞書を用いる場合には認識スコアにおける
言語尤度の寄与度を大きくして認識精度を向上させるこ
とが可能であり、また出現頻度付き語彙辞書内の全語彙
の総出現頻度が所定の閾値より小さい語彙辞書では当該
語彙辞書中の各語彙の言語尤度を全て0として、音声認
識の際に実質的に言語尤度を用いないようにしたので、
統計的に信頼性の低い言語尤度を使用して認識性能に悪
影響をおよぼすことを避けることができる。
各場面ごとに認識対象とする語彙を切り替えて音声認識
を行う音声認識装置であって、前記各場面ごとに認識語
彙とその出現頻度を保持する複数個の出現頻度付き語彙
辞書と、各認識語彙の出現頻度から計算される出現確率
の対数値に、前記出現頻度付き語彙辞書ごとに異なる重
み係数を乗じて言語尤度を計算する言語尤度作成手段
と、前記各場面ごとの認識語彙と前記言語尤度を保持す
る言語尤度付き語彙辞書と、前記各場面に関し、この言
語尤度付き語彙辞書の言語尤度を含むデータと音素モデ
ルとから作成された単語モデルと、入力音声信号の特徴
ベクトルの時系列と、からパターンマッチングを行い語
彙に対する音響尤度を求め、音響尤度と言語尤度の和を
語彙に対する認識スコアとして該認識スコアの一番高い
候補を認識結果として出力する照合手段と、を備えたこ
とを特徴とする音声認識装置としたので、言語尤度に対
してより適切な重み係数を与えて音声認識精度を改善し
た音声認識装置を提供できる。
頻度付き語彙辞書内の語彙数が大きい辞書ほど前記重み
係数を大きな値に設定して前記言語尤度付き語彙辞書を
作成するようにしたので、語彙数が大きく認識の難易度
が高い語彙辞書を用いる場合には、言語尤度の重みを大
きくして認識精度を確保するようにし、逆に語彙数が小
さく認識の難易度が低い語彙辞書を用いる場合には、低
出現頻度の語彙が認識されにくくなるのを防ぐことがで
きる。
頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未
満の出現頻度付き語彙辞書では、前記重み係数を0とし
て前記言語尤度付き語彙辞書を作成するようにしたの
で、上述の効果に加えて統計的に信頼性の低い言語尤度
を使用して認識性能に悪影響をおよぼすことを避けるこ
とができる。
頻度付き語彙辞書内の語彙の総出現頻度が大きい辞書ほ
ど前記重み係数を大きな値に設定して前記言語尤度付き
語彙辞書を作成するようにしたので、出現頻度付き語彙
辞書内の全語彙の総出現頻度が大きいほど言語尤度は大
きな値をとる。すなわち総出現頻度が大きく、出現頻度
の統計的な信頼度が大きい語彙辞書では認識スコアにお
ける言語尤度の寄与度を大きくして認識精度を向上させ
ることが可能であり、逆に総出現頻度が小さく、出現頻
度の統計的な信頼度が小さい語彙辞書では言語尤度を小
さくして認識スコアにおける音響尤度の寄与度を相対的
に大きくして認識精度を向上させることができる。
頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者
の値を参照し、前記重み係数を前記認識語彙数が大きい
辞書ほど大きな値を設定し、また前記総出現頻度が大き
い辞書ほど大きな値に設定して前記言語尤度付き語彙辞
書を作成するようにしたので、認識語彙数が多く認識の
難易度が高い語彙辞書を用いる場合や総出現頻度が大き
く、総出現頻度の統計的な信頼度が大きい語彙辞書を用
いる場合には認識スコアにおける言語尤度の寄与度を大
きくして認識精度を向上させることが可能であり、逆に
語彙数が小さく認識の難易度が低い語彙辞書を用いる場
合や総出現頻度が小さく、総出現頻度の統計的な信頼度
が小さい語彙辞書では言語尤度を小さくして認識スコア
における音響尤度の寄与度を相対的に大きくして認識精
度を向上させることができる。
頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未
満の出現頻度付き語彙辞書では、前記重み係数を0とす
るが、一方前記総出現頻度が所定の閾値以上の辞書では
前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻
度の両者の値を参照し、前記重み係数を前記認識語彙数
が大きい辞書ほど大きな値を設定し、また前記総出現頻
度が大きい辞書ほど大きな値に設定して前記言語尤度付
き語彙辞書を作成するようにしたので、認識語彙数が認
識の難易度が高い語彙辞書を用いる場合や総出現頻度が
大きく、総出現頻度の統計的な信頼度が大きい語彙辞書
を用いる場合には認識スコアにおける言語尤度の寄与度
を大きくして認識精度を向上させることが可能であり、
また出現頻度付き語彙辞書内の全語彙の総出現頻度が所
定の閾値より小さい語彙辞書では当該語彙辞書中の各語
彙の言語尤度を全て0として、音声認識の際に実質的に
言語尤度を用いないようにしたので、統計的に信頼性の
低い言語尤度を使用して認識性能に悪影響をおよぼすこ
とを避けることができる。
装置の構成を示すブロック図である。
頻度付き語彙情報の一例を示す図である。
尤度付き語彙情報の一例を示す図である。
ロック図である。
段、4 入力音声信号の特徴ベクトルの時系列、5 照
合手段、6 音響モデルメモリ、7 県名語彙辞書、8
言語尤度付き語彙辞書、9 認識語彙情報、14 認
識結果、15出現頻度付き語彙辞書、16 出現頻度付
き語彙情報、17は言語尤度作成手段、18 言語尤度
付き語彙情報。
Claims (6)
- 【請求項1】 認識の各場面ごとに認識対象とする語彙
を切り替えて音声認識を行う音声認識装置であって、 前記各場面ごとに認識語彙とその出現頻度を保持する複
数個の出現頻度付き語彙辞書と、 各認識語彙の出現頻度から計算される出現確率の対数値
に、前記出現頻度付き語彙辞書ごとに異なる重み係数を
乗じて言語尤度を計算する言語尤度作成手段と、 前記各場面ごとの認識語彙と前記言語尤度を保持する言
語尤度付き語彙辞書と、 前記各場面に関し、この言語尤度付き語彙辞書の言語尤
度を含むデータと音素モデルとから作成された単語モデ
ルと、入力音声信号の特徴ベクトルの時系列と、からパ
ターンマッチングを行い語彙に対する音響尤度を求め、
音響尤度と言語尤度の和を語彙に対する認識スコアとし
て該認識スコアの一番高い候補を認識結果として出力す
る照合手段と、 を備えたことを特徴とする音声認識装置。 - 【請求項2】 前記言語尤度作成手段は、前記出現頻度
付き語彙辞書内の語彙数が大きい辞書ほど前記重み係数
を大きな値に設定して前記言語尤度付き語彙辞書を作成
することを特徴とする請求項1に記載の音声認識装置。 - 【請求項3】 前記言語尤度作成手段は、前記出現頻度
付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の
出現頻度付き語彙辞書では、前記重み係数を0として前
記言語尤度付き語彙辞書を作成することを特徴とする請
求項1に記載の音声認識装置。 - 【請求項4】 前記言語尤度作成手段は、前記出現頻度
付き語彙辞書内の語彙の総出現頻度が大きい辞書ほど前
記重み係数を大きな値に設定して前記言語尤度付き語彙
辞書を作成することを特徴とする請求項1に記載の音声
認識装置。 - 【請求項5】 前記言語尤度作成手段は、前記出現頻度
付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値
を参照し、前記重み係数を前記認識語彙数が大きい辞書
ほど大きな値を設定し、また前記総出現頻度が大きい辞
書ほど大きな値に設定して前記言語尤度付き語彙辞書を
作成することを特徴とする請求項1に記載の音声認識装
置。 - 【請求項6】 前記言語尤度作成手段は、前記出現頻度
付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の
出現頻度付き語彙辞書では、前記重み係数を0とする
が、一方前記総出現頻度が所定の閾値以上の辞書では前
記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度
の両者の値を参照し、前記重み係数を前記認識語彙数が
大きい辞書ほど大きな値を設定し、また前記総出現頻度
が大きい辞書ほど大きな値に設定して前記言語尤度付き
語彙辞書を作成することを特徴とする請求項1に記載の
音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001348785A JP3868798B2 (ja) | 2001-11-14 | 2001-11-14 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001348785A JP3868798B2 (ja) | 2001-11-14 | 2001-11-14 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003150189A true JP2003150189A (ja) | 2003-05-23 |
JP3868798B2 JP3868798B2 (ja) | 2007-01-17 |
Family
ID=19161556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001348785A Expired - Fee Related JP3868798B2 (ja) | 2001-11-14 | 2001-11-14 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3868798B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007017731A (ja) * | 2005-07-08 | 2007-01-25 | Alpine Electronics Inc | 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法 |
WO2010061751A1 (ja) * | 2008-11-25 | 2010-06-03 | 旭化成株式会社 | 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム |
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
-
2001
- 2001-11-14 JP JP2001348785A patent/JP3868798B2/ja not_active Expired - Fee Related
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2007017731A (ja) * | 2005-07-08 | 2007-01-25 | Alpine Electronics Inc | 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法 |
US8428951B2 (en) | 2005-07-08 | 2013-04-23 | Alpine Electronics, Inc. | Speech recognition apparatus, navigation apparatus including a speech recognition apparatus, and a control screen aided speech recognition method |
WO2010061751A1 (ja) * | 2008-11-25 | 2010-06-03 | 旭化成株式会社 | 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム |
CN102224542A (zh) * | 2008-11-25 | 2011-10-19 | 旭化成株式会社 | 权重系数生成装置、声音识别装置、导航装置、车辆、权重系数生成方法、以及权重系数生成程序 |
CN102224542B (zh) * | 2008-11-25 | 2012-12-19 | 旭化成株式会社 | 权重系数生成装置、声音识别装置、导航装置、车辆、权重系数生成方法 |
US8688449B2 (en) | 2008-11-25 | 2014-04-01 | Asahi Kasei Kabushiki Kaisha | Weight coefficient generation device, voice recognition device, navigation device, vehicle, weight coefficient generation method, and weight coefficient generation program |
CN111613212A (zh) * | 2020-05-13 | 2020-09-01 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
CN111613212B (zh) * | 2020-05-13 | 2023-10-31 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
JP3868798B2 (ja) | 2007-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7881935B2 (en) | Speech recognition device and speech recognition method and recording medium utilizing preliminary word selection | |
US6751595B2 (en) | Multi-stage large vocabulary speech recognition system and method | |
US7319960B2 (en) | Speech recognition method and system | |
US7240002B2 (en) | Speech recognition apparatus | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
US8612223B2 (en) | Voice processing device and method, and program | |
US6260013B1 (en) | Speech recognition system employing discriminatively trained models | |
JP4543294B2 (ja) | 音声認識装置および音声認識方法、並びに記録媒体 | |
EP1128361B1 (en) | Language models for speech recognition | |
US20030200086A1 (en) | Speech recognition apparatus, speech recognition method, and computer-readable recording medium in which speech recognition program is recorded | |
US20050015251A1 (en) | High-order entropy error functions for neural classifiers | |
EP1576580B1 (en) | Method of optimising the execution of a neural network in a speech recognition system through conditionally skipping a variable number of frames | |
JP3061114B2 (ja) | 音声認識装置 | |
JP3535292B2 (ja) | 音声認識システム | |
JP2002358097A (ja) | 音声認識装置 | |
US7003465B2 (en) | Method for speech recognition, apparatus for the same, and voice controller | |
JP3868798B2 (ja) | 音声認識装置 | |
JP3914709B2 (ja) | 音声認識方法およびシステム | |
KR100586045B1 (ko) | 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법 | |
JP3494338B2 (ja) | 音声認識方法 | |
JP3114389B2 (ja) | 音声認識装置 | |
JP3100180B2 (ja) | 音声認識方法 | |
JP3368989B2 (ja) | 音声認識方法 | |
JP3461789B2 (ja) | 音声認識装置および音声認識方法、並びに、プログラム記録媒体 | |
JP3575975B2 (ja) | 大語彙音声認識方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041012 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061011 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091020 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101020 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111020 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121020 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |