JP3868798B2 - 音声認識装置 - Google Patents
音声認識装置 Download PDFInfo
- Publication number
- JP3868798B2 JP3868798B2 JP2001348785A JP2001348785A JP3868798B2 JP 3868798 B2 JP3868798 B2 JP 3868798B2 JP 2001348785 A JP2001348785 A JP 2001348785A JP 2001348785 A JP2001348785 A JP 2001348785A JP 3868798 B2 JP3868798 B2 JP 3868798B2
- Authority
- JP
- Japan
- Prior art keywords
- vocabulary
- dictionary
- appearance frequency
- language likelihood
- likelihood
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
【発明の属する技術分野】
この発明は音声認識の各場面ごとに認識対象とする語彙辞書を切り替えて音声認識を行う音声認識装置に関するものである。
【0002】
【従来の技術】
音声認識の精度を向上させる手段として、認識対象語彙の言語尤度を用いる技術が従来から検討されている。例えば単語の認識を行う場合、認識対象とする語彙の出現確率を予め求めておき、前記出現確率の対数値を言語尤度として用い、音響尤度と一定の重みで荷重平均した値を認識スコアとする方法である。しかし前記の一定の重みが常に最適値であるとは限らない。
【0003】
そこで、さらに認識精度を向上させる手段として、音響尤度と言語尤度を荷重平均する際の重み係数を、入力音声に応じて変更する技術が特開平8−248981号公報で開示されている。図4はこの特開平8−248981号公報で開示されている技術を用いた従来の音声認識装置の一構成例である。同図において1は音声信号の入力端、2は入力音声信号、3は音響分析を行う分析手段、4は入力音声信号の特徴ベクトルの時系列、5はパターン照合を行う照合手段、6は音響モデルメモリ、7は県名語彙辞書、8は言語尤度付き語彙辞書、9は認識語彙情報、10は音響尤度、11は重み係数決定手段、12は言語尤度重み係数、13は統合手段、14は認識結果である。
【0004】
ここでは日本全国の企業名を認識し当該企業の電話番号を案内するタスクで、先ず県名を認識し、その県内の企業名を認識する場合を例として説明する。最初から一度に日本全国の企業名を認識対象としない理由は日本全国では企業数が膨大になり認識が非常に困難だからである。
【0005】
県名語彙辞書7は県名を認識するための語彙辞書であり、日本全国の県名を認識語彙として持つものとして構成する。すなわち県名語彙辞書内には日本全国の県名WPiの音素系列PPi, (i=1〜K)が格納されている。Kは県名語彙辞書7に含まれる語彙数である。音素系列PPiは例えばWP1が北海道、WP2が青森県とすると、前記音素系列PP1は/hoQkaidoo/、PP2は/aomorikeN/である。
【0006】
言語尤度付き語彙辞書8であるDk, (k=1〜K)は、各都道府県ごとに、県内に存在する企業の名称を認識語彙として持つものとして構成する。例えばD1は北海道に存在する企業の名称を認識語彙とする辞書、D2は青森県に存在する企業の名称を認識語彙とする辞書である。各言語尤度付き語彙辞書Dk内には認識語彙情報9として当該県内に存在する企業の名称である認識語彙Wk,i, (i=1〜Nk)の音素系列Pk,iと、言語尤度SGk,iと電話番号TELk,iが格納されている。Nkは言語尤度付き語彙辞書Dkに含まれる語彙数である。前記言語尤度SGk,iは、一定期間以上の過去の電話番号問い合わせ記録から各語彙(企業名)Wk,iごとに語彙の出現確率を求めておき、前記出現確率を対数化したものとする。
【0007】
音響モデルメモリ6は日本語に含まれる全ての音素に対する音響モデルを格納している。前記音響モデルは例えば連続分布型のHMM(Hidden Markov Model)とする。
【0008】
前述したように日本全国の企業名を認識し当該企業の電話番号を案内するタスクで、先ず県名を認識し、その県内の企業名を認識する場合を例として、本認識装置の動作を説明する。音声認識装置の利用者は第1県内にある○社の電話番号を問い合わせるものとする。
【0009】
認識を開始する前に照合手段5の入力端子CCを県名語彙辞書7の出力であるPPに接続する。この接続状態で以下のように県名の認識を行う。本例では県名の認識では言語尤度を用いないこととする。
【0010】
利用者が音声信号の入力端1から県名を発声すると入力音声信号2として分析手段3に入力される。分析手段3は音声信号2を例えばLPC(Linear Predictive Coding)法を用いて音響分析を行い、特徴ベクトルの時系列4を出力する。この特徴ベクトルは例えばLPCケプストラムである。
【0011】
照合手段5は、県名語彙辞書7に格納されている語彙WPi,(i=1〜K)の音素系列PPiを読み込み、音響モデルメモリ6に格納されている音素モデルを連結して認識語彙WPiの音素系列を表現する単語モデルを作成し、特徴ベクトルの時系列4を入力として特徴ベクトルの時系列4と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙WPiに対する音響尤度SAiを求める。この処理を語彙WPi,(i=1〜K)の全てに対して順次行うことによって、全ての語彙に対する音響尤度SAi,(i=1〜K)を求め、音響尤度の一番高い候補の県名を認識結果とする。本例では認識結果は「第1県」で正認識であるとする。
【0012】
次に第1県内の企業名の認識を行う。認識を開始する前に照合手段5の入力端子CCを言語尤度付き語彙辞書(第1県)の出力端子C1に接続する。この接続状態で以下のように企業名認識を行う。
【0013】
利用者が音声信号の入力端1から県名を発声すると音声信号2として分析手段3に入力される。分析手段3は音声信号2の音響分析を行い、特徴ベクトルの時系列4を出力する。
【0014】
照合手段5は、言語尤度付き語彙辞書(第1県)認識語彙辞書D1から認識語彙情報9である語彙W1,i,(i=1〜N)の音素系列P1,iと、言語尤度SG1,iと電話番号TEL1,iを読み込み、音響モデルメモリ6に格納されている音素モデルを連結して認識語彙W1,iの音素系列P1,iを表現する単語モデルを作成し、特徴ベクトルの時系列4を入力として特徴ベクトルの時系列4と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙W1,iに対する音響尤度SAiを求める。このパターンマッチング処理を語彙Wi,(i=1〜N1)の全てに対して順次行うことによって、全ての語彙に対する音響尤度SAi,(i=1〜N1)を求める。
【0015】
重み係数決定手段11は、全ての語彙に対する音響尤度10であるSAi,(i=1〜N1)を入力とし、(1)式に示すように音響尤度の一番高いものSA(1)と二番目に高いものSA(2)との差DAに基づいて、DAが大きければ、音響尤度による認識の信頼性が高いものとみなし音響尤度SAと言語尤度SGを統合する際の言語尤度重み係数wを大きくし、逆にDAが小さければ音響尤度による認識の信頼性が低いものとみなして前記言語尤度重み係数wを小さくする。
【0016】
【数1】
【0017】
次に統合手段13は、前記重み係数wと、語彙W1,i, (i=1〜N1)に対する音響尤度SAi, (i=1〜N1)と、言語尤度SGi, (i=1〜N1)を入力として(2)式によって各語彙に対する統合尤度Si, (i=1〜N1)を求め、統合尤度Siの一番高い語彙を認識結果として出力する。
【0018】
【数2】
【0019】
【発明が解決しようとする課題】
以上説明したように従来の技術では、音響尤度の信頼性を判断する尺度として音響尤度の第一位と第二位の差を用い、音響尤度SAiの信頼性が高いと判断される場合には音響尤度に対する重みを大きくし、逆に音響尤度SAiの信頼性が低いと判断される場合には音響尤度に対する重みを小さくすることにより、認識精度の向上をはかっていた。しかし音響尤度の第一位と第二位の差は音響尤度の信頼性を判断する尺度として必ずしも正確ではない。また他の尺度を用いた場合でも音響尤度の信頼性を正確に求めることは困難であり、結果として言語尤度に対する前記重み係数wは常に適切な値として求められるとは限らないという問題点があった。
【0020】
この発明は上記課題を解決するためになされたもので、言語尤度に対してより適切な重み係数を与えて音声認識精度を改善する音声認識装置を提供することを目的とする。
【0021】
【課題を解決するための手段】
上記の目的に鑑み、この発明は、認識の各場面ごとに認識対象とする語彙を切り替えて音声認識を行う音声認識装置であって、前記各場面ごとに認識語彙とその出現頻度を保持する複数個の出現頻度付き語彙辞書と、各認識語彙の出現頻度から計算される出現確率の対数値に、前記出現頻度付き語彙辞書ごとに異なる重み係数を乗じて言語尤度を計算する言語尤度作成手段と、前記各場面ごとの認識語彙と前記言語尤度を保持する言語尤度付き語彙辞書と、前記各場面に関し、この言語尤度付き語彙辞書の言語尤度を含むデータと音素モデルとから作成された単語モデルと、入力音声信号の特徴ベクトルの時系列と、からパターンマッチングを行い語彙に対する音響尤度を求め、音響尤度と言語尤度の和を語彙に対する認識スコアとして該認識スコアの一番高い候補を認識結果として出力する照合手段と、を備えたことを特徴とする音声認識装置にある。
【0022】
また、前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙数が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする。
【0023】
また、前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を0として前記言語尤度付き語彙辞書を作成することを特徴とする。
【0024】
また、前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする。
【0025】
また、前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする。
【0026】
また、前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を0とするが、一方前記総出現頻度が所定の閾値以上の辞書では前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする。
【0027】
【発明の実施の形態】
実施の形態1.
図1は本発明の一実施の形態による音声認識装置の構成を示すブロック図である。同図において1は音声信号の入力端、2は入力音声信号、3は音響分析を行う分析手段、4は入力音声信号の特徴ベクトルの時系列、5はパターン照合を行う照合手段、6は音響モデルメモリ、7は県名語彙辞書、8は言語尤度付き語彙辞書、9は認識語彙情報、14は認識結果であり、これらは基本的に従来のものと同一符号のものに相当する。15は出現頻度付き語彙辞書、16は出現頻度付き語彙情報、17は言語尤度作成手段、18は言語尤度付き語彙情報である。
【0028】
ここでは従来技術と同様に日本全国の企業名を認識し当該企業の電話番号を案内するタスクで、先ず県名を認識し、その県内の企業名を認識する場合を例として説明する。
【0029】
県名語彙辞書7は従来技術と全く同じものであり県名を認識するための語彙辞書である。
【0030】
出現頻度付き語彙辞書15であるD0k, (k=1〜K)は、各都道府県ごとに、県内に存在する企業の名称を認識語彙として持つものとして構成する。例えばD01は北海道に存在する企業の名称を認識語彙とする辞書、D02は青森県に存在する企業の名称を認識語彙とする辞書である。
【0031】
各出現頻度付き語彙辞書15であるD0k, (k=1〜K)には出現頻度付き語彙情報16として図2に示すように、当該県内に存在する企業の名称である認識語彙Wk,i, (i=1〜Nk)の音素系列Pk,iと、出現頻度Ck,iと電話番号TELk,iが格納されている。Nkは出現頻度付き語彙辞書D0kに含まれる語彙数である。前記出現頻度Ck,iは一定期間以上の過去の電話番号問い合わせ記録から各語彙(企業名)Wk,iごとに問い合わせ回数を求めておいたものとする。
【0032】
次に本発明の音声認識装置の動作について説明する。本発明の音声認識装置では認識を行う前に、言語尤度作成手段17によって言語尤度付き語彙辞書8であるDk, (k=1〜K)を作成しておく。この言語尤度付き語彙辞書8の作成方法を説明する。
【0033】
言語尤度作成手段17の入力端子AAを、出現頻度付き語彙辞書(第1県)の出力端子A1に接続する。また言語尤度作成手段17の出力端子BBを言語尤度付き語彙辞書(第1県)の入力端子B1に接続する。そして言語尤度作成手段17は出現頻度付き語彙辞書(第1県)D01から出現頻度付き語彙情報16として認識対象とする語彙W1,i, (i=1〜N1)の音素系列P1,iと、電話番号TEL1,iと、出現頻度C1,iを入力し、(3)、(4)式によって各語彙W1,iに対する言語尤度SG1,iを求め、出力端子BBを通して言語尤度付き語彙辞書(第1県)に出力する。(3)式中でg1は認識語彙数N1が大きい程、大きな値をとるものとする。例えば(5)式にしたがって値を求める。式中でa, bは経験的に決定した0以上の定数である。
【0034】
【数3】
【0035】
認識対象とする語彙W1,i, (i=1〜N1)の音素系列P1,iと電話番号TELk,iは、出現頻度付き語彙辞書D01から入力したものをそのまま出力端子BBを通して言語尤度付き語彙辞書D1に蓄える。したがって言語尤度付き語彙辞書D1は図3に示すように言語尤度付き語彙情報18として、語彙W1,i, (i=1〜N1)に対する音素系列P1,iと、言語尤度SG1,iと、電話番号TEL1,iを蓄えることになる。以上で言語尤度付き語彙辞書(第1県)D1の作成を完了する。
【0036】
言語尤度作成手段17の入力端子AAと出力端子BBの接続を順次切り替えて、前記と同様の方法で各出現頻度付き語彙辞書D0k, (k=1〜K)の全てに対して対応する言語尤度付き語彙辞書Dk, (k=1〜K)を作成する。
【0037】
次に認識動作について説明する。前述したように日本全国の企業名を認識し当該企業の電話番号を案内するタスクで、先ず県名を認識し、その県内の企業名を認識する場合を例として説明する。音声認識装置の利用者は第1県内にある◯社の電話番号を問い合わせるものとする。認識を開始する前に照合手段5の入力端子CCを県名語彙辞書の出力であるPPに接続する。この接続状態で以下のように県名の認識を行う。
【0038】
利用者が音声信号の入力端1から県名を発声すると入力音声信号2として分析手段3に入力される。分析手段3は音声信号2を例えば従来技術と同様にLPC法を用いて音響分析を行い、特徴ベクトルの時系列4を出力する。この特徴ベクトルは例えばLPCケプストラムである。
【0039】
照合手段5は、県名語彙辞書7に格納されている語彙WPi, (i=1〜K)の音素系列PPiを読み込み、音響モデルメモリ6に格納されている音素モデルを連結して認識語彙WPiの音素系列を表現する単語モデルを作成し、特徴ベクトルの時系列4を入力として特徴ベクトルの時系列4と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙WPiに対する音響尤度SAiを求める。この処理を語彙WPi, (i=1〜K)の全てに対して順次行うことによって、全ての語彙に対する音響尤度SAi, (i=1〜K)を求め、音響尤度の一番高い候補の県名を認識結果とする。本例では認識結果は「第1県」で正認識であるとする。
【0040】
次に第1県内の企業名の認識を行う。認識を開始する前に照合手段5の入力端子CCを言語尤度付き語彙辞書(第1県)の出力端子C1に接続する。この接続状態で以下のように企業名認識を行う。
【0041】
利用者が音声信号の入力端1から企業名を発声すると入力音声信号2として分析手段3に入力される。分析手段3は音声信号2を前記と同様にLPC法を用いて音響分析を行い、特徴ベクトルの時系列4を出力する。
【0042】
照合手段5は、言語尤度付き語彙辞書(第1県)であるD1に格納されている語彙W1,i, (i=1〜N)の音素系列P1,iと、言語尤度SG1,iと電話番号TEL1,iを読み込み、音響モデルメモリ6に格納されている音素モデルを連結して認識語彙W1,iの音素系列P1,iを表現する単語モデルを作成し、特徴ベクトルの時系列4と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙W1,iに対する音響尤度SAiを求める。そして(6)式のとおり言語尤度SG1,iとの和をとることによって語彙W1,iに対する認識スコアS1,iを求める。この処理を語彙W1,i, (i=1〜N1)の全てに対して順次行うことによって、全ての語彙に対する認識スコアS1,i, (i=1〜N1)を求め、認識スコアの一番高い候補の電話番号を認識結果14として出力する。
【0043】
【数4】
【0044】
一方、音声認識装置の利用者は第2県内にある□社の電話番号を問い合わせる場合は以下のように動作する。認識を開始する前に照合手段5の入力端子CCを県名語彙辞書の出力であるPPに接続する。この接続状態で以下のように県名の認識を行う。
【0045】
利用者が音声信号の入力端1から県名を発声すると音声信号2として分析手段3に入力される。分析手段3は音声信号2の音響分析を行い、特徴ベクトルの時系列4を出力する。この特徴ベクトルは例えばLPCケプストラムである。
【0046】
照合手段5は、県名語彙辞書7に格納されている語彙WPi,(i=1〜K)の音素系列PPiを読み込み、音響モデルメモリ6に格納されている音素モデルを連結して認識語彙WPiの音素系列を表現する単語モデルを作成し、特徴ベクトルの時系列4と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙WPiに対する音響尤度SAiを求める。この処理を語彙WPi, (i=1〜K)の全てに対して順次行うことによって、全ての語彙に対する認識スコアSAi,(i=1〜K)を求め、認識スコアの一番高い候補の県名を認識結果とする。本例では認識結果は「第2県」で正認識であるとする。
【0047】
次に第2県内の企業名の認識を行う。認識を開始する前に照合手段5の入力端子CCを言語尤度付き語彙辞書(第2県)の出力端子C2に接続する。この接続状態で以下のように企業名認識を行う。
【0048】
利用者が音声信号の入力端1から企業名を発声すると音声信号2として分析手段3に入力される。分析手段3は音声信号2を前記と同様にLPC法を用いて音響分析を行い、特徴ベクトルの時系列4を出力する。
【0049】
照合手段5は、言語尤度付き語彙辞書(第2県)であるD2に格納されている語彙W2,i, (i=1〜N2)の音素系列P2,iと、言語尤度SG2,iと電話番号TEL2,iを読み込み、音響モデルメモリ6に格納されている音素モデルを連結して認識語彙W2,iの音素系列P2,iを表現する単語モデルを作成し、特徴ベクトルの時系列4と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙W2,iに対する音響尤度SAiを求める。そして(7)式のとおり言語尤度SG2,iとの和をとることによって語彙W2,iに対する認識スコアS2,iを求める。この処理を語彙W2,i, (i=1〜N2)の全てに対して順次行うことによって、全ての語彙に対する認識スコアSi, (i=1〜N2)を求め、認識スコアの一番高い候補の電話番号を認識結果として出力する。
【0050】
【数5】
【0051】
以上、(6)、(7)式に示したとおり認識スコアSを求める際に言語尤度SGを音響尤度SAに加算して用いるが、前記言語尤度は(3)、(5)式に示したように認識語彙数が大きい程、大きな値をとるようになっている。本例において第1県内の企業名の認識語彙数がN1, 第2県内の企業名の認識語彙数がN2で、N1 > N2とすると、第1県内の企業名の言語尤度のほうが第2県内の企業名の言語尤度よりも大きな値となり、認識スコアにおける言語尤度の寄与度が大きくなる。このように言語尤度を設定することによって第1県のように語彙数が大きく認識の難易度が高い語彙辞書を用いる場合には、言語尤度の重みを大きくして認識精度を確保するようにし、逆に第2県のように語彙数が小さく認識の難易度が低い語彙辞書を用いる場合には、低出現頻度の語彙が認識されにくくなるのを防ぐことができる。
【0052】
実施の形態2.
以下この発明の実施の形態2について説明する。この実施の形態2による音声認識装置の全体の構成は図1に示すものと基本的に同じであり、言語尤度作成手段17の動作を変更するものある。言語尤度作成手段17の動作は以下のとおりである。
【0053】
言語尤度作成手段17の入力端子AAを、出現頻度付き語彙辞書(第1県)D01の出力端子A1に接続する。また言語尤度作成手段17の出力端子BBを言語尤度付き語彙辞書(第1県)D1の入力端子B1に接続する。そして言語尤度作成手段17は出現頻度付き語彙辞書(第1県)D01から出現頻度付き語彙情報16として認識対象とする語彙W1,i, (i=1〜N1)の音素系列P1,iと、電話番号TEL1,iと、出現頻度C1,iを入力し、まず(8)式によって出現頻度付き語彙辞書(第1県)D01の全語彙の総出現頻度TC1を求める。次に予め設定した閾値TTと比較して、TC1 ≧ TT の場合には実施の形態1と同様に(9)式によって各語彙W1,iに対する言語尤度SG1,iを求め、出力端子BBを通して言語尤度付き語彙辞書(第1県)D1に出力する。(9)式の右辺は実施の形態1で説明した(3)式と同一のものである。一方、TC1 < TTの場合には全語彙の総出現頻度が小さいので、統計的に信頼性のある言語尤度を求められないものとみなし、(10)式のように全ての語彙に対して言語尤度を0として、出力端子BBを通して言語尤度付き語彙辞書(第1県)D1に出力する。
【0054】
【数6】
【0055】
認識対象とする語彙W1,i, (i=1〜N1)の音素系列P1,iと電話番号TEL1,iは、出現頻度付き語彙辞書D01から入力したものをそのまま出力端子BBを通して言語尤度付き語彙辞書D1に蓄える。以上で言語尤度付き語彙辞書(第1県)D1の作成を完了する。言語尤度作成手段17の入力端子AAと出力端子BBの接続を順次切り替えて、前記と同様の方法で各出現頻度付き語彙辞書D0k, (k=1〜K)の全てに対して対応する言語尤度付き語彙辞書Dk, (k=1〜K)を作成する。
【0056】
本発明における音声認識装置は、以上の手順で作成した言語尤度付き語彙辞書8を用いて音声認識を行う。音声認識の動作は実施の形態1で説明した音声認識装置の認識動作と同一なので説明を省略する。
【0057】
本発明における音声認識装置は言語尤度作成手段17において出現頻度付き語彙辞書内の全語彙の総出現頻度が所定の閾値より小さい語彙辞書では当該語彙辞書中の各語彙の言語尤度を全て0として、音声認識の際に実質的に言語尤度を用いないようにしたので、実施の形態1の音声認識装置が有する「語彙数が大きく認識の難易度が高い語彙辞書を用いる場合には、言語尤度の重みを大きくして認識精度を確保するようにし、逆に語彙数が小さく認識の難易度が低い語彙辞書を用いる場合には低出現頻度の語彙が認識されにくくなるのを防ぐことができる」という効果に加え、統計的に信頼性の低い言語尤度を使用して認識性能に悪影響をおよぼすことを避けることができる。
【0058】
実施の形態3.
以下この発明の実施の形態3について説明する。この実施の形態3による音声認識装置の全体の構成は図1に示すものと基本的に同じであり、言語尤度作成手段17の動作を変更するものある。言語尤度作成手段17の動作は以下のとおりである。
【0059】
言語尤度作成手段17の入力端子AAを、出現頻度付き語彙辞書(第1県)D01の出力端子A1に接続する。また言語尤度作成手段17の出力端子BBを言語尤度付き語彙辞書(第1県)D1の入力端子B1に接続する。そして言語尤度作成手段17は出現頻度付き語彙辞書(第1県)D01から出現頻度付き語彙情報16として認識対象とする語彙W1,i, (i=1〜N1)の音素系列P1,iと、電話番号TEL1,iと、出現頻度C1,iを入力し、実施の形態2と同様に(8)式によって出現頻度付き語彙辞書(第1県)D01の全語彙の総出現頻度TC1を求め、総出現頻度TC1が大きいほど、言語尤度の重み係数が大きな値をとるように決める。前記言語尤度の重み係数をg2とすると、例えば(11)式にしたがって言語尤度の重み係数g2を求める。(11)式中でa2, b2は経験的に決定した0以上の定数である。そして(12)式によって各語彙W1,iに対する言語尤度SG1,iを求め、出力端子BBを通して言語尤度付き語彙辞書(第1県)D1に出力する。
【0060】
【数7】
【0061】
認識対象とする語彙W1,i, (i=1〜N1)の音素系列P1,iと電話番号TEL1,iは、出現頻度付き語彙辞書D01から入力したものをそのまま出力端子BBを通して言語尤度付き語彙辞書D1に蓄える。以上で言語尤度付き語彙辞書(第1県)D1の作成を完了する。言語尤度作成手段17の入力端子AAと出力端子BBの接続を順次切り替えて、前記と同様の方法で各出現頻度付き語彙辞書D0k, (k=1〜K)の全てに対して対応する言語尤度付き語彙辞書Dk, (k=1〜K)を作成する。
【0062】
本発明における音声認識装置は、以上の手順で作成した言語尤度付き語彙辞書8を用いて音声認識を行う。音声認識の動作は実施の形態1で説明した音声認識装置の認識動作と同一なので説明を省略する。
【0063】
本発明における音声認識装置は言語尤度作成手段17において出現頻度付き語彙辞書内の全語彙の総出現頻度が大きいほど言語尤度は大きな値をとる。すなわち総出現頻度が大きく、出現頻度の統計的な信頼度が大きい語彙辞書では認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、逆に総出現頻度が小さく、出現頻度の統計的な信頼度が小さい語彙辞書では言語尤度を小さくして認識スコアにおける音響尤度の寄与度を相対的に大きくして認識精度を向上させることができる。
【0064】
実施の形態4.
以下この発明の実施の形態4について説明する。この実施の形態4による音声認識装置の全体の構成は図1に示すものと基本的に同じであり、言語尤度作成手段17の動作を変更するものある。言語尤度作成手段17の動作は以下のとおりである。
【0065】
言語尤度作成手段17の入力端子AAを、出現頻度付き語彙辞書(第1県)D01の出力端子A1に接続する。また言語尤度作成手段17の出力端子BBを言語尤度付き語彙辞書(第1県)D1の入力端子B1に接続する。そして言語尤度作成手段17は出現頻度付き語彙辞書(第1県)D01から出現頻度付き語彙情報16として認識対象とする語彙W1,i, (i=1〜N1)の音素系列P1,iと、電話番号TEL1,iと、出現頻度C1,iを入力し、実施の形態2と同様に(8)式によって出現頻度付き語彙辞書(第1県)D01の全語彙の総出現頻度TC1を求め、言語尤度の重み係数を認識語彙数N1と総出現頻度TC1の両者に依存する変数として、認識語彙数N1が大きいほど大きな値をとり、また総出現頻度TC1が大きいほど大きな値をとるように決める。前記言語尤度の重み係数をg3とすると、例えば(13)式にしたがってg3の値を求める。(13)式中でa3,a4,b4は経験的に決定した0以上の定数である。そして(14)式によって各語彙W1,iに対する言語尤度SG1,iを求め、出力端子BBを通して言語尤度付き語彙辞書(第1県)D1に出力する。
【0066】
【数8】
【0067】
認識対象とする語彙W1,i, (i=1〜N1)の音素系列P1,iと電話番号TEL1,iは、出現頻度付き語彙辞書D01から入力したものをそのまま出力端子BBを通して言語尤度付き語彙辞書D1に蓄える。以上で言語尤度付き語彙辞書(第1県)D1の作成を完了する。言語尤度作成手段17の入力端子AAと出力端子BBの接続を順次切り替えて、前記と同様の方法で各出現頻度付き語彙辞書D0k, (k=1〜K)の全てに対して対応する言語尤度付き語彙辞書Dk, (k=1〜K)を作成する。
【0068】
本発明における音声認識装置は、以上の手順で作成した言語尤度付き語彙辞書8を用いて音声認識を行う。音声認識の動作は実施の形態1で説明した音声認識装置の認識動作と同一なので説明を省略する。
【0069】
本発明における音声認識装置は言語尤度作成手段17において出現頻度語彙辞書内の認識語彙数、あるいは全語彙の総出現頻度が大きいほど言語尤度が大きな値をとる。すなわち認識語彙数が多く認識の難易度が高い語彙辞書を用いる場合や総出現頻度が大きく、総出現頻度の統計的な信頼度が大きい語彙辞書を用いる場合には認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、逆に語彙数が小さく認識の難易度が低い語彙辞書を用いる場合や総出現頻度が小さく、総出現頻度の統計的な信頼度が小さい語彙辞書では言語尤度を小さくして認識スコアにおける音響尤度の寄与度を相対的に大きくして認識精度を向上させることができる。
【0070】
実施の形態5.
以下この発明の実施の形態5について説明する。この実施の形態5による音声認識装置の全体の構成は図1に示すものと基本的に同じであり、言語尤度作成手段17の動作を変更するものある。言語尤度作成手段17の動作は以下のとおりである。
【0071】
言語尤度作成手段17の入力端子AAを、出現頻度付き語彙辞書(第1県)D01の出力端子A1に接続する。また言語尤度作成手段17の出力端子BBを言語尤度付き語彙辞書(第1県)D1の入力端子B1に接続する。そして言語尤度作成手段17は出現頻度付き語彙辞書(第1県)D01から出現頻度付き語彙情報16として認識対象とする語彙W1,i, (i=1〜N1)の音素系列P1,iと、電話番号TEL1,iと、出現頻度C1,iを入力し、実施の形態2と同様に(8)式によって出現頻度付き語彙辞書(第1県)D01の全語彙の総出現頻度TC1を求める。次に予め設定した閾値TTと比較して、TC1 ≧ TT の場合には(15)式によって各語彙W1,iに対する言語尤度SG1,iを求め、出力端子BBを通して言語尤度付き語彙辞書(第1県)D1に出力する。(15)式の右辺は実施の形態4で説明した(14)式と同一のものである。一方、TC1 < TT の場合には全語彙の総出現頻度が小さいので、統計的に信頼性のある言語尤度を求められないものとみなし、実施の形態2と同様に(10)式のとおり全ての語彙に対して言語尤度を0として、出力端子BBを通して言語尤度付き語彙辞書(第1県)D1に出力する。
【0072】
【数9】
【0073】
認識対象とする語彙W1,i, (i=1〜N1)の音素系列P1,iと電話番号TEL1,iは、出現頻度付き語彙辞書D01から入力したものをそのまま出力端子BBを通して言語尤度付き語彙辞書D1に蓄える。以上で言語尤度付き語彙辞書(第1県)D1の作成を完了する。言語尤度作成手段17の入力端子AAと出力端子BBの接続を順次切り替えて、前記と同様の方法で各出現頻度付き語彙辞書D0k, (k=1〜K)の全てに対して対応する言語尤度付き語彙辞書Dk, (k=1〜K)を作成する。
【0074】
本発明における音声認識装置は、以上の手順で作成した言語尤度付き語彙辞書8を用いて音声認識を行う。音声認識の動作は実施の形態1で説明した音声認識装置の認識動作と同一なので説明を省略する。
【0075】
本発明における音声認識装置は言語尤度作成手段17において出現頻度語彙辞書内の全語彙の総出現頻度が所定の閾値以上の語彙辞書では、出現頻度語彙辞書内の認識語彙数、あるいは全語彙の総出現頻度が大きいほど言語尤度が大きな値をとる。一方、出現頻度語彙辞書内の全語彙の総出現頻度が所定の閾値より小さい語彙辞書では当該語彙辞書中の各語彙の言語尤度を全て0としている。このように言語尤度を設定することにより認識語彙数が認識の難易度が高い語彙辞書を用いる場合や総出現頻度が大きく、総出現頻度の統計的な信頼度が大きい語彙辞書を用いる場合には認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、また出現頻度付き語彙辞書内の全語彙の総出現頻度が所定の閾値より小さい語彙辞書では当該語彙辞書中の各語彙の言語尤度を全て0として、音声認識の際に実質的に言語尤度を用いないようにしたので、統計的に信頼性の低い言語尤度を使用して認識性能に悪影響をおよぼすことを避けることができる。
【0076】
【発明の効果】
以上のようにこの発明によれば、認識の各場面ごとに認識対象とする語彙を切り替えて音声認識を行う音声認識装置であって、前記各場面ごとに認識語彙とその出現頻度を保持する複数個の出現頻度付き語彙辞書と、各認識語彙の出現頻度から計算される出現確率の対数値に、前記出現頻度付き語彙辞書ごとに異なる重み係数を乗じて言語尤度を計算する言語尤度作成手段と、前記各場面ごとの認識語彙と前記言語尤度を保持する言語尤度付き語彙辞書と、前記各場面に関し、この言語尤度付き語彙辞書の言語尤度を含むデータと音素モデルとから作成された単語モデルと、入力音声信号の特徴ベクトルの時系列と、からパターンマッチングを行い語彙に対する音響尤度を求め、音響尤度と言語尤度の和を語彙に対する認識スコアとして該認識スコアの一番高い候補を認識結果として出力する照合手段と、を備えたことを特徴とする音声認識装置としたので、言語尤度に対してより適切な重み係数を与えて音声認識精度を改善した音声認識装置を提供できる。
【0077】
また、前記言語尤度作成手段が、前記出現頻度付き語彙辞書内の語彙数が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成するようにしたので、語彙数が大きく認識の難易度が高い語彙辞書を用いる場合には、言語尤度の重みを大きくして認識精度を確保するようにし、逆に語彙数が小さく認識の難易度が低い語彙辞書を用いる場合には、低出現頻度の語彙が認識されにくくなるのを防ぐことができる。
【0078】
また、前記言語尤度作成手段が、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を0として前記言語尤度付き語彙辞書を作成するようにしたので、上述の効果に加えて統計的に信頼性の低い言語尤度を使用して認識性能に悪影響をおよぼすことを避けることができる。
【0079】
また、前記言語尤度作成手段が、前記出現頻度付き語彙辞書内の語彙の総出現頻度が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成するようにしたので、出現頻度付き語彙辞書内の全語彙の総出現頻度が大きいほど言語尤度は大きな値をとる。すなわち総出現頻度が大きく、出現頻度の統計的な信頼度が大きい語彙辞書では認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、逆に総出現頻度が小さく、出現頻度の統計的な信頼度が小さい語彙辞書では言語尤度を小さくして認識スコアにおける音響尤度の寄与度を相対的に大きくして認識精度を向上させることができる。
【0080】
また、前記言語尤度作成手段が、前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成するようにしたので、認識語彙数が多く認識の難易度が高い語彙辞書を用いる場合や総出現頻度が大きく、総出現頻度の統計的な信頼度が大きい語彙辞書を用いる場合には認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、逆に語彙数が小さく認識の難易度が低い語彙辞書を用いる場合や総出現頻度が小さく、総出現頻度の統計的な信頼度が小さい語彙辞書では言語尤度を小さくして認識スコアにおける音響尤度の寄与度を相対的に大きくして認識精度を向上させることができる。
【0081】
また、前記言語尤度作成手段が、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を0とするが、一方前記総出現頻度が所定の閾値以上の辞書では前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成するようにしたので、認識語彙数が認識の難易度が高い語彙辞書を用いる場合や総出現頻度が大きく、総出現頻度の統計的な信頼度が大きい語彙辞書を用いる場合には認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、また出現頻度付き語彙辞書内の全語彙の総出現頻度が所定の閾値より小さい語彙辞書では当該語彙辞書中の各語彙の言語尤度を全て0として、音声認識の際に実質的に言語尤度を用いないようにしたので、統計的に信頼性の低い言語尤度を使用して認識性能に悪影響をおよぼすことを避けることができる。
【図面の簡単な説明】
【図1】 図1は本発明の一実施の形態による音声認識装置の構成を示すブロック図である。
【図2】 本発明による各出現頻度付き語彙辞書の出現頻度付き語彙情報の一例を示す図である。
【図3】 本発明による各言語尤度付き語彙辞書の言語尤度付き語彙情報の一例を示す図である。
【図4】 従来のこの種の音声認識装置の構成を示すブロック図である。
【符号の説明】
1 音声信号の入力端、2 入力音声信号、3 分析手段、4 入力音声信号の特徴ベクトルの時系列、5 照合手段、6 音響モデルメモリ、7 県名語彙辞書、8 言語尤度付き語彙辞書、9 認識語彙情報、14 認識結果、15 出現頻度付き語彙辞書、16 出現頻度付き語彙情報、17は言語尤度作成手段、18 言語尤度付き語彙情報。
Claims (6)
- 認識の各場面ごとに認識対象とする語彙を切り替えて音声認識を行う音声認識装置であって、
前記各場面ごとに認識語彙とその出現頻度を保持する複数個の出現頻度付き語彙辞書と、
各認識語彙の出現頻度から計算される出現確率の対数値に、前記出現頻度付き語彙辞書ごとに異なる重み係数を乗じて言語尤度を計算する言語尤度作成手段と、
前記各場面ごとの認識語彙と前記言語尤度を保持する言語尤度付き語彙辞書と、
前記各場面に関し、この言語尤度付き語彙辞書の言語尤度を含むデータと音素モデルとから作成された単語モデルと、入力音声信号の特徴ベクトルの時系列と、からパターンマッチングを行い語彙に対する音響尤度を求め、音響尤度と言語尤度の和を語彙に対する認識スコアとして該認識スコアの一番高い候補を認識結果として出力する照合手段と、
を備えたことを特徴とする音声認識装置。 - 前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙数が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする請求項1に記載の音声認識装置。
- 前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を0として前記言語尤度付き語彙辞書を作成することを特徴とする請求項1に記載の音声認識装置。
- 前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする請求項1に記載の音声認識装置。
- 前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする請求項1に記載の音声認識装置。
- 前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を0とするが、一方前記総出現頻度が所定の閾値以上の辞書では前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする請求項1に記載の音声認識装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001348785A JP3868798B2 (ja) | 2001-11-14 | 2001-11-14 | 音声認識装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001348785A JP3868798B2 (ja) | 2001-11-14 | 2001-11-14 | 音声認識装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2003150189A JP2003150189A (ja) | 2003-05-23 |
JP3868798B2 true JP3868798B2 (ja) | 2007-01-17 |
Family
ID=19161556
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001348785A Expired - Fee Related JP3868798B2 (ja) | 2001-11-14 | 2001-11-14 | 音声認識装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3868798B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4804052B2 (ja) * | 2005-07-08 | 2011-10-26 | アルパイン株式会社 | 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法 |
JP5199391B2 (ja) * | 2008-11-25 | 2013-05-15 | 旭化成株式会社 | 重み係数生成装置、音声認識装置、ナビゲーション装置、車両、重み係数生成方法、及び重み係数生成プログラム |
CN111613212B (zh) * | 2020-05-13 | 2023-10-31 | 携程旅游信息技术(上海)有限公司 | 语音识别方法、系统、电子设备和存储介质 |
-
2001
- 2001-11-14 JP JP2001348785A patent/JP3868798B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2003150189A (ja) | 2003-05-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9536525B2 (en) | Speaker indexing device and speaker indexing method | |
US8280733B2 (en) | Automatic speech recognition learning using categorization and selective incorporation of user-initiated corrections | |
RU2393549C2 (ru) | Способ и устройство для распознавания речи | |
US7319960B2 (en) | Speech recognition method and system | |
EP1357541A2 (en) | Speaker adaptation for speech recognition | |
JP4202124B2 (ja) | 話者独立音声認識システムのための音声テンプレートを構成するための方法及び装置 | |
KR20030018073A (ko) | 음성 인식 장치 및 음성 인식 방법 | |
EP1557823A2 (en) | Method of setting posterior probability parameters for a switching state space model and method of speech recognition | |
EP1465154A2 (en) | Method of speech recognition using variational inference with switching state space models | |
JP3130524B2 (ja) | 音声信号認識方法およびその方法を実施する装置 | |
KR101122591B1 (ko) | 핵심어 인식에 의한 음성 인식 장치 및 방법 | |
JP4696418B2 (ja) | 情報検出装置及び方法 | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JPH1185188A (ja) | 音声認識方法及びそのプログラム記録媒体 | |
JP3868798B2 (ja) | 音声認識装置 | |
US7003465B2 (en) | Method for speech recognition, apparatus for the same, and voice controller | |
JP4391179B2 (ja) | 話者認識システム及び方法 | |
KR100586045B1 (ko) | 고유음성 화자적응을 이용한 재귀적 화자적응 음성인식시스템 및 방법 | |
JP3100180B2 (ja) | 音声認識方法 | |
JP3075250B2 (ja) | 話者認識方法及び装置 | |
JPH0772899A (ja) | 音声認識装置 | |
JP3461789B2 (ja) | 音声認識装置および音声認識方法、並びに、プログラム記録媒体 | |
JP3698511B2 (ja) | 音声認識方法 | |
Hüning et al. | Speech Recognition Methods and their Potential for Dialogue Systems in Mobile Environments | |
Amuda et al. | Mathematical Profile of Automatic Speech Recognition Algorithm |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20041012 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20061003 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20061010 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20061011 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20091020 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101020 Year of fee payment: 4 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111020 Year of fee payment: 5 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121020 Year of fee payment: 6 |
|
LAPS | Cancellation because of no payment of annual fees |