JP3868798B2

JP3868798B2 - 音声認識装置

Info

Publication number: JP3868798B2
Application number: JP2001348785A
Authority: JP
Inventors: 利行花沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2001-11-14
Filing date: 2001-11-14
Publication date: 2007-01-17
Anticipated expiration: 2021-11-14
Also published as: JP2003150189A

Description

【０００１】
【発明の属する技術分野】
この発明は音声認識の各場面ごとに認識対象とする語彙辞書を切り替えて音声認識を行う音声認識装置に関するものである。
【０００２】
【従来の技術】
音声認識の精度を向上させる手段として、認識対象語彙の言語尤度を用いる技術が従来から検討されている。例えば単語の認識を行う場合、認識対象とする語彙の出現確率を予め求めておき、前記出現確率の対数値を言語尤度として用い、音響尤度と一定の重みで荷重平均した値を認識スコアとする方法である。しかし前記の一定の重みが常に最適値であるとは限らない。
【０００３】
そこで、さらに認識精度を向上させる手段として、音響尤度と言語尤度を荷重平均する際の重み係数を、入力音声に応じて変更する技術が特開平８−２４８９８１号公報で開示されている。図４はこの特開平８−２４８９８１号公報で開示されている技術を用いた従来の音声認識装置の一構成例である。同図において１は音声信号の入力端、２は入力音声信号、３は音響分析を行う分析手段、４は入力音声信号の特徴ベクトルの時系列、５はパターン照合を行う照合手段、６は音響モデルメモリ、７は県名語彙辞書、８は言語尤度付き語彙辞書、９は認識語彙情報、１０は音響尤度、１１は重み係数決定手段、１２は言語尤度重み係数、１３は統合手段、１４は認識結果である。
【０００４】
ここでは日本全国の企業名を認識し当該企業の電話番号を案内するタスクで、先ず県名を認識し、その県内の企業名を認識する場合を例として説明する。最初から一度に日本全国の企業名を認識対象としない理由は日本全国では企業数が膨大になり認識が非常に困難だからである。
【０００５】
県名語彙辞書７は県名を認識するための語彙辞書であり、日本全国の県名を認識語彙として持つものとして構成する。すなわち県名語彙辞書内には日本全国の県名WP_iの音素系列PP_i, (i=1〜K)が格納されている。Kは県名語彙辞書７に含まれる語彙数である。音素系列PP_iは例えばWP₁が北海道、WP₂が青森県とすると、前記音素系列PP₁は/hoQkaidoo/、PP₂は/aomorikeN/である。
【０００６】
言語尤度付き語彙辞書８であるD_k, (k=1〜K)は、各都道府県ごとに、県内に存在する企業の名称を認識語彙として持つものとして構成する。例えばD₁は北海道に存在する企業の名称を認識語彙とする辞書、D₂は青森県に存在する企業の名称を認識語彙とする辞書である。各言語尤度付き語彙辞書D_k内には認識語彙情報９として当該県内に存在する企業の名称である認識語彙W_k,_i, (i=1〜N_k)の音素系列P_k,_iと、言語尤度SG_k,_iと電話番号TEL_k,_iが格納されている。N_kは言語尤度付き語彙辞書D_kに含まれる語彙数である。前記言語尤度SG_k,_iは、一定期間以上の過去の電話番号問い合わせ記録から各語彙(企業名)W_k,_iごとに語彙の出現確率を求めておき、前記出現確率を対数化したものとする。
【０００７】
音響モデルメモリ６は日本語に含まれる全ての音素に対する音響モデルを格納している。前記音響モデルは例えば連続分布型のHMM(Hidden Markov Model)とする。
【０００８】
前述したように日本全国の企業名を認識し当該企業の電話番号を案内するタスクで、先ず県名を認識し、その県内の企業名を認識する場合を例として、本認識装置の動作を説明する。音声認識装置の利用者は第１県内にある○社の電話番号を問い合わせるものとする。
【０００９】
認識を開始する前に照合手段５の入力端子CCを県名語彙辞書７の出力であるPPに接続する。この接続状態で以下のように県名の認識を行う。本例では県名の認識では言語尤度を用いないこととする。
【００１０】
利用者が音声信号の入力端１から県名を発声すると入力音声信号２として分析手段３に入力される。分析手段３は音声信号２を例えばLPC(Linear Predictive Coding)法を用いて音響分析を行い、特徴ベクトルの時系列４を出力する。この特徴ベクトルは例えばＬＰＣケプストラムである。
【００１１】
照合手段５は、県名語彙辞書７に格納されている語彙WP_i,(i=1〜K)の音素系列PP_iを読み込み、音響モデルメモリ６に格納されている音素モデルを連結して認識語彙WP_iの音素系列を表現する単語モデルを作成し、特徴ベクトルの時系列４を入力として特徴ベクトルの時系列４と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙WP_iに対する音響尤度SA_iを求める。この処理を語彙WP_i,(i=1〜K)の全てに対して順次行うことによって、全ての語彙に対する音響尤度SA_i,(i=1〜K)を求め、音響尤度の一番高い候補の県名を認識結果とする。本例では認識結果は「第１県」で正認識であるとする。
【００１２】
次に第１県内の企業名の認識を行う。認識を開始する前に照合手段５の入力端子CCを言語尤度付き語彙辞書(第１県)の出力端子C１に接続する。この接続状態で以下のように企業名認識を行う。
【００１３】
利用者が音声信号の入力端１から県名を発声すると音声信号２として分析手段３に入力される。分析手段３は音声信号２の音響分析を行い、特徴ベクトルの時系列４を出力する。
【００１４】
照合手段５は、言語尤度付き語彙辞書(第１県)認識語彙辞書D1から認識語彙情報９である語彙W₁,_i,(i=1〜N)の音素系列P₁,_iと、言語尤度SG₁,_iと電話番号TEL₁,_iを読み込み、音響モデルメモリ６に格納されている音素モデルを連結して認識語彙W₁,_iの音素系列P₁,_iを表現する単語モデルを作成し、特徴ベクトルの時系列４を入力として特徴ベクトルの時系列４と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙W₁,_iに対する音響尤度SA_iを求める。このパターンマッチング処理を語彙W_i,(i=1〜N₁)の全てに対して順次行うことによって、全ての語彙に対する音響尤度SA_i,(i=1〜N₁)を求める。
【００１５】
重み係数決定手段１１は、全ての語彙に対する音響尤度１０であるSA_i,(i=1〜N₁)を入力とし、(１)式に示すように音響尤度の一番高いものSA⁽¹⁾と二番目に高いものSA⁽²⁾との差DAに基づいて、DAが大きければ、音響尤度による認識の信頼性が高いものとみなし音響尤度SAと言語尤度SGを統合する際の言語尤度重み係数wを大きくし、逆にDAが小さければ音響尤度による認識の信頼性が低いものとみなして前記言語尤度重み係数wを小さくする。
【００１６】
【数１】

【００１７】
次に統合手段１３は、前記重み係数wと、語彙W₁,_i, (i=1〜N₁)に対する音響尤度SA_i, (i=1〜N₁)と、言語尤度SG_i, (i=1〜N₁)を入力として(２)式によって各語彙に対する統合尤度S_i, (i=1〜N₁)を求め、統合尤度S_iの一番高い語彙を認識結果として出力する。
【００１８】
【数２】

【００１９】
【発明が解決しようとする課題】
以上説明したように従来の技術では、音響尤度の信頼性を判断する尺度として音響尤度の第一位と第二位の差を用い、音響尤度SA_iの信頼性が高いと判断される場合には音響尤度に対する重みを大きくし、逆に音響尤度SA_iの信頼性が低いと判断される場合には音響尤度に対する重みを小さくすることにより、認識精度の向上をはかっていた。しかし音響尤度の第一位と第二位の差は音響尤度の信頼性を判断する尺度として必ずしも正確ではない。また他の尺度を用いた場合でも音響尤度の信頼性を正確に求めることは困難であり、結果として言語尤度に対する前記重み係数wは常に適切な値として求められるとは限らないという問題点があった。
【００２０】
この発明は上記課題を解決するためになされたもので、言語尤度に対してより適切な重み係数を与えて音声認識精度を改善する音声認識装置を提供することを目的とする。
【００２１】
【課題を解決するための手段】
上記の目的に鑑み、この発明は、認識の各場面ごとに認識対象とする語彙を切り替えて音声認識を行う音声認識装置であって、前記各場面ごとに認識語彙とその出現頻度を保持する複数個の出現頻度付き語彙辞書と、各認識語彙の出現頻度から計算される出現確率の対数値に、前記出現頻度付き語彙辞書ごとに異なる重み係数を乗じて言語尤度を計算する言語尤度作成手段と、前記各場面ごとの認識語彙と前記言語尤度を保持する言語尤度付き語彙辞書と、前記各場面に関し、この言語尤度付き語彙辞書の言語尤度を含むデータと音素モデルとから作成された単語モデルと、入力音声信号の特徴ベクトルの時系列と、からパターンマッチングを行い語彙に対する音響尤度を求め、音響尤度と言語尤度の和を語彙に対する認識スコアとして該認識スコアの一番高い候補を認識結果として出力する照合手段と、を備えたことを特徴とする音声認識装置にある。
【００２２】
また、前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙数が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする。
【００２３】
また、前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を０として前記言語尤度付き語彙辞書を作成することを特徴とする。
【００２４】
また、前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする。
【００２５】
また、前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする。
【００２６】
また、前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を０とするが、一方前記総出現頻度が所定の閾値以上の辞書では前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする。
【００２７】
【発明の実施の形態】
実施の形態１．
図１は本発明の一実施の形態による音声認識装置の構成を示すブロック図である。同図において１は音声信号の入力端、２は入力音声信号、３は音響分析を行う分析手段、４は入力音声信号の特徴ベクトルの時系列、５はパターン照合を行う照合手段、６は音響モデルメモリ、７は県名語彙辞書、８は言語尤度付き語彙辞書、９は認識語彙情報、１４は認識結果であり、これらは基本的に従来のものと同一符号のものに相当する。１５は出現頻度付き語彙辞書、１６は出現頻度付き語彙情報、１７は言語尤度作成手段、１８は言語尤度付き語彙情報である。
【００２８】
ここでは従来技術と同様に日本全国の企業名を認識し当該企業の電話番号を案内するタスクで、先ず県名を認識し、その県内の企業名を認識する場合を例として説明する。
【００２９】
県名語彙辞書７は従来技術と全く同じものであり県名を認識するための語彙辞書である。
【００３０】
出現頻度付き語彙辞書１５であるD0_k, (k=1〜K)は、各都道府県ごとに、県内に存在する企業の名称を認識語彙として持つものとして構成する。例えばD0₁は北海道に存在する企業の名称を認識語彙とする辞書、D0₂は青森県に存在する企業の名称を認識語彙とする辞書である。
【００３１】
各出現頻度付き語彙辞書１５であるD0_k, (k=1〜K)には出現頻度付き語彙情報１６として図２に示すように、当該県内に存在する企業の名称である認識語彙W_k,_i, (i=1〜N_k)の音素系列P_k,_iと、出現頻度C_k,_iと電話番号TEL_k,_iが格納されている。N_kは出現頻度付き語彙辞書D0_kに含まれる語彙数である。前記出現頻度C_k,_iは一定期間以上の過去の電話番号問い合わせ記録から各語彙(企業名)W_k,_iごとに問い合わせ回数を求めておいたものとする。
【００３２】
次に本発明の音声認識装置の動作について説明する。本発明の音声認識装置では認識を行う前に、言語尤度作成手段１７によって言語尤度付き語彙辞書８であるD_k, (k=1〜K)を作成しておく。この言語尤度付き語彙辞書８の作成方法を説明する。
【００３３】
言語尤度作成手段１７の入力端子AAを、出現頻度付き語彙辞書(第１県)の出力端子A1に接続する。また言語尤度作成手段１７の出力端子BBを言語尤度付き語彙辞書(第１県)の入力端子B1に接続する。そして言語尤度作成手段１７は出現頻度付き語彙辞書(第１県)D0₁から出現頻度付き語彙情報１６として認識対象とする語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと、電話番号TEL₁,_iと、出現頻度C₁,_iを入力し、(３)、(４)式によって各語彙W₁,_iに対する言語尤度SG₁,_iを求め、出力端子BBを通して言語尤度付き語彙辞書(第１県)に出力する。(３)式中でg1は認識語彙数N₁が大きい程、大きな値をとるものとする。例えば(５)式にしたがって値を求める。式中でa, bは経験的に決定した０以上の定数である。
【００３４】
【数３】

【００３５】
認識対象とする語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと電話番号TEL_k,_iは、出現頻度付き語彙辞書D0₁から入力したものをそのまま出力端子BBを通して言語尤度付き語彙辞書D₁に蓄える。したがって言語尤度付き語彙辞書D₁は図３に示すように言語尤度付き語彙情報１８として、語彙W₁,_i, (i=1〜N₁)に対する音素系列P₁,_iと、言語尤度SG₁,_iと、電話番号TEL₁,_iを蓄えることになる。以上で言語尤度付き語彙辞書(第１県)D₁の作成を完了する。
【００３６】
言語尤度作成手段１７の入力端子AAと出力端子BBの接続を順次切り替えて、前記と同様の方法で各出現頻度付き語彙辞書D0_k, (k=1〜K)の全てに対して対応する言語尤度付き語彙辞書D_k, (k=1〜K)を作成する。
【００３７】
次に認識動作について説明する。前述したように日本全国の企業名を認識し当該企業の電話番号を案内するタスクで、先ず県名を認識し、その県内の企業名を認識する場合を例として説明する。音声認識装置の利用者は第１県内にある◯社の電話番号を問い合わせるものとする。認識を開始する前に照合手段５の入力端子CCを県名語彙辞書の出力であるPPに接続する。この接続状態で以下のように県名の認識を行う。
【００３８】
利用者が音声信号の入力端１から県名を発声すると入力音声信号２として分析手段３に入力される。分析手段３は音声信号２を例えば従来技術と同様にLPC法を用いて音響分析を行い、特徴ベクトルの時系列４を出力する。この特徴ベクトルは例えばＬＰＣケプストラムである。
【００３９】
照合手段５は、県名語彙辞書７に格納されている語彙WP_i, (i=1〜K)の音素系列PP_iを読み込み、音響モデルメモリ６に格納されている音素モデルを連結して認識語彙WP_iの音素系列を表現する単語モデルを作成し、特徴ベクトルの時系列４を入力として特徴ベクトルの時系列４と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙WP_iに対する音響尤度SA_iを求める。この処理を語彙WP_i, (i=1〜K)の全てに対して順次行うことによって、全ての語彙に対する音響尤度SAi, (i=1〜K)を求め、音響尤度の一番高い候補の県名を認識結果とする。本例では認識結果は「第１県」で正認識であるとする。
【００４０】
次に第１県内の企業名の認識を行う。認識を開始する前に照合手段５の入力端子CCを言語尤度付き語彙辞書(第１県)の出力端子C１に接続する。この接続状態で以下のように企業名認識を行う。
【００４１】
利用者が音声信号の入力端１から企業名を発声すると入力音声信号２として分析手段３に入力される。分析手段３は音声信号２を前記と同様にLPC法を用いて音響分析を行い、特徴ベクトルの時系列４を出力する。
【００４２】
照合手段５は、言語尤度付き語彙辞書(第１県)であるD₁に格納されている語彙W₁,_i, (i=1〜N)の音素系列P₁,_iと、言語尤度SG₁,_iと電話番号TEL₁,_iを読み込み、音響モデルメモリ６に格納されている音素モデルを連結して認識語彙W₁,_iの音素系列P₁,_iを表現する単語モデルを作成し、特徴ベクトルの時系列４と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙W₁,_iに対する音響尤度SA_iを求める。そして(６)式のとおり言語尤度SG₁,_iとの和をとることによって語彙W₁,_iに対する認識スコアS₁,_iを求める。この処理を語彙W₁,_i, (i=1〜N₁)の全てに対して順次行うことによって、全ての語彙に対する認識スコアS₁,_i, (i=1〜N₁)を求め、認識スコアの一番高い候補の電話番号を認識結果１４として出力する。
【００４３】
【数４】

【００４４】
一方、音声認識装置の利用者は第２県内にある□社の電話番号を問い合わせる場合は以下のように動作する。認識を開始する前に照合手段５の入力端子CCを県名語彙辞書の出力であるPPに接続する。この接続状態で以下のように県名の認識を行う。
【００４５】
利用者が音声信号の入力端１から県名を発声すると音声信号２として分析手段３に入力される。分析手段３は音声信号２の音響分析を行い、特徴ベクトルの時系列４を出力する。この特徴ベクトルは例えばＬＰＣケプストラムである。
【００４６】
照合手段５は、県名語彙辞書７に格納されている語彙WP_i,(i=1〜K)の音素系列PP_iを読み込み、音響モデルメモリ６に格納されている音素モデルを連結して認識語彙WP_iの音素系列を表現する単語モデルを作成し、特徴ベクトルの時系列４と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙WP_iに対する音響尤度SA_iを求める。この処理を語彙WP_i, (i=1〜K)の全てに対して順次行うことによって、全ての語彙に対する認識スコアSA_i,(i=1〜K)を求め、認識スコアの一番高い候補の県名を認識結果とする。本例では認識結果は「第２県」で正認識であるとする。
【００４７】
次に第２県内の企業名の認識を行う。認識を開始する前に照合手段５の入力端子CCを言語尤度付き語彙辞書(第２県)の出力端子C２に接続する。この接続状態で以下のように企業名認識を行う。
【００４８】
利用者が音声信号の入力端１から企業名を発声すると音声信号２として分析手段３に入力される。分析手段３は音声信号２を前記と同様にLPC法を用いて音響分析を行い、特徴ベクトルの時系列４を出力する。
【００４９】
照合手段５は、言語尤度付き語彙辞書(第２県)であるD₂に格納されている語彙W₂,_i, (i=1〜N₂)の音素系列P₂,_iと、言語尤度SG₂,_iと電話番号TEL₂,_iを読み込み、音響モデルメモリ６に格納されている音素モデルを連結して認識語彙W₂,_iの音素系列P₂,_iを表現する単語モデルを作成し、特徴ベクトルの時系列４と例えばビタビアルゴリズムを用いてパターンマッチングを行い、語彙W₂,_iに対する音響尤度SA_iを求める。そして(７)式のとおり言語尤度SG₂,_iとの和をとることによって語彙W₂,_iに対する認識スコアS₂,_iを求める。この処理を語彙W₂,_i, (i=1〜N₂)の全てに対して順次行うことによって、全ての語彙に対する認識スコアS_i, (i=1〜N₂)を求め、認識スコアの一番高い候補の電話番号を認識結果として出力する。
【００５０】
【数５】

【００５１】
以上、(６)、(７)式に示したとおり認識スコアSを求める際に言語尤度SGを音響尤度SAに加算して用いるが、前記言語尤度は(３)、(５)式に示したように認識語彙数が大きい程、大きな値をとるようになっている。本例において第１県内の企業名の認識語彙数がN₁, 第２県内の企業名の認識語彙数がN₂で、N₁ ＞ N₂とすると、第１県内の企業名の言語尤度のほうが第２県内の企業名の言語尤度よりも大きな値となり、認識スコアにおける言語尤度の寄与度が大きくなる。このように言語尤度を設定することによって第１県のように語彙数が大きく認識の難易度が高い語彙辞書を用いる場合には、言語尤度の重みを大きくして認識精度を確保するようにし、逆に第２県のように語彙数が小さく認識の難易度が低い語彙辞書を用いる場合には、低出現頻度の語彙が認識されにくくなるのを防ぐことができる。
【００５２】
実施の形態２．
以下この発明の実施の形態２について説明する。この実施の形態２による音声認識装置の全体の構成は図１に示すものと基本的に同じであり、言語尤度作成手段１７の動作を変更するものある。言語尤度作成手段１７の動作は以下のとおりである。
【００５３】
言語尤度作成手段１７の入力端子AAを、出現頻度付き語彙辞書(第１県)D0₁の出力端子A1に接続する。また言語尤度作成手段１７の出力端子BBを言語尤度付き語彙辞書(第１県)D₁の入力端子B1に接続する。そして言語尤度作成手段１７は出現頻度付き語彙辞書(第１県)D0₁から出現頻度付き語彙情報１６として認識対象とする語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと、電話番号TEL₁,_iと、出現頻度C₁,_iを入力し、まず(８)式によって出現頻度付き語彙辞書(第１県)D0₁の全語彙の総出現頻度TC₁を求める。次に予め設定した閾値TTと比較して、TC₁ ≧ TT の場合には実施の形態１と同様に(９)式によって各語彙W₁,_iに対する言語尤度SG₁,_iを求め、出力端子BBを通して言語尤度付き語彙辞書(第１県)D₁に出力する。(９)式の右辺は実施の形態１で説明した(３)式と同一のものである。一方、TC₁ ＜ TTの場合には全語彙の総出現頻度が小さいので、統計的に信頼性のある言語尤度を求められないものとみなし、(１０)式のように全ての語彙に対して言語尤度を０として、出力端子BBを通して言語尤度付き語彙辞書(第１県)D₁に出力する。
【００５４】
【数６】

【００５５】
認識対象とする語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと電話番号TEL₁,_iは、出現頻度付き語彙辞書D0₁から入力したものをそのまま出力端子BBを通して言語尤度付き語彙辞書D₁に蓄える。以上で言語尤度付き語彙辞書(第１県)D₁の作成を完了する。言語尤度作成手段１７の入力端子AAと出力端子BBの接続を順次切り替えて、前記と同様の方法で各出現頻度付き語彙辞書D0_k, (k=1〜K)の全てに対して対応する言語尤度付き語彙辞書D_k, (k=1〜K)を作成する。
【００５６】
本発明における音声認識装置は、以上の手順で作成した言語尤度付き語彙辞書８を用いて音声認識を行う。音声認識の動作は実施の形態１で説明した音声認識装置の認識動作と同一なので説明を省略する。
【００５７】
本発明における音声認識装置は言語尤度作成手段１７において出現頻度付き語彙辞書内の全語彙の総出現頻度が所定の閾値より小さい語彙辞書では当該語彙辞書中の各語彙の言語尤度を全て０として、音声認識の際に実質的に言語尤度を用いないようにしたので、実施の形態１の音声認識装置が有する「語彙数が大きく認識の難易度が高い語彙辞書を用いる場合には、言語尤度の重みを大きくして認識精度を確保するようにし、逆に語彙数が小さく認識の難易度が低い語彙辞書を用いる場合には低出現頻度の語彙が認識されにくくなるのを防ぐことができる」という効果に加え、統計的に信頼性の低い言語尤度を使用して認識性能に悪影響をおよぼすことを避けることができる。
【００５８】
実施の形態３．
以下この発明の実施の形態３について説明する。この実施の形態３による音声認識装置の全体の構成は図１に示すものと基本的に同じであり、言語尤度作成手段１７の動作を変更するものある。言語尤度作成手段１７の動作は以下のとおりである。
【００５９】
言語尤度作成手段１７の入力端子AAを、出現頻度付き語彙辞書(第１県)D0₁の出力端子A1に接続する。また言語尤度作成手段１７の出力端子BBを言語尤度付き語彙辞書(第１県)D₁の入力端子B1に接続する。そして言語尤度作成手段１７は出現頻度付き語彙辞書(第１県)D0₁から出現頻度付き語彙情報１６として認識対象とする語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと、電話番号TEL₁,_iと、出現頻度C₁,_iを入力し、実施の形態２と同様に(８)式によって出現頻度付き語彙辞書(第１県)D0₁の全語彙の総出現頻度TC₁を求め、総出現頻度TC₁が大きいほど、言語尤度の重み係数が大きな値をとるように決める。前記言語尤度の重み係数をg2とすると、例えば(１１)式にしたがって言語尤度の重み係数g2を求める。(１１)式中でa2, b2は経験的に決定した０以上の定数である。そして(１２)式によって各語彙W₁,_iに対する言語尤度SG₁,_iを求め、出力端子BBを通して言語尤度付き語彙辞書(第１県)D₁に出力する。
【００６０】
【数７】

【００６１】
認識対象とする語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと電話番号TEL₁,_iは、出現頻度付き語彙辞書D0₁から入力したものをそのまま出力端子BBを通して言語尤度付き語彙辞書D₁に蓄える。以上で言語尤度付き語彙辞書(第１県)D₁の作成を完了する。言語尤度作成手段１７の入力端子AAと出力端子BBの接続を順次切り替えて、前記と同様の方法で各出現頻度付き語彙辞書D0_k, (k=1〜K)の全てに対して対応する言語尤度付き語彙辞書D_k, (k=1〜K)を作成する。
【００６２】
本発明における音声認識装置は、以上の手順で作成した言語尤度付き語彙辞書８を用いて音声認識を行う。音声認識の動作は実施の形態１で説明した音声認識装置の認識動作と同一なので説明を省略する。
【００６３】
本発明における音声認識装置は言語尤度作成手段１７において出現頻度付き語彙辞書内の全語彙の総出現頻度が大きいほど言語尤度は大きな値をとる。すなわち総出現頻度が大きく、出現頻度の統計的な信頼度が大きい語彙辞書では認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、逆に総出現頻度が小さく、出現頻度の統計的な信頼度が小さい語彙辞書では言語尤度を小さくして認識スコアにおける音響尤度の寄与度を相対的に大きくして認識精度を向上させることができる。
【００６４】
実施の形態４．
以下この発明の実施の形態４について説明する。この実施の形態４による音声認識装置の全体の構成は図１に示すものと基本的に同じであり、言語尤度作成手段１７の動作を変更するものある。言語尤度作成手段１７の動作は以下のとおりである。
【００６５】
言語尤度作成手段１７の入力端子AAを、出現頻度付き語彙辞書(第１県)D0₁の出力端子A1に接続する。また言語尤度作成手段１７の出力端子BBを言語尤度付き語彙辞書(第１県)D₁の入力端子B1に接続する。そして言語尤度作成手段１７は出現頻度付き語彙辞書(第１県)D0₁から出現頻度付き語彙情報１６として認識対象とする語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと、電話番号TEL₁,_iと、出現頻度C₁,_iを入力し、実施の形態２と同様に(８)式によって出現頻度付き語彙辞書(第１県)D0₁の全語彙の総出現頻度TC₁を求め、言語尤度の重み係数を認識語彙数N₁と総出現頻度TC₁の両者に依存する変数として、認識語彙数N₁が大きいほど大きな値をとり、また総出現頻度TC₁が大きいほど大きな値をとるように決める。前記言語尤度の重み係数をg3とすると、例えば(１３)式にしたがってg3の値を求める。(１３)式中でa3,a4,b4は経験的に決定した０以上の定数である。そして(１４)式によって各語彙W₁,_iに対する言語尤度SG₁,iを求め、出力端子BBを通して言語尤度付き語彙辞書(第１県)D₁に出力する。
【００６６】
【数８】

【００６７】
認識対象とする語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと電話番号TEL₁,_iは、出現頻度付き語彙辞書D0₁から入力したものをそのまま出力端子BBを通して言語尤度付き語彙辞書D₁に蓄える。以上で言語尤度付き語彙辞書(第１県)D₁の作成を完了する。言語尤度作成手段１７の入力端子AAと出力端子BBの接続を順次切り替えて、前記と同様の方法で各出現頻度付き語彙辞書D0_k, (k=1〜K)の全てに対して対応する言語尤度付き語彙辞書D_k, (k=1〜K)を作成する。
【００６８】
本発明における音声認識装置は、以上の手順で作成した言語尤度付き語彙辞書８を用いて音声認識を行う。音声認識の動作は実施の形態１で説明した音声認識装置の認識動作と同一なので説明を省略する。
【００６９】
本発明における音声認識装置は言語尤度作成手段１７において出現頻度語彙辞書内の認識語彙数、あるいは全語彙の総出現頻度が大きいほど言語尤度が大きな値をとる。すなわち認識語彙数が多く認識の難易度が高い語彙辞書を用いる場合や総出現頻度が大きく、総出現頻度の統計的な信頼度が大きい語彙辞書を用いる場合には認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、逆に語彙数が小さく認識の難易度が低い語彙辞書を用いる場合や総出現頻度が小さく、総出現頻度の統計的な信頼度が小さい語彙辞書では言語尤度を小さくして認識スコアにおける音響尤度の寄与度を相対的に大きくして認識精度を向上させることができる。
【００７０】
実施の形態５．
以下この発明の実施の形態５について説明する。この実施の形態５による音声認識装置の全体の構成は図１に示すものと基本的に同じであり、言語尤度作成手段１７の動作を変更するものある。言語尤度作成手段１７の動作は以下のとおりである。
【００７１】
言語尤度作成手段１７の入力端子AAを、出現頻度付き語彙辞書(第１県)D0₁の出力端子A1に接続する。また言語尤度作成手段１７の出力端子BBを言語尤度付き語彙辞書(第１県)D₁の入力端子B1に接続する。そして言語尤度作成手段１７は出現頻度付き語彙辞書(第１県)D0₁から出現頻度付き語彙情報１６として認識対象とする語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと、電話番号TEL₁,_iと、出現頻度C₁,_iを入力し、実施の形態２と同様に(８)式によって出現頻度付き語彙辞書(第１県)D0₁の全語彙の総出現頻度TC₁を求める。次に予め設定した閾値TTと比較して、TC₁ ≧ TT の場合には(１５)式によって各語彙W₁,_iに対する言語尤度SG₁,_iを求め、出力端子BBを通して言語尤度付き語彙辞書(第１県)D₁に出力する。(１５)式の右辺は実施の形態４で説明した(１４)式と同一のものである。一方、TC₁ ＜ TT の場合には全語彙の総出現頻度が小さいので、統計的に信頼性のある言語尤度を求められないものとみなし、実施の形態２と同様に(１０)式のとおり全ての語彙に対して言語尤度を０として、出力端子BBを通して言語尤度付き語彙辞書(第１県)D₁に出力する。
【００７２】
【数９】

【００７３】
認識対象とする語彙W₁,_i, (i=1〜N1)の音素系列P₁,_iと電話番号TEL₁,_iは、出現頻度付き語彙辞書D0₁から入力したものをそのまま出力端子BBを通して言語尤度付き語彙辞書D₁に蓄える。以上で言語尤度付き語彙辞書(第１県)D₁の作成を完了する。言語尤度作成手段１７の入力端子AAと出力端子BBの接続を順次切り替えて、前記と同様の方法で各出現頻度付き語彙辞書D0_k, (k=1〜K)の全てに対して対応する言語尤度付き語彙辞書D_k, (k=1〜K)を作成する。
【００７４】
本発明における音声認識装置は、以上の手順で作成した言語尤度付き語彙辞書８を用いて音声認識を行う。音声認識の動作は実施の形態１で説明した音声認識装置の認識動作と同一なので説明を省略する。
【００７５】
本発明における音声認識装置は言語尤度作成手段１７において出現頻度語彙辞書内の全語彙の総出現頻度が所定の閾値以上の語彙辞書では、出現頻度語彙辞書内の認識語彙数、あるいは全語彙の総出現頻度が大きいほど言語尤度が大きな値をとる。一方、出現頻度語彙辞書内の全語彙の総出現頻度が所定の閾値より小さい語彙辞書では当該語彙辞書中の各語彙の言語尤度を全て０としている。このように言語尤度を設定することにより認識語彙数が認識の難易度が高い語彙辞書を用いる場合や総出現頻度が大きく、総出現頻度の統計的な信頼度が大きい語彙辞書を用いる場合には認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、また出現頻度付き語彙辞書内の全語彙の総出現頻度が所定の閾値より小さい語彙辞書では当該語彙辞書中の各語彙の言語尤度を全て０として、音声認識の際に実質的に言語尤度を用いないようにしたので、統計的に信頼性の低い言語尤度を使用して認識性能に悪影響をおよぼすことを避けることができる。
【００７６】
【発明の効果】
以上のようにこの発明によれば、認識の各場面ごとに認識対象とする語彙を切り替えて音声認識を行う音声認識装置であって、前記各場面ごとに認識語彙とその出現頻度を保持する複数個の出現頻度付き語彙辞書と、各認識語彙の出現頻度から計算される出現確率の対数値に、前記出現頻度付き語彙辞書ごとに異なる重み係数を乗じて言語尤度を計算する言語尤度作成手段と、前記各場面ごとの認識語彙と前記言語尤度を保持する言語尤度付き語彙辞書と、前記各場面に関し、この言語尤度付き語彙辞書の言語尤度を含むデータと音素モデルとから作成された単語モデルと、入力音声信号の特徴ベクトルの時系列と、からパターンマッチングを行い語彙に対する音響尤度を求め、音響尤度と言語尤度の和を語彙に対する認識スコアとして該認識スコアの一番高い候補を認識結果として出力する照合手段と、を備えたことを特徴とする音声認識装置としたので、言語尤度に対してより適切な重み係数を与えて音声認識精度を改善した音声認識装置を提供できる。
【００７７】
また、前記言語尤度作成手段が、前記出現頻度付き語彙辞書内の語彙数が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成するようにしたので、語彙数が大きく認識の難易度が高い語彙辞書を用いる場合には、言語尤度の重みを大きくして認識精度を確保するようにし、逆に語彙数が小さく認識の難易度が低い語彙辞書を用いる場合には、低出現頻度の語彙が認識されにくくなるのを防ぐことができる。
【００７８】
また、前記言語尤度作成手段が、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を０として前記言語尤度付き語彙辞書を作成するようにしたので、上述の効果に加えて統計的に信頼性の低い言語尤度を使用して認識性能に悪影響をおよぼすことを避けることができる。
【００７９】
また、前記言語尤度作成手段が、前記出現頻度付き語彙辞書内の語彙の総出現頻度が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成するようにしたので、出現頻度付き語彙辞書内の全語彙の総出現頻度が大きいほど言語尤度は大きな値をとる。すなわち総出現頻度が大きく、出現頻度の統計的な信頼度が大きい語彙辞書では認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、逆に総出現頻度が小さく、出現頻度の統計的な信頼度が小さい語彙辞書では言語尤度を小さくして認識スコアにおける音響尤度の寄与度を相対的に大きくして認識精度を向上させることができる。
【００８０】
また、前記言語尤度作成手段が、前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成するようにしたので、認識語彙数が多く認識の難易度が高い語彙辞書を用いる場合や総出現頻度が大きく、総出現頻度の統計的な信頼度が大きい語彙辞書を用いる場合には認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、逆に語彙数が小さく認識の難易度が低い語彙辞書を用いる場合や総出現頻度が小さく、総出現頻度の統計的な信頼度が小さい語彙辞書では言語尤度を小さくして認識スコアにおける音響尤度の寄与度を相対的に大きくして認識精度を向上させることができる。
【００８１】
また、前記言語尤度作成手段が、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を０とするが、一方前記総出現頻度が所定の閾値以上の辞書では前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成するようにしたので、認識語彙数が認識の難易度が高い語彙辞書を用いる場合や総出現頻度が大きく、総出現頻度の統計的な信頼度が大きい語彙辞書を用いる場合には認識スコアにおける言語尤度の寄与度を大きくして認識精度を向上させることが可能であり、また出現頻度付き語彙辞書内の全語彙の総出現頻度が所定の閾値より小さい語彙辞書では当該語彙辞書中の各語彙の言語尤度を全て０として、音声認識の際に実質的に言語尤度を用いないようにしたので、統計的に信頼性の低い言語尤度を使用して認識性能に悪影響をおよぼすことを避けることができる。
【図面の簡単な説明】
【図１】図１は本発明の一実施の形態による音声認識装置の構成を示すブロック図である。
【図２】本発明による各出現頻度付き語彙辞書の出現頻度付き語彙情報の一例を示す図である。
【図３】本発明による各言語尤度付き語彙辞書の言語尤度付き語彙情報の一例を示す図である。
【図４】従来のこの種の音声認識装置の構成を示すブロック図である。
【符号の説明】
１音声信号の入力端、２入力音声信号、３分析手段、４入力音声信号の特徴ベクトルの時系列、５照合手段、６音響モデルメモリ、７県名語彙辞書、８言語尤度付き語彙辞書、９認識語彙情報、１４認識結果、１５出現頻度付き語彙辞書、１６出現頻度付き語彙情報、１７は言語尤度作成手段、１８言語尤度付き語彙情報。

Claims

認識の各場面ごとに認識対象とする語彙を切り替えて音声認識を行う音声認識装置であって、
前記各場面ごとに認識語彙とその出現頻度を保持する複数個の出現頻度付き語彙辞書と、
各認識語彙の出現頻度から計算される出現確率の対数値に、前記出現頻度付き語彙辞書ごとに異なる重み係数を乗じて言語尤度を計算する言語尤度作成手段と、
前記各場面ごとの認識語彙と前記言語尤度を保持する言語尤度付き語彙辞書と、
前記各場面に関し、この言語尤度付き語彙辞書の言語尤度を含むデータと音素モデルとから作成された単語モデルと、入力音声信号の特徴ベクトルの時系列と、からパターンマッチングを行い語彙に対する音響尤度を求め、音響尤度と言語尤度の和を語彙に対する認識スコアとして該認識スコアの一番高い候補を認識結果として出力する照合手段と、
を備えたことを特徴とする音声認識装置。
前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙数が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする請求項１に記載の音声認識装置。
前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を０として前記言語尤度付き語彙辞書を作成することを特徴とする請求項１に記載の音声認識装置。
前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が大きい辞書ほど前記重み係数を大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする請求項１に記載の音声認識装置。
前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする請求項１に記載の音声認識装置。
前記言語尤度作成手段は、前記出現頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の出現頻度付き語彙辞書では、前記重み係数を０とするが、一方前記総出現頻度が所定の閾値以上の辞書では前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値を参照し、前記重み係数を前記認識語彙数が大きい辞書ほど大きな値を設定し、また前記総出現頻度が大きい辞書ほど大きな値に設定して前記言語尤度付き語彙辞書を作成することを特徴とする請求項１に記載の音声認識装置。