JP2003150189A

JP2003150189A - 音声認識装置

Info

Publication number: JP2003150189A
Application number: JP2001348785A
Authority: JP
Inventors: Toshiyuki Hanazawa; 利行花沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2001-11-14
Filing date: 2001-11-14
Publication date: 2003-05-23
Anticipated expiration: 2021-11-14
Also published as: JP3868798B2

Abstract

(57)【要約】【課題】認識語彙の出現頻度情報を言語尤度として用
い、前記言語尤度に言語尤度重み係数を乗じて認識スコ
アに加える認識方式において、認識の場面ごとに語彙辞
書を用意して場面に応じて前記語彙辞書を切り替える場
合に、各場面の語彙辞書ごとに適切な言語尤度重み係数
を設定する音声認識装置を提供する。【解決手段】言語尤度作成手段１７によって、出現頻
度付き語彙辞書内の語彙数が大きい場合には言語尤度重
み係数を大きく設定し、語彙数が小さい場合は言語尤度
重み係数を小さく設定するようにした。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】この発明は音声認識の各場面
ごとに認識対象とする語彙辞書を切り替えて音声認識を
行う音声認識装置に関するものである。

【０００２】

【従来の技術】音声認識の精度を向上させる手段とし
て、認識対象語彙の言語尤度を用いる技術が従来から検
討されている。例えば単語の認識を行う場合、認識対象
とする語彙の出現確率を予め求めておき、前記出現確率
の対数値を言語尤度として用い、音響尤度と一定の重み
で荷重平均した値を認識スコアとする方法である。しか
し前記の一定の重みが常に最適値であるとは限らない。

【０００３】そこで、さらに認識精度を向上させる手段
として、音響尤度と言語尤度を荷重平均する際の重み係
数を、入力音声に応じて変更する技術が特開平８−２４
８９８１号公報で開示されている。図４はこの特開平８
−２４８９８１号公報で開示されている技術を用いた従
来の音声認識装置の一構成例である。同図において１は
音声信号の入力端、２は入力音声信号、３は音響分析を
行う分析手段、４は入力音声信号の特徴ベクトルの時系
列、５はパターン照合を行う照合手段、６は音響モデル
メモリ、７は県名語彙辞書、８は言語尤度付き語彙辞
書、９は認識語彙情報、１０は音響尤度、１１は重み係
数決定手段、１２は言語尤度重み係数、１３は統合手
段、１４は認識結果である。

【０００４】ここでは日本全国の企業名を認識し当該企
業の電話番号を案内するタスクで、先ず県名を認識し、
その県内の企業名を認識する場合を例として説明する。
最初から一度に日本全国の企業名を認識対象としない理
由は日本全国では企業数が膨大になり認識が非常に困難
だからである。

【０００５】県名語彙辞書７は県名を認識するための語
彙辞書であり、日本全国の県名を認識語彙として持つも
のとして構成する。すなわち県名語彙辞書内には日本全
国の県名WP_iの音素系列PP_i, (i=1〜K)が格納されてい
る。Kは県名語彙辞書７に含まれる語彙数である。音素
系列PP_iは例えばWP₁が北海道、WP₂が青森県とすると、
前記音素系列PP₁は/hoQkaidoo/、PP₂は/aomorikeN/であ
る。

【０００６】言語尤度付き語彙辞書８であるD_k, (k=1〜
K)は、各都道府県ごとに、県内に存在する企業の名称を
認識語彙として持つものとして構成する。例えばD₁は北
海道に存在する企業の名称を認識語彙とする辞書、D₂は
青森県に存在する企業の名称を認識語彙とする辞書であ
る。各言語尤度付き語彙辞書D_k内には認識語彙情報９と
して当該県内に存在する企業の名称である認識語彙
W_k,_i, (i=1〜N_k)の音素系列P_k,_iと、言語尤度SG_k,_iと電
話番号TEL_k,_iが格納されている。N_kは言語尤度付き語彙
辞書D_kに含まれる語彙数である。前記言語尤度SG_k,
_iは、一定期間以上の過去の電話番号問い合わせ記録か
ら各語彙(企業名)W_k,_iごとに語彙の出現確率を求めてお
き、前記出現確率を対数化したものとする。

【０００７】音響モデルメモリ６は日本語に含まれる全
ての音素に対する音響モデルを格納している。前記音響
モデルは例えば連続分布型のHMM(Hidden Markov Model)
とする。

【０００８】前述したように日本全国の企業名を認識し
当該企業の電話番号を案内するタスクで、先ず県名を認
識し、その県内の企業名を認識する場合を例として、本
認識装置の動作を説明する。音声認識装置の利用者は第
１県内にある○社の電話番号を問い合わせるものとす
る。

【０００９】認識を開始する前に照合手段５の入力端子
CCを県名語彙辞書７の出力であるPPに接続する。この接
続状態で以下のように県名の認識を行う。本例では県名
の認識では言語尤度を用いないこととする。

【００１０】利用者が音声信号の入力端１から県名を発
声すると入力音声信号２として分析手段３に入力され
る。分析手段３は音声信号２を例えばLPC(Linear Predi
ctiveCoding)法を用いて音響分析を行い、特徴ベクトル
の時系列４を出力する。この特徴ベクトルは例えばＬＰ
Ｃケプストラムである。

【００１１】照合手段５は、県名語彙辞書７に格納され
ている語彙WP_i,(i=1〜K)の音素系列PP_iを読み込み、音
響モデルメモリ６に格納されている音素モデルを連結し
て認識語彙WP_iの音素系列を表現する単語モデルを作成
し、特徴ベクトルの時系列４を入力として特徴ベクトル
の時系列４と例えばビタビアルゴリズムを用いてパター
ンマッチングを行い、語彙WP_iに対する音響尤度SA_iを求
める。この処理を語彙WP_i,(i=1〜K)の全てに対して順次
行うことによって、全ての語彙に対する音響尤度SA_i,(i
=1〜K)を求め、音響尤度の一番高い候補の県名を認識結
果とする。本例では認識結果は「第１県」で正認識であ
るとする。

【００１２】次に第１県内の企業名の認識を行う。認識
を開始する前に照合手段５の入力端子CCを言語尤度付き
語彙辞書(第１県)の出力端子C１に接続する。この接続
状態で以下のように企業名認識を行う。

【００１３】利用者が音声信号の入力端１から県名を発
声すると音声信号２として分析手段３に入力される。分
析手段３は音声信号２の音響分析を行い、特徴ベクトル
の時系列４を出力する。

【００１４】照合手段５は、言語尤度付き語彙辞書(第
１県)認識語彙辞書D1から認識語彙情報９である語彙W₁,
_i,(i=1〜N)の音素系列P₁,_iと、言語尤度SG₁,_iと電話番
号TEL₁,_iを読み込み、音響モデルメモリ６に格納されて
いる音素モデルを連結して認識語彙W₁,_iの音素系列P₁,_i
を表現する単語モデルを作成し、特徴ベクトルの時系列
４を入力として特徴ベクトルの時系列４と例えばビタビ
アルゴリズムを用いてパターンマッチングを行い、語彙
W₁,_iに対する音響尤度SA_iを求める。このパターンマッ
チング処理を語彙W_i,(i=1〜N₁)の全てに対して順次行う
ことによって、全ての語彙に対する音響尤度SA_i,(i=1〜
N₁)を求める。

【００１５】重み係数決定手段１１は、全ての語彙に対
する音響尤度１０であるSA_i,(i=1〜N₁)を入力とし、
(１)式に示すように音響尤度の一番高いものSA⁽¹⁾と二
番目に高いものSA⁽²⁾との差DAに基づいて、DAが大きけ
れば、音響尤度による認識の信頼性が高いものとみなし
音響尤度SAと言語尤度SGを統合する際の言語尤度重み係
数wを大きくし、逆にDAが小さければ音響尤度による認
識の信頼性が低いものとみなして前記言語尤度重み係数
wを小さくする。

【００１６】

【数１】

【００１７】次に統合手段１３は、前記重み係数wと、
語彙W₁,_i, (i=1〜N₁)に対する音響尤度SA_i, (i=1〜N₁)
と、言語尤度SG_i, (i=1〜N₁)を入力として(２)式によっ
て各語彙に対する統合尤度S_i, (i=1〜N₁)を求め、統合
尤度S_iの一番高い語彙を認識結果として出力する。

【００１８】

【数２】

【００１９】

【発明が解決しようとする課題】以上説明したように従
来の技術では、音響尤度の信頼性を判断する尺度として
音響尤度の第一位と第二位の差を用い、音響尤度SA_iの
信頼性が高いと判断される場合には音響尤度に対する重
みを大きくし、逆に音響尤度SA_iの信頼性が低いと判断
される場合には音響尤度に対する重みを小さくすること
により、認識精度の向上をはかっていた。しかし音響尤
度の第一位と第二位の差は音響尤度の信頼性を判断する
尺度として必ずしも正確ではない。また他の尺度を用い
た場合でも音響尤度の信頼性を正確に求めることは困難
であり、結果として言語尤度に対する前記重み係数wは
常に適切な値として求められるとは限らないという問題
点があった。

【００２０】この発明は上記課題を解決するためになさ
れたもので、言語尤度に対してより適切な重み係数を与
えて音声認識精度を改善する音声認識装置を提供するこ
とを目的とする。

【００２１】

【課題を解決するための手段】上記の目的に鑑み、この
発明は、認識の各場面ごとに認識対象とする語彙を切り
替えて音声認識を行う音声認識装置であって、前記各場
面ごとに認識語彙とその出現頻度を保持する複数個の出
現頻度付き語彙辞書と、各認識語彙の出現頻度から計算
される出現確率の対数値に、前記出現頻度付き語彙辞書
ごとに異なる重み係数を乗じて言語尤度を計算する言語
尤度作成手段と、前記各場面ごとの認識語彙と前記言語
尤度を保持する言語尤度付き語彙辞書と、前記各場面に
関し、この言語尤度付き語彙辞書の言語尤度を含むデー
タと音素モデルとから作成された単語モデルと、入力音
声信号の特徴ベクトルの時系列と、からパターンマッチ
ングを行い語彙に対する音響尤度を求め、音響尤度と言
語尤度の和を語彙に対する認識スコアとして該認識スコ
アの一番高い候補を認識結果として出力する照合手段
と、を備えたことを特徴とする音声認識装置にある。

【００２２】また、前記言語尤度作成手段は、前記出現
頻度付き語彙辞書内の語彙数が大きい辞書ほど前記重み
係数を大きな値に設定して前記言語尤度付き語彙辞書を
作成することを特徴とする。

【００２３】また、前記言語尤度作成手段は、前記出現
頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未
満の出現頻度付き語彙辞書では、前記重み係数を０とし
て前記言語尤度付き語彙辞書を作成することを特徴とす
る。

【００２４】また、前記言語尤度作成手段は、前記出現
頻度付き語彙辞書内の語彙の総出現頻度が大きい辞書ほ
ど前記重み係数を大きな値に設定して前記言語尤度付き
語彙辞書を作成することを特徴とする。

【００２５】また、前記言語尤度作成手段は、前記出現
頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者
の値を参照し、前記重み係数を前記認識語彙数が大きい
辞書ほど大きな値を設定し、また前記総出現頻度が大き
い辞書ほど大きな値に設定して前記言語尤度付き語彙辞
書を作成することを特徴とする。

【００２６】また、前記言語尤度作成手段は、前記出現
頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未
満の出現頻度付き語彙辞書では、前記重み係数を０とす
るが、一方前記総出現頻度が所定の閾値以上の辞書では
前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻
度の両者の値を参照し、前記重み係数を前記認識語彙数
が大きい辞書ほど大きな値を設定し、また前記総出現頻
度が大きい辞書ほど大きな値に設定して前記言語尤度付
き語彙辞書を作成することを特徴とする。

【００２７】

【発明の実施の形態】実施の形態１．図１は本発明の一
実施の形態による音声認識装置の構成を示すブロック図
である。同図において１は音声信号の入力端、２は入力
音声信号、３は音響分析を行う分析手段、４は入力音声
信号の特徴ベクトルの時系列、５はパターン照合を行う
照合手段、６は音響モデルメモリ、７は県名語彙辞書、
８は言語尤度付き語彙辞書、９は認識語彙情報、１４は
認識結果であり、これらは基本的に従来のものと同一符
号のものに相当する。１５は出現頻度付き語彙辞書、１
６は出現頻度付き語彙情報、１７は言語尤度作成手段、
１８は言語尤度付き語彙情報である。

【００２８】ここでは従来技術と同様に日本全国の企業
名を認識し当該企業の電話番号を案内するタスクで、先
ず県名を認識し、その県内の企業名を認識する場合を例
として説明する。

【００２９】県名語彙辞書７は従来技術と全く同じもの
であり県名を認識するための語彙辞書である。

【００３０】出現頻度付き語彙辞書１５であるD0_k, (k=
1〜K)は、各都道府県ごとに、県内に存在する企業の名
称を認識語彙として持つものとして構成する。例えばD0
₁は北海道に存在する企業の名称を認識語彙とする辞
書、D0₂は青森県に存在する企業の名称を認識語彙とす
る辞書である。

【００３１】各出現頻度付き語彙辞書１５であるD0_k,
(k=1〜K)には出現頻度付き語彙情報１６として図２に示
すように、当該県内に存在する企業の名称である認識語
彙W_k,_i, (i=1〜N_k)の音素系列P_k,_iと、出現頻度C_k,_iと
電話番号TEL_k,_iが格納されている。N_kは出現頻度付き語
彙辞書D0_kに含まれる語彙数である。前記出現頻度C_k, _i
は一定期間以上の過去の電話番号問い合わせ記録から各
語彙(企業名)W_k,_iごとに問い合わせ回数を求めておいた
ものとする。

【００３２】次に本発明の音声認識装置の動作について
説明する。本発明の音声認識装置では認識を行う前に、
言語尤度作成手段１７によって言語尤度付き語彙辞書８
であるD_k, (k=1〜K)を作成しておく。この言語尤度付き
語彙辞書８の作成方法を説明する。

【００３３】言語尤度作成手段１７の入力端子AAを、出
現頻度付き語彙辞書(第１県)の出力端子A1に接続する。
また言語尤度作成手段１７の出力端子BBを言語尤度付き
語彙辞書(第１県)の入力端子B1に接続する。そして言語
尤度作成手段１７は出現頻度付き語彙辞書(第１県)D0₁
から出現頻度付き語彙情報１６として認識対象とする語
彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと、電話番号TEL₁,_i
と、出現頻度C₁,_iを入力し、(３)、(４)式によって各語
彙W₁,_iに対する言語尤度SG₁,_iを求め、出力端子BBを通
して言語尤度付き語彙辞書(第１県)に出力する。(３)式
中でg1は認識語彙数N₁が大きい程、大きな値をとるもの
とする。例えば(５)式にしたがって値を求める。式中で
a, bは経験的に決定した０以上の定数である。

【００３４】

【数３】

【００３５】認識対象とする語彙W₁,_i, (i=1〜N₁)の音
素系列P₁,_iと電話番号TEL_k,_iは、出現頻度付き語彙辞書
D0₁から入力したものをそのまま出力端子BBを通して言
語尤度付き語彙辞書D₁に蓄える。したがって言語尤度付
き語彙辞書D₁は図３に示すように言語尤度付き語彙情報
１８として、語彙W₁,_i, (i=1〜N₁)に対する音素系列
P₁,_iと、言語尤度SG₁,_iと、電話番号TEL₁,_iを蓄えるこ
とになる。以上で言語尤度付き語彙辞書(第１県)D₁の作
成を完了する。

【００３６】言語尤度作成手段１７の入力端子AAと出力
端子BBの接続を順次切り替えて、前記と同様の方法で各
出現頻度付き語彙辞書D0_k, (k=1〜K)の全てに対して対
応する言語尤度付き語彙辞書D_k, (k=1〜K)を作成する。

【００３７】次に認識動作について説明する。前述した
ように日本全国の企業名を認識し当該企業の電話番号を
案内するタスクで、先ず県名を認識し、その県内の企業
名を認識する場合を例として説明する。音声認識装置の
利用者は第１県内にある社の電話番号を問い合わせるも
のとする。認識を開始する前に照合手段５の入力端子CC
を県名語彙辞書の出力であるPPに接続する。この接続状
態で以下のように県名の認識を行う。

【００３８】利用者が音声信号の入力端１から県名を発
声すると入力音声信号２として分析手段３に入力され
る。分析手段３は音声信号２を例えば従来技術と同様に
LPC法を用いて音響分析を行い、特徴ベクトルの時系列
４を出力する。この特徴ベクトルは例えばＬＰＣケプス
トラムである。

【００３９】照合手段５は、県名語彙辞書７に格納され
ている語彙WP_i, (i=1〜K)の音素系列PP_iを読み込み、音
響モデルメモリ６に格納されている音素モデルを連結し
て認識語彙WP_iの音素系列を表現する単語モデルを作成
し、特徴ベクトルの時系列４を入力として特徴ベクトル
の時系列４と例えばビタビアルゴリズムを用いてパター
ンマッチングを行い、語彙WP_iに対する音響尤度SA_iを求
める。この処理を語彙WP_i, (i=1〜K)の全てに対して順
次行うことによって、全ての語彙に対する音響尤度SAi,
(i=1〜K)を求め、音響尤度の一番高い候補の県名を認
識結果とする。本例では認識結果は「第１県」で正認識
であるとする。

【００４０】次に第１県内の企業名の認識を行う。認識
を開始する前に照合手段５の入力端子CCを言語尤度付き
語彙辞書(第１県)の出力端子C１に接続する。この接続
状態で以下のように企業名認識を行う。

【００４１】利用者が音声信号の入力端１から企業名を
発声すると入力音声信号２として分析手段３に入力され
る。分析手段３は音声信号２を前記と同様にLPC法を用
いて音響分析を行い、特徴ベクトルの時系列４を出力す
る。

【００４２】照合手段５は、言語尤度付き語彙辞書(第
１県)であるD₁に格納されている語彙W₁,_i, (i=1〜N)の
音素系列P₁,_iと、言語尤度SG₁,_iと電話番号TEL₁,_iを読
み込み、音響モデルメモリ６に格納されている音素モデ
ルを連結して認識語彙W₁,_iの音素系列P₁,_iを表現する単
語モデルを作成し、特徴ベクトルの時系列４と例えばビ
タビアルゴリズムを用いてパターンマッチングを行い、
語彙W₁,_iに対する音響尤度SA_iを求める。そして(６)式
のとおり言語尤度SG₁,_iとの和をとることによって語彙W
₁,_iに対する認識スコアS₁,_iを求める。この処理を語彙W
₁,_i, (i=1〜N₁)の全てに対して順次行うことによって、
全ての語彙に対する認識スコアS₁,_i, (i=1〜N₁)を求
め、認識スコアの一番高い候補の電話番号を認識結果１
４として出力する。

【００４３】

【数４】

【００４４】一方、音声認識装置の利用者は第２県内に
ある□社の電話番号を問い合わせる場合は以下のように
動作する。認識を開始する前に照合手段５の入力端子CC
を県名語彙辞書の出力であるPPに接続する。この接続状
態で以下のように県名の認識を行う。

【００４５】利用者が音声信号の入力端１から県名を発
声すると音声信号２として分析手段３に入力される。分
析手段３は音声信号２の音響分析を行い、特徴ベクトル
の時系列４を出力する。この特徴ベクトルは例えばＬＰ
Ｃケプストラムである。

【００４６】照合手段５は、県名語彙辞書７に格納され
ている語彙WP_i,(i=1〜K)の音素系列PP_iを読み込み、音
響モデルメモリ６に格納されている音素モデルを連結し
て認識語彙WP_iの音素系列を表現する単語モデルを作成
し、特徴ベクトルの時系列４と例えばビタビアルゴリズ
ムを用いてパターンマッチングを行い、語彙WP_iに対す
る音響尤度SA_iを求める。この処理を語彙WP_i, (i=1〜K)
の全てに対して順次行うことによって、全ての語彙に対
する認識スコアSA_i,(i=1〜K)を求め、認識スコアの一番
高い候補の県名を認識結果とする。本例では認識結果は
「第２県」で正認識であるとする。

【００４７】次に第２県内の企業名の認識を行う。認識
を開始する前に照合手段５の入力端子CCを言語尤度付き
語彙辞書(第２県)の出力端子C２に接続する。この接続
状態で以下のように企業名認識を行う。

【００４８】利用者が音声信号の入力端１から企業名を
発声すると音声信号２として分析手段３に入力される。
分析手段３は音声信号２を前記と同様にLPC法を用いて
音響分析を行い、特徴ベクトルの時系列４を出力する。

【００４９】照合手段５は、言語尤度付き語彙辞書(第
２県)であるD₂に格納されている語彙W₂,_i, (i=1〜N₂)の
音素系列P₂,_iと、言語尤度SG₂,_iと電話番号TEL₂,_iを読
み込み、音響モデルメモリ６に格納されている音素モデ
ルを連結して認識語彙W₂,_iの音素系列P₂,_iを表現する単
語モデルを作成し、特徴ベクトルの時系列４と例えばビ
タビアルゴリズムを用いてパターンマッチングを行い、
語彙W₂,_iに対する音響尤度SA_iを求める。そして(７)式
のとおり言語尤度SG₂,_iとの和をとることによって語彙W
₂,_iに対する認識スコアS₂,_iを求める。この処理を語彙W
₂,_i, (i=1〜N₂)の全てに対して順次行うことによって、
全ての語彙に対する認識スコアS_i, (i=1〜N₂)を求め、
認識スコアの一番高い候補の電話番号を認識結果として
出力する。

【００５０】

【数５】

【００５１】以上、(６)、(７)式に示したとおり認識ス
コアSを求める際に言語尤度SGを音響尤度SAに加算して
用いるが、前記言語尤度は(３)、(５)式に示したように
認識語彙数が大きい程、大きな値をとるようになってい
る。本例において第１県内の企業名の認識語彙数がN₁,
第２県内の企業名の認識語彙数がN₂で、N₁ ＞ N₂とする
と、第１県内の企業名の言語尤度のほうが第２県内の企
業名の言語尤度よりも大きな値となり、認識スコアにお
ける言語尤度の寄与度が大きくなる。このように言語尤
度を設定することによって第１県のように語彙数が大き
く認識の難易度が高い語彙辞書を用いる場合には、言語
尤度の重みを大きくして認識精度を確保するようにし、
逆に第２県のように語彙数が小さく認識の難易度が低い
語彙辞書を用いる場合には、低出現頻度の語彙が認識さ
れにくくなるのを防ぐことができる。

【００５２】実施の形態２．以下この発明の実施の形態
２について説明する。この実施の形態２による音声認識
装置の全体の構成は図１に示すものと基本的に同じであ
り、言語尤度作成手段１７の動作を変更するものある。
言語尤度作成手段１７の動作は以下のとおりである。

【００５３】言語尤度作成手段１７の入力端子AAを、出
現頻度付き語彙辞書(第１県)D0₁の出力端子A1に接続す
る。また言語尤度作成手段１７の出力端子BBを言語尤度
付き語彙辞書(第１県)D₁の入力端子B1に接続する。そし
て言語尤度作成手段１７は出現頻度付き語彙辞書(第１
県)D0₁から出現頻度付き語彙情報１６として認識対象と
する語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと、電話番号T
EL₁,_iと、出現頻度C₁, _iを入力し、まず(８)式によって
出現頻度付き語彙辞書(第１県)D0₁の全語彙の総出現頻
度TC₁を求める。次に予め設定した閾値TTと比較して、T
C₁ ≧ TT の場合には実施の形態１と同様に(９)式によ
って各語彙W₁,_iに対する言語尤度SG₁,_iを求め、出力端
子BBを通して言語尤度付き語彙辞書(第１県)D₁に出力す
る。(９)式の右辺は実施の形態１で説明した(３)式と同
一のものである。一方、TC₁ ＜ TTの場合には全語彙の
総出現頻度が小さいので、統計的に信頼性のある言語尤
度を求められないものとみなし、(１０)式のように全て
の語彙に対して言語尤度を０として、出力端子BBを通し
て言語尤度付き語彙辞書(第１県)D₁に出力する。

【００５４】

【数６】

【００５５】認識対象とする語彙W₁,_i, (i=1〜N₁)の音
素系列P₁,_iと電話番号TEL₁,_iは、出現頻度付き語彙辞書
D0₁から入力したものをそのまま出力端子BBを通して言
語尤度付き語彙辞書D₁に蓄える。以上で言語尤度付き語
彙辞書(第１県)D₁の作成を完了する。言語尤度作成手段
１７の入力端子AAと出力端子BBの接続を順次切り替え
て、前記と同様の方法で各出現頻度付き語彙辞書D0_k,
(k=1〜K)の全てに対して対応する言語尤度付き語彙辞書
D_k, (k=1〜K)を作成する。

【００５６】本発明における音声認識装置は、以上の手
順で作成した言語尤度付き語彙辞書８を用いて音声認識
を行う。音声認識の動作は実施の形態１で説明した音声
認識装置の認識動作と同一なので説明を省略する。

【００５７】本発明における音声認識装置は言語尤度作
成手段１７において出現頻度付き語彙辞書内の全語彙の
総出現頻度が所定の閾値より小さい語彙辞書では当該語
彙辞書中の各語彙の言語尤度を全て０として、音声認識
の際に実質的に言語尤度を用いないようにしたので、実
施の形態１の音声認識装置が有する「語彙数が大きく認
識の難易度が高い語彙辞書を用いる場合には、言語尤度
の重みを大きくして認識精度を確保するようにし、逆に
語彙数が小さく認識の難易度が低い語彙辞書を用いる場
合には低出現頻度の語彙が認識されにくくなるのを防ぐ
ことができる」という効果に加え、統計的に信頼性の低
い言語尤度を使用して認識性能に悪影響をおよぼすこと
を避けることができる。

【００５８】実施の形態３．以下この発明の実施の形態
３について説明する。この実施の形態３による音声認識
装置の全体の構成は図１に示すものと基本的に同じであ
り、言語尤度作成手段１７の動作を変更するものある。
言語尤度作成手段１７の動作は以下のとおりである。

【００５９】言語尤度作成手段１７の入力端子AAを、出
現頻度付き語彙辞書(第１県)D0₁の出力端子A1に接続す
る。また言語尤度作成手段１７の出力端子BBを言語尤度
付き語彙辞書(第１県)D₁の入力端子B1に接続する。そし
て言語尤度作成手段１７は出現頻度付き語彙辞書(第１
県)D0₁から出現頻度付き語彙情報１６として認識対象と
する語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと、電話番号T
EL₁,_iと、出現頻度C₁, _iを入力し、実施の形態２と同様
に(８)式によって出現頻度付き語彙辞書(第１県)D0₁の
全語彙の総出現頻度TC₁を求め、総出現頻度TC₁が大きい
ほど、言語尤度の重み係数が大きな値をとるように決め
る。前記言語尤度の重み係数をg2とすると、例えば(１
１)式にしたがって言語尤度の重み係数g2を求める。(１
１)式中でa2, b2は経験的に決定した０以上の定数であ
る。そして(１２)式によって各語彙W₁,_iに対する言語尤
度SG₁,_iを求め、出力端子BBを通して言語尤度付き語彙
辞書(第１県)D₁に出力する。

【００６０】

【数７】

【００６１】認識対象とする語彙W₁,_i, (i=1〜N₁)の音
素系列P₁,_iと電話番号TEL₁,_iは、出現頻度付き語彙辞書
D0₁から入力したものをそのまま出力端子BBを通して言
語尤度付き語彙辞書D₁に蓄える。以上で言語尤度付き語
彙辞書(第１県)D₁の作成を完了する。言語尤度作成手段
１７の入力端子AAと出力端子BBの接続を順次切り替え
て、前記と同様の方法で各出現頻度付き語彙辞書D0_k,
(k=1〜K)の全てに対して対応する言語尤度付き語彙辞書
D_k, (k=1〜K)を作成する。

【００６２】本発明における音声認識装置は、以上の手
順で作成した言語尤度付き語彙辞書８を用いて音声認識
を行う。音声認識の動作は実施の形態１で説明した音声
認識装置の認識動作と同一なので説明を省略する。

【００６３】本発明における音声認識装置は言語尤度作
成手段１７において出現頻度付き語彙辞書内の全語彙の
総出現頻度が大きいほど言語尤度は大きな値をとる。す
なわち総出現頻度が大きく、出現頻度の統計的な信頼度
が大きい語彙辞書では認識スコアにおける言語尤度の寄
与度を大きくして認識精度を向上させることが可能であ
り、逆に総出現頻度が小さく、出現頻度の統計的な信頼
度が小さい語彙辞書では言語尤度を小さくして認識スコ
アにおける音響尤度の寄与度を相対的に大きくして認識
精度を向上させることができる。

【００６４】実施の形態４．以下この発明の実施の形態
４について説明する。この実施の形態４による音声認識
装置の全体の構成は図１に示すものと基本的に同じであ
り、言語尤度作成手段１７の動作を変更するものある。
言語尤度作成手段１７の動作は以下のとおりである。

【００６５】言語尤度作成手段１７の入力端子AAを、出
現頻度付き語彙辞書(第１県)D0₁の出力端子A1に接続す
る。また言語尤度作成手段１７の出力端子BBを言語尤度
付き語彙辞書(第１県)D₁の入力端子B1に接続する。そし
て言語尤度作成手段１７は出現頻度付き語彙辞書(第１
県)D0₁から出現頻度付き語彙情報１６として認識対象と
する語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと、電話番号T
EL₁,_iと、出現頻度C₁, _iを入力し、実施の形態２と同様
に(８)式によって出現頻度付き語彙辞書(第１県)D0₁の
全語彙の総出現頻度TC₁を求め、言語尤度の重み係数を
認識語彙数N₁と総出現頻度TC₁の両者に依存する変数と
して、認識語彙数N₁が大きいほど大きな値をとり、また
総出現頻度TC₁が大きいほど大きな値をとるように決め
る。前記言語尤度の重み係数をg3とすると、例えば(１
３)式にしたがってg3の値を求める。(１３)式中でa3,a
4,b4は経験的に決定した０以上の定数である。そして
(１４)式によって各語彙W₁,_iに対する言語尤度SG₁,iを
求め、出力端子BBを通して言語尤度付き語彙辞書(第１
県)D₁に出力する。

【００６６】

【数８】

【００６７】認識対象とする語彙W₁,_i, (i=1〜N₁)の音
素系列P₁,_iと電話番号TEL₁,_iは、出現頻度付き語彙辞書
D0₁から入力したものをそのまま出力端子BBを通して言
語尤度付き語彙辞書D₁に蓄える。以上で言語尤度付き語
彙辞書(第１県)D₁の作成を完了する。言語尤度作成手段
１７の入力端子AAと出力端子BBの接続を順次切り替え
て、前記と同様の方法で各出現頻度付き語彙辞書D0_k,
(k=1〜K)の全てに対して対応する言語尤度付き語彙辞書
D_k, (k=1〜K)を作成する。

【００６８】本発明における音声認識装置は、以上の手
順で作成した言語尤度付き語彙辞書８を用いて音声認識
を行う。音声認識の動作は実施の形態１で説明した音声
認識装置の認識動作と同一なので説明を省略する。

【００６９】本発明における音声認識装置は言語尤度作
成手段１７において出現頻度語彙辞書内の認識語彙数、
あるいは全語彙の総出現頻度が大きいほど言語尤度が大
きな値をとる。すなわち認識語彙数が多く認識の難易度
が高い語彙辞書を用いる場合や総出現頻度が大きく、総
出現頻度の統計的な信頼度が大きい語彙辞書を用いる場
合には認識スコアにおける言語尤度の寄与度を大きくし
て認識精度を向上させることが可能であり、逆に語彙数
が小さく認識の難易度が低い語彙辞書を用いる場合や総
出現頻度が小さく、総出現頻度の統計的な信頼度が小さ
い語彙辞書では言語尤度を小さくして認識スコアにおけ
る音響尤度の寄与度を相対的に大きくして認識精度を向
上させることができる。

【００７０】実施の形態５．以下この発明の実施の形態
５について説明する。この実施の形態５による音声認識
装置の全体の構成は図１に示すものと基本的に同じであ
り、言語尤度作成手段１７の動作を変更するものある。
言語尤度作成手段１７の動作は以下のとおりである。

【００７１】言語尤度作成手段１７の入力端子AAを、出
現頻度付き語彙辞書(第１県)D0₁の出力端子A1に接続す
る。また言語尤度作成手段１７の出力端子BBを言語尤度
付き語彙辞書(第１県)D₁の入力端子B1に接続する。そし
て言語尤度作成手段１７は出現頻度付き語彙辞書(第１
県)D0₁から出現頻度付き語彙情報１６として認識対象と
する語彙W₁,_i, (i=1〜N₁)の音素系列P₁,_iと、電話番号T
EL₁,_iと、出現頻度C₁, _iを入力し、実施の形態２と同様
に(８)式によって出現頻度付き語彙辞書(第１県)D0₁の
全語彙の総出現頻度TC₁を求める。次に予め設定した閾
値TTと比較して、TC₁ ≧ TT の場合には(１５)式によっ
て各語彙W₁,_iに対する言語尤度SG₁,_iを求め、出力端子B
Bを通して言語尤度付き語彙辞書(第１県)D₁に出力す
る。(１５)式の右辺は実施の形態４で説明した(１４)式
と同一のものである。一方、TC₁ ＜ TTの場合には全語
彙の総出現頻度が小さいので、統計的に信頼性のある言
語尤度を求められないものとみなし、実施の形態２と同
様に(１０)式のとおり全ての語彙に対して言語尤度を０
として、出力端子BBを通して言語尤度付き語彙辞書(第
１県)D₁に出力する。

【００７２】

【数９】

【００７３】認識対象とする語彙W₁,_i, (i=1〜N1)の音
素系列P₁,_iと電話番号TEL₁,_iは、出現頻度付き語彙辞書
D0₁から入力したものをそのまま出力端子BBを通して言
語尤度付き語彙辞書D₁に蓄える。以上で言語尤度付き語
彙辞書(第１県)D₁の作成を完了する。言語尤度作成手段
１７の入力端子AAと出力端子BBの接続を順次切り替え
て、前記と同様の方法で各出現頻度付き語彙辞書D0_k,
(k=1〜K)の全てに対して対応する言語尤度付き語彙辞書
D_k, (k=1〜K)を作成する。

【００７４】本発明における音声認識装置は、以上の手
順で作成した言語尤度付き語彙辞書８を用いて音声認識
を行う。音声認識の動作は実施の形態１で説明した音声
認識装置の認識動作と同一なので説明を省略する。

【００７５】本発明における音声認識装置は言語尤度作
成手段１７において出現頻度語彙辞書内の全語彙の総出
現頻度が所定の閾値以上の語彙辞書では、出現頻度語彙
辞書内の認識語彙数、あるいは全語彙の総出現頻度が大
きいほど言語尤度が大きな値をとる。一方、出現頻度語
彙辞書内の全語彙の総出現頻度が所定の閾値より小さい
語彙辞書では当該語彙辞書中の各語彙の言語尤度を全て
０としている。このように言語尤度を設定することによ
り認識語彙数が認識の難易度が高い語彙辞書を用いる場
合や総出現頻度が大きく、総出現頻度の統計的な信頼度
が大きい語彙辞書を用いる場合には認識スコアにおける
言語尤度の寄与度を大きくして認識精度を向上させるこ
とが可能であり、また出現頻度付き語彙辞書内の全語彙
の総出現頻度が所定の閾値より小さい語彙辞書では当該
語彙辞書中の各語彙の言語尤度を全て０として、音声認
識の際に実質的に言語尤度を用いないようにしたので、
統計的に信頼性の低い言語尤度を使用して認識性能に悪
影響をおよぼすことを避けることができる。

【００７６】

【発明の効果】以上のようにこの発明によれば、認識の
各場面ごとに認識対象とする語彙を切り替えて音声認識
を行う音声認識装置であって、前記各場面ごとに認識語
彙とその出現頻度を保持する複数個の出現頻度付き語彙
辞書と、各認識語彙の出現頻度から計算される出現確率
の対数値に、前記出現頻度付き語彙辞書ごとに異なる重
み係数を乗じて言語尤度を計算する言語尤度作成手段
と、前記各場面ごとの認識語彙と前記言語尤度を保持す
る言語尤度付き語彙辞書と、前記各場面に関し、この言
語尤度付き語彙辞書の言語尤度を含むデータと音素モデ
ルとから作成された単語モデルと、入力音声信号の特徴
ベクトルの時系列と、からパターンマッチングを行い語
彙に対する音響尤度を求め、音響尤度と言語尤度の和を
語彙に対する認識スコアとして該認識スコアの一番高い
候補を認識結果として出力する照合手段と、を備えたこ
とを特徴とする音声認識装置としたので、言語尤度に対
してより適切な重み係数を与えて音声認識精度を改善し
た音声認識装置を提供できる。

【００７７】また、前記言語尤度作成手段が、前記出現
頻度付き語彙辞書内の語彙数が大きい辞書ほど前記重み
係数を大きな値に設定して前記言語尤度付き語彙辞書を
作成するようにしたので、語彙数が大きく認識の難易度
が高い語彙辞書を用いる場合には、言語尤度の重みを大
きくして認識精度を確保するようにし、逆に語彙数が小
さく認識の難易度が低い語彙辞書を用いる場合には、低
出現頻度の語彙が認識されにくくなるのを防ぐことがで
きる。

【００７８】また、前記言語尤度作成手段が、前記出現
頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未
満の出現頻度付き語彙辞書では、前記重み係数を０とし
て前記言語尤度付き語彙辞書を作成するようにしたの
で、上述の効果に加えて統計的に信頼性の低い言語尤度
を使用して認識性能に悪影響をおよぼすことを避けるこ
とができる。

【００７９】また、前記言語尤度作成手段が、前記出現
頻度付き語彙辞書内の語彙の総出現頻度が大きい辞書ほ
ど前記重み係数を大きな値に設定して前記言語尤度付き
語彙辞書を作成するようにしたので、出現頻度付き語彙
辞書内の全語彙の総出現頻度が大きいほど言語尤度は大
きな値をとる。すなわち総出現頻度が大きく、出現頻度
の統計的な信頼度が大きい語彙辞書では認識スコアにお
ける言語尤度の寄与度を大きくして認識精度を向上させ
ることが可能であり、逆に総出現頻度が小さく、出現頻
度の統計的な信頼度が小さい語彙辞書では言語尤度を小
さくして認識スコアにおける音響尤度の寄与度を相対的
に大きくして認識精度を向上させることができる。

【００８０】また、前記言語尤度作成手段が、前記出現
頻度付き語彙辞書内の語彙数と語彙の総出現頻度の両者
の値を参照し、前記重み係数を前記認識語彙数が大きい
辞書ほど大きな値を設定し、また前記総出現頻度が大き
い辞書ほど大きな値に設定して前記言語尤度付き語彙辞
書を作成するようにしたので、認識語彙数が多く認識の
難易度が高い語彙辞書を用いる場合や総出現頻度が大き
く、総出現頻度の統計的な信頼度が大きい語彙辞書を用
いる場合には認識スコアにおける言語尤度の寄与度を大
きくして認識精度を向上させることが可能であり、逆に
語彙数が小さく認識の難易度が低い語彙辞書を用いる場
合や総出現頻度が小さく、総出現頻度の統計的な信頼度
が小さい語彙辞書では言語尤度を小さくして認識スコア
における音響尤度の寄与度を相対的に大きくして認識精
度を向上させることができる。

【００８１】また、前記言語尤度作成手段が、前記出現
頻度付き語彙辞書内の語彙の総出現頻度が所定の閾値未
満の出現頻度付き語彙辞書では、前記重み係数を０とす
るが、一方前記総出現頻度が所定の閾値以上の辞書では
前記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻
度の両者の値を参照し、前記重み係数を前記認識語彙数
が大きい辞書ほど大きな値を設定し、また前記総出現頻
度が大きい辞書ほど大きな値に設定して前記言語尤度付
き語彙辞書を作成するようにしたので、認識語彙数が認
識の難易度が高い語彙辞書を用いる場合や総出現頻度が
大きく、総出現頻度の統計的な信頼度が大きい語彙辞書
を用いる場合には認識スコアにおける言語尤度の寄与度
を大きくして認識精度を向上させることが可能であり、
また出現頻度付き語彙辞書内の全語彙の総出現頻度が所
定の閾値より小さい語彙辞書では当該語彙辞書中の各語
彙の言語尤度を全て０として、音声認識の際に実質的に
言語尤度を用いないようにしたので、統計的に信頼性の
低い言語尤度を使用して認識性能に悪影響をおよぼすこ
とを避けることができる。

【図面の簡単な説明】

【図１】図１は本発明の一実施の形態による音声認識
装置の構成を示すブロック図である。

【図２】本発明による各出現頻度付き語彙辞書の出現
頻度付き語彙情報の一例を示す図である。

【図３】本発明による各言語尤度付き語彙辞書の言語
尤度付き語彙情報の一例を示す図である。

【図４】従来のこの種の音声認識装置の構成を示すブ
ロック図である。

【符号の説明】

１音声信号の入力端、２入力音声信号、３分析手
段、４入力音声信号の特徴ベクトルの時系列、５照
合手段、６音響モデルメモリ、７県名語彙辞書、８
言語尤度付き語彙辞書、９認識語彙情報、１４認
識結果、１５出現頻度付き語彙辞書、１６出現頻度付
き語彙情報、１７は言語尤度作成手段、１８言語尤度
付き語彙情報。

Claims

【特許請求の範囲】

【請求項１】認識の各場面ごとに認識対象とする語彙
を切り替えて音声認識を行う音声認識装置であって、前記各場面ごとに認識語彙とその出現頻度を保持する複
数個の出現頻度付き語彙辞書と、各認識語彙の出現頻度から計算される出現確率の対数値
に、前記出現頻度付き語彙辞書ごとに異なる重み係数を
乗じて言語尤度を計算する言語尤度作成手段と、前記各場面ごとの認識語彙と前記言語尤度を保持する言
語尤度付き語彙辞書と、前記各場面に関し、この言語尤度付き語彙辞書の言語尤
度を含むデータと音素モデルとから作成された単語モデ
ルと、入力音声信号の特徴ベクトルの時系列と、からパ
ターンマッチングを行い語彙に対する音響尤度を求め、
音響尤度と言語尤度の和を語彙に対する認識スコアとし
て該認識スコアの一番高い候補を認識結果として出力す
る照合手段と、を備えたことを特徴とする音声認識装置。
【請求項２】前記言語尤度作成手段は、前記出現頻度
付き語彙辞書内の語彙数が大きい辞書ほど前記重み係数
を大きな値に設定して前記言語尤度付き語彙辞書を作成
することを特徴とする請求項１に記載の音声認識装置。
【請求項３】前記言語尤度作成手段は、前記出現頻度
付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の
出現頻度付き語彙辞書では、前記重み係数を０として前
記言語尤度付き語彙辞書を作成することを特徴とする請
求項１に記載の音声認識装置。
【請求項４】前記言語尤度作成手段は、前記出現頻度
付き語彙辞書内の語彙の総出現頻度が大きい辞書ほど前
記重み係数を大きな値に設定して前記言語尤度付き語彙
辞書を作成することを特徴とする請求項１に記載の音声
認識装置。
【請求項５】前記言語尤度作成手段は、前記出現頻度
付き語彙辞書内の語彙数と語彙の総出現頻度の両者の値
を参照し、前記重み係数を前記認識語彙数が大きい辞書
ほど大きな値を設定し、また前記総出現頻度が大きい辞
書ほど大きな値に設定して前記言語尤度付き語彙辞書を
作成することを特徴とする請求項１に記載の音声認識装
置。
【請求項６】前記言語尤度作成手段は、前記出現頻度
付き語彙辞書内の語彙の総出現頻度が所定の閾値未満の
出現頻度付き語彙辞書では、前記重み係数を０とする
が、一方前記総出現頻度が所定の閾値以上の辞書では前
記出現頻度付き語彙辞書内の語彙数と語彙の総出現頻度
の両者の値を参照し、前記重み係数を前記認識語彙数が
大きい辞書ほど大きな値を設定し、また前記総出現頻度
が大きい辞書ほど大きな値に設定して前記言語尤度付き
語彙辞書を作成することを特徴とする請求項１に記載の
音声認識装置。