JP4655184B2

JP4655184B2 - 音声認識装置および方法、記録媒体、並びにプログラム

Info

Publication number: JP4655184B2
Application number: JP2001233323A
Authority: JP
Inventors: 活樹南野
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2001-08-01
Filing date: 2001-08-01
Publication date: 2011-03-23
Anticipated expiration: 2021-08-01
Also published as: JP2003044079A

Description

【０００１】
【発明の属する技術分野】
本発明は、音声認識装置および方法、記録媒体、並びにプログラムに関し、特に、背景雑音に対する認識精度を向上させることができるようにする音声認識装置および方法、記録媒体、並びにプログラムに関する。
【０００２】
【従来の技術】
近年、音声認識装置は、マンマシンインタフェース等として、多数のシステムで利用されている。
【０００３】
図１は、そのような音声認識装置の一例の構成を示している。
【０００４】
ユーザが発した音声は、マイクロフォン１に入力され、マイクロフォン１では、その入力音声が、電気信号としての音声信号に変換される。この音声信号は、ＡＤ(Analog Digital)変換部２に供給される。ＡＤ変換部２では、マイクロフォン１からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データに変換される。この音声データは、音響分析部３に供給される。
【０００５】
音響分析部３は、ＡＤ変換部２からの音声データについて、適当なフレームごとに（微小時間間隔に）音響分析処理を施し、これにより、例えば、ＭＦＣＣ(Mel Frequency Cepstrum Coefficient)等の特徴量としての特徴ベクトルを抽出して、認識部４に供給する。なお、音響分析部３では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴量を抽出することが可能である。この分析には、線形予測分析（ＬＰＣ）、高速フーリエ変換（ＦＦＴ）、バンドパスフィルタ（ＢＰＦ）などが用いられる。
【０００６】
認識部４は、音響分析部３からの特徴量系列を用いて、音響モデルデータベース５、単語辞書情報および文法規則情報で構成される言語モデルデータベース６を必要に応じて参照しながら、マイクロフォン１に入力された音声（入力音声）を、例えば、連続分布ＨＭＭ法等に基づいて音声認識する。
【０００７】
音響モデルデータベース５は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布ＨＭＭ法に基づいて音声認識を行うので、音響モデルとしては、例えば、ＨＭＭ(Hidden Markov Model)が用いられる。言語モデルデータベース６は、認識対象の各単語（語彙）について、その発音に関する情報（音韻情報）が記述された単語辞書情報、および単語辞書情報に登録されている各単語が、どのように連鎖する（つながる）かを記述した文法規則情報（言語モデル）を記憶している。ここで、文法規則としては、例えば、文脈自由文法（ＣＦＧ）や、統計的な単語連鎖確率（Ｎ−ｇｒａｍ）などに基づく規則が用いられる。
【０００８】
認識部４は、言語モデルデータベース６の単語辞書を参照し、音響モデルデータベース５に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。さらに、認識部４は、幾つかの単語モデルを、言語モデルデータベース６に記憶された文法規則情報を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量に基づき、連続分布ＨＭＭ法によって、マイクロフォン１に入力された音声を認識する。即ち、認識部４は、音響分析部３が出力する時系列の特徴量が観測されるスコア（尤度）が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。
【０００９】
つまり、認識部４は、接続された単語モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。
【００１０】
具体的には、例えば、音響モデルデータベース５に記憶された音響モデルの音素あるいは音節などの中から、日本語の「あ」、「い」、「う」、「え」、「お」、「か」…、「ん」を単位とする仮名の音響モデルを用いた場合、それらを接続することで、「はい」、「いいえ」、「おはよう」、「いまなんじですか」など、いろいろな言葉を構成することができる。そして、これらの言葉に対して、入力される特徴量との類似度を表すスコアの計算を行うことが可能になる。
【００１１】
その音響モデルを接続する情報が、言語モデルデータベース６の単語辞書情報および文法規則情報である。単語辞書情報は、認識対象となる各単語を構成するために、音響モデルをどのように接続するかを与える情報である。文法規則情報は、単語と単語をどのように接続するかを与える情報である。例えば、「（数字）時から（数字）時まで」という文を扱う場合、まず、「０（ぜろ）」、「１（いち）」…、「２４（にじゅうよん）」という数字と、「時（じ）」、「から」、「まで」という語に対して、それぞれ読み仮名を含めて単語辞書情報として持つことで、仮名を単位とする音響モデルの接続関係を与える。次に、「（数字）」＋「時」＋「から」＋「（数字）」＋「時」＋「まで」というルールを文法規則情報として持つことで単語の接続関係を与える。これらの単語辞書情報および文法規則情報を組み合わせることによって、「１時から２時まで」あるいは「２時から５時まで」など、それぞれの文と入力される特徴量との類似度が計算できることになり、その中のスコアの高いものを認識結果として出力することが可能である。
【００１２】
したがって、この音声認識装置は、音素や音節などの微小な単位を音響モデルとして用いることによって、単語辞書情報あるいは文法規則情報の変更だけで、いろいろな言葉を認識することができる。
【００１３】
しかしながら、このような音声認識装置を構築する場合、各単語に対して、読み仮名のような音響モデルの接続関係の情報（以下、発音情報と称する）を単語辞書情報として、言語モデルデータベース６に予め設定しておく必要がある。例えば、自分の名前が言語モデルデータベース６に登録されていない場合、キーボードなどにより、読み仮名を入力し、登録するようにすればよいが、仮名を入力する手間が生じる。さらに、仮名のように広く使われる単位以外に、音素や発音記号などの日常生活ではあまり使用されることがない単位が音響モデルとして用いられる場合、予備知識なしにその接続関係（発音情報）を入力することは、極めて困難なことである。
【００１４】
そこで、新しい単語に対して、発音情報をどのように入力するかという課題に関して、音素タイプライタを用いる方法がある。音素タイプライタは、入力音声に対して、音素認識を行うことで、対応する音素系列（発音情報）を推定するものである。認識の単位としては、音素以外に音節など、いろいろな単位が用いられる場合がある。
【００１５】
次に、単語辞書情報に含まれない新しい単語に対応する発音情報および単語辞書情報に含まれる単語に対する新しい発音情報の獲得について説明する。
【００１６】
図2は、音素タイプライタを用いた登録機能を有する音声認識装置の他の構成例を示している。なお、図中、図１における場合と対応する部分については、同一の符号を付してあり、繰り返しになるので、以下では、その説明は、適宜省略する。
【００１７】
音響モデルデータベース５の単位としては、音素や音節などの微小な単位、例えば、母音と子音を単位とする図３Ａに示されるような音素ＨＭＭが用いられる。図３Ａの「sil」は、無音声部分をモデル化したＨＭＭを示す。言語モデルデータベース６は、単語辞書情報および文法規則情報で構成されており、単語辞書情報に含まれる各単語に対応して、音素ＨＭＭの接続方法に関する情報（発音情報）が登録される。例えば、図３Ｂに示されるように、単語「はい」に対応して発音情報「ｈａｉ」が登録される。
【００１８】
音響分析部３は、入力された音声入力信号から特徴量を抽出し、登録部１１に供給する。登録部１１は、音響モデルデータベース５と音響モデルネットワーク１２を用いて、音声認識処理を行う。音声認識処理は、音響モデルネットワーク１２に基づいて、音響モデルを接続し、入力された特徴量に対して、最もスコアの高い音響モデルの並びを決定することで行われる。
【００１９】
音響モデルネットワーク１２は、図４に示されるように、音響モデル「ａ」、「ｉ」、「ｕ」…、「Ｎ」、「sil」をノードとする状態遷移ネットワークであり、音響モデルの任意の並び、すなわち任意の音素系列（発音情報）を生成することができるようなネットワークとして構成される。例えば、「ｈａｉ」は、「START」から、分岐点２１を介して「ｈ」を通り、分岐点２２から、分岐点２１に戻り、「ａ」を通り、分岐点２２から、分岐点２１に戻り、「ｉ」および分岐点２２を通り、「END」に至る状態遷移で生成される。
【００２０】
スコアの計算は、音声モデルネットワーク１２に基づいて、音素ＨＭＭを接続し、そのネットワーク上において、入力される特徴量を出力する確率値を累積していくことによって求められる。例えば、Viterbi アルゴリズム累積方法が用いられる。これにより、ひとつの特徴量系列に対して、その累積値が最も高くなる状態遷移系列を決定することが可能になる。すなわち、全ての音素ＨＭＭの並びの中で、最もスコアが高くなる音素系列（発音情報）を求めることができる。
【００２１】
ここで得られた発音情報は、言語モデルデータベース６に供給され、対応する単語に関する発音情報として、言語モデルデータベース６の単語辞書情報に新たに登録される。また、ひとつの単語に対して、複数の発音情報が与えられることもある。
【００２２】
以上のように、言語モデルデータベース６の単語辞書情報は、適宜更新される。そして、音声認識処理では、この更新された単語辞書情報が用いられる。したがって、発音情報を獲得することで、新しい単語をシステムに追加したり、あるいは既に内部に保持されている単語に関する発音情報を補正したりすることが可能となる。
【００２３】
このようにして、ある単語に対して発音情報が正しく与えられている場合、音響モデルをその発音情報にしたがって接続することで、通常、対応する音声に対して、高いスコアを与えることができる。
【００２４】
【発明が解決しようとする課題】
しかしながら、入力された音声に背景雑音などが付加されている場合、音響分析によって得られる特徴量が変動を受けるため、必ずしも高いスコアを与えるとは限らない。
【００２５】
例えば、静かな環境で発声された音声信号に基づいて、音素タイプライタを用いて音素系列を推定した場合、その音声系列は、背景雑音の付加された音声信号に対しては合わなくなる。つまり、認識率の低下につながるといった課題があった。
【００２６】
本発明はこのような状況に鑑みてなされたものであり、背景雑音に対する認識精度を向上させることができるようにするものである。
【００２７】
【課題を解決するための手段】
本発明の音声認識装置は、背景雑音を取得する取得手段と、入力音声に取得手段により取得された背景雑音を合成する合成手段と、合成手段により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析手段と、分析手段により抽出された特徴量に基づいて発音情報を推定する推定手段と、推定手段により推定された発音情報を、対応する単語の発音情報として登録する登録手段とを備えることを特徴とする。
【００２８】
登録手段は、単語に対して複数の発音情報を登録するようにすることができる。
【００２９】
登録手段により登録された発音情報に基づいてマッチング処理を行うマッチング手段をさらに備えるようにすることができる。
【００３０】
本発明の音声認識方法は、背景雑音を取得する取得ステップと、入力音声に取得ステップの処理により背景雑音を合成する合成ステップと、合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、分析ステップの処理により抽出された特徴量に基づいて発音情報を推定する推定ステップと、推定ステップの処理により推定された発音情報を、対応する単語の発音情報として登録する登録ステップとを含むことを特徴とする。
【００３１】
本発明の記録媒体のプログラムは、入力音声を音声認識する音声認識処理を行う音声認識装置用のコンピュータに、背景雑音を取得する取得ステップと、入力音声に取得ステップの処理により背景雑音を合成する合成ステップと、合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、分析ステップの処理により抽出された特徴量に基づいて発音情報を推定する推定ステップと、推定ステップの処理により推定された発音情報を、対応する単語の発音情報として登録する登録ステップとを実行させる。
【００３２】
本発明のプログラムは、入力音声を音声認識する音声認識処理を行う音声認識装置用のコンピュータに、背景雑音を取得する取得ステップと、入力音声に取得ステップの処理により背景雑音を合成する合成ステップと、合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、分析ステップの処理により抽出された特徴量に基づいて発音情報を推定する推定ステップと、推定ステップの処理により推定された発音情報を、対応する単語の発音情報として登録する登録ステップとを実行させることを特徴とする。
【００３３】
本発明の音声認識装置および方法、記録媒体、並びにプログラムにおいては、入力音声に、背景雑音が合成され、合成音声が音響分析され、その合成音声の特徴量が抽出され、特徴量に基づいて推定された発音情報が、対応する単語の発音情報として登録される。
【００３４】
【発明の実施の形態】
図５は、本発明が適用される音声認識装置の構成例を示している。なお、図中、図１および図２における場合と対応する部分については、同一の符号を付してあり、繰り返しになるので、以下では、その説明は、適宜省略する。
【００３５】
制御部３２は、入力部３１からのユーザの指示に基づいて、ＡＤ変換部２を制御し、ＡＤ変換部２に入力された音声デジタルデータを、音響分析部３または音声合成部３４に出力させる。
【００３６】
音声合成部３４は、ＡＤ変換部２より音声入力信号が入力されると、雑音記憶部３３に記憶された雑音信号を読み出し、入力された音声入力信号に重畳し、音響分析部３に供給する。
【００３７】
音響分析部３は、音声合成部３４より音声入力信号が入力されると、その特徴量を抽出し、認識部４または登録部１１に供給する。
【００３８】
雑音記憶部３３には、音声合成部３４において、重畳される雑音信号が記憶されている。例えば、走行中の車内で音声認識する場合、走行中の雑音だけが収録されて予め記憶されたり、同じ車内であっても、さまざまな走行状況に対応した雑音やファンノイズなどが収録され、記憶される。すなわち、この雑音信号は、ある程度、予め推定して記憶される。
【００３９】
図６のフローチャートを参照して、音声認識装置の発音情報登録処理を説明する。
【００４０】
ユーザが発した音声は、マイクロフォン１に入力され、マイクロフォン１では、その入力音声が、電気信号としての音声信号に変換される。この例では、停車中の車の中における発声に基づいて、登録が行われ、音声認識は、走行中に行われる。したがって、雑音記録部３３は、走行ノイズ（雑音信号）を予め記憶している。
【００４１】
ステップＳ１において、ＡＤ変換部２は、マイクロフォン１を介して音声信号を入力する。
【００４２】
ステップＳ２において、制御部３２は、入力部３１からのユーザの指示に基づいて、ＡＤ変換部２に入力された音声信号に雑音信号を重畳するか否かを判断し、音声信号に雑音信号を重畳すると判断した場合、ＡＤ変換部２を制御し、音声信号を音声合成部３４に供給させる。
【００４３】
ステップＳ３において、音声合成部３４は、雑音記録部３３に記憶されている雑音信号を読み出し、ＡＤ変換部２から入力された音声信号に重畳する。そして、音声合成部３４は、重畳された音声信号を音響分析部３に供給する。
【００４４】
ステップＳ２において、音声信号に雑音信号を重畳しないと判定された場合、ＡＤ変換部２は、音声信号を音響分析部３に供給する。このとき、ステップＳ３の雑音信号を重畳する処理は、スキップされる。
【００４５】
ステップＳ４において、音響分析部３は、入力された音声信号の適当なフレームごとに（微小時間間隔に）音響分析処理を施し、これにより、特徴量としての特徴ベクトルを抽出して、登録部１１に供給する。
【００４６】
ステップＳ５において、登録部１１は、音響モデルデータベース５から、音響モデルを読み出し、音響モデルネットワーク１２に基づいて、音響モデルを接続する。ステップＳ６において、登録部１１は、音響分析部３から入力された特徴量に対して接続された音響モデルから、最もスコアの高い音響モデルの並び（発音情報）を決定する。
【００４７】
ステップＳ７において、登録部１１は、決定した発音情報を対応する単語の発音情報として、言語モデルデータベース６に登録する。
【００４８】
なお、以上の処理において、１つの単語に対して、複数の発音情報を登録することも可能である。また、雑音信号を重畳しない音声信号および重畳した音声信号の２種類の発音情報を生成して、登録することも可能である。
【００４９】
この雑音記憶部３３を用いた発音情報登録処理は、上記説明のように、言語モデルデータベース６の単語辞書情報に含まれない新しい単語に対して行われるだけでなく、すでに、単語辞書情報に含まれる単語に対しても同様に行われる。これにより、背景雑音を考慮した発音情報を登録することができる。
【００５０】
このようにして更新された言語モデルデータベース６の単語辞書情報は、次に説明する音声認識処理において用いられることになる。
【００５１】
図７のフローチャートを参照して、音声認識装置の音声認識処理を説明する。
【００５２】
ステップＳ２１において、ＡＤ変換部２は、マイクロフォン１を介して入力された音声信号を音響分析部３に供給する。
【００５３】
ステップＳ２２において、音響分析部３は、入力された音声信号に対して、適当なフレームごとに（微小時間間隔に）音響分析処理を施し、これにより、特徴量としての特徴ベクトルを抽出して、認識部４に供給する。
【００５４】
ステップＳ２３において、認識部４は、入力された特徴量系列に基づいて、言語モデルデータベース６の単語辞書情報を参照し、音響モデルデータベース５に記憶されている音響モデルを接続することで、単語の音響モデル（単語モデル）を構成する。
【００５５】
ステップＳ２４において、認識部４は、接続された音響モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。
【００５６】
以上のように、この言語モデルデータベース６の単語辞書情報には、図６の処理で得られた雑音信号を考慮した発音情報が登録されているため、背景雑音があるところにおいて、音声認識をする場合、認識率の低下を抑制することができる。
【００５７】
実際に、本発明の音声認識装置を用いて行った音声認識の評価の実験結果について説明する。
【００５８】
静かな環境において、所定の１００単語を男性５名と女性５名が３回ずつ発声したデータが収録される。最初の２回のデータは、同じ日に収録されたものであり、発音情報の登録に用いられた。最後の１回のデータは、その１ヵ月後に収録されたものであり、音声認識の評価に用いられた。
【００５９】
なお、この例において、用いた音響モデルは、２９種類の音素に関して、３状態の音素ＨＭＭを作成した、前後の音素環境依存を考慮したモデルである。また、音響分析部３の音響分析には、ＭＦＣＣが用いられた。さらに、入力音声信号は、スペクトルサブストラクションと呼ばれる雑音除去が行われた。
【００６０】
図８Ａは、上記１００単語で構成される言語モデルデータベース６の単語辞書情報を用いて行った音声認識の評価の実験結果である。評価対象は、３回目の発声のデータであり、静かな環境で収録されたものである。認識率は、１０名の平均値を示している。
【００６１】
「読み仮名」の認識率は、読み仮名から発音情報を決定した場合の認識率を示し、その値は、99.30％であった。これは、言語モデルデータベース６の中の読み仮名の音響モデルの発音情報（図１を参照して説明した認識方法）により、音声認識を行った結果である。すなわち、登録部１１および音声合成部３４（雑音記憶部３３）は、使用されていない。
【００６２】
「１回発声」の認識率は、１回目の発声から発音情報を１つだけ登録した場合の認識率を示し、その値は、99.10％であり、「２回発声」の認識率は、１回目の発声から求められた発音情報と２回目の発声から求められた発音情報の２つを登録した場合の認識率を示し、その値は、99.50％であった。これらは、音素タイプライタを用いて登録した発音情報（図２を参照して説明した認識方法）により、音声認識の処理を行った結果である。すなわち、音声合成部３４（雑音記憶部３３）は、使用されていない。
【００６３】
以上より、音素タイプライタを用いて、２回分の発声から求められた２種類の発音情報を登録することで、読み仮名から発音情報を決定した場合と、ほぼ同じ認識率が得られることがわかる。
【００６４】
以下、発音情報を登録する場合、最初の２回分の発声から求められた２種類の発音情報を登録するものとして説明する。
【００６５】
図８Ｂは、上記１００単語で構成される言語データベース６の単語辞書情報を用いて行った音声認識の評価の実験結果である。評価対象は、３回目の発声のデータであり、車の走行ノイズが重畳されている。この車の走行ノイズは、車種の違い、走行速度の違い、あるいは路面状況の違いなどを含めて７種類の車内雑音であり、雑音を重畳しない場合を含めて、合計８種類の環境での音声認識の評価が行われている。したがって、認識率は、８種類の環境における、１０名の平均値を示している。
【００６６】
「読み仮名」の認識率は、92.34％であり、「従来」の認識率は、92.15％であり、「本発明１」の認識率は、94.88％であり、「本発明２」の認識率は、95.22％であった。
【００６７】
なお、「読み仮名」は、読み仮名から発音情報を決定した場合を示し、「従来」は、音素タイプライタのみを用いて、発音情報を登録した場合を示している。また、「本発明１」は、音素タイプライタを用いて登録された発音情報に加えて、上述したような雑音記憶部３３に記憶されている背景雑音を考慮した発音情報を登録した場合を示し、「本発明２」は、「本発明１」の発音情報に加えて、さらに、読み仮名から求まる発音情報も利用する場合を示している。音素タイプライタあるいは背景雑音を用いたどちらの場合でも、発音情報を求めるために、２回分の発声が用いられている。したがって、例えば、図９に示されるように、１単語あたりの発音情報の数は、「読み仮名」は「b e N ch i」の１つ、「従来」は２つ（本発明１のうちの２つ）、「本発明１」は「h b e m u ch i i」、「p r d e u ch i」、「b e r i N g i」、「p e N ch i j」の４つ、「本発明２」は５つ（読み仮名＋本発明１）になる。
【００６８】
このように、車内雑音を含めた環境において、前の結果と比べると、「読み仮名」を用いた場合、99.30％から92.34％まで認識率が低下している。背景雑音を考慮しない「従来」も、同様に、92.15％まで認識率が低下している。
【００６９】
これに対して、背景雑音を考慮した「本発明１」を用いた場合、94.88％まで、「本発明２」を用いた場合、95.22％まで性能が向上している。
【００７０】
特に、「本発明２」は、読み仮名から発音情報を予め決定した言語モデルデータベース６の単語辞書情報に対して、背景雑音を考慮した発音情報を追加したものである。これによって、単語辞書情報に予め登録してある単語に対しても、本発明を適用することにより、認識率を向上させることができることがわかる。
【００７１】
図８Ｃは、評価用の１００単語を含む５０７５単語で構成された言語モデルデータベース６の単語辞書情報を用いて行った音声認識の評価の実験結果である。評価対象は、３回目の発声のデータであり、図８Ｂの場合と同様に、８種類の雑音環境での音声認識の評価が行われている。したがって、認識率は、８種類の環境における、１０名の平均値を示している。
【００７２】
「読み仮名」の認識率は、71.28％であり、「本発明」の認識率は、86.80％であった。
【００７３】
この「本発明」は、読み仮名から発音情報を決定した５０７５単語の言語モデルデータベース６の単語辞書情報に対して、評価用の１００単語について背景雑音を考慮した発音情報を追加したものである。
【００７４】
したがって、この結果からも、単語辞書情報に予め登録してある単語に対しても、本発明を適用することにより、認識率を向上させることができることがわかる。
【００７５】
以上においては、発音情報を得るために２回の発声を用いたが、１回の発声でもよく、あるいは、２回以上の発声を用いてもよい。
【００７６】
また、１つの音声信号に対して、雑音信号を重畳したものと重畳していないものの２種類を用意し、それぞれ発音情報を登録することもできるが、これは、１つの発声に対して、登録部１１において登録処理を２回行ったことを表している。すなわち、１つの発声に対して、音声合成部３３を通る音声信号と音声合成部３３を通らない音声信号の２種類の音声信号が登録部１１において登録処理される。したがって、例えば、複数の雑音を重畳し、登録するためには、登録部１１の登録処理を複数回行うことになる。
【００７７】
上述した説明において、車内走行環境における雑音を用いたが、オフィス環境、飛行機、電車など様々な環境での雑音にも対応するようにできる。また、ロボットの音声認識の場合、ロボットが動くときに発生するモータ音あるいは歩行時に発生する路面との摩擦音にも対応するようにできる。
【００７８】
さらに、本実施の形態において、発音情報を登録する場合、登録部１１で登録処理を行い、認識を行う場合、認識部４で認識処理を行うものとして説明したが、認識部４で認識処理を行うと同時に、発音情報の決定を行うことも可能であり、この場合、必要に応じて、言語モデルデータベース６の単語辞書情報の更新、すなわち、新しい単語の追加および辞書に登録済みの単語に対する発音情報の追加が行われることになる。
【００７９】
上記説明では、入力音声から発音情報を決定する方法について説明したが、キーボードなど別の入力手段を用いて発音情報の登録を行うなどの他の方法と併用することもできる。
【００８０】
上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。この場合、例えば、図１０に示されるような音声認識装置５０により構成される。
【００８１】
図１０において、ＣＰＵ（Central Processing Unit）５１は、ＲＯＭ(Read Only Memory) ５２に記憶されているプログラム、または、記憶部５８からＲＡＭ（Random Access Memory）５３にロードされたプログラムに従って各種の処理を実行する。ＲＡＭ５３にはまた、ＣＰＵ５１が各種の処理を実行する上において必要なデータなどが適宜記憶される。
【００８２】
ＣＰＵ５１、ＲＯＭ５２、およびＲＡＭ５３は、バス５４を介して相互に接続されている。このバス５４にはまた、入出力インタフェース５５も接続されている。
【００８３】
入出力インタフェース５５には、キーボード、マウスなどよりなる入力部５６、ＣＲＴ(Cathode Ray Tube)，ＬＣＤ(Liquid Crystal Display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部５７、ハードディスクなどより構成される記憶部５８、モデム、ターミナルアダプタなどより構成される通信部５９が接続されている。通信部５９は、図示しないネットワークを介しての通信処理を行う。
【００８４】
入出力インタフェース５５にはまた、必要に応じてドライブ６０が接続され、磁気ディスク６１、光ディスク６２、光磁気ディスク６３、或いは半導体メモリ６４などが適宜装着され、それから読み出されたコンピュータプログラムが、必要に応じて記憶部５８にインストールされる。
【００８５】
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
【００８６】
この記録媒体は、図１０に示すように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク６１（フレキシブルディスクを含む）、光ディスク６２（CD-ROM(Compact Disk-ReadOnly Memory)，ＤＶＤ(Digital Versatile Disk)を含む）、光磁気ディスク６３（MD(Mini-Disk)（商標）を含む）、もしくは半導体メモリ６４などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているＲＯＭ５２や、記憶部５８に含まれるハードディスクなどで構成される。
【００８７】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【００８８】
【発明の効果】
以上の如く、本発明の音声認識装置および方法、記録媒体、並びにプログラムによれば、入力音声に、背景雑音を合成し、合成音声を音響分析し、その合成音声の特徴量を抽出し、特徴量に基づいて推定された発音情報を、対応する単語の発音情報として登録するようにしたので、背景雑音に対する認識精度を向上させることができる。
【図面の簡単な説明】
【図１】従来の音声認識装置の構成例を示すブロック図である。
【図２】従来の音声認識装置の他の構成例を示すブロック図である。
【図３】図２の音声認識装置の音響モデルと発音情報を説明する図である。
【図４】図２の音声認識装置の音響モデルネットワークを説明する図である。
【図５】本発明を適用した音声認識装置の構成例を示すブロック図である。
【図６】図５の音声認識装置の発音情報登録処理を説明するフローチャートである。
【図７】図５の音声認識装置の音声認識処理を説明するフローチャートである。
【図８】図５の音声認識装置を用いた音声認識の実験結果を示す図である。
【図９】図５の音声認識装置の発音情報の例を示す図である。
【図１０】本発明を適用した音声認識装置の他の構成例を示すブロック図である。
【符号の説明】
３音響分析部，４認識部，５音響モデルデータベース，６言語モデルデータベース，１１登録部，１２音響モデルネットワーク，３３雑音記憶部，３４音声合成部

Claims

入力音声を音声認識する音声認識処理を行う音声認識装置であって、
背景雑音を取得する取得手段と、
前記入力音声に前記取得手段により取得された前記背景雑音を合成する合成手段と、
前記合成手段により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析手段と、
前記分析手段により抽出された前記特徴量に基づいて発音情報を推定する推定手段と、
前記推定手段により推定された前記発音情報を、対応する単語の前記発音情報として登録する登録手段と
を備えることを特徴とする音声認識装置。
前記登録手段は、前記単語に対して複数の前記発音情報を登録する
ことを特徴とする請求項１に記載の音声認識装置。
前記登録手段により登録された前記発音情報に基づいてマッチング処理を行うマッチング手段を
さらに備えることを特徴とする請求項１に記載の音声認識装置。
入力音声を音声認識する音声認識処理を行う音声認識装置の音声認識方法であって、
背景雑音を取得する取得ステップと、
前記入力音声に前記取得ステップの処理により取得された前記背景雑音を合成する合成ステップと、
前記合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、
前記分析ステップの処理により抽出された前記特徴量に基づいて発音情報を推定する推定ステップと、
前記推定ステップの処理により推定された前記発音情報を、対応する単語の前記発音情報として登録する登録ステップと
を含むことを特徴とする音声認識方法。
入力音声を音声認識する音声認識処理を行う音声認識装置用のコンピュータに、
背景雑音を取得する取得ステップと、
前記入力音声に前記取得ステップの処理により取得された前記背景雑音を合成する合成ステップと、
前記合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、
前記分析ステップの処理により抽出された前記特徴量に基づいて発音情報を推定する推定ステップと、
前記推定ステップの処理により推定された前記発音情報を、対応する単語の前記発音情報として登録する登録ステップと
を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
入力音声を音声認識する音声認識処理を行う音声認識装置用のコンピュータに、
背景雑音を取得する取得ステップと、
前記入力音声に前記取得ステップの処理により取得された前記背景雑音を合成する合成ステップと、
前記合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、
前記分析ステップの処理により抽出された前記特徴量に基づいて発音情報を推定する推定ステップと、
前記推定ステップの処理により推定された前記発音情報を、対応する単語の前記発音情報として登録する登録ステップと
を実行させることを特徴とするプログラム。