JP4655184B2 - 音声認識装置および方法、記録媒体、並びにプログラム - Google Patents

音声認識装置および方法、記録媒体、並びにプログラム Download PDF

Info

Publication number
JP4655184B2
JP4655184B2 JP2001233323A JP2001233323A JP4655184B2 JP 4655184 B2 JP4655184 B2 JP 4655184B2 JP 2001233323 A JP2001233323 A JP 2001233323A JP 2001233323 A JP2001233323 A JP 2001233323A JP 4655184 B2 JP4655184 B2 JP 4655184B2
Authority
JP
Japan
Prior art keywords
speech
pronunciation information
processing
speech recognition
synthesized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2001233323A
Other languages
English (en)
Other versions
JP2003044079A (ja
Inventor
活樹 南野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2001233323A priority Critical patent/JP4655184B2/ja
Publication of JP2003044079A publication Critical patent/JP2003044079A/ja
Application granted granted Critical
Publication of JP4655184B2 publication Critical patent/JP4655184B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Description

【0001】
【発明の属する技術分野】
本発明は、音声認識装置および方法、記録媒体、並びにプログラムに関し、特に、背景雑音に対する認識精度を向上させることができるようにする音声認識装置および方法、記録媒体、並びにプログラムに関する。
【0002】
【従来の技術】
近年、音声認識装置は、マンマシンインタフェース等として、多数のシステムで利用されている。
【0003】
図1は、そのような音声認識装置の一例の構成を示している。
【0004】
ユーザが発した音声は、マイクロフォン1に入力され、マイクロフォン1では、その入力音声が、電気信号としての音声信号に変換される。この音声信号は、AD(Analog Digital)変換部2に供給される。AD変換部2では、マイクロフォン1からのアナログ信号である音声信号がサンプリング、量子化され、ディジタル信号である音声データに変換される。この音声データは、音響分析部3に供給される。
【0005】
音響分析部3は、AD変換部2からの音声データについて、適当なフレームごとに(微小時間間隔に)音響分析処理を施し、これにより、例えば、MFCC(Mel Frequency Cepstrum Coefficient)等の特徴量としての特徴ベクトルを抽出して、認識部4に供給する。なお、音響分析部3では、その他、例えば、スペクトルや、線形予測係数、ケプストラム係数、線スペクトル対等の特徴量を抽出することが可能である。この分析には、線形予測分析(LPC)、高速フーリエ変換(FFT)、バンドパスフィルタ(BPF)などが用いられる。
【0006】
認識部4は、音響分析部3からの特徴量系列を用いて、音響モデルデータベース5、単語辞書情報および文法規則情報で構成される言語モデルデータベース6を必要に応じて参照しながら、マイクロフォン1に入力された音声(入力音声)を、例えば、連続分布HMM法等に基づいて音声認識する。
【0007】
音響モデルデータベース5は、音声認識する音声の言語における個々の音素や音節などの音響的な特徴を表す音響モデルを記憶している。ここでは、連続分布HMM法に基づいて音声認識を行うので、音響モデルとしては、例えば、HMM(Hidden Markov Model)が用いられる。言語モデルデータベース6は、認識対象の各単語(語彙)について、その発音に関する情報(音韻情報)が記述された単語辞書情報、および単語辞書情報に登録されている各単語が、どのように連鎖する(つながる)かを記述した文法規則情報(言語モデル)を記憶している。ここで、文法規則としては、例えば、文脈自由文法(CFG)や、統計的な単語連鎖確率(N−gram)などに基づく規則が用いられる。
【0008】
認識部4は、言語モデルデータベース6の単語辞書を参照し、音響モデルデータベース5に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。さらに、認識部4は、幾つかの単語モデルを、言語モデルデータベース6に記憶された文法規則情報を参照することにより接続し、そのようにして接続された単語モデルを用いて、特徴量に基づき、連続分布HMM法によって、マイクロフォン1に入力された音声を認識する。即ち、認識部4は、音響分析部3が出力する時系列の特徴量が観測されるスコア(尤度)が最も高い単語モデルの系列を検出し、その単語モデルの系列に対応する単語列を、音声の認識結果として出力する。
【0009】
つまり、認識部4は、接続された単語モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。
【0010】
具体的には、例えば、音響モデルデータベース5に記憶された音響モデルの音素あるいは音節などの中から、日本語の「あ」、「い」、「う」、「え」、「お」、「か」…、「ん」を単位とする仮名の音響モデルを用いた場合、それらを接続することで、「はい」、「いいえ」、「おはよう」、「いまなんじですか」など、いろいろな言葉を構成することができる。そして、これらの言葉に対して、入力される特徴量との類似度を表すスコアの計算を行うことが可能になる。
【0011】
その音響モデルを接続する情報が、言語モデルデータベース6の単語辞書情報および文法規則情報である。単語辞書情報は、認識対象となる各単語を構成するために、音響モデルをどのように接続するかを与える情報である。文法規則情報は、単語と単語をどのように接続するかを与える情報である。例えば、「(数字)時から(数字)時まで」という文を扱う場合、まず、「0(ぜろ)」、「1(いち)」…、「24(にじゅうよん)」という数字と、「時(じ)」、「から」、「まで」という語に対して、それぞれ読み仮名を含めて単語辞書情報として持つことで、仮名を単位とする音響モデルの接続関係を与える。次に、「(数字)」+「時」+「から」+「(数字)」+「時」+「まで」というルールを文法規則情報として持つことで単語の接続関係を与える。これらの単語辞書情報および文法規則情報を組み合わせることによって、「1時から2時まで」あるいは「2時から5時まで」など、それぞれの文と入力される特徴量との類似度が計算できることになり、その中のスコアの高いものを認識結果として出力することが可能である。
【0012】
したがって、この音声認識装置は、音素や音節などの微小な単位を音響モデルとして用いることによって、単語辞書情報あるいは文法規則情報の変更だけで、いろいろな言葉を認識することができる。
【0013】
しかしながら、このような音声認識装置を構築する場合、各単語に対して、読み仮名のような音響モデルの接続関係の情報(以下、発音情報と称する)を単語辞書情報として、言語モデルデータベース6に予め設定しておく必要がある。例えば、自分の名前が言語モデルデータベース6に登録されていない場合、キーボードなどにより、読み仮名を入力し、登録するようにすればよいが、仮名を入力する手間が生じる。さらに、仮名のように広く使われる単位以外に、音素や発音記号などの日常生活ではあまり使用されることがない単位が音響モデルとして用いられる場合、予備知識なしにその接続関係(発音情報)を入力することは、極めて困難なことである。
【0014】
そこで、新しい単語に対して、発音情報をどのように入力するかという課題に関して、音素タイプライタを用いる方法がある。音素タイプライタは、入力音声に対して、音素認識を行うことで、対応する音素系列(発音情報)を推定するものである。認識の単位としては、音素以外に音節など、いろいろな単位が用いられる場合がある。
【0015】
次に、単語辞書情報に含まれない新しい単語に対応する発音情報および単語辞書情報に含まれる単語に対する新しい発音情報の獲得について説明する。
【0016】
図2は、音素タイプライタを用いた登録機能を有する音声認識装置の他の構成例を示している。なお、図中、図1における場合と対応する部分については、同一の符号を付してあり、繰り返しになるので、以下では、その説明は、適宜省略する。
【0017】
音響モデルデータベース5の単位としては、音素や音節などの微小な単位、例えば、母音と子音を単位とする図3Aに示されるような音素HMMが用いられる。図3Aの「sil」は、無音声部分をモデル化したHMMを示す。言語モデルデータベース6は、単語辞書情報および文法規則情報で構成されており、単語辞書情報に含まれる各単語に対応して、音素HMMの接続方法に関する情報(発音情報)が登録される。例えば、図3Bに示されるように、単語「はい」に対応して発音情報「hai」が登録される。
【0018】
音響分析部3は、入力された音声入力信号から特徴量を抽出し、登録部11に供給する。登録部11は、音響モデルデータベース5と音響モデルネットワーク12を用いて、音声認識処理を行う。音声認識処理は、音響モデルネットワーク12に基づいて、音響モデルを接続し、入力された特徴量に対して、最もスコアの高い音響モデルの並びを決定することで行われる。
【0019】
音響モデルネットワーク12は、図4に示されるように、音響モデル「a」、「i」、「u」…、「N」、「sil」をノードとする状態遷移ネットワークであり、音響モデルの任意の並び、すなわち任意の音素系列(発音情報)を生成することができるようなネットワークとして構成される。例えば、「hai」は、「START」から、分岐点21を介して「h」を通り、分岐点22から、分岐点21に戻り、「a」を通り、分岐点22から、分岐点21に戻り、「i」および分岐点22を通り、「END」に至る状態遷移で生成される。
【0020】
スコアの計算は、音声モデルネットワーク12に基づいて、音素HMMを接続し、そのネットワーク上において、入力される特徴量を出力する確率値を累積していくことによって求められる。例えば、Viterbi アルゴリズム累積方法が用いられる。これにより、ひとつの特徴量系列に対して、その累積値が最も高くなる状態遷移系列を決定することが可能になる。すなわち、全ての音素HMMの並びの中で、最もスコアが高くなる音素系列(発音情報)を求めることができる。
【0021】
ここで得られた発音情報は、言語モデルデータベース6に供給され、対応する単語に関する発音情報として、言語モデルデータベース6の単語辞書情報に新たに登録される。また、ひとつの単語に対して、複数の発音情報が与えられることもある。
【0022】
以上のように、言語モデルデータベース6の単語辞書情報は、適宜更新される。そして、音声認識処理では、この更新された単語辞書情報が用いられる。したがって、発音情報を獲得することで、新しい単語をシステムに追加したり、あるいは既に内部に保持されている単語に関する発音情報を補正したりすることが可能となる。
【0023】
このようにして、ある単語に対して発音情報が正しく与えられている場合、音響モデルをその発音情報にしたがって接続することで、通常、対応する音声に対して、高いスコアを与えることができる。
【0024】
【発明が解決しようとする課題】
しかしながら、入力された音声に背景雑音などが付加されている場合、音響分析によって得られる特徴量が変動を受けるため、必ずしも高いスコアを与えるとは限らない。
【0025】
例えば、静かな環境で発声された音声信号に基づいて、音素タイプライタを用いて音素系列を推定した場合、その音声系列は、背景雑音の付加された音声信号に対しては合わなくなる。つまり、認識率の低下につながるといった課題があった。
【0026】
本発明はこのような状況に鑑みてなされたものであり、背景雑音に対する認識精度を向上させることができるようにするものである。
【0027】
【課題を解決するための手段】
本発明の音声認識装置は、背景雑音を取得する取得手段と、入力音声に取得手段により取得された背景雑音を合成する合成手段と、合成手段により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析手段と、分析手段により抽出された特徴量に基づいて発音情報を推定する推定手段と、推定手段により推定された発音情報を、対応する単語の発音情報として登録する登録手段とを備えることを特徴とする。
【0028】
登録手段は、単語に対して複数の発音情報を登録するようにすることができる。
【0029】
登録手段により登録された発音情報に基づいてマッチング処理を行うマッチング手段をさらに備えるようにすることができる。
【0030】
本発明の音声認識方法は、背景雑音を取得する取得ステップと、入力音声に取得ステップの処理により背景雑音を合成する合成ステップと、合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、分析ステップの処理により抽出された特徴量に基づいて発音情報を推定する推定ステップと、推定ステップの処理により推定された発音情報を、対応する単語の発音情報として登録する登録ステップとを含むことを特徴とする。
【0031】
本発明の記録媒体のプログラムは、入力音声を音声認識する音声認識処理を行う音声認識装置用のコンピュータに、背景雑音を取得する取得ステップと、入力音声に取得ステップの処理により背景雑音を合成する合成ステップと、合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、分析ステップの処理により抽出された特徴量に基づいて発音情報を推定する推定ステップと、推定ステップの処理により推定された発音情報を、対応する単語の発音情報として登録する登録ステップとを実行させる。
【0032】
本発明のプログラムは、 入力音声を音声認識する音声認識処理を行う音声認識装置用のコンピュータに、背景雑音を取得する取得ステップと、入力音声に取得ステップの処理により背景雑音を合成する合成ステップと、合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、分析ステップの処理により抽出された特徴量に基づいて発音情報を推定する推定ステップと、推定ステップの処理により推定された発音情報を、対応する単語の発音情報として登録する登録ステップとを実行させることを特徴とする。
【0033】
本発明の音声認識装置および方法、記録媒体、並びにプログラムにおいては、入力音声に、背景雑音が合成され、合成音声が音響分析され、その合成音声の特徴量が抽出され、特徴量に基づいて推定された発音情報が、対応する単語の発音情報として登録される。
【0034】
【発明の実施の形態】
図5は、本発明が適用される音声認識装置の構成例を示している。なお、図中、図1および図2における場合と対応する部分については、同一の符号を付してあり、繰り返しになるので、以下では、その説明は、適宜省略する。
【0035】
制御部32は、入力部31からのユーザの指示に基づいて、AD変換部2を制御し、AD変換部2に入力された音声デジタルデータを、音響分析部3または音声合成部34に出力させる。
【0036】
音声合成部34は、AD変換部2より音声入力信号が入力されると、雑音記憶部33に記憶された雑音信号を読み出し、入力された音声入力信号に重畳し、音響分析部3に供給する。
【0037】
音響分析部3は、音声合成部34より音声入力信号が入力されると、その特徴量を抽出し、認識部4または登録部11に供給する。
【0038】
雑音記憶部33には、音声合成部34において、重畳される雑音信号が記憶されている。例えば、走行中の車内で音声認識する場合、走行中の雑音だけが収録されて予め記憶されたり、同じ車内であっても、さまざまな走行状況に対応した雑音やファンノイズなどが収録され、記憶される。すなわち、この雑音信号は、ある程度、予め推定して記憶される。
【0039】
図6のフローチャートを参照して、音声認識装置の発音情報登録処理を説明する。
【0040】
ユーザが発した音声は、マイクロフォン1に入力され、マイクロフォン1では、その入力音声が、電気信号としての音声信号に変換される。この例では、停車中の車の中における発声に基づいて、登録が行われ、音声認識は、走行中に行われる。したがって、雑音記録部33は、走行ノイズ(雑音信号)を予め記憶している。
【0041】
ステップS1において、AD変換部2は、マイクロフォン1を介して音声信号を入力する。
【0042】
ステップS2において、制御部32は、入力部31からのユーザの指示に基づいて、AD変換部2に入力された音声信号に雑音信号を重畳するか否かを判断し、音声信号に雑音信号を重畳すると判断した場合、AD変換部2を制御し、音声信号を音声合成部34に供給させる。
【0043】
ステップS3において、音声合成部34は、雑音記録部33に記憶されている雑音信号を読み出し、AD変換部2から入力された音声信号に重畳する。そして、音声合成部34は、重畳された音声信号を音響分析部3に供給する。
【0044】
ステップS2において、音声信号に雑音信号を重畳しないと判定された場合、AD変換部2は、音声信号を音響分析部3に供給する。このとき、ステップS3の雑音信号を重畳する処理は、スキップされる。
【0045】
ステップS4において、音響分析部3は、入力された音声信号の適当なフレームごとに(微小時間間隔に)音響分析処理を施し、これにより、特徴量としての特徴ベクトルを抽出して、登録部11に供給する。
【0046】
ステップS5において、登録部11は、音響モデルデータベース5から、音響モデルを読み出し、音響モデルネットワーク12に基づいて、音響モデルを接続する。ステップS6において、登録部11は、音響分析部3から入力された特徴量に対して接続された音響モデルから、最もスコアの高い音響モデルの並び(発音情報)を決定する。
【0047】
ステップS7において、登録部11は、決定した発音情報を対応する単語の発音情報として、言語モデルデータベース6に登録する。
【0048】
なお、以上の処理において、1つの単語に対して、複数の発音情報を登録することも可能である。また、雑音信号を重畳しない音声信号および重畳した音声信号の2種類の発音情報を生成して、登録することも可能である。
【0049】
この雑音記憶部33を用いた発音情報登録処理は、上記説明のように、言語モデルデータベース6の単語辞書情報に含まれない新しい単語に対して行われるだけでなく、すでに、単語辞書情報に含まれる単語に対しても同様に行われる。これにより、背景雑音を考慮した発音情報を登録することができる。
【0050】
このようにして更新された言語モデルデータベース6の単語辞書情報は、次に説明する音声認識処理において用いられることになる。
【0051】
図7のフローチャートを参照して、音声認識装置の音声認識処理を説明する。
【0052】
ステップS21において、AD変換部2は、マイクロフォン1を介して入力された音声信号を音響分析部3に供給する。
【0053】
ステップS22において、音響分析部3は、入力された音声信号に対して、適当なフレームごとに(微小時間間隔に)音響分析処理を施し、これにより、特徴量としての特徴ベクトルを抽出して、認識部4に供給する。
【0054】
ステップS23において、認識部4は、入力された特徴量系列に基づいて、言語モデルデータベース6の単語辞書情報を参照し、音響モデルデータベース5に記憶されている音響モデルを接続することで、単語の音響モデル(単語モデル)を構成する。
【0055】
ステップS24において、認識部4は、接続された音響モデルに対応する単語列について、各特徴量の出現確率を累積し、その累積値をスコアとして、そのスコアを最も高くする単語列を、音声認識結果として出力する。
【0056】
以上のように、この言語モデルデータベース6の単語辞書情報には、図6の処理で得られた雑音信号を考慮した発音情報が登録されているため、背景雑音があるところにおいて、音声認識をする場合、認識率の低下を抑制することができる。
【0057】
実際に、本発明の音声認識装置を用いて行った音声認識の評価の実験結果について説明する。
【0058】
静かな環境において、所定の100単語を男性5名と女性5名が3回ずつ発声したデータが収録される。最初の2回のデータは、同じ日に収録されたものであり、発音情報の登録に用いられた。最後の1回のデータは、その1ヵ月後に収録されたものであり、音声認識の評価に用いられた。
【0059】
なお、この例において、用いた音響モデルは、29種類の音素に関して、3状態の音素HMMを作成した、前後の音素環境依存を考慮したモデルである。また、音響分析部3の音響分析には、MFCCが用いられた。さらに、入力音声信号は、スペクトルサブストラクションと呼ばれる雑音除去が行われた。
【0060】
図8Aは、上記100単語で構成される言語モデルデータベース6の単語辞書情報を用いて行った音声認識の評価の実験結果である。評価対象は、3回目の発声のデータであり、静かな環境で収録されたものである。認識率は、10名の平均値を示している。
【0061】
「読み仮名」の認識率は、読み仮名から発音情報を決定した場合の認識率を示し、その値は、99.30%であった。これは、言語モデルデータベース6の中の読み仮名の音響モデルの発音情報(図1を参照して説明した認識方法)により、音声認識を行った結果である。すなわち、登録部11および音声合成部34(雑音記憶部33)は、使用されていない。
【0062】
「1回発声」の認識率は、1回目の発声から発音情報を1つだけ登録した場合の認識率を示し、その値は、99.10%であり、「2回発声」の認識率は、1回目の発声から求められた発音情報と2回目の発声から求められた発音情報の2つを登録した場合の認識率を示し、その値は、99.50%であった。これらは、音素タイプライタを用いて登録した発音情報(図2を参照して説明した認識方法)により、音声認識の処理を行った結果である。すなわち、音声合成部34(雑音記憶部33)は、使用されていない。
【0063】
以上より、音素タイプライタを用いて、2回分の発声から求められた2種類の発音情報を登録することで、読み仮名から発音情報を決定した場合と、ほぼ同じ認識率が得られることがわかる。
【0064】
以下、発音情報を登録する場合、最初の2回分の発声から求められた2種類の発音情報を登録するものとして説明する。
【0065】
図8Bは、上記100単語で構成される言語データベース6の単語辞書情報を用いて行った音声認識の評価の実験結果である。評価対象は、3回目の発声のデータであり、車の走行ノイズが重畳されている。この車の走行ノイズは、車種の違い、走行速度の違い、あるいは路面状況の違いなどを含めて7種類の車内雑音であり、雑音を重畳しない場合を含めて、合計8種類の環境での音声認識の評価が行われている。したがって、認識率は、8種類の環境における、10名の平均値を示している。
【0066】
「読み仮名」の認識率は、92.34%であり、「従来」の認識率は、92.15%であり、「本発明1」の認識率は、94.88%であり、「本発明2」の認識率は、95.22%であった。
【0067】
なお、「読み仮名」は、読み仮名から発音情報を決定した場合を示し、「従来」は、音素タイプライタのみを用いて、発音情報を登録した場合を示している。また、「本発明1」は、音素タイプライタを用いて登録された発音情報に加えて、上述したような雑音記憶部33に記憶されている背景雑音を考慮した発音情報を登録した場合を示し、「本発明2」は、「本発明1」の発音情報に加えて、さらに、読み仮名から求まる発音情報も利用する場合を示している。音素タイプライタあるいは背景雑音を用いたどちらの場合でも、発音情報を求めるために、2回分の発声が用いられている。したがって、例えば、図9に示されるように、1単語あたりの発音情報の数は、「読み仮名」は「b e N ch i」の1つ、「従来」は2つ(本発明1のうちの2つ)、「本発明1」は「h b e m u ch i i」、「p r d e u ch i」、「b e r i N g i」、「p e N ch i j」の4つ、「本発明2」は5つ(読み仮名+本発明1)になる。
【0068】
このように、車内雑音を含めた環境において、前の結果と比べると、「読み仮名」を用いた場合、99.30%から92.34%まで認識率が低下している。背景雑音を考慮しない「従来」も、同様に、92.15%まで認識率が低下している。
【0069】
これに対して、背景雑音を考慮した「本発明1」を用いた場合、94.88%まで、「本発明2」を用いた場合、95.22%まで性能が向上している。
【0070】
特に、「本発明2」は、読み仮名から発音情報を予め決定した言語モデルデータベース6の単語辞書情報に対して、背景雑音を考慮した発音情報を追加したものである。これによって、単語辞書情報に予め登録してある単語に対しても、本発明を適用することにより、認識率を向上させることができることがわかる。
【0071】
図8Cは、評価用の100単語を含む5075単語で構成された言語モデルデータベース6の単語辞書情報を用いて行った音声認識の評価の実験結果である。評価対象は、3回目の発声のデータであり、図8Bの場合と同様に、8種類の雑音環境での音声認識の評価が行われている。したがって、認識率は、8種類の環境における、10名の平均値を示している。
【0072】
「読み仮名」の認識率は、71.28%であり、「本発明」の認識率は、86.80%であった。
【0073】
この「本発明」は、読み仮名から発音情報を決定した5075単語の言語モデルデータベース6の単語辞書情報に対して、評価用の100単語について背景雑音を考慮した発音情報を追加したものである。
【0074】
したがって、この結果からも、単語辞書情報に予め登録してある単語に対しても、本発明を適用することにより、認識率を向上させることができることがわかる。
【0075】
以上においては、発音情報を得るために2回の発声を用いたが、1回の発声でもよく、あるいは、2回以上の発声を用いてもよい。
【0076】
また、1つの音声信号に対して、雑音信号を重畳したものと重畳していないものの2種類を用意し、それぞれ発音情報を登録することもできるが、これは、1つの発声に対して、登録部11において登録処理を2回行ったことを表している。すなわち、1つの発声に対して、音声合成部33を通る音声信号と音声合成部33を通らない音声信号の2種類の音声信号が登録部11において登録処理される。したがって、例えば、複数の雑音を重畳し、登録するためには、登録部11の登録処理を複数回行うことになる。
【0077】
上述した説明において、車内走行環境における雑音を用いたが、オフィス環境、飛行機、電車など様々な環境での雑音にも対応するようにできる。また、ロボットの音声認識の場合、ロボットが動くときに発生するモータ音あるいは歩行時に発生する路面との摩擦音にも対応するようにできる。
【0078】
さらに、本実施の形態において、発音情報を登録する場合、登録部11で登録処理を行い、認識を行う場合、認識部4で認識処理を行うものとして説明したが、認識部4で認識処理を行うと同時に、発音情報の決定を行うことも可能であり、この場合、必要に応じて、言語モデルデータベース6の単語辞書情報の更新、すなわち、新しい単語の追加および辞書に登録済みの単語に対する発音情報の追加が行われることになる。
【0079】
上記説明では、入力音声から発音情報を決定する方法について説明したが、キーボードなど別の入力手段を用いて発音情報の登録を行うなどの他の方法と併用することもできる。
【0080】
上述した一連の処理は、ハードウェアにより実行させることもできるが、ソフトウェアにより実行させることもできる。この場合、例えば、図10に示されるような音声認識装置50により構成される。
【0081】
図10において、CPU(Central Processing Unit)51は、ROM(Read Only Memory) 52に記憶されているプログラム、または、記憶部58からRAM(Random Access Memory)53にロードされたプログラムに従って各種の処理を実行する。RAM53にはまた、CPU51が各種の処理を実行する上において必要なデータなどが適宜記憶される。
【0082】
CPU51、ROM52、およびRAM53は、バス54を介して相互に接続されている。このバス54にはまた、入出力インタフェース55も接続されている。
【0083】
入出力インタフェース55には、キーボード、マウスなどよりなる入力部56、CRT(Cathode Ray Tube),LCD(Liquid Crystal Display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部57、ハードディスクなどより構成される記憶部58、モデム、ターミナルアダプタなどより構成される通信部59が接続されている。通信部59は、図示しないネットワークを介しての通信処理を行う。
【0084】
入出力インタフェース55にはまた、必要に応じてドライブ60が接続され、磁気ディスク61、光ディスク62、光磁気ディスク63、或いは半導体メモリ64などが適宜装着され、それから読み出されたコンピュータプログラムが、必要に応じて記憶部58にインストールされる。
【0085】
一連の処理をソフトウエアにより実行させる場合には、そのソフトウエアを構成するプログラムが、専用のハードウエアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば、汎用のパーソナルコンピュータなどに、ネットワークや記録媒体からインストールされる。
【0086】
この記録媒体は、図10に示すように、装置本体とは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク61(フレキシブルディスクを含む)、光ディスク62(CD-ROM(Compact Disk-ReadOnly Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク63(MD(Mini-Disk)(商標)を含む)、もしくは半導体メモリ64などよりなるパッケージメディアにより構成されるだけでなく、装置本体に予め組み込まれた状態でユーザに提供される、プログラムが記録されているROM52や、記憶部58に含まれるハードディスクなどで構成される。
【0087】
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に従って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0088】
【発明の効果】
以上の如く、本発明の音声認識装置および方法、記録媒体、並びにプログラムによれば、入力音声に、背景雑音を合成し、合成音声を音響分析し、その合成音声の特徴量を抽出し、特徴量に基づいて推定された発音情報を、対応する単語の発音情報として登録するようにしたので、背景雑音に対する認識精度を向上させることができる。
【図面の簡単な説明】
【図1】従来の音声認識装置の構成例を示すブロック図である。
【図2】従来の音声認識装置の他の構成例を示すブロック図である。
【図3】図2の音声認識装置の音響モデルと発音情報を説明する図である。
【図4】図2の音声認識装置の音響モデルネットワークを説明する図である。
【図5】本発明を適用した音声認識装置の構成例を示すブロック図である。
【図6】図5の音声認識装置の発音情報登録処理を説明するフローチャートである。
【図7】図5の音声認識装置の音声認識処理を説明するフローチャートである。
【図8】図5の音声認識装置を用いた音声認識の実験結果を示す図である。
【図9】図5の音声認識装置の発音情報の例を示す図である。
【図10】本発明を適用した音声認識装置の他の構成例を示すブロック図である。
【符号の説明】
3 音響分析部,4 認識部,5 音響モデルデータベース,6 言語モデルデータベース,11 登録部,12 音響モデルネットワーク,33 雑音記憶部,34 音声合成部

Claims (6)

  1. 入力音声を音声認識する音声認識処理を行う音声認識装置であって、
    背景雑音を取得する取得手段と、
    前記入力音声に前記取得手段により取得された前記背景雑音を合成する合成手段と、
    前記合成手段により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析手段と、
    前記分析手段により抽出された前記特徴量に基づいて発音情報を推定する推定手段と、
    前記推定手段により推定された前記発音情報を、対応する単語の前記発音情報として登録する登録手段と
    を備えることを特徴とする音声認識装置。
  2. 前記登録手段は、前記単語に対して複数の前記発音情報を登録する
    ことを特徴とする請求項1に記載の音声認識装置。
  3. 前記登録手段により登録された前記発音情報に基づいてマッチング処理を行うマッチング手段を
    さらに備えることを特徴とする請求項1に記載の音声認識装置。
  4. 入力音声を音声認識する音声認識処理を行う音声認識装置の音声認識方法であって、
    背景雑音を取得する取得ステップと、
    前記入力音声に前記取得ステップの処理により取得された前記背景雑音を合成する合成ステップと、
    前記合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、
    前記分析ステップの処理により抽出された前記特徴量に基づいて発音情報を推定する推定ステップと、
    前記推定ステップの処理により推定された前記発音情報を、対応する単語の前記発音情報として登録する登録ステップと
    を含むことを特徴とする音声認識方法。
  5. 入力音声を音声認識する音声認識処理を行う音声認識装置用のコンピュータに、
    背景雑音を取得する取得ステップと、
    前記入力音声に前記取得ステップの処理により取得された前記背景雑音を合成する合成ステップと、
    前記合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、
    前記分析ステップの処理により抽出された前記特徴量に基づいて発音情報を推定する推定ステップと、
    前記推定ステップの処理により推定された前記発音情報を、対応する単語の前記発音情報として登録する登録ステップと
    を実行させるためのプログラムを記録したコンピュータ読み取り可能な記録媒体。
  6. 入力音声を音声認識する音声認識処理を行う音声認識装置用のコンピュータに、
    背景雑音を取得する取得ステップと、
    前記入力音声に前記取得ステップの処理により取得された前記背景雑音を合成する合成ステップと、
    前記合成ステップの処理により合成された合成音声を音響分析し、その合成音声の特徴量を抽出する分析ステップと、
    前記分析ステップの処理により抽出された前記特徴量に基づいて発音情報を推定する推定ステップと、
    前記推定ステップの処理により推定された前記発音情報を、対応する単語の前記発音情報として登録する登録ステップと
    を実行させることを特徴とするプログラム。
JP2001233323A 2001-08-01 2001-08-01 音声認識装置および方法、記録媒体、並びにプログラム Expired - Fee Related JP4655184B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001233323A JP4655184B2 (ja) 2001-08-01 2001-08-01 音声認識装置および方法、記録媒体、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001233323A JP4655184B2 (ja) 2001-08-01 2001-08-01 音声認識装置および方法、記録媒体、並びにプログラム

Publications (2)

Publication Number Publication Date
JP2003044079A JP2003044079A (ja) 2003-02-14
JP4655184B2 true JP4655184B2 (ja) 2011-03-23

Family

ID=19065109

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001233323A Expired - Fee Related JP4655184B2 (ja) 2001-08-01 2001-08-01 音声認識装置および方法、記録媒体、並びにプログラム

Country Status (1)

Country Link
JP (1) JP4655184B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11289098B2 (en) 2019-03-08 2022-03-29 Samsung Electronics Co., Ltd. Method and apparatus with speaker recognition registration

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2457855B (en) * 2006-11-30 2011-01-12 Nat Inst Of Advanced Ind Scien Speech recognition system and speech recognition system program
US9953632B2 (en) * 2014-04-17 2018-04-24 Qualcomm Incorporated Keyword model generation for detecting user-defined keyword
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62117060A (ja) * 1985-11-18 1987-05-28 Toshiba Corp 文字・音声入力変換方式
JPS62217298A (ja) * 1986-03-19 1987-09-24 株式会社リコー 音声認識装置
JPH1069291A (ja) * 1996-08-27 1998-03-10 Nissan Motor Co Ltd 音声認識装置
JPH11282486A (ja) * 1998-03-31 1999-10-15 Toshiba Corp サブワード型不特定話者音声認識装置及び方法
JP2002258889A (ja) * 2001-03-05 2002-09-11 Nissan Motor Co Ltd 辞書編集可能な音声認識装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS62117060A (ja) * 1985-11-18 1987-05-28 Toshiba Corp 文字・音声入力変換方式
JPS62217298A (ja) * 1986-03-19 1987-09-24 株式会社リコー 音声認識装置
JPH1069291A (ja) * 1996-08-27 1998-03-10 Nissan Motor Co Ltd 音声認識装置
JPH11282486A (ja) * 1998-03-31 1999-10-15 Toshiba Corp サブワード型不特定話者音声認識装置及び方法
JP2002258889A (ja) * 2001-03-05 2002-09-11 Nissan Motor Co Ltd 辞書編集可能な音声認識装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11289098B2 (en) 2019-03-08 2022-03-29 Samsung Electronics Co., Ltd. Method and apparatus with speaker recognition registration

Also Published As

Publication number Publication date
JP2003044079A (ja) 2003-02-14

Similar Documents

Publication Publication Date Title
JP4274962B2 (ja) 音声認識システム
US6154722A (en) Method and apparatus for a speech recognition system language model that integrates a finite state grammar probability and an N-gram probability
US7783484B2 (en) Apparatus for reducing spurious insertions in speech recognition
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
US7630878B2 (en) Speech recognition with language-dependent model vectors
EP2048655B1 (en) Context sensitive multi-stage speech recognition
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
Bhardwaj et al. Effect of pitch enhancement in Punjabi children's speech recognition system under disparate acoustic conditions
Shahnawazuddin et al. Effect of prosody modification on children's ASR
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
JP2001188781A (ja) 会話処理装置および方法、並びに記録媒体
JP2007047412A (ja) 認識文法モデル作成装置、認識文法モデル作成方法、および、音声認識装置
Nadungodage et al. Continuous sinhala speech recognizer
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
Shahnawazuddin et al. Pitch-normalized acoustic features for robust children's speech recognition
Kanabur et al. An extensive review of feature extraction techniques, challenges and trends in automatic speech recognition
JP4655184B2 (ja) 音声認識装置および方法、記録媒体、並びにプログラム
Touazi et al. An experimental framework for Arabic digits speech recognition in noisy environments
JP2004163541A (ja) 音声応答装置
JP4461557B2 (ja) 音声認識方法および音声認識装置
JP2009116075A (ja) 音声認識装置
Rebai et al. LinTO Platform: A Smart Open Voice Assistant for Business Environments
Shinozaki et al. Unsupervised acoustic model adaptation based on ensemble methods
Syadida et al. Sphinx4 for indonesian continuous speech recognition system
Gunasekara et al. Real-time translation of discrete sinhala speech to unicode text

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080723

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20101007

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101104

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20101125

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20101208

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140107

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees