JP2009003008A - 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム - Google Patents

雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム Download PDF

Info

Publication number
JP2009003008A
JP2009003008A JP2007161450A JP2007161450A JP2009003008A JP 2009003008 A JP2009003008 A JP 2009003008A JP 2007161450 A JP2007161450 A JP 2007161450A JP 2007161450 A JP2007161450 A JP 2007161450A JP 2009003008 A JP2009003008 A JP 2009003008A
Authority
JP
Japan
Prior art keywords
noise
speech
label
data
acoustic model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2007161450A
Other languages
English (en)
Inventor
Takatoshi Sanehiro
貴敏 實廣
Tomoji Toriyama
朋二 鳥山
Kiyoshi Kogure
潔 小暮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ATR Advanced Telecommunications Research Institute International
Original Assignee
ATR Advanced Telecommunications Research Institute International
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ATR Advanced Telecommunications Research Institute International filed Critical ATR Advanced Telecommunications Research Institute International
Priority to JP2007161450A priority Critical patent/JP2009003008A/ja
Publication of JP2009003008A publication Critical patent/JP2009003008A/ja
Pending legal-status Critical Current

Links

Abstract

【課題】二種以上の雑音の重畳された音声から雑音を適切に除去できる雑音抑圧装置を提供する。
【解決手段】音声と雑音を含む訓練データの一種類の音声・雑音の音声雑音音響モデルが複数記憶される音声雑音音響モデル記憶部14と、訓練データの二種以上の音声・雑音が合成された合成音響モデルが記憶される合成音響モデル記憶部15と、ラベルと音響モデルを対応付ける辞書情報が記憶される辞書情報記憶部17と、訓練データで重畳されている音声と雑音の種類のラベルのラベル言語モデルが記憶されるラベル言語モデル記憶部18と、雑音重畳音声データを受け付ける受付部19と、各モデルと辞書情報を用いて雑音重畳音声データのラベル系列を認識するラベル認識部20と、そのラベル系列を用いて雑音を抑圧したクリーン音声データを生成する雑音抑圧部21とを備える。
【選択図】図1

Description

本発明は、雑音を抑圧する雑音抑圧装置等に関する。
実環境下での音声認識では、認識対象の音声に対して周囲の雑音の重畳されたものが入力されることが多く、そのような雑音の重畳された音声から雑音を除去するための雑音抑圧手法が開発されている(例えば、非特許文献1、非特許文献2参照)。
J.C.Segura,A.de la Torre,M.C. Benitez,A.M.Peinado,「Model−based compensation of the additive noise for continuous speech recognition. Experiments using the AURORA II database and tasks」、Proc.of EUROSPEECH2001,vol.1、pp.221−224、2001年 W.Herbordt,T.Horiuchi,M.Fujimoto,T.Jitsuhiro,S.Nakamura,「Hands−free speech recognition and communication on PDAs using microphone array technology」、Proc.of ASRU2005,pp.302−307、2005年
従来の音声抑圧手法では、音声に重畳されている雑音を一種類と仮定していた。しかしながら、実環境下では、定常的な一種類の雑音のみでなく、突発的な雑音も多く、二種類以上の雑音が音声に重畳されることもある。したがって、雑音を一種類と仮定していた従来の手法では、その二種類以上の雑音の重畳された音声から、それらの雑音を効果的に除去することはできなかった。
本発明は、上記問題点を解決するためになされたものであり、二種類以上の雑音の重畳された音声から、雑音を適切に除去することができる雑音抑圧装置等を提供することを目的とする。
上記目的を達成するため、本発明による雑音抑圧装置は、訓練用の音声データと雑音データを含む訓練データに含まれる一種類の音声データまたは雑音データの音響モデルである音声雑音音響モデルが複数記憶される音声雑音音響モデル記憶部と、前記訓練データに含まれる音声データと雑音データのうちの二種類以上が合成された音響モデルである合成音響モデルが記憶される合成音響モデル記憶部と、前記訓練データにおいて重畳されている音声と雑音の種類を識別する情報であるラベルと前記音声雑音音響モデルまたは前記合成音響モデルとを対応付ける情報である辞書情報が記憶される辞書情報記憶部と、雑音の重畳されている音声データである雑音重畳音声データを受け付ける受付部と、前記音声雑音音響モデル、前記合成音響モデル、前記辞書情報を用いて、前記雑音重畳音声データに対応するラベルをフレームごとに認識するラベル認識部と、前記ラベル認識部が認識したラベルを用いて、前記雑音重畳音声データの雑音が抑圧されたクリーン音声データを生成する雑音抑圧部と、を備えたものである。
このような構成により、二種類以上の雑音が音声データに重畳されている場合であっても、ラベル認識を行うことによって、その雑音の種類を推定することができ、その雑音を効果的に除去することができる。
また、本発明による雑音抑圧装置では、前記ラベルの言語モデルであるラベル言語モデルが記憶されるラベル言語モデル記憶部をさらに備え、前記ラベル認識部は、前記音声雑音音響モデル、前記合成音響モデル、前記ラベル言語モデル、前記辞書情報を用いて、前記雑音重畳音声データに対応するラベルをフレームごとに認識してもよい。
このような構成により、ラベル言語モデルを用いることによって、ラベルの認識の精度を向上させることができうる。
また、本発明による雑音抑圧装置では、前記訓練データが記憶される訓練データ記憶部と、前記訓練データに対応するラベルの時系列に沿った情報である訓練ラベル情報が記憶されるラベル記憶部と、前記訓練データ記憶部で記憶されている訓練データから、前記訓練ラベル情報を用いて音声雑音音響モデル及び合成音響モデルを生成し、前記音声雑音音響モデル記憶部、及び前記合成音響モデル記憶部にそれぞれ蓄積するモデル生成部と、前記ラベル記憶部で記憶されている訓練ラベル情報を用いて、ラベルのラベル言語モデルを生成し、前記ラベル言語モデル記憶部に蓄積すると共に、前記辞書情報を生成して前記辞書情報記憶部に蓄積するラベル言語モデル生成部と、をさらに備えてもよい。
このような構成により、ラベルの認識で用いる音声雑音音響モデルや合成音響モデル、辞書情報、ラベルのラベル言語モデルを生成することができ、その生成したモデル等を用いて、ラベルの認識を行うことができる。
また、本発明による雑音抑圧装置では、前記モデル生成部は、前記音声雑音音響モデルを生成すると共に、当該音声雑音音響モデルを2以上合成することによって合成音響モデルを生成してもよい。
このような構成により、訓練データから直接、合成音響モデルを生成する場合に比べて、合成音響モデルを生成するのに必要な時間を削減することができうる。また、訓練データにおいて、合成音響モデルに対応するデータがあまり多く含まれない場合であっても、合成音響モデルを適切に生成することができる。
また、本発明による雑音抑圧装置では、前記雑音抑圧部は、前記雑音重畳音声データをフレームごとにメルフィルタバンク分析することによって、前記雑音重畳音声データに対応する対数メルスペクトルを生成するメルフィルタバンク分析手段と、前記雑音重畳音声データに対応する対数メルスペクトルと、前記ラベル認識部が認識したラベルに応じた音声雑音音響モデルまたは合成音響モデルと、前記雑音重畳音声データにおけるクリーンな音声データに応じた音声雑音音響モデルとを用いて、フレームごとに雑音成分を算出する雑音成分算出手段と、前記雑音重畳音声データから、前記雑音成分算出手段が算出した雑音成分を除去する雑音抑圧手段と、を備えてもよい。
このような構成により、ラベル認識結果を用いて、音声データにどのような雑音成分が重畳されているのかを知ることができ、その雑音の種類に応じた音声雑音音響モデルや合成音響モデルを用いることができ、雑音重畳音声データから雑音成分を除去することができる。
また、本発明による雑音抑圧装置では、雑音抑圧装置と、音声認識の対象となる音声データに関する音響モデルが記憶される音声認識用音響モデル記憶部と、音声認識で用いる音声認識用辞書情報が記憶される音声認識用辞書情報記憶部と、音声認識の認識対象言語に関する言語モデルが記憶される言語モデル記憶部と、前記雑音抑圧装置が生成したクリーン音声データを、前記音響モデル、前記音声認識用辞書情報、及び、前記言語モデルを用いて音声認識する音声認識部と、前記音声認識部による音声認識結果を出力する出力部と、を備えてもよい。
このような構成により、雑音の抑圧されたクリーン音声データを用いて音声認識を行うため、受け付けられた雑音重畳音声データからの音声認識を精度よく行うことができうる。
本発明による雑音抑圧装置等によれば、二種類以上の雑音が重畳された音声から、それらの雑音を効果的に除去することができる。その結果、音声認識等の処理における精度を向上させることもできうる。
以下、本発明による雑音抑圧装置、音声認識装置について、実施の形態を用いて説明する。なお、以下の実施の形態において、同じ符号を付した構成要素及びステップは同一または相当するものであり、再度の説明を省略することがある。
(実施の形態1)
本発明の実施の形態1による雑音抑圧装置について、図面を参照しながら説明する。
図1は、本実施の形態による雑音抑圧装置1の構成を示すブロック図である。図1において、本実施の形態による雑音抑圧装置1は、訓練データ記憶部11と、ラベル記憶部12と、モデル生成部13と、音声雑音音響モデル記憶部14と、合成音響モデル記憶部15と、ラベル言語モデル生成部16と、辞書情報記憶部17と、ラベル言語モデル記憶部18と、受付部19と、ラベル認識部20と、雑音抑圧部21と、蓄積部22とを備える。
訓練データ記憶部11では、訓練データが記憶される。ここで、訓練データは、音声データと雑音データを含んでいる。この音声データと雑音データとは、両者ともにモデルの学習に用いられる訓練用のものである。音声データとは、雑音ではないデータであり、例えば、人間の発声した音声のデータである。雑音データとは、ビープ音や、マシンノイズ等の雑音のデータである。この訓練データを用いて、後述するモデル生成部13によるモデルの学習が行われる。
訓練データ記憶部11に訓練データが記憶される過程は問わない。例えば、記録媒体を介して訓練データが訓練データ記憶部11で記憶されるようになってもよく、通信回線等を介して送信された訓練データが訓練データ記憶部11で記憶されるようになってもよく、あるいは、マイクロフォン等の入力デバイスを介して入力された訓練データが訓練データ記憶部11で記憶されるようになってもよい。訓練データ記憶部11での記憶は、外部のストレージデバイス等から読み出した訓練データのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。訓練データ記憶部11は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
ラベル記憶部12では、訓練データに対応するラベルの時系列に沿った情報である訓練ラベル情報が記憶される。この訓練ラベル情報によって、訓練データ記憶部11で記憶されている訓練データにおける音声データや雑音データの種類がラベルされることになる。例えば、ラベル「beep」「target」「beep.target」によって、訓練データに、ビープ音、目的発声、ビープ音と目的発声の重畳されたデータが含まれることが示されることになる。目的発声とは、所望の発声、すなわち、処理や聞き取り等の目的となる発声のことであり、例えば、音声認識を行う場合には、その音声認識の対象となる発声のことである。この訓練ラベル情報は、時系列に沿ったラベルの情報であるため、例えば、訓練データの時間に関する情報(例えば、タイムコードなど)を含んでおり、その情報によって、ラベルに対応する訓練データの期間を特定できるようになっていてもよい。
ラベル記憶部12に訓練ラベル情報が記憶される過程は問わない。例えば、記録媒体を介して訓練ラベル情報がラベル記憶部12で記憶されるようになってもよく、通信回線等を介して送信された訓練ラベル情報がラベル記憶部12で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された訓練ラベル情報がラベル記憶部12で記憶されるようになってもよい。ラベル記憶部12での記憶は、外部のストレージデバイス等から読み出した訓練ラベル情報のRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。ラベル記憶部12は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
モデル生成部13は、訓練データ記憶部11で記憶されている訓練データから、訓練ラベル情報を用いて音声雑音音響モデル及び合成音響モデルを生成し、音声雑音音響モデル記憶部14、及び合成音響モデル記憶部15にそれぞれ蓄積する。音声雑音音響モデルとは、訓練データに含まれる一種類の音声データまたは雑音データの音響モデルである。音声データの種類とは、例えば、「目的発声」や、「他の発声」等である。また、雑音データとは、例えば、「ビープ音」や、「マシンノイズ」等である。音声データの音響モデルとは、例えば、目的発声の音声データの音響モデルや、他人の発声の音声データの音響モデル等であってもよい。また、雑音データの音響モデルとは、例えば、ビープ音の音響モデルや、マシンノイズの音響モデル等であってもよい。合成音響モデルとは、訓練データに含まれる音声データと雑音データのうちの二種類以上が合成された音響モデルである。「音声データと雑音データのうちの二種類以上」とは、例えば、二種類以上の音声データであってもよく、一種類以上の音声データと一種類以上の雑音データとであってもよく、二種類以上の雑音データであってもよい。なお、合成音響モデルにおける音声データと雑音データのうちの二種類以上の組合せは、訓練データに含まれる一種類の音声データまたは雑音データのすべての組合せであってもよく、あるいは、一部の組合せであってもよい。前者であっても、組合せの最大の個数が決まっていることが好適である。また、後者の場合には、例えば、一種類の音声データまたは雑音データの組合せのうち、訓練データに含まれる組合せであってもよく、それ以外の組合せであってもよい。また、モデル生成部13が生成する音声雑音音響モデルや合成音響モデルは、話者適応したものであってもよく、あるいは、そうでなくてもよい。
モデル生成部13は、訓練ラベル情報を用いることによって、訓練データから所望の音声データの区間や、所望の雑音データの区間、あるいは、所望の音声の雑音の重畳されている区間等を抽出することができる。したがって、例えば、モデル生成部13がビープ音の音声雑音音響モデルを生成する場合には、訓練ラベル情報を用いて訓練情報からビープ音に対応する雑音データの区間を抽出し、そのビープ音の雑音データを用いて、ビープ音の音声雑音音響モデルを生成する。モデル生成部13は、一般にGMM(Gaussian Mixture Model)でモデル化を行うが、HMM(Hidden Markov Model)でモデル化を行ってもよい。本実施の形態では、GMMでモデル化を行う場合について説明する。
モデル生成部13が、訓練データから音声雑音音響モデルを生成する方法は、すでに公知であり、その説明を省略する。なお、GMMでのモデル化の際に、混合分布数を音声データや、雑音データの種類ごとに変えてもよい。例えば、目的発声の場合には、混合分布数を200として、ビープ音の場合には、混合分布数を4としてもよい。
また、モデル生成部13は、訓練データから直接、合成音響モデルを生成してもよく、あるいは、訓練データから音声雑音音響モデルを生成し、その生成した音声雑音音響モデルを2以上合成することによって合成音響モデルを生成してもよい。本実施の形態では、モデル生成部13は、音声雑音音響モデルを生成すると共に、その音声雑音音響モデルを2以上合成することによって合成音響モデルを生成するものとする。なお、例えば、2個の音声雑音音響モデルを合成した場合には、その合成音響モデルの混合分布数は、その2個の音声雑音音響モデルのそれぞれの混合分布数を掛け合わせた数となる。例えば、混合分布数「3」の音声雑音音響モデルと、混合分布数「2」の音声雑音音響モデルとを合成した合成音響モデルの混合分布数は、2×3=6となる。なお、モデル合成の方法については、例えば、モデルパラメータ上でPMC(Parallel Model Combination)と同様のモデル合成を行う方法が知られており、その詳細な説明を省略する。PMCを用いたモデル合成の方法については、例えば、次の文献に記載されている。
文献:M.F.J.Gales,「Model−based techniques for noise robust speech recognition」、PhD thesis,University of Cambridge,1995年
ここで、音声雑音音響モデルを合成することによって合成音響モデルを生成するメリットについて簡単に説明する。まず、訓練データは有限の長さであるため、訓練データにおいて、合成音響モデルに対応するデータの区間よりも、音声雑音音響モデルに対応するデータの区間の方が一般に長いと考えられる。したがって、訓練データから直接、合成音響モデルを生成するよりも、訓練データから音声雑音音響モデルを生成し、その音声雑音音響モデルを2以上合成することによって合成音響モデルを生成する方が、精度が高いと考えられる。また、一般に、データから音響モデルを生成するよりは、音響モデルを合成することによって合成音響モデルを生成する方が早いと考えられる。したがって、合成音響モデルを生成する時間を短縮する観点からも、音声雑音音響モデルを2以上合成することによって合成音響モデルを生成する方が適切であると考えられる。さらに、訓練データにおいて、音声と雑音が重なり合う区間や、2種類以上の雑音の重なり合う区間を適切に特定することは困難である。したがって、より特定の簡単な音声のみの区間や、雑音のみの区間を特定し、それらの区間に対応する音響モデルを合成する方が、より精度の高いモデルになると考えられる。
音声雑音音響モデル記憶部14では、訓練用の音声データと雑音データを含む訓練データに含まれる一種類の音声データまたは雑音データの音響モデルである音声雑音音響モデルが複数記憶される。音声雑音音響モデル記憶部14は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
合成音響モデル記憶部15では、訓練データに含まれる音声データと雑音データのうちの二種類以上のデータが合成された音響モデルである合成音響モデルが記憶される。合成音響モデル記憶部15は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
ラベル言語モデル生成部16は、ラベル記憶部12で記憶されている訓練ラベル情報を用いて、ラベルのラベル言語モデルを生成し、ラベル言語モデル記憶部18に蓄積すると共に、辞書情報を生成して辞書情報記憶部17に蓄積する。ここで、ラベル言語モデルは、例えば、ラベルのNグラムモデルであってもよく、あるいは、文法であってもよい。文法は、例えば、ネットワーク文法や、CFG(Context Free Grammar)、あるいは、それらの文法において確率を用いるものであってもよい。Nグラムモデルや文法については、自然言語処理や、音声認識において公知のものであり、詳細な説明を省略する。本実施の形態では、ラベル言語モデルがNグラムモデルである場合について説明する。また、辞書情報とは、ラベルと音声雑音音響モデルまたは合成音響モデルとを対応付ける情報である。辞書情報は、例えば、ラベルを識別する情報と、音声雑音音響モデルを識別する情報または合成音響モデルを識別する情報とを対応付けて有する情報であってもよい。ラベルを識別する情報は、ラベルそのものであってもよく、音声雑音音響モデルを識別する情報や合成音響モデルを識別する情報は、そのモデルの名称であってもよい。したがって、辞書情報は、例えば、ビープ音のラベルを識別する情報である「beep」と、ビープ音に対応する音声雑音音響モデルを識別する情報である「beep」とを対応付ける情報であってもよい。なお、ラベル言語モデル生成部16は、このラベル言語モデルや辞書情報を生成する際に、モデルを識別する情報を取得するために、音声雑音音響モデルや、合成音響モデル等を参照してもよい。
なお、ラベル言語モデル生成部16がラベル言語モデルを生成する方法は、通常のNグラム言語モデルを生成する方法や、文法を生成する方法と同じであり(このたびは、言語モデルの単語等がラベルとなっただけである)、その説明を省略する。また、ラベル言語モデル生成部16がNグラムモデルを生成する場合に、その生成するラベルのNグラムモデルのNの値は、あらかじめ決められているものとする。Nは、例えば、2(バイグラム)であってもよく、3(トライグラム)であってもよく、その両方であってもよい。
辞書情報記憶部17では、ラベルと音声雑音音響モデルまたは合成音響モデルとを対応付ける情報である辞書情報が記憶される。辞書情報記憶部17は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
ラベル言語モデル記憶部18では、訓練データにおいて重畳されている音声と雑音の種類を識別する情報であるラベルのラベル言語モデルが記憶される。ラベル言語モデル記憶部18は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。なお、ラベル言語モデルが文法を含む場合に、その文法の一部または全部は、ラベル言語モデル生成部16によって生成されたものでなくてもよく、例えば、人手によって生成されたものであってもよい。その場合には、ラベル言語モデルの一部または全部が、外部から入力され、ラベル言語モデル記憶部18に蓄積されてもよい。
受付部19は、雑音の重畳されている音声データである雑音重畳音声データを受け付ける。受付部19は、例えば、入力デバイス(例えば、マイクロフォンなど)から入力された雑音重畳音声データを受け付けてもよく、有線もしくは無線の通信回線を介して送信された雑音重畳音声データを受信してもよく、所定の記録媒体(例えば、光ディスクや磁気ディスク、半導体メモリなど)から読み出された雑音重畳音声データを受け付けてもよい。なお、受付部19は、受け付けを行うためのデバイス(例えば、モデムやネットワークカードなど)を含んでもよく、あるいは含まなくてもよい。また、受付部19は、ハードウェアによって実現されてもよく、あるいは所定のデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。なお、受付部19が受け付けた雑音重畳音声データを一時的に記憶しておく図示しない記録媒体が存在してもよい。
ラベル認識部20は、音声雑音音響モデル記憶部14で記憶されている音声雑音音響モデル、合成音響モデル記憶部15で記憶されている合成音響モデル、辞書情報記憶部17で記憶されている辞書情報、ラベル言語モデル記憶部18で記憶されているラベル言語モデルを用いて、受付部19が受け付けた雑音重畳音声データに対応するラベルを認識する。この認識は、音声認識における単語がラベルとなり、音素ごとのモデルが音声データや雑音データまたはそれらの混合ごとのモデルとなる以外、音声認識と同様にして行われる。したがって、このラベル認識部20としては、音響モデル、言語モデル、辞書を用いた従来の音声認識処理を行う構成要素を用いることができ、その詳細な説明を省略する。
このラベル認識の結果、雑音重畳音声データに対応するラベルが時系列に沿って特定されることになる。例えば、雑音重畳音声データの1フレームから50フレームまでにはラベル「beep」が対応付けられされ、51フレームから200フレームまではラベル「beep.target」が対応付けられることになる。この認識されたラベルを示す情報は、図示しない記録媒体において記憶されるものとする。
なお、ラベル認識部20は、ビーム探索、あるいは複数のモデルを切り替えて探索するマルチパス探索を行うことによって、最尤ラベル系列を取得してもよい。例えば、第1パスで音声雑音音響モデルや合成音響モデルとバイグラムを用いた探索を行い、第2パスでトライグラムによるリスコアリングを行ってもよい。
雑音抑圧部21は、ラベル認識部20が認識したラベルを用いて、雑音重畳音声データの雑音が抑圧されたクリーン音声データを生成する。雑音抑圧部21は、認識されたラベル系列に対応する音声雑音音響モデルや合成音響モデルをフレームごとに選択し、その選択した音響モデルを用いて雑音抑圧を行う。雑音抑圧部21は、例えば、前述の非特許文献1,2に記載されているGMMに基づいた雑音抑圧手法を複数合成モデルに拡張した手法を用いて雑音抑圧を行ってもよい。なお、雑音抑圧部21は、特徴量空間において雑音抑圧を行ってもよく、あるいは、音声信号に対して雑音抑圧を行ってもよい。前者の場合には、雑音抑圧部21の出力は雑音成分の除去された特徴量となるが、後者の場合には、雑音抑圧部21の出力は、雑音成分の除去された音声信号となる。
図2は、本実施の形態による雑音抑圧部21の詳細な構成を示すブロック図である。雑音抑圧部21は、メルフィルタバンク分析手段31と、雑音成分算出手段32と、雑音抑圧手段33とを備える。
メルフィルタバンク分析手段31は、雑音重畳音声データをフレームごとにメルフィルタバンク分析することによって、雑音重畳音声データに対応する対数メルスペクトルを生成する。
雑音成分算出手段32は、メルフィルタバンク分析手段31が生成した、雑音重畳音声データに対応する対数メルスペクトルと、ラベル認識部20が認識したラベルに応じた音声雑音音響モデルまたは合成音響モデルと、雑音重畳音声データにおけるクリーンな音声データに応じた音声雑音音響モデルとを用いて、フレームごとに雑音成分を算出する。
雑音抑圧手段33は、雑音重畳音声データから、雑音成分算出手段32が算出した雑音成分を除去する。この雑音成分の除去は、例えば、推定された雑音成分からウィナーフィルタを構成し、フィルタ処理による雑音抑圧にて時間領域での音声波形を得てもよく、または、対数メルスペクトル領域での雑音成分の減算を行ってもよい。前者の場合には、対数メルスペクトル領域におけるウィナーフィルタを構成することができ、フィルタ処理とすることで、入力された雑音重畳音声データから音声波形を推定することができる。一方、後者の場合には、対数メルスペクトル領域における雑音成分の除去となり、雑音成分の除去されたクリーン音声データは、対数メルスペクトルとなる。本実施の形態では、前者の場合について説明する。
蓄積部22は、雑音抑圧部21によって雑音の抑圧されたクリーン音声データを、所定の記録媒体に蓄積する。この記録媒体は、例えば、半導体メモリや、光ディスク、磁気ディスク等であり、蓄積部22が有していてもよく、あるいは蓄積部22の外部に存在してもよい。また、この記録媒体は、クリーン音声データを一時的に記憶するものであってもよく、そうでなくてもよい。
なお、本実施の形態では、雑音抑圧装置1において、雑音抑圧後のクリーン音声データが蓄積される場合について説明するが、雑音抑圧装置1は、蓄積部22に代えて、雑音抑圧後のクリーン音声データを出力する出力部を備えてもよい。その出力は、例えば、所定の機器への通信回線を介した送信でもよく、スピーカによる音声出力でもよく、記録媒体への蓄積でもよい。なお、その出力部は、出力を行うデバイス(例えば、スピーカや通信デバイスなど)を含んでもよく、あるいは含まなくてもよい。また、その出力部は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
また、訓練データ記憶部11、ラベル記憶部12、音声雑音音響モデル記憶部14、合成音響モデル記憶部15、辞書情報記憶部17、ラベル言語モデル記憶部18、蓄積部22がクリーン音声データを蓄積する図示しない記録媒体のうち、任意の2以上の記録媒体は、同一の記録媒体によって実現されてもよく、別々の記録媒体によって実現されてもよい。前者の場合には、例えば、訓練データを記憶している領域が訓練データ記憶部11となり、訓練ラベル情報を記憶している領域がラベル記憶部12となる。
次に、本実施の形態による雑音抑圧装置1で用いる雑音抑圧手法について説明する。雑音重畳音声データのメルフィルタバンク出力は次のようになる。
ここで、iはフレーム番号であり、S(i)はクリーン音声、N(i)はn番目の雑音、Nは雑音の種類数である。s(i)=logS(i)、n(i)=logN(i)、x(i)=logX(i)とすると、対数スペクトル領域では、上記(1)式は次のようになる。
ここで、g(s(i),n1(i),...,n(i))は、クリーン音声s(i)と雑音重畳音声データx(i)のミスマッチ成分である。MMSE(Minimum Mean−Squared Error)推定によって推定されるクリーン音声は次のようになる。
クリーン音声をK個の分布からなるGMMで表現すると次のようになる。
ここで、ws,k、μs,k、Σs,kは、それぞれ第k混合要素の混合重み、平均ベクトル、共分散行列である。また、N(s;μs,k、Σs,k)は、正規分布を示す。同様に、第n雑音をL個の分布からなるGMMで次のようにモデル化する。
ここで、wnn,l、μnn,l、Σnn,lは、それぞれ第l混合要素の混合重み、平均ベクトル、共分散行列である。
上記の仮定から、前述の非特許文献1と同様に、(3)式を次式で近似する。
Mは、合成する各モデルの混合分布数を掛け合わせた値となる。例えば、混合分布数がAのモデルと、混合分布数がBのモデルと、混合分布数がCのモデルとを合成した場合には、M=A×B×Cとなる。また、P(m|x(i))は、次式のように推定される。
ここで、雑音重畳音声データの第m混合要素は、クリーン音声の第k混合成分と、雑音モデルセット{n,n,...,n}から選択されたNのうちの第lnm混合要素との合成分布である。ここで、Nは雑音モデルセット{n,n,...,n}のサブセットとなる。重みは次のようにした。
その平均ベクトルと共分散行列は、一次テイラー展開による近似により得られる。なお、詳細については、例えば、次の文献に記載されている。
文献:P.J.Moreno,「Speech recognition in noisy environments」、PhD thesis,Carnegie Mellon University,Pittsburgh,Pennsylvania,1996年
なお、3つ以上のモデルの合成の場合に、まず2つを合成し、その後、次のモデルを追加で合成していく、との方法を用いてもよく、あるいは、そうでなくてもよい。対角共分散行列を用いる場合には、前者と後者はまったく等価となる。
本実施の形態による雑音抑圧装置1では、ラベルの認識を行うため、目的発声の区間と、そうでない区間とを区別することができる。したがって、目的発声の区間とそれ以外とで、ミスマッチ成分の定義を変えることができる。
ここで、目的発声の区間におけるμx,mは、クリーン音声μs,k、及び雑音成分から合成されている。どの雑音成分の合成であるのかについては、認識されたラベルによって知ることができる。なお、他の区間におけるμx,mは雑音成分のみが合成されている。また、εは小さい正の値で、雑音抑圧後の残差信号パワーを調整するためのものである。
次に、本実施の形態による雑音抑圧装置1の動作について、図3のフローチャートを用いて説明する。
(ステップS101)モデル生成部13は、モデルを生成するタイミングであるかどうか判断する。そして、モデルを生成するタイミングである場合には、ステップS102に進み、そうでない場合には、ステップS106に進む。モデル生成部13は、例えば、モデルを生成する指示を雑音抑圧装置1が受け付けた場合に、モデルを生成するタイミングであると判断してもよく、訓練データが訓練データ記憶部11に蓄積され、訓練ラベル情報がラベル記憶部12に蓄積された場合に、モデルを生成するタイミングであると判断してもよく、あるいは、その他のタイミングで、モデルを生成するタイミングであると判断してもよい。
(ステップS102)モデル生成部13は、ラベル記憶部12で記憶されている訓練ラベル情報を用いて、一種類の音声データの区間、あるいは、一種類の雑音データの区間を特定し、その区間に対応する音声雑音音響モデルをそれぞれ生成し、音声雑音音響モデル記憶部14に蓄積する。なお、蓄積の際に、訓練ラベル情報の示すラベル(例えば、「beep」等)を、音声雑音音響モデルに対応付けて蓄積してもよい。
(ステップS103)モデル生成部13は、音声雑音音響モデル記憶部14で記憶されている2以上の音声雑音音響モデルを読み出し、それらを合成することによって合成音響モデルを生成して合成音響モデル記憶部15に蓄積する
また、前述のように、音声雑音音響モデルのすべての組合せを網羅するのではなく、ラベル記憶部12で記憶されている訓練ラベル情報で示される組合せに対応する合成音響モデルを生成するようにしてもよい。また、合成音響モデルの蓄積の際に、その訓練ラベル情報の示すラベル(例えば、「beep.target」等)を、合成音響モデルに対応付けて蓄積してもよい。
(ステップS104)ラベル言語モデル生成部16は、ラベル記憶部12で記憶されている訓練ラベル情報を用いて、ラベル言語モデルを生成し、ラベル言語モデル記憶部18に蓄積する。
(ステップS105)ラベル言語モデル生成部16は、辞書情報を生成し、辞書情報記憶部17に蓄積する。そして、ステップS101に戻る。なお、この辞書情報は、前述のように、ラベルと、音声雑音音響モデルまたは合成音響モデルとを対応付けるものである。したがって、例えば、辞書情報は、音響モデルに対応付けられているラベルの情報と、ラベルの名称とを対応付ける情報であってもよい。その場合には、例えば、音響モデルに対応付けられているラベルの情報「beep」と、ラベルの名称「beep」とが辞書情報において対応付けられることになる。
(ステップS106)受付部19は、雑音重畳音声データを受け付けたかどうか判断する。そして、受け付けた場合には、ステップS107に進み、そうでない場合には、ステップS101に戻る。
(ステップS107)ラベル認識部20は、音声雑音音響モデル、合成音響モデル、ラベル言語モデル、辞書情報を用いて、雑音重畳音声データに対応するラベルを認識する。そして、その認識結果を図示しない記録媒体に蓄積する。
(ステップS108)雑音抑圧部21は、認識されたラベルを用いて、雑音重畳音声データの雑音が抑圧されたクリーン音声データを生成する。この処理の詳細については、図4のフローチャートを用いて後述する。
(ステップS109)蓄積部22は、雑音抑圧後のクリーン音声データを図示しない記録媒体に蓄積する。そして、ステップS101に戻る。
なお、図3のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
図4は、図3のフローチャートにおける雑音抑圧(ステップS108)の処理の詳細を示すフローチャートである。
(ステップS201)雑音抑圧部21は、カウンタiを1に設定する。
(ステップS202)雑音成分算出手段32は、雑音重畳音声データのフレームiに対応するラベルを取得する。このラベルは、ラベル認識部20によって認識されたラベルである。
(ステップS203)メルフィルタバンク分析手段31は、雑音重畳音声データのフレームiをメルフィルタバンク分析することによって、対数メルスペクトルを生成する。
(ステップS204)雑音成分算出手段32は、対数メルスペクトルと、ステップS202で取得したラベルに対応する音声雑音音響モデルまたは合成音響モデルと、クリーンな音声データに応じた音声雑音音響モデルとを用いて、フレームiに対応する雑音成分を算出する。
具体的には、フレームiが目的発声の区間であるかどうかに応じて(10)式を用いてg(s(i),n1(i),...,n(i))を算出する。(10)式において、μs,kは、目的発声に対応する音声雑音音響モデルから算出される。また、μx,mは、フレームiに対応する合成音響モデルから算出される。フレームiに対応する合成音響モデルとは、フレームiに対応するラベルに対応する合成音響モデルである。例えば、フレームiがビープ音と、目的発声と、マシンノイズとの重畳されたデータである場合には、そのフレームiに対応する合成音響モデルは、ビープ音の音声雑音音響モデルと、目的発話の音声雑音音響モデルと、マシンノイズの音声雑音音響モデルとが合成された合成音響モデルとなる。この合成音響モデルは、合成音響モデル記憶部15で記憶されているものを用いることができる。
次に、(7)式を用いて、(6)式の右辺第2項を算出することによって、雑音成分を算出する。なお、本実施の形態では、雑音成分を音声信号から除去する場合について説明するので、雑音成分算出手段32は、算出した(6)式の右辺第2項をインパルス応答(時間領域のパラメータ)に変換する。雑音成分算出手段32は、例えば、メルスペクトルを線形スペクトルにマッピングして変換を行うMEL−warped IDCTを用いてもよい(例えば、前述の非特許文献2参照)。従来の逆DCTでは、メルスペクトルをインパルス応答に変換できないからである。
(ステップS205)雑音抑圧手段33は、雑音成分算出手段32の算出した雑音成分を雑音重畳音声データから除去することにより、クリーン音声データを得る。例えば、雑音成分がインパルス応答で与えられる場合には、雑音抑圧手段33は、そのインパルス応答を雑音重畳音声データのフレームiに畳み込むことにより、クリーン音声データのフレームiを得ることができる。このクリーン音声データのフレームiは、蓄積部22に渡されてもよく、あるいは、蓄積部22に渡されるまで、図示しない記録媒体において一時的に記憶されていてもよい。
(ステップS206)雑音抑圧部21は、カウンタiを1だけインクリメントする。
(ステップS207)雑音抑圧部21は、雑音重畳音声データにフレームiが存在するかどうか判断する。そして、存在する場合には、ステップS202に戻り、そうでない場合には、図3のフローチャートに戻る。
なお、図3のフローチャートでは、雑音抑圧を行った後に、クリーン音声データを蓄積する場合について示しているが、図4のフローチャートで示されるように雑音抑圧の処理を行う場合には、雑音抑圧後のクリーン音声データのフレームを順次、蓄積部22が蓄積するようにしてもよい。
次に、本実施の形態による雑音抑圧装置1の動作について、具体例を用いて説明する。
図5は、訓練データ記憶部11で記憶されている訓練データの一例を示す図である。また、図6は、ラベル記憶部12で記憶されている訓練ラベル情報の一例を示す図である。この訓練ラベル情報は、ラベルと、そのラベルに対応する訓練データの時間とを対応付けて有する情報である。時間は、始端と終端が含まれている。図6における単位は秒である。この訓練ラベル情報によって、例えば、訓練データの0.5秒から0.8秒まではビープ音であり、訓練データの0.8秒から1.0秒まではビープ音と目的発声とが重畳されていることが示されている。
訓練データ記憶部11に訓練データが記憶されており、ラベル記憶部12に訓練ラベル情報が記憶されている状況において、ユーザが図示しない入力デバイス(例えば、マウスやキーボード等)を操作することによって、モデルを生成する指示を雑音抑圧装置1に入力したとする。すると、モデル生成部13は、モデルを生成するタイミングであると判断する(ステップS101)。そして、モデル生成部13は、ラベル記憶部12を参照しながら、一種類の音声データまたは一種類の雑音データに対応するラベルを特定する。そして、その特定したラベルに対応する時間を訓練ラベル情報から取得することにより、一種類の音声データの区間や、一種類の雑音データの区間を特定する。その後、モデル生成部13は、その特定した区間に対応する音声雑音音響モデルをそれぞれ生成し、音声雑音音響モデル記憶部14に蓄積する(ステップS102)。モデル生成部13は、この蓄積の際に、音声雑音音響モデルに対応するラベルの名称に対応付けて、その音声雑音音響モデルを蓄積する。
また、モデル生成部13は、ラベル記憶部12を参照しながら、二種類以上の音声データや雑音データに対応するラベルを特定する。そして、その特定したラベルに含まれる音声データや雑音データを特定し、その特定した音声データや雑音データにそれぞれ対応する音声雑音音響モデルを音声雑音音響モデル記憶部14から読み出す。その後、モデル生成部13は、その読み出した複数の音声雑音音響モデルを合成することによって、その特定したラベルに対応する合成音響モデルを生成し、合成音響モデル記憶部15に蓄積する(ステップS103)。モデル生成部13は、この蓄積の際に、合成音響モデルに対応するラベルの名称に対応付けて、その合成音響モデルを蓄積する。
ラベル言語モデル生成部16は、ラベル記憶部12で記憶されている訓練ラベル情報を用いて、ラベルのNグラムモデルを生成し、ラベル言語モデル記憶部18に蓄積する(ステップS104)。また、ラベル言語モデル生成部16は、訓練ラベル情報を用いて辞書情報も生成し、辞書情報記憶部17に蓄積する(ステップS105)。この辞書情報は、図7で示されるようになる。図7において、事象情報は、ラベルを識別する情報であるラベルの名称と、音響モデルを識別する情報とを対応付けて有する情報である。なお、音響モデルを識別する情報として、この具体例では、ラベルの名称を用いているため、両者は同じ情報となっている。
次に、マイクロフォンで集音された雑音の重畳された音声が図示しないA/D変換器によってデジタル信号に変換されて蓄積され、その蓄積された一連の雑音重畳音声データが受付部19で受け付けられたとする(ステップS106)。すると、ラベル認識部20は、音声雑音音響モデル、合成音響モデル、辞書情報、ラベル言語モデル、すなわち、Nグラムモデルを用いて、音声認識と同様の手法によって、ラベル認識を行う(ステップS107)。例えば、図8で示されるように、ビープ音(beep)や、マシンノイズ(machine noise)、目的発声(target utterance)等が重畳された雑音重畳音声データが受け付けられた場合には、「beep」や「beep.machine」、「machine」等のラベルが雑音重畳音声データの各区間に対して付与されることになる。なお、ラベル認識は、図9で示されるように、認識したラベルの名称と、そのラベルの時間とを対応付けて有する情報である認識ラベル情報を構成し、その認識ラベル情報を図示しない記録媒体において一時的に記憶してもよい。図9で示される認識ラベル情報における時間の単位は、フレームの番号である。
次に、雑音抑圧部21による雑音を抑圧する処理について説明する。まず、雑音抑圧部21の雑音成分算出手段32は、フレーム1に対応するラベルの名称「beep」を、ラベル認識部20が生成した認識ラベル情報から取得する(ステップS201,S202)。また、メルフィルタバンク分析手段31は、雑音重畳音声データのフレーム1に対応する対数メルスペクトルを生成して、雑音成分算出手段32に渡す(ステップS203)。雑音成分算出手段32は、ビープ音に対応する音声雑音音響モデルを用いて、雑音成分を算出する。なお、ここでは、目的発声が含まれないため、(10)式の下側の式を用いて雑音成分を算出する(ステップS204)。また、その算出した雑音成分を、前述のようにMEL−warped IDCTを用いることによって、インパルス応答に変換して、雑音抑圧手段33に渡す。雑音抑圧手段33は、雑音重畳音声データのフレーム1にインパルス応答を畳み込むことによって、クリーン音声データのフレーム1を生成して蓄積部22に渡す(ステップS205)。このように、雑音抑圧部21は、順次、各フレームに対する雑音抑圧の処理を実行することになる(ステップS108,S202〜S207)。
蓄積部22は、雑音抑圧部21から受け取ったクリーン音声データの各フレームを順次、図示しない記録媒体に蓄積していく(ステップS109)。このようにして、雑音重畳音声データに対する雑音抑圧の処理が行われて、クリーン音声データを得ることができる。このクリーン音声データは、例えば、ユーザが聞くために用いられてもよく、あるいは、後述する実施の形態2で説明するように、音声認識の処理のために用いられてもよく、あるいは、他の処理のために用いられてもよい。
以上のように、本実施の形態による雑音抑圧装置1によれば、複数モデル合成を用いて雑音重畳音声データの最尤ラベル系列を取得し、そのラベル系列に応じて複数モデル合成に拡張した雑音抑圧処理を行うことによって、二種類以上の雑音の重畳された音声データから、雑音を効果的に除去することができる。なお、具体的な実験結果については、実施の形態2において説明する。
(実施の形態2)
本発明の実施の形態2による音声認識装置について、図面を参照しながら説明する。本実施の形態による音声認識装置は、実施の形態1による雑音抑圧装置を備え、その雑音抑圧装置による雑音抑圧後のクリーン音声データに対して、音声認識処理を行うものである。
図10は、本実施の形態による音声認識装置2の構成を示すブロック図である。本実施の形態による音声認識装置2は、実施の形態1による雑音抑圧装置1の各構成要素に加えて、音声認識用音響モデル記憶部41と、言語モデル記憶部42と、音声認識用辞書情報記憶部43と、音声認識部44と、出力部45とを備える。このように、本実施の形態による音声認識装置2は、実施の形態1による雑音抑圧装置1を含んでいることになる。なお、音声認識用音響モデル記憶部41、言語モデル記憶部42、音声認識用辞書情報記憶部43、音声認識部44、出力部45以外の構成及び動作は、実施の形態1と同様であり、その説明を省略する。
音声認識用音響モデル記憶部41では、音声認識の対象となる音声データに関する音響モデルが記憶される。なお、この音響モデルは、音声認識用のものである。音声認識用の音響モデルは、すでに公知であり、その詳細な説明を省略する。音声認識用音響モデル記憶部41に音響モデルが記憶される過程は問わない。例えば、記録媒体を介して音響モデルが音声認識用音響モデル記憶部41で記憶されるようになってもよく、あるいは、通信回線等を介して送信された音響モデルが音声認識用音響モデル記憶部41で記憶されるようになってもよい。
音声認識用音響モデル記憶部41での記憶は、外部のストレージデバイス等から読み出した音響モデルのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。音声認識用音響モデル記憶部41は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
言語モデル記憶部42では、音声認識の認識対象言語に関する言語モデルが記憶される。この言語モデルは、音声認識用のものであり、例えば、バイグラムの言語モデルや、トライグラムの言語モデル等である。音声認識用の言語モデルは、すでに公知であり、その詳細な説明を省略する。言語モデル記憶部42に言語モデルが記憶される過程は問わない。例えば、記録媒体を介して言語モデルが言語モデル記憶部42で記憶されるようになってもよく、あるいは、通信回線等を介して送信された言語モデルが言語モデル記憶部42で記憶されるようになってもよい。
言語モデル記憶部42での記憶は、外部のストレージデバイス等から読み出した言語モデルのRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。言語モデル記憶部42は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
音声認識用辞書情報記憶部43では、音声認識で用いる音声認識用辞書情報が記憶される。音声認識用の辞書情報は、すでに公知であり、その詳細な説明を省略する。音声認識用辞書情報記憶部43に情報が記憶される過程は問わない。例えば、記録媒体を介して音声認識用辞書情報が音声認識用辞書情報記憶部43で記憶されるようになってもよく、あるいは、通信回線等を介して送信された音声認識用辞書情報が音声認識用辞書情報記憶部43で記憶されるようになってもよい。
音声認識用辞書情報記憶部43での記憶は、外部のストレージデバイス等から読み出した音声認識用辞書情報のRAM等における一時的な記憶でもよく、あるいは、長期的な記憶でもよい。音声認識用辞書情報記憶部43は、所定の記録媒体(例えば、半導体メモリや磁気ディスク、光ディスクなど)によって実現されうる。
なお、訓練データ記憶部11、ラベル記憶部12、音声雑音音響モデル記憶部14、合成音響モデル記憶部15、辞書情報記憶部17、ラベル言語モデル記憶部18、蓄積部22がクリーン音声データを蓄積する図示しない記録媒体、音声認識用音響モデル記憶部41、言語モデル記憶部42、音声認識用辞書情報記憶部43のうち、任意の2以上の記録媒体は、同一の記録媒体によって実現されてもよく、別々の記録媒体によって実現されてもよい。
音声認識部44は、雑音抑圧装置1が生成したクリーン音声データを、音響モデル、音声認識用辞書情報、及び、言語モデルを用いて音声認識する。この音声認識の処理は、すでに公知であり、その詳細な説明を省略する。
出力部45は、音声認識部44による音声認識結果を出力する。この音声認識結果は、例えば、テキストデータである。ここで、この出力は、例えば、表示デバイス(例えば、CRTや液晶ディスプレイなど)への表示でもよく、所定の機器への通信回線を介した送信でもよく、プリンタによる印刷でもよく、記録媒体への蓄積でもよく、他の構成要素への引き渡しでもよい。なお、出力部45は、出力を行うデバイス(例えば、表示デバイスやプリンタなど)を含んでもよく、あるいは含まなくてもよい。また、出力部45は、ハードウェアによって実現されてもよく、あるいは、それらのデバイスを駆動するドライバ等のソフトウェアによって実現されてもよい。
次に、本実施の形態による雑音抑圧装置の動作について、図11のフローチャートを用いて説明する。なお、図11のフローチャートにおいて、ステップS301〜S303以外の処理は、実施の形態1の図3のフローチャートと同様であり、その説明を省略する。
(ステップS301)音声認識部44は、音声認識処理を行うタイミングかどうか判断する。そして、音声認識処理を行うタイミングである場合には、ステップS302に進み、そうでない場合には、ステップS101に戻る。
(ステップS302)音声認識部44は、音声認識用音響モデル記憶部41で記憶されている音響モデル、言語モデル記憶部42で記憶されている言語モデル、音声認識用辞書情報記憶部43で記憶されている音声認識用辞書情報を用いて、蓄積部22が蓄積したクリーン音声データに対する音声認識処理を行う。
(ステップS303)出力部45は、音声認識部44が音声認識処理を行った音声認識結果を出力する。そして、ステップS101に戻る。
なお、図11のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
また、音声認識処理の具体例は、すでに公知であり、音声認識処理以外の具体例は実施の形態1と同様であるため、音声認識装置2の動作の具体例の説明を省略する。
次に、本実施の形態による音声認識装置2の実験例について説明する。この実験例では、ある病院において看護師が実作業を行いつつ録音したデータを、訓練データ、及び雑音重畳音声データとして用いた。具体的には、初日分のデータを雑音重畳音声データとし、2日目分をモデル学習のために用いる訓練データとした。なお、訓練データに対応する訓練ラベル情報は、訓練データをもとに人手によって作成したものである。図12は、詳細な実験条件を示す表である。訓練データ、及び雑音重畳音声データに含まれるデータは、10秒間の長さであり、目的発話を含むものである。そのデータは、病院にてサンプリング周波数32kHz、16bitで収録後、16kHzにダウンサンプリングした。勤務シフトの関係で、訓練データの評価話者は女性8名となった。音声認識器などのツールには、ATR音声言語コミュニケーション研究所で開発されたATRASR大語彙音声認識システムVer.3.6を用いた。雑音抑圧で用いる特徴量やGMMの学習にはHTK Ver.3.3を用いた。雑音抑圧時にはメルフィルタバンク出力(FBANK)を用いるが、ラベル探索時には、FBANKと、MFCCとのそれぞれを用いる場合について実験した。音声認識用音響モデルの構造学習には、MDL−SSS(下記の文献1参照)を用いた。この実験では話者が女性だけのため、再学習で作成した5混合分布の女声モデルのみを用いた。話者適応手法として、ラベル認識でのクリーン音声GMMではMAP(下記の文献2参照)を用い、音声認識用の音響モデルにはMAP−VFS(下記の文献3参照)を用いた。
文献1:T.Jitsuhiro,T.Matsui,S.Nakamura,「Automatic generation of non−uniform HMM topologies based on the MDL criterion」、IEICE Trans.on Information and Systems,vol.E87−D,no.8,pp.2121−2129、2004年
文献2:J.−L.Gauvain,C.−H.Lee,「Maximum a posteriori estimation for multivariate Gaussian mixture observations of Markov chains」、IEEE Trans. Speech and Audio Processing,vol.2,no.2,pp.291−298、1994年
文献3:M.Tonomura,T.Kosaka,S.Matsunaga,「Speaker adaptation based on transfer vector field smoothing using maximum a posteriori probability estimation」、Computer Speech and Language,vol.10,pp.117−132、1996年
図13は、評価パターンを示す表である。(1)は雑音抑圧なしであり、不特定話者モデルを用いた場合である。従来法として雑音1分布のみを用いた雑音抑圧手法(Single Model Noise Suppression、SM−NS)を用い、雑音抑圧用クリーン音声GMMとして、話者独立GMMを用いたのが(2)であり、話者依存GMMを用いたのが(3)である。このときの雑音モデルは入力音声の開始100ms区間から推定した。また、クリーンな話者適応データが存在しないため、雑音抑圧を行ったデータで話者適応を行った。単語音声認識時には、不特定話者モデルを用いた。(4)は、(3)の手法で雑音抑圧処理した話者適応データを用いて作成した話者適応モデルを、音声認識時に雑音抑圧なしで用いた場合である。(5)は、(3)の雑音処理ありで話者適応モデルを用いた場合である。実施の形態1及び本実施の形態による提案法(Multi−Model Noise Suppression、MM−NS)では、ラベル認識時にFBANK、またはMFCCを用いる場合のそれぞれにおいて、(6)と(7)は話者独立音響モデル(ただし無音モデルは学習データで再学習)を用いた場合、(8)と(9)は話者適応を用いた場合を評価した。このとき認識されたラベルの音声区間には500msのマージンを前後につけ、雑音抑圧処理を行った。(10)は理想的な条件として正解ラベルを用いた場合である。
図14は、各評価パターンでの認識対象音声に対する平均SNRを示す表である。目的発話の前後を雑音と見てSN比を計算した。(10)は、実施の形態1及び本実施の形態による提案法で正解ラベルを用いた場合であり、正確に雑音区間のパワーが小さくなるため、極端によい値になった。実施の形態1及び本実施の形態による提案法(6)〜(9)では前後にマージンをとるため、(10)より低くなるものの、事前知識として複数雑音モデルを使えることで、従来法に比べて改善度が大きくなっていることがわかる。
雑音重畳音声データ(テストセット)に対する未知ラベル率(Out Of Label Vocabularyrate、OOLV)を未知語率と同様に次式で定義する。
この未知ラベル率を計算すると、シングルラベル(一種類の音声データまたは雑音データに対応するラベル、すなわち、音声雑音音響モデルに対応するラベル)では1.12%、マルチラベル(音声データと雑音データのうちの二種類以上が重畳しているデータに対応するラベル、すなわち、合成音響モデルに対応するラベル)では3.77%であった。本実験では学習データが1日分、354発話と少ないが、利用できるデータが増加すれば未知ラベル率を下げられると考えられる。また、雑音抑圧用であると考えると、頻度の高い雑音のみカバーできればよいとも考えられる。マルチラベルNグラムモデルでのテストセット・パープレキシティは、バイグラムで8.08、トライグラムで6.47であった。重なり区間が続くときには、含まれる個々のラベルが似たものである場合が多く、連鎖確率を考慮する意味があるといえる。
図15は、ラベル認識率及び音声区間検出率を示す表である。ラベル認識率は単語認識率(正解精度、Word Accuracy)と同様に計算した。音声区間検出の評価は、次文献にならい、発話区間検出正解率(Correct)と発話区間検出正解精度(Accuracy)とを示している。挿入誤りが多いため、Accuracyは低いが、音声認識では区間検出に対してはCorrectの方が重要になる。図15で示される結果から、8割程度の対象音声が検出できることがわかる。
文献:北岡他,「雑音下音声認識評価ワーキンググループ活動報告:認識に影響する要因の個別評価環境」、信学技報,NLC2006−29,SP2006−85,pp.1−6、2006年
図16A〜図16Cはそれぞれ、雑音重畳音声データの信号波形と、従来法であるシングルモデル雑音抑圧手法によって雑音を抑圧したクリーン音声データの信号波形と、実施の形態1及び本実施の形態による音声認識装置2のマルチモデル雑音抑圧手法によって雑音を抑圧したクリーン音声データの信号波形とを示す図である。従来法(図16B)では、背景雑音は抑圧できているが、それ以外に局所的に存在する雑音については抑圧できていないことがわかる。正解ラベルを用いた本実施の形態による方法(図16C)では、左側及び右側の区間である目的発話以外の区間は、ほぼ信号を0にできるため、図中ではほぼ波形がない。目的発話区間においては、従来法に比べ、背景雑音やビープ音のパワーが減少していることが明らかである。
音声認識系での単語バイグラムモデル、単語トライグラムモデルでのテストセット・パープレキシティは、図12に示すように、どちらも39程度であり、バイグラム、トライグラムの差は小さい。また、話者ごとにばらつきも大きく、話者によっては100以上であった。作業により発話内容が大きく異なっていると考えられる。図17は、単語認識率を示す図である。(4)雑音抑圧なし+話者適応モデルと、(5)従来法+話者適応モデルとの比較では1%程度の改善が見られ、エラー改善率で1.64%と雑音抑圧の効果が小さかった。従来法(5)と、本実施の形態による手法(8)(9)の比較では、3.24%、3.81%の改善が見られ、エラー改善率で5.19%、6.10%が得られ、(4)からのエラー改善率は6.74%、7.64%であった。本実施の形態による手法は、従来法と比較して雑音抑圧効果が高いことが分かる。(1)雑音抑圧及び話者適応なしの場合から比較すると、(8)(9)のエラー改善率は21.9%、22.6%と大きくなる。また、提案法(9)ラベル認識にMFCCを用いる場合、提案法の上限である(10)に限りなく近い精度が得られることが分かった
以上のように、本実施の形態による音声認識装置2によれば、実施の形態1で説明した雑音抑圧装置1によって雑音を抑圧したクリーン音声データを用いて音声認識を行うため、より高い単語認識率を得ることができる。
なお、本実施の形態において、音声認識装置2が蓄積部22を備えた構成について説明したが、音声認識装置2は、蓄積部22を備えず、雑音抑圧されたクリーン音声データを音声認識部44に直接渡してもよい。
また、上記各実施の形態において、雑音抑圧装置1や音声認識装置2は、訓練データ記憶部11、ラベル記憶部12、モデル生成部13、ラベル言語モデル生成部16を備えていなくてもよい。雑音抑圧装置1等がそれらの構成要素を含まない場合には、例えば、装置外部において訓練データや訓練ラベル情報に基づいて、音声雑音音響モデルや合成音響モデルや、合成音響モデル、ラベル言語モデル、辞書情報が生成され、その生成されたモデル等が音声雑音音響モデル記憶部14や合成音響モデル記憶部15、辞書情報記憶部17、ラベル言語モデル記憶部18に蓄積されるものとする。各記憶部にモデル等が記憶される過程は問わない。ただし、合成音響モデルの生成は、雑音抑圧装置1等において行われてもよい。その場合には、雑音抑圧装置1等はモデル生成部13を備えており、そのモデル生成部13は、音声雑音音響モデル記憶部14で記憶されている音声雑音音響モデルを合成することによって、合成音響モデルを生成し、合成音響モデル記憶部15に蓄積する処理を行うことになる。また、ラベル言語モデルの一部または全部は、前述のように、人手によって生成されたものであってもよい。
また、上記各実施の形態において、ラベル言語モデルを用いてラベルの認識を行う場合について説明したが、ラベル言語モデルを用いないでラベルの認識を行ってもよい。いわゆる、「ノー・グラマー(No Grammar)」と呼ばれる方法である。その場合には、雑音抑圧装置1や音声認識装置2は、ラベル言語モデル記憶部18を備えていなくてもよく、ラベル認識部20は、ラベル言語モデルを用いないでラベルの認識を行ってもよい。
また、上記各実施の形態では、雑音抑圧装置1や音声認識装置2がスタンドアロンである場合について説明したが、雑音抑圧装置1や音声認識装置2は、スタンドアロンの装置であってもよく、サーバ・クライアントシステムにおけるサーバ装置であってもよい。後者の場合には、出力部や受付部は、通信回線を介して入力を受け付けたり、画面を出力したりすることになる。
また、上記各実施の形態において、各処理または各機能は、単一の装置または単一のシステムによって集中処理されることによって実現されてもよく、あるいは、複数の装置または複数のシステムによって分散処理されることによって実現されてもよい。
また、上記各実施の形態において、各構成要素は専用のハードウェアにより構成されてもよく、あるいは、ソフトウェアにより実現可能な構成要素については、プログラムを実行することによって実現されてもよい。例えば、ハードディスクや半導体メモリ等の記録媒体に記録されたソフトウェア・プログラムをCPU等のプログラム実行部が読み出して実行することによって、各構成要素が実現され得る。なお、上記実施の形態における雑音抑圧装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、雑音の重畳されている音声データである雑音重畳音声データを受け付ける受付部と、音声雑音音響モデル記憶部で記憶されている、訓練用の音声データと雑音データを含む訓練データに含まれる一種類の音声データまたは雑音データの音響モデルである複数の音声雑音音響モデル、合成音響モデル記憶部で記憶されている、前記訓練データに含まれる音声データと雑音データのうちの二種類以上が合成された音響モデルである合成音響モデル、辞書情報記憶部で記憶されている、前記訓練データにおいて重畳されている音声と雑音の種類を識別する情報であるラベルと前記音声雑音音響モデルまたは前記合成音響モデルとを対応付ける情報である辞書情報を用いて、前記雑音重畳音声データに対応するラベルをフレームごとに認識するラベル認識部と、前記ラベル認識部が認識したラベルを用いて、前記雑音重畳音声データの雑音が抑圧されたクリーン音声データを生成する雑音抑圧部として機能させるためのものである。
また、このプログラムにおいて、前記ラベル認識部は、前記音声雑音音響モデル、前記合成音響モデル、ラベル言語モデル記憶部で記憶されている、前記ラベルの言語モデルであるラベル言語モデル、前記辞書情報を用いて、前記雑音重畳音声データに対応するラベルをフレームごとに認識してもよい。
また、このプログラムにおいて、コンピュータを、訓練データ記憶部で記憶されている訓練データから、ラベル記憶部で記憶されている前記訓練データに対応するラベルの時系列に沿った情報である訓練ラベル情報を用いて音声雑音音響モデル及び合成音響モデルを生成し、前記音声雑音音響モデル記憶部、及び前記合成音響モデル記憶部にそれぞれ蓄積するモデル生成部と、前記ラベル記憶部で記憶されている訓練ラベル情報を用いて、ラベルのラベル言語モデルを生成し、前記ラベル言語モデル記憶部に蓄積すると共に、前記辞書情報を生成して前記辞書情報記憶部に蓄積するラベル言語モデル生成部としてさらに機能させてもよい。
また、上記実施の形態における音声認識装置2を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、コンピュータを、前記雑音抑圧装置と、前記雑音抑圧装置が生成したクリーン音声データを、音声認識用音響モデル記憶部で記憶されている、音声認識の対象となる音声データに関する音響モデル、音声認識用辞書情報記憶部で記憶されている、音声認識で用いる音声認識用辞書情報、及び、言語モデル記憶部で記憶されている、音声認識の認識対象言語に関する言語モデルを用いて音声認識する音声認識部と、前記音声認識部による音声認識結果を出力する出力部として機能させるためのものである。
なお、上記プログラムにおいて、上記プログラムが実現する機能には、ハードウェアでしか実現できない機能は含まれない。例えば、情報を受け付ける受付部や、情報を出力する出力部などにおけるモデムやインターフェースカードなどのハードウェアでしか実現できない機能は、上記プログラムが実現する機能には少なくとも含まれない。
また、このプログラムは、サーバなどからダウンロードされることによって実行されてもよく、所定の記録媒体(例えば、CD−ROMなどの光ディスクや磁気ディスク、半導体メモリなど)に記録されたプログラムが読み出されることによって実行されてもよい。
また、このプログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
図18は、上記プログラムを実行して、上記各実施の形態による雑音抑圧装置1、音声認識装置2を実現するコンピュータの外観の一例を示す模式図である。上記各実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムによって実現される。
図18において、コンピュータシステム100は、CD−ROM(Compact Disk Read Only Memory)ドライブ105、FD(Flexible Disk)ドライブ106を含むコンピュータ101と、キーボード102と、マウス103と、モニタ104とを備える。
図19は、コンピュータシステムを示す図である。図19において、コンピュータ101は、CD−ROMドライブ105、FDドライブ106に加えて、CPU(Central Processing Unit)111と、ブートアッププログラム等のプログラムを記憶するためのROM(Read Only Memory)112と、CPU111に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM(Random Access Memory)113と、アプリケーションプログラム、システムプログラム、及びデータを記憶するハードディスク114と、CPU111、ROM112等を相互に接続するバス115とを備える。なお、コンピュータ101は、LANへの接続を提供する図示しないネットワークカードを含んでいてもよい。
コンピュータシステム100に、上記各実施の形態による雑音抑圧装置1、音声認識装置2の機能を実行させるプログラムは、CD−ROM121、またはFD122に記憶されて、CD−ROMドライブ105、またはFDドライブ106に挿入され、ハードディスク114に転送されてもよい。これに代えて、そのプログラムは、図示しないネットワークを介してコンピュータ101に送信され、ハードディスク114に記憶されてもよい。プログラムは実行の際にRAM113にロードされる。なお、プログラムは、CD−ROM121やFD122、またはネットワークから直接、ロードされてもよい。
プログラムは、コンピュータ101に、上記各実施の形態による雑音抑圧装置1、音声認識装置2の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくてもよい。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいてもよい。コンピュータシステム100がどのように動作するのかについては周知であり、詳細な説明は省略する。
また、本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
以上より、本発明による雑音抑圧装置等は、二種類以上の雑音が重畳されている場合であっても、その雑音を効果的に除去することができ、例えば、音声認識処理の前段処理等に有用である。
本発明の実施の形態1による雑音抑圧装置の構成を示すブロック図 同実施の形態による雑音抑圧装置の雑音抑圧部の構成を示すブロック図 同実施の形態による雑音抑圧装置の動作を示すフローチャート 同実施の形態による雑音抑圧装置の動作を示すフローチャート 同実施の形態における訓練データの一例を示す図 同実施の形態における訓練ラベル情報の一例を示す図 同実施の形態における辞書情報の一例を示す図 同実施の形態におけるラベル認識について説明するための図 同実施の形態におけるラベル認識の結果の一例を示す図 本発明の実施の形態2による音声認識装置の構成を示すブロック図 同実施の形態による音声認識装置の動作を示すフローチャート 同実施の形態における実験条件の一例を示す図 同実施の形態における評価パターンの一例を示す図 同実施の形態におけるSNRの結果の一例を示す図 同実施の形態におけるラベル認識率等の結果の一例を示す図 同実施の形態における雑音重畳音声データの一例を示す図 同実施の形態における、従来法による雑音抑圧結果の一例を示す図 同実施の形態における、提案手法による雑音抑圧結果の一例を示す図 同実施の形態における単語認識率の結果の一例を示す図 同実施の形態におけるコンピュータシステムの外観一例を示す模式図 同実施の形態におけるコンピュータシステムの構成の一例を示す図
符号の説明
1 雑音抑圧装置
2 音声認識装置
11 訓練データ記憶部
12 ラベル記憶部
13 モデル生成部
14 音声雑音音響モデル記憶部
15 合成音響モデル記憶部
16 ラベル言語モデル生成部
17 辞書情報記憶部
18 ラベル言語モデル記憶部
19 受付部
20 ラベル認識部
21 雑音抑圧部
22 蓄積部
31 メルフィルタバンク分析手段
32 雑音成分算出手段
33 雑音抑圧手段
41 音声認識用音響モデル記憶部
42 言語モデル記憶部
43 音声認識用辞書情報記憶部
44 音声認識部
45 出力部

Claims (8)

  1. 訓練用の音声データと雑音データを含む訓練データに含まれる一種類の音声データまたは雑音データの音響モデルである音声雑音音響モデルが複数記憶される音声雑音音響モデル記憶部と、
    前記訓練データに含まれる音声データと雑音データのうちの二種類以上が合成された音響モデルである合成音響モデルが記憶される合成音響モデル記憶部と、
    前記訓練データにおいて重畳されている音声と雑音の種類を識別する情報であるラベルと前記音声雑音音響モデルまたは前記合成音響モデルとを対応付ける情報である辞書情報が記憶される辞書情報記憶部と、
    雑音の重畳されている音声データである雑音重畳音声データを受け付ける受付部と、
    前記音声雑音音響モデル、前記合成音響モデル、前記辞書情報を用いて、前記雑音重畳音声データに対応するラベルをフレームごとに認識するラベル認識部と、
    前記ラベル認識部が認識したラベルを用いて、前記雑音重畳音声データの雑音が抑圧されたクリーン音声データを生成する雑音抑圧部と、を備えた雑音抑圧装置。
  2. 前記ラベルの言語モデルであるラベル言語モデルが記憶されるラベル言語モデル記憶部をさらに備え、
    前記ラベル認識部は、前記音声雑音音響モデル、前記合成音響モデル、前記ラベル言語モデル、前記辞書情報を用いて、前記雑音重畳音声データに対応するラベルをフレームごとに認識する、請求項1記載の雑音抑圧装置。
  3. 前記訓練データが記憶される訓練データ記憶部と、
    前記訓練データに対応するラベルの時系列に沿った情報である訓練ラベル情報が記憶されるラベル記憶部と、
    前記訓練データ記憶部で記憶されている訓練データから、前記訓練ラベル情報を用いて音声雑音音響モデル及び合成音響モデルを生成し、前記音声雑音音響モデル記憶部、及び前記合成音響モデル記憶部にそれぞれ蓄積するモデル生成部と、
    前記ラベル記憶部で記憶されている訓練ラベル情報を用いて、ラベルのラベル言語モデルを生成し、前記ラベル言語モデル記憶部に蓄積すると共に、前記辞書情報を生成して前記辞書情報記憶部に蓄積するラベル言語モデル生成部と、をさらに備えた請求項2記載の雑音抑圧装置。
  4. 前記モデル生成部は、前記音声雑音音響モデルを生成すると共に、当該音声雑音音響モデルを2以上合成することによって合成音響モデルを生成する、請求項3記載の雑音抑圧装置。
  5. 前記雑音抑圧部は、
    前記雑音重畳音声データをフレームごとにメルフィルタバンク分析することによって、前記雑音重畳音声データに対応する対数メルスペクトルを生成するメルフィルタバンク分析手段と、
    前記雑音重畳音声データに対応する対数メルスペクトルと、前記ラベル認識部が認識したラベルに応じた音声雑音音響モデルまたは合成音響モデルと、前記雑音重畳音声データにおけるクリーンな音声データに応じた音声雑音音響モデルとを用いて、フレームごとに雑音成分を算出する雑音成分算出手段と、
    前記雑音重畳音声データから、前記雑音成分算出手段が算出した雑音成分を除去する雑音抑圧手段と、を備えた、請求項1から請求項4いずれか記載の雑音抑圧装置。
  6. 請求項1から請求項5いずれか記載の雑音抑圧装置と、
    音声認識の対象となる音声データに関する音響モデルが記憶される音声認識用音響モデル記憶部と、
    音声認識で用いる音声認識用辞書情報が記憶される音声認識用辞書情報記憶部と、
    音声認識の認識対象言語に関する言語モデルが記憶される言語モデル記憶部と、
    前記雑音抑圧装置が生成したクリーン音声データを、前記音響モデル、前記音声認識用辞書情報、及び、前記言語モデルを用いて音声認識する音声認識部と、
    前記音声認識部による音声認識結果を出力する出力部と、を備えた音声認識装置。
  7. 雑音の重畳されている音声データである雑音重畳音声データを受け付ける受付ステップと、
    音声雑音音響モデル記憶部で記憶されている、訓練用の音声データと雑音データを含む訓練データに含まれる一種類の音声データまたは雑音データの音響モデルである複数の音声雑音音響モデル、合成音響モデル記憶部で記憶されている、前記訓練データに含まれる音声データと雑音データのうちの二種類以上が合成された音響モデルである合成音響モデル、辞書情報記憶部で記憶されている、前記訓練データにおいて重畳されている音声と雑音の種類を識別する情報であるラベルと前記音声雑音音響モデルまたは前記合成音響モデルとを対応付ける情報である辞書情報を用いて、前記雑音重畳音声データに対応するラベルをフレームごとに認識するラベル認識ステップと、
    前記ラベル認識ステップで認識したラベルを用いて、前記雑音重畳音声データの雑音が抑圧されたクリーン音声データを生成する雑音抑圧ステップと、を備えた雑音抑圧方法。
  8. コンピュータを、
    雑音の重畳されている音声データである雑音重畳音声データを受け付ける受付部と、
    音声雑音音響モデル記憶部で記憶されている、訓練用の音声データと雑音データを含む訓練データに含まれる一種類の音声データまたは雑音データの音響モデルである複数の音声雑音音響モデル、合成音響モデル記憶部で記憶されている、前記訓練データに含まれる音声データと雑音データのうちの二種類以上が合成された音響モデルである合成音響モデル、辞書情報記憶部で記憶されている、前記訓練データにおいて重畳されている音声と雑音の種類を識別する情報であるラベルと前記音声雑音音響モデルまたは前記合成音響モデルとを対応付ける情報である辞書情報を用いて、前記雑音重畳音声データに対応するラベルをフレームごとに認識するラベル認識部と、
    前記ラベル認識部が認識したラベルを用いて、前記雑音重畳音声データの雑音が抑圧されたクリーン音声データを生成する雑音抑圧部として機能させるためのプログラム。
JP2007161450A 2007-06-19 2007-06-19 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム Pending JP2009003008A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2007161450A JP2009003008A (ja) 2007-06-19 2007-06-19 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2007161450A JP2009003008A (ja) 2007-06-19 2007-06-19 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム

Publications (1)

Publication Number Publication Date
JP2009003008A true JP2009003008A (ja) 2009-01-08

Family

ID=40319495

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007161450A Pending JP2009003008A (ja) 2007-06-19 2007-06-19 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP2009003008A (ja)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2011203500A (ja) * 2010-03-25 2011-10-13 Toshiba Corp 音情報判定装置、及び音情報判定方法
JP2012123185A (ja) * 2010-12-08 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置とその方法とプログラム
WO2014049461A1 (en) * 2012-09-26 2014-04-03 International Business Machines Corporation Captioning using socially derived acoustic profiles
JP2015018015A (ja) * 2013-07-08 2015-01-29 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
CN106328152A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN110232909A (zh) * 2018-03-02 2019-09-13 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
JP2020034683A (ja) * 2018-08-29 2020-03-05 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011191682A (ja) * 2010-03-16 2011-09-29 Nec Corp 音声認識装置、音声認識方法および音声認識プログラム
JP2011203500A (ja) * 2010-03-25 2011-10-13 Toshiba Corp 音情報判定装置、及び音情報判定方法
JP2012123185A (ja) * 2010-12-08 2012-06-28 Nippon Telegr & Teleph Corp <Ntt> 雑音抑圧装置とその方法とプログラム
WO2014049461A1 (en) * 2012-09-26 2014-04-03 International Business Machines Corporation Captioning using socially derived acoustic profiles
US8983836B2 (en) 2012-09-26 2015-03-17 International Business Machines Corporation Captioning using socially derived acoustic profiles
GB2526929A (en) * 2012-09-26 2015-12-09 Ibm Captioning using socially derived acoustic profiles
GB2526929B (en) * 2012-09-26 2016-12-28 Ibm Captioning using socially derived acoustic profiles
JP2015018015A (ja) * 2013-07-08 2015-01-29 本田技研工業株式会社 音声処理装置、音声処理方法、及び音声処理プログラム
CN106328152A (zh) * 2015-06-30 2017-01-11 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN106328152B (zh) * 2015-06-30 2020-01-31 芋头科技(杭州)有限公司 一种室内噪声污染自动识别监测系统
CN110232909A (zh) * 2018-03-02 2019-09-13 北京搜狗科技发展有限公司 一种音频处理方法、装置、设备及可读存储介质
JP2020034683A (ja) * 2018-08-29 2020-03-05 富士通株式会社 音声認識装置、音声認識プログラムおよび音声認識方法

Similar Documents

Publication Publication Date Title
EP1199708B1 (en) Noise robust pattern recognition
JP4959727B2 (ja) 話者適応を用いた音声認識とピッチによる登録
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
JP4274962B2 (ja) 音声認識システム
DK1760696T3 (en) Method and apparatus for improved estimation of non-stationary noise to highlight speech
JP2009139894A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
Yadav et al. Addressing noise and pitch sensitivity of speech recognition system through variational mode decomposition based spectral smoothing
JP2009003008A (ja) 雑音抑圧装置、音声認識装置、雑音抑圧方法、及びプログラム
KR101892733B1 (ko) 켑스트럼 특징벡터에 기반한 음성인식 장치 및 방법
Ismail et al. Mfcc-vq approach for qalqalahtajweed rule checking
Chakraborty et al. Issues and limitations of HMM in speech processing: a survey
JP4705414B2 (ja) 音声認識装置、音声認識方法、音声認識プログラムおよび記録媒体
JP4836076B2 (ja) 音声認識システム及びコンピュータプログラム
JP4728791B2 (ja) 音声認識装置、音声認識方法、そのプログラムおよびその記録媒体
JP4791857B2 (ja) 発話区間検出装置及び発話区間検出プログラム
Grewal et al. Isolated word recognition system for English language
KR100969138B1 (ko) 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
Fauziya et al. A Comparative study of phoneme recognition using GMM-HMM and ANN based acoustic modeling
Yavuz et al. A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model.
JP5200080B2 (ja) 音声認識装置、音声認識方法、およびそのプログラム
Wu et al. An environment-compensated minimum classification error training approach based on stochastic vector mapping
Hiroya et al. Speaker adaptation method for acoustic-to-articulatory inversion using an HMM-based speech production model
JP5660437B2 (ja) 無声フィルタ学習装置、音声合成装置、無声フィルタ学習方法、およびプログラム
Menne Learning acoustic features from the raw waveform for automatic speech recognition
JP2007248529A (ja) 音声認識装置、音声認識プログラム、及び音声動作可能な装置