JP5041934B2 - ロボット - Google Patents
ロボット Download PDFInfo
- Publication number
- JP5041934B2 JP5041934B2 JP2007235753A JP2007235753A JP5041934B2 JP 5041934 B2 JP5041934 B2 JP 5041934B2 JP 2007235753 A JP2007235753 A JP 2007235753A JP 2007235753 A JP2007235753 A JP 2007235753A JP 5041934 B2 JP5041934 B2 JP 5041934B2
- Authority
- JP
- Japan
- Prior art keywords
- noise
- condition
- speech
- speech recognition
- mft
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
ジェー・ベーカー(J. Barker)、エム・コーク(M. Cooke)、ピー・グリーン(P. Green)共著、「ロバストASR・ベースト・オン・クリーン・スピーチ・モデルズ:エバリュエーション・オブ・ミッシング・データ・テクニーク・フォー・コネクテド・ディジット・レコグニション・イン・ノイズ」(Robust ASR based on clean speech models:An evaluation of missing data techniques for connected digit recognition in noise)」、プロシーディングス・ユーロスピーチ2001(Proc. EUROSPEECH 2001)、2001年、第1巻、p.213-216
周知の手法としてマルチコンディション学習がある。この手法では、雑音が付加された音声を用いて音響モデルを学習させる。この手法によれば、入力信号が音響モデル学習に付加された雑音を含む場合、自動音声認識性能が向上する。しかしながら、音響モデルを学習させるために、全ての種類のモータ雑音を含む音声データが必要とされる。さらに、長時間を要すること、及び過剰適合の懸念もある。
自動音声認識用復号器を改変することによって雑音頑健性を向上させる一つのアプローチとしてミッシング・フィーチャ理論(MFT)(非特許文献1参照)がある。雑音がある場合、音声の時間周波数空間におけるある領域は、音声特徴量としての信頼性が低い。MFTでは、このような信頼性の低い音声特徴量はマスクされ、信頼性の高い領域のみが音声認識用復号器における尤度計算に用いられる。従って、この工程では、自動音声認識用復号器に改変が要求される。同様のアプローチとして、マルチバンド自動音声認識手法が提案されている。この手法は、各サブバンドにHMMを用い、信頼性の低いサブバンドには小さい重みを付与することにより、積算された尤度を得る。本願において、MFTという用語は、MFT及びマルチバンド自動音声認識手法の双方を含むものとする。
入力された音声信号のSN比を改善するために予備処理が行われる。シングルチャネルアプローチと、マルチチャネルアプローチという2つのアプローチが周知である。
(雑音頑健性自動音声認識手法の選択的適用)
以下、マルチコンディション音響モデル学習と、MLLRと、ロボットの動作により発生する雑音を処理するMFTとを用いた音声認識手法の詳細について述べる。図1は、本発明によるロボット用音声認識手法のブロック図である。
ここで、事前収録雑音を用いたMFTの適用方法の詳細について述べる。
我々は、提案手法の有効性を検証するために実験を行った。我々は、ホンダ人型ロボットASIMO(登録商標)を用いた。ASIMOは、その頭部に装着された2つのマイクロフォンを有する。我々は、左側マイクロフォンから収録されたデータを用いて評価を行った。
図3は、提案方法のブロック図である。この方法は、3つのブロック、すなわち、予備処理を含む音声特徴量抽出、モータ雑音テンプレートを利用したミッシング・フィーチャ・マスク生成、ミッシング・フィーチャ理論に基づく自動音声認識(MFT−ASR)からなる。
このブロックでは、MFT−ASRに適した雑音入力から音声特徴量を抽出する。この手法は、3つの処理、すなわち、雑音除去、白色雑音重畳、対数スペクトル特徴量抽出を含む。
入力音声は、0dBに満たない極めて低いSN比を有する。このような雑音に満ちた条件では音声特徴量を頑健性をもって抽出することは難しい。そこで、まず、自動音声認識の予備処理として、雑音除去を行う。我々が適用した雑音除去手法は、前述した公知の手法である。
歪を生じさせることなく雑音除去を行う手法は存在しない。このような歪は、自動音声認識のための音声特徴量抽出、特に音声特徴量ベクトルの正規化処理に大きく影響する。なぜなら、歪は、時間周波数空間における対象音声を断片化し、多くの音声断片を生成するからである。
・重畳白色雑音は歪を緩和する。なぜなら、白色雑音は広帯域雑音であり、いかなる周波数帯でも有効だからである。実際、我々は、歪のパワーが無視できるよう雑音除去信号の半分の強度の白色雑音を重畳させた。従って、白色雑音を加えた歪んだ音声信号は、白色雑音を含む歪みのない音声とみなされる。
・白色雑音を重畳させた音声データを用いて学習した音響モデルは、白色雑音を重畳させた音声の自動音声認識性能を改善する。この場合、システムは、音声に含まれるただ1種類の雑音、すなわち、白色雑音を想定すればよい。自動音声認識においては、多種類の雑音を扱うより1種類の雑音を扱う方が容易であり、白色雑音は、統計学的モデルを用いる自動音声認識に適している。
白色雑音を重畳させた後、音声特徴量を抽出する。我々は、音声特徴量として、MFCCではなく対数スペクトル特徴量を用いた。これは、モータ雑音の特性によるものである。モータ雑音は、周波数領域において一様なパワーを有していない。通常、パワーは、ある周波数帯に集中している。このことは、モータ雑音の作用はサブ周波数帯に依存することを意味する。一旦MFCCに変換されると、モータ雑音は、係数全体、すなわち、ケプストラム領域における全てのサブ周波数帯にわたり広がる。特徴量の信頼性は、サブ周波数帯ごとに推定される。従って、周波数領域における特徴量ベクトルはMFT−ASRに適している。MFCCの場合、雑音頑健性音声特徴量を得るために、C0項正規化、リフタリング、ケプストラム平均正規化という3つの正規化処理が行われる。これらの処理は極めて有効であることが知られている。そこで、我々は、対数スペクトル特徴量に対し、MFCCにおける3つの正規化処理に対応するスペクトル正規化処理、すなわち、平均パワー正規化、スペクトルピーク強調、スペクトル平均正規化を行った。スペクトル正規化の詳細は公知である。
ここでは、どの時間枠のどの周波数帯がモータ雑音による障害を受けるかを表すMFT−ASRミッシング・フィーチャ・マスクを推定する。この推定は、音声及び雑音に関する事前情報を用いない場合、依然として難しい。しかしながら、本願では、システムが、動作指令を用いてモータ雑音を推定する。そこで、ここでは、モータ指令と事前収録されたモータ雑音テンプレートとを用いてミッシング・フィーチャ・マスクを推定する。本手法は、3つの処理、すなわち、事前収録されたモータ雑音テンプレートを用いた雑音テンプレート選択、雑音マッチング、連続ミッシング・フィーチャ・マスク生成を含む。
この処理は、入力された動作指令に対応する事前収録雑音テンプレートを選択する。雑音テンプレートは、事前収録されたモータ雑音テンプレートデータベースから選択される。このデータベースは、全ての動作の雑音を事前に収録することにより構成される。我々のデータベースには、現在、32種類の雑音テンプレートが収容されている。選択されたテンプレートは雑音マッチング処理に送られる。
この処理で入力されるのは、選択された雑音テンプレートと人型ロボットのマイクロフォンで捕捉された音である。動作のタイプが同じである場合、対応するモータ雑音は類似のスペクトル特性を有する。そこで、2つの入力をマッチングさせることにより、捕捉された音に含まれる対象雑音を推定することができる。本願では、対象音(音声と雑音の混合)に含まれる雑音を対象雑音と称することに留意されたい。我々は、雑音テンプレートと対象雑音とをマッチングさせるために以下の方法を用いた。雑音テンプレートと対象雑音との相違に関するN個のサンプルの平均値D(s)は以下のように定義される。
この処理では、各々の時間枠についてミッシング・フィーチャ・マスクを推定するために、対象雑音の時間シフト情報、選択された雑音テンプレート、補足された音を用いる。ミッシング・フィーチャ・マスクにおける各数値は、対応するサブ周波数帯の信頼性である。信頼性の範囲は0から1なので、連続ミッシング・フィーチャ・マスクを用いていると言える。
ここでは、MFTに基づき復号器が入力音声を認識する。MFTは、非定常雑音に対して有効に作用すると考えられる。白色雑音以外のほとんどの歪及び雑音は、第1ブロックで除去されるが、音声特徴量は、依然、ある種の歪を含んでいる。MFTは、このような歪の処理において有効である。事前収録された雑音と対象音声に含まれる雑音との差異が大きい場合、MFTの効果は低下することに留意されたい。
AM−1 データセットA1のみ(クリーンモデル) 、
AM−2 データセットA1+A2(マルチコンディション学習音響モデル) 、
AM−3 データセットA1+データセットA2に雑音除去を施して得られたA3、
AM−4 データセットA1+データセットA3に白色雑音を重畳して得られたA4。
3.MFTを用いた動作音への雑音適応化手法
図5は、本発明の第3実施形態における雑音適応化手法のブロック図である。
入力信号のSN比は低い(0dB以下である場合もある) ため、このような環境で自動音声認識に有効な音声特徴量を抽出することは難しい。そこで,入力信号のSN比を改善するため雑音除去処理を行う。雑音除去処理には式(14) に示されるSS法 を用いる。
雑音除去処理はSN比を向上させるが、同時にスペクトルの歪みを生み出す。このスペクトル歪みが認識性能に悪影響を及ぼす。雑音除去手法に関わらず、背景雑音の状況によっては大きな歪みを生じることがあり、自動音声認識ではスペクトル歪みに対する処理が必要である。特に本願の対象とするロボットの動作雑音では、雑音パワーが大きく、歪みも大きいことが予測される。そこで、本実施形態ではこのスペクトル歪みを軽減するため、雑音除去処理の後に薄く白色雑音を重畳させることとした。定常雑音を加えることで、雑音の引き残し成分を平坦化し、自動音声認識性能を高めることが期待される。
ロボットの音声認識では、学習に、定常雑音を含めた音声データを用いるマルチコンディション学習による音響モデルを用いた手法が有効である。ロボットは定常時でもモータ音やファン音を発するため、この雑音を含めて学習することでクリーン音声データのみで音響モデルを学習する場合と比べ、認識性能が向上する。定常雑音が常に発せられているロボットでは、マルチコンディション学習による音響モデルは通常の音声認識で想定されているクリーン音響モデルと等しいとも考えられる。
白色雑音を重畳した後に音声特徴量を抽出する。音声特徴量には音声認識に一般的に用いられるメル周波数ケプストラム係数(Mel Frequency Cepstrum Coefficients,MFCC)ではなく、対数スペクトル特徴量を用いる。動作音などの雑音は、スペクトル領域において加算される。しかし、従来用いられているMFCCはスペクトルをさらに離散サイン変換(Discrete Cosine Transform,DCT)した領域であるため、ある周波数帯域に加算された雑音は全ての特徴量に影響を与えてしまう。MFTを用いた音声認識では、雑音に埋もれた信頼性の低い周波数帯域を抽出することが必要であるため、ケプストラム領域の音声特徴量よりもスペクトル領域の音声特徴量の方が都合がよい。MFCCではケプストラム領域に変換された後、C0項の除去、リフタリング、CMS(Cepstrum Mean Subtraction、ケプストラム平均減算) の3つの正規化処理が行われる。これらの正規化処理は音声認識性能を向上させる上で重要であることが知られているため、使用した対数スペクトル特徴量においても、対数スペクトル領域において同様の正規化処理を施している。
MFTマスクはフレームごと、周波数帯域ごと(音声特徴量の次元ごと) に生成される。自動的なマスクの生成は公知である。しかし、完全に理想的なマスクを生成することは現実的には困難である.本実施形態では、ロボット自身の動作情報は動作前に取得できるため、これに基づいて動作音の推定を行う。動作音の推定については、あらかじめ収録した雑音テンプレートと現在入力されている動作音との時間的なマッチングにより行う。そして、入力された信号と推定された動作音に基づいてマスクの生成を行う。詳細については次に示す。
あらかじめ収録した動作音を雑音テンプレートとしてデータベースに入力する。本実施形態では、34種類の動作音を用意した。ロボットが動作を行う際には、データベースから動作種類に応じた雑音テンプレートを選択する。現在発せられている動作音はこの雑音テンプレートと同じであると仮定し、雑音テンプレートを用いた雑音推定を行う。
雑音テンプレートの選択が行われても、その雑音と現在発せられている雑音が時間的にはマッチしていない。そこで、時間的に雑音をマッチングさせる必要が生じる。マッチングは以下の方法により行われる。Td(f)を雑音テンプレートのスペクトル系列、Id(f)を入力信号のスペクトル系列とする。fはフレームとし、d は周波数軸方向のスペクトルの次元とする。Dを1フレームの窓長(サンプル数) とすると、1≦d≦Dである。また、雑音テンプレートにおける各次元のスペクトルの最大値をMdとする。
まず、マッチングされた雑音テンプレートT(smatch)は対数スペクトルに変換される。変換された対数スペクトルの雑音をn(k,f)とする。kは次元(周波数軸方向) を示し、fはフレーム(時間軸方向) を示す.同様に、入力された雑音を含む対数スペクトルをy(k,f)、雑音除去処理後、白色雑音を重畳した対数スペクトルをp(k,f)とする。推定された音声信号は以下の式(19)で表される。
MFTは非定常な雑音に対しても効果がある。雑音除去処理や白色雑音の重畳によってSN比は改善されるが、MFTを用いることでさらに非定常な雑音成分に対しても効果があると期待できる。しかし、雑音テンプレートと実際に生じた雑音に大きな差がある場合には効果は薄い。
ホンダASIMO(登録商標)を用いて評価実験を行った。ASIMOの左側マイクロフォンを用いて音声の収録を行い、孤立単語認識による評価を行った。評価用データにはATR音素バランス単語を用いた。音素バランス単語には男性12 話者、女性13話者の合計25話者の音声データが含まれ、1 話者あたりの発話数は216である。各発話は「いきおい」、「いよいよ」などの単語発声である。
AM−1 学習セットA1を用いたモデル(クリーンモデル)、
AM−2 学習セットA1とA2を用いたモデル(マルチコンディション学習モデル1)、
AM−3 学習セットA1とA3(N)を用いたモデル(マルチコンディション学習モデル2)、
AM−4 学習セットA1とA2に雑音除去処理を施したA4を用いたモデル、
AM−5 学習セットA1とA4に白色雑音を重畳したA5(p)を用いたモデル。
雑音除去処理を用いることで音声認識性能が向上することの検証を行う。表6に比較した手法を示す。条件Dは雑音除去処理を施し、マルチコンディション学習による音響モデル(マルチコンディション学習モデル1) を用いて音声認識を行った。条件Eは雑音除去処理を行った後の音声データを用いて音響モデルを学習し、自動音声認識を行った。条件Fから条件Iは雑音除去処理の後、白色雑音を重畳した音声データを用いて音響モデルの学習を行い、自動音声認識を行った。これらは式(15)に示すpの値を変化させている。
次に、提案手法のMFTを用いることで認識性能が向上することの検証を行った。雑音除去処理の後、白色雑音を重畳した音声データを用いて音響モデルを学習する条件Gと、条件GでMFTによる自動音声認識を用いる条件Jから条件Lの手法を比較する。白色雑音の重畳はp=0.1を用いた。pの最適値は、距離や動作によって異なるため、中間的な値としてp=0.1を用いることとした。
雑音に頑健な手法として一般的に用いられているMLLRと本提案手法との組合せについて実験を行った。本願では、人・ロボットのコミュニケーションにおいて、不特定の人とのコミュニケーションを考慮に入れ、教師なしMLLRを行うこととした。具体的に、例えば、展示会場に案内ロボットがおり、人がロボットと話しをすることで、入力音声を用いてMLLRによる音響モデルの適応を行う。対話が進むことで認識性能を向上させることを想定している。
表9にベースラインとして求めた自動音声認識結果を示す。条件Aから条件Cのうち最も性能のよいものをボールド体で示してある。条件Bおよび条件Cはマルチコンディション学習による音響モデルを用いた自動音声認識結果を示す。クリーンモデルと比べてマルチコンディション学習による音響モデルは有効性が大きいことが確認できる。条件Bおよび条件Cは環境によってどちらが有効であるか異なるが、全体的に見て性能がよい条件Cを従来手法として、以下の実験結果で提案手法との比較を行う。
表10に実験結果を示す。最も自動音声認識性能のよかったものをボールド体で示している。
表11にMFTを用いた自動音声認識の実験結果を示す。最も実用的な手法はJであり、従来手法Cと比べてJの方が高い性能を示したものをボールド体で示す。また、Cと比べたJの有意性の確認を行った。これには有意水準p 値を用いた。
表12にマルチコンディション学習による音響モデルを用いた手法と、提案手法のそれぞれに教師なしMLLRを組み合わせた際の実験結果を示す。従来手法B’,C’と提案手法J’の中で最も自動音声認識性能が高いものをボールド体で示す。表11と同様にC’に対する提案手法J’の有意性の確認を行い、p 値を求めている。一部の雑音環境においてはC’の方が高い性能を示しているが、大半の環境では提案手法が有効であり、特に200cmの距離において提案手法が有効であることが確認できる。実験結果より、提案手法は有効な音響モデルの適応化手法とされるMLLRとの組み合せによっても、従来手法よりも高い自動音声認識性能を達成できることが示された。
6.1 雑音除去処理による効果と白色雑音の重畳
SSは雑音除去を行う上で有効な処理として捉えられているが、マルチコンディション学習による音響モデルを用いた自動音声認識では、SSを行うことで学習時の音声データと認識時の音声データの差を拡げ、認識性能の低下が起こることがある。本実施形態の実験では、条件Bと条件Dで同じマルチコンディション学習による音響モデルを用いた自動音声認識を行い、条件DにはSSを施した。本来有効であるはずのSSが、マルチコンディション学習による音響モデルとの組合せでは逆に認識性能を低下させることが実験結果より明らかとなった。
雑音除去処理および白色雑音重畳の後、MFTを用いた自動音声認識を行う提案手法Jは従来手法Cと比べてほぼ全ての環境で高い性能を示し、有効であることがわかる。また、MFTを用いない条件Gと比べてMFTを用いる条件Jはほぼ全ての環境で高い性能を示しており、MFTを用いることの効果が確認できる。
教師なしMLLRと組み合わせた場合においても、従来手法C’と比べて提案手法J
’の方が高い性能を示すことが確認できる。MLLRは有効な音響モデルの適応化手法として捉えられており、多くの環境で性能が向上する。本提案手法は、MLLRとの組み合せが可能な雑音適応化手法である。
Claims (1)
- モータを駆動して身体を動作させる駆動ユニットと、
前記動作のパターンを表す動作指令を判別する判別ユニットと、
前記動作の際に生じる雑音を収録した雑音テンプレートを動作指令と対応付けて保持する雑音テンプレート保持ユニットと、
入力信号に含まれる雑音を除去する前処理ユニットと、
前記前処理ユニットから出力された雑音除去信号に対して白色雑音を重畳する雑音重畳ユニットと、
少なくとも2つの認識アルゴリズムを備えた音声認識ユニットであって、前記判別された動作指令及び前記雑音重畳ユニットから出力された白色雑音を重畳した信号の特徴量に基づいて前記雑音テンプレート保持ユニットから雑音テンプレートを選択し、前記選択した雑音テンプレートの特徴量が前記入力信号の特徴量から差し引かれたクリーン音声の特徴量から前記クリーン音声の特徴量のメディアン値を差し引いた値の絶対値を、前記白色雑音を重畳した信号の特徴量から前記クリーン音声の特徴量を差し引いた値で除算した重み係数を正規化して信頼性関数を算出し、音素モデル及び前記白色雑音を重畳した信号の特徴量の音響尤度を、前記信頼性関数が高いほど大きく重み付けして音声を認識する認識アルゴリズムを含む音声認識ユニットと、
前記判別された動作指令に応じて前記認識アルゴリズムの1つを選択する切替ユニットと、
を備えたロボット。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US84425606P | 2006-09-13 | 2006-09-13 | |
US60/844,256 | 2006-09-13 | ||
US85912306P | 2006-11-15 | 2006-11-15 | |
US60/859,123 | 2006-11-15 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008122927A JP2008122927A (ja) | 2008-05-29 |
JP5041934B2 true JP5041934B2 (ja) | 2012-10-03 |
Family
ID=39507686
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007235753A Expired - Fee Related JP5041934B2 (ja) | 2006-09-13 | 2007-09-11 | ロボット |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5041934B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106128451A (zh) * | 2016-07-01 | 2016-11-16 | 北京地平线机器人技术研发有限公司 | 用于语音识别的方法及装置 |
US9542937B2 (en) | 2013-01-15 | 2017-01-10 | Honda Motor Co., Ltd. | Sound processing device and sound processing method |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8548802B2 (en) | 2009-05-22 | 2013-10-01 | Honda Motor Co., Ltd. | Acoustic data processor and acoustic data processing method for reduction of noise based on motion status |
WO2011010647A1 (ja) * | 2009-07-21 | 2011-01-27 | 独立行政法人産業技術総合研究所 | 混合音信号中の混合比率推定方法及びシステム並びに音素認識方法 |
US8577678B2 (en) * | 2010-03-11 | 2013-11-05 | Honda Motor Co., Ltd. | Speech recognition system and speech recognizing method |
JP5450298B2 (ja) * | 2010-07-21 | 2014-03-26 | Toa株式会社 | 音声検出装置 |
JP5328744B2 (ja) * | 2010-10-15 | 2013-10-30 | 本田技研工業株式会社 | 音声認識装置及び音声認識方法 |
US9431027B2 (en) | 2011-01-26 | 2016-08-30 | Honda Motor Co., Ltd. | Synchronized gesture and speech production for humanoid robots using random numbers |
JP5966689B2 (ja) * | 2012-07-04 | 2016-08-10 | 日本電気株式会社 | 音響モデル適応装置、音響モデル適応方法および音響モデル適応プログラム |
JP2014145838A (ja) * | 2013-01-28 | 2014-08-14 | Honda Motor Co Ltd | 音響処理装置及び音響処理方法 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0792990A (ja) * | 1993-09-27 | 1995-04-07 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法 |
EP1022724B8 (en) * | 1999-01-20 | 2008-10-15 | Sony Deutschland GmbH | Speaker adaptation for confusable words |
US6205426B1 (en) * | 1999-01-25 | 2001-03-20 | Matsushita Electric Industrial Co., Ltd. | Unsupervised speech model adaptation using reliable information among N-best strings |
JP2001215988A (ja) * | 2000-01-31 | 2001-08-10 | Matsushita Electric Ind Co Ltd | 車載ナビゲーション装置 |
JP4190735B2 (ja) * | 2001-01-25 | 2008-12-03 | パナソニック株式会社 | 音声認識方法および装置とナビゲーション装置 |
JP2002323900A (ja) * | 2001-04-24 | 2002-11-08 | Sony Corp | ロボット装置、プログラム及び記録媒体 |
JP2003099086A (ja) * | 2001-09-25 | 2003-04-04 | Nippon Hoso Kyokai <Nhk> | 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム |
JP2003241791A (ja) * | 2002-02-22 | 2003-08-29 | Matsushita Electric Works Ltd | 音声認識装置及び方法 |
JP2004198831A (ja) * | 2002-12-19 | 2004-07-15 | Sony Corp | 音声認識装置および方法、プログラム、並びに記録媒体 |
JP2004219918A (ja) * | 2003-01-17 | 2004-08-05 | Canon Inc | 音声認識環境判定方法 |
JP2005275348A (ja) * | 2004-02-23 | 2005-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP4581441B2 (ja) * | 2004-03-18 | 2010-11-17 | パナソニック株式会社 | 家電機器システム、家電機器および音声認識方法 |
JP4510517B2 (ja) * | 2004-05-26 | 2010-07-28 | 日本電信電話株式会社 | 音響モデル雑音適応化方法およびこの方法を実施する装置 |
JP4283212B2 (ja) * | 2004-12-10 | 2009-06-24 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 雑音除去装置、雑音除去プログラム、及び雑音除去方法 |
-
2007
- 2007-09-11 JP JP2007235753A patent/JP5041934B2/ja not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9542937B2 (en) | 2013-01-15 | 2017-01-10 | Honda Motor Co., Ltd. | Sound processing device and sound processing method |
CN106128451A (zh) * | 2016-07-01 | 2016-11-16 | 北京地平线机器人技术研发有限公司 | 用于语音识别的方法及装置 |
CN106128451B (zh) * | 2016-07-01 | 2019-12-10 | 北京地平线机器人技术研发有限公司 | 用于语音识别的方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
JP2008122927A (ja) | 2008-05-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5041934B2 (ja) | ロボット | |
US20080071540A1 (en) | Speech recognition method for robot under motor noise thereof | |
JP5738020B2 (ja) | 音声認識装置及び音声認識方法 | |
US9269368B2 (en) | Speaker-identification-assisted uplink speech processing systems and methods | |
Valin et al. | Robust recognition of simultaneous speech by a mobile robot | |
Yamamoto et al. | Enhanced robot speech recognition based on microphone array source separation and missing feature theory | |
Nakatani et al. | Dominance based integration of spatial and spectral features for speech enhancement | |
JP2021505933A (ja) | 修正された一般化固有値ビームフォーマーを用いた音声信号のボイス強調 | |
Ince et al. | Assessment of general applicability of ego noise estimation | |
Saffari et al. | Ava (a social robot): Design and performance of a robotic hearing apparatus | |
Ince et al. | Ego noise suppression of a robot using template subtraction | |
Kothapally et al. | Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking | |
US11790930B2 (en) | Method and system for dereverberation of speech signals | |
Nakadai et al. | A robot referee for rock-paper-scissors sound games | |
Yamamoto et al. | Design and implementation of a robot audition system for automatic speech recognition of simultaneous speech | |
Huang et al. | Multi-microphone adaptive noise cancellation for robust hotword detection | |
Nishimura et al. | Speech recognition for a robot under its motor noises by selective application of missing feature theory and MLLR. | |
Zhao et al. | Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding. | |
Nishimura et al. | Speech recognition for a humanoid with motor noise utilizing missing feature theory | |
Novoa et al. | Robustness over time-varying channels in DNN-hmm ASR based human-robot interaction. | |
Kundegorski et al. | Two-Microphone dereverberation for automatic speech recognition of Polish | |
Meutzner et al. | Binaural signal processing for enhanced speech recognition robustness in complex listening environments | |
Prasad et al. | Two microphone technique to improve the speech intelligibility under noisy environment | |
Tran et al. | Using full-rank spatial covariance models for noise-robust ASR | |
Aalburg et al. | Single-and Two-Channel Noise Reduction for Robust Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20091126 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110518 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110607 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110712 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120417 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120524 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120612 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120710 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5041934 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150720 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |