JP6265136B2

JP6265136B2 - 雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラム

Info

Publication number: JP6265136B2
Application number: JP2014557199A
Authority: JP
Inventors: 剛範辻川; 健花沢; 秀治古明地
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2013-01-17
Filing date: 2013-12-25
Publication date: 2018-01-24
Anticipated expiration: 2033-12-25
Also published as: WO2014112023A1; US20150356983A1; US9449616B2; JPWO2014112023A1

Description

本発明は、雑音混じりの音声に含まれる雑音を除去する雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラムに関し、特に定常的な雑音と非定常的な雑音の両方を精度良く除去できる雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラムに関する。

特許文献１には、雑音推定システムと、雑音推定システムが推定した雑音を用いて雑音除去を行う雑音減衰システムの一例が記載されている。図８は、特許文献１に記載された雑音推定システムの構成を示すブロック図である。図８に示すように、特許文献１に記載された雑音推定システムは、第１の雑音推定部６１１と、第１の雑音減衰部６２１と、音声パタン記憶部６３１と、第２の雑音減衰部６２２と、第２の雑音推定部６１２とを備えている。このような構成を有する雑音推定システムは次のように動作する。

入力信号に含まれる雑音を第１の雑音推定部６１１で推定し、推定した第１の雑音を第１の雑音減衰部６２１で入力信号から減じることで第１の雑音減衰信号を得る。第１の雑音減衰信号と音声パタン記憶部６３１に記憶されている音声パタンとを用いて、第２の雑音減衰部６２２で第２の雑音減衰信号を得る。第２の雑音減衰信号を用いて、第２の雑音推定部６１２で第２の雑音を求める。

特許文献２には、定常雑音に加え、ＣＤプレーヤやラジオの音声等の非定常雑音が存在する環境における耐雑音性を向上させる技術が記載されている。

特願２００７−１９３５１７号公報特開２００６−１６３２３１号公報

特許文献１に記載された雑音推定システムは、第１の雑音推定部で推定した第１の雑音を用いて雑音減衰信号を求め、その雑音減衰信号を用いて雑音を再推定する。それにより、当該雑音推定システムは、第１の雑音に比べて高精度に入力信号に含まれる雑音を推定することができる。しかし、当該雑音推定システムは下記の問題を有する。

その問題点は、第１の雑音推定部で推定した第１の雑音に含まれない雑音成分、つまり第１の雑音推定部で雑音とみなしていない成分は、第２の雑音推定部の出力である第２の雑音にも含まれないということである。

例えば、第１の雑音推定部で定常的な雑音成分（雑音の平均値、分散値の時間変動が小さい雑音成分）を推定した場合、非定常的な雑音成分（雑音の平均値、分散値の時間変動が大きい雑音成分）は第１の雑音に含まれないため、雑音減衰信号には非定常的な雑音成分が残留する。結果として、第１の雑音と同様に、第２の雑音にも非定常的な雑音は含まれず、第２の雑音を用いて雑音減衰信号を計算しても、その雑音減衰信号には非定常的な雑音成分が残留してしまう。

そこで、本発明は、入力信号に含まれる雑音を高精度に推定し、その推定した雑音を用いて入力信号に含まれる雑音を高精度に除去する雑音除去システム、音声検出システム、音声認識システム、雑音除去方法および雑音除去プログラムを提供することを目的とする。

本発明による雑音除去システムは、第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する第１の雑音推定部と、第１の入力信号と第１の雑音推定部からの第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する第１の雑音除去部と、第１の入力信号と第１の雑音除去部からの第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する第２の雑音推定部と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する第３の雑音推定部と、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する推定雑音統合部と、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を除去する第２の雑音除去部とを備えることを特徴とする。

本発明による音声検出システムは、第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する第１の雑音推定部と、第１の入力信号と第１の雑音推定部からの第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する第１の雑音除去部と、第１の入力信号と第１の雑音除去部からの第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する第２の雑音推定部と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する第３の雑音推定部と、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する推定雑音統合部と、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する第２の雑音除去部と、第２の雑音除去部からの第２の推定音声を第２の雑音推定部からの第２の推定雑音または第１の雑音推定部からの第１の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部とを備えることを特徴とする。

本発明による音声認識システムは、第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する第１の雑音推定部と、第１の入力信号と第１の雑音推定部からの第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する第１の雑音除去部と、第１の入力信号と第１の雑音除去部からの第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する第２の雑音推定部と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する第３の雑音推定部と、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する推定雑音統合部と、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する第２の雑音除去部と、第２の雑音除去部からの第２の推定音声を第２の雑音推定部からの第２の推定雑音または第１の雑音推定部からの第１の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部と、第１の雑音除去部からの第１の推定音声と音声検出部からの検出結果を受けて音声を認識する音声認識部とを備えることを特徴とする。

本発明による音声認識システムは、第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する第１の雑音推定部と、第１の入力信号と第１の雑音推定部からの第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する第１の雑音除去部と、第１の入力信号と第１の雑音除去部からの第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する第２の雑音推定部と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する第３の雑音推定部と、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する推定雑音統合部と、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する第２の雑音除去部と、第２の雑音除去部からの第２の推定音声を第２の雑音推定部からの第２の推定雑音または第１の雑音推定部からの第１の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部と、第１の入力信号と第２の雑音推定部からの第２の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第３の推定音声を出力する第３の雑音除去部と、第３の雑音除去部からの第３の推定音声と音声検出部からの検出結果を受けて音声を認識する音声認識部とを備えることを特徴とする。

本発明による雑音除去方法は、第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力し、第１の入力信号と第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力し、第１の入力信号と第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力し、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力し、第２の推定雑音と第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定し、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を除去することを特徴とする。

本発明による雑音除去プログラムは、コンピュータに、第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する処理と、第１の入力信号と第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する処理と、第１の入力信号と第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する処理と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する処理と、第２の推定雑音と第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する処理と、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を除去する処理とを実行させることを特徴とする。

本発明によれば、入力信号に含まれる雑音を高精度に推定し、その推定した雑音を用いて入力信号に含まれる雑音を高精度に除去することができる。具体的には、第１の入力信号を用いて第１の入力信号に含まれる定常的な雑音成分を高精度に推定し、さらに第２の入力信号も用いて第１の入力信号に含まれる非定常的な雑音成分を推定し、推定した定常的な雑音成分と非定常的な雑音成分とを統合し、第１の入力信号から除去することにより、第１の入力信号に含まれる雑音を高精度に除去することができる。

本発明の第１の実施形態の雑音除去システムの構成を示すブロック図である。本発明の第１の実施形態の雑音除去システムの処理を示すフローチャートである。本発明の第２の実施形態の音声検出システムの構成を示すブロック図である。本発明の第２の実施形態の音声検出システムの他の構成を示すブロック図である。本発明の第３の実施形態の音声認識システムの構成を示すブロック図である。本発明の第３の実施形態の音声認識システムの他の構成を示すブロック図である。本発明による音声認識システムの実施例を示す説明図である。特許文献１に記載された雑音推定システムの構成を示すブロック図である。

実施形態１．
以下、本発明の第１の実施形態を図面を参照して説明する。

図１は、本発明の第１の実施形態の雑音除去システムの構成を示すブロック図である。

図１に示すように、雑音除去システムは、第１のマイクロフォン（以下、マイクという。）１０１と、第２のマイク１０２と、第１の雑音推定部１１１と、第２の雑音推定部１１２と、第３の雑音推定部１１３と、推定雑音統合部１１４と、第１の雑音除去部１２１と、第２の雑音除去部１２２とを備える。

第１のマイク１０１は、入力した音声に基づく信号（以下、第１の入力信号という。）を出力する。

第１の雑音推定部１１１は、第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する。

第１の雑音除去部１２１は、第１の入力信号と、第１の雑音推定部１１１で得られた第１の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分を除去する。第１の雑音除去部１２１は、定常的な雑音成分を除去した第１の入力信号を第１の推定音声として出力する。

第２の雑音推定部１１２は、第１の入力信号と、第１の雑音除去部１２１で得られた第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する。

第２のマイク１０２は、入力した音声に基づく信号（以下、第２の入力信号という。）を出力する。

第３の雑音推定部１１３は、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる非定常的な雑音成分を推定し、第３の推定雑音を出力する。

推定雑音統合部１１４は、第２の雑音推定部１１２からの第２の推定雑音と、第３の雑音推定部１１３からの第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分とを推定し、第４の推定雑音を出力する。

第２の雑音除去部１２２は、第１の入力信号と、推定雑音統合部１１４で得られた第４の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音分とを除去する。

なお、第１の雑音推定部１１１、第２の雑音推定部１１２、第３の雑音推定部１１３、推定雑音統合部１１４、第１の雑音除去部１２１および第２の雑音除去部１２２は、例えば、雑音除去プログラムに従って動作するコンピュータによって実現される。この場合、ＣＰＵが雑音除去プログラムを読み込み、そのプログラムに従って、第１の雑音推定部１１１、第２の雑音推定部１１２、第３の雑音推定部１１３、推定雑音統合部１１４、第１の雑音除去部１２１および第２の雑音除去部１２２として動作する。また、第１の雑音推定部１１１、第２の雑音推定部１１２、第３の雑音推定部１１３、推定雑音統合部１１４、第１の雑音除去部１２１および第２の雑音除去部１２２が別々のハードウェアで実現されていてもよい。

次に、図１および図２を参照して、雑音除去システムの動作を説明する。

図２は、本発明の第１の実施形態の雑音除去システムの処理を示すフローチャートである。

音声信号の周波数スペクトルをＳ（ｆ，ｔ）、雑音信号の周波数スペクトルをＮ（ｋ，ｆ，ｔ）とする。そして、第１のマイク１０１の出力である第１の入力信号の周波数スペクトルＸ１（ｆ，ｔ）と、第２のマイク１０２の出力である第２の入力信号の周波数スペクトルＸ２（ｆ，ｔ）とをそれぞれ式１、式２でモデル化する。ただし、ｆは周波数のインデックスである。ｔは時間のインデックスである。ｋは雑音源のインデックスである。また、雑音源はＫ個存在するとする。なお、特に断りがない限り、周波数スペクトルはパワースペクトル、振幅パワースペクトルとして取り扱う。また、以降に示す式において、乗算記号「×」を省略する場合がある。

Ｘ１（ｆ，ｔ）＝Ｓ（ｆ，ｔ）＋Σ＿｛ｋ＝１｝＾｛Ｋ｝Ｈ（ｋ，ｆ，ｔ）Ｎ（ｋ，ｆ，ｔ）（式１）
Ｘ２（ｆ，ｔ）＝Ｈ０（ｆ，ｔ）Ｓ（ｆ，ｔ）＋Σ＿｛ｋ＝１｝＾｛Ｋ｝Ｎ（ｋ，ｆ，ｔ）（式２）

ここで、Ｈ０（ｆ，ｔ）は音声信号Ｓ（ｆ，ｔ）が第１のマイク１０１と第２のマイク１０２に伝達する時の経路差の周波数スペクトルである。Ｈ（ｋ，ｆ，ｔ）は、雑音源ｋの雑音信号Ｎ（ｋ，ｆ，ｔ）が第２のマイク１０２と第１のマイク１０１に伝達する時の経路差の周波数スペクトルである。Σ＿｛ｘ＝下限｝＾｛上限｝ｆ（ｘ）は変数ｘを下限から上限まで変化させたときのｆ（ｘ）の和である。

本発明の雑音除去システムにおける除去対象は、第１の入力信号Ｘ１（ｆ，ｔ）に含まれる雑音信号、つまり、式１の第２項Σ＿｛ｋ＝１｝＾｛Ｋ｝Ｈ（ｋ，ｆ，ｔ）Ｎ（ｋ，ｆ，ｔ）である。式１におけるこの除去対象の雑音を、第１の雑音成分である定常的な雑音の周波数スペクトルＮｓ（ｆ，ｔ）と、第２の雑音成分である非定常的な雑音の周波数スペクトルＮｎ（ｆ，ｔ）とを用いて書き直し、さらに定常的な雑音の周波数スペクトルＮｓ（ｆ，ｔ）をその平均値Ｎｓｍ（ｆ，ｔ）と差分Ｎｓｖ（ｆ，ｔ）とに分解して書き直すと、式１は式３となる。

Ｘ１（ｆ，ｔ）＝Ｓ（ｆ，ｔ）＋Ｎｓ（ｆ，ｔ）＋Ｎｎ（ｆ，ｔ）＝Ｓ（ｆ，ｔ）＋｛Ｎｓｍ（ｆ，ｔ）＋Ｎｓｖ（ｆ，ｔ）｝＋Ｎｎ（ｆ，ｔ）（式３）

第１の雑音推定部１１１は、式３で示す第１の入力信号を第１のマイク１０１から取得し（ステップＳ１）、第１の入力信号Ｘ１（ｆ，ｔ）に含まれる定常的な雑音成分Ｎｓ（ｆ，ｔ）を推定する（ステップＳ２）。

推定方法の例として、以下のように、所定期間（０＜＝ｔ＜ｉｎｉｔＬｅｎ）では、入力信号Ｘ１（ｆ，ｔ）が定常的な雑音成分のみから構成されていると仮定して、入力信号Ｘ１（ｆ，ｔ）を平均化（時間平均）したものを、第１の推定雑音Ｎｓ’１（ｆ，ｔ）とする。

Ｎｓ’１（ｆ，ｔ）＝ａｖｅ＿｛ｔ｝［Ｘ１（ｆ，ｔ）］（０＜＝ｔ＜ｉｎｉｔＬｅｎ）

ただし、ａｖｅ＿｛ｘ｝［ｆ（ｘ）］はｘについてｆ（ｘ）を平均する演算子である。

第１の推定雑音Ｎｓ’１（ｆ，ｔ）の推定方法の別の例として、入力信号Ｘ１（ｆ，ｔ）のヒストグラムを作成し、最小値を第１の推定雑音Ｎｓ’１（ｆ，ｔ）とする方法がある。または、特開２００２−２０４１７５号公報に記載された推定方法を用いて第１の推定雑音Ｎｓ’１（ｆ，ｔ）を推定する方法がある。

なお、第１の雑音推定部１１１は、上記の例と異なる方法を用いて第１の推定雑音Ｎｓ’１（ｆ，ｔ）を推定してもよい。

第１の雑音推定部１１１が第１の推定雑音Ｎｓ’１（ｆ，ｔ）を計算した後、第１の雑音除去部１２１は第１の推定音声Ｓ’１（ｆ，ｔ）を求める（ステップＳ３）。以下に第１の推定音声Ｓ’１（ｆ，ｔ）の推定方法の一例を示す。

Ｓ’１（ｆ，ｔ）＝Ｗ（ｆ，ｔ）Ｘ１（ｆ，ｔ）
Ｗ（ｆ，ｔ）＝Ｓ’’１（ｆ，ｔ）／｛Ｓ’’１（ｆ，ｔ）＋Ｎｓ’１（ｆ，ｔ）｝
Ｓ’’１（ｆ，ｔ）＝０．９８×Ｓ’’１（ｆ，ｔ−１）＋０．０２×ｍａｘ［Ｘ１（ｆ，ｔ）−Ｎｓ’１（ｆ，ｔ），０］

第１の推定音声Ｓ’１（ｆ，ｔ）の推定方法の別の例として、Ｓ’’１（ｆ，ｔ）を第１の推定音声Ｓ’１（ｆ，ｔ）に代入する方法がある。または、特許文献１に記載された方法と同様に、Ｓ’’１（ｆ，ｔ）を事前に学習した音声のパタンを用いて補正した後にＷ（ｆ，ｔ）を計算し、Ｘ１（ｆ，ｔ）に乗算することでＳ’１（ｆ，ｔ）を推定する方法がある。または、Ｓ’’１（ｆ，ｔ）を音声のパタンを用いて補正して、第１の推定音声としてＳ’１（ｆ，ｔ）に代入する方法がある。

なお、第１の雑音除去部１２１は、上記の例と異なる方法を用いて第１の推定音声Ｓ’１（ｆ，ｔ）を推定してもよい。

第１の雑音除去部１２１が第１の推定音声Ｓ’１（ｆ，ｔ）を計算した後、第２の雑音推定部１１２は、第１の入力信号Ｘ１（ｆ，ｔ）と第１の推定音声Ｓ’１（ｆ，ｔ）とを少なくとも用いて、第２の推定雑音Ｎｓ’２（ｆ，ｔ）を求める（ステップＳ４）。以下に第２の推定雑音Ｎｓ’２（ｆ，ｔ）の推定方法の一例を示す。

Ｎｓ’２（ｆ，ｔ）＝Ｘ１（ｆ，ｔ）−Ｓ’１（ｆ，ｔ）

また、第２の雑音推定部１１２は、第１の入力信号Ｘ１（ｆ，ｔ）、第１の推定音声Ｓ’１（ｆ，ｔ）の他に、第１の推定雑音Ｎｓ’１（ｆ，ｔ）を用いて、第２の推定雑音Ｎｓ’２（ｆ，ｔ）を推定してもよい。

第２の推定雑音Ｎｓ’２（ｆ，ｔ）の推定方法の別の例として、以下のように第２の推定雑音Ｎｓ’２（ｆ，ｔ）を求める方法がある。

Ｎｓ’２（ｆ，ｔ）＝ＷＩ（ｆ，ｔ）Ｘ１（ｆ，ｔ）
ＷＩ（ｆ，ｔ）＝Ｎｓ’１（ｆ，ｔ）／｛Ｓ’１（ｆ，ｔ）＋Ｎｓ’１（ｆ，ｔ）｝
または、
ＷＩ（ｆ，ｔ）＝１−Ｓ’１（ｆ，ｔ）／｛Ｓ’１（ｆ，ｔ）＋Ｎｓ’１（ｆ，ｔ）｝

なお、第２の雑音推定部１１２は、上記の例と異なる方法を用いて第２の推定雑音Ｎｓ’２（ｆ，ｔ）を推定してもよい。

第２の雑音推定部１１２は、第１の入力信号Ｘ１（ｆ，ｔ）に加えて第１の推定音声Ｓ’１（ｆ，ｔ）を用いることにより、第１の推定雑音Ｎｓ’１（ｆ，ｔ）より高精度にＸ１（ｆ，ｔ）に含まれる定常的な雑音成分Ｎｓ（ｆ，ｔ）を推定することができる。特に、第２の雑音推定部１１２は、式３に示す定常的な雑音成分の平均値Ｎｓｍ（ｆ，ｔ）だけでなく、Ｎｓ（ｆ，ｔ）とＮｓｍ（ｆ，ｔ）との差分であるＮｓｖ（ｆ，ｔ）も含めて推定することができる。それは、第１の推定雑音Ｎｓ’１（ｆ，ｔ）が第１の推定音声Ｓ’１（ｆ，ｔ）より十分大きい場合にＷＩ（ｆ，ｔ）が１に近い値をとり、そのＷＩ（ｆ，ｔ）をＮｓｖ（ｆ，ｔ）が含まれる第１の入力信号Ｘ１（ｆ，ｔ）に乗じて、第２の推定雑音Ｎｓ’２（ｆ，ｔ）を得るためである。しかし、第２の推定雑音Ｎｓ’２（ｆ，ｔ）には、非定常的な雑音成分Ｎｎ（ｆ，ｔ）は含まれない。それは、第１の推定雑音Ｎｓ’１（ｆ，ｔ）において、非定常的な雑音成分を雑音とみなしていないためである。

次に、第３の雑音推定部１１３は、第２のマイク１０２から第２の入力信号を取得し（ステップＳ５）、第１の入力信号Ｘ１（ｆ，ｔ）と第２の入力信号Ｘ２（ｆ，ｔ）とを用いて、第３の推定雑音Ｎｎ’１（ｆ，ｔ）を求める（ステップＳ６）。

Ｎｎ’１（ｆ，ｔ）=Ｈ’（ｆ，ｔ）Ｘ２（ｆ，ｔ）
Ｈ’（ｆ，ｔ）＝ａｖｅ＿｛ｔ｝［Ｘ１（ｆ，ｔ）］／ａｖｅ＿｛ｔ｝［Ｘ２（ｆ，ｔ）］

なお、Ｈ’（ｆ，ｔ）は式１に含まれるＨ（ｋ，ｆ，ｔ）の推定値であり、上記の例で示した方法以外で推定してもよい。また、事前にＨ’（ｆ，ｔ）の値を求めることができる場合には、その値を使用してもよい。

第３の推定雑音Ｎｎ’１（ｆ，ｔ）は、第２の推定雑音Ｎｓ’２（ｆ，ｔ）が含んでいない非定常的な雑音成分を含んでいる。しかし、第１のマイク１０１からの第１の入力信号に含まれる定常的な雑音成分については、Ｎｓ（ｆ，ｔ）とその平均値Ｎｓｍ（ｆ，ｔ）との差分Ｎｓｖ（ｆ，ｔ）も含めて推定している第２の推定雑音Ｎｓ’２（ｆ，ｔ）の方が、第２の入力信号に基づく第３の推定雑音Ｎｎ’１（ｆ，ｔ）より高精度である。

次に、推定雑音統合部１１４は、第２の雑音推定部１１２から出力された第２の推定雑音Ｎｓ’２（ｆ，ｔ）と、第３の雑音推定部１１３から出力された第３の推定雑音Ｎｎ’１（ｆ，ｔ）とを用いて、第１の入力信号に含まれる定常的な雑音、非定常的な雑音を高精度に推定する（ステップＳ７）。そして、推定雑音統合部１１４は、推定した雑音を第４の推定雑音Ｎ’（ｆ，ｔ）として出力する。

Ｎ’（ｆ，ｔ）＝（１−α（ｆ，ｔ））｛βｓ（ｆ，ｔ）Ｎｓ’２（ｆ，ｔ）｝＋α（ｆ，ｔ）｛βｎ（ｆ，ｔ）Ｎｎ’１（ｆ，ｔ）｝

ここで、α（ｆ，ｔ）はβｓ（ｆ，ｔ）Ｎｓ’２（ｆ，ｔ）とβｎ（ｆ，ｔ）Ｎｎ’１（ｆ，ｔ）との混合を制御する係数（以下、混合係数という。）である。また、βｓ（ｆ，ｔ）は定常的な雑音成分の推定値Ｎｓ’２（ｆ，ｔ）を微調整する係数（以下、調整係数という。）である。βｎ（ｆ，ｔ）は非定常的な雑音を含む雑音の推定値Ｎｎ’１（ｆ，ｔ）を微調整する調整係数である。βｓ（ｆ，ｔ）とβｎ（ｆ，ｔ）は通常は１．０という値が望ましいが、雑音を過大に推定したい場合は１．０より大きい値、過小に推定したい場合は１．０より小さい値に設定してもよい。混合係数α（ｆ，ｔ）は、非定常的な雑音が存在する場合に１．０に近い値を取り、非定常的な雑音が存在しない場合に０．０に近い値を取るようにすればよい。例えば、以下のようにすればよい。

α（ｆ，ｔ）＝１．０ｆｏｒ βｓ（ｆ，ｔ）Ｎｓ’２（ｆ，ｔ）＜ βｎ（ｆ，ｔ）Ｎｎ’１（ｆ，ｔ）
α（ｆ，ｔ）＝０．０ｆｏｒ βｓ（ｆ，ｔ）Ｎｓ’２（ｆ，ｔ）＞＝ βｎ（ｆ，ｔ）Ｎｎ’１（ｆ，ｔ）

ただし、この場合は最大値をとる演算ｍａｘ［］を用いると、第４の推定雑音Ｎ’（ｆ，ｔ）は以下のようになる。

Ｎ’（ｆ，ｔ）＝ｍａｘ［βｓ（ｆ，ｔ）Ｎｓ’２（ｆ，ｔ）， βｎ（ｆ，ｔ）Ｎｎ’１（ｆ，ｔ）］

α（ｆ，ｔ）の計算方法の別の例として、βｓ（ｆ，ｔ）Ｎｓ’２（ｆ，ｔ）よりβｎ（ｆ，ｔ）Ｎｎ’１（ｆ，ｔ）の値が大きいほど、すなわち比｛βｎ（ｆ，ｔ）Ｎｎ’１（ｆ，ｔ）／βｓ（ｆ，ｔ）Ｎｓ’２（ｆ，ｔ）｝が大きいほどα（ｆ，ｔ）が１．０に近づき、小さいほどα（ｆ，ｔ）が０．０に近づくように、α（ｆ，ｔ）を算出する方法がある。なお、α（ｆ，ｔ）の計算方法は上記の例と異なる方法を用いてもよい。

最後に、第２の雑音除去部１２２は、第４の推定雑音Ｎ’（ｆ，ｔ）を用いて、第１の入力信号Ｘ１（ｆ，ｔ）に含まれる雑音を除去し（ステップＳ８）、雑音を除去した第１の入力信号Ｘ１（ｆ，ｔ）を第２の推定音声Ｓ’２（ｆ，ｔ）として出力する。このとき、第２の雑音除去部１２２は、第１の雑音除去部１２１と同様、以下の例に示す方法を用いることができる。

Ｓ’２（ｆ，ｔ）＝Ｗ（ｆ，ｔ）Ｘ１（ｆ，ｔ）
Ｗ（ｆ，ｔ）＝Ｓ’’２（ｆ，ｔ）／｛Ｓ’’２（ｆ，ｔ）＋Ｎ’（ｆ，ｔ）｝
Ｓ’’２（ｆ，ｔ）＝０．９８×Ｓ’’２（ｆ，ｔ−１）＋０．０２×ｍａｘ［Ｘ１（ｆ，ｔ）−Ｎ’（ｆ，ｔ），０］

第２の推定音声Ｓ’２（ｆ，ｔ）の推定方法の別の例として、Ｓ’’２（ｆ，ｔ）を第２の推定音声Ｓ’２（ｆ，ｔ）に代入する方法がある。または、特許文献１に記載された方法と同様に、Ｓ’’２（ｆ，ｔ）を事前に学習した音声のパタンを用いて補正した後にＷ（ｆ，ｔ）を計算し、Ｘ１（ｆ，ｔ）に乗算することでＳ’２（ｆ，ｔ）を推定する。または、Ｓ’’２（ｆ，ｔ）を音声のパタンを用いて補正して、第２の推定音声としてＳ’２（ｆ，ｔ）に代入する方法がある。

なお、第２の雑音除去部１２２は、上記の例と異なる方法を用いて第２の推定音声Ｓ’２（ｆ，ｔ）を推定してもよい。

以上に説明したように、本実施形態では、定常的な雑音成分の高精度な推定値である第２の推定雑音Ｎｓ’２（ｆ，ｔ）と、第２のマイクからの第２の入力信号に基づく非定常的な雑音成分を含む雑音の推定値Ｎｎ’１（ｆ，ｔ）とを統合する。それにより、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分を高精度に推定することができる。また、本実施形態では、推定された当該定常的な雑音成分と当該非定常的な雑音成分とをもとに第１の入力信号から雑音を除去するので、高精度に雑音を除去することができる。

特許文献２に記載された方法における除去対象の非定常雑音成分は、マイクを介して入力されるＣＤプレーヤ等の再生音（ＣＤプレーヤ等のスピーカからのエコー）である。特許文献２に記載された方法では、ＣＤプレーヤ等から、音に変換される前の電気信号を参照信号として用いて非定常雑音成分を推定する。そのため、参照信号に含まれない非定常雑音成分は推定できず、除去できない。

それに対して、本実施形態では、マイクから入力された音声信号に基づいて非定常的な雑音成分を推定するため、第３の雑音推定部１１３が推定する非定常的な雑音成分にはスピーカから再生された非定常的な雑音成分に加えて、定常的な雑音成分やスピーカから再生されていない非定常的な雑音成分も含まれる。すなわち、第３の雑音推定部１１３は、定常的な雑音成分と非定常的な雑音成分との和から構成される非定常的な雑音成分（以下、第２の非定常的な雑音成分と表現する。）を推定する。従って、本実施形態によれば、スピーカから再生された非定常的な雑音成分に加えて、定常的な雑音成分やスピーカから再生されていない非定常的な雑音成分も除去できる。

実施形態２．
以下、本発明の第２の実施形態を図面を参照して説明する。

図３は、本発明の第２の実施形態の音声検出システムの構成を示すブロック図である。図４は、第２の実施形態の音声検出システムの他の構成を示すブロック図である。なお、第１の実施形態と同様の構成については、図１と同一の符号を付し、説明を省略する。

図３に示すように、音声検出システムは、第１の実施形態の雑音除去システムの構成に加え、正規化部１３１と、音声検出部１３２とを備える。

正規化部１３１は、第２の雑音除去部１２２からの第２の推定音声Ｓ’２（ｆ，ｔ）を、第２の雑音推定部１１２からの第２の推定雑音Ｎｓ’２（ｆ，ｔ）を用いて正規化する。

音声検出部１３２は、正規化部１３１からの正規化音声を用いて音声を検出する。

なお、第２の実施形態における、第１の雑音推定部１１１、第２の雑音推定部１１２、第３の雑音推定部１１３、推定雑音統合部１１４、第１の雑音除去部１２１、第２の雑音除去部１２２、正規化部１３１および音声検出部１３２は、例えば、音声検出プログラムに従って動作するコンピュータによって実現される。この場合、ＣＰＵが音声検出プログラムを読み込み、そのプログラムに従って、第１の雑音推定部１１１、第２の雑音推定部１１２、第３の雑音推定部１１３、推定雑音統合部１１４、第１の雑音除去部１２１、第２の雑音除去部１２２、正規化部１３１および音声検出部１３２として動作する。また、第１の雑音推定部１１１、第２の雑音推定部１１２、第３の雑音推定部１１３、推定雑音統合部１１４、第１の雑音除去部１２１、第２の雑音除去部１２２、正規化部１３１および音声検出部１３２が別々のハードウェアで実現されていてもよい。

音声検出システムのその他の構成および動作は、第１の実施形態の雑音除去システムと同様である。したがって、正規化部１３１および音声検出部１３２について説明する。

正規化部１３１は、第２の雑音除去部１２２からの第２の推定音声Ｓ’２（ｆ，ｔ）を第２の雑音推定部１１２からの第２の推定雑音Ｎｓ’２（ｆ，ｔ）を用いて正規化し、正規化音声Ｓｎ’（ｆ，ｔ）を出力する。式４に第２の推定音声Ｓ’２（ｆ，ｔ）の正規化の一例を示す。

Ｓｎ’（ｆ，ｔ）＝Ｓ’２（ｆ，ｔ）／Ｎｓ’２（ｆ，ｔ）（式４）

上記のように正規化することにより、例えば、第１のマイク１０１の感度が異なり、第１の入力信号の音量が変化した場合においても、正規化音声Ｓｎ’（ｆ，ｔ）の値は変化しない。すなわち、Ｓｎ’（ｆ，ｔ）を用いて音声を検出する際に、検出閾値の設定が容易になる。また、式２で示す第２の入力信号の右辺第１項Ｈ０（ｆ，ｔ）Ｓ（ｆ，ｔ）（以降、クロストークと呼ぶ。）が無視できない場合、第４の推定雑音Ｎ’（ｆ，ｔ）ではなく、クロストークが含まれない第２の推定雑音Ｎｓ’２（ｆ，ｔ）で正規化することにより、Ｓｎ’（ｆ，ｔ）が音声区間でより大きな値となる。すなわち、Ｓｎ’（ｆ，ｔ）を用いて音声を検出する際に、より音声区間を高精度に検出できる。

なお、式４では周波数のインデックスｆと時間のインデックスｔ毎に正規化し、正規化音声を出力しているが、周波数や時間で平均化してもよい。また、図４に示すように、正規化部１３１は、第２の推定雑音Ｎｓ’２（ｆ，ｔ）の代わりに同様にクロストークが含まれない第１の推定雑音Ｎｓ’１（ｆ，ｔ）を入力して、第１の推定雑音Ｎｓ’１（ｆ，ｔ）を用いて正規化してもよい。

また、以下の式に示すように、正規化に用いる第２の推定雑音Ｎｓ’２（ｆ，ｔ）や第１の推定雑音Ｎｓ’１（ｆ，ｔ）に対して、微量の非定常雑音を混入させてもよい。すなわち、当該微量の非定常雑音を混入した第２の推定雑音Ｎｓ’２（ｆ，ｔ）や第１の推定雑音Ｎｓ’１（ｆ，ｔ）を、正規化に用いてもよい。

Ｎｓ’２（ｆ，ｔ）＝（１−γ（ｆ，ｔ））Ｎｓ’２（ｆ，ｔ）＋γ（ｆ，ｔ）Ｎｎ’１（ｆ，ｔ）
Ｎｓ’１（ｆ，ｔ）＝（１−γ（ｆ，ｔ））Ｎｓ’１（ｆ，ｔ）＋γ（ｆ，ｔ）Ｎｎ’１（ｆ，ｔ）

ここで、γ（ｆ，ｔ）は、Ｎｓ’２（ｆ，ｔ）またはＮｓ’１（ｆ，ｔ）への非定常雑音の混入度合いを制御する係数であり、１より小さい正の数である。例えば、Ｎｓ’２（ｆ，ｔ）を用いた場合に、γ（ｆ，ｔ）＝０．０１と設定すると、Ｎ’２（ｆ，ｔ）にはＮｎ’１（ｆ，ｔ）に含まれる非定常雑音が１％混入する。非定常雑音の微量な推定誤差により式４のＳ’２（ｆ，ｔ）に微量な非定常雑音が残留した場合に、Ｎ’２（ｆ，ｔ）に非定常雑音を１％混入することによって、Ｓ’２（ｆ，ｔ）に残留した微量な非定常雑音の悪影響を軽減できる。特に、定常雑音が非定常雑音に比べて非常に小さい場合に、残留した微量な非定常雑音の悪影響が大きいため、微量な非定常雑音を混入する効果が大きい。非定常雑音を混入する際、同時に微量なクロストークが混入するが、その悪影響は小さい。なお、γ（ｆ，ｔ）は、非定常雑音の推定がより難しい低い周波数（ｆが小さい）ほど、大きな値に設定してもよい。また、定常雑音が非定常雑音に比べて小さいほど大きな値に設定してもよい。

次に、音声検出部１３２は、正規化部１３１からの正規化音声Ｓｎ’（ｆ，ｔ）を用いて音声を検出し、検出結果を出力する。検出結果の例を以下に示す。

検出結果＝対象音声区間ｆｏｒＳｎ’（ｔ）＞＝Ｔｈ
検出結果＝非対象音声区間ｆｏｒＳｎ’（ｔ）＜Ｔｈ

ここで、Ｓｎ’（ｔ）は、Ｓｎ’（ｆ，ｔ）を計算する際に周波数ｆに関して平均した後に計算した正規化音声である。時刻ｔにおいて、Ｓｎ’（ｔ）が閾値Ｔｈより大きければ対象音声区間、閾値Ｔｈより小さければ対象音声区間ではないと判定する。

以上に説明したように、本実施形態では、高精度に雑音除去された第２の雑音除去部１２２からの第２の推定音声Ｓ’２（ｆ，ｔ）を、第２の雑音推定部１１２からの第２の推定雑音Ｎｓ’２（ｆ，ｔ）を用いて正規化する。それにより、音声検出部１３２における閾値の設定が容易になる。また、本実施形態では、クロストークが無視できない場合、第４の推定雑音Ｎ’（ｆ，ｔ）ではなく、クロストークが含まれない第２の推定雑音Ｎｓ’２（ｆ，ｔ）で正規化する。それにより、Ｓｎ’（ｆ，ｔ）が音声区間でより大きな値となる。すなわちＳｎ’（ｆ，ｔ）を用いて音声を検出する際に、より音声区間を高精度に検出できる。

実施形態３．
以下、本発明の第３の実施形態を図面を参照して説明する。

図５は、本発明の第３の実施形態の音声認識システムの構成を示すブロック図である。なお、第２の実施形態と同様の構成については、図３と同一の符号を付し、説明を省略する。

図５に示すように、音声認識システムは、第２の実施形態の音声検出システムの構成に加え、音声認識部１３３を備える。

音声認識部１３３は、第１の雑音除去部１２１からの第１の推定音声Ｓ’１（ｆ，ｔ）と音声検出部１３２からの検出結果を受けて音声を認識する。

音声認識システムのその他の構成および動作は、第２の実施形態の音声検出システムと同様である。したがって、音声認識部１３３について説明する。

音声認識部１３３は、第１の雑音除去部１２１からの第１の推定音声Ｓ’１（ｆ，ｔ）と音声検出部１３２からの検出結果を受けて音声を認識し、音声認識結果を出力する。音声認識部１３３は、受け取った検出結果が対象音声区間の場合に、第１の雑音除去部１２１からの第１の推定音声Ｓ’１（ｆ，ｔ）を認識する。

このように、第２の雑音除去部１２２からの第２の推定音声Ｓ’２（ｆ，ｔ）ではなくクロストークの影響を受けていない第１の雑音除去部１２１からの第１の推定音声Ｓ’１（ｆ，ｔ）を音声認識部１３３の入力とすることにより、クロストークの影響による音声認識率の低下を防ぐことができる。

また、音声認識システムは、図６に示すように構成されていてもよい。図６は、第３の実施形態の音声認識システムの他の構成を示すブロック図である。

図６に示す音声認識システムは、図５に示す音声認識システムの構成に加え、第３の雑音除去部１２３を備える。

第３の雑音除去部１２３は、第１の入力信号とクロストークが含まれない第２の推定雑音Ｎｓ’２（ｆ，ｔ）を用いて、第１の雑音除去部１２１や第２の雑音除去部１２２と同様な手法で第３の推定音声を求める。そして、第３の雑音除去部１２３は、第３の推定音声を音声認識部１３３に出力する。

このように、クロストークの影響を受けていない第３の推定音声を音声認識部１３３の入力とすることにより、図５に示すシステムと同様にクロストークの影響による音声認識率の低下を防ぐことができる。

以上に説明したように、本実施形態では、第１の雑音除去部１２１からの第１の推定音声Ｓ’１（ｆ，ｔ）と音声検出部１３２からの検出結果とを受けて音声を認識し、音声認識結果を出力する。このように、音声検出部１３２からの高精度な検出結果とクロストークの影響を受けていない第１の雑音除去部１２１からの第１の推定音声Ｓ’１（ｆ，ｔ）とを音声認識部１３３の入力とすることにより、高い音声認識率を達成できる。

なお、第３の実施形態における、第１の雑音推定部１１１、第２の雑音推定部１１２、第３の雑音推定部１１３、推定雑音統合部１１４、第１の雑音除去部１２１、第２の雑音除去部１２２、正規化部１３１、音声検出部１３２、音声認識部１３３および第３の雑音除去部１２３は、例えば、音声認識プログラムに従って動作するコンピュータによって実現される。この場合、ＣＰＵが音声認識プログラムを読み込み、そのプログラムに従って、第１の雑音推定部１１１、第２の雑音推定部１１２、第３の雑音推定部１１３、推定雑音統合部１１４、第１の雑音除去部１２１、第２の雑音除去部１２２、正規化部１３１、音声検出部１３２、音声認識部１３３および第３の雑音除去部１２３として動作する。また、第１の雑音推定部１１１、第２の雑音推定部１１２、第３の雑音推定部１１３、推定雑音統合部１１４、第１の雑音除去部１２１、第２の雑音除去部１２２、正規化部１３１、音声検出部１３２、音声認識部１３３および第３の雑音除去部１２３が別々のハードウェアで実現されていてもよい。

以下、具体的な実施例により本発明を説明するが、本発明の範囲は以下に説明する内容に限定されない。

図７は、本発明による音声認識システムの実施例を示す説明図である。

図７に示す端末２００は、本発明による音声認識システムを含む。端末２００は、例えばタブレット端末であって、話者３００は、端末２００に設置されたタッチパネル２０１を操作する。なお、タッチパネル２０１が設置された側を端末２００の表面とする。

話者３００が発声した音声を第１のマイク１０１と第２のマイク１０２で収音する。第１のマイク１０１と第２のマイク１０２は話者の音声が第１のマイク１０１により大きく入力されるように配置することが望ましい。従って、本実施例では、図７に示すように、端末２００の表面に第１のマイク１０１を配置する。そして、話者３００の音声の直接音が第２のマイク１０２に入力されないように、端末２００の裏面に第２のマイク１０２を配置する。

図７に示す例では、第１のマイク１０１には話者３００の音声の直接音が入力されるが、第２のマイク１０２へは反射音と回折音しか入力されない。そのため、話者３００の音声は第１のマイク１０１により大きく入力される。一方、雑音を発する空調機４００やテレビ５００からの雑音は、第２のマイク１０２により大きく入力されることが望ましい。

本実施例のように空調機４００からの定常的な雑音、テレビ５００からの非定常的な雑音が発せられた場合においても、本発明による音声認識システムは、高精度に音声を認識できる。その理由は、上述のとおり、音声認識システムが、第１のマイク１０１が出力する第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分を高精度に推定し、推定した当該定常的な雑音成分と当該非定常的な雑音成分とをもとに第１の入力信号から雑音を除去するからである。

なお、本実施例および第３の実施形態では、音声認識システムが第１のマイク１０１および第２のマイク１０２を備える場合について説明したが、音声認識システムは第１のマイク１０１および第２のマイク１０２を備えていなくてもよい。例えば、端末２００が備えるマイクを第１のマイクおよび第２のマイクとして利用するようにしてもよい。また、第１の実施形態および第２の実施形態についても同様に、雑音除去システムおよび音声検出システムは、第１のマイク１０１および第２のマイク１０２を備えていなくてもよい。

以上、本発明を上記各実施形態および実施例に即して説明したが、本発明は、上記の各実施形態の構成のみに限定されるものでなく、本発明の原理に準ずる範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。

また、本発明は、入力信号に含まれる雑音を除去できる雑音除去システムや、雑音除去システムをコンピュータに実現するためのプログラムといった用途に適用できる。

また、上記の各実施形態の一部又は全部は、以下の付記のようにも記載されうるが、以下に限られない。

（付記１）第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する第１の雑音推定部と、第１の入力信号と第１の雑音推定部からの第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する第１の雑音除去部と、第１の入力信号と第１の雑音除去部からの第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する第２の雑音推定部と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する第３の雑音推定部と、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する推定雑音統合部と、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を除去する第２の雑音除去部と、第２の雑音除去部からの第２の推定音声を第２の雑音推定部からの第２の推定雑音または第１の雑音推定部からの第１の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部とを備えることを特徴とする音声検出システム。

（付記２）推定雑音統合部は、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音の大きさに応じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する付記１に記載の音声検出システム。

そのような構成によれば、調整係数を調整することにより、第２の推定雑音および第３の推定雑音を過大に推定したり、過小に推定したりすることができる。また、混合係数を制御することにより、定常的な雑音および非定常的な雑音が存在する度合いに応じた雑音推定を行うことができる。従って、音声区間をより高精度に検出できる。

（付記３）推定雑音統合部は、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより第１の入力信号に含まれる雑音を推定する付記１に記載の音声検出システム。

そのような構成によれば、混合係数を用いることなく、定常的な雑音および非定常的な雑音が存在する度合いに応じた雑音推定を行うことができるので、高精度な音声検出をより簡易に行うことができる。

（付記４）入力した音声を第１の入力信号として出力する第１の音声入力装置と、入力した音声を第２の入力信号として出力する第２の音声入力装置とを備え、第１の音声入力装置に入力される雑音除去の対象となる音声が、第２の音声入力装置に入力される雑音除去の対象となる音声よりも大きい付記１から付記３のうちのいずれか１つに記載の音声検出システム。

そのような構成によれば、空調機からの定常的な雑音、テレビからの非定常的な雑音が発せられた場合においても、音声をより高精度に検出することができる。

（付記５）第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する第１の雑音推定部と、第１の入力信号と第１の雑音推定部からの第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する第１の雑音除去部と、第１の入力信号と第１の雑音除去部からの第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する第２の雑音推定部と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する第３の雑音推定部と、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する推定雑音統合部と、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する第２の雑音除去部と、第２の雑音除去部からの第２の推定音声を第２の雑音推定部からの第２の推定雑音または第１の雑音推定部からの第１の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部と、第１の雑音除去部からの第１の推定音声と音声検出部からの検出結果を受けて音声を認識する音声認識部とを備えることを特徴とする音声認識システム。

（付記６）推定雑音統合部は、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音の大きさに応じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する付記５に記載の音声認識システム。

そのような構成によれば、調整係数を調整することにより、第２の推定雑音および第３の推定雑音を過大に推定したり、過小に推定したりすることができる。また、混合係数を制御することにより、定常的な雑音および非定常的な雑音が存在する度合いに応じた雑音推定を行うことができる。従って、音声区間をより高精度に検出できる。それにより、高い音声認識率を達成できる。

（付記７）推定雑音統合部は、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより第１の入力信号に含まれる雑音を推定する付記５に記載の音声認識システム。

そのような構成によれば、混合係数を用いることなく、定常的な雑音および非定常的な雑音が存在する度合いに応じた雑音推定を行うことができるので、より簡易に高い音声認識率を達成できる。

（付記８）入力した音声を第１の入力信号として出力する第１の音声入力装置と、入力した音声を第２の入力信号として出力する第２の音声入力装置とを備え、第１の音声入力装置に入力される雑音除去の対象となる音声が、第２の音声入力装置に入力される雑音除去の対象となる音声よりも大きい付記５から付記７のうちのいずれか１つに記載の音声認識システム。

そのような構成によれば、空調機からの定常的な雑音、テレビからの非定常的な雑音が発せられた場合においても、より高い音声認識率を達成できる。

（付記９）第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する第１の雑音推定部と、第１の入力信号と第１の雑音推定部からの第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する第１の雑音除去部と、第１の入力信号と第１の雑音除去部からの第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する第２の雑音推定部と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する第３の雑音推定部と、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する推定雑音統合部と、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する第２の雑音除去部と、第２の雑音除去部からの第２の推定音声を第２の雑音推定部からの第２の推定雑音または第１の雑音推定部からの第１の推定雑音で正規化する正規化部と、正規化部からの正規化音声を用いて音声を検出する音声検出部と、第１の入力信号と第２の雑音推定部からの第２の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第３の推定音声を出力する第３の雑音除去部と、第３の雑音除去部からの第３の推定音声と音声検出部からの検出結果を受けて音声を認識する音声認識部とを備えることを特徴とする音声認識システム。

（付記１０）推定雑音統合部は、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音の大きさに応じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する付記９に記載の音声認識システム。

（付記１１）推定雑音統合部は、第２の雑音推定部からの第２の推定雑音と第３の雑音推定部からの第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより第１の入力信号に含まれる雑音を推定する付記９に記載の音声認識システム。

（付記１２）入力した音声を第１の入力信号として出力する第１の音声入力装置と、入力した音声を第２の入力信号として出力する第２の音声入力装置とを備え、第１の音声入力装置に入力される雑音除去の対象となる音声が、第２の音声入力装置に入力される雑音除去の対象となる音声よりも大きい付記９から付記１１のうちのいずれか１つに記載の音声認識システム。

（付記１３）第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力し、第１の入力信号と第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力し、第１の入力信号と第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力し、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力し、第２の推定雑音と第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定し、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力することを特徴とする雑音除去方法。

（付記１４）第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音の大きさに応じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する付記１３に記載の雑音除去方法。

（付記１５）第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより第１の入力信号に含まれる雑音を推定する付記１３に記載の雑音除去方法。

（付記１６）第２の入力信号に含まれる雑音除去の対象音声に比べて第１の入力信号に含まれる雑音除去の対象音声が大きくなるように、第１の入力信号および第２の入力信号を入力する付記１３から付記１５のうちのいずれか１つに記載の雑音除去方法。

（付記１７）第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力し、第１の入力信号と第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力し、第１の入力信号と第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力し、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力し、第２の推定雑音と第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定し、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力し、第２の推定音声を第２の推定雑音または第１の推定雑音で正規化した正規化音声を用いて音声を検出することを特徴とする音声検出方法。

（付記１８）第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音の大きさに応じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する付記１７に記載の音声検出方法。

（付記１９）第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより第１の入力信号に含まれる雑音を推定する付記１７に記載の音声検出方法。

（付記２０）第２の入力信号に含まれる雑音除去の対象音声に比べて第１の入力信号に含まれる雑音除去の対象音声が大きくなるように、第１の入力信号および第２の入力信号を入力する付記１７から付記１９のうちのいずれか１つに記載の音声検出方法。

（付記２１）第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力し、第１の入力信号と第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力し、第１の入力信号と第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力し、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力し、第２の推定雑音と第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定し、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力し、第２の推定音声を第２の推定雑音または第１の推定雑音で正規化した正規化音声を用いて音声を検出し、第１の推定音声と検出結果とを受けて音声を認識することを特徴とする音声認識方法。

（付記２２）第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音の大きさに応じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する付記２１に記載の音声認識方法。

（付記２３）第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより第１の入力信号に含まれる雑音を推定する付記２１に記載の音声認識方法。

（付記２４）第２の入力信号に含まれる雑音除去の対象音声に比べて第１の入力信号に含まれる雑音除去の対象音声が大きくなるように、第１の入力信号および第２の入力信号を入力する付記２１から付記２３のうちのいずれか１つに記載の音声認識方法。

（付記２５）第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力し、第１の入力信号と第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力し、第１の入力信号と第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力し、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力し、第２の推定雑音と第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定し、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力し、第２の推定音声を第２の推定雑音または第１の推定雑音で正規化した正規化音声を用いて音声を検出し、第１の入力信号と第２の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第３の推定音声を出力し、第３の推定音声と検出結果とを受けて音声を認識することを特徴とする音声認識方法。

（付記２６）第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音の大きさに応じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する付記２５に記載の音声認識方法。

（付記２７）第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより第１の入力信号に含まれる雑音を推定する付記２５に記載の音声認識方法。

（付記２８）第２の入力信号に含まれる雑音除去の対象音声に比べて第１の入力信号に含まれる雑音除去の対象音声が大きくなるように、第１の入力信号および第２の入力信号を入力する付記２５から付記２７のうちのいずれか１つに記載の音声認識方法。

（付記２９）コンピュータに、第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する処理と、第１の入力信号と第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する処理と、第１の入力信号と第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する処理と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する処理と、第２の推定雑音と第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する処理と、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する処理とを実行させるための雑音除去プログラム。

（付記３０）コンピュータに、第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音の大きさに応じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する処理を実行させる付記２９に記載の雑音除去プログラム。

（付記３１）コンピュータに、第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより第１の入力信号に含まれる雑音を推定する処理を実行させる付記２９に記載の雑音除去プログラム。

（付記３２）コンピュータに、第２の入力信号に含まれる雑音除去の対象音声に比べて第１の入力信号に含まれる雑音除去の対象音声が大きくなるように、第１の入力信号および第２の入力信号を入力する処理を実行させる付記２９から付記３１のうちのいずれか１つに記載の雑音除去プログラム。

（付記３３）コンピュータに、第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する処理と、第１の入力信号と第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する処理と、第１の入力信号と第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する処理と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する処理と、第２の推定雑音と第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する処理と、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する処理と、第２の推定音声を第２の推定雑音または第１の推定雑音で正規化した正規化音声を用いて音声を検出する処理とを実行させるための音声検出プログラム。

（付記３４）コンピュータに、第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音の大きさに応じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する処理を実行させる付記３３に記載の音声検出プログラム。

（付記３５）コンピュータに、第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより第１の入力信号に含まれる雑音を推定する処理を実行させる付記３３に記載の音声検出プログラム。

（付記３６）コンピュータに、第２の入力信号に含まれる雑音除去の対象音声に比べて第１の入力信号に含まれる雑音除去の対象音声が大きくなるように、第１の入力信号および第２の入力信号を入力する処理を実行させる付記３３から付記３５のうちのいずれか１つに記載の音声検出プログラム。

（付記３７）コンピュータに、第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する処理と、第１の入力信号と第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する処理と、第１の入力信号と第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する処理と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する処理と、第２の推定雑音と第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する処理と、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する処理と、第２の推定音声を第２の推定雑音または第１の推定雑音で正規化した正規化音声を用いて音声を検出する処理と、第１の推定音声と音声の検出結果とを受けて音声を認識する処理とを実行させるための音声認識プログラム。

（付記３８）コンピュータに、第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音の大きさに応じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する処理を実行させる付記３７に記載の音声認識プログラム。

（付記３９）コンピュータに、第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより第１の入力信号に含まれる雑音を推定する処理を実行させる付記３７に記載の音声認識プログラム。

（付記４０）コンピュータに、第２の入力信号に含まれる雑音除去の対象音声に比べて第１の入力信号に含まれる雑音除去の対象音声が大きくなるように、第１の入力信号および第２の入力信号を入力する処理を実行させる付記３７から付記３９のうちのいずれか１つに記載の音声認識プログラム。

（付記４１）コンピュータに、第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する処理と、第１の入力信号と第１の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する処理と、第１の入力信号と第１の推定音声とを少なくとも用いて、第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する処理と、第１の入力信号と第２の入力信号とを用いて、第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する処理と、第２の推定雑音と第３の推定雑音とを用いて、第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する処理と、第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する処理と、第２の推定音声を第２の推定雑音または第１の推定雑音で正規化した正規化音声を用いて音声を検出する処理と、第１の入力信号と第２の推定雑音とを用いて、第１の入力信号から定常的な雑音成分を除去した第３の推定音声を出力する処理と、第３の推定音声と音声の検出結果とを受けて音声を認識するための音声認識プログラム。

（付記４２）コンピュータに、第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音の大きさに応じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する処理を実行させる付記４１に記載の音声認識プログラム。

（付記４３）コンピュータに、第２の推定雑音と第３の推定雑音にそれぞれ調整係数を乗じて、調整係数が乗じられた第２の推定雑音と調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより第１の入力信号に含まれる雑音を推定する処理を実行させる付記４１に記載の音声認識プログラム。

（付記４４）コンピュータに、第２の入力信号に含まれる雑音除去の対象音声に比べて第１の入力信号に含まれる雑音除去の対象音声が大きくなるように、第１の入力信号および第２の入力信号を入力する処理を実行させる付記４１から付記４３のうちのいずれか１つに記載の音声認識プログラム。

この出願は、２０１３年１月１７日に出願された日本特許出願２０１３−００６０４４を基礎とする優先権を主張し、その開示の全てをここに取り込む。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記の実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

１０１第１のマイク
１０２第２のマイク
１１１第１の雑音推定部
１１２第２の雑音推定部
１１３第３の雑音推定部
１１４推定雑音統合部
１２１第１の雑音除去部
１２２第２の雑音除去部
１２３第３の雑音除去部
１３１正規化部
１３２音声検出部
１３３音声認識部
２００端末
２０１タッチパネル
３００話者
４００空調機
５００テレビ
６１１第１の雑音推定部
６１２第２の雑音推定部
６２１第１の雑音減衰部
６２２第２の雑音減衰部
６３１音声パタン記憶部

Claims

第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する第１の雑音推定部と、
前記第１の入力信号と前記第１の雑音推定部からの第１の推定雑音とを用いて、前記第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する第１の雑音除去部と、
前記第１の入力信号と前記第１の雑音除去部からの第１の推定音声とを少なくとも用いて、前記第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する第２の雑音推定部と、
前記第１の入力信号と第２の入力信号とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する第３の雑音推定部と、
前記第２の雑音推定部からの第２の推定雑音と前記第３の雑音推定部からの第３の推定雑音とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する推定雑音統合部と、
前記第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を除去する第２の雑音除去部とを備える
ことを特徴とする雑音除去システム。
前記推定雑音統合部は、前記第２の雑音推定部からの第２の推定雑音と前記第３の雑音推定部からの第３の推定雑音にそれぞれ調整係数を乗じて、前記調整係数が乗じられた第２の推定雑音と前記調整係数が乗じられた第３の推定雑音の大きさに応じて、前記調整係数が乗じられた第２の推定雑音と前記調整係数が乗じられた第３の推定雑音とを混合するための混合係数を制御し、前記調整係数が乗じられた第２の推定雑音と前記調整係数が乗じられた第３の推定雑音にそれぞれの混合係数を乗じた後に加算することにより前記第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する
請求項１に記載の雑音除去システム。
前記推定雑音統合部は、前記第２の雑音推定部からの第２の推定雑音と前記第３の雑音推定部からの第３の推定雑音にそれぞれ調整係数を乗じて、前記調整係数が乗じられた第２の推定雑音と前記調整係数が乗じられた第３の推定雑音のうち値が大きい方を選択することにより前記第１の入力信号に含まれる雑音を推定する
請求項１に記載の雑音除去システム。
入力した音声を第１の入力信号として出力する第１の音声入力装置と、入力した音声を第２の入力信号として出力する第２の音声入力装置とを備え、
前記第１の音声入力装置に入力される雑音除去の対象となる音声が、前記第２の音声入力装置に入力される雑音除去の対象となる音声よりも大きい
請求項１から請求項３のうちのいずれか１項に記載の雑音除去システム。
第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する第１の雑音推定部と、
前記第１の入力信号と前記第１の雑音推定部からの第１の推定雑音とを用いて、前記第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する第１の雑音除去部と、
前記第１の入力信号と前記第１の雑音除去部からの第１の推定音声とを少なくとも用いて、前記第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する第２の雑音推定部と、
前記第１の入力信号と第２の入力信号とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する第３の雑音推定部と、
前記第２の雑音推定部からの第２の推定雑音と前記第３の雑音推定部からの第３の推定雑音とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する推定雑音統合部と、
前記第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する第２の雑音除去部と、
前記第２の雑音除去部からの第２の推定音声を前記第２の雑音推定部からの第２の推定雑音または前記第１の雑音推定部からの第１の推定雑音で正規化する正規化部と、
前記正規化部からの正規化音声を用いて音声を検出する音声検出部とを備える
ことを特徴とする音声検出システム。
第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する第１の雑音推定部と、
前記第１の入力信号と前記第１の雑音推定部からの第１の推定雑音とを用いて、前記第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する第１の雑音除去部と、
前記第１の入力信号と前記第１の雑音除去部からの第１の推定音声とを少なくとも用いて、前記第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する第２の雑音推定部と、
前記第１の入力信号と第２の入力信号とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する第３の雑音推定部と、
前記第２の雑音推定部からの第２の推定雑音と前記第３の雑音推定部からの第３の推定雑音とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する推定雑音統合部と、
前記第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する第２の雑音除去部と、
前記第２の雑音除去部からの第２の推定音声を前記第２の雑音推定部からの第２の推定雑音または前記第１の雑音推定部からの第１の推定雑音で正規化する正規化部と、
前記正規化部からの正規化音声を用いて音声を検出する音声検出部と、
前記第１の雑音除去部からの第１の推定音声と前記音声検出部からの検出結果を受けて音声を認識する音声認識部とを備える
ことを特徴とする音声認識システム。
第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する第１の雑音推定部と、
前記第１の入力信号と前記第１の雑音推定部からの第１の推定雑音とを用いて、前記第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する第１の雑音除去部と、
前記第１の入力信号と前記第１の雑音除去部からの第１の推定音声とを少なくとも用いて、前記第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する第２の雑音推定部と、
前記第１の入力信号と第２の入力信号とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する第３の雑音推定部と、
前記第２の雑音推定部からの第２の推定雑音と前記第３の雑音推定部からの第３の推定雑音とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する推定雑音統合部と、
前記第１の入力信号から定常的な雑音成分と第２の非定常的な雑音成分を除去した第２の推定音声を出力する第２の雑音除去部と、
前記第２の雑音除去部からの第２の推定音声を前記第２の雑音推定部からの第２の推定雑音または前記第１の雑音推定部からの第１の推定雑音で正規化する正規化部と、
前記正規化部からの正規化音声を用いて音声を検出する音声検出部と、
前記第１の入力信号と前記第２の雑音推定部からの第２の推定雑音とを用いて、前記第１の入力信号から定常的な雑音成分を除去した第３の推定音声を出力する第３の雑音除去部と、
前記第３の雑音除去部からの第３の推定音声と前記音声検出部からの検出結果を受けて音声を認識する音声認識部とを備える
ことを特徴とする音声認識システム。
第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力し、
前記第１の入力信号と第１の推定雑音とを用いて、前記第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力し、
前記第１の入力信号と第１の推定音声とを少なくとも用いて、前記第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力し、
前記第１の入力信号と第２の入力信号とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力し、
第２の推定雑音と第３の推定雑音とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定し、
前記第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を除去する
ことを特徴とする雑音除去方法。
コンピュータに、
第１の入力信号に含まれる定常的な雑音成分を推定し、第１の推定雑音を出力する処理と、
前記第１の入力信号と第１の推定雑音とを用いて、前記第１の入力信号から定常的な雑音成分を除去した第１の推定音声を出力する処理と、
前記第１の入力信号と第１の推定音声とを少なくとも用いて、前記第１の入力信号に含まれる定常的な雑音成分を再推定し、第２の推定雑音を出力する処理と、
前記第１の入力信号と第２の入力信号とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と非定常的な雑音成分の和から構成される第２の非定常的な雑音成分を推定し、第３の推定雑音を出力する処理と、
第２の推定雑音と第３の推定雑音とを用いて、前記第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を推定する処理と、
前記第１の入力信号に含まれる定常的な雑音成分と第２の非定常的な雑音成分を除去する処理とを実行させる
ための雑音除去プログラム。