JP6784758B2

JP6784758B2 - ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置

Info

Publication number: JP6784758B2
Application number: JP2018519388A
Authority: JP
Inventors: ドゥ，ヂージュン
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2015-10-13
Filing date: 2016-10-08
Publication date: 2020-11-11
Anticipated expiration: 2036-10-08
Also published as: CN106571146B; CN106571146A; ES2807529T3; US10796713B2; SG11201803004YA; US20180293997A1; SG10202005490WA; EP3364413A1; EP3364413B1; JP2018534618A; EP3364413A4; WO2017063516A1; KR20180067608A; KR102208855B1; PL3364413T3

Description

本願は、２０１５年１０月１３日に提出され「ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置」と題された中国特許出願第２０１５１０６７０６９７．８号の優先権を主張し、上記中国特許出願は参照によってその全体が本願に組み込まれる。

本願は音声ノイズ除去技術の分野に関し、特に、ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置に関する。

音声ノイズ除去技術は、音声信号から環境ノイズを除去することによって音声の品質を改善できる。先ず、音声ノイズ除去工程において、音声信号中のノイズ信号のパワースペクトルを判定する必要があり、その上で、判定したノイズ信号のパワースペクトルに応じて音声信号からノイズを除去できる。

従来技術において、音声信号中のノイズ信号のパワースペクトルは通常、次の方法によって判定できる。即ち、音声信号セグメントの最初のＮ個のフレーム信号がノイズ信号である（即ち、非人声信号を含む）との仮定に基づき最初のＮ個のフレーム信号を解析して音声信号中のノイズ信号のパワースペクトルを得る。

実際の適用シナリオにおいて、従来技術においてノイズ信号であると仮定される音声信号中の最初のＮ個のフレーム信号は、実際のノイズ信号とは一致しないことがある。これにより、得られたノイズ信号のパワースペクトルの精度が悪影響を受ける。

本願の実施の形態は、従来技術における課題、即ちノイズ信号であると仮定される最初のＮ個のフレーム信号が実際のノイズ信号と一致せず、得られたノイズ信号のパワースペクトルの精度が悪影響を受けるという課題を解決するための、ノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置を提供することを目的とする。

上記の技術的課題を解決するための、本発明の実施の形態に係るノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置は、以下の通りである：

ノイズ信号判定方法であって：
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行って前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップと；
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するステップと；
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップと；を含む。

音声ノイズ除去方法であって：
処理対象音声に含まれる解析対象音声信号セグメントを判定するステップと；
前記解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップと；
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するステップと；
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定して前記音声信号セグメントに含まれる幾つかのノイズフレームを取得するステップと；
前記音声信号セグメントに含まれる前記幾つかのノイズフレームに対応する平均パワーを判定し、そして前記ノイズフレームの前記平均パワーに基づき前記処理対象音声をノイズ除去するステップと；を含む。

ノイズ信号判定装置であって：
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部と；
各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を、前記フレーム信号の前記パワースペクトルに基づき判定するよう構成される分散判定部と；
前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するよう構成されるノイズ判定部と；を含む。

音声ノイズ除去装置であって：、
処理対象音声に含まれる解析対象音声信号セグメントを判定するよう構成されるセグメント判定部と；
前記解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部と；
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するよう構成される分散判定部と；
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定し、前記音声信号セグメントに含まれる幾つかのノイズフレームを取得するよう構成されるノイズ判定部と；
前記音声信号セグメントに含まれる前記幾つかのノイズフレームに対応する平均パワーを判定し、前記ノイズフレームの前記平均パワーに基づき前記処理対象音声をノイズ除去するよう構成される音声ノイズ除去部と；を含む。

本願の実施の形態において提供される上記の技術的解決策から分かるように、解析対象音声信号セグメントにフーリエ変換を行って各フレーム信号のパワースペクトルを取得し、各周波数における解析対象音声信号セグメントの各フレーム信号のパワー値の分散を判定し、そして最終的に、分散に基づきフレーム信号がノイズ信号であるか否かを判定することにより、本願の実施の形態において提供されるノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置は、解析対象音声信号セグメントに含まれる幾つかのノイズフレームを精度よく得られる。処理対象音声は音声ノイズ除去工程において、判定されたノイズフレームの平均パワーに基づきノイズ除去でき、よって、音声ノイズ除去効果が向上する。

本願の実施の形態における技術的解決策又は従来技術をより明確に説明するために、以下では、実施の形態又は従来技術の説明に用いる添付図面について簡単に触れる。なお、以下で説明する添付図面は本願において取り上げる幾つかの実施の形態に過ぎず、当業者であれば、創造的な努力を伴わずともこれらの添付図面から他の図面を導くことができる。

図１は、本願の実施の形態に係るノイズ信号判定方法のフローチャートである。図２は、本願の実施の形態に係る、フレーム信号がノイズ信号であるか否かを判定するための各ステップのフローチャートである。図３は、本願の実施の形態に係る、各サンプリングポイントでのフレーム信号のパワー値の分散を判定するための各ステップのフローチャートである。図４は、本願の実施の形態に係るパワー値の分散の曲線グラフである。図５は、本願の実施の形態に係る音声ノイズ除去方法のフローチャートである。図６は、本願の実施の形態に係るノイズ信号判定装置のブロック図である。図７は、本願の実施の形態に係る音声ノイズ除去装置のブロック図である。図８は、本願で提供される装置のハードウェアの実装例の概略構造図である。

当業者が本願の技術的解決策をよりよく理解できるように、以下では、本願の実施の形態における添付図面を参照しつつ本願の実施の形態の技術的解決策を明確且つ完全に説明する。説明する実施の形態は本願の実施の形態のうちの一部であって、全てではないことは明らかである。当業者であれば、創造的な努力をせずとも、本願の実施の形態に基づいて他の実施の形態を得られるものの、それらの実施の形態は全て本願の保護の範囲に含まれる。

図１は、本願の実施の形態に係るノイズ信号判定方法のフローチャートを示す。解析対象音声信号セグメント中のノイズ信号を判定するため、この実施の形態のノイズ信号判定方法は以下の各ステップを含む：

Ｓ１０１：解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得する。

解析対象音声信号セグメントは、特定の規則に基づき処理対象音声から獲得できる。解析対象音声信号セグメントは、事前の判定に基づき場合によっては多数のノイズフレームを含む「ノイズフレームセグメントの候補」であり得る。

好ましくは、ステップＳ１０１よりも前に、本方法は更に以下のステップを含む：
処理対象音声の時間領域信号の振幅変動に基づき、処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、解析対象音声信号セグメントと判定するステップ；又は、
処理対象音声中の最初のＮ個のフレーム音声信号を、解析対象音声信号セグメントとして獲得するステップ。

本願の実施の形態では、音声信号の時間領域において、ノイズ信号は通常、振幅変動の少ない又は振幅が均一な音声信号セグメントであり、一方、人間の発話音声を含む音声信号セグメントは通常、振幅変動が大きい。このような法則に基づいて、処理対象音声（即ち、ノイズ除去対象音声）に含まれる「ノイズフレームセグメントの候補」の認識に用いられる所定の閾値を、予め設定することができる。よって、処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを解析対象音声信号セグメントとして判定できる。

本願の実施の形態においては、先ず、音声信号をフレーム化してよい。フレーム信号は単一フレームの音声信号を意味し、１つの音声信号セグメントは幾つかのフレーム信号を含み得る。１つのフレーム信号は幾つかのサンプリングポイント、例えば１０２４個のサンプリングポイントを含み得る。隣り合う２つのフレーム信号は相互に重複し得る（例えば、重複率は５０％であってよい）。この実施の形態においては、時間領域の音声信号に対して短時間フーリエ変換（ＳＴＦＴ）を行って音声信号のパワースペクトル（周波数領域）を取得してよい。パワースペクトルは異なる周波数に対応する複数のパワー値、例えば１０２４個のパワー値を含み得る。

本願の実施の形態では、人声を含む音声信号セグメントにおいて、人が話す前の期間（例えば、１．５秒）の音声信号はノイズ信号（環境ノイズ）であることが、デフォルトにより一般に仮定できる。よって、本願の実施の形態では、解析対象音声信号を音声信号セグメントの最初のＮ個のフレーム信号であると判定できる。例えば、解析対象音声信号：｛ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’｝は、最初の１．５秒の音声信号である。ただし、ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’はそれぞれ音声信号に含まれるフレーム信号を表わしている。本願の実施の形態では、解析音声信号のフレーム信号からノイズ信号を判定する。

各フレーム信号に対応する複数のパワー値は、解析対象音声信号：ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’のＳＴＦＴ後に得たパワースペクトルに基づき算出できる。或る周波数におけるフレーム信号のパワースペクトルがａ＋ｂｉであると仮定する。式中、実数部ａは振幅を、虚数部ｂは位相を表わすものであってよい。その場合、その周波数におけるフレーム信号のパワー値はａ^２＋ｂ^２であってよい。異なる周波数における各フレーム信号のパワー値は、上記の処理に基づき得られる。例えば、フレーム信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’｝の各々が１０２４個のサンプリングポイントを含む場合、異なる周波数における各フレーム信号の１０２４個のパワー値は、パワースペクトルに基づいて得られる。例えば、フレーム信号ｆ_１’に対応するパワー値は｛ｐ^１ _１，ｐ^１ _２，・・・，ｐ^１ _１０２４｝であり、フレーム信号ｆ_２’に対応するパワー値は｛ｐ^２ _１，ｐ^２ _２，・・・，ｐ^２ _１０２４｝であり、そして、フレーム信号ｆ_ｎ’に対応するパワー値は｛ｐ^ｎ _１，ｐ^ｎ _２，・・・，ｐ^ｎ _１０２４｝である。

Ｓ１０２：各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定する。

各周波数におけるフレーム信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’｝のパワー値に基づき、フレーム信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’｝のパワー値の分散｛Ｖａｒ（ｆ_１’），Ｖａｒ（ｆ_２’），・・・，Ｖａｒ（ｆ_ｎ’）｝を、分散を計算するための公式を用いて算出できる。例えば、各フレーム信号が１０２４個のサンプリングポイントを含む場合、Ｖａｒ（ｆ_１’）は｛ｐ^１ _１，ｐ^１ _２，・・・，ｐ^１ _１０２４｝の分散であり、Ｖａｒ（ｆ_２’）は｛ｐ^２ _１，ｐ^２ _２，・・・，ｐ^２ _１０２４｝の分散であり、そして、Ｖａｒ（ｆ_ｎ’）は｛ｐ^ｎ _１，ｐ^ｎ _２，・・・，ｐ^ｎ _１０２４｝の分散である。

Ｓ１０３：分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する。

本願の実施の形態においては、発話セグメントを含むフレーム信号のエネルギー（即ち、パワー値）は、通常、帯域によって大きく異なる一方、発話セグメントを含まないフレーム信号（即ち、ノイズ信号）のエネルギーの帯域による変動はわずかであり、均等に分布する。よって、各フレーム信号がノイズ信号であるか否かは、フレーム信号のパワー値の分散に基づいて判定できる。

図２は、本願の実施の形態に係る、フレーム信号がノイズ信号であるか否かを判定するための各ステップのフローチャートを示す。本願の実施の形態において、上記のステップＳ１０３は以下の各ステップを含むことができる：

Ｓ１０３１：フレーム信号のパワー値の分散が第１の閾値Ｔ_１を超えているか否かを判定する。

Ｓ１０３２：否定（Ｎｏ）であれば、フレーム信号をノイズ信号と判定する。

フレーム信号のパワー値の分散が第１の閾値Ｔ_１を超えている場合、それは、フレーム信号のエネルギー（即ち、パワー値）の帯域による変動の振幅が第１の閾値Ｔ_１を超えていることを意味する。よって、フレーム信号はノイズ信号でないと判定できる。一方、フレーム信号のパワー値の分散が第１の閾値Ｔ_１を超えていない場合、それは、フレーム信号のエネルギー（即ち、パワー値）の帯域による変動の振幅が第１の閾値Ｔ_１を超えていないことを意味する。よって、フレーム信号はノイズ信号であると判定できる。

上記処理に基づき、解析対象音声信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’｝中で、ノイズフレーム信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｍ’｝及び非ノイズフレーム信号｛ｆ_ｍ＋１’，ｆ_ｍ＋２’，・・・，ｆ_ｎ’｝の判定を順次に行うことができる。よって、音声信号セグメントに含まれるノイズ信号を判定でき、これらのノイズ信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｍ’｝に従い音声ノイズ除去を行うことができる。

図３を参照するに、本願の実施の形態において上記のステップＳ１０２は具体的に以下の各ステップを含むことができる：

Ｓ１０２１：各周波数におけるフレーム信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’｝の各々のパワー値は、フレーム信号のパワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第１の周波数間隔に対応する第１のパワー値集合と、第２の周波数間隔に対応する第２のパワー値集合とに分類される。第１の周波数間隔は第２の周波数間隔よりも小さい。

或る実施の形態では、統計を通じて、周波数領域において各フレーム信号の分散を取得できる。非ノイズ信号は一般に低中周波数帯域に集中し、ノイズ信号は一般に全ての周波数帯域に均一に分布する。よって、各周波数における各フレーム信号のパワー値の分散は少なくとも２つの異なる周波数帯域（即ち、上述の各周波数間隔）における統計を通じて取得できる。

例えば、第１の周波数間隔は０〜２０００Ｈｚ（低周波数帯域）であってよく、第２の周波数間隔は２０００〜４０００Ｈｚ（高周波数帯域）であってよい。各フレーム信号が１０２４個のサンプリングポイントを含む場合、各フレーム信号に対応する１０２４個のパワー値は、各パワー値に対応する周波数間隔に応じて、０〜２０００Ｈｚに対応する第１のパワー値集合Ａ及び２０００〜４０００Ｈｚに対応する第２のパワー値集合Ｂに分類される。フレーム信号ｆ_１’を例にとれば、パワー値に対応する１０２４個のデータは｛ｐ^１ _１，ｐ^１ _２，・・・，ｐ^１ _１０２４｝である。各周波数間隔によれば、第２のパワー値集合Ｂに含まれるパワー値は、例えば｛ｐ^１ _１，ｐ^１ _２，・・・，ｐ^１ _１２６｝であり、第１のパワー集合Ａに含まれるパワー値は、例えば｛ｐ^１ _１２７，ｐ^１ _１２８，・・・，ｐ^１ _１０２４｝であると導き出すことができ、残部は類推により推測してよい。

なお、本願の異なる実施の形態においては、信号パワー値の分散は２つよりも多い周波数帯域における統計を通じて取得してもよいことに留意されたい。

Ｓ１０２２：第１のパワー値集合に含まれるパワー値の第１の分散を判定する。

上記の通り、フレーム信号ｆ_１’を例にとれば、第１のパワー値集合Ａに含まれるパワー値は、例えば｛ｐ^１ _１２７，ｐ^１ _１２８，・・・，ｐ^１ _１０２４｝である。よって、パワー値ｐ^１ _１２７〜ｐ^１ _１０２４の第１の変動Ｖａｒ_ｈｉｇｈ（ｆ_１’）は、分散を計算するための公式に従い算出できる。

Ｓ１０２３：第２のパワー値集合に含まれるパワー値の第２の分散を判定する。

上記の通り、フレーム信号ｆ_１’を例にとれば、第２のパワー値集合Ｂに含まれるパワー値は、例えば｛ｐ^１ _１，ｐ^１ _２，・・・，ｐ^１ _１２６｝である。よって、パワー値ｐ^１ _１〜ｐ^１ _１２６の第２の変動Ｖａｒ_ｌｏｗ（ｆ_１’）は、分散を計算するための公式に従い算出できる。

図４は、本願の実施の形態に係る分散の概略曲線グラフである。このグラフにおいて、横軸はフレーム信号のフレーム数を示し、縦軸は分散の大きさを示す。第１の分散曲線は各フレーム信号の第１の分散の傾向を表し、第２の分散曲線は各フレーム信号の第２の分散の傾向を表す。このグラフから明らかなように、高周波数帯域２０００〜４０００Ｈｚにおいて分散は殆ど変動せず、低周波数帯域０〜２０００Ｈｚにおいて分散は大きく変動する。このことから、非ノイズ信号は低周波数帯域に集中することを確認できる。

上記の通り、本願の好適な実施の形態において、ステップＳ１０３１は以下のステップを具体的に含む：
フレーム信号のパワー値の第１の分散が第１の閾値Ｔ_１を超えているか否かを判定し、肯定である場合、フレーム信号をノイズ信号と判定する。フレーム信号ｆ_１’を例にとれば、第１の分散Ｖａｒ_ｈｉｇｈ（ｆ_１’）が第１の閾値Ｔ_１を超えているか否かが判定される。

本願の実施の形態において、上記のステップＳ１０３は更に以下のステップを具体的に含むことができる：
第１の分散と第２の分散との間の差分が第２の閾値Ｔ_２を超えているか否かを判定し、否定であれば、フレーム信号をノイズ信号と判定する。

フレーム信号ｆ_１’を例にとれば、第１の分散と第２の分散との間の差分は｜Ｖａｒ_ｈｉｇｈ（ｆ_１’）−Ｖａｒ_ｌｏｗ（ｆ_１’）｜である。｜Ｖａｒ_ｈｉｇｈ（ｆ_１’）−Ｖａｒ_ｌｏｗ（ｆ_１’）｜＜Ｔ_２である場合、フレーム信号ｆ_１’はノイズ信号と判定される。このステップにより、解析対象音声信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’｝から順次ノイズ信号を判定できる。

本願の実施の形態において、本方法は、ステップＳ１０２とステップＳ１０３との間に更に以下のステップを含むことができる：
各分散の大きさに応じて、解析対象音声信号セグメントのフレーム信号を順位付ける。

それに即して、分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップは、以下のステップを含む：
各周波数における順位付けられた各フレーム信号のパワー値の分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する。

上記の通り、この実施の形態においては、フレーム信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’｝のパワー値の分散｛Ｖａｒ（ｆ_１’），Ｖａｒ（ｆ_２’），・・・，Ｖａｒ（ｆ_ｎ’）｝を判定できる。フレーム信号はパワー値の分散の低い順に順位付けてよい。分散が小さい信号はノイズ信号である可能性が高い。よって、解析対象音声信号のノイズフレーム信号を先頭に順位付けることができる。本願の実施の形態において、低周波数帯域（例えば、０〜２０００Ｈｚ）及び高周波数帯域（例えば、２０００〜４０００Ｈｚ）における統計を通じて各分散がそれぞれ取得される場合、各周波数におけるフレーム信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’｝の各々のパワー値は、フレーム信号のパワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、第１の周波数間隔（例えば、０〜２０００Ｈｚ）に対応する第１のパワー値集合Ａ及び第２の周波数間隔（例えば、２０００〜４０００Ｈｚ）に対応する第２のパワー値集合Ｂに分類できる。それにより、フレーム信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’｝に対応する第１のパワー値集合に含まれるパワー値の第１の分散｛Ｖａｒ_ｌｏｗ（ｆ_１’），Ｖａｒ_ｌｏｗ（ｆ_２’），・・・，Ｖａｒ_ｌｏｗ（ｆ_ｎ’）｝をそれぞれ判定でき、フレーム信号｛ｆ_１’，ｆ_２’，・・・，ｆ_ｎ’｝に対応する第２のパワー値集合に含まれるパワー値の第２の分散Ｖａｒ_ｈｉｇｈ（ｆ_１’），Ｖａｒ_ｈｉｇｈ（ｆ_２’），・・・，Ｖａｒ_ｈｉｇｈ（ｆ_ｎ’）｝をそれぞれ判定できる。上記のステップＳ１０４では、高周波数および低周波数における分散の統計に基づき、解析対象音声信号に含まれるノイズ信号（当該ノイズ信号は、分散の大きさに応じて順位付けられた音声信号であってよい）は以下のように判定され得る：
Ｖａｒ_ｌｏｗ（ｆ_ｉ’）＞Ｔ_１（１）
｜Ｖａｒ_ｈｉｇｈ（ｆ_ｉ’）−Ｖａｒ_ｌｏｗ（ｆ_ｉ’）｜＞Ｔ_２（２）
Ｖａｒ_ｈｉｇｈ（ｆ’_ｉ＋１）−Ｖａｒ_ｈｉｇｈ（ｆ’_ｉ−１）＞Ｔ_３（３）
Ｖａｒ_ｌｏｗ（ｆ’_ｉ＋１）−Ｖａｒ_ｌｏｗ（ｆ’_ｉ−１）＞Ｔ_４（４）
なお、ｉ∈（１，ｎ）である。式（１）により、各フレーム信号ｆ_ｉ’のパワー値の第１の分散が第１の閾値Ｔ_１を超えているか否かを判定できる。否定であれば、フレーム信号ｆ_ｉ’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合が、ノイズ信号と判定される。

式（２）により、各フレーム信号ｆ_ｉ’のパワー値の第２の分散が第２の閾値Ｔ_２を超えているか否かを判定できる。否定であれば、フレーム信号ｆ_ｉ’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合が、ノイズ信号と判定される。

式（３）により、あるフレーム信号ｆ_ｉ’の前のフレーム信号ｆ’_ｉ−ｌのパワー値の第２の分散Ｖａｒ_ｈｉｇｈ（ｆ’_ｉ−ｌ）と、フレーム信号ｆ_ｉ’の次のフレーム信号ｆ’_ｉ＋１のパワー値の第２の分散Ｖａｒ_ｈｉｇｈ（ｆ’_ｉ＋１）との間の差分Ｖａｒ_ｈｉｇｈ（ｆ’_ｉ＋１）−Ｖａｒ_ｈｉｇｈ（ｆ’_ｉ−１）が、第３の閾値Ｔ_３を超えているか否かを判定できる。否定であれば、フレーム信号ｆ_ｉ’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合がノイズ信号と判定される。

式（４）により、あるフレーム信号ｆ_ｉ’の前のフレーム信号ｆ’_ｉ―ｌのパワー値の第１の分散Ｖａｒ_ｌｏｗ（ｆ’_ｉ−１）と、フレーム信号ｆ_ｉ’の次のフレーム信号ｆ’_ｉ＋ｌのパワー値の第１の分散Ｖａｒ_ｌｏｗ（ｆ’_ｉ＋１）との間の差分Ｖａｒ_ｌｏｗ（ｆ’_ｉ＋１）−Ｖａｒ_ｌｏｗ（ｆ’_ｉ−１）が、第４の閾値Ｔ_４を超えているか否かを判定できる。否定であれば、フレーム信号ｆ_ｉ’はノイズフレーム信号と判定される。判定された複数のノイズフレーム信号の集合がノイズ信号と判定される。

本願の実施の形態において、解析対象音声信号に含まれるノイズフレームは、上記の式（１）から（４）を用いて認識できる。即ち、上記の式（１）から（４）のいずれかと合致するフレーム信号ｆ_ｉ’はいずれも非ノイズ信号（ノイズ終了フレーム）と判定できる。換言すれば、上記の式（１）から（４）のいずれとも合致しないフレーム信号ｆ_ｉ’は、いずれもノイズ信号と判定できる。ノイズ終了フレームｆ_ｍ’は上記の工程に基づき判定でき、その場合、ノイズフレームは｛ｆ_１’，ｆ_２’，・・・，ｆ_ｍ−１’｝を含む。

なお、本願の他の実施の形態においては、ノイズ終了フレームを式（１）から（４）の一部、例えば、式（１）と（２）又は式（２）と（３）に基づき判定してもよいことに留意されたい。また、本願の実施の形態においてノイズ終了フレームを判定する式は、以上で挙げた各式に限定されない。閾値Ｔ_１、Ｔ_２、Ｔ_３、及びＴ_４はいずれも大量の試験サンプルの統計から得られる。

図５は、以下のステップを含む、本願の実施の形態に係る音声ノイズ除去方法のフローチャートである：

Ｓ２０１：処理対象音声に含まれる解析対象音声信号セグメントを判定する。

Ｓ２０２：解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得する。

Ｓ２０３：各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定する。

Ｓ２０４：分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定し、音声信号セグメントに含まれる幾つかのノイズフレームを得る。

Ｓ２０５：音声信号セグメントに含まれる幾つかのノイズフレームに対応する平均パワーを判定し、ノイズフレームの平均パワーに基づき処理対象音声をノイズ除去する。

本願の実施の形態においては、上記の方法に従い解析対象音声セグメントに含まれるノイズフレーム｛ｆ_１’，ｆ_２’，・・・，ｆ_ｍ−１’｝を取得した後、各ノイズフレームにそれぞれ対応する元の（順位付け前の）信号のフレーム数を判定でき、ノイズ信号のパワースペクトル推定値Ｐ_{ｎｏｉｓｅ}を得るためこれらのフレーム信号の平均パワーを、統計を通じて得てよい。ノイズ信号のパワースペクトル推定値Ｐ_{ｎｏｉｓｅ}を得た後は、音声をノイズ除去できる。ノイズ除去の方法は当業者にとって周知であり、ここで具体的な説明は行わない。

当然ながら、本願の他の実施可能な実施の形態において、分散に応じてフレーム信号を順位付けるステップは省略してよく、元の各信号の分散に基づきノイズフレームを直接的に判定してもよい。また、本願において、ノイズ信号の複数のフレームを判定した後、パワースペクトル推定値Ｐ_{ｎｏｉｓｅ}は通常一部のフレームを用いて算出する。これは、過剰な推定を避けるためである。例えば、判定されたノイズ信号が５０個のフレームを含む場合、最初の３０個のフレームを獲得してパワースペクトル推定値Ｐ_{ｎｏｉｓｅ}を算出してよい。これにより、パワースペクトル推定値の精度を向上できる。

本願の実施の形態は、上記の処理の実施に対応するノイズ信号判定装置を更に提供する。当該装置はソフトウェアにより実現されてもよく、ハードウェアにより実現されてもよく、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアにより実現される態様を例にとれば、論理的な意味においての装置は、サーバの中央処理装置（ＣＰＵ）を通じて対応するコンピュータプログラムをメモリに読み出し実行することによって形成できる。装置のハードウェア構造については図８を参照されたい。

図６は、本願の実施の形態に係るノイズ信号判定装置のブロック図である。この実施の形態において、装置の各部の機能は、上記のノイズ信号判定方法の各ステップの機能に対応してよい。詳細については上記の方法を参照されたい。ノイズ信号判定装置１００は以下を含む：
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部１０１と、
各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定するよう構成される分散判定部１０２と、
前記分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するよう構成されるノイズ判定部１０３。

好ましくは、本装置は、処理対象音声の時間領域信号の振幅変動に基づき、処理対象音声における所定の閾値よりも小さい振幅変動の音声信号セグメントを解析対象音声信号セグメントとして判定する、又は、処理対象音声における最初のＮ個のフレーム音声信号を解析対象音声信号セグメントとして獲得するよう構成されるセグメント取得部を更に含む。

好ましくは、ノイズ判定部１０３は：
音声信号セグメントの各フレーム信号に対応する分散が第１の閾値を超えているか否かを判定し、否定であれば、フレーム信号をノイズ信号と判定するよう構成される。

好ましくは、分散判定部１０２は：
各周波数におけるフレーム信号のパワー値を、パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第１の周波数間隔に対応する第１のパワー値集合に分類し、
第１のパワー値集合に含まれるパワー値の第１の分散を判定するよう構成される。

それに即して、ノイズ判定部１０３は：
第１の分散が第１の閾値を超えるか否かを判定し、
否定であれば、フレーム信号をノイズ信号と判定するよう構成される。

好ましくは、分散判定部１０２は、具体的に：
各周波数における各フレーム信号のパワー値を、フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第１の周波数間隔に対応する第１のパワー値集合と、第２の周波数間隔に対応する第２のパワー値集合とに分類し、第１の周波数間隔は第２の周波数間隔よりもその周波数が小さく、
第１のパワー値集合に含まれるパワー値の第１の分散を判定し、
第２のパワー値集合に含まれるパワー値の第２の分散を判定するよう構成される。
それに則して、ノイズ判定部１０３は：
各フレーム信号に対応する第１の分散と第２の分散との間の差分が第２の閾値を超えているか否かを判定し、
否定であれば、フレーム信号をノイズ信号と判定する。

本願の実施の形態は、上記処理の実施に対応する音声ノイズ除去装置を更に提供する。この装置はソフトウェアにより実現されてもよく、ハードウェアにより実現されてもよく、ソフトウェアとハードウェアとの組み合わせにより実現されてもよい。ソフトウェアによって実現される態様を例にとれば、論理的な意味においての装置は、サーバの中央処理装置（ＣＰＵ）を通じて対応するコンピュータプログラムをメモリに読み出し実行することによって形成できる。装置のハードウェア構造については図８を参照されたい。

図７は、本願の実施の形態に係る音声ノイズ除去装置のブロック図である。この実施の形態において、装置の各部の機能は、上記の音声ノイズ除去方法の各ステップの機能に対応してよい。詳細については上記の方法を参照されたい。この実施の形態において、音声ノイズ除去装置２００は以下を含む：
処理対象音声に含まれる解析対象音声信号セグメントを判定するよう構成されるセグメント判定部２０１と、
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部２０２と、
各周波数における音声信号セグメントの各フレーム信号のパワー値の分散を、フレーム信号のパワースペクトルに基づき判定するよう構成される分散判定部２０３と、
分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定し、音声信号セグメントに含まれる幾つかのノイズフレームを得るよう構成されるノイズ判定部２０５と、
音声信号セグメントに含まれる幾つかのノイズフレームに対応する平均パワーを判定し、ノイズフレームの平均パワーに基づき処理対象音声をノイズ除去するよう構成される音声ノイズ除去部１０。

好ましくは、本装置は更に以下を含む：
各分散の大きさに応じて、解析対象音声信号セグメントのフレーム信号を順位付けるよう構成される順位付け部２０４。

それに則して、ノイズ判定部２０５は具体的に：
各周波数における順位付けられた各フレーム信号のパワー値の分散に基づき、音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するよう構成される。

解析対象音声信号セグメントにフーリエ変換を行って各フレーム信号のパワースペクトルを取得し、各周波数における解析対象音声信号セグメントの各フレーム信号のパワー値の分散を判定し、最終的に分散に基づきフレーム信号がノイズ信号であるか否かを判定することにより、本願の実施の形態において提供されるノイズ信号判定方法及び装置並びに音声ノイズ除去方法及び装置は、解析対象音声信号セグメントに含まれる幾つかのノイズフレームを精度よく判定できる。処理対象音声は、音声ノイズ除去処理において、判定された幾つかのノイズフレームの平均パワーに基づきノイズ除去されることができ、よって音声ノイズ除去効果が向上する。

説明を容易にするため、諸説明において、本装置は機能の観点から複数の各部に分割されている。当然ながら、本願を実装ないし実行するにあたって、各部の機能は、単一のソフトウェア及び／又はハードウェア要素によって実現してもよいし、複数のソフトウェア及び／又はハードウェア要素によって実現してもよい。

当業者であれば、本願の実施の形態が、方法、システム、又はコンピュータプログラム製品として提供され得るものであることを理解するであろう。よって、本発明は、完全なハードウェアの実施の形態、完全なソフトウェアの実施の形態、又はソフトウェア及びハードウェアを組み合わせた実施の形態として実現され得る。また、本発明は、コンピュータで用いることができるプログラムコードを含む１以上のコンピュータが使用可能な記憶媒体（磁気ディスクメモリ、ＣＤ−ＲＯＭ、光学メモリ等を含み、且つそれらに限定されない）上で実装されるコンピュータプログラム製品の形をとってもよい。

本発明について、本発明の実施の形態に係る方法、デバイス（システム）及びコンピュータプログラム製品のフローチャート及び／又はブロック図を参照しつつ説明した。なお、各工程及び／又はブロックを実現するため、また各フローチャート及び／又はブロック図に示す工程及び／又はブロックの組み合わせを実現するために、コンピュータプログラム指示を用いてよいことを理解すべきである。コンピュータプログラム指示は、装置を生成するために、汎用コンピュータ、専用コンピュータ、組み込みプロセッサや他のプログラム化可能なデータ処理デバイスへ提供されてよく、それにより、当該コンピュータや他のプログラム化可能なデータ処理デバイスのプロセッサは、フローチャートに示す１以上の工程及び／又はブロック図に示す１以上のブロックで指定される機能を実現するよう構成される装置を生成するための指示を実行してよい。

また、コンピュータプログラムの指示は、コンピュータ又は他のプログラム化可能なデータ処理デバイスに特定の動作をさせるべくガイド可能なコンピュータ読取可能ストレージに記憶されてもよく、それにより、コンピュータ読取可能なストレージに記憶された指示が、フローチャートに示す１以上の工程及び／又はブロック図に示す１以上のブロックによって指定される機能を実現する指示装置を含む製品を生成してよい。

また、コンピュータプログラムの指示は、コンピュータ又は他のプログラム化可能なデータ処理デバイスに読み込まれてもよく、それにより、コンピュータにより実現される処理を生成すべく一連の動作ステップがコンピュータ又は他のプログラム化可能なデバイス上で実行されてよい。これにより、コンピュータ又は他のプログラム化可能なデバイスで実行される指示は、フローチャートに示す１以上の処理及び／又はブロック図に示す１以上のブロックによって指定される機能を実現するための各ステップを提供する。

また、「含む」、「備える」といった表現又はそれらの変形は、排他的でないものを含むことを意図するものであり、よって、一連の要素を含む工程、方法、商品、若しくはデバイスが、当該要素を含むだけでなく、他の明記されない諸要素を含む、又は、当該プロセス、方法、商品、又はデバイスに本来備わる諸要素を更に含むことに更に留意されたい。他に限定がない場合、「〜を含む」によって定義される要素は、当該要素を含む上記工程、方法、商品、又はデバイスが更に他の同一の要素を有する場合を排除するものではない。

当業者であれば、本願の実施の形態が、方法、システム、又はコンピュータプログラム製品として提供され得ることを理解できよう。よって、本発明は、完全なハードウェアの実施の形態、完全なソフトウェアの実施の形態、又はソフトウェア及びハードウェアを組み合わせた実施の形態として実現され得る。また、本発明は、コンピュータで用いることができるプログラムコードを含む１以上のコンピュータが使用可能な記憶媒体（磁気ディスクメモリ、ＣＤ−ＲＯＭ、光学メモリ等を含み、且つそれらに限定されない）上で実現されるコンピュータプログラム製品の形をとってもよい。

本願は、プログラムモジュール等の、コンピュータによって実行されるコンピュータ実行可能な指示の共通のコンテキストで説明されてもよい。プログラムモジュールは、通常、特定のタスクを実行するために、又は、特定の抽象データタイプを実装するために用いられるルーティン、プログラム、オブジェクト、アセンブリ、データ構造等を含む。本願は、通信ネットワークを介して接続された遠隔処理デバイスを用いてタスクが実行される分散コンピューティング環境において実装されてもよい。分散コンピューティング環境において、プログラムモジュールを、ストレージデバイスを含むローカル及びリモートコンピュータ記憶媒体に配置してよい。

本明細書における実施の形態は漸次に説明され、実施の形態の同一又は類似する部分については相互に参照することができ、各実施の形態は、他の実施の形態と異なる部分が強調されている。特に、システムの実施の形態は基本的に方法の実施の形態と類似しているので、その説明は簡略化されている。関連する部分については、方法の実施の形態の各部分の説明を参照されたい。

以上の説明は本願の幾つかの実施の形態に過ぎず、本願を限定するものではない。当業者であれば、本願の様々な変更又は変形が可能である。本願の本質及び原理の範囲内で行われる変更、均等物との置換、改良等は全て本願の請求の範囲に包含される。
以下、本発明の実施の態様の例を列挙する。
［第１の局面］
ノイズ信号判定方法であって：
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行って前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップと；
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するステップと；
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップと；を備える、
ノイズ信号判定方法。
［第２の局面］
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行って前記音声信号セグメントの各フレーム信号のパワースペクトルを取得する前記ステップよりも前に、
処理対象音声の時間領域信号の振幅変動に基づき、前記処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、前記解析対象音声信号セグメントと判定するステップ、又は、処理対象音声における最初のＮ個のフレーム音声信号を、前記解析対象音声信号セグメントとして獲得するステップを備える、
第１の局面に記載の方法。
［第３の局面］
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは：
前記音声信号セグメントの各フレーム信号に対応する前記分散が第１の閾値を超えているか否かを判定するステップと；
否定であれば、当該フレーム信号をノイズ信号と判定するステップと；を備える、
第１の局面に記載の方法。
［第４の局面］
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは：
各周波数における前記フレーム信号のパワー値を、前記パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第１の周波数間隔に対応する第１のパワー値集合に分類するステップと；
前記第１のパワー値集合に含まれるパワー値の第１の分散を判定するステップと；を備え、
それに即して、前記分散が第１の閾値を超えているか否かを判定する前記ステップが、
前記第１の分散が前記第１の閾値を超えているか否かを判定するステップを備える、
第３の局面に記載の方法。
［第５の局面］
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは：
各周波数における各フレーム信号のパワー値を、当該フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第１の周波数間隔に対応する第１のパワー値集合と、第２の周波数間隔に対応する第２のパワー値集合とに分類するステップであって、前記第１の周波数間隔は前記第２の周波数間隔よりもその周波数が小さい、分類するステップと；
前記第１のパワー値集合に含まれるパワー値の第１の分散を判定するステップと；
前記第２のパワー値集合に含まれるパワー値の第２の分散を判定するステップと；を備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは：
各フレーム信号に対応する前記第１の分散と前記第２の分散との間の差分が第２の閾値を超えているか否かを判定するステップと；
否定であれば、当該フレーム信号をノイズ信号と判定するステップと；を備える、
第１の局面に記載の方法。
［第６の局面］
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップよりも後で、且つ、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップよりも前に：
各分散の大きさに応じて、前記解析対象音声信号セグメントの各フレーム信号を順位付けるステップ；をさらに備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは、各周波数における順位付けられた各フレーム信号のパワー値の前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップを備える、
第１の局面に記載の方法。
［第７の局面］
音声ノイズ除去方法であって：
処理対象音声に含まれる解析対象音声信号セグメントを判定するステップと；
前記解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップと；
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するステップと；
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定して前記音声信号セグメントに含まれる幾つかのノイズフレームを取得するステップと；
前記音声信号セグメントに含まれる前記幾つかのノイズフレームに対応する平均パワーを判定し、そして前記ノイズフレームの前記平均パワーに基づき前記処理対象音声をノイズ除去するステップと；を備える、
音声ノイズ除去方法。
［第８の局面］
処理対象音声に含まれる解析対象音声信号セグメントを判定する前記ステップが：
前記処理対象音声の時間領域信号の振幅変動に基づき、前記処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、前記解析対象音声信号セグメントと判定するステップ、又は、前記処理対象音声における最初のＮ個のフレーム音声信号を前記解析対象音声信号セグメントとして獲得するステップを備える、
第７の局面に記載の方法。
［第９の局面］
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップが：
前記音声信号セグメントの各フレーム信号に対応する前記分散が第１の閾値を超えているか否かを判定するステップと；
否定であれば、当該フレーム信号をノイズ信号と判定するステップと；を備える、
第７の局面に記載の方法。
［第１０の局面］
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは、各周波数における前記フレーム信号のパワー値を、前記パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第１の周波数間隔に対応する第１のパワー値集合に分類するステップと、前記第１のパワー値集合に含まれるパワー値の第１の分散を判定するステップとを備え、
それに即して、前記分散が第１の閾値を超えるか否かを判定する前記ステップは、前記第１の分散が前記第１の閾値を超えるか否かを判定するステップを備える、
第９の局面に記載の方法。
［第１１の局面］
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップは：
各周波数における各フレーム信号のパワー値を、当該フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第１の周波数間隔に対応する第１のパワー値集合と、第２の周波数間隔に対応する第２のパワー値集合とに分類するステップであって、前記第１の周波数間隔は前記第２の周波数間隔よりも小さい、分類するステップと；
前記第１のパワー値集合に含まれるパワー値の第１の分散を判定するステップと；
前記第２のパワー値集合に含まれるパワー値の第２の分散を判定するステップと；を備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは、各フレーム信号に対応する前記第１の分散と前記第２の分散との間の差分が第２の閾値を超えているか否かを判定するステップと、否定であれば、当該フレーム信号をノイズ信号と判定するステップとを備える、
第７の局面に記載の方法。
［第１２の局面］
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定する前記ステップよりも後、且つ、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップよりも前に、各分散の大きさに応じて、前記解析対象音声信号セグメントの各フレーム信号を順位付けるステップをさらに備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定する前記ステップは、各周波数における順位付けられた各フレーム信号のパワー値の前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するステップを備える、
第７の局面に記載の方法。
［第１３の局面］
ノイズ信号判定装置であって：
解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部と；
各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を、前記フレーム信号の前記パワースペクトルに基づき判定するよう構成される分散判定部と；
前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定するよう構成されるノイズ判定部と；を備える、
ノイズ信号判定装置。
［第１４の局面］
処理対象音声の時間領域信号の振幅変動に基づき、前記処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、前記解析対象音声信号セグメントと判定するよう、又は、処理対象音声における最初のＮ個のフレーム音声信号を、前記解析対象音声信号セグメントとして獲得するよう構成されるセグメント取得部をさらに備える、
第１３の局面に記載の装置。
［第１５の局面］
前記ノイズ判定部は、前記音声信号セグメントの各フレーム信号に対応する前記分散が第１の閾値を超えているか否かを判定し、否定であれば、当該フレーム信号をノイズ信号と判定するよう構成される、
第１３の局面に記載の装置。
［第１６の局面］
前記分散判定部は、各周波数における前記フレーム信号のパワー値を、前記パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第１の周波数間隔に対応する第１のパワー値集合に分類し、前記第１のパワー値集合に含まれるパワー値の第１の分散を判定するよう構成されており、
それに即して、前記ノイズ判定部が、前記第１の分散が前記第１の閾値を超えるか否かを判定し、否定であれば、当該フレーム信号をノイズ信号と判定するよう構成される、
第１３の局面に記載の装置。
［第１７の局面］
前記分散判定部は、具体的に：
各周波数における各フレーム信号のパワー値を、当該フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第１の周波数間隔に対応する第１のパワー値集合と、第２の周波数間隔に対応する第２のパワー値集合とに分類し、前記第１の周波数間隔は前記第２の周波数間隔よりもその周波数が小さく；
前記第１のパワー値集合に含まれるパワー値の第１の分散を判定し；
前記第２のパワー値集合に含まれるパワー値の第２の分散を判定する；よう構成されており、
それに即して、前記ノイズ判定部は：
各フレーム信号に対応する前記第１の分散と前記第２の分散との間の差分が第２の閾値を超えているか否かを判定し、否定であれば、当該フレーム信号をノイズ信号と判定するよう構成される、
第１３の局面に記載の装置。
［第１８の局面］
音声ノイズ除去装置であって：
処理対象音声に含まれる解析対象音声信号セグメントを判定するよう構成されるセグメント判定部と；
前記解析対象音声信号セグメントの各フレーム信号にフーリエ変換を行い、前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するよう構成されるパワースペクトル取得部と；
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を判定するよう構成される分散判定部と；
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを判定し、前記音声信号セグメントに含まれる幾つかのノイズフレームを取得するよう構成されるノイズ判定部と；
前記音声信号セグメントに含まれる前記幾つかのノイズフレームに対応する平均パワーを判定し、前記ノイズフレームの前記平均パワーに基づき前記処理対象音声をノイズ除去するよう構成される音声ノイズ除去部と；を備える、
音声ノイズ除去装置。

１０音声ノイズ除去部
１００ノイズ信号判定装置
１０１、２０２パワースペクトル取得部
１０２、２０３分散判定部
１０３、２０５ノイズ判定部
２００音声ノイズ除去装置
２０１セグメント判定部
２０４順位付け部

Claims

音声信号セグメント内のノイズ信号を特定する方法であって、
処理対象音声の時間領域信号の振幅変動に基づき、前記処理対象音声における所定の閾値に満たない振幅変動の音声信号セグメントを、前記音声信号セグメントと特定するステップと；
前記音声信号セグメントの各フレーム信号にフーリエ変換を行って前記音声信号セグメントの各フレーム信号のパワースペクトルを取得するステップであって、前記パワースペクトルは、異なる周波数に対応する複数のパワー値で構成される、ステップ（Ｓ１０１）と；
各フレーム信号の前記パワースペクトルに基づき、複数の周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を特定するステップ（Ｓ１０２）と；
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定するステップ（Ｓ１０３）と；を備える、
ノイズ信号を特定する方法。
前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定する前記ステップは、
前記音声信号セグメントの各フレーム信号に対応する前記分散が第１の閾値を超えているか否かを特定するステップ（Ｓ１０３１）と；
否定であれば、当該フレーム信号をノイズ信号と特定するステップ（Ｓ１０３２）と；を備える、
請求項１に記載の方法。
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を特定する前記ステップは、
各周波数における前記フレーム信号のパワー値を、前記パワースペクトルに対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第１の周波数間隔に対応する第１のパワー値集合に分類するステップと；
前記第１のパワー値集合に含まれるパワー値の第１の分散を特定するステップ（Ｓ１０２２）と；を備え、
それに即して、前記分散が第１の閾値を超えているか否かを特定する前記ステップが、
前記第１の分散が前記第１の閾値を超えているか否かを特定するステップを備える、
請求項２に記載の方法。
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を特定する前記ステップは、
各周波数における各フレーム信号のパワー値を、当該フレーム信号の各パワー値に対応する複数の周波数が属する複数の周波数間隔に応じて、少なくとも、第１の周波数間隔に対応する第１のパワー値集合と、第２の周波数間隔に対応する第２のパワー値集合とに分類するステップであって、前記第１の周波数間隔は前記第２の周波数間隔よりもその周波数が小さい、ステップ（Ｓ１０２１）と；
前記第１のパワー値集合に含まれるパワー値の第１の分散を特定するステップ（Ｓ１０２２）と；
前記第２のパワー値集合に含まれるパワー値の第２の分散を特定するステップ（Ｓ１０２３）と；を備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定する前記ステップは、
各フレーム信号に対応する前記第１の分散と前記第２の分散との間の差分が第２の閾値を超えているか否かを特定するステップと；
否定であれば、当該フレーム信号をノイズ信号と特定するステップと；を備える、
請求項１に記載の方法。
各フレーム信号の前記パワースペクトルに基づき、各周波数における前記音声信号セグメントの各フレーム信号のパワー値の分散を特定する前記ステップよりも後で、且つ、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定する前記ステップよりも前に、
各分散の大きさに応じて、前記音声信号セグメントの各フレーム信号を順位付けるステップ；をさらに備え、
それに即して、前記分散に基づき前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定する前記ステップは、各周波数における順位付けられた各フレーム信号のパワー値の前記分散に基づき、前記音声信号セグメントの各フレーム信号がノイズ信号であるか否かを特定するステップを備える、
請求項１に記載の方法。
請求項１乃至請求項５のいずれか１項に記載の方法を実行するように構成された複数のユニット（１０１、１０２、１０３）を備える、
音声信号セグメント内のノイズ信号を特定するための装置（１００）。