JP2020134887A

JP2020134887A - 音信号処理プログラム、音信号処理方法及び音信号処理装置

Info

Publication number: JP2020134887A
Application number: JP2019032113A
Authority: JP
Inventors: 高橋　潤; Jun Takahashi; 潤高橋; 上村　拓也; Takuya Kamimura; 拓也上村; 村瀬　健太郎; Kentaro Murase; 健太郎村瀬
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2019-02-25
Filing date: 2019-02-25
Publication date: 2020-08-31
Anticipated expiration: 2039-02-25
Also published as: JP7156084B2

Abstract

【課題】雑音の種類に拘わらず、当該雑音を適切に除去する音信号処理プログラム、音信号処理方法及び装置を提供する。【解決手段】音信号処理方法は、音信号を時間周波数変換によりスペクトル信号に変換し、非音声区間のスペクトル信号の平均パワーが第１閾値以上の場合に、周波数特性から非音声区間のスペクトル信号の定常性の有無を判定する。非音声区間のスペクトル信号に定常性がない場合は、音信号に対して雑音除去を行うＥｎｄ−ｔｏ−Ｅｎｄ雑音除去方法を適用し、非音声区間に定常性がある場合は、スペクトル信号に対して雑音除去を行うスペクトル雑音除去方法を適用する。音信号に対してＥｎｄ−ｔｏ−Ｅｎｄ雑音除去方法を適用して雑音が除去された音信号またはスペクトル信号に対してスペクトル雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する。【選択図】図８

Description

本発明は、音信号処理プログラム、音信号処理方法及び音信号処理装置に関する。

例えば、非一時的記録媒体に記録されている音に対して、音声認識技術を適用して、発話内容及び発話時間を取得し、発話内容を表す字幕を作成したり、発話内容から特定の用語を検索することが可能なコーパスを作成したりする技術が存在する。しかしながら、非一時的記録媒体に記録されている音に雑音が含まれている場合、音声認識精度が低下する。

例えば、音を収音する際に、複数のマイクを使用して、音の到来方向を取得することで、雑音を除去する技術が存在する。しかしながら、一般的に、非一時的記録媒体に記録されている音を収音した際のマイクに関する情報は不明であるため、非一時的記録媒体に記録されている音に対して、当該技術を使用することは困難である。

特開２０１８−８１２７７号公報特開２００４−０２０６７９号公報特開２０１６−４２１５２号公報

Pascualら、"SEGAN: Speech Enhancement Generative Adversarial Network"、INTERSPEECH 2017 Stollerら、"Wave-U-Net: A Multi-Scale Neural Network for End-to-End Audio Source Separation"、ISMIR 2018

音を収音する際に使用されたマイクの配置に関する情報を使用することなく、音から雑音を除去する方法として、例えば、End-to-End speech denoising （End-to-End雑音除去方法）が存在する。End-to-End雑音除去方法では、音信号をスペクトルに変換せず、当該音信号に対して雑音除去方法を適用する。詳細には、Deep Neural Network (DNN)などを使用して、雑音を含む音信号から雑音を含まない音信号を出力するモデルを構築し、当該モデルを使用して、音信号から雑音を除去する。

End-to-End雑音除去方法による雑音除去は、Mean Opinion Score (MOS: 複数被験者による主観評価試験）などで、スペクトルに適用される雑音除去方法よりも良い結果を得ることができる、と評価されたことが報告されている。しかしながら、End-to-End雑音除去方法が、スペクトルに適用される雑音除去方法よりも良くない結果を得る場合もある。

本発明は、１つの側面として、雑音の種類に拘わらず、当該雑音を適切に除去することを可能とすることを目的とする。

１つの実施形態では、音信号を時間周波数変換によりスペクトル信号に変換し、非音声区間のスペクトル信号の平均パワーが第１閾値以上の場合に、周波数特性から非音声区間のスペクトル信号の定常性の有無を判定する。非音声区間のスペクトル信号に定常性がない場合は、音信号に対して雑音除去を行う第１雑音除去方法を適用し、非音声区間に定常性がある場合は、スペクトル信号に対して雑音除去を行う第２雑音除去方法を適用することを決定する。音信号に対して第１雑音除去方法を適用して雑音が除去された音信号、またはスペクトル信号に対して第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する。

本発明は、１つの側面として、雑音の種類に拘わらず、当該雑音を適切に除去することを可能とする。

実施形態に係る音信号処理装置の一例を示すブロック図である。異なる雑音除去方法による単語誤り率の一例を示す表である。「空調音」のスペクトルを例示する概要図である。「話し声」のスペクトルを例示する概要図である。「コピー機」のスペクトルを例示する概要図である。「咳」のスペクトルを例示する概要図である。「打鍵音」のスペクトルを例示する概要図である。「着信音」のスペクトルを例示する概要図である。異なる雑音によるパワー平均値、０次メル周波数ケプストラム係数の平均値及び分散値を例示する表である。 End-to-End雑音除去方法を説明するブロック図である。スペクトル雑音除去方法を説明するブロック図である。音信号処理装置のハードウェアの一例を示すブロック図である。音信号処理の一例を示すフローチャートである。雑音除去方法決定処理の一例を示すフローチャートである。雑音除去処理の一例を示すフローチャートである。音信号処理装置の一例を示すブロック図である。サーバのハードウェアの一例を示すブロック図である。音信号処理装置の一例を示すブロック図である。

以下、図面を参照して実施形態の一例を詳細に説明する。

図１に示す音信号処理装置１０は、音入力部１２、時間周波数変換部１４、音声区間判定部１６、雑音除去方法決定部１８、第１雑音除去部２０、第２雑音除去部２２、時間周波数逆変換部２４、及び、音出力部２６を含む。第１雑音除去部２０及び第２雑音除去部２２は、雑音除去部の一例である。

音入力部１２は、入力される音を音信号に変換する。時間周波数変換部１４は、１フレーム分の音信号に対して時間周波数変換を行い、スペクトル信号（以下、スペクトルともいう。）に変換する。１フレームは、例えば、１０ｍ秒であってよく、時間周波数変換は、例えば、Fast Fourier Transformation（以下、ＦＦＴという。）であってよい。例えば、窓幅２５［ミリ秒］のＦＦＴをステップ幅１０［ミリ秒］毎に適用する。

音声区間判定部１６は、既存の技術をスペクトルに適用して、音が音声区間の音であるか、非音声区間の音であるか判定する。既存の技術には、例えば、自己相関を使用する技術、及び、特徴量を使用する技術、などが存在する。

雑音除去方法決定部１８は、時間領域信号である音信号に適用することで雑音除去を行う第１雑音除去方法を使用するか、周波数領域信号であるスペクトルに適用することで雑音除去を行う第２雑音除去方法を使用するか、決定する。以下、第１雑音除去方法は、時間雑音除去方法ともいい、例えば、End-to-End speech denoising （End-to-End雑音除去方法）であってよい。また、以下、第２雑音除去方法は、スペクトル雑音除去方法ともいう。

発明者らは、例えば、会議中に雑音となり得る様々な種類の環境音を含む音を使用して、雑音除去を行わない場合、スペクトル雑音除去方法で雑音除去を行った場合、及び、End-to-End雑音除去方法で雑音除去を行った場合の音信号を使用して音声認識を行った。音声認識エンジンは、Julius-v4.4（DNNモデル）である。評価音は、新聞記事読上音声コーパスの文書200文（男女各100文）に環境音を信号対雑音比が５［ｄＢ］程度になるように重畳した音を使用した。評価音に重畳される環境音は、会議中に雑音となり得る「空調音」、「話し声」、「コピー機」、「咳」、「打鍵音」、及び「着信音」である。

音声認識の結果、環境音の種類が、「話し声」、「咳」、「打鍵音」、及び「着信音」の場合、End-to-End雑音除去方法で雑音除去を行った場合の単語誤り率が、スペクトル雑音除去方法で雑音除去を行った場合の単語誤り率よりも低いことが判明した。音声認識の結果を図２に例示する。

一方、環境音の種類が、「空調音」、及び「コピー機」の場合、スペクトル雑音除去方法で雑音除去を行った場合の単語誤り率が、End-to-End雑音除去方法で雑音除去を行った場合の単語誤り率よりも低いことが判明した。即ち、「話し声」、「咳」、「打鍵音」、及び「着信音」の場合、End-to-End雑音除去方法による雑音除去が適しており、「空調音」、及び「コピー機」の場合、スペクトル雑音除去方法による雑音除去が適していることが判明した。

そこで、発明者らは、「空調音」、及び「コピー機」に共通する音の特徴、及び、「話し声」、「咳」、「打鍵音」、及び「着信音」に共通する音の特徴を調査した。図３Ａ〜図３Ｆは、環境音のスペクトルの時間変動を表す。詳細には、図３Ａは「空調音」、図３Ｂは「話し声」、図３Ｃは「コピー機」、図３Ｄは「咳」、図３Ｅは「打鍵音」、及び図３Ｆは「着信音」のスペクトルの時間変動を表す。図３Ａ〜図３Ｆの横軸は時間を表し、縦軸は周波数を表す。音圧レベルは色の濃淡で表され、音圧レベルが大きいほど濃い色で表され、音圧レベルが小さいほど白に近い色で表されている。

図３Ａ〜図３Ｆを比較検討した結果、図３Ａ及び図３Ｃに例示するように、「空調音」、及び「コピー機」は、スペクトルの周波数毎の成分の時間変動が小さい、という共通した音の特徴を有することが判明した。一方、図３Ｂ、図３Ｄ、図３Ｅ及び図３Ｆに例示するように、「話し声」、「咳」、「打鍵音」、及び「着信音」は、スペクトルの周波数毎の成分の時間変動が大きい、という共通した音の特徴を有することが判明した。

上記から、スペクトルの周波数毎の成分の時間変動が小さい場合には、スペクトル雑音除去方法の使用が適しており、スペクトルの周波数毎の成分の時間変動が大きい場合には、End-to-End雑音除去方法の使用が適していることが判明した。したがって、本実施形態の雑音除去方法決定部１８では、スペクトルの周波数毎の成分の時間変動が小さい場合に、スペクトル雑音除去方法を使用することを決定する、こととした。また、本実施形態の雑音除去方法決定部１８では、スペクトルの周波数毎の成分の時間変動が大きい場合に、時間雑音除去方法を使用することを決定する、こととした。

以下、スペクトルの周波数毎の成分の時間変動が所定値より小さい場合、定常性がある、といい、スペクトルの周波数毎の成分の時間変動が所定値以上である場合、定常性がない、という。定常性の有無を判定するために、スペクトルの周波数特性を使用することができる。ここでは、周波数特性として、声の特性を表す特徴量であるメル周波数ケプストラム係数（Mel Frequency Cepstral Coefficients：MFCC）を使用する。

発明者らは、「無音」、「空調音」、「話し声」、「コピー機」、「咳」、「打鍵音」、及び、「着信音」について、０次MFCC（以下、MFCC[0]という。MFCCの直流成分）の時間軸方向での平均値及び分散値を調査した。その結果、図４に例示するように、MFCC[0]の平均値では、環境音（以下、雑音という。）の種類による顕著な差異は存在しないが、「空調音」及び「コピー機」では、MFCC[0]の分散値が、「無音」以外の他の雑音より低いことが判明した。ここで、「無音」とは、限りなく微小な信号である。

そこで、まず、「無音」を除外する。詳細には、「無音」は、「無音」以外の他の雑音より、パワー平均値（直流成分の時間軸方向の平均値）が低いため、パワー平均値に基づいて、「無音」を除外する。例えば、パワー平均値が第１閾値より小さい場合、「無音」であると判断して除外する。次に、MFCC[0]の分散値が第２閾値より小さい雑音を定常性があると判断する。

以上から、本実施形態において、雑音除去方法決定部１８は、音が非音声区間の音であり、パワー平均値が第１閾値以上である場合、「無音」以外の他の雑音である、と判定することとする。第１閾値は、例えば、-70[dB]であってよい。「無音」である場合、雑音が存在したとしてもその影響は小さいため、雑音除去を行わなくてもよいし、予め定めた任意の雑音除去方法によって雑音除去を行ってもよい。

パワー平均値が第１閾値以上である場合、雑音除去方法決定部１８は、スペクトルの周波数特性について検討する。詳細には、例えば、MFCC[0]の分散値が第２閾値以上であるか否か判定する。第２閾値は、例えば、100であってよい。MFCC[0]の分散値が第２閾値以上である場合、定常性がないと判断し、雑音除去方法決定部１８は、定常性がない雑音の除去に適した時間雑音除去方法を使用することを決定する。一方、MFCC[0]の分散値が第２閾値より小さい場合、定常性があると判断し、雑音除去方法決定部１８は、定常性がある雑音の除去に適したスペクトル雑音除去方法を使用することを決定する。

第１雑音除去部２０は、時間雑音除去方法を音信号に適用して、音信号から雑音を除去する。時間雑音除去方法は、例えば、End-to-End雑音除去方法であってよい。第１雑音除去部２０は、図５Ａに例示するように、音信号を入力し、例えば、End-to-End雑音除去モデルを使用して、音信号から雑音を除去し、雑音が除去された音信号を出力する。

第２雑音除去部２２は、スペクトル雑音除去方法を振幅スペクトル（以下、スペクトルという。）に適用して、スペクトルから雑音を除去する。スペクトル雑音除去方法は、非音声区間のスペクトルから雑音スペクトルを推定し、スペクトルから当該雑音スペクトルを減算するフィルタを使用して、雑音を除去する。当該フィルタは、例えば、機械学習を利用して作成されてもよい。第２雑音除去部２０は、図５Ｂに例示するように、スペクトルを入力して、例えば、フィルタ生成モデルを使用して雑音除去フィルタを生成し、生成された雑音除去フィルタをスペクトルに適用して、スペクトルから雑音を除去し、雑音が除去されたスペクトルを出力する。

時間周波数逆変換部２４は、第２雑音除去部２０で雑音が除去されたスペクトルに対して、時間周波数逆変換を行い、スペクトルに対応する音信号を取得する。時間周波数逆変換は、例えば、Inverse Fast Fourier Transformation（以下、ＩＦＦＴという。）であってよい。音出力部２６は、時間周波数逆変換部２４で取得された音信号に対応する音、または、第１雑音除去部２０で雑音が除去された音信号に対応する音を出力する。

なお、第１雑音除去部２０による雑音除去は、雑音除去方法決定部１８が、定常性があると判定した場合に行われてもよいし、判定に関係なく行われてもよい。また、第２雑音除去部２２による雑音除去は、雑音除去方法決定部１８が、定常性がないと判定した場合に行われてもよいし、判定に関係なく行われてもよい。判定に関係なく行われた場合、音出力部２６が、判定に基づいて、第１雑音除去部２０で取得された音信号を出力するか、第２雑音除去部２２及び時間周波数逆変換部２４で取得された音信号を出力するか、選択する。

音信号処理装置１０は、一例として、図６に示すように、ＣＰＵ（Central Processing Unit）５１、一次記憶部５２、二次記憶部５３、外部インタフェース５４、マイク３１Ａ及びスピーカ３１Ｂを含む。ＣＰＵ５１は、ハードウェアであるプロセッサの一例である。ＣＰＵ５１、一次記憶部５２、二次記憶部５３、外部インタフェース５４、マイク３１Ａ及びスピーカ３１Ｂは、バス５９を介して相互に接続されている。

一次記憶部５２は、例えば、ＲＡＭ（Random Access Memory）などの揮発性のメモリである。二次記憶部５３は、例えば、ＨＤＤ（Hard Disk Drive）、又はＳＳＤ（Solid State Drive）などの不揮発性のメモリである。

二次記憶部５３は、プログラム格納領域５３Ａ及びデータ格納領域５３Ｂを含む。プログラム格納領域５３Ａは、一例として、雑音の種類を判定することで雑音除去方法を決定する音信号処理プログラムなどのプログラムを記憶している。データ格納領域５３Ｂは、一例として、音信号、スペクトル及び音信号処理プログラムを実行している間に生成される中間データなどを記憶する。

ＣＰＵ５１は、プログラム格納領域５３Ａから音信号処理プログラムを読み出して一次記憶部５２に展開する。ＣＰＵ５１は、音信号処理プログラムをロードして実行することで、図１の時間周波数変換部１４、音声区間判定部１６、雑音除去方法決定部１８、第１雑音除去部２０、第２雑音除去部２２及び時間周波数逆変換部２４として動作する。

なお、音信号処理プログラムなどのプログラムは、外部サーバに記憶され、ネットワークを介して、一次記憶部５２に展開されてもよい。また、音信号処理プログラムなどのプログラムは、ＤＶＤ（Digital Versatile Disc）などの非一時的記録媒体に記憶され、記録媒体読込装置を介して、一次記憶部５２に展開されてもよい。

外部インタフェース５４には外部装置が接続され、外部インタフェース５４は、外部装置とＣＰＵ５１との間の各種情報の送受信を司る。マイク３１Ａは、音入力部１２の一例であり、入力される音を音信号に変換する。スピーカ３１Ｂは、音出力部２６の一例であり、例えば、雑音除去済みの音信号に対応する音を出力する。なお、マイク３１Ａ及びスピーカ３１Ｂは、音信号処理装置１０に内蔵されず、外部インタフェース５４を介して、外部装置として、音信号処理装置１０と接続されていてもよい。

音信号処理装置１０は、例えば、パーソナルコンピュータであってもよいし、スマートフォンであってもよいし、専用のデバイスであってもよい。

次に、雑音の種類を判定することで雑音除去方法を決定する音信号処理の作用の概要について説明する。図７は、音信号処理の流れを例示する。ＣＰＵ５１は、ステップ１００で、雑音除去方法を決定し、ステップ２００で、ステップ１００で決定された雑音除去方法を適用することで雑音除去を行う。

図８は、図７のステップ１００の雑音除去方法決定処理の流れを例示する。ＣＰＵ５１は、ステップ１０２で、マイク３１Ａから入力される音に対応する音信号を１フレーム分読み込む。ＣＰＵ５１は、ステップ１０４で、読み込まれた音信号に対してＦＦＴを行い、音信号をスペクトル信号に変換する。

ＣＰＵ５１は、ステップ１０６で、スペクトル信号が所定時間以上継続している非音声区間であるか否か判定する。所定時間は、例えば、０．５［秒］であってよい。ステップ１０６の判定が肯定された場合、ＣＰＵ５１は、ステップ１０８で、スペクトル信号が無音であるか否か判定する。ステップ１０８の判定が否定された場合、ＣＰＵ５１は、ステップ１１０で、MFCC[0]を累積する。

ＣＰＵ５１は、ステップ１１２で、まだ処理すべき音信号が存在するか否か判定する。ステップ１０６の判定が否定された場合、または、ステップ１０８の判定が肯定された場合も、ＣＰＵ５１は、ステップ１１２で、まだ処理すべき音信号が存在するか否か判定する。ステップ１１２の判定が肯定された場合、ＣＰＵ５１は、ステップ１０２に戻る。

例えば、ユーザが音信号処理の終了を指示したことなどにより、ステップ１１２の判定が否定された場合、ＣＰＵ５１は、ステップ１１４で、MFCC[0]の平均値を算出する。ＣＰＵ５１は、ステップ１１６で、MFCC[0]の平均値が第２閾値の一例である所定値以上であるか否か判定する。ステップ１１６の判定が肯定された場合、ＣＰＵ５１は、ステップ１１８で、音信号に対して雑音除去を行う第１雑音除去方法の一例であるEnd-to-End雑音除去方法を適用することを決定する。ステップ１１６の判定が否定された場合、ＣＰＵ５１は、ステップ１２０で、スペクトル信号に対して雑音除去を行う第２雑音除去方法の一例であるスペクトル雑音除去方法を適用することを決定する。

図９は、図７のステップ２００の雑音除去処理の流れを例示する。ＣＰＵ５１は、ステップ２０２で、信号を１フレーム分読み込む。ステップ１１８で、End-to-End雑音除去方法を適用することが決定された場合、音信号を読み込み、ステップ１２０で、スペクトル雑音除去方法を適用することが決定された場合、スペクトル信号を読み込む。ここで、読み込まれる信号は、図８のステップ１０２で読み込まれた音信号またはステップ１０４で変換されたスペクトル信号である。

ＣＰＵ５１は、ステップ２０４で、信号に対して雑音除去を適用する。ステップ１１８で、End-to-End雑音除去方法を適用することが決定された場合、音信号に対してEnd-to-End雑音除去方法を適用する。一方、ステップ１２０で、スペクトル雑音除去方法を適用することが決定された場合、スペクトル信号に対してスペクトル雑音除去方法を適用する。

ＣＰＵ５１は、ステップ２０６で、ステップ２０４でスペクトル雑音除去方法が適用されたか否か判定する。ステップ２０６の判定が肯定された場合、ＣＰＵ５１は、ステップ２０８で、雑音が除去されたスペクトル信号に対してＩＦＦＴを行い、音信号に変換する。ＣＰＵ５１は、ステップ２１０で、例えば、スピーカ３１Ｂから、ステップ２０８で変換された音信号、または、ステップ２０４でEnd-to-End雑音除去方法が適用されて雑音が除去された音信号に対応する音を出力する。なお、音信号は、スピーカ３１Ｂから音として出力される代わりに、例えば、外部記憶装置に出力され、ファイルに保存されてもよい。

なお、図７の音信号処理は、マイク３１Ｂから入力される音に代えて、例えば、ファイルに保存されている音信号に対して、行われてもよい。即ち、ステップ１００で、当該ファイルの音信号または当該音信号に対応するスペクトル信号に適用される雑音除去方法を決定し、ステップ２００で、当該ファイルの音信号または対応するスペクトル信号から雑音を除去してもよい。また、例えば、所定時間の音信号毎にステップ１００及びステップ２００を繰り返し適用してもよい。所定時間は、例えば、０．５［秒］であってよい。

例えば、環境音が変化しない状況下で収音されファイルに保存されている音信号については、当該音信号に対応する全ての音について、同一の雑音除去方法を適用すればよい。また、例えば、環境音が時間変動する状況下でマイク３１Ａから入力される音については、所定時間の音毎に、当該音を使用して判定した環境音である雑音の種類に応じた雑音除去方法を適用すればよい。

本実施形態は、様々な雑音が存在し得る環境で収音される音声の字幕作成、会議議事録作成などに適用することができる。なお、図７〜図９に例示するフローチャートは一例であり、ステップの順序は変更されてもよい。

音信号処理装置１０は、図１０に例示するように、有線または無線ネットワークで接続されたクライアント８１Ａ及びサーバ８２Ａを含んでいてもよい。この場合、クライアント８１Ａは、例えば、図１の音入力部１２及び音出力部２６を含む。サーバ８２Ａは、時間周波数変換部１４、音声区間判定部１６、雑音除去方法決定部１８、第１雑音除去部２０、第２雑音除去部２２、及び、時間周波数逆変換部２４を含む。

クライアント８１Ａのハードウェア構成は、図６の音信号処理装置１０のハードウェア構成と同様であってよい。また、サーバ８２Ａのハードウェア構成は、図１１に例示するように、マイク３１Ａ及びスピーカ３１Ｂを含まない点で、図６の音信号処理装置１０と相違する。しかしながら、図１１のＣＰＵ５１Ｄ、一次記憶部５２Ｄ、二次記憶部５３Ｄ、及び外部インタフェース５４Ｄは、図６のＣＰＵ５１、一次記憶部５２、二次記憶部５３、及び外部インタフェース５４と同様であってよいため、詳細な説明を省略する。二次記憶部５３Ｄは、二次記憶部５３と同様に、プログラム格納領域５３ＡＤ及びデータ格納領域５３ＢＤを含む。

音信号処理装置１０の機能をクライアント８１Ａとサーバ８２Ａとに分離することで、クライアント８１Ａの処理負荷を軽減し、クライアント８１Ａを小型・軽量化することで、クライアント８１Ａの携帯性を向上させることが可能となる。

音信号処理装置１０は、図１２に例示するように、有線または無線ネットワークで接続されたクライアント８１Ｂ、方法決定サーバ８２Ｂ、第１雑音除去サーバ８２Ｃ及び第２雑音除去サーバ８２Ｄを含んでいてもよい。クライアント８１Ｂは、音入力部１２及び、音出力部２６を含む。サーバ８２Ｂは、時間周波数変換部１４、音声区間判定部１６、雑音除去方法決定部１８、及び、時間周波数逆変換部２４を含む。第１雑音除去サーバ８２Ｃは第１雑音除去部２０を含み、第２雑音除去サーバ８２Ｄは第２雑音除去部２２を含む。

方法決定サーバ８２Ｂ、第１雑音除去サーバ８２Ｃ及び第２雑音除去サーバ８２Ｄのハードウェア構成は、サーバ８２Ａのハードウェア構成と同様であってよい。クライアント８１Ｂのハードウェア構成は、クライアント８１Ａの構成と同様であってよい。

第１雑音除去サーバ８２Ｃは、音入力部１２で入力した音信号に対して第１雑音除去方法を適用する。第２雑音除去サーバ８２Ｄは、時間周波数変換部１４で変換されたスペクトル信号に対して第２雑音除去方法を適用する。方法決定サーバ８２Ｂは、雑音除去方法決定部１８で決定された雑音除去方法が第１雑音除去方法であれば、第１雑音除去サーバ８２Ｃで雑音が除去された音信号をクライアント８１Ｂに送信する。方法決定サーバ８２Ｂは、雑音除去方法決定部１８で決定された雑音除去方法が第２雑音除去方法であれば、第２雑音除去サーバ８２Ｄで雑音が除去されたスペクトル信号を、時間周波数逆変換部２４で音信号に変換して、クライアント８１Ｂに送信する。

音信号処理装置１０の機能をクライアント８１Ｂ、方法決定サーバ８２Ｂ、第１雑音除去サーバ８２Ｃ及び第２雑音除去サーバ８２Ｄに分離することで、クライアント８１Ｂの処理負荷を軽減することができる。これにより、クライアント８１Ｂを小型・軽量化することで、クライアント８１Ｂの携帯性を向上させることが可能となる。また、雑音除去方法の決定とは無関係に、第１雑音除去サーバ８２Ｃで第１雑音除去を行い、第２雑音除去サーバ８２Ｄで第２雑音除去を行うことで、全体処理の高速化を図ることが可能となる。

なお、図１０及び図１２に例示した音信号処理装置は、一例であり、本実施形態はこれらに限定されない。例えば、図１２の第２雑音除去サーバ８２Ｄは、時間周波数変換部１４及び時間周波数逆変換部２４を、方法決定サーバ８２Ｂとは別に有していてもよい。

なお、音信号に対応する音を音出力部２６から出力する例について説明したが、本実施形態はこれに限定されない。音信号は、例えば、ファイルに保存されてもよいし、音信号に対して音声認識処理を適用し、テキストとしてディスプレイに表示してもよいし、テキストをファイルに保存してもよい。ファイルは、例えば、二次記憶部５３のデータ格納領域５３Ｂまたは二次記憶部５３Ｄのデータ格納領域５３ＢＤなどに記憶されてもよい。

本実施形態では、音信号を時間周波数変換によりスペクトル信号に変換し、非音声区間のスペクトル信号の平均パワーが第１閾値以上の場合に、周波数特性から非音声区間のスペクトル信号の定常性の有無を判定する。非音声区間のスペクトル信号に定常性がない場合は、音信号に対して雑音除去を行う第１雑音除去方法を適用し、非音声区間に定常性がある場合は、スペクトル信号に対して雑音除去を行う第２雑音除去方法を適用することを決定する。音信号に対して第１雑音除去方法を適用して雑音が除去された音信号、またはスペクトル信号に対して第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する。

本実施形態では、雑音の種類を判定し、当該雑音に適した雑音除去方法を決定する。これにより、本実施形態では、雑音の種類に拘わらず、当該雑音を適切に除去することを可能とする。

以上の各実施形態に関し、更に以下の付記を開示する。

（付記１）
音信号を時間周波数変換によりスペクトル信号に変換し、
非音声区間の前記スペクトル信号の平均パワーが第１閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、
前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第１雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第２雑音除去方法を適用することを決定し、
前記音信号に対して前記第１雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する、
雑音除去処理をコンピュータに実行させるための音信号処理プログラム。
（付記２）
音入力部から入力された前記スペクトル信号に変換する前の音信号を取得し、
前記第１雑音除去方法を適用して雑音が除去された音信号、または前記第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号から変換される音を音出力部から出力する、
付記１の音信号処理プログラム。
（付記３）
前記定常性がない場合は、前記スペクトル信号の周波数毎の成分の時間変動が所定値以上の場合である、
付記１または付記２の音信号処理プログラム。
（付記４）
前記周波数特性は、０次メル周波数ケプストラム係数であり、前記定常性がない場合は、前記０次メル周波数ケプストラム係数の分散値が第２閾値以上である場合である、
付記３の音信号処理プログラム。
（付記５）
コンピュータが、
音信号を時間周波数変換によりスペクトル信号に変換し、
非音声区間の前記スペクトル信号の平均パワーが第１閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、
前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第１雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第２雑音除去方法を適用することを決定し、
前記音信号に対して前記第１雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する、
音信号処理方法。
（付記６）
音入力部から入力された前記スペクトル信号に変換する前の音信号を取得し、
前記第１雑音除去方法を適用して雑音が除去された音信号、または前記第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号から変換される音を音出力部から出力する、
付記５の音信号処理方法。
（付記７）
前記定常性がない場合は、前記スペクトル信号の周波数毎の成分の時間変動が所定値以上の場合である、
付記５または付記６の音信号処理方法。
（付記８）
前記周波数特性は、０次メル周波数ケプストラム係数であり、前記定常性がない場合は、前記０次メル周波数ケプストラム係数の分散値が第２閾値以上である場合である、
付記７の音信号処理方法。
（付記９）
音信号を時間周波数変換によりスペクトル信号に変換する時間周波数変換部と、
非音声区間の前記スペクトル信号の平均パワーが第１閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第１雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第２雑音除去方法を適用することを決定する雑音除去方法決定部と、
前記音信号に対して前記第１雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する雑音除去部と、
を含む、音信号処理装置。
（付記１０）
前記スペクトル信号に変換する前の音信号を取得する音入力部と、
前記第１雑音除去方法を適用して雑音が除去された音信号、または前記第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号から変換される音を出力する音出力部と、
をさらに含む、付記９の音信号処理装置。
（付記１１）
前記定常性がない場合は、前記スペクトル信号の周波数毎の成分の時間変動が所定値以上の場合である、
付記９または付記１０の音信号処理装置。
（付記１２）
前記周波数特性は、０次メル周波数ケプストラム係数であり、前記定常性がない場合は、前記０次メル周波数ケプストラム係数の分散値が第２閾値以上である場合である、
付記１１の音信号処理装置。
（付記１３）
前記時間周波数変換部と、前記雑音除去方法決定部と、前記雑音除去部と、を含むサーバと、
前記音入力部と、前記音出力部と、を含むクライアントと、
を含む、
付記１０の音信号処理装置。
（付記１４）
前記雑音除去部は、
前記音信号に対して前記第１雑音除去方法を適用して雑音が除去された音信号を取得する第１雑音除去部と、
前記スペクトル信号に対して前記第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する第２雑音除去部と、
を含み、
前記時間周波数変換部と、前記雑音除去方法決定部と、を含む方法決定サーバと、
前記第１雑音除去部を含む第１雑音除去サーバと、
前記第２雑音除去部を含む第２雑音除去サーバと、
前記音入力部と、前記音出力部と、を含むクライアントと、
を含む、付記１０の音信号処理装置。

１０音信号処理装置
１４時間周波数変換部
１８雑音除去方法決定部
２０第１雑音除去部
２２第２雑音除去部
２４時間周波数逆変換部
５１ＣＰＵ
５２一次記憶部
５３二次記憶部
３１Ａマイク
３１Ｂスピーカ

Claims

音信号を時間周波数変換によりスペクトル信号に変換し、
非音声区間の前記スペクトル信号の平均パワーが第１閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、
前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第１雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第２雑音除去方法を適用することを決定し、
前記音信号に対して前記第１雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する、
雑音除去処理をコンピュータに実行させるための音信号処理プログラム。
音入力部から入力された前記スペクトル信号に変換する前の音信号を取得し、
前記第１雑音除去方法を適用して雑音が除去された音信号、または前記第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号から変換される音を音出力部から出力する、
請求項１に記載の音信号処理プログラム。
前記定常性がない場合は、前記スペクトル信号の周波数毎の成分の時間変動が所定値以上の場合である、
請求項１または請求項２に記載の音信号処理プログラム。
前記周波数特性は、０次メル周波数ケプストラム係数であり、前記定常性がない場合は、前記０次メル周波数ケプストラム係数の分散値が第２閾値以上である場合である、
請求項３に記載の音信号処理プログラム。
コンピュータが、
音信号を時間周波数変換によりスペクトル信号に変換し、
非音声区間の前記スペクトル信号の平均パワーが第１閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、
前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第１雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第２雑音除去方法を適用することを決定し、
前記音信号に対して前記第１雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する、
音信号処理方法。
音信号を時間周波数変換によりスペクトル信号に変換する時間周波数変換部と、
非音声区間の前記スペクトル信号の平均パワーが第１閾値以上の場合に、周波数特性から前記非音声区間の前記スペクトル信号の定常性の有無を判定し、前記非音声区間のスペクトル信号に定常性がない場合は、前記音信号に対して雑音除去を行う第１雑音除去方法を適用し、前記非音声区間に定常性がある場合は、前記スペクトル信号に対して雑音除去を行う第２雑音除去方法を適用することを決定する雑音除去方法決定部と、
前記音信号に対して前記第１雑音除去方法を適用して雑音が除去された音信号、または前記スペクトル信号に対して前記第２雑音除去方法を適用して雑音が除去され、かつ、時間周波数逆変換により変換された音信号を取得する雑音除去部と、
を含む、音信号処理装置。