JP2013250548A

JP2013250548A - 処理装置、処理方法、プログラム及び処理システム

Info

Publication number: JP2013250548A
Application number: JP2013032959A
Authority: JP
Inventors: Akihito Aiba; 亮人相場; Junichi Takami; 淳一鷹見
Original assignee: Ricoh Co Ltd
Current assignee: Ricoh Co Ltd
Priority date: 2012-05-01
Filing date: 2013-02-22
Publication date: 2013-12-12
Anticipated expiration: 2033-02-22
Also published as: JP6182895B2; EP2845190B1; RU2014143473A; WO2013164981A1; US9754606B2; BR112014027494B1; RU2597487C2; CA2869884C; CN104364845A; CN104364845B; US20150098587A1; EP2845190A1; SG11201406563YA; BR112014027494A2; EP2845190A4; CA2869884A1

Abstract

【課題】雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを推定することが可能な処理装置を提供する。
【解決手段】音声信号に含まれる雑音の雑音振幅スペクトルを推定する処理装置１００は、単位時間に区切られたフレームごとに前記音声信号の振幅スペクトルを算出する振幅スペクトル算出手段と、前記雑音の雑音振幅スペクトルを推定する雑音振幅スペクトル推定手段１０４とを備え、前記雑音振幅スペクトル推定手段１０４は、前記振幅スペクトル算出手段によって算出される振幅スペクトルと、前記雑音が検出される前のフレームにおける振幅スペクトルとの差分に基づいて、前記雑音振幅スペクトルを推定する第１の推定手段と、前記雑音が検出された後のフレームにおける雑音振幅スペクトルから求められる減衰関数に基づいて、前記雑音振幅スペクトルを推定する第２の推定手段とを備える。
【選択図】図１

Description

本発明は、処理装置、処理方法、プログラム及び処理システムに関する。

例えばビデオカメラ、デジタルカメラ、ＩＣレコーダ等の音声を録音する電子機器や、ネットワークを介して接続する装置間で音声等を送受信して会議等を行う会議システムには、音声が明瞭に聴こえる様に、録音や送受信する音声から雑音を低減する技術を採用しているものがある。

入力される音声から雑音を低減する方法としては、例えば雑音混入音声を入力として、スペクトルサブトラクション法により雑音抑圧音声を出力として得る雑音抑圧装置等が知られている（例えば特許文献１参照）。

しかしながら、従来のスペクトルサブトラクション法を用いる方法では、例えば空調の音の様に定常的に発生する雑音は低減できるが、例えばパソコンのキーボードを叩く音や、机を叩く音、ボールペンをノックする音等の様に、突発的に発生する多様な種類の雑音を低減することは困難な場合がある。

本発明は上記に鑑みてなされたものであって、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを推定することが可能な処理装置を提供することを目的とする。

本発明の一態様によれば、音声信号に含まれる雑音の雑音振幅スペクトルを推定する処理装置であって、単位時間に区切られたフレームごとに前記音声信号の振幅スペクトルを算出する振幅スペクトル算出手段と、前記フレームにおいて検出された前記雑音の雑音振幅スペクトルを推定する雑音振幅スペクトル推定手段とを備え、前記雑音振幅スペクトル推定手段は、前記振幅スペクトル算出手段によって算出される振幅スペクトルと、前記雑音が検出される前のフレームにおける振幅スペクトルとの差分に基づいて、前記雑音振幅スペクトルを推定する第１の推定手段と、前記雑音が検出された後のフレームにおける雑音振幅スペクトルから求められる減衰関数に基づいて、前記雑音振幅スペクトルを推定する第２の推定手段とを備える。

本発明の実施形態によれば、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを推定することが可能な処理装置を提供できる。

第１の実施形態に係る処理装置の機能構成を例示するブロック図である。第１の実施形態に係る処理装置に入力される音声信号を例示する図である。第１の実施形態に係る処理装置のハードウェア構成を例示する図である。第１の実施形態に係る処理装置の雑音振幅スペクトル推定手段の機能構成を例示するブロック図である。第１の実施形態に係る処理装置における雑音振幅スペクトルの推定方法について説明する図である。第１の実施形態に係る処理装置における雑音振幅スペクトルの推定処理のフローチャートを例示する図である。第１の実施形態に係る処理装置の雑音振幅スペクトル推定手段の他の機能構成例を示すブロック図である。第２の実施形態に係る処理システムの機能構成を例示するブロック図である。第２の実施形態に係る処理システムのハードウェア構成を例示する図である。第３の実施形態に係る処理装置の機能構成を例示するブロック図である。第３の実施形態に係る処理装置のハードウェア構成を例示する図である。第３の実施形態に係る処理装置の雑音振幅スペクトル推定手段の機能構成を例示するブロック図である。第３の実施形態に係る処理装置における雑音振幅スペクトルの推定処理のフローチャートを例示する図である。第３の実施形態に係る処理装置の雑音振幅スペクトル推定手段の他の機能構成例を示すブロック図である。第４の実施形態に係る処理システムの機能構成を例示するブロック図である。第４の実施形態に係る処理システムのハードウェア構成を例示する図である。

以下、図面を参照して発明を実施するための形態について説明する。各図面において、同一構成部分には同一符号を付し、重複した説明を省略する場合がある。

[第１の実施形態]
＜処理装置の機能構成＞
図１は、第１の実施形態に係る処理装置１００の機能構成を例示するブロック図である。

図１に示す様に、処理装置１００は、入力端子、周波数スペクトル変換手段１０１、雑音検出手段Ａ１０２、雑音検出手段Ｂ１０３、雑音振幅スペクトル推定手段１０４、雑音スペクトル減算手段１０５、周波数スペクトル逆変換手段１０６、出力端子を有する。

処理装置１００の入力端子には、音声信号が入力される。入力端子には、図２に示す様に、単位時間ｕ（例えば１０ｍｓ等）ごとに区切られた音声信号が入力される。以下の説明において、音声信号が単位時間ｕごとに区切られる区間をフレームという。なお、音声信号は、例えばマイク等の音声の入力が可能な入力機器を介して入力された音に対応する信号であり、音声以外の音も含んでいる。

周波数スペクトル変換手段１０１は、入力端子に入力された音声信号を、周波数スペクトルに変換して出力する。周波数スペクトル変換手段１０１は、例えば高速フーリエ変換（ＦＦＴ）を用いて、音声信号を周波数スペクトルに変換する。

雑音検出手段Ａ１０２は、入力端子からの入力音声信号に雑音が含まれているか否かを検出し、雑音検出結果を雑音振幅スペクトル推定手段１０４に検出情報Ａとして出力する。

雑音検出手段Ｂ１０３は、周波数スペクトル変換手段１０１で変換して出力される周波数スペクトルに雑音が含まれているか否かを検出し、雑音検出結果を検出情報Ｂとして雑音振幅スペクトル推定手段１０４に出力する。

雑音振幅スペクトル推定手段１０４は、雑音検出手段Ａ１０２から出力される検出情報Ａ、雑音検出手段Ｂ１０３から出力される検出情報Ｂに基づいて、周波数スペクトル変換手段１０１から出力される周波数スペクトルに含まれる雑音の振幅スペクトル（以下、雑音振幅スペクトルという）を推定する。

雑音スペクトル減算手段１０５は、周波数スペクトル変換手段１０１で変換された周波数スペクトルから、雑音振幅スペクトル推定手段１０４から出力される雑音振幅スペクトルを減算処理し、雑音が低減された周波数スペクトルを出力する。

周波数スペクトル逆変換手段１０６は、雑音スペクトル減算手段１０５から出力される雑音が低減された周波数スペクトルを音声信号に変換して出力する。周波数スペクトル逆変換手段１０６は、例えばフーリエ逆変換等により、周波数スペクトルを音声信号に変換する。

出力端子は、周波数スペクトル逆変換手段１０６から出力される雑音が低減された音声信号を出力する。

＜処理装置のハードウェア構成＞
図３は、処理装置１００のハードウェア構成を例示する図である。

図３に示す様に、処理装置１００は、コントローラ１１０、ネットワークＩ／Ｆ部１１５、記録媒体Ｉ／Ｆ部１１６、入力端子、出力端子等を有し、コントローラ１１０は、ＣＰＵ１１１、ＨＤＤ（Hard Disk Drive）１１２、ＲＯＭ（Read Only Memory）１１３、ＲＡＭ（Read and Memory）１１４等を有する。

ＣＰＵ１１１は、ＨＤＤ１１２やＲＯＭ１１３等の記憶装置からプログラムやデータをＲＡＭ１１４上に読み出して処理を実行することで、処理装置１００が備える各機能を実現する演算装置である。ＣＰＵ１１１は、図１に示す周波数スペクトル変換手段１０１、雑音検出手段Ａ１０２、雑音検出手段Ｂ１０３、雑音振幅スペクトル推定手段１０４、雑音スペクトル減算手段１０５、周波数スペクトル逆変換手段１０６等として、又はその一部として機能する。

ＨＤＤ１１２は、プログラムやデータを格納している不揮発性の記憶装置である。格納されるプログラムやデータには、処理装置１００全体を制御する基本ソフトウェアであるＯＳ（Operating System）、及びＯＳ上において各種機能を提供するアプリケーションソフトウェア等がある。また、ＨＤＤ１１２は、後述する振幅スペクトル記憶手段、雑音振幅スペクトル記憶手段等として機能する。

ＲＯＭ１１３は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ（記憶装置）である。ＲＯＭ１１３には、処理装置１００の起動時に実行されるＢＩＯＳ（Basic Input/Output System）、ＯＳ設定、及びネットワーク設定等のプログラムやデータが格納されている。ＲＡＭ１１４は、プログラムやデータを一時保持する揮発性の半導体メモリ（記憶装置）である。

ネットワークＩ／Ｆ部１１５は、有線及び／又は無線回線などのデータ伝送路により構築されたＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）などのネットワークを介して接続される通信機能を有する周辺機器と処理装置１００とのインタフェースである。

記録媒体Ｉ／Ｆ部１１６は、記録媒体とのインタフェースである。処理装置１００は記録媒体Ｉ／Ｆ１１６を介して、記録媒体１１７の読み取り及び／又は書き込みを行うことができる。記録媒体１１７にはフレキシブルディスク、ＣＤ、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（SD Memory card）、ＵＳＢメモリ（Universal Serial Bus memory）等がある。

＜処理装置における音声処理について＞
次に、処理装置１００の各部で行われる音声処理について詳細に説明する。

≪入力音声信号からの雑音検出≫
雑音検出手段Ａ１０２は、例えば入力される音声信号のパワー変動の大きさを基準にして、入力音声信号に雑音が含まれているか否かを検出する。この場合には、雑音検出手段Ａ１０２は、フレームごとに入力音声信号のパワーを計算し、雑音を検出する対象とするフレームのパワーと、雑音検出対象フレームの１つ前のフレームのパワーとの差を算出する。

時間ｔにおける入力音声信号をｘ（ｔ）としたとき、時間ｔ１〜ｔ２のフレームにおける入力音声信号のパワーｐは、以下の式（１）で求めることができる。

雑音検出対象のフレームのパワーをｐ_ｋ、雑音検出対象のフレームの１つ前のフレームのパワーをｐ_ｋ−１とすると、パワー変動は以下の式（２）で求めることができる。

雑音検出手段Ａ１０２は、例えば式（２）により求められるパワー変動Δｐ_ｋと、予め設定される閾値とを比較し、雑音検出対象のフレームの音声信号における雑音の有無を判定し、判定結果を示す検出情報Ａを出力する。

また、雑音検出手段Ａ１０２は、例えば線形予測誤差の大きさを基準にして、入力音声信号に雑音が含まれているか否かを検出できる。この場合には、雑音検出手段Ａ１０２は、検出対象とするフレームの線形予測誤差を以下に基づいて算出する。

例えば、フレームごとの入力音声信号の値ｘを以下の様に表す。

…, x_k-1, x_k, x_k+1, …
このとき、ある区間の音声信号の値ｘ_ｋ＋１を当該フレームの前までの値ｘ_１〜ｘ_ｋを用いて以下の式により予測する際に、最適となる線形予測係数ａ_ｎ（ｎ＝０〜Ｎ−１）を求める。

x^{^} _k+1 = a₀ x_k + a₁ x_k-1 + a₂ x_k-2 + ・・・ + a_N-1 x_k-(N-1)
次に、上式で予測される予測値ｘ^{^} _ｋ＋１と、実際の値ｘ_ｋ＋１との差として以下の式により求められる値が、線形予測誤差ｅ_ｋ＋１となる。

e_k+1=x^{^} _k+1-x_k+1
この誤差は予測と実測とのずれを示すことから、雑音検出手段Ａ１０２は、例えば線形予測誤差ｅ_ｋ＋１と、予め設定される閾値とを比較し、検出対象とするフレームの音声信号における雑音の有無を判定し、判定結果を示す検出情報Ａを出力する。

≪周波数スペクトルからの雑音検出≫
雑音検出手段Ｂ１０３は、周波数スペクトル変換手段１０１から出力される周波数スペクトルに雑音が含まれているか否かを検出する。

雑音検出手段Ｂ１０３は、例えば周波数スペクトルのある周波数帯域のパワー変動の大きさを基準にして、周波数スペクトルに雑音が含まれているか否かを検出する。この場合には、雑音検出手段Ｂ１０３は、検出対象フレームの高周波帯域のスペクトルのパワーの総和を計算し、検出対象フレームの１つ前のフレームのパワーとの差を求める。

この様に、雑音検出手段Ｂ１０３は、例えば検出対象フレームと検出対象フレームの１つ前のフレームとのパワー差と予め設定される閾値とを比較し、当該検出対象フレームの音声信号における雑音の有無を判定し、判定結果を示す検出情報Ｂを出力する。

また、雑音検出手段Ｂ１０３は、検出対象とする雑音の周波数ごとの特徴量を統計モデル化したものと比較することで、周波数スペクトルに雑音が含まれているか否かを検出できる。この場合には、雑音検出手段Ｂ１０３は、例えばメル周波数ケプストラム係数（ＭＦＣＣ）と雑音モデルを用いて雑音の検出を行うことができる。

ＭＦＣＣは、人間の聴覚の性質を取り入れた特徴量であり、音声認識等でよく扱われる。ＭＦＣＣの計算過程は、ＦＦＴによって得られる周波数スペクトルに対して、（１）絶対値を取る、（２）メル尺度（人間の聴覚に応じた音の高さの尺度）上で等間隔なフィルタバンクにかけて、各帯域のスペクトルの和を求める、（３）対数をとる、（４）離散コサイン変換（ＤＣＴ）を行う、（５）低次成分を取り出す、というものである。

雑音モデルとは、雑音の特徴をモデル化したものである。例えば、ガウス混合モデル（ＧＭＭ）等で雑音の特徴はモデル化され、そのパラメータは予め収集された雑音データベースから抽出した特徴量（例えばＭＦＣＣ）を用いて推定される。ＧＭＭの場合には、各多次元ガウス分布の重み、平均や共分散等がモデルパラメータとなる。

雑音検出手段Ｂ１０３は、入力周波数スペクトルのＭＦＣＣを抽出し、雑音モデルに対する尤度を算出する。尤度は、そのモデルに対する尤もらしさを示すものであり、この場合、尤度が高いほど入力音声信号が雑音である可能性が高いということになる。

雑音検出手段Ｂ１０３による尤度Ｌは、ＧＭＭに対して行う場合には以下の式（３）によって求めることができる。

ここで、ｘはＭＦＣＣのベクトル、Ｗ_ｋはｋ番目の分布の重み、Ｎ_ｋはｋ番目の多次元ガウス分布を表している。雑音検出手段Ｂ１０３は、上式（３）により尤度Ｌを求め、例えば尤度Ｌが予め設定される閾値よりも大きい場合に、検出対象とするフレームの音声信号には雑音が含まれていると判定し、判定結果を示す検出情報Ｂを出力する。

なお、本実施形態に係る処理装置１００では、雑音検出手段Ａ１０２及び雑音検出手段Ｂ１０３によって雑音の検出を行っているが、雑音の検出は何れか一方だけでも良く、さらに複数の雑音検出手段を設けても良い。

≪雑音振幅スペクトルの推定≫
次に、雑音振幅スペクトル推定手段１０４による雑音振幅スペクトルの推定方法について説明する。

図４は、第１の実施形態における雑音振幅スペクトル推定手段１０４の機能構成を例示する図である。

図４に示す様に、雑音振幅スペクトル推定手段１０４は、振幅スペクトル算出手段４１、決定手段４２、記憶制御手段Ａ４３、記憶制御手段Ｂ４４、振幅スペクトル記憶手段４５、雑音振幅スペクトル記憶手段４６、雑音振幅スペクトル推定手段Ａ４７ａ、雑音振幅スペクトル推定手段Ｂ４７ｂ等を有する。

振幅スペクトル算出手段４１は、周波数スペクトル変換手段１０１によって入力音声信号が変換された周波数スペクトルから、振幅スペクトルを算出して出力する。振幅スペクトル算出手段４１は、例えばある周波数の周波数スペクトルＸ（複素数）に対し、振幅スペクトルＡを以下の式（４）により算出できる。

決定手段４２は、雑音検出手段Ａ１０２による検出情報Ａと、雑音検出手段Ｂ１０３による検出情報Ｂとが入力され、検出情報Ａ及び検出情報Ｂに基づいて、雑音振幅スペクトル推定手段Ａ４７ａに実行信号１又は雑音振幅スペクトル推定手段４７ｂに実行信号２を出力する。

雑音振幅スペクトル推定手段Ａ４７ａ又は雑音振幅スペクトル推定手段Ｂ４７ｂは、決定手段４２から出力される実行信号１又は２に応じて、振幅スペクトル算出手段４１によって算出される振幅スペクトルから雑音振幅スペクトルの推定を行う。

（雑音振幅スペクトル推定手段Ａによる雑音振幅スペクトルの推定）
雑音振幅スペクトル推定手段Ａ４７ａは、決定手段４２から出力される実行信号１を受信した時に、雑音振幅スペクトルの推定を行う。

雑音振幅スペクトル推定手段Ａ４７ａは、決定手段４２から実行信号１を受信すると、振幅スペクトル算出手段４１から現在処理が行われているフレーム（以下、現在フレームという）の振幅スペクトルと、振幅スペクトル記憶手段４５に記憶されている過去の振幅スペクトルとを取得する。次に、雑音振幅スペクトル推定手段Ａ４７ａは、現在フレームの振幅スペクトルと、過去の振幅スペクトルとの差分により、雑音振幅スペクトルの推定を行う。

雑音振幅スペクトル推定手段Ａ４７ａは、例えば現在フレームの振幅スペクトルと、直近の雑音が発生したフレームの１つ前のフレームの振幅スペクトルの差分を求めることで、雑音振幅スペクトルを推定できる。また、雑音振幅スペクトル推定手段Ａ４７ａは、例えば現在フレームの振幅スペクトルと、直近の雑音が発生したフレームの直前の複数のフレームの振幅スペクトルの平均との差分を求めることで、雑音振幅スペクトルを推定しても良い。

ここで、振幅スペクトル記憶手段４５には、記憶領域を削減するために、雑音振幅スペクトルＡ４７ａによる推定に用いられる振幅スペクトルのみを記憶させることが好ましい。

そこで、記憶制御手段Ａ４３が、振幅スペクトル記憶手段４５に記憶させる振幅スペクトルの制御を行う。例えば、記憶制御手段Ａ４３に、１つ又は複数のフレームの振幅スペクトルを一時的に記憶するバッファを設ける。記憶制御手段Ａ４３は、現在フレームに雑音が検出された場合に、バッファに記憶している振幅スペクトルを振幅スペクトル記憶手段４５に上書きして記憶させる様に制御することで、振幅スペクトル記憶手段４５が使用する記憶領域を低減できる。

（雑音振幅スペクトル推定手段Ｂによる雑音振幅スペクトルの推定）
雑音振幅スペクトル推定手段Ｂは、決定手段４２から実行信号２を受信すると、雑音が検出された後に推定された雑音振幅スペクトルから求められる減衰関数に基づいて、雑音の振幅スペクトルの推定を行う。

雑音振幅スペクトル推定手段Ｂは、雑音の振幅の減衰が指数関数的であると仮定して、雑音検出手段Ａ１０２又は雑音検出手段Ｂ１０３によって雑音が検出された直後の複数のフレームで推定された雑音の振幅に近似する関数を求める。

図５は、雑音検出後の３つのフレームの振幅Ａ１，Ａ２，Ａ３の値を、横軸に時間ｔ、縦軸に雑音の振幅Ａの対数で表されるグラフにプロットした例である。

雑音振幅スペクトル推定手段Ｂは、まず、雑音発生以降の複数のフレームの振幅Ａ１，Ａ２，Ａ３に対する近似一次関数の傾きを、以下の式（５）により求める。

雑音の振幅Ａは、フレームごとに上式（５）で示される傾きａに従って減衰していくことになるので、雑音検出後のｍ番目のフレームの雑音の振幅Ａ_ｍは、以下の式（６）で求めることができる。

この様に、雑音振幅スペクトル推定手段Ｂは、雑音検出後の複数のフレームの雑音振幅スペクトルから求められる減衰関数に基づいて、雑音の振幅スペクトルを推定することができる。

なお、式（６）で示される減衰関数は、雑音検出手段Ａ１０２又は雑音検出手段Ｂ１０３によって雑音が検出された直近のフレーム以後の複数のフレームの振幅から求めることが好ましく、減衰関数を求めるフレームの数は適宜設定することができる。また、減衰関数を指数関数と仮定したが、線形関数等の他の関数として求めても良い。

さらに、式（６）による推定に用いられる、現在フレームよりも前のフレームの雑音の振幅は、雑音が検出された後であって現在フレームの１つ前のフレームにおける雑音の振幅を用いることが好ましい。

雑音振幅スペクトル推定手段Ｂは、決定手段４２から実行信号２を受信すると、雑音振幅スペクトル記憶手段４６から、上記した方法により現在フレームの雑音振幅スペクトルを求めるために必要となる過去に推定された雑音振幅スペクトルを取得する。

雑音振幅スペクトル記憶手段４６には、雑音振幅スペクトル推定手段Ａ４７ａ又は雑音振幅スペクトル推定手段Ａ４７ｂによって推定された雑音振幅スペクトルが記憶される。ここで、雑音振幅スペクトル記憶手段４６には、記憶領域を低減するために、雑音振幅スペクトル推定手段Ｂ４７ｂによる雑音振幅スペクトルの推定に用いられる雑音振幅スペクトルのみを記憶させることが好ましい。雑音振幅スペクトル推定手段Ｂ４７ｂによる雑音振幅スペクトルの推定に用いられる雑音振幅スペクトルは、上記した様に、雑音検出後の複数のフレームの雑音振幅スペクトルと、現在フレームの１つ前のフレームの雑音振幅スペクトルである。

そこで、記憶制御手段Ｂが、減衰関数を求めるために必要となる雑音振幅スペクトルと、現在フレームの雑音振幅スペクトルを求めるために必要となる雑音振幅スペクトルのみを、雑音振幅スペクトル記憶手段４６に記憶させる様に制御する。

例えば、雑音振幅スペクトル記憶手段４６には、雑音が検出された後の複数（例えば３つ）のフレームの雑音振幅スペクトルと、現在フレームの１つ前のフレームの雑音振幅スペクトルとを記憶する領域を設ける。記憶制御手段Ｂは、雑音が検出された後の経過時間に応じて、雑音振幅スペクトル推定手段Ａ４７ａによって推定される雑音振幅スペクトルを、雑音振幅スペクトル記憶手段４６の各記憶領域に上書きして保存させる様に制御する。この様な制御により、雑音振幅スペクトル記憶手段４６が使用する記憶領域を低減できる。

以上で説明した様に、雑音振幅スペクトル推定手段１０４は、決定手段４２が出力する実行信号に基づいて、雑音振幅スペクトル推定手段Ａ４７ａ及び雑音振幅スペクトル推定手段Ｂ４７ｂの何れかが雑音振幅スペクトルの推定を行う。

（雑音振幅スペクトル推定手段による雑音振幅スペクトルの推定処理）
図６は、第１の実施形態における雑音振幅スペクトル推定手段１０４の雑音振幅スペクトルの推定処理のフローチャートを例示する図である。

雑音振幅スペクトル推定手段１０４に、周波数スペクトル変換手段１０１から周波数スペクトルが入力されると、まずステップＳ１にて、振幅スペクトル算出手段４１が周波数スペクトルから振幅スペクトルを算出する。次にステップＳ２にて、雑音検出手段Ａ１０２又は雑音検出手段Ｂ１０３によって入力音に雑音が検出されたか否かを、検出情報Ａ及び検出情報Ｂから判断する。

入力された音声信号のフレームに雑音が含まれていた場合（ステップＳ２：Ｙｅｓ）には、ステップＳ３にて、記憶制御手段Ａ４３が、バッファに一時記憶していた振幅スペクトルを振幅スペクトル記憶手段４５に記憶させる。

次に、ステップＳ４にて、決定手段４２が実行信号１を出力し、ステップＳ５にて、雑音振幅スペクトル推定手段Ａが、雑音の振幅スペクトルの推定を行う。その後、ステップＳ６にて、記憶制御手段Ｂが、雑音振幅スペクトル推定手段Ａによって推定された雑音振幅スペクトルを、雑音振幅スペクトル記憶手段４６の雑音検出後の経過時間に応じた記憶領域に上書きして記憶させて処理を終了する。

入力された音声信号のフレームに雑音が含まれていなかった場合（ステップＳ２：Ｎｏ）には、ステップＳ７にて、現在処理を行っているフレームが、雑音が検出されてからｎフレーム以内であるか否かを判断する。現在処理を行っているフレームが、雑音検出後ｎフレーム以内である場合には、ステップＳ４からステップＳ６の処理により、雑音振幅スペクトル推定手段Ａ４７ａが雑音振幅スペクトルを推定し、処理を終了する。

ステップＳ７にて、現在処理を行っているフレームが、雑音検出後ｎフレーム以内でない場合には、ステップＳ８にて、決定手段４２が実行信号２を出力する。次に、ステップＳ９にて、雑音振幅スペクトル推定手段Ｂが雑音振幅スペクトルを推定する。その後、ステップＳ６にて、記憶制御手段Ｂ４４が、雑音振幅スペクトル推定手段Ｂによって推定された雑音振幅スペクトルを、雑音振幅スペクトル記憶手段４６に記憶させて、処理を終了する。

この様に、雑音振幅スペクトル推定手段１０４は、異なる方法により雑音の振幅スペクトルを推定する雑音振幅スペクトル推定手段Ａ４７ａと、雑音振幅スペクトル推定手段Ｂ４７ｂとの何れかにより、入力音に含まれる雑音の振幅スペクトルを推定する。雑音振幅スペクトル推定手段１０４は、異なる方法で雑音の振幅スペクトルを推定する手段を備えることで、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを推定することが可能となる。

なお、図７に示す様に、雑音振幅スペクトル推定手段１０４は、異なる方法で雑音振幅スペクトルを推定する複数の雑音振幅スペクトル推定手段Ａ〜Ｎを設け、決定手段４２が、検出情報Ａ及び検出情報Ｂに基づいて雑音振幅スペクトルを推定する雑音振幅スペクトル推定手段を適宜選択する様に構成しても良い。

雑音振幅スペクトル推定手段Ａ〜Ｎによる雑音振幅スペクトルの推定方法としては、例えば、現在フレームの振幅スペクトルと、雑音検出前の複数の振幅スペクトルの平均との差分により雑音振幅スペクトルを推定する方法を用いることができる。また、例えば雑音の発生以降に推定された雑音振幅スペクトルから求められる減衰関数を線形関数等として、雑音振幅スペクトルを求める方法を用いることができる。

この場合には、決定手段４２は、例えば検出情報Ａに含まれる雑音検出手段Ａ１０２によって求められるパワー変動や線形予測誤差の大きさ、又は検出情報Ｂに含まれる雑音検出手段Ｂ１０３によって求められる尤度に応じて、雑音振幅スペクトルを推定する方法を適宜選択して実行信号１〜Ｎを出力する様に設定する。

≪雑音スペクトルの減算≫
処理装置１００の雑音スペクトル減算手段１０５には、周波数スペクトル変換手段１０１によって変換される周波数スペクトルから、雑音振幅スペクトル推定手段１０４によって推定された雑音振幅スペクトルから求められる雑音の周波数スペクトルを減算処理し、雑音低減周波数スペクトルを出力する。

周波数スペクトルをＸ、推定された雑音の周波数スペクトルをＤ（ハット）とすると、音声の周波数スペクトルＳ（ハット）は、以下の式（７）により求めることができる。

上式（７）において、ｌはフレームの番号、ｋはスペクトルの番号を表している。

この様に、雑音スペクトル減算手段１０５は、周波数スペクトルから雑音周波数スペクトルを減算処理することで雑音低減周波数スペクトルを算出し、周波数スペクトル逆変換手段１０６に出力する。

以上で説明した様に、第１の実施形態に係る処理装置１００は、異なる方法で雑音振幅スペクトルを推定する手段を複数備え、入力音の雑音検出結果に基づいて適した雑音振幅スペクトル推定手段を選択して雑音振幅スペクトルの推定を行う。したがって、処理装置１００は、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを精度良く推定し、入力音から雑音が低減された音声信号を出力することが可能である。

なお、第１の実施形態に係る処理装置１００は、例えばビデオカメラ、デジタルカメラ、ＩＣレコーダ、携帯電話、会議端末等、入力された音声を録音、又は他の装置に送信する電子機器等に適用できる。

[第２の実施形態]
次に、第２の実施形態について図面に基づいて説明する。なお、既に説明した実施形態と同一構成部分についての説明は省略する。

＜処理システムの機能構成＞
図８は、第２の実施形態に係る処理システム３００の機能構成を例示するブロック図である。図８に示す様に、処理システム３００は、ネットワーク４００を介して接続する処理装置１００，２００により構成されている。

処理装置１００は、周波数スペクトル変換手段１０１、雑音検出手段Ａ１０２、雑音検出手段Ｂ１０３、雑音振幅スペクトル推定手段１０４、雑音スペクトル減算手段１０５、周波数スペクトル逆変換手段１０６、音声入出力手段１０７、送受信手段１０８等を有する。

音声入出力手段１０７は、例えば処理装置１００の周囲の音声等を集音して音声信号を生成し、また、入力される音声信号に基づいて音声等を出力する。

送受信手段１０８は、処理装置１００によって雑音が低減された音声信号等のデータを、ネットワーク４００を介して接続する他の装置等に送信する。また、ネットワーク４００を介して接続する他の装置等から、音声信号等のデータを受信する。

処理装置１００は、第１の実施形態において説明した様に、異なる方法で雑音振幅スペクトルを推定する手段を複数備え、入力音の雑音検出結果に基づいて適した雑音振幅スペクトル推定手段を選択して雑音振幅スペクトルの推定を行う。したがって、処理装置１００は、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを精度良く推定し、入力音から雑音が低減された音声信号を出力することが可能である。

また、処理装置１００にネットワーク４００を介して接続する処理装置２００は、音声入出力手段２０１、送受信手段２０２等を有する。

音声入出力手段２０１は、例えば処理装置２００の周囲の音声等を集音して音声信号を生成し、また、入力される音声信号に基づいて音声等を出力する。

送受信手段２０２は、例えば音声入出力手段２０１によって取得された音声信号等のデータをネットワーク４００を介して接続する他の装置等に送信し、ネットワーク４００を介して接続する他の装置等から送信される音声信号等のデータを受信する。

＜処理システムのハードウェア構成＞
図９は、第２の実施形態に係る処理システム３００のハードウェア構成を例示する図である。

処理装置１００は、コントローラ１１０、ネットワークＩ／Ｆ部１１５、記録媒体Ｉ／Ｆ部１１６、音声入出力装置１１８等を有し、コントローラ１１０は、ＣＰＵ１１１、ＨＤＤ１１２、ＲＯＭ１１３、ＲＡＭ１１４等を有する。

音声入出力装置１１８は、例えば処理装置１００の周囲の音声等を集音して音声信号を生成するマイクロホン、音声信号を外部に出力するスピーカ等である。

また、処理装置２００は、ＣＰＵ２０１、ＨＤＤ２０２、ＲＯＭ２０３、ＲＡＭ２０４、ネットワークＩ／Ｆ部２０５、音声入出力装置２０６等を有する。

ＣＰＵ２０１は、ＨＤＤ２０２やＲＯＭ２０３等の記憶装置からプログラムやデータをＲＡＭ２０４上に読み出して処理を実行することで、処理装置２００が備える各機能を実現する演算装置である。

ＨＤＤ２０２は、プログラムやデータを格納している不揮発性の記憶装置である。格納されるプログラムやデータには、処理装置２００全体を制御する基本ソフトウェアであるＯＳ（Operating System）、及びＯＳ上において各種機能を提供するアプリケーションソフトウェア等がある。また、ＨＤＤ２０２は、後述する振幅スペクトル記憶手段、雑音振幅スペクトル記憶手段等として機能する。

ＲＯＭ２０３は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ（記憶装置）である。ＲＯＭ２０３には、処理装置２００の起動時に実行されるＢＩＯＳ（Basic Input/Output System）、ＯＳ設定、及びネットワーク設定等のプログラムやデータが格納されている。ＲＡＭ２０４は、プログラムやデータを一時保持する揮発性の半導体メモリ（記憶装置）である。

ネットワークＩ／Ｆ部２０５は、有線及び／又は無線回線などのデータ伝送路により構築されたＬＡＮ（Local Area Network）、ＷＡＮ（Wide Area Network）などのネットワーク４００を介して接続される通信機能を有する周辺機器と処理装置２００とのインタフェースである。

音声入出力装置２０６は、例えば処理装置２００の周囲の音声等を集音して音声信号を生成するマイクロホン、音声信号を外部に出力するスピーカ等である。

処理システム３００において、例えば処理装置１００は、入力される処理装置１００のユーザが発した音声を含む信号から、雑音を低減した音声信号を生成し、送受信手段１０８から処理装置２００に送信できる。処理装置２００は、処理装置１００から送信される雑音が低減された音声信号を送受信手段２０２により受信し、音声入出力手段２０１から外部に出力する。したがって、処理装置２００のユーザは、処理装置１００から雑音が低減された音声信号を受信するため、処理装置１００のユーザが発する音声を明瞭に聴き取ることが可能になる。

また、例えば処理装置２００は、処理装置２００のユーザが発する音声を含む音信号を処理装置２００の音声入出力手段２０１によって取得し、送受信手段２０２から処理装置１００に送信できる。この場合において、処理装置１００は、送受信手段１０８が受信した音声信号に対して、雑音振幅スペクトルの推定等を行うことで受信した音声信号から雑音を低減し、音声入出力手段１０７から出力することができる。したがって、処理装置１００のユーザは、処理装置１００が受信した音声信号から雑音を低減して出力することにより、処理装置２００のユーザが発する音声を明瞭に聴き取ることが可能になる。

上記した様に、第２の実施形態に係る処理システム３００によれば、例えば処理装置１００の音声入出力手段１０７に入力される音声や、送受信手段１０８が受信する音声信号等から、推定される雑音振幅スペクトルに基づいて雑音を低減した音声信号を生成できる。したがって、ネットワーク４００を介して接続する処理装置１００及び処理装置２００のユーザ間で、雑音が低減された明瞭な音声による会話及び録音等が可能になる。

なお、処理システム３００を構成する処理装置の数等は、本実施形態の例に限るものではなく、さらに多数の処理装置を設けて構成することができる。また、第２の実施形態に係る処理システム３００は、例えば複数のＰＣ、ＰＤＡ、携帯電話、会議端末等の間で音声等の送受信を行うシステムに適用できる。

[第３の実施形態]
次に、第３の実施形態について図面に基づいて説明する。なお、既に説明した実施形態と同一構成部分についての説明は省略する。

＜処理装置の機能構成＞
図１０は、第３の実施形態に係る処理装置１００の機能構成を例示するブロック図である。

図１０に示す様に、処理装置１００は、入力端子、周波数スペクトル変換手段１０１、雑音検出手段Ａ１０２、雑音検出手段Ｂ１０３、雑音振幅スペクトル推定手段１０４、雑音スペクトル減算手段１０５、周波数スペクトル逆変換手段１０６、低減強度調節手段１０９、出力端子を有する。

低減強度調節手段１０９は、ユーザからの入力情報に基づいて雑音振幅スペクトル推定手段１０４に低減強度調節信号を出力し、処理装置１００に入力される入力音声信号から雑音を低減するレベルを調節する。

＜処理装置のハードウェア構成＞
図１１は、処理装置１００のハードウェア構成を例示する図である。

図１１に示す様に、処理装置１００は、コントローラ１１０、ネットワークＩ／Ｆ部１１５、記録媒体Ｉ／Ｆ部１１６、操作パネル１１９、入力端子、出力端子等を有し、コントローラ１１０は、ＣＰＵ１１１、ＨＤＤ（Hard Disk Drive）１１２、ＲＯＭ（Read Only Memory）１１３、ＲＡＭ（Read and Memory）１１４等を有する。

操作パネル１１９は、ユーザ操作を受け付けるためのボタン等の入力手段や、タッチパネル機能を有する液晶パネル等の操作画面２５１等を備えるハードウェアである。操作パネル１１９には、処理装置１００に入力される入力音声信号から雑音を低減するレベル等が選択可能に表示される。低減強度調節手段１０９は、ユーザから操作パネル１１９に入力される情報に基づいて、低減強度調節信号を出力する。

＜雑音振幅スペクトル推定手段の機能構成＞
図１２は、第３の実施形態における雑音振幅スペクトル推定手段１０４の機能構成を例示する図である。

図１２に示す様に、雑音振幅スペクトル推定手段１０４は、振幅スペクトル算出手段４１、決定手段４２、記憶制御手段Ａ４３、記憶制御手段Ｂ４４、振幅スペクトル記憶手段４５、雑音振幅スペクトル記憶手段４６、雑音振幅スペクトル推定手段Ａ４７ａ、雑音振幅スペクトル推定手段Ｂ４７ｂ、減衰調節手段４８、振幅調節手段４９を有する。

減衰調節手段４８は、雑音調節手段の一例であり、低減強度調節手段１０９から出力される低減強度調節信号に基づいて、減衰調節信号を雑音振幅スペクトル推定手段Ｂ４７ｂに出力する。

第３の実施形態における雑音振幅スペクトル推定手段Ｂは、第１の実施形態と同様に、雑音発生以降の複数のフレームの振幅に対する近似一次関数の傾きａを、上記式（５）により求める。次に、雑音振幅スペクトル推定手段Ｂは、雑音検出後のｍ番目のフレームの雑音の振幅Ａ_ｍを、以下の式（８）により求める。

ここで、式（８）における係数ｇは、減衰調節手段４８に低減強度調節手段１０９から入力される低減強度調節信号に応じて決定される値である。

入力音声信号から雑音を低減する場合には、例えば操作パネル１１９に雑音を低減するレベルが異なる雑音低減強度１〜３を表示してユーザに選択させ、低減強度調節手段１０９は選択された雑音低減強度を低減強度調節信号として減衰調節手段４８に出力する。減衰調節手段４８は、低減強度調節手段１０９から出力される低減強度調節信号に応じて、例えば以下に示す表１に従って減衰調節信号を決定し、雑音振幅スペクトル推定手段Ｂに減衰調節信号を送信する。

表１に示す例では、雑音低減強度が大きいほど係数ｇが小さく、式（８）に従って雑音振幅スペクトル推定手段Ｂにより推定される雑音振幅スペクトルが大きくなるため、入力音声信号から雑音が大きく低減されることとなる。また、雑音低減強度が小さいほど係数ｇが大きく、式（８）に従って雑音振幅スペクトル推定手段Ｂにより推定される雑音振幅スペクトルが小さくなるため、入力音声信号から低減される雑音は小さくなる。

また、振幅調節手段４９は、雑音調節手段の一例であり、低減強度調節手段１０９から出力される低減強度調節信号に基づいて、雑音振幅スペクトル推定手段Ａ又は雑音振幅スペクトル推定手段Ｂにより求められる推定雑音振幅スペクトルＡ_ｍの大きさを、以下の式（９）により調節する。

ここで式（９）における係数Ｇは、低減強度調節手段１０９から出力される低減強度調節信号に応じて、例えば以下に示す表２に従って決定される値である。

振幅調節手段４９は、低減強度調節信号に応じてＧの値を決定し、上式（９）により求められる推定雑音振幅スペクトルＡ_ｍ'を出力する。表２に示す例では、雑音低減強度が小さい場合には、Ｇの値が小さいため出力される推定雑音振幅スペクトルＡ_ｍ'は小さくなる。また、雑音低減強度が大きい場合には、Ｇの値が大きいため出力される推定雑音振幅スペクトルＡ_ｍ'も大きくなる。なお、Ｇの値は算出する振幅スペクトルの周波数ごとに異なる値を設定しても良い。

この様に、処理装置１００では、低減強度調節手段１０９から出力される低減強度調節信号に応じて、雑音振幅スペクトル推定手段１０４が推定雑音振幅スペクトルＡｍの強度をコントロールし、入力音声信号から雑音を低減するレベルを調節することができる。

（雑音振幅スペクトル推定手段による雑音振幅スペクトルの推定処理）
図１３は、第３の実施形態における雑音振幅スペクトル推定手段１０４の雑音振幅スペクトルの推定処理のフローチャートを例示する図である。

雑音振幅スペクトル推定手段１０４に、周波数スペクトル変換手段１０１から周波数スペクトルが入力されると、まずステップＳ１１にて、振幅スペクトル算出手段４１が周波数スペクトルから振幅スペクトルを算出する。次にステップＳ１２にて、雑音検出手段Ａ１０２又は雑音検出手段Ｂ１０３によって入力音に雑音が検出されたか否かを、検出情報Ａ及び検出情報Ｂから判断する。

入力された音声信号のフレームに雑音が含まれていた場合（ステップＳ１２：Ｙｅｓ）には、ステップＳ１３にて、記憶制御手段Ａ４３が、バッファに一時記憶していた振幅スペクトルを振幅スペクトル記憶手段４５に記憶させる。

次に、ステップＳ１４にて、決定手段４２が実行信号１を出力し、ステップＳ１５にて、雑音振幅スペクトル推定手段Ａが、雑音の振幅スペクトルの推定を行う。その後、ステップＳ１６にて、振幅調節手段４９が低減強度調節手段１０９から出力される低減強度調節信号に応じて、上式（９）によって求められる推定雑音振幅スペクトルを算出する。

続いてステップＳ１７にて、記憶制御手段Ｂが、振幅調節手段４９により算出された推定雑音振幅スペクトルを、雑音振幅スペクトル記憶手段４６の雑音検出後の経過時間に応じた記憶領域に上書きして記憶させた後、処理を終了する。

入力された音声信号のフレームに雑音が含まれていなかった場合（ステップＳ１２：Ｎｏ）には、ステップＳ１８にて、現在処理を行っているフレームが、雑音が検出されてからｎフレーム以内であるか否かを判断する。現在処理を行っているフレームが、雑音検出後ｎフレーム以内である場合には、ステップＳ１４及びステップＳ１５の処理により、雑音振幅スペクトル推定手段Ａ４７ａが雑音振幅スペクトルを推定する。

ステップＳ１８にて、現在処理を行っているフレームが、雑音検出後ｎフレーム以内でない場合には、ステップＳ１９にて、決定手段４２が実行信号２を出力する。次に、ステップＳ２０にて、減衰調節手段４８が減衰調節信号を生成し、雑音振幅スペクトル推定手段Ｂに出力する。続いてステップＳ２１にて、雑音振幅スペクトル推定手段Ｂが上式（８）により雑音振幅スペクトルを推定する。

その後、ステップＳ１６にて、振幅調節手段４９が低減強度調節手段１０９から出力される低減強度調節信号に応じて、上式（９）によって求められる推定雑音振幅スペクトルを算出する。ステップＳ１７にて、記憶制御手段Ｂ４４が、雑音振幅スペクトル推定手段Ｂによって推定された雑音振幅スペクトルを、雑音振幅スペクトル記憶手段４６に記憶させて、処理を終了する。

また、処理装置１００は低減強度調節手段１０９を有し、入力音から推定する雑音振幅スペクトルの強度を調節し、入力音声信号から雑音を低減するレベルを変更することができる。したがって、ユーザは状況に応じて雑音低減レベルを適宜変更し、原音を忠実に再現したい場合には雑音低減レベルを下げ、原音から雑音を出来るだけ低減したい場合には雑音低減レベルを上げるといった設定が可能になる。

なお、図１４に示す様に、雑音振幅スペクトル推定手段１０４に、異なる方法で雑音振幅スペクトルを推定する複数の雑音振幅スペクトル推定手段Ａ〜Ｎ、減衰調節手段Ａ〜Ｎを設けても良い。この場合には、雑音振幅スペクトル推定手段Ａ〜Ｎは、それぞれ減衰調節手段Ａ〜Ｎから出力される減衰調節信号Ａ〜Ｎに従って、雑音振幅スペクトルの推定を行う。また、振幅調節手段４９が、雑音振幅スペクトル推定手段Ａ〜Ｎにより推定される雑音振幅スペクトルを、低減強度調節信号に従って調節する。

[第４の実施形態]
次に、第４の実施形態について図面に基づいて説明する。なお、既に説明した実施形態と同一構成部分についての説明は省略する。

＜処理システムの機能構成＞
図１５は、第４の実施形態に係る処理システム３００の機能構成を例示するブロック図である。図１５に示す様に、処理システム３００は、ネットワーク４００を介して接続する処理装置１００，２００により構成されている。

処理装置１００は、雑音低減手段１２０、音声入力手段１２１、音声出力手段１２２、送信手段１２３、受信手段１２４を有する。雑音低減手段１２０は、周波数スペクトル変換手段１０１、雑音検出手段Ａ１０２、雑音検出手段Ｂ１０３、雑音振幅スペクトル推定手段１０４、雑音スペクトル減算手段１０５、周波数スペクトル逆変換手段１０６、低減強度調節手段１０９を有する。

音声入力手段１２１は、例えば処理装置１００の周囲の音声等を集音して音声信号を生成して雑音低減手段１２０に出力する。また、音声出力手段１２２は、雑音低減手段１２０から入力される音声信号に基づいて音声等を外部に出力する。

送信手段１２３は、雑音低減手段１２０によって雑音が低減された音声信号等のデータを、ネットワーク４００を介して接続する他の装置等に送信する。また、受信手段１２４は、ネットワーク４００を介して接続する他の装置等から、音声信号等のデータを受信する。

雑音低減手段１２０は、音声入力手段１２１に入力される音声信号から雑音を低減した音声信号を送信手段に出力する。また、雑音低減手段１２０は、受信手段１２４が受信する音声信号から雑音を低減した音声信号を音声出力手段１２２に出力する。

処理装置１００は、雑音低減手段１２０が異なる方法で雑音振幅スペクトルを推定する手段を複数備え、入力音の雑音検出結果に基づいて適した雑音振幅スペクトル推定手段を選択して雑音振幅スペクトルの推定を行う。したがって、処理装置１００は、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを精度良く推定し、入力音から雑音が低減された音声信号を出力することが可能である。

また、処理装置１００は、雑音低減手段１２０の低減強度調節手段１０９により、入力又は受信される音声信号から雑音を低減するレベルを調節することが可能である。したがって、ユーザは使用状況に応じて雑音低減レベルを適宜設定して使用することができる。

処理装置１００にネットワーク４００を介して接続する処理装置２００は、受信手段２０３、送信手段２０４、音声出力手段２０５、音声入力手段２０６を有する。

受信手段２０３は、ネットワーク４００を介して接続する他の装置等から送信される音声信号を受信して音声出力手段２０５に出力する。送信手段２０４は、音声入力手段２０６に入力される音声信号をネットワーク４００を介して接続する他の装置等に送信する。

音声出力手段２０５は、受信手段２０３が受信する音声信号を外部に出力する。また、音声入力手段２０６は、例えば処理装置２００の周囲の音声等を集音して音声信号を生成し、送信手段２０４に出力する。

＜処理システムのハードウェア構成＞
図１６は、第４の実施形態に係る処理システム３００のハードウェア構成を例示する図である。

処理装置１００は、コントローラ１１０、ネットワークＩ／Ｆ部１１５、記録媒体Ｉ／Ｆ部１１６、音声入出力装置１１８、操作パネル１１９等を有し、コントローラ１１０は、ＣＰＵ１１１、ＨＤＤ１１２、ＲＯＭ１１３、ＲＡＭ１１４等を有する。

第４の実施形態に係る処理システム３００によれば、例えば処理装置１００が入力される音声信号から雑音を低減して処理装置２００に送信することで、処理装置２００のユーザは、処理装置１００から入力される音声を明瞭に聴き取ることが可能になる。また、処理装置１００は、処理装置２００から送信される音声信号から雑音を低減して出力することができ、処理装置１００のユーザは、処理装置２００から送信される音声を明瞭に聴き取ることが可能になる。したがって、ネットワーク４００を介して接続する処理装置１００及び処理装置２００のユーザ間で、雑音が低減された明瞭な音声による会話及び録音等が可能になる。

また、処理装置１００の雑音低減手段１２０は、低減強度調節手段１０９を有し、入力される音声信号から雑音を低減するレベルを調節することができる。低減強度調節手段１０９が雑音を低減するレベルは、処理装置１００のユーザが操作パネル１１９を介して入力しても良く、処理装置２００から雑音低減処理信号を処理装置１００に送信しても良い。したがって、処理システム３００のユーザは、音声信号から雑音を低減するレベルを適宜設定することができる。

なお、処理システム３００を構成する処理装置の数等は、本実施形態の例に限るものではなく、さらに多数の処理装置を設けて構成することができる。また、第４の実施形態に係る処理システム３００は、例えば複数のＰＣ、ＰＤＡ、携帯電話、会議端末等の間で音声等の送受信を行うシステムに適用できる。

ここまで、上記実施形態に基づき本発明の説明を行ってきたが、上記各実施形態に係る処理装置１００が有する機能は、上記に説明を行った各処理手順を、上記各実施形態に係る処理装置１００にあったプログラミング言語でコード化したプログラムとしてコンピュータで実行することで実現することができる。よって、上記各実施形態に係る処理装置１００を実現するためのプログラムは、コンピュータが読み取り可能な記録媒体１１７に格納することができる。

よって、上記各実施形態に係るプログラムは、フレキシブルディスク、ＣＤ、ＤＶＤ、ＵＳＢメモリ等の記録媒体１１７に記憶させることによって、これらの記録媒体１１７から、処理装置１００にインストールすることができる。また、処理装置１００は、ネットワークＩ／Ｆ部１１５を有していることから、上記各実施形態に係るプログラムは、インターネット等の電気通信回線を介してダウンロードし、インストールすることもできる。

以上、本発明の実施形態について説明したが、上記実施形態に挙げた構成等に、その他の要素との組み合わせなど、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。

４１振幅スペクトル算出手段
４２決定手段（実行信号出力手段）
４３記憶制御手段Ａ（振幅スペクトル記憶制御手段）
４４記憶制御手段Ｂ（雑音振幅スペクトル記憶制御手段）
４５振幅スペクトル記憶手段
４６雑音振幅スペクトル記憶手段
４７ａ雑音振幅スペクトル推定手段Ａ（第１の推定手段）
４７ｂ雑音振幅スペクトル推定手段Ｂ（第２の推定手段）
４８減衰調節手段（雑音調節手段）
４９振幅調節手段（雑音調節手段）
１００処理装置（第１の処理装置）
１０２雑音検出手段Ａ（雑音検出手段）
１０３雑音検出手段Ｂ（雑音検出手段）
１０４雑音振幅スペクトル推定手段
１０７送信手段
２００処理装置（第２の処理装置）
２０２受信手段
３００処理システム

特開２０１１−２５７６４３号公報

Claims

音声信号に含まれる雑音の雑音振幅スペクトルを推定する処理装置であって、
単位時間に区切られたフレームごとに前記音声信号の振幅スペクトルを算出する振幅スペクトル算出手段と、
前記フレームにおいて検出された前記雑音の雑音振幅スペクトルを推定する雑音振幅スペクトル推定手段とを備え、
前記雑音振幅スペクトル推定手段は、
前記振幅スペクトル算出手段によって算出される振幅スペクトルと、前記雑音が検出される前のフレームにおける振幅スペクトルとの差分に基づいて、前記雑音振幅スペクトルを推定する第１の推定手段と、
前記雑音が検出された後のフレームにおける雑音振幅スペクトルから求められる減衰関数に基づいて、前記雑音振幅スペクトルを推定する第２の推定手段とを備える
ことを特徴とする処理装置。
前記フレームにおける前記雑音の有無を検出する雑音検出手段と、
前記雑音検出手段によって前記雑音が検出された後の経過時間に基づいて、前記第１の推定手段又は前記第２の推定手段に、前記雑音振幅スペクトルの推定を実行させる実行信号を出力する実行信号出力手段と、を備える
ことを特徴とする請求項１に記載の処理装置。
前記雑音振幅スペクトル推定手段によって推定される前記雑音振幅スペクトルを記憶する雑音振幅スペクトル記憶手段と、
前記雑音検出手段によって前記雑音が検出された後に、前記雑音が検出された後の経過時間に応じて、前記雑音振幅スペクトル推定手段によって推定される前記雑音振幅スペクトルを前記雑音振幅スペクトル記憶手段に記憶させる雑音振幅スペクトル記憶制御手段とを備える
ことを特徴とする請求項２に記載の処理装置。
前記第２の推定手段によって求められる減衰関数が、指数関数であることを特徴とする請求項１から３の何れか一項に記載の処理装置。
前記振幅スペクトル算出手段により算出される前記振幅スペクトルを記憶する振幅スペクトル記憶手段と、
前記振幅スペクトル算出手段によって算出される前記振幅スペクトルを一時記憶し、前記雑音が検出された時に、一時記憶している前記振幅スペクトルを前記振幅スペクトル記憶手段に記憶させる振幅スペクトル記憶制御手段とを備える
ことを特徴とする請求項１から４の何れか一項に記載の処理装置。
前記第１の推定手段又は前記第２の推定手段により推定される前記雑音振幅スペクトルの大きさを調節する雑音調節手段を備える
ことを特徴とする請求項１から５の何れか一項に記載の処理装置。
前記雑音調節手段は、前記第１の推定手段又は前記第２の推定手段により推定される前記雑音振幅スペクトルに乗じる係数の値を変更することで、前記雑音振幅スペクトルの大きさを調節する
ことを特徴とする請求項６に記載の処理装置。
前記雑音調節手段は、前記第２の推定手段により求められる前記減衰関数の係数の値を変更することで、前記雑音振幅スペクトルの大きさを調節する
ことを特徴とする請求項６又は７に記載の処理装置。
音声信号に含まれる雑音の雑音振幅スペクトルを推定する処理方法であって、
単位時間に区切られたフレームごとに前記音声信号の振幅スペクトルを算出する振幅スペクトル算出ステップと、
前記フレームにおいて検出された前記雑音の雑音振幅スペクトルを推定する雑音振幅スペクトル推定ステップとを備え、
前記雑音振幅スペクトル推定ステップは、
前記振幅スペクトル算出ステップによって算出される振幅スペクトルと、前記雑音が検出される前のフレームにおける振幅スペクトルとの差分に基づいて、前記雑音振幅スペクトルを推定する第１の推定ステップと、
前記雑音が検出された後のフレームにおける雑音振幅スペクトルから求められる減衰関数に基づいて、前記雑音振幅スペクトルを推定する第２の推定ステップとを備える
ことを特徴とする処理方法。
請求項９に記載の処理方法をコンピュータに実行させるためのプログラム。
ネットワークを介して複数の処理装置が接続された処理システムであって、
単位時間に区切られたフレームごとに音声信号の振幅スペクトルを算出する振幅スペクトル算出手段と、
前記フレームにおいて検出された雑音の雑音振幅スペクトルを推定する雑音振幅スペクトル推定手段とを備え、
前記雑音振幅スペクトル推定手段は、
前記振幅スペクトル算出手段によって算出される振幅スペクトルと、前記雑音が検出される前のフレームにおける振幅スペクトルとの差分に基づいて、前記雑音振幅スペクトルを推定する第１の推定手段と、
前記雑音が検出された後のフレームにおける雑音振幅スペクトルから求められる減衰関数に基づいて、前記雑音振幅スペクトルを推定する第２の推定手段とを備える
ことを特徴とする処理システム。