JP2013250548A - 処理装置、処理方法、プログラム及び処理システム - Google Patents

処理装置、処理方法、プログラム及び処理システム Download PDF

Info

Publication number
JP2013250548A
JP2013250548A JP2013032959A JP2013032959A JP2013250548A JP 2013250548 A JP2013250548 A JP 2013250548A JP 2013032959 A JP2013032959 A JP 2013032959A JP 2013032959 A JP2013032959 A JP 2013032959A JP 2013250548 A JP2013250548 A JP 2013250548A
Authority
JP
Japan
Prior art keywords
noise
amplitude spectrum
unit
estimating
noise amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2013032959A
Other languages
English (en)
Other versions
JP6182895B2 (ja
Inventor
Akihito Aiba
亮人 相場
Junichi Takami
淳一 鷹見
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to JP2013032959A priority Critical patent/JP6182895B2/ja
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Priority to CA2869884A priority patent/CA2869884C/en
Priority to EP13784344.7A priority patent/EP2845190B1/en
Priority to PCT/JP2013/062305 priority patent/WO2013164981A1/en
Priority to CN201380030900.4A priority patent/CN104364845B/zh
Priority to SG11201406563YA priority patent/SG11201406563YA/en
Priority to RU2014143473/08A priority patent/RU2597487C2/ru
Priority to BR112014027494-0A priority patent/BR112014027494B1/pt
Priority to US14/391,281 priority patent/US9754606B2/en
Publication of JP2013250548A publication Critical patent/JP2013250548A/ja
Application granted granted Critical
Publication of JP6182895B2 publication Critical patent/JP6182895B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)

Abstract

【課題】雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを推定することが可能な処理装置を提供する。
【解決手段】音声信号に含まれる雑音の雑音振幅スペクトルを推定する処理装置100は、単位時間に区切られたフレームごとに前記音声信号の振幅スペクトルを算出する振幅スペクトル算出手段と、前記雑音の雑音振幅スペクトルを推定する雑音振幅スペクトル推定手段104とを備え、前記雑音振幅スペクトル推定手段104は、前記振幅スペクトル算出手段によって算出される振幅スペクトルと、前記雑音が検出される前のフレームにおける振幅スペクトルとの差分に基づいて、前記雑音振幅スペクトルを推定する第1の推定手段と、前記雑音が検出された後のフレームにおける雑音振幅スペクトルから求められる減衰関数に基づいて、前記雑音振幅スペクトルを推定する第2の推定手段とを備える。
【選択図】図1

Description

本発明は、処理装置、処理方法、プログラム及び処理システムに関する。
例えばビデオカメラ、デジタルカメラ、ICレコーダ等の音声を録音する電子機器や、ネットワークを介して接続する装置間で音声等を送受信して会議等を行う会議システムには、音声が明瞭に聴こえる様に、録音や送受信する音声から雑音を低減する技術を採用しているものがある。
入力される音声から雑音を低減する方法としては、例えば雑音混入音声を入力として、スペクトルサブトラクション法により雑音抑圧音声を出力として得る雑音抑圧装置等が知られている(例えば特許文献1参照)。
しかしながら、従来のスペクトルサブトラクション法を用いる方法では、例えば空調の音の様に定常的に発生する雑音は低減できるが、例えばパソコンのキーボードを叩く音や、机を叩く音、ボールペンをノックする音等の様に、突発的に発生する多様な種類の雑音を低減することは困難な場合がある。
本発明は上記に鑑みてなされたものであって、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを推定することが可能な処理装置を提供することを目的とする。
本発明の一態様によれば、音声信号に含まれる雑音の雑音振幅スペクトルを推定する処理装置であって、単位時間に区切られたフレームごとに前記音声信号の振幅スペクトルを算出する振幅スペクトル算出手段と、前記フレームにおいて検出された前記雑音の雑音振幅スペクトルを推定する雑音振幅スペクトル推定手段とを備え、前記雑音振幅スペクトル推定手段は、前記振幅スペクトル算出手段によって算出される振幅スペクトルと、前記雑音が検出される前のフレームにおける振幅スペクトルとの差分に基づいて、前記雑音振幅スペクトルを推定する第1の推定手段と、前記雑音が検出された後のフレームにおける雑音振幅スペクトルから求められる減衰関数に基づいて、前記雑音振幅スペクトルを推定する第2の推定手段とを備える。
本発明の実施形態によれば、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを推定することが可能な処理装置を提供できる。
第1の実施形態に係る処理装置の機能構成を例示するブロック図である。 第1の実施形態に係る処理装置に入力される音声信号を例示する図である。 第1の実施形態に係る処理装置のハードウェア構成を例示する図である。 第1の実施形態に係る処理装置の雑音振幅スペクトル推定手段の機能構成を例示するブロック図である。 第1の実施形態に係る処理装置における雑音振幅スペクトルの推定方法について説明する図である。 第1の実施形態に係る処理装置における雑音振幅スペクトルの推定処理のフローチャートを例示する図である。 第1の実施形態に係る処理装置の雑音振幅スペクトル推定手段の他の機能構成例を示すブロック図である。 第2の実施形態に係る処理システムの機能構成を例示するブロック図である。 第2の実施形態に係る処理システムのハードウェア構成を例示する図である。 第3の実施形態に係る処理装置の機能構成を例示するブロック図である。 第3の実施形態に係る処理装置のハードウェア構成を例示する図である。 第3の実施形態に係る処理装置の雑音振幅スペクトル推定手段の機能構成を例示するブロック図である。 第3の実施形態に係る処理装置における雑音振幅スペクトルの推定処理のフローチャートを例示する図である。 第3の実施形態に係る処理装置の雑音振幅スペクトル推定手段の他の機能構成例を示すブロック図である。 第4の実施形態に係る処理システムの機能構成を例示するブロック図である。 第4の実施形態に係る処理システムのハードウェア構成を例示する図である。
以下、図面を参照して発明を実施するための形態について説明する。各図面において、同一構成部分には同一符号を付し、重複した説明を省略する場合がある。
[第1の実施形態]
<処理装置の機能構成>
図1は、第1の実施形態に係る処理装置100の機能構成を例示するブロック図である。
図1に示す様に、処理装置100は、入力端子、周波数スペクトル変換手段101、雑音検出手段A102、雑音検出手段B103、雑音振幅スペクトル推定手段104、雑音スペクトル減算手段105、周波数スペクトル逆変換手段106、出力端子を有する。
処理装置100の入力端子には、音声信号が入力される。入力端子には、図2に示す様に、単位時間u(例えば10ms等)ごとに区切られた音声信号が入力される。以下の説明において、音声信号が単位時間uごとに区切られる区間をフレームという。なお、音声信号は、例えばマイク等の音声の入力が可能な入力機器を介して入力された音に対応する信号であり、音声以外の音も含んでいる。
周波数スペクトル変換手段101は、入力端子に入力された音声信号を、周波数スペクトルに変換して出力する。周波数スペクトル変換手段101は、例えば高速フーリエ変換(FFT)を用いて、音声信号を周波数スペクトルに変換する。
雑音検出手段A102は、入力端子からの入力音声信号に雑音が含まれているか否かを検出し、雑音検出結果を雑音振幅スペクトル推定手段104に検出情報Aとして出力する。
雑音検出手段B103は、周波数スペクトル変換手段101で変換して出力される周波数スペクトルに雑音が含まれているか否かを検出し、雑音検出結果を検出情報Bとして雑音振幅スペクトル推定手段104に出力する。
雑音振幅スペクトル推定手段104は、雑音検出手段A102から出力される検出情報A、雑音検出手段B103から出力される検出情報Bに基づいて、周波数スペクトル変換手段101から出力される周波数スペクトルに含まれる雑音の振幅スペクトル(以下、雑音振幅スペクトルという)を推定する。
雑音スペクトル減算手段105は、周波数スペクトル変換手段101で変換された周波数スペクトルから、雑音振幅スペクトル推定手段104から出力される雑音振幅スペクトルを減算処理し、雑音が低減された周波数スペクトルを出力する。
周波数スペクトル逆変換手段106は、雑音スペクトル減算手段105から出力される雑音が低減された周波数スペクトルを音声信号に変換して出力する。周波数スペクトル逆変換手段106は、例えばフーリエ逆変換等により、周波数スペクトルを音声信号に変換する。
出力端子は、周波数スペクトル逆変換手段106から出力される雑音が低減された音声信号を出力する。
<処理装置のハードウェア構成>
図3は、処理装置100のハードウェア構成を例示する図である。
図3に示す様に、処理装置100は、コントローラ110、ネットワークI/F部115、記録媒体I/F部116、入力端子、出力端子等を有し、コントローラ110は、CPU111、HDD(Hard Disk Drive)112、ROM(Read Only Memory)113、RAM(Read and Memory)114等を有する。
CPU111は、HDD112やROM113等の記憶装置からプログラムやデータをRAM114上に読み出して処理を実行することで、処理装置100が備える各機能を実現する演算装置である。CPU111は、図1に示す周波数スペクトル変換手段101、雑音検出手段A102、雑音検出手段B103、雑音振幅スペクトル推定手段104、雑音スペクトル減算手段105、周波数スペクトル逆変換手段106等として、又はその一部として機能する。
HDD112は、プログラムやデータを格納している不揮発性の記憶装置である。格納されるプログラムやデータには、処理装置100全体を制御する基本ソフトウェアであるOS(Operating System)、及びOS上において各種機能を提供するアプリケーションソフトウェア等がある。また、HDD112は、後述する振幅スペクトル記憶手段、雑音振幅スペクトル記憶手段等として機能する。
ROM113は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。ROM113には、処理装置100の起動時に実行されるBIOS(Basic Input/Output System)、OS設定、及びネットワーク設定等のプログラムやデータが格納されている。RAM114は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。
ネットワークI/F部115は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続される通信機能を有する周辺機器と処理装置100とのインタフェースである。
記録媒体I/F部116は、記録媒体とのインタフェースである。処理装置100は記録媒体I/F116を介して、記録媒体117の読み取り及び/又は書き込みを行うことができる。記録媒体117にはフレキシブルディスク、CD、DVD(Digital Versatile Disk)、SDメモリカード(SD Memory card)、USBメモリ(Universal Serial Bus memory)等がある。
<処理装置における音声処理について>
次に、処理装置100の各部で行われる音声処理について詳細に説明する。
≪入力音声信号からの雑音検出≫
雑音検出手段A102は、例えば入力される音声信号のパワー変動の大きさを基準にして、入力音声信号に雑音が含まれているか否かを検出する。この場合には、雑音検出手段A102は、フレームごとに入力音声信号のパワーを計算し、雑音を検出する対象とするフレームのパワーと、雑音検出対象フレームの1つ前のフレームのパワーとの差を算出する。
時間tにおける入力音声信号をx(t)としたとき、時間t1〜t2のフレームにおける入力音声信号のパワーpは、以下の式(1)で求めることができる。
Figure 2013250548
雑音検出対象のフレームのパワーをp、雑音検出対象のフレームの1つ前のフレームのパワーをpk−1とすると、パワー変動は以下の式(2)で求めることができる。
Figure 2013250548
雑音検出手段A102は、例えば式(2)により求められるパワー変動Δpと、予め設定される閾値とを比較し、雑音検出対象のフレームの音声信号における雑音の有無を判定し、判定結果を示す検出情報Aを出力する。
また、雑音検出手段A102は、例えば線形予測誤差の大きさを基準にして、入力音声信号に雑音が含まれているか否かを検出できる。この場合には、雑音検出手段A102は、検出対象とするフレームの線形予測誤差を以下に基づいて算出する。
例えば、フレームごとの入力音声信号の値xを以下の様に表す。
…, xk-1, xk, xk+1, …
このとき、ある区間の音声信号の値xk+1を当該フレームの前までの値x〜xを用いて以下の式により予測する際に、最適となる線形予測係数a(n=0〜N−1)を求める。
x^ k+1 = a0 xk + a1 xk-1 + a2 xk-2 + ・・・ + aN-1 xk-(N-1)
次に、上式で予測される予測値x^ k+1と、実際の値xk+1との差として以下の式により求められる値が、線形予測誤差ek+1となる。
ek+1 = x^ k+1 - xk+1
この誤差は予測と実測とのずれを示すことから、雑音検出手段A102は、例えば線形予測誤差ek+1と、予め設定される閾値とを比較し、検出対象とするフレームの音声信号における雑音の有無を判定し、判定結果を示す検出情報Aを出力する。
≪周波数スペクトルからの雑音検出≫
雑音検出手段B103は、周波数スペクトル変換手段101から出力される周波数スペクトルに雑音が含まれているか否かを検出する。
雑音検出手段B103は、例えば周波数スペクトルのある周波数帯域のパワー変動の大きさを基準にして、周波数スペクトルに雑音が含まれているか否かを検出する。この場合には、雑音検出手段B103は、検出対象フレームの高周波帯域のスペクトルのパワーの総和を計算し、検出対象フレームの1つ前のフレームのパワーとの差を求める。
この様に、雑音検出手段B103は、例えば検出対象フレームと検出対象フレームの1つ前のフレームとのパワー差と予め設定される閾値とを比較し、当該検出対象フレームの音声信号における雑音の有無を判定し、判定結果を示す検出情報Bを出力する。
また、雑音検出手段B103は、検出対象とする雑音の周波数ごとの特徴量を統計モデル化したものと比較することで、周波数スペクトルに雑音が含まれているか否かを検出できる。この場合には、雑音検出手段B103は、例えばメル周波数ケプストラム係数(MFCC)と雑音モデルを用いて雑音の検出を行うことができる。
MFCCは、人間の聴覚の性質を取り入れた特徴量であり、音声認識等でよく扱われる。MFCCの計算過程は、FFTによって得られる周波数スペクトルに対して、(1)絶対値を取る、(2)メル尺度(人間の聴覚に応じた音の高さの尺度)上で等間隔なフィルタバンクにかけて、各帯域のスペクトルの和を求める、(3)対数をとる、(4)離散コサイン変換(DCT)を行う、(5)低次成分を取り出す、というものである。
雑音モデルとは、雑音の特徴をモデル化したものである。例えば、ガウス混合モデル(GMM)等で雑音の特徴はモデル化され、そのパラメータは予め収集された雑音データベースから抽出した特徴量(例えばMFCC)を用いて推定される。GMMの場合には、各多次元ガウス分布の重み、平均や共分散等がモデルパラメータとなる。
雑音検出手段B103は、入力周波数スペクトルのMFCCを抽出し、雑音モデルに対する尤度を算出する。尤度は、そのモデルに対する尤もらしさを示すものであり、この場合、尤度が高いほど入力音声信号が雑音である可能性が高いということになる。
雑音検出手段B103による尤度Lは、GMMに対して行う場合には以下の式(3)によって求めることができる。
Figure 2013250548
ここで、xはMFCCのベクトル、Wはk番目の分布の重み、Nはk番目の多次元ガウス分布を表している。雑音検出手段B103は、上式(3)により尤度Lを求め、例えば尤度Lが予め設定される閾値よりも大きい場合に、検出対象とするフレームの音声信号には雑音が含まれていると判定し、判定結果を示す検出情報Bを出力する。
なお、本実施形態に係る処理装置100では、雑音検出手段A102及び雑音検出手段B103によって雑音の検出を行っているが、雑音の検出は何れか一方だけでも良く、さらに複数の雑音検出手段を設けても良い。
≪雑音振幅スペクトルの推定≫
次に、雑音振幅スペクトル推定手段104による雑音振幅スペクトルの推定方法について説明する。
図4は、第1の実施形態における雑音振幅スペクトル推定手段104の機能構成を例示する図である。
図4に示す様に、雑音振幅スペクトル推定手段104は、振幅スペクトル算出手段41、決定手段42、記憶制御手段A43、記憶制御手段B44、振幅スペクトル記憶手段45、雑音振幅スペクトル記憶手段46、雑音振幅スペクトル推定手段A47a、雑音振幅スペクトル推定手段B47b等を有する。
振幅スペクトル算出手段41は、周波数スペクトル変換手段101によって入力音声信号が変換された周波数スペクトルから、振幅スペクトルを算出して出力する。振幅スペクトル算出手段41は、例えばある周波数の周波数スペクトルX(複素数)に対し、振幅スペクトルAを以下の式(4)により算出できる。
Figure 2013250548
決定手段42は、雑音検出手段A102による検出情報Aと、雑音検出手段B103による検出情報Bとが入力され、検出情報A及び検出情報Bに基づいて、雑音振幅スペクトル推定手段A47aに実行信号1又は雑音振幅スペクトル推定手段47bに実行信号2を出力する。
雑音振幅スペクトル推定手段A47a又は雑音振幅スペクトル推定手段B47bは、決定手段42から出力される実行信号1又は2に応じて、振幅スペクトル算出手段41によって算出される振幅スペクトルから雑音振幅スペクトルの推定を行う。
(雑音振幅スペクトル推定手段Aによる雑音振幅スペクトルの推定)
雑音振幅スペクトル推定手段A47aは、決定手段42から出力される実行信号1を受信した時に、雑音振幅スペクトルの推定を行う。
雑音振幅スペクトル推定手段A47aは、決定手段42から実行信号1を受信すると、振幅スペクトル算出手段41から現在処理が行われているフレーム(以下、現在フレームという)の振幅スペクトルと、振幅スペクトル記憶手段45に記憶されている過去の振幅スペクトルとを取得する。次に、雑音振幅スペクトル推定手段A47aは、現在フレームの振幅スペクトルと、過去の振幅スペクトルとの差分により、雑音振幅スペクトルの推定を行う。
雑音振幅スペクトル推定手段A47aは、例えば現在フレームの振幅スペクトルと、直近の雑音が発生したフレームの1つ前のフレームの振幅スペクトルの差分を求めることで、雑音振幅スペクトルを推定できる。また、雑音振幅スペクトル推定手段A47aは、例えば現在フレームの振幅スペクトルと、直近の雑音が発生したフレームの直前の複数のフレームの振幅スペクトルの平均との差分を求めることで、雑音振幅スペクトルを推定しても良い。
ここで、振幅スペクトル記憶手段45には、記憶領域を削減するために、雑音振幅スペクトルA47aによる推定に用いられる振幅スペクトルのみを記憶させることが好ましい。
そこで、記憶制御手段A43が、振幅スペクトル記憶手段45に記憶させる振幅スペクトルの制御を行う。例えば、記憶制御手段A43に、1つ又は複数のフレームの振幅スペクトルを一時的に記憶するバッファを設ける。記憶制御手段A43は、現在フレームに雑音が検出された場合に、バッファに記憶している振幅スペクトルを振幅スペクトル記憶手段45に上書きして記憶させる様に制御することで、振幅スペクトル記憶手段45が使用する記憶領域を低減できる。
(雑音振幅スペクトル推定手段Bによる雑音振幅スペクトルの推定)
雑音振幅スペクトル推定手段Bは、決定手段42から実行信号2を受信すると、雑音が検出された後に推定された雑音振幅スペクトルから求められる減衰関数に基づいて、雑音の振幅スペクトルの推定を行う。
雑音振幅スペクトル推定手段Bは、雑音の振幅の減衰が指数関数的であると仮定して、雑音検出手段A102又は雑音検出手段B103によって雑音が検出された直後の複数のフレームで推定された雑音の振幅に近似する関数を求める。
図5は、雑音検出後の3つのフレームの振幅A1,A2,A3の値を、横軸に時間t、縦軸に雑音の振幅Aの対数で表されるグラフにプロットした例である。
雑音振幅スペクトル推定手段Bは、まず、雑音発生以降の複数のフレームの振幅A1,A2,A3に対する近似一次関数の傾きを、以下の式(5)により求める。
Figure 2013250548
雑音の振幅Aは、フレームごとに上式(5)で示される傾きaに従って減衰していくことになるので、雑音検出後のm番目のフレームの雑音の振幅Aは、以下の式(6)で求めることができる。
Figure 2013250548
この様に、雑音振幅スペクトル推定手段Bは、雑音検出後の複数のフレームの雑音振幅スペクトルから求められる減衰関数に基づいて、雑音の振幅スペクトルを推定することができる。
なお、式(6)で示される減衰関数は、雑音検出手段A102又は雑音検出手段B103によって雑音が検出された直近のフレーム以後の複数のフレームの振幅から求めることが好ましく、減衰関数を求めるフレームの数は適宜設定することができる。また、減衰関数を指数関数と仮定したが、線形関数等の他の関数として求めても良い。
さらに、式(6)による推定に用いられる、現在フレームよりも前のフレームの雑音の振幅は、雑音が検出された後であって現在フレームの1つ前のフレームにおける雑音の振幅を用いることが好ましい。
雑音振幅スペクトル推定手段Bは、決定手段42から実行信号2を受信すると、雑音振幅スペクトル記憶手段46から、上記した方法により現在フレームの雑音振幅スペクトルを求めるために必要となる過去に推定された雑音振幅スペクトルを取得する。
雑音振幅スペクトル記憶手段46には、雑音振幅スペクトル推定手段A47a又は雑音振幅スペクトル推定手段A47bによって推定された雑音振幅スペクトルが記憶される。ここで、雑音振幅スペクトル記憶手段46には、記憶領域を低減するために、雑音振幅スペクトル推定手段B47bによる雑音振幅スペクトルの推定に用いられる雑音振幅スペクトルのみを記憶させることが好ましい。雑音振幅スペクトル推定手段B47bによる雑音振幅スペクトルの推定に用いられる雑音振幅スペクトルは、上記した様に、雑音検出後の複数のフレームの雑音振幅スペクトルと、現在フレームの1つ前のフレームの雑音振幅スペクトルである。
そこで、記憶制御手段Bが、減衰関数を求めるために必要となる雑音振幅スペクトルと、現在フレームの雑音振幅スペクトルを求めるために必要となる雑音振幅スペクトルのみを、雑音振幅スペクトル記憶手段46に記憶させる様に制御する。
例えば、雑音振幅スペクトル記憶手段46には、雑音が検出された後の複数(例えば3つ)のフレームの雑音振幅スペクトルと、現在フレームの1つ前のフレームの雑音振幅スペクトルとを記憶する領域を設ける。記憶制御手段Bは、雑音が検出された後の経過時間に応じて、雑音振幅スペクトル推定手段A47aによって推定される雑音振幅スペクトルを、雑音振幅スペクトル記憶手段46の各記憶領域に上書きして保存させる様に制御する。この様な制御により、雑音振幅スペクトル記憶手段46が使用する記憶領域を低減できる。
以上で説明した様に、雑音振幅スペクトル推定手段104は、決定手段42が出力する実行信号に基づいて、雑音振幅スペクトル推定手段A47a及び雑音振幅スペクトル推定手段B47bの何れかが雑音振幅スペクトルの推定を行う。
(雑音振幅スペクトル推定手段による雑音振幅スペクトルの推定処理)
図6は、第1の実施形態における雑音振幅スペクトル推定手段104の雑音振幅スペクトルの推定処理のフローチャートを例示する図である。
雑音振幅スペクトル推定手段104に、周波数スペクトル変換手段101から周波数スペクトルが入力されると、まずステップS1にて、振幅スペクトル算出手段41が周波数スペクトルから振幅スペクトルを算出する。次にステップS2にて、雑音検出手段A102又は雑音検出手段B103によって入力音に雑音が検出されたか否かを、検出情報A及び検出情報Bから判断する。
入力された音声信号のフレームに雑音が含まれていた場合(ステップS2:Yes)には、ステップS3にて、記憶制御手段A43が、バッファに一時記憶していた振幅スペクトルを振幅スペクトル記憶手段45に記憶させる。
次に、ステップS4にて、決定手段42が実行信号1を出力し、ステップS5にて、雑音振幅スペクトル推定手段Aが、雑音の振幅スペクトルの推定を行う。その後、ステップS6にて、記憶制御手段Bが、雑音振幅スペクトル推定手段Aによって推定された雑音振幅スペクトルを、雑音振幅スペクトル記憶手段46の雑音検出後の経過時間に応じた記憶領域に上書きして記憶させて処理を終了する。
入力された音声信号のフレームに雑音が含まれていなかった場合(ステップS2:No)には、ステップS7にて、現在処理を行っているフレームが、雑音が検出されてからnフレーム以内であるか否かを判断する。現在処理を行っているフレームが、雑音検出後nフレーム以内である場合には、ステップS4からステップS6の処理により、雑音振幅スペクトル推定手段A47aが雑音振幅スペクトルを推定し、処理を終了する。
ステップS7にて、現在処理を行っているフレームが、雑音検出後nフレーム以内でない場合には、ステップS8にて、決定手段42が実行信号2を出力する。次に、ステップS9にて、雑音振幅スペクトル推定手段Bが雑音振幅スペクトルを推定する。その後、ステップS6にて、記憶制御手段B44が、雑音振幅スペクトル推定手段Bによって推定された雑音振幅スペクトルを、雑音振幅スペクトル記憶手段46に記憶させて、処理を終了する。
この様に、雑音振幅スペクトル推定手段104は、異なる方法により雑音の振幅スペクトルを推定する雑音振幅スペクトル推定手段A47aと、雑音振幅スペクトル推定手段B47bとの何れかにより、入力音に含まれる雑音の振幅スペクトルを推定する。雑音振幅スペクトル推定手段104は、異なる方法で雑音の振幅スペクトルを推定する手段を備えることで、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを推定することが可能となる。
なお、図7に示す様に、雑音振幅スペクトル推定手段104は、異なる方法で雑音振幅スペクトルを推定する複数の雑音振幅スペクトル推定手段A〜Nを設け、決定手段42が、検出情報A及び検出情報Bに基づいて雑音振幅スペクトルを推定する雑音振幅スペクトル推定手段を適宜選択する様に構成しても良い。
雑音振幅スペクトル推定手段A〜Nによる雑音振幅スペクトルの推定方法としては、例えば、現在フレームの振幅スペクトルと、雑音検出前の複数の振幅スペクトルの平均との差分により雑音振幅スペクトルを推定する方法を用いることができる。また、例えば雑音の発生以降に推定された雑音振幅スペクトルから求められる減衰関数を線形関数等として、雑音振幅スペクトルを求める方法を用いることができる。
この場合には、決定手段42は、例えば検出情報Aに含まれる雑音検出手段A102によって求められるパワー変動や線形予測誤差の大きさ、又は検出情報Bに含まれる雑音検出手段B103によって求められる尤度に応じて、雑音振幅スペクトルを推定する方法を適宜選択して実行信号1〜Nを出力する様に設定する。
≪雑音スペクトルの減算≫
処理装置100の雑音スペクトル減算手段105には、周波数スペクトル変換手段101によって変換される周波数スペクトルから、雑音振幅スペクトル推定手段104によって推定された雑音振幅スペクトルから求められる雑音の周波数スペクトルを減算処理し、雑音低減周波数スペクトルを出力する。
周波数スペクトルをX、推定された雑音の周波数スペクトルをD(ハット)とすると、音声の周波数スペクトルS(ハット)は、以下の式(7)により求めることができる。
Figure 2013250548
上式(7)において、lはフレームの番号、kはスペクトルの番号を表している。
この様に、雑音スペクトル減算手段105は、周波数スペクトルから雑音周波数スペクトルを減算処理することで雑音低減周波数スペクトルを算出し、周波数スペクトル逆変換手段106に出力する。
以上で説明した様に、第1の実施形態に係る処理装置100は、異なる方法で雑音振幅スペクトルを推定する手段を複数備え、入力音の雑音検出結果に基づいて適した雑音振幅スペクトル推定手段を選択して雑音振幅スペクトルの推定を行う。したがって、処理装置100は、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを精度良く推定し、入力音から雑音が低減された音声信号を出力することが可能である。
なお、第1の実施形態に係る処理装置100は、例えばビデオカメラ、デジタルカメラ、ICレコーダ、携帯電話、会議端末等、入力された音声を録音、又は他の装置に送信する電子機器等に適用できる。
[第2の実施形態]
次に、第2の実施形態について図面に基づいて説明する。なお、既に説明した実施形態と同一構成部分についての説明は省略する。
<処理システムの機能構成>
図8は、第2の実施形態に係る処理システム300の機能構成を例示するブロック図である。図8に示す様に、処理システム300は、ネットワーク400を介して接続する処理装置100,200により構成されている。
処理装置100は、周波数スペクトル変換手段101、雑音検出手段A102、雑音検出手段B103、雑音振幅スペクトル推定手段104、雑音スペクトル減算手段105、周波数スペクトル逆変換手段106、音声入出力手段107、送受信手段108等を有する。
音声入出力手段107は、例えば処理装置100の周囲の音声等を集音して音声信号を生成し、また、入力される音声信号に基づいて音声等を出力する。
送受信手段108は、処理装置100によって雑音が低減された音声信号等のデータを、ネットワーク400を介して接続する他の装置等に送信する。また、ネットワーク400を介して接続する他の装置等から、音声信号等のデータを受信する。
処理装置100は、第1の実施形態において説明した様に、異なる方法で雑音振幅スペクトルを推定する手段を複数備え、入力音の雑音検出結果に基づいて適した雑音振幅スペクトル推定手段を選択して雑音振幅スペクトルの推定を行う。したがって、処理装置100は、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを精度良く推定し、入力音から雑音が低減された音声信号を出力することが可能である。
また、処理装置100にネットワーク400を介して接続する処理装置200は、音声入出力手段201、送受信手段202等を有する。
音声入出力手段201は、例えば処理装置200の周囲の音声等を集音して音声信号を生成し、また、入力される音声信号に基づいて音声等を出力する。
送受信手段202は、例えば音声入出力手段201によって取得された音声信号等のデータをネットワーク400を介して接続する他の装置等に送信し、ネットワーク400を介して接続する他の装置等から送信される音声信号等のデータを受信する。
<処理システムのハードウェア構成>
図9は、第2の実施形態に係る処理システム300のハードウェア構成を例示する図である。
処理装置100は、コントローラ110、ネットワークI/F部115、記録媒体I/F部116、音声入出力装置118等を有し、コントローラ110は、CPU111、HDD112、ROM113、RAM114等を有する。
音声入出力装置118は、例えば処理装置100の周囲の音声等を集音して音声信号を生成するマイクロホン、音声信号を外部に出力するスピーカ等である。
また、処理装置200は、CPU201、HDD202、ROM203、RAM204、ネットワークI/F部205、音声入出力装置206等を有する。
CPU201は、HDD202やROM203等の記憶装置からプログラムやデータをRAM204上に読み出して処理を実行することで、処理装置200が備える各機能を実現する演算装置である。
HDD202は、プログラムやデータを格納している不揮発性の記憶装置である。格納されるプログラムやデータには、処理装置200全体を制御する基本ソフトウェアであるOS(Operating System)、及びOS上において各種機能を提供するアプリケーションソフトウェア等がある。また、HDD202は、後述する振幅スペクトル記憶手段、雑音振幅スペクトル記憶手段等として機能する。
ROM203は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。ROM203には、処理装置200の起動時に実行されるBIOS(Basic Input/Output System)、OS設定、及びネットワーク設定等のプログラムやデータが格納されている。RAM204は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。
ネットワークI/F部205は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワーク400を介して接続される通信機能を有する周辺機器と処理装置200とのインタフェースである。
音声入出力装置206は、例えば処理装置200の周囲の音声等を集音して音声信号を生成するマイクロホン、音声信号を外部に出力するスピーカ等である。
処理システム300において、例えば処理装置100は、入力される処理装置100のユーザが発した音声を含む信号から、雑音を低減した音声信号を生成し、送受信手段108から処理装置200に送信できる。処理装置200は、処理装置100から送信される雑音が低減された音声信号を送受信手段202により受信し、音声入出力手段201から外部に出力する。したがって、処理装置200のユーザは、処理装置100から雑音が低減された音声信号を受信するため、処理装置100のユーザが発する音声を明瞭に聴き取ることが可能になる。
また、例えば処理装置200は、処理装置200のユーザが発する音声を含む音信号を処理装置200の音声入出力手段201によって取得し、送受信手段202から処理装置100に送信できる。この場合において、処理装置100は、送受信手段108が受信した音声信号に対して、雑音振幅スペクトルの推定等を行うことで受信した音声信号から雑音を低減し、音声入出力手段107から出力することができる。したがって、処理装置100のユーザは、処理装置100が受信した音声信号から雑音を低減して出力することにより、処理装置200のユーザが発する音声を明瞭に聴き取ることが可能になる。
上記した様に、第2の実施形態に係る処理システム300によれば、例えば処理装置100の音声入出力手段107に入力される音声や、送受信手段108が受信する音声信号等から、推定される雑音振幅スペクトルに基づいて雑音を低減した音声信号を生成できる。したがって、ネットワーク400を介して接続する処理装置100及び処理装置200のユーザ間で、雑音が低減された明瞭な音声による会話及び録音等が可能になる。
なお、処理システム300を構成する処理装置の数等は、本実施形態の例に限るものではなく、さらに多数の処理装置を設けて構成することができる。また、第2の実施形態に係る処理システム300は、例えば複数のPC、PDA、携帯電話、会議端末等の間で音声等の送受信を行うシステムに適用できる。
[第3の実施形態]
次に、第3の実施形態について図面に基づいて説明する。なお、既に説明した実施形態と同一構成部分についての説明は省略する。
<処理装置の機能構成>
図10は、第3の実施形態に係る処理装置100の機能構成を例示するブロック図である。
図10に示す様に、処理装置100は、入力端子、周波数スペクトル変換手段101、雑音検出手段A102、雑音検出手段B103、雑音振幅スペクトル推定手段104、雑音スペクトル減算手段105、周波数スペクトル逆変換手段106、低減強度調節手段109、出力端子を有する。
低減強度調節手段109は、ユーザからの入力情報に基づいて雑音振幅スペクトル推定手段104に低減強度調節信号を出力し、処理装置100に入力される入力音声信号から雑音を低減するレベルを調節する。
<処理装置のハードウェア構成>
図11は、処理装置100のハードウェア構成を例示する図である。
図11に示す様に、処理装置100は、コントローラ110、ネットワークI/F部115、記録媒体I/F部116、操作パネル119、入力端子、出力端子等を有し、コントローラ110は、CPU111、HDD(Hard Disk Drive)112、ROM(Read Only Memory)113、RAM(Read and Memory)114等を有する。
操作パネル119は、ユーザ操作を受け付けるためのボタン等の入力手段や、タッチパネル機能を有する液晶パネル等の操作画面251等を備えるハードウェアである。操作パネル119には、処理装置100に入力される入力音声信号から雑音を低減するレベル等が選択可能に表示される。低減強度調節手段109は、ユーザから操作パネル119に入力される情報に基づいて、低減強度調節信号を出力する。
<雑音振幅スペクトル推定手段の機能構成>
図12は、第3の実施形態における雑音振幅スペクトル推定手段104の機能構成を例示する図である。
図12に示す様に、雑音振幅スペクトル推定手段104は、振幅スペクトル算出手段41、決定手段42、記憶制御手段A43、記憶制御手段B44、振幅スペクトル記憶手段45、雑音振幅スペクトル記憶手段46、雑音振幅スペクトル推定手段A47a、雑音振幅スペクトル推定手段B47b、減衰調節手段48、振幅調節手段49を有する。
減衰調節手段48は、雑音調節手段の一例であり、低減強度調節手段109から出力される低減強度調節信号に基づいて、減衰調節信号を雑音振幅スペクトル推定手段B47bに出力する。
第3の実施形態における雑音振幅スペクトル推定手段Bは、第1の実施形態と同様に、雑音発生以降の複数のフレームの振幅に対する近似一次関数の傾きaを、上記式(5)により求める。次に、雑音振幅スペクトル推定手段Bは、雑音検出後のm番目のフレームの雑音の振幅Aを、以下の式(8)により求める。
Figure 2013250548
ここで、式(8)における係数gは、減衰調節手段48に低減強度調節手段109から入力される低減強度調節信号に応じて決定される値である。
入力音声信号から雑音を低減する場合には、例えば操作パネル119に雑音を低減するレベルが異なる雑音低減強度1〜3を表示してユーザに選択させ、低減強度調節手段109は選択された雑音低減強度を低減強度調節信号として減衰調節手段48に出力する。減衰調節手段48は、低減強度調節手段109から出力される低減強度調節信号に応じて、例えば以下に示す表1に従って減衰調節信号を決定し、雑音振幅スペクトル推定手段Bに減衰調節信号を送信する。
Figure 2013250548
表1に示す例では、雑音低減強度が大きいほど係数gが小さく、式(8)に従って雑音振幅スペクトル推定手段Bにより推定される雑音振幅スペクトルが大きくなるため、入力音声信号から雑音が大きく低減されることとなる。また、雑音低減強度が小さいほど係数gが大きく、式(8)に従って雑音振幅スペクトル推定手段Bにより推定される雑音振幅スペクトルが小さくなるため、入力音声信号から低減される雑音は小さくなる。
また、振幅調節手段49は、雑音調節手段の一例であり、低減強度調節手段109から出力される低減強度調節信号に基づいて、雑音振幅スペクトル推定手段A又は雑音振幅スペクトル推定手段Bにより求められる推定雑音振幅スペクトルAの大きさを、以下の式(9)により調節する。
Figure 2013250548
ここで式(9)における係数Gは、低減強度調節手段109から出力される低減強度調節信号に応じて、例えば以下に示す表2に従って決定される値である。
Figure 2013250548
振幅調節手段49は、低減強度調節信号に応じてGの値を決定し、上式(9)により求められる推定雑音振幅スペクトルA'を出力する。表2に示す例では、雑音低減強度が小さい場合には、Gの値が小さいため出力される推定雑音振幅スペクトルA'は小さくなる。また、雑音低減強度が大きい場合には、Gの値が大きいため出力される推定雑音振幅スペクトルA'も大きくなる。なお、Gの値は算出する振幅スペクトルの周波数ごとに異なる値を設定しても良い。
この様に、処理装置100では、低減強度調節手段109から出力される低減強度調節信号に応じて、雑音振幅スペクトル推定手段104が推定雑音振幅スペクトルAmの強度をコントロールし、入力音声信号から雑音を低減するレベルを調節することができる。
(雑音振幅スペクトル推定手段による雑音振幅スペクトルの推定処理)
図13は、第3の実施形態における雑音振幅スペクトル推定手段104の雑音振幅スペクトルの推定処理のフローチャートを例示する図である。
雑音振幅スペクトル推定手段104に、周波数スペクトル変換手段101から周波数スペクトルが入力されると、まずステップS11にて、振幅スペクトル算出手段41が周波数スペクトルから振幅スペクトルを算出する。次にステップS12にて、雑音検出手段A102又は雑音検出手段B103によって入力音に雑音が検出されたか否かを、検出情報A及び検出情報Bから判断する。
入力された音声信号のフレームに雑音が含まれていた場合(ステップS12:Yes)には、ステップS13にて、記憶制御手段A43が、バッファに一時記憶していた振幅スペクトルを振幅スペクトル記憶手段45に記憶させる。
次に、ステップS14にて、決定手段42が実行信号1を出力し、ステップS15にて、雑音振幅スペクトル推定手段Aが、雑音の振幅スペクトルの推定を行う。その後、ステップS16にて、振幅調節手段49が低減強度調節手段109から出力される低減強度調節信号に応じて、上式(9)によって求められる推定雑音振幅スペクトルを算出する。
続いてステップS17にて、記憶制御手段Bが、振幅調節手段49により算出された推定雑音振幅スペクトルを、雑音振幅スペクトル記憶手段46の雑音検出後の経過時間に応じた記憶領域に上書きして記憶させた後、処理を終了する。
入力された音声信号のフレームに雑音が含まれていなかった場合(ステップS12:No)には、ステップS18にて、現在処理を行っているフレームが、雑音が検出されてからnフレーム以内であるか否かを判断する。現在処理を行っているフレームが、雑音検出後nフレーム以内である場合には、ステップS14及びステップS15の処理により、雑音振幅スペクトル推定手段A47aが雑音振幅スペクトルを推定する。
ステップS18にて、現在処理を行っているフレームが、雑音検出後nフレーム以内でない場合には、ステップS19にて、決定手段42が実行信号2を出力する。次に、ステップS20にて、減衰調節手段48が減衰調節信号を生成し、雑音振幅スペクトル推定手段Bに出力する。続いてステップS21にて、雑音振幅スペクトル推定手段Bが上式(8)により雑音振幅スペクトルを推定する。
その後、ステップS16にて、振幅調節手段49が低減強度調節手段109から出力される低減強度調節信号に応じて、上式(9)によって求められる推定雑音振幅スペクトルを算出する。ステップS17にて、記憶制御手段B44が、雑音振幅スペクトル推定手段Bによって推定された雑音振幅スペクトルを、雑音振幅スペクトル記憶手段46に記憶させて、処理を終了する。
この様に、雑音振幅スペクトル推定手段104は、異なる方法により雑音の振幅スペクトルを推定する雑音振幅スペクトル推定手段A47aと、雑音振幅スペクトル推定手段B47bとの何れかにより、入力音に含まれる雑音の振幅スペクトルを推定する。雑音振幅スペクトル推定手段104は、異なる方法で雑音の振幅スペクトルを推定する手段を備えることで、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを推定することが可能となる。
また、処理装置100は低減強度調節手段109を有し、入力音から推定する雑音振幅スペクトルの強度を調節し、入力音声信号から雑音を低減するレベルを変更することができる。したがって、ユーザは状況に応じて雑音低減レベルを適宜変更し、原音を忠実に再現したい場合には雑音低減レベルを下げ、原音から雑音を出来るだけ低減したい場合には雑音低減レベルを上げるといった設定が可能になる。
なお、図14に示す様に、雑音振幅スペクトル推定手段104に、異なる方法で雑音振幅スペクトルを推定する複数の雑音振幅スペクトル推定手段A〜N、減衰調節手段A〜Nを設けても良い。この場合には、雑音振幅スペクトル推定手段A〜Nは、それぞれ減衰調節手段A〜Nから出力される減衰調節信号A〜Nに従って、雑音振幅スペクトルの推定を行う。また、振幅調節手段49が、雑音振幅スペクトル推定手段A〜Nにより推定される雑音振幅スペクトルを、低減強度調節信号に従って調節する。
[第4の実施形態]
次に、第4の実施形態について図面に基づいて説明する。なお、既に説明した実施形態と同一構成部分についての説明は省略する。
<処理システムの機能構成>
図15は、第4の実施形態に係る処理システム300の機能構成を例示するブロック図である。図15に示す様に、処理システム300は、ネットワーク400を介して接続する処理装置100,200により構成されている。
処理装置100は、雑音低減手段120、音声入力手段121、音声出力手段122、送信手段123、受信手段124を有する。雑音低減手段120は、周波数スペクトル変換手段101、雑音検出手段A102、雑音検出手段B103、雑音振幅スペクトル推定手段104、雑音スペクトル減算手段105、周波数スペクトル逆変換手段106、低減強度調節手段109を有する。
音声入力手段121は、例えば処理装置100の周囲の音声等を集音して音声信号を生成して雑音低減手段120に出力する。また、音声出力手段122は、雑音低減手段120から入力される音声信号に基づいて音声等を外部に出力する。
送信手段123は、雑音低減手段120によって雑音が低減された音声信号等のデータを、ネットワーク400を介して接続する他の装置等に送信する。また、受信手段124は、ネットワーク400を介して接続する他の装置等から、音声信号等のデータを受信する。
雑音低減手段120は、音声入力手段121に入力される音声信号から雑音を低減した音声信号を送信手段に出力する。また、雑音低減手段120は、受信手段124が受信する音声信号から雑音を低減した音声信号を音声出力手段122に出力する。
処理装置100は、雑音低減手段120が異なる方法で雑音振幅スペクトルを推定する手段を複数備え、入力音の雑音検出結果に基づいて適した雑音振幅スペクトル推定手段を選択して雑音振幅スペクトルの推定を行う。したがって、処理装置100は、雑音の種類や発生タイミングに関わらず、入力される音声に含まれる雑音の振幅スペクトルを精度良く推定し、入力音から雑音が低減された音声信号を出力することが可能である。
また、処理装置100は、雑音低減手段120の低減強度調節手段109により、入力又は受信される音声信号から雑音を低減するレベルを調節することが可能である。したがって、ユーザは使用状況に応じて雑音低減レベルを適宜設定して使用することができる。
処理装置100にネットワーク400を介して接続する処理装置200は、受信手段203、送信手段204、音声出力手段205、音声入力手段206を有する。
受信手段203は、ネットワーク400を介して接続する他の装置等から送信される音声信号を受信して音声出力手段205に出力する。送信手段204は、音声入力手段206に入力される音声信号をネットワーク400を介して接続する他の装置等に送信する。
音声出力手段205は、受信手段203が受信する音声信号を外部に出力する。また、音声入力手段206は、例えば処理装置200の周囲の音声等を集音して音声信号を生成し、送信手段204に出力する。
<処理システムのハードウェア構成>
図16は、第4の実施形態に係る処理システム300のハードウェア構成を例示する図である。
処理装置100は、コントローラ110、ネットワークI/F部115、記録媒体I/F部116、音声入出力装置118、操作パネル119等を有し、コントローラ110は、CPU111、HDD112、ROM113、RAM114等を有する。
操作パネル119は、ユーザ操作を受け付けるためのボタン等の入力手段や、タッチパネル機能を有する液晶パネル等の操作画面251等を備えるハードウェアである。操作パネル119には、処理装置100に入力される入力音声信号から雑音を低減するレベル等が選択可能に表示される。低減強度調節手段109は、ユーザから操作パネル119に入力される情報に基づいて、低減強度調節信号を出力する。
第4の実施形態に係る処理システム300によれば、例えば処理装置100が入力される音声信号から雑音を低減して処理装置200に送信することで、処理装置200のユーザは、処理装置100から入力される音声を明瞭に聴き取ることが可能になる。また、処理装置100は、処理装置200から送信される音声信号から雑音を低減して出力することができ、処理装置100のユーザは、処理装置200から送信される音声を明瞭に聴き取ることが可能になる。したがって、ネットワーク400を介して接続する処理装置100及び処理装置200のユーザ間で、雑音が低減された明瞭な音声による会話及び録音等が可能になる。
また、処理装置100の雑音低減手段120は、低減強度調節手段109を有し、入力される音声信号から雑音を低減するレベルを調節することができる。低減強度調節手段109が雑音を低減するレベルは、処理装置100のユーザが操作パネル119を介して入力しても良く、処理装置200から雑音低減処理信号を処理装置100に送信しても良い。したがって、処理システム300のユーザは、音声信号から雑音を低減するレベルを適宜設定することができる。
なお、処理システム300を構成する処理装置の数等は、本実施形態の例に限るものではなく、さらに多数の処理装置を設けて構成することができる。また、第4の実施形態に係る処理システム300は、例えば複数のPC、PDA、携帯電話、会議端末等の間で音声等の送受信を行うシステムに適用できる。
ここまで、上記実施形態に基づき本発明の説明を行ってきたが、上記各実施形態に係る処理装置100が有する機能は、上記に説明を行った各処理手順を、上記各実施形態に係る処理装置100にあったプログラミング言語でコード化したプログラムとしてコンピュータで実行することで実現することができる。よって、上記各実施形態に係る処理装置100を実現するためのプログラムは、コンピュータが読み取り可能な記録媒体117に格納することができる。
よって、上記各実施形態に係るプログラムは、フレキシブルディスク、CD、DVD、USBメモリ等の記録媒体117に記憶させることによって、これらの記録媒体117から、処理装置100にインストールすることができる。また、処理装置100は、ネットワークI/F部115を有していることから、上記各実施形態に係るプログラムは、インターネット等の電気通信回線を介してダウンロードし、インストールすることもできる。
以上、本発明の実施形態について説明したが、上記実施形態に挙げた構成等に、その他の要素との組み合わせなど、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
41 振幅スペクトル算出手段
42 決定手段(実行信号出力手段)
43 記憶制御手段A(振幅スペクトル記憶制御手段)
44 記憶制御手段B(雑音振幅スペクトル記憶制御手段)
45 振幅スペクトル記憶手段
46 雑音振幅スペクトル記憶手段
47a 雑音振幅スペクトル推定手段A(第1の推定手段)
47b 雑音振幅スペクトル推定手段B(第2の推定手段)
48 減衰調節手段(雑音調節手段)
49 振幅調節手段(雑音調節手段)
100 処理装置(第1の処理装置)
102 雑音検出手段A(雑音検出手段)
103 雑音検出手段B(雑音検出手段)
104 雑音振幅スペクトル推定手段
107 送信手段
200 処理装置(第2の処理装置)
202 受信手段
300 処理システム
特開2011−257643号公報

Claims (11)

  1. 音声信号に含まれる雑音の雑音振幅スペクトルを推定する処理装置であって、
    単位時間に区切られたフレームごとに前記音声信号の振幅スペクトルを算出する振幅スペクトル算出手段と、
    前記フレームにおいて検出された前記雑音の雑音振幅スペクトルを推定する雑音振幅スペクトル推定手段とを備え、
    前記雑音振幅スペクトル推定手段は、
    前記振幅スペクトル算出手段によって算出される振幅スペクトルと、前記雑音が検出される前のフレームにおける振幅スペクトルとの差分に基づいて、前記雑音振幅スペクトルを推定する第1の推定手段と、
    前記雑音が検出された後のフレームにおける雑音振幅スペクトルから求められる減衰関数に基づいて、前記雑音振幅スペクトルを推定する第2の推定手段とを備える
    ことを特徴とする処理装置。
  2. 前記フレームにおける前記雑音の有無を検出する雑音検出手段と、
    前記雑音検出手段によって前記雑音が検出された後の経過時間に基づいて、前記第1の推定手段又は前記第2の推定手段に、前記雑音振幅スペクトルの推定を実行させる実行信号を出力する実行信号出力手段と、を備える
    ことを特徴とする請求項1に記載の処理装置。
  3. 前記雑音振幅スペクトル推定手段によって推定される前記雑音振幅スペクトルを記憶する雑音振幅スペクトル記憶手段と、
    前記雑音検出手段によって前記雑音が検出された後に、前記雑音が検出された後の経過時間に応じて、前記雑音振幅スペクトル推定手段によって推定される前記雑音振幅スペクトルを前記雑音振幅スペクトル記憶手段に記憶させる雑音振幅スペクトル記憶制御手段とを備える
    ことを特徴とする請求項2に記載の処理装置。
  4. 前記第2の推定手段によって求められる減衰関数が、指数関数であることを特徴とする請求項1から3の何れか一項に記載の処理装置。
  5. 前記振幅スペクトル算出手段により算出される前記振幅スペクトルを記憶する振幅スペクトル記憶手段と、
    前記振幅スペクトル算出手段によって算出される前記振幅スペクトルを一時記憶し、前記雑音が検出された時に、一時記憶している前記振幅スペクトルを前記振幅スペクトル記憶手段に記憶させる振幅スペクトル記憶制御手段とを備える
    ことを特徴とする請求項1から4の何れか一項に記載の処理装置。
  6. 前記第1の推定手段又は前記第2の推定手段により推定される前記雑音振幅スペクトルの大きさを調節する雑音調節手段を備える
    ことを特徴とする請求項1から5の何れか一項に記載の処理装置。
  7. 前記雑音調節手段は、前記第1の推定手段又は前記第2の推定手段により推定される前記雑音振幅スペクトルに乗じる係数の値を変更することで、前記雑音振幅スペクトルの大きさを調節する
    ことを特徴とする請求項6に記載の処理装置。
  8. 前記雑音調節手段は、前記第2の推定手段により求められる前記減衰関数の係数の値を変更することで、前記雑音振幅スペクトルの大きさを調節する
    ことを特徴とする請求項6又は7に記載の処理装置。
  9. 音声信号に含まれる雑音の雑音振幅スペクトルを推定する処理方法であって、
    単位時間に区切られたフレームごとに前記音声信号の振幅スペクトルを算出する振幅スペクトル算出ステップと、
    前記フレームにおいて検出された前記雑音の雑音振幅スペクトルを推定する雑音振幅スペクトル推定ステップとを備え、
    前記雑音振幅スペクトル推定ステップは、
    前記振幅スペクトル算出ステップによって算出される振幅スペクトルと、前記雑音が検出される前のフレームにおける振幅スペクトルとの差分に基づいて、前記雑音振幅スペクトルを推定する第1の推定ステップと、
    前記雑音が検出された後のフレームにおける雑音振幅スペクトルから求められる減衰関数に基づいて、前記雑音振幅スペクトルを推定する第2の推定ステップとを備える
    ことを特徴とする処理方法。
  10. 請求項9に記載の処理方法をコンピュータに実行させるためのプログラム。
  11. ネットワークを介して複数の処理装置が接続された処理システムであって、
    単位時間に区切られたフレームごとに音声信号の振幅スペクトルを算出する振幅スペクトル算出手段と、
    前記フレームにおいて検出された雑音の雑音振幅スペクトルを推定する雑音振幅スペクトル推定手段とを備え、
    前記雑音振幅スペクトル推定手段は、
    前記振幅スペクトル算出手段によって算出される振幅スペクトルと、前記雑音が検出される前のフレームにおける振幅スペクトルとの差分に基づいて、前記雑音振幅スペクトルを推定する第1の推定手段と、
    前記雑音が検出された後のフレームにおける雑音振幅スペクトルから求められる減衰関数に基づいて、前記雑音振幅スペクトルを推定する第2の推定手段とを備える
    ことを特徴とする処理システム。
JP2013032959A 2012-05-01 2013-02-22 処理装置、処理方法、プログラム及び処理システム Expired - Fee Related JP6182895B2 (ja)

Priority Applications (9)

Application Number Priority Date Filing Date Title
JP2013032959A JP6182895B2 (ja) 2012-05-01 2013-02-22 処理装置、処理方法、プログラム及び処理システム
EP13784344.7A EP2845190B1 (en) 2012-05-01 2013-04-19 Processing apparatus, processing method, program, computer readable information recording medium and processing system
PCT/JP2013/062305 WO2013164981A1 (en) 2012-05-01 2013-04-19 Processing apparatus, processing method, program, computer readable information recording medium and processing system
CN201380030900.4A CN104364845B (zh) 2012-05-01 2013-04-19 处理装置、处理方法、程序、计算机可读信息记录介质以及处理系统
CA2869884A CA2869884C (en) 2012-05-01 2013-04-19 A processing apparatus and method for estimating a noise amplitude spectrum of noise included in a sound signal
SG11201406563YA SG11201406563YA (en) 2012-05-01 2013-04-19 Processing apparatus, processing method, program, computer readable information recording medium and processing system
RU2014143473/08A RU2597487C2 (ru) 2012-05-01 2013-04-19 Устройство обработки, способ обработки, программа, машиночитаемый носитель записи информации и система обработки
BR112014027494-0A BR112014027494B1 (pt) 2012-05-01 2013-04-19 aparelho de processamento, método de processamento, programa, mídia de gravação de informação legível por computador e sistema de processamento
US14/391,281 US9754606B2 (en) 2012-05-01 2013-04-19 Processing apparatus, processing method, program, computer readable information recording medium and processing system

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2012104573 2012-05-01
JP2012104573 2012-05-01
JP2013032959A JP6182895B2 (ja) 2012-05-01 2013-02-22 処理装置、処理方法、プログラム及び処理システム

Publications (2)

Publication Number Publication Date
JP2013250548A true JP2013250548A (ja) 2013-12-12
JP6182895B2 JP6182895B2 (ja) 2017-08-23

Family

ID=49514380

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2013032959A Expired - Fee Related JP6182895B2 (ja) 2012-05-01 2013-02-22 処理装置、処理方法、プログラム及び処理システム

Country Status (9)

Country Link
US (1) US9754606B2 (ja)
EP (1) EP2845190B1 (ja)
JP (1) JP6182895B2 (ja)
CN (1) CN104364845B (ja)
BR (1) BR112014027494B1 (ja)
CA (1) CA2869884C (ja)
RU (1) RU2597487C2 (ja)
SG (1) SG11201406563YA (ja)
WO (1) WO2013164981A1 (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6454495B2 (ja) * 2014-08-19 2019-01-16 ルネサスエレクトロニクス株式会社 半導体装置及びその故障検出方法
US9557698B2 (en) 2014-11-20 2017-01-31 Ricoh Company, Limited Information processing apparatus, information processing method, and computer-readable storage medium for detecting an abnormity from sound data
CN104900237B (zh) * 2015-04-24 2019-07-05 上海聚力传媒技术有限公司 一种用于对音频信息进行降噪处理的方法、装置和系统
US10015592B2 (en) 2016-05-20 2018-07-03 Ricoh Company, Ltd. Acoustic signal processing apparatus, method of processing acoustic signal, and storage medium
JP6701573B2 (ja) 2016-08-03 2020-05-27 株式会社リコー 音声処理装置、音声映像出力装置、及び遠隔会議システム
CN106443071B (zh) * 2016-09-20 2019-09-13 中国科学院上海微系统与信息技术研究所 噪声可识别的高量程加速度传感器共振频率的提取方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000105599A (ja) * 1998-09-29 2000-04-11 Matsushita Electric Ind Co Ltd 雑音レベル時間変動率計算方法及び装置と雑音低減方法 及び装置
JP2010160246A (ja) * 2009-01-07 2010-07-22 Nara Institute Of Science & Technology 雑音抑圧装置およびプログラム
JP2011186384A (ja) * 2010-03-11 2011-09-22 Fujitsu Ltd 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム

Family Cites Families (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5212764A (en) 1989-04-19 1993-05-18 Ricoh Company, Ltd. Noise eliminating apparatus and speech recognition apparatus using the same
JP2859634B2 (ja) 1989-04-19 1999-02-17 株式会社リコー 雑音除去装置
JP3451146B2 (ja) 1995-02-17 2003-09-29 株式会社日立製作所 スペクトルサブトラクションを用いた雑音除去システムおよび方法
AU721270B2 (en) 1998-03-30 2000-06-29 Mitsubishi Denki Kabushiki Kaisha Noise reduction apparatus and noise reduction method
JP3484112B2 (ja) 1999-09-27 2004-01-06 株式会社東芝 雑音成分抑圧処理装置および雑音成分抑圧処理方法
US7254170B2 (en) * 2002-11-06 2007-08-07 Qualcomm Incorporated Noise and channel estimation using low spreading factors
US7133825B2 (en) * 2003-11-28 2006-11-07 Skyworks Solutions, Inc. Computationally efficient background noise suppressor for speech coding and speech recognition
JP4162604B2 (ja) * 2004-01-08 2008-10-08 株式会社東芝 雑音抑圧装置及び雑音抑圧方法
JP4434813B2 (ja) * 2004-03-30 2010-03-17 学校法人早稲田大学 雑音スペクトル推定方法、雑音抑圧方法および雑音抑圧装置
ATE373302T1 (de) * 2004-05-14 2007-09-15 Loquendo Spa Rauschminderung für die automatische spracherkennung
KR100677126B1 (ko) * 2004-07-27 2007-02-02 삼성전자주식회사 레코더 기기의 잡음 제거 장치 및 그 방법
KR20070050058A (ko) * 2004-09-07 2007-05-14 코닌클리케 필립스 일렉트로닉스 엔.브이. 향상된 잡음 억제를 구비한 전화통신 디바이스
WO2006046293A1 (ja) * 2004-10-28 2006-05-04 Fujitsu Limited 雑音抑圧装置
JP2007027897A (ja) 2005-07-12 2007-02-01 Matsushita Electric Ind Co Ltd 雑音抑圧装置
JP5046317B2 (ja) * 2006-04-27 2012-10-10 住友電気工業株式会社 受信機、送信機、伝送システム、及び伝送方法
CN101256772B (zh) * 2007-03-02 2012-02-15 华为技术有限公司 确定非噪声音频信号归属类别的方法和装置
CN101627428A (zh) 2007-03-06 2010-01-13 日本电气株式会社 抑制杂音的方法、装置以及程序
KR101141033B1 (ko) * 2007-03-19 2012-05-03 돌비 레버러토리즈 라이쎈싱 코오포레이션 스피치 개선을 위한 노이즈 분산 추정기
JP5071346B2 (ja) * 2008-10-24 2012-11-14 ヤマハ株式会社 雑音抑圧装置及び雑音抑圧方法
US8737641B2 (en) * 2008-11-04 2014-05-27 Mitsubishi Electric Corporation Noise suppressor
CN101859568B (zh) * 2009-04-10 2012-05-30 比亚迪股份有限公司 一种语音背景噪声的消除方法和装置
CN102804260B (zh) * 2009-06-19 2014-10-08 富士通株式会社 声音信号处理装置以及声音信号处理方法
JP5310494B2 (ja) * 2009-11-09 2013-10-09 日本電気株式会社 信号処理方法、情報処理装置、及び信号処理プログラム
CN102117618B (zh) * 2009-12-30 2012-09-05 华为技术有限公司 一种消除音乐噪声的方法、装置及系统
JP5588233B2 (ja) 2010-06-10 2014-09-10 日本放送協会 雑音抑圧装置およびプログラム
JP2012027186A (ja) 2010-07-22 2012-02-09 Sony Corp 音声信号処理装置、音声信号処理方法及びプログラム
CN102411930A (zh) 2010-09-21 2012-04-11 索尼公司 生成音频模型的方法、设备和检测场景类别的方法、设备
US8762139B2 (en) * 2010-09-21 2014-06-24 Mitsubishi Electric Corporation Noise suppression device

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000105599A (ja) * 1998-09-29 2000-04-11 Matsushita Electric Ind Co Ltd 雑音レベル時間変動率計算方法及び装置と雑音低減方法 及び装置
JP2010160246A (ja) * 2009-01-07 2010-07-22 Nara Institute Of Science & Technology 雑音抑圧装置およびプログラム
JP2011186384A (ja) * 2010-03-11 2011-09-22 Fujitsu Ltd 雑音推定装置、雑音低減システム、雑音推定方法、及びプログラム

Also Published As

Publication number Publication date
JP6182895B2 (ja) 2017-08-23
EP2845190B1 (en) 2016-05-18
RU2014143473A (ru) 2016-06-20
WO2013164981A1 (en) 2013-11-07
US9754606B2 (en) 2017-09-05
BR112014027494B1 (pt) 2021-02-23
RU2597487C2 (ru) 2016-09-10
CA2869884C (en) 2018-01-02
CN104364845A (zh) 2015-02-18
CN104364845B (zh) 2017-03-08
US20150098587A1 (en) 2015-04-09
EP2845190A1 (en) 2015-03-11
SG11201406563YA (en) 2014-11-27
BR112014027494A2 (pt) 2017-06-27
EP2845190A4 (en) 2015-04-29
CA2869884A1 (en) 2013-11-07

Similar Documents

Publication Publication Date Title
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
RU2376722C2 (ru) Способ многосенсорного улучшения речи на мобильном ручном устройстве и мобильное ручное устройство
US7968786B2 (en) Volume adjusting apparatus and volume adjusting method
AU2015240992B2 (en) Situation dependent transient suppression
US11557308B2 (en) Method and apparatus for estimating variability of background noise for noise suppression
US20130144615A1 (en) Method and apparatus for processing an audio signal based on an estimated loudness
WO2012158156A1 (en) Noise supression method and apparatus using multiple feature modeling for speech/noise likelihood
GB2519117A (en) Speech processing
JP6135106B2 (ja) 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム
JP2013068809A (ja) 残響抑制装置および残響抑制方法並びに残響抑制プログラム
JP4914319B2 (ja) コミュニケーション音声処理方法とその装置、及びそのプログラム
JP6098149B2 (ja) 音声処理装置、音声処理方法および音声処理プログラム
CN105869656B (zh) 一种语音信号清晰度的确定方法及装置
WO2024041512A1 (zh) 音频降噪方法、装置、电子设备及可读存储介质
JP6878776B2 (ja) 雑音抑圧装置、雑音抑圧方法及び雑音抑圧用コンピュータプログラム
JP5815435B2 (ja) 音源位置判定装置、音源位置判定方法、プログラム
US20180082703A1 (en) Suitability score based on attribute scores
JP2019053121A (ja) 音声処理プログラム、音声処理方法および音声処理装置
US20160372132A1 (en) Voice enhancement device and voice enhancement method
JP5821584B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
JP2016080767A (ja) 周波数成分抽出装置、周波数成分抽出方法及び周波数成分抽出プログラム
JP2019060976A (ja) 音声処理プログラム、音声処理方法および音声処理装置
US20160099006A1 (en) Electronic device, method, and computer program product
JP2018036442A (ja) 音声処理プログラム、音声処理方法及び音声処理装置
CN114678038A (zh) 音频噪声检测方法、计算机设备和计算机程序产品

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20160114

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170207

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170403

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170627

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170710

R151 Written notification of patent or utility model registration

Ref document number: 6182895

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

LAPS Cancellation because of no payment of annual fees