JP2014123011A - 雑音検出装置および方法、並びに、プログラム - Google Patents

雑音検出装置および方法、並びに、プログラム Download PDF

Info

Publication number
JP2014123011A
JP2014123011A JP2012279013A JP2012279013A JP2014123011A JP 2014123011 A JP2014123011 A JP 2014123011A JP 2012279013 A JP2012279013 A JP 2012279013A JP 2012279013 A JP2012279013 A JP 2012279013A JP 2014123011 A JP2014123011 A JP 2014123011A
Authority
JP
Japan
Prior art keywords
feature
frequency
feature amount
noise
amplitude
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2012279013A
Other languages
English (en)
Inventor
Runyu Shi
潤宇 史
Hiroyuki Honma
弘幸 本間
Yuki Yamamoto
優樹 山本
Toru Chinen
徹 知念
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2012279013A priority Critical patent/JP2014123011A/ja
Priority to US14/104,828 priority patent/US20140180682A1/en
Priority to CN201310683438.XA priority patent/CN103886870A/zh
Publication of JP2014123011A publication Critical patent/JP2014123011A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0224Processing in the time domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain

Abstract

【課題】機器の処理負荷を増加させることなく、様々な突発性の雑音を検出することができるようにする。
【解決手段】振幅特徴量および周波数特徴量を複数フレーム分保持する保持部に保持されている振幅特徴量および周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、特徴変化量を予め設定された閾値と比較することにより、保持部に保持されている振幅特徴量および周波数特徴量を重み付け平均化すべきフレームの区間を特定する区間特定部と、特定された区間のフレームのそれぞれに対応する振幅特徴量および周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、特徴量集合に基づいて、入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える。
【選択図】図1

Description

本技術は、雑音検出装置および方法、並びに、プログラムに関し、特に、機器の処理負荷を増加させることなく、様々な突発性の雑音を検出することができるようにする雑音検出装置および方法、並びに、プログラムに関する。
ICレコーダ、スマートフォン、ビデオカメラなどの録音機器は、内蔵された小型のマイクロホンにより、周辺の音声を録音する。
このような録音機器で録音するときには、ユーザが操作ボタンなど用いて該録音機器を操作するときの操作音、または、録音機器から離隔した位置で発生したキーボードの操作音などが、雑音として録音音声に混入してしまう。
そこで、録音機器において、録音時に雑音として混入する離隔した位置で発生したキーボードの操作音のような特殊な雑音を検出及び低減するための技術が提案されている(例えば、特許文献1参照。)。
特許文献1の雑音検出方法では、主として、録音機器から離隔した位置で発生したキーボードの操作音を検出対象としている。
キーボードの操作音は、一般的に、録音された音声信号上で継続時間が比較的に長いパルス状の雑音信号の集合として現れる。このため、継続時間が比較的に長いパルス状の雑音信号の振幅値(信号レベル)を閾値と比較したり、音声信号には殆どない高周波数域成分を閾値と比較することで、操作音による雑音を容易に検出することが可能である。
また、入力信号が音声(例えば、会話など)であるか非音声であるかを判定する技術も提案されている(例えば、特許文献2参照)。例えば、特許文献2の技術を利用して非音声と判定したフレームが雑音として認識されるようにすることも可能である。
特開2012−027186号公報 特開2009−251134号公報
しかしながら、録音機器により録音された雑音は、必ずしもキーボードの操作音のような、周波数特徴がパルス信号に似る信号ではなく、多人数の大爆笑や、擦り音など特殊な周波数特徴を持つ突発性の雑音も多く発生している。このような雑音は、例えば、特許文献1などの従来の技術により検出することが困難であった。
また、録音機器により録音された突発性の雑音の多く(例えば、長時間の拍手、咳、くしゃみ)は、継続時間が安定せず、分散の大きいほぼ予測不能な値となるため、特許文献1の技術に係る雑音検出方式の1つである減衰特徴量を用いた検出方式により検出することも困難であった。
さらに、特許文献1の技術のような減衰特徴量を用いた検出方式では、比較的に長い時間範囲で信号を分析しているため、その時間範囲分の遅延が生じるという問題があった。
また、特許文献2の技術は、あくまで入力信号が音声であるかどうかを判断する手法であり、雑音の検出を目的としていない。例えば、特許文献2の技術を利用して雑音検出を行なったとしても、その雑音が突発性雑音であるか否かを判断することはできない。
また、特許文献2記載の方式は、計算が複雑であり、例えば、モバイル機器に実装することが難しいと考えられる。
本技術はこのような状況に鑑みて開示するものであり、機器の処理負荷を増加させることなく、様々な突発性の雑音を検出することができるようにするものである。
本技術の一側面は、音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置である。
前記振幅特徴量計算部または前記周波数特徴量計算部は、複数種類の振幅特徴量または複数種類の周波数特徴量のうちの少なくとも2種類の振幅特徴量を計算し、前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の複数のサンプル値の平均値、または、前記所定のフレームの入力信号の複数のサンプル値のRSM値に基づいて、複数種類の振幅特徴量のうち、前記振幅特徴量計算部に計算させる振幅特徴量、または、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する特徴量選択部をさらに備えるようにすることができる。
前記特徴量選択部は、前記所定のフレームの入力信号のゼロ交差率に基づいて、前記所定のフレームの入力信号が母音に近いか子音に近いかを判定し、前記判定結果に応じて前記振幅特徴量計算部に計算させる振幅特徴量、および、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択するようにすることができる。
前記振幅特徴量計算部は、前記所定のフレームの複数のサンプル値の中のピーク値、前記所定のフレームの複数のサンプル値の平均値、または、前記所定のフレームの複数のサンプル値のRMS値のうちの、少なくとも1つを前記振幅特徴量として計算し、前記周波数特徴量計算部は、前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合、前記所定のフレームの入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合、または、前記所定のフレームの入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の1つの値若しくは複数の値のうちの、少なくとも1つを前記周波数特徴量として計算するようにすることができる。
前記雑音判定部は、前記特徴量集合に含まれる前記振幅特徴量の重み付け平均値と予め設定された第1の値との割合、および、前記周波数特徴量の重み付け平均値と予め設定された第2の値との割合を算出し、前記算出された割合に基づいて、雑音尤度を算出し、前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定するようにすることができる。
前記雑音判定部は、前記特徴量集合に含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いた特徴ベクトル空間において、予め学習した識別モデルに基づいて、前記特徴量集合に対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームのであることの確からしさを表す雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定するようにすることができる。
前記入力信号を供給する信号入力装置の周波数特性を補正する周波数特性補正部をさらに備えるようにすることができる。
前記入力信号から前記非定常性雑音とは異なる雑音である定常性雑音を除去する定常性雑音除去部をさらに備えるようにすることができる。
本技術の一側面は、振幅特徴量計算部が、音声の入力信号の所定のフレームの波形における振幅特徴量を計算し、周波数特徴量計算部が、前記所定のフレームの波形における周波数特徴量を計算し、特徴変化量計算部が、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算し、区間特定部が、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定し、特徴量集合生成部が、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成し、雑音判定部が、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定するステップを含む雑音検出方法である。
本技術の一側面は、コンピュータを、音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置として機能させるプログラムである。
本技術の一側面においては、音声の入力信号の所定のフレームの波形における振幅特徴量が計算され、前記所定のフレームの波形における周波数特徴量が計算され、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量が計算され、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間が特定され、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合が、特徴量集合として生成され、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かが判定される。
本技術によれば、機器の処理負荷を増加させることなく、様々な突発性の雑音を検出することができる。
本技術の一実施の形態に係る雑音検出装置の構成例を示すブロック図である。 信号入力部の周波数特性曲線と、周波数特性線形平均の関係を示す図である。 図1のフレーム統合部の詳細な構成例を示すブロック図である。 入力信号の波形、振幅特徴量の変化を示す波形、および特徴変化量の変化を示す波形の図である。 図1の雑音検出装置による雑音検出処理の例を説明するフローチャートである。 図5の統合処理の詳細な例を説明するフローチャートである。 本技術を適用した雑音検出装置の別の実施の形態に係る構成例を示すブロック図である。 図7の特徴量選択部の詳細な構成例を示すブロック図である。 咳と母音および咳と子音の周波数特性の比較の一例を示す図である。 音声信号におけるゼロ交差率の分布の一例を示す図である。 本技術を適用した雑音検出装置のさらに別の実施の形態に係る構成例を示すブロック図である。 パーソナルコンピュータの構成例を示すブロック図である。
以下、図面を参照して、ここで開示する技術の実施の形態について説明する。
図1は、本技術の一実施の形態に係る雑音検出装置の構成例を示すブロック図である。同図に示される雑音検出装置100は、例えば、周囲の音声に含まれる突発性の雑音(非定常性雑音とも称する)を検出するようになされている。ここで、突発性の雑音は、例えば、長時間の拍手、咳、くしゃみなどの音とされる。
図1に示されるように、雑音検出装置100は、周波数特性補正部101、定常性雑音軽減部102、振幅特徴量計算部104、周波数特徴量計算部105、フレーム統合部106、尤度計算部107、および、雑音検出部108により構成されている。
また、雑音検出装置100には信号入力部51が接続され、さらに信号処理装置52が接続されている。
信号入力部51は、周囲の音声を集音マイク、マイクから入力された音声信号を主制御装置から与えられる増幅率で増幅するアンプ、および、アンプから供給されたアナログ信号をデジタル信号に変換するAD変換器を有する構成とされる。
なお、近年では、アンプおよびAD変換器(DA変換器を含む場合もある)が一体化されたモジュールが普及しており、信号入力部51の内部にこのようなモジュールが設けられるようにしてもよい。また、信号入力部51は、記録媒体(例えば、ハードディスク、CD、半導体メモリなど)から直接デジタル音声信号を読み込む機能を有するものとされるようにしてもよい。
周波数特性補正部101は、例えば、信号入力部51の固有周波数特性Fid(n)を補間するフィルタを有する構成とされる。すなわち、信号入力部51から供給されたデジタル信号が、信号入力部51の固有周波数特性に影響されないようにするため、上述したフィルタにより、入力信号から信号入力部51の固有周波数特性の影響が除去される。なお、周波数特性補正部101の処理の詳細については後述する。
周波数特性補正部101は、信号入力部51の固有周波数特性の影響が除去された信号を定常性雑音軽減部に供給する。
定常性雑音軽減部102では、定常性雑音のレベルが算出される。ここで、定常性雑音は、デジタル信号に含まれた周波数特徴および振幅特徴が長い時間区間で変化しない雑音を意味する。例えば、雑音検出装置100、信号入力部51、または信号処理装置52の駆動音、会議室内の空調の音などが定常性雑音とされる。
定常性雑音軽減部102では、計算したレベルの定常性雑音成分を、入力信号から取り除いた後、振幅特徴量計算部104および周波数特徴量計算部105に供給する。定常性雑音の軽減は、例えば、一般的に用いられているノイズリダクションの方式などが採用されるようにしてもよいし、その他の方式が採用されるようにしてもよい。
振幅特徴量計算部104では、定常性雑音軽減部102から供給された入力信号から1以上の振幅特徴量を計算し、フレーム統合部106へ供給する。この振幅特徴量の詳細については後述する。
周波数特徴量計算部105では、定常性雑音軽減部102から供給された入力信号から1以上の周波数特徴量を計算し、フレーム統合部106へ供給する。この周波数特徴量の詳細については後述する。
フレーム統合部106では、振幅特徴量計算部104と周波数特徴量計算部105から供給されたフレーム毎に計算された振幅特徴量および周波数特徴量を、所定数フレーム分収集し、1の特徴量集合F_packとして統合する。なお、統合方式の詳細については後述する。特徴量集合F_packは、尤度計算部107に供給される。
尤度計算部107は、フレーム統合部106で統合された特徴量集合F_packに含まれる特徴量のそれぞれについて、予め定めた閾値との割合を算出する。そして、尤度計算部107は、算出した割合に基づいて、特徴量集合F_packの特徴量毎の雑音尤度を推定し、推定した特徴量毎の雑音尤度の重み付け平均値を入力信号の雑音尤度として算出する。算出された雑音尤度は、雑音検出部108に供給される。なお、雑音尤度の算出方式の詳細については後述する。
雑音検出部108では、尤度計算部107から供給された入力信号の雑音尤度を予め定めた閾値と比較し、入力信号が非定常性雑音かどうかを判定する。雑音検出部108による判定結果は、雑音検出装置100による最終的な検出結果として信号処理装置52に出力される。
信号処理装置52では、雑音検出部108から出力された検出結果を利用した信号処理を行う。また、信号処理装置52には、必要に応じて音声信号を記録する記録部が設けられ、例えば、ハードディスク、CD、半導体メモリなどの記録媒体に音声信号を記録するようになされている。
具体的には、信号処理装置52では、例えば、雑音検出部108から出力された検出結果を利用して、入力信号の音声部分だけに適応した録音感度の算出を行う。例えば、雑音を含んだ周囲の音声の中から、雑音を除いた音声を録音するために適した録音感度を算出する。
また、信号処理装置52では、雑音検出部108から出力された検出結果を利用した適応処理を行う。例えば、信号処理装置52では、検出結果を利用して、雑音を軽減する処理を実行する。
あるいはまた、信号処理装置52では、検出結果を利用して、雑音の種類(咳、くしゃみ、笑い声など)を知り、その雑音の種類から、入力信号の録音環境を推定し、その情報をフィードバックするようにしてもよい。例えば、雑音の種類が咳である場合、録音環境にいる人の健康状況が良くない旨を表す情報をフィードバックし、雑音の種類がくしゃみである場合、その場の空気が清潔ではない旨を表す情報をフィードバックし、雑音の種類が笑い声である場合、発言が面白い旨の情報をフィードバックするなどしてもよい。
次に、周波数特性補正部101の処理の詳細について説明する。周波数特性補正部101は、信号入力部51から、フレームnに対応する入力信号S(n)を取得する。ここで、入力信号S(n)は、式(1)のように定義する。
Figure 2014123011
式(1)において、Lは、AD変換におけるサンプリングの結果得られるサンプル値であって、1つのフレームに含まれるサンプル値の数を表すものとし、式(1)により第n番目のフレームに含まれるサンプル値の集合が得られるものとする。
そして、周波数特性補正部101は、予め測定して得られた信号入力部51の固有周波数特性Fid(n)に基づいて、固有周波数特性Fid(n)を補正するフィルタHidを生成し、入力信号S(n)を、フィルタHidによって処理することで、入力信号S(n)から固有周波数特性Fid(n)を除去するように補正する。
図2は、縦軸を音圧、横軸を周波数とし、信号入力部51の固有周波数特性を表す周波数特性曲線と、理想的な周波数特性である周波数特性線形平均の関係を示す図である。図2に示されるように、周波数特性曲線は、周波数が3kHz,7kHz,11kHz,15kHz付近で、それぞれ−6dB,+11dB,+8dB,―15dBだけ周波数特性線形平均と異なっている。この場合、周波数が3kHz,7kHz,11kHz,15kHz付近で、それぞれ+6dB,―11dB,−8dB,+15dBだけ補正するHidを生成することにより、入力信号S(n)から固有周波数特性Fid(n)を除去するように補正することが可能となる。
なお、図2において抽出された周波数である3kHz,7kHz,11kHz,15kHz付近は、例えば、音圧が周波数特性線形平均から最も離れており、補正が必要となる周波数として選択された周波数とされる。
あるいはまた、周波数特性補正部101は、信号入力部51の固有周波数特性Fid(n)に応じたマッピングテーブルを生成し、後述する振幅特徴量の算出および周波数特徴量の算出の際に、そのマッピングテーブルを振幅特徴量計算部104および周波数特徴量計算部105に供給するようにしてもよい。例えば、周波数が3kHz,7kHz,11kHz,15kHz付近で、それぞれ+6dB,―11dB,−8dB,+15dBだけ音圧を付加する旨を表す情報をマッピングテーブルとし、振幅特徴量計算部104および周波数特徴量計算部105に供給する。
なお、定常性雑音軽減部102においても、周波数特性補正部101と同様にマッピングテーブルを作成し、定常性雑音が軽減されるようにしてもよい。
次に、振幅特徴量の詳細について説明する。
振幅特徴量計算部104では、入力信号S(n)の振幅特性を解析し、フレームnの振幅特性を表す振幅特徴量を算出する。ここでは、フレームnの振幅特徴量として、E(n)、E(n)、およびE(n)を算出するものとする。
(n)は、フレームnに含まれるL個のサンプル値のピーク値を表す振幅特徴量であって、式(2)により算出される。
Figure 2014123011
(n)は、フレームnに含まれるL個のサンプル値の平均値を表す振幅特徴量であって、式(3)により算出される。
Figure 2014123011
(n)は、フレームnに含まれるL個のサンプル値のRMS(Root Mean Square)値を表す振幅特徴量であって、式(4)により算出される。
Figure 2014123011
なお、式(3)および式(4)においては、サンプル値の線形平均を算出する例を示したが、例えば、サンプル値の対数平均、または、サンプル値の線形平均と対数平均を重み付けして加算することにより得られた値などを用いるようにしてもよい。
さらに、E(n)、E(n)、およびE(n)を算出する前に、入力信号S(n)をハイパスフィルタによって処理し、入力信号に含まれるDC成分のノイズが除去されるようにしてもよい。
なお、上述したE(n)、E(n)、およびE(n)以外の振幅特徴量が算出されるようにしてもよい。
次に、周波数特徴量の詳細について説明する。
周波数特徴量計算部105では、入力信号S(n)の周波数特性を解析し、フレームnの周波数特性を表す周波数特徴量を算出する。ここでは、フレームnの周波数特徴量として、F(n)、F(n)、F(n)、およびF(n)を算出するものとする。
(n)は、入力信号のゼロ交差率を表す特徴量であって、式(5)により算出される。
Figure 2014123011
式(5)におけるsymbol(i)は、式(6)により表される。
Figure 2014123011
(n)は、入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合を表す特徴量であって、式(7)により算出される。
Figure 2014123011
式(7)におけるE(n)は、式(4)により算出されるE(n)とされる。
また、式(7)に示されるSigbpf_1(i)、Sigbpf_2(i)、・・・は、式(8)により算出される。
Figure 2014123011
なお、式(8)におけるFbpf_m(h)は、第m番目の周波数成分を抽出するためのフィルタの係数を表すものとする。
(n)は、入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合を表す特徴量であって、式(9)により算出される。
Figure 2014123011
式(9)に示されるbpfa1_rms(n)、bpfa2_rms(n)、bpfb1_rms(n)、bpfb2_rms(n)、・・・のそれぞれは、式(7)の分子として示されたbpf1rms(n)、bpf2rms(n)、・・・と同様にして算出される。ただし、bpfa1_rms(n)、bpfa2_rms(n)、bpfb1_rms(n)、bpfb2_rms(n)、・・・を算出する場合、それぞれの周波数成分に対応するFbpf_m(h)が用いられるものとする。
(n)は、入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の1つの値または複数の値から成る特徴量であって、式(10)により算出される。
Figure 2014123011
なお、F(n)、F(n)、F(n)、およびF(n)を算出する前に、入力信号S(n)をハイパスフィルタによって処理し、入力信号に含まれるDC成分のノイズが除去されるようにしてもよい。
ここでは、振幅特徴量計算部104がE(n)、E(n)、およびE(n)を算出し、周波数特徴量計算部105がF(n)、F(n)、F(n)、およびF(n)を算出すると説明した。しかし、振幅特徴量計算部104がE(n)、E(n)、およびE(n)のうち、いずれか1つまたは2つを算出し、周波数特徴量計算部105がF(n)、F(n)、F(n)、およびF(n)のうち、いずれか1つ乃至3つを算出するようにしてもよい。
なお、上述したF(n)、F(n)、F(n)、およびF(n)以外の周波数特徴量が算出されるようにしてもよい。
次に、フレーム統合部106による統合方式の詳細について説明する。
図3は、フレーム統合部106の詳細な構成例を示す図である。同図に示されるように、フレーム統合部106は、特徴保持部121、統合対象判定部122、重み計算部123、および統合部124により構成されている。
特徴保持部121は、振幅特徴量計算部104から供給される振幅特徴量および周波数特徴量計算部105から供給される周波数特徴量を、過去の所定数のフレーム分(例えば、aフレーム分)だけ保持する。
統合対象判定部122は、特徴保持部121に保持された振幅特徴量または周波数特徴量を用いて統合対象となるフレームを次のようにして判定する。
統合対象判定部122では、特徴保持部121に保持されている振幅特徴量または周波数特徴量のうちいずれか1つの特徴量Fを用いて、この特徴量のフレーム間の特徴量の変化を表す特徴変化量F_diffを算出する。
例えば、特徴保持部121に、E(n)、E(n)、E(n)、F(n)、F(n)、F(n)、およびF(n)が保持されている場合、E(n)を用いて、i−1番目のフレームの振幅特徴量E(i−1)と、i番目のフレームの振幅特徴量E(i)の変化を表す特徴変化量F_diffを算出する。
特徴変化量F_diffは、式(11)により算出される。
Figure 2014123011
統合対象判定部122は、特徴保持部121に保持されている全フレーム分の特徴量を用いて各フレーム間の特徴変化量を順次算出する。そして、算出された特徴変化量をそれぞれ予め設定された閾値F_diff_thと比較する。過去のフレームにおいて、最初に特徴変化量F_diffが閾値F_diff_thを超えたフレームを統合対象開始フレームとし、統合対象開始フレームから現在のフレームnまでのフレーム(例えば、bフレーム)の振幅特徴量と周波数特徴量を統合対象として判定する。この判定結果は、重み計算部163に供給される。
図4を参照してさらに詳細に説明する。図4は、横軸がフレームとされ、図中上から順番に、入力信号の波形、入力信号から算出された振幅特徴量の変化を示す波形、および振幅特徴量に基づいて算出された特徴変化量の変化を示す波形がそれぞれ示されている。図4の場合、例えば、会議の音声の中に咳の音が混入しているものとする。
いま、現在のフレームが第460番目のフレームとされ、特徴保持部121には、第441番目のフレーム乃至第460番目のフレームの20フレーム分の振幅特徴量と周波数特徴量が保持されているものとする。
図4の例では、20フレーム分の振幅特徴量の中で、第452番目のフレームに対応する特徴変化量が最初に閾値F_diff_th(=1.2)を超えている。従って、第452番目のフレームが統合対象開始フレームとされ、第460番目のフレームまでの9フレームが統合対象とされることになる。
このようにして統合対象となるフレームが判定される。
重み計算部163は、特徴保持部121に保持されている特徴量のうちの1つの特徴量Fを用いて、現在のフレームの特徴量Fと統合対象となる他のフレームの特徴量Fとの差または比に基づいて重みを計算する。第i番目のフレームの重みW(i)は、式(12)または式(13)により計算される。
Figure 2014123011
Figure 2014123011
なお、式(12)は、現在のフレームの特徴量Fと統合対象となる他のフレームの特徴量Fとの差に基づいて重みを計算する場合の式を示しており、式(13)は、現在のフレームの特徴量Fと統合対象となる他のフレームの特徴量Fとの比に基づいて重みを計算する場合の式を示している。
なお、重み計算部163が用いる特徴量Fは、統合対象判定部122が用いる特徴量Fと同じであってもよいし、異なってもよい。
重み計算部163で計算された重みは、統合部124に供給される。
統合部124は、重み計算部163から供給された重みを用いて振幅特徴量の重み付け平均値Es(n)を式(14)により計算する。
Figure 2014123011
式(14)において、nは現在のフレームを表しており、bは統合対象となったフレーム数を表している。また、上述したように、複数の振幅特徴量(例えば、E(n)、E(n)、およびE(n))が特徴保持部121に保持されている場合、式(14)におけるE(n)を、E(n)、E(n)、およびE(n)のそれぞれとし、振幅特徴量の、重み付け平均値Es(n)乃至重み付け平均値Es(n)がそれぞれ算出される。
また、統合部124は、重み計算部163から供給された重みを用いて周波数特徴量の重み付け平均値Fs(n)を式(15)により計算する。
Figure 2014123011
式(15)において、nは現在のフレームを表しており、bは統合対象となったフレーム数を表している。また、上述したように、複数の周波数特徴量(例えば、F(n)、F(n)、F(n)、およびF(n))が特徴保持部121に保持されている場合、式(14)におけるF(n)を、F(n)、F(n)、F(n)、およびF(n)のそれぞれとし、周波数特徴量の重み付け平均値Fs(n)乃至Fs(n)がそれぞれ算出される。
そして、統合部124は、振幅特徴量の重み付け平均値Es(n)および周波数特徴量の重み付け平均値Fs(n)の集合を特徴量集合F_packとして尤度計算部107に供給する。
なお、フレーム統合部106に、重み計算部163が含まれないようにし、統合部124では、統合対象判定部122で判定した統合対象のフレームの振幅特徴量と周波数特徴量の単純平均のセットを統合して特徴量集合F_packを生成するようにしてもよい。
また、フレーム統合部106に、統合対象判定部162が含まれないようにし、重み計算部123では、特徴保持部121で保持した全フレームの重みを計算し、統合部124では、全フレームの振幅特徴量と周波数特徴量の重み付け平均の集合を統合した特徴量集合F_packを生成するようにしてもよい。
さらに、フレーム統合部106に、統合対象判定部162および重み計算部163が含まれないようにし、統合部124では、特徴保持部121で保持した全フレームの振幅特徴量と周波数特徴量の単純な平均値のセットを特徴量集合F_packとして生成するようにしてもよい。
尤度計算部107は、フレーム統合部106で統合された特徴量集合F_packに含まれる特徴量のそれぞれについて、予め定めた閾値との割合を算出する。
例えば、振幅特徴量に対応する閾値E_thと周波数特徴量に対応する閾値F_thが予め定められている。
尤度計算部107は、特徴量集合F_packに含まれる振幅特徴量の重み付け平均値についての閾値E_thの割合R(n)を式(16)により計算する。
Figure 2014123011
また、尤度計算部107は、特徴量集合F_packに含まれる周波数特徴量の重み付け平均値についての閾値F_thの割合R(n)を式(17)により計算する。
Figure 2014123011
そして、尤度計算部107は、割合R(n)と割合R(n)のそれぞれに、予め定められた重みAと重みAを乗じて、重み付け加算値を算出する。この重み付け加算値は、式(18)により算出され、入力信号の第n番目のフレームに対応する雑音尤度R(n)として雑音検出部108に供給される。
Figure 2014123011
雑音検出部108は、尤度計算部107から供給された入力信号の雑音尤度を予め定めた閾値と比較し、入力信号の第n番目のフレームが非定常性雑音のフレームであるか否かを判定する。例えば、非定常性雑音を判定するための雑音尤度閾値R_thが予め定められており、雑音尤度R(n)が雑音尤度閾値R_thより大きい場合、入力信号の第n番目のフレームが非定常性雑音のフレームであると判定する。一方、雑音尤度R(n)が雑音尤度閾値R_th以下である場合、入力信号の第n番目のフレームが非定常性雑音のフレームではないと判定する。
このようにして、非定常性雑音が検出される。本技術では、上述したように、少なくとも1つの振幅特徴量、および、少なくとも1つの周波数特徴量を用いて非定常性雑音であるか否かの判定が行われるようにしたので、非定常性雑音をより精度高く検出することができる。
また、フレーム統合部106において、統合対象のフレームが特定されるので、特徴量集合F_packに含まれる特徴量の計算の負荷を軽減することができる。これにより、例えば、小型の省電力機器などにも、雑音検出装置100を搭載することが可能となる。
さらに、雑音尤度閾値を、咳を検出するための専用の雑音尤度閾値とすることで、咳のみを非定常性雑音として判定することができ、拍手を検出するための専用の雑音尤度閾値とすることで、拍手のみを非定常性雑音として判定することができる。このように、本技術では、雑音尤度閾値を適切に設定することにより、非定常性雑音の種類を特定することも可能となる。
上述した例では、尤度計算部107が、予め設定された振幅特徴量に対応する閾値E_thと周波数特徴量に対応する閾値F_thとに基づく閾値比較を行い、式(16)乃至式(18)の計算を行って雑音尤度を計算するものとした。
しかしながら、例えば、尤度計算部107が、予め学習した識別モデルMを用いて特徴量集合F_packから雑音尤度を計算するようにしてもよい。この場合、識別モデルMとして、例えば、ガウス混合モデル(GMM)、隠れマルコフモデル(HMM)、サポートベクターマシン(SVM)などを採用することができる。
すなわち、特徴量集合F_packに含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いて特徴ベクトル空間が生成される。そして、尤度計算部107が、前記特徴ベクトル空間において予め学習した識別モデルに基づいて、特徴量集合F_packに対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームであることの確からしさを表す雑音尤度を算出する。
なお、これらの識別モデルを用いた尤度の算出方式については従来より一般に採用されているものと同様である。
次に、図5のフローチャートを参照して、雑音検出装置100による雑音検出処理の例について説明する。
ステップS21において、周波数特性補正部101は、信号入力部51から出力される入力信号S(n)を取得する。
ステップS22において、周波数特性補正部101は、信号入力部51の固有周波数特性Fid(n)を補正する。このとき、例えば、図2を参照して上述したような固有周波数特性が補正され、入力信号から信号入力部51の固有周波数特性の影響が除去される。
ステップS23において、定常性雑音軽減部102は、定常性雑音を除去する。これにより、例えば、雑音検出装置100、信号入力部51、または信号処理装置52の駆動音、会議室内の空調の音などが除去される。
ステップS24において、振幅特徴量計算部104は、定常性雑音軽減部102から供給された入力信号から振幅特徴量を計算する。このとき、フレームnの振幅特徴量として、上述したE(n)、E(n)、およびE(n)の少なくとも1つが算出される。
ステップS25において、周波数特徴量計算部105は、定常性雑音軽減部102から供給された入力信号から周波数特徴量を計算する。このとき、フレームnの周波数特徴量として、上述したF(n)、F(n)、F(n)、およびF(n)の少なくとも1つが算出される。
ステップS26において、フレーム統合部106は、図6を参照して後述する統合処理を実行する。これにより、ステップS24の処理で計算された振幅特徴量、および、ステップS25の処理で計算された周波数特徴量が、所定数フレーム分統合され、振幅特徴量の重み付け平均値Es(n)および周波数特徴量の重み付け平均値Fs(n)が算出される。そして、振幅特徴量の重み付け平均値Es(n)および周波数特徴量の重み付け平均値Fs(n)の集合が特徴量集合F_packとして出力される。
ステップS27において、尤度計算部107は、入力信号の雑音尤度を計算する。このとき、上述したように、特徴量集合F_packに含まれる特徴量のそれぞれについて、振幅特徴量に対応する閾値E_thと周波数特徴量に対応する閾値F_thとの割合が算出される。そして、割合R(n)と割合R(n)のそれぞれに、予め定められた重みAと重みAを乗じて、重み付け加算値が算出され、入力信号の第n番目のフレームに対応する雑音尤度R(n)とされる。
ステップS28において、雑音検出部108は、雑音尤度R(n)が雑音尤度閾値R_thより大きいか否かを判定する。
ステップS28において、雑音尤度R(n)が雑音尤度閾値R_thより大きいと判定された場合、処理は、ステップS29に進む。
ステップS29において、雑音検出部108は、入力信号の第n番目のフレームが非定常性雑音のフレームであると判定する。
一方、ステップS28において、雑音尤度R(n)が雑音尤度閾値R_thより大きくないと判定された場合、処理は、ステップS30に進む。
ステップS30において、雑音検出部108は、入力信号の第n番目のフレームが非定常性雑音のフレームではないと判定する。
このようにして雑音検出処理が実行される。
次に、図6のフローチャートを参照して、図5のステップS26の統合処理の詳細な例について説明する。
ステップS51において、統合対象判定部122は、特徴保持部121に保持されている振幅特徴量と周波数特徴量を取得する。
ステップS52において、統合対象判定部122は、ステップS51で取得した振幅特徴量または周波数特徴量のうちいずれか1つの特徴量Fを用いて、この特徴量のフレーム間の特徴量の変化を表す特徴変化量F_diffを算出する。なお、特徴変化量F_diffは、特徴保持部121に保持されている振幅特徴量と周波数特徴量に対応する全フレーム分算出される。
例えば、特徴保持部121に、E(n)、E(n)、E(n)、F(n)、F(n)、F(n)、およびF(n)が保持されている場合、E(n)を用いて、i−1番目のフレームの振幅特徴量E(i−1)と、i番目のフレームの振幅特徴量E(i)の変化を表す特徴変化量F_diff(i)が算出される。
ステップS53において、統合対象判定部122は、変数iに現在のフレームを表す番号nをセットする。
ステップS54において、統合対象判定部122は、特徴変化量F_diff(i)を予め設定された閾値F_diff_thと比較し、特徴変化量F_diff(i)が閾値F_diff_thを超えたか否かを判定する。
ステップS54において、特徴変化量F_diff(i)が閾値F_diff_thを超えていないと判定された場合、処理は、ステップS55に進む。
ステップS55において、変数iがデクリメントされ、処理は、ステップS54に戻る。
一方、ステップS54において、特徴変化量F_diff(i)が閾値F_diff_thを超えたと判定された場合、処理は、ステップS56に進む。
ステップS56において、統合対象判定部122は、i番目のフレーム(iフレーム)からn番目のフレーム(nフレーム)までを統合対象として判定する。いまの場合、iフレームが統合対象開始フレームとされたことになる。
ステップS57において、重み計算部163は、特徴保持部121に保持されている特徴量のうちの1つの特徴量Fを用い、現在のフレームの特徴量Fと統合対象となる他のフレームの特徴量Fとの差または比に基づいて重みを計算する。なお、重み計算部163が用いる特徴量Fは、統合対象判定部122が用いる特徴量Fと同じであってもよいし、異なってもよい。
重み計算部163で計算された重みは、統合部124に供給される。
統合部124は、重み計算部163から供給された重みを用いて振幅特徴量の重み付け平均値Es(n)を式(14)により計算する。
ステップS58において、統合部124は、ステップS57の処理で計算された重みを用いて振幅特徴量の重み付け平均値Es(n)および周波数特徴量の重み付け平均値Fs(n)を計算する。
ステップS59において、統合部124は、振幅特徴量の重み付け平均値Es(n)および周波数特徴量の重み付け平均値Fs(n)の集合を特徴量集合F_packとして生成する。
このようにして、統合処理が実行される。
図7は、本技術を適用した雑音検出装置100の別の実施の形態に係る構成例を示すブロック図である。図7の構成における雑音検出装置100には、図1の場合とは異なり、特徴量選択部103が設けられている。図7の雑音検出装置100のそれ以外の構成は、図1の場合と同様である。
特徴量選択部103は、定常性雑音軽減部102の処理を経て出力される入力信号に基づいて、振幅特徴量計算部104が計算すべき振幅特徴量、および、周波数特徴量計算部105が計算すべき周波数特徴量を特定する。これにより、振幅特徴量計算部104および周波数特徴量計算部105の計算負荷を軽減することができる。
図8は、特徴量選択部103の詳細な構成例を示すブロック図である。同図に示されるように、特徴量選択部103は、特徴計算部131、特徴判定部132、および、選択情報出力部133により構成されている。
特徴計算部131は、入力信号の特徴量を計算し、特徴判定部132に供給する。特徴計算部131により計算される特徴量は、例えば、上述した上述した振幅特徴量である、E(n)、E(n)、およびE(n)、または上述した周波数特徴量である、F(n)、F(n)、F(n)、およびF(n)の中の1つとされる。
特徴判定部132では、特徴計算部131から供給された特徴量を閾値と比較し、その結果から、当該フレームの入力信号の特徴タイプを判定し、その特徴タイプを選択情報出力部133に供給する。
選択情報出力部133では、特徴判定部132から供給された特徴タイプを用いて、それぞれの特徴タイプに対応した特徴選択情報を選択し、その特徴選択情報を、振幅特徴量計算部104および周波数特徴量計算部105に出力する。ここで、特徴選択情報は、振幅特徴量計算部104が計算すべき振幅特徴量、および、周波数特徴量計算部105が計算すべき周波数特徴量を特定する情報とされる。
図9は、非定常性雑音の1つである咳の周波数特性を説明する図であって、咳と母音および咳と子音の周波数特性の比較の一例を示す図である。同図は、横軸が周波数とされ、縦軸が音圧レベルとされ、咳の音声に係る周波数特性と通常の言葉の音声に係る周波数特性が折れ線により示されている。同図の上側には、母音の音声と咳の音声と咳の音声の周波数性が示されており、同図の下側には、子音の音声と咳の音声の周波数特性が示されている。
同図の上側に示されるように、咳の音声と母音の音声とを比較した場合、1.4kHz以下の区間、4kHzから6.8kHzまでの区間、および11.7kHz以上の区間で、音圧レベルが大きく異なっている。つまり、これらの区間の周波数特徴量、例えば、1.4kHz以下の周波数域成分、4kHzから6.8kHzまでの周波数域成分、および11.7kHz以上の周波数域成分を取り出すフィルタを用い、入力信号の全ての周波数成分に対する上述した区間の周波数成分の比率を表すパラメータの集合などを算出すれば、簡単に咳の音声と母音の音声とを区別することができる。
また、同図の下側に示されるように、咳の音声と子音の音声とを比較した場合、1.8kHz以下の区間、6.5kHzから8.8kHzまでの区間、及び17.7kHz以上の区間で、音圧レベルが大きく異なっている。つまり、咳の音声と母音の音声との比較の場合と同様に各区間の周波数域成分を取り出すフィルタを用い、簡単に咳の音声と子音の音声とを区別することができる。
しかし、咳と母音の比較、咳と子音の比較には、それぞれ異なる周波数成分を抽出する必要があり、高い精度で咳を検出するためには、合計6通りの周波数成分に係る特徴量を算出する必要がある。すなわち、入力信号が母音に近い音声であるのか、または子音に近い音声であるのかが事前に分かっていなければ、その両方の場合を想定して特徴量を算出しなければならない。
例えば、予め入力信号が母音に近い音声であるのか、または子音に近い音声であるのかを認識することが可能であれば、合計3通りの周波数成分に係る特徴量の算出のみで足りるので、特徴量の算出に係る負荷を軽減することが可能となる。
図10は、複数の音声信号をサンプルとした実験の結果得られた、音声信号のゼロ交差率の分布の一例を示す図である。同図は、横軸がゼロ交差率を表し、縦軸が当該ゼロ交差率を有する音声信号のフレーム単位のサンプル数を表している。
図10に示されるように、サンプルの分布には、ゼロ交差率0.05を境界として、2つのガウシアン特性が見られる。ゼロ交差率が0.05以下にあるサンプルは、そのほとんどが母音であることが分かっている。一方、ゼロ交差率が0.05以上であるサンプルは、そのほとんどが子音であることが分かっている。
すなわち、ゼロ交差率0.05を閾値F_thとし、入力信号のゼロ交差率を閾値F_thと比較することにより、入力信号が母音に近い音声であるのか、または子音に近い音声であるのかを認識することが可能となる。
特徴量選択部103の特徴計算部131は、例えば、入力信号のゼロ交差率を計算し、特徴判定部132では、入力信号のゼロ交差率を閾値F_thと比較し、その結果から、当該フレームの入力信号の特徴タイプが母音であるか子音であるかを判定する。これにより、振幅特徴量計算部104が計算すべき振幅特徴量、および、周波数特徴量計算部105が計算すべき周波数特徴量が、母音用の特徴量または子音用の特徴量とされる。
このように、特徴量選択部103を設けることにより、振幅特徴量計算部104および周波数特徴量計算部105の計算負荷を軽減することができる。
なお、ここでは、特徴量選択部103が、当該フレームの入力信号の特徴タイプが母音であるか子音であるかを判定する例について説明したが、例えば、当該フレームの入力信号の特徴タイプが音圧が大きいもの(大音圧)であるか音圧が小さいもの(小音圧)であるかを判定するようにしてもよい。例えば、小音圧の場合(音量が小さい場合)は、良好なS/N特性を得られにくいので、定常性雑音に影響されにくい特徴量が選択されるようにしてもよい。
この場合、ゼロ交差率に代えて、フレームnに含まれるL個のサンプル値の平均値を表す振幅特徴量(E(n))、または、フレームnに含まれるL個のサンプル値のRMS値を表す振幅特徴量(E(n))を閾値と比較することで当該フレームの入力信号の特徴タイプを判定するようにすればよい。
図11は、本技術を適用した雑音検出装置100のさらに別の実施の形態に係る構成例を示すブロック図である。図11の構成における雑音検出装置100には、図1の場合とは異なり、周波数特性補正部101、定常性雑音軽減部102、フレーム統合部106、および尤度計算部107が設けられていない。図11の雑音検出装置100のそれ以外の構成は、図1の場合と同様である。
図11の構成の場合、雑音検出装置100は、信号入力部51から供給された入力信号から直接、振幅特徴量および周波数特徴量を計算し、それらの振幅特徴量および周波数特徴量を直接利用して当該フレームが非定常性雑音のフレームであるか否かの判定を行う。この場合、雑音検出部108は、例えば、振幅特徴量および周波数特徴量のそれぞれを閾値判定し、判定結果に対応して当該フレームが非定常性雑音のフレームであるか否かの判定を行うことになる。
あるいはまた、図11に示される雑音検出装置100に、周波数特性補正部101、定常性雑音軽減部102、フレーム統合部106、および尤度計算部107のうちの、いずれか1つ乃至3つを追加する構成を採用することも可能である。
なお、上述した一連の処理は、ハードウェアにより実行させることもできるし、ソフトウェアにより実行させることもできる。上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば図12に示されるような汎用のパーソナルコンピュータ700などに、ネットワークや記録媒体からインストールされる。
図12において、CPU(Central Processing Unit)701は、ROM(Read Only Memory)702に記憶されているプログラム、または記憶部708からRAM(Random Access Memory)703にロードされたプログラムに従って各種の処理を実行する。RAM703にはまた、CPU701が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU701、ROM702、およびRAM703は、バス704を介して相互に接続されている。このバス704にはまた、入出力インタフェース705も接続されている。
入出力インタフェース705には、キーボード、マウスなどよりなる入力部706、LCD(Liquid Crystal display)などよりなるディスプレイ、並びにスピーカなどよりなる出力部707、ハードディスクなどより構成される記憶部708、モデム、LANカードなどのネットワークインタフェースカードなどより構成される通信部709が接続されている。通信部709は、インターネットを含むネットワークを介しての通信処理を行う。
入出力インタフェース705にはまた、必要に応じてドライブ710が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア711が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部708にインストールされる。
上述した一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが、インターネットなどのネットワークや、リムーバブルメディア711などからなる記録媒体からインストールされる。
なお、この記録媒体は、図12に示される、装置本体とは別に、ユーザにプログラムを配信するために配布される、プログラムが記録されている磁気ディスク(フロッピディスク(登録商標)を含む)、光ディスク(CD-ROM(Compact Disk-Read Only Memory),DVD(Digital Versatile Disk)を含む)、光磁気ディスク(MD(Mini-Disk)(登録商標)を含む)、もしくは半導体メモリなどよりなるリムーバブルメディア711により構成されるものだけでなく、装置本体に予め組み込まれた状態でユーザに配信される、プログラムが記録されているROM702や、記憶部708に含まれるハードディスクなどで構成されるものも含む。
なお、本明細書において上述した一連の処理は、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
なお、本技術は以下のような構成も取ることができる。
(1)
音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部と
を備える雑音検出装置。
(2)
前記振幅特徴量計算部または前記周波数特徴量計算部は、複数種類の振幅特徴量または複数種類の周波数特徴量のうちの少なくとも2種類の振幅特徴量を計算し、
前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の複数のサンプル値の平均値、または、前記所定のフレームの入力信号の複数のサンプル値のRSM値に基づいて、複数種類の振幅特徴量のうち、前記振幅特徴量計算部に計算させる振幅特徴量、または、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する特徴量選択部をさらに備える
(1)に記載の雑音検出装置。
(3)
前記特徴量選択部は、
前記所定のフレームの入力信号のゼロ交差率に基づいて、前記所定のフレームの入力信号が母音に近いか子音に近いかを判定し、前記判定結果に応じて前記振幅特徴量計算部に計算させる振幅特徴量、および、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する
(2)に記載の雑音検出装置。
(4)
前記振幅特徴量計算部は、
前記所定のフレームの複数のサンプル値の中のピーク値、前記所定のフレームの複数のサンプル値の平均値、または、前記所定のフレームの複数のサンプル値のRMS値のうちの、少なくとも1つを前記振幅特徴量として計算し、
前記周波数特徴量計算部は、
前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合、前記所定のフレームの入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合、または、前記所定のフレームの入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の1つの値若しくは複数の値のうちの、少なくとも1つを前記周波数特徴量として計算する
(1)乃至(3)のいずれかに記載の雑音検出装置。
(5)
前記雑音判定部は、
前記特徴量集合に含まれる前記振幅特徴量の重み付け平均値と予め設定された第1の値との割合、および、前記周波数特徴量の重み付け平均値と予め設定された第2の値との割合を算出し、
前記算出された割合に基づいて、雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
(1)乃至(4)のいずれかに記載の雑音検出装置。
(6)
前記雑音判定部は、
前記特徴量集合に含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いた特徴ベクトル空間において、予め学習した識別モデルに基づいて、前記特徴量集合に対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームのであることの確からしさを表す雑音尤度を算出し、
前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
(1)乃至(5)のいずれかに記載の雑音検出装置。
(7)
前記入力信号を供給する信号入力装置の周波数特性を補正する周波数特性補正部をさらに備える
(1)乃至(6)のいずれかに記載の雑音検出装置。
(8)
前記入力信号から前記非定常性雑音とは異なる雑音である定常性雑音を除去する定常性雑音除去部をさらに備える
(1)乃至(7)のいずれかに記載の雑音検出装置。
(9)
振幅特徴量計算部が、音声の入力信号の所定のフレームの波形における振幅特徴量を計算し、
周波数特徴量計算部が、前記所定のフレームの波形における周波数特徴量を計算し、
特徴変化量計算部が、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算し、
区間特定部が、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定し、
特徴量集合生成部が、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成し、
雑音判定部が、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定するステップ
を含む雑音検出方法。
(10)
コンピュータを、
音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置として機能させる
プログラム。
51 信号入力部, 52 信号処理装置, 100 雑音検出装置, 101 周波数特性補正部, 102 定常性雑音軽減部, 103 特徴量選択部, 104 振幅特徴量計算部, 105 周波数特徴量計算部, 106 フレーム統合部, 107 尤度計算部, 108 雑音検出部, 121 特徴保持部, 122 統合対象判定部, 123 重み計算部, 124 統合部, 131 特徴計算部, 132 特徴判定部, 133 選択情報出力部, 711 リムーバブルメディア

Claims (10)

  1. 音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
    前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
    前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
    前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
    前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
    前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部と
    を備える雑音検出装置。
  2. 前記振幅特徴量計算部または前記周波数特徴量計算部は、複数種類の振幅特徴量または複数種類の周波数特徴量のうちの少なくとも2種類の振幅特徴量を計算し、
    前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の複数のサンプル値の平均値、または、前記所定のフレームの入力信号の複数のサンプル値のRSM値に基づいて、複数種類の振幅特徴量のうち、前記振幅特徴量計算部に計算させる振幅特徴量、または、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する特徴量選択部をさらに備える
    請求項1に記載の雑音検出装置。
  3. 前記特徴量選択部は、
    前記所定のフレームの入力信号のゼロ交差率に基づいて、前記所定のフレームの入力信号が母音に近いか子音に近いかを判定し、前記判定結果に応じて前記振幅特徴量計算部に計算させる振幅特徴量、および、複数種類の周波数特徴量のうち、前記周波数特徴量計算部に計算させる周波数特徴量を選択する
    請求項2に記載の雑音検出装置。
  4. 前記振幅特徴量計算部は、
    前記所定のフレームの複数のサンプル値の中のピーク値、前記所定のフレームの複数のサンプル値の平均値、または、前記所定のフレームの複数のサンプル値のRMS値のうちの、少なくとも1つを前記振幅特徴量として計算し、
    前記周波数特徴量計算部は、
    前記所定のフレームの入力信号のゼロ交差率、前記所定のフレームの入力信号の中で全ての周波数成分の音圧に対する特定の周波数成分の音圧の割合、前記所定のフレームの入力信号の中で特定の周波数成分とは異なる周波数成分の音圧に対する当該特定の周波数成分の音圧の割合、または、前記所定のフレームの入力信号をフーリエ変換して得られた周波数スペクトルのうちの特定の1つの値若しくは複数の値のうちの、少なくとも1つを前記周波数特徴量として計算する
    請求項1に記載の雑音検出装置。
  5. 前記雑音判定部は、
    前記特徴量集合に含まれる前記振幅特徴量の重み付け平均値と予め設定された第1の値との割合、および、前記周波数特徴量の重み付け平均値と予め設定された第2の値との割合を算出し、
    前記算出された割合に基づいて、雑音尤度を算出し、
    前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
    請求項1に記載の雑音検出装置。
  6. 前記雑音判定部は、
    前記特徴量集合に含まれる振幅特徴量の重み付け平均値および周波数特徴量の重み付け平均値のうち、一部または全部を用いた特徴ベクトル空間において、予め学習した識別モデルに基づいて、前記特徴量集合に対応する特徴ベクトルから、当該フレームが非定常性雑音のフレームのであることの確からしさを表す雑音尤度を算出し、
    前記雑音尤度を予め設定された閾値と比較することで、前記入力信号の最新のフレームが前記非定常性雑音を含むフレームであるか否かを判定する
    請求項1に記載の雑音検出装置。
  7. 前記入力信号を供給する信号入力装置の周波数特性を補正する周波数特性補正部をさらに備える
    請求項1に記載の雑音検出装置。
  8. 前記入力信号から前記非定常性雑音とは異なる雑音である定常性雑音を除去する定常性雑音除去部をさらに備える
    請求項1に記載の雑音検出装置。
  9. 振幅特徴量計算部が、音声の入力信号の所定のフレームの波形における振幅特徴量を計算し、
    周波数特徴量計算部が、前記所定のフレームの波形における周波数特徴量を計算し、
    特徴変化量計算部が、前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算し、
    区間特定部が、前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定し、
    特徴量集合生成部が、前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成し、
    雑音判定部が、前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定するステップ
    を含む雑音検出方法。
  10. コンピュータを、
    音声の入力信号の所定のフレームの波形における振幅特徴量を計算する振幅特徴量計算部と、
    前記所定のフレームの波形における周波数特徴量を計算する周波数特徴量計算部と、
    前記振幅特徴量および前記周波数特徴量を複数フレーム分保持する保持部に保持されている前記振幅特徴量および前記周波数特徴量のうち、いずれか1つの特徴量に基づいて、時間的に隣接する2つのフレーム間での前記特徴量の変化量である特徴変化量を計算する特徴変化量計算部と、
    前記特徴変化量を予め設定された閾値と比較することにより、前記保持部に保持されている前記振幅特徴量および前記周波数特徴量を重み付け平均化すべきフレームの区間であって、時間的に連続するフレームの区間を特定する区間特定部と、
    前記特定された区間のフレームのそれぞれに対応する前記振幅特徴量および前記周波数特徴量のそれぞれの重み付け平均値の集合を、特徴量集合として生成する特徴量集合生成部と、
    前記特徴量集合に基づいて、前記入力信号の最新のフレームが突発性の雑音である非定常性雑音を含むフレームであるか否かを判定する雑音判定部とを備える雑音検出装置として機能させる
    プログラム。
JP2012279013A 2012-12-21 2012-12-21 雑音検出装置および方法、並びに、プログラム Pending JP2014123011A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2012279013A JP2014123011A (ja) 2012-12-21 2012-12-21 雑音検出装置および方法、並びに、プログラム
US14/104,828 US20140180682A1 (en) 2012-12-21 2013-12-12 Noise detection device, noise detection method, and program
CN201310683438.XA CN103886870A (zh) 2012-12-21 2013-12-13 噪声检测装置、噪声检测方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012279013A JP2014123011A (ja) 2012-12-21 2012-12-21 雑音検出装置および方法、並びに、プログラム

Publications (1)

Publication Number Publication Date
JP2014123011A true JP2014123011A (ja) 2014-07-03

Family

ID=50955728

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012279013A Pending JP2014123011A (ja) 2012-12-21 2012-12-21 雑音検出装置および方法、並びに、プログラム

Country Status (3)

Country Link
US (1) US20140180682A1 (ja)
JP (1) JP2014123011A (ja)
CN (1) CN103886870A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017090606A (ja) * 2015-11-09 2017-05-25 日本電信電話株式会社 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム
JP2017097490A (ja) * 2015-11-19 2017-06-01 株式会社日立産機システム 監視装置
JPWO2017158905A1 (ja) * 2016-03-17 2019-01-24 株式会社オーディオテクニカ ノイズ検出装置と音声信号出力装置
JP7000757B2 (ja) 2017-09-13 2022-01-19 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
US11942105B2 (en) 2019-11-18 2024-03-26 Samsung Electronics Co., Ltd. Electronic device and method for determining abnormal noise

Families Citing this family (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5754899B2 (ja) 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
JP5609737B2 (ja) 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP5850216B2 (ja) 2010-04-13 2016-02-03 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
JP6075743B2 (ja) * 2010-08-03 2017-02-08 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP5707842B2 (ja) 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
JP5743137B2 (ja) 2011-01-14 2015-07-01 ソニー株式会社 信号処理装置および方法、並びにプログラム
JP6037156B2 (ja) 2011-08-24 2016-11-30 ソニー株式会社 符号化装置および方法、並びにプログラム
RU2649944C2 (ru) 2012-07-02 2018-04-05 Сони Корпорейшн Устройство декодирования, способ декодирования, устройство кодирования, способ кодирования и программа
JP6531649B2 (ja) 2013-09-19 2019-06-19 ソニー株式会社 符号化装置および方法、復号化装置および方法、並びにプログラム
EP3608909B1 (en) 2013-12-27 2021-08-25 Sony Group Corporation Decoding apparatus and method, and program
WO2016132422A1 (ja) * 2015-02-16 2016-08-25 株式会社島津製作所 ノイズレベル推定方法、測定データ処理装置、及び測定データ処理用プログラム
JP6511897B2 (ja) * 2015-03-24 2019-05-15 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法及びプログラム
CN105118522B (zh) * 2015-08-27 2021-02-12 广州市百果园网络科技有限公司 噪声检测方法及装置
CN107767860B (zh) * 2016-08-15 2023-01-13 中兴通讯股份有限公司 一种语音信息处理方法和装置
CN107928673B (zh) * 2017-11-06 2022-03-29 腾讯科技(深圳)有限公司 音频信号处理方法、装置、存储介质和计算机设备
US11146607B1 (en) * 2019-05-31 2021-10-12 Dialpad, Inc. Smart noise cancellation
JP2022156943A (ja) * 2021-03-31 2022-10-14 富士通株式会社 雑音判定プログラム、雑音判定方法及び雑音判定装置
CN113567146A (zh) * 2021-07-19 2021-10-29 上汽通用五菱汽车股份有限公司 一种基于掩蔽效应评价路噪的方法
CN115206323B (zh) * 2022-09-16 2022-11-29 江门市鸿裕达电机电器制造有限公司 一种风扇语音控制系统的语音识别方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5680508A (en) * 1991-05-03 1997-10-21 Itt Corporation Enhancement of speech coding in background noise for low-rate speech coder
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
JP3454206B2 (ja) * 1999-11-10 2003-10-06 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
JP3457293B2 (ja) * 2001-06-06 2003-10-14 三菱電機株式会社 雑音抑圧装置及び雑音抑圧方法
KR100927897B1 (ko) * 2005-09-02 2009-11-23 닛본 덴끼 가부시끼가이샤 잡음억제방법과 장치, 및 컴퓨터프로그램
US8275611B2 (en) * 2007-01-18 2012-09-25 Stmicroelectronics Asia Pacific Pte., Ltd. Adaptive noise suppression for digital speech signals
WO2010146711A1 (ja) * 2009-06-19 2010-12-23 富士通株式会社 音声信号処理装置及び音声信号処理方法
WO2011133924A1 (en) * 2010-04-22 2011-10-27 Qualcomm Incorporated Voice activity detection
KR101176207B1 (ko) * 2010-10-18 2012-08-28 (주)트란소노 음성통신 시스템 및 음성통신 방법
WO2012095700A1 (en) * 2011-01-12 2012-07-19 Nokia Corporation An audio encoder/decoder apparatus
US9715885B2 (en) * 2013-03-05 2017-07-25 Nec Corporation Signal processing apparatus, signal processing method, and signal processing program

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017090606A (ja) * 2015-11-09 2017-05-25 日本電信電話株式会社 異常音検出装置、異常音検出学習装置、これらの方法及びプログラム
JP2017097490A (ja) * 2015-11-19 2017-06-01 株式会社日立産機システム 監視装置
JPWO2017158905A1 (ja) * 2016-03-17 2019-01-24 株式会社オーディオテクニカ ノイズ検出装置と音声信号出力装置
JP7000757B2 (ja) 2017-09-13 2022-01-19 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
US11942105B2 (en) 2019-11-18 2024-03-26 Samsung Electronics Co., Ltd. Electronic device and method for determining abnormal noise

Also Published As

Publication number Publication date
CN103886870A (zh) 2014-06-25
US20140180682A1 (en) 2014-06-26

Similar Documents

Publication Publication Date Title
JP2014123011A (ja) 雑音検出装置および方法、並びに、プログラム
CN106486131B (zh) 一种语音去噪的方法及装置
Mak et al. A study of voice activity detection techniques for NIST speaker recognition evaluations
US8775173B2 (en) Erroneous detection determination device, erroneous detection determination method, and storage medium storing erroneous detection determination program
CN110021307B (zh) 音频校验方法、装置、存储介质及电子设备
US9196247B2 (en) Voice recognition method and voice recognition apparatus
JP4950930B2 (ja) 音声/非音声を判定する装置、方法およびプログラム
US10242677B2 (en) Speaker dependent voiced sound pattern detection thresholds
US9959886B2 (en) Spectral comb voice activity detection
EP2905780A1 (en) Voiced sound pattern detection
CN110232933B (zh) 音频检测方法、装置、存储介质及电子设备
JP5949550B2 (ja) 音声認識装置、音声認識方法、及びプログラム
EP2083417B1 (en) Sound processing device and program
JP2008139568A (ja) 音声処理装置および音声処理方法、並びに、プログラム
US20140177853A1 (en) Sound processing device, sound processing method, and program
Ba et al. BaNa: A hybrid approach for noise resilient pitch detection
US9792898B2 (en) Concurrent segmentation of multiple similar vocalizations
JP2011033717A (ja) 雑音抑圧装置
JP2014126856A (ja) 雑音除去装置及びその制御方法
CN112951259A (zh) 音频降噪方法、装置、电子设备及计算机可读存储介质
JP2007017620A (ja) 発話区間検出装置、そのためのコンピュータプログラム及び記録媒体
JP5293329B2 (ja) 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
CN112151066A (zh) 基于声音特征识别的语言冲突监测方法、介质及设备
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
Lipeika Optimization of formant feature based speech recognition