JP2012027186A - 音声信号処理装置、音声信号処理方法及びプログラム - Google Patents

音声信号処理装置、音声信号処理方法及びプログラム Download PDF

Info

Publication number
JP2012027186A
JP2012027186A JP2010164855A JP2010164855A JP2012027186A JP 2012027186 A JP2012027186 A JP 2012027186A JP 2010164855 A JP2010164855 A JP 2010164855A JP 2010164855 A JP2010164855 A JP 2010164855A JP 2012027186 A JP2012027186 A JP 2012027186A
Authority
JP
Japan
Prior art keywords
noise
audio signal
feature amount
frequency
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2010164855A
Other languages
English (en)
Inventor
Toshiyuki Sekiya
俊之 関矢
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2010164855A priority Critical patent/JP2012027186A/ja
Priority to US13/179,721 priority patent/US8971549B2/en
Priority to CN201110206440.9A priority patent/CN102348150B/zh
Publication of JP2012027186A publication Critical patent/JP2012027186A/ja
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/09Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates

Landscapes

  • Engineering & Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】キーボード音のように比較的継続時間が長く、非単調に減衰する特殊な突発性雑音を適切に検出する。
【解決手段】雑音信号を含む音声信号の振幅値を閾値と比較することにより、前記音声信号の雑音開始点を検出する振幅検出部と、少なくとも前記雑音開始点以降の前記音声信号の周波数特性を表す周波数特徴量を算出する周波数特徴量算出部と、前記周波数特徴量に基づいて、前記雑音開始点以降の前記音声信号のうち基準周波数以上の高周波数成分を継続的に含む区間を雑音区間として判定する雑音判定部とを備える、音声信号処理装置が提供される。
【選択図】図4

Description

本発明は、音声信号処理装置、音声信号処理方法及びプログラムに関する。
ICレコーダ、ビデオカメラなどの録音機器は、内蔵された小型のマイクロホンにより、周辺音声を録音する。かかる録音機器で録音するときには、ユーザが操作ボタンなど用いて該録音機器を操作するときの操作音が、雑音として録音音声に混入してしまう。そこで、かかる録音機器において、録音時に雑音として混入する操作音を検出及び低減するための技術が提案されている(例えば、特許文献1参照。)。
特開2005−303681号公報
上記特許文献1記載のような従来の雑音検出方法は、主として、録音機器自体に装着された操作ボタンの操作音を検出対象としていた。かかる操作音は、一般的に、録音された音声信号上でパルス状の雑音信号として現れるので、かかるパルス状の雑音信号の振幅値(信号レベル)を閾値と比較することで、上記操作音による雑音を容易に検出することが可能である。
ところが、録音機器から離隔した位置で発生した特殊な突発性雑音は、継続時間が長く非定常な雑音信号となるため、該雑音を検出することが困難である。例えば、会議内容を机上に置かれたICレコーダで録音するときに、会議の参加者が使用しているノート型パーソナルコンピュータ(以下、ノートPCという。)のキーボードの操作音(以下、キーボード音という。)が、該ノートPCから離隔した位置にあるICレコーダにより録音され、雑音として混入してしまうことがある。
上記キーボード音のように、録音機器から離隔したノイズ発生源で発生した特殊な突発性雑音は、録音機器に至るまでの空間で反射したり、机を伝わる振動として伝播するなど、複数かつ複雑な経路で録音機器まで伝播する。この結果、キーボード音などを録音した場合、その雑音信号は、上述した単純なパルス状の雑音と比べて継続時間が長く、かつ、非単調に減衰する。従って、単に音声信号の振幅値と閾値を比較するだけの従来の雑音検出方法では、上記キーボード音などの特殊な突発性雑音を適切に検出することが困難であった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、上記キーボード音のように比較的継続時間が長く、非単調に減衰する特殊な突発性雑音を、適切に検出できるようにすることにある。
上記課題を解決するために、本発明のある観点によれば、雑音信号を含む音声信号の振幅値を閾値と比較することにより、前記音声信号の雑音開始点を検出する振幅検出部と、少なくとも前記雑音開始点以降の前記音声信号の周波数特性を表す周波数特徴量を算出する周波数特徴量算出部と、前記周波数特徴量に基づいて、前記雑音開始点以降の前記音声信号のうち基準周波数以上の高周波数成分を継続的に含む区間を雑音区間として判定する雑音判定部と、を備える、音声信号処理装置が提供される。
前記音声信号に含まれる前記雑音信号の減衰を表す減衰特徴量を算出する減衰特徴量算出部をさらに備え、前記雑音判定部は、前記周波数特徴量及び前記減衰特徴量に基づいて、前記雑音開始点以降の前記音声信号のうち基準周波数以上の高周波数成分を継続的に含み、かつ、前記雑音開始点から前記雑音信号が所定基準以下に減衰する雑音終了点までの区間を、前記雑音区間として判定するようにしてもよい。
前記減衰特徴量算出部は、前記減衰特徴量として、前記雑音開始点付近の前記音声信号のエネルギーと、前記雑音開始点から所定時間経過した時点付近の前記音声信号のエネルギーとの比率を表すパラメータを算出するようにしてもよい。
前記減衰特徴量算出部は、前記音声信号から所定周波数以下の低周波数成分を除去した信号を用いて前記減衰特徴量を算出するようにしてもよい。
前記周波数特徴量算出部は、前記雑音開始点以降の前記音声信号を複数の区間に分割し、前記区間ごとに前記周波数特徴量を算出し、前記雑音判定部は、前記各区間の前記周波数特徴量が閾値以上であるか否かを判定し、前記周波数特徴量が当該閾値以上となる1又は2以上の区間を前記雑音区間として判定するようにしてもよい。
前記周波数特徴量算出部は、前記周波数特徴量として、前記音声信号のゼロクロス点の数を表すパラメータを算出するようにしてもよい。
前記周波数特徴量算出部は、前記周波数特徴量として、前記音声信号の全ての周波数成分と前記基準周波数以上の高周波数成分との比率を表すパラメータを算出するようにしてもよい。
前記振幅検出部は、前記雑音開始点付近における前記音声信号の信号エネルギーを表す振幅特徴量を算出し、前記雑音判定部は、前記振幅特徴量が閾値以上であるか否を判定し、前記振幅特徴量が閾値以上である場合に、前記周波数特徴量に基づいて前記雑音区間を判定するようにしてもよい。
前記雑音信号は、前記音声信号を録音した録音装置から所定距離以上離隔した位置の雑音発生源から発生した雑音を表すようにしてもよい。
前記雑音信号は、前記基準周波数以上の高周波数成分を継続的に含み、かつ、非単調で減衰する信号であるようにしてもよい。
前記音声信号における前記雑音区間の信号レベルを低下させることにより、前記音声信号に含まれる前記雑音信号を低減する雑音低減部をさらに備えるようにしてもよい。
また、上記課題を解決するために、本発明の別の観点によれば、雑音信号を含む音声信号の振幅値を閾値と比較することにより、前記音声信号の雑音開始点を検出するステップと、少なくとも前記雑音開始点以降の前記音声信号の周波数特性を表す周波数特徴量を算出するステップと、前記周波数特徴量に基づいて、前記雑音開始点以降の前記音声信号のうち基準周波数以上の高周波数成分を継続的に含む区間を雑音区間として判定するステップと、を含む、音声信号処理方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、雑音信号を含む音声信号の振幅値を閾値と比較することにより、前記音声信号の雑音開始点を検出するステップと、少なくとも前記雑音開始点以降の前記音声信号の周波数特性を表す周波数特徴量を算出するステップと、前記周波数特徴量に基づいて、前記雑音開始点以降の前記音声信号のうち基準周波数以上の高周波数成分を継続的に含む区間を雑音区間として判定するステップと、をコンピュータに実行させるためのプログラムが提供される。
上記構成によれば、雑音信号を含む音声信号の振幅値を閾値と比較することにより、前記音声信号の雑音開始点が検出され、少なくとも前記雑音開始点以降の前記音声信号の周波数特性を表す周波数特徴量が算出され、前記周波数特徴量に基づいて、前記雑音開始点以降の前記音声信号のうち基準周波数以上の高周波数成分を継続的に含む区間が雑音区間として判定される。これにより、音声信号において、キーボード音等の特殊な雑音信号に含まれる高周波数成分を継続的に含む区間を、雑音区間として判定できる。
以上説明したように本発明によれば、キーボード音のように比較的継続時間が長く、非単調に減衰する特殊な突発性雑音を、適切に検出できる。
本発明の第1の実施形態に係る音声信号処理装置及び方法が適用される録音状況の例を示す模式図である 同実施形態に係る録音機器の操作音などのパルス的な雑音の雑音信号を示す波形図である。 同実施形態に係るノートPCのキーボード音などの特殊な雑音の雑音信号を示す波形図である。 同実施形態に係る雑音信号を検出するための3つの判定要素を模式的に示す波形図である。 同実施形態に係る音声信号処理装置としてのPCのハードウェア構成を示すブロック図である。 同実施形態に係る音声信号処理装置の機能構成を示すブロック図である。 同実施形態に係る振幅検出部の構成を示すブロック図である。 同実施形態に係る振幅検出部の基本動作を示すフローチャートである。 同実施形態に係る音声信号の閾値Athを示す波形図である。 同実施形態に係る音声信号における雑音開始点P付近の信号エネルギーEの算出範囲を示す波形図である。 同実施形態に係る振幅検出部の詳細動作を示すフローチャートである。 同実施形態に係る周波数特徴量算出部の構成を示すブロック図である。 同実施形態に係る周波数特徴量算出部の基本動作を示すフローチャートである。 同実施形態に係る周波数特徴量の算出処理を説明するための波形図である。 ゼロクロス点Zを説明するための波形図である。 高周波数成分のエネルギー比を説明するための波形図である。 キーボード音の周波数特性を示す波形図である。 同実施形態に係る周波数特徴量Rf(ゼロクロス点Zの数Nz)の算出動作を示すフローチャートである。 同実施形態に係る周波数特徴量Rf(高周波成分のエネルギー比H)の算出動作を示すフローチャートである。 同実施形態に係る音声信号と、ゼロクロス点Zの数cntを用いて得られた周波数特徴量Rfを示すグラフである。 同実施形態に係る音声信号と、高周波数成分のエネルギー比Hを用いて得られた周波数特徴量Rfを示すグラフである。 同実施形態に係る減衰特徴量算出部の構成を示すブロック図である。 同実施形態に係る減衰特徴量算出部の基本動作を示すフローチャートである。 同実施形態に係る減衰特徴量の算出処理を説明するための波形図である。 同実施形態に係る減衰特徴量算出部の詳細動作を示すフローチャートである。 同実施形態に係る音声信号と減衰特徴量Raを示すグラフである。 同実施形態に係る雑音判定部の構成を示すブロック図である。 同実施形態に係る雑音判定部の基本動作を示すフローチャートである。 同実施形態に係る雑音判定部の詳細動作を示すフローチャートである。 本発明の第2実施形態に係る音声信号処理装置10の機能構成を示すブロック図である。 同実施形態に係る雑音判定部の詳細動作を示すフローチャートである。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
なお、説明は以下の順序で行うものとする。
1.第1の実施の形態(周波数特徴量及び減衰特徴量を用いる例)
1.1.雑音検出方法の概要
1.2.音声信号処理装置の全体構成
1.2.1.音声信号処理装置のハードウェア構成
1.2.2.音声信号処理装置の機能構成
1.3.振幅検出部の詳細
1.3.1.雑振幅検出部の構成
1.3.2.振幅検出部の動作
1.4.周波数特徴量算出部の詳細
1.4.1.周波数特徴量算出部の構成
1.4.2.周波数特徴量算出部の基本動作
1.4.3.周波数特徴量の具体例
1.4.4.キーボード音の周波数特性
1.4.5.周波数特徴量算出部の詳細動作
1.5.減衰特徴量算出部の詳細
1.5.1.減衰特徴量算出部の構成
1.5.2.減衰特徴量算出部の動作
1.6.雑音判定部の詳細
1.6.1.雑音判定部の構成
1.6.2.雑音判定部の動作
2.第2の実施の形態(周波数特徴量を用いる例)
2.1.音声信号処理装置の機能構成
2.2.音声信号処理装置の動作
3.まとめ
<1.第1の実施の形態>
[1.1.雑音検出方法の概要]
まず、本発明の第1の実施形態に係る特殊な突発性雑音を検出するための音声信号処理方法の概要について説明する。
本実施形態に係る音声信号処理装置及び方法は、ICレコーダ等の録音機器で周辺音声を録音したときに、収音した音声信号に混入する突発的かつ非定常な雑音を検出及び低減する技術に関する。特に、本実施形態に係る音声信号処理装置及び方法は、録音機器から離隔した位置にあるノイズ発生源(例えばノートPC)から発生する特殊な突発性雑音(例えばキーボード音)を検出対象としている。
録音音声における雑音の検出・低減方法としては、録音機器に装着されている操作ボタン、スイッチ等を操作するときの操作音による雑音を検出及び低減する技術は、一般的である。しかし、上記キーボード音などの特殊な突発性雑音の検出に着目した技術は知られていない。本実施形態は、上記キーボード音等の特殊な突発性雑音を適切に検出しようとするものである、これにより、録音音声の再生時に当該雑音を低減して、ユーザが録音音声を聞きやすくすることができる。
図1は、本実施形態に係る音声信号処理装置及び方法が適用される録音状況の例を示す模式図である。図1に示すように、複数の会議参加者が机3を囲んで会議をする際に、机3上に載置された録音機器1を用いて会議内容を録音する状況を想定する。この会議中に、議事録を作成する者がノートPC2を使用して会議内容のメモを記録するとき、ノートPC2のキーボードの押下によって、カチャカチャというキーボード音が突発的かつ断続的に発生する。このため、録音機器1は、録音対象である会議内容(参加者が発した音声)のみならず、ノートPC2から伝播してくるキーボード音も雑音として録音してしまう。また、参加者が机3にぶつかったときや、筆記具等を机3に落としたときなどに発生する衝突音なども、雑音として、録音機器1で録音されてしまう。
このように、録音機器1とノートPC2が所定距離(例えば50cm)以上離隔して配置されている場合、上記キーボード音や衝突音などの特殊な突発性雑音が、録音音声に雑音として混入してしまうことがある。かかる録音音声を再生して聴く場合、キーボード音等の雑音は、聴者にとって不快であり、録音音声の聞き取りを妨害する。従って、録音機器1の操作ボタンを直接操作するときの操作音のみなならず、録音機器1から離隔した位置で発生する上記キーボード音などの特殊な突発性雑音も、適切に検出及び低減することが求められる。
ここで、図2及び図3を参照して、上記録音機器1の操作音と、ノートPC2のキーボード音の特性の相違について説明する。図2は、録音機器1の操作音などのパルス的な雑音の雑音信号を示す波形図であり、図3は、ノートPC2のキーボード音などの特殊な雑音の雑音信号を示す波形図である。
図2に示すように、録音機器1に設けられた操作ボタンを押下したときに生じる操作音は、瞬間的かつ単調に減衰する突発的雑音を構成する。つまり、該操作音の雑音信号は、パルス的な信号となり、継続時間が比較的短く(例えば0.01秒以下)、減衰が急峻かつ単調である。従って、かかる操作音の雑音信号を閾値と比較するだけで、当該雑音信号を比較的容易に検出することが可能である。
これに対し、図3に示すように、キーボード音は、録音機器1から所定距離(例えば50cm)以上離隔した位置で発生する特殊な突発性雑音であり、該特殊な突発性雑音の雑音信号は、上記操作音とは異なる特性を有する。つまり、図1に示したように、該特殊な突発性雑音は、ノイズ発生源(例えばノートPC2)から録音機器1に至るまで間に、直接的な音6として空気中を伝播するだけでなく、複数の経路を経て録音機器1に到達する。例えば、当該雑音は、壁や天井などで空間的に反射する反射音7として伝播したり、机3を伝わる振動8として伝播したりする。このため、図3に示すように、キーボード音等の特殊な突発性雑音を録音した雑音信号は、上記パルス的な雑音信号と比べて継続時間が長く(0.02秒以上)、減衰が単調でない信号となるので、パルス信号としての検出が困難である。
例えば、上記図1の例で、会議参加者がノートPC2のキーボードを操作する場合、指がキーボードのボタンに接触開始してから、当該ボタンが十分に押下されるまでには、ある程度の時間がかかり、カチカチといったように2回押しするようなボタン操作となる。このため、キーボード音の雑音信号は、不規則で非単調に減衰する信号となる。また、キーボード操作に伴い生じた振動8が、ノートPC2から録音機器1まで机3を通じて伝播するが、この振動8は、空気中を伝播するキーボード音6、7よりも遅延して伝わる。
このように、キーボード音等の特殊な雑音信号は、信号の減衰が長時間継続しかつ非単調であり、また、遅延して到達する別の振動8と同時に観測される。従って、従来のように信号レベルを閾値と比較するだけの簡単な検出方法では、上記キーボード音等の特殊な突発性雑音を検出することは困難である。
そこで、本実施形態に係る音声信号処理方法では、音声信号の信号レベルのみに着目するのではなく、(1)音声信号の信号レベル(振幅値)に加え、(2)音声信号の高周波数成分の継続時間及び(3)減衰状態という3つの判定要素を利用して、上記特殊な突発性雑音の雑音信号の台形的な特徴を捕捉することで、音声信号に含まれる当該特殊な雑音信号を検出する。
図4は、本実施形態に係る音声信号処理方法により雑音信号を検出するための3つの判定要素を模式的に示す波形図である。図4に示すように、(1)音声信号の信号レベルを用いることで、該音声信号に含まれる雑音信号の立ち上がり(即ち、雑音開始点P)を検出することができる。また、上記キーボード音等の特殊な雑音信号は、通常の音声よりも周波数の高く、基準周波数(例えば4kHz)以上の高周波成分を、所定時間Tth以上にわたって継続的に含む。従って、(2)音声信号の高周波数成分の継続時間が所定時間Tth以上であるか否かを検出することで、音声信号に特殊な雑音信号が含まれているか否かを検出できる。さらに、上記キーボード音等の特殊な雑音信号は、上記パルス的な雑音信号のように単調減衰せずに、比較的長時間にわたって非単調に減衰する。従って、(3)音声信号の減衰状態を検出することで、音声信号に特殊な雑音信号が含まれているか否かを検出できる。
このように、本実施形態に係る音声信号処理方法では、(1)〜(3)の3つの判定要素を用いて、キーボード音等の特殊な雑音信号の波形の台形的な特徴(図4参照。)を捕捉することによって、音声信号に含まれる特殊な雑音信号を適切に検出する。以下に、本実施形態に係る音声信号処理方法と、それを実行するための音声信号処理装置について詳細に説明する。
[1.2.音声信号処理装置の全体構成]
次に、本実施形態に係る音声信号処理装置の構成について説明する。本実施形態では、音声信号処理装置の一例として、録音機器1で録音された音声信号を再生する再生装置の例を挙げて説明する。再生装置は、ソフトウェア又はハードウェアを用いた音声再生機能を有する装置であれば、任意の装置であってよいが、以下では、再生装置としてパーソナルコンピュータ(以下、PCという。)の例について説明する。
例えば録音機器1により録音された音声(以下、録音音声)のデータを、記録媒体又はネットワークを介してPC等の音声信号処理装置に提供することで、該音声信号処理装置は、録音音声のデータを再生して、スピーカー等の音声出力装置から出力する。音声信号処理装置は、この録音音声の再生時に、音声信号内の雑音信号を検出し、該雑音信号を低減する。以下に音声信号処理装置の構成例を説明する。
[1.2.1.音声信号処理装置のハードウェア構成]
まず、図5を参照して、音声信号処理装置10のハードウェア構成例について説明する。図5は、本実施形態に係る音声信号処理装置10としてのPCのハードウェア構成を示すブロック図である。
図5に示すように、音声信号処理装置10は、例えば、CPU101と、ROM102と、RAM103と、ホストバス104と、ブリッジ105と、外部バス106と、インタフェース107と、入力装置108と、出力装置109と、ストレージ装置110と、ドライブ111と、接続ポート112と、通信装置113とを備える。このように音声信号処理装置10は、例えば、汎用のコンピュータ機器を用いて構成できる。
CPU101は、演算処理装置および制御装置として機能し、各種プログラムに従って動作し、音声信号処理装置10内の各部を制御する。このCPU101は、ROM102に記憶されているプログラム、或いは、ストレージ装置110からRAM103にロードされたプログラムに従って、各種の処理を実行する。ROM102は、CPU101が使用するプログラムや演算パラメータ等を記憶するとともに、CPU101からストレージ装置110へのアクセスを軽減するためのバッファーとしても機能する。RAM103は、CPU101の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはCPUバスなどから構成されるホストバス104により相互に接続されている。ホストバス104は、ブリッジ105を介して、PCI(Peripheral Component Interconnect/Interface)バスなどの外部バス106に接続されている。
CPU101に付随して設けられるメモリ部(例えばROM102や不図示のフラッシュメモリ等)には、CPU101に各種の制御処理を実行させるためのプログラムが格納されており、CPU101は、該プログラムに基づいて、各部の制御処理のための必要な演算処理を実行する。
本実施形態に係るプログラムは、上述したCPU101の各種制御を、CPU101に実行させるためのプログラムである。このプログラムは、音声信号処理装置10に内蔵された記憶装置(ストレージ装置110、ROM102、フラッシュメモリ等)に予め格納しておくことができる。また、当該プログラムは、CD、DVD、ブルーレイディスク等の光ディスク、メモリカードなどのリムーバブル記録媒体に格納されて、音声信号処理装置10に提供されてもよいし、或いは、LAN、インターネット等のネットワーク5を介して音声信号処理装置10にダウンロードされてもよい
入力装置108は、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、レバー等の操作手段と、入力信号を生成してCPU101に出力する入力制御回路などから構成されている。出力装置109は、例えば、液晶ディスプレイ(LCD)装置、CRT(Cathode Ray Tube)ディスプレイ装置、有機ELディスプレイ装置等の表示装置と、スピーカー等の音声出力装置などで構成される。
ストレージ装置110は、各種のデータを格納するための格納装置であり、例えば、HDD(Hard Disk Drive)などの外付け型若しくは内蔵型のディスクドライブで構成される。このストレージ装置110は、記憶媒体であるハードディスクを駆動させ、CPU101が実行するプログラムや各種データを格納する。ドライブ111は、記憶媒体用リーダライタであり、音声信号処理装置10に内蔵、或いは外付けされる。このドライブ111は、音声信号処理装置10にローディングされた磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に対して、各種のデータを書き込み/読み出しする。
接続ポート112は、外部周辺機器を接続するためのポートであり、例えば、USB、IEEE1394等の接続端子を有する。接続ポート112は、インタフェース107、および外部バス106、ブリッジ105、ホストバス104等を介してCPU101等に接続されている。通信装置113は、例えば、ネットワーク5に接続するための通信デバイス等で構成された通信インタフェースである。この通信装置113は、外部装置との間で、ネットワーク5を介して、各種データを送受信する。
[1.2.2.音声信号処理装置の機能構成]
次に、図6を参照して、本実施形態に係る音声信号処理装置10の機能構成例について説明する。図6は、本実施形態に係る音声信号処理装置10の機能構成を示すブロック図である。
図6に示すように、音声信号処理装置10は、雑音検出ユニット20と、データ記憶部30と、制御部32と、雑音低減部34と、音声出力部36とを備える。これらの雑音検出ユニット20、制御部32、雑音低減部34は、専用のハードウェアで構成されてもよいし、ソフトウェアで構成されてもよい。ソフトウェアを用いる場合、音声信号処理装置10のCPU101が、以下に説明する各機能部の機能を実現するためのプログラムを実行すればよい。なお、図6中で、実線の矢印は音声信号のデータ線を示し、一点鎖線の矢印は特徴量線を示し、点線の矢印は特制御線を示す。
データ記憶部30は、例えば、ハードディスク又はフラッシュメモリ等の記憶装置で構成され、録音機器1で録音された音声データを記憶する。例えば、録音機器1で録音された音声信号は、リムーバブル記憶媒体又はネットワーク5を介して音声信号処理装置10に提供され、音声データとしてデータ記憶部30に保存される。また、音声信号処理装置10が、マイクロホン等の収音装置(図示せず。)を備え、録音機能を有している場合には、音声信号処理装置10の制御部32は、該収音装置から入力された音声信号を、音声データとしてデータ記憶部30に記録する。そして、録音音声の再生時には、データ記憶部30から音声データが読み出されて、復号化などの再生処理が実行される。この再生処理時には、データ記憶部30から読み出された音声データは、例えば図2又は図3に示したような波形を有する音声信号として、雑音検出ユニット20と雑音低減部34に出力される。
制御部32は、CPU101等で構成され、音声信号処理装置10内の各部を制御する。例えば、制御部32は、雑音検出ユニット20により検出された雑音信号が低減されるように、雑音低減部34の動作を制御する。
雑音検出ユニット20は、例えば録音音声の再生時に、データ記憶部30から入力された音声信号に含まれる雑音信号を検出し、検出結果を制御部32に出力する。この雑音検出ユニット20による雑音検出処理は、本実施形態に係る特徴であるので、その詳細は後述する。
雑音低減部34は、制御部32からの指示に基づいて、データ記憶部30から入力された音声信号から、雑音検出ユニット20により検出された雑音信号を低減する。この雑音低減部34による雑音低減処理は、公知の任意の手法を採用することができる。例えば、雑音低減部34は、音声信号に含まれる雑音信号の信号レベル(振幅値)を、ほぼゼロにする、又は所定レベル以下に抑制することで、音声信号に含まれる雑音信号を低減する。
音声出力部36は、スピーカー等で構成される。音声出力部36は、雑音低減部34により雑音信号が低減された音声信号が入力され、該音声信号が表す音声を出力する。ユーザは、この音声出力部36から出力された音声を聴くことで、録音音声の内容を把握できる。
次に、雑音検出ユニット20の構成について詳述する。図6に示すように、雑音検出ユニット20は、振幅検出部22と、周波数特徴量算出部24と、減衰特徴量算出部26と、雑音判定部28とを備える。
振幅検出部22は、雑音信号を含む音声信号の振幅値Aを検出し、この振幅値A(信号レベル)を所定の閾値Athと比較し、当該比較結果に基づいて、音声信号の雑音開始点Pを検出する。ここで、雑音開始点Pは、音声信号に含まれる上記キーボード音等の特殊な雑音信号の開始位置(雑音信号の立ち上がり位置)を意味する。本実施形態では、この雑音開始点Pや後述の雑音終了点Qは、例えば、音声信号が録音された時刻で特定されるが、かかる例に限定されない。例えば、タイムコード、音声信号の先頭からの時間、フレーム数、ビット数など、音声信号における時間軸上の位置を表す任意のパラメータを用いて、雑音開始点Pや雑音終了点Qを特定することができる。
また、振幅検出部22は、検出した雑音開始点Pを表す情報を、雑音判定部28、周波数特徴量算出部24及び減衰特徴量算出部26に通知する。さらに、振幅検出部22は、音声信号の雑音開始点P付近の信号エネルギーを算出し、該信号エネルギーを振幅特徴量Eとして雑音判定部28に出力する。
周波数特徴量算出部24は、音声信号における雑音開始点P付近から所定時間Tth経過後の時点までの区間の周波数特性を解析し、当該区間の周波数特性を表す周波数特徴量Rfを算出する。ここで、周波数特徴量Rfは、例えば、音声信号のゼロクロス点の数を表すパラメータ、又は音声信号の全ての周波数成分に対する基準周波数(例えば4kHz)以上の高周波数成分の比率を表すパラメータなどである。上記のようにキーボード音等の特殊な雑音信号は、基準周波数以上の高周波成分を多く含むため、音声信号の周波数特性を分析することで、当該特殊な雑音信号の有無や継続時間を判定できる。周波数特徴量算出部24は、算出した周波数特徴量Rfを、雑音判定部28に出力する。
また、周波数特徴量算出部24は、上記雑音開始点P以降の音声信号を複数の区間(フレーム)に分割し、各々の区間ごとに周波数特徴量Rfを算出してもよい。これにより、雑音開始点P以降の音声信号を細分化した複数の区間についてそれぞれ、周波数特徴量Rfを算出できるので、雑音信号の有無や継続時間の検出精度を向上できる。
減衰特徴量算出部26は、音声信号の信号エネルギーを解析することにより、該音声信号に含まれる雑音信号の減衰を表す減衰特徴量Raを算出する。ここで、減衰特徴量Raは、例えば、雑音開始点P付近の音声信号のエネルギーE1と、雑音開始点Pから所定時間Td経過後の時点付近の音声信号のエネルギーE2との比率を表すパラメータなどである。上記のようにキーボード音等の特殊な雑音信号は、少なくとも所定時間Tth以上にわたって高い信号レベルを継続した後に非単調に減衰するため、音声信号の信号エネルギーの時間経過を分析することで、当該特殊な雑音信号の減衰状態を判定できる。減衰特徴量算出部26は、算出した減衰特徴量Raを、雑音判定部28に出力する。
また、減衰特徴量算出部26は、上記雑音開始点P以降の音声信号を複数の区間(フレーム)に分割し、各々の区間ごとに減衰特徴量Raを算出してもよい。これにより、雑音開始点P以降の音声信号を細分化した複数の区間についてそれぞれ、減衰特徴量Raを算出できるので、雑音信号の減衰状態の検出精度を向上できる。
雑音判定部28は、上記振幅検出部22、周波数特徴量算出部24、減衰特徴量算出部26からそれぞれ、振幅特徴量E、周波数特徴量Rf、減衰特徴量Raを取得する。そして、雑音判定部28は、当該振幅特徴量E、周波数特徴量Rf及び減衰特徴量Raに基づいて、雑音信号の有無を判定するとともに、音声信号のうち基準周波数以上の高周波数成分を継続的に含む区間を雑音区間として判定する。ここで雑音区間は、音声信号のうちで、上記キーボード音等の特殊な突発性雑音の雑音信号が含まれる区間である。
例えば、雑音判定部28は、周波数特徴量Rfを所定の閾値Rf_thと比較して、周波数特徴量Rfが当該閾値Rf_th以上である区間を求める。さらに、雑音判定部28は、減衰特徴量Raを所定の閾値Ra_thと比較して、周波数特徴量Rfが当該閾値Ra_th以下に減少する位置を、雑音信号が所定基準以下に減衰する雑音終了点Qとして判定する。そして、雑音判定部28は、音声信号において基準周波数以上の高周波数成分を継続的に含む区間のうち、雑音開始点Pから雑音終了点Qまでの区間を、雑音区間として判定する。
また、雑音判定部28は、検出した雑音区間を表す情報を制御部32に出力する。これにより、制御部32は、雑音低減部34を制御して、音声信号の雑音区間に含まれる雑音信号を低減させる。
以上、本実施形態に係る音声信号処理装置10の雑音検出ユニット20の概略構成について説明した。本実施形態に係る雑音検出ユニット20は、音声信号の振幅値Aを用いて雑音信号の立ち上がりを検出するだけでなく、雑音信号の継続時間及び信号エネルギーの減衰の程度をモデル化する。これにより、録音音声に含まれるキーボード音等の特殊な雑音信号の有無及びその区間を適切に判定することができる。
[1.3.振幅検出部の詳細]
次に、本実施形態に係る音声信号処理装置10の振幅検出部22の構成及び動作について説明する。
[1.3.1.振幅検出部の構成]
まず、図7を参照して、本実施形態に係る振幅検出部22の構成について説明する。図7は、本実施形態に係る振幅検出部22の構成を示すブロック図である。
図7に示すように、振幅検出部22は、記憶部222と、比較部224と、演算部226と、通知部228を備える。比較部224と、演算部226には、再生された音声信号が外部から入力される。
記憶部222は、雑音信号の立ち上がりの判定基準となる振幅値の閾値Athを記憶する。比較部224は、記憶部222から閾値Athを読み出して、入力された音声信号の振幅値Aと閾値Athを比較し、当該検出結果に基づいて雑音開始点Pを検出する。この結果、音声信号の信号レベルが急激に立ち上がり、閾値Ath未満であった音声信号の振幅値Aが閾値Athより大きくなったとき、雑音開始点Pを表す基準時刻Tを演算部226及び通知部228に伝える。
上記雑音開始点Pが検出されると、演算部226は、入力される音声信号を検波して、該音声信号の雑音開始点P付近の信号エネルギーEを算出し、該信号エネルギーEを振幅特徴量として、雑音判定部28に通知する。また、上記雑音開始点Pが検出されると、通知部228は、雑音開始点Pを表す基準時刻Tを、周波数特徴量算出部24及び減衰特徴量算出部26に通知する。
[1.3.2.振幅検出部の動作]
次に、図8〜図10を参照して、本実施形態に係る振幅検出部22の基本動作について説明する。図8は、本実施形態に係る振幅検出部22の基本動作を示すフローチャートである。図9は、本実施形態に係る音声信号の閾値Athを示す波形図である。図10は、本実施形態に係る音声信号における雑音開始点P付近の信号エネルギーEの算出範囲を示す波形図である。
図8に示すように、まず、振幅検出部22は、外部(例えば、データ記憶部30又はマイクロホンなど)から、録音された音声信号を取得する(ステップS10)。この音声信号は、振幅検出部22に継続的に入力される。
次いで、振幅検出部22は、入力される音声信号の振幅値A(信号レベル)の絶対値が閾値Athより大きくなったか否かを判定し、振幅値Aが閾値Athより大きくなったときの音声信号の位置を、雑音開始点Pとして検出する(ステップS12)。図9に示すように、音声信号の振幅値Aが閾値Athより大きくなったときには、雑音信号の立ち上がりが生じ、当該立ち上がり位置が、音声信号に含まれる雑音信号の雑音開始点Pとなる。ここで、閾値Athは、例えば、音声信号に対するAuto Gain Control(AGC)機能が有効化される基準振幅値Bthに基づいて設定することができ、例えば、AGC機能の基準振幅値Bthの90%の値を、閾値Athに設定してもよい。これにより、雑音信号の立ち上がりを好適に検出可能となる。
このように、音声信号の振幅値Aの絶対値が閾値Athを超えたときに、雑音検出ユニット20による雑音検出機能が有効化され、周波数特徴量算出部24及び減衰特徴量算出部26による特徴量の算出処理や、雑音判定部28による雑音判定処理が実行されるようになる。
次いで、振幅検出部22は、上記検出された雑音開始点Pに対応する基準時刻Tを記憶部222に保持するとともに、当該基準時刻Tを周波数特徴量算出部24及び減衰特徴量算出部26に通知する(ステップS14)。
さらに、振幅検出部22は、入力された音声信号を検波することにより、該音声信号の雑音開始点P付近の信号エネルギーEを算出し、当該信号エネルギーEを振幅特徴量として雑音判定部28に出力する(ステップS16)。例えば図10に示すように、振幅特徴量は、雑音開始点Pから所定範囲N内にある音声信号のエネルギーであってよい。
次に、図11を参照して、本実施形態に係る振幅検出部22の詳細動作について説明する。図11は、本実施形態に係る振幅検出部22の詳細動作を示すフローチャートである。なお、図11において、nは音声信号のサンプル番号であり、x(n)はサンプル番号nにおける音声信号の振幅値Aであり、Nは音声信号の1つのフレーム中のサンプル数である。
図11に示すように、まず、振幅検出部22は、データ記憶部30に保存されている音声信号を取得する(ステップS100)。次いで、振幅検出部22は、サンプル番号nにおける音声信号の振幅値Aの絶対値x(n)が閾値Athより大きいか否かを判定し(ステップS102)、x(n)がAth以下である場合には、n=n+1としてサンプル番号を1つ増加させる(ステップS104)。かかる処理を繰り返すことにより、x(n)がAthより大きくなったときに、振幅検出部22は、そのときのサンプル番号nを、基準時刻T(即ち、雑音開始点P)を表すパラメータとしてメモリに保持し、当該基準時刻Tを周波数特徴量算出部24及び減衰特徴量算出部26に通知する(ステップS106)。
次いで、振幅検出部22は、以下の式(1)に従って、雑音開始点P直後の信号エネルギーEを算出する(ステップS108)。ここで、雑音開始点P付近の信号エネルギーEは、図10に示したように、雑音開始点P(基準時刻T)から所定のサンプル数Nまでの範囲内の音声信号の信号エネルギーである。例えば、音声信号の左脳リング周波数は44.1kHzである場合。N=128とすることができる。これにより、雑音信号の立ち上がり付近の信号エネルギーEを算出できる。
その後、振幅検出部22は、上記S108で算出した信号エネルギーEを、キーボード音等の雑音信号の有無を判定するための振幅特徴量として、雑音判定部28に通知する(ステップS110)。
以上のように、振幅検出部22は、音声信号の振幅値Aを解析することで、音声信号に含まれる雑音信号の立ち上がり位置(雑音開始点P)を検出するとともに、その雑音開始点Pを基準とした信号エネルギーEを振幅特徴量として算出する。これにより、後述の雑音判定部28により、雑音信号の立ち上がり時の振幅特徴量を用いて、キーボード音等の雑音信号の有無を適切に判定できる。
[1.4.周波数特徴量算出部の詳細]
次に、本実施形態に係る音声信号処理装置10の周波数特徴量算出部24の構成及び動作について説明する。
[1.4.1.周波数特徴量算出部の構成]
まず、図12を参照して、本実施形態に係る周波数特徴量算出部24の構成について説明する。図12は、本実施形態に係る周波数特徴量算出部24の構成を示すブロック図である。
図12に示すように、周波数特徴量算出部24は、音声信号の周波数特性を利用して、該音声信号中に含まれる雑音信号の継続区間を求めるための周波数特徴量Rfを算出する。周波数特徴量算出部24は、周波数特徴量Rfの算出処理を実行する演算部242を備える。
演算部242には、再生された音声信号が外部から入力されるとともに、振幅検出部22から上記雑音開始点Pを表す基準時刻Tが通知される。上記基準時刻Tが通知されると、演算部242は、音声信号を解析することによって、該音声信号の周波数特性を表す周波数特徴量Rfを算出し、雑音判定部28に通知する。詳細には、演算部242は、雑音開始点P(基準時刻T)以後の所定区間の音声信号の周波数特性を解析することにより、当該区間の音声信号が基準周波数(例えば4kHz)以上の高周波数成分を含有する度合いを表す周波数特徴量Rfを算出する。かかる周波数特徴量Rfにより、キーボード音等の特殊な雑音信号の特徴である高周波数成分の継続時間を判定することが可能となる。
[1.4.2.周波数特徴量算出部の基本動作]
次に、図13及び図14を参照して、本実施形態に係る周波数特徴量算出部24の基本動作について説明する。図13は、本実施形態に係る周波数特徴量算出部24の基本動作を示すフローチャートである。図14は、本実施形態に係る周波数特徴量Rfの算出処理を説明するための波形図である。
図13に示すように、まず、周波数特徴量算出部24は、外部(例えば、データ記憶部30又はマイクロホンなど)から、録音された音声信号を取得する(ステップS20)。例えば図14Aに示すように、雑音信号を含む音声信号が周波数特徴量算出部24に継続的に入力される。
そして、上記振幅検出部22により音声信号における雑音開始点Pが検出されたとき、周波数特徴量算出部24は、振幅検出部22から、雑音信号が立ち上がった雑音開始点Pを表す基準時刻Tを取得する(ステップS22)。図14Bに示すように、音声信号中の雑音信号が閾値Athを超えた時点が雑音開始点P(基準時刻T)である。
次いで、周波数特徴量算出部24は、雑音開始点P(基準時刻T)を基準とする所定区間の音声信号の周波数特性を解析して、雑音開始点P付近の周波数特徴量Rfを算出する(ステップS24)。
本実施形態に係る周波数特徴量算出部24は、図14Cに示すように、基準時刻Tを基準として音声信号を複数の区間(フレーム)F1、F2、F3、・・・に分割し、フレームFごとに周波数特徴量Rfを算出する。各フレームFの時間幅及びサンプル数Nは同一であり、例えば、1つのフレームFの時間幅は3msecであり、1つのフレームのサンプル数Nは128である。図14Cの例では、時間軸上で先頭に配置される第1のフレームF1は、雑音開始点P(基準時刻T)の直前に設定され、第2のフレームF2は、雑音開始点P(基準時刻T)の直後に設定される。このようにして、雑音開始点Pを基準として音声信号を複数のフレームFに分割し、フレームFごとに周波数特徴量Rfを算出することで、雑音信号の存在する区間(雑音区間)を高精度で検出可能となる。
[1.4.3.周波数特徴量の具体例]
次に、周波数特徴量Rfの2種類の具体例について説明する。周波数特徴量Rfとして、例えば、以下に説明する(1)ゼロクロス(零交差)点の数、又は(2)高周波数成分のエネルギー比を使用することができる。
(1)ゼロクロス点の数を用いた周波数特徴量Rf
まず、図15を参照して、周波数特徴量Rfとして、音声信号のゼロクロス点Zの数cntを表すパラメータを用いる例について説明する。図15は、ゼロクロス点Zを説明するための波形図である。
図15に示すように、ゼロクロス点Zは、音声信号の時間波形において信号値が正の値から負の値に、又は負の値から正の値に変化する点を示す。ゼロクロス点では、音声信号の信号値はゼロとなる。このゼロクロス点Zの数cntが多いほど、音声信号が、より高い周波数成分を有することになる。
周波数特徴量算出部24は、かかるゼロクロス点Zの数cntを音声信号の1フレームF中のサンプル数Nで除算した値(=cnt/N)を、周波数特徴量Rfとして用いることができる。0≦(cnt/N)<1であり、音声信号がナイキスト周波数(=サンプリング周波数/2)の信号を含む場合に、当該値(cnt/N)は1となり、音声信号が低周波数成分のみを含む場合は、当該値(cnt/N)は0に近づく。
このように、ゼロクロス点Zの数cntは、音声信号に含まれる高周波数成分の比率を示すパラメータである。周波数特徴量算出部24は、図14Cで示したフレームFごとに、ゼロクロス点Zの数cntをNで除算した値(cnt/N)を算出して、各フレームFの周波数特徴量Rfを得ることができる。
(2)高周波数成分のエネルギー比を用いた周波数特徴量Rf
次に、図16を参照して、周波数特徴量Rfとして、音声信号の全ての周波数成分に対する、基準周波数f以上の高周波数成分の比率(高周波数成分のエネルギー比)を表すパラメータを用いる例について説明する。図16は、高周波数成分のエネルギー比を説明するための波形図である。
図16に示すように、高周波数成分のエネルギー比は、音声信号の全ての周波数成分(図16A参照。)のエネルギーA1に対する、周波数が基準周波数f以上である高周波数成分(図16B参照。)のエネルギーA2の比率Hである(H=面積A2/面積A1)。
周波数特徴量算出部24は、かかる比率Hを、周波数特徴量Rfとして用いることができる。0≦H≦1であり、音声信号が高周波数成分を多く含む場合は、Hは1に近づき、音声信号が低周波数成分を多く含む場合は、Hは0に近づく。
このように、音声信号における高周波数成分のエネルギー比Hは、音声信号に含まれる高周波数成分の比率を示すパラメータとなる。周波数特徴量算出部24は、図14Cで示したフレームごとに高周波数成分のエネルギー比Hを算出して、各フレームFの周波数特徴量Rfを得ることができる。
[1.4.4.キーボード音の周波数特性]
次に、図17を参照して、キーボード音等の特殊な雑音信号の周波数特性について説明する。図17は、キーボード音の周波数特性を示す波形図である。図17の実線の波形W1は、キーボード音の周波数特性を示し、波線の波形W2は、空調機等の一般的な雑音の周波数特性を示す。
図17に示すように、キーボード音(波形W1)は、基準周波数f(例えば4kHz)以上の高周波数成分を多く含むことが分かる。一方、実環境で録音される音声(例えば、人間の声、環境音)の多くは、高周波数成分に比べて、基準周波数f未満の低周波数成分をより多く含んでおり、一般的な雑音(波形W2)も、高周波数成分よりも低周波数成分を多く含む。
従って、録音された音声信号における高周波数成分と低周波数成分の比率を検出することで、雑音の種類を分類することができる。例えば、録音された音声信号の一部において高周波数成分の占める比率が多ければ、その部分はキーボード音等の特殊な雑音であると特定できる。
また、図17に示すように、キーボード音は、4kHz以上の周波数成分を多く含んでいるのに対し、人間の声は4kHz未満の周波数成分を多く含んでいる。従って、録音された音声信号にキーボード音が含まれているか否かを判定するためには、低域遮断フィルタ(ハイパスフィルタ)を用いて音声信号から例えば4kHz未満の低周波数成分をカットした上で、音声信号の高周波数成分を解析することが好ましい。
[1.4.5.周波数特徴量算出部の詳細動作]
次に、本実施形態に係る周波数特徴量算出部24の詳細動作について説明する。
(1)ゼロクロス点Zの数Nzを用いた周波数特徴量Rfの算出動作
まず、図18を参照して、本実施形態に係るゼロクロス点Zの数Nzを用いて周波数特徴量Rfを算出する動作について説明する。図18は、本実施形態に係る周波数特徴量算出部24による周波数特徴量Rf(ゼロクロス点Zの数Nz)の算出動作を示すフローチャートである。
図18に示すように、まず、周波数特徴量算出部24は、データ記憶部30に保存されている音声信号x(n)を取得する(ステップS200)。次いで、周波数特徴量算出部24は、振幅検出部22から、雑音開始点Pを表す基準時刻Tを取得する(ステップS202)。なお、Tは、例えば、雑音開始点Pが検出されたときの音声信号x(n)のサンプル番号nである。
次いで、周波数特徴量算出部24は、基準時刻Tを基準として音声信号x(n)を複数のフレームF(i)(i=−La、−La+1、・・・、Lb−1、Lb)に分割し、フレームFごとにゼロクロス点Zの数cntを算出し、1フレームのサンプル数Nを用いて当該cntを正規化する(ステップS204〜S220)。このようにして、音声信号x(n)を分割したフレームF(i)ごとに、周波数特徴量Rf(=cnt/N)が算出される。
具体的には、周波数特徴量算出部24は、パラメータn0をTに設定し、パラメータiを−Laに設定する(ステップS204)。ここで、Laは、基準時刻Tより前に設定されるフレームFの数であり、Lbは、基準時刻Tより後に設定されるフレームFの数である。
さらに、周波数特徴量算出部24は、パラメータn1をn0+i*Nに設定し、パラメータn2をn1+N−1に設定し、ゼロクロス点Zの数を表すカウンター値cntを0に初期化する(ステップS206)。ここで、n1は、音声信号のi番目のフレームF(i)の先頭のサンプル番号であり、n2は、音声信号のi番目のフレームF(i)の末尾のサンプル番号である。
次いで、サンプル番号n1の音声信号x(n1)の振幅値と、サンプル番号n1+1の音声信号x(n1)の振幅値と積が0未満であれば(ステップS208)、両者の間にゼロクロス点Zが存在しているので、ゼロクロス点Zの数cntを1つ加算する(ステップS210)。一方、当該積が0以上未満であれば(ステップS208)、ゼロクロス点Zは存在しないので、cntを加算しない。
さらに、周波数特徴量算出部24は、パラメータn1に1を加算し(ステップS212)、n1<n2であるか否かを判定する(ステップS214)。この結果、n1=n2となるまで、N個のn1について上記S208〜S212の処理が繰り返されて、i番目のフレームF(i)に含まれるゼロクロス点Zの数cntがカウントされる。
その後、周波数特徴量算出部24は、ゼロクロス点Zの数cntをサンプル数nで除算した値を、i番目のフレームF(i)の周波数特徴量Rf(i)に設定する(ステップS216)。さらに、周波数特徴量算出部24は、パラメータiに1を加算し(ステップS218)、i<Lbであるか否かを判定する(ステップS220)。この結果、i=Lbとなるまで、(La+Lb)個のiについて上記S206〜S218の処理が繰り返されて、(La+Lb)個のフレームF(i)についてそれぞれ、周波数特徴量Rf(i)が算出される。
その後、周波数特徴量算出部24は、上記のように算出された(La+Lb)個のフレームF(i)の周波数特徴量Rf(i)を雑音判定部28に通知する(ステップS222)。
(2)高周波成分のエネルギー比Hを用いた周波数特徴量Rfの算出動作
次に、図19を参照して、本実施形態に係る高周波成分のエネルギー比Hを用いて周波数特徴量Rfを算出する動作について説明する。図19は、本実施形態に係る周波数特徴量算出部24による周波数特徴量Rf(高周波成分のエネルギー比H)の算出動作を示すフローチャートである。
図19に示すように、まず、周波数特徴量算出部24は、データ記憶部30に保存されている音声信号x(n)を取得する(ステップS250)。さらに、周波数特徴量算出部24は、音声信号x(n)を低域遮断フィルタに通すことにより、高周波数成分のみを含む音声信号y(n)を生成する(ステップS252)。具体的には、周波数特徴量算出部24は、以下の式(2)に従って、音声信号x(n)から所定周波数以下の低周波数成分を除去することにより、高周波数成分のみを含む音声信号y(n)を生成する。
次いで、周波数特徴量算出部24は、振幅検出部22から、雑音開始点Pを表す基準時刻Tを取得する(ステップS254)。なお、Tは、例えば、雑音開始点Pが検出されたときの音声信号x(n)のサンプル番号nである。
次いで、周波数特徴量算出部24は、基準時刻Tを基準として音声信号x(n)、y(n)を複数のフレームF(i)(i=−La、−La+1、・・・、Lb−1、Lb)に分割し、フレームFごとに高周波成分のエネルギー比Hを算出する(ステップS256〜S264)。このようにして、音声信号x(n)、y(n)を分割したフレームF(i)ごとに、周波数特徴量Rfが算出される。
具体的には、まず、周波数特徴量算出部24は、パラメータnをTに設定し、パラメータiを−Laに設定する(ステップS256)。ここで、Laは、基準時刻Tより前に設定されるフレームFの数である。なお、Lbは、基準時刻Tより後に設定されるフレームFの数である。
次いで、周波数特徴量算出部24は、以下の式(3)及び(4)に従って、全周波数成分を含む音声信号x(n)のエネルギーPtotalと、高周波数成分のみを含む音声信号y(n)のエネルギーPHighを算出する(ステップS258)。
さらに、周波数特徴量算出部24は、次の式(5)のように、上記S258で求めたエネルギーPHighをエネルギーPtotalで除算して、i番目のフレームF(i)のエネルギー比H(i)を算出する(ステップS260)。周波数特徴量算出部24は、このように求めたH(i)を、i番目のフレームF(i)の周波数特徴量Rf(i)に設定する。
その後、周波数特徴量算出部24は、パラメータiに1を加算し(ステップS262)、i<Lbであるか否かを判定する(ステップS264)。この結果、i=Lbとなるまで、(La+Lb)個のiについて上記S258〜S262の処理が繰り返されて、(La+Lb)個のフレームF(i)についてそれぞれ、周波数特徴量Rf(i)として、H(i)が算出される。
その後、周波数特徴量算出部24は、上記のように算出された(La+Lb)個のフレームF(i)の周波数特徴量Rf(i)を雑音判定部28に通知する(ステップS266)。
以上、図18、図19を用いて説明したように、周波数特徴量算出部24は、基準時刻Tを基準として音声信号を複数のフレームFに分割し、各フレームの周波数特徴量Rfを算出する。この周波数特徴量Rfは、音声信号に含まれる高周波数成分の比率を表している。これにより、後述の雑音判定部28は、周波数特徴量Rfを用いて、音声信号の中から高周波数成分を継続的に含む雑音信号が存在する区間を特定できるので、キーボード音等の特殊な雑音信号の有無とその区間を適切に判定できる。
なお、音声信号のサンプリング周波数が44.1kHzである場合、N=128、La=1、Lb=1に設定できる。この例では、基準時刻Tの前後に3個のフレームFが設定されることになるが、かかる例に限定されない。例えば、Laを2以上の整数に設定して、基準時刻Tの前に複数のフレームFを設定してもよいし、或いは、La=0として、基準時刻Tの後にのみフレームFを設定してもよい。また、Laを2以上の整数に設定して、基準時刻Tの後に3以上のフレームFを設定してもよい。ただし、基準時刻Tの後に1又は2以上のフレームFを設定する際には、検出対象であるキーボード音の継続時間に応じて、該キーボード音の雑音信号が存在する区間をカバーするようにフレームFを設定すればよい。
次に、図20及び図21を参照して、上記周波数特徴量算出部24により算出された周波数特徴量Rfの具体例に説明する。図20は、本実施形態に係る音声信号と、ゼロクロス点Zの数cntを用いて得られた周波数特徴量Rfを示すグラフである。図21は、本実施形態に係る音声信号と、高周波数成分のエネルギー比Hを用いて得られた周波数特徴量Rfを示すグラフである。
なお、図20、図21は、基準時刻Tを基準として、サンプル数N=128ごとに音声信号を複数のフレームFに分割し、各フレームFの周波数特徴量Rfを求めた結果を示している。ゼロクロス点Zの数cnt又は高周波数成分のエネルギー比Hのいずれを用いた場合も、音声信号の基準時刻Tは13番目のフレームFの開始点に対応している。
図20及び図21に示すように、そして、周波数特徴量Rfは、音声信号の基準時刻T(13番目のフレームF)を中心として前後1フレーム程度にわたって、周囲よりも大きな値となっていることが分かる。従って、上記周波数特徴量Rfを雑音区間の判定基準として用いることで、音声信号の中から、高周波数成分が存在する区間、即ち、キーボード音等の特殊な雑音信号の存在する区間を適切に推定できるといえる。
[1.5.減衰特徴量算出部の詳細]
次に、本実施形態に係る音声信号処理装置10の減衰特徴量算出部26の構成及び動作について説明する。
[1.5.1.減衰特徴量算出部の構成]
まず、図22を参照して、本実施形態に係る減衰特徴量算出部26の構成について説明する。図22は、本実施形態に係る減衰特徴量算出部26の構成を示すブロック図である。
図22に示すように、減衰特徴量算出部26は、音声信号のエネルギー減衰を利用して、該音声信号に含まれる雑音信号の減衰状態を表す減衰特徴量Raを算出する。減衰特徴量算出部26は、減衰特徴量Raの算出処理を実行する演算部262を備える。
演算部262には、再生された音声信号が外部から入力されるとともに、振幅検出部22から上記雑音開始点Pを表す基準時刻Tが通知される。上記基準時刻Tが通知されると、演算部262は、音声信号を解析することによって、雑音信号の減衰状態を表す減衰特徴量Raを算出し、雑音判定部28に通知する。詳細には、演算部262は、雑音開始点P(基準時刻T)付近の音声信号のエネルギーE1と、雑音開始点Pから所定時間Td経過した時点付近の音声信号のエネルギーE2との関係性を用いて、減衰特徴量Raを算出する。かかる減衰特徴量Raにより、キーボード音等の特殊な雑音信号の特徴である緩やかな減衰を判定することが可能となる。
[1.5.2.減衰特徴量算出部の動作]
次に、図23及び図24を参照して、本実施形態に係る減衰特徴量算出部26の基本動作について説明する。図23は、本実施形態に係る減衰特徴量算出部26の基本動作を示すフローチャートである。図24は、本実施形態に係る減衰特徴量の算出処理を説明するための波形図である。
図23に示すように、まず、減衰特徴量算出部26は、外部(例えば、データ記憶部30又はマイクロホンなど)から、録音された音声信号を取得する(ステップS30)。例えば図24に示すように、雑音信号を含む音声信号が減衰特徴量算出部26に継続的に入力される。
そして、上記振幅検出部22により音声信号における雑音開始点Pが検出されたとき、減衰特徴量算出部26は、振幅検出部22から、雑音信号が立ち上がった雑音開始点Pを表す基準時刻Tを取得する(ステップS32)。
次いで、減衰特徴量算出部26は、図14に示すように、基準時刻T(雑音開始点P)の直後の第1の区間D1の音声信号のエネルギーE1、及び、基準時刻Tから所定時間Tdだけ経過した後の第2の区間D2の音声信号のエネルギーE2を算出する(ステップS34)。さらに、減衰特徴量算出部26は、S34で求めたE1に対するE2の比率(=E2/E1)を、減衰特徴量Raとして算出する(ステップS36)。
図24に示すように、基準時刻Tの直後の第1の区間D1の幅は、所定時間Tdだけ経過した後の第2の区間D2の幅と同一である。また、第1の区間D1と第2の区間D2の時間差Tdは、検出対象であるキーボード音等の継続時間に応じて、予め適切な固定値に設定されてもよい。
次に、図25を参照して、本実施形態に係る減衰特徴量算出部26の詳細動作について説明する。図25は、本実施形態に係る減衰特徴量算出部26の詳細動作を示すフローチャートである。
図25に示すように、まず、減衰特徴量算出部26は、データ記憶部30に保存されている音声信号x(n)を取得する(ステップS300)。
次いで、減衰特徴量算出部26は、音声信号x(n)を低域遮断フィルタに通すことにより、高周波数成分のみを含む音声信号y(n)を生成する(ステップS302)。具体的には、減衰特徴量算出部26は、以上記式(2)に従って、音声信号x(n)から所定周波数(例えば300Hz)以下の低周波数成分を除去することにより、高周波数成分のみを含む音声信号y(n)を生成する。
次いで、減衰特徴量算出部26は、振幅検出部22から、雑音開始点Pを表す基準時刻Tを取得する(ステップS304)。なお、Tは、例えば、雑音開始点Pが検出されたときの音声信号x(n)のサンプル番号nである。
次いで、減衰特徴量算出部26は、パラメータn1をTに設定し、パラメータn2をn1+N−1に設定する(ステップS306)。さらに、減衰特徴量算出部26は、以下の式(6)に従って、音声信号y(n)の第1の区間D1のエネルギーE1を算出する(ステップS308)。図24に示したように、第1の区間D1は、基準時刻T(雑音開始点P)の直後の区間である。
次いで、減衰特徴量算出部26は、パラメータn1をT+Tdに設定し、パラメータn2をn1+N−1に再設定する(ステップS310)。さらに、減衰特徴量算出部26は、以下の式(7)に従って、音声信号y(n)の第2の区間D2のエネルギーE2を算出する(ステップS308)。図24に示したように、第2の区間D2は、基準時刻Tから所定時間Tdだけ経過した後の区間である。
さらに、減衰特徴量算出部26は、上記S312で求めたエネルギーE2と上記S303で求めたエネルギーE1との比率(エネルギー比)を、減衰特徴量Raとして算出する(ステップS314)。例えば、減衰特徴量算出部26は、次の式(8)のように、上記エネルギーE2をエネルギーE1で除算した値の対数を算出して、減衰特徴量Raを求める
その後、減衰特徴量算出部26は、上記のように算出された減衰特徴量Raを雑音判定部28に通知する(ステップS316)。
以上説明したように、減衰特徴量算出部26は、基準時刻T付近の音声信号のエネルギーE1と、基準時刻Tから所定時間Td経過した時点付近の音声信号のエネルギーE2との比率を用いて、減衰特徴量Raを算出する。この減衰特徴量Raは、雑音信号の立ち上がり時(基準時刻T)を基準とした雑音信号の減衰量を表している。これにより、後述の雑音判定部28は、減衰特徴量Raを用いて、音声信号における雑音信号の減衰状態を判定できるので、キーボード音等の特殊な雑音信号の雑音終了点Qを適切に判定できる。
また、図25の処理では、エネルギーE1、E2の算出の前処理として、低域遮断フィルタを用いて音声信号x(n)から低周波数成分を除去した音声信号y(n)を生成し(S302)、該音声信号y(n)を用いて減衰特徴量Raを算出している。これにより、音声信号x(n)のうち、図1に示した机3を伝わる振動8などといった低周波数成分(例えば300kHz以下)の影響を低減した上で、音声信号に含まれる高周波数成分の減衰特徴量Raを算出することができる。よって、検出対象のキーボード音等の特殊な雑音に対応する減衰特徴量Raを適切に検出可能となる。なお、本願発明者らが実際の録音音声信号を検証したところ、机3の振動8を抑制するためには、概ね300kHz以下の信号成分を遮断すればよいことが分かった。
また、上記では、基準時刻T直後の区間のエネルギーE1を基準として、Raを求めたが、基準時刻Tを基準として音声信号を複数のフレームFに分割し(図14C参照)、各フレームFのエネルギーE1を基準として、そのフレームFからTd後のフレームのエネルギーE2の比率(=E2/E1)をそれぞれ求めてもよい。これにより、各フレームF(1)、F(2)、F(3)を基準とした減衰特徴量Ra(1)、Ra(2)、Ra(3)、・・・を得ることができる。
次に、図26を参照して、上記減衰特徴量算出部26により算出された減衰特徴量Raの具体例に説明する。図26は、本実施形態に係る音声信号と減衰特徴量Raを示すグラフである。
なお、図26は、基準時刻Tを基準として、サンプル数N=128ごとに音声信号を複数のフレームFに分割して、各フレームFのエネルギーE1と、そのTd後のフレームのエネルギーE2を算出し、上述した減衰特徴量RaをフレームFごとに求めた結果を示している。図26では、相異なるキーボード音を含む4種類の音声信号も波形、減衰特徴量Raを重ねて表示してある。それぞれ音声信号の基準時刻Tは13番目のフレームFの開始点に対応している。また、上記Tdは、T(雑音開始点P)から所定時間経過したサンプル点を表すが、このTdの値としては、例えば1900サンプルを用いた。
図26に示すように、雑音開始点Pである基準時刻Tより前の区間では、音声信号に雑音信号が含まれていないので、1番目のフレームFから11番目のフレームFまでの減衰特徴量Raは、比較的高い値で安定的に推移している。従って、この区間では、音声信号のエネルギーがほとんど減衰していないことが分かる。これに対し、基準時刻T以後の区間には雑音信号が含まれており、該雑音信号は所定時間Tthに渡って継続的に高い振幅値を維持した後に、徐々に減衰している。従って、基準時刻T前後の12、13、14番目のフレームFの減衰特徴量Raは、最低値(例えば−2前後)まで急激に低減している、一方、15番目以降のフレームFの減衰特徴量Raは、当該最低値よりも若干高い値(例えば−1.5前後)で安定的に推移している。
以上のように、雑音信号の継続時間に応じてTdを適切な値に設定することによって、雑音信号の入力時点(基準時刻T)前後のフレーム(12〜14番目のフレーム)の減衰特徴量Raは、雑音信号が入力される前の区間(11番目以前のフレーム)や、雑音信号が入力されてからある程度時間が経過した後の区間(15番目以降のフレーム)の減衰特徴量Raと比べて、低くなる。従って、減衰特徴量Raの変化に基づいて、音声信号に含まれる雑音信号が、想定される減衰を行っているか否かを推定することが可能となる。よって、減衰特徴量Raを用いて、検出目標であるキーボード音等の特殊な雑音を適切に検出できるようになる。
[1.6.雑音判定部の詳細]
次に、本実施形態に係る音声信号処理装置10の雑音判定部28の構成及び動作について説明する。
[1.6.1.雑音判定部の構成]
まず、図27を参照して、本実施形態に係る雑音判定部28の構成について説明する。図7は、本実施形態に係る雑音判定部28の構成を示すブロック図である。
図27に示すように、雑音判定部28は、演算部282と、比較部284と、記憶部286とを備える。
演算部282には、振幅検出部22、周波数特徴量算出部24、減衰特徴量算出部26からそれぞれ、振幅特徴量E、周波数特徴量Rf、減衰特徴量Raが入力される。演算部282は、これらの振幅特徴量E、周波数特徴量Rf、減衰特徴量Raに基づいて、音声信号にキーボード音等の特殊な雑音信号が含まれるか否かを表す評価値vを算出する。
比較部284は、当該評価値vに基づいて、音声信号にキーボード音等の特殊な雑音信号が含まれるか否かを判定する。記憶部286は、検出対象の雑音信号に応じて予め設定された評価値vの閾値を記憶している。比較部284は、記憶部286から読み出した閾値と、演算部282から入力された評価値vを比較する。そして、比較部284は、当該比較結果に基づいて、音声信号に特殊な雑音信号が含まれるか否かを判定し、雑音信号が含まれる場合は、その雑音信号の雑音開始点Pから雑音終了点Qまでの区間(雑音区間)を判定する。比較部284は、上記の判定結果(雑音信号の有無、雑音区間)を、制御部32及び雑音低減部34に出力する。
[1.6.2.雑音判定部の動作]
次に、図28を参照して、本実施形態に係る雑音判定部28の基本動作について説明する。図28は、本実施形態に係る雑音判定部28の基本動作を示すフローチャートである。
図28に示すように、まず、雑音判定部28は、振幅検出部22、周波数特徴量算出部24、減衰特徴量算出部26からそれぞれ、特徴量E、Rf、Raを取得する(ステップS40)。次いで、雑音判定部28は、演算部282により振幅特徴量E、周波数特徴量Rf及び減衰特徴量Raを演算して、上記評価値vを算出する(ステップS42)。さらに、雑音判定部28は、算出した評価値vと、記憶部286に記憶されている閾値とを比較する(ステップS44)。その後、雑音判定部28は、S44の比較結果に基づいて雑音信号の有無と雑音区間を判定し、判定結果(雑音信号の有無、雑音区間)を制御部32及び雑音低減部34に通知する(ステップS46)。
なお、上記雑音判定部28の構成例では、振幅特徴量E、周波数特徴量Rf、減衰特徴量Raを総合した1つの評価値vを算出し、該評価値vを閾値と比較することで雑音を判定した。しかし、かかる例に限定されず、振幅特徴量E、周波数特徴量Rf、減衰特徴量Raを個別に閾値と比較することによって、雑音を判定してもよい。
次に、図29を参照して、本実施形態に係る雑音判定部28の詳細動作について説明する。図29は、本実施形態に係る雑音判定部28の詳細動作を示すフローチャートである。
図29に示すように、まず、雑音判定部28は、振幅検出部22、周波数特徴量算出部24、減衰特徴量算出部26からそれぞれ、振幅特徴量E、周波数特徴量Rf、減衰特徴量Raを取得する(ステップS400)。このうち、周波数特徴量Rfは、上述したように、音声信号を分割したフレームF(図14C参照。)ごとにそれぞれ算出されている。従って、雑音判定部28は、各々のフレームFに対応する周波数特徴量Rf(1)、Rf(2)、Rf(3)、・・・を取得する。
次いで、雑音判定部28は、記憶部286から、振幅特徴量の閾値E_th、周波数特徴量の閾値Rf_th、減衰特徴量の閾値Ra_thを読み出す(ステップS402)。これらの閾値E_th、Rf_th、Ra_thは、検出を所望する雑音信号の種類や信号特性に応じて、予め適切な値に設定されている。
次いで、雑音判定部28は、上記S400で取得した特徴量E、Rf、Raと、閾値E_th、Rf_th、Ra_thをそれぞれ比較し、これらの比較結果に基づいて、キーボード音等の雑音信号の有無を判定する(ステップS404〜S408)。
具合的には、まず、雑音判定部28は、振幅特徴量Eと閾値E_thを比較し(ステップS404)、EがE_thより大きければ、キーボード音が存在する可能性があるので、S406の処理を行う。一方、EがE_th以下であれば、雑音判定部28は、キーボード音は存在しないと判定する(ステップS412)。ここで、振幅特徴量Eは、音声信号の雑音開始点P(基準時刻T)の直後の区間の信号エネルギーであり(上記数(1)参照。)。このように本実施形態では、雑音検出時の振幅値Aではなく、雑音検出直後の信号エネルギーである振幅特徴量Eを、キーボード音が存在するか否かの判定に利用する。この理由を以下に述べる。
図3に示したようにキーボード音の雑音信号は、基準時刻Tでの信号立ち上がり後に継続して、高い振幅値Aを維持する特性を有しており、基準時刻Tの直後の区間の信号エネルギーEもある程度大きくなる。これに対し、図2に示したようなパルス的な雑音信号は、信号立ち上がり後にすぐに減衰するので、キーボード音よりも信号エネルギーが小さくなる。もし、雑音検出時の振幅値Aのみで雑音を判定してしまうと、図2に示したようなパルス的な雑音も、キーボード音であると誤判定されてしまう恐れがある。そこで、本実施形態では、基準時刻Tの振幅値Aではなく、基準時刻T直後の所定区間の信号エネルギーを雑音の判定基準とする。これにより、図2に示したようなパルス的な雑音信号を除外して、図3に示したようなキーボード音等の特殊な雑音だけを適切に検出できるようになる。
なお、閾値E_thは、検出対象のキーボード音の雑音信号の振幅値や継続時間に応じて適切な値に設定される。例えば、以下の式(9)のように、AGC機能が有効化される基準振幅値Bthを基準とした信号エネルギーのα倍(例えばα=0.5)の値を、E_thに設定してもよい。
次いで、雑音判定部28は、基準時刻T以降の各フレームFの周波数特徴量Rf(1)、Rf(2)、Rf(3)、・・・と、閾値Rf_thを比較し(ステップS406)、基準時刻Tから所定時間Tth内にある全てのRf(1)、Rf(2)、Rf(3)、・・・が、Rf_thより大きければ、キーボード音が存在する可能性が高いので、S408の処理を行う。一方、上記Rf(1)、Rf(2)、Rf(3)、・・・のうち少なくとも1つのRfが、Rf_th以下であれば、雑音判定部28は、キーボード音は存在しないと判定する(ステップS412)。
図3に示したようなキーボード音の雑音信号は、基準時刻T以後の所定時間Tth(例えば0.02秒)に渡って高周波数成分を継続的に含む。これに対し、図2に示したようなパルス的な雑音信号は、信号立ち上がり後にすぐに減衰するので、高周波数成分が継続しない。従って、基準時刻T後に少なくとも所定時間Th以上に渡り高周波成分を継続的に含む場合には、キーボード音が存在すると推定できる。そこで、本実施形態では、基準時刻T以後の所定時間Tth内にある全てのフレームのRfが閾値Rf_thであれば、音声信号にキーボード音が存在すると推定する。このように、本実施形態では、キーボード音の高周波数成分の周波数特性及び継続時間を利用して、キーボード音を適切に検出できる。
なお、閾値Rf_thは、検出対象のキーボード音の雑音信号の周波数特性や継続時間に応じて適切な値に設定される。例えば、図20、図21の例では、閾値Rf_thを0.3に設定してもよい。これにより、周波数特徴量RfがRf_thより大きい12〜14番目のフレームに、キーボード音が存在すると推定できる。また、所定時間Thについては、例えば、実験によりキーボード音の平均継続時間Taveを予め求めておき、当該平均継続時間Tave若しくはその何割かの時間を所定時間Thに設定してもよい。そして、この基準時刻Tから所定時間Th内の全てのフレームの周波数特徴量Rfが閾値Rf_th以上であれば、キーボード音であると判定すればよい。
その後、雑音判定部28は、減衰特徴量Raと閾値Ra_thを比較し(ステップS408)、RaがRa_th未満であれば、音声信号内のキーボード音が存在すると判定する(ステップS410)。RaがRa_th未満であれば、基準時刻TからTd経過後の信号が、基準時刻Tでの信号と比べて所定の振幅値以下まで十分に減衰しており、入力信号がキーボード音の雑音信号のモデルに該当するといえる。一方、Raが、Ra_th以上であれば、基準時刻TからTd経過後の信号が減衰していないので、雑音判定部28は、キーボード音は存在しないと判定する(ステップS412)。
図3に示したように、キーボード音等の特殊な雑音信号は、所定時間Tthに渡って高い振幅値Aを継続した後に徐々に減衰する。そこで、本ステップS408にて減衰特徴量Raを用いて雑音信号の有無を判定することで、かかる雑音信号の減衰状態を的確に捕捉できる。よって、上記周波数特徴量Rfのみを用いて判定する場合と比べて、より高精度でキーボード音等の有無を判定できる。
なお、閾値Ra_thは、検出対象のキーボード音の雑音信号の継続時間や減衰状態に応じて適切な値に設定される。例えば、図26の例では、閾値Ra_thを−1.5に設定してもよい。これにより、基準時刻Tに対応する13番目のフレームの減衰特徴量Raが、Ra_thより小さいので、該基準時刻Tで信号の立ち上がりが検出された雑音信号が、キーボード音であると推定できる。
また、上記減衰特徴量算出部26により、周波数特徴量Rfが、基準時刻Tを基準として音声信号を分割したフレームF(図14C参照。)ごとにそれぞれ算出されている場合、雑音判定部28は、各々のフレームFに対応する減衰特徴量Ra(1)、Ra(2)、Ra(3)、・・・を取得する(S400)。この場合、雑音判定部28は、各Ra(1)、Ra(2)、Ra(3)、・・・と、閾値Ra_thを比較し(S408)、該比較結果に基づいて、雑音信号の雑音終了点Qの位置を特定することができる。例えば図26の例では、Raは、13、14番目のフレームでRa_th未満に低下しているが、15番目のフレームでRa_th以上に復帰する。このようにRaがRa_th以上に復帰する時点を、雑音信号の雑音終了点Qであると推定できる。このようにして、減衰特徴量Raの推移に基づいて、キーボード音等の特殊な雑音信号の雑音終了点をも特定可能である。
以上のように、本実施形態に係る音声信号処理方法によれば、入力された音声信号を解析することにより3種類の特徴量E、Rf、Raを算出し、該特徴量E、Rf、Raを用いて、キーボード音等の特殊な雑音の有無と、その雑音区間を適切に判定できる。なお、図29に示す例は、それぞれの特徴量E、Rf、Raを閾値Eth、Rf_th、Ra_thと個別に比較して、雑音の有無を判定した。つまり、図27に示す演算部282と比較部284は同一の構成要素として構成されていた。しかし、かかる例に限定されず、特徴量E、Rf、Raを総合した1つの評価値vを算出し、該評価値vと閾値v_tnを比較することによって、雑音判定を行ってもよい。また、その他にも、雑音判定として、線形識別などを利用してもよく、雑音判定のための特徴量の識別手段の種類は問わない。
<2.第2の実施の形態>
次に、本発明の第2の実施形態に係る音声信号処理装置及び音声信号処理方法について説明する。第2の実施形態は、上記第1の実施形態と比べて、振幅特徴量E及び減衰特徴量Raを用いずに、周波数特徴量Rfのみを用いて雑音を判定する点で相違する。第2の実施形態のその他の機能構成は、上記第1の実施形態と実質的に同一であるので、その詳細説明は省略する。
[2.1.音声信号処理装置の機能構成]
まず、図30を参照して、第2の実施形態に係る音声信号処理装置10の機能構成例について説明する。図30は、第2実施形態に係る音声信号処理装置10の機能構成を示すブロック図である。
図30に示すように、音声信号処理装置10は、雑音検出ユニット20と、データ記憶部30と、制御部32と、雑音低減部34と、音声出力部36とを備える。雑音検出ユニット20は、振幅検出部22と、周波数特徴量算出部24と、雑音判定部28とを備える。このように第2の実施形態に係る音声信号処理装置10は、第1の実施形態に係る音声信号処理装置10(図6参照。)と比べて、減衰特徴量算出部26を具備していない点で相違し、雑音判定部28は、減衰特徴量Raを用いずに、周波数特徴量Rfのみを用いて雑音の判定を行う。なお、第2の実施形態に係る音声信号処理装置10の他の構成要素は第1の実施形態と同様である。
[2.2.音声信号処理装置の動作]
次に、図31を参照して、第2の実施形態に係る雑音判定部28の詳細動作について説明する。図31は、第2の実施形態に係る雑音判定部28の詳細動作を示すフローチャートである。
図29に示すように、まず、雑音判定部28は、周波数特徴量算出部24から周波数特徴量Rfを取得する(ステップS500)。次いで、雑音判定部28は、記憶部286から、周波数特徴量の閾値Rf_thを読み出す(ステップS502)。
さらに、雑音判定部28は、上記S500で取得した周波数特徴量Rfと、閾値Rf_thを比較し、当該比較結果に基づいて、キーボード音等の雑音信号の有無を判定する(ステップS504)。具体的には、雑音判定部28は、基準時刻T以降の各フレームFの周波数特徴量Rf(1)、Rf(2)、Rf(3)、・・・と、閾値Rf_thを比較し(S406)、基準時刻Tから所定時間Tth内にある全てのRf(1)、Rf(2)、Rf(3)、・・・が、Rf_thより大きければ、振幅検出部22による立ち上がりが検出された信号の高周波成分が所定時間Tth以上継続しているので、キーボード音が存在すると判定する(ステップS506)。一方、上記Rf(1)、Rf(2)、Rf(3)、・・・のうち少なくとも1つのRfが、Rf_th以下であれば、雑音判定部28は、キーボード音は存在しないと判定する(ステップS508)。
以上のように、第2の実施形態に係る音声信号処理方法では、周波数特徴量Rfのみを用いて、キーボード音等の特殊な雑音信号の高周波数成分の継続時間をチェックすることにより、キーボード音等の特殊な雑音信号の有無を判定する。これにより、第1の実施形態によりも検出精度は劣るものの、従来のように信号立ち上がり時の振幅値のみを用いて検出する方法よりも、キーボード音のような特殊な雑音信号の存在を高精度で検出可能である。
<3.まとめ>
以上、本発明の好適な実施形態に係る信号処理装置及び方法について説明した。本実施形態によれば、音声信号を録音する録音機器1に対して所定距離以上離隔した位置で発生した突発性雑音、例えば、図1に示したように、録音機器1から離隔した位置に配置されたノートPC2で発生するキーボード音等の特殊な突発性雑音を適切に検出することができる。これにより、録音音声の再生時に当該特殊な突発性雑音を低減して、録音音声を聴きやすくすることができる。
特に、第1の実施形態によれば、特徴量E、Rf、Raを用いることで、(1)音声信号の信号レベル(振幅値)に加え、(2)音声信号の高周波数成分の継続時間及び(3)減衰状態という3つの判定要素で判定を行うことができる。これにより、上記特殊な突発性雑音の雑音信号の台形的な特徴を捕捉することができるので、音声信号に含まれる上記特殊な雑音信号を高精度で検出可能となる。
また、録音機器1自体の操作音についても、継続時間の長い雑音信号の検出精度を向上させることができる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、上記実施形態では、音声信号処理装置10としてPCを例示し、録音音声の再生時に雑音を検出及び低減する例について説明したが、本発明はかかる例に限定されない。例えば、音声信号処理装置は、音声再生機能を有する機器であれば、任意の再生装置であってもよい。また、音声信号処理装置は、再生装置の例に限られず、音声録音機能を有する録音装置であってもよく、音声録音時に雑音を検出及び低減してもよい。このように、本発明の音声信号処理装置は、例えば、記録再生装置(例えば、ブルーレイディスク/DVDレコーダ)、テレビジョン受像器、システムステレオ装置、撮像装置(例えば、デジタルカメラ、デジタルビデオカメラ)、携帯端末(例えば、携帯型音楽/映像プレーヤ、携帯型ゲーム機、ICレコーダ)、パーソナルコンピュータ、ゲーム機、カーナビゲーション装置、デジタルフォトフレーム、家庭電化製品、自動販売機、ATM、キオスク端末など、任意の電子機器に適用できる。
1 録音機器
2 ノートPC
3 机
6 音
7 反射音
8 振動
10 音声信号処理装置
20 雑音検出ユニット
22 振幅検出部
24 周波数特徴量算出部
26 減衰特徴量算出部
28 雑音判定部
30 データ記憶部
32 制御部
34 雑音低減部
36 音声出力部
222、286 記憶部
224、284 比較部
226、242、262、282 演算部
228 通知部
A 振幅値
P 雑音開始点
Q 雑音終了点
基準時刻
E 振幅特徴量
Rf 周波数特徴量
Ra 減衰特徴量
Tth 所定時間
Td 時間
Ath、Eth、Rf_th、Ra_th 閾値
F フレーム
f0 基準周波数
Z ゼロクロス点

Claims (13)

  1. 雑音信号を含む音声信号の振幅値を閾値と比較することにより、前記音声信号の雑音開始点を検出する振幅検出部と、
    少なくとも前記雑音開始点以降の前記音声信号の周波数特性を表す周波数特徴量を算出する周波数特徴量算出部と、
    前記周波数特徴量に基づいて、前記雑音開始点以降の前記音声信号のうち基準周波数以上の高周波数成分を継続的に含む区間を雑音区間として判定する雑音判定部と、
    を備える、音声信号処理装置。
  2. 前記音声信号に含まれる前記雑音信号の減衰を表す減衰特徴量を算出する減衰特徴量算出部をさらに備え、
    前記雑音判定部は、前記周波数特徴量及び前記減衰特徴量に基づいて、前記雑音開始点以降の前記音声信号のうち基準周波数以上の高周波数成分を継続的に含み、かつ、前記雑音開始点から前記雑音信号が所定基準以下に減衰する雑音終了点までの区間を、前記雑音区間として判定する、請求項1に記載の音声信号処理装置。
  3. 前記減衰特徴量算出部は、前記減衰特徴量として、前記雑音開始点付近の前記音声信号のエネルギーと、前記雑音開始点から所定時間経過した時点付近の前記音声信号のエネルギーとの比率を表すパラメータを算出する、請求項2に記載の音声信号処理装置。
  4. 前記減衰特徴量算出部は、前記音声信号から所定周波数以下の低周波数成分を除去した信号を用いて前記減衰特徴量を算出する、請求項2に記載の音声信号処理装置。
  5. 前記周波数特徴量算出部は、前記雑音開始点以降の前記音声信号を複数の区間に分割し、前記区間ごとに前記周波数特徴量を算出し、
    前記雑音判定部は、前記各区間の前記周波数特徴量が閾値以上であるか否かを判定し、前記周波数特徴量が当該閾値以上となる1又は2以上の区間を前記雑音区間として判定する、請求項1に記載の音声信号処理装置。
  6. 前記周波数特徴量算出部は、前記周波数特徴量として、前記音声信号のゼロクロス点の数を表すパラメータを算出する、請求項1に記載の音声信号処理装置。
  7. 前記周波数特徴量算出部は、前記周波数特徴量として、前記音声信号の全ての周波数成分と前記基準周波数以上の高周波数成分との比率を表すパラメータを算出する、請求項1に記載の音声信号処理装置。
  8. 前記振幅検出部は、前記雑音開始点付近における前記音声信号の信号エネルギーを表す振幅特徴量を算出し、
    前記雑音判定部は、前記振幅特徴量が閾値以上であるか否を判定し、前記振幅特徴量が閾値以上である場合に、前記周波数特徴量に基づいて前記雑音区間を判定する、請求項1に記載の音声信号処理装置。
  9. 前記雑音信号は、前記音声信号を録音した録音装置から所定距離以上離隔した位置の雑音発生源から発生した雑音を表す、請求項1に記載の雑音検出装置。
  10. 前記雑音信号は、前記基準周波数以上の高周波数成分を継続的に含み、かつ、非単調で減衰する信号である、請求項1に記載の雑音検出装置。
  11. 前記音声信号における前記雑音区間の信号レベルを低下させることにより、前記音声信号に含まれる前記雑音信号を低減する雑音低減部をさらに備える、請求項1に記載の音声信号処理装置。
  12. 雑音信号を含む音声信号の振幅値を閾値と比較することにより、前記音声信号の雑音開始点を検出するステップと、
    少なくとも前記雑音開始点以降の前記音声信号の周波数特性を表す周波数特徴量を算出するステップと、
    前記周波数特徴量に基づいて、前記雑音開始点以降の前記音声信号のうち基準周波数以上の高周波数成分を継続的に含む区間を雑音区間として判定するステップと、
    を含む、音声信号処理方法。
  13. 雑音信号を含む音声信号の振幅値を閾値と比較することにより、前記音声信号の雑音開始点を検出するステップと、
    少なくとも前記雑音開始点以降の前記音声信号の周波数特性を表す周波数特徴量を算出するステップと、
    前記周波数特徴量に基づいて、前記雑音開始点以降の前記音声信号のうち基準周波数以上の高周波数成分を継続的に含む区間を雑音区間として判定するステップと、
    をコンピュータに実行させるためのプログラム。

JP2010164855A 2010-07-22 2010-07-22 音声信号処理装置、音声信号処理方法及びプログラム Withdrawn JP2012027186A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2010164855A JP2012027186A (ja) 2010-07-22 2010-07-22 音声信号処理装置、音声信号処理方法及びプログラム
US13/179,721 US8971549B2 (en) 2010-07-22 2011-07-11 Audio signal processing apparatus, audio signal processing method, and program
CN201110206440.9A CN102348150B (zh) 2010-07-22 2011-07-22 音频信号处理装置、音频信号处理方法和程序

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010164855A JP2012027186A (ja) 2010-07-22 2010-07-22 音声信号処理装置、音声信号処理方法及びプログラム

Publications (1)

Publication Number Publication Date
JP2012027186A true JP2012027186A (ja) 2012-02-09

Family

ID=45493625

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010164855A Withdrawn JP2012027186A (ja) 2010-07-22 2010-07-22 音声信号処理装置、音声信号処理方法及びプログラム

Country Status (3)

Country Link
US (1) US8971549B2 (ja)
JP (1) JP2012027186A (ja)
CN (1) CN102348150B (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013015011A1 (ja) * 2011-07-26 2013-01-31 ソニー株式会社 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
WO2016203753A1 (ja) * 2015-06-16 2016-12-22 日本電気株式会社 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
WO2017158905A1 (ja) * 2016-03-17 2017-09-21 株式会社オーディオテクニカ ノイズ検出装置と音声信号出力装置
WO2017203677A1 (ja) * 2016-05-27 2017-11-30 ヤマハ株式会社 オーディオ信号処理装置、および音響パラメータ決定方法
CN111613250A (zh) * 2020-07-06 2020-09-01 泰康保险集团股份有限公司 长语音端点检测方法与装置、存储介质、电子设备

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103378933B (zh) * 2012-04-26 2016-12-14 国民技术股份有限公司 解码方法、解码模块及信号处理方法、信号处理装置
JP6182895B2 (ja) * 2012-05-01 2017-08-23 株式会社リコー 処理装置、処理方法、プログラム及び処理システム
CN102706560B (zh) * 2012-05-25 2017-12-12 华锐风电科技(江苏)有限公司 一种风力发电机组的状态监测方法和装置
US20140072143A1 (en) * 2012-09-10 2014-03-13 Polycom, Inc. Automatic microphone muting of undesired noises
US20180220501A1 (en) * 2014-03-24 2018-08-02 Sabic Global Technologies B.V. Transparent articles including electromagnetic radiation shielding
CN105632503B (zh) * 2014-10-28 2019-09-03 南宁富桂精密工业有限公司 信息隐藏方法及系统
CN104778958B (zh) * 2015-03-20 2017-11-24 广东欧珀移动通信有限公司 一种含噪声歌曲拼接的方法及装置
JP6597062B2 (ja) * 2015-08-31 2019-10-30 株式会社Jvcケンウッド 雑音低減装置、雑音低減方法、雑音低減プログラム
JP2017076113A (ja) * 2015-09-23 2017-04-20 マーベル ワールド トレード リミテッド 急峻ノイズの抑制
CN109792572B (zh) * 2016-09-28 2021-02-05 3M创新有限公司 自适应电子听力保护装置
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN108182953B (zh) * 2017-12-27 2021-03-16 上海传英信息技术有限公司 音频尾部pop音处理方法和装置
CN112017674B (zh) * 2020-08-04 2024-02-02 杭州联汇科技股份有限公司 一种基于音频特征检测广播音频信号中噪声的方法
CN114449337A (zh) * 2020-10-30 2022-05-06 深圳Tcl新技术有限公司 音频信号处理方法、装置、设备及计算机可读存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3675179B2 (ja) * 1998-07-17 2005-07-27 三菱電機株式会社 オーディオ信号の雑音除去装置
AUPR604201A0 (en) * 2001-06-29 2001-07-26 Hearworks Pty Ltd Telephony interface apparatus
JP4218573B2 (ja) * 2004-04-12 2009-02-04 ソニー株式会社 ノイズ低減方法及び装置
WO2007017993A1 (ja) * 2005-07-15 2007-02-15 Yamaha Corporation 発音期間を特定する音信号処理装置および音信号処理方法
WO2007046435A1 (ja) * 2005-10-21 2007-04-26 Matsushita Electric Industrial Co., Ltd. 騒音制御装置

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013015011A1 (ja) * 2011-07-26 2013-01-31 ソニー株式会社 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
JP2013025291A (ja) * 2011-07-26 2013-02-04 Sony Corp 音声信号処理装置、撮像装置、音声信号処理方法、プログラム及び記録媒体
US9495950B2 (en) 2011-07-26 2016-11-15 Sony Corporation Audio signal processing device, imaging device, audio signal processing method, program, and recording medium
WO2016203753A1 (ja) * 2015-06-16 2016-12-22 日本電気株式会社 雑音検出装置、雑音抑圧装置、雑音検出方法、雑音抑圧方法、および、記録媒体
WO2017158905A1 (ja) * 2016-03-17 2017-09-21 株式会社オーディオテクニカ ノイズ検出装置と音声信号出力装置
US10157603B2 (en) 2016-03-17 2018-12-18 Audio-Technica Corporation Noise detector and sound signal output device
JPWO2017158905A1 (ja) * 2016-03-17 2019-01-24 株式会社オーディオテクニカ ノイズ検出装置と音声信号出力装置
WO2017203677A1 (ja) * 2016-05-27 2017-11-30 ヤマハ株式会社 オーディオ信号処理装置、および音響パラメータ決定方法
CN111613250A (zh) * 2020-07-06 2020-09-01 泰康保险集团股份有限公司 长语音端点检测方法与装置、存储介质、电子设备

Also Published As

Publication number Publication date
CN102348150B (zh) 2016-05-04
US8971549B2 (en) 2015-03-03
US20120020495A1 (en) 2012-01-26
CN102348150A (zh) 2012-02-08

Similar Documents

Publication Publication Date Title
JP2012027186A (ja) 音声信号処理装置、音声信号処理方法及びプログラム
JP4587160B2 (ja) 信号処理装置および方法
JP4829278B2 (ja) 室内インパルス応答モデリング方法および装置
KR101669302B1 (ko) 제어 장치
JP4449987B2 (ja) 音声処理装置、音声処理方法およびプログラム
JP4745916B2 (ja) 雑音抑圧音声品質推定装置、方法およびプログラム
JP6844608B2 (ja) 音声処理装置および音声処理方法
JP4740609B2 (ja) 有声音および無声音の検出装置、並びにその方法
US20160165346A1 (en) Recording apparatus, and control method of recording apparatus
KR20140107287A (ko) 사용자 제어 제스처 검출 기법
US8378198B2 (en) Method and apparatus for detecting pitch period of input signal
JP6182895B2 (ja) 処理装置、処理方法、プログラム及び処理システム
JP6294747B2 (ja) 報知音感知装置、報知音感知方法及びプログラム
JP2009058970A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
US20100329505A1 (en) Image processing apparatus and method for processing image
JP5815435B2 (ja) 音源位置判定装置、音源位置判定方法、プログラム
JP4735398B2 (ja) 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム
WO2019185015A1 (zh) 一种压电传感器信号噪声去除方法
CN114678038A (zh) 音频噪声检测方法、计算机设备和计算机程序产品
JP2014186347A (ja) 話者速度変換システムおよびその方法ならびに速度変換装置
JP4739023B2 (ja) デジタル音声信号におけるクリッキングノイズ検出
JP2008122426A (ja) 情報処理装置および方法、プログラム、並びに記録媒体
JP2003317368A (ja) パルス性ノイズのデジタル信号処理による検出および除去方法
JP4381383B2 (ja) 判別装置、判別方法、プログラム、及び記録媒体
CN112309419B (zh) 多路音频的降噪、输出方法及其系统

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20131001