JP2015018113A

JP2015018113A - 雑音検出装置、雑音検出方法、雑音低減装置、雑音低減方法、通信装置およびプログラム。

Info

Publication number: JP2015018113A
Application number: JP2013145548A
Authority: JP
Inventors: 敬介小田; Keisuke Oda; 孝朗山邊; Takao Yamabe
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2013-07-11
Filing date: 2013-07-11
Publication date: 2015-01-29
Anticipated expiration: 2033-07-11
Also published as: JP6163924B2

Abstract

【課題】周期的突発音を高精度且つ少ない遅延時間で検出し、検出した雑音に基づく適切な対応を可能とする。
【解決手段】雑音検出装置１００は、入力された音データを所定時間幅のフレームに区切り、フレーム毎に突発音の検出および検出された突発音の周期性を判定することにより周期性突発音を検出する。突発音は、ピーク位置における継続時間およびピークの変化量を用いて検出する。突発音の周期性は、概形モデル化した突発音の波形における自己相関値および波形の時間幅の等間隔性により判定する。雑音低減装置５００は、検出した周期性突発音に対して、フレーム毎の音声信号含有率に応じた音圧量調整を行い、雑音を低減する。通信装置２００、６００は、検出された周期性突発音に基づく報知および雑音低減された通話を行う。
【選択図】図１

Description

本発明は、雑音を検出し適切な対応を行うための雑音検出装置、雑音検出方法、雑音低減装置、雑音低減方法、通信装置およびプログラムに関する。

雑音環境下での雑音を低減した音声通話を行う通信装置が求められている。また、雑音環境下においては、雑音の発生を迅速に検出する必要性がある場面も発生する。

特開２００３−３０８０９２号公報特開２０１１−２０５５９８号公報

特許文献１には、予め学習した雑音モデルと照合して、雑音を検出および低減する装置が開示されている。特許文献２には、包絡線に基づく突発性雑音を検出する装置が開示されている。

例えば、雑音検出装置や雑音低減装置を、無線通話を行う通信装置として適用した場合、検出した雑音が通信装置のユーザに対する緊急状態を示す場合があり、迅速な対応が求められる場合がある。また、検出した雑音に対応して、適切に雑音を低減した音声通信を行う必要がある。

特許文献１においては、メモリ等に保存した雑音標準モデルと周期的な突発音とを照合しているが、検出される雑音は、周辺環境やパワースペクトルを求める際の分析窓の位置によっては、標準モデルとは異なることも多い。また、標準雑音との照合は、照合処理による遅延を発生してしまう。また、特許文献２においては、突発音の信号成分に基づいて突発音を低減しているが、検出される突発音は通話等の音声成分と構成周波数が重なっており、周波数成分のみでの突発音検出が困難であるとともに、突発音の低減とともに音声成分も低減してしまう。

本発明はこのような問題点に鑑みなされたものであり、周期的突発音を高精度且つ少ない遅延時間で検出し、周期性突発音に基づく適切な対応を可能とする、雑音検出装置、雑音検出方法、雑音低減装置、雑音低減方法、通信装置およびプログラムを提供することを目的とする。

上記目的を達成するために、本発明に係る雑音検出装置（１００）は、入力された音データに対して所定の時間幅のフレームに区切る処理を行うフレーム処理部（１５１）、前記フレーム処理部により区切られたフレームにおける所定以上の振幅値となるピーク位置を検出する振幅検出部（１５２）、前記振幅検出部において検出されたピーク位置におけるピークの継続時間およびピークの変化量を算出し、突発音を確定する突発音確定部（１５３）、前記突発音確定部により確定された突発音を概形モデル化する概形モデル化部（１５４）、前記概形モデル化部によりモデル化された突発音の概形モデルと、前記音声信号における過去の概形モデルとの相関値を算出し、前記相関値が所定以上であるか否かを判断する相関値算出部（１５５）、前記相関値算出部により所定以上の相関値であると判断された前記突発音の概形モデルと過去の概形モデルとの時間幅に基づき、周期性を備える周期性突発音が発生しているか否かを判断する周期性突発音判定部（１５６）、を備えることを特徴とする。

また、本発明に係る通信装置は、前記雑音検出装置（１００）、前記雑音検出装置（１００）により検出された周期性突発音の音源情報を算出する突発音区間音圧算出部（２５１）、前記突発音区間音圧算出部（２５１）により算出された音源情報に基づき周期性突発音に関する通知を行う通知部（２９０）、を備えることを特徴とする。

また、本発明に係る雑音検出方法は、入力された音データに対して所定の時間幅のフレームに区切る処理を行うフレーム処理ステップ（ステップＳ００１）、前記フレーム処理ステップにおいて区切られたフレームにおける所定以上の振幅値となるピーク位置を検出する振幅検出ステップ（ステップＳ００２、ステップＳ００３）、前記振幅検出ステップにおいて検出されたピーク位置におけるピークの継続時間およびピークの変化量を算出し、突発音を確定する突発音確定ステップ（ステップＳ００４、ステップＳ００５）、前記突発音確定ステップにおいて検出された突発音を概形モデル化する概形モデル化ステップ（ステップＳ００６）、前記概形モデル化ステップにおいて概形モデル化された突発音の概形モデルと、前記音声信号における過去の概形モデルとの相関値を算出し、前記相関値が所定以上であるか否かを判断する相関値算出ステップ（ステップＳ００７、ステップＳ００８）、前記相関値算出ステップにおいて所定以上の相関値であると判断された前記突発音の概形モデルと過去の概形モデルとの時間幅に基づき、周期性を備える周期性突発音が発生しているか否かを判断する周期性突発音判定ステップ（ステップＳ００９）、を備えることを特徴とする。

また、本発明に係るプログラムは、雑音を検出する雑音検出装置（１００）が備えるコンピュータ（２５０）に、入力された音データに対して所定の時間幅のフレームに区切る処理を行うフレーム処理ステップ、前記フレーム処理ステップにおいて区切られたフレームにおける所定以上の振幅値となるピーク位置を検出する振幅検出ステップ、前記振幅検出ステップにおいて検出されたピーク位置におけるピークの継続時間およびピークの変化量を算出し、突発音を確定する突発音確定ステップ、前記突発音確定ステップにおいて検出された突発音を概形モデル化する概形モデル化ステップ、前記概形モデル化ステップにおいて概形モデル化された突発音の概形モデルと、前記音声信号における過去の概形モデルとの相関値を算出し、前記相関値が所定以上であるか否かを判断する相関値算出ステップ、前記相関値算出ステップにおいて所定以上の相関値であると判断された前記突発音の概形モデルと過去の概形モデルとの時間幅に基づき、周期性を備える周期性突発音が発生しているか否かを判断する周期性突発音判定ステップ、を実行させることを特徴とする。

また、本発明に係る雑音低減装置（５００）は、入力された音声信号に対して所定の時間幅のフレームに区切る処理を行うフレーム処理部（５５１）、前記フレーム処理部により区切られたフレームにおける突発音を検出する突発音検出部（５５２）、前記フレーム処理部により区切られたフレームが音声区間であるか否かを判断し、音声区間である場合は音声区間に含まれる音声成分包含量を算出する音声区間判定部（５５３）、前記突発音検出部により検出された突発音が周期性を備えるか否かを判断する突発音周期性判定部（５５４）、前記突発音周期性判定部により突発音が周期性を備えると判断された場合、前記音声区間判定部による判定結果に基づき突発音の音圧量調整値を決定する音圧量調整値決定部（５５５）、前記音圧量調整値決定部により決定された音圧量調整値によって突発音の音圧量を調整することにより、突発音を低減する出力レベル調整部（５５６）、を備えることを特徴とする。

また、本発明に係る通信装置（６００）は、前記雑音低減装置（５００）を備え、通話音声に対して前記雑音低減装置（５００）による雑音低減処理を行うことを特徴とする。

また、本発明に係る雑音低減方法は、入力された音声信号に対して所定の時間幅のフレームに区切る処理を行うフレーム処理ステップ（ステップＳ５０１）、前記フレーム処理ステップにおいて区切られたフレームにおける突発音を検出する突発音検出ステップ（ステップＳ５０２）、前記フレーム処理ステップにおいて区切られたフレームが音声区間であるか否かを判断し、音声区間である場合は音声区間に含まれる音声成分包含量を算出する音声区間判定ステップ（ステップＳ５０３〜ステップＳ５０５）、前記突発音検出ステップにおいて検出された突発音が周期性を備えるか否かを判断する突発音周期性判定ステップ（ステップＳ５０６、ステップＳ５０７）、前記突発音周期性判定ステップにおいて突発音が周期性を備えると判断された場合、前記音声区間判定ステップにおける判定結果に基づき突発音の音圧量調整値を決定する音圧量調整値決定ステップ（ステップＳ５０８〜ステップＳ５１２）、前記音圧量調整値決定ステップにおいて決定された音圧量調整値によって突発音の音圧量を調整することにより、突発音を低減する出力レベル調整ステップ（ステップＳ５１３）、を備えることを特徴とする。

また、本発明に係るプログラムは、雑音を低減する雑音低減装置（５００）が備えるコンピュータ（５５０）に、入力された音声信号に対して所定の時間幅のフレームに区切る処理を行うフレーム処理ステップ、前記フレーム処理ステップにおいて区切られたフレームにおける突発音を検出する突発音検出ステップ、前記フレーム処理ステップにおいて区切られたフレームが音声区間であるか否かを判断し、音声区間である場合は音声区間に含まれる音声成分包含量を算出する音声区間判定ステップ、前記突発音検出ステップにおいて検出された突発音が周期性を備えるか否かを判断する突発音周期性判定ステップ、前記突発音周期性判定ステップにおいて突発音が周期性を備えると判断された場合、前記音声区間判定ステップにおける判定結果に基づき突発音の音圧量調整値を決定する音圧量調整値決定ステップ、前記音圧量調整値決定ステップにおいて決定された音圧量調整値によって突発音の音圧量を調整することにより、突発音を低減する出力レベル調整ステップ、を実行させることを特徴とする。

本発明によれば、周期的突発音を高精度且つ少ない遅延時間で検出し、周期性突発音に基づく適切な対応を可能とする。

本発明の実施形態における雑音検出装置の構成例を示すブロック図である。本発明の実施形態における雑音検出方法のフローチャートである。突発音の例を説明した図である。突発音の概形モデル化の例を説明した図である。相関値算出の例を説明した図である。本発明の実施形態における通信装置の構成例を示すブロック図である。本発明の実施形態における通信装置の処理例を示すフローチャートである。本発明の実施形態における通信装置の処理例を示すフローチャートである。本発明の実施形態における通信装置の処理例を示すフローチャートである。突発音区間による音圧レベル変化の例を示した図である。本発明の実施形態における通信装置の他の構成例を示すブロック図である。本発明の実施形態における通信装置と突発音発生方向例を示した図である。本発明の実施形態における通信装置の処理例を示すフローチャートである。本発明の実施形態における雑音低減装置の構成例を示すブロック図である。本発明の実施形態における雑音低減装置の突発音検出部の構成例を示すブロック図である。本発明の実施形態における雑音低減方法のフローチャートである。本発明の実施形態における雑音低減方法における突発音検出処理のフローチャートである。本発明の実施形態における雑音低減方法における概形モデル化処理のフローチャートである。概形モデル化処理の例を説明した図である。概形モデル化処理の他の例を説明した図である。本発明の実施形態における雑音低減方法における概形モデル化処理のフローチャートである。概形モデル化処理の他の例を説明した図である。本発明の実施形態における通信装置の構成例を示すブロック図である。

先ず、本発明に係る雑音検出装置１００および雑音検出方法の例について図１から図５を用いて説明する。

本発明の実施形態である雑音検出装置１００は、例えば後述する通信装置２００に内蔵された状態で、一例として工事現場や災害現場などの環境で用いられることがある。このような環境で用いられる通信装置は、例えば地盤圧縮機の動作音や酸素マスクのバイブレーション音など持続性のある突発音により通話音声が阻害されることがある。また、それらの突発音の存在が通話者に対する危険を示す場合もある。

一例として、消防士が火災現場における活動時に用いる酸素マスクは、酸素を供給する酸素ボンベの酸素残量が少なくなり圧力が低下すると、酸素マスク内の乱流に起因して酸素マスクが振動し、周期的な突発音が発生する。このような状態においては、無線装置による通話に周期的突発音が混入し、受話側による音声の聞き取りが困難になってしまう。さらには、このような周期的突発音の発生が酸素残量の低下を示すため、迅速に把握または周囲への通知を行う必要がある。

図１は、本発明に係る雑音検出装置１００のブロック図である。雑音検出装置１００は、通信装置２００等に搭載される。雑音検出装置１００は、通信装置２００等にモジュールとして搭載されてもよく、通信装置２００に備えられているＣＰＵ（Central Processing Unit）等の処理および通信装置２００の構成要素を用いて実現されてもよい。また、ＰＣ（Personal Computer）や携帯端末等により実現されてもよい。

雑音検出装置１００は、主な構成要素として入力部１１０、出力部１２０、記憶部１３０、制御部１５０を備える。これら以外にも雑音検出装置１００として機能するために必要な構成要素を適宜備える。

入力部１１０は、雑音検出装置１００により雑音を検出する対象の音データが入力されるインターフェースである。具体的には、雑音検出装置１００が単体で用いられる場合は、各種入力端子やマイクロホンであり、雑音検出装置１００が通信装置２００に内蔵される場合は、通信装置２００が備えるマイクロホン等から入力された音データが入力される。入力部１１０は、入力される音のアナログ信号をデジタルの音データに変換するＡ／Ｄコンバータを備えていてもよく、入力される音データをデジタルデータとして制御部１５０に入力させる。

出力部１２０は、雑音検出装置１００が検出した雑音に関する情報を出力する。雑音に関する情報の具体例としては、雑音検出の有無、雑音検出による通知指示等である。出力部１２０による出力形態や出力タイミング等は、制御部１５０により制御される。出力部１２０は、雑音検出装置１００が単体で用いられる場合は、音声または映像の出力を行う各種インターフェースを備え、雑音検出装置１００が通信装置２００に内蔵される場合は、通信装置２００が備える出力インターフェースに情報を出力する。

記憶部１３０は、雑音検出装置１００の雑音検出処理に用いる一時的なデータの記憶や、概形モデル波形等を記憶する。記憶部１３０は、制御部としてのＣＰＵに付随しているＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）、その他の記憶素子である。また、雑音検出装置１００が通信装置２００に内蔵されている場合は通信装置２００の記憶部として共用であってもよい。また、制御部１５０において実行される各種プログラムも記憶部１３０に記憶される。

制御部１５０は、雑音検出装置１００の構成要素および各種処理のためのプログラムを実行するＣＰＵやＤＳＰ（Digital Signal Processor）等である。雑音検出装置１００が通信装置２００に内蔵されている場合は、通信装置２００の制御部２５０と共用であってもよい。

制御部１５０は、実行されるプログラムによって各種機能を実現する。本実施形態において制御部１５０は、フレーム処理部１５１、振幅検出部１５２、突発音確定部１５３、概形モデル化部１５４、相関値算出部１５５、周期性突発音判定部１５６を実現する。

フレーム処理部１５１は、入力部１１０から入力された雑音を検出する対象の音データに対して、所定のサンプル数に従った時間幅で音データをフレームに区切る処理を行う。

振幅検出部１５２は、フレーム処理部１５１でフレーム化された時間軸の音データを構成する複数のサンプル点より、振幅値が他のサンプル点と比較して高い値を示すサンプル点の位置をピーク位置として検出する処理を行う。具体的には、振幅値が所定の閾値以上である場合のピーク位置を検出する。

突発音確定部１５３は、振幅検出部１５２において検出されたピーク位置に基づき、振幅の高い信号が継続する期間と、ピーク位置を基準としたエネルギー変化量を算出し、検出対象となる突発音を確定する処理を行う。

概形モデル化部１５４は、突発音確定部１５３において検出された突発音の時間軸信号振幅波形から概形モデル波形を生成する処理を行う。

相関値算出部１５５は、概形モデル化部１５４で生成された概形モデル波形として記憶している過去のフレームにおける概形モデル波形との相関値を算出する処理を行う。また、算出した相関値が所定以上の相関値であるか否かを判断する。

周期性突発音判定部１５６は、相関値算出部１５５において所定以上の相関値であると判断された概形モデル波形と過去の概形モデル波形との時間幅を算出し、概形モデル波形が周期性を備えるか否か、すなわち突発音が周期性突発音であるか否かを判断する。また、周期性突発音判定部１５６は周期性突発音の発生に伴う周期性突発音モードのオンオフを制御する。

次に、図２のフローチャートを用いて雑音検出装置１００による雑音検出方法について説明する。

先ず、入力部１１０に入力された音データに対してフレーム処理部１５１は所定のサンプル数の時間幅でフレーム化する処理を行う（ステップＳ００１）。例えば酸素残量が少なくなった際の酸素マスクが振動することによる周期的突発音は、最も音圧レベルが高いピーク位置の立ち上がりから立ち下がりまで約０．１ｓｅｃの時間幅を有する。従って、このような周期性突発音の存在を検出するためには、各突発音の前後の突発音を含まない区間を確保し、ピーク位置における振幅の変化量やエネルギー変化量の推移に基づき突発音を検出する必要がある。このため、検出対象の突発音の存在を把握するための時間幅としては、ピーク位置の立ち上がりから立ち下がりまでの約０．１ｓｅｃに対して、０．３ｓｅｃから０．５ｓｅｃであることが望ましい。

ステップＳ００１においてフレーム化する時間幅は、上記の時間幅に限らず、検出対象の突発音や雑音検出装置１００を構成するシステムによって変更してもよい。検出対象の突発音は、物体と物体とが衝突して発する打撃音である場合、衝突する物体によって突発音の持続時間等が推定されるため、突発音の持続時間の数倍分をフレーム化の時間幅として確保する。

次に、振幅検出部１５２はステップＳ００１においてフレーム化した音データの振幅値を所定の閾値と比較し（ステップＳ００２）、振幅値が閾値以上であるか否かを判断する（ステップＳ００３）。ステップＳ００３において、振幅値が閾値以上であると判断された場合、振幅検出部１５２は時間軸上のピーク位置を検出する。

ここで、突発音の特徴について図３を用いて説明する。図３（Ａ）は、周期性突発音の波形例であり、横軸が時間、縦軸が振幅を示している。図３（Ａ）においては、振幅値が大きい２箇所がそれぞれ突発音である。このように、突発音は他の区間に比べて振幅が大きいという特徴を有するため、突発音の有無は、平均的な入力信号のエネルギーまたは振幅値に基づき判断することができる。

ステップＳ００２の処理において、振幅検出部１５２が比較する閾値の例は、図３（Ａ）においてはＴｈとして示される。閾値Ｔｈは、音データが入力されてから解析フレームまでの平均値から求めるが、例えば解析フレームの中央値や突発音のデータに基づいて予め設定された値であってもよい。

また、解析対象の波形が図３（Ｂ）のように周辺雑音の影響により閾値以上の波形が多発する場合や、周辺雑音の振幅値に突発音の振幅値が加算される場合もある。このような場合、振幅検出部１５２が比較する閾値Ｔｈは、周囲の雑音レベルに応じて調整されてもよい。

ステップＳ００３において、振幅値が閾値以下であると判断された場合（ステップＳ００３：Ｎｏ）、解析対象となるフレームにおいて突発音は無いため、次のフレームを解析対象としてステップＳ００１の処理に戻る。

ステップＳ００３において、振幅値が閾値以上であると判断された場合（ステップＳ００３：Ｙｅｓ）、突発音確定部１５３は、検出したピーク位置に基づき振幅の高い信号の継続時間とピーク位置を基準としたエネルギー変化量を算出し、突発音を確定する（ステップＳ００４）。

ここで、ステップＳ００４において算出する振幅の高い信号の継続時間について図３を用いて説明する。突発音は、上述したように他の区間に比べて振幅値が大きいが、図３（Ｂ）のように振幅の大きい周辺雑音が存在する場合、振幅の大きい周辺雑音も突発音であると判断されてしまう。図３（Ｂ）の波形は、突発音の周辺雑音として人の声による音声が含まれている場合の波形である。

図３（Ａ）に示す突発音の継続時間と図３（Ｂ）に示す振幅値の大きい音声の継続時間とを対比すると、音声は振幅のピークから急峻に振幅が低下しているのに対し、突発音の振幅は振幅のピークからの継続時間が音声より長くなっていることが分かる。また、音声の成分によっては継続時間が突発音の継続時間より長くなる場合もある。このような場合においても、ステップＳ００４の処理としては、検出対象の突発音の継続時間を基準として継続時間を比較することにより、検出対象の突発音と周辺雑音としての突発性信号とを区別することができる。

ステップＳ００４における継続時間の算出例としては、図３（Ａ）に例示するように、ピーク位置から所定の区間Ｉｎｔ内における閾値Ｔｈ以上の値の数を求める。区間Ｉｎｔ内における閾値Ｔｈ以上の値が多いということは、振幅の継続時間が長いということを示す。

また、ステップＳ００４においては、ピーク位置を基準としたエネルギー変化量として、ピーク位置から区間Ｉｎｔ内の最後のサンプル位置までの振幅の絶対値を加算し、エネルギーを算出する。図３（Ｂ）に示すように、検出対象の突発音の振幅はピーク位置から緩やかに減衰するが、周辺雑音としての突発性信号は急峻に減衰しているため、エネルギー変化量に差が生じる。従って、突発音確定部１５３は、ステップＳ００４において算出した継続時間とエネルギー変化量各々が所定の閾値以上である場合（ステップＳ００５：Ｙｅｓ）、そのピーク位置における波形を突発音として確定する。所定の閾値以下である場合（ステップＳ００５：Ｎｏ）、突発音は検出されないため、次のフレームを解析対象としてステップＳ００１の処理に戻る。

ここで、突発音がフレームの境界付近に存在している場合の処理について説明する。解析対象のフレームの境界に突発音がある場合、突発音の継続時間が隣接するフレームとで分断されるなど、正確な検出ができない場合が生じるためである。具体的には、ステップＳ００２からステップＳ００５までの処理を、解析対象のフレームとその直前のフレームの一部のサンプル区間を含めて分析することにより可能とする。また、ステップＳ００１におけるフレーム化処理時に、隣接するフレーム同士オーバーラップする区間を設けたフレーム化処理としてもよい。この場合のオーバーラップ区間の時間幅は、検出対象の突発音の継続時間以上の時間幅であることが好ましい。

以上、ステップＳ００１からステップＳ００５までの処理は、突発音を検出するための短期時間分析である。

次に、概形モデル化部１５４は、ステップＳ００５において突発音として検出された波形に対して概形モデル化処理を行う（ステップＳ００６）。具体的には、図４（Ａ）に示すように、入力波形を絶対値に変換する。さらに、図４（Ｂ）に示すように絶対値に変換された波形に対してその振幅値にメディアンフィルターによる処理を行う。なお、振幅値の概形モデル化処理は上記に限らず、移動平均を用いるなど、他の手法によっても可能である。ステップＳ００６において概形モデル化された波形のデータやピーク位置等は、逐次記憶部１３０に記憶される。

酸素マスクが振動して発生する周期性突発音の周期は、一般的に０．０５〜０．１ｓｅｃである。上述した短期時間分析により突発音が検出され、その後上述した周期となるフレーム数の時間幅内に突発音が検出されなかった場合は、検出された突発音は周期性突発音ではないため、概形モデル化されたデータは記憶部１３０から消去してもよい。また、上述した周期となるフレーム数内に突発音が検出された場合は、周期性突発音である可能性が高いため、概形モデル化されたデータを所定のフレーム数分記憶部１３０に記憶する。記憶するフレーム数は周期性突発音の周期等によって変更されてもよい。

次に、ステップＳ００６において概形モデル化された波形に対して、相関値算出部１５５は、記憶部１３０に記憶されている過去のフレームにおける概形モデルとの相関値を算出する（ステップＳ００７）。具体的な処理としては、相関値算出部１５５は、式１に示すような一般的な自己相関関数を用いて相関値を算出する。式１において、Ｎはサンプルデータ数、ｎは時系列サンプルを表す整数であり、ｍは時系列のサンプルシフト量を示し、自己相関関数の結果Ａを求める。

ステップＳ００７の処理として、具体的な概形モデルによる相関値算出について図５を用いて説明する。相関値を算出する範囲は、図５（Ａ）の枠で囲った範囲で示すように、突発音の継続時間とし、これを相関範囲とする。この相関範囲を１サンプルずつずらしながらサンプル毎に相関値を算出する。この処理においては、全てのサンプルに対して相関値を算出すると、演算量が多くなってしまうため、検出対象である周期性突発音の持続時間分ずらしたサンプルから相関値を算出することにより、算出処理量の効率化を行うことができる。具体例としては、一般的な酸素マスクが振動することにより発生する周期性突発音の継続時間は約０．０５ｓｅｃであるため、約０．０５ｓｅｃに相当するサンプル数分ずらした位置から相関値を算出する。

ステップＳ００７の処理において算出した相関値による相関性の高い突発音の例を図５（Ｂ）に示す。図５（Ｂ）においては、各々の突発音の波形の後半部分において相関性の高い形態があることが分かる。この相関値により各々の突発音は相関性があり、連続的に相関性の高い突発音が存在することが分かる。

また、相関値算出部１５５はステップＳ００７において算出した相関値が所定の閾値以上であるか否かを判断する（ステップＳ００８）。ここでいう所定の閾値とは、突発音の波形同士に十分な相関性があり、同一の発生源による突発音であることが判断できる値とする。ステップＳ００８において、相関値が所定の閾値以上であると判断された場合（ステップＳ００８：Ｙｅｓ）、過去のフレームにおいて同様の突発音が発生しているものとみなし、次のステップへ移行する。ステップＳ００８において、相関値が所定の閾値以上ではないと判断された場合（ステップＳ００８：Ｎｏ）、周期的な突発音ではないため、ステップＳ００１の処理に戻る。

ステップＳ００８において、相関値が所定の閾値以上であると判断された場合（ステップＳ００８：Ｙｅｓ）、図５（Ｂ）に示すように解析対象の突発音と過去の突発音との距離である時間幅を算出し（ステップＳ００９）、算出した時間幅で周期性を有する周期性突発音であると判断する。

以上、ステップＳ００６からステップＳ００９までの処理は、短期時間分析において検出した突発音が周期性突発音であることを検出するための長期時間分析である。

ステップ００１からステップＳ００９までの周期性突発音の検出処理においては、背景雑音に検出対象の突発音以外の音で類似した波形概形を有する突発音が発生した場合、そのような偶発的な突発音を検出対象の周期性突発音であると判断してしまう場合もある。以下の処理は周期性突発音をより正確に検出するための処理である。

先ず、周期性突発音判定部１５６は、現時点において周期性突発音モードであるか否かを判断する（ステップＳ０１０）。周期性突発音モードとは、突発音が検出され且つその突発音が周期性を有している場合のモードである。突発音が発生していてもその突発音が周期性を有していない場合は、周期性突発音モードではない。また、突発音検出前の初期値は、周期性突発音モードではない。

ステップＳ０１０において、周期性突発音モードであると判断された場合（ステップＳ１０：Ｙｅｓ）、周期性突発音判定部１５６は、解析中の突発音区間であるステップＳ００９において算出した時間幅と、過去の突発音区間である時間幅とを比較する（ステップＳ０１１）。ステップＳ０１１における具体的な比較例としては、検出対象の周期性突発音としてとりうる時間幅の下限値から上限値までの間の値であるか否かを判断する。他には、解析中の周期性突発音における記憶部１３０に記憶されている過去分の時間幅の最小値から最大値まで、またはこれらの最小値および最大値に所定の係数を掛けた値の間などである。

ステップＳ０１１において、所定の範囲内であると判断された場合（ステップＳ０１１：Ｙｅｓ）、周期性突発音が継続しているため、周期性突発音モードを維持させる（ステップＳ０１２）。ステップＳ０１１において、所定の範囲内ではないと判断された場合（ステップＳ０１１：Ｎｏ）、周期性突発音が継続していないため、周期性突発音モードを解除する（ステップＳ０１３）。ステップＳ０１１がＮｏである場合とは、周期性突発音の周期性が消滅した場合であるが、ステップＳ０１３の処理前に、周期性が保たれていないと判定された結果の頻度や連続性をステップＳ０１３に移行する判断要素として加えてもよい。

ステップＳ０１０において、周期性突発音モードではないと判断された場合（ステップＳ１０：Ｎｏ）、周期性突発音判定部１５６は突発音の周期性について判定する（ステップＳ０１４）。突発音は、例えば過去に一回のみ周期性のある突発音が存在した場合であっても、その周期性は偶然発生している可能性もある。従って、ステップＳ０１４の判断として、所定のフレーム以内に周期性のある突発音が所定回数存在するか否かを確認することにより、突発音が周期性突発音であることを確認する。

ステップＳ０１４においては、例えば所定の数フレームの期間中に３回にわたり相関性の高い突発音が確認できた場合、周期性突発音モードとする。これは、突発音が存在し、さらに所定の解析期間中に突発音が４回検出され、且つそれらの突発音の間隔が等間隔である場合に相当する。等間隔であるか否かの判断は、ステップＳ０１１の判断と同一であってもよい。このような突発音は偶発的に発生した確率が低いため、周期性を備えていると判断することができる。等間隔である相関性の高い突発音の確認回数は、上記に限らず４回以上であってもよい。

ステップＳ０１４における判断結果に基づき、周期性突発音判定部１５６は検出対象の突発音が周期性を備える突発音である場合は周期性突発音モードとし（ステップＳ０１６）、周期性を備える突発音ではない場合は周期性突発音モードではない状態が維持される。

以上のように、本発明に係る雑音検出装置１００は、短期時間分析、長期時間分析および周期性突発音モードを備え、突発音の振幅値、継続時間、自己相関値、周期性の時間幅という特徴量に基づき、正確に周期性突発音を検出することができる。

このように検出された周期性突発音に対して、雑音検出装置１００を内蔵または接続する各種装置は、ノイズキャンセル処理や音声強調処理など必要な処理を行うことが可能である。

次に、雑音検出装置１００を用いた通信装置２００について、図６から図１３を用いて説明する。本実施形態に係る通信装置２００は、酸素マスクを装着した状態で使用される通信装置を例として説明するが、他の実施可能な形態としてはこれに限らない。

本実施形態において、酸素ボンベからの酸素残量が少なくなった場合に生じる酸素マスクの振動による周期性突発音は、その酸素マスクを装着している人物が緊急を要する状態であることを表す。また、酸素マスクを装着している複数の人物が存在する場合において、いずれかの酸素マスクが周期性突発音を発生した場合、現場の状況や酸素マスクあるいはヘルメット等の装着によって、周辺音を聞き取ることは困難である。このため、雑音検出装置１００が検出した周期性突発音に基づき、迅速な報知や対象人物の特定を行う必要がある。

図６は、本発明に係る通信装置２００の構成ブロック図である。通信装置２００は、各種無線通信装置や携帯電話等である。

通信装置２００は、主な構成要素として雑音検出装置１００、マイクロフォン２１０、音声出力部２２０、通信部２３０、表示部２４０、制御部２５０を備える。これら以外にも例えば電源や操作部など通信装置２００として機能するために必要な構成要素を適宜備える。

マイクロフォン２１０は、通信装置２００を用いて音声通話を行う場合に音声信号などの音信号を取得するためのマイクロフォンおよび雑音検出装置１００による雑音を検出するためのマイクロフォンである。各々の目的のマイクロフォンは、共用されてもよく各々備えられていてもよい。マイクロフォン２１０から入力された音声信号は、制御部２５０によって通信部２３０により送信される搬送波に変調される。また、マイクロフォン２１０から入力された信号は、雑音検出装置１００が備える入力部１１０に入力される。マイクロフォン２１０から入力された音声信号をデジタル信号の音声データに変換するA／Dコンバータを備えてもよい。

音声出力部２２０は、通信装置２００を用いて音声通話を行う場合に通話先からの音声を出力するためのスピーカまたはイヤホン等である。音声出力部２２０への音声出力は、制御部２５０によって制御される。

通信部２３０は、各種無線通信の送受信を行う通信モジュール等であり、通信は通信制御部２５３によって制御される。

表示部２４０は、液晶表示装置等の表示素子であり、表示内容や表示形態は制御部２５０により制御される。

制御部２５０は、通信装置２００の構成要素および各種処理のためのプログラムを実行するＣＰＵやＤＳＰ等であり、雑音検出装置１００の制御部１５０と共用であってもよい。

制御部２５０は、実行されるプログラムによって各種機能を実現する。本実施形態において制御部２５０は、突発音区間音圧算出部２５１、通知制御部２５２、通信制御部２５３を備える。

突発音区間音圧算出部２５１は、雑音検出装置１００が周期性突発音を検出した場合、検出した周期性突発音の音圧レベルや音圧レベルの変化量に基づき、周期性突発音の音源情報を算出する。

通知制御部２５２は、突発音区間音圧算出部２５１が算出した周期性突発音の音源情報に基づいた通知処理に関する制御を行う。

通信制御部２５３は、通信部２３０による無線通信に関する制御を行う。

また、通知制御部２５２が通知を行うために用いる通信部２３０、通信制御部２５３、表示部２４０などを包括して通知部２９０とする。通知部２９０は、通知制御部２５２の制御により上記構成要素の一部または全部を用いて通知を行い、通知の手法によっては他の構成要素を含む。

次に、通信装置２００に備えられている雑音検出装置１００が周期性突発音を検出した場合における通信装置２００の処理例について、図７から図１０を用いて説明する。

具体例としては、酸素ボンベからの酸素残量が少なくなった場合に生じる酸素マスクの振動による周期性突発音を、振動している酸素マスクの装着者またはその周囲で同様に酸素マスクを装着している他の装着者などが使用している通信装置２００が検出した場合の処理例であるが、これに限定はされない。

先ず、雑音検出装置１００が周期性突発音を検出した場合、図７のフローチャートにおいて突発音区間音圧算出部２５１は、検出した周期性突発音の音圧レベルを予め定められている閾値と比較する（ステップＳ１０１）。比較する音圧レベルは、所定区間の平均値や中央値などである。

ステップＳ１０１の比較結果において、検出された周期性突発音の音圧レベルが閾値以上である場合（ステップＳ１０２：Ｙｅｓ）、周期性突発音の発生源が自身の酸素マスクであるため、通知制御部２５２は、自身の異常発生を通知する（ステップＳ１０３）。

ステップＳ１０３における自身の異常発生の通知は、様々な手法が適用可能である。具体的な例としては、通知制御部２５２の制御により通信制御部２５３および通信部２３０を用いて、異常発生を知らせる無線送信を行う。異常発生を知らせる無線送信によって、音声信号として異常の発生を通知したり、受信した周囲の通信装置が備えるＬＥＤ等の光源を点滅させ、視覚的に異常の発生を通知してもよい。さらには、自身の通信装置２００が備える表示部２４０や光源を用いて異常を視覚的に通知してもよい。異常発生を知らせる無線送信や表示においては、酸素量低下など具体的な異常内容が判別できることとしてもよい。

ステップＳ１０１の比較結果において、検出された周期性突発音の音圧レベルが閾値以上ではない場合（ステップＳ１０２：Ｎｏ）、周期性突発音の発生源が自身の酸素マスクではなく周囲に存在する他者の酸素マスクであるため、通知制御部２５２は、周囲の他者において異常が発生していることを通知する（ステップＳ１０４）。ステップＳ１０４における他者の異常発生の通知においても、様々な手法が適用可能である。具体的な例としては、ステップＳ１０３における例と同様であるが、異常発生を知らせる無線送信や表示においては、具体的な異常内容に加えて他者に異常が発生していることを判別できることとしてもよい。

次に、突発音区間音圧算出部２５１は、異常が発生した他者の位置情報を取得する（ステップＳ１０５）。ステップＳ１０５の処理は、他者が周囲に複数存在する場合、どの他者に異常が生じているかを明確にするためである。ステップＳ１０５の処理については後述する。

ステップＳ１０５において、異常が発生した他者の位置情報を取得した後、通知制御部２５２は、異常対象である他者の位置情報を通知する（ステップＳ１０６）。異常対象である他者の位置情報の通知においても様々な手法が適用可能であり、位置情報の種類によっても異なる場合もあるが、無線送信による視覚的または聴覚的な通知、または表示部２４０や光源を用いる視覚的な通知が適切である。

次にステップＳ１０５の第一の処理例について説明する。図８は異常が発生している他者と自己との位置関係を取得する処理を説明するフローチャートである。図７におけるステップＳ１０１およびステップS１０２の処理により他者に異常が発生したと判断された後、突発音区間音圧算出部２５１は周期性突発音の所定区間毎の音圧レベルの変化を判定する（ステップＳ２０１）。

ステップＳ２０１の判定において、現時点における区間の音圧レベルが過去の区間の音圧レベルより大きいと判断された場合（ステップＳ２０２：Ｙｅｓ）、通知制御部２５２は異常が発生している他者が自己に近づいていると判断する（ステップＳ２０３）。このため、図７におけるステップＳ１０６においては、各種手法により異常が発生している他者が自己に近づいていることを通知する。

ステップＳ２０１の判定において、現時点における区間の音圧レベルが過去の区間の音圧レベルより小さいと判断された場合（ステップＳ２０２：Ｎｏ）、通知制御部２５２は異常が発生している他者が自己から遠ざかっていると判断する（ステップＳ２０４）。このため、図７におけるステップＳ１０６においては、各種手法により異常が発生している他者が自己から遠ざかっていることを通知する。

ステップＳ２０１の判定においては、音圧レベルの変化を判定する音声区間の長さによっては、複数の音声区間において連続して音圧レベルの上昇または下降が確認されることにより判断してもよい。

このような通知を行うことで、異常が発生した他者の発見時間の短縮に繋げることができる。

次に、図９および図１０を用いてステップＳ１０５の第二の処理例について説明する。図７におけるステップＳ１０１およびステップS１０２の処理により他者に異常が発生したと判断された後、通知制御部２５２は、音声出力部２２０による音声出力または表示部２４０による表示を用いて、異常対象方向検出のための動作を行う指示を行う（ステップＳ２１１）。具体的には、通信装置２００または通信装置２００を保持した人物がその場で３６０度回転するように指示する。

ステップＳ２１１における指示後、突発音区間音圧算出部２５１は、周期性突発音の所定区間毎の音圧レベル取得し（ステップＳ２１２）、周期性突発音の方向を判定する（ステップＳ２１３）。図１０は、ステップＳ２１２の処理において取得した音圧レベルの例である。図１０においては、回転開始から終了までの角度を横軸とし、音圧レベルを縦軸としており、１８０度の位置つまり回転開始時の向きにおいて後方向で最大の音圧レベルを得ており、その方向に異常が発生した他者が存在していることが分かる。音圧レベルと回転角度は、ステップＳ２１１における指示開始時間から概算してもよいが、通信装置２００に加速度センサ等が備えられ、加速度センサの出力によって回転角度を取得してもよい。

このため、図７におけるステップＳ１０６においては、各種手法により、ステップＳ２１３において判定した異常が発生している他者の方向を通知する。

このような通知を行うことで、異常が発生した他者の発見時間のさらなる短縮に繋げることができる。また、図８および図９において説明した他者の位置情報取得処理は他の位置情報取得処理と組み合わせて実行されてもよい。

次に、図１１から図１３を用いてステップＳ１０５の第三の処理例について説明する。第三の処理例については、通信装置２００の構成が一部異なってくる。このため、通信装置２００の構成ブロック図を図１１を用いて説明する。図１１の説明においては図６と共通する部分の説明は省略する。

図１１に示す通信装置２００は、マイクロフォン２１０に代えて第１マイクロフォン２１１および第２マイクロフォン２１２を備える。第１マイクロフォン２１１および第２マイクロフォン２１２は、機能としてはマイクロフォン２１０と同一であり、複数備えられていることが異なる。

図１２に第１マイクロフォン２１１および第２マイクロフォン２１２は、通信装置２００において同一面またはほぼ対象となるように配置されている。このため、突発音１の発生位置においては、第２マイクロフォン２１２には第１マイクロフォン２１１よりも時間的に遅延した信号が入力される。同様に、突発音２の発生位置においては、第１マイクロフォン２１１には第２マイクロフォン２１２よりも時間的に遅延した信号が入力される。

制御部２５０は、実行されるプログラムによって相関値算出部２５４を実現する。相関値算出部２５４は、第１マイクロフォン２１１および第２マイクロフォン２１２から入力された周期性突発音の相関値を求める。

図１３を用いて、図１１に示す通信装置２００によるステップＳ１０５の第三の処理例について説明する。図１１に示す通信装置２００においても、図７に示す周期性突発音を検出した場合における処理は同一である。

図７におけるステップＳ１０１およびステップS１０２の処理により他者に異常が発生したと判断された後、相関値算出部２５４は、第１マイクロフォン２１１および第２マイクロフォン２１２のいずれかに入力された信号を基準として相関値を求める（ステップＳ２１１）。

ステップＳ２１１の処理は、例えば第１マイクロフォン２１１に入力された信号を基準とする場合、式２を用いて相関値を算出する。式２においては、第１マイクロフォン２１１をマイク１、第２マイクロフォン２１２をマイク２として記載している。式２において、Ｎはサンプルデータ数、ｎは時系列サンプルを表す整数であり、ｍは時系列のサンプルシフト量を示し、自己相関関数の結果Ａを求める。

式２を用いて相関値を算出した場合、図１２に示す突発音１の方向で周期性突発音が発生した場合は、第１マイクロフォン２１１に対して第２マイクロフォン２１２より先行して周期性突発音の信号が到着する。同様に突発音２の方向で周期性突発音が発生した場合は、第２マイクロフォン２１２に対して第１マイクロフォン２１１より先行して周期性突発音の信号が到着する。

このように、ステップＳ２２１において相関値算出部２５４は、第１マイクロフォン２１１または第２マイクロフォン２１２を基準として相関値を求める。また、相関値算出部２５４は、ステップＳ２２１で算出した相関値に基づき、相関が最も高い波形の時間幅から周期性突発音の複数のマイクロフォン間の位相差を取得し、位相差より周期性突発音の発生方向を判定する（ステップＳ２２２）。

このような処理によって判定した周期性突発音の発生方向を、図７におけるステップＳ１０６にて、指定された各種手法を用いて通知する。このような通知を行うことで、異常が発生した他者の発見時間のさらなる短縮に繋げることができる。また、図１３において説明した他者の位置情報取得処理は他の位置情報取得処理と組み合わせて実行されてもよい。

このような構成を備える通信装置２００は、迅速且つ適切に周期性突発音を検出し、周期性突発音が発生していることや周期性突発音の発生源に関する情報を自身または周囲の通信装置２００へ通知することができる。

次に、本発明に係る雑音低減装置５００および雑音低減方法について、図１４から図２2を用いて説明する。

本発明の実施形態である雑音低減装置５００は、例えば後述する通信装置６００に内蔵された状態で、一例として工事現場や災害現場などの環境で用いられる。一例としては上述したように、消防士が火災現場における活動時に用いる酸素マスクが周期的な突発音を発生し、受話側の音声の聞き取りが困難となる場合がある。

図１４は、本発明に係る雑音低減装置５００のブロック図である。雑音低減装置５００は、後述する通信装置６００等に搭載される。雑音低減装置５００は、通信装置等にモジュールとして搭載されてもよく、通信装置６００に備えられているＣＰＵ等の処理および通信装置６００の構成要素を用いて実現されてもよい。また、ＰＣや携帯端末等により実現されてもよい。

また、雑音低減装置５００は、図１に示す雑音検出装置１００と共通の構成要素を備えており、同一の装置であってもよい。また、雑音低減装置５００および雑音検出装置１００は、通信装置６００等の構成要素を用いて同時に実現されてもよい。

雑音低減装置５００は、主な構成要素として入力部５１０、出力部５２０、記憶部５３０、制御部５５０を備える。これら以外にも雑音低減装置５００として機能するために必要な構成要素を適宜備える。

入力部５１０は、雑音低減装置５００が雑音を低減する対象の音データが入力されるインターフェースであり、具体的な構成は入力部１１０と同様である。

出力部５２０は、雑音低減装置５００が雑音を低減した音データを出力するインターフェースである。出力部５２０による出力形態や出力タイミング等は、制御部５５０により制御される。出力部５２０は、雑音低減装置５００が単体で用いられる場合は、雑音が低減された音データの出力を行う各種インターフェースを備え、雑音低減装置５００が通信装置６００に内蔵される場合は、通信装置６００が備える通信部に雑音が低減された音データを出力する。

記憶部５３０は、雑音低減装置５００の雑音低減処理に用いる一時的なデータの記憶や、概形モデル等を記憶する。記憶部５３０の具体的な構成は記憶部１３０と同様であり、制御部５５０において実行される各種プログラムも記憶部５３０に記憶される。

制御部５５０は、雑音低減装置５００の構成要素および各種処理のためのプログラムを実行するＣＰＵやＤＳＰ等である。雑音低減装置５００が通信装置６００に内蔵されている場合は、通信装置６００の制御部６５０と共用であってもよい。

制御部５５０は、実行されるプログラムによって各種機能を実現する。本実施形態において制御部５５０は、フレーム処理部５５１、突発音検出部５５２、音声区間判定部５５３、突発音周期性判定部５５４、音圧量調整値決定部５５５、出力レベル調整部５５６を実現する。

フレーム処理部５５１は、フレーム処理部１５１と同様に、入力部５１０から入力された雑音を低減する対象の音データに対して、所定のサンプル数に従った時間幅で音データをフレームに区切る処理を行う。

突発音検出部５５２は、フレーム処理部５５１でフレーム化された時間幅の音データから、検出対象である突発音を検出する処理を行う。また、突発音検出部５５２は、検出された突発音に対して概形モデル化処理を行う。

音声区間判定部５５３は、フレーム処理部５５１でフレーム化された時間幅の音データが音声を含む音声区間であるか否かを判断する処理を行う。また、音声区間判定部５５３は、音声区間に対して音声を包含する割合である音声包含量を算出する処理を行う。

突発音周期性判定部５５４は、突発音検出部５５２で検出された突発音が周期性を備える周期性突発音であるか否かを判断する処理を行う。

音圧量調整値決定部５５５は、突発音周期性判定部５５４突発音が周期性を備えると判断された場合、音声区間判定部５５３による判定結果に基づき突発音の音圧量調整値を決定する処理を行う。

出力レベル調整値５５６は、音圧量調整値決定部５５５により決定された音圧量調整値によって突発音の音圧量を調整することにより、突発音を低減する処理を行う。

図１５は、図１４に示す突発音検出部５５２の構成ブロック図である。突発音検出部５５２が突発音を検出するための構成は問わないが、一例として図１に示す振幅検出部１５２、突発音確定部１５３および概形モデル化部１５４が突発音を検出するための機能であるため、各々と同様の機能である振幅検出部５６１、突発音確定部５６２および概形モデル化部５６３を備える。

振幅検出部５６１は、フレーム処理部５５１でフレーム化された時間軸の音データを構成する複数のサンプル点より、振幅値が他のサンプル点と比較して高い値を示すサンプル点の位置をピーク位置として検出する処理を行う。具体的には、振幅値が所定の閾値以上である場合のピーク位置を検出する。

突発音確定部５６２は、振幅検出部５６１において検出されたピーク位置に基づき、振幅の高い信号が継続する期間と、ピーク位置を基準としたエネルギー変化量を算出し、検出対象となる突発音を確定する処理を行う。

概形モデル化部５６３は、突発音確定部５６２において確定された突発音の時間軸音声振幅波形から概形モデル波形を生成する処理を行う。

次に、図１６のフローチャートを用いて雑音低減装置５００による雑音低減方法について説明する。

先ず、入力部５１０に入力された音データに対してフレーム処理部５５１は所定のサンプル数の時間幅でフレーム化する処理を行う（ステップＳ５０１）。ステップＳ５０１の処理は、図２に示すステップＳ００１の処理と同様である。例えば酸素残量が少なくなった際の酸素マスクが振動することによる周期的突発音は、最も音圧レベルが高いピーク位置の立ち上がりから立ち下がりまで約０．１ｓｅｃの時間幅を有する。従って、このような周期性突発音の存在を検出するためには、各突発音の前後の突発音を含まない区間を確保し、ピーク位置における振幅の変化量やエネルギー変化量の推移に基づき突発音を検出する必要がある。このため、検出対象の突発音の存在を把握するための時間幅としては、ピーク位置の立ち上がりから立ち下がりまでの約０．１ｓｅｃに対して、０．３ｓｅｃから０．５ｓｅｃであることが望ましい。

次に、突発音検出部５５２は、ステップＳ５０１においてフレーム化された音データから突発音を検出し、検出された突発音の振幅値および波形の変化量から概形モデル化処理を行う（ステップＳ５０２）。突発音検出部５５２による突発音の検出手法は様々な手法が適用可能であるが、一例としては、図２に示すステップＳ００２からステップＳ００５の処理を適用してもよい。また、突発音検出部５５２による突発音の概形モデル化処理についても図２に示すステップＳ００６の処理を適用してもよい。この場合、突発音検出部５５２は、図１５に示すように、振幅検出部１５２、突発音確定部５６２および概形モデル化部１５４に対応する振幅検出部５６１、突発音確定部５６２および概形モデル化部５６３としての機能を備える。

ステップＳ５０２の突発音検出処理を図１７を用いて説明する。先ず、振幅検出部５６１はステップＳ５０１においてフレーム化した音データの振幅値を所定の閾値と比較し（ステップＳ６０２）、振幅値が閾値以上であるか否かを判断する（ステップＳ６０２）。ステップＳ６０２において、振幅値が閾値以上であると判断された場合、振幅検出部５６１は時間軸上のピーク位置を検出する。

ステップＳ６０２において振幅値が閾値以下であると判断された場合（ステップＳ６０２：Ｎｏ）、解析対象となるフレームにおいて突発音は無いため、次のフレームを解析対象としてステップＳ５０１の処理に戻る。

ステップＳ６０２において、振幅値が閾値以上であると判断された場合（ステップＳ６０２：Ｙｅｓ）、突発音確定部５６２は、検出したピーク位置に基づき振幅の高い信号の継続時間とピーク位置を基準としたエネルギー変化量を算出し、突発音を確定する（ステップＳ６０３）。

また、ステップＳ６０３においては、ピーク位置を基準としたエネルギー変化量として、ピーク位置から区間Ｉｎｔ内の最後のサンプル位置までの振幅の絶対値を加算し、エネルギーを算出する。突発音確定部５６２は、ステップＳ６０３において算出した継続時間とエネルギー変化量各々が所定の閾値以上である場合（ステップＳ６０４：Ｙｅｓ）、そのピーク位置における波形を突発音として確定する。所定の閾値以下である場合（ステップＳ６０４：Ｎｏ）、突発音は検出されないため、次のフレームを解析対象としてステップＳ５０１の処理に戻る。

次に、概形モデル化部５６３は、ステップＳ６０４において突発音として検出された波形に対して概形モデル化処理を行う（ステップＳ６０５）。

ここで、概形モデル化処理の例について図１８から図２２を用いて説明する。ここで説明する概形モデル化処理は、ステップＳ６０５の処理を実行する概形モデル化部５６３において実施されるとともに、図２のステップＳ００６の処理を実行する概形モデル化部１５４における概形モデル化処理に適用してもよい。なお、本実施形態においては、突発音を低減する際にＡＧＣ（Automatic Gain Control）処理を用いるため、概形モデル化処理においてＡＧＣ係数を用いる。ＡＧＣ処理は周知の手法であるが、本実施形態においてはＡＧＣ係数を突発音の低減に応用し、入力された音データに含まれる突発音の感度を下げて出力することで、突発音を低減することを可能とする。

先ず、概形モデル化処理の第１の例を、図１８および図１９を用いて説明する。

概形モデル化部５６３は、突発音確定部５６２により確定された突発音の突発音区間から最大振幅値を検出する（ステップＳ７０１）。ステップＳ７０１の処理は、図１９（Ａ）に示すように、突発音としての波形の開始位置から終了位置までの区間である突発音区間における振幅の最大値を検出する。ここで検出する振幅の最大値は振幅の絶対値の最大値であってもよい。

次に、概形モデル化部５６３は、ステップＳ７０１において検出した最大振幅値からＡＧＣ係数α_pkを算出する（ステップＳ７０２）。ステップＳ７０２におけるＡＧＣ係数α_pkの算出は、式３を用いて求める。式３において、Ｉgainは入力信号の振幅値でありステップＳ７０１において検出した最大振幅値である。ＨgainはＩgainに対してＡＧＣ処理を行った後の目標とする振幅値であり、Ｍgainは所定の閾値である。

式３において、所定の閾値であるＭgainは、突発音区間の振幅値から算出することが望ましいが、予め設定された値であってもよい。ＡＧＣ処理後の目標値であるＨgainは、突発音が存在しない区間の振幅値と同等となるように設定することが望ましいが、予め設定された値であってもよい。

式３は、具体的には、入力信号の振幅値であるＩgainが所定の閾値Ｍgainより大きい場合にＨgainとなるように調整するＡＧＣ係数α_pkを算出する。

次に、概形モデル化部５６３はステップＳ７０２において算出されたＡＧＣ係数α_pkを、突発音区間の各サンプル値に入力するとともに、突発音区間以外のＡＧＣ係数を１として、図１９（Ｂ）に示すような矩形波を作成する（ステップＳ７０３）。ステップＳ７０３で作成された矩形波を突発音の概形モデルとする。

次に、概形モデル化処理の第２の例を、図２０を用いて説明する。概形モデル化処理の第２の例は、第１の例として説明した図１８のフローチャートにおけるステップＳ７０３の処理が異なる。

概形モデル化部５６３は、ステップＳ７０２において算出されたＡＧＣ係数α_pkに基づいて、図２０に示すように、突発音波形のピーク位置と突発音区間の前後のサンプル数から三角波を作成する（ステップＳ７０３）。ここでいうピーク位置とは、ステップＳ７０１で検出された突発音区間の最大値の振幅値とサンプル位置を示す。

例えば、サンプル位置ＳｔにおけるＡＧＣ係数α_Stは式４により求められる。

第２の例におけるステップＳ７０３は、ピーク位置から突発音区間の範囲内におけるサンプル位置毎にＡＧＣ係数を求めて作成された三角波を突発音の概形モデルとする。

次に、概形モデル化処理の第３の例を、図２１および図２２を用いて説明する。概形モデル化処理の第３の例は、第１の例および第２の例として説明した図１８のフローチャートにおけるステップＳ７０１の後にステップＳ７１０の処理が加えられることが異なる。

概形モデル化部５６３は、ステップＳ７０１において検出した突発音の最大振幅値におけるサンプル位置から突発音を区間分割し、分割した各々の区間における振幅の最大値を検出する（ステップＳ７１０）。具体的には、図２２（Ａ）に示すように、ステップＳ７０１において検出した突発音を最大振幅値におけるサンプル位置を基準として、任意の複数区間として突発音区間を分割する。図２２（Ａ）においては、最大値を基準として区間幅ｔの分割区間ａ、分割区間ｂおよび分割区間ｃに突発音区間を分割している。

分割数および分割方法は任意である。具体例として最大振幅値のサンプル位置から突発音区間終了位置までを任意の分割数で等分した区間幅ｔによる分割を行う。突発音の特性としては、突発音区間の初期に最大振幅値が存在するため、突発音区間発生位置から最大振幅値のサンプル位置までは区間分割する必要は無いが、突発音の特性によっては区間分割する。

概形モデル化部５６３は、分割した各々の区間における最大振幅値を検出し、式４により各々の区間の最大振幅値におけるＡＧＣ係数を算出し、図２２（Ｂ）に示すような波形を突発音の概形波形とする。図２２（Ｂ）に示す突発音の概形波形は波形を平滑化してもよい。

図１６に戻り、ステップＳ５０１においてフレーム化された音データに対し、音声区間判定部５５３はそのフレームが音声区間であるか否かを判断する（ステップＳ５０３）。音声区間の判定処理とは、フレーム化された区間の音データに人の声の成分が含まれている場合を音声区間とする処理である。

ステップＳ５０３において音声区間ではないと判断された場合（ステップＳ５０４：Ｎｏ）、つまり人の声の成分が含まれていないと判断された場合は、判断対象のフレームが音声区間でないことを記憶し、ステップＳ５０６へ推移する。音声区間でないことの記録としては、音声区間であるフレームに対して例えば「１」または「正」のフラグを付し、音声区間ではないフレームに対してはフラグを付さないなどである。

ステップＳ５０３において音声区間であると判断された場合（ステップＳ５０４：Ｙｅｓ）、つまり人の声の成分が含まれていると判断された場合は、判断対象のフレームに対して音声区間であることを示すフラグを付し、判断対象のフレームにおける音声成分の包含量を算出し（ステップＳ５０５）、ステップＳ５０６へ推移する。

ステップＳ５０１の音声区間判定の処理手法およびステップＳ５０５の音声成分包含量算出手法は任意であるが、具体例として本出願人による特開２０１２−１２８４１１号公報に開示された技術等を適用することができる。

ステップＳ５０２の処理、およびステップＳ５０３からステップＳ５０５の処理は、並行して実行されてもよく、いずれかを先に処理してもよい。

次に、突発音周期性判定部５５４は、ステップＳ５０２における突発音の検出結果およびステップＳ５０３における音声区間判定結果に基づき、検出された突発音の周期性を検出する（ステップＳ５０６）。ステップＳ５０６における突発音の周期性検出処理は、ステップＳ５０２における概形モデル化処理（ステップＳ６０５）による突発音の概形モデル間の最大振幅値を示すピークの間隔を測定することにより求める。測定されたピークの間隔が、許容された誤差範囲であり且つ所定回数に渡って連続している場合、検出された突発音は周期性を備える周期性突発音であると判断できる。また、ステップＳ５０６における突発音の周期性検出は、突発音の概形モデルの自己相関を用いた、図２に示すステップＳ００８およびステップＳ００９の処理を用いてもよい。

ステップＳ５０６の検出結果により、突発音が周期性を備える周期性突発音であると判断された場合（ステップＳ５０７：Ｙｅｓ）、周期性突発音の持続性を示すフラグを付す。具体的には突発音が周期性突発音であると判断された初回の突発音から、例えば「１」または「正」のフラグを付し、突発音が検出されなくなるまで、または突発音が周期性突発音ではないと判断されるまでフラグを維持する。

また、突発音が周期性であることを示すフラグが維持されている状態であり、ステップＳ５０２において突発音が検出されなかった場合であっても、検出対象のフレームに対してステップＳ５０３において音声区間であると判断されている場合は、ステップＳ５０６の処理において突発音が周期性を備えるとする。これは、検出対象のフレームに含まれている音声成分の影響により突発音が検出できない可能性があるためである。

ステップＳ５０６において突発音が周期性を有さないと判断された場合（ステップＳ５０７：Ｎｏ）、検出された突発音に周期性が無い、または周期性突発音が終了したために、次のフレームを解析対象としてステップＳ５０１の処理に戻る。突発音が周期性を有さない判断は、例えば突発音の概形モデルの相関値や時間幅による周期性検出に加えて、ステップＳ５０３における音声区間ではない場合が該当する。また、音声区間であっても音声包含量が所定以下の場合に周期性を有さないと判断する対象としてもよい。ステップＳ５０７がＮｏの場合に周期性突発音の持続性を示すフラグが付されている場合は、検出対象のフレームよりフラグを消去する。

ステップＳ５０７において突発音が周期性を有すると判断された場合（ステップＳ５０７：Ｙｅｓ）、ステップＳ５０８以降の周期性突発音の音圧量調整値を決定する処理に進む。

ステップＳ５０８において音圧量調整値決定部５５５は、周期性突発音であると判断されたフレームが音声区間であるか否かを判断する（ステップＳ５０８）。ステップＳ５０８の判断は、ステップＳ５０４において付されたフラグの有無により判断する。

ステップＳ５０８において音声区間ではないと判断された場合（ステップＳ５０８：Ｎｏ）、すなわち周期性突発音である突発音が含まれるフレームに音声成分が含まれていない場合は、検出された突発音の音圧を低減しても音声には影響が無い。このため、このようなフレームにおいては、ステップＳ６０５において概形モデル化された波形に基づき音圧量調整値を算出する（ステップＳ５０９）。

ステップＳ５０９において算出される音圧量調整値は、具体的にはそのフレームにおける概形モデル化波形をそのまま用いる。具体的には、図１８および図２１におけるステップＳ７０３で作成されたＡＧＣカーブをそのフレームにおける音圧量調整値とする。

ステップＳ５０８において音声区間であると判断された場合（ステップＳ５０８：Ｙｅｓ）、すなわち周期性突発音である突発音が含まれるフレームに音声成分が含まれている場合は、含まれる音声成分の影響を加味して音圧量調整値を設定する。音圧量調整値決定部５５５は、周期性突発音である突発音が含まれるフレームの音声成分の含有量が閾値以上であるか否かを判断する（ステップＳ５１０）。

ステップＳ５１０において、音声成分の含有量が所定の閾値以上であると判断された場合（ステップＳ５１０：Ｙｅｓ）、突発音よりも音声成分が強くなることが考えられる。ここで、ステップＳ６０５において概形モデル化された波形に基づき音圧量調整値を算出すると、音声成分を大幅に減少させてしまう。ステップＳ５１１においては、概形モデル化された波形に基づく音圧量調整ではなく、記憶部５３０に記憶されている過去に求めた音圧量調整値を調整して用いる（ステップＳ５１１）。

ステップＳ５１１の処理を具体的に説明すると、音声成分の含有量が所定の閾値以上である場合は、周期性突発音であることを示すフラグが付されていても、上述したように音声成分の影響により突発音が検出できない場合である。仮に検出できたとしても突発音よりも音声が強い可能性がある。このため、対象フレームの直近で更新された音圧量調整値を記憶部５３０より読み出す。記憶部５３０から読み出す直近の音圧量調整値は、音声信号が含まれていないフレームにおける音圧量調整値とする。この場合、音圧量調整値の最大振幅値を、例えば２分の１、３分の１など音声信号が必要以上に低減されないように調整する。音圧量調整値の調整は、予め定められた値であってもよく、音声成分の含有量に基づき変更可能であってもよい。

ステップＳ５１０において、音声成分の含有量が所定の閾値未満であると判断された場合（ステップＳ５１０：Ｎｏ）、突発音が検出されているが音声信号も含まれている。このため、音圧量調整値決定部５５５はステップＳ５０９と同様に対象となるフレームの概形モデル化波形に基づいたＡＧＣカーブを、音声信号が必要以上に低減されないように調整した上で用いる（ステップＳ５１２）。ステップＳ５１２における音圧量調整値の調整も、予め定められた値であってもよく、音声成分の含有量に基づき変更可能であってもよいが、ステップＳ５１１における調整に比して音圧調整ｔ値の最大振幅値が小さくならないような調整である。

ステップＳ５０９、ステップＳ５１１およびステップＳ５１２の処理において音圧量調整値が決定した後、音圧量調整値決定部５５５は対象のフレームに対して音圧調整値に基づき突発音を低減する処理を行う（ステップＳ５１３）。また、ステップＳ５０９、ステップＳ５１１およびステップＳ５１２の処理において決定された音圧調整値は、対象のフレームに対応付けられて逐次記憶部５３０に記憶される。ここで記憶された音圧調整値は次以降のフレームにおけるステップＳ５１１およびステップＳ５１２の処理時に用いられる。

このような処理を行うことで、雑音低減装置５００は、音声信号が含まれている場合であっても音声信号への影響を最小限としながら、周期性突発音を低減することができる。

次に、雑音低減装置５００を用いた通信装置６００について、図２３を用いて説明する。通信装置６００は通信装置２００と同様に各種無線通信装置や携帯電話等であり、通信装置２００と同一の装置であってもよい。この場合、通信装置６００には雑音検出装置１００による雑音検出機能およひ雑音低減装置５００による雑音低減機能が搭載されることとなる。

通信装置６００は、主な構成要素として雑音低減検出装置５００、マイクロフォン６１０、音声出力部６２０、通信部６３０、表示部６４０、制御部６５０を備える。これら以外にも例えば電源や操作部など通信装置６００として機能するために必要な構成要素を適宜備える。

マイクロフォン６１０は、通信装置６００を用いて音声通話を行う場合に音声信号などの音信号を取得するためのマイクロフォンおよび雑音低減装置５００による雑音を検出するためのマイクロフォンであり、マイクロフォン２１０と同様の構成である。各々の目的のマイクロフォンは、共用されてもよく各々備えられていてもよい。マイクロフォン６１０から入力された信号は、制御部６５０によって通信部６３０により送信される搬送波に変調される。通信部６３０によって送信されるデータは雑音低減装置５００によって雑音が低減されたデータである。

音声出力部６２０は、通信装置６００を用いて音声通話を行う場合に通話先からの音声を出力するためのスピーカまたはイヤホン等であり、音声出力部２２０と同様の構成である。

通信部６３０は、各種無線通信の送受信を行う通信モジュール等であり、通信部２３０と同様の構成である。

表示部６４０は、液晶表示装置等の表示素子であり、表示部２４０と同様の構成である。

制御部６５０は、通信装置６００の構成要素および各種処理のためのプログラムを実行するＣＰＵやＤＳＰ等であり、制御部２５０の構成と同様である。また、雑音低減装置５００の制御部５５０と共用であってもよい。

制御部６５０は、実行されるプログラムによって各種機能を実現する。本実施形態において制御部６５０は、通信制御部６５３を備え、通信部６３０による無線通信に関する制御を行う。

このような構成を備える通信装置６００は、周期性突発音が発生する環境下においても雑音低減処理による音声信号への影響を抑え、適切に雑音が低減された音声通信を行うことができる。

１００雑音検出装置、１１０入力部、１２０出力部、１３０記憶部、１５０制御部、１５１フレーム処理部、１５２振幅検出部、１５３突発音確定部、１５４概形モデル化部、１５５相関値算出部、１５６周期性突発音判定部、２００通信装置、２１０マイクロフォン、２１１第１マイクロフォン、２１２第２マイクロフォン、２２０音声出力部、２３０通信部、２４０表示部、２５０制御部、２５１突発音区間音圧算出部、２５２通知制御部、２５３通信制御部、２５４相関値算出部、２９０通知部、５００雑音低減装置、５１０入力部、５２０出力部、５３０記憶部、５５０制御部、５５１フレーム処理部、５５２突発音検出部、５５３音声区間判定部、５５４突発音周期性判定部、５５５音圧量調整値決定部、５５６出力レベル調整部、５６１振幅検出部、５６２突発音確定部、５６３概形モデル化部、６００通信装置、６１０マイクロフォン、６２０音声出力部、６３０通信部、６４０表示部、６５０制御部、６５３通信制御部

Claims

入力された音データに対して所定の時間幅のフレームに区切る処理を行うフレーム処理部、
前記フレーム処理部により区切られたフレームにおける所定以上の振幅値となるピーク位置を検出する振幅検出部、
前記振幅検出部により検出されたピーク位置におけるピークの継続時間およびピークの変化量を算出し、突発音を確定する突発音確定部、
前記突発音確定部により確定された突発音を概形モデル化する概形モデル化部、
前記概形モデル化部により概形モデル化された突発音の概形モデルと、前記音声信号における過去の概形モデルとの相関値を算出し、前記相関値が所定以上であるか否かを判断する相関値算出部、
前記相関値算出部により所定以上の相関値であると判断された前記突発音の概形モデルと過去の概形モデルとの時間幅に基づき、周期性を備える周期性突発音が発生しているか否かを判断する周期性突発音判定部、
を備えることを特徴とする雑音検出装置。
前記相関値算出部は、検出目的とする周期性突発音の一般的な周期だけ前の概形モデルとの相関値を算出することを特徴とする、請求項１に記載の雑音検出装置。
請求項１または請求項２に記載の雑音検出装置、
前記雑音検出装置により検出された周期性突発音の音源情報を算出する突発音区間音圧算出部、
前記突発音区間音圧算出部により算出された音源情報に基づき周期性突発音に関する通知を行う通知部、
を備えることを特徴とする通信装置。
入力された音データに対して所定の時間幅のフレームに区切る処理を行うフレーム処理ステップ、
前記フレーム処理ステップにおいて区切られたフレームにおける所定以上の振幅値となるピーク位置を検出する振幅検出ステップ、
前記振幅検出ステップにおいて検出されたピーク位置におけるピークの継続時間およびピークの変化量を算出し、突発音を確定する突発音確定ステップ、
前記突発音確定ステップにおいて検出された突発音を概形モデル化する概形モデル化ステップ、
前記概形モデル化ステップにおいて概形モデル化された突発音の概形モデルと、前記音声信号における過去の概形モデルとの相関値を算出し、前記相関値が所定以上であるか否かを判断する相関値算出ステップ、
前記相関値算出ステップにおいて所定以上の相関値であると判断された前記突発音の概形モデルと過去の概形モデルとの時間幅に基づき、周期性を備える周期性突発音が発生しているか否かを判断する周期性突発音判定ステップ、
を備えることを特徴とする雑音検出方法。
雑音を検出する雑音検出装置が備えるコンピュータに、
入力された音データに対して所定の時間幅のフレームに区切る処理を行うフレーム処理ステップ、
前記フレーム処理ステップにおいて区切られたフレームにおける所定以上の振幅値となるピーク位置を検出する振幅検出ステップ、
前記振幅検出ステップにおいて検出されたピーク位置におけるピークの継続時間およびピークの変化量を算出し、突発音を確定する突発音確定ステップ、
前記突発音確定ステップにおいて検出された突発音を概形モデル化する概形モデル化ステップ、
前記概形モデル化ステップにおいて概形モデル化された突発音の概形モデルと、前記音声信号における過去の概形モデルとの相関値を算出し、前記相関値が所定以上であるか否かを判断する相関値算出ステップ、
前記相関値算出ステップにおいて所定以上の相関値であると判断された前記突発音の概形モデルと過去の概形モデルとの時間幅に基づき、周期性を備える周期性突発音が発生しているか否かを判断する周期性突発音判定ステップ、
を実行させることを特徴とするプログラム。
入力された音声信号に対して所定の時間幅のフレームに区切る処理を行うフレーム処理部、
前記フレーム処理部により区切られたフレームにおける突発音を検出する突発音検出部、
前記フレーム処理部により区切られたフレームが音声区間であるか否かを判断し、音声区間である場合は音声区間に含まれる音声成分包含量を算出する音声区間判定部、
前記突発音検出部により検出された突発音が周期性を備えるか否かを判断する突発音周期性判定部、
前記突発音周期性判定部により突発音が周期性を備えると判断された場合、
前記音声区間判定部による判定結果に基づき突発音の音圧量調整値を決定する音圧量調整値決定部、
前記音圧量調整値決定部により決定された音圧量調整値によって突発音の音圧量を調整することにより、突発音を低減する出力レベル調整部、
を備えることを特徴とする雑音低減装置。
前記突発音検出部は、検出された突発音の波形を概形モデル化する概形モデル化部を備え、
前記音圧調整値決定部は、前記概形モデル化部により概形モデル化された突発音の波形、および前記音声区間判定部による判定結果に基づき突発音の音圧調整値を決定することを特徴とする、
請求項６に記載の雑音低減装置。
前記音圧調整値決定部は、前記音声区間判定部により算出された音声成分包含量に基づいて前記音圧量調整値を決定することを特徴とする、
請求項６または請求項７に記載の雑音低減装置。
前記突発音周期性判定部は、前記音声区間判定部により算出された音声成分含有量に基づいて突発音の周期性判断精度を制御することを特徴とする、
請求項６から請求項８のいずれか１項に記載の雑音低減装置。
請求項６から請求項９のいずれか１項に記載の雑音低減装置を備え、
通話音声に対して前記雑音低減装置による雑音低減処理を行うことを特徴とする通信装置。
入力された音声信号に対して所定の時間幅のフレームに区切る処理を行うフレーム処理ステップ、
前記フレーム処理ステップにおいて区切られたフレームにおける突発音を検出する突発音検出ステップ、
前記フレーム処理ステップにおいて区切られたフレームが音声区間であるか否かを判断し、音声区間である場合は音声区間に含まれる音声成分包含量を算出する音声区間判定ステップ、
前記突発音検出ステップにおいて検出された突発音が周期性を備えるか否かを判断する突発音周期性判定ステップ、
前記突発音周期性判定ステップにおいて突発音が周期性を備えると判断された場合、前記音声区間判定ステップにおける判定結果に基づき突発音の音圧量調整値を決定する音圧量調整値決定ステップ、
前記音圧量調整値決定ステップにおいて決定された音圧量調整値によって突発音の音圧量を調整することにより、突発音を低減する出力レベル調整ステップ、
を備えることを特徴とする雑音低減方法。
雑音を低減する雑音低減装置が備えるコンピュータに、
入力された音声信号に対して所定の時間幅のフレームに区切る処理を行うフレーム処理ステップ、
前記フレーム処理ステップにおいて区切られたフレームにおける突発音を検出する突発音検出ステップ、
前記フレーム処理ステップにおいて区切られたフレームが音声区間であるか否かを判断し、音声区間である場合は音声区間に含まれる音声成分包含量を算出する音声区間判定ステップ、
前記突発音検出ステップにおいて検出された突発音が周期性を備えるか否かを判断する突発音周期性判定ステップ、
前記突発音周期性判定ステップにおいて突発音が周期性を備えると判断された場合、前記音声区間判定ステップにおける判定結果に基づき突発音の音圧量調整値を決定する音圧量調整値決定ステップ、
前記音圧量調整値決定ステップにおいて決定された音圧量調整値によって突発音の音圧量を調整することにより、突発音を低減する出力レベル調整ステップ、
を実行させることを特徴とするプログラム。