JP2016024231A - 集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラム - Google Patents
集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラム Download PDFInfo
- Publication number
- JP2016024231A JP2016024231A JP2014146153A JP2014146153A JP2016024231A JP 2016024231 A JP2016024231 A JP 2016024231A JP 2014146153 A JP2014146153 A JP 2014146153A JP 2014146153 A JP2014146153 A JP 2014146153A JP 2016024231 A JP2016024231 A JP 2016024231A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- suppression
- signal
- input
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Abstract
【課題】スピーカからの放音音のような妨害音があっても意図した音源からの目的音を良好なSN比で得られる妨害音抑圧装置を提供する。【解決手段】妨害音抑圧装置では、異なるマイクロホンが得た複数の入力音信号又はそれに対して所定処理が施された複数の入力音信号から、各入力音信号における周波数成分毎の相関を反映させたコヒーレンス係数を算出し、各コヒーレンス係数についてのmodGIの逆数を周波数成分毎の抑圧係数として形成し、入力音信号の各周波数成分に対応する抑圧係数を乗算して、入力音信号における妨害音成分を周波数成分毎に抑圧する。【選択図】図2
Description
本発明は、集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムに関し、例えば、マイクロホンによる捕捉音声、捕捉音響などから、所定方向の音源から到来する音(以下、目的音と呼ぶ)以外の音(以下、非目的音又は妨害音と呼ぶ)を抑圧することを欲する通信端末、オーディオ機器などに適用し得るものである。
例えば、スマートフォンに通話音声を入力する場合や、オーディオ機器やスマートフォンなどに音声コマンドを入力する場合などにおいて、音声が入力される機器は、利用者の口が存在すると思われる正面からの音声だけを、他の方向からの音声、音楽、雑音などと区別して抽出することが好ましい。
2つのマイクロホンに入力された音を捕捉し、入力音(電気信号)の位相差に基づいて周囲の雑音を抑圧して、マイクロホンの所定方位(例えば正面)から到来する目的音を抽出する方式、言い換えると、非目的音を抑圧する方式が、特許文献1に記載されている。
特許文献1に第3の実施形態として記載されている目的音の抽出方法は、マイクロホンの左右に死角を有する二つの指向性を形成して得た二つの信号の相関に応じた抑圧係数を周波数成分毎に入力音信号に乗算することにより、左右から到来する雑音成分(非目的音)を抑圧する手法である。特許文献1に第4の実施形態として記載されている目的音の抽出方法は、マイクロホンの正面に死角を有する指向性を形成し、これにより得られた信号を、左右から到来する雑音成分として入力音信号から減算することにより、左右から到来する雑音成分(非目的音)を抑圧する手法である。
北脇信彦著、「デジタル音声・オーディオ技術(未来ねっと技術シリーズ)」、電気通信協会発行、p218〜p243、1999年
ところで、近年、図10に示すように、携帯端末(例えば、スマートフォンやタブレット端末)などの通信機能を有する集音機器2の両脇に、一対のスピーカ3L及び3Rを配置して接続し、このような構成で遠隔地と通話を行なう集音・放音装置1が利用されるようになってきている。また、同様な構成で、集音機器2内に記録された音楽ファイルやインターネット上の音楽配信サイトから取得した楽曲ファイルによる音(音楽)を、両脇のスピーカ3L及び3Rから放音させている状態で、利用者が、集音機器2のマイクロホン正面から発した音声によるコマンドを受ける方法も検討されている。
両脇のスピーカ3L及び3Rから音楽などが放音されている状態で、正面から到来する目的音を抽出し、通話相手に発話内容を伝えたり、若しくは、音声認識処理を介して音声コマンドを認識して音声コマンドに対応する処理を実行したりする場合には、スピーカ3L、3Rから発する音などが妨害音(雑音)となり、通話音質や音声認識率を大きく低下させる。
そこで、上述した特許文献1の記載技術のような音源分離方式を適用し、両脇のスピーカ3L及び3Rから到来する雑音成分を抑圧し、正面からの目的音を抽出しなければならない。特許文献1に記載の音源分離方式を適用する場合には、図11に示すように、集音機器1に、2つのマイクロホン4L、4Rを搭載若しくは外付けすることを要する。
しかしながら、利用者が集音・放音装置1から音楽を放音して楽しむ場合、その音量は大きく、大きな音量の音楽が妨害音としてマイクロホン4L、4Rに捕捉されるため、音源分離方式を適用して目的音を抽出したとしても、抽出した目的音信号に妨害音成分が多く残ってしまう。
これを避けようとすると、利用者は、音楽の出力(放音)を停止してから、通話音声や音声コマンドなどの入力音声を発音すれば良い。しかしながら、このように出力を停止させるキー操作などを行うのであれば、音声コマンドのメリットは薄れ、キー操作などでコマンドを入力する方が簡便である。また、着信からの通話の場合、音声の出力停止操作をできないことや、出力停止操作の実行のため着信が遅れてしまうことなども生じる。
そのため、放音音のような妨害音がある状況においても、意図した音源からの目的音を良好なSN比をもって得ることができる、集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムが望まれている。
第1の本発明の妨害音抑圧装置は、(1)少なくとも2本のマイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号であって、第1の所定方位の音源からの目的音とその他の方位から到来する非目的音とが混在した複数の入力音信号から、上記各入力音信号における周波数成分毎の相関を反映させた第1特徴量を算出する第1特徴量算出手段と、(2)得られた第1特徴量を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表す第2特徴量を得る第2特徴量算出手段と、(3)得られた第2特徴量の大小関係と逆の大小関係を有する抑圧係数を形成して、上記マイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号における妨害音成分を抑圧する抑圧手段とを有することを特徴とする。
第2の本発明の妨害音抑圧プログラムは、コンピュータを、(1)少なくとも2本のマイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号であって、第1の所定方位の音源からの目的音とその他の方位から到来する非目的音とが混在した複数の入力音信号から、上記各入力音信号における周波数成分毎の相関を反映させた第1特徴量を算出する第1特徴量算出手段と、(2)得られた第1特徴量を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表す第2特徴量を得る第2特徴量算出手段と、(3)得られた第2特徴量の大小関係と逆の大小関係を有する抑圧係数を形成して、上記マイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号における妨害音成分を抑圧する抑圧手段として機能させることを特徴とする。
第3の本発明は、少なくとも2本のマイクロホンが周囲音を捕捉する集音部と、1又は複数のスピーカから放音する放音部とを有する集音・放音装置において、(1)上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う非目的音を疑似した疑似放音非目的音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音非目的音を除去する放音非目的音除去手段と、(2)上記放音非目的音除去手段の後段に設けられ、上記放音非目的音除去手段から出力された音信号における妨害音成分を除去する妨害音抑圧手段とを備え、(3)上記妨害音抑圧手段として、第1の本発明の妨害音抑圧装置を適用したことを特徴とする。
本発明によれば、放音音のような妨害音がある状況においても、意図した音源からの目的音を良好なSN比をもって得ることができる集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムを実現できる。
(A)第1の実施形態
以下、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第1の実施形態を、図面を参照しながら説明する。
以下、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第1の実施形態を、図面を参照しながら説明する。
(A−1)第1の実施形態の構成
第1の実施形態の集音・放音装置は、一対のマイクロホンが搭載され、若しくは、外付けされており、かつ、一対のスピーカが搭載され、若しくは、外付けされているものである。例えば、スマートフォンやタブレット端末などの集音機器を利用している集音・放音装置であれば、一対のマイクロホンが搭載され、一対のスピーカが外付けされて構成される。また例えば、スピーカ一体型のオーディオ機器が該当する集音・放音装置であれば、一対のマイクロホンも一対のスピーカも搭載されて構成される。以上のように、一対のマイクロホン及び一対のスピーカの接続形態は多様であるが、いずれの接続形態を適用したものであっても良い。
第1の実施形態の集音・放音装置は、一対のマイクロホンが搭載され、若しくは、外付けされており、かつ、一対のスピーカが搭載され、若しくは、外付けされているものである。例えば、スマートフォンやタブレット端末などの集音機器を利用している集音・放音装置であれば、一対のマイクロホンが搭載され、一対のスピーカが外付けされて構成される。また例えば、スピーカ一体型のオーディオ機器が該当する集音・放音装置であれば、一対のマイクロホンも一対のスピーカも搭載されて構成される。以上のように、一対のマイクロホン及び一対のスピーカの接続形態は多様であるが、いずれの接続形態を適用したものであっても良い。
以下では、第1の実施形態の集音・放音装置が、上述した図11に示すように、一対のマイクロホンが搭載され、一対のスピーカが外付けされて構成されているとして説明を行う。また、第1の実施形態の集音・放音装置における各構成要素の符号も、図11に記述されている構成要素に関しては、図11で用いている符号をそのまま用いる。
図1は、第1の実施形態の集音・放音装置10の構成を示すブロック図である。
第1の実施形態の集音・放音装置10は、ハードウェア的な各種構成要素を接続して構築されたものであっても良く、また、一部の構成要素(例えば、スピーカ、マイクロホン、アナログ/デジタル変換部(A/D変換部)、デジタル/アナログ変換部(D/A変換部)を除く部分)を、CPU、ROM、RAMなどのプログラムの実行構成を適用してその機能を実現するように構築されたものであっても良い。いずれの構築方法を適用した場合であっても、集音・放音装置10の機能的な詳細構成は、図1で表す構成となっている。なお、プログラムを適用する場合において、プログラムは、集音・放音装置10が有するメモリに装置出荷時から書き込まれているものであっても良く、また、ダウンロードによりインストールされるものであっても良い。例えば、後者の場合としては、スマートフォン用のアプリケーションとしてプログラムを用意しておき、必要とする利用者が、インターネットを介してダウンロードしてインストールする場合を挙げることができる。
図1において、第1の実施形態の集音・放音装置10は、放音部20及び集音部30を有する。
放音部20は、既存の放音部と同様な構成を有する。放音部20は、Lチャンネル及びRチャンネルの音源データ記憶部21L及び21R、D/A変換部22L及び22R、並びに、スピーカ3L及び3Rを有する。
一方、集音部30は、Lチャンネル及びRチャンネルのマイクロホン4L及び4R、並びに、A/D変換部31L及び31Rと、放音非目的音キャンセラ処理部32と、図2に詳細構成を示す妨害音抑圧部33とを有する。ここで、後述する音源データの入力端子を有する集音部30の全体が音源分離ユニットとして構築されて、市販に供するものであっても良い。また、A/D変換部31L、31R、放音非目的音キャンセラ処理部32及び妨害音抑圧部33でなる部分が、後述する音源データの入力端子を有して、音源分離ユニットとして構築され、市販に供するものであっても良い。すなわち、集音・放音装置10は、特に、集音部30は、音源分離ユニットを用いて構築されたものであっても良い。
音源データ記憶部21L及び21Rはそれぞれ、Lチャンネル、Rチャンネル用の音源データ(デジタル信号)sigL、sigRを記憶し、図示しない放音制御部の制御下で音源データsigL、sigRを読み出して出力するものである。音源データsigL、sigRは、例えば、楽曲データであっても良く、電子書籍その他の読み上げ用などの音声データであっても良い。各音源データ記憶部21L、21Rは、CD−ROMなどの記録媒体が装填された記録媒体アクセス装置であっても良く、インターネット上のサイトなどの外部装置から通信によって取得した音源データを記憶する当該装置の記憶部によって構成されたものであっても良い。また、各音源データ記憶部21L、21Rは、例えば、USBコネクタ接続で接続される外付けの装置が該当するものであっても良い。さらに、各音源データ記憶部21L、21Rは「記憶部」とネーミングしているが、各音源データ記憶部21L、21Rの概念には、デジタル音声放送の受信機のような、受信した音源データをリアルタイムに出力する構成をも含むものとする。
D/A変換部22L及び22Rはそれぞれ、対応する音源データ記憶部21L、21Rから出力された音源データsigL、sigRをアナログ信号に変換して対応するスピーカ3L、3Rに与えるものである。
スピーカ3L及び3Rはそれぞれ、対応するD/A変換部22L、22Rから与えられた音源信号を放音出力(発音出力)するものである。ここで、スピーカ3L及び3Rから放音出力された音(音楽、音声など)は、マイクロホン4R、4Lに捕捉されることを意図したものではなく、マイクロホン4R、4Lの捕捉機能から見たとき、非目的音(妨害音)になっている。
以上では、スピーカ3L、3Rから放音される音楽、音声の当初の信号形式がデジタル信号(音源データ)であるものを示したが、音源データ記憶部21L、21Rに相当する構成が、レコードプレイヤ、オーディオカセットテープレコーダ、AMやFMのラジオ受信機などであって、アナログ信号でなる音響信号や音声信号を出力するものであっても良い。この場合には、D/A変換部22L及び22Rは省略され、別途、Lチャンネル、Rチャンネル用のA/D変換部を設けて、アナログ信号の音響信号や音声信号をデジタル信号に変換して放音非目的音キャンセラ処理部32に与えることになる。
マイクロホン4R及び4Lはそれぞれ、周囲音を捕捉して電気信号(アナログ信号)に変換するものである。一対のマイクロホン4R及び4Lにより、ステレオ信号が得られる。各マイクロホン4R、4Lは、当該集音・放音装置10の正面から到来する音を主として捕捉するような指向性を有するものであるが、両脇に配置されているスピーカ3L、3Rから放音された音をも捕捉してしまう。なお、スピーカ3L、3Rは、一対のマイクロホン4R及び4Lの両脇に配置されることが好ましいが、この配置に限定されるものではない。
各マイクロホン4R、4Lは、例えば、当該集音・放音装置10の筐体に設けられた筒体内に取り付けられる。ここで、筒体の内面には合成樹脂でなる遮音部材が設けられ、マイクロホン4R、4Lが取り付けられたときに、筐体の内外を音が通過する経路ができないようになされている。これにより、筐体内部で発生した雑音や、外部から筐体内部に入り込んで反射により筐体外部に出ていこうとする雑音などを、マイクロホン4R、4Lが捕捉するようなことを極力防止することができる。
A/D変換部31L及び31Rはそれぞれ、対応するマイクロホン4R、4Lが捕捉した入力音信号をデジタル信号inputL、inputRに変換して放音非目的音キャンセラ処理部32に与えるものである。各A/D変換部31L、31Rは、例えば、音源データsigL、sigRのサンプリングレートと同じサンプリングレートのデジタル信号に変換する。
放音非目的音キャンセラ処理部32には、音源データ記憶部21L及び21Rから出力された音源データsigL及びsigRも与えられる。ここで、放音非目的音キャンセラ処理部32に入力される4つのデジタル信号のサンプリングレートが揃っていることを要する。例えば、インターネットのサイトからダウンロードし、音源データ記憶部21L及び21Rに記憶された音源データsigL、sigRのサンプリングレートが、A/D変換部31L、31Rからのデジタル信号inputL、inputRのサンプリングレートと異なる場合には、D/A変換部22L、22Rへはダウンロードした音源データsigL、sigRをそのまま与え、放音非目的音キャンセラ処理部32へは音源データsigL、sigRのサンプリングレートを変換した音源データを与えるようにすれば良い。
放音非目的音キャンセラ処理部32は、音源データ記憶部21L及び21Rから出力された音源データsigL及びsigRに基づき、入力音信号(デジタル信号)inputL、inputRに含まれている、スピーカ3L、3Rから放音されることによる非目的音成分(以下、適宜、放音非目的音と呼ぶ)を除去(若しくは軽減)し、除去処理後の入力音信号ECoutL、ECoutRを妨害音抑圧部33に与えるものである。
ここで、スピーカ3L、3Rから放音され、マイクロホン4R、4Lによって捕捉される、目的音から見て不要な音(放音非目的音)は、電話通信において問題となっている音響エコーと同様にみなすことができる。そこで、第1の実施形態においては、放音非目的音キャンセラ処理部32を、音響エコーキャンセラの技術を流用して構成している。例えば、非特許文献1には「ステレオエコーキャンセラ」が記載されている。第1の実施形態では、放音非目的音キャンセラ処理部32として、非特許文献1の図3.71若しくは図3.75の記載のものを適用しているとする。なお、非特許文献1の図3.73には、Lチャンネルのスピーカからの音をLチャンネルのマイクロホンで捕捉した成分を除去するモノラルエコーキャンセラと、Rチャンネルのスピーカからの音をLチャンネルのマイクロホンで捕捉した成分を除去するモノラルエコーキャンセラとを縦続接続して除去処理後の入力音信号ECoutLを得ると共に、Lチャンネルのスピーカからの音をRチャンネルのマイクロホンで捕捉した成分を除去するモノラルエコーキャンセラと、Rチャンネルのスピーカからの音をRチャンネルのマイクロホンで捕捉した成分を除去するモノラルエコーキャンセラとを縦続接続して除去処理後の入力音信号ECoutRを得る構成が記載されているが、この構成もステレオエコーキャンセラの範疇に属し、第1の実施形態に適用することができる。
妨害音抑圧部33は、図2に示す詳細構成を有し、放音非目的音が除去された入力音信号ECoutL、ECoutRに基づき、所定方位(例えば、正面)にある音源からの目的音だけを抽出し、言い換えると、目的音以外の非目的音成分を妨害音成分として抑圧するものである。
妨害音抑圧方法(音源分離方法)としては、音源の方向によって特性が変化するコヒーレンス係数を適用したコヒーレンスフィルタ法であり、妨害音抑圧部33として、コヒーレンスフィルタ法に従った構成を適用することが考えられる(特願2013−199981号明細書及び図面参照)。 しかし、スピーカ3L、3Rから放音される非目的音に、例えばドラム音のような衝撃音が含まれている場合、コヒーレンスフィルタ法に従った構成では、衝撃音発生時のコヒーレンス値が目的音成分と同等以上の大きな値となるため、妨害音成分を十分に抑圧できなくなる。また、コヒーレンスフィルタの不足を補うために他の特徴量で補正する場合等には、設計者や使用者がその特徴量を適切に設定しなければ、やはり抑圧量が不足したり、あるいは、過剰に抑圧したりすることによって音質が劣化する場合がある。
そこで、この第1の実施形態では、コヒーレンスフィルタ法と同等以上の性能を有しつつ、設計者や使用者がパラメータを設定することなく抑圧係数を算出して妨害音成分を抑圧できるように、図2に示す詳細構成を有する妨害音抑圧部33を適用することとした。
図2において、妨害音抑圧部33は、FFT(高速フーリエ変換)部41、コヒーレンス係数計算部42、modGI・抑圧係数計算部43、抑圧処理部44及びIFFT(逆高速フーリエ変換)部45を有する。
FFT部41は、時間領域の信号である、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)をそれぞれ、周波数領域の信号YL(f,K)、YR(f,K)に変換し、コヒーレンス係数計算部42に与えるものである。なお、上記での「n」は時刻を表すパラメータであり、「f」は周波数を表すパラメータである。
今、入力音信号ECoutL(n)を入力信号s1(n)で表すこととする。入力信号s1(n)から、所定のN個のサンプルからなる分析フレームFRAME1(K)を構成して適用する。入力信号s1(n)から分析フレームFRAME1(K)を構成する例を(1)式に示す。なお、Kはフレームの順番を表すインデックスであり、正の整数で表現される。本文中では、Kが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の説明において、特に但し書きがない限りは、分析対象となる最新の分析フレームを表すインデックスはKであるとする。フレームの順番が特に問題とならない場合にはKを省略して表現していることもある(後述する(3)式〜(5)式参照)。
FFT部41は、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号s1(n)を周波数領域信号YL(f,K)に変換する。ここで、YL(f,K)は単一の値ではなく、(2)式に示すように、複数の周波数f1〜fmのスペクトル成分から構成されるものである。
YL(f,K)
={(f1,K),(f2,K),…,(fm,K)} …(2)
YL(f,K)
={(f1,K),(f2,K),…,(fm,K)} …(2)
FFT部41は、入力音信号ECoutR(n)に対しても同様な処理を行い、周波数領域信号YR(f,K)を得る。
コヒーレンス係数計算部42は、放音非目的音が除去された入力音信号ECoutL(n)、ECoutR(n)から得られた周波数領域信号YL(f,K)及びYR(f,K)に基づいて、(5)式に従って、コヒーレンス係数coef(f,K)を計算するものである。なお、(5)式におけるB1(f)及びB2(f)はそれぞれ、(3)式、(4)式に従って算出される値である。
第1の実施形態の妨害音抑圧部33では、コヒーレンスCOH(K)を利用することはないが、後述する説明でコヒーレンスCOH(K)に言及するので、(6)式としてコヒーレンスCOH(K)の算出式を記載しておく。コヒーレンスCOH(K)は、全ての周波数f1〜fmのコヒーレンス係数coef(f,K)の平均値である。
modGI・抑圧係数計算部43は、コヒーレンス係数coef(f,K)についてのmodGI(f,K)を計算した後、得られたmodGI(f,K)に基づいて抑圧係数NRcoef(f,K)を計算して抑圧処理部44に与えるものである。
今、コヒーレンス係数coef(f,K)をs(K)で表すと、modGI(f,K)の計算式は(7)式で表される。modGI(f,K)から抑圧係数NRcoef(f,K)を計算する計算式は(8)式で表される。
ここで、modGI値について簡単に説明する(詳細については、特許文献2参照)。modGIは、修正されたグラディエント・インデックス(Gradient Index:以下、GIと呼ぶ)を意味している。
修正される前のGIについては、参照文献「Naofumi Aoki,”A Band Extension Technique for Narrow−Band Telephony Speech Based on Full Wave Rectification”, IEICE Trans. Commun.,Vol.E93−B(3),pp.729−731,2010」に記載されている。 GIは、信号波形の傾き方向が変化する回数とその大きさを測る指標である。GIは、傾き方向が変化したときの、相前後するサンプルの差分絶対値の総和を、そのフレームのパワーの平方根で除算したものとして求められる。従って、GIは、1フレーム内の傾きの変化回数が多いほど大きくなり易く、また、傾きが変化したときの変化量が大きいほど大きくなり易いものである。
しかしながら、GIは、変数ΔΨ(n)という0又は2の2値しかとらない、時系列的に値の大きな飛び跳ねが多発するパラメータを算出要素としているため、値が不規則に大きくなったり小さくなったりするという特徴(「値が暴れる」)がある。
modGIは、GIの値が暴れる(値の大きな飛び跳ねを有する)という性質を有することに鑑み、GIに代えて、GIと高い相関を持ちながら、値の大きな飛び跳ねを抑制した変化が安定した新しい特徴量として提案されたものである。modGIは、特徴量算出対象の任意の信号(本願ではコヒーレンス係数)に関し、その「算出対象信号のパワー」で正規化された、その「算出対象信号の2階差分のパワー」(これを定数倍したものも含まれる)として定義される。
modGIは、GIと高い相関を持つので、信号波形の傾き方向が変化する回数とその大きさを測る安定した指標として機能する。
以下、妨害音成分の抑圧(言い換えると、音源分離)に、コヒーレンス係数についてのmodGI値を適用することとした理由を説明する。以下では、周波数毎のコヒーレンス係数ではなく、全周波数のコヒーレンス係数の平均値であるコヒーレンスを用いて説明するが、コヒーレンスはコヒーレンス係数の代表値であるので、コヒーレンス係数もコヒーレンスと同様な変化傾向を有し、以下の説明はほぼ同様に成り立つ。
放音非目的音キャンセラ処理部32の出力信号(ECoutL又はECoutR)からコヒーレンス((3)式〜(6)式参照)を計算し、目的音と妨害音(放音音)とが重なった区間(目的音区間)と妨害音が単独で存在する区間(非目的音区間)でコヒーレンスの特性を比較すると、次のような差異がある。なお、図3は、コヒーレンスの演算に供する前の原信号(ECoutL又はECoutR)と、演算によって得られたコヒーレンスの時間変化を示す特性図である。
妨害音が単独で存在する非目的音区間においては、スピーカ3L、3Rからの放音音に衝撃音が生じた瞬間だけコヒーレンスは大きな値となる。マイクロホン4L、4Rで捕捉された音源音は放音非目的音キャンセラ処理部32を介することにより、その大半が除去される。しかし、ドラム音のような広範囲の周波数成分を有し、かつ、レベルも大きい衝撃音は、放音非目的音キャンセラ処理部32を介しても除去が不十分となる。図3におけるコヒーレンス演算前の信号中のレベルが瞬間的に大きくなっている部分が衝撃音の部分である。演算で得られたコヒーレンスは、衝撃音が生じた瞬間だけ大きな値となる。非目的音区間における衝撃音以外の区間では、放音された音源音があっても、コヒーレンスは背景雑音だけがある場合と同じくらいのレンジまで小さくなる。そのため、衝撃音が間欠的に生じる放音音が妨害音として存在する場合には、『急増→急減→背景雑音のような微細な変動』というような振る舞いを繰り返し、コヒーレンスの傾きの正負は頻繁に変動する。
これに対して、目的音及び妨害音が共に存在する目的音区間においては、衝撃音が生じた瞬間にコヒーレンスは大きくなるが、それ以外の区間でも目的音が存在するために、ほどほどの大きさが維持される。そのため、コヒーレンスの変動は妨害音単独の非目的音区間よりは小さく、傾きの正負の変動も少ない。
なお、図3から明らかなように、非目的音区間におけるダイナミックレンジと目的音区間におけるダイナミックレンジとに有意な差がないことが分かる。
以上のように、妨害音が単独で存在する非目的音区間と、目的音及び妨害音が共に存在する目的音区間とは、算出されたコヒーレンスのダイナミックレンジに差はない一方、算出されたコヒーレンスの傾き方向が変化する回数や大きさが異なるので、非目的音区間と目的音区間とを弁別する指標として、上述したmodGIを適用可能である。
図4は、コヒーレンスに基づいて計算したmodGI値の変化を示している。図4は、コヒーレンスの演算に供する前の原信号(ECoutL又はECoutR)も示している。
目的音区間と非目的音区間とでmodGI値を比較すると、妨害音が単独で存在する非目的音区間ではmodGIは大きな値をとり、目的音区間ではmodGIは小さな値をとっていることが分かる。このようなmodGI値の独特な挙動から、modGI値が大きいときに抑圧量を小さくすると共に、modGI値が小さいときに抑圧量を大きくするように制御すれば、妨害音成分を抑圧できることが理解できる。
以上では、コヒーレンスに対するmodGI値の挙動について言及したが、周波数毎のコヒーレンス係数に対するmodGI値の挙動も同様である。
第1の実施形態では、以上のような考え方に従って、上述したように、周波数毎のコヒーレンス係数coef(f,K)について得たmodGI値modGI(f,K)の逆数を、抑圧係数NRcoef(f,K)とすることとした。 図5は、図4に示したmodGI値の逆数の時間変化を示している。modGI値の逆数は、目的音区間では小さい値をとり、目的音を含まない非目的音区間では大きな値をとり、modGI値の逆数を用いても目的音が不必要に抑圧されないことが分かる。
なお、上述した(7)式の右辺の分母、分子をそれぞれ、分子、分母とする計算式を用意しておき、コヒーレンス係数coef(f,K)に基づいた1回の演算により、抑圧係数NRcoef(f,K)が得られるようにしても良い。modGI・抑圧係数計算部43は、例えば、modGI(f,K)を計算する既存の演算部や演算プログラムを利用することを想定しているため、modGI(f,K)を一旦得た後に、抑圧係数NRcoef(f,K)を得ることとしている。
抑圧係数NRcoef(f,K)が与えられる抑圧処理部44には、また、FFT部41から出力された周波数領域信号YL(f,K)及びYR(f,K)の一方、若しくは、平均値信号が入力される。図2では、抑圧処理部44に周波数領域信号YL(f,K)が入力される場合を示している。 抑圧処理部44は、(9)式に示すように、周波数毎に、周波数領域信号YL(f,K)に抑圧係数NRcoef(f,K)を乗算することにより、妨害音成分が抑圧された信号NRout(f,K)を得てIFFT部45に与えるものである。
NRout(f,K)=YL(f,K)×NRcoef(f,K)…(9)
NRout(f,K)=YL(f,K)×NRcoef(f,K)…(9)
IFFT部45は、周波数領域信号である妨害音抑圧信号NRout(f,K)を時間領域信号out(n)に変換するものである。後段回路が、周波数領域信号NRout(f,K)をそのまま処理できる構成であれば、IFFT部45を省略することができる。
(A−2)第1の実施形態の動作
次に、第1の実施形態の集音・放音装置10の動作を説明する。以下では、音源データが楽曲データであり、目的音が、集音・放音装置10の正面に位置する利用者が発音した音声であるとして、適宜、説明する。
次に、第1の実施形態の集音・放音装置10の動作を説明する。以下では、音源データが楽曲データであり、目的音が、集音・放音装置10の正面に位置する利用者が発音した音声であるとして、適宜、説明する。
各音源データ記憶部21L、21Rから読み出された音源データ(楽曲データ)はそれぞれ、対応するD/A変換部22L、22Rによってアナログ信号に変換された後、各スピーカ3L、3Rから放音される。このような音楽が当該集音・放音装置10から流れているときに、利用者が当該集音・放音装置10に向かって発音した音声は、両マイクロホン4L及び4Rによって捕捉される。この際、スピーカ3L、3Rからの音楽も流れているため、スピーカ3Lからの音楽も両マイクロホン4L及び4Rによって捕捉され、スピーカ3Rからの音楽も両マイクロホン4L及び4Rによって捕捉される。さらに、周囲の背景雑音(エアコンの駆動音、近くを走行する車両からの走行音など)も、両マイクロホン4L及び4Rによって捕捉される。
すなわち、各マイクロホン4L、4Rが捕捉して得た入力音信号には、利用者の音声という目的音以外に、背景雑音や自装置が放音した音楽という放音非目的音などの妨害音が含まれている。
各マイクロホン4L、4Rが捕捉して得た入力音信号はそれぞれ、対応するA/D変換部31L、31Rによってデジタル信号inputL、inputRに変換されて放音非目的音キャンセラ処理部32に与えられる。放音非目的音キャンセラ処理部32には、音源データsigL及びsigRも与えられる。
放音非目的音キャンセラ処理部32においては、Lチャンネルに係る入力音信号(デジタル信号)inputLから、内部で生成した疑似放音目的音信号を減算することにより、放音非目的音が除去された入力音信号ECoutLが得られ、同様に、Rチャンネルに係る入力音信号(デジタル信号)inputRから、内部で生成した疑似放音目的音信号を減算することにより、放音非目的音が除去された入力音信号ECoutRが得られる。このようにして得られた放音非目的音が除去された一対の信号ECoutL、ECoutRが妨害音抑圧部33に与えられる。 放音非目的音が除去された一対の信号ECoutL及びECoutRが与えられる妨害音抑圧部33の内部では、以下のように動作する。
FFT部41において、放音非目的音が除去された時間領域信号である信号ECoutL(n)、ECoutR(n)はそれぞれ、周波数領域信号YL(f,K)、YR(f,K)に変換され、コヒーレンス係数計算部42に与られえる。また、FFT部41から出力された一方の周波数領域信号YL(f,K)が抑圧処理部44に与えられる。
コヒーレンス係数計算部42においては、FFT部41からの周波数領域信号YL(f,K)及びYR(f,K)に基づいて、上述した(3)式〜(5)式に従って、コヒーレンス係数coef(f,K)が計算され、得られたコヒーレンス係数coef(f,K)がmodGI・抑圧係数計算部43に与えられる。
modGI・抑圧係数計算部43においては、まず、上述した(7)式に従ってコヒーレンス係数coef(f,K)についてのmodGI(f,K)が計算された後、得られたmodGI(f,K)に基づいて上述した(8)式に従って抑圧係数NRcoef(f,K)が計算されて抑圧処理部44に与えられる。 抑圧処理部44において、上述した(9)式に従って、周波数毎に、周波数領域信号YL(f,K)に抑圧係数NRcoef(f,K)が乗算され、妨害音成分が抑圧された信号NRout(f,K)が得されてIFFT部45に与えられる。
そして、IFFT部45において、周波数領域信号である妨害音抑圧信号NRout(f,K)が時間領域信号out(n)に変換され、当該集音・放音装置10からの出力信号として送出される。
(A−3)第1の実施形態の効果
第1の実施形態によれば、信号波形の傾き方向が変化する回数とその大きさを測る安定した指標であるmodGIを利用し、設計者や使用者がパラメータを設定することなく、目的音を含む入力信号の区間では小さく、目的音を含まない入力信号の区間では大きくなる抑圧係数を形成して妨害音成分を抑圧するようにしたので、放音音における衝撃音のような、放音非目的音に対する除去後信号に妨害音成分が残るような状況においても、設計者や使用者に負担を掛けることなく、意図した音源からの目的音を良好なSN比をもって得ることができるようになる。
第1の実施形態によれば、信号波形の傾き方向が変化する回数とその大きさを測る安定した指標であるmodGIを利用し、設計者や使用者がパラメータを設定することなく、目的音を含む入力信号の区間では小さく、目的音を含まない入力信号の区間では大きくなる抑圧係数を形成して妨害音成分を抑圧するようにしたので、放音音における衝撃音のような、放音非目的音に対する除去後信号に妨害音成分が残るような状況においても、設計者や使用者に負担を掛けることなく、意図した音源からの目的音を良好なSN比をもって得ることができるようになる。
妨害音成分をより適切に抑圧できるので、第1の実施形態の集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムを適用した装置の特質等を向上させることに寄与できる。例えば、通話装置における通話音質の向上や音声認識システムにおける認識性能の向上などが期待できる。
(B)第2の実施形態
次に、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第2の実施形態を、図面を参照しながら説明する。
次に、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第2の実施形態を、図面を参照しながら説明する。
第2の実施形態の集音・放音装置(符号「10A」を用いる)の全体構成も、第1の実施形態の説明で用いた図1で表すことができる。
しかし、第2の実施形態の集音・放音装置10Aは、妨害音抑圧部(符号「33A」を用いる)の内部構成が第1の実施形態の集音・放音装置10と異なっている。 第2の実施形態の妨害音抑圧部33Aにおいても、信号波形の傾き方向が変化する回数とその大きさを測る安定した指標であるmodGIを利用して、抑圧係数NRcoef(f,K)を形成するものであるが、抑圧係数NRcoef(f,K)の変化を円滑化させるために平滑化処理を導入したものである。これにより、妨害音特性の瞬間的な変動に由来する抑圧係数の急変動を緩和し、妨害音抑圧後音声信号の音質を高められるようになる。
図6は、第2の実施形態における妨害音抑圧部33Aの詳細構成を示すブロック図であり、第1の実施形態に係る図2との同一、対応部分には同一符号を付して示している。
図6において、第2の実施形態の妨害音抑圧部33Aは、FFT部41、コヒーレンス係数計算部42、modGI計算部51、平滑化部52、抑圧係数計算部53、遅延部54、抑圧処理部44及びIFFT部45を有する。
FFT部41、コヒーレンス係数計算部42、抑圧処理部44及びIFFT部45の機能は、第1の実施形態のものと同様であるので、その説明は省略する。
modGI計算部51には、コヒーレンス係数計算部42からコヒーレンス係数coef(f,K)が与えられる。コヒーレンス係数coef(f,K)は、上述した(7)式に従ってコヒーレンス係数coef(f,K)についてのmodGI(f,K)を計算し、得られたmodGI(f,K)を平滑化部52に与えるものである。 平滑化部52は、与えられたコヒーレンス係数coef(f,K)を平滑化し、平滑化コヒーレンス係数AVEcoef(f,K)を抑圧係数計算部53に与えるものである。平滑化方法は既存の方法を適用できる。例えば、単純な算術平均を適用しても良い。また、その直前の平滑化コヒーレンス係数AVEcoef(f,K−1)と今回のコヒーレンス係数coef(f,K)との重み付け加算を平滑化演算としても良い。
抑圧係数計算部53は、与えられた平滑化コヒーレンス係数AVEcoef(f,K)の逆数を算出し(上述した(8)式参照)、得られた値NRcoef(f,K)を抑圧係数として抑圧処理部44に与えるものである。
上述した第1の実施形態でも厳密に記載すれば、FFT部41から出力された周波数領域信号YL(f,K)は遅延部を介して遅延されて抑圧処理部44に与えられ、抑圧処理部44へ、周波数領域信号YL(f,K)と抑圧係数NRcoef(f,K)とが同期して抑圧処理部44に入力されることを要する。
この第2の実施形態では、平滑化処理を導入したため、抑圧係数NRcoef(f,K)を形成する処理系での処理遅延が大きいため、図6では、同期化のための遅延部54を書き出している。
上述したように、第2の実施形態の妨害音抑圧部33Aにおいては、信号波形の傾き方向が変化する回数とその大きさを測る安定した指標であるmodGIを利用して抑圧係数NRcoef(f,K)を形成する際に、抑圧係数NRcoef(f,K)の変化を円滑化させるために平滑化処理を導入しているが、この点を除けば、第1の実施形態と同様に動作するので、動作説明は省略する。
なお、上記では、コヒーレンス係数coef(f,K)の段階で平滑化する場合を示したが、コヒーレンス係数coef(f,K)の逆数を演算した段階で平滑化を施すようにしても良い。
第2の実施形態によっても、第1の実施形態とほぼ同様な効果を奏することができる。なお、平滑化処理を導入しているため、抑圧係数NRcoef(f,K)を円滑化させることができる。
(C)第3の実施形態
次に、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第3の実施形態を、図面を参照しながら説明する。
次に、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第3の実施形態を、図面を参照しながら説明する。
第3の実施形態の集音・放音装置(符号「10B」を用いる)の全体構成も、第1の実施形態の説明で用いた図1で表すことができる。
しかし、第3の実施形態の集音・放音装置10Bは、妨害音抑圧部(符号「33B」を用いる)の内部構成が第1の実施形態の集音・放音装置10と異なっている。 第3の実施形態の妨害音抑圧部33Bは、第3の実施形態の集音・放音装置10Bからの出力信号をステレオ信号としようとしたものである。
図7は、第3の実施形態における妨害音抑圧部33Bの詳細構成を示すブロック図であり、第1の実施形態に係る図2との同一、対応部分には同一、対応符号を付して示している。
図7において、第3の実施形態の妨害音抑圧部33Bは、FFT部41、コヒーレンス係数計算部42、modGI・抑圧係数計算部43、一対の抑圧処理部44L、44R、及び、IFFT部45Bを有する。
FFT部41、コヒーレンス係数計算部42及びmodGI・抑圧係数計算部43の機能は、第1の実施形態のものと同様であるので、その説明は省略する。但し、modGI・抑圧係数計算部43から出力された抑圧係数NRcoef(f,K)が、抑圧処理部44L及び44Rに与えられる点は、第1の実施形態と異なっている。
抑圧処理部44Lには、FFT部41から出力されたLチャンネルの周波数領域信号YL(f,K)が与えられ、一方、抑圧処理部44Rには、FFT部41から出力されたRチャンネルの周波数領域信号YR(f,K)が与えられる。抑圧処理部44Lは、Lチャンネルの周波数領域信号YL(f,K)に抑圧係数NRcoef(f,K)を乗算し、妨害音成分が抑圧されたLチャンネルの信号NRLout(f,K)を得てIFFT部45Bに与える。一方、抑圧処理部44Rは、Rチャンネルの周波数領域信号YR(f,K)に抑圧係数NRcoef(f,K)を乗算し、妨害音成分が抑圧されたRチャンネルの信号NRRout(f,K)を得てIFFT部45Bに与える。
IFFT部45Bは、周波数領域信号であるステレオの妨害音抑圧信号NRLout(f,K)及びNRRout(f,K)をそれぞれ、時間領域信号Lout(n)、Rout(n)に変換して、後段回路に送出するものである。
第3の実施形態の妨害音抑圧部33Bにおいては、ステレオ信号で出力するように動作する点が第1の実施形態と異なっているが、その他の動作は、第1の実施形態と同様であるので、その説明は省略する。
第3の実施形態によれば、ステレオ信号で出力可能であり、この点を除けば、第1の実施形態とほぼ同様な効果を奏する。
(D)第4の実施形態
次に、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第4の実施形態を、図面を参照しながら説明する。
次に、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第4の実施形態を、図面を参照しながら説明する。
第4の実施形態の集音・放音装置(符号「10C」を用いる)の全体構成も、第1の実施形態の説明で用いた図1で表すことができる。
しかし、第4の実施形態の集音・放音装置10Cは、妨害音抑圧部(符号「33C」を用いる)の内部構成が第1の実施形態の集音・放音装置10と異なっている。 第4の実施形態の妨害音抑圧部33Cは、妨害音成分の抑圧動作を、非目的音区間だけ実行しようとしたものである。
図8は、第4の実施形態における妨害音抑圧部33Cの詳細構成を示すブロック図であり、第1の実施形態に係る図2との同一、対応部分には同一、対応符号を付して示している。
図8において、第4の実施形態の妨害音抑圧部33Cは、FFT部41、コヒーレンス係数計算部42、modGI・抑圧係数計算部43、区間判定部60、抑圧処理部44C及びIFFT部45を有する。
FFT部41、コヒーレンス係数計算部42、modGI・抑圧係数計算部43及びIFFT部45の機能は、第1の実施形態のものと同様であるので、その説明は省略する。
区間判定部60は、今、妨害音抑圧部33Cで処理している信号が、妨害音成分と目的音成分とを共に含む目的音区間の信号か、妨害音成分だけを含む(言い換えると、目的音成分を含まない)非目的音区間の信号かを判定し、その判定結果V(K)を抑圧処理部44Cに与えるものである。
抑圧処理部44Cは、判定結果V(K)が非目的音区間の信号であることを表している場合に、周波数領域信号YL(f,K)に抑圧係数NRcoef(f,K)を乗算する妨害音成分の抑圧処理を実行し、一方、判定結果V(K)が目的音区間の信号であることを表している場合には与えられた周波数領域信号YL(f,K)をそのまま出力する(言い換えると、抑圧処理を実行しない)。
ここで、目的音区間か非目的音区間かの判定方法は限定されるものではないが、図9には、区間判定部60の詳細構成の一例(ある判定方法を適用した例)を示している。
図9において、区間判定部60は、コヒーレンス計算部61、コヒーレンスmodGI計算部62及び閾値比較部63を有する。なお、図9の構成例の場合、コヒーレンス係数計算部42も、区間判定部60の構成要素と見ることができる。
コヒーレンス計算部61は、周波数毎のコヒーレンス係数coef(f,K)の周波数についての平均値であるコヒーレンスCOH(K)を計算してコヒーレンスmodGI計算部62に与えるものである。コヒーレンスCOH(K)の算出式は、上述した(6)式である。
コヒーレンスmodGI計算部62は、コヒーレンスCOH(K)についてのmodGI値COHmodGI(K)を算出して閾値比較部63に与えるものである。
閾値比較部63は、コヒーレンスCOH(K)についてのmodGI値COHmodGI(K)を閾値Ψと比較し、modGI値COHmodGI(K)が閾値Ψより小さいときに、判定結果V(K)を目的音区間(の信号)を表す値にし、modGI値COHmodGI(K)が閾値Ψ以上のときに、判定結果V(K)を非目的音区間(の信号)を表す値にし、得られた判定結果V(K)を抑圧処理部44Cに与えるものである。
上述した図4に示したように、コヒーレンスCOH(K)についてのmodGI値COHmodGI(K)は、目的音区間では小さい値をとるのに対して、非目的音区間では大きい値をとる。従って、目的音区間と非目的音区間とを弁別できるように閾値Ψを選定することにより、目的音区間と非目的音区間とを切り分けることができる。ここで、閾値Ψは固定値であっても良く、また、ダイナミックに変動するものであっても良い。後者の例を挙げれば、直前所定期間内のコヒーレンスCOH(K−1)〜コヒーレンスCOH(K−M)についてのmodGI値COHmodGI(K−1)〜COHmodGI(K−M)の中の最大値や平均値のα倍(αは0より大きく1より小さい値)を閾値Ψ(K)とする例を挙げることができる。
図示は省略するが、コヒーレンスの長期平均値を閾値と比較する方法を、目的音区間か非目的音区間かの他の判定方法として挙げることができる。
第4の実施形態によっても、第1の実施形態とほぼ同様な効果を奏することができる。さらに、第4の実施形態によれば、目的音成分が誤って抑圧されることを防止することができる。
(E)他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。
上記各実施形態の説明では、modGIを、特許文献2の(13)式と同じである(7)式で計算するものを示したが、特許文献2に記載されている他の計算式に従ってmodGIを計算するようにしても良い。また、修正される前のGIも、信号波形の傾き方向が変化する回数とその大きさを測る指標であるので、上記各実施形態におけるmodGIに代えてGIを適用するようにしても良い。 上記各実施形態では、modGIの逆数やmodGIの平滑値の逆数を抑圧係数とする場合を示したが、抑圧係数の決定方法はこれに限定されない。要は、modGIやmodGIの平滑値の大小関係と大小関係が逆転するように抑圧係数を決定できる方法であれば良い。例えば、modGIの逆数を所定倍したものを抑圧係数としたり、modGIの逆数を所定関数(例えば対数)に入力して得た値を抑圧係数としたり、所定値からmodGIを減算した値やその所定倍を抑圧係数としたりするようにしても良い。ここで、抑圧係数に上限や下限を設けるようにしても良い。
上記各実施形態においては、コヒーレンス係数についてのmodGIに基づいて抑圧係数を決定するものを示したが、特許文献1の段落「0081」に記載されている正面に死角を有する信号を生成し、これに基づいてmodGIや、modGIに基づいた抑圧係数を算出するようにしても良い。
上記各実施形態では、妨害音抑圧部が、放音非目的音キャンセラ処理部からの出力信号から抑圧係数を形成するものを示したが、他の信号から抑圧係数を形成するようにしても良い。例えば、マイクロホンが捕捉し、デジタル信号に変換した入力信号inputL、inputRも、目的音区間と非目的音区間とが混在するので、抑圧係数の形成に利用することができる。
第1の実施形態の説明で述べたように、コヒーレンス係数からmodGIを算出した後に逆数演算して抑圧係数を算出する方法に限定されず、modGIの算出式の分母、分子を逆にした演算式を用意しておいてコヒーレンス係数から抑圧係数を直接算出するようにしても良い。しかし、特許請求の範囲では、modGIに相当する特徴量を算出するように記載しており、modGIに相当する特徴量を算出しない後者の場合も特許請求の範囲の記載に含まれるものとする。
上記各実施形態では、スピーカが2つの場合を示したが、スピーカは1つでも3つ以上であっても良い。また、マイクロホンも2つに限定されず、3以上あっても良い。スピーカとマイクロホンとの数に応じて定まる放音音響経路の数を考慮して、放音非目的音キャンセラ処理部32の内部構成を設計すれば良い。
上記各実施形態では、集音・放音装置単体で全ての処理を実行するものを示したが、妨害音成分の抑圧処理などを外部のサーバに委ねて実行するようにしても良い。例えば、集音・放音装置がスマートフォンの場合において、いわゆるクラウドによってシステムを構成し、利用者から外部サーバの存在が分からないように妨害音成分を抑圧しても良い。特許請求の範囲における「集音・放音装置」の請求項は、利用者からは見えない外部サーバが処理を行っている場合を含むものとする。
上記各実施形態では、一対のマイクロホンが捕捉した信号を直ちに処理する装置やプログラムを示したが、一対のマイクロホンが捕捉した信号を記録媒体に記録し、それを再生する場合にも、本発明を適用することができる。 また、一対のマイクロホンの両脇にスピーカがない場合にも本発明の技術思想を適用することができる。例えば、カーオーディオを放音している状況下でカーナビにボイスコマンドを発するような場合、妨害音源が既知ならば、信号処理部の前段で放音非目的音キャンセラ処理部を有効に稼働させることができるので、本発明は有効である。
10、10A、10B、10C…集音・放音装置、
20…放音部、21L、21R…音源データ記憶部、22L、22R…D/A変換部、3L、3R…スピーカ、 30、30A、30B、30C…集音部、4L、4R…マイクロホン、31L、31R…A/D変換部、32…放音非目的音キャンセラ処理部、33、33A、33B、33C…妨害音抑圧部、
41…FFT部、42…コヒーレンス係数計算部、43…modGI・抑圧係数計算部、44、44L、44R、44C…抑圧処理部、45、45B…IFFT部、51…modGI計算部、52…平滑化部、53…抑圧係数計算部、54…遅延部、60…区間判定部、61…コヒーレンス計算部、62…コヒーレンスmodGI計算部、63…閾値比較部。
20…放音部、21L、21R…音源データ記憶部、22L、22R…D/A変換部、3L、3R…スピーカ、 30、30A、30B、30C…集音部、4L、4R…マイクロホン、31L、31R…A/D変換部、32…放音非目的音キャンセラ処理部、33、33A、33B、33C…妨害音抑圧部、
41…FFT部、42…コヒーレンス係数計算部、43…modGI・抑圧係数計算部、44、44L、44R、44C…抑圧処理部、45、45B…IFFT部、51…modGI計算部、52…平滑化部、53…抑圧係数計算部、54…遅延部、60…区間判定部、61…コヒーレンス計算部、62…コヒーレンスmodGI計算部、63…閾値比較部。
Claims (5)
- 少なくとも2本のマイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号であって、第1の所定方位の音源からの目的音とその他の方位から到来する非目的音とが混在した複数の入力音信号から、上記各入力音信号における周波数成分毎の相関を反映させた第1特徴量を算出する第1特徴量算出手段と、
得られた第1特徴量を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表す第2特徴量を得る第2特徴量算出手段と、
得られた第2特徴量の大小関係と逆の大小関係を有する抑圧係数を形成して、上記マイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号における妨害音成分を抑圧する抑圧手段と
を有することを特徴とする妨害音抑圧装置。 - 上記第1特徴量算出手段は、複数の入力音信号から、異なる所定方位に死角を有する複数の指向性信号を形成し、これら指向性信号に基づいて、周波数成分毎のコヒーレンス係数を上記第1特徴量として計算し、
上記第2特徴量算出手段は、周波数成分毎の上記コヒーレンス係数についてのmodGI値を上記第2特徴量として計算し、
上記抑圧手段は、周波数成分毎の上記コヒーレンス係数についてのmodGI値に基づいて周波数成分毎の抑圧係数を形成し、入力音信号における妨害音成分の抑圧を周波数成分毎に実行する
ことを特徴とする請求項1に記載の妨害音抑圧装置。 - 上記抑圧手段は、上記コヒーレンス係数についてのmodGI値の逆数を抑圧係数として形成することを特徴とする請求項2に記載の妨害音抑圧装置。
- コンピュータを、
少なくとも2本のマイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号であって、第1の所定方位の音源からの目的音とその他の方位から到来する非目的音とが混在した複数の入力音信号から、上記各入力音信号における周波数成分毎の相関を反映させた第1特徴量を算出する第1特徴量算出手段と、
得られた第1特徴量を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表す第2特徴量を得る第2特徴量算出手段と、
得られた第2特徴量の大小関係と逆の大小関係を有する抑圧係数を形成して、上記マイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号における妨害音成分を抑圧する抑圧手段と
して機能させることを特徴とする妨害音抑圧プログラム。 - 少なくとも2本のマイクロホンが周囲音を捕捉する集音部と、1又は複数のスピーカから放音する放音部とを有する集音・放音装置において、
上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う非目的音を疑似した疑似放音非目的音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音非目的音を除去する放音非目的音除去手段と、
上記放音非目的音除去手段の後段に設けられ、上記放音非目的音除去手段から出力された音信号における妨害音成分を除去する妨害音抑圧手段とを備え、
上記妨害音抑圧手段として、請求項1〜3のいずれかに記載の妨害音抑圧装置を適用したことを特徴とする集音・放音装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014146153A JP2016024231A (ja) | 2014-07-16 | 2014-07-16 | 集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014146153A JP2016024231A (ja) | 2014-07-16 | 2014-07-16 | 集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2016024231A true JP2016024231A (ja) | 2016-02-08 |
Family
ID=55271043
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014146153A Pending JP2016024231A (ja) | 2014-07-16 | 2014-07-16 | 集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2016024231A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018142826A (ja) * | 2017-02-27 | 2018-09-13 | 沖電気工業株式会社 | 非目的音抑圧装置、方法及びプログラム |
-
2014
- 2014-07-16 JP JP2014146153A patent/JP2016024231A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2018142826A (ja) * | 2017-02-27 | 2018-09-13 | 沖電気工業株式会社 | 非目的音抑圧装置、方法及びプログラム |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP2011523086A (ja) | ダイナミックサウンド提供システム及び方法 | |
US9031248B2 (en) | Vehicle engine sound extraction and reproduction | |
JP2013135433A (ja) | 音声処理装置、音声処理方法及び音声処理用コンピュータプログラム | |
JP4886881B2 (ja) | 音響補正装置、音響出力装置、及び音響補正方法 | |
JP2014106494A (ja) | 音声強調装置、音声強調方法及び音声強調用コンピュータプログラム | |
JP4448464B2 (ja) | 雑音低減方法、装置、プログラム及び記録媒体 | |
JP2016042613A (ja) | 目的音声区間検出装置、目的音声区間検出方法、目的音声区間検出プログラム、音声信号処理装置及びサーバ | |
US9066177B2 (en) | Method and arrangement for processing of audio signals | |
CN106941006B (zh) | 用于音频信号的分离和低音增强的方法、装置和系统 | |
JP2009296298A (ja) | 音声信号処理装置および方法 | |
US9959852B2 (en) | Vehicle engine sound extraction | |
JP3755739B2 (ja) | ステレオ音響信号処理方法及び装置並びにプログラム及び記録媒体 | |
JPH11265199A (ja) | 送話器 | |
US20190222927A1 (en) | Output control of sounds from sources respectively positioned in priority and nonpriority directions | |
JP2016024231A (ja) | 集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラム | |
JP2015070291A (ja) | 集音・放音装置、音源分離ユニット及び音源分離プログラム | |
US20230320903A1 (en) | Ear-worn device and reproduction method | |
JP2015070292A (ja) | 集音・放音装置及び集音・放音プログラム | |
CN115103258A (zh) | 风噪检测方法、装置及耳机 | |
JP6638248B2 (ja) | 音声判定装置、方法及びプログラム、並びに、音声信号処理装置 | |
JP6186878B2 (ja) | 集音・放音装置、音源分離ユニット及び音源分離プログラム | |
JP6790659B2 (ja) | 音響処理装置および音響処理方法 | |
JP5998357B2 (ja) | 車載用音響再生装置 | |
CN112312258B (zh) | 一种具有听力防护及听力补偿的智能耳机 | |
US20140066134A1 (en) | Audio processing device, audio processing method, and recording medium recording audio processing program |