JP2016024231A

JP2016024231A - 集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラム

Info

Publication number: JP2016024231A
Application number: JP2014146153A
Authority: JP
Inventors: 克之高橋; Katsuyuki Takahashi
Original assignee: Oki Electric Industry Co Ltd
Current assignee: Oki Electric Industry Co Ltd
Priority date: 2014-07-16
Filing date: 2014-07-16
Publication date: 2016-02-08

Abstract

【課題】スピーカからの放音音のような妨害音があっても意図した音源からの目的音を良好なＳＮ比で得られる妨害音抑圧装置を提供する。【解決手段】妨害音抑圧装置では、異なるマイクロホンが得た複数の入力音信号又はそれに対して所定処理が施された複数の入力音信号から、各入力音信号における周波数成分毎の相関を反映させたコヒーレンス係数を算出し、各コヒーレンス係数についてのｍｏｄＧＩの逆数を周波数成分毎の抑圧係数として形成し、入力音信号の各周波数成分に対応する抑圧係数を乗算して、入力音信号における妨害音成分を周波数成分毎に抑圧する。【選択図】図２

Description

本発明は、集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムに関し、例えば、マイクロホンによる捕捉音声、捕捉音響などから、所定方向の音源から到来する音（以下、目的音と呼ぶ）以外の音（以下、非目的音又は妨害音と呼ぶ）を抑圧することを欲する通信端末、オーディオ機器などに適用し得るものである。

例えば、スマートフォンに通話音声を入力する場合や、オーディオ機器やスマートフォンなどに音声コマンドを入力する場合などにおいて、音声が入力される機器は、利用者の口が存在すると思われる正面からの音声だけを、他の方向からの音声、音楽、雑音などと区別して抽出することが好ましい。

２つのマイクロホンに入力された音を捕捉し、入力音（電気信号）の位相差に基づいて周囲の雑音を抑圧して、マイクロホンの所定方位（例えば正面）から到来する目的音を抽出する方式、言い換えると、非目的音を抑圧する方式が、特許文献１に記載されている。

特許文献１に第３の実施形態として記載されている目的音の抽出方法は、マイクロホンの左右に死角を有する二つの指向性を形成して得た二つの信号の相関に応じた抑圧係数を周波数成分毎に入力音信号に乗算することにより、左右から到来する雑音成分（非目的音）を抑圧する手法である。特許文献１に第４の実施形態として記載されている目的音の抽出方法は、マイクロホンの正面に死角を有する指向性を形成し、これにより得られた信号を、左右から到来する雑音成分として入力音信号から減算することにより、左右から到来する雑音成分（非目的音）を抑圧する手法である。

特開２０１３−０６１４２１号公報特開２０１４−１０６３３７号公報

北脇信彦著、「デジタル音声・オーディオ技術（未来ねっと技術シリーズ）」、電気通信協会発行、ｐ２１８〜ｐ２４３、１９９９年

ところで、近年、図１０に示すように、携帯端末（例えば、スマートフォンやタブレット端末）などの通信機能を有する集音機器２の両脇に、一対のスピーカ３Ｌ及び３Ｒを配置して接続し、このような構成で遠隔地と通話を行なう集音・放音装置１が利用されるようになってきている。また、同様な構成で、集音機器２内に記録された音楽ファイルやインターネット上の音楽配信サイトから取得した楽曲ファイルによる音（音楽）を、両脇のスピーカ３Ｌ及び３Ｒから放音させている状態で、利用者が、集音機器２のマイクロホン正面から発した音声によるコマンドを受ける方法も検討されている。

両脇のスピーカ３Ｌ及び３Ｒから音楽などが放音されている状態で、正面から到来する目的音を抽出し、通話相手に発話内容を伝えたり、若しくは、音声認識処理を介して音声コマンドを認識して音声コマンドに対応する処理を実行したりする場合には、スピーカ３Ｌ、３Ｒから発する音などが妨害音（雑音）となり、通話音質や音声認識率を大きく低下させる。

そこで、上述した特許文献１の記載技術のような音源分離方式を適用し、両脇のスピーカ３Ｌ及び３Ｒから到来する雑音成分を抑圧し、正面からの目的音を抽出しなければならない。特許文献１に記載の音源分離方式を適用する場合には、図１１に示すように、集音機器１に、２つのマイクロホン４Ｌ、４Ｒを搭載若しくは外付けすることを要する。

しかしながら、利用者が集音・放音装置１から音楽を放音して楽しむ場合、その音量は大きく、大きな音量の音楽が妨害音としてマイクロホン４Ｌ、４Ｒに捕捉されるため、音源分離方式を適用して目的音を抽出したとしても、抽出した目的音信号に妨害音成分が多く残ってしまう。

これを避けようとすると、利用者は、音楽の出力（放音）を停止してから、通話音声や音声コマンドなどの入力音声を発音すれば良い。しかしながら、このように出力を停止させるキー操作などを行うのであれば、音声コマンドのメリットは薄れ、キー操作などでコマンドを入力する方が簡便である。また、着信からの通話の場合、音声の出力停止操作をできないことや、出力停止操作の実行のため着信が遅れてしまうことなども生じる。

そのため、放音音のような妨害音がある状況においても、意図した音源からの目的音を良好なＳＮ比をもって得ることができる、集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムが望まれている。

第１の本発明の妨害音抑圧装置は、（１）少なくとも２本のマイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号であって、第１の所定方位の音源からの目的音とその他の方位から到来する非目的音とが混在した複数の入力音信号から、上記各入力音信号における周波数成分毎の相関を反映させた第１特徴量を算出する第１特徴量算出手段と、（２）得られた第１特徴量を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表す第２特徴量を得る第２特徴量算出手段と、（３）得られた第２特徴量の大小関係と逆の大小関係を有する抑圧係数を形成して、上記マイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号における妨害音成分を抑圧する抑圧手段とを有することを特徴とする。

第２の本発明の妨害音抑圧プログラムは、コンピュータを、（１）少なくとも２本のマイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号であって、第１の所定方位の音源からの目的音とその他の方位から到来する非目的音とが混在した複数の入力音信号から、上記各入力音信号における周波数成分毎の相関を反映させた第１特徴量を算出する第１特徴量算出手段と、（２）得られた第１特徴量を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表す第２特徴量を得る第２特徴量算出手段と、（３）得られた第２特徴量の大小関係と逆の大小関係を有する抑圧係数を形成して、上記マイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号における妨害音成分を抑圧する抑圧手段として機能させることを特徴とする。

第３の本発明は、少なくとも２本のマイクロホンが周囲音を捕捉する集音部と、１又は複数のスピーカから放音する放音部とを有する集音・放音装置において、（１）上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う非目的音を疑似した疑似放音非目的音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音非目的音を除去する放音非目的音除去手段と、（２）上記放音非目的音除去手段の後段に設けられ、上記放音非目的音除去手段から出力された音信号における妨害音成分を除去する妨害音抑圧手段とを備え、（３）上記妨害音抑圧手段として、第１の本発明の妨害音抑圧装置を適用したことを特徴とする。

本発明によれば、放音音のような妨害音がある状況においても、意図した音源からの目的音を良好なＳＮ比をもって得ることができる集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムを実現できる。

第１の実施形態の集音・放音装置の構成を示すブロック図である。第１の実施形態の集音・放音装置における妨害音抑圧部の詳細構成を示すブロック図である。第１の実施形態の集音・放音装置における放音非目的音キャンセラ処理部からの出力信号と、それより求めたコヒーレンスとの時間変化を示す特性図である。第１の実施形態の集音・放音装置における放音非目的音キャンセラ処理部からの出力信号と、それより求めたコヒーレンスについてのｍｏｄＧＩ値との時間変化を示す特性図である。図４に示したｍｏｄＧＩ値の逆数の時間変化を、放音非目的音キャンセラ処理部からの出力信号の時間変化と共に示す特性図である。第２の実施形態の集音・放音装置における妨害音抑圧部の詳細構成を示すブロック図である。第３の実施形態の集音・放音装置における妨害音抑圧部の詳細構成を示すブロック図である。第４の実施形態の集音・放音装置における妨害音抑圧部の詳細構成を示すブロック図である。図８の妨害音抑圧部における区間判定部の詳細構成を示すブロック図である。従来の集音・放音装置におけるスピーカの接続の様子を示す説明図である。従来の集音・放音装置に音源分離方式を適用する場合におけるマイクロホンの搭載の様子を示す説明図である。

（Ａ）第１の実施形態
以下、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第１の実施形態を、図面を参照しながら説明する。

（Ａ−１）第１の実施形態の構成
第１の実施形態の集音・放音装置は、一対のマイクロホンが搭載され、若しくは、外付けされており、かつ、一対のスピーカが搭載され、若しくは、外付けされているものである。例えば、スマートフォンやタブレット端末などの集音機器を利用している集音・放音装置であれば、一対のマイクロホンが搭載され、一対のスピーカが外付けされて構成される。また例えば、スピーカ一体型のオーディオ機器が該当する集音・放音装置であれば、一対のマイクロホンも一対のスピーカも搭載されて構成される。以上のように、一対のマイクロホン及び一対のスピーカの接続形態は多様であるが、いずれの接続形態を適用したものであっても良い。

以下では、第１の実施形態の集音・放音装置が、上述した図１１に示すように、一対のマイクロホンが搭載され、一対のスピーカが外付けされて構成されているとして説明を行う。また、第１の実施形態の集音・放音装置における各構成要素の符号も、図１１に記述されている構成要素に関しては、図１１で用いている符号をそのまま用いる。

図１は、第１の実施形態の集音・放音装置１０の構成を示すブロック図である。

第１の実施形態の集音・放音装置１０は、ハードウェア的な各種構成要素を接続して構築されたものであっても良く、また、一部の構成要素（例えば、スピーカ、マイクロホン、アナログ／デジタル変換部（Ａ／Ｄ変換部）、デジタル／アナログ変換部（Ｄ／Ａ変換部）を除く部分）を、ＣＰＵ、ＲＯＭ、ＲＡＭなどのプログラムの実行構成を適用してその機能を実現するように構築されたものであっても良い。いずれの構築方法を適用した場合であっても、集音・放音装置１０の機能的な詳細構成は、図１で表す構成となっている。なお、プログラムを適用する場合において、プログラムは、集音・放音装置１０が有するメモリに装置出荷時から書き込まれているものであっても良く、また、ダウンロードによりインストールされるものであっても良い。例えば、後者の場合としては、スマートフォン用のアプリケーションとしてプログラムを用意しておき、必要とする利用者が、インターネットを介してダウンロードしてインストールする場合を挙げることができる。

図１において、第１の実施形態の集音・放音装置１０は、放音部２０及び集音部３０を有する。

放音部２０は、既存の放音部と同様な構成を有する。放音部２０は、Ｌチャンネル及びＲチャンネルの音源データ記憶部２１Ｌ及び２１Ｒ、Ｄ／Ａ変換部２２Ｌ及び２２Ｒ、並びに、スピーカ３Ｌ及び３Ｒを有する。

一方、集音部３０は、Ｌチャンネル及びＲチャンネルのマイクロホン４Ｌ及び４Ｒ、並びに、Ａ／Ｄ変換部３１Ｌ及び３１Ｒと、放音非目的音キャンセラ処理部３２と、図２に詳細構成を示す妨害音抑圧部３３とを有する。ここで、後述する音源データの入力端子を有する集音部３０の全体が音源分離ユニットとして構築されて、市販に供するものであっても良い。また、Ａ／Ｄ変換部３１Ｌ、３１Ｒ、放音非目的音キャンセラ処理部３２及び妨害音抑圧部３３でなる部分が、後述する音源データの入力端子を有して、音源分離ユニットとして構築され、市販に供するものであっても良い。すなわち、集音・放音装置１０は、特に、集音部３０は、音源分離ユニットを用いて構築されたものであっても良い。

音源データ記憶部２１Ｌ及び２１Ｒはそれぞれ、Ｌチャンネル、Ｒチャンネル用の音源データ（デジタル信号）ｓｉｇＬ、ｓｉｇＲを記憶し、図示しない放音制御部の制御下で音源データｓｉｇＬ、ｓｉｇＲを読み出して出力するものである。音源データｓｉｇＬ、ｓｉｇＲは、例えば、楽曲データであっても良く、電子書籍その他の読み上げ用などの音声データであっても良い。各音源データ記憶部２１Ｌ、２１Ｒは、ＣＤ−ＲＯＭなどの記録媒体が装填された記録媒体アクセス装置であっても良く、インターネット上のサイトなどの外部装置から通信によって取得した音源データを記憶する当該装置の記憶部によって構成されたものであっても良い。また、各音源データ記憶部２１Ｌ、２１Ｒは、例えば、ＵＳＢコネクタ接続で接続される外付けの装置が該当するものであっても良い。さらに、各音源データ記憶部２１Ｌ、２１Ｒは「記憶部」とネーミングしているが、各音源データ記憶部２１Ｌ、２１Ｒの概念には、デジタル音声放送の受信機のような、受信した音源データをリアルタイムに出力する構成をも含むものとする。

Ｄ／Ａ変換部２２Ｌ及び２２Ｒはそれぞれ、対応する音源データ記憶部２１Ｌ、２１Ｒから出力された音源データｓｉｇＬ、ｓｉｇＲをアナログ信号に変換して対応するスピーカ３Ｌ、３Ｒに与えるものである。

スピーカ３Ｌ及び３Ｒはそれぞれ、対応するＤ／Ａ変換部２２Ｌ、２２Ｒから与えられた音源信号を放音出力（発音出力）するものである。ここで、スピーカ３Ｌ及び３Ｒから放音出力された音（音楽、音声など）は、マイクロホン４Ｒ、４Ｌに捕捉されることを意図したものではなく、マイクロホン４Ｒ、４Ｌの捕捉機能から見たとき、非目的音（妨害音）になっている。

以上では、スピーカ３Ｌ、３Ｒから放音される音楽、音声の当初の信号形式がデジタル信号（音源データ）であるものを示したが、音源データ記憶部２１Ｌ、２１Ｒに相当する構成が、レコードプレイヤ、オーディオカセットテープレコーダ、ＡＭやＦＭのラジオ受信機などであって、アナログ信号でなる音響信号や音声信号を出力するものであっても良い。この場合には、Ｄ／Ａ変換部２２Ｌ及び２２Ｒは省略され、別途、Ｌチャンネル、Ｒチャンネル用のＡ／Ｄ変換部を設けて、アナログ信号の音響信号や音声信号をデジタル信号に変換して放音非目的音キャンセラ処理部３２に与えることになる。

マイクロホン４Ｒ及び４Ｌはそれぞれ、周囲音を捕捉して電気信号（アナログ信号）に変換するものである。一対のマイクロホン４Ｒ及び４Ｌにより、ステレオ信号が得られる。各マイクロホン４Ｒ、４Ｌは、当該集音・放音装置１０の正面から到来する音を主として捕捉するような指向性を有するものであるが、両脇に配置されているスピーカ３Ｌ、３Ｒから放音された音をも捕捉してしまう。なお、スピーカ３Ｌ、３Ｒは、一対のマイクロホン４Ｒ及び４Ｌの両脇に配置されることが好ましいが、この配置に限定されるものではない。

各マイクロホン４Ｒ、４Ｌは、例えば、当該集音・放音装置１０の筐体に設けられた筒体内に取り付けられる。ここで、筒体の内面には合成樹脂でなる遮音部材が設けられ、マイクロホン４Ｒ、４Ｌが取り付けられたときに、筐体の内外を音が通過する経路ができないようになされている。これにより、筐体内部で発生した雑音や、外部から筐体内部に入り込んで反射により筐体外部に出ていこうとする雑音などを、マイクロホン４Ｒ、４Ｌが捕捉するようなことを極力防止することができる。

Ａ／Ｄ変換部３１Ｌ及び３１Ｒはそれぞれ、対応するマイクロホン４Ｒ、４Ｌが捕捉した入力音信号をデジタル信号ｉｎｐｕｔＬ、ｉｎｐｕｔＲに変換して放音非目的音キャンセラ処理部３２に与えるものである。各Ａ／Ｄ変換部３１Ｌ、３１Ｒは、例えば、音源データｓｉｇＬ、ｓｉｇＲのサンプリングレートと同じサンプリングレートのデジタル信号に変換する。

放音非目的音キャンセラ処理部３２には、音源データ記憶部２１Ｌ及び２１Ｒから出力された音源データｓｉｇＬ及びｓｉｇＲも与えられる。ここで、放音非目的音キャンセラ処理部３２に入力される４つのデジタル信号のサンプリングレートが揃っていることを要する。例えば、インターネットのサイトからダウンロードし、音源データ記憶部２１Ｌ及び２１Ｒに記憶された音源データｓｉｇＬ、ｓｉｇＲのサンプリングレートが、Ａ／Ｄ変換部３１Ｌ、３１Ｒからのデジタル信号ｉｎｐｕｔＬ、ｉｎｐｕｔＲのサンプリングレートと異なる場合には、Ｄ／Ａ変換部２２Ｌ、２２Ｒへはダウンロードした音源データｓｉｇＬ、ｓｉｇＲをそのまま与え、放音非目的音キャンセラ処理部３２へは音源データｓｉｇＬ、ｓｉｇＲのサンプリングレートを変換した音源データを与えるようにすれば良い。

放音非目的音キャンセラ処理部３２は、音源データ記憶部２１Ｌ及び２１Ｒから出力された音源データｓｉｇＬ及びｓｉｇＲに基づき、入力音信号（デジタル信号）ｉｎｐｕｔＬ、ｉｎｐｕｔＲに含まれている、スピーカ３Ｌ、３Ｒから放音されることによる非目的音成分（以下、適宜、放音非目的音と呼ぶ）を除去（若しくは軽減）し、除去処理後の入力音信号ＥＣｏｕｔＬ、ＥＣｏｕｔＲを妨害音抑圧部３３に与えるものである。

ここで、スピーカ３Ｌ、３Ｒから放音され、マイクロホン４Ｒ、４Ｌによって捕捉される、目的音から見て不要な音（放音非目的音）は、電話通信において問題となっている音響エコーと同様にみなすことができる。そこで、第１の実施形態においては、放音非目的音キャンセラ処理部３２を、音響エコーキャンセラの技術を流用して構成している。例えば、非特許文献１には「ステレオエコーキャンセラ」が記載されている。第１の実施形態では、放音非目的音キャンセラ処理部３２として、非特許文献１の図３．７１若しくは図３．７５の記載のものを適用しているとする。なお、非特許文献１の図３．７３には、Ｌチャンネルのスピーカからの音をＬチャンネルのマイクロホンで捕捉した成分を除去するモノラルエコーキャンセラと、Ｒチャンネルのスピーカからの音をＬチャンネルのマイクロホンで捕捉した成分を除去するモノラルエコーキャンセラとを縦続接続して除去処理後の入力音信号ＥＣｏｕｔＬを得ると共に、Ｌチャンネルのスピーカからの音をＲチャンネルのマイクロホンで捕捉した成分を除去するモノラルエコーキャンセラと、Ｒチャンネルのスピーカからの音をＲチャンネルのマイクロホンで捕捉した成分を除去するモノラルエコーキャンセラとを縦続接続して除去処理後の入力音信号ＥＣｏｕｔＲを得る構成が記載されているが、この構成もステレオエコーキャンセラの範疇に属し、第１の実施形態に適用することができる。

妨害音抑圧部３３は、図２に示す詳細構成を有し、放音非目的音が除去された入力音信号ＥＣｏｕｔＬ、ＥＣｏｕｔＲに基づき、所定方位（例えば、正面）にある音源からの目的音だけを抽出し、言い換えると、目的音以外の非目的音成分を妨害音成分として抑圧するものである。

妨害音抑圧方法（音源分離方法）としては、音源の方向によって特性が変化するコヒーレンス係数を適用したコヒーレンスフィルタ法であり、妨害音抑圧部３３として、コヒーレンスフィルタ法に従った構成を適用することが考えられる（特願２０１３−１９９９８１号明細書及び図面参照）。しかし、スピーカ３Ｌ、３Ｒから放音される非目的音に、例えばドラム音のような衝撃音が含まれている場合、コヒーレンスフィルタ法に従った構成では、衝撃音発生時のコヒーレンス値が目的音成分と同等以上の大きな値となるため、妨害音成分を十分に抑圧できなくなる。また、コヒーレンスフィルタの不足を補うために他の特徴量で補正する場合等には、設計者や使用者がその特徴量を適切に設定しなければ、やはり抑圧量が不足したり、あるいは、過剰に抑圧したりすることによって音質が劣化する場合がある。

そこで、この第１の実施形態では、コヒーレンスフィルタ法と同等以上の性能を有しつつ、設計者や使用者がパラメータを設定することなく抑圧係数を算出して妨害音成分を抑圧できるように、図２に示す詳細構成を有する妨害音抑圧部３３を適用することとした。

図２において、妨害音抑圧部３３は、ＦＦＴ（高速フーリエ変換）部４１、コヒーレンス係数計算部４２、ｍｏｄＧＩ・抑圧係数計算部４３、抑圧処理部４４及びＩＦＦＴ（逆高速フーリエ変換）部４５を有する。

ＦＦＴ部４１は、時間領域の信号である、放音非目的音が除去された入力音信号ＥＣｏｕｔＬ（ｎ）、ＥＣｏｕｔＲ（ｎ）をそれぞれ、周波数領域の信号ＹＬ（ｆ，Ｋ）、ＹＲ（ｆ，Ｋ）に変換し、コヒーレンス係数計算部４２に与えるものである。なお、上記での「ｎ」は時刻を表すパラメータであり、「ｆ」は周波数を表すパラメータである。

今、入力音信号ＥＣｏｕｔＬ（ｎ）を入力信号ｓ１（ｎ）で表すこととする。入力信号ｓ１（ｎ）から、所定のＮ個のサンプルからなる分析フレームＦＲＡＭＥ１（Ｋ）を構成して適用する。入力信号ｓ１（ｎ）から分析フレームＦＲＡＭＥ１（Ｋ）を構成する例を（１）式に示す。なお、Ｋはフレームの順番を表すインデックスであり、正の整数で表現される。本文中では、Ｋが小さいほど古い分析フレームであり、大きいほど新しい分析フレームであるとする。また、以降の説明において、特に但し書きがない限りは、分析対象となる最新の分析フレームを表すインデックスはＫであるとする。フレームの順番が特に問題とならない場合にはＫを省略して表現していることもある（後述する（３）式〜（５）式参照）。

ＦＦＴ部４１は、分析フレームごとに高速フーリエ変換処理を施すことで、入力信号ｓ１（ｎ）を周波数領域信号ＹＬ（ｆ，Ｋ）に変換する。ここで、ＹＬ（ｆ，Ｋ）は単一の値ではなく、（２）式に示すように、複数の周波数ｆ１〜ｆｍのスペクトル成分から構成されるものである。
ＹＬ（ｆ，Ｋ）
＝｛（ｆ１，Ｋ），（ｆ２，Ｋ），…，（ｆｍ，Ｋ）｝ …（２）

ＦＦＴ部４１は、入力音信号ＥＣｏｕｔＲ（ｎ）に対しても同様な処理を行い、周波数領域信号ＹＲ（ｆ，Ｋ）を得る。

コヒーレンス係数計算部４２は、放音非目的音が除去された入力音信号ＥＣｏｕｔＬ（ｎ）、ＥＣｏｕｔＲ（ｎ）から得られた周波数領域信号ＹＬ（ｆ，Ｋ）及びＹＲ（ｆ，Ｋ）に基づいて、（５）式に従って、コヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）を計算するものである。なお、（５）式におけるＢ１（ｆ）及びＢ２（ｆ）はそれぞれ、（３）式、（４）式に従って算出される値である。

第１の実施形態の妨害音抑圧部３３では、コヒーレンスＣＯＨ（Ｋ）を利用することはないが、後述する説明でコヒーレンスＣＯＨ（Ｋ）に言及するので、（６）式としてコヒーレンスＣＯＨ（Ｋ）の算出式を記載しておく。コヒーレンスＣＯＨ（Ｋ）は、全ての周波数ｆ１〜ｆｍのコヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）の平均値である。

ｍｏｄＧＩ・抑圧係数計算部４３は、コヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）についてのｍｏｄＧＩ（ｆ，Ｋ）を計算した後、得られたｍｏｄＧＩ（ｆ，Ｋ）に基づいて抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）を計算して抑圧処理部４４に与えるものである。

今、コヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）をｓ（Ｋ）で表すと、ｍｏｄＧＩ（ｆ，Ｋ）の計算式は（７）式で表される。ｍｏｄＧＩ（ｆ，Ｋ）から抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）を計算する計算式は（８）式で表される。

ここで、ｍｏｄＧＩ値について簡単に説明する（詳細については、特許文献２参照）。ｍｏｄＧＩは、修正されたグラディエント・インデックス（ＧｒａｄｉｅｎｔＩｎｄｅｘ：以下、ＧＩと呼ぶ）を意味している。

修正される前のＧＩについては、参照文献「ＮａｏｆｕｍｉＡｏｋｉ，”ＡＢａｎｄＥｘｔｅｎｓｉｏｎＴｅｃｈｎｉｑｕｅｆｏｒＮａｒｒｏｗ−ＢａｎｄＴｅｌｅｐｈｏｎｙＳｐｅｅｃｈＢａｓｅｄｏｎＦｕｌｌＷａｖｅＲｅｃｔｉｆｉｃａｔｉｏｎ”，ＩＥＩＣＥＴｒａｎｓ．Ｃｏｍｍｕｎ．，Ｖｏｌ．Ｅ９３−Ｂ（３），ｐｐ．７２９−７３１，２０１０」に記載されている。ＧＩは、信号波形の傾き方向が変化する回数とその大きさを測る指標である。ＧＩは、傾き方向が変化したときの、相前後するサンプルの差分絶対値の総和を、そのフレームのパワーの平方根で除算したものとして求められる。従って、ＧＩは、１フレーム内の傾きの変化回数が多いほど大きくなり易く、また、傾きが変化したときの変化量が大きいほど大きくなり易いものである。

しかしながら、ＧＩは、変数ΔΨ（ｎ）という０又は２の２値しかとらない、時系列的に値の大きな飛び跳ねが多発するパラメータを算出要素としているため、値が不規則に大きくなったり小さくなったりするという特徴（「値が暴れる」）がある。

ｍｏｄＧＩは、ＧＩの値が暴れる（値の大きな飛び跳ねを有する）という性質を有することに鑑み、ＧＩに代えて、ＧＩと高い相関を持ちながら、値の大きな飛び跳ねを抑制した変化が安定した新しい特徴量として提案されたものである。ｍｏｄＧＩは、特徴量算出対象の任意の信号（本願ではコヒーレンス係数）に関し、その「算出対象信号のパワー」で正規化された、その「算出対象信号の２階差分のパワー」（これを定数倍したものも含まれる）として定義される。

ｍｏｄＧＩは、ＧＩと高い相関を持つので、信号波形の傾き方向が変化する回数とその大きさを測る安定した指標として機能する。

以下、妨害音成分の抑圧（言い換えると、音源分離）に、コヒーレンス係数についてのｍｏｄＧＩ値を適用することとした理由を説明する。以下では、周波数毎のコヒーレンス係数ではなく、全周波数のコヒーレンス係数の平均値であるコヒーレンスを用いて説明するが、コヒーレンスはコヒーレンス係数の代表値であるので、コヒーレンス係数もコヒーレンスと同様な変化傾向を有し、以下の説明はほぼ同様に成り立つ。

放音非目的音キャンセラ処理部３２の出力信号（ＥＣｏｕｔＬ又はＥＣｏｕｔＲ）からコヒーレンス（（３）式〜（６）式参照）を計算し、目的音と妨害音（放音音）とが重なった区間（目的音区間）と妨害音が単独で存在する区間（非目的音区間）でコヒーレンスの特性を比較すると、次のような差異がある。なお、図３は、コヒーレンスの演算に供する前の原信号（ＥＣｏｕｔＬ又はＥＣｏｕｔＲ）と、演算によって得られたコヒーレンスの時間変化を示す特性図である。

妨害音が単独で存在する非目的音区間においては、スピーカ３Ｌ、３Ｒからの放音音に衝撃音が生じた瞬間だけコヒーレンスは大きな値となる。マイクロホン４Ｌ、４Ｒで捕捉された音源音は放音非目的音キャンセラ処理部３２を介することにより、その大半が除去される。しかし、ドラム音のような広範囲の周波数成分を有し、かつ、レベルも大きい衝撃音は、放音非目的音キャンセラ処理部３２を介しても除去が不十分となる。図３におけるコヒーレンス演算前の信号中のレベルが瞬間的に大きくなっている部分が衝撃音の部分である。演算で得られたコヒーレンスは、衝撃音が生じた瞬間だけ大きな値となる。非目的音区間における衝撃音以外の区間では、放音された音源音があっても、コヒーレンスは背景雑音だけがある場合と同じくらいのレンジまで小さくなる。そのため、衝撃音が間欠的に生じる放音音が妨害音として存在する場合には、『急増→急減→背景雑音のような微細な変動』というような振る舞いを繰り返し、コヒーレンスの傾きの正負は頻繁に変動する。

これに対して、目的音及び妨害音が共に存在する目的音区間においては、衝撃音が生じた瞬間にコヒーレンスは大きくなるが、それ以外の区間でも目的音が存在するために、ほどほどの大きさが維持される。そのため、コヒーレンスの変動は妨害音単独の非目的音区間よりは小さく、傾きの正負の変動も少ない。

なお、図３から明らかなように、非目的音区間におけるダイナミックレンジと目的音区間におけるダイナミックレンジとに有意な差がないことが分かる。

以上のように、妨害音が単独で存在する非目的音区間と、目的音及び妨害音が共に存在する目的音区間とは、算出されたコヒーレンスのダイナミックレンジに差はない一方、算出されたコヒーレンスの傾き方向が変化する回数や大きさが異なるので、非目的音区間と目的音区間とを弁別する指標として、上述したｍｏｄＧＩを適用可能である。

図４は、コヒーレンスに基づいて計算したｍｏｄＧＩ値の変化を示している。図４は、コヒーレンスの演算に供する前の原信号（ＥＣｏｕｔＬ又はＥＣｏｕｔＲ）も示している。

目的音区間と非目的音区間とでｍｏｄＧＩ値を比較すると、妨害音が単独で存在する非目的音区間ではｍｏｄＧＩは大きな値をとり、目的音区間ではｍｏｄＧＩは小さな値をとっていることが分かる。このようなｍｏｄＧＩ値の独特な挙動から、ｍｏｄＧＩ値が大きいときに抑圧量を小さくすると共に、ｍｏｄＧＩ値が小さいときに抑圧量を大きくするように制御すれば、妨害音成分を抑圧できることが理解できる。

以上では、コヒーレンスに対するｍｏｄＧＩ値の挙動について言及したが、周波数毎のコヒーレンス係数に対するｍｏｄＧＩ値の挙動も同様である。

第１の実施形態では、以上のような考え方に従って、上述したように、周波数毎のコヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）について得たｍｏｄＧＩ値ｍｏｄＧＩ（ｆ，Ｋ）の逆数を、抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）とすることとした。図５は、図４に示したｍｏｄＧＩ値の逆数の時間変化を示している。ｍｏｄＧＩ値の逆数は、目的音区間では小さい値をとり、目的音を含まない非目的音区間では大きな値をとり、ｍｏｄＧＩ値の逆数を用いても目的音が不必要に抑圧されないことが分かる。

なお、上述した（７）式の右辺の分母、分子をそれぞれ、分子、分母とする計算式を用意しておき、コヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）に基づいた１回の演算により、抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）が得られるようにしても良い。ｍｏｄＧＩ・抑圧係数計算部４３は、例えば、ｍｏｄＧＩ（ｆ，Ｋ）を計算する既存の演算部や演算プログラムを利用することを想定しているため、ｍｏｄＧＩ（ｆ，Ｋ）を一旦得た後に、抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）を得ることとしている。

抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）が与えられる抑圧処理部４４には、また、ＦＦＴ部４１から出力された周波数領域信号ＹＬ（ｆ，Ｋ）及びＹＲ（ｆ，Ｋ）の一方、若しくは、平均値信号が入力される。図２では、抑圧処理部４４に周波数領域信号ＹＬ（ｆ，Ｋ）が入力される場合を示している。抑圧処理部４４は、（９）式に示すように、周波数毎に、周波数領域信号ＹＬ（ｆ，Ｋ）に抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）を乗算することにより、妨害音成分が抑圧された信号ＮＲｏｕｔ（ｆ，Ｋ）を得てＩＦＦＴ部４５に与えるものである。
ＮＲｏｕｔ（ｆ，Ｋ）＝ＹＬ（ｆ，Ｋ）×ＮＲｃｏｅｆ（ｆ，Ｋ）…（９）

ＩＦＦＴ部４５は、周波数領域信号である妨害音抑圧信号ＮＲｏｕｔ（ｆ，Ｋ）を時間領域信号ｏｕｔ（ｎ）に変換するものである。後段回路が、周波数領域信号ＮＲｏｕｔ（ｆ，Ｋ）をそのまま処理できる構成であれば、ＩＦＦＴ部４５を省略することができる。

（Ａ−２）第１の実施形態の動作
次に、第１の実施形態の集音・放音装置１０の動作を説明する。以下では、音源データが楽曲データであり、目的音が、集音・放音装置１０の正面に位置する利用者が発音した音声であるとして、適宜、説明する。

各音源データ記憶部２１Ｌ、２１Ｒから読み出された音源データ（楽曲データ）はそれぞれ、対応するＤ／Ａ変換部２２Ｌ、２２Ｒによってアナログ信号に変換された後、各スピーカ３Ｌ、３Ｒから放音される。このような音楽が当該集音・放音装置１０から流れているときに、利用者が当該集音・放音装置１０に向かって発音した音声は、両マイクロホン４Ｌ及び４Ｒによって捕捉される。この際、スピーカ３Ｌ、３Ｒからの音楽も流れているため、スピーカ３Ｌからの音楽も両マイクロホン４Ｌ及び４Ｒによって捕捉され、スピーカ３Ｒからの音楽も両マイクロホン４Ｌ及び４Ｒによって捕捉される。さらに、周囲の背景雑音（エアコンの駆動音、近くを走行する車両からの走行音など）も、両マイクロホン４Ｌ及び４Ｒによって捕捉される。

すなわち、各マイクロホン４Ｌ、４Ｒが捕捉して得た入力音信号には、利用者の音声という目的音以外に、背景雑音や自装置が放音した音楽という放音非目的音などの妨害音が含まれている。

各マイクロホン４Ｌ、４Ｒが捕捉して得た入力音信号はそれぞれ、対応するＡ／Ｄ変換部３１Ｌ、３１Ｒによってデジタル信号ｉｎｐｕｔＬ、ｉｎｐｕｔＲに変換されて放音非目的音キャンセラ処理部３２に与えられる。放音非目的音キャンセラ処理部３２には、音源データｓｉｇＬ及びｓｉｇＲも与えられる。

放音非目的音キャンセラ処理部３２においては、Ｌチャンネルに係る入力音信号（デジタル信号）ｉｎｐｕｔＬから、内部で生成した疑似放音目的音信号を減算することにより、放音非目的音が除去された入力音信号ＥＣｏｕｔＬが得られ、同様に、Ｒチャンネルに係る入力音信号（デジタル信号）ｉｎｐｕｔＲから、内部で生成した疑似放音目的音信号を減算することにより、放音非目的音が除去された入力音信号ＥＣｏｕｔＲが得られる。このようにして得られた放音非目的音が除去された一対の信号ＥＣｏｕｔＬ、ＥＣｏｕｔＲが妨害音抑圧部３３に与えられる。放音非目的音が除去された一対の信号ＥＣｏｕｔＬ及びＥＣｏｕｔＲが与えられる妨害音抑圧部３３の内部では、以下のように動作する。

ＦＦＴ部４１において、放音非目的音が除去された時間領域信号である信号ＥＣｏｕｔＬ（ｎ）、ＥＣｏｕｔＲ（ｎ）はそれぞれ、周波数領域信号ＹＬ（ｆ，Ｋ）、ＹＲ（ｆ，Ｋ）に変換され、コヒーレンス係数計算部４２に与られえる。また、ＦＦＴ部４１から出力された一方の周波数領域信号ＹＬ（ｆ，Ｋ）が抑圧処理部４４に与えられる。

コヒーレンス係数計算部４２においては、ＦＦＴ部４１からの周波数領域信号ＹＬ（ｆ，Ｋ）及びＹＲ（ｆ，Ｋ）に基づいて、上述した（３）式〜（５）式に従って、コヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）が計算され、得られたコヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）がｍｏｄＧＩ・抑圧係数計算部４３に与えられる。

ｍｏｄＧＩ・抑圧係数計算部４３においては、まず、上述した（７）式に従ってコヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）についてのｍｏｄＧＩ（ｆ，Ｋ）が計算された後、得られたｍｏｄＧＩ（ｆ，Ｋ）に基づいて上述した（８）式に従って抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）が計算されて抑圧処理部４４に与えられる。抑圧処理部４４において、上述した（９）式に従って、周波数毎に、周波数領域信号ＹＬ（ｆ，Ｋ）に抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）が乗算され、妨害音成分が抑圧された信号ＮＲｏｕｔ（ｆ，Ｋ）が得されてＩＦＦＴ部４５に与えられる。

そして、ＩＦＦＴ部４５において、周波数領域信号である妨害音抑圧信号ＮＲｏｕｔ（ｆ，Ｋ）が時間領域信号ｏｕｔ（ｎ）に変換され、当該集音・放音装置１０からの出力信号として送出される。

（Ａ−３）第１の実施形態の効果
第１の実施形態によれば、信号波形の傾き方向が変化する回数とその大きさを測る安定した指標であるｍｏｄＧＩを利用し、設計者や使用者がパラメータを設定することなく、目的音を含む入力信号の区間では小さく、目的音を含まない入力信号の区間では大きくなる抑圧係数を形成して妨害音成分を抑圧するようにしたので、放音音における衝撃音のような、放音非目的音に対する除去後信号に妨害音成分が残るような状況においても、設計者や使用者に負担を掛けることなく、意図した音源からの目的音を良好なＳＮ比をもって得ることができるようになる。

妨害音成分をより適切に抑圧できるので、第１の実施形態の集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムを適用した装置の特質等を向上させることに寄与できる。例えば、通話装置における通話音質の向上や音声認識システムにおける認識性能の向上などが期待できる。

（Ｂ）第２の実施形態
次に、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第２の実施形態を、図面を参照しながら説明する。

第２の実施形態の集音・放音装置（符号「１０Ａ」を用いる）の全体構成も、第１の実施形態の説明で用いた図１で表すことができる。

しかし、第２の実施形態の集音・放音装置１０Ａは、妨害音抑圧部（符号「３３Ａ」を用いる）の内部構成が第１の実施形態の集音・放音装置１０と異なっている。第２の実施形態の妨害音抑圧部３３Ａにおいても、信号波形の傾き方向が変化する回数とその大きさを測る安定した指標であるｍｏｄＧＩを利用して、抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）を形成するものであるが、抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）の変化を円滑化させるために平滑化処理を導入したものである。これにより、妨害音特性の瞬間的な変動に由来する抑圧係数の急変動を緩和し、妨害音抑圧後音声信号の音質を高められるようになる。

図６は、第２の実施形態における妨害音抑圧部３３Ａの詳細構成を示すブロック図であり、第１の実施形態に係る図２との同一、対応部分には同一符号を付して示している。

図６において、第２の実施形態の妨害音抑圧部３３Ａは、ＦＦＴ部４１、コヒーレンス係数計算部４２、ｍｏｄＧＩ計算部５１、平滑化部５２、抑圧係数計算部５３、遅延部５４、抑圧処理部４４及びＩＦＦＴ部４５を有する。

ＦＦＴ部４１、コヒーレンス係数計算部４２、抑圧処理部４４及びＩＦＦＴ部４５の機能は、第１の実施形態のものと同様であるので、その説明は省略する。

ｍｏｄＧＩ計算部５１には、コヒーレンス係数計算部４２からコヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）が与えられる。コヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）は、上述した（７）式に従ってコヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）についてのｍｏｄＧＩ（ｆ，Ｋ）を計算し、得られたｍｏｄＧＩ（ｆ，Ｋ）を平滑化部５２に与えるものである。平滑化部５２は、与えられたコヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）を平滑化し、平滑化コヒーレンス係数ＡＶＥｃｏｅｆ（ｆ，Ｋ）を抑圧係数計算部５３に与えるものである。平滑化方法は既存の方法を適用できる。例えば、単純な算術平均を適用しても良い。また、その直前の平滑化コヒーレンス係数ＡＶＥｃｏｅｆ（ｆ，Ｋ−１）と今回のコヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）との重み付け加算を平滑化演算としても良い。

抑圧係数計算部５３は、与えられた平滑化コヒーレンス係数ＡＶＥｃｏｅｆ（ｆ，Ｋ）の逆数を算出し（上述した（８）式参照）、得られた値ＮＲｃｏｅｆ（ｆ，Ｋ）を抑圧係数として抑圧処理部４４に与えるものである。

上述した第１の実施形態でも厳密に記載すれば、ＦＦＴ部４１から出力された周波数領域信号ＹＬ（ｆ，Ｋ）は遅延部を介して遅延されて抑圧処理部４４に与えられ、抑圧処理部４４へ、周波数領域信号ＹＬ（ｆ，Ｋ）と抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）とが同期して抑圧処理部４４に入力されることを要する。

この第２の実施形態では、平滑化処理を導入したため、抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）を形成する処理系での処理遅延が大きいため、図６では、同期化のための遅延部５４を書き出している。

上述したように、第２の実施形態の妨害音抑圧部３３Ａにおいては、信号波形の傾き方向が変化する回数とその大きさを測る安定した指標であるｍｏｄＧＩを利用して抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）を形成する際に、抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）の変化を円滑化させるために平滑化処理を導入しているが、この点を除けば、第１の実施形態と同様に動作するので、動作説明は省略する。

なお、上記では、コヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）の段階で平滑化する場合を示したが、コヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）の逆数を演算した段階で平滑化を施すようにしても良い。

第２の実施形態によっても、第１の実施形態とほぼ同様な効果を奏することができる。なお、平滑化処理を導入しているため、抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）を円滑化させることができる。

（Ｃ）第３の実施形態
次に、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第３の実施形態を、図面を参照しながら説明する。

第３の実施形態の集音・放音装置（符号「１０Ｂ」を用いる）の全体構成も、第１の実施形態の説明で用いた図１で表すことができる。

しかし、第３の実施形態の集音・放音装置１０Ｂは、妨害音抑圧部（符号「３３Ｂ」を用いる）の内部構成が第１の実施形態の集音・放音装置１０と異なっている。第３の実施形態の妨害音抑圧部３３Ｂは、第３の実施形態の集音・放音装置１０Ｂからの出力信号をステレオ信号としようとしたものである。

図７は、第３の実施形態における妨害音抑圧部３３Ｂの詳細構成を示すブロック図であり、第１の実施形態に係る図２との同一、対応部分には同一、対応符号を付して示している。

図７において、第３の実施形態の妨害音抑圧部３３Ｂは、ＦＦＴ部４１、コヒーレンス係数計算部４２、ｍｏｄＧＩ・抑圧係数計算部４３、一対の抑圧処理部４４Ｌ、４４Ｒ、及び、ＩＦＦＴ部４５Ｂを有する。

ＦＦＴ部４１、コヒーレンス係数計算部４２及びｍｏｄＧＩ・抑圧係数計算部４３の機能は、第１の実施形態のものと同様であるので、その説明は省略する。但し、ｍｏｄＧＩ・抑圧係数計算部４３から出力された抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）が、抑圧処理部４４Ｌ及び４４Ｒに与えられる点は、第１の実施形態と異なっている。

抑圧処理部４４Ｌには、ＦＦＴ部４１から出力されたＬチャンネルの周波数領域信号ＹＬ（ｆ，Ｋ）が与えられ、一方、抑圧処理部４４Ｒには、ＦＦＴ部４１から出力されたＲチャンネルの周波数領域信号ＹＲ（ｆ，Ｋ）が与えられる。抑圧処理部４４Ｌは、Ｌチャンネルの周波数領域信号ＹＬ（ｆ，Ｋ）に抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）を乗算し、妨害音成分が抑圧されたＬチャンネルの信号ＮＲＬｏｕｔ（ｆ，Ｋ）を得てＩＦＦＴ部４５Ｂに与える。一方、抑圧処理部４４Ｒは、Ｒチャンネルの周波数領域信号ＹＲ（ｆ，Ｋ）に抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）を乗算し、妨害音成分が抑圧されたＲチャンネルの信号ＮＲＲｏｕｔ（ｆ，Ｋ）を得てＩＦＦＴ部４５Ｂに与える。

ＩＦＦＴ部４５Ｂは、周波数領域信号であるステレオの妨害音抑圧信号ＮＲＬｏｕｔ（ｆ，Ｋ）及びＮＲＲｏｕｔ（ｆ，Ｋ）をそれぞれ、時間領域信号Ｌｏｕｔ（ｎ）、Ｒｏｕｔ（ｎ）に変換して、後段回路に送出するものである。

第３の実施形態の妨害音抑圧部３３Ｂにおいては、ステレオ信号で出力するように動作する点が第１の実施形態と異なっているが、その他の動作は、第１の実施形態と同様であるので、その説明は省略する。

第３の実施形態によれば、ステレオ信号で出力可能であり、この点を除けば、第１の実施形態とほぼ同様な効果を奏する。

（Ｄ）第４の実施形態
次に、本発明による集音・放音装置、妨害音抑圧装置及び妨害音抑圧プログラムの第４の実施形態を、図面を参照しながら説明する。

第４の実施形態の集音・放音装置（符号「１０Ｃ」を用いる）の全体構成も、第１の実施形態の説明で用いた図１で表すことができる。

しかし、第４の実施形態の集音・放音装置１０Ｃは、妨害音抑圧部（符号「３３Ｃ」を用いる）の内部構成が第１の実施形態の集音・放音装置１０と異なっている。第４の実施形態の妨害音抑圧部３３Ｃは、妨害音成分の抑圧動作を、非目的音区間だけ実行しようとしたものである。

図８は、第４の実施形態における妨害音抑圧部３３Ｃの詳細構成を示すブロック図であり、第１の実施形態に係る図２との同一、対応部分には同一、対応符号を付して示している。

図８において、第４の実施形態の妨害音抑圧部３３Ｃは、ＦＦＴ部４１、コヒーレンス係数計算部４２、ｍｏｄＧＩ・抑圧係数計算部４３、区間判定部６０、抑圧処理部４４Ｃ及びＩＦＦＴ部４５を有する。

ＦＦＴ部４１、コヒーレンス係数計算部４２、ｍｏｄＧＩ・抑圧係数計算部４３及びＩＦＦＴ部４５の機能は、第１の実施形態のものと同様であるので、その説明は省略する。

区間判定部６０は、今、妨害音抑圧部３３Ｃで処理している信号が、妨害音成分と目的音成分とを共に含む目的音区間の信号か、妨害音成分だけを含む（言い換えると、目的音成分を含まない）非目的音区間の信号かを判定し、その判定結果Ｖ（Ｋ）を抑圧処理部４４Ｃに与えるものである。

抑圧処理部４４Ｃは、判定結果Ｖ（Ｋ）が非目的音区間の信号であることを表している場合に、周波数領域信号ＹＬ（ｆ，Ｋ）に抑圧係数ＮＲｃｏｅｆ（ｆ，Ｋ）を乗算する妨害音成分の抑圧処理を実行し、一方、判定結果Ｖ（Ｋ）が目的音区間の信号であることを表している場合には与えられた周波数領域信号ＹＬ（ｆ，Ｋ）をそのまま出力する（言い換えると、抑圧処理を実行しない）。

ここで、目的音区間か非目的音区間かの判定方法は限定されるものではないが、図９には、区間判定部６０の詳細構成の一例（ある判定方法を適用した例）を示している。

図９において、区間判定部６０は、コヒーレンス計算部６１、コヒーレンスｍｏｄＧＩ計算部６２及び閾値比較部６３を有する。なお、図９の構成例の場合、コヒーレンス係数計算部４２も、区間判定部６０の構成要素と見ることができる。

コヒーレンス計算部６１は、周波数毎のコヒーレンス係数ｃｏｅｆ（ｆ，Ｋ）の周波数についての平均値であるコヒーレンスＣＯＨ（Ｋ）を計算してコヒーレンスｍｏｄＧＩ計算部６２に与えるものである。コヒーレンスＣＯＨ（Ｋ）の算出式は、上述した（６）式である。

コヒーレンスｍｏｄＧＩ計算部６２は、コヒーレンスＣＯＨ（Ｋ）についてのｍｏｄＧＩ値ＣＯＨｍｏｄＧＩ（Ｋ）を算出して閾値比較部６３に与えるものである。

閾値比較部６３は、コヒーレンスＣＯＨ（Ｋ）についてのｍｏｄＧＩ値ＣＯＨｍｏｄＧＩ（Ｋ）を閾値Ψと比較し、ｍｏｄＧＩ値ＣＯＨｍｏｄＧＩ（Ｋ）が閾値Ψより小さいときに、判定結果Ｖ（Ｋ）を目的音区間（の信号）を表す値にし、ｍｏｄＧＩ値ＣＯＨｍｏｄＧＩ（Ｋ）が閾値Ψ以上のときに、判定結果Ｖ（Ｋ）を非目的音区間（の信号）を表す値にし、得られた判定結果Ｖ（Ｋ）を抑圧処理部４４Ｃに与えるものである。

上述した図４に示したように、コヒーレンスＣＯＨ（Ｋ）についてのｍｏｄＧＩ値ＣＯＨｍｏｄＧＩ（Ｋ）は、目的音区間では小さい値をとるのに対して、非目的音区間では大きい値をとる。従って、目的音区間と非目的音区間とを弁別できるように閾値Ψを選定することにより、目的音区間と非目的音区間とを切り分けることができる。ここで、閾値Ψは固定値であっても良く、また、ダイナミックに変動するものであっても良い。後者の例を挙げれば、直前所定期間内のコヒーレンスＣＯＨ（Ｋ−１）〜コヒーレンスＣＯＨ（Ｋ−Ｍ）についてのｍｏｄＧＩ値ＣＯＨｍｏｄＧＩ（Ｋ−１）〜ＣＯＨｍｏｄＧＩ（Ｋ−Ｍ）の中の最大値や平均値のα倍（αは０より大きく１より小さい値）を閾値Ψ（Ｋ）とする例を挙げることができる。

図示は省略するが、コヒーレンスの長期平均値を閾値と比較する方法を、目的音区間か非目的音区間かの他の判定方法として挙げることができる。

第４の実施形態によっても、第１の実施形態とほぼ同様な効果を奏することができる。さらに、第４の実施形態によれば、目的音成分が誤って抑圧されることを防止することができる。

（Ｅ）他の実施形態
上記各実施形態の説明においても、種々変形実施形態に言及したが、さらに、以下に例示するような変形実施形態を挙げることができる。

上記各実施形態の説明では、ｍｏｄＧＩを、特許文献２の（１３）式と同じである（７）式で計算するものを示したが、特許文献２に記載されている他の計算式に従ってｍｏｄＧＩを計算するようにしても良い。また、修正される前のＧＩも、信号波形の傾き方向が変化する回数とその大きさを測る指標であるので、上記各実施形態におけるｍｏｄＧＩに代えてＧＩを適用するようにしても良い。上記各実施形態では、ｍｏｄＧＩの逆数やｍｏｄＧＩの平滑値の逆数を抑圧係数とする場合を示したが、抑圧係数の決定方法はこれに限定されない。要は、ｍｏｄＧＩやｍｏｄＧＩの平滑値の大小関係と大小関係が逆転するように抑圧係数を決定できる方法であれば良い。例えば、ｍｏｄＧＩの逆数を所定倍したものを抑圧係数としたり、ｍｏｄＧＩの逆数を所定関数（例えば対数）に入力して得た値を抑圧係数としたり、所定値からｍｏｄＧＩを減算した値やその所定倍を抑圧係数としたりするようにしても良い。ここで、抑圧係数に上限や下限を設けるようにしても良い。

上記各実施形態においては、コヒーレンス係数についてのｍｏｄＧＩに基づいて抑圧係数を決定するものを示したが、特許文献１の段落「００８１」に記載されている正面に死角を有する信号を生成し、これに基づいてｍｏｄＧＩや、ｍｏｄＧＩに基づいた抑圧係数を算出するようにしても良い。

上記各実施形態では、妨害音抑圧部が、放音非目的音キャンセラ処理部からの出力信号から抑圧係数を形成するものを示したが、他の信号から抑圧係数を形成するようにしても良い。例えば、マイクロホンが捕捉し、デジタル信号に変換した入力信号ｉｎｐｕｔＬ、ｉｎｐｕｔＲも、目的音区間と非目的音区間とが混在するので、抑圧係数の形成に利用することができる。

第１の実施形態の説明で述べたように、コヒーレンス係数からｍｏｄＧＩを算出した後に逆数演算して抑圧係数を算出する方法に限定されず、ｍｏｄＧＩの算出式の分母、分子を逆にした演算式を用意しておいてコヒーレンス係数から抑圧係数を直接算出するようにしても良い。しかし、特許請求の範囲では、ｍｏｄＧＩに相当する特徴量を算出するように記載しており、ｍｏｄＧＩに相当する特徴量を算出しない後者の場合も特許請求の範囲の記載に含まれるものとする。

上記各実施形態では、スピーカが２つの場合を示したが、スピーカは１つでも３つ以上であっても良い。また、マイクロホンも２つに限定されず、３以上あっても良い。スピーカとマイクロホンとの数に応じて定まる放音音響経路の数を考慮して、放音非目的音キャンセラ処理部３２の内部構成を設計すれば良い。

上記各実施形態では、集音・放音装置単体で全ての処理を実行するものを示したが、妨害音成分の抑圧処理などを外部のサーバに委ねて実行するようにしても良い。例えば、集音・放音装置がスマートフォンの場合において、いわゆるクラウドによってシステムを構成し、利用者から外部サーバの存在が分からないように妨害音成分を抑圧しても良い。特許請求の範囲における「集音・放音装置」の請求項は、利用者からは見えない外部サーバが処理を行っている場合を含むものとする。

上記各実施形態では、一対のマイクロホンが捕捉した信号を直ちに処理する装置やプログラムを示したが、一対のマイクロホンが捕捉した信号を記録媒体に記録し、それを再生する場合にも、本発明を適用することができる。また、一対のマイクロホンの両脇にスピーカがない場合にも本発明の技術思想を適用することができる。例えば、カーオーディオを放音している状況下でカーナビにボイスコマンドを発するような場合、妨害音源が既知ならば、信号処理部の前段で放音非目的音キャンセラ処理部を有効に稼働させることができるので、本発明は有効である。

１０、１０Ａ、１０Ｂ、１０Ｃ…集音・放音装置、
２０…放音部、２１Ｌ、２１Ｒ…音源データ記憶部、２２Ｌ、２２Ｒ…Ｄ／Ａ変換部、３Ｌ、３Ｒ…スピーカ、３０、３０Ａ、３０Ｂ、３０Ｃ…集音部、４Ｌ、４Ｒ…マイクロホン、３１Ｌ、３１Ｒ…Ａ／Ｄ変換部、３２…放音非目的音キャンセラ処理部、３３、３３Ａ、３３Ｂ、３３Ｃ…妨害音抑圧部、
４１…ＦＦＴ部、４２…コヒーレンス係数計算部、４３…ｍｏｄＧＩ・抑圧係数計算部、４４、４４Ｌ、４４Ｒ、４４Ｃ…抑圧処理部、４５、４５Ｂ…ＩＦＦＴ部、５１…ｍｏｄＧＩ計算部、５２…平滑化部、５３…抑圧係数計算部、５４…遅延部、６０…区間判定部、６１…コヒーレンス計算部、６２…コヒーレンスｍｏｄＧＩ計算部、６３…閾値比較部。

Claims

少なくとも２本のマイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号であって、第１の所定方位の音源からの目的音とその他の方位から到来する非目的音とが混在した複数の入力音信号から、上記各入力音信号における周波数成分毎の相関を反映させた第１特徴量を算出する第１特徴量算出手段と、
得られた第１特徴量を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表す第２特徴量を得る第２特徴量算出手段と、
得られた第２特徴量の大小関係と逆の大小関係を有する抑圧係数を形成して、上記マイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号における妨害音成分を抑圧する抑圧手段と
を有することを特徴とする妨害音抑圧装置。
上記第１特徴量算出手段は、複数の入力音信号から、異なる所定方位に死角を有する複数の指向性信号を形成し、これら指向性信号に基づいて、周波数成分毎のコヒーレンス係数を上記第１特徴量として計算し、
上記第２特徴量算出手段は、周波数成分毎の上記コヒーレンス係数についてのｍｏｄＧＩ値を上記第２特徴量として計算し、
上記抑圧手段は、周波数成分毎の上記コヒーレンス係数についてのｍｏｄＧＩ値に基づいて周波数成分毎の抑圧係数を形成し、入力音信号における妨害音成分の抑圧を周波数成分毎に実行する
ことを特徴とする請求項１に記載の妨害音抑圧装置。
上記抑圧手段は、上記コヒーレンス係数についてのｍｏｄＧＩ値の逆数を抑圧係数として形成することを特徴とする請求項２に記載の妨害音抑圧装置。
コンピュータを、
少なくとも２本のマイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号であって、第１の所定方位の音源からの目的音とその他の方位から到来する非目的音とが混在した複数の入力音信号から、上記各入力音信号における周波数成分毎の相関を反映させた第１特徴量を算出する第１特徴量算出手段と、
得られた第１特徴量を時間変化信号と捉え、その信号波形の傾き方向が変化する回数とその大きさを表す第２特徴量を得る第２特徴量算出手段と、
得られた第２特徴量の大小関係と逆の大小関係を有する抑圧係数を形成して、上記マイクロホンが周囲音を捕捉して得られた入力音信号又はそれに対して所定の処理を実行した入力音信号における妨害音成分を抑圧する抑圧手段と
して機能させることを特徴とする妨害音抑圧プログラム。
少なくとも２本のマイクロホンが周囲音を捕捉する集音部と、１又は複数のスピーカから放音する放音部とを有する集音・放音装置において、
上記放音部が放音する音信号が入力され、上記スピーカから放音され、上記各マイクロホンで捕捉された放音に伴う非目的音を疑似した疑似放音非目的音信号を生成し、上記各マイクロホンからの入力音信号から減算することにより、上記各マイクロホンで捕捉された放音非目的音を除去する放音非目的音除去手段と、
上記放音非目的音除去手段の後段に設けられ、上記放音非目的音除去手段から出力された音信号における妨害音成分を除去する妨害音抑圧手段とを備え、
上記妨害音抑圧手段として、請求項１〜３のいずれかに記載の妨害音抑圧装置を適用したことを特徴とする集音・放音装置。