JP2010193323A

JP2010193323A - 録音装置、再生装置、録音方法、再生方法、及びコンピュータプログラム

Info

Publication number: JP2010193323A
Application number: JP2009037248A
Authority: JP
Inventors: Masato Togami; 真人戸上; Kultida Rojviboonchai; グンティダーロットウィブンチャイ; Atsushi Koike; 敦小池; Kazuyuki Takizawa; 和之滝澤; Yasunari Obuchi; 康成大淵; Yohei Kawaguchi; 洋平川口; Yutaka Matsunobu; 豊松延; Akio Shinagawa; 明生品川
Original assignee: Casio Hitachi Mobile Communications Co Ltd
Current assignee: Casio Hitachi Mobile Communications Co Ltd
Priority date: 2009-02-19
Filing date: 2009-02-19
Publication date: 2010-09-02

Abstract

【課題】録音時のマイクロホン間隔が狭くても、音源方向を含む臨場感が豊かな音を再現することを目的とする。
【解決手段】音を電気信号に変換するマイクロホンアレイ部１１０と、アナログの電気信号をデジタル信号に変換するＡ−Ｄ変換器１３０と、マイクロホンアレイの各デジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数変換部１４１と、周波数帯域毎に各デジタル信号間の位相差を求めて、音到来方向を特定する雑音・主音判別部１４３と、音到来方向が特定された周波数帯域毎にデジタル信号間の位相を各音出力手段の位置に対応させて補正する補正情報を取得する記憶装置１６０と、補正情報に基づいて、音到来方向が特定された周波数帯域毎に各デジタル信号間の位相を補正する主音振幅・位相補正処理部１４８とを備える、ことを特徴とする。
【選択図】図２Ａ

Description

本発明は、小型録音装置で録音した音を臨場感を保ったまま再生する音像定位機能を備えた録音装置、再生装置、録音方法、再生方法、及びコンピュータプログラムに関する。

複数のマイクロホン素子を搭載した小型録音装置（例えば、携帯電話等）において、複数のマイクロホン間の位相差や振幅差を利用して、特定方向の音源のみを抽出する音源分離技術がある。この音源分離技術を用いて、注目した特定方向の音源の音のみを聴取することができる。例えば、特許文献１には、正面方向の音だけを抽出し、抽出した音を多数のスピーカで再生する方法が開示されている。

また、音を分離した後でも個々の音源の空間的性質を保持する技術として、ＳＩＭＯ−ＩＣＡ（Single-Input Multiple-Output-model-based Independent Component Analysis）等がある。

特開２００２−０６４８９７号公報

青木真理子、岡本学、青木茂明、松井弘行、桜井哲真、金田豊、"Sound source segregation based on estimating incident angle of each frequency component of input signals acquired by multiple microphones"（多マイク受音信号の各周波数成分の入射角度推定に基づいた音源分離）Acoustical Science and Technology Vol. 22, No. 2,pp.149-157,2001.

特許文献１に記載の技術では、正面方向の音のみを抽出するので、他の方向から到来する音は、方向性が無く、各音源毎の音像定位感（音が発生する位置を再現する音響効果）が異なり、録音時の音場（音波が存在する空間）を再現することができない。

また、ＳＩＭＯ−ＩＣＡ等の技術では、録音時のマイクロホンの間隔が、再生時のスピーカの間隔より非常に狭くても（例えば、小型録音機で録音して、ヘッドホン等で再生する場合）、録音時のマイクロホンの間隔に対応して音を再生するので、録音時の音源方向を知覚し難く、臨場感が乏しくなる問題がある。

本発明は、上述したような問題点に鑑みてなされたもので、録音時のマイクロホンの間隔が再生時のスピーカの間隔より非常に狭くても、音源方向を含んだ臨場感が豊かな音を再現することを目的とする。

本発明の第１の観点に係る録音装置は、
音をアナログの電気信号に変換する複数のマイクロホンを有するマイクロホンアレイと、
前記マイクロホンアレイに含まれる各マイクロホンによって変換されたアナログの電気信号をデジタル信号に変換するＡ−Ｄ変換手段と、
所定の時間毎に、前記Ａ−Ｄ変換手段によって変換された各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解手段と、
前記時間周波数分解手段によって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段とを備える、ことを特徴とする。

好ましくは、前記時間周波数分解手段によって分解された周波数帯域毎にその強度を示す信号が所定のレベル未満であることに応答して、雑音成分と判別し、所定のレベル以上であることに応答して、音源から到来した主音成分と判別する成分判別手段を備え、
前記補正手段は、前記成分判別手段によって、主音成分と判別された周波数帯域の信号に対してのみ位相と振幅とを補正する、ことを特徴とする。

好ましくは、前記補正手段によって主音成分の位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の前記音出力手段の数に対応したデジタル信号を生成する音出力チャンネル信号生成手段と、
前記音出力チャンネル信号生成手段によって生成された複数のデジタル信号を記憶する記憶手段とを備える、ことを特徴とする。

好ましくは、前記取得手段が取得する補正情報は、前記音出力装置の各音出力手段の距離に基づいて計算され、前記音到来方向特定手段によって音の到来する方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号の位相を補正するステアリングベクトル又は、音を聴取する聴取位置を中心とした円周上に位置する各方向の音源から到来する音を測定し、測定された音の特性と各前記音出力手段の特性とに基づいて求められたたステアリングベクトルであり、
前記記憶手段は、前記取得手段が取得した補正情報をさらに記憶し、
前記補正手段は、前記音到来方向特定手段によって周波数帯域毎に特定された音の到来する方向と、前記記憶手段に記憶された補正情報とに基づいて、各前記主音成分の位相と振幅とを補正する、ことを特徴とする。

好ましくは、前記成分判別手段は、
周波数帯域毎に同一の前記マイクロホンによって過去に取得された信号の強度と現在の信号の強度とを基にして、雑音のレベルを示す雑音レベルを算出する雑音レベル算出手段と、
前記時間周波数分解手段によって分解された周波数帯域毎にその強度を示す信号が前記雑音レベル算出手段によって算出された雑音レベル以上か未満かを判別するレベル判別手段と、
前記レベル判別手段により所定のレベル未満と判別されたことに応答して、該周波数帯域を雑音成分とし、所定のレベル以上と判別されたことに応答して、周波数帯域毎に各前記マイクロホンのデジタル信号間に相互に関連があるかを判別する相関関係判別手段と、
前記相関関係判別手段により相互に関連がないと判別されたことに応答して、該周波数帯域を雑音成分とし、相互に関連があると判別されたことに応答して、該周波数帯域を空間上の音源から到来した主音成分と判別する雑音主音判別手段とを備える、ことを特徴とする。

本発明の第２の観点に係る再生装置は、
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音取得手段によって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段と、
前記補正手段によって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成手段と、
前記出力チャンネル信号生成手段によって生成された周波数帯域毎に分解された各デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換手段と、
前記周波数時間変換手段によって変換された時間帯域毎に分割された各デジタル信号をアナログの電気信号に変換するＤ−Ａ変換手段とを備え、
前記音出力手段は、前記Ｄ−Ａ変換手段によって変換された電気信号を音に変換する、ことを特徴とする。

本発明の第３の観点に係る録音方法は、
複数の音取得手段によって取得された音をアナログの電気信号に変換する音変換ステップと、
前記音変換ステップによって変換されたアナログの電気信号をデジタル信号に変換するＡ−Ｄ変換ステップと、
所定の時間毎に、前記Ａ−Ｄ変換ステップによって変換された各マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解ステップと、
前記時間周波数分解ステップによって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定ステップと、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正ステップとを含む、ことを特徴とする。

本発明の第４の観点に係る再生方法は、
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得ステップと、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音取得ステップによって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正ステップと、
前記補正ステップによって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成ステップと、
前記出力チャンネル信号生成ステップによって生成された周波数帯域毎に分解された各前記デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換ステップと、
前記周波数時間変換ステップによって変換された時間帯域毎に分割された各前記デジタル信号をアナログの電気信号に変換するＤ−Ａ変換ステップと、
前記Ｄ−Ａ変換ステップによって変換された電気信号を音に変換する複数の各前記音出力手段に音を出力させる音出力ステップとを含む、ことを特徴とする。

本発明の第５の観点に係るコンピュータプログラムは、
複数のマイクロホンを備えたコンピュータを、
音をアナログの電気信号に変換する複数のマイクロホンを有するマイクロホンアレイと、
前記マイクロホンアレイに含まれる各マイクロホンによって変換されたアナログの電気信号をデジタル信号に変換するＡ−Ｄ変換手段と、
所定の時間毎に、前記Ａ−Ｄ変換手段によって変換された各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解手段と、
前記時間周波数分解手段によって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段として機能させる、ことを特徴とする。

本発明の第６の観点に係るコンピュータプログラムは、
複数のスピーカを備えたコンピュータを、
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音取得手段によって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段と、
前記補正手段によって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成手段と、
前記出力チャンネル信号生成手段によって生成された周波数帯域毎に分解された各前記デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換手段と、
前記周波数時間変換手段によって変換された時間帯域毎に分割された各前記デジタル信号をアナログの電気信号に変換するＤ−Ａ変換手段と、
前記音出力手段は、前記Ｄ−Ａ変換手段によって変換された電気信号を音に変換するように機能させる、ことを特徴とする。

再生機器のスピーカの位置に合わせて、複数のマイクロホン素子の間隔が狭い小型録音装置によって収録された音の位相と振幅とを補正することにより、音源方向を含んだ臨場感が豊かな音を再現することができる。

録音再生装置のハードウェア構成を示す図である。（実施形態１）録音再生装置の録音部の構成を示す図である。（実施形態１）録音再生装置の再生部の構成を示す図である。（実施形態１）各フレームの周波数帯域毎に主音と雑音とを判別したイメージを示す図である。（実施形態１）雑音レベル推定処理を示すフローチャートである。（実施形態１）雑音・主音判別処理を示すフローチャートである。（実施形態１）時間・周波数毎の方向推定処理を示すフローチャートである。（実施形態１）位相・振幅の補正処理を示すフローチャートである。（実施形態１）ヘッドホンによって再生音を聞く場合のイメージ図である。（実施形態１）スピーカによって再生音を聞く場合のイメージ図である。（実施形態１）位相・振幅補正処理の別例を示すフローチャートである。（実施形態１）雑音・主音判別処理の別例を示すフローチャートである。（実施形態１）時間・周波数毎の方向推定処理の別例を示すフローチャートである。（実施形態１）時間・周波数毎の方向推定処理のさらに別例を示すフローチャートである。（実施形態１）録音再生装置の録音部の構成を示す図である。（実施形態２）録音再生装置の再生部の構成を示す図である。（実施形態２）各フレームの周波数帯域毎に主音と雑音とを判別したイメージの別例を示す図である。（実施形態２）雑音・複数主音判別処理を示すフローチャートである。（実施形態２）位相・振幅の補正処理の別例を示すフローチャートである。（実施形態２）雑音・複数主音判別処理の別例を示すフローチャートである。（実施形態２）再振り分け処理を示すフローチャートである。（実施形態２）再振り分け処理の別例を示すフローチャートである。（実施形態２）再振り分け処理の別例を示すフローチャートである。（実施形態２）サーバで音を補正をする音情報処理システムの構成を示す図である。（実施形態３）ハードウェアの構成を示す図である。

以下、本発明の実施形態に係る録音再生装置を、携帯電話に搭載されたものを例に、図面を参照しながら説明する。

（実施形態１）
実施形態１に係る録音再生装置１００は、マイクロホンアレイによって収録した音を再現する際に、再生装置に対応させて音の位相を補正して、臨場感を保持したまま再現する。
実施形態１の録音再生装置１００は、物理的には、図１に示すように、マイクロホンアレイ部１１０と、ＬＰＦ１２０、１８０と、Ａ−Ｄ変換器１３０と、制御装置１４０と、一時記憶装置１５０と、記憶装置１６０と、Ｄ−Ａ変換器１７０と、再生装置１９０とを備える。

マイクロホンアレイ部１１０は、複数のマイクロホンを配列して構成された音取得装置である。各マイクロホンは、音圧の変化をアナログの電気信号に変換して、ＬＰＦ１２０に出力する。
ＬＰＦ（Low Pass Filter）１２０は、マイクロホン毎に配置され、対応するマイクロホンからのアナログの電気信号の中から、Ａ−Ｄ変換器１３０のサンプリングレートの０．５倍以上の周波数成分を除去して、帯域制限されたアナログの電気信号をＡ−Ｄ変換器１３０に出力する。
Ａ−Ｄ変換器（Analog to Digital Converter）１３０は、帯域制限された各アナログの電気信号を対応するデジタル信号に変換して、制御装置１４０に出力する。

制御装置１４０は、ＣＰＵ（Central Processing Unit）等によって構成され、音源方向を推定し、雑音と主音（空間上の特定の位置から到達した所定のレベル以上の音）とを判別し、主音の位相と振幅とを補正するためのプログラムを実行し、処理された信号を所定のタイミング毎にＤ−Ａ変換器１７０に出力する。
一時記憶装置１５０は、制御装置１４０によってプログラムが実行される際に、処理中のデータ等を一時的に記憶する。
記憶装置１６０は、制御装置１４０によって実行されるプログラムやデータ等を記憶する。
なお、制御装置１４０と、一時記憶装置１５０と、記憶装置１６０とによって、音が発生する位置を再現する音響効果である音像定位機能を実現する処理内容の中心部分については、後述する。

Ｄ−Ａ変換器（Digital to Analog Converter）１７０は、制御装置１４０によって処理されたデジタル信号をアナログの電気信号に変換してＬＰＦ１８０に出力する。
ＬＰＦ１８０は、アナログに変換された電気信号を帯域制限して、サンプリングレートの０．５倍以上の周波数成分を取り除き、再生装置１９０に出力する。
再生装置１９０は、電気信号を音圧に変換する。本実施形態では、再生装置１９０としてヘッドホンの場合と、複数のスピーカとの場合について説明する。

次に、図１に示す物理的構成を有する録音再生装置１００の機能的構成について説明する。
本実施形態の録音再生装置１００の録音部は、図２Ａに示すように、機能的に、マイクロホンアレイ部１１０と、ＬＰＦ１２０と、Ａ−Ｄ変換器１３０と、時間周波数変換部１４１と、雑音レベル推定部１４２と、雑音・主音判別部１４３と、主音振幅・位相補正処理部１４８と、補正主音・雑音録音処理部１４４と、周波数時間変換部１４９と、聴取者頭部伝達関数保存部１６３と、マイク配置情報保存部１６４と、データベース１６１とを備える。

マイクロホンアレイ部１１０は、上述したように、複数のマイクロホンによって音を取得して電気信号に変換する。ＬＰＦ１２０は、上述したように、各マイクロホンによって電気信号に変換された信号を帯域制限する。
Ａ−Ｄ変換器１３０は、ＬＰＦ１２０によって帯域制限された電気信号をデジタル信号に変換する。その際に、Ａ−Ｄ変換器１３０は、デジタル信号を所定のサンプル数毎に纏めて（フレームシフト、以下shiftと表す）時間周波数変換部１４１に出力する。Ａ−Ｄ変換器１３０から出力されるデジタル信号は、マイクロホンの識別番号をｉ、サンプリングタイミングをｔとすると、xi(t)と表される。

時間周波数変換部１４１は、デジタル信号にハミング窓（hamming window function）を掛け合わせて、有限区間以外のデータを０にしてから、バタフライ演算によるＦＦＴ（Fast Fourier Transform）によって、時間領域の信号から周波数領域の信号に変換して、周波数帯域毎にその強度を示す信号に分解したデータを作成して、雑音レベル推定部１４２に出力する。ハミング窓等の窓関数を掛け合わせて、目的外信号の影響を取り除くことによって、高精度の周波数領域の信号を得ることができる。
ここで、フーリエ変換するサンプリング時間(ｔ)のグループをフレームと言い、フーリエ変換するフレームサイズをＬ、時間領域の信号から周波数領域の信号へ変換した回数をフレームインデックスτと言い、ハミング窓関数をw(n)とすると、周波数領域に変換した後の信号xi(f,τ)は、下記の数１で表せる。

雑音レベル推定部１４２は、周波数領域に変換された信号の周波数帯域毎に該周波数帯域の雑音レベルを推定する。通常、雑音レベルは周波数帯域毎に異なる値を取るため、雑音レベル推定部１４２によって周波数帯域毎に雑音レベルを推定することにより、実際の雑音レベルに近い推定値を算出できる。
また、取得された音の信号が時間領域の信号から周波数領域の信号に変換される度に雑音レベルを推定することにより、実際の雑音レベルの変化に追従することができる。なお、雑音レベル推定部１４２の処理の詳細については、後述する。

雑音・主音判別部１４３は、雑音レベル推定部１４２によって推定された雑音レベル等に基づいて、周波数帯域毎に雑音成分か主音成分かを判別し、主音成分と判別された周波数帯域の周波数領域のデータを主音振幅・位相補正処理部１４８に出力し、雑音成分と判別された周波数帯域の周波数領域のデータを補正主音・雑音録音処理部１４４に出力する。ここで、雑音成分とは、音量が周囲の雑音レベルと同程度以下の音や、様々な方向から到来する音が混ざった拡散性雑音のことを言う。主音とは、空間上の特定の位置からマイクロホンアレイ部１１０に到達した音の中で、ある程度（例えば雑音レベル）以上にレベルが大きい音のことを言い、主音源とは、空間上の特定の位置で主音を発生した音の発生源のことを言う。

聴取者頭部伝達関数保存部１６３は、ヘッドホンによって音を再生する際に基準となる利用者毎又は利用者のタイプ別の聴取者頭部伝達関数を保存する。
なお、頭部伝達関数とは、頭の中心に相当する自由空間上の１点と、耳道内の１点との間の伝達関数のことであり、音が聴取者の頭部、胸部、耳介などでの反射・回折の影響を含むため、身体形状の方向依存性、個人性が強く反映される。そのため、再生時に音源を定位させるために、頭部伝達関数に基づいて音の再生処理をする。

マイク配置情報保存部１６４は、録音するマイクロホンアレイ部１１０のマイクの配置情報を保存する。例えば、携帯電話は、上下２つの筐体を開閉、回転して形状を変化することができ、これに伴いマイクロホンの配置が異なるため、主音振幅・位相補正処理部１４８で使用する録音時のマイクロホンの配置情報を保存する。

主音振幅・位相補正処理部１４８は、主音成分と判別された周波数帯域毎の周波数領域のデータの位相と振幅とを補正して、補正主音・雑音録音処理部１４４に出力する。
まず、主音振幅・位相補正処理部１４８は、雑音・主音判別部１４３によって出力された主音成分と判別された周波数帯域毎の周波数領域のデータの音源方向を推定する。次に、主音振幅・位相補正処理部１４８は、聴取者頭部伝達関数保存部１６３から読み出した聴取者頭部伝達関数と、マイク配置情報保存部１６４から読み出した録音時のマイクの配置情報とに基づいて、音源方向に対する各マイクロホンの振幅比と位相差とを表すステアリングベクトルを求める。そして、主音振幅・位相補正処理部１４８は、該ステアリングベクトルに基づいて主音成分の位相と振幅とを補正する。なお、主音振幅・位相補正処理部１４８が、主音成分と判別された周波数帯域毎の周波数領域のデータの位相と振幅とを補正する処理の詳細については、後述する。

補正主音・雑音録音処理部１４４は、主音成分と判別され補正された周波数帯域毎の周波数領域のデータと、雑音と判別された周波数帯域毎の周波数領域のデータとを重畳し、再生するチャンネル分（例えば、ヘッドホンの左右のスピーカの２チャンネル分）の周波数領域のデータを作成して、周波数時間変換部１４９に出力する。

図３は各フレームの周波数帯域毎に主音と雑音とを判別したイメージを示す図であり、補正主音・雑音録音処理部１４４によって、主音として修正された周波数帯域毎の周波数領域のデータと雑音の周波数帯域毎の周波数領域のデータとが重畳され１フレーム分の周波数領域のデータとなる。
なぜなら、非特許文献１に記載されているように、一般的に主音が音声の場合に、非常に短い時間であれば各フレームの周波数帯域毎に複数の音源が混ざることがなく、各フレームの周波数帯域毎に１つの音源しか存在しないと仮定しても問題が生じないからである。また、一般に雑音レベルは主音レベルよりも小さいため、主音が存在する各フレームの周波数帯域を雑音が存在する各フレームの周波数帯域として誤判定する確率は低いからである。さらに、図３の左から６番目のフレームにおいて、音声１と音声２とが同じフレームに存在し、音声２の周波数領域も音声１の周波数領域に割り当てられているが、音声再生処理では問題は生じない。

図２Ａに戻り、周波数時間変換部１４９は、補正主音・雑音録音処理部１４４によって纏められた１フレーム分の周波数領域のデータをフレーム毎に逆ＦＦＴ処理をして時間領域のデジタル信号に戻し、データベース１６１に出力する。

データベース１６１は、再生装置１９０のチャンネル分（ヘッドホンの左右のスピーカ分）の時間領域のデータを保存する。

上記録音部によってデータベース１６１に保存された録音データを再生するために、制御装置１４０と、一時記憶装置１５０と、記憶装置１６０とによって実現された、再生部の構成について説明する。
図２Ｂは再生時の構成を示す図であり、再生部の再生機能は、データベース１６１と、再生機器情報保存部１６２と、再生方法認識部１４７と、再生処理部１４６と、Ｄ−Ａ変換器１７０と、ＬＰＦ１８０と、再生装置１９０とを備える。

再生機器情報保存部１６２は、再生装置１９０のスピーカ間の距離やスピーカの周波数特性等の再生装置１９０に関する情報を保存する。例えば、携帯電話にヘッドホンを接続して音を再生するためには、再生機器情報保存部１６２には、ヘッドホンの左右のスピーカ間の距離と、スピーカの周波数特性とが保存されている。

再生方法認識部１４７は、再生指示を受けた際に、再生方法を指定する指示若しくは、再生方法を指定するセンサの情報（図示せず）に基づいて、再生装置１９０に対応した情報を再生機器情報保存部１６２から取得して、再生処理部１４６に出力する。
例えば、録音再生装置１００が携帯電話の場合、ヘッドホン端子にヘッドホンのプラグが刺さっているか否かを検出するセンサを備え、刺さっている場合には、再生装置１９０をヘッドホンと判別して、刺さっていない場合、再生装置１９０を携帯電話に搭載されたスピーカと判別する。また、携帯電話の利用者が音声を再生する際に、再生方法認識部１４７へ再生方法を選択する指示を受け付ける構成にしてもよい。

再生処理部１４６は、データベース１６１から音の時間領域のデジタル信号を読み出し、再生方法認識部１４７を介して取得した再生装置１９０の情報に基づいて振幅等を変更して、所定のタイミングでＤ−Ａ変換器１７０に出力する。

（動作）
次に、この録音再生装置１００の動作を説明する。
まず、この録音再生装置１００を録音装置として機能させる場合について説明する。
マイクロホンアレイ部１１０によって集音されて、アナログの電気信号に変換された音信号は、ＬＰＦ１２０によって帯域制限され、Ａ−Ｄ変換器１３０によってデジタル信号xi(t)に変換され、時間周波数変換部１４１（制御装置１４０）に供給される。

変換されたデジタル信号は、時間周波数変換部１４１によって、ハミング窓関数を掛け合わされ、バタフライ演算によって時間領域の信号から周波数領域の信号に変換される。
前述の通り、周波数領域に変換された信号xi(f,τ)は、数１で表される。
なお前述したように、フーリエ変換するサンプリング時間(ｔ)のグループをフレームと言い、フーリエ変換するフレームサイズをＬ、時間領域の信号から周波数領域の信号へ変換した回数をフレームインデックスτとする。ハミング窓関数をw(n)とする。
数１で示すように、時間周波数変換部１４１によって周波数領域に変換された信号xi(f,τ)は、雑音レベル推定部１４２に出力され、雑音レベルが推定される。

図４のフローチャートに示すように、雑音レベル推定部１４２によって、各フレームの周波数帯域毎に、周波数領域の信号に含まれる雑音のレベルが推定される。
まず、１つのフレームの全周波数に渡って、存在する純音（一つの正弦波の音）の周波数とその強度とを示すパワースペクトル（信号が周波数毎に含んでいるエネルギーをグラフにしたもの）を算出する（ステップＳ１０１）。
このパワースペクトルの算出は、周波数帯域毎に複数チャンネルの音声信号
X(f,τ)=[x1(f,τ),...,xi(f,τ),...,xM(f,τ）] (Mはマイクロホン数、iは添え字）に、
y(f,τ)=||X(f,τ)||²
で表される演算をすることにより求める。

次に、周波数帯域毎に同じフレームのパワースペクトルからホワイトノイズ等の成分等を除去し平滑化する（ステップＳ１０２）。
この平滑化処理は、ステップＳ１０１で求められたパワースペクトラムに、数２で表される演算をすることにより求める。なお、w(i)はハミング窓関数を示し、ハミング窓により平滑化する範囲を２Lw＋1とする。

周波数帯域毎に求められたパワースペクトルを同じ周波数帯域の過去のフレームで求められたパワースペクトラムに基づいて、時間的な変化に対してスペクトルを平滑化する（ステップＳ１０３）。この処理により、ある周波数帯域毎のパワースペクトラムが一部のフレーム及び一部の周波数で突発的に異常な値になったとしても、その影響を緩和することができる。
この時間方向スペクトル平滑化処理は、ステップＳ１０２で求められた周波数帯域毎のパワースペクトラムに、
S(f,τ)=α_sS(f,τ−1)＋(1−α_ｓ）S_f(f,τ)
で表される演算をすることにより求める。なお、αsは予め定める更新係数とする。Ｓ_fは、時間的に古いフレームにおいて算出されたパワースペクトルを示す。

ステップＳ１０３において周波数帯域毎に求められた平滑後のパワースペクトルを所定のフレーム分保存しておき、同じ周波数帯域のフレームを平滑化した後のパワースペクトルの中から最も小さい値（最小統計値）を算出する（ステップＳ１０４）。なお、比較対象とする過去のフレーム数は録音再生時状況に合わせて予め定めておく。
最小統計値S_min(f,τ）＝min[S(f,τ),S(f,τ-1),…,S(f,τ−N)]

周波数帯域毎に求められた最小統計量に対する周波数帯域毎のレベルの比率を算出して、音レベルと雑音レベルの比率を算出する（ステップＳ１０５）。
この平滑化雑音レベル比推定処理は、数３で表すことができる。

周波数帯域毎に算出された音レベルと雑音レベルとの比率が所定の閾値より大きい場合には音と判別し、所定の閾値よりも小さい場合には雑音と判別する（ステップＳ１０６）。雑音成分が多いと判別された周波数帯域をP(f,τ)=0とし、音成分が多いと判別された周波数帯域をP(f,τ)=1とする。

ステップＳ１０６によって設定された音存在確率値P(f,τ)を基に時間方向に隣接する２つのフレーム間で平滑化して、音存在確率の値を更新する（ステップＳ１０７）。
この音存在確率更新処理は、数４で表すことができる。なお、α_pは予め定める係数とする。

ステップＳ１０７によって更新された音存在確率値を基に、次のフレームの処理で雑音レベルを計算するための雑音係数を更新する（ステップＳ１０８）。
この雑音係数は、数５で表すことができる。なお、αは予め定める係数とする。

ステップＳ１０８によって更新された雑音係数α_dを用いて、雑音レベルσ_dを更新し、周波数帯域毎に更新した雑音レベルσ_dを該フレームの雑音レベルとして出力する（ステップＳ１０９）。
この雑音レベルσ_dを更新する処理は、数６で表すことができる。

上述したステップＳ１０１からステップＳ１０９の処理によって、周波数帯域毎の雑音レベルσ_dを推定することができる。雑音レベル推定部１４２によって推定された雑音レベルσ_d の値は、雑音・主音判別部１４３に出力され、周波数帯域毎に雑音か主音かを判別する処理に使用される。

次に、図５のフローチャートに示すように、雑音・主音判別部１４３によって、各フレームの周波数帯域毎に、周波数成分が主音か雑音かを判別する。
該フレームの周波数帯域毎にその周波数成分に含まれる音の到来方向を推定し、推定された周波数帯域毎に音の到来方向を示す音源方向θ(f,τ）を求める（ステップＳ２１０）。
Ｍ個あるマイクロホンの中から対となるマイクペアを複数定め、マイクロホン同士の間隔をdiとし、その間隔が狭いマイクペアの方から順に処理をして、音源方向θ(f,τ）を推定する。この処理の詳細については、後述する。

ステップＳ２１０で推定された周波数帯域毎の音源方向θ(f,τ）の最もらしさを示す尤度L(f,τ）を数７によって算出する（ステップＳ２２０）。なおここで、iは添え字、対象となる周波数帯域の周波数値をfとし、音速をcとする。δiは、i番目のマイクペアの間において、同時刻のフレームτの周波数ｆ成分同士の位相差を示す。

ステップＳ２２０によって算出された尤度L(f,τ）が所定の閾値を超えているか否かを判別する（ステップＳ２３０）。方向性の無い拡散性の雑音が大きく含まれると、その雑音は各マイクペア毎の位相差が無相関となり、L(f,τ）が小さい値になることから、この判別処理によって、拡散性雑音か否かを判別することができる。
音源方向の尤度L(f,τ）が閾値を超えていないと判別された場合（ステップＳ２３０；ＮＯ）、該周波数領域の信号を雑音と判定し、出力する（ステップＳ２５０）。

音源方向の尤度L(f,τ）が閾値を超えていると判別された場合（ステップＳ２３０；ＹＥＳ）、推定された雑音レベルσ_dを基にＳＮＲ（Signal to Noise ratio）を求めて主音か雑音かを判別する雑音判定処理をする（ステップＳ２４０）。
この雑音推定処理は、数８によってＳＮＲを求める。

求められたＳＮＲが所定の閾値よりも大きい場合には（ステップＳ２４０；ＮＯ、該周波数成分は主音と判別されて主音振幅・位相補正処理部１４８に出力され（ステップＳ２６０）、閾値よりも小さい場合には（ステップＳ２４０；ＹＥＳ）、該周波数成分は雑音と判別されて補正主音・雑音録音処理部１４４に出力される（ステップＳ２５０）。
主音振幅・位相補正処理部１４８による主音の補正処理と、補正主音・雑音録音処理部１４４の処理とは、後述する。

図５に示したフローチャート（ステップＳ２１０からＳ２５０の処理）によって、主音か雑音かを判別する処理について説明したが、後回しにした、主音の到来方向θ(f,τ）を推定する処理（ステップＳ２１０）について、図６のフローチャートを用いて説明する。
まず、処理中のマイクペアのインデックス（添え字）をi=1とし、マイクペアの位相差をδ^(0)=0とする（ステップＳ２１０１）。

i番目のマイクペアの位相差δ(i)を数９によって算出する（ステップＳ２１０２）。
なお、xi_1はi番目のマイクペアを構成する一つのマイクロホンの信号、xi_2は他方のマイクロホンの信号を示す。

算出されたマイクペアの位相差δ(i)内に含まれているエイリアシングを解決するために、数１０を満たすn(i)を求める（ステップＳ２１０３）。

ステップＳ２１０３によって求められたn(i)を使用して、ステップＳ２１０２によって求められたi番目のマイクペアの位相差δ(i)を数１１の計算により補正する（ステップＳ２１０４）。

ステップＳ２１０４によって補正された位相角を使用して、音源方向の推定値θを数１２によって更新する（ステップＳ２１０５）。なお、i番目のマイクペアのマイク間隔をd(i)とし、処理中の周波数成分の周波数値をfとし、音速をcとする。

予定された全てのマイクペアで音源方向を推定する検討がされたかを判別する（ステップＳ２１０６）。未検討のマイクペアがある場合には（ステップＳ２１０６；ＮＯ）、変数i=i+1として、検討していないマイクペアの位相差計算（ステップＳ２１０２）をする。未検討の周波数帯域がない場合には（ステップＳ２１０６；ＹＥＳ）、全ての周波数帯域で音源方向を推定したかを判断する（ステップＳ２１０７）。全ての周波数帯域で音源方向を推定していない場合には（ステップＳ２１０７；ＮＯ）、変数i=1、位相差δ^(0)=0として次に処理をする周波数帯域の変数を初期化して（ステップＳ２１０１）、処理を繰り返す。全ての周波数帯域で音源方向を推定した場合には（ステップＳ２１０７；ＹＥＳ）、時間・周波数毎の方向性推定処理（ステップＳ２１０）を終了する。
上記処理により、各周波数帯域の主音の到来方向を推定することができる。

次に、図５に示した雑音・主音判別処理のフローチャートの処理をした雑音・主音判別部１４３によって、主音振幅・位相補正処理部１４８に出力された主音と判別された周波数成分の位相と振幅とを補正する処理について説明する。
図７のフローチャートに示すように、主音振幅・位相補正処理部１４８において、主音と判別された周波数帯域の位相と振幅とを補正する。
なお、前述したように以下の説明では、周波数領域に変換された１つの周波数帯域には１つの主音しか存在しない場合を前提に説明するが、１つの周波数帯域に複数の主音が存在し、且つ音源分離により複数の主音を分離することができる場合には、主音毎に音源方向θ（f,τ)を算出する以外は同様の処理をして、補正された主音同士を重畳すればよい。

まず、主音振幅・位相補正処理部１４８は、聴取者頭部伝達関数保存部１６３から聴取者頭部伝達関数を読み出し、マイク配置情報保存部１６４から録音時のマイクの配置情報を読み出す。
時間・周波数毎の方向推定処理（ステップＳ２１０）によって、主音と推定された周波数帯域毎の音源方向θ(f,τ）の情報を読み出す（ステップＳ４０１）。

再生装置１９０に応じた主音毎のステアリングベクトルを取得するか又は、再生装置１９０の音出力手段に応じてステアリングベクトルを算出する（ステップＳ４０２）。
例えば、ステアリングベクトルを取得する場合、主音振幅・位相補正処理部１４８は、再生方法認識部１４７を介して、再生機器情報保存部１６２から再生装置１９０の音出力手段毎に対応したステアリングベクトルを取得する。さらに、聴取者の嗜好に合わせて周波数帯域毎の強度、周波数特性を補正した補正ステアリングベクトルを取得してもよい。
例えば、ステアリングベクトルを算出する場合、主音振幅・位相補正処理部１４８は、再生方法認識部１４７を介して、再生機器情報保存部１６２から再生装置１９０のスピーカ間隔等の算出条件を取得し、所定の式に基づいて、ステアリングベクトルを算出する。

例として、図８に示すような携帯電話２００に搭載されたマイクロホンアレイ部１１０によって集音され、携帯電話２００によって録音された音をヘッドホン３０１によって再生する場合のステアリングベクトル取得方法について説明する。
人間の頭部３０２の両耳間隔をｄとすると、数１３によって、ステアリングベクトルが算出される（ステップＳ４０２）。

このステアリングベクトルを周波数帯域毎の周波数領域のデータのスカラ値（量のみの値）に掛け合わせて、ステアリングベクトルを付与する（ステップＳ４０３）。掛け合わせて得られる多チャンネルの周波数帯域毎の周波数領域のデータを時間領域の信号に変換し、Ｄ−Ａ変換器でアナログ信号にして、ヘッドホン３０１から音を出力すると、方向θから音が到来するような音響効果を得ることができる。

別の例として、インパルス応答を測定してステアリングベクトルを生成する場合について説明する。図９に示すように、携帯電話２００に搭載したマイクロホンアレイ部１１０によって録音された音を室内に配置したスピーカ４０２、４０３、４０４、４０５によって再生し、室内のある一定範囲（リスニングポイント４０１）で利用者が音を聞く際に、ステアリングベクトルを取得する場合を想定する。
事前に、リスニングポイント４０１上の利用者の両耳位置にマイクを仕込み音源方向θから到来する単一音源に対するインパルス応答を収録して、この収録値に近似した値に調整されたＦＩＲ (Finite Impulse Response)フィルタを求める。この各スピーカ毎のＦＩＲフィルタの値をフーリエ変換して周波数帯域毎のベクトルにしたものを音源方向θのステアリングベクトルとする。
主音と判別された周波数帯域の周波数領域のデータは、推定された音源方向θと、各スピーカ毎のＦＩＲフィルタとが掛け合わされて、位相と振幅とが補正される。補正された信号は、時間領域のデジタル信号に変換され、Ｄ−Ａ変換器１７０によってアナログ信号変換され、ＬＰＦ１８０によって帯域制限され、各スピーカ４０２、４０３、４０４、４０５から音として出力される。
なお、このステアリングベクトルは固定的なものではなく、聴取者の嗜好に合わせて特定の周波数成分を強調したり、周波数帯域毎に係数を変化させても構わない。この嗜好の情報は、再生機器情報保存部１６２に保存しておいてもよい。

主音振幅・位相補正処理部１４８は、算出された主音毎のステアリングベクトルを該主音の信号に掛け合わせて、出力するチャンネル数分（例えば、スピーカ４０２乃至４０５の４チャンネル分）の信号に変換する。この処理により、主音にステアリングベクトルを付与することができる（ステップＳ４０３）。
なお、図７のフローチャートは、１つのフレームの周波数帯域に１つの音源しか無いことを前提として説明した。
１つの周波数帯域に複数の音源が存在する場合には、雑音・主音判別処理によって、主音毎に音源方向が推定され音源分離信号を受け取り、主音毎にステップＳ４０１からＳ４０３の処理を行い、ステップＳ４０３によって、多チャンネルの信号に変換された後に、主音毎に同じチャンネルの同じ周波数の信号を加算すればよい。

主音振幅・位相補正処理部１４８は、補正された主音を補正主音・雑音録音処理部１４４に出力する。なお、補正主音・雑音録音処理部１４４において主音に雑音を加えない場合には、ステアリングベクトルが付与された各チャンネル信号に、位相をランダムにずらした雑音成分を加算してもよい。
上述したように、図７のフローチャートに示した処理により、主音の位相と振幅とを補正することができる。また、この処理により主音の周波数成分のデータを出力するチャンネル分に生成することができる。

次に、補正主音雑・音録音処理部１４４は、主音振幅・位相補正処理部１４８によって出力された補正後の主音と雑音・主音判別部１４３によって出力された雑音とを重畳して、周波数時間変換部１４９に出力する。
なお、補正後の主音のチャンネル数が増減した場合、雑音・主音判別部１４３によって出力される雑音チャンネル数を増減してから主音のチャンネルと重畳するか、主音振幅・位相補正処理部１４８から位相をランダムにずらした雑音成分が加算された主音の供給を受けて、雑音を重畳しなくてもよい。

周波数時間変換部１４９は、加算後の各チャンネル信号（周波数領域のデータ）を逆ＦＦＴ処理及び重畳加算処理をして時間領域に戻して、データベース１６１に出力する。

この録音再生装置１００を再生機として機能させる場合について説明する。
再生の指示を受けると、再生処理部１４６は、再生方法認識部１４７を介して再生機器情報保存部１６２に保存されている再生装置１９０の情報を取得する。再生機器処理部１４６は、再生するチャンネル分の音のデジタル信号を読み出し、再生する機器に対応させて振幅等を補正して、所定のタイミングでＤ−Ａ変換器１７０に出力する。
各チャンネルの信号は、Ｄ−Ａ変換器１７０によってアナログの電気信号に変換され、再生装置１９０の各出力器によって音に変換され、出力される。

以上説明したように、録音再生装置１００によれば、複数のマイクロホンの間隔が狭い小型録音装置によって収録された音であっても、再生装置１９０のスピーカの位置に合わせて音の位相と振幅とを補正することができ、正確な音源方向を含んだ臨場感が豊かな音を再現することができる。
また、主音と判別された信号に限って、位相と振幅とを補正することによって、目的となる音を明瞭に再現することができる。
さらに、録音する際に、再生装置１９０の音出力手段に合わせて主音の位相と振幅とを修正した音データを生成するため、再生時に複雑な処理をしなくても、臨場感ある音を再現することができる。

次に、本実施形態の主音の位相・振幅補正処理と、主音方向を推定する処理との代替処理について説明する。

（主音の位相・振幅補正方法の別例）
上述した、図７のフローチャートに示した主音の位相と振幅とを補正する処理では、既存のステアリングベクトルのデータ又は、詳細な式を使用した。ここでは、図１０のフローチャートに示すような簡略化した式による演算によって位相と振幅とを補正する方法について説明する。なお、この簡略した式による演算によって位相と振幅とを補正する方法は、同一平面上に２つのマイクロホンが配設された録音装置によって録音され、図８によって示されるようにヘッドホンによって音を再生することを想定している。

図５に示した雑音・主音判別処理によって、主音の音源方向が推定された信号が得られたとする。
例えば、図６のフローチャートに示した位相差計算処理（ステップＳ２１０２）等によって、各フレームの周波数帯域毎に主音の位相差σを算出する（ステップＳ４１１）。
数１４によって、各フレームの周波数帯域毎の主音の位相を変換する（ステップＳ４１２）。なお、ここでは、マイク間隔をd1とし、ヘッドホンの両耳間隔をd2とする。

次に、各フレームの周波数帯域毎に主音のステアリングベクトルa(f,τ)を数１５によって算出する。算出された主音のステアリングベクトルを主音と判別された周波数帯域毎に周波数領域のデータと掛け合わせて、ステアリングベクトルを付与し、多チャンネル信号を生成する（ステップＳ４１３）。
生成された各チャンネルの信号は、補正主音・雑音録音処理部１４４に出力される。
なお、この各チャンネルの信号に位相をランダムにずらした雑音成分を加算してもよい。

上述したように、図１０のフローチャートに示された主音の位相と振幅とを補正する方法によって、ステアリングベクトルを使用しなくても簡易に主音の位相と振幅とを補正することができる。

なお、図１０のフローチャートは、１つのフレームの周波数帯域に１つの音源しか無いことを前提として説明した。
１つの周波数帯域に複数の音源が存在する場合には、雑音・主音判別処理によって、主音毎に音源方向が推定され音源分離信号を受け取り、主音毎にステップＳ４１１からＳ４１３の処理を行い、ステップＳ４１３によって、多チャンネルの信号に変換された後に、主音毎に同じチャンネルの同じ周波数の信号を加算すればよい。

（雑音・主音判別処理の別例）
雑音・主音判別処理２については、図５のフローチャートに１つの方法を示したが、ここでは別の方法について説明する。
図１１のフローチャートに示すように、雑音・主音判別部１４３によって、各フレームの周波数帯域毎に、周波数領域の信号が主音か雑音かを判別する。なお、所定のフレーム数Ｌ分の周波数領域のデータが得られる度に、この雑音・主音判別処理をする。
時間・周波数帯域毎の方向推定処理（ステップＳ２１０）から雑音判定処理（ステップＳ２４０）までは、図５のフローチャートと同様の処理をする。

音源方向を所定の間隔で小区間に分割した範囲を階級とする。各フレームの周波数領域のデータの周波数帯域毎に主音と判定された周波数帯域の音源方向θ(f,τ）が各階級に存在する場合、その階級の既存値に、尤度L(f,τ）の値又は、該当する周波数成分のレベル又は、該周波数成分の対数レベルを加算して、ヒストグラムを作成・更新する（ステップＳ２７０）。
例えば、階級の幅が２０度のヒストグラムにおいて、ある周波数帯域が主音と推定され、その音源方向が３０度であったとする。この主音は、２０度から４０度までの階級に含まれるので、この階級の既存値である度数に、尤度L(f,τ）の値又は、該当する周波数成分のレベル又は、該周波数成分の対数レベルを加算する。

予定した全フレームの周波数領域のデータについて、ステップＳ２１０からステップＳ２７０までの処理をしたかを判定する（ステップＳ２８０）。未処理の周波数帯域がある場合には（Ｓ２８０；ＮＯ）、未処理の周波数帯域に対して方向推定処理（ステップＳ２１０）をする。

未処理の周波数帯域がない場合には（ステップＳ２１０；ＹＥＳ）、作成・更新されたヒストグラムの値が大きいものから順番に、所定の数又は所定の値になるまで取り出して、ピーク検出をする。ピークとして検出された階級（角度の幅）を度数（ピーク値）によって重み付けし、重み付けされた階級を平均し、該主音の方向を算出する（ステップＳ２９０）。
例えば、尤度L(f,τ）の値の場合、ピーク検出する値は、度数が所定の値以下になるまで、又は最大の値との差が所定の値以下になるまでピーク検出をする。周波数成分のパワー値又はその対数パワー値の場合、最大値と比較したレベルが所定の差になるまで又は、最大値と比較したレベルが所定の比率以下になるまでピーク検出をする。
なお、ピーク検出を所定の範囲にすることにより、背景雑音に相当するような小さい音源を誤って取り出すことを防ぐことができる。

ヒストグラムの作成・更新処理（ステップＳ２７０）に用いたフレームの周波数帯域のうち尤度判定（ステップＳ２３０）及び雑音判定（ステップＳ２４０）において、主音と判別される毎に、その周波数帯域の音源方向が、主音の音源方向の何れに最も近いかを判別する。そして、最も近い主音の方向を該周波数帯域の音源方向として更新する。フレームの全周波数帯域毎に該データが主音か雑音かを振り分け、主音と判別された際にはその音源方向を再振り分けする（ステップＳ３００）。
上述した処理により、各フレームの周波数帯域毎に、周波数領域の信号が主音か雑音かを判別することができる。

（時間・周波数毎の方向推定処理の別例１）
図５及び図１１のステップＳ２１０の処理に対応し、図６のフローチャートによって主音方向を推定する方法を示したが、ここでは別の方法について説明する。
図１２のフローチャートに示す時間・周波数毎の方向推定処理２によって、周波数帯域毎に主音方向の推定処理をする。
まず、最大値のレベルを示す変数max_powerと、最大値の方位角を示す変数max_power_thetaとを０に設定し、方位角を示す変数θを最小値(例えば、−９０度）に設定する（ステップＳ２１１１）。
なお、ここで、方位角θは、所定の分解能（例えば、1度刻み等）で、−９０度から＋９０度もしくは−１８０度から＋１８０度まで表せるとする。また、入力される複数チャンネルの信号をxとする。

次に、下記数１６によって定義されるステアリングベクトルa(θ）と入力されたチャンネル信号xとの内積O(θ）をO(θ)＝α(θ)*X(f)によって求める（ステップＳ２１１２）。
なおここでは、ステアリングベクトルa(θ）をa(θ）の1番目の要素で割ったものを新たにa(θ）としても良い。a(θ）の1番目の要素を１にして、これを基準に他の要素を表現する。また、riは、マイクロホンアレイ部１１０の中心位置から予め定める距離（例えば１ｍ等）と方角（方位角θ度）とによって表される位置に存在する仮想音源とi番目のマイクロホンとの間の距離とを示す。

次に、内積O(θ）の絶対値|O(θ)|とmax_powerとの大小を判別する（ステップＳ２１１３）。
内積の絶対値が大きい場合には（ステップＳ２１１３；ＹＥＳ）、max_powerを|O(θ)|に設定し、max_power_thetaをθに設定して最大値を更新する（ステップＳ２１１４）。

内積の絶対値が小さい場合（ステップＳ２１１３；ＮＯ）又は、最大値が更新されると（ステップＳ２１１４）、方位角θに所定の角度の幅を示す角度幅を加算し、加算後の方位角θが方位角の最大値（例えば＋９０度、＋１８０度）よりも大きいかを判別する（ステップＳ２１１５）。
最大値よりも大きい場合には（ステップＳ２１１５；ＹＥＳ）、変数max_power_thetaを該周波数成分の音源方向と推定し、処理を終了する。
最大値よりも小さい場合には（ステップＳ２１１５；ＮＯ）、内積計算（ステップＳ２１１２）の処理に戻る。
上述した処理により、主音の方向を推定することができる。

（時間・周波数毎の方向推定処理の別例２）
図５及び図１１のステップＳ２１０の処理に対応し、図６及び図１２のフローチャートによって主音方向を推定する処理の例を示したが、ここではさらに別の方法について図１３に示すフローチャートを用いて説明する。
マイクロホンアレイ部１１０を構成する複数のマイクロホンの中から対となる複数のマイクペアiを選択し、初期値１を設定する。ヒストグラムC(θ）の度数を示す全てのθを０に初期化する（ステップ２１２１）。
なおここで、方位角θの幅（ヒストグラムの階級）は所定の角度幅とし、処理をする複数のフレームの中で最も時間が古いフレームをτとする。

次に、全周波数のクロススペクトルCi(f,τ)を数１７によって求める（ステップＳ２１２２）。

求められたクロススペクトルCi(f,τ)を数２０によって、逆フーリエ変換して時間領域のクロススペクトルCi(t,τ)を数１８によって算出する。なおCi(t,τ)を算出する際に、処理対象である全ての周波数fの和をとる。
さらに、t=dc^-1sinθによって、変数をtからθに変換した、クロススペクトルci(θ,τ）を算出する（ステップＳ２１２３）。

ヒストグラムC(θ）の度数に、算出されたCi(θ,τ）の値を加算する（ステップＳ２１２４）。

全てのマイクペアの処理をしたかを判断する（ステップＳ２１２５）。処理をするマイクペアを示す添え字iの値が全てのマイクペアの数(M(M-1)/2）以下の場合には（ステップＳ２１２５；ＮＯ）、添え字iに１を加算して（i=i+1）、次のi+1で示されるマイクペアについて、クロススペクトル計算（ステップＳ２１２２）の処理に戻り、同様の処理を繰り返す。
添え字iの値が全てのマイクペアの数(M(M-1)/2)よりも大きい場合には（ステップＳ２１２５；ＹＥＳ）、フレームτが処理をする全てのフレーム数より大きいかを判別する（ステップＳ２１２６）。
処理をする全てのフレーム数以下の場合には（ステップＳ２１２６；ＮＯ）、添え字iを1に初期化し、処理をするフレームを示すτに１を加算して（τ＋１）、次フレームについて、変数初期化（ステップＳ２１２１）以降の処理をする。
処理をする全てのフレーム数よりも大きい場合には（ステップＳ２１２６；ＹＥＳ）、ヒストグラムCi(θ,τ）の度数が所定の閾値よりも大きい方位角θを音源方向推定値θとして出力し、処理を終了する。
なお、本処理で求めたヒストグラムC(θ)を図１１のヒストグラムの作成・更新（ステップＳ２７０）によって更新されるヒストグラムの代わりに使用してもよい。
上述した処理により、主音の方向を推定することができる。

（実施形態２）
実施形態１では、録音時に位相と振幅とを補正したが、実施形態２では、再生時に位相と振幅とを補正する機能を備えた録音再生装置１００について説明する。
また、実施形態１では、１つの周波数帯域には、１つの音源しか含まれないことを前提として雑音と主音とを判別して主音を補正する処理について説明したが、実施形態２では、１つの周波数帯域に複数の主音が含まれる場合でも、雑音と主音とを判別して主音を補正する処理について説明する。

図１４Ａは録音時の構成を示す図であり、録音再生装置１００の録音部は、マイクロホンアレイ部１１０と、ＬＰＦ１２０と、Ａ−Ｄ変換器１３０と、時間周波数変換部１４１と、雑音レベル推定部１４２と、雑音・主音判別部１４３と、主音録音処理部１４４１と、雑音録音処理部１４４２と、録音時マイク配置記憶処理部１４８２と、データベース１６１と、カメラ２０１とを備える。

雑音・主音判別部１４３は、実施形態１と同様に、周波数領域の信号に含まれる雑音成分と主音成分とを判別し、主音と判別された周波数帯域の周波数領域のデータを主音録音処理部１４４１に出力し、雑音成分と判別された周波数帯域の周波数領域のデータを雑音録音処理部１４４２に出力する。
さらに、実施形態２の雑音・主音判別部１４３は、実施形態１と異なり、図１５に示すように１つの周波数帯域に複数の音源が含まれている場合も判別し、音源毎に周波数帯域の周波数領域のデータを主音録音処理部１４４１に出力する。

図１４Ａに戻り、主音録音処理部１４４１は、主音と判別された周波数帯域の周波数領域のデータに主音であることを示す情報（ラベル）を付加し、データベース１６１に出力する。本実施形態では、主音のデータに対して、再生時に位相と振幅とを補正する。

雑音録音処理部１４４２は、雑音と判別された周波数帯域の周波数領域のデータに雑音であることを示す情報（ラベル）を付加し、データベース１６１に出力する。なお、雑音成分の到来方向を明確化しても利点が少ないため、録音時と再生時との何れの場合も、雑音成分のデータに対して位相と振幅とは補正しない。

録音時マイク配置記憶処理部１４８２は、録音するマイクロホンアレイ部１１０のマイクの配置情報を得て、再生時に音源方向を推定する処理に使うために、データベース１６１に出力する。例えば、携帯電話は、上下２つの筐体を開閉、回転して形状を変化することができ、これに伴いマイクロホンの配置が異なるため、録音時のマイクロホンの配置を録音するデータと共に記憶して、再生時の処理に使用する必要がある。

データベース１６１は、主音録音処理部１４４１によって主音のラベル情報が付加された周波数帯域の周波数領域のデータと、雑音録音処理部１４４２によって雑音のラベル情報が付加された周波数帯域の周波数領域のデータと、録音時マイク配置記憶処理部１４８２のマイクロホンの配置情報とを録音データとして保存する。また、データベース１６１は、カメラ２０１から供給された録画データを保存してもよい。
カメラ２０１は、画像を撮影してデジタルの映像信号を録画データとしてデータベース１６１に出力する。

上記録音部によってデータベース１６１に保存された録音データと録画データとを再生するために、制御装置１４０と、一時記憶装置１５０と、記憶装置１６０とによって構成される音像定位機能を実現する再生部について説明する。
図１４Ｂは再生時の構成を示す図であり、再生部は、データベース１６１と、再生機器情報保存部１６２と、聴取者頭部伝達関数保存部１６３と、再生方法認識部１４７と、位相・振幅補正部１４８１と、周波数時間変換部１４９と、Ｄ−Ａ変換器１７０と、ＬＰＦ１８０と、再生装置１９０と、表示装置２０２とを備える。

再生機器情報保存部１６２は、スピーカ間の距離やスピーカの周波数特性等の再生装置１９０に関する情報を保存する。例えば、携帯電話にヘッドホンを接続して音を再生する場合には、再生機器情報保存部１６２にヘッドホン３０１の左右のスピーカ間の距離とスピーカの周波数特性とが保存されている。

聴取者頭部伝達関数保存部１６３は、ヘッドホン３０１によって音を再生する際に、基準となる利用者別又は利用者のタイプ別の聴取者頭部伝達関数を保存する。なお、頭部伝達関数とは、頭の中心に相当する自由空間上の１点と、耳道内の１点との間の伝達関数のことであり、音が聴取者の頭部、胸部、耳介などでの反射・回折の影響を含むため、身体形状の方向依存性、個人性が強く反映される。そのため、再生時に音源を定位させるために、頭部伝達関数に基づいて音の再生処理をする。

再生方法認識部１４７は、再生指示を受けた際に、再生方法を指定する指示若しくは、再生方法を指定するセンサの情報（図示せず）に基づいて、再生装置１９０に対応した情報を再生機器情報保存部１６２や聴取者頭部伝達関数保存部１６３から取得して、位相・振幅補正部１４８１に出力する。
例えば、録音再生装置１００が携帯電話の場合に、ヘッドホン端子にヘッドホン３０１のプラグが刺さっているか否かを検出するセンサを備え、刺さっている場合には、再生装置１９０をヘッドホン３０１と判別して、スピーカ間の距離は聴取者の両耳間距離に設定したり、聴取者頭部伝達関数を取得する。刺さっていない場合、位相・振幅補正部１４８１は、再生装置１９０を携帯電話に搭載されたスピーカと判別して、携帯電話に搭載されたスピーカ間の距離を設定して処理をしてもよい。また、携帯電話の利用者が音を再生する際に、再生方法を選択する指示を与える構成にしてもよい。

位相・振幅補正部１４８１は、再生する周波数領域のデータ内の主音成分の位相と振幅とを補正して、周波数時間変換部１４９に出力する。
まず、位相・振幅補正部１４８１は、データベース１６１からフレーム毎に主音のインデックスが付された周波数帯域の周波数領域のデータを読み出し、主音毎(主音のインデックスをｉとする）に該主音の音源方向を推定する。次に、位相・振幅補正部１４８１は、再生方法認識部１４７から供給される再生装置１９０のスピーカ配置位置と周波数特性との情報を基に、音源方向に対する各マイクロホンの振幅比と位相差とを表すステアリングベクトルを求める。そして、位相・振幅補正部１４８１は、該ステアリングベクトルに基づいて主音ｉの位相と振幅とを補正する。なお、位相・振幅補正部１４８１が、主音と判別された周波数帯域の周波数領域のデータの位相と振幅とを補正する処理の詳細については、後述する。

周波数時間変換部１４９は、位相・振幅補正部１４８１によって位相と振幅とを補正された各主音の周波数領域のデータと、データベース１６１から読み出した雑音の周波数領域のデータとを重畳加算して、加算された周波数領域のデータをフレーム毎に逆ＦＦＴ処理をして時間領域のデジタル信号に戻し、所定のタイミング毎にＤ−Ａ変換器１７０に出力する。

表示装置２０２は、再生装置１９０によって再生される音のタイミングと同期をして、データベース１６１から録画データを読み出し、再生画像を表示する。例えば、表示装置２０２は、携帯電話のディスプレイや携帯電話に接続されたテレビ等の外部表示装置等である。

（動作）
次に、この録音再生装置１００の動作を説明する。
まず、この録音再生装置１００を録音部として機能させる場合について説明する。
マイクロホンアレイ部１１０によって集音されてから雑音レベル推定部１４２によって各フレームの周波数帯域毎に、周波数領域のデータに含まれる雑音のレベルが推定されるまでの処理（図４のフローチャート）は、実施形態１と同様である。

（雑音・主音判別処理３）
次に、図１６の雑音・主音判別処理３のフローチャートに示すように、雑音・主音判別部１４３によって、各フレームの周波数帯域毎に、周波数領域の信号成分が主音成分か雑音成分かを判別する。
処理対象のフレームを所定の分割数Ｌで分割する。
分割したフレーム群毎(フレーム郡のインデックスをk)に、フレームkに含まれる多チャンネル信号をxk(f,τ)とする場合の共分散行列Rk(f)を数１９によって算出する。
さらに、全てのフレーム郡の共分散行列を足し合わせた行列R(f)=ΣRk(f)を算出して、共分散行列R(f)を更新する（ステップＳ２４１）。

ステップＳ２４１で求めた共分散行列R(f)に対して、R(f)=U(f)ΩU(f)^*を満たす直交行列U(f)を算出する。
なお、Ωは対角行列とし、L(f)=U(f)1/√Ωとする。（ここで、1/√Ωは１をΩの各要素の平方根で割ったものを各要素とする行列のことを言う。）
任意の各フレーム群の共分散行列Rk(f)に対して、L(f)^*Rk(f)L(f)=T(f)ΔT(f)^{*}を満たす関数T(f)を算出して、同時多角化する（ステップＳ２４２）。なおここでは、Δは対角行列とする。

雑音抑圧フィルタW(f)を、W(f)＝L(f)T(f)によって算出し、生成する（ステップＳ２４３）。
なお、W(f)の各行要素をwi(f)とすると、wi(f)はi番目の音源を多チャンネル信号から抽出するための雑音抑圧フィルタを示す。

周波数f1によって得られた分離ベクトルのi番目の要素と周波数f2によって得られた分離ベクトルのi番目の要素とは、必ずしも同じ音源に属するとは限らない。一方、同じ音源に属する周波数成分はパワースペクトルの相関が大きく、パワースペクトルの相関によって、同じ音源に属している成分であるかを判別することができる。
そこで、雑音抑圧フィルタW(f)をフレーム毎の多チャンネル信号と掛け合わせて、分離信号を要素とするベクトルS(f,τ)を算出する。
また、W(f)を逆行列にした各列要素が各音源のステアリングベクトルに相当するベクトルとなることから、分離ベクトルの各要素毎にW(f)を逆行列にした各列要素を掛け合わせて、多チャンネルの分離信号を算出する。
このようなフィルタリング処理により、マイク数と同じ数の多チャンネルの分離信号を得ることができる（ステップＳ２４４）。

この様に、図１６のフローチャートに示した周波数領域の信号を主音か雑音か判別する処理において、各音源毎に他の音源とのパワースペクトルのレベル比率が所定の閾値よりも小さい場合には、雑音成分と判別する。また、パワースペクトルのレベル比率が所定の閾値よりも大きい場合であっても、主音以外の音源のパワースペクトルとの相関が大きい場合についても、雑音と判別する。それ以外の場合に、主音と判別する。
雑音と判別された周波数帯域の周波数領域のデータは、雑音録音処理部１４４２に出力され、主音と判別された周波数帯域の周波数領域のデータは、主音録音処理部１４４１に出力される。但し、同じ周波数帯域に複数の主音があると判別された場合には、主音の周波数帯域の周波数領域のデータが、主音録音処理部１４４１に出力される。

主音録音処理部１４４、雑音録音処理部１４５では、周波数帯域の周波数領域のデータに主音若しくは、雑音を示す情報（ラベル）を付加し、データベース１６１に出力する。
データベース１６１によって、主音の時間領域データと雑音の時間領域データとが録音データとして保存され、録音処理は終了する。
なお、カメラ２０１から供給された録画データに、録音データと同期する情報を付加して、データベース１６１に保存してもよい。

次に、この録音再生装置１００を再生装置として機能させる場合について説明する。
制御装置１４０が再生の指示を受けると、再生方法認識部１４７は、再生機器情報保存部１６２から再生装置１９０のスピーカ間の距離やスピーカの周波数特性等の再生装置１９０に関する情報又は、聴取者頭部伝達関数保存部１６３から聴取者頭部伝達関数を取得して、位相・振幅補正部１４８１に出力する。

次に、位相・振幅補正部１４８１は、図１７のフローチャートに示すように主音の位相と振幅とを補正する。
図１７のフローチャートは、図７のフローチャートの方向推定情報取得処理（ステップＳ４０１）の代わりに方向推定処理（ステップＳ４０４）とする点が異なるが、その他は主音毎に同様の処理をする。これは、実施形態１では、前段階の処理で主音の方向が推定されているので情報を取得するのみでよいが、図１７ではこの段階で主音の方向を推定する必要があるからである。
まず、主音と判別された周波数帯域に１つの主音しかない場合には、該周波数帯域の音源方向θ(f,τ）を前述した図６、図１２及び図１３の何れかのフローチャートに示した処理により求める。主音と判別された周波数帯域に複数の主音がある場合には、主音毎に該周波数帯域の音源方向θ(f,τ）を前述した図６、図１２及び図１３の何れかのフローチャートに示した処理により求める。
次の、補正ステアリングベクトルを取得・算出する処理（ステップＳ４０２）以降は、図７のフローチャートに示した処理と同様の処理をする。
但し、本実施形態の位相・振幅補正部１４８１は、実施形態１の主音振幅・位相補正処理部１４８と異なり、再生装置１９０のスピーカ間の距離やスピーカの周波数特性や聴取者頭部伝達関数等の情報に基づいて、再生装置１９０に対応した主音の位相と振幅とを補正する。
位相・振幅補正部１４８１は、主音のみ位相と振幅とが補正され、再生装置１９０のスピーカの数に対応したチャンネル数の周波数領域のデータを周波数時間変換部１４９に出力する。
なお、１つの周波数帯域に複数の主音がある場合には、補正された主音毎の周波数領域データを加算して、１つの周波数帯域の周波数領域データにする。

次に、周波数時間変換部１４９は、加算後の各チャンネル信号（周波数領域のデータ）を逆ＦＦＴ処理及び重畳加算処理をして時間領域のデジタル信号に戻して、Ｄ−Ａ変換器１７０に出力する。各チャンネルのデジタル信号は、Ｄ−Ａ変換器１７０によって、アナログ信号に変換され、ＬＰＦ１８０によって帯域制限され、再生装置１９０によって音に変換されて出力される。
また、表示装置２０２は、再生された音と同期したタイミングでデータベース１６１から画像情報を読み出し、画像を再生する。

以上説明したように、録音再生装置１００によれば、複数のマイクロホンの間隔が狭い小型録音装置によって収録された音であっても、再生装置１９０のスピーカの位置に合わせて音の位相と振幅とを補正することができ、音源方向を含んだ臨場感が豊かな音を再現することができる。
また、１つの周波数帯域に複数の主音が含まれる場合であっても、主音毎に位相と振幅とを補正することによって、目的となる音を明瞭に再現することができる。
さらに、音を再生する際に、位相と振幅とを補正するため、多様な再生装置に対応して臨場感がある音を再現することができる。

実施形態２においても実施形態１の図１０と同様に、主音の位相と振幅とを補正する処理は、ステアリングベクトルを使用せず簡略した方法によって実現してもよい。
なお、雑音・主音判別部１４３によって、主音毎に音源分離がなされているので、主音毎に処理をする。

次に、本実施形態の雑音・主音判別処理の代替処理を４つ説明する。
（雑音・主音判別処理の別例４）
図１６のフローチャートに示した雑音主音判別処理以外の判別方法について説明する。
図１８のフローチャートに示すように、図１６のフローチャートに示したステップＳ２４１からＳ２４３までの処理をして、雑音抑圧フィルタ（分離フィルタ）W(f)を作成して、これを初期フィルタとする（ステップＳ２４５）。

変化相関関数φ(x)を数２０とし、数２１の演算を所定の回数繰り返して、分離フィルタ（ＩＣＡ（Independent Component Analysis）フィルタ）W(f)を更新する（ステップＳ２４６）。なお、ηは更新係数を示す。

なお、ηは更新係数を示す。

図１６に示されたフローチャートのフィルタリング処理（ステップＳ２４４）と同様に、更新された分離フィルタW(f)をフレーム毎の多チャンネル信号と掛け合わせて、分離信号を要素とするベクトルS(f,τ)を算出する。
また、分離ベクトルの各要素毎にW(f)を逆行列にした各列要素を掛け合わせて、多チャンネルの分離信号を算出して、マイク数と同じ数の多チャンネルの分離信号を得るフィルタリング処理をする（ステップＳ２４７）。
この様に、図１８のフローチャートに示した手段によっても、雑音と主音とを判別することができる。

（再振り分け処理１）
さらに、別の雑音・主音判別処理について説明する。
図１９のフローチャートに示す処理は、図１１の雑音・主音判別処理２のフローチャートに示した再振り分け処理（ステップＳ３００）と置き換えて使用する。この再振り分け処理１に置き換えることにより、音の到来方向が異なる主音毎に周波数領域のデータを分離した出力信号を得ることができる。

まず、ヒストグラムのピーク検出により推定された音源方向θ、及び周波数帯域毎に数２２によって、ステアリングベクトルa(θ,f）を計算する（ステップＳ３０１）。
なお、異なるフレーム間における（時間的に異なる）、同じ周波数の音源方向が、θを基準として所定の範囲内のある音源方向を選択し、平均値を算出して、ステアリングベクトルa(θ,f）を求めてもよい。この方法により、周波数が同じでも異なる方向から到来する音を音源方向から取り除くと共に、音源の移動に対応することができる。

ヒストグラムのピークとして検出され、各音源毎の方向のステアリングベクトルa(θ,f)を列の要素として含む行列Aの擬似逆行列A+を算出する（ステップＳ３０２）。

次に、行列A+と入力信号X(f,τ)とを掛け合わせて、音源毎にS(f,τ)=A⁺X(f,τ)によって示される分離信号S(f,τ）を求める（ステップＳ３０３）。
なお、分離信号S(f,τ）の要素は、ヒストグラムの各ピークとして検出され、主音毎に推定された音源方向を示す信号である。

分離信号S(f,τ)の各要素Si(f,τ)毎に、逆フィルタリングS_θ,_i(f,τ)=S_i(f,τ)a(θ,f)によって、多チャンネル信号So,i(f,τ)を算出する（ステップＳ３０４）。
上記処理により、主音毎に方向が推定された多チャンネル信号が出力される。

（再振り分け処理２）
さらに、別の雑音・主音判別処理について説明する。
図２０のフローチャートに示す処理は、図１１の雑音・主音判別処理２のフローチャートに示した再振り分け処理（ステップＳ３００）と置き換えて使用する。このこの再振り分け処理２に置き換えることにより、音の到来方向が異なる主音毎に周波数領域のデータを分離した信号を得ることができる。

同じ時刻に、複数の入力チャンネル信号を周波数領域に変換して得られた各フレームにおいて、ある周波数の音源方向θを求める。音源方向θが求められたある周波数のヒストグラムの階級が、音源方向θのピーク値を示す階級よりも他の音源方向のピーク値を示す階級に近い場合には、ノイズn(f,τ）とする。
ヒストグラムのピーク値を検出し、推定した音源方向θ毎に数２３によって、雑音共分散行列Rθ(f)を算出する（ステップＳ３１１）。

図１９のフローチャートに示したステアリングベクトルa(θ,f）を計算する処理（ステップＳ３０１）と同様の処理をして、ヒストグラムのピーク検出により推定された音源方向θを計算する（ステップＳ３１２）。

ステップＳ３１１によって求められた雑音共分散行列Rθ(f)と、ステップＳ３１２によって求められたステアリングベクトルa(θ,f）とから数２４によって、雑音抑圧フィルタw(f)を算出し、生成する（ステップＳ３１３）。

音源方向θ毎に雑音抑圧フィルタw(f)を使って、フィルタリング（Sθ(f,τ)=w(f)x(f,τ)）することによって、各フレームの周波数帯域毎の分離信号Sθ(f,τ)を求め、多チャンネル信号を算出する（ステップＳ３１４）。
上記フィルタリング処理により、主音毎に方向が推定された多チャンネル信号が出力される。

（再振り分け処理３）
さらに、別の雑音・主音判別処理について説明する。
図２１のフローチャートに示す処理は、図１１の雑音・主音判別処理２のフローチャートに示した再振り分け処理（ステップＳ３００）と置き換えて使用する。このこの再振り分け処理２に置き換えることにより、音の到来方向が異なる主音毎に周波数領域のデータを分離した信号を得ることができる。

図２０のフローチャートに示した雑音共分散行列Rθ(f)を計算する処理（ステップＳ３１２）と同様の処理をして、雑音共分散行列をする（ステップＳ３２１）。

複数の音入力チャンネル信号の同一フレームの周波数の中で、音源方向がθと推定されたヒストグラムのピークと他のピークとを比較して、音源方向がθと推定されたピークに近い周波数を分離信号Ｓ(f,τ)とする。
ヒストグラムのピーク値を検出し、推定した音源方向θ毎に数２５によって、目的音共分散行列Rs,θ(f)を算出する（ステップＳ３２２）。

ここで、行列Aの固有値のうち最もパワーが大きい固有値を求める演算をeig(A)とし、eig(A)に対応する行列Aの固有ベクトルをeig_vector(A)とする。目的音共分散行列Rs,θ(f)と雑音共分散行列Rθ(f)とからW(f)=eig_vector(R_θ(f)^-1Rs,_θ(f))*によって、雑音抑圧フィルタw(f)を算出し、生成する（ステップＳ３２３）。

図２０のフローチャートに示したフィルタリング（ステップＳ３１４）と同様に、
音源方向θ毎に雑音抑圧フィルタw(f)を使って、Sθ(f,τ)=w(f)x(f,τ)の演算により、各フレームの周波数帯域毎の分離信号Sθ(f,τ)を求め、多チャンネル信号を算出する（ステップＳ３２４）。
上記フィルタリング処理により、主音毎に方向が推定された多チャンネル信号が出力される。

（実施形態３）
実施形態１及び２では、録音再生装置１００の録音・再生機能を切り替えることにより音の位相と振幅とを補正する処理を示した。実施形態３では、録音再生装置１００によって録音した音の位相と振幅とを他の装置で補正する処理について説明する。

図２２に示すように、音情報処理システム５００は、録音用のマイクロホンアレイを備えた携帯電話２００と、サーバ５０１と、音を再生する機能を備えたパソコン５０２とを備え、これらがネットワークによって接続されている。

携帯電話２００は、実施形態２によって説明された録音機能を備え、記憶装置１６０に記憶された録音信号をネットワークを介して、サーバ５０１へ送信する。また、携帯電話２００は、マイクロホン間隔等の録音時の条件若しくは、携帯電話の機種毎の識別番号等を併せて、サーバ５０１へ送信する。

サーバ５０１は、予め再生装置１９０として機能するパソコン５０２のスピーカ配置、聴取者の頭部伝達関数、聴取者情報（嗜好する周波数特性の情報）等のステアリングベクトルを生成するために必要な情報を記憶している。サーバ５０１は、携帯電話２００によって送信された録音信号及び、録音時の条件又は機種毎の識別番号を受信し、記憶している各パソコン５０２に対応した主音の位相と振幅とを補正して、補正された音信号を音を再生するパソコン５０２へ送信する。

パソコン５０２は、ネットワークを介して、サーバ５０１から送信された補正後の音信号を受信して、音を再生する。

上述したように、ネットワークに繋がれたサーバで、主音の位相と振幅とを補正することにより、録音装置と再生装置と共に補正に伴う重い処理をする必要がないので、マイクロホンの間隔が狭い低機能の録音装置によって録音された音でも、音源方向を含んだ臨場感豊かな音を再現することができる。
また、携帯電話によるテレビ電話等でも、臨場感ある音を伝えることができる。

上述した発明は、一つの例であり、下記のような変更形態が考えられる。
録音再生装置１００がカメラ２０１を備える録音装置でテレビ電話機能を実現する際に、画角の中心方向のみを主音の方向として処理してもよい。これにより、システムの負担を軽減することができる。
また、録音再生装置１００は、音源の位相と振幅とを補正する際に、聴取者の好みにあわせて音を再生するための設定手段を備えてもよい。
また、録音再生装置１００が、録音した音の情報を記憶するのではなく、記憶媒体に記憶させたり、記憶媒体から録音した音の情報を読み出して再生してもよい。

その他、前記のハードウエア構成やフローチャートは一例であり、任意に変更及び修正が可能である。

図２３に示すように、音像定位機能を備えた録音再生装置１００又は音情報処理システム５００の処理を行う中心となる部分は、専用のシステムによらず、通常のコンピュータシステムを用いて実現可能である。例えば、前記の動作を実行するためのコンピュータプログラムを、コンピュータが読み取り可能な記録媒体（フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等）に格納して配布し、当該コンピュータプログラムをコンピュータにインストールすることにより、前記の処理を実行する音像定位機能を備えた録音再生装置１００又は音情報処理システム５００を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置に当該コンピュータプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することで音像定位機能を備えた録音再生装置１００又は音情報処理システム５００を構成してもよい。

また、音像定位機能を備えた録音再生装置１００又は音情報処理システム５００を、ＯＳ（オペレーティングシステム）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合等には、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

また、搬送波にコンピュータプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板(BBS, Bulletin Board System)に前記コンピュータプログラムを掲示し、ネットワークを介して前記コンピュータプログラムを配信してもよい。そして、このコンピュータプログラムを起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、前記の処理を実行できるように構成してもよい。

１００・・・録音再生装置、１１０・・・マイクロホンアレイ部、１２０、１８０・・・ＬＰＦ、１３０・・・Ａ−Ｄ変換器、１４０・・・制御装置、１４１・・・時間周波数変換部、１４２・・・雑音レベル推定部、１４３・・・雑音・主音判別部、１４４・・・補正主音・雑音録音処理部、１４６・・・再生処理部、１４７・・・再生方法認識部、１４８・・・主音振幅・位相補正処理部、１４９・・・周波数時間変換部、１５０・・・一時記憶装置、１６０・・・記憶装置、１６１・・・データベース、１６２・・・再生機器情報保存部、１６３・・・聴取者頭部伝達関数保存部、１６４・・・マイク配置情報保存部、１７０・・・Ｄ−Ａ変換器、１９０・・・再生装置、２００・・・携帯電話、２０１・・・カメラ、２０２・・・表示装置、３００・・・ヘッドホン、３０２・・・人間の頭部、４０１・・・リスニングポイント、４０２、４０３、４０４、４０５・・・スピーカ、５００・・・音情報処理システム、５０１・・・サーバ、５０２・・・パソコン、１４４１・・・主音録音処理部、１４４２・・・雑音録音処理部、１４８２・・・録音時マイク配列記憶処理部、１４８１・・・位相・振幅補正部

Claims

音をアナログの電気信号に変換する複数のマイクロホンを有するマイクロホンアレイと、
前記マイクロホンアレイに含まれる各マイクロホンによって変換されたアナログの電気信号をデジタル信号に変換するＡ−Ｄ変換手段と、
所定の時間毎に、前記Ａ−Ｄ変換手段によって変換された各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解手段と、
前記時間周波数分解手段によって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段とを備える、
ことを特徴とする録音装置。
前記時間周波数分解手段によって分解された周波数帯域毎にその強度を示す信号が所定のレベル未満であることに応答して、雑音成分と判別し、所定のレベル以上であることに応答して、音源から到来した主音成分と判別する成分判別手段を備え、
前記補正手段は、前記成分判別手段によって、主音成分と判別された周波数帯域の信号に対してのみ位相と振幅とを補正する、
ことを特徴とする請求項１に記載の録音装置。
前記補正手段によって主音成分の位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の前記音出力手段の数に対応したデジタル信号を生成する音出力チャンネル信号生成手段と、
前記音出力チャンネル信号生成手段によって生成された複数のデジタル信号を記憶する記憶手段とを備える、
ことを特徴とする請求項２に記載の録音装置。
前記取得手段が取得する補正情報は、前記音出力装置の各音出力手段の距離に基づいて計算され、前記音到来方向特定手段によって音の到来する方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号の位相を補正するステアリングベクトル又は、音を聴取する聴取位置を中心とした円周上に位置する各方向の音源から到来する音を測定し、測定された音の特性と各前記音出力手段の特性とに基づいて求められたたステアリングベクトルであり、
前記記憶手段は、前記取得手段が取得した補正情報をさらに記憶し、
前記補正手段は、前記音到来方向特定手段によって周波数帯域毎に特定された音の到来する方向と、前記記憶手段に記憶された補正情報とに基づいて、各前記主音成分の位相と振幅とを補正する、
ことを特徴とする請求項３に記載の録音装置。
前記成分判別手段は、
周波数帯域毎に同一の前記マイクロホンによって過去に取得された信号の強度と現在の信号の強度とを基にして、雑音のレベルを示す雑音レベルを算出する雑音レベル算出手段と、
前記時間周波数分解手段によって分解された周波数帯域毎にその強度を示す信号が前記雑音レベル算出手段によって算出された雑音レベル以上か未満かを判別するレベル判別手段と、
前記レベル判別手段により所定のレベル未満と判別されたことに応答して、該周波数帯域を雑音成分とし、所定のレベル以上と判別されたことに応答して、周波数帯域毎に各前記マイクロホンのデジタル信号間に相互に関連があるかを判別する相関関係判別手段と、
前記相関関係判別手段により相互に関連がないと判別されたことに応答して、該周波数帯域を雑音成分とし、相互に関連があると判別されたことに応答して、該周波数帯域を空間上の音源から到来した主音成分と判別する雑音主音判別手段とを備える、
ことを特徴とする請求項２乃至４の何れか１項に記載の録音装置。
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音取得手段によって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段と、
前記補正手段によって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成手段と、
前記出力チャンネル信号生成手段によって生成された周波数帯域毎に分解された各デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換手段と、
前記周波数時間変換手段によって変換された時間帯域毎に分割された各デジタル信号をアナログの電気信号に変換するＤ−Ａ変換手段とを備え、
前記音出力手段は、前記Ｄ−Ａ変換手段によって変換された電気信号を音に変換する、ことを特徴とする再生装置。
複数の音取得手段によって取得された音をアナログの電気信号に変換する音変換ステップと、
前記音変換ステップによって変換されたアナログの電気信号をデジタル信号に変換するＡ−Ｄ変換ステップと、
所定の時間毎に、前記Ａ−Ｄ変換ステップによって変換された各マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解ステップと、
前記時間周波数分解ステップによって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定ステップと、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正ステップとを含む、
ことを特徴とする録音方法。
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得ステップと、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音取得ステップによって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定ステップと、
前記取得ステップによって取得された補正情報に基づいて、前記音到来方向特定ステップによって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正ステップと、
前記補正ステップによって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成ステップと、
前記出力チャンネル信号生成ステップによって生成された周波数帯域毎に分解された各前記デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換ステップと、
前記周波数時間変換ステップによって変換された時間帯域毎に分割された各前記デジタル信号をアナログの電気信号に変換するＤ−Ａ変換ステップと、
前記Ｄ−Ａ変換ステップによって変換された電気信号を音に変換する複数の各前記音出力手段に音を出力させる音出力ステップとを含む、
ことを特徴とする再生方法。
複数のマイクロホンを備えたコンピュータを、
音をアナログの電気信号に変換する複数のマイクロホンを有するマイクロホンアレイと、
前記マイクロホンアレイに含まれる各マイクロホンによって変換されたアナログの電気信号をデジタル信号に変換するＡ−Ｄ変換手段と、
所定の時間毎に、前記Ａ−Ｄ変換手段によって変換された各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解する時間周波数分解手段と、
前記時間周波数分解手段によって分解された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
音出力装置の各音出力手段の位置関係に基づき、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段として機能させる、
ことを特徴とするコンピュータプログラム。
複数のスピーカを備えたコンピュータを、
音出力装置の各音出力手段の位置関係に基づき、周波数帯域毎に録音装置の各マイクロホンのデジタル信号間の位相を各前記音出力手段の位置に対応させて補正する補正情報を取得する取得手段と、
前記録音装置の各マイクロホンにより集音され、所定の時間毎に各前記マイクロホンのデジタル信号を周波数帯域毎にその強度を示す信号に分解されたデジタル信号を取得する音取得手段と、
前記取得手段によって取得された補正情報に基づいて、前記音取得手段によって取得された周波数帯域毎に分解された各前記デジタル信号を読み出し、周波数帯域毎に各前記マイクロホンのデジタル信号間の位相差を求めて、音の到来方向を特定する音到来方向特定手段と、
前記取得手段によって取得された補正情報に基づいて、前記音到来方向特定手段によって音の到来方向が特定された周波数帯域毎に各前記マイクロホンのデジタル信号間の位相を補正する補正手段と、
前記補正手段によって位相が補正された各前記マイクロホンのデジタル信号に基づいて、複数の各前記音出力手段の数に対応する複数の周波数帯域毎に分解されたデジタル信号を生成する出力チャンネル信号生成手段と、
前記出力チャンネル信号生成手段によって生成された周波数帯域毎に分解された各前記デジタル信号を合成して、時間帯域毎に分割された各デジタル信号に変換する周波数時間変換手段と、
前記周波数時間変換手段によって変換された時間帯域毎に分割された各前記デジタル信号をアナログの電気信号に変換するＤ−Ａ変換手段と、
前記音出力手段は、前記Ｄ−Ａ変換手段によって変換された電気信号を音に変換するように機能させる、
ことを特徴とするコンピュータプログラム。