JP2010187363A

JP2010187363A - 音響信号処理装置及び再生装置

Info

Publication number: JP2010187363A
Application number: JP2009264565A
Authority: JP
Inventors: Masahiro Yoshida; 昌弘吉田; Tomoki Oku; 智岐奥; Makoto Yamanaka; 誠山中
Original assignee: Sanyo Electric Co Ltd
Current assignee: Sanyo Electric Co Ltd
Priority date: 2009-01-16
Filing date: 2009-11-20
Publication date: 2010-08-26
Also published as: US20100185308A1; CN101800919A

Abstract

【課題】必要音源の音量と不要音源の音量をバランス良く調整する。
【解決手段】音源分離部１１は、複数のマイクロホンの検出信号から第１〜第ｎの方向に位置する第１〜第ｎの音源からの音響信号を第１〜第ｎの単位音響信号として分離抽出する。音種検出部１２は、単位音響信号ごとに対応音源の種類を検出する。例えば、各音源が、人の声、音楽、雑音の何れであるかを検出する。音量検出部１３は、単位音響信号の帯域を第１〜第８サブ帯域に分割し、サブ帯域ごとに各単位音響信号の信号レベルを検出する。音量制御量決定部１４及び音量制御部１５は、録音装置の前方及び後方に位置する音源を必要音源及び不要音源とみなし、第１〜第ｎの方向と音種検出部１２及び音量検出部１３の検出結果に基づき、単位音響信号ごとに且つサブ帯域ごとに増幅量を決定して単位音響信号の信号増幅を行うことにより各音源の音量を調整する。
【選択図】図３

Description

本発明は、音響信号を処理する音響信号処理装置及び音響信号を再生する再生装置に関する。また、該音響信号処理装置を利用する録音装置、再生装置又は撮像装置などに関する。

音響信号を記録可能な録音装置（ＩＣレコーダ等）や撮像装置（デジタルビデオカメラ等）では、記録すべき音響信号の信号レベルが略一定レベルに保たれるように該信号レベルを補正する制御が採用されることが多い。この制御は、一般的に、オートゲインコントロール（以下、ＡＧＣと呼ぶ）又はオートレベルコントロール（以下、ＡＬＣと呼ぶ）と呼ばれる。

ＡＧＣ又はＡＬＣでは、入力音響信号を増幅することによって出力音響信号を生成するようにしておき、出力音響信号の電圧振幅を概ね一定振幅に保つ制御を行う。図２０に示す如く入力音響信号の電圧振幅が変化した際は、出力音響信号の電圧振幅が、再度、上記の一定振幅に向かうように徐々に入力音響信号に対する増幅量（増幅度）を変化させる。このようなＡＧＣ又はＡＬＣにおける信号処理は、時間領域（time domain）上にて実行される。

ＡＧＣ又はＡＬＣを利用した従来方法として、前方向音響信号と後方向音響信号の出力最大値から前方向音響信号と後方向音響信号の各音量のバランスを制御する方法（以下、第１従来方法と呼ぶ）が開示されている（例えば、特許文献１参照）。

また、細分化された周波数帯域別に音量制御を行うことにより、花火などの特定周波数の大音量音に全体の音量が左右されないようにする方法（以下、第２従来方法と呼ぶ）も一般的に知られている。

特開２００８−１５３７８８号公報

しかしながら、第１従来方法では、前方向音響信号が人の声などの必要な音であって、後方向音響信号が雑音などの不要な音である場合でも、双方の音量が同一尺度で調整されるため、かえって必要な音が聴き取りにくくなることがある。

また、第２従来方法によれば、不要な音（花火の音に対応）に対応する特定周波数の信号成分を低減することができるが、不要な音と必要な音の周波数が重複する場合には、必要な音の信号成分も低減されてしまう。

必要と考えられる音源の音量と不要と考えられる音源の音量が適切に調整されたならば、ユーザにとってメリットが大きい。

ユーザの操作負担等を考慮すれば、音量等の調整を、録音装置や再生装置等に設けられた音響信号処理装置側で自動的に成すことも有益である。しかしながら、どの方向から到来したどのような音が必要／不必要であるかは、その時々の、ユーザの要望によって変化する。故に、このようなユーザ要望に応えることも肝要であり、その際、必要／不必要の判断を補助する情報をユーザに提示することも重要である。

他方、特定の音源の音を記録音響信号から抽出又は強調して聴くことを、ユーザは時として望む。例えば、子供の演劇発表会等の音を録音する場合、多数の人物の発話音や音楽等が録音されるが、舞台において歩き回る特定人物（録音者の子供等）の発話音だけを記録音響信号から抽出して再生したい場合もある。この際、記録音響信号に対して指向性制御を行えば、特定方向からの音だけを抽出して再生することも可能である。しかしながら、音源としての上記特定人物が様々に移動したならば（或いは上記特定人物が静止していても録音中に録音装置が動いていたならば）、指向性制御を伴った記録音響信号の再生中に上記特定人物の発話音が指向性方向からはずれて、特定人物の発話音が再生音から省かれてしまう。このような事態の発生を回避可能な技術の開発が希望される。

そこで本発明は、必要と考えられる音源の音量と不要と考えられる音源の音量を適切に調整可能な音響信号処理装置を提供することを目的とする。また本発明は、その音響信号処理装置を利用した機器を提供することを目的とする。

また本発明は、入力音響信号に関する情報を提供しつつユーザ要望に応える再生音を再生可能な再生装置を提供することを目的とする。また本発明は、特定の音源からの音を追尾するような再生を可能とする再生装置を提供することを目的とする。

本発明に係る音響信号処理装置は、複数の音源からの音を収音することで得られた対象音響信号を出力する信号出力部と、各音源の方向又は位置と各音源の種類とに応じて、前記対象音響信号における各音源の音量を調整する音量制御部と、を備えたことを特徴とする。

音響信号処理装置を録音装置等に組み込むことができるが、上記の如く音響信号処理装置を構成することにより、録音装置等にとっての必要音源が存在すべき方向（例えば、録音装置の前方）にある音源の音量を比較的大きくしたり、非注目音源が存在すべき方向（例えば、録音装置の後方）にある音源の音量を比較的小さくしたりすることができる。また、音源の種類に応じて音量調整を行うことにより、必要と考えられる音源（例えば人の声）の音量を比較的大きくしたり、不要と考えられる音源（例えば雑音源）の音量を比較的小さくしたりすることが可能となる。結果、必要な音の聴き取りやすい音響信号を生成することが可能となる。

具体的には例えば、前記複数の音源が第１〜第ｎの音源から成り（ｎは２以上の整数）、前記対象音響信号は、前記第１〜第ｎの音源に対応する、互いに分離された第１〜第ｎの単位音響信号を含み、前記第１〜第ｎの単位音響信号は、互いに異なる位置に配置された複数のマイクロホンの検出信号から抽出される、又は、前記第１〜第ｎの音源からの音を個別に収音することで得られる。

即ち例えば、前記第１〜第ｎの単位音響信号は、前記複数のマイクロホンの検出信号から抽出され、前記信号出力部は、前記複数のマイクロホンの検出信号から、第１〜第ｎの方向より到来する音の信号成分が強調された指向性を有するｎ個の音響信号を前記第１〜第ｎの単位音響信号として生成及び出力し、前記音量制御部は、前記第１〜第ｎの音源の方向を表す前記第１〜第ｎの方向と各音源の種類とに応じて、前記対象音響信号における各音源の音量を調整する。

或いは例えば、前記第１〜第ｎの単位音響信号は、前記第１〜第ｎの音源からの音を個別に収音することで得られ、各音源の方向又は位置は、前記第１〜第ｎの音源からの音を個別に収音するための各マイクロホンの指向性又は設置位置から定まる。

また具体的には例えば、各単位音響信号に基づいて各単位音響信号の音源の種類を判断する音種検出部と、各単位音響信号の信号レベルを検出する音量検出部と、を更に備え、前記音量制御部は、各音源の方向又は位置と、前記音種検出部によって判断された各音源の種類と、前記音量検出部によって検出された信号レベルとに基づいて、各単位音響信号の信号レベルを個別に調整することにより前記対象音響信号における各音源の音量を調整する。

また例えば、前記音量制御部において、各単位音響信号の帯域は複数のサブ帯域に分割され、サブ帯域ごとに、各単位音響信号の信号レベルが個別に調整される。

そして例えば、上記の音響信号処理装置を備え、前記音響信号処理装置の音量制御部による音量調整後の対象音響信号、又は、その音量調整後の対象音響信号に基づく音響信号を、出力音響信号として記録又は再生する機器を形成するとよい。

例えば、前記機器には、前記出力音響信号の記録を行う録音装置、前記出力音響信号の再生を行う再生装置、または、撮影画像の画像信号とともに前記出力音響信号の記録若しくは再生を行う撮像装置が含まれる。

本発明に係る再生装置は、複数の音源からの音を収音することで得られた入力音響信号に基づく出力音響信号を音として再生する再生装置において、音の到来方向ごとに前記入力音響信号を解析することにより、前記到来方向ごとに音の特性を表す特性情報を生成する音特性解析部と、前記特性情報を当該再生装置の外部に対して報知する報知部と、音の到来方向として存在する、互いに異なる第１〜第ｍの到来方向の内、何れか１以上の到来方向を指定する方向指定操作を含む入力操作を外部から受け付ける操作受付部と（ｍは２以上の整数）、前記入力操作に応じた信号処理を前記入力音響信号に施すことで前記出力音響信号を生成する信号処理部と、を備えたことを特徴とする。

これにより、入力操作を介してユーザ要望に応じた再生音を再生することが可能となる。この際、到来方向ごとの特性情報が報知されるため、ユーザは、この報知の内容を見た上で所望の入力操作を成し、所望の再生音を再生させることが可能となる。

具体的には例えば、前記信号処理部は、前記入力操作にて指定された到来方向からの信号成分を前記入力音響信号から抽出することで前記出力音響信号を生成する、或いは、前記入力操作にて指定された到来方向からの信号成分を強調又は減衰させる信号処理を前記入力音響信号に施すことで前記出力音響信号を生成する、或いは、前記入力音響信号に含まれる各到来方向からの信号成分を、前記入力操作に応じて混合することで前記出力音響信号を生成する。

本発明に係る他の再生装置は、複数の音源からの音を収音することで得られた入力音響信号に基づく出力音響信号を音として再生する再生装置において、音の到来方向ごとに前記入力音響信号を解析することにより、前記到来方向ごとに音の特性を表す特性情報を生成する音特性解析部と、音の到来方向として存在する、互いに異なる第１〜第ｍの到来方向の中から何れか１以上の到来方向を選択し、選択到来方向からの信号成分を前記入力音響信号から抽出する信号処理又は選択到来方向からの信号成分を強調する信号処理を前記入力音響信号に対して施すことで、前記出力音響信号を生成する信号処理部と（ｍは２以上の整数）、を備え、前記信号処理部は、選択する到来方向を前記特性情報に応じて切り替えることを特徴とする。

抽出又は強調される音の到来方向を、到来方向ごとの特性情報に基づいて切り替えるようにすれば、特定の音源（特定の特性を有する音）を追尾するように再生するといったことが可能となる。

具体的には例えば、上記他の再生装置において、前記入力音響信号の全区間は、互いに異なる第１及び第２区間を含み、前記信号処理部は、特定の特性を有する音の信号成分の到来方向が前記第１及び第２区間における選択到来方向に共通して含まれるように、前記第１及び第２区間における前記入力音響信号の特性情報に基づいて前記第１及び第２区間における選択到来方向を決定する。

本発明に係る更に他の再生装置は、複数の音源からの音を個別に収音することで得られた複数の単位音響信号を含む入力音響信号から出力音響信号を生成し、該出力音響信号を音として再生する再生装置において、各単位音響信号を解析することにより、前記単位音響信号ごとに音の特性を表す特性情報を生成する音特性解析部と、前記特性情報を当該再生装置の外部に対して報知する報知部と、前記複数の単位音響信号の内、何れか１以上の単位音響信号を指定する指定操作を含む入力操作を外部から受け付ける操作受付部と（ｍは２以上の整数）、前記入力操作に応じた信号処理を前記入力音響信号に施すことで前記出力音響信号を生成する信号処理部と、を備えたことを特徴とする。

これにより、入力操作を介してユーザ要望に応じた再生音を再生することが可能となる。この際、単位音響信号ごとの特性情報が報知されるため、ユーザは、この報知の内容を見た上で所望の入力操作を成し、所望の再生音を再生させることが可能となる。

具体的には例えば、前記他の再生装置において、前記信号処理部は、前記入力操作にて指定された単位音響信号を前記入力音響信号から抽出することで前記出力音響信号を生成する、或いは、前記入力操作にて指定された単位音響信号を強調又は減衰させる信号処理を前記入力音響信号に施すことで前記出力音響信号を生成する、或いは、前記入力音響信号に含まれる各単位音響信号からの信号成分を、前記入力操作に応じて混合することで前記出力音響信号を生成する。

また例えば、上記の各再生装置において、各特性情報（前記到来方向ごとの特性情報又は前記単位音響信号ごとの特性情報）は、音の音量を表す音量情報、音の種類を表す音種情報、音に人の声が含まれているか否かを表す人声有無情報、及び、音が人の声である場合における話者を表す話者情報の内、何れか１以上の情報を含む。

本発明によれば、必要と考えられる音源の音量と不要と考えられる音源の音量を適切に調整可能な音響信号処理装置及び機器を提供することが可能となる。また、入力音響信号に関する情報を提供しつつユーザ要望に応える再生音を再生可能な再生装置を提供することが可能となる。また、特定の音源からの音を追尾するような再生を可能とする再生装置を提供することが可能となる。

本発明の意義ないし効果は、以下に示す実施の形態の説明により更に明らかとなろう。ただし、以下の実施の形態は、あくまでも本発明の一つの実施形態であって、本発明ないし各構成要件の用語の意義は、以下の実施の形態に記載されたものに制限されるものではない。

本発明の第１実施形態に係る２つのマイクロホンの位置関係を示す図である。２つのマイクロホンとの関係において、空間を６つのエリアに分割した様子を示す図である。本発明の第１実施形態に係る音響信号処理装置の内部ブロック図である。図３の音源分離部の内部ブロック図の一例である。音源の配置例を示す図である。デジタル音響信号がフレームを単位として分割される様子を示す図である。人の声による音響信号の周波数スペクトルの例を示す図である。離散フーリエ変換によって得られた周波数スペクトルの例を示す図である。時間領域上のデジタル音響信号に対して基準ブロックと評価ブロックが設定される様子を示す図である。周期的に所定の閾値を超える自己相関値を示す図である。雑音の周波数スペクトルの時間変化を示す図である。音響信号の帯域を８つのサブ帯域に分割する様子を示す図である。図３の音量制御量決定部による上限増幅量決定処理を説明するため図である。空間上に複数の音源が散在している様子を示す図である。正面音響信号に対する増幅量の算出手順フローチャートである。非正面音響信号に対する増幅量の算出手順フローチャートである。本発明の第１実施形態に係る録音装置の概略ブロック図である。本発明の第１実施形態に係る音響信号再生装置の概略ブロック図である。本発明の第１実施形態に係る撮像装置の概略ブロック図である。従来技術に係り、オートゲインコントロール又はオートレベルコントロールの処理内容を表す図である。本発明の第４実施形態に係る録再装置の概略ブロック図である。本発明の第４実施形態に係り、音響信号処理装置の内部ブロック図を含む、録再装置の一部ブロック図である。図２２の信号分離部の内部ブロック図である本発明の第４実施形態にて定義される、複数のエリア等を説明するための図である。本発明の第４実施形態にて定義される、複数のエリア等を説明するための図である。本発明の第４実施形態に係る特性情報の構成を示す図である。本発明の第４実施形態に係り、表示部にて表示される画像を示す図である。本発明の第４実施形態に係り、表示部にて表示される音源アイコンを示す図である。本発明の第４実施形態に係り、表示画像の第１及び第２例を示す図である。本発明の第４実施形態に係り、全区間、特定区間、第１区間及び第２区間の意義を説明するための図である。本発明の第４実施形態に係り、発話中の人物に対応する音源アイコンが点灯している様子を示す図である。本発明の第４実施形態に係り、表示部にて表示される他の画像を示す図である。複数の音響信号の合成処理の概念図である。本発明の第４実施形態に係り、所望方向の音響信号の音量を増減する操作を説明するための図である。本発明の第４実施形態に係り、或る特定のエリアを拡大する操作を説明するための図である。本発明の第４実施形態に係り、音源追尾機能の実現時における録再装置の動作フローチャートである。本発明の第４実施形態に係り、音源追尾機能の処理内容を説明するための図である。本発明の第４実施形態に適用可能な応用技術を説明するための図である。本発明の第５実施形態に係り、音響信号処理装置の内部ブロック図を含む、録再装置の一部ブロック図である。本発明の第５実施形態に係り、表示部にて表示される画像を示す図である。

以下、本発明の実施の形態につき、図面を参照して具体的に説明する。参照される各図において、同一の部分には同一の符号を付し、同一の部分に関する重複する説明を原則として省略する。第１実施形態は、他の実施形態の基本となる実施形態であり、第１実施形態にて述べられた事項は、矛盾なき限り他の実施形態にも適用される。また、矛盾なき限り、或る実施形態に記載した事項と他の実施形態に記載した事項とを組み合わせて実施することも可能である。

＜＜第１実施形態＞＞
本発明の第１実施形態を説明する。まず、図１を参照して、後述の音響信号処理装置に利用可能なマイクロホン１Ｌ及び１Ｒの位置関係を説明する。

今、互いに直交するＸ軸及びＹ軸を座標軸として有する二次元の座標面を想定する。Ｘ軸とＹ軸は原点Ｏにて直交する。原点Ｏを基準として、Ｘ軸の正の方向側を右側、Ｘ軸の負の方向側を左側、Ｙ軸の正の方向側を前方側、Ｙ軸の負の方向側を後方側とする。Ｙ軸の正方向が主たる音源が存在すべき方向である。

マイクロホン１Ｌ及び１ＲはＸ軸上の互いに異なる位置に配置されている。マイクロホン１Ｌは原点Ｏから左側に距離ｌだけ離れた位置に配置され、マイクロホン１Ｒは原点Ｏから右側に距離ｌだけ離れた位置に配置されている。距離ｌは、例えば数ｃｍ（センチメートル）である。また、原点ＯからＸＹ座標面上の第１、第２、第３及び第４象限に向かって伸びる４つの線分を、夫々、２Ｒ、２Ｌ、２ＳＬ及び２ＳＲにて参照する。線分２ＲはＹ軸に対して時計回り方向に３０°だけ傾いており、線分２ＬはＹ軸に対して反時計回り方向に３０°だけ傾いている。線分２ＳＲはＹ軸に対して反時計回り方向に４５°だけ傾いており、線分２ＳＬはＹ軸に対して時計回り方向に４５°だけ傾いている。

今、図２に示す如く、Ｘ軸及びＹ軸並びに線分２Ｒ、２Ｌ、２ＳＬ及び２ＳＲを境界としてＸＹ座標面を６つのエリア３Ｃ、３Ｌ、３ＳＬ、３Ｂ、３ＳＲ及び３Ｒに分割して考える。エリア３Ｃは、線分２Ｒ及び２Ｌ間に挟まれた、ＸＹ座標面の第１及び第２象限の一部エリアである。エリア３Ｌは、線分２Ｌ及びＸ軸間に挟まれた、ＸＹ座標面の第２象限の一部エリアである。エリア３ＳＬは、Ｘ軸及び線分２ＳＬ間に挟まれた、ＸＹ座標面の第３象限の一部エリアである。エリア３Ｂは、線分２ＳＬ及び２ＳＲ間に挟まれた、ＸＹ座標面の第３及び第４象限の一部エリアである。エリア３ＳＲは、線分２ＳＲ及びＸ軸間に挟まれた、ＸＹ座標面の第４象限の一部エリアである。エリア３Ｒは、Ｘ軸及び線分２Ｒ間に挟まれた、ＸＹ座標面の第１象限の一部エリアである。

マイクロホン１Ｌは、自身が収音した音を電気信号に変換して該音を表す検出信号を出力する。マイクロホン１Ｒは、自身が収音した音を電気信号に変換して該音を表す検出信号を出力する。これらの検出信号は、アナログ音響信号である。マイクロホン１Ｌ及び１Ｒの検出信号であるアナログ音響信号は、夫々、図示されないＡ／Ｄ変換器によってデジタル音響信号に変換される。このＡ／Ｄ変換器における、アナログ音響信号からデジタル音響信号に変換する際のサンプリング周波数は４８ｋＨｚ（キロヘルツ）であるとする。マイクロホン１Ｌ及び１Ｒとして、指向性を有さない無指向性マイクロホンを採用することができる。

マイクロホン１Ｌを左チャンネルに対応させ、マイクロホン１Ｒを右チャンネルに対応させて考える。マイクロホン１Ｌ及び１Ｒの検出信号をデジタル変換することによって得たデジタル音響信号を、夫々、原信号Ｌ及び原信号Ｒと呼ぶ。原信号Ｌ及びＲは、時間領域（time domain）上の信号である。

図３に、第１実施形態に係る音響信号処理装置１０の内部ブロック図を示す。音響信号処理装置１０は、空間上に散在する複数の音源からの音を収音することで得られた音響信号であって各音源からの信号を分離抽出した音響信号を生成及び出力する音源分離部１１と、音源分離部１１からの音響信号に基づいて各音源の種類を検出する音種検出部１２と、音源分離部１１からの音響信号に基づいて各音源の音量を検出する音量検出部１３と、音種検出部１２及び音量検出部１３の検出結果に基づいて各音源の音量に対する増幅量を決定する音量制御量決定部１４と、その決定内容に従って音源分離部１１の出力音響信号に含まれる各音源の信号レベルを調整することにより各音源の音量を調整する音量制御部１５と、を備える。

音源分離部１１から出力される音響信号は、上述の如く、音量制御部１５による信号レベル調整により補正される。よって、音源分離部１１から出力される音響信号を、便宜上、対象音響信号と呼び、対象音響信号に対して上記信号レベル調整を行うことで得られる、音量制御部１５の出力音響信号を、便宜上、補正音響信号と呼ぶ。

対象音響信号は、第１の音源からの音を表す第１の単位音響信号と、第２の音源からの音を表す第２の単位音響信号と、・・・、第（ｎ−１）の音源からの音を表す第（ｎ−１）の単位音響信号と、第ｎの音源からの音を表す第ｎの単位音響信号と、を含む音響信号である。ここで、ｎは２以上の整数である。実空間に見立てたＸＹ座標面上に第１〜第ｎの音源が散在しているものとする。

［音源分離部］
音源分離部１１は、各音源についての単位音響信号を生成及び出力する。例えば、音源分離部１１は、複数のマイクロホンの検出信号に基づき、特定の方向から到来した音の信号成分を指向性制御によって強調することにより各単位音響信号を生成することができる。指向性制御の方法として様々な方法が既に提案されており、音源分離部１１は、公知の方法を含む任意の指向性制御方法（例えば、特開２０００−８１９００号公報、特開平１０−３１３４９７号公報に記載の方法）を用いて各単位音響信号を生成することができる。

より具体的な例として、マイクロホン１Ｌ及び１Ｒの検出信号である原信号Ｌ及びＲから各単位音響信号を生成する方法を説明する。図４は、図３の音源分離部１１として利用可能な音源分離部１１ａの内部ブロック図である。音源分離部１１ａは、ＦＦＴ部２１Ｌ及び２１Ｒ、比較部２２、不要帯域除去部２３［１］〜２３［ｎ］並びにＩＦＦＴ部２４［１］〜２４［ｎ］を備える。

ＦＦＴ部２１Ｌ及び２１Ｒは、時間領域上の信号である原信号Ｌ及びＲに対して離散フーリエ変換を行うことにより、周波数領域（frequency domain）上の信号である左及び右チャンネルの周波数スペクトルを算出する。離散フーリエ変換により、原信号Ｌ及びＲの周波数帯域が複数の周波数帯域に細分化されることになるが、細分化によって得られた帯域の夫々が１つの音源からの音響信号成分しか含まない程度に、ＦＦＴ部２１Ｌ及び２１Ｒの離散フーリエ変換における周波数標本間隔が設定される。このような設定を行うことで、複数音源の音響信号を含む信号より各音源の音響信号成分を分離抽出することが可能となる。細分化された各周波数帯域を、以下、細分化帯域と呼ぶ。

比較部２２は、ＦＦＴ部２１Ｌ及び２１Ｒによる離散フーリエ変換の結果を表すデータに基づき、細分化帯域ごとに、当該細分化帯域における左及び右チャンネルの信号成分の位相を算出する。そして、各細分化帯域を個別に着目し、着目した細分化帯域における左右チャンネル間の位相差に基づいて、その細分化帯域における信号の主成分が何れの方向から到来したものであるのかを判定する。この判定を全ての細分化帯域に対して実行した後、信号の主成分が第ｉの方向から到来したと判定された細分化帯域を第ｉの必要帯域として設定する。信号の主成分が第ｉの方向から到来したと判定された細分化帯域が複数個ある場合は、その複数の細分化帯域の合成帯域を第ｉの必要帯域に設定する。この設定処理は、ｉ＝１、２、・・・（ｎ−１）、ｎの夫々に対して実行され、結果、第１〜第ｎの方向に対応する第１〜第ｎの必要帯域が設定される。

不要帯域除去部２３［１］は、第１の必要帯域に属さない細分化帯域を不要帯域とみなし、ＦＦＴ部２１Ｌによって算出された周波数スペクトルの内、不要帯域の信号レベルを一定量低減する。例えば、この低減にて、不要帯域の信号レベルを電圧比で１２ｄＢ（デシベル）だけ低下させる。不要帯域除去部２３［１］において、第１の必要帯域の信号レベルは低下せしめられない。ＩＦＦＴ部２４［１］は、逆離散フーリエ変換を用いて、不要帯域除去部２３［１］による信号レベル低減後の周波数スペクトルを時間領域上の信号に変換し、この変換によって得られた信号を第１の単位音響信号として出力する。尚、信号レベルとは、注目した信号のパワーを表す。但し、信号レベルを、注目した信号の振幅と捉えることも可能である。

不要帯域除去部２３［２］〜２３［ｎ］及びＩＦＦＴ部２４［２］〜２４［ｎ］についても同様である。即ち例えば、不要帯域除去部２３［２］は、第２の必要帯域に属さない細分化帯域を不要帯域とみなし、ＦＦＴ部２１Ｌによって算出された周波数スペクトルの内、不要帯域の信号レベルを一定量低減する。例えば、この低減にて、不要帯域の信号レベルを電圧比で１２ｄＢだけ低下させる。不要帯域除去部２３［２］において、第２の必要帯域の信号レベルは低下せしめられない。ＩＦＦＴ部２４［２］は、逆離散フーリエ変換を用いて、不要帯域除去部２３［２］による信号レベル低減後の周波数スペクトルを時間領域上の信号に変換し、この変換によって得られた信号を第２の単位音響信号として出力する。

このようにして得られた第ｉの単位音響信号は、マイク部にて収音された、第ｉの音源からの音のみを表す音響信号である（但し、誤差等を無視）。ｉは、１、２、・・・（ｎ−１）又はｎである。今の例において、マイク部はマイクロホン１Ｌ及び１Ｒから成る。第１〜第ｎの単位音響信号は、それぞれ第１〜第ｎの音源の音響信号として、音源分離部１１ａから出力される。

第ｉの方向（第ｉの音源の方向）及びそれに関連して述べられる方向とは、原点Ｏを基準とする方向を指す（図１参照）。第１〜第ｎの方向は、注目した音源から原点Ｏに向かう方向であり、第１〜第ｎの方向は互いに異なる。例えば、図５に示す如く、エリア３Ｃ内に第１の音源としての音源４Ｃが位置すると共にエリア３Ｌ内に第２の音源としての音源４Ｌが位置している場合、音源４Ｃから原点Ｏに向かう方向が第１の方向であると共に音源４Ｌから原点Ｏに向かう方向が第２の方向であり、音源分離部１１ａによって音源４Ｃ及び４Ｌからの音の表す音響信号が第１及び第２の単位音響信号として別々に抽出される。第ｉの方向は或る程度の幅を持った方向であると解釈することができ、例えば、エリア３Ｃ内の任意の点から原点Ｏに向かう方向及びエリア３Ｌ内の任意の点から原点Ｏに向かう方向を夫々第１及び第２の方向と解釈することができる。

尚、音源分離部１１ａでは、不要帯域の信号レベルを低減することによって各単位音響信号を生成しているが、必要帯域の信号レベルを増大させることによって、或いは、不要帯域の信号レベルを低減させ且つ必要帯域の信号レベルを増大させることによって各単位音響信号を生成するようにしてもよい。また、左右チャンネル間の位相差の代わりに、左右チャンネル間のパワー差を用いて上述と同様の処理を行っても良い。また、音源分離部１１ａでは、ｎ個の単位音響信号を生成するためにｎ組の不要帯域除去部及びＩＦＦＴ部を設けているが、１組の不要帯域除去部及びＩＦＦＴ部に対して複数の単位音響信号を割り当てて１組の不要帯域除去部及びＩＦＦＴ部を時分割で用いるようにすれば、不要帯域除去部及びＩＦＦＴ部の組数をｎ個未満とすることもできる。また、音源分離部１１ａでは、２つのマイクロホンの検出信号に基づいて各単位音響信号を生成しているが、互いに異なる位置に配置された３つ以上のマイクロホンの検出信号に基づいて各単位音響信号を生成するようにしてもよい。

また、音源分離部１１ａで実行されるような指向性制御を利用するのではなく、単体でステレオ収音が可能なステレオマイクを用いて各音源からの音を個別に収音することにより、互いに分離された複数の単位音響信号を直接的に取得するようにしてもよい。或いは、指向性マイクロホン（指向性を有するマイクロホン）をｎ個用い、第１〜第ｎの指向性マイクロホンの感度の高い方向を第１〜第ｎの音源に対応する第１〜第ｎの方向に向けて各音源からの音を個別に収音することにより、第１〜第ｎの単位音響信号を互いに分離された形で直接的に取得するようにしてもよい。

更に或いは、第１〜第ｎの音源の位置が予め分かっている場合は、第１〜第ｎのコードレスマイクを用い、第ｉのコードレスマイクが第ｉの音源の音を収音するように第１〜第ｎのコードレスマイクを第１〜第ｎの音源の位置に配置するようにしても良い（ｉ＝１、２、・・・（ｎ−１）、ｎ）。このようにすれば、第１〜第ｎのコードレスマイクによって、第１〜第ｎの音源に対応する第１〜第ｎの単位音響信号が互いに分離された形で直接的に取得される。

更に或いは、独立成分分析（Independent Component Analysis）を用いて、複数のマイクロホン（例えば、マイクロホン１Ｌ及び１Ｒ）の検出信号から第１〜第ｎの単位音響信号を生成するようにしてもよい。独立成分分析では、同一の時刻に同一の音源からの音響信号は複数個存在しないという仮定の下、音源の独立性を用いて各音源の音響信号が分離収音される。

音源分離部１１から出力される第１〜第ｎの単位音響信号には、上記第１〜第ｎの方向を表す又は第１〜第ｎの音源の存在位置を表す音源位置情報が付加される。この音源位置情報は、図３の音量制御量決定部１４及び音量制御部１５の処理において利用される。第ｉの音源の方向を表す第ｉの方向は、第ｉの音源に対応する、上記の位相差、上記ステレオマイクの指向性の方向又は上記指向性マイクロホンの指向性の方向から定まる（ｉ＝１、２、・・・（ｎ−１）、ｎ）。第ｉの音源の存在位置は、第ｉの音源に対応する上記コードレスマイクの配置位置から定まる（ｉ＝１、２、・・・（ｎ−１）、ｎ）。

音源分離部１１から出力される各単位音響信号は、時間領域上のデジタル音響信号であって、そのデジタル化のサンプリング周波数は４８ｋＨｚであるとする。図６に示す如く、時間領域上の各単位音響信号は、１０２４サンプル、即ち、約２１．３ｍｓｅｃ（≒１０２４×１／４８ｋＨｚ）を単位として区切られ、１０２４サンプルにて１つのフレームが形成される。時間領域上で連なるフレームを、時刻の早い方から順に、第１、第２、第３フレーム・・・と呼ぶ。

［音種検出部］
次に、図３の音種検出部１２の機能について説明する。音種検出部１２は、音源分離部１１から出力される第１〜第ｎの単位音響信号に基づき、第１〜第ｎの音源の種類を音源ごとに判定する。

デジタルビデオカメラやＩＣレコーダなどの用途においては、人の声についての音響信号が最も重要である。また、録音環境において流れている音楽は、その場の雰囲気を再現する上で重要であるため、人の声を妨げない程度の音量で記録されることが好ましい。一方で、雑音は、極力音量が小さくなるように制御されるべきである。そこで、本実施形態では、各音源の種類を３つの種類、即ち、人の声、音楽及び雑音の何れかに分類する方法を説明する。

音種検出部１２は、第１〜第ｎの単位音響信号の夫々を個別に注目し、注目した単位音響信号に基づいて、その注目単位音響信号に対応する音源の種類を判定する。以下の説明では、第１の単位音響信号に基づいて第１の音源の種類を判定する方法を説明するが、第２〜第ｎの音源の種類も第２〜第ｎの単位音響信号に基づいて同様に判定される。

まず、第１の音源の種類が人の声であるか否かを判定する方法を説明する。一般的に、人の声による音響信号は１００Ｈｚ〜４ｋＨｚ程度にパワーが集中しており、有声音に関しては、比較的低周波のピッチ周波数とその倍音成分から成る調波構造を有している。ピッチ周波数とは、声帯振動による音響信号の基本周波数のことである。

図７に、人の声による音響信号の周波数スペクトル例を示す。図７の周波数スペクトルを示すグラフにおいて、横軸は周波数であって縦軸は音圧レベル（sound pressure level）である。図７に示す如く、人の声の周波数スペクトルにおいては、音圧レベルが極大となる周波数と極小となる周波数が概ね一定周波数間隔で繰り返し存在する。音圧レベルが極大となる複数の周波数の内、最小の周波数がピッチ周波数ｆ０であり、その倍音成分の周波数であるｆ０×２、ｆ０×３、ｆ０×４、・・・においても音圧レベルが極大値をとる。このような特性に注目して第１の単位音響信号の周波数解析を行い、所定の周波数帯域において調波構造を有する信号成分が存在する場合には、第１の音源の種類が人の声であると判定することができる。

第１の音源の種類が人の声であるか否かを判定する方法として既に様々な方法が公知となっており、音種検出部１２では、公知の方法を含む任意の方法を利用可能である。以下に、利用可能な具体的方法例を簡単に説明する。

音種検出部１２は、約２１．３ｍｓｅｃ間隔で、即ちフレームごとに、第１の単位音響信号を離散フーリエ変換する（図６参照）。これによって得られた、第ｊフレームにおける第１の単位音響信号の周波数スペクトルを示す信号をＳ_j［ｍ・Δｆ］にて表す。ｊは自然数である。Δｆは、離散フーリエ変換における周波数の標本間隔である。今、単位音響信号に対する離散フーリエ変換によってΔｆ間隔でＭ個の信号が算出されるものとする（Ｍは２以上の整数であって、例えばＭ＝２５６）。そうすると、ｍは０≦ｍ≦（Ｍ−１）の範囲内の各整数値をとり、第ｊフレームにおける第１の単位音響信号の周波数スペクトルは、周波数領域上の信号Ｓ_j［０・Δｆ］〜Ｓ_j［Ｍ−１・Δｆ］から形成される。図８に、周波数スペクトルを表す信号Ｓ_j［ｍ・Δｆ］の例を示す。

音種検出部１２は、得られた周波数スペクトルの、所定の帯域成分に対して自己相関処理を行う。例えば、信号Ｓ_j［０・Δｆ］〜Ｓ_j［Ｍ−１・Δｆ］の内の、１００Ｈｚ〜４ｋＨｚの帯域内の信号からピッチ周波数を探索し、更にピッチ周波数の倍音成分の有無を探索する。そして、ピッチ周波数及びそれの倍音成分の存在が確認された場合、第１の単位音響信号に対応する第１の音源の種類は人の声であると判定し、そうでない場合は、第１の音源の種類は人の声でないと判定する。

次に、第１の音源の種類が音楽であるか否かを判定する方法を説明する。一般的に、音楽による音響信号は広帯域信号であって且つ一定の周期性を有している。そのため、第１の単位音響信号の帯域が比較的広く且つ第１の単位音響信号が時間領域において一定の周期性を有している場合に、第１の音源の種類は音楽であると判定することができる。

具体的方法を例示する。第１の単位音響信号を形成する、４８ｋＨｚにて離散化されたデジタル音響信号列の内、或る基準時刻から見て、ｔ番目のデジタル音響信号の信号値又はパワーをｘ（ｔ）で表す（ｔは整数）。そして、図９に示す如く、上記基準時刻から見て１〜ｔ₀番目のｘ（ｔ）から成るブロックを基準ブロックとして用いた上で、自己相関を計算する（ｔ₀は２以上の整数）。即ち、ｔ₀番目以降のｘ（ｔ）に対して、ｔ₀個の連続するｘ（ｔ）から成る評価ブロックを定義し、評価ブロックの位置を時間方向に順次ずらしながら基準ブロックと評価ブロックとの間の相関を求めてゆく。より具体的には、下記式（１）に従って自己相関値Ｓ（ｐ）を算出する。自己相関値Ｓ（ｐ）は、評価ブロックの位置を決める変数ｐの関数である（ｐは整数）。

図１０に、求められた自己相関値Ｓ（ｐ）の変数ｐ依存性を示す。図１０において、横軸及び縦軸はそれぞれ変数ｐ及び自己相関値Ｓ（ｐ）を表す。図１０は、第１の音源の種類が音楽である場合に対応している。この場合、変数ｐの変化に対して自己相関値Ｓ（ｐ）が周期的に大きな値をとる。音種検出部１２は、第１の単位音響信号体に対して求めた自己相関値Ｓ（ｐ）が周期的に所定の閾値ＴＨを超えていると判断される場合、第１の音源の種類は音楽であると判定し、そうでない場合は、第１の音源の種類は音楽でないと判定する。例えば、不等式「Ｓ（ｐ）＞ＴＨ」を満たす変数ｐの間隔が一定（或いは略一定）の場合に、自己相関値Ｓ（ｐ）が周期的に所定の閾値ＴＨを超えていると判断すればよい。

また、第１の単位音響信号の帯域をも更に考慮するようにしてもよい。例えば、第１の単位音響信号体に対して求めた自己相関値Ｓ（ｐ）が周期的に所定の閾値ＴＨを超えていると判断される場合であっても、第１の単位音響信号に所定の周波数帯域の信号成分が全く或いは殆ど含まれないと判断される場合、第１の音源の種類は音楽でないと判定するようにしてもよい。例えば、第１の単位音響信号の、５ｋＨｚ以上且つ１５ｋＨｚ以下の周波数帯域における信号レベルの最大値が所定レベル以下である時、第１の単位音響信号に所定の周波数帯域の信号成分が全く或いは殆ど含まれないと判断することができる。

次に、第１の音源の種類が雑音であるか否かを判定する方法を説明する。空調機騒音や回路ノイズ（正弦波状のノイズ）などに代表される雑音は、定常的な信号であって周波数特性に時間的変動が少ない。よって、第１の単位音響信号がこのような信号特性を有しているかを判断することで雑音判定が可能である。

具体的には例えば以下のようにすればよい。数秒間分のフレームに注目し、注目フレームの第１の単位音響信号に対してフレームごとに離散フーリエ変換を施す。注目フレームが第１〜第Ｊフレームである場合を想定する（Ｊは整数であって例えばＪ＝２００）。そして、下記式（２）に従って雑音評価値Ｅ_NOISEを算出し、雑音評価値Ｅ_NOISEが所定の基準値以下である場合は、周波数特性の時間的変動が少ないと判断して第１の音源の種類は雑音であると判定し、そうでない場合は、第１の音源の種類は雑音でないと判定する。

ここで、Ｓ_AVE［ｍ・Δｆ］は、第１の単位音響信号における周波数（ｍ×Δｆ）の信号成分の、第１〜第Ｊフレームの平均を表す。即ち、Ｓ_AVE［ｍ・Δｆ］は、Ｓ₁［ｍ・Δｆ］〜Ｓ_J［ｍ・Δｆ］の平均値である。図１１に示す如く、雑音の周波数スペクトルの時間的変動は少ないため、雑音に対して算出された雑音評価値Ｅ_NOISEは比較的小さな値をとる。

尚、上述した方法に従うことにより、第１の音源の種類が人の声、音楽及び雑音の何れにも当てはまらないと判断された場合、第１の音源の種類は、人の声、音楽及び雑音以外の第４の種類であると判断される。

［音量検出部］
次に、図３の音量検出部１３の機能について説明する。音量検出部１３は、音源分離部１１から出力される第１〜第ｎの単位音響信号の信号レベルを検出することで各単位音響信号における音源の音量を検出する。この際、各単位音響信号の帯域を８つに分割し、分割によって得られた帯域ごとに信号レベルを検出する。

より具体的には以下のようにして、単位音響信号ごとに単位音響信号の信号レベルを検出する。説明の明確化のため、第１の単位音響信号にのみ注目して信号レベル検出方法を説明する。第１の単位音響信号に対してフレームごとに離散フーリエ変換を施すことで、フレームごとの周波数スペクトルを算出する。第１の単位音響信号のサンプリング周波数は４８ｋＨｚであるため、算出される周波数スペクトルの帯域は０〜２４ｋＨｚである。この帯域（即ち、０〜２４ｋＨｚ）を８つの帯域に分割し、分割によって得られた帯域を、周波数が小さい方から第１、第２、・・・第８サブ帯域と呼ぶ（図１２参照）。

音量検出部１３は、フレームごとに且つサブ帯域ごとに、周波数スペクトルの信号レベルの最大値を特定する。例えば、第１サブ帯域が０ｋＨｚ以上且つ（１０・Δｆ）ｋＨｚ以下の帯域である場合、周波数スペクトルにおける信号Ｓ₁［０・Δｆ］〜Ｓ₁［１０・Δｆ］に基づき、周波数０・Δｆ、１・Δｆ、・・・、９・Δｆ及び１０・Δｆの内、最も信号レベルが大きくなる周波数を特定し、特定した周波数における信号レベルを、第１フレームにおける第１サブ帯域の代表信号レベルとして抽出する（図１２参照）。この代表信号レベルが、音量検出部１３によって検出されるべき、第１フレームにおける第１サブ帯域の信号レベルとして取り扱われる。同様にして第１フレームにおける第２〜第８サブ帯域の代表信号レベルも抽出し、更に、同様の抽出処理を第１フレーム以降の各フレームに対して順次実行する。

第１の単位音響信号について説明したが、第２〜第ｎの単位音響信号の代表信号レベルも、第１の単位音響信号の代表信号レベルと同様にして検出される。

［音量制御量決定部］
次に、図３の音量制御量決定部１４の機能について説明する。音量制御量決定部１４は、まず、上記音源位置情報と音種検出部１２によって判定された各音源の種類とに応じて、予め定められたテーブルデータに従い、単位音響信号ごとに上限増幅量を決定する。各単位音響信号は音量制御部１５によって増幅されるが、上限増幅量は、その増幅の上限値を規定する。尚、単位音響信号の信号レベルが音量制御部１５によって低下させられることもあるが、この場合における信号レベルの変動は負の増幅である。増幅量を、制御量又は調整量に読み替えることも可能である。

音源位置情報によって、各音源が６つのエリア３Ｃ、３Ｌ、３ＳＬ、３Ｂ、３ＳＲ及び３Ｒの何れに存在しているかが特定され (図２参照)、その特定内容に従って、単位音響信号ごとに第１増幅量が決定される。図１３（ａ）は、第１増幅量を決定するためのテーブルデータの内容を示している。即ち、第１〜第ｎの単位音響信号の夫々を個別に注目し、注目した単位音響信号に対応する音源が、エリアＣに位置している場合、エリア３Ｌ又は３Ｒに位置している場合、エリア３ＳＬ又は３ＳＲに位置している場合、エリアＢに位置している場合、第１増幅量は、電圧比で夫々６ｄＢ、３ｄＢ、０ｄＢ、（−３ｄＢ）に設定される。

音種検出部１２によって判定された各音源の種類に応じて、単位音響信号ごとに第２増幅量が決定される。図１３（ｂ）は、第２増幅量を決定するためのテーブルデータの内容を示している。即ち、第１〜第ｎの単位音響信号の夫々を個別に注目し、注目した単位音響信号に対応する音源の種類が、人の声である場合、音楽である場合、雑音である場合、第４の種類である場合、第２増幅量は、電圧比で夫々１２ｄＢ、６ｄＢ、（−６ｄＢ）、０ｄＢに設定される。但し、注目した単位音響信号に対応する音源の種類が人の声である場合、注目した単位音響信号の全帯域中の音声帯域に対してのみ第２増幅量は１２ｄＢに設定され、注目した単位音響信号の全帯域中の非音声帯域に対しては第２増幅量は０ｄＢに設定される。音声帯域とは、人の声のパワーが集中している帯域である。例えば、１００Ｈｚ以上且つ４ｋＨｚ以下の帯域が音声帯域に設定され、それ以外の帯域が非音声帯域に設定される。

音量制御量決定部１４は、図１３（ｃ）に示す如く、第１増幅量と第２増幅量を足し合わせたものを上限増幅量に設定する。今、図１４に示す如く（図２も参照）、ｎ＝４であって、音源位置情報から第１、第２、第３及び第４の音源が夫々エリア３Ｃ、３Ｒ、３ＳＲ及び３Ｂ内に位置していることが示され且つ音種検出部１２によって第１、第２、第３及び第４の音源の種類が夫々人の声、音楽、雑音及び人の声であると判定された場合を想定する。この想定を、便宜上、想定αと呼ぶ。この想定αの下では、第１の単位音響信号に対する上限増幅量は音声帯域において１８ｄＢ（＝６ｄＢ＋１２ｄＢ）とされると共に非音声帯域において６ｄＢ（＝６ｄＢ＋０ｄＢ）とされ、第２及び第３の単位音響信号に対する上限増幅量はそれぞれ９ｄＢ（＝３ｄＢ＋６ｄＢ）及び−６ｄＢ（＝０ｄＢ−６ｄＢ）とされ、第４の単位音響信号に対する上限増幅量は音声帯域において９ｄＢ（＝−３ｄＢ＋１２ｄＢ）とされると共に非音声帯域において−３ｄＢ（＝−３ｄＢ＋０ｄＢ）とされる。

単位音響信号を含む各音響信号は、電圧信号であり、その電圧の振幅が増大するにつれて対応する音量及び信号レベルは増大する。音量制御量決定部１４及び音量制御部１５の説明において述べられる単位“ｄＢ（デシベル）”は、所定の全範囲振幅（フルスケール）を有する電圧信号を基準とした注目信号の電圧比を表す。

上限増幅量を決定した後、音量制御量決定部１４は、音量検出部１３にて検出された第１〜第８サブ帯域の夫々における代表信号レベルの電圧振幅が、音量制御部１５による増幅処理によって−２０ｄＢ（即ち、全範囲振幅の１／１０）となるように実際の増幅量を決定する。この増幅量の決定及び決定された増幅量に従う増幅処理は、単位音響信号ごとに且つサブ帯域ごとに実行される。

但し、実際の増幅量が上限増幅量を超えないように増幅量の決定値には制限が加えられる。また、急激な音量変化によって聞き手が違和感を覚えるのを防止すべく、隣接フレーム間における増幅量の変動の大きさは６ｄＢ以下に制限される。また更に、主たる音源が存在すべきエリア３Ｃからの音が他のエリアからの音にてマスクされないように、エリア３Ｌ、３ＳＬ、３Ｂ、３ＳＲ及び３Ｒ内の音源に対する増幅量がエリア３Ｃ内の音源に対する増幅量よりも６ｄＢ程度小さくなるように、前者の増幅量に制限が加えられる。これらの制限により、音量制御部１５の増幅処理後において、各サブ帯域の代表信号レベルの電圧振幅は目標振幅（即ち、−２０ｄＢ）と異なる場合がある。

図１５及び図１６を参照して、これらの要求に対応する増幅量の決定動作手順を詳細に説明する。図１５は、対応する音源がエリアＣ内に位置している単位音響信号に対する増幅量の算出手順フローチャートである。図１６は、対応する音源がエリア３Ｌ、３ＳＬ、３Ｂ、３ＳＲ又は３Ｒ内に位置している単位音響信号に対する増幅量の算出手順フローチャートである。対応する音源がエリアＣ内に位置している単位音響信号を正面音響信号と呼び、対応する音源がエリア３Ｌ、３ＳＬ、３Ｂ、３ＳＲ又は３Ｒ内に位置している単位音響信号を非正面音響信号と呼ぶ。想定αの下では、第１の単位音響信号が正面音響信号であり、第２〜第４の単位音響信号の夫々が非正面音響信号である。正面音響信号の増幅量は、図１５のステップＳ１１〜Ｓ１８における処理によってサブ帯域ごとに決定され、非正面音響信号の増幅量は、図１６のステップＳ２１〜Ｓ３０における処理によってサブ帯域ごとに決定される。

図１５を参照し、正面音響信号（例えば、想定αの下における第１の単位音響信号）に対して実行されるステップＳ１１〜Ｓ１８の処理を説明する。ここで、第ｊフレームにおける、正面音響信号の第ｋサブ帯域の代表信号レベルの電圧振幅をＰ_k［ｊ］にて表す。その電圧振幅の、全範囲振幅（フルスケール）に対する電圧比を対数表現したものがＰ_k［ｊ］である。従って、Ｐ_k［ｊ］の単位はｄＢである。Ｐ_k［ｊ］は、音量検出部１３にて検出される。ｋは１以上８以下の整数をとる。

第ｊフレームに対するステップＳ１１〜Ｓ１８の処理に先立って実行された第（ｊ−１）フレームに対するステップＳ１１〜Ｓ１８の処理により、第（ｊ−１）フレームにおける、正面音響信号の第ｋサブ帯域に対する増幅量が決定されており、その決定値をＡＭＰ_k［ｊ−１］にて表す。更に、第ｊフレームにおける、正面音響信号の第ｋサブ帯域に対する増幅量の暫定値又は決定値をＡＭＰ_k［ｊ］にて表す。ＡＭＰ_k［ｊ−１］及びＡＭＰ_k［ｊ］の単位もｄＢである。

まず、ステップＳ１１において、音量制御量決定部１４は、第１不等式“Ｐ_k［ｊ］＋ＡＭＰ_k［ｊ−１］≦−２０ｄＢ”が成立するかを判定する。即ち、第（ｊ−１）フレームに対して決定した増幅量にて第ｊフレームの信号を増幅したと仮定した時において、増幅後の信号の電圧振幅が所定の全範囲振幅以下となるかを判定する。第１不等式が成立する場合、即ち、電圧振幅Ｐ_k［ｊ］を増幅量ＡＭＰ_k［ｊ−１］分だけ増幅させた時の電圧振幅が−２０ｄＢ以下である場合は、ステップＳ１２に移行してステップＳ１２の処理を実行する一方、第１不等式が成立しない場合はステップＳ１７に移行してステップＳ１７の処理を実行する。

ステップＳ１２において、音量制御量決定部１４は、第２不等式“Ｐ_k［ｊ］＋ＡＭＰ_k［ｊ−１］＋６ｄＢ≦−２０ｄＢ”が成立するかを判定する。第２不等式が成立する場合、即ち、電圧振幅Ｐ_k［ｊ］を増幅量（ＡＭＰ_k［ｊ−１］＋６ｄＢ）分だけ増幅させた時の電圧振幅が−２０ｄＢ以下である場合は、ステップＳ１３にて（ＡＭＰ_k［ｊ−１］＋６ｄＢ）を増幅量ＡＭＰ_k［ｊ］に代入してからステップＳ１５に移行する一方、第２不等式が成立しない場合は、ステップＳ１４にて（−２０ｄＢ−Ｐ_k［ｊ］）を増幅量ＡＭＰ_k［ｊ］に代入してからステップＳ１５に移行する。

ステップＳ１５では、ステップＳ１３又はＳ１４において暫定的に設定した増幅量ＡＭＰ_k［ｊ］が上限増幅量以下であるかを確認し、暫定的に設定した増幅量ＡＭＰ_k［ｊ］が上限増幅量以下である場合は、その暫定的に設定した増幅量ＡＭＰ_k［ｊ］を、第ｊフレームにおける、正面音響信号の第ｋサブ帯域に対する増幅量として最終的に決定する（ステップＳ１８）。

一方、ステップＳ１３又はＳ１４において暫定的に設定した増幅量ＡＭＰ_k［ｊ］が上限増幅量を超える場合は、ステップＳ１６において増幅量ＡＭＰ_k［ｊ］を修正する。即ち、増幅量ＡＭＰ_k［ｊ−１］に上限増幅量を加算したものを増幅量ＡＭＰ_k［ｊ］に新たに代入することによって増幅量ＡＭＰ_k［ｊ］を修正し（ステップＳ１６）、修正後の増幅量ＡＭＰ_k［ｊ］を、第ｊフレームにおける、正面音響信号の第ｋサブ帯域に対する増幅量として最終的に決定する（ステップＳ１８）。

また、ステップＳ１１において上記第１不等式が不成立である場合と判定した場合は、ステップＳ１７において増幅量ＡＭＰ_k［ｊ−１］を６ｄＢだけ減少させたものを増幅量ＡＭＰ_k［ｊ］に代入し、その代入後の増幅量ＡＭＰ_k［ｊ］（＝ＡＭＰ_k［ｊ−１］−６ｄＢ）を、第ｊフレームにおける、正面音響信号の第ｋサブ帯域に対する増幅量として最終的に決定する（ステップＳ１８）。

図１６を参照し、非正面音響信号（例えば、想定αの下における第２の単位音響信号）に対して実行されるステップＳ２１〜Ｓ３０の処理を説明する。ここで、第ｊフレームにおける、非正面音響信号の第ｋサブ帯域の代表信号レベルの電圧振幅をＰ’_k［ｊ］にて表す。その電圧振幅の、全範囲振幅（フルスケール）に対する電圧比を対数表現したものがＰ’_k［ｊ］である。従って、Ｐ’_k［ｊ］の単位はｄＢである。Ｐ’_k［ｊ］は、音量検出部１３にて検出される。ｋは１以上８以下の整数をとる。

第ｊフレームに対するステップＳ２１〜Ｓ３０の処理に先立って実行された第（ｊ−１）フレームに対するステップＳ２１〜Ｓ３０の処理により、第（ｊ−１）フレームにおける、非正面音響信号の第ｋサブ帯域に対する増幅量が決定されており、その決定値をＡＭＰ’_k［ｊ−１］にて表す。更に、第ｊフレームにおける、非正面音響信号の第ｋサブ帯域に対する増幅量の暫定値又は決定値をＡＭＰ’_k［ｊ］にて表す。ＡＭＰ’_k［ｊ−１］及びＡＭＰ’_k［ｊ］の単位もｄＢである。

まず、ステップＳ２１において、音量制御量決定部１４は、第３不等式“Ｐ’_k［ｊ］＋ＡＭＰ’_k［ｊ−１］＋６ｄＢ≦Ｐ_k［ｊ］＋ＡＭＰ_k［ｊ］”が成立するかを判定する。第３不等式及び後述の第４不等式において、Ｐ_k［ｊ］は、図１５のフローチャートの説明において述べたそれと同じものであり、ＡＭＰ_k［ｊ］は、図１５のステップＳ１８にて最終決定された、第ｊフレームにおける、正面音響信号の第ｋサブ帯域に対する増幅量である。第３不等式が成立する場合、即ち、電圧振幅Ｐ’_k［ｊ］を増幅量（ＡＭＰ’_k［ｊ−１］＋６ｄＢ）分だけ増幅させた時の電圧振幅が電圧振幅Ｐ_k［ｊ］を増幅量ＡＭＰ_k［ｊ］分だけ増幅させた時の電圧振幅以下である場合は、ステップＳ２２に移行してステップＳ２２の処理を実行する一方、第３不等式が成立しない場合はステップＳ２７に移行してステップＳ２７の処理を実行する。

ステップＳ２２において、音量制御量決定部１４は、第４不等式“Ｐ’_k［ｊ］＋ＡＭＰ’_k［ｊ−１］＋１２ｄＢ≦Ｐ_k［ｊ］＋ＡＭＰ_k［ｊ］”が成立するかを判定する。第４不等式が成立する場合は、ステップＳ２３にて（ＡＭＰ’_k［ｊ−１］＋６ｄＢ）を増幅量ＡＭＰ’_k［ｊ］に代入してからステップＳ２５に移行する一方、第４不等式が成立しない場合は、ステップＳ２４にて（−２０ｄＢ−Ｐ’_k［ｊ］）を増幅量ＡＭＰ’_k［ｊ］に代入してからステップＳ２５に移行する。

ステップＳ２５では、ステップＳ２３又はＳ２４において暫定的に設定した増幅量ＡＭＰ’_k［ｊ］が上限増幅量以下であるかを確認し、暫定的に設定した増幅量ＡＭＰ’_k［ｊ］が上限増幅量以下である場合は、その暫定的に設定した増幅量ＡＭＰ’_k［ｊ］を、第ｊフレームにおける、非正面音響信号の第ｋサブ帯域に対する増幅量として最終的に決定する（ステップＳ３０）。

一方、ステップＳ２３又はＳ２４において暫定的に設定した増幅量ＡＭＰ’_k［ｊ］が上限増幅量を超える場合は、ステップＳ２６において増幅量ＡＭＰ’_k［ｊ］を修正する。即ち、増幅量ＡＭＰ’_k［ｊ−１］に上限増幅量を加算したものを増幅量ＡＭＰ’_k［ｊ］に新たに代入することによって増幅量ＡＭＰ’_k［ｊ］を修正し（ステップＳ２６）、修正後の増幅量ＡＭＰ’_k［ｊ］を、第ｊフレームにおける、非正面音響信号の第ｋサブ帯域に対する増幅量として最終的に決定する（ステップＳ３０）。

また、ステップＳ２１において上記第３不等式が不成立である場合と判定した場合は、ステップＳ２７にて更に第５不等式“ＡＭＰ’_k［ｊ−１］≦−２６ｄＢ”が成立するかを確認する。そして、第５不等式が成立する場合は、ステップＳ２８において増幅量ＡＭＰ’_k［ｊ−１］をそのまま増幅量ＡＭＰ’_k［ｊ］に代入し、その代入後の増幅量ＡＭＰ’_k［ｊ］（＝ＡＭＰ’_k［ｊ−１］）を、第ｊフレームにおける、非正面音響信号の第ｋサブ帯域に対する増幅量として最終的に決定する（ステップＳ３０）。一方、第５不等式が成立しない場合は、ステップＳ２９において増幅量ＡＭＰ’_k［ｊ−１］を６ｄＢだけ減少させたものを増幅量ＡＭＰ’_k［ｊ］に代入し、その代入後の増幅量ＡＭＰ’_k［ｊ］（＝ＡＭＰ’_k［ｊ−１］−６ｄＢ）を、第ｊフレームにおける、非正面音響信号の第ｋサブ帯域に対する増幅量として最終的に決定する（ステップＳ３０）。

［音量制御部］
次に、図３の音量制御部１５の機能について説明する。音量制御部１５は、音量制御量決定部１４において単位音響信号ごとに且つサブ帯域ごとに決定された増幅量にて、第１〜第ｎの単位音響信号を単位音響信号ごとに且つサブ帯域ごとに増幅する。この増幅は、周波数領域上にて行われる。従って、離散フーリエ変換によって得られた各単位音響信号の周波数スペクトルに対して上記の増幅を行い、増幅後の各周波数スペクトルを逆離散フーリエ変換によって時間領域上の信号に戻す。これにより、信号レベルが補正された第１〜第ｎの単位音響信号が音量制御部１５から出力される。音量制御部１５の出力音響信号である補正音響信号は、この信号レベル補正後の第１〜第ｎの単位音響信号から形成される。

このように、音響信号処理装置１０は、第１〜第ｎの音源の存在方向又は存在位置、各音源の種類及び各音源に対応する各単位音響信号の信号レベルに基づいて、単位音響信号ごとに且つサブ帯域ごとに増幅量を決定して各単位音響信号の信号レベルを調整し、これによって対象音響信号における各音源の音量を個別に調整する。

［様々な機器への応用例］
上述のような音響信号処理装置１０は、複数のマイクロホンの検出信号を利用する任意の機器に搭載される。複数のマイクロホンの検出信号を利用する任意の機器には、録音装置（ＩＣレコーダなど）、撮像装置（デジタルビデオカメラなど）及び音響信号再生装置などが含まれる。尚、撮像装置において、録音装置としての機能若しくは音響信号再生装置としての機能又はそれらの双方の機能を実現することも可能である。また、録音装置、撮像装置又は音響信号再生装置は、携帯端末（携帯電話機等）に組み込まれうる。

例として、図１７に、録音装置１００の概略構成図を示す。録音装置１００は、音響信号処理装置１０１と、磁気ディスクやメモリカード等の記録媒体１０２と、録音装置１００の筐体上の互いに異なる位置に設置されたマイクロホン１Ｌ及び１Ｒと、を備える。音響信号処理装置１０１として、上述の音響信号処理装置１０を用いることができる。音響信号処理装置１０１は、マイクロホン１Ｌ及び１Ｒの検出信号から補正音響信号を生成し、その補正音響信号を記録媒体１０２に記録する。

また、図１８に、音響信号再生装置１２０の概略構成図を示す。音響信号再生装置１２０は、音響信号処理装置１２１と、磁気ディスクやメモリカード等の記録媒体１２２と、スピーカ部１２３と、を備える。記録媒体１２２には、マイクロホン１Ｌ及び１Ｒの検出信号が記録されているものとする。音響信号処理装置１２１として、上述の音響信号処理装置１０を用いることができる。但し、音響信号再生装置１２０においては、記録媒体１２２より読み出したマイクロホン１Ｌ及び１Ｒの検出信号が音響信号処理装置１２１に入力され、この入力されたマイクロホン１Ｌ及び１Ｒの検出信号から音響信号処理装置１２１によって補正音響信号が生成される。

音響信号再生装置１２０において生成された補正音響信号は、音としてスピーカ部１２３から再生出力される。補正音響信号は、互いに異なる方向に指向性を有するｎ個の音響信号（信号レベル補正後の第１〜第ｎの単位音響信号）より成るステレオ信号又はマルチチャンネル信号として、スピーカ部１２３から或いは音響信号再生装置１２０外に設けられたスピーカ部（不図示）から再生出力される。また、音響信号再生装置１２０において生成された補正音響信号を記録媒体１２２に記録することも可能である。

尚、スピーカ部１２３は、ステレオ信号又はマルチチャンネル信号を再生出力するため、複数のスピーカから形成される（後述のスピーカ部１４６も同様）。また、音響信号再生装置１２０を、コンピュータとコンピュータ上で動作するソフトウェアとで実現することもできる。また、録音装置１００と音響信号再生装置１２０の機能を併せ持つ録音再生装置を形成することもできる。

更に、図１９に、撮像装置１４０の概略構成図を示す。撮像装置１４０は、図１７の録音装置１００の構成要素に、ＣＣＤ（Charge Coupled Device）又はＣＭＯＳ（Complementary Metal Oxide Semiconductor）イメージセンサなどから成る撮像素子１４３、撮像素子１４３を用いた撮影によって得られた画像に所定の画像処理を施す画像処理部１４４、撮影画像の表示を行う表示部１４５及び音声出力を行うスピーカ部１４６等を付加することによって形成される。撮像装置１４０に設けられる、音響信号処理装置１０１、記録媒体１０２並びにマイクロホン１Ｌ及び１Ｒは、録音装置１００のそれらと同じものである。マイクロホン１Ｌ及び１Ｒとは、撮像装置１４０の筐体上の互いに異なる位置に設置される。

撮像装置１４０は、撮像素子１４３を用いて被写体に応じた動画像又は静止画像を撮影する。その動画像又は静止画像を表す画像信号（例えば、ＹＵＶ形式の映像信号）は、画像処理部１４４を介して記録媒体１０２に記録される。特に、動画像の撮影時においては、マイクロホン１Ｌ及び１Ｒの検出信号に基づく補正音響信号と動画像の画像信号とが時間的に関連付けられた上で記録媒体１０２に記録される。また、撮像装置１４０は、記録媒体１０２に記録された音響信号（補正音響信号）を再生する音響信号再生装置としての機能も備えている。従って、表示部１４５及びスピーカ部１４６を用いて、撮影された動画像を補正音響信号と共に再生することができる。尚、マイクロホン１Ｌ及び１Ｒの検出信号そのものと動画像の画像信号とを時間的に関連付けて記録媒体１０２に記録しておき、動画像の再生時において、記録媒体１０２に記録されたマイクロホン１Ｌ及び１Ｒの検出信号より補正音響信号を生成するようにしてもよい。

撮像装置１４０は、原点Ｏから見てＹ軸の正の方向に位置する被写体を撮影する（図１参照）。例えば、エリア３Ｃ、３Ｌ、３ＳＬ、３Ｂ、３ＳＲ及び３Ｒの内、撮像装置１４０の視野にはエリア３Ｃのみが含まれる（図２参照）。但し、撮像装置１４０の画角によっては、エリア３Ｌ及び３Ｒの一部が撮像装置１４０の視野に含まれていても構わないし、エリア３Ｃの一部が撮像装置１４０の視野に含まれていなくても構わない。

本実施形態によれば、音源の方向（又は位置）と音源の種類に応じて周波数帯域別に各音源の音量が調整されるため、必要な音（主として人の声）を比較的大きな音量にて且つ不要な音（雑音など）を比較的小さな音量にて記録又は再生することが可能である。特定方向に雑音の音源がある場合は、音の種類判定を介して雑音の音量が低減されるため、最終的に記録又は再生される音響信号において雑音の影響が小さくなる。一方で、音楽などの背景音は必要な音（主として人の声）をマスクしない程度の適切な音量にて記録されるため、臨場感のある再生が可能となる。

尚、細分化された周波数帯域別に音量制御を行う上記第２従来方法では、特定の周波数帯域に存在する雑音成分を低減することが可能であるものの、雑音成分と必要な信号成分の周波数が重複する場合には、雑音成分のみを低減することは不可能である。これに対し、本実施形態では、音源の方向（又は位置）に応じて更には音源の種類に応じて音量調整（信号レベル調整）がなされるため、雑音成分のみを低減する事が可能となる。

また、本実施形態に係る撮像装置によれば、撮影画像にマッチした音を大きく明瞭に記録又は再生することが可能となる。特に、撮影画像に写っている正面方向の人の声が、他の音よりも大きな音量にて記録又は再生されるため、撮影者が注目している被写体についての音声が聴き取りやすくなる。

＜＜第２実施形態＞＞
次に、本発明の第２実施形態を説明する。第２実施形態においても図３の音響信号処理装置１０が用いられる。但し、第２実施形態では、エリア３Ｃ、３Ｌ、３Ｒ、３ＳＬ及び３ＳＲ内の任意の点から原点Ｏに向かう方向を夫々第１、第２、第３、第４及び第５の方向として取り扱い、音源分離部１１における指向性制御を用いて、エリア３Ｃ、３Ｌ、３Ｒ、３ＳＬ及び３ＳＲ内に位置する音源からの音を強調した音響信号を、それぞれ、第１、第２、第３、第４及び第５の単位音響信号として生成する。

この結果、対象音響信号（図４参照）は、前方（正面方向）からの音の信号成分が強調された第１の単位音響信号（センター信号）と、左斜め前方からの音の信号成分が強調された第２の単位音響信号（レフト信号）と、右斜め前方からの音の信号成分が強調された第３の単位音響信号（ライト信号）と、左斜め後方からの音の信号成分が強調された第４の単位音響信号（サラウンドレフト信号）と、右斜め後方からの音の信号成分が強調された第５の単位音響信号（サラウンドライト信号）とから成る５チャンネルのマルチチャンネル信号となる。

音量制御部１５は、このようにして得られた第１〜第５の単位音響信号の信号レベルを第１実施形態で述べた方法により補正し、信号レベル補正後の第１〜第５の単位音響信号を生成する。この信号レベル補正後の第１〜第５の単位音響信号を、５チャンネルのマルチチャンネル信号として記録媒体（例えば、図１９の記録媒体１０２）に記録又はスピーカ部（例えば、図１９のスピーカ部１４６）で再生出力することもできるが、第２実施形態では、ダウンミキシングを行うことで２チャンネルの信号を記録又は再生する。

即ち、信号レベル補正後の第１、第２及び第４の単位音響信号を所定の比率にて混合することにより第１チャンネル信号を生成すると共に、信号レベル補正後の第１、第３及び第５の単位音響信号を所定の比率にて混合することにより第２チャンネル信号を生成する。具体的に例えば、音量制御部１５において、以下の式（３）及び（４）に従ってダウンミキシングを行う。ここで、ｘ_C（ｔ）、ｘ_L（ｔ）、ｘ_R（ｔ）、ｘ_SL（ｔ）及びｘ_SR（ｔ）は、夫々、上記信号レベル補正後における第１、第２、第３、第４及び第５の単位音響信号の信号値を表し、ｘ₁（ｔ）及びｘ₂（ｔ）は、夫々、ダウンミキシングによって得られる第１チャンネル信号及び第２チャンネル信号の信号値を表す。尚、ｘ₁（ｔ）を算出する際における、ｘ_C（ｔ）、ｘ_L（ｔ）及びｘ_SL（ｔ）の混合比率は変更可能である（ｘ₂（ｔ）についても同様）。
ｘ₁（ｔ）＝０．７×ｘ_C（ｔ）＋ｘ_L（ｔ）＋ｘ_SL（ｔ） …（３）
ｘ₂（ｔ）＝０．７×ｘ_C（ｔ）＋ｘ_R（ｔ）＋ｘ_SR（ｔ） …（４）

第１及び第２チャンネル信号は、ステレオ信号を形成する。第１及び第２チャンネル信号から成るステレオ信号は、補正音響信号として音量制御部１５から出力される。第２実施形態に係る音響信号処理装置１０も、音響信号処理装置１０１又は１２１として利用可能である（図１７〜図１９参照）。

＜＜第３実施形態＞＞
次に、本発明の第３実施形態を説明する。第３実施形態では、図３の音響信号処理装置１０、図１７〜図１９の録音装置１００、音響信号再生装置１２０及び撮像装置１４０（以下、夫々、装置１０、１００、１２０及び１４０と略記することがある）にて利用可能な第１〜第５応用技術を説明する。矛盾なき限り、第１〜第５応用技術の内の２以上の応用技術を組み合わせて実施することも可能である。

［第１応用技術］
音量制御部１５による信号レベル補正（換言すれば、音量調整）を実行するか否かを手動操作にて指示することができるように装置１０、１００、１２０又は１４０を形成しておいてもよい。信号レベル補正の不実行が指示された場合、音源分離部１１にて生成された第１〜第ｎの単位音響信号又はマイクロホン１Ｌ及び１Ｒの検出信号が、そのまま記録媒体（例えば、図１９の記録媒体１０２）に記録される又はスピーカ部（例えば、図１９のスピーカ部１４６）から再生出力される。

［第２応用技術］
音量制御部１５による信号レベル補正（換言すれば、音量調整）の方法を、第１実施形態で述べた方法と他の方法とで切り替え実行できるようにしてもよい。ユーザは、この切り替えを手動操作にて指示することができる。例えば、第１音量調整方法と第２音量調整方法を択一的に選択可能としておき、第１音量調整方法が選択された場合は、第１実施形態で述べた通りの動作を行って補正音響信号を記録又は再生する。

一方、第２音量調整方法が選択された場合は、音量制御部１５において各単位音響信号に対するＡＧＣ又はＡＬＣを行う。即ち、音量制御部１５から出力される各単位音響信号の電圧振幅が一定振幅に保たれるように音源分離部１１から音量制御部１５へ入力される各単位音響信号の電圧振幅を信号増幅処理によって補正する。ＡＧＣ又はＡＬＣによる電圧振幅補正後の第１〜第ｎの単位音響信号も補正音響信号を形成する音響信号として、記録媒体（例えば、図１９の記録媒体１０２）に記録される又はスピーカ部（例えば、図１９のスピーカ部１４６）にて再生出力される（以下の第３及び第４応用技術においても同様）。

［第３応用技術］
音量制御部１５による信号レベル補正（換言すれば、音量調整）の方法を、第１実施形態で述べた方法と他の方法とで切り替え実行できるように装置１０、１００、１２０又は１４０を形成しておき、主要な音声成分が含まれる８ｋＨｚ以下の周波数帯域に対しては第１実施形態で述べた方法にて音量調整を行って補正音響信号を生成する一方で、８ｋＨｚより大きな周波数帯域に対しては他の方法（例えば、ＡＧＣ又はＡＬＣ）によって音量調整を行うようにしても良い。

［第４応用技術］
音量制御部１５による信号レベル補正（換言すれば、音量調整）の方法を、第１実施形態で述べた方法と他の方法とで切り替え実行できるように撮像装置１４０を形成しておき、撮影装置１４０による撮影画像中に人物が写っていると判断される場合には前者の方法にて音量調整を行って補正音響信号を生成する一方で、撮影画像中に人物が写っていないと判断される場合には後者の方法（例えば、ＡＧＣ又はＡＬＣ）によって音量調整を行うようにしても良い。図１９の画像処理部１４４は、撮影画像の画像信号に基づき、周知の顔検出処理等を利用して、撮影画像中に人物が写っているか否かを判断することができる。

［第５応用技術］
図３の音種検出部１２により、単位音響信号に対応する音源の種類を４種類の内の何れか、即ち、人の声、音楽、雑音及び第４の種類の何れかに分類する例を上述したが、分類される音源の種類数は４以外であってもよい。

実際の環境下においては、同一又は近似する方向から複数種類の複数音源による音響信号が同時にマイクロホンに到来することもある。このような場合に備え、第ｉの単位音響信号に対応する音源が２種類以上の音源の混合音源であると判断できるように音種検出部１２を形成しておいても良い。

例えば、第１実施形態で述べた方法に基づき、第ｉの単位音響信号の周波数領域上における自己相関を調べることで第ｉの単位音響信号に対応する音源に人の声が含まれているか否かを判断すると共に第ｉの単位音響信号の時間領域上における自己相関を調べることで第ｉの単位音響信号に対応する音源に音楽が含まれているか否かを判断し、これによって、第ｉの単位音響信号に対応する音源が人の声と音楽の混合音源であるか否かを判断するようにしてもよい。更に、周波数領域上における自己相関と時間領域上における自己相関の強弱関係から、混合音源の全音量に占める人の声の音量割合と音楽の音量割合を検出することもできる。音量制御量決定部１４は、第ｉの単位音響信号に対応する音源が混合音源であるか否かや混合音源に対して検出された上記音量割合をも考慮して、各単位音響信号に対する増幅量を決定するようにしてもよい。

＜＜第４実施形態＞＞
本発明の第４実施形態を説明する。図２１に、第４実施形態に係る録再装置２００の概略構成図を示す。録再装置２００は、音響信号の記録時には録音装置として機能し、音響信号の再生時には再生装置として機能する。従って、録再装置２００を録音装置又は再生装置と捉えることも可能である。また、図１９の撮像素子１４３及び画像処理部１４４を録再装置２００に追加することも可能であり、この追加が成された録再装置２００は、撮像装置とも言える。

録再装置２００は、録再装置２００の筐体上の互いに異なる位置に設置されたマイクロホン１Ｌ及び１Ｒと、磁気ディスクやメモリカード等の記録媒体２０１と、音響信号処理装置２０２と、スピーカ部２０３と、液晶ディスプレイ等から成る表示部２０４と、操作受付部として機能する操作部２０５と、を備える。

マイクロホン１Ｌ及び１Ｒは、第１実施形態にて述べたものと同様のものであり、原点Ｏとマイクロホン１Ｌ及び１Ｒの位置関係も、第１実施形態にて述べたものと同様である（図１参照）。記録媒体２０１には、マイクロホン１Ｌ及び１Ｒの検出信号をデジタル変換することによって得られた原信号Ｌ及び原信号Ｒ、又は、それらの圧縮信号が記録音響信号として記録される。

図２２は、音響信号処理装置２０２の内部ブロック図を含む、録再装置２００の一部ブロック図である。音響信号処理装置２０２には、信号分離部２１１と、音特性解析部２１２と、再生音響信号生成部（信号処理部）２１３と、が備えられている。

信号分離部２１１は、記録媒体２０１からの記録音響信号より第１〜第ｍの方向信号を生成する。ここで、ｍは２以上の整数である。各方向信号は、記録音響信号より抽出された指向性を有する音響信号であり、ｉ及びｊを互いに異なる整数であると捉えた場合、指向性の向きは第ｉ及び第ｊの方向信号間で異なる。本実施形態では、特に断りなき限り、ｍ＝３であるとする。勿論、ｍは３以外であっても良い。そして、第１、第２及び第３の方向信号として、夫々、Ｌ方向信号、方向信号及びＲ方向信号が生成される場合を想定する。

図２３は、信号分離部２１１の内部ブロック図である。信号分離部２１１には、音源分離部２２１及び方向分離処理部２２２が備えられている。音源分離部２２１は、空間上に散在する複数の音源からの音を収音することで得られた音響信号であって且つ各音源からの信号を分離抽出した音響信号を生成して出力する。音源分離部２２１として図３の音源分離部１１を用いることができ、本実施形態では、音源分離部２２１が音源分離部１１と同じものであるとする。従って、音源分離部２２１から出力される音響信号は、第１実施形態で述べた対象音響信号である。第１実施形態で述べたように、対象音響信号は、第１の音源からの音を表す第１の単位音響信号と、第２の音源からの音を表す第２の単位音響信号と、・・・、第（ｎ−１）の音源からの音を表す第（ｎ−１）の単位音響信号と、第ｎの音源からの音を表す第ｎの単位音響信号と、を含む音響信号であり（上述したように、ｎは２以上の整数）、第１〜第ｎの単位音響信号は、それぞれ第１〜第ｎの音源の音響信号として、音源分離部２２１から出力される。第ｉの単位音響信号は、第ｉの方向から録再装置２００（より詳細には、録再装置２００上の原点Ｏ）に向かって到来した音響信号である（ｉは整数）。第ｉの到来方向とも言うべき第ｉの方向の意義は、第１実施形態で述べた通りである。

音源分離部２２１は、第１実施形態で述べた指向性制御により、記録音響信号から各単位音響信号を分離抽出することができる。更に、第１実施形態と同様、音源分離部２２１から出力される第１〜第ｎの単位音響信号には、第１〜第ｎの方向を表す又は第１〜第ｎの音源の存在位置を表す音源位置情報が付加される。

方向分離処理部２２２は、音源位置情報に基づいて、対象音響信号からＬ方向信号、Ｃ方向信号及びＲ方向信号を分離抽出する。この分離の方法を説明する。方向分離処理部２２２は、図２４に示す如く、線分３０１〜３０４を境界としてＸＹ座標面上に３つのエリア３００Ｌ、３００Ｃ及び３００Ｒを設定する。線分３０１〜３０４の夫々とＸ軸及びＹ軸との関係をユーザ指示等によって変更することも可能であるが（詳細は後述）、この変更がなき限り、線分３０１は原点ＯからＸ軸の負方向に向かってＸ軸と平行に伸びる線分であり、線分３０４は原点ＯからＸ軸の正方向に向かってＸ軸と平行に伸びる線分であり、線分３０２は原点ＯからＸＹ座標面上の第２象限に向かって伸びる線分であり、線分３０３は原点ＯからＸＹ座標面上の第１象限に向かって伸びる線分であるとする。この場合、線分３０１及び３０４はＸ軸上の線分であるが、図示の便宜上、図２４では、線分３０１及び３０４をＸ軸から若干ずらして示している（後述の図２５等も同様）。例えば、線分３０２はＹ軸に対して反時計周り方向に３０°だけ傾いており、線分３０３はＹ軸に対して時計周り方向に３０°だけ傾いている。エリア３００Ｌは、線分３０１及び３０２間に挟まれた、ＸＹ座標面の第２象限の一部エリアであり、エリア３００Ｃは、線分３０２及び３０３間に挟まれた、ＸＹ座標面の第１及び第２象限の一部エリアであり、エリア３００Ｒは、線分３０３及び３０４間に挟まれた、ＸＹ座標面の第１象限の一部エリアである。

方向分離処理部２２２は、音源位置情報に基づいて、第１の単位音響信号をＬ、Ｃ及びＲ方向信号の何れかに含める。具体的には、第１の単位音響信号の到来方向、即ち、第１の単位音響信号に対応する第１の方向がエリア３００Ｌ内の何れかの位置から原点Ｏに向かう方向であれば第１の単位音響信号をＬ方向信号に含め、該第１の方向がエリア３００Ｃ内の何れかの位置から原点Ｏに向かう方向であれば第１の単位音響信号をＣ方向信号に含め、該第１の方向がエリア３００Ｒ内の何れかの位置から原点Ｏに向かう方向であれば第１の単位音響信号をＲ方向信号に含める。これと同様の操作を、第２〜第ｎの単位音響信号に対しても行う。これにより、各々の単位音響信号が、Ｌ、Ｃ及びＲ方向信号の何れかに含められる。

例えば、ｎ＝３であって、図２５に示す如く、第１の音源としての音源３１１、第２の音源としての音源３１２及び第３の音源としての音源３１３が夫々エリア３００Ｌ、３００Ｃ及び３００Ｒに位置しているならば、Ｌ、Ｃ及びＲ方向信号は、夫々、第１、第２及び第３の単位音響信号となる。１つのエリア内に複数の音源が存在している場合も同様である。即ち例えば、ｎ＝６であって、第１、第２及び第３の音源がエリア３００Ｌに位置し、且つ、第４及び第５の音源がエリア３００Ｃに位置し、第６の音源がエリア３００Ｒに位置しているならば、Ｌ方向信号は第１、第２及び第３の単位音響信号の合成信号となり、Ｃ方向信号は第４及び第５の単位音響信号の合成信号となり、Ｒ方向信号は第６の単位音響信号となる。

上述の説明から理解されるように、Ｌ方向信号は、エリア３００Ｌ内に位置する音源からの音響信号を対象音響信号から分離抽出したものである。Ｌ方向信号は、エリア３００Ｌ内の何れかの位置から到来した音響信号である、とも言える。Ｃ及びＲ方向信号についても同様である。以下、説明の便宜上、エリア３００Ｌ内の何れかの位置から原点Ｏに向かう方向をＬ方向と呼び、エリア３００Ｃ内の何れかの位置から原点Ｏに向かう方向をＣ方向と呼び、エリア３００Ｒ内の何れかの位置から原点Ｏに向かう方向をＲ方向と呼ぶ。

尚、本例では、単位音響信号の生成を介してＬ、Ｃ及びＲ方向信号を生成するようにしているが、単位音響信号の生成を行うことなく、入力音響信号としての記録音響信号から、即ち、複数のマイクロホンの検出信号から、Ｌ、Ｃ及びＲ方向信号を指向性制御によって直接抽出するようにしてもよい。対象音響信号又は記録音響信号の内、音の到来方向がＬ方向である信号成分がＬ方向信号である（Ｃ及びＲ方向信号についても同様）。

図２２の解析部２１２Ｌ、２１２Ｃ及び２１２Ｒから成る音特性解析部２１２は、音の到来方向ごとに対象音響信号を解析することにより（換言すれば記録音響信号を解析することにより）、到来方向ごとに音の特性を表す特性情報を生成する。音響信号処理装置２０２では、音の到来方向がＬ、Ｃ及びＲ方向に分類されており、Ｌ、Ｃ及びＲ方向の信号成分としてＬ、Ｃ及びＲ方向信号が抽出されている。このため、解析部２１２Ｌ、２１２Ｃ及び２１２Ｒにおいて、夫々、Ｌ、Ｃ及びＲ方向信号を個別に解析する。解析部２１２Ｌは、Ｌ方向信号に基づき、Ｌ方向信号によって表される音の特性を解析して該音の特性を表すＬ特性情報を生成する。同様に、解析部２１２Ｃは、Ｃ方向信号に基づき、Ｃ方向信号によって表される音の特性を解析して該音の特性を表すＣ特性情報を生成し、解析部２１２Ｒは、Ｒ方向信号に基づき、Ｒ方向信号によって表される音の特性を解析して該音の特性を表すＲ特性情報を生成する。

図２６にＬ、Ｃ及びＲ特性情報の構成を示す。Ｌ特性情報の構成と、Ｃ及びＲ特性情報の夫々との構成は同じであり、解析部２１２Ｌの動作と、解析部２１２Ｃ及び２１２Ｒの各動作は同じである。故に、解析部２１２Ｌ、２１２Ｃ及び２１２Ｒを代表して、解析部２１２Ｌの動作を説明する。

解析部２１２Ｌは、Ｌ方向信号によって表される音の音量を表す音量情報をＬ特性情報に含める。Ｌ方向信号によって表される音の音量はＬ方向信号の信号レベルの増大に伴って増大するため、Ｌ方向信号の信号レベルを検出することで該音量を検出して音量情報を生成する。尚、「音の音量」という言葉と、第１実施形態にて述べられた「音源の音量」という言葉は、同義である。

解析部２１２Ｌは、Ｌ方向信号によって表される音の種類を表す音種情報をＬ特性情報に含める。「音の種類」という言葉と、第１実施形態にて述べられた「音源の種類」という言葉は、同義である。また、音の種類を単に音種とも呼ぶ。解析部２１２Ｌは、Ｌ方向信号に基づき、Ｌ方向信号によって表される音の種類（換言すれば、Ｌ方向信号の音源の種類）を判定する。この判定方法として、図３の音種検出部１２のそれを用いることができる。従って、解析部２１２Ｌでは、Ｌ方向信号の音源の種類を、人の声、音楽及び雑音の何れかに分類することができ、その分類結果を音種情報に含めることができる。Ｌ方向信号が複数の単位音響信号の合成信号である場合には、単位音響信号ごとに単位音響信号の音源を判定すると良い。この場合、或る区間におけるＬ特性情報には、複数の音源についての音種情報が含められる。

解析部２１２Ｌは、Ｌ方向信号によって表される音に人の声が含まれているか否かを、Ｌ方向信号に基づいて検出し、その検出結果を示す人声有無情報をＬ特性情報に含める。上述の音種情報を生成する過程において、Ｌ方向信号の音源の種類が解析されているため、その解析結果を流用すれば人声有無情報を生成可能である。

解析部２１２Ｌは、Ｌ方向信号によって表される音に人の声が含まれている場合には、その声の発言者（以下、話者という）をＬ方向信号に基づいて検出し、検出された話者を表す話者情報をＬ特性情報に含める。解析部２１２Ｌによる話者の検出は、Ｌ方向信号によって表される声の人物が、予め登録された人物（以下、登録人物という）である場合に達成される。登録人物は１人であっても良いが、今、登録人物として、互いに異なる第１及び第２登録人物が存在することを想定する。ユーザは、各登録人物の声の音響信号を録再装置２００に設けられた登録人物用メモリ（不図示）に予め記録させておくことができる。解析部２１２Ｌは、登録人物用メモリを用いて各登録人物の声の特徴を解析し、その解析結果を用いて話者情報を生成する。話者情報を生成するための解析技術として、公知の任意の話者認識技術を利用可能である。

図２２の再生音響信号生成部２１３は、Ｌ、Ｃ及びＲ方向信号から再生音響信号を生成する。この再生音響信号は、１又は複数のスピーカから成るスピーカ部２０３に送られて、音として再生される。詳細は後述されるが、Ｌ、Ｃ及びＲ方向信号から再生音響信号を生成する方法は、音特性解析部２１２からの特性情報及び／又は操作部２０５から入力操作情報に基づいて決定される。ユーザは、スイッチ等から成る操作部２０５に対して様々な操作（以下、入力操作という）を成すことができ、入力操作を介して所望の指示を録再装置２００に与えることができる。入力操作情報とは、入力操作の内容を表す情報である。本実施形態及び後述の第５実施形態では、表示部２０４に所謂タッチパネル機能が設けられていることを想定する。従って、入力操作の一部又は全部は、表示部２０４に対するタッチパネル操作にて実現される。

［特性情報の表示］
録再装置２００には、特異な機能として、特性情報を表示する機能が備えられている。ユーザは、この表示内容を見た上で入力操作を成すことができる。表示部２０４による特性情報の表示方法を説明する。尚、本実施形態及び後述の第５実施形態において、表示とは、特に記述なき限り、表示部２０４における表示を指す。従って例えば、単に表示画面といった場合、それは表示部２０４の表示画面を指す。

まず、図２７を参照し、基礎となる画像３５０を説明する。画像３５０は、スピーカを模したアイコン３５１、エリア３００Ｌ、３００Ｃ及び３００Ｒを模したエリアアイコン３５２Ｌ、３５２Ｃ及び３５２Ｒから成る。図２７に示す例では、エリアアイコン３５２Ｌ、３５２Ｃ及び３５２Ｒの夫々の形状は三角形となっている。画像３５０上に図２４のＸＹ座標面と同様の二次元座標面を定義し、画像３５０上において、原点Ｏに対応する位置にアイコン３５１を配置すると共に、エリア３００Ｌ、３００Ｃ及び３００Ｒに対応する位置に夫々エリアアイコン３５２Ｌ、３５２Ｃ及び３５２Ｒを配置する。

表示部２０４は、アイコン３５１、３５２Ｌ、３５２Ｃ及び３５２Ｒを含む画像３５０を表示すると共に、特性情報に応じて、音源アイコンを画像３５０上に重畳表示する。図２８（ａ）〜（ｃ）に示す如く、音源アイコンには、音源が人物の声であることを示す人物アイコン３６１、音源が音楽であることを示す音楽アイコン３６２、音源が雑音であることを示す雑音アイコン３６３がある。

従って例えば、Ｃ方向信号の音源が音楽であって且つＲ方向信号の音源が人の声であることが特性情報に示されている場合には、図２９（ａ）に示すような画像３５０ａが表示される。画像３５０ａは、画像３５０に音楽アイコン３６２及び人物アイコン３６１を重畳したものであり、画像３５０ａ上において、音楽アイコン３６２及び人物アイコン３６１は、夫々、エリアアイコン３５２Ｃ内及びエリアアイコン３５２Ｒ内に配置される。また例えば、Ｃ方向信号の音源が人物であって且つＲ方向信号の音源が雑音であることが特性情報に示されている場合には、図２９（ｂ）に示すような画像３５０ｂが表示される。画像３５０ｂは、画像３５０に人物アイコン３６１及び雑音アイコン３６３を重畳したものであり、画像３５０ｂ上において、人物アイコン３６１及び雑音アイコン３６３は、夫々、エリアアイコン３５２Ｃ内及びエリアアイコン３５２Ｒ内に配置される。Ｌ方向に音源が存在する場合も同様に処理される。尚、以下の説明では、方向別の音種を明示する画像の代表として、図２９（ａ）の画像３５０ａが適宜参照される。

以下の説明において、図３０（ａ）に示す如く、或る音響信号の存在する区間（時間的な区間）の全体を全区間と呼ぶ。記録音響信号の全区間の時間長さは、記録音響信号の録音時間の長さに等しい。記録音響信号から生成される音響信号（対象音響信号、Ｌ、Ｃ及びＲ方向信号）の全区間の時間長さは、記録音響信号のそれに等しい。また、以下の説明では、全区間中の一部の区間を特定区間、第１区間又は第２区間と呼ぶことがある（図３０（ｂ）及び（ｃ）参照）。但し、第１及び第２区間は互いに異なる区間であって、第１区間の終了後に第２区間が存在するものとする。例えば、図３０（ｃ）に示す如く、第１及び第２区間は連続する区間である。

特性情報の表示は、特性情報に対応する再生音響信号の再生時にリアルタイムで行うことができる。これを、特性情報のリアルタイム表示と呼ぶ。特性情報のリアルタイム表示では、特定区間のＬ、Ｃ及びＲ方向信号に基づく再生音響信号をスピーカ部２０３にて再生している時に、特性区間のＬ、Ｃ及びＲ方向信号に基づく特性情報を表示部２０４に表示する。この場合において、例えば、特定区間のＬ、Ｃ及びＲ方向信号に基づく再生音響信号に特定区間のＣ及びＲ方向信号が含まれていて、且つ、特定区間のＣ及びＲ方向信号の音源が夫々音楽及び人の声であるならば、特定区間のＬ、Ｃ及びＲ方向信号に基づく再生音響信号をスピーカ部２０３にて再生している最中に、図２９（ａ）の画像３５０ａが表示される。更に、Ｒ方向信号についての人の声が実際にスピーカ部２０３から出力される時点において、その出力をユーザに知らしめる発話表示を行うと良い。例えば、その時点において、図３１に示す如く、画像３５０ａ上の人物アイコン３６１又は人物アイコン３６１が配置されたエリアアイコン３５２Ｒを明滅させると良い。

記録音響信号に基づく再生音響信号を実際にスピーカ部２０３にて再生する前に、記録音響信号から特性情報を生成して該特性情報を表示部２０４にて表示するようにしても良い。これを、特性情報の事前表示と呼ぶ。特性情報の事前表示を行う際は、再生音響信号の生成に先立って、記録音響信号を記録媒体２０１から読み出して特性情報の生成を行えば良い。この際、特性情報生成用の解析区間は全区間であっても良いが、全区間中の限られた一部区間であっても良い。特性情報の事前表示では、解析区間の記録音響信号に基づく特性情報が表示部２０４にて表示される。

更に、特性情報の事前表示を行う場合、方向別に代表音響信号を抽出し、再生音響信号の再生に先立って、代表音響信号をスピーカ部２０３から出力するようにしても良い。具体的には、解析区間中におけるＬ方向信号の内、人の声による音響信号をＬ方向の代表音響信号として抽出する、或いは、解析区間中におけるＬ方向信号の内、最大の音量を有する区間のＬ方向信号をＬ方向の代表音響信号として抽出する、或いは、全区間のＬ方向信号の内、最初に発生した音の音響信号をＬ方向の代表音響信号として抽出する。そして、特性情報の事前表示を行っている時に、ユーザの指示に従って或いはユーザの指示の有無に関わらず、Ｌ方向の代表音響信号をスピーカ部２０３から出力するようにしても良い。Ｃ方向及びＲ方向についても同様とされる。

また、特性情報に含まれる音量情報に基づき、Ｌ、Ｃ及びＲ方向信号の音量を個別に示す図３２のような画像３７０を生成し、該画像３７０を表示するようにしても良い。各方向の音量は刻一刻と変化するため、画像３７０の表示は、特性情報のリアルタイム表示において成される。画像３７０を単体で表示部２０４に表示することも可能であるし、画像３７０を図２９（ａ）の画像３５０ａと同時に表示するようにしても良い。また、複数の色にて発光することが可能な、Ｌ方向用、Ｃ方向用及びＲ方向用のＬＥＤ（Light Emitting Diode；不図示）を録再装置２００に設けておき、特性情報に応じて各ＬＥＤの発光色を変化させることで方向別の音量をユーザに報知しても良い。この場合、Ｌ特性情報の音量情報によってＬ方向用のＬＥＤの発光色が定められる。Ｃ方向及びＲ方向についても同様である。

図２９（ａ）の画像３５０ａでは方向別の音種が明示され、図３２の画像３７０では方向別の音量が明示されているが、Ｌ、Ｃ及びＲ特性情報についての人声有無情報及び話者情報（図２６参照）を、画像３５０ａ及び／又は画像３７０とは別個に、或いは、画像３５０ａ及び／又は画像３７０上に表示するようにしても良い。但し、人声有無情報は、図２９（ａ）の画像３５０ａに既に示されているとも言える。話者情報を、図２９（ａ）の画像３５０ａに重畳表示するようにしても良い。即ち例えば、図２９（ａ）の画像３５０ａの表示時において、Ｒ方向信号の音源としての人の声が第１登録人物であることがＲ特性情報に示されている場合には、第１登録人物の人名等を画像３５０ａ上のエリアアイコン３５２Ｒ内に重畳表示するようにしても良い。

音量や音種等をユーザに明示するための画像の構成を上述したが、上述の画像の構成は例示であり、方向別の特性情報をユーザに知らしめることができる限り、画像の構成を様々に変形することが可能である。更に、画像の表示やＬＥＤによって特性情報を視覚的にユーザに報知する方法（即ち、表示部２０４又はＬＥＤを報知部として用いる方法）を説明したが、方向別の特性情報をユーザに知らしめることができる限り、特性情報の報知の方法は任意である。

［入力操作情報に応じた再生音響信号の生成］
次に、入力操作情報に応じた再生音響信号の生成方法を説明する。ユーザは、第１〜第ｍの方向（換言すれば、第１〜第ｍの到来方向）の内、１つ以上であって且つｍ個以下の方向を指定する方向指定操作を操作部２０５に対して成すことができる。入力操作には少なくとも方向指定操作が含まれている。方向指定操作によって指定された方向を、指定方向（又は指定到来方向）と呼ぶ。本実施形態の例では、ｍ＝３であって、第１〜第ｍの方向は、Ｌ、Ｃ及びＲ方向から成る。ユーザは、例えば、図２９（ａ）の画像３５０ａが表示されている時に、画像３５０ａ上の人物アイコン３６１又はエリアアイコン３５２Ｒをタッチパネル操作で指定することでＲ方向を指定方向として指定することができ、画像３５０ａ上の音楽アイコン３６２又はエリアアイコン３５２Ｃをタッチパネル操作で指定することでＣ方向を指定方向として指定することができる（Ｌ方向についても同様）。ユーザは、タッチパネル操作以外の操作によって指定方向を指定することもできる。例えば、操作部２０５に十字キー（不図示）やジョイスティック等を設けておいた場合には、それらを用いて指定方向を指定することもできる。

再生音響信号生成部２１３は、記録音響信号又は対象音響信号をそのまま再生音響信号として出力することもできるが、ユーザによる入力操作に応じた信号処理をＬ、Ｃ及びＲ方向信号から成る対象音響信号に対して施すことで、以下のような再生音響信号を生成することができる。上記信号処理として、第１〜第３信号処理を例示する。

――第１信号処理――
第１信号処理を説明する。第１信号処理では、Ｌ、Ｃ及びＲ方向信号から成る対象音響信号より、指定方向の信号成分を抽出することで再生音響信号を生成する。第１信号処理は、指定方向の個数が（ｍ−１）以下の時に（即ち、１又は２の時に）、有益に機能する。

例えば、方向指定操作によってＣ方向のみが指定されている場合には、Ｌ、Ｃ及びＲ方向信号の中からＣ方向信号のみを選択して、Ｃ方向信号を再生音響信号として生成する。Ｌ方向又はＲ方向のみが指定された場合も同様である。また例えば、方向指定操作によってＣ及びＲ方向が指定されている場合には、Ｌ、Ｃ及びＲ方向信号の中からＣ及びＲ方向信号を選択して、Ｃ及びＲ方向信号を合成した信号を再生音響信号として生成する。尚、再生音響信号を生成する際の合成は、図３３に示す如く、合成対象となる複数の音響信号を共通の区間上で足し合わせることで実現される。

第１信号処理を用いれば、ユーザは、特性情報の表示内容を考慮して所望方向を指定し、所望方向からの音のみを聴くことが可能となる。

――第２信号処理――
第２信号処理を説明する。第２信号処理では、指定方向の信号成分を強調又は減衰させる処理をＬ、Ｃ及びＲ方向信号から成る対象音響信号に施すことで再生音響信号を生成する。第２信号処理は、指定方向の個数がｍ以下の時に（即ち、１、２又は３の時に）、有益に機能する。

例えば、ユーザは、Ｃ方向を指定方向として指定した状態で、Ｃ方向信号の増幅又は減衰を入力操作によって指示することができる。この際、増幅の程度又は減衰の程度も入力操作によって自由に指示することができる。Ｃ方向信号の増幅とは、Ｃ方向信号の信号レベルを増大させることを意味し、Ｃ方向信号の減衰とは、Ｃ方向信号の信号レベルを減衰させることを意味する。当然の如く、Ｃ方向信号の増幅が成された場合、Ｃ方向の信号成分は強調され、Ｃ方向信号の減衰が成された場合、Ｃ方向の信号成分は減衰される。Ｃ方向信号の増幅又は減衰を指示する入力操作を受けた後、再生音響信号生成部２１３は、信号分離部２１１から送られてきたＬ方向信号及びＲ方向信号と、増幅又は減衰が成されたＣ方向信号と、を合成した信号を再生音響信号として生成する。Ｃ方向が指定方向として指定された場合における再生音響信号の生成方法を説明したが、Ｌ又はＲ方向が指定方向として指定された場合のそれも同様である。

ユーザは、Ｌ、Ｃ及びＲ方向の内の、２つ又は３つの方向を指定方向として指定し、指定方向ごとに、指定方向に対応する方向信号の増幅又は減衰を入力操作によって指示することもできる。例えば、Ｃ方向信号の増幅及びＲ方向信号の減衰を指示する入力操作が操作部２０５に対して成されると、その入力操作後において、再生音響信号生成部２１３は、信号分離部２１１から送られてきたＬ方向信号と、増幅が成されたＣ方向信号と、減衰が成されたＲ方向信号と、を合成した信号を再生音響信号として生成する。

方向別の音量情報を示す図３２の画像３７０が表示されているときには、ユーザは、表示画面上の、Ｃ方向に対応する部位に対して所定のタッチパネル操作を行うことで、Ｃ方向を指定方向として設定することができ、更に、Ｃ方向信号の増幅又は減衰の指示及び増幅又は減衰の程度の指示も行うことができる。図２９（ａ）の画像３５０ａが表示されている時においても、タッチパネル操作で信号の増幅等を指示することができる。例えば、図２９（ａ）の画像３５０ａが表示されている時、図３４（ａ）に示す如く、アイコン３５１とエリアアイコン３５２Ｃの境界部分にユーザの指を置き、表示画面上で該指を滑らせながら、該指をアイコン３５１から遠ざかる方向にエリアアイコン３５２Ｃ内で移動させるとＣ方向信号の増幅が指示されて該増幅が実現される。逆に、図３４（ｂ）に示す如く、上記の指の動きと逆方向の指の動きをユーザが成すと、Ｃ方向信号の減衰が指示されて該減衰が実現される。

第２信号処理を用いれば、ユーザは、特性情報の表示内容を考慮して所望方向を指定し、所望方向からの音を強調又は減衰させた状態で記録音響を聴くことが可能となる。

――第３信号処理――
第３信号処理を説明する。第３信号処理では、各方向の信号成分を所望の混合比率にて混合することで再生音響信号を生成する。

第３信号処理は、指定方向の個数が３の時に実現される第２信号処理と等価である、とも言える。ユーザは、方向信号ごとに、方向信号を増幅させるのか又は減衰させるのか、及び、方向信号の増幅の程度又は減衰の程度を入力操作を介して指示することができる。この指示の方法を、第２信号処理のそれと同様とすることができる。

再生音響信号生成部２１３は、この指示に従って、増幅又は減衰の成されたＬ、Ｃ及びＲ方向信号を合成することで再生音響信号を生成する。但し、入力操作の内容によっては、Ｌ、Ｃ及びＲ方向信号の内、１つ又は２つの方向信号に対しては増幅又は減衰が成されないこともある。

ユーザは、特定の音源からの音響信号（例えば、第１登録人物についての音響信号や、最も大きな音量又は最も小さな音量を有する音響信号）を抽出又は強調して聞くことを望む場合もあるし、全ての方向の音量を均等レベルにした再生音響信号を聞きたい場合もある。第１〜第３信号処理を用いれば、これらの要望に応えることが可能となる。

尚、予め規定特性情報が音響信号処理装置２０２に記録されている場合には、入力操作とは関係なく、再生音響信号生成部２１３が、規定特性情報及び特性情報に基づき自動的に指定方向を選択して、第１又は第２信号処理を実施するようにしても良い。規定特性情報には、音量情報、音種情報、人声有無情報及び話者情報の内、何れか１以上の情報が定められている。そして、再生音響信号生成部２１３は、規定特性情報がＬ特性情報と合致する時、Ｌ方向を指定方向として選択し、規定特性情報がＣ特性情報と合致する時、Ｃ方向を指定方向として選択し、規定特性情報がＲ特性情報と合致する時、Ｒ方向を指定方向として選択する。

ユーザは、操作部２０５を介して規定特性情報を予め設定しておくことができ、規定特性情報によって選択された指定方向の方向信号に対して、どのような信号処理を再生音響信号生成部２１３で成すべきかを予め設定しておくことができる。

例えば、音種が人の声であるという音種情報を規定特性情報として設定しておくことができる。この場合において、Ｃ方向信号の音種が人の声であることがＣ特性情報に示されているならば規定特性情報がＣ特性情報と合致するため、Ｃ方向を指定方向として選択した上で第１信号処理を成す。即ち、Ｃ方向信号を再生音響信号として生成する。或いは、Ｃ方向を指定方向として選択した上で第２信号処理を成す。即ち例えば、信号分離部２１１から送られてきたＬ方向信号及びＲ方向信号と、増幅又は減衰が成されたＣ方向信号と、を合成した信号を再生音響信号として生成する。増幅又は減衰の度合いも、ユーザは予め設定可能である。規定特性情報がＬ又はＲ特性情報と合致する場合も同様とされる。

［エリア変更操作］
また、ユーザは、操作部２０５に対する所定の操作（タッチパネル操作を含む）によって、エリア３００Ｌ、３００Ｃ及び３００Ｒに対応する方向及び方向の幅を変更することができ（図２４参照）、この変更によって、エリア３００Ｌ、３００Ｃ及び３００Ｒに対応する音の到来方向が変化する。エリア３００Ｌ、３００Ｃ及び３００Ｒに関する上記変更を実現する操作を、特に、エリア変更操作と呼ぶ。エリア変更操作は入力操作に含まれる、と考えるようにしても良い。

図２４に示すように、エリア３００Ｌは線分３０１及び３０２間に挟まれたエリアであるため、線分３０１及び／又は３０２とＸ軸との成す角度が変化するように、線分３０１及び／又は３０２を原点Ｏを軸として回転させることで、エリア３００Ｌに対応する音の到来方向を変化させることができる。エリア３００Ｃ及びＲについても同様である。即ち、ユーザは、エリア変更操作を介して、線分３０１〜３０４を原点Ｏを軸として回転させることで、エリア３００Ｌ、３００Ｃ及び３００Ｒに対応する音の到来方向を自由に設定することができる。

エリア変更操作の具体的な操作方法として、以下のような操作方法を採用可能である。図２９（ａ）の画像３５０ａが表示されている状態において、エリア３００Ｃを拡大し、これに伴ってエリア３００Ｌ及びＲを縮小するエリア変更操作をユーザが成す場合を考える。この場合、まず、ユーザは、タッチパネル操作等を介してエリアアイコン３５２Ｃを選択する。これにより、図３５（ａ）に示す如く、三角形状のエリアアイコン３５２Ｃが強調表示される。エリアアイコン３５２Ｃが選択されている状態において、エリアアイコン３５２Ｃ及び３５２Ｌ間の境界部分よりもエリアアイコン３５２Ｌ側に位置する点４０１と、エリアアイコン３５２Ｃ及び３５２Ｒ間の境界部分よりもエリアアイコン３５２Ｒ側に位置する点４０２を、２本の指で押す。

指による、このエリア変更操作の内容は、図２３の方向分離処理部２２２に伝達され、方向分離処理部２２２は、このエリア変更操作に従って図２４の線分３０２及び３０３を原点Ｏを軸として回転させる。即ち、線分３０２が原点Ｏを起点として点４０１に対応する方向に伸びる線分になるように線分３０２を修正し、線分３０３が原点Ｏを起点として点４０２に対応する方向に伸びる線分になるように線分３０３を修正する。この線分３０２及び３０３の修正によって、エリア３００Ｃは拡大修正され、エリア３００Ｌ及びＲは縮小修正される。更に、表示部２０４は、エリア３００Ｌ、Ｃ及びＲの修正に伴って、その修正の内容に沿うように、表示画面上におけるエリアアイコン３５２Ｃを拡大修正すると共にエリアアイコン３５２Ｌ及びＲを縮小修正する。この修正が成されることで、表示画面上における画像は、図３５（ａ）の画像３５０ａから図３５（ｂ）の画像３５０ａ’へと変更される。上記のエリア３００Ｃの拡大修正によって、修正前にはＬ方向信号に属していた人の声の音響信号が修正後にはＣ方向信号に属するようになる場合もある。この場合には、修正前にはエリアアイコン３５２Ｒ内に表示されていた人物アイコン３６１が、図３５（ｃ）に示す如く、修正後にはエリアアイコン３５２Ｃ内に表示されることとなる。

また、スピーカ部２０３が複数のスピーカから形成される場合、ユーザは、操作部２０５に対する所定操作を介して、スピーカごとに再生する音の方向を指定することができる。例えば、スピーカ部２０３が左スピーカ及び右スピーカから成る場合において、仮に、ユーザが左スピーカからＬ方向の音を再生すべきこと及び右スピーカからＲ方向の音を再生すべきことを操作部２０５を介して指定した場合、再生音響信号生成部２１３は、その指定に基づき、Ｌ方向信号を左スピーカ用の再生音響信号として選択して、該Ｌ方向信号を左スピーカに送ることでＬ方向信号を左スピーカにて再生させると共に、Ｒ方向信号を右スピーカ用の再生音響信号として選択して、該Ｒ方向信号を右スピーカに送ることでＲ方向信号を右スピーカにて再生させる。この際、エリア変更操作をも成すことで、左９０°方向からの音を左スピーカにて再生させ、右９０°方向からの音を右スピーカにて再生させる、といったことも可能となる。

また、上記左スピーカにて複数の方向からの音を再生させることも可能である。右スピーカについても同様である。例えば、仮に、ユーザがＬ及びＣ方向の音を左スピーカにて再生すべきことを操作部２０５を介して指定した場合、再生音響信号生成部２１３は、その指定に基づき、Ｌ及びＣ方向信号を左スピーカ用の再生音響信号として選択して、Ｌ及びＣ方向信号を合成した信号を左スピーカに送って左スピーカにて再生させる。

［音源追尾機能］
録再装置２００には、音源追尾機能が備えられており、ユーザは、音源追尾機能を有効にするか無効にするかを自由に設定することができる。図３６を参照して、音源追尾機能の動作について説明する。図３６は、音源追尾機能が有効になっている時における、録再装置２００の再生動作手順を表すフローチャートである。

まず、ステップＳ１１において通常再生を開始する。通常再生とは、上述の第１〜第３信号処理を行うことなく、記録音響信号（即ち、Ｌ、Ｃ及びＲ方向信号を単純に合成した信号）を再生音響信号としてスピーカ部２０３に与えて再生する動作を指す。ステップＳ１１における通常再生の開始後、ステップＳ１２以降の各処理が実行されるが、それと並行して記録音響信号に基づく再生音響信号の再生が進行する。

通常再生の開始後、ステップＳ１２において、再生音響信号生成部２１３は、方向指定操作があったか否かをチェックし、方向指定操作があった場合にのみ、ステップＳ１２からステップＳ１３への遷移が実行される。

ステップＳ１３において、再生音響信号生成部２１３は、方向指定操作にて指定された指定方向を選択方向として設定し、方向指定操作があった時点における選択方向の特性情報を録再装置２００に設けられた特性情報記録メモリ（不図示）に記録する。

ステップＳ１３にて記録が成された後、ステップＳ１４において、再生音響信号生成部２１３は、選択方向の方向信号を対象音響信号から抽出することにより、或いは、選択方向の方向信号を強調することにより再生音響信号を生成する。即ち、選択方向を指定方向と捉えた上で、上述の第１又は第２信号処理をＬ、Ｃ及びＲ方向信号から成る対象音響信号に施すことで再生音響信号を生成する。但し、上述の第２信号処理では指定方向の方向信号の強調又は減衰が成されるが、音源追尾機能では強調が成されるものとする。

ステップＳ１４の再生と並行して、再生音響信号生成部２１３は、ステップＳ１５において、選択方向の特性情報に変化が生じたか否かをチェックする。即ち、特性情報記録メモリに記録されている特性情報（以下、記録特性情報と呼ぶ）と、現時点における選択方向の特性情報とを対比する。そして、両者の特性情報に差異がない場合にはステップＳ１４の再生をそのまま継続するが、両者の特性情報に差異がある場合にはステップＳ１５からステップＳ１６に移行する。

ステップＳ１６において、再生音響信号生成部２１３は、記録特性情報と現時点におけるＬ、Ｃ及びＲ特性情報の夫々とを対比し、記録特性情報に合致する特性情報がＬ、Ｃ及びＲ特性情報の中に存在するかをチェックする。その存在が認められた場合には、ステップＳ１６からステップＳ１７に移行する。ステップＳ１７において、再生音響信号生成部２１３は、記録特性情報に合致すると判断された特性情報に対応する方向を選択方向として再設定し、再設定された選択方向の特性情報を特性情報記録メモリに更新記録する。即ち、再設定された選択方向の特性情報にて記録特性情報を置き換える。ステップＳ１７の処理の後、ステップＳ１４に戻り、再設定された選択方向の方向信号の抽出又は強調再生が成される。

ステップＳ１６において、記録特性情報に合致する特性情報がＬ、Ｃ及びＲ特性情報の中に存在していない場合には、ステップＳ１８に移行して通常再生を再開する。ステップＳ１８にて通常再生を行っている最中に、記録特性情報に合致する特性情報がＬ、Ｃ及びＲ特性情報の中に存在すると判断された場合には、ステップＳ１７の処理を介してステップＳ１４に戻るようにしても良い。また、ステップＳ１８にて通常再生を行っている最中に方向指定操作が成されたならば、ステップＳ１３に戻ってステップＳ１３以降の処理を行うようにしても良い。

ステップＳ１２の方向指定操作によりＲ方向が指定された場合を想定して、ステップＳ１２以降の処理内容の具体例を説明する。
この場合、ステップＳ１３において、Ｒ方向が選択方向として設定され、方向指定操作があった時点におけるＲ特性情報が特性情報記録メモリに記録される。
続くステップＳ１４において、Ｒ方向信号がＬ、Ｃ及びＲ方向信号から成る対象音響信号より選択抽出され、Ｒ方向信号が再生音響信号として生成されてスピーカ部２０３にて再生される。或いは、Ｒ方向信号が増幅され、信号分離部２１１から送られてきたＬ方向信号及びＣ方向信号と、増幅が成されたＲ方向信号と、を合成した信号が再生音響信号として生成されてスピーカ部２０３にて再生される。増幅の程度は、予め定められていても良いし、ユーザが指定しても良い。

現時点における選択方向がＲ方向であるという想定に加え、ステップＳ１５及びＳ１６にてチェックされる特性情報の変化及び合致性が音種情報における変化及び合致性であり、且つ、記録特性情報にて示される音の種類が人の声であることを想定して、ステップＳ１５及びＳ１６の処理内容の具体例を説明する。

現時点における選択方向がＲ方向である場合、ステップＳ１５では、記録特性情報と現時点のＲ特性情報とが対比される。今、記録特性情報にて示される音の種類が人の声であることが想定されているため、現時点のＲ特性情報にて示される音の種類が人の声であれば、対比特性情報間に差異はないため（即ち選択方向の特性情報に変化がないため）、ステップＳ１５からステップＳ１４に戻る。一方、現時点のＲ特性情報にて示される音の種類が人の声でなければ、対比特性情報間に差異があると判断されて（即ち、選択方向の特性情報に変化があると判断されて）ステップＳ１５からステップＳ１６に移行する。

ステップＳ１６では、記録特性情報と現時点におけるＬ、Ｃ及びＲ特性情報の夫々とが対比される。
仮に、ステップＳ１６において、Ｌ、Ｃ及びＲ特性情報にて示される音の種類がそれぞれ「雑音」、「人の声」及び「雑音」である場合にはＣ特性情報が記録特性情報に合致すると判断されて、続くステップＳ１７においてＣ方向が選択方向として再設定され、以後、Ｃ方向信号が抽出又は強調再生される（ステップＳ１４）。
或いは仮に、ステップＳ１６において、Ｌ、Ｃ及びＲ特性情報にて示される音の種類がそれぞれ「人の声」、「雑音」及び「雑音」である場合にはＬ特性情報が記録特性情報に合致すると判断されて、続くステップＳ１７においてＬ方向が選択方向として再設定され、以後、Ｌ方向信号が抽出又は強調再生される（ステップＳ１４）。
つまり、「人の声」という条件に合致する音源を追尾するように再生が成される。
更に或いは、ステップＳ１６において、Ｌ、Ｃ及びＲ特性情報にて示される音の種類がそれぞれ「人の声」、「人の声」及び「雑音」であるならば、Ｌ及びＣ特性情報が記録特性情報に合致すると判断されて、続くステップＳ１７においてＬ及びＣ方向が選択方向として再設定され、以後、Ｌ及びＣ方向信号が抽出又は強調再生される（ステップＳ１４）。但し、基本的に音源は連続的に移動するものであるため、Ｒ方向の音源が次の瞬間にＬ方向のエリアに位置する可能性は比較的低い。従って、ステップＳ１６において、Ｌ、Ｃ及びＲ特性情報にて示される音の種類がそれぞれ「人の声」、「人の声」及び「雑音」であるならば、続くステップＳ１７においてＣ方向のみを選択方向として再設定するようにしても良い。

次に、現時点における選択方向がＲ方向であるという想定に加え、ステップＳ１５及びＳ１６にてチェックされる特性情報の変化及び合致性が話者情報における変化及び合致性であり、且つ、記録特性情報にて示される話者が第１登録人物であることを想定して、ステップＳ１５及びＳ１６の処理内容の具体例を説明する。

現時点における選択方向がＲ方向である場合、ステップＳ１５では、記録特性情報と現時点のＲ特性情報とが対比される。今、記録特性情報にて示される話者が第１登録人物であることが想定されているため、現時点のＲ特性情報にて示される話者が第１登録人物であれば、対比特性情報間に差異はないため（即ち選択方向の特性情報に変化がないため）、ステップＳ１５からステップＳ１４に戻る。一方、現時点のＲ特性情報にて示される話者が第１登録人物でなければ、対比特性情報間に差異があると判断されて（即ち、選択方向の特性情報に変化があると判断されて）ステップＳ１５からステップＳ１６に移行する。

ステップＳ１６では、記録特性情報と現時点におけるＬ、Ｃ及びＲ特性情報の夫々とが対比される。
仮に、ステップＳ１６において、Ｌ、Ｃ及びＲ特性情報にて示される話者がそれぞれ「話者無し」、「第１登録人物」及び「話者不明」である場合にはＣ特性情報が記録特性情報に合致すると判断されて、続くステップＳ１７においてＣ方向が選択方向として再設定され、以後、Ｃ方向信号が抽出又は強調再生される（ステップＳ１４）。尚、特性情報にて示される話者が「話者無し」であるとは、当該特性情報に対応する方向信号に人の声が含まれていないことを意味する。特性情報にて示される話者が「話者不明」であるとは、当該特性情報に対応する方向信号に人の声が含まれてはいるものの、その声の話者を検出できていないことを意味する。
或いは仮に、ステップＳ１６において、Ｌ、Ｃ及びＲ特性情報にて示される話者がそれぞれ「話者無し」、「話者不明」及び「話者無し」である場合には、何れの特性情報も記録特性情報と合致しない。しかしながら、この場合、Ｃ特性情報に対応するＣ方向信号にのみ人の声が含まれているため、Ｌ、Ｃ及びＲ特性情報の内、Ｃ特性情報は記録特性情報に最も近いと言える。そこで、ステップＳ１６において、Ｃ及びＲ特性情報にて示される話者がそれぞれ「話者無し」、「話者不明」及び「話者無し」である場合には、Ｃ特性情報が記録特性情報に近似的に合致する（或いは最も近似する）と判断し、続くステップＳ１７においてＣ方向を選択方向として再設定するようにしても良い。Ｌ、Ｃ及びＲ特性情報にて示される話者がそれぞれ「話者無し」、「話者不明」及び「第２登録人物」である場合においても、同様である。

ステップＳ１５及びＳ１６にてチェックされる特性情報の変化及び合致性が話者情報における変化及び合致性であることを想定した上で、音源の追尾例を、図３７（ａ）及び（ｂ）を参照して補足説明する。図３７（ａ）及び（ｂ）では、記録音響信号の録音時における話者に第１登録人物が含まれ、第１登録人物が、録音中に、エリア３００Ｒからエリア３００Ｃを介してエリア３００Ｌへと移動したことを想定している。

ステップＳ１２の方向指定操作によりＲ方向が選択方向として設定され、方向指定操作の成された時点におけるＲ方向信号に第１登録人物の声が含まれていた場合を考える。この場合、記録特性情報の話者情報は第１登録人物を示すこととなる。Ｒ特性情報の話者情報に第１登録人物が含まれている区間においては、Ｒ方向が選択方向であり続けてＲ方向信号が抽出又は強調再生される（ステップＳ１４）。その後に訪れる第１区間において、Ｒ特性情報の話者情報に第１登録人物が含まれず、代わりにＣ特性情報の話者情報に第１登録人物が含まれるようになると、ステップＳ１５〜Ｓ１７の処理を介して、Ｃ方向が選択方向として再設定される。Ｃ特性情報の話者情報に第１登録人物が含まれている第１区間においては、Ｃ方向が選択方向となってＣ方向信号が抽出又は強調再生される（ステップＳ１４）。更に後に訪れる第２区間において、Ｃ特性情報の話者情報に第１登録人物が含まれず、代わりにＬ特性情報の話者情報に第１登録人物が含まれるようになると、ステップＳ１５〜Ｓ１７の処理を介して、Ｌ方向が選択方向として再設定される。Ｌ特性情報の話者情報に第１登録人物が含まれている第２区間においては、Ｌ方向が選択方向となりＬ方向信号が抽出又は強調再生される（ステップＳ１４）。

このように、音源追尾機能では、第１区間の対象音響信号から生成された第１区間におけるＬ、Ｃ及びＲ特性情報に基づいて第１区間における選択方向（選択到来方向）を決定すると共に、第２区間の対象音響信号から生成された第２区間におけるＬ、Ｃ及びＲ特性情報に基づいて第２区間における選択方向（選択到来方向）を決定する。この際、追尾の対象となる音源の信号成分の到来方向、即ち、特定の特性を有する音（例えば、種類が人の声である音、又は、話者が第１登録人物である音）の信号成分の到来方向が第１及び第２区間における選択方向に共通して含まれるように、第１及び第２区間の選択方向は設定される。

上記の音源追尾機能により、特定の特性を有する音を追尾したような再生音を出力することが可能となる。

ステップＳ１５及びＳ１６にてチェックされる特性情報の変化及び合致性が、音種情報又は話者情報における変化及び合致性であることを想定して、音源追尾機能の具体的動作を上述したが、この具体的動作は例に過ぎない。

また、音源追尾機能の上述の説明では、まず、方向指定操作によって選択方向が設定されているが、予め規定特性情報が音響信号処理装置２０２に記録されている場合には、方向指定操作とは関係なく、再生音響信号生成部２１３が、規定特性情報及び特性情報に基づき自動的に選択方向を設定するようにしても良い。上述したように、ユーザは、操作部２０５を介して規定特性情報を予め設定しておくことができる。再生音響信号生成部２１３は、規定特性情報がＲ特性情報と合致する時、方向指定操作とは関係なく、ステップＳ１３において、Ｒ方向を選択方向として設定すると共に規定特性情報を記録特性情報として記録することができる（Ｃ及びＬ方向についても同様）。

例えば、音種が人の声であるという音種情報を規定特性情報として設定しておくことができる。この場合において、Ｃ方向信号の音種が人の声であることがＣ特性情報に示されているならばＣ特性情報が規定特性情報と合致するため、Ｃ方向を選択方向として設定すると共に該規定特性情報を記録特性情報として記録する（ステップＳ１３）。その後に行われるステップＳ１４以降の処理は、上述した通りである。

また、上述の説明では、各々の時点で選択方向として設定される方向は１つとなっているが、複数の方向を同時に選択方向として設定するようにしても良い。即ち、ステップＳ１２においてＬ及びＣ方向が指定された場合には、Ｌ及びＣ方向の夫々を選択方向として設定して該指定の成された時点のＬ及びＣ特性情報を第１及び第２記録特性情報として記録し、上述した方法に従い、各記録特性情報と合致する方向信号を抽出又は強調再生するようにしても良い。

［応用技術］
録再装置２００にて利用可能な応用技術を以下に列記する。

指定方向又は選択方向に対して第１信号処理を適用する場合、即ち、指定方向又は選択信号の方向信号を再生音響信号として選択的に再生する場合において、指定方向又は選択信号の方向信号に無音区間が存在するときには、該無音区間の再生をスキップするようにしてもよいし、公知の話速変換を用いて早送り再生を行うようにしても良い。無音区間とは、注目した音響信号の信号レベルが一定レベル以下となっている区間を指す。

録再装置２００が撮像装置としての機能を備えている場合において、記録音響信号の録音前に静止画像又は動画像の撮影が行われて該静止画像又は動画像の画像データが記録媒体２０１に記録されている場合、記録音響信号の再生時に、該静止画像又は動画像を表示部２０４に表示するようにしても良い。この静止画像又は動画像は、記録音響信号の再生時において、図２９（ａ）の画像３５０ａ上又は図３２の画像３７０上に表示される、或いは、画像３５０ａ及び／又は画像３７０と並列表示される。

ユーザの方向指定操作に従って生成された再生音響信号を、記録音響信号とは別に記録媒体２０１に記録するようにしても良い。

記録音響信号の記録条件に応じて、音響信号処理装置２０２にて行う信号処理のパラメータを変更するようにしても良い。例えば、比較的低いビットレートで記録音響信号が記録されている場合（即ち、比較的高い圧縮率にて記録音響信号が圧縮されている場合）、記録音響信号には大きな歪みが含まれているため、本来行おうとしている理想的な信号処理は実現しがたい。従って、比較的低いビットレートで記録音響信号が記録されている場合には、指向性制御等を弱めると良い。具体的には例えば、比較的高いビットレートで記録音響信号が記録されている場合には、上述の第２信号処理においてＬ方向信号の信号レベルを５倍に増幅していたところを、比較的低いビットレートで記録音響信号が記録されている場合には、該信号レベルの増幅倍率を３倍に減らすようにしても良い。

第１〜第３信号処理又は音源追尾機能が有効に働きがたいと推定される場合には、再生前に、その旨をユーザに提示し、それでも第１〜第３信号処理又は音源追尾機能を使用するか否かを、録再装置２００がユーザに問うようにしても良い。例えば、比較的低いビットレートで記録音響信号が記録されている場合は、大きな歪みの影響により、第１〜第３信号処理又は音源追尾機能が有効に働きがたいと推定される。指向性方向が互いに異なる複数の指向性マイクロホンから成るマイク部を用いて記録音響信号が生成されている場合も同様である。指向性マイクロホンにて得た指向性を有する音響信号に対して、図２２の信号分離部２１１にて更に指向性制御を行おうとしても、期待した効果は得がたいからである。

第１〜第３信号処理又は音源追尾機能が有効に働かず、意図通りの再生音響信号を得ることができないと判断される場合（例えば、指向性制御を意図通りに行うことができず、記録音響信号からＬ、Ｃ及びＲ方向信号を作り出せない場合）には、第１〜第３信号処理又は音源追尾機能の実施を中断し、その旨を表示部２０４等を用いてユーザに提示するようにしても良い。

規定特性情報に合致する音の発生区間を、Ｌ方向信号の全区間、Ｃ方向信号の全区間、Ｒ方向信号の全区間の中から夫々抽出し、抽出区間が複数ある場合には、複数の抽出区間を時系列順に個別に再生するようにしても良い。例えば、音種が人の声であるという音種情報が規定特性情報として設定されている場合において、図３８（ａ）に示す如く、Ｌ方向信号の区間４５１におけるＬ特性情報、Ｃ方向信号の区間４５２におけるＣ特性情報及びＲ方向信号の区間４５３におけるＲ特性情報の夫々が規定特性情報に合致しているとき、区間４５１におけるＬ方向信号４６１、区間４５２におけるＣ方向信号４６２及び区間４５３におけるＲ方向信号４６３を、全区間のＬ、Ｃ及びＲ方向信号から抽出する。そして、抽出した信号を発生時間順に並べて個別に再生するようにする。即ち例えば、区間４５１の開始時点が区間４５２の開始時点よりも早く、且つ、区間４５２の開始時点が区間４５３の開始時点よりも早いならば、図３８（ｂ）に示す如く、信号４６１、４６２及び４６３を、この順番で結合したものを再生音響信号に含め、信号４６１、４６２及び４６３を、この順番で個別に再生するようにしても良い。この方法を利用すれば、３人の人物が略同時に発話した時の音声を録音した場合において、各人物の発話内容を個別に再生するといったことが可能となる。

＜＜第５実施形態＞＞
本発明の第５実施形態を説明する。第５実施形態においても録再装置２００の動作を説明する。但し、第４実施形態では、記録音響信号がマイクロホン１Ｌ及び１Ｒの検出信号に基づく音響信号であることが想定されているのに対して、第５実施形態では、記録音響信号の生成元のマイクロホンが、マイクロホン１Ｌ及び１Ｒとは異なる。以下、具体的に説明する。

第５実施形態では、以下のようにして第１〜第ｎの単位音響信号が取得され、第１〜第ｎの単位音響信号を含む音響信号が記録媒体２０１に記録音響信号として記録されていることを想定する。
単体でステレオ収音が可能なステレオマイクを用いて各音源からの音を個別に収音することにより、互いに分離された第１〜第ｎの単位音響信号を直接的に取得する。或いは、
第１〜第ｎの指向性マイクロホン（指向性を有するマイクロホン）用い、第１〜第ｎの指向性マイクロホンの感度の高い方向を第１〜第ｎの音源に対応する第１〜第ｎの方向に向けて各音源からの音を個別に収音することにより、第１〜第ｎの単位音響信号を互いに分離された形で直接的に取得する。更に或いは、
第１〜第ｎの音源の位置が予め分かっている場合は、第１〜第ｎのコードレスマイクを用い、第ｉのコードレスマイクが第ｉの音源の音を収音するように第１〜第ｎのコードレスマイクを第１〜第ｎの音源の位置に配置するようにしても良い（ｉ＝１、２、・・・（ｎ−１）、ｎ）。このようにすれば、第１〜第ｎのコードレスマイクによって、第１〜第ｎの音源に対応する第１〜第ｎの単位音響信号が互いに分離された形で直接的に取得される。

上記のステレオマイク、又は、第１〜第ｎの指向性マイクロホン、又は、第１〜第ｎのコードレスマイクを録再装置２００に設けておくことで、録再装置２００において第１〜第ｎの単位音響信号の取得を行うようにしても良いし、録再装置２００と異なる録音装置にて第１〜第ｎの単位音響信号の取得を行って、第１〜第ｎの単位音響信号を含む音響信号を記録媒体２０１に保存するようにしても良い。

第５実施形態に係る録再装置２００に設けられた音響信号処理装置２０２を、特に、音響信号処理装置２０２ａと呼ぶ。図３９は、音響信号処理装置２０２ａの内部ブロック図を含む、録再装置２００の一部ブロック図である。音響信号処理装置２０２ａは、信号分離部２１１ａと、音特性解析部２１２ａと、再生音響信号生成部（信号処理部）２１３ａと、が備えられている。

第５実施形態の想定下において、信号分離部２１１ａには記録媒体２０１から、上述のようにして取得された記録音響信号が与えられる。信号分離部２１１ａは、記録音響信号から第１〜第ｎの単位音響信号を分離抽出し、第１〜第ｎの単位音響信号を音特性解析部２１２ａ及び再生音響信号生成部２１３ａに出力する。指向性マイクロホン等を用いて記録音響信号が生成されているため、この分離抽出は容易に実現される。

音情報解析部２１２ａは、単位音響信号ごとに単位音響信号を解析することにより単位音響信号ごとに音の特性を表す特性情報を生成する。即ち、音情報解析部２１２ａは、第ｉの単位音響信号に基づき、第ｉの単位音響信号によって表される音の特性を解析して該音の特性を表す第ｉの特性情報を生成する（ｉは整数）。第ｉの単位音響信号に基づく第ｉの特性情報は、第４実施形態で述べたＬ方向信号に基づくＬ特性情報と同様のものである。従って、音情報解析部２１２ａは、第ｉの特性情報に、音量情報、音種情報、人声有無情報及び話者情報の内の、何れか１以上の情報を含めることができる。第ｉの特性情報において、音量情報は第ｉの単位音響信号によって表される音の音量を表し、音種情報は第ｉの単位音響信号によって表される音の種類を表し、人声有無情報は第ｉの単位音響信号によって表される音に人の声が含まれているか否かを表し、話者情報は、第ｉの単位音響信号に含まれている人の声の話者を表す。音情報解析部２１２ａによる音響信号の解析法方法及び特性情報の生成方法は、音情報解析部２１２のそれと同じである。

音情報解析部２１２ａにて生成された各特性情報は表示部２０４に表示される。再生音響信号生成部２１３ａは、第１〜第ｎの単位音響信号から再生音響信号を生成する。この再生音響信号は、１又は複数のスピーカから成るスピーカ部２０３に送られて、音として再生される。

ユーザは、第１〜第ｎの単位音響信号（換言すれば、第１〜第ｎの音源）の内、１つ以上であって且つｎ個以下の単位音響信号を指定する音源指定操作を操作部２０５に対して成すことができる。操作部２０５に対する入力操作には、少なくとも音源指定操作が含まれているものとする。音源指定操作によって指定された単位音響信号及び音源を指定単位信号及び指定音源と呼ぶ。

上述したように、ｎは２以上の任意の整数であるが、本実施形態では、ｎ＝３であることを想定する。

表示部２０４は、第１〜第３の特性情報を個別に切り替え表示することも可能であるし、第１〜第３の特性情報を同時に表示することも可能である。表示部２０４において表示することのできる画像の例として、図４０に画像５００を示す。画像５００においては、第１〜第３の音源についての（即ち、第１〜第３の単位音響信号についての）、音量情報、音種情報及び話者情報が明示されている。第１〜第３の音源についての（即ち、第１〜第３の単位音響信号についての）人声有無情報を、画像５００の代わりに或いは画像５００と併せて表示部２０４に表示するようにしても良い。図４０では、各音源の音種が文字にて表現されているが、第４実施形態のように音種を表すアイコンを表示するようにしても良い。話者情報等についても同様である。第４実施形態と同様、音響信号処理装置２０２ａにおいても、特性情報のリアルタイム表示が可能であるし、特性情報の事前表示も可能である。更に、単位音響信号ごとに特性情報をユーザに報知することができる限り、特性情報の報知方法を様々に変形することが可能である。

ユーザは、タッチパネル操作や、操作部２０５に設けられた十字キー（不図示）に対する操作によって、音源指定操作を行うことができる。再生音響信号生成部２１３ａは、記録音響信号をそのまま再生音響信号として出力することもできる（即ち、第１〜第３の単位音響信号を単純に合成した信号を再生音響信号として出力することもできる）が、ユーザによる入力操作に応じた信号処理を第１〜第３の単位音響信号から成る記録音響信号に対して施すことで、再生音響信号を生成することもできる。再生音響信号生成部２１３ａにて実行可能な上記信号処理は、第４実施形態で述べた第１〜第３信号処理の何れかである。

――第１信号処理――
再生音響信号生成部２１３ａによる第１信号処理を説明する。第１信号処理では、第１〜第３の単位音響信号から成る記録音響信号より指定単位信号を抽出することで再生音響信号を生成する。第１信号処理は、指定単位信号の個数が（ｎ−１）以下の時に（即ち、１又は２の時に）、有益に機能する。

例えば、音源指定操作によって第１の単位音響信号のみが指定されている場合には、第１の単位音響信号を再生音響信号として生成する。第２又は第３の単位音響信号のみが指定された場合も同様である。また例えば、音源指定操作によって第１及び第２の単位音響信号が指定されている場合には、第１及び第２の単位音響信号を合成した信号を再生音響信号として生成する。

第１信号処理を用いれば、ユーザは、特性情報の表示内容を考慮して所望の音源からの音のみを聴くことが可能となる。

――第２信号処理――
再生音響信号生成部２１３ａによる第２信号処理を説明する。第２信号処理では、指定単位信号を強調又は減衰させる処理を第１〜第３の単位音響信号から成る記録音響信号に施すことで再生音響信号を生成する。第２信号処理は、指定単位信号の個数がｎ以下の時に（即ち、１、２又は３の時に）、有益に機能する。

例えば、ユーザは、第１の単位音響信号を指定単位信号として指定した状態で、第１の単位音響信号の増幅又は減衰を入力操作によって指示することができる。この際、増幅の程度又は減衰の程度も入力操作によって自由に指示することができる。音響信号の増幅と音響信号の強調は同義である。第１の単位音響信号の増幅又は減衰を指示する入力操作を受けた後、再生音響信号生成部２１３ａは、信号分離部２１１ａから送られてきた第２及び第３の単位音響信号と、増幅又は減衰が成された第１の単位音響信号と、を合成した信号を再生音響信号として生成する。第１の単位音響信号が指定単位信号として指定された場合における再生音響信号の生成方法を説明したが、第２又は第３の単位音響信号が指定単位信号として指定された場合のそれも同様である。

ユーザは、第１〜第３の単位音響信号の内の、２つ又は３つの単位音響信号を指定単位信号として指定し、指定単位信号ごとに、指定単位信号の増幅又は減衰を入力操作によって指示することもできる。例えば、第１の単位音響信号の増幅及び第２の単位音響信号の減衰を指示する入力操作が操作部２０５に対して成されると、その入力操作後において、再生音響信号生成部２１３ａは、信号分離部２１１ａから送られてきた第３の単位音響信号と、増幅が成された第１の単位音響信号と、減衰が成された第２の単位音響信号と、を合成した信号を再生音響信号として生成する。

第２信号処理を用いれば、ユーザは、特性情報の表示内容を考慮し、所望音源からの音を強調又は減衰させた状態で記録音響を聴くことが可能となる。

――第３信号処理――
再生音響信号生成部２１３ａによる第３信号処理を説明する。第３信号処理では、各単位音響信号を所望の混合比率にて混合することで再生音響信号を生成する。

第３信号処理は、指定単位信号の個数が３の時に実現される第２信号処理と等価である、とも言える。ユーザは、指定単位信号ごとに、指定単位信号を増幅させるのか又は減衰させるのか、及び、指定単位信号の増幅の程度又は減衰の程度を入力操作を介して指示することができる。再生音響信号生成部２１３ａは、この指示に従って、個別に増幅又は減衰の成された第１〜第３の単位音響信号を合成することで再生音響信号を生成する。但し、入力操作の内容によっては、第１〜第３の単位音響信号の内、１つ又は２つの単位音響信号に対しては増幅又は減衰が成されないこともある。

ユーザは、特定の音源からの音響信号（例えば、第１登録人物についての音響信号や、最も大きな音量又は最も小さな音量を有する音響信号）を抽出又は強調して聞くことを望む場合もあるし、全ての音源からの音量を均等レベルにした再生音響信号を聞きたい場合もある。第１〜第３信号処理を用いれば、これらの要望に応えることが可能となる。

尚、予め規定特性情報が音響信号処理装置２０２ａに記録されている場合には、入力操作とは関係なく、再生音響信号生成部２１３ａが、規定特性情報及び特性情報に基づき自動的に指定単位信号を選択して、第１又は第２信号処理を実施するようにしても良い。規定特性情報には、音量情報、音種情報、人声有無情報及び話者情報の内、何れか１以上の情報が定められている。そして、再生音響信号生成部２１３ａは、規定特性情報が第ｉの特性情報と合致する時、第ｉの単位音響信号を指定単位信号として選択する（ここで、ｉは、１，２又は３）。

ユーザは、操作部２０５を介して規定特性情報を予め設定しておくことができ、規定特性情報によって選択された指定単位信号に対して、どのような信号処理を再生音響信号生成部２１３ａで成すべきかを予め設定しておくことができる。

例えば、音種が人の声であるという音種情報を規定特性情報として設定しておくことができる。この場合において、第１の単位音響信号の音種が人の声であることが第１の特性情報に示されているならば規定特性情報が第１の特性情報と合致するため、第１の単位音響信号を指定単位信号として選択した上で第１信号処理を成す。即ち、第１の単位音響信号を再生音響信号として生成する。或いは、第１の単位音響信号を指定単位信号として選択した上で第２信号処理を成す。即ち例えば、信号分離部２１１ａから送られてきた第２及び第３の単位音響信号と、増幅又は減衰が成された第１の単位音響信号と、を合成した信号を再生音響信号として生成する。増幅又は減衰の度合いも、ユーザは予め設定可能である。規定特性情報が第２又は第３の特性情報と合致する場合も同様とされる。

本実施形態において上述した各技術の他、第４実施形態にて述べた任意の技術を音響信号処理装置２０２ａに適用することができる。この際、第１〜第３の音源が夫々図２５の音源３１１、３１２及び３１３であるならば、第４実施形態におけるＬ、Ｃ及びＲ方向を第１、第２及び第３の音源の方向に対応させた上で、第４実施形態にて述べた技術を音響信号処理装置２０２ａに適用すればよい。即ち例えば、第１〜第３の音源が夫々音源３１１〜３１３であるならば、
第４実施形態におけるＬ、Ｃ及びＲ方向を第５実施形態においては夫々第１、第２及び第３の音源の方向に読み替え、且つ、
第４実施形態におけるＬ、Ｃ及びＲ方向信号を第５実施形態においては夫々第１、第２及び第３の単位音響信号に読み替え、且つ、
第４実施形態におけるＬ、Ｃ及びＲ特性情報を第５実施形態においては夫々第１、第２及び第３の特性情報に読み替え、且つ、
第４実施形態における方向指定操作を第５実施形態においては音源指定操作に読み替え、且つ、
第４実施形態における指定方向を第５実施形態においては指定単位信号又は指定音源に読み替えた上で、第４実施形態にて述べた技術を音響信号処理装置２０２ａに適用すればよい（これらの読み替えを行った上で、第４実施形態にて述べた事項は、矛盾なき限り音響信号処理装置２０２ａに適用される）。

＜＜変形等＞＞
上述した説明文中に示した具体的な数値は、単なる例示であって、当然の如く、それらを様々な数値に変更することができる。上述の実施形態の変形例または注釈事項として、以下に、注釈１及び注釈２を記す。各注釈に記載した内容は、矛盾なき限り、任意に組み合わせることが可能である。

［注釈１］
説明の簡略化及び便宜上、二次元のＸＹ座標面上に複数の音源が散在していることを想定して各実施形態の説明を行ったが、三次元空間内に複数の音源が散在している場合も同様である。

［注釈２］
音響信号処理装置（１０、２０２等）によって実現される機能の全部又は一部は、ハードウェア、ソフトウェア、或いは、ハードウェアとソフトウェアの組み合わせによって実現可能である。ソフトウェアを用いて音響信号処理装置（１０、２０２等）を構成する場合、ソフトウェアにて実現される部位についてのブロック図は、その部位の機能ブロック図を表すことになる。音響信号処理装置（１０、２０２等）にて実現される機能の全部または一部を、プログラムとして記述し、該プログラムをプログラム実行装置（例えばコンピュータ）上で実行することによって、その機能の全部または一部を実現するようにしてもよい。

１Ｌ、１Ｒマイクロホン
３Ｃ、３Ｌ、３ＳＬ、３Ｂ、３ＳＲ、３Ｒエリア
１１音源分離部
１２音種検出部
１３音量検出部
１４音量制御量決定部
１５音量制御部
１００録音装置
１２０音響信号再生装置
１４０撮像装置
２００録再装置
２０１記録媒体
２０２、２０２ａ音響信号処理装置
２０３スピーカ部
２０４表示部
２０５操作部
２１１、２１１ａ信号分離部
２１２、２１２ａ音特性解析部
２１３、２１３ａ再生音響信号生成部

Claims

複数の音源からの音を収音することで得られた対象音響信号を出力する信号出力部と、
各音源の方向又は位置と各音源の種類とに応じて、前記対象音響信号における各音源の音量を調整する音量制御部と、を備えた
ことを特徴とする音響信号処理装置。
前記複数の音源が第１〜第ｎの音源から成り（ｎは２以上の整数）、前記対象音響信号は、前記第１〜第ｎの音源に対応する、互いに分離された第１〜第ｎの単位音響信号を含み、
前記第１〜第ｎの単位音響信号は、互いに異なる位置に配置された複数のマイクロホンの検出信号から抽出される、又は、前記第１〜第ｎの音源からの音を個別に収音することで得られる
ことを特徴とする請求項１に記載の音響信号処理装置。
各単位音響信号に基づいて各単位音響信号の音源の種類を判断する音種検出部と、
各単位音響信号の信号レベルを検出する音量検出部と、を更に備え、
前記音量制御部は、各音源の方向又は位置と、前記音種検出部によって判断された各音源の種類と、前記音量検出部によって検出された信号レベルとに基づいて、各単位音響信号の信号レベルを個別に調整することにより前記対象音響信号における各音源の音量を調整する
ことを特徴とする請求項２に記載の音響信号処理装置。
前記音量制御部において、各単位音響信号の帯域は複数のサブ帯域に分割され、サブ帯域ごとに、各単位音響信号の信号レベルが個別に調整される
ことを特徴とする請求項３に記載の音響信号処理装置。
請求項１〜請求項４の何れかに記載の音響信号処理装置を備え、
前記音響信号処理装置の音量制御部による音量調整後の対象音響信号、又は、その音量調整後の対象音響信号に基づく音響信号を、出力音響信号として記録又は再生する
ことを特徴とする機器。
請求項５に記載の機器には、前記出力音響信号の記録を行う録音装置、前記出力音響信号の再生を行う再生装置、または、撮影画像の画像信号とともに前記出力音響信号の記録若しくは再生を行う撮像装置が含まれる。
複数の音源からの音を収音することで得られた入力音響信号に基づく出力音響信号を音として再生する再生装置において、
音の到来方向ごとに前記入力音響信号を解析することにより、前記到来方向ごとに音の特性を表す特性情報を生成する音特性解析部と、
前記特性情報を当該再生装置の外部に対して報知する報知部と、
音の到来方向として存在する、互いに異なる第１〜第ｍの到来方向の内、何れか１以上の到来方向を指定する方向指定操作を含む入力操作を外部から受け付ける操作受付部と（ｍは２以上の整数）、
前記入力操作に応じた信号処理を前記入力音響信号に施すことで前記出力音響信号を生成する信号処理部と、を備えた
ことを特徴とする再生装置。
前記信号処理部は、
前記入力操作にて指定された到来方向からの信号成分を前記入力音響信号から抽出することで前記出力音響信号を生成する、或いは、
前記入力操作にて指定された到来方向からの信号成分を強調又は減衰させる信号処理を前記入力音響信号に施すことで前記出力音響信号を生成する、或いは、
前記入力音響信号に含まれる各到来方向からの信号成分を、前記入力操作に応じて混合することで前記出力音響信号を生成する
ことを特徴とする請求項７に記載の再生装置。
複数の音源からの音を収音することで得られた入力音響信号に基づく出力音響信号を音として再生する再生装置において、
音の到来方向ごとに前記入力音響信号を解析することにより、前記到来方向ごとに音の特性を表す特性情報を生成する音特性解析部と、
音の到来方向として存在する、互いに異なる第１〜第ｍの到来方向の中から何れか１以上の到来方向を選択し、選択到来方向からの信号成分を前記入力音響信号から抽出する信号処理又は選択到来方向からの信号成分を強調する信号処理を前記入力音響信号に対して施すことで、前記出力音響信号を生成する信号処理部と（ｍは２以上の整数）、を備え、
前記信号処理部は、選択する到来方向を前記特性情報に応じて切り替える
ことを特徴とする再生装置。
前記入力音響信号の全区間は、互いに異なる第１及び第２区間を含み、
前記信号処理部は、特定の特性を有する音の信号成分の到来方向が前記第１及び第２区間における選択到来方向に共通して含まれるように、前記第１及び第２区間における前記入力音響信号の特性情報に基づいて前記第１及び第２区間における選択到来方向を決定する
ことを特徴とする請求項９に記載の再生装置。
複数の音源からの音を個別に収音することで得られた複数の単位音響信号を含む入力音響信号から出力音響信号を生成し、該出力音響信号を音として再生する再生装置において、
各単位音響信号を解析することにより、前記単位音響信号ごとに音の特性を表す特性情報を生成する音特性解析部と、
前記特性情報を当該再生装置の外部に対して報知する報知部と、
前記複数の単位音響信号の内、何れか１以上の単位音響信号を指定する指定操作を含む入力操作を外部から受け付ける操作受付部と（ｍは２以上の整数）、
前記入力操作に応じた信号処理を前記入力音響信号に施すことで前記出力音響信号を生成する信号処理部と、を備えた
ことを特徴とする再生装置。
各特性情報は、
音の音量を表す音量情報、
音の種類を表す音種情報、
音に人の声が含まれているか否かを表す人声有無情報、及び、
音が人の声である場合における話者を表す話者情報の内、
何れか１以上の情報を含む
ことを特徴とする請求項７〜請求項１１の何れかに記載の再生装置。