JP2008197577A

JP2008197577A - 音声処理装置、音声処理方法およびプログラム

Info

Publication number: JP2008197577A
Application number: JP2007035410A
Authority: JP
Inventors: Ryuichi Nanba; 隆一難波; Mototsugu Abe; 素嗣安部; Akira Inoue; 晃井上; Shigesuke Higashiyama; 恵祐東山; Hidesuke Takahashi; 秀介高橋; Masayuki Nishiguchi; 正之西口
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2007-02-15
Filing date: 2007-02-15
Publication date: 2008-08-28
Anticipated expiration: 2027-02-15
Also published as: US20080199152A1; US8422695B2; CN101246690A; US20130182857A1; CN101246690B; US9762193B2; JP4449987B2

Abstract

【課題】音声処理装置、音声処理方法およびプログラムを提供すること。
【解決手段】入力音声に特定音源から発せられた第一の音声が含まれているか否かを音源の位置情報に基づいて判定する音声判定部と、音声判定部により入力音声に第一の音声が含まれていると判定された場合、入力音声を第一の音声と特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と、音声分離部により分離された第一の音声と第二の音声を任意の音量比率で混合する音声混合部１５０と、を備えることを特徴とする。
【選択図】図３

Description

本発明は、音声処理装置、音声処理方法およびプログラムに関する。

近日、被写体の映像および被写体から発せられた音声を記録可能な映像音声記録装置が広く普及している。映像音声記録装置の操作者は、映像音声記録装置の撮像方向を調整したり、映像音声記録装置に設けられた操作手段を操作して被写体の映像を拡大または縮小することができる。

ここで、音声の音量は音源から離れるにつれて減少する。したがって、上記のような映像音声記録装置には、映像音声記録装置の操作者の声や操作手段の操作音などの操作者に起因する音声が、被写体が発する音声より大きな音量で記録される場合があった。

特許文献１には、このような操作者に起因する音声の音量が抑制された音声を記録するための音声処理装置が開示されている。具体的には、当該音声処理装置は、前左用、前右用、後左用、後右用、および着脱可能なマイクロホンの計５本の指向性マイクロホンを備える。したがって、後ろ中央に位置する操作者の声は前左用、前右用、後左用および後右用のいずれのマイクロホンにもほとんど収音されず、必要や目的に応じて着脱可能なマイクロホンに収音させることができる。

また、特許文献２には、複数の音源からの音声が含まれる混合音声のうちの１つ以上の音源からの信号をＩＣＡ（ＩｎｄｅｐｅｎｄｅｎｔＣｏｍｐｏｎｅｎｔＡｎａｌｙｓｉｓ）法に基づくＢＳＳ（ＢｌｉｎｄＳｏｕｒｃｅＳｅｐａｒａｔｉｏｎ）方式を用いて分離する技術が開示されている。

特開２００５−３４１０７３号公報特開２００６−１５４３１４号公報

しかし、従来の音声処理装置では、多数のマイクロホンを設ける必要があったため、音声処理装置のハードウェア規模が大きくなってしまう。また、従来の音声処理装置はマイクロホンの指向性を利用して操作者の音声を選別するため、操作者の位置に対して制約が課されるという問題があった。

そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、特定音源から発せられた音声の全体に占める音量比率を調整して記録することが可能な、新規かつ改良された音声処理装置、音声処理方法およびプログラムを提供することにある。

上記課題を解決するために、本発明のある観点によれば、入力音声に特定音源から発せられた第一の音声が含まれているか否かを音源の位置情報に基づいて判定する音声判定部と、音声判定部により入力音声に第一の音声が含まれていると判定された場合、入力音声を第一の音声と特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と、音声分離部により分離された第一の音声と第二の音声を、任意の音量比率で混合する音声混合部と、を備えることを特徴とする、音声処理装置が提供される。

かかる構成においては、音声分離部が、入力音声に含まれる特定音源から発せられた第一の音声を分離し、音声混合部が、例えば第一の音声と入力音声に含まれる他の音声である第二の音声とを、第一の音声が占める音量比率が、入力音声に占める第一の音声の音量比率より低減されるように混合する。したがって、入力音声のうち特定音源から発せられた第一の音声の音量が不要に大きい場合、音声混合部は、第二の音声が占める音量比率が入力音声に占める第二の音声の音量比率より増大させた混合音声を得ることができる。その結果、当該音声処理装置によれば、第二の音声が第一の音声に埋もれてしまうことを防止できる。

また、音声混合部は、例えば近傍から発せられた第一の音声と入力音声に含まれる他の音声である第二の音声とを、第一の音声が占める音量比率が、入力音声に占める第一の音声の音量比率より増加されるように混合してもよい。かかる構成によれば、音声収録者自身の音声の収録を所望する場合、音声収録者が発した第一の音声が強調することができる。なお、音声判定部により入力音声に第一の音声が含まれていないと判定された場合、音声分離部は入力音声の分離を行なわなくてもよい。

特定音源は入力音声の収録位置から設定距離範囲内に位置してもよい。すなわち、第一の音声が入力音声の収録位置から設定距離範囲内から発せられた音声であってもよい。ここで、音声の音量は距離が離れるにつれて減少するため、収録位置に近い音源から発せられた音声ほど入力音声に大きな音量で収録される場合が多い。したがって、音声混合部は、入力音声の収録位置から近い第一の音声の音量比率を抑制し、収録位置からの音源距離の差に起因するアンバランスな音量関係を是正することができる。

第一の音声は、入力音声を収音する際に用いられた装置の操作者に起因する音声を含み、第二の音声は、収音対象から発せられた音声を含んでもよい。かかる構成によれば、入力音声を収音する際に用いられた装置の近傍で該装置を操作している操作者により発せられた第一の音声の音量比率を抑制し、収音対象から発せられた第二の音声が第一の音声により埋もれてしまうことを防止可能である。

音声判定部は、入力音声の音量または音質の少なくともいずれかに基づいて入力音声に第一の音声が含まれているか否かを判定してもよい。ここで、音声判定部は、入力音声の音量または位相に基づいて入力音声の音源の位置情報、または入力音声に含まれる１または２以上の音源から発せられた音声ごとの音源の位置情報を推定してもよい。

当該音声処理装置は、映像を撮像する撮像部をさらに備え、音声判定部は、入力音声に含まれる１または２以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて音源の位置情報を算出する位置情報算出部を備え、入力音声の音源の位置が撮像部の撮像方向の後方であると位置情報算出部により算出され、入力音声が人間の音声と一致または近似する音質である場合、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。ここで、操作者は撮像部の撮像方向の後方から音声処理装置を操作する場合が多い。したがって、音声判定部は、入力音声の音源の位置が撮像部の撮像方向の後方であり、入力音声が人間の音声と一致または近似する音質である場合、入力音声に第一の音声として操作者の音声が支配的に含まれている判定することができる。その結果、音声混合部により操作者の音声の音量比率が低減された混合音声を得ることができる。

入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、音声判定部は、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。ここで、入力音声を収録する装置の操作者が該装置のボタンを操作したり該装置を持ち替えると「パチン」、「バン」などのインパルス音が発生する場合が多い。また、該インパルス音は該装置において発生するため、比較的大きな音量で収音される可能性が高い。したがって、音声判定部は、入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に第一の音声として操作者の動作に起因するノイズが支配的に含まれていると判定することができる。その結果、音声混合部により操作者の動作に起因するノイズの音量比率が低減された混合音声を得ることができる。

当該音声処理装置は、入力音声を収音する複数の収音部と、音声混合部により混合された混合音声を記憶媒体に記録する記録部と、を備えてもよい。かかる構成においては、記録部は記憶媒体に、第一の音声が占める音量比率が入力音声に占める第一の音声の音量比率より低減された混合音声を記録する。したがって、該混合音声を再生する再生装置に特殊な音量補正機能を実装することなく、該再生装置において第一の音声の占める音量比率が調整された混合音声を再生することが可能となる。

当該音声処理装置は、入力音声を記憶している記憶媒体と、記憶媒体に記憶されている入力音声を再生し、位置情報算出部、音声判定部および音声分離部の少なくともいずれかに出力する再生部と、を備えてもよい。かかる構成においては、位置情報算出部、音声判定部および音声分離部は再生部から入力される入力音声に基づいて混合音声を生成し、混合音声を再生音声として出力することができる。したがって、記憶媒体に入力音声を記録する記録装置に特殊な音量補正機能を実装することなく、第一の音声の占める音量比率が調整された混合音声を再生することが可能となる。

当該音声処理装置は、入力音声の音量が補正されている場合、音声分離部により分離された第二の音声の音量に、補正の程度に応じた逆補正を行なう音量補正部を備えてもよい。例えば、第一の音声の音量が過大であったために入力音声の音量が全体として抑制された場合、第二の音声の音量も抑制されてしまっている。音量補正部は、このような場合、入力音声の音量が抑制された程度に応じて第二の音声の音量を増大させ、第二の音声が過小となることを防止できる。

また、上記課題を解決するために、本発明の別の観点によれば、入力音声の分離を行う音声分離部と、音声分離部により分離された音声に特定音源から発せられた第一の音声が含まれているか否かを判定する音声判定部と、音声分離部により分離された第一の音声と特定音源以外の音源から発せられた第二の音声を、任意の音量比率で混合する音声混合部と、を備えることを特徴とする、音声処理装置が提供される。

また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、入力音声に特定音源から発せられた第一の音声が含まれているか否かを音源の位置情報に基づいて判定する音声判定部と、音声判定部により入力音声に第一の音声が含まれていると判定された場合、入力音声を第一の音声と特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と、音声分離部により分離された第一の音声と第二の音声を任意の音量比率で混合する音声混合部とを備えることを特徴とする音声処理装置として機能させるための、プログラムが提供される。

かかるプログラムは、例えばＣＰＵ、ＲＯＭまたはＲＡＭなどを含むコンピュータのハードウェア資源に、上記のような位置情報算出部、音声判定部および音声分離部の機能を実行させることができる。すなわち、当該プログラムを用いるコンピュータを、上述の音声処理装置として機能させることが可能である。

音声判定部は、音源の位置情報、入力音声の音量または音質の少なくともいずれかに基づいて入力音声に第一の音声が含まれているか否かを判定してもよい。

映像を撮像する撮像部をさらに備え、音声判定部は、入力音声に含まれる１または２以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて音源の位置情報を算出する位置情報算出部を備え、入力音声の音源の位置が撮像部の撮像方向の後方であると位置情報算出部により算出され、入力音声が人間の音声と一致または近似する音質である場合、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。

入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、音声判定部は、入力音声に特定音源から発せられた第一の音声が含まれていると判定してもよい。

また、上記課題を解決するために、本発明の別の観点によれば、入力音声に特定音源から発せられた第一の音声が含まれているか否かを音源の位置情報に基づいて判定するステップと、入力音声に第一の音声が含まれていると判定された場合、入力音声を第一の音声と特定音源以外の音源から発せられた第二の音声とに分離するステップと、分離された第一の音声と第二の音声を、任意の音量比率で混合するステップと、を含むことを特徴とする、音声処理方法が提供される。

以上説明したように本発明にかかる音声処理装置、音声処理方法およびプログラムよれば、特定音源から発せられた音声の全体に占める音量比率を任意に調整して出力、又は記録することができる。

以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

（第１の実施形態）
まず、本発明の第１の実施形態にかかる音声記録装置１０について説明する。本実施形態の説明においては、図１および図２を参照して音声記録装置１０が用いられる場面の一例を説明した後に、図３〜図１０を参照して音声記録装置１０の構成および動作を説明する。

図１は、本実施形態にかかる音声記録装置１０が用いられる場面の一例を示した説明図である。図１に示した例では、被写体である子供が品川区立一番小学校の校門の前に立っており、映像撮像機能が実装された音声記録装置１０を手に持った操作者が音声記録装置１０を被写体に向けている。

また、被写体は、操作者の「おーい」という呼びかけに「はーい」という返事をしている。このとき、映像撮像機能が実装された音声記録装置１０は、被写体の映像と共に操作者の「おーい」という呼びかけ、および被写体の「はーい」という返事を記録する。ここで、図２を参照して通常の音声記録方法によって記録される音声について説明する。

図２は、通常の音声記録方法によって記録される音声の時間領域の振幅を示した説明図である。音声は、音源が点音源であると仮定すると、収音される音量は音源と収音位置との距離の二乗に反比例する。すなわち、収音位置が音源から離れるほど収音される音量は小さくなる。したがって、収音位置に近い操作者の「おーい」という呼びかけは、図２（ａ）に示すような振幅を有する音声として収音される。

一方、収音位置から操作者より離れている被写体の「はーい」という返事は、図２（ｂ）に示したように操作者の声に比べて小さな振幅の音声として収音される。この場合、通常の音声記録方法によれば、図２（ｃ）に示したように、単純に操作者の「おーい」という呼びかけと被写体の「はーい」という返事が重畳された音声が記録される。

しかし、図２（ｃ）に示した音声には操作者の「おーい」という呼びかけが支配的に含まれ、被写体の「はーい」という返事が埋もれてしまっている。同様に、操作者による操作ノイズが被写体の発する音声と比較して相対的に大きく記録されてしまう。このため、被写体の発する音声が操作者に起因する音声によってマスキングされ、操作者の意図した適切な音量バランスで被写体の発する音声を記録できない場合が多いという問題があった。

そこで、上記の問題を一着眼点とし、本実施形態にかかる音声記録装置１０が創作されるに至った。本実施形態にかかる音声記録装置１０は、操作者に起因する音声の音量比率を抑制し、被写体の発する音声と操作者に起因する音声とを適切な音量バランスで記録することができる。以下、このような音声記録装置１０の詳細な構成および動作について説明する。

図３は、本実施形態にかかる音声処理装置の一例としての音声記録装置１０の構成を示した機能ブロック図である。音声記録装置１０は、音声収音部１１０と、音声判定部１２０と、音源分離部１４０と、音声混合部１５０と、記録部１６０と、記憶部１７０と、を備える。なお、図１においては音声記録装置１０としてビデオカメラを示しているが、音声記録装置１０はビデオカメラに限られず、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、携帯電話、ＰＨＳ（ＰｅｒｓｏｎａｌＨａｎｄｙｐｈｏｎｅＳｙｓｔｅｍ）、携帯用音声処理装置、携帯用映像処理装置、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、家庭用ゲーム機器、携帯用ゲーム機器、などの情報処理装置であってもよい。

音声収音部１１０は、音声を収音し、収音した音声を離散量子化する。また、音声収音部１１０は、物理的に分離された２以上の収音部（例えば、マイクロホン）を含む。図３に示した例では、音声収音部１１０は、左音声Ｌを収音する収音部と右音声Ｒを収音する収音部の２つを含む。音声収音部１１０は、離散量子化した左音声Ｌおよび右音声Ｒを入力音声として音声判定部１２０および音源分離部１４０へ出力する。

音声判定部１２０は、音声収音部１１０から入力された入力音声に、操作者の音声または操作者の動作に起因するノイズなど音声記録装置１０の近傍から発せられた近傍音声（第一の音声）が含まれているか否かを判定する。かかる音声判定部１２０の詳細な構成を図４を参照して説明する。

図４は、音声判定部１２０の構成を示した機能ブロック図である。音声判定部１２０は、音量検出器１２４、平均音量検出器１２６および最大音量検出器１２８からなる音量検出部１２２と、スペクトル検出器１３２および音質検出器１３４からなる音質検出部１３０と、距離方向推定器１３６と、操作者音声推定器１３８と、を備える。なお、図４においては図面の明瞭性の観点から左音声Ｌおよび右音声Ｒを合わせて入力音声と示している。

音量検出器１２４は、所定長さのフレーム単位（例えば、数１０ｍｓｅｃ）で与えられる入力音声の音量値列（振幅）を検出し、検出した入力音声の音量値列を平均音量検出器１２６、最大音量検出器１２８、音質検出器１３４および距離方向推定器１３６に出力する。

平均音量検出器１２６は、音量検出器１２４から入力されるフレーム単位の音量値列に基づいて、入力音声の音量平均値を例えばフレームごとに検出する。また、平均音量検出器１２６は、検出した音量平均値を音質検出器１３４および操作者音声推定器１３８に出力する。

最大音量検出器１２８は、音量検出器１２４から入力されるフレーム単位の音量値列に基づいて、入力音声の音量最大値を例えばフレームごとに検出する。また、最大音量検出器１２８は、検出した入力音声の音量最大値を音質検出器１３４および操作者音声推定器１３８に出力する。

スペクトル検出器１３２は、入力音声に例えばＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）処理を施し、入力音声の周波数領域における各スペクトルを検出する。スペクトル検出器１３２は、検出したスペクトルを音質検出器１３４および距離方向推定器１３６に出力する。

音質検出器１３４は、入力音声、音量平均値、音量最大値およびスペクトルが入力され、かかる入力に基づいて入力音声の人間の音声らしさ、音楽らしさ、定常性、インパルス性などを検出し、操作者音声推定器１３８に出力する。人間の音声らしさは、入力音声の一部または全体が人間の音声と一致するか否か、あるいは人間の音声とどの程度近似するかなどを示す情報であってもよい。また、音楽らしさは、入力音声の一部または全体が音楽であるか否か、あるいは音楽とどの程度近似するかなどを示す情報であってもよい。

定常性は、例えば空調音のように時間的にそれほど音声の統計的性質が変化しない性質を指す。インパルス性は、例えば打撃音、破裂音のように短時間にエネルギーが集中した雑音性の強い性質を指す。

例えば、音質検出器１３４は、入力音声のスペクトル分布と人間の音声のスペクトル分布との一致度に基づいて人間の音声らしさを検出することができる。また、音質検出器１３４は、フレームごとの音量最大値を比較し、他のフレームと比較して音量最大値が大きいほどインパルス性が高いことを検出してもよい。

なお、音質検出器１３４は、ゼロクロッシング法、ＬＰＣ（ＬｉｎｅａｒＰｒｅｄｉｃｔｉｖｅＣｏｄｉｎｇ）分析などの信号処理技術を用いて入力音声の音質を分析してもよい。ゼロクロッシング法によれば入力音声の基本周期が検出されるため、音質検出器１３４は該基本周期が人間の音声の基本周期（例えば１００〜２００Ｈｚ）に含まれるか否かに基づいて人間の音声らしさを検出してもよい。

距離方向推定器１３６は、入力音声、入力音声の音量値列、入力音声のスペクトルなどが入力され、該入力に基づいて入力音声の音源または入力音声に含まれる支配的な音声が発せられた音源の方向情報および距離情報などの位置情報を推定する位置情報算出部としての機能を有する。かかる距離方向推定器１３６は、入力音声の位相、音量、音量値列、過去の平均音量値、最大音量値などによる音源の位置情報の推定方法を組み合わせることで、残響や映像記録装置１０本体による音声の反射の影響が大きい場合でも総合的に音源位置を推定することができる。距離方向推定器１３６による方向情報および距離情報の推定方法の一例を図５〜図８を参照して説明する。

図５は、２つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。音源が点音源であると仮定すると、音声収音部１１０を構成するマイクロホンＭ１およびマイクロホンＭ２に到達する各入力音声の位相と各入力音声の位相差が測定できる。さらに、位相差と、入力音声の周波数ｆおよび音速ｃの値から、入力音声の音源位置までのマイクロホンＭ１からの距離とマイクロホンＭ２からの距離との差を算出できる。音源は、当該距離差が一定である点の集合上に存在する。このような距離差が一定である点の集合は、双曲線となることが知られている。

例えば、マイクロホンＭ１が（ｘ１、０）に位置し、マイクロホンＭ１が（ｘ２、０）に位置すると仮定する（このように仮定しても一般性を失わない）。また、求める音源位置の集合上の点を（ｘ、ｙ）とおき、上記距離差をｄとおくと、以下の数式１が成り立つ。

さらに、数式１は数式２のように展開でき、数式２を整理すると双曲線を表す数式３が導かれる。

また、距離方向推定器１３６は、マイクロホンＭ１およびマイクロホンＭ２の各々が収音した入力音声の音量差に基づいて音源がマイクロホンＭ１およびマイクロホンＭ２のどちらの近傍であるかを判定できるため、例えば図５に示したようにマイクロホンＭ２に近い双曲線１上に音源が存在すると判定することができる。

なお、位相差算出に用いる入力音声の周波数ｆは、マイクロホンＭ１およびマイクロホンＭ２間の距離に対して下記の数式４の条件を満たす必要がある。

図６は、３つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。図６に示したような音声収音部１１０を構成するマイクロホンＭ３、マイクロホンＭ４およびマイクロホンＭ５の配置を想定した場合、マイクロホンＭ３およびマイクロホンＭ４に到達する入力音声の位相に比較してマイクロホンＭ５に到達する入力音声の位相が遅れていれば、距離方向推定器１３６は、音源がマイクロホンＭ４およびマイクロホンＭ５を結ぶ直線１に対してマイクロホンＭ５の逆側に位置すると判定できる（前後判定）。

さらに、距離方向推定器１３６は、マイクロホンＭ３およびマイクロホンＭ４の各々に到達する入力音声の位相差に基づいて音源が存在し得る双曲線２を算出し、マイクロホンＭ４およびマイクロホンＭ５の各々に到達する入力音声の位相差に基づいて音源が存在し得る双曲線３を算出することができる。その結果、距離方向推定器１３６は、双曲線２および双曲線３の交点Ｐ１を音源位置として推定することができる。

図７は、２つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。音源が点音源であると仮定すると、逆二乗則よりある点で観測される音量は距離の二乗に反比例する。図７に示したような音声収音部１１０を構成するマイクロホンＭ６およびマイクロホンＭ７を想定した場合、マイクロホンＭ６およびマイクロホンＭ７に到達する音量比が一定となる点の集合は円となる。距離方向推定器１３６は、音量検出器１２４から入力される音量の値から音量比を求め、音源の存在する円の半径及び中心位置を算出できる。

図７に示したように、マイクロホンＭ６が（ｘ３、０）に位置し、マイクロホンＭ７が（ｘ４、０）に位置する場合（このように仮定しても一般性を失わない）、求める音源位置の集合上の点を（ｘ、ｙ）と置くと、各マイクロホンから音源までの距離ｒ１、ｒ２は以下の数式５のように表せる。

ここで、逆二乗則より以下の数式６が成り立つ。

数式６は正の定数ｄ（例えば４）を用いて数式７にように変形される。

数式７をｒ１およびｒ２に代入し、整理すると以下の数式８が導かれる。

数式８より、距離方向推定器１３６は、図７に示したように、中心の座標が数式９で表され半径が数式１０で表される円１上に音源が存在すると推定できる。

図８は、３つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。図８に示したような音声収音部１１０を構成するマイクロホンＭ３、マイクロホンＭ４およびマイクロホンＭ５の配置を想定した場合、マイクロホンＭ３およびマイクロホンＭ４に到達する入力音声の位相に比較してマイクロホンＭ５に到達する入力音声の位相が遅れていれば、距離方向推定器１３６は、音源がマイクロホンＭ４およびマイクロホンＭ５を結ぶ直線２に対してマイクロホンＭ５の逆側に位置すると判定できる（前後判定）。

さらに、距離方向推定器１３６は、マイクロホンＭ３およびマイクロホンＭ４の各々に到達する入力音声の音量比に基づいて音源が存在し得る円２を算出し、マイクロホンＭ４およびマイクロホンＭ５の各々に到達する入力音声の音量比に基づいて音源が存在し得る円３を算出することができる。その結果、距離方向推定器１３６は、円２および円３の交点Ｐ２を音源位置として推定することができる。なお、４つ以上のマイクロホンを使用した場合には、距離方向推定器１３６は、空間的な音源の配置を含め、より精度の高い推定が可能となる。

距離方向推定器１３６は、上記のように各入力音声の位相差や音量比に基づいて入力音声の音源の位置を推定し、推定した音源の方向情報や距離情報を操作者音声推定器１３８に出力する。以下の表１に、上述した音量検出部１２２、音質検出部１３０および距離方向推定器１３６の各構成の入出力をまとめた。

なお、入力音声に複数の音源から発せられた音声が重畳されている場合、距離方向推定器１３６は入力音声に支配的に含まれている音声の音源位置を正確に推定することは困難である。しかし、距離方向推定器１３６は入力音声に支配的に含まれている音声の音源位置に近い位置を推定することは可能である。また、当該推定された音源位置は音源分離部１４０において音声分離のための初期値として利用してもよいため、距離方向推定器１３６が推定する音源位置に誤差があっても当該音声記録装置１０は所望の動作をすることができる。

図４を参照して音声判定部１２０の構成の説明に戻ると、操作者音声推定器１３８は、入力音声の音量、音質または位置情報の少なくともいずれかに基づき、入力音声に操作者の音声または操作者の動作に起因するノイズなど音声記録装置１０の近傍である特定音源から発せられた近傍音声が含まれているか否かを総合的に判定する。また、操作者音声推定器１３８は、入力音声に近傍音声が含まれていると判定した場合、音源分離部１４０に入力音声に近傍音声が含まれる旨（操作者音声存在情報）や距離方向推定器１３６により推定された位置情報などを出力する音声判定部としての機能を有する。

具体的には、操作者音声推定器１３８は、入力音声の音源の位置が映像を撮像する撮像部（図示せず。）の撮像方向の後方であると距離方向推定器１３６に推定され、入力音声が人間の音声と一致または近似する音質である場合、入力音声に近傍音声が含まれていると判定してもよい。ここで、図９に示すように、操作者は撮像部の撮像方向の後方、すなわちファインダーの左後方から音声記録装置１０を操作する場合が多い（右利きで自分撮り以外の通常の撮影時）。

したがって、操作者音声推定器１３８は、入力音声の音源の位置が撮像部の撮像方向の後方であり、入力音声が人間の音声と一致または近似する音質である場合、入力音声に近傍音声として操作者の音声が支配的に含まれていると判定することができる。その結果、後述の音声混合部１５０により操作者の音声の音量比率が低減された混合音声を得ることができる。

また、操作者音声推定器１３８は、入力音声の音源の位置が収音位置から設定距離（例えば、音声記録装置１０の１ｍ以内など音声記録装置１０の近傍）の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に特定音源から発せられた近傍音声が含まれていると判定してもよい。ここで、音声記録装置１０の操作者が音声記録装置１０のボタンを操作したり音声記録装置１０を持ち替えると「パチン」、「バン」などのインパルス音が発生する場合が多い。また、該インパルス音は音声記録装置１０において発生するため、比較的大きな音量で収音される可能性が高い。

したがって、操作者音声推定器１３８は、入力音声の音源の位置が収音位置から設定距離の範囲内であり、入力音声にインパルス音が含まれ、入力音声が過去の平均音量と比較して大きい場合、入力音声に近傍音声として操作者の動作に起因するノイズが支配的に含まれていると判定することができる。その結果、後述の音声混合部１５０により操作者の動作に起因するノイズの音量比率が低減された混合音声を得ることができる。

その他、操作者音声推定器１３８に入力される情報と、入力される情報に基づく操作者音声推定器１３８の判定結果の一例を以下の表２にまとめた。なお、近接センサー、温度センサーなどを組み合わせて用いて操作者音声推定器１３８における判定の精度をあげることも可能である。

図３を参照して音声記録装置１０の構成の説明に戻ると、音源分離部１４０は、音声判定部１２０から操作者音声存在情報が入力されると、音声判定部１２０から入力される音源の位置情報に基づき、音声収音部１１０から入力される入力音声を操作者の音声などの近傍音声と、近傍音声以外の被写体の音声などの収音対象音声（第二の音声）とに分離する。その結果、音源分離部１４０は、入力される入力音声の数の倍の数の音声を出力する。図３においては、音源分離部１４０が左音声Ｌおよび右音声Ｒを入力音声として入力され、左近傍音声Ｌおよび右近傍音声Ｒを近傍音声として出力し、左収音対象音声Ｌおよび右収音対象音声Ｒを収音対象音声として出力する様子を示している。

具体的には、音源分離部１４０は、独立成分解析を用いた手法（ＩＣＡ）、音の時間周波数成分間の重なりの少なさを利用する手法などを用いて音声を音源に応じて分離する音声分離部として機能する。

音声混合部１５０は、音源分離部１４０から入力された近傍音声および収音対象音声を、近傍音声が占める音量比率が、入力音声に占める近傍音声の音量比率より低減されるように混合する。かかる構成によれば、入力音声のうち特定音源から発せられた近傍音声の音量が不要に大きい場合、音声混合部１５０は、収音対象音声が占める音量比率が入力音声に占める収音対象音声の音量比率より増大させた混合音声を得ることができる。その結果、当該音声記録装置１０によれば、収音対象音声が近傍音声に埋もれてしまうことを防止できる。

なお、音声混合部１５０は、入力される左近傍音声Ｌおよび左収音対象音声Ｌを混合して混合左音声Ｌを生成し、入力される右近傍音声Ｒおよび右収音対象音声Ｒを混合して混合右音声Ｒを生成し、混合左音声Ｌおよび混合右音声Ｒを混合音声として記録部１６０に出力する。

また、音声混合部１５０は、音源分離部１４０により分離された近傍音声および収音対象音声の平均音量比から適切な混合比率を算出し、算出した混合比率で近傍音声および収音対象音声を混合してもよい。また、音声混合部１５０は、前フレームに適用していた混合比率との差分が所定の上限値を超えない範囲で適用する混合比率を変化させてもよい。また、該混合比率はユーザ設定されるようにしてもよい。

記録部１６０は、音声混合部１５０から入力された混合音声を記憶部１７０に記録する。記憶部１７０は、ＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄ−ＯｎｌｙＭｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰｒｏｇｒａｍｍａｂｌｅＲｅａｄＯｎｌｙＭｅｍｏｒｙ）などの不揮発性メモリや、ハードディスクおよび円盤型磁性体ディスクなどの磁気ディスクや、ＣＤ−Ｒ（ＣｏｍｐａｃｔＤｉｓｋＲｅｃｏｒｄａｂｌｅ）／ＲＷ（ＲｅＷｒｉｔａｂｌｅ）、ＤＶＤ−Ｒ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋＲｅｃｏｒｄａｂｌｅ）／ＲＷ／＋Ｒ／＋ＲＷ／ＲＡＭ（ＲａｍｄａｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびＢＤ（Ｂｌｕ−ＲａｙＤｉｓｃ（登録商標））―Ｒ／ＢＤ−ＲＥなどの光ディスクや、ＭＯ（ＭａｇｎｅｔｏＯｐｔｉｃａｌ）ディスクなどの記憶媒体であってもよい。なお、記憶部１７０は、被写体の映像データも記憶することができる。

このように本実施形態にかかる音声記録装置１０によれば、記録部１６０が記憶部１７０に、近傍音声が占める音量比率が入力音声に占める近傍音声の音量比率より低減された混合音声を記録する。したがって、該混合音声を再生する再生装置に特殊な音量補正機能を実装することなく、該再生装置において近傍音声の占める音量比率が調整された混合音声を再生することが可能となる。

以上、本実施形態にかかる音声記録装置１０の構成を説明した。続いて、図１０を参照して本実施形態にかかる音声記録装置１０において実行される音声処理方法を説明する。

図１０は、本実施形態にかかる音声記録装置１０において実行される音声処理方法の流れを示したフローチャートである。まず、音声記録装置１０の音声収音部１１０は音声を収音する（Ｓ２１０）。入力音声が無かった場合には処理を終了し、入力音声があった場合には距離方向推定器１３６が入力音声の全体または一部が発せられた音源の距離や方向などの位置情報を推定する（Ｓ２３０）。

その後、操作者音声推定器１３８は入力音声に操作者の発した音声、または操作者の動作に起因するノイズなどの近傍音声が含まれているか否かを判定する（Ｓ２４０）。操作者音声推定器１３８により入力音声に近傍音声が含まれていると判定された場合、音源分離部１４０は、入力音声を近傍音声とそれ以外の収音対象音声とに分離する（Ｓ２５０）。

続いて、音声混合部１５０が音源分離部１４０により分離された近傍音声と収音対象音声とを任意の比率で混合し、混合音声を生成する（Ｓ２６０）。Ｓ２６０の後、またはＳ２４０において入力音声に操作者の発した音声、または操作者の動作に起因するノイズなどの近傍音声が含まれていないと判定された場合、記録部１６０は混合音声または入力音声を記憶部１７０に記録する（Ｓ２７０）。

以上説明したように、本実施形態にかかる音声記録装置１０は、音源分離部１４０が、入力音声に含まれる特定音源から発せられた近傍音声を距離方向推定器１３６により推定された入力音声の音源の位置情報に基づいて分離し、音声混合部１５０が、近傍音声と入力音声に含まれる他の音声である収音対象音声とを、近傍音声が占める音量比率が、入力音声に占める近傍音声の音量比率より低減されるように混合する。

したがって、入力音声のうち特定音源から発せられた近傍音声の音量が不要に大きい場合、音声混合部１５０は、収音対象音声が占める音量比率が入力音声に占める収音対象音声の音量比率より増大させた混合音声を得ることができる。その結果、当該音声記録装置１０によれば、近傍音声を相対的に抑制し、収音対象音声が近傍音声に埋もれてしまうことを防止できる。また、入力音声に含まれる操作者により発せられる音声、ノイズなどの近傍音声の影響を低減除去した高品質の混合音声を記録することができる。

また、音声記録装置１０は、記憶部１７０に近傍音声が占める音量比率が入力音声に占める近傍音声の音量比率より低減された混合音声を記録できる。したがって、該混合音声を再生する再生装置に特殊な音量補正機能を実装することなく、該再生装置において近傍音声の占める音量比率が調整された混合音声を再生することが可能となる。

また、本実施形態にかかる音声記録装置１０は、入力音声をソフトウェア的に処理し近傍音声および収音対象音声の音量比率を調整した混合音声を記録できるため、マイクロホンの数などのハードウェア規模を縮小することができる。

（第２の実施形態）
次に、本発明の第２の実施形態にかかる音声再生装置１１について説明する。本実施形態にかかる音声再生装置１１は、既に記憶されている音声に含まれる近傍音声の占める音量比率が調整された混合音声を再生することができる。以下、図１１を参照して当該音声再生装置１１の構成を説明する。

図１１は、本実施形態にかかる音声再生装置１１の構成を示した機能ブロック図である。本実施形態にかかる音声再生装置１１は、音声判定部１２０と、音源分離部１４０と、音声混合部１５０と、記憶部１７２と、再生部１７４と、音声出力部１８０と、を備える。
なお、本実施形態の説明においては、第１の実施形態で説明した内容と実質的に同一である構成については説明を省略し、第１の実施形態と異なる構成に重きをおいて説明する。

記憶部１７２は、音声の記録機能を有する任意の装置において記録された音声を記憶している。再生部１７４は、記憶部１７２が記憶している音声を読み出し、必要に応じてデコードを行なう。そして、再生部１７４は、記憶部１７２が記憶している音声を音声判定部１２０および音源分離部１４０に出力する。音声判定部１２０および音源分離部１４０は、再生部１７４からの出力を入力音声として扱い、第１の実施形態で説明した内容と実質的に同一な処理を行う。

音声出力部１８０は、音声混合部１５０により混合された混合音声を出力する。音声出力部１８０は、例えばスピーカであってもイヤホンであってもよい。なお、本実施形態にかかる記憶部１７２も、第１の実施形態における記憶部１７０と同様にＥＥＰＲＯＭ、ＥＰＲＰＭなどの不揮発性メモリや、ハードディスクおよび円盤型磁性体ディスクなどの磁気ディスクや、ＣＤ−Ｒ／ＲＷ、ＤＶＤ−Ｒ／ＲＷ／＋Ｒ／＋ＲＷ／ＲＡＭおよびＢＤ（Ｂｌｕ−ＲａｙＤｉｓｃ（登録商標））―Ｒ／ＢＤ−ＲＥなどの光ディスクや、ＭＯディスクなどの記憶媒体であってもよい。

このように、本実施形態にかかる音声再生装置１１は、音声判定部１２０、音源分離部１４０および音声混合部１５０が再生部１７４から入力される入力音声に基づいて混合音声を生成し、混合音声を再生音声として出力することができる。したがって、記憶部１７２に入力音声を記録する記録装置に特殊な音量補正機能を実装することなく、近傍音声の占める音量比率が調整された混合音声を再生することが可能となる。また、操作者により発せられる音声、ノイズなどの近傍音声の影響を低減除去した高品質の混合音声を出力することができる。

（第３の実施形態）
次に、本発明の第３の実施形態にかかる音声再生装置１２について説明する。本実施形態にかかる音声再生装置１２は、入力音声にＡＧＣ（ＡｕｔｏＧａｉｎＣｏｎｔｒｏｌ）が施されている場合、入力音声に含まれる収音対象音声の音量を逆補正し、収音対象音声を強調（ブースト）することができる。以下、図１２および図１３を参照し、本実施形態にかかる音声再生装置１２の構成および動作を説明する。

図１２は、本実施形態にかかる音声再生装置１２の構成を示した機能ブロック図である。音声再生装置１２は、音声判定部１２０と、音源分離部１４０と、音声混合部１５０と、記憶部１７２と、再生部１７４と、音声出力部１８０と、音量補正部１９０とを備える。
なお、本実施形態の説明においては、第２の実施形態で説明した内容と実質的に同一である構成については説明を省略し、第２の実施形態と異なる構成に重きをおいて説明する。

本実施形態にかかる記憶部１７２は、一部または全体に音声判定部１２０と、音源分離部１４０と、音源混合部１５０と、記憶部１７２と、再生部１７４と、音声出力部１８０と、を備える。なお、本実施形態の説明においては、第１の実施形態で説明した内容と実質的に同一である構成については説明を省略し、第１の実施形態と異なる構成に重きをおいて説明する。

本実施形態にかかる記憶部１７２は、一部または全体にＡＧＣ（音量補正）が施された音声を記憶している。ここで、ＡＧＣは、音量の過大入力に対して自動的に音量レベルを下げ、音割れ防止を一つの目的とするコンプレッサーの機構である。かかるＡＧＣが施された音声の音量について図１３を参照して説明する。

図１３は、ＡＧＣの適用前の音声（原音）の音量と、ＡＧＣ適用後の音声の音量を対比的に表した説明図である。ＡＧＣは、ＡＧＣの適用前の音声の音量が閾値ｔｈを越えると、アタックタイムとして設定された時間で所定の割合（ｒａｔｉｏ）まで音量を圧縮する。図１３に示した例では、アタックタイムとして設定された時間で、ＡＧＣの適用前の音声の音量がおよそ１／２〜２／３程度に圧縮される場合を示している。その後、ＡＧＣの適用前の音声の音量が閾値ｔｈを下回ると、リリースタイムとして設定された時間内にＡＧＣを解除する。

ここで、音声の音量が閾値ｔｈを超えＡＧＣが動作するのは、該音声の記録装置の近傍から過大レベルの近傍音声の入力があった場合が多い。すなわち、遠方音源の収音対象音声によってＡＧＣが動作する場合は少ない。しかし、入力音声は全体としてＡＧＣにより圧縮されるため、入力音声に含まれる近傍音声のみならず、もともと微弱な収音対象音声がさらに圧縮されてしまう問題があった。

そこで、上記の問題を一着眼点とし、本実施形態にかかる音声再生装置１２が創作されるに至った。本実施形態にかかる音声再生装置１２は、音量補正部１９０の機能に基づき、入力音声にＡＧＣが施されていた場合であっても収音対象音声をブーストすることができる。

音量補正部１９０は、音源分離部１４０により分離された近傍音声の音量の変化からＡＧＣが適用されたであろうアタックタイムを検出し、音源分離部１４０により分離された収音対象音声において該アタックタイムに相当する区間を走査する。収音対象音声には、背景環境音や被写体が発した音声などが含まれ得るが、背景環境音のみ含まれる場合は音量レベルがほぼ一定であると近似することが可能である。したがって、音量補正部１９０は、収音対象音声の音量に所定レベル以上の変化が生じている区間にはＡＧＣが施されたと判定することができる。

そこで、音量補正部１９０は、収音対象音声における当該区間の音量を該区間の前後区間の音量と同程度になるように調整する逆補正を行い、収音対象音声をブーストすることができる。

なお、上記アタックタイムおよびリリースタイムの推定値、および音量補正部１９０が行なった逆補正の程度を保持しておくことにより、収音対象音声に被写体が発した音声が含まれる場合に有効活用することができる。すなわち、収音対象音声に被写体が発した音声が含まれる場合であっても、音量補正部１９０は近傍音声からアタックタイムを検出し、収音対象音声における該アタックタイムに相当する区間の前後にわたって音量値の走査を行う。音量補正部１９０は、走査の結果、アタックタイムまたはリリースタイムと一致する時間幅で音量値が変化している場合はＡＧＣが動作したと判定し、逆補正を行なうことができる。

音声混合部１５０は、このように音量補正部１９０により音量が逆補正された収音対象音声と、音源分離部１４０により分離された近傍音声とを、全体に占める近傍音声の音量比率が抑制されるような音量比率で混合して混合音声を生成することができる。

以上説明したように、本発明の第３の実施形態にかかる音声再生装置１２は、近傍音声の音量が過大であったために入力音声の音量が全体として抑制され、収音対象音声の音量も抑制されてしまっている場合、入力音声の音量が抑制された程度に応じて収音対象音声の音量を増大させ、収音対象音声が過小となることを防止できる。

なお、本実施形態においては音量補正部１９０を音声再生装置１２に設ける場合を説明したが、第１の実施形態で説明した音声記録装置１０に設けることで、入力音声にＡＧＣが施されていてもＡＧＣの程度に応じてブーストされた収音対象音声を含む混合音声を記憶部１７０に記録することも可能である。

以上、添付図面を参照しながら本発明の好適な実施形態について説明したが、本発明は係る例に限定されないことは言うまでもない。当業者であれば、特許請求の範囲に記載された範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、それらについても当然に本発明の技術的範囲に属するものと了解される。

例えば、本明細書の音声記録装置１０の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はなく、並列的あるいは個別に実行される処理（例えば、並列処理あるいはオブジェクトによる処理）も含むとしてもよい。

また、図３には音声判定部１２０が音声収音部１１０により収音された入力音声に近傍音声が含まれるか否かを判定する例を示しているが、本発明はかかる例に限定されない。例えば、音声判定部１２０は、音源分離部１４０により分離された音声が入力され、該分離された音声の音源位置を推定し、該分離された音声に近傍音声が含まれるか否かを判定し、該分離された音声を音声混合部１５０に出力してもよい。なお、この場合、音源分離部１４０は初期値無しでブラインドに音声を音源ごとに分離する。

また、音声記録装置１０、音声再生装置１１、音声再生装置１２に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアを、上述した音声記録装置１０、音声再生装置１１、音声再生装置１２の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。また、音声記録装置１０、音声再生装置１１、音声再生装置１２の各機能ブロック図で示したそれぞれの機能ブロックをハードウェアで構成することで、一連の処理をハードウェアで実現することもできる。

本発明の第１の実施形態にかかる音声記録装置が用いられる場面の一例を示した説明図である。通常の音声記録方法によって記録される音声の時間領域の振幅を示した説明図である。同実施形態にかかる音声処理装置の一例としての音声記録装置の構成を示した機能ブロック図である。音声判定部の構成を示した機能ブロック図である。２つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。３つの入力音声の位相差に基づいて入力音声の音源位置を推定する様子を示した説明図である。２つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。３つの入力音声の音量に基づいて入力音声の音源位置を推定する様子を示した説明図である。音声記録装置と操作者の位置関係を示した説明図である。同実施形態にかかる音声記録装置において実行される音声処理方法の流れを示したフローチャートである。本発明の第２の実施形態にかかる音声再生装置の構成を示した機能ブロック図である。本発明の第３の実施形態にかかる音声再生装置の構成を示した機能ブロック図である。ＡＧＣの適用前の音声の音量と、ＡＧＣ適用後の音声の音量を対比的に表した説明図である。

符号の説明

１０音声記録装置
１１、１２音声再生装置
１１０音声収音部
１２０音声判定部
１２４音量検出器
１３４音質検出器
１３６距離方向推定器
１３８操作者音声推定器
１４０音源分離部
１５０音声混合部
１６０記録部
１７０、１７２記憶部
１７４再生部
１８０音声出力部
１９０音量補正部

Claims

入力音声に特定音源から発せられた第一の音声が含まれているか否かを判定する音声判定部と；
前記音声判定部により前記入力音声に前記第一の音声が含まれていると判定された場合、前記入力音声を前記第一の音声と前記特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と；
前記音声分離部により分離された前記第一の音声と前記第二の音声を、任意の音量比率で混合する音声混合部と；
を備えることを特徴とする、音声処理装置。
前記特定音源は前記入力音声の収録位置から設定距離の範囲内に位置することを特徴とする、請求項１に記載の音声処理装置。
前記第一の音声は、前記入力音声を収音する際に用いられた装置の操作者に起因する音声を含み、
前記第二の音声は、収音対象から発せられた音声を含むことを特徴とする、請求項２に記載の音声処理装置。
前記音声判定部は、前記入力音声の音量または音質の少なくともいずれかに基づいて前記入力音声に前記第一の音声が含まれているか否かを判定することを特徴とする、請求項３に記載の音声処理装置。
映像を撮像する撮像部をさらに備え、
前記音声判定部は、入力音声に含まれる１または２以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて前記音源の位置情報を算出する位置情報算出部を備え、前記入力音声の音源の位置が前記撮像部の撮像方向の後方であると前記位置情報算出部により算出され、前記入力音声が人間の音声と一致または近似する音質である場合、前記入力音声に特定音源から発せられた前記第一の音声が含まれていると判定することを特徴とする、請求項４に記載の音声処理装置。
前記入力音声の音源の位置が収音位置から設定距離の範囲内であり、前記入力音声にインパルス音が含まれ、前記入力音声が過去の平均音量と比較して大きい場合、前記音声判定部は、前記入力音声に特定音源から発せられた前記第一の音声が含まれていると判定することを特徴とする、請求項４に記載の音声処理装置。
前記入力音声を収音する複数の収音部と；
前記音声混合部により混合された混合音声を記憶媒体に記録する記録部と；
を備えることを特徴とする、請求項１に記載の音声処理装置。
前記入力音声を記憶している記憶媒体と；
前記記憶媒体に記憶されている前記入力音声を再生し、前記位置情報算出部、前記音声判定部および前記音声分離部の少なくともいずれかに出力する再生部と；
を備えることを特徴とする、請求項１に記載の音声処理装置。
前記入力音声の音量が補正されている場合、前記音声分離部により分離された前記第二の音声の音量に、前記補正の程度に応じた逆補正を行なう音量補正部と；
を備えることを特徴とする、請求項１に記載の音声処理装置。
入力音声の分離を行う音声分離部と；
前記音声分離部により分離された音声に特定音源から発せられた第一の音声が含まれているか否かを判定する音声判定部と；
前記音声分離部により分離された前記第一の音声と前記特定音源以外の音源から発せられた第二の音声を、任意の音量比率で混合する音声混合部と；
を備えることを特徴とする、音声処理装置。
コンピュータを、
入力音声に特定音源から発せられた第一の音声が含まれているか否かを前記音源の位置情報に基づいて判定する音声判定部と；
前記音声判定部により前記入力音声に前記第一の音声が含まれていると判定された場合、前記入力音声を前記第一の音声と前記特定音源以外の音源から発せられた第二の音声とに分離する音声分離部と；
前記音声分離部により分離された前記第一の音声と前記第二の音声とを、任意の音量比率で混合する音声混合部と；
を備えることを特徴とする音声処理装置として機能させるための、プログラム。
前記音声判定部は、前記入力音声の音量または音質の少なくともいずれかに基づいて前記入力音声に前記第一の音声が含まれているか否かを判定することを特徴とする、請求項１１に記載のプログラム。
映像を撮像する撮像部をさらに備え、
前記音声判定部は、入力音声に含まれる１または２以上の音源から発せられた音声の音量または位相の少なくともいずれかに基づいて前記音源の位置情報を算出する位置情報算出部を備え、前記入力音声の音源の位置が前記撮像部の撮像方向の後方であると前記位置情報算出部により算出され、前記入力音声が人間の音声と一致または近似する音質である場合、前記入力音声に特定音源から発せられた前記第一の音声が含まれていると判定することを特徴とする、請求項１２に記載のプログラム。
前記入力音声の音源の位置が収音位置から設定距離の範囲内であり、前記入力音声にインパルス音が含まれ、前記入力音声が過去の平均音量と比較して大きい場合、前記音声判定部は、前記入力音声に特定音源から発せられた前記第一の音声が含まれていると判定することを特徴とする、請求項１２に記載のプログラム。
入力音声に特定音源から発せられた第一の音声が含まれているか否かを前記音源の位置情報に基づいて判定するステップと；
前記入力音声に前記第一の音声が含まれていると判定された場合、前記入力音声を前記第一の音声と前記特定音源以外の音源から発せられた第二の音声とに分離するステップと；
前記分離された前記第一の音声と前記第二の音声を、任意の音量比率で混合するステップと；
を含むことを特徴とする、音声処理方法。