JP7403436B2

JP7403436B2 - 異なる音場の複数の録音音響信号を合成する音響信号合成装置、プログラム及び方法

Info

Publication number: JP7403436B2
Application number: JP2020207541A
Authority: JP
Inventors: 翔太大久保; 俊治堀内
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2020-12-15
Filing date: 2020-12-15
Publication date: 2023-12-22
Anticipated expiration: 2040-12-15
Also published as: JP2022094582A

Description

本発明は、複数の音響信号を合成する技術に関する。特に、異なる音場で収音された複数の音響信号を、ネットワークを介して受信し且つ再生するシステムに適する。

例えばSkype（登録商標）やZoom（登録商標）のようなＷｅｂ会議システムが、一般的に利用されている。このようなシステムによれば、複数のユーザの端末がそれぞれ、遠隔地に位置し、ネットワークを介して多対地に接続される。そして、端末同士で相互に、ユーザの顔映像や発話音声の情報を送受信し、人間同士の対面会話環境を提供する。このとき、聞き手のユーザにとって、話し手のユーザの発話音声に、残響音及び周辺環境音が混在したり、遅延が生じたとしても、会話に支障がない程度であれば継続できる。

近年、異なる拠点に滞在する演奏家同士が、ネットワークを介して、リアルタイムな音楽合奏環境を提供するサービスもある（例えば非特許文献１参照）。演奏家同士は互いの音を聞きながら演奏するために、このサービスの場合、音声データの遅延をできる限り小さくする技術を採用している。
大気中での音の速度を約340m/sとすると、5m離れた相手に音が届くには、15msの遅延が発生する。現実的に、この程度の遅延であれば、人間は問題なく合奏をすることができる。一方で、音の遅延が大きくなるほど、合奏が難しくなる。
非特許文献１に記載の技術は、ネットワーク接続時に接続コンディションを計測し、音声データのバッファサイズをできる限り小さくすることによって、遅延を小さくしている。接続後も、音声データの遅延幅を常に監視し、自動的に音声データを補正し、ネットワークの揺らぎを吸収する。これによって、ネットワークを介した音楽合奏環境を提供している。

尚、遠隔拠点間で互いに多様な環境音を認識し合う環境音認識装置の技術もある（例えば特許文献１参照）。

特許第６０８５５３８号公報特開平０５－０８３７８６号公報

「ＳＹＮＣＲＯＯＭ」、YAMAHA、[online]、［令和２年１１月１６日検索］、インターネット＜URL:https://syncroom.yamaha.com/＞「室内音響の測定、－インパルス応答の読み方－」、[online]、［令和２年１１月１６日検索］、インターネット＜URL:https://www.noe.co.jp/technology/04/04inv1.html＞「Swept-Sine(TSP)信号を使ったインパルス応答測定(python)」、[online]、［令和２年１１月１６日検索］、インターネット＜URL:http://samuiui.com/2019/06/10/swept-sinetsp信号を使ったインパルス応答測定python/＞電子情報通信学会「知識の森」、「4-2 残響抑圧」、[online]、［令和２年１１月１６日検索］、インターネット＜URL:http://www.ieice-hbkb.org/files/02/02gun_06hen_04.pdf＞「FDTD法による音響シミュレーション」、[online]、［令和２年１１月１６日検索］、インターネット＜URL:http://samuiui.com/2019/06/03/fdtd法による音響シミュレーション/＞「Demo, download and share acoustic impulse responses for auralization」、[online]、［令和２年１１月１６日検索］、インターネット＜URL:https://www.openair.hosted.york.ac.uk＞「静岡県清水町地域交流センター多目的ホールコンサートも可能な音響特性に改善する」、[online]、［令和２年１１月１６日検索］、インターネット＜URL:http://www.salogic.com/Shimizu-cho-Hall/shimizu-cho-hall01.html＞「残響、残響時間(RT60)、反射音」、[online]、［令和２年１２月８日検索］、インターネット＜URL:http://www.ari-web.com/service/kw/sound/reverb.htm＞

しかしながら、非特許文献１のような技術を用いて、できる限り遅延を小さくできたとしても、聞き手には臨場感に乏しいと感じられる。
ここで、本願の発明者らは、異なる音場で収音された音響信号について、各音場の残響特性の相違が、臨場感の低下につながっているのではないか、と考えた。

「残響」とは、音源からの音波が、壁、天井、床などに反射しながらエネルギー減衰し、様々な方向から遅れて到達する複雑な組合せの反射音をいう。音源からの音波でどこにも反射せずに収音された直接音に続いて、壁などに反射した反射音が収音される。残響特性とは、室内毎に相違する例えば反射音の性質をいう。

例えば全く同じ音響信号を異なる拠点で再生させた場合、その拠点毎の残響特性が影響して、人間の聴覚的には異なる音響信号として聞こえる。例えばインパルス信号としての１回の手合わせ音であっても、自宅における手合わせ音と、コンサートホールにおける手合わせ音と、野外における手合わせ音と、ライン録音（無響）における手合わせ音とは、人間の聴覚的には全く異なる音響信号として聞こえる。

また、非特許文献１のような音楽合奏環境の場合、異なる音場で収音された音響信号はそれぞれ、異なる残響特性が収音されたものとなる。自宅に滞在する演奏家もいれば、防音加工のあるスタジオに滞在する演奏家、楽器を直接的にライン接続した演奏家もいる。それらの音響信号を単に合成した場合、異なる残響特性も混在することとなる。また、異なる残響特性が混在した音響信号は、スピーカから出力される際に、その再生音場の残響特性の影響も二重に反映されることとなる。
このように、異なる音場で収音された音響信号について、各音場の残響特性の相違が、臨場感の低下につながっていると考えられる。

そこで、本発明は、異なる音場で収音された複数の音響信号を、残響特性が統一化（均質化）されるべく合成する音響信号合成装置、プログラム及び方法を提供することを目的とする。

本発明によれば、異なる音場で収音された複数の録音音響信号ｙを合成する音響信号合成装置において、
所定残響特性ｈxを記憶する残響特性記憶手段と、
各音場の録音音響信号ｙn（＝原音響信号ｘn＊録音音場残響特性ｈn）について、録音音場残響特性ｈnが所定残響特性ｈxに一致するように、残響特性を整合する残響特性整合手段と、
整合された複数の音響信号ｙ'nを、合成音響信号ｙ'として合成する音響信号合成手段と
を有し、
所定残響特性ｈxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたＳＳ(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とする。

本発明の音響信号合成装置における他の実施形態によれば、
所定残響特性ｈxは、
予め決定された残響特性、
複数の音場における録音音場残響特性における残響時間の中央値を持つ残響特性、又は、
複数の音場におけるいずれか１つの録音音場残響特性に設定した残響特性
とすることも好ましい。

本発明の音響信号合成装置における他の実施形態によれば、
残響特性整合手段は、所定残響特性ｈxと、各音場の録音音場残響特性ｈnの逆フィルタ残響特性ｈn^-1とを畳み込んだ差分残響特性ｈx＊ｈn^-1を、各音場の音響信号ｙnに畳み込む（ｙ'n＝ｙn＊（x＊ｈn^-1））
ことも好ましい。

本発明の音響信号合成装置における他の実施形態によれば、
残響特性記憶手段は、スピーカから再生される音場における再生音場残響特性ｈmを更に記憶しており、
合成音響信号ｙ'に、再生音場残響特性ｈmの逆フィルタ残響特性ｈm^-1を畳み込むことによって再生音場音響信号ｙ''（＝ｙ'＊ｈm^-1）を生成する再生音場音響信号生成手段
を更に有することも好ましい。

本発明の音響信号合成装置における他の実施形態によれば、
残響特性記憶手段は、ユーザ自ら所望する疑似音場残響特性ｈlを更に記憶しており、
再生音場音響信号ｙ''に、疑似音場残響特性ｈlを畳み込むと共に、所定残響特性ｈxの逆フィルタ残響特性ｈx^-1を畳み込むことによって、疑似音場音響信号ｙ'''（＝ｙ''＊ｈx^-1＊ｈl）を生成する疑似音場音響信号生成手段
を更に有することも好ましい。

本発明の音響信号合成装置における他の実施形態によれば、
複数の音響信号は、オンライン電話システム、ビデオ会議システム、Ｗｅｂ会議システム、又は、リモートセッションシステムに基づくものである
ことも好ましい。

本発明によれば、前述した音響信号合成装置としての端末であって、
各音場に配置された複数の他の端末から受信した録音音響信号ｙnを同時に受信し、
各音場の端末から受信した録音音響信号ｙnを合成し、合成音響信号ｙ'をスピーカから再生する
ことを特徴とする。

本発明によれば、前述した音響信号合成装置としてのサーバと、各音場に配置された複数の端末とが、ネットワークを介して録音音響信号ｙnを同時に送受信するシステムであって、
サーバは、各音場の端末から受信した録音音響信号ｙnを合成し、合成音響信号ｙ'を任意の音場の端末へ送信する
ことを特徴とする。

本発明によれば、異なる音場で収音された複数の録音音響信号ｙを合成するようにコンピュータを機能させるプログラムにおいて、
所定残響特性ｈxを記憶する残響特性記憶手段と、
各音場の録音音響信号ｙn（＝原音響信号ｘn＊録音音場残響特性ｈn）について、録音音場残響特性ｈnが所定残響特性ｈxに一致するように、残響特性を整合する残響特性整合手段と、
整合された複数の音響信号ｙ'nを、合成音響信号ｙ'として合成する音響信号合成手段としてコンピュータを機能させ、
所定残響特性ｈxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたＳＳ(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とする。

本発明によれば、異なる音場で収音された複数の録音音響信号ｙを合成する装置の音響信号合成方法において、
装置は、
所定残響特性ｈxを記憶しており、
各音場の録音音響信号ｙn（＝原音響信号ｘn＊録音音場残響特性ｈn）について、録音音場残響特性ｈnが所定残響特性ｈxに一致するように、残響特性を整合する第１のステップと、
整合された複数の音響信号ｙ'nを、合成音響信号ｙ'として合成する第２のステップと
を実行し、
所定残響特性ｈxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたＳＳ(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とする。

本発明の音響信号合成装置、プログラム及び方法によれば、異なる音場で収音された複数の音響信号を、残響特性が統一化（均質化）されるべく合成することができる。これによって、ネットワークを介したコミュニケーションシステムについて、臨場感を高めた音場環境を提供することができる。

本発明における第１のシステム構成図である。本発明における第２のシステム構成図である。原音響信号と残響特性と録音音響信号との関係を表す説明図である。本発明における音響信号合成装置の機能構成図である。本発明におけるフローチャートである。本発明における残響特性記憶部に記憶された残響特性を表す説明図である。本発明における残響特性整合部の説明図である。本発明における音響信号合成部の説明図である。本発明における再生音場音響信号生成部の説明図である。本発明における疑似音場音響信号生成部の説明図である。

以下、本発明の実施の形態について、図面を用いて詳細に説明する。

図１は、本発明における第１のシステム構成図である。

複数の端末は、異なる拠点に位置し、ネットワークを介して接続されている。
これら端末は、自らの拠点の音響信号をマイクで収音し、その録音音響信号をネットワークを介して相手方端末へ送信する。これと同時に、自らの拠点の映像をカメラで取得し、その映像信号も相手方端末へ送信することもできる。
一方で、複数の端末から録音音響信号を受信した端末は、それら録音音響信号を合成し、スピーカから再生する。これと同時に、映像信号も受信した場合、アプリケーションによってディスプレイに各拠点の映像を映し出す。

図１によれば、リモートセッションシステムについて記載されている。ここでは、異なる拠点に位置する複数の演奏家が、ネットワークを介して音楽合奏をしているとする。勿論、本発明はリモートセッションシステムに限られるものではなく、オンライン電話システム、ビデオ会議システム又はＷｅｂ会議システムに基づくものであってもよい。

本発明によれば、音声信号の受信側となる端末１における「音響信号合成機能」に特徴がある。端末１は、各音場に配置された複数の他の端末から受信した録音音響信号ｙnを同時に受信し、それら録音音響信号ｙnを合成し、その合成音響信号ｙ'をスピーカから再生する。

図２は、本発明における第２のシステム構成図である。

図２によれば、図１と異なって、音響信号合成装置としてのサーバが配置されている。
サーバは、各音場に配置された複数の端末に対して、ネットワークを介して音響信号及び映像信号を同時に送受信するものである。サーバは、各音場の端末から受信した録音音響信号ｙnを合成し、その合成音響信号ｙ'を任意の音場の端末へ送信する。

図３は、原音響信号と残響特性と録音音響信号との関係を表す説明図である。

図３によれば、例えばギターのような音源と、その音響を収音するマイクとが配置されているとする。
この場合、マイクには、ギターの原音響信号ｘnに、録音音場の残響特性ｈnが畳み込まれた録音音響信号ｙnが収音されることとなる。
録音音響信号ｙn＝原音響信号ｘn＊録音音場残響特性ｈn
＊：畳み込み演算
勿論、録音音響信号ｙnは、演奏者自らの耳（聴覚）に入る音響信号と同じものである。
また、録音音場残響特性ｈnは、一般的にインパルス応答に基づくものである。

図４は、本発明における音響信号合成装置の機能構成図である。
図５は、本発明におけるフローチャートである。

図４によれば、端末１に、音響信号合成機能が搭載されており、異なる音場で収音された複数の録音音響信号ｙを合成する。
音響信号合成装置としての端末１は、残響特性記憶部１０と、残響特性整合部１１と、音響信号合成部１２と、再生音場音響信号生成部１３と、疑似音場音響信号生成部１４と、音響信号再生部１５と、映像再生部１６と、メディア分離部１７とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現できる。また、これら機能構成部の処理の流れは、音響信号合成方法としても理解できる。

端末１は、ネットワークを介して音響信号を受信すると共に、映像信号も同時に受信するものであってもよい。これら信号は、メディア分離部１７によって、音響信号及び映像信号と区分される。そして、音響信号は、残響特性整合部１１へ出力され、映像信号は、映像再生部１６へ出力される。映像再生部１６は、受信した複数の映像を同時に、ディスプレイに表示する。

［残響特性記憶部１０］
残響特性記憶部１０は、所定残響特性ｈxを記憶するものである。
「残響特性」とは、部屋の形状や壁の材質などに由来する残響時間や周波数の変化を含めた音響変化をいう。部屋に残響が存在する環境下で、マイクから離れた音源からの音を収音する場合、音源からの直接音に加えて残響も一緒に収音され音が変形する。その拠点毎の残響特性に応じて、人間の聴覚的には異なる音響信号として聞こえる。

残響特性として代表的には、室内の音の響きの状態を表す指標として「残響時間」があり、時間経過に対する振幅の変化を意味する。この残響時間の評価尺度に、「インパルス応答」が用いられる。インパルス応答は、例えば音楽合奏環境（ホールや、スタジオなど）に基づく残響特性の評価尺度の殆どに、一般的に用いられている。

残響時間は、室内の音のエネルギーが-60dB(100万分の1)になるまでの時間をRT60と表記する（例えば非特許文献８参照）。一般的なサウンドレベルメータ（騒音計）で残響時間を測定する場合は、音源からピンクノイズやピストルの発射音などを発生させ、その残響音のレベルが減衰するまでの時間を計測する。

図６は、本発明における残響特性記憶部に記憶された残響特性を表す説明図である。

図６（ａ）によれば、残響特性は、「インパルス信号」を無指向性スピーカから発生させ、マイクによって直接的に録音した音響信号について、時間経過に対する振幅変位である。即ち、音場で、事前に、インパルス信号を発生させ、録音した音響信号をそのままインパルス応答として計測することができる（例えば非特許文献３参照）。

図６（ｂ）によれば、残響特性は、インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたＳＳ(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である。

インパルス信号は、ある１点でのみエネルギーを持つ信号である。しかしながら、電気信号をスピーカから放射させる時も、エネルギーに限界がある。そのために、エネルギーの大きい時間伸長信号としてのＳＳ信号を放射し、収音時に時間圧縮の演算処理を実行する。パルスであるために、聴感上も残響を感じることできる。

インパルス信号を時間軸に伸長した信号は、ＴＳＰ(Time-Stretched Pulse)信号であって、周波数の低い方から高い方へ掃引されたsin波という意味で「ＳＳ信号」と称される。雑音と残響とは、妨害音という点で類似するものである。しかしながら、雑音は、音源信号との無相関性を持つが、残響は、パワーの大きな残響の初期反射部分について音源信号と強い相関性を持つ。

ＳＳ信号をスピーカから発生すると共に、マイクでその音響信号を収音し、その録音音響信号にＳＳ信号の逆関数（逆フィルタ）を畳み込むことによってインパルス応答を検出する（例えば非特許文献２参照）。ＳＳ信号の逆関数は、経過時間に伴って周波数が降下するＳＳ信号となる。
尚、収音された音響信号から残響特性を除去／抑圧するために、他の技術を適用することもできる（例えば非特許文献４参照）。

勿論、残響特性として、時間領域有限差分法に基づくＦＤＴＤ法(Finite-Difference Time-Domain)を用いることもできる（例えば非特許文献５参照）。この技術は、音の振る舞いを表す式を差分によって表現したものを、時間変化させていくことで音の伝搬をシミュレートするものである。

尚、残響特性としては、残響時間以外に、以下のような評価尺度の情報項目であってもよい。
・「初期残響時間」：残響減衰の初期10dB部分の減衰傾斜に基づく残響時間
・「時間重心」：主観的に感じられる響きの量
・「Clarity」：直接音と残響音とのエネルギー比［対数］で表される
音の明瞭度
・「直接音全エネルギー比」：直接音と全体（直接音＋残響音）とのエネルギー比で
表される主にスピーチの明瞭度
・「初期側方反射音と直接音のエネルギー比」
・「初期側方反射音＋後続反射音と直接音のエネルギー比」
・「両耳相互相関係数」
・「ダミーヘッド録音」

残響特性記憶部１０に記憶された「所定残響特性ｈx」としては、複数の音場の残響特性を統一化（均質化）する基準を表す。例えば以下のものがある。
（１）予め決定された残響特性
（２）複数の音場における録音音場残響特性における残響時間の中央値を持つ残響特性
（３）複数の音場におけるいずれか１つの録音音場残響特性に設定した残響特性
所定残響特性ｈxを、いずれの残響特性にするかは、オペレータ又はユーザによって設定される。

図６によれば、残響特性記憶部１０は、各録音音場の残響特性のデータと、再生音場の残響特性のデータと、疑似音場の残響特性のデータとが、予め記憶されたものであってもよい。勿論、その音場で予め計測されたデータに限られず、部屋のタイプによって予測（想定）されるデータであってもよい。録音音場又は再生音場であれば、「家の個室」「スタジオ」「ライン（無響）」などであり、疑似音場としては、「コンサートホール」「スタジオ」「野外ステージ」などである。様々な疑似音場の残響特性のデータは、Ｗｅｂサイトでも公開されている（例えば非特許文献６参照）。

［残響特性整合部１１］
残響特性整合部１１は、各音場の録音音響信号ｙnについて、録音音場残響特性ｈnが所定残響特性ｈxに一致（統一化又は均質化）するように、残響特性を整合する。
整合された各音場の音響信号は、音響信号合成部１２へ出力される。

録音音場のインパルス応答（録音音場残響特性ｈn）が、所定のインパルス応答（所定残響特性ｈx）に一致するように整合させる。
具体的には、残響特性整合部１１は、所定残響特性ｈxと、各音場の録音音場残響特性ｈnの逆フィルタ残響特性ｈn^-1とを畳み込んだ差分残響特性ｈx＊ｈn^-1を、各音場の音響信号ｙnに畳み込む。
ｙ'n＝ｙn＊（ｈx＊ｈn^-1）
＝（ｘn＊ｈn）＊（ｈx＊ｈn^-1）
＝ｘn＊ｈx

残響特性は、インパルス応答による変形であるために、その残響特性を打ち消す逆フィルタ（ｈ^-1）によって、その残響特性を除去することができる。
逆フィルタとしては、例えばＭＩＮＴ法が一般的に用いられている。これは、部屋を入出力の線形システムでモデル化し、逆フィルタが安定となる条件を導き出し、その安定な逆フィルタによって残響特性を除去する。

図７は、本発明における残響特性整合部の説明図である。
ｙ1＝ｘ1＊ｈ1 -> ｙ'1＝ｙ1＊（ｈx＊ｈ1^-1）
＝（ｘ1＊ｈ1）＊（ｈx＊ｈ1^-1）
＝ｘ1＊ｈx
ｙ2＝ｘ2＊ｈ2 -> ｙ'2＝ｙ2＊（ｈx＊ｈ2^-1）
＝（ｘ2＊ｈ2）＊（ｈx＊ｈ2^-1）
＝ｘ2＊ｈx
ｙ3＝ｘ3＊ｈ3 -> ｙ'3＝ｙ3＊（ｈx＊ｈ3^-1）
＝（ｘ3＊ｈ3）＊（ｈx＊ｈ3^-1）
＝ｘ3＊ｈx

［音響信号合成部１２］
音響信号合成部１２は、整合された複数の音響信号ｙ'nを、合成音響信号ｙ'として合成する。複数の音響信号ｙ'nは全て、所定残響特性ｈxに統一化されているので、合成音響信号ｙ'も、所定残響特性ｈxに統一化されている。
そして、合成音響信号ｙ'は、再生音場音響信号生成部１３へ出力される。

図８は、本発明における音響信号合成部の説明図である。

図８によれば、以下のように合成音響信号ｙ'として合成されている。
ｙ'＝ｙ'1＋ｙ'2＋ｙ'3
＝（ｙ1＊ｈx）＋（ｙ2＊ｈx）＋（ｙ3＊ｈx）
＝（ｙ1＋ｙ2＋ｙ3）＊ｈx

［再生音場音響信号生成部１３］
残響特性記憶部１０は、スピーカから再生される音場における再生音場残響特性ｈmを更に記憶している。再生音場とは、例えば音楽合奏を試聴するユーザの自室である場合もれば、音楽合奏の演奏家それぞれの室内の場合もある。
ここで、再生音場音響信号生成部１３は、合成音響信号ｙ'に、再生音場残響特性ｈmの逆フィルタ残響特性ｈm^-1を畳み込むことによって再生音場音響信号ｙ''（＝ｙ'＊ｈm^-1）を生成する。

図９は、本発明における再生音場音響信号生成部の説明図である。

図９によれば、例えば自室における再生音場残響特性ｈmとすると、その自室で合成音響信号ｙ'をスピーカから発生した場合、以下のような音響信号となってユーザに聞こえる。
ｙ''＝ｙ'＊ｈm＝（（ｙ1＋ｙ2＋ｙ3）＊ｈx）＊ｈm
そこで、更に、再生音場残響特性ｈmの逆フィルタ残響特性ｈm^-1を畳み込むことによって再生音場音響信号ｙ''（＝ｙ'＊ｈm^-1）を生成する。
ｙ''＝（ｙ'＊ｈm）＊ｈm^-1
＝（（ｙ1＋ｙ2＋ｙ3）＊ｈx）＊ｈm＊ｈm^-1
＝（ｙ1＋ｙ2＋ｙ3）＊ｈx

［疑似音場音響信号生成部１４］
残響特性記憶部１０は、ユーザ自ら所望する疑似音場残響特性ｈlを更に記憶している。疑似音場とは、例えばコンサートホールや野外ステージのような自室とは異なる、ユーザ所望の室内を意味する。
疑似音場残響特性ｈlを、いずれの残響特性にするかは、オペレータ又はユーザによって設定される。

ここで、疑似音場音響信号生成部１４は、再生音場音響信号ｙ''に、疑似音場残響特性ｈlを畳み込むと共に、所定残響特性ｈxの逆フィルタ残響特性ｈx^-1を畳み込むことによって、疑似音場音響信号ｙ'''（＝ｙ''＊ｈx^-1＊ｈl）を生成する。
最終的に生成された疑似音場音響信号ｙ'''は、音響信号再生部１６へ出力される。

図１０は、本発明における疑似音場音響信号生成部の説明図である。

例えばコンサートホールにおける疑似音場残響特性ｈlとすると、その自室で合成音響信号ｙ'をスピーカから発生した場合、以下のような音響信号となってしまう。
ｙ'''＝（（ｙ1＋ｙ2＋ｙ3）＊ｈx）＊ｈl
ここでは、所定残響特性ｈxと疑似音場残響特性ｈlとが混在してしている。
そのために、所定残響特性ｈxの逆フィルタ残響特性ｈx^-1を畳み込む。
ｙ'''＝（（ｙ1＋ｙ2＋ｙ3）＊ｈx）＊ｈl＊ｈx^-1

［音響信号再生部１５］
音響信号再生部１５は、疑似音場音響信号生成部１４から出力された音響信号を、スピーカから再生する。
勿論、音響信号再生部１５は、音響信号合成部１２又は再生音場音響信号生成部１３から出力された音響信号を、スピーカから再生するものであってもよい。いずれの音響信号であっても、残響特性ｈが統一化（均質化されている。）
尚、スピーカは、サラウンドシステムに基づくものであってもよい。

以上、詳細に説明したように、本発明の音響信号合成装置、プログラム及び方法によれば、異なる音場で収音された複数の音響信号を、残響特性が統一化（均質化）されるべく合成することができる。これによって、ネットワークを介したコミュニケーションシステムについて、臨場感を高めた音場環境を提供することができる。

前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。

１音響信号合成装置、端末、サーバ
１０残響特性記憶部
１１残響特性整合部
１２音響信号合成部
１３再生音場音響信号生成部
１４疑似音場音響信号生成部
１５音響信号再生部
１６映像再生部
１７メディア分離部

Claims

異なる音場で収音された複数の録音音響信号ｙを合成する音響信号合成装置において、
所定残響特性ｈxを記憶する残響特性記憶手段と、
各音場の録音音響信号ｙn（＝原音響信号ｘn＊録音音場残響特性ｈn）について、録音音場残響特性ｈnが所定残響特性ｈxに一致するように、残響特性を整合する残響特性整合手段と、
整合された複数の音響信号ｙ'nを、合成音響信号ｙ'として合成する音響信号合成手段と
を有し、
所定残響特性ｈxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたＳＳ(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とする音響信号合成装置。
所定残響特性ｈxは、
予め決定された残響特性、
複数の音場における録音音場残響特性における残響時間の中央値を持つ残響特性、又は、
複数の音場におけるいずれか１つの録音音場残響特性に設定した残響特性
とすることを特徴とする請求項１に記載の音響信号合成装置。
残響特性整合手段は、所定残響特性ｈxと、各音場の録音音場残響特性ｈnの逆フィルタ残響特性ｈn^-1とを畳み込んだ差分残響特性ｈx＊ｈn^-1を、各音場の音響信号ｙnに畳み込む（ｙ'n＝ｙn＊（x＊ｈn^-1））
ことを特徴とする請求項１又は２に記載の音響信号合成装置。
残響特性記憶手段は、スピーカから再生される音場における再生音場残響特性ｈmを更に記憶しており、
合成音響信号ｙ'に、再生音場残響特性ｈmの逆フィルタ残響特性ｈm^-1を畳み込むことによって再生音場音響信号ｙ''（＝ｙ'＊ｈm^-1）を生成する再生音場音響信号生成手段
を更に有することを特徴とする請求項１から３のいずれか１項に記載の音響信号合成装置。
残響特性記憶手段は、ユーザ自ら所望する疑似音場残響特性ｈlを更に記憶しており、
再生音場音響信号ｙ''に、疑似音場残響特性ｈlを畳み込むと共に、所定残響特性ｈxの逆フィルタ残響特性ｈx^-1を畳み込むことによって、疑似音場音響信号ｙ'''（＝ｙ''＊ｈx^-1＊ｈl）を生成する疑似音場音響信号生成手段
を更に有することを特徴とする請求項４に記載の音響信号合成装置。
複数の音響信号は、オンライン電話システム、ビデオ会議システム、Ｗｅｂ会議システム、又は、リモートセッションシステムに基づくものである
ことを特徴とする請求項１から５のいずれか１項に記載の音響信号合成装置。
請求項１から６のいずれか１項に記載された音響信号合成装置としての端末であって、
各音場に配置された複数の他の端末から受信した録音音響信号ｙnを同時に受信し、
各音場の端末から受信した録音音響信号ｙnを合成し、合成音響信号ｙ'をスピーカから再生する
ことを特徴とする端末。
請求項１から６のいずれか１項に記載された音響信号合成装置としてのサーバと、各音場に配置された複数の端末とが、ネットワークを介して録音音響信号ｙnを同時に送受信するシステムであって、
サーバは、各音場の端末から受信した録音音響信号ｙnを合成し、合成音響信号ｙ'を任意の音場の端末へ送信する
ことを特徴とするシステム。
異なる音場で収音された複数の録音音響信号ｙを合成するようにコンピュータを機能させるプログラムにおいて、
所定残響特性ｈxを記憶する残響特性記憶手段と、
各音場の録音音響信号ｙn（＝原音響信号ｘn＊録音音場残響特性ｈn）について、録音音場残響特性ｈnが所定残響特性ｈxに一致するように、残響特性を整合する残響特性整合手段と、
整合された複数の音響信号ｙ'nを、合成音響信号ｙ'として合成する音響信号合成手段としてコンピュータを機能させ、
所定残響特性ｈxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたＳＳ(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とするプログラム。
異なる音場で収音された複数の録音音響信号ｙを合成する装置の音響信号合成方法において、
装置は、
所定残響特性ｈxを記憶しており、
各音場の録音音響信号ｙn（＝原音響信号ｘn＊録音音場残響特性ｈn）について、録音音場残響特性ｈnが所定残響特性ｈxに一致するように、残響特性を整合する第１のステップと、
整合された複数の音響信号ｙ'nを、合成音響信号ｙ'として合成する第２のステップと
を実行し、
所定残響特性ｈxは、
各音場で予め計測又は予測された残響特性であり、
インパルス信号をスピーカから発生させ、マイクによって録音した音響信号について、時間経過に対する振幅変位である、又は、
インパルス信号を時間軸に伸長させ、時間経過と共に周波数を変位させたＳＳ(Swept-Sine)信号をスピーカから発生させ、マイクによって録音した音響信号について、逆フィルタによって抽出された時間経過に対する振幅変位である
ことを特徴とする音響信号合成方法。