JP2024001600A

JP2024001600A - 再生装置、再生方法、および再生プログラム

Info

Publication number: JP2024001600A
Application number: JP2022100355A
Authority: JP
Inventors: 貴之荒瀬; Takayuki Arase
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2022-06-22
Filing date: 2022-06-22
Publication date: 2024-01-10

Abstract

【課題】聴取者と音発生者とが位置する第１の実空間とは異なる実空間で音発生者が発した音を聴取者がリモートで聴くときに、違和感の少ない音を再生することができる再生装置を提供する。【解決手段】第１～第ｎの装置はそれぞれ第２～第（ｎ＋１）の実空間において通信ネットワークを介して接続されている。第１の装置に搭載されている再生装置は、遅延時間記憶部１７と音声情報生成部１８４を備える。遅延時間記憶部１７は、第２～第ｎの位置から発せられた音が第１の位置に到達するまでの第２～第ｎの位置に対応する音の遅延時間を記憶する。音声情報生成部１８４は、第１～第（ｎ－１）の音発生者がそれぞれ第３～第（ｎ＋１）の実空間で発生させて第２～第ｎの装置が第１の装置に送信した音声情報を取得し、第２～第ｎの装置からの各音声情報に第２～第ｎの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成する。【選択図】図２

Description

本発明は、再生装置、再生方法、および再生プログラムに関する。

近年、通信ネットワークを介して複数の端末を相互に通信接続させて、各端末で他の複数の端末から送信された映像信号および音声情報を同時に再生させる技術が開発されている（特許文献１）。この技術を用いれば、互いに異なる場所にいる複数人がリモートで楽器のセッションを行うことができる。

リモートで楽器のセッションを行う際には、各楽器の演奏者が所持する装置を用いて各演奏者の演奏音を収音し、その音声情報を、通信ネットワークを介して他の演奏者が所持する再生装置に送信する。各演奏者は、所持する再生装置で取得された他の演奏者の演奏音を出力させ、出力された演奏音に合わせて楽器を演奏することで、リモートでセッションを行うことができる。

特開２０１４－４８５０４号公報

このようなリモートによるセッションを３人以上の演奏者間で行う場合には、各演奏者の再生装置では、他の複数の演奏者の装置から取得した演奏音を、これに付加されている時刻情報に基づいて同期をとって再生させる。演奏音をこのように再生させると、実空間において自分以外の複数の演奏者がすべて自分から同じ距離の位置にいるときと同じように、各演奏者の演奏音が出力される。

一方で、オーケストラは、実空間において複数の演奏者が広い舞台上の様々な位置に配置されて演奏するため、各演奏者に聴こえる他の演奏者の演奏音のタイミングは、演奏者間の距離によって異なる。例えば、ヴァイオリン奏者と第２ヴァイオリン奏者との距離は近く、1～2m程度であるが、ヴァイオリン奏者とコントラバス奏者との距離は遠く、20m程度である。そのため、第２ヴァイオリン奏者とコントラバス奏者が同じタイミングで音を発しても、ヴァイオリン奏者には、コントラバスの音の方が遅いタイミングで聴こえる。

上述したようなリモートによるセッションでオーケストラの練習を行おうとすると、各演奏者の再生装置では、複数の他の演奏者の演奏音が同じタイミングで出力されてしまう。よって、各演奏者は、実空間の広い舞台で演奏したときに他の演奏者の演奏音を聴くタイミングとは異なるタイミングで他の演奏者の演奏音を聴くことになり、違和感を覚えることがあるという問題があった。

本発明は、聴取者と音発生者とが位置する第１の実空間とは異なる実空間で音発生者が発した音を聴取者がリモートで聴くときに、第１の実空間にいる場合と比べて違和感の少ない音を再生することができる再生装置、再生方法、および再生プログラムを提供することを目的とする。

上記目的を達成するための本発明の再生装置は、第１の実空間における第１の位置に位置すべき聴取者が所持する第１の装置と、ｎを３以上の整数として、前記第１の実空間における前記第１の位置から離れた第２～第ｎの位置に位置すべき第１～第（ｎ－１）の音発生者が所持する第２～第ｎの装置とが、前記第１の実空間とは異なる第２～第（ｎ＋１）の実空間において通信ネットワークを介して接続されている状態における前記第１の装置に搭載されている再生装置であり、前記第２～第ｎの位置から発せられた音が前記第１の位置に到達するまでの前記第２～第ｎの位置に対応する音の遅延時間を記憶する遅延時間記憶部と、前記第１～第（ｎ－１）の音発生者がそれぞれ前記第３～第（ｎ＋１）の実空間で発生させて前記第２～第ｎの装置が前記通信ネットワークを介して前記第１の装置に送信した音声情報を取得し、前記第２～第ｎの装置からの各音声情報に前記遅延時間記憶部に記憶されている前記第２～第ｎの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成する音声情報生成部と、を備える。

また、本発明の再生方法は、第１の実空間における第１の位置に位置すべき聴取者が所持する第１の装置と、ｎを３以上の整数として、前記第１の実空間における前記第１の位置から離れた第２～第ｎの位置に位置すべき第１～第（ｎ－１）の音発生者が所持する第２～第ｎの装置とが、前記第１の実空間とは異なる第２～第ｎの実空間において通信ネットワークを介して接続されている状態における前記第１の装置に搭載されている再生装置が、前記第２～第ｎの位置から発せられた音が前記第１の位置に到達するまでの前記第２～第ｎの位置に対応する音の遅延時間を記憶し、前記第１～第（ｎ－１）の音発生者が前記第３～第（ｎ＋１）の実空間で発生させて前記第２～第ｎの装置が前記通信ネットワークを介して前記第１の装置に送信した音声情報を取得し、前記第２～第ｎの装置からの各音声情報に、記憶した前記第２～第ｎの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成して再生する。

また、本発明の再生プログラムは、第１の実空間における第１の位置に位置すべき聴取者が所持する第１の装置と、ｎを３以上の整数として、前記第１の実空間における前記第１の位置から離れた第２～第ｎの位置に位置すべき第１～第（ｎ－１）の音発生者が所持する第２～第ｎの装置とが、前記第１の実空間とは異なる第２～第ｎの実空間において通信ネットワークを介して接続されている状態における前記第１の装置に搭載されているコンピュータに、前記第１～第（ｎ－１）の音発生者が前記第３～第（ｎ＋１）の実空間で発生させて前記第２～第ｎの装置が前記通信ネットワークを介して前記第１の装置に送信した音声情報を取得するステップと、取得した前記第２～第ｎの装置からの各音声情報に、それぞれ、前記第２～第ｎの位置から発せられた音が前記第１の位置に到達するまでの前記第２～第ｎの位置に対応する音の遅延時間を加算した遅延音声情報を生成するステップと、前記遅延音声情報を合成した合成音声情報を生成するステップと、を実行させる。

本発明の再生装置、再生方法、および再生プログラムによれば、聴取者と音発生者とが位置する第１の実空間とは異なる実空間で音発生者が発した音を聴取者がリモートで聴くときに、第１の実空間にいる場合と比べて違和感の少ない音を再生することができる。

本発明の一実施形態による再生装置としてのリモートセッション装置を利用したリモートセッションシステムの構成例を示す全体図である。本発明の一実施形態による再生装置としてのリモートセッション装置の構成例を示すブロック図である。本発明の一実施形態による再生装置としてのリモートセッション装置を利用する演奏者が、実空間の舞台上で演奏するときの位置を示す説明図である。図３に示した各演奏者の位置間の距離と、対応する音声遅延時間を示す表である。本発明の一実施形態による再生装置としてのリモートセッション装置が実行する処理の流れを示すフローチャートである。（ａ）は、本発明の一実施形態による再生装置としてのリモートセッション装置が、通常モードで処理が開始したときに生成した合成音声情報に含まれる、複数の音声情報の先頭位置を示す説明図であり、（ｂ）は、通常モードで処理が開始したときに生成した１フレーム目の合成映像情報を示す画面構成図であり、（ｃ）は、２フレーム目の合成映像情報を示す画面構成図である。本発明の一実施形態による再生装置としてのリモートセッション装置が、セッションモードで処理が開始したときに生成した合成音声情報に含まれる、複数の音声情報の先頭位置を示す説明図である。（ａ）は、本発明の一実施形態による再生装置としてのリモートセッション装置が、映像調整モードで処理が開始したときに生成した合成音声情報に含まれる、複数の音声情報の先頭位置を示す説明図であり、（ｂ）は、映像調整モードで処理が開始したときに生成した１フレーム目の合成映像情報を示す画面構成図であり、（ｃ）は、２フレーム目の合成映像情報を示す画面構成図である。

以下に、本発明の実施形態による再生装置としての機能を搭載するリモートセッション装置を用いたリモートセッションシステムの構成、リモートセッション情報の再生方法、および再生プログラムについて、図面を参照して説明する。

本実施形態では、オーケストラの楽団員の中のヴァイオリン奏者Ｘ1およびＸ2、チェロ奏者Ｘ3、打楽器奏者Ｘ4、およびコントラバス奏者Ｘ5の５人の演奏者が、それぞれ所持するリモートセッション装置を用いてリモートセッションを行う場合について説明する。

〈一実施形態によるリモートセッションシステムの構成〉
図１は、本発明の一実施形態によるリモートセッションシステム１の構成例を示す全体図である。リモートセッションシステム１は、リモートセッション装置１０－１～１０－５が、通信ネットワーク２０を介して接続されて構成されている。図１では、５台のリモートセッション装置が通信ネットワーク２０を介して接続されている場合を示しているが、これには限定されず、通信ネットワーク２０を介して接続されるリモートセッション装置の台数は３台以上であれば何台でもよい。

リモートセッション装置１０－１は、第１ヴァイオリンのヴァイオリン奏者Ｘ1が所持する。リモートセッション装置１０－２は、同じく第１ヴァイオリンの他のヴァイオリン奏者Ｘ2が所持する。リモートセッション装置１０－３は、チェロ奏者Ｘ3が所持する。リモートセッション装置１０－４は、打楽器奏者Ｘ4が所持する。リモートセッション装置１０－５は、コントラバス奏者Ｘ5が所持する。これらのリモートセッション装置１０－１～１０－５は、汎用のパーソナルコンピュータ（ＰＣ）で構成してもよい。

ヴァイオリン奏者Ｘ1およびＸ2、チェロ奏者Ｘ3、打楽器奏者Ｘ4、コントラバス奏者Ｘ5を含むオーケストラが実際に各楽器を演奏する舞台を第１の実空間とする。例えばヴァイオリン奏者Ｘ1を基準とすれば、ヴァイオリン奏者Ｘ1は第１の実空間の第１の位置に位置しており、ヴァイオリン奏者Ｘ2、チェロ奏者Ｘ3、打楽器奏者Ｘ4、コントラバス奏者Ｘ5は第１の実空間における第１の位置から離れた第２～第５の位置に位置している。このとき、ヴァイオリン奏者Ｘ1は、ヴァイオリン奏者Ｘ2、チェロ奏者Ｘ3、打楽器奏者Ｘ4、コントラバス奏者Ｘ5が演奏する各演奏音を聴取する聴取者であり、ヴァイオリン奏者Ｘ2、チェロ奏者Ｘ3、打楽器奏者Ｘ4、コントラバス奏者Ｘ5は音発生者である。

ヴァイオリン奏者Ｘ1およびＸ2、チェロ奏者Ｘ3、打楽器奏者Ｘ4、コントラバス奏者Ｘ5が図１に示すリモートセッションシステム１を用いてリモートセッションを行う場合、各演奏者は各演奏者の自宅または練習場所に位置している。すなわち、ヴァイオリン奏者Ｘ1およびＸ2、チェロ奏者Ｘ3、打楽器奏者Ｘ4、コントラバス奏者Ｘ5は、それぞれ第１の実空間とは異なる第２の実空間、第３の実空間、第４の実空間、第５の実空間、第６の実空間に位置している。このときのヴァイオリン奏者Ｘ1およびＸ2、チェロ奏者Ｘ3、打楽器奏者Ｘ4、コントラバス奏者Ｘ5の互いの位置関係は、第１の実空間における第１～第５の位置とは無関係である。

このように、リモートセッションシステム１におけるリモートセッション装置１０－１～１０－５は、第１の実空間における第１の位置に位置すべき聴取者が所持するリモートセッション装置（第１の装置）と、第１の実空間における第１の位置から離れた第２～第ｎの位置に位置すべき第１～第（ｎ－１）の音発生者が所持する第２～第ｎのリモートセッション装置（第２～第ｎの装置）とを含む。ｎは３以上の整数であり、図１に示す例ではｎは５である。ヴァイオリン奏者Ｘ2、チェロ奏者Ｘ3、打楽器奏者Ｘ4、またはコントラバス奏者Ｘ5を基準とした場合も同様であり、基準とした演奏者は他の演奏者の演奏音を聴取する聴取者であり、他の演奏者は音発生者である。

リモートセッション装置１０－１～１０－５は、同一の構成を有する。リモートセッション装置１０－１～１０－５のうちのいずれかを特定しない任意のリモートセッション装置をリモートセッション装置１０と称することとする。

図２は、リモートセッション装置１０の構成例を示すブロック図である。リモートセッション装置１０は、入力部１１と、撮像部１２と、収音部１３と、表示部１４と、音声出力部１５と、通信部１６と、遅延時間記憶部１７と、ＣＰＵ１８とを有する。

入力部１１は、演奏者等による操作情報を入力する。撮像部１２はそれぞれ、対応する演奏者を撮影する。具体的には、リモートセッション装置１０－１の撮像部１２はヴァイオリン奏者Ｘ1を撮影し、リモートセッション装置１０－２の撮像部１２はヴァイオリン奏者Ｘ2を撮影する。リモートセッション装置１０－３の撮像部１２はチェロ奏者Ｘ3を撮影し、リモートセッション装置１０－４の撮像部１２は打楽器奏者Ｘ4を撮影し、リモートセッション装置１０－５の撮像部１２はコントラバス奏者Ｘ5を撮影する。

収音部１３はマイクロホンであり、対応する演奏者の楽器が発する音を収音する。具体的には、リモートセッション装置１０－１の収音部１３はヴァイオリン奏者Ｘ1のヴァイオリンが発する音を収音し、リモートセッション装置１０－２の収音部１３はヴァイオリン奏者Ｘ2のヴァイオリンが発する音を収音する。リモートセッション装置１０－３の収音部１３はチェロ奏者Ｘ3のチェロが発する演奏音を収音し、リモートセッション装置１０－４の収音部１３は打楽器奏者Ｘ4の打楽器が発する音を収音する。リモートセッション装置１０－５の収音部１３はコントラバス奏者Ｘ5のコントラバスが発する音を収音する。

表示部１４は例えば液晶パネルであり、後述するようにＣＰＵ１８で生成される合成映像情報を表示する。音声出力部１５はスピーカであり、後述するようにＣＰＵ１８で生成される合成音声情報を出力する。通信部１６は、他のリモートセッション装置１０の通信部１６と互いに通信する。

遅延時間記憶部１７は、第１の実空間における各演奏者Ｘ1～Ｘ5に関し、他の演奏者の位置から発せられた演奏音が自分自身に到達するまでの他の演奏者の演奏音の遅延時間を記憶する。

第１の実空間における各演奏者の位置間の距離について説明する。図３は、オーケストラが第１の実空間である舞台上で演奏するときの楽器の種類ごとの配置位置を示す図であり、Ｃ(Ｘ1)はヴァイオリン奏者Ｘ1の位置を示し、Ｃ(Ｘ2)はヴァイオリン奏者Ｘ2の位置を示し、Ｃ(Ｘ3)はチェロ奏者Ｘ3の位置を示し、Ｃ(Ｘ4)は打楽器奏者Ｘ4の位置を示し、Ｃ(Ｘ5)はコントラバス奏者Ｘ5の位置を示す。各演奏者同士は、それぞれ所定距離離れて配置される。

図４は、図３に示す各演奏者の位置間の距離と、対応する音声遅延時間を示す表である。各演奏者間の距離は、Ｃ(Ｘ1)－Ｃ(Ｘ2)間は1.5m、Ｃ(Ｘ1)－Ｃ(Ｘ3)間は11.5m、Ｃ(Ｘ1)－Ｃ(Ｘ4)間は17.0m、Ｃ(Ｘ1)－Ｃ(Ｘ5)間は20.7m、Ｃ(Ｘ2)－Ｃ(Ｘ3)間は10.0m、Ｃ(Ｘ2)－Ｃ(Ｘ4)間は16.3m、Ｃ(Ｘ2)－Ｃ(Ｘ5)間は18.0m、Ｃ(Ｘ3)－Ｃ(Ｘ4)間は13.0m、Ｃ(Ｘ3)－Ｃ(Ｘ5)間は10.5m、Ｃ(Ｘ4)－Ｃ(Ｘ5)間は10.5mである。

また、一般的に15℃の空間における音速は340m/secであり、これに基づいて算出される各演奏者間の音声遅延時間は、Ｃ(Ｘ1)－Ｃ(Ｘ2)間は4.4 msec、Ｃ(Ｘ1)－Ｃ(Ｘ3)間は33.8msec、Ｃ(Ｘ1)－Ｃ(Ｘ4)間は50.0 msec、Ｃ(Ｘ1)－Ｃ(Ｘ5)間は60.9 msec、Ｃ(Ｘ2)－Ｃ(Ｘ3)間は29.4 msec、Ｃ(Ｘ2)－Ｃ(Ｘ4)間は38.2 msec、Ｃ(Ｘ2)－Ｃ(Ｘ5)間は52.9 msec、Ｃ(Ｘ3)－Ｃ(Ｘ4)間は38.2 msec、Ｃ(Ｘ3)－Ｃ(Ｘ5)間は30.9 msec、Ｃ(Ｘ4)－Ｃ(Ｘ5)間は30.9 msecである。

遅延時間記憶部１７は、図４に示す演奏者の位置間ごとの音声遅延時間の情報のうち、少なくとも、自己のリモートセッション装置１０に対応する演奏者の位置と、他の複数のリモートセッション装置１０それぞれに対応する演奏者の位置との第１の実空間における距離に基づいて算出された、他の演奏者の位置ごとの演奏音の遅延時間を記憶する。

ＣＰＵ１８は、映像情報送信部１８１と、音声情報送信部１８２と、映像情報生成部１８３と、音声情報生成部１８４とを有する。

映像情報送信部１８１は、対応する撮像部１２で撮影された映像情報に時刻情報を付加し、通信部１６を介して他のリモートセッション装置１０に送信する。

音声情報送信部１８２は、収音部１３で収音された音声情報に時刻情報を付加し、通信部１６を介して他のリモートセッション装置１０に送信する。

映像情報生成部１８３は、他のリモートセッション装置１０から送信された映像情報を、通信部１６を介して取得し、通常モードで動作するときには、これらに付加された時刻情報に基づいて同期をとって合成した合成映像情報を生成し、表示部１４に表示させる。また映像情報生成部１８３は、映像情報のタイミングを調整する映像調整モードで動作するときには、他のリモートセッション装置１０からの各映像情報を、各映像情報の開始時刻から所定時間後のフレームから遅延時間記憶部１７に記憶されている各演奏者の位置に対応する遅延時間から算出されるフレーム数分前のフレームを出力開始フレームとして合成した合成映像情報を生成する。

音声情報生成部１８４は、他のリモートセッション装置１０から送信された音声情報を、通信部１６を介して取得し、通常モードで動作するときには、これらに付加された時刻情報に基づいて同期をとって合成した合成音声情報を生成し、音声出力部１５から出力させる。音声情報生成部１８４は、他のリモートセッション装置１０からの各音声情報に遅延時間記憶部１７に記憶されている各演奏者の位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成する。

〈一実施形態によるリモートセッションシステムの動作〉
次に、本実施形態によるリモートセッションシステム１の動作について説明する。まず、ヴァイオリン奏者Ｘ1が、リモートセッション装置１０－１の入力部１１から、リモートセッションを行うためのリモート通信を確立させる操作を行う。また、ヴァイオリン奏者Ｘ2が、リモートセッション装置１０－２の入力部１１から同様の操作を行う。また、チェロ奏者Ｘ3が、リモートセッション装置１０－３の入力部１１から同様の操作を行う。また、打楽器奏者Ｘ4が、リモートセッション装置１０－４の入力部１１から同様の操作を行う。また、コントラバス奏者Ｘ5が、リモートセッション装置１０－５の入力部１１から同様の操作を行う。これらの操作が行われると、リモートセッション装置１０－１～１０－５間で相互に通信が確立され、リモート通信が開始する。

リモート通信が開始すると、リモートセッション装置１０－１の撮像部１２は例えば解像度1920×1080ピクセル、フレームレート60fpsで撮影を開始し、映像情報送信部１８１は、撮影された映像情報Ｍ1に時刻情報を付加して他のリモートセッション装置１０－２～１０－５に送信する。リモートセッション装置１０－２の撮像部１２は撮影を開始し、映像情報送信部１８１は、撮影された映像情報Ｍ2に時刻情報を付加して他のリモートセッション装置１０－１、および１０－３～１０－５に送信する。

リモートセッション装置１０－３の撮像部１２は撮影を開始し、映像情報送信部１８１は、撮影された映像情報Ｍ3に時刻情報を付加して他のリモートセッション装置１０－１、１０－２、１０－４、および１０－５に送信する。リモートセッション装置１０－４の撮像部１２は撮影を開始し、映像情報送信部１８１は、撮影された映像情報Ｍ4に時刻情報を付加して他のリモートセッション装置１０－１～１０－３、および１０－５に送信する。リモートセッション装置１０－５の撮像部１２は撮影を開始し、映像情報送信部１８１は、撮影された映像情報Ｍ5に時刻情報を付加して他のリモートセッション装置１０－１～１０－４に送信する。

また、リモートセッション装置１０－１の収音部１３は収音を開始し、音声情報送信部１８２は、収音された音声情報Ｎ1に時刻情報を付加して他のリモートセッション装置１０－２～１０－５に送信する。リモートセッション装置１０－２の収音部１３は収音を開始し、音声情報送信部１８２は、収音された音声情報Ｎ2に時刻情報を付加して他のリモートセッション装置１０－１、および１０－３～１０－５に送信する。リモートセッション装置１０－３の収音部１３は収音を開始し、音声情報送信部１８２は、収音された音声情報Ｎ3に時刻情報を付加して他のリモートセッション装置１０－１、１０－２、１０－４、および１０－５に送信する。

リモートセッション装置１０－４の収音部１３は収音を開始し、音声情報送信部１８２は、収音された音声情報Ｎ4に時刻情報を付加して他のリモートセッション装置１０－１～１０－３、および１０－５に送信する。リモートセッション装置１０－５の収音部１３は収音を開始し、音声情報送信部１８２は、収音された音声情報Ｎ5に時刻情報を付加して他のリモートセッション装置１０－１～１０－４に送信する。

図５は、リモートセッション装置１０－１～１０－５間でリモート通信が開始した後に、各リモートセッション装置１０－１～１０－５が実行する処理の流れを示すフローチャートである。ここでは、一例として、ヴァイオリン奏者Ｘ1が聴取者として、音発生者である他の演奏者Ｘ2～Ｘ5の演奏音を聴いて演奏することでセッションを行う際に、リモートセッション装置１０－１が実行する処理について説明する。

リモートセッション装置１０－１は、リモート通信が開始した時点では通常モードで動作する。通常モードは、他のリモートセッション装置１０－２～１０－５から取得した映像情報および音声情報を、時刻情報に基づいて同期をとって合成して出力するモードである。

具体的には、リモートセッション装置１０－１の映像情報生成部１８３は、通信部１６を介して他のリモートセッション装置１０－２～１０－５から取得した映像情報Ｍ2、Ｍ3、Ｍ4、およびＭ5を時刻情報に基づいて同期をとって、映像情報Ｍ2、Ｍ3、Ｍ4、およびＭ5を水平960×垂直540ピクセルにサイズ調整した各フレームを、水平1920×垂直1080の１フレームを水平方向に２分割、垂直方向に２分割した４つの領域に配置して合成した合成映像情報Ｐ1を生成する。映像情報生成部１８３は、生成した合成映像情報Ｐ1を表示部１４から出力させる。

また、リモートセッション装置１０－１の音声情報生成部１８４は、通信部１６を介して他のリモートセッション装置１０－２～１０－５から取得した音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5を、時刻情報に基づいて同期をとって合成した合成音声情報Ｑ2を生成する。音声情報生成部１８４は、生成した合成音声情報Ｑ2を音声出力部１５から出力させる（Ｓ１）。

図６（ａ）は、通常モードで処理が開始したときに音声情報生成部１８４が生成した、合成音声情報Ｑ1内の各音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5の先頭位置を示す説明図である。音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5はそれぞれ、リモート通信が開始したタイミングである時刻t1から生成されている。音声情報生成部１８４は、通常モードでは、音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5それぞれの先頭位置を揃えて合成して合成音声情報Ｑ1を生成し、音声出力部１５から出力させる。近年、通信ネットワーク２０は低遅延化が進んでおり、音声情報生成部１８４が音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5を取得するタイミングのずれはほぼゼロとみなすことができる。

また、映像情報Ｍ2、Ｍ3、Ｍ4、およびＭ5もそれぞれ、リモート通信が開始した時刻t1から生成されている。映像情報生成部１８３は、映像情報Ｍ2、Ｍ3、Ｍ4、およびＭ5を、順次フレームごとに合成して合成映像情報Ｐ1-1、Ｐ1-2、Ｐ1-3・・・を生成する。

図６（ｂ）は、映像情報生成部１８３が、映像情報Ｍ2、Ｍ3、Ｍ4、およびＭ5それぞれの１つ目のフレームＦ1を、水平方向に２フレーム、垂直方向に２フレーム配置して合成した１フレーム目の合成映像情報Ｐ1-1の画面構成図の一例である。映像情報Ｍ2、Ｍ3、Ｍ4、およびＭ5はフレームレート60fpsで撮影されているため、時刻t1から１フレーム分に対応する16.6msecの間、合成映像情報Ｐ1-1が表示部１４に表示される。時刻t1から16.6msec後は、表示部１４に表示される情報は、図６（ｃ）に示すような、映像情報Ｍ2、Ｍ3、Ｍ4、およびＭ5の２つ目のフレームＦ2を、水平方向に２フレーム、垂直方向に２フレーム配置して合成した２フレーム目の合成映像情報Ｐ1-2に切り替わる。以降、16.6msecごとに、各映像情報Ｍ2、Ｍ3、Ｍ4、およびＭ5内の次のフレームに基づいて順次合成映像情報Ｐ1-3、Ｐ1-4、Ｐ1-5・・・が生成され、表示部１４に表示される。

合成音声情報および合成映像情報の出力中、ヴァイオリン奏者Ｘ1が、他の演奏者Ｘ2～Ｘ5とセッションを行う際に、入力部１１から、ヴァイオリン奏者Ｘ1が他の演奏者Ｘ2～Ｘ5による演奏音を聴取するタイミングを調整する音声調整モードであるセッションモードに切り替えるための操作を行う。

セッションモードに切り替えられると（Ｓ２の「YES」）、音声情報生成部１８４は、他のリモートセッション装置１０－２～１０－５から取得した音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5に、それぞれ遅延時間記憶部１７に記憶した対応する遅延時間分の無音データを加算した遅延音声情報を合成して合成音声情報Ｑ2を生成し、音声出力部１５から出力するように切り替える（Ｓ３）。

図７は、セッションモードで処理が開始したときに音声情報生成部１８４が生成した、合成音声情報Ｑ2内の各音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5の先頭位置を示す説明図である。音声情報生成部１８４は、セッションモードに切り替えられたタイミングである時刻t2以降の音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5の先頭に、対応する遅延時間分の無音データを付加して遅延音声情報を生成する。図７では、付加した無音データの部分を斜線で示す。

具体的には、音声情報生成部１８４は、時刻t2以降の音声情報Ｎ2の先頭には、4.4msec分の無音データを付加し、音声情報Ｎ3の先頭には、33.8msec分の無音データを付加し、音声情報Ｎ4の先頭には、50.0msec分の無音データを付加し、音声情報Ｎ5の先頭には、60.9msec分の無音データを付加して、それぞれ遅延音声情報を生成する。

このように生成した遅延音声情報を合成して合成音声情報Ｑ2を生成し、これを出力することで、ヴァイオリン奏者Ｘ2、チェロ奏者Ｘ3、打楽器奏者Ｘ4、およびコントラバス奏者Ｘ5の演奏音が、実空間の舞台上におけるヴァイオリン奏者Ｘ1から各演奏者までの距離に応じて遅延してリモートセッション装置１０－１から出力される。

セッションモードに切り替えられた後も、映像情報生成部１８３は通常モード実行時と同様に合成映像情報の生成処理を継続する。

その後、セッションが終了し、ヴァイオリン奏者Ｘ1が通常モードに切り替える操作を行うと（Ｓ４の「YES」）、ステップＳ１の処理に戻る。

ステップＳ４においてヴァイオリン奏者Ｘ1が通常モードに切り替える操作を行わず（Ｓ４の「NO」）、映像情報を調整する映像調整モードに切り替える操作を行うと（Ｓ５の「YES」）、撮像部１２は、撮影条件を解像度960×540ピクセル、フレームレート240fpsに切り替える。これにより撮像部１２は、映像調整モードに切り替えられたタイミングである時刻t3から１フレーム当たり4.15msecで撮影を実行し、順次フレームＧ1、Ｇ2、Ｇ3・・・を生成する。

リモートセッション装置１０－１で映像調整モードに切り替えられたことを示す情報は、他のリモートセッション装置１０－２～１０－５に送信され、他のリモートセッション装置１０－２～１０－５の撮像部１２においても、撮影条件が解像度960×540ピクセル、フレームレート240fpsに切り替えられる。

映像調整モードに切り替えられると、音声情報生成部１８４は、遅延時間記憶部１７に記憶した情報に基づいて、音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5に対応する音声遅延時間の中の最長値を特定する。ここでは音声情報生成部１８４は、音声情報Ｎ5に対応する位置Ｃ(Ｘ1)－Ｃ(Ｘ5)間の音声遅延時間「60.9msec」を最長値として特定する。

次に、音声情報生成部１８４は、時刻t3以降の音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5の先頭に、特定した音声遅延時間「60.9msec」よりも大きい値の無音データを付加し、これを合成して合成音声情報Ｑ3を生成する。

図８（ａ）は、映像調整モードで処理が開始したときに音声情報生成部１８４が生成した、合成音声情報Ｑ3内の各音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5の先頭位置を示す説明図である。ここでは音声情報生成部１８４は、音声遅延時間「60.9msec」よりも大きく、フレームレート240fpsによる撮影タイミングの１つであるフレームＧ16の撮影タイミングに対応する62.5msec分の無音データを付加している。

また映像調整モードに切り替えられると、映像情報生成部１８３が、音声情報Ｎ2、Ｎ3、Ｎ4、およびＮ5の先頭位置としたフレームＧ16の撮影タイミングを基点として、時刻t3以降の映像情報Ｍ2、Ｍ3、Ｍ4それぞれに関する出力開始フレームを特定する（Ｓ６）。

ここでは映像情報生成部１８３は、まず映像情報Ｍ2に関して、遅延時間記憶部１７に記憶した情報に基づいて、対応するヴァイオリン奏者Ｘ1とＸ2との位置に関する音声遅延時間4.4msecを特定する。そして映像情報生成部１８３は、この音声遅延時間4.4msecに対応するフレーム数を算出する。このとき、映像情報Ｍ2はフレームレート240fpsで撮影されているため、4.4msecに対応するフレーム数は0.4であり、映像情報生成部１８３は、この0.4の小数第1位を四捨五入して、音声遅延時間に対応するフレーム数「0」を算出する。

そして映像情報生成部１８３は、フレームＧ16の撮影タイミングから、音声遅延時間に対応するフレーム数「0」分、前のフレームを、映像情報Ｍ2の出力開始フレームとして特定する。つまり、映像情報生成部１８３は、フレームＧ16を映像情報Ｍ2の出力開始フレームとして特定する。

同様にして、映像情報生成部１８３は、映像情報Ｍ3に関する音声遅延時間に対応するフレーム数「3」を算出する。映像情報生成部１８３は、フレームＧ16の撮影タイミングから3フレーム前のフレームＧ13を、映像情報Ｍ3の出力開始フレームとして特定する。

同様にして、映像情報生成部１８３は、映像情報Ｍ4に関する音声遅延時間に対応するフレーム数「12」を算出する。映像情報生成部１８３は、フレームＧ16の撮影タイミングから12フレーム前のフレームＧ4を、映像情報Ｍ4の出力開始フレームとして特定する。

同様にして、映像情報生成部１８３は、映像情報Ｍ5に関する音声遅延時間に対応するフレーム数「15」を算出する。映像情報生成部１８３は、フレームＧ16の撮影タイミングから15フレーム前のフレームＧ1を、映像情報Ｍ5の出力開始フレームとして特定する。

映像情報生成部１８３は、映像情報Ｍ2、Ｍ3、Ｍ4それぞれについて特定したフレームを合成して、映像調整モードへの切り替え後１フレーム目の合成映像情報Ｐ2-1を生成する。図８（ｂ）は、映像調整モードで処理が開始したときに映像情報生成部１８３が生成した合成映像情報Ｐ2-1の画面構成図の一例である。

映像情報生成部１８３がフレームレート60fpsで合成映像情報を生成する場合、次に生成する２フレーム目の合成映像情報Ｐ2-2は、図８（ｃ）に示すように、映像情報Ｍ2のフレームＧ20、映像情報Ｍ3のフレームＧ17、映像情報Ｍ4のフレームＧ8、映像情報Ｍ5のフレームＧ5を合成して生成される。以降、同様にして、映像情報生成部１８３は合成映像情報Ｐ2-3、合成映像情報Ｐ2-4・・・を生成し、出力させる。

その後、ヴァイオリン奏者Ｘ1が通常モードに切り替える操作を行うと（Ｓ８の「YES」）、ステップＳ１の処理に戻る。また、ヴァイオリン奏者Ｘ1が再度セッションモードに切り替える操作を行うと（Ｓ８の「NO」→Ｓ９の「YES」）、ステップＳ３の処理に戻る。

また、ステップＳ２において、通常モードで処理が行われているときにヴァイオリン奏者Ｘ1が映像調整モードに切り替える操作を行ったときには（Ｓ２の「NO」→Ｓ１０の「YES」）、ステップＳ６の処理に移行する。

同様にして、ヴァイオリン奏者Ｘ2の操作に基づいてリモートセッション装置１０－２が動作し、チェロ奏者Ｘ3の操作に基づいてリモートセッション装置１０－３が動作し、打楽器奏者Ｘ4の操作に基づいてリモートセッション装置１０－４が動作し、コントラバス奏者Ｘ5の操作に基づいてリモートセッション装置１０－５が動作する。そして、ヴァイオリン奏者Ｘ2、チェロ奏者Ｘ3、打楽器奏者Ｘ4、およびコントラバス奏者Ｘ5が、それぞれリモートセッション装置１０－２～１０－５でセッションモードへの切り替え操作、または映像調整モードへの切り替え操作を行ったときにも、上述した処理と同様の処理が実行される。

以上の実施形態によれば、オーケストラの楽団員である演奏者がリモート通信を用いてセッションを行う場合に、各演奏者は、実空間の舞台上の所定位置で演奏したときに近い状態で、他の演奏者の演奏音声を視聴しながら演奏することができる。

上述した実施形態においては、演奏者同士でリモートセッション装置を利用してリモートセッションを行う場合について説明したが、指揮者等の演奏しない聴取者が、リモートセッション装置を利用して複数の演奏者の演奏音をリモートで視聴してもよい。

上述したリモートセッション装置１０のＣＰＵ１８が有する機能を再生プログラムとしてプログラム化してコンピュータに搭載することにより、当該コンピュータをリモートセッション装置として機能させることも可能である。再生プログラムは非一時的な記憶媒体に記憶され、ＣＰＵ１８は再生プログラムを実行する。

１リモートセッションシステム
１０，１０－１～１０－５リモートセッション装置
１１入力部
１２撮像部
１３収音部
１４表示部
１５音声出力部
１６通信部
１７遅延時間記憶部
２０通信ネットワーク
１８１映像情報送信部
１８２音声情報送信部
１８３映像情報生成部
１８４音声情報生成部

Claims

第１の実空間における第１の位置に位置すべき聴取者が所持する第１の装置と、ｎを３以上の整数として、前記第１の実空間における前記第１の位置から離れた第２～第ｎの位置に位置すべき第１～第（ｎ－１）の音発生者が所持する第２～第ｎの装置とが、それぞれ前記第１の実空間とは異なる第２～第（ｎ＋１）の実空間において通信ネットワークを介して接続されている状態における前記第１の装置に搭載されている再生装置であり、
前記第２～第ｎの位置から発せられた音が前記第１の位置に到達するまでの前記第２～第ｎの位置に対応する音の遅延時間を記憶する遅延時間記憶部と、
前記第１～第（ｎ－１）の音発生者がそれぞれ前記第３～第（ｎ＋１）の実空間で発生させて前記第２～第ｎの装置が前記通信ネットワークを介して前記第１の装置に送信した音声情報を取得し、前記第２～第ｎの装置からの各音声情報に前記遅延時間記憶部に記憶されている前記第２～第ｎの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成する音声情報生成部と、
を備える再生装置。
前記第２～第ｎの装置は、前記第１の装置に送信する音声情報に時刻情報を付加し、
前記音声情報生成部は、
通常モードで動作するときには、前記第２～第ｎの装置から取得した音声情報を、付加されている時刻情報に基づいて同期をとって合成した合成音声情報を生成し、
前記聴取者が前記第２～第ｎの装置から取得した音声情報を聴取するタイミングを調整する音声調整モードで動作するときには、前記第２～第ｎの装置からの各音声情報に前記遅延時間記憶部に記憶されている前記第２～第ｎの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成する、
請求項１に記載の再生装置。
前記第２～第ｎの装置が前記通信ネットワークを介して前記第１の装置に送信した、時刻情報が付加された映像情報を取得し、通常モードで動作するときには、前記第２～第ｎの装置から取得した映像情報を、付加されている時刻情報に基づいて同期をとって合成した合成映像情報を生成し、映像情報のタイミングを調整する映像調整モードで動作するときには、前記第２～第ｎの装置からの各映像情報を、前記各映像情報の開始時刻から所定時間後のフレームから前記遅延時間記憶部に記憶されている前記第２～第ｎの位置に対応する遅延時間から算出されるフレーム数分前のフレームを出力開始フレームとして合成した合成映像情報を生成する映像情報生成部をさらに備える、請求項１または２に記載の再生装置。
第１の実空間における第１の位置に位置すべき聴取者が所持する第１の装置と、ｎを３以上の整数として、前記第１の実空間における前記第１の位置から離れた第２～第ｎの位置に位置すべき第１～第（ｎ－１）の音発生者が所持する第２～第ｎの装置とが、前記第１の実空間とは異なる第２～第ｎの実空間において通信ネットワークを介して接続されている状態における前記第１の装置に搭載されている再生装置が、
前記第２～第ｎの位置から発せられた音が前記第１の位置に到達するまでの前記第２～第ｎの位置に対応する音の遅延時間を記憶し、
前記第１～第（ｎ－１）の音発生者が前記第３～第（ｎ＋１）の実空間で発生させて前記第２～第ｎの装置が前記通信ネットワークを介して前記第１の装置に送信した音声情報を取得し、前記第２～第ｎの装置からの各音声情報に、記憶した前記第２～第ｎの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成して再生する、
再生方法。
第１の実空間における第１の位置に位置すべき聴取者が所持する第１の装置と、ｎを３以上の整数として、前記第１の実空間における前記第１の位置から離れた第２～第ｎの位置に位置すべき第１～第（ｎ－１）の音発生者が所持する第２～第ｎの装置とが、前記第１の実空間とは異なる第２～第ｎの実空間において通信ネットワークを介して接続されている状態における前記第１の装置に搭載されているコンピュータに、
前記第１～第（ｎ－１）の音発生者が前記第３～第（ｎ＋１）の実空間で発生させて前記第２～第ｎの装置が前記通信ネットワークを介して前記第１の装置に送信した音声情報を取得するステップと、
取得した前記第２～第ｎの装置からの各音声情報に、それぞれ、前記第２～第ｎの位置から発せられた音が前記第１の位置に到達するまでの前記第２～第ｎの位置に対応する音の遅延時間を加算した遅延音声情報を生成するステップと、
前記遅延音声情報を合成した合成音声情報を生成するステップと、
を実行させる再生プログラム。