JP2024001600A - 再生装置、再生方法、および再生プログラム - Google Patents

再生装置、再生方法、および再生プログラム Download PDF

Info

Publication number
JP2024001600A
JP2024001600A JP2022100355A JP2022100355A JP2024001600A JP 2024001600 A JP2024001600 A JP 2024001600A JP 2022100355 A JP2022100355 A JP 2022100355A JP 2022100355 A JP2022100355 A JP 2022100355A JP 2024001600 A JP2024001600 A JP 2024001600A
Authority
JP
Japan
Prior art keywords
nth
information
audio information
real space
devices
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022100355A
Other languages
English (en)
Inventor
貴之 荒瀬
Takayuki Arase
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JVCKenwood Corp
Original Assignee
JVCKenwood Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JVCKenwood Corp filed Critical JVCKenwood Corp
Priority to JP2022100355A priority Critical patent/JP2024001600A/ja
Publication of JP2024001600A publication Critical patent/JP2024001600A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Stereophonic System (AREA)
  • Reverberation, Karaoke And Other Acoustics (AREA)

Abstract

【課題】聴取者と音発生者とが位置する第1の実空間とは異なる実空間で音発生者が発した音を聴取者がリモートで聴くときに、違和感の少ない音を再生することができる再生装置を提供する。【解決手段】第1~第nの装置はそれぞれ第2~第(n+1)の実空間において通信ネットワークを介して接続されている。第1の装置に搭載されている再生装置は、遅延時間記憶部17と音声情報生成部184を備える。遅延時間記憶部17は、第2~第nの位置から発せられた音が第1の位置に到達するまでの第2~第nの位置に対応する音の遅延時間を記憶する。音声情報生成部184は、第1~第(n-1)の音発生者がそれぞれ第3~第(n+1)の実空間で発生させて第2~第nの装置が第1の装置に送信した音声情報を取得し、第2~第nの装置からの各音声情報に第2~第nの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成する。【選択図】図2

Description

本発明は、再生装置、再生方法、および再生プログラムに関する。
近年、通信ネットワークを介して複数の端末を相互に通信接続させて、各端末で他の複数の端末から送信された映像信号および音声情報を同時に再生させる技術が開発されている(特許文献1)。この技術を用いれば、互いに異なる場所にいる複数人がリモートで楽器のセッションを行うことができる。
リモートで楽器のセッションを行う際には、各楽器の演奏者が所持する装置を用いて各演奏者の演奏音を収音し、その音声情報を、通信ネットワークを介して他の演奏者が所持する再生装置に送信する。各演奏者は、所持する再生装置で取得された他の演奏者の演奏音を出力させ、出力された演奏音に合わせて楽器を演奏することで、リモートでセッションを行うことができる。
特開2014-48504号公報
このようなリモートによるセッションを3人以上の演奏者間で行う場合には、各演奏者の再生装置では、他の複数の演奏者の装置から取得した演奏音を、これに付加されている時刻情報に基づいて同期をとって再生させる。演奏音をこのように再生させると、実空間において自分以外の複数の演奏者がすべて自分から同じ距離の位置にいるときと同じように、各演奏者の演奏音が出力される。
一方で、オーケストラは、実空間において複数の演奏者が広い舞台上の様々な位置に配置されて演奏するため、各演奏者に聴こえる他の演奏者の演奏音のタイミングは、演奏者間の距離によって異なる。例えば、ヴァイオリン奏者と第2ヴァイオリン奏者との距離は近く、1~2m程度であるが、ヴァイオリン奏者とコントラバス奏者との距離は遠く、20m程度である。そのため、第2ヴァイオリン奏者とコントラバス奏者が同じタイミングで音を発しても、ヴァイオリン奏者には、コントラバスの音の方が遅いタイミングで聴こえる。
上述したようなリモートによるセッションでオーケストラの練習を行おうとすると、各演奏者の再生装置では、複数の他の演奏者の演奏音が同じタイミングで出力されてしまう。よって、各演奏者は、実空間の広い舞台で演奏したときに他の演奏者の演奏音を聴くタイミングとは異なるタイミングで他の演奏者の演奏音を聴くことになり、違和感を覚えることがあるという問題があった。
本発明は、聴取者と音発生者とが位置する第1の実空間とは異なる実空間で音発生者が発した音を聴取者がリモートで聴くときに、第1の実空間にいる場合と比べて違和感の少ない音を再生することができる再生装置、再生方法、および再生プログラムを提供することを目的とする。
上記目的を達成するための本発明の再生装置は、第1の実空間における第1の位置に位置すべき聴取者が所持する第1の装置と、nを3以上の整数として、前記第1の実空間における前記第1の位置から離れた第2~第nの位置に位置すべき第1~第(n-1)の音発生者が所持する第2~第nの装置とが、前記第1の実空間とは異なる第2~第(n+1)の実空間において通信ネットワークを介して接続されている状態における前記第1の装置に搭載されている再生装置であり、前記第2~第nの位置から発せられた音が前記第1の位置に到達するまでの前記第2~第nの位置に対応する音の遅延時間を記憶する遅延時間記憶部と、前記第1~第(n-1)の音発生者がそれぞれ前記第3~第(n+1)の実空間で発生させて前記第2~第nの装置が前記通信ネットワークを介して前記第1の装置に送信した音声情報を取得し、前記第2~第nの装置からの各音声情報に前記遅延時間記憶部に記憶されている前記第2~第nの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成する音声情報生成部と、を備える。
また、本発明の再生方法は、第1の実空間における第1の位置に位置すべき聴取者が所持する第1の装置と、nを3以上の整数として、前記第1の実空間における前記第1の位置から離れた第2~第nの位置に位置すべき第1~第(n-1)の音発生者が所持する第2~第nの装置とが、前記第1の実空間とは異なる第2~第nの実空間において通信ネットワークを介して接続されている状態における前記第1の装置に搭載されている再生装置が、前記第2~第nの位置から発せられた音が前記第1の位置に到達するまでの前記第2~第nの位置に対応する音の遅延時間を記憶し、前記第1~第(n-1)の音発生者が前記第3~第(n+1)の実空間で発生させて前記第2~第nの装置が前記通信ネットワークを介して前記第1の装置に送信した音声情報を取得し、前記第2~第nの装置からの各音声情報に、記憶した前記第2~第nの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成して再生する。
また、本発明の再生プログラムは、第1の実空間における第1の位置に位置すべき聴取者が所持する第1の装置と、nを3以上の整数として、前記第1の実空間における前記第1の位置から離れた第2~第nの位置に位置すべき第1~第(n-1)の音発生者が所持する第2~第nの装置とが、前記第1の実空間とは異なる第2~第nの実空間において通信ネットワークを介して接続されている状態における前記第1の装置に搭載されているコンピュータに、前記第1~第(n-1)の音発生者が前記第3~第(n+1)の実空間で発生させて前記第2~第nの装置が前記通信ネットワークを介して前記第1の装置に送信した音声情報を取得するステップと、取得した前記第2~第nの装置からの各音声情報に、それぞれ、前記第2~第nの位置から発せられた音が前記第1の位置に到達するまでの前記第2~第nの位置に対応する音の遅延時間を加算した遅延音声情報を生成するステップと、前記遅延音声情報を合成した合成音声情報を生成するステップと、を実行させる。
本発明の再生装置、再生方法、および再生プログラムによれば、聴取者と音発生者とが位置する第1の実空間とは異なる実空間で音発生者が発した音を聴取者がリモートで聴くときに、第1の実空間にいる場合と比べて違和感の少ない音を再生することができる。
本発明の一実施形態による再生装置としてのリモートセッション装置を利用したリモートセッションシステムの構成例を示す全体図である。 本発明の一実施形態による再生装置としてのリモートセッション装置の構成例を示すブロック図である。 本発明の一実施形態による再生装置としてのリモートセッション装置を利用する演奏者が、実空間の舞台上で演奏するときの位置を示す説明図である。 図3に示した各演奏者の位置間の距離と、対応する音声遅延時間を示す表である。 本発明の一実施形態による再生装置としてのリモートセッション装置が実行する処理の流れを示すフローチャートである。 (a)は、本発明の一実施形態による再生装置としてのリモートセッション装置が、通常モードで処理が開始したときに生成した合成音声情報に含まれる、複数の音声情報の先頭位置を示す説明図であり、(b)は、通常モードで処理が開始したときに生成した1フレーム目の合成映像情報を示す画面構成図であり、(c)は、2フレーム目の合成映像情報を示す画面構成図である。 本発明の一実施形態による再生装置としてのリモートセッション装置が、セッションモードで処理が開始したときに生成した合成音声情報に含まれる、複数の音声情報の先頭位置を示す説明図である。 (a)は、本発明の一実施形態による再生装置としてのリモートセッション装置が、映像調整モードで処理が開始したときに生成した合成音声情報に含まれる、複数の音声情報の先頭位置を示す説明図であり、(b)は、映像調整モードで処理が開始したときに生成した1フレーム目の合成映像情報を示す画面構成図であり、(c)は、2フレーム目の合成映像情報を示す画面構成図である。
以下に、本発明の実施形態による再生装置としての機能を搭載するリモートセッション装置を用いたリモートセッションシステムの構成、リモートセッション情報の再生方法、および再生プログラムについて、図面を参照して説明する。
本実施形態では、オーケストラの楽団員の中のヴァイオリン奏者X1およびX2、チェロ奏者X3、打楽器奏者X4、およびコントラバス奏者X5の5人の演奏者が、それぞれ所持するリモートセッション装置を用いてリモートセッションを行う場合について説明する。
〈一実施形態によるリモートセッションシステムの構成〉
図1は、本発明の一実施形態によるリモートセッションシステム1の構成例を示す全体図である。リモートセッションシステム1は、リモートセッション装置10-1~10-5が、通信ネットワーク20を介して接続されて構成されている。図1では、5台のリモートセッション装置が通信ネットワーク20を介して接続されている場合を示しているが、これには限定されず、通信ネットワーク20を介して接続されるリモートセッション装置の台数は3台以上であれば何台でもよい。
リモートセッション装置10-1は、第1ヴァイオリンのヴァイオリン奏者X1が所持する。リモートセッション装置10-2は、同じく第1ヴァイオリンの他のヴァイオリン奏者X2が所持する。リモートセッション装置10-3は、チェロ奏者X3が所持する。リモートセッション装置10-4は、打楽器奏者X4が所持する。リモートセッション装置10-5は、コントラバス奏者X5が所持する。これらのリモートセッション装置10-1~10-5は、汎用のパーソナルコンピュータ(PC)で構成してもよい。
ヴァイオリン奏者X1およびX2、チェロ奏者X3、打楽器奏者X4、コントラバス奏者X5を含むオーケストラが実際に各楽器を演奏する舞台を第1の実空間とする。例えばヴァイオリン奏者X1を基準とすれば、ヴァイオリン奏者X1は第1の実空間の第1の位置に位置しており、ヴァイオリン奏者X2、チェロ奏者X3、打楽器奏者X4、コントラバス奏者X5は第1の実空間における第1の位置から離れた第2~第5の位置に位置している。このとき、ヴァイオリン奏者X1は、ヴァイオリン奏者X2、チェロ奏者X3、打楽器奏者X4、コントラバス奏者X5が演奏する各演奏音を聴取する聴取者であり、ヴァイオリン奏者X2、チェロ奏者X3、打楽器奏者X4、コントラバス奏者X5は音発生者である。
ヴァイオリン奏者X1およびX2、チェロ奏者X3、打楽器奏者X4、コントラバス奏者X5が図1に示すリモートセッションシステム1を用いてリモートセッションを行う場合、各演奏者は各演奏者の自宅または練習場所に位置している。すなわち、ヴァイオリン奏者X1およびX2、チェロ奏者X3、打楽器奏者X4、コントラバス奏者X5は、それぞれ第1の実空間とは異なる第2の実空間、第3の実空間、第4の実空間、第5の実空間、第6の実空間に位置している。このときのヴァイオリン奏者X1およびX2、チェロ奏者X3、打楽器奏者X4、コントラバス奏者X5の互いの位置関係は、第1の実空間における第1~第5の位置とは無関係である。
このように、リモートセッションシステム1におけるリモートセッション装置10-1~10-5は、第1の実空間における第1の位置に位置すべき聴取者が所持するリモートセッション装置(第1の装置)と、第1の実空間における第1の位置から離れた第2~第nの位置に位置すべき第1~第(n-1)の音発生者が所持する第2~第nのリモートセッション装置(第2~第nの装置)とを含む。nは3以上の整数であり、図1に示す例ではnは5である。ヴァイオリン奏者X2、チェロ奏者X3、打楽器奏者X4、またはコントラバス奏者X5を基準とした場合も同様であり、基準とした演奏者は他の演奏者の演奏音を聴取する聴取者であり、他の演奏者は音発生者である。
リモートセッション装置10-1~10-5は、同一の構成を有する。リモートセッション装置10-1~10-5のうちのいずれかを特定しない任意のリモートセッション装置をリモートセッション装置10と称することとする。
図2は、リモートセッション装置10の構成例を示すブロック図である。リモートセッション装置10は、入力部11と、撮像部12と、収音部13と、表示部14と、音声出力部15と、通信部16と、遅延時間記憶部17と、CPU18とを有する。
入力部11は、演奏者等による操作情報を入力する。撮像部12はそれぞれ、対応する演奏者を撮影する。具体的には、リモートセッション装置10-1の撮像部12はヴァイオリン奏者X1を撮影し、リモートセッション装置10-2の撮像部12はヴァイオリン奏者X2を撮影する。リモートセッション装置10-3の撮像部12はチェロ奏者X3を撮影し、リモートセッション装置10-4の撮像部12は打楽器奏者X4を撮影し、リモートセッション装置10-5の撮像部12はコントラバス奏者X5を撮影する。
収音部13はマイクロホンであり、対応する演奏者の楽器が発する音を収音する。具体的には、リモートセッション装置10-1の収音部13はヴァイオリン奏者X1のヴァイオリンが発する音を収音し、リモートセッション装置10-2の収音部13はヴァイオリン奏者X2のヴァイオリンが発する音を収音する。リモートセッション装置10-3の収音部13はチェロ奏者X3のチェロが発する演奏音を収音し、リモートセッション装置10-4の収音部13は打楽器奏者X4の打楽器が発する音を収音する。リモートセッション装置10-5の収音部13はコントラバス奏者X5のコントラバスが発する音を収音する。
表示部14は例えば液晶パネルであり、後述するようにCPU18で生成される合成映像情報を表示する。音声出力部15はスピーカであり、後述するようにCPU18で生成される合成音声情報を出力する。通信部16は、他のリモートセッション装置10の通信部16と互いに通信する。
遅延時間記憶部17は、第1の実空間における各演奏者X1~X5に関し、他の演奏者の位置から発せられた演奏音が自分自身に到達するまでの他の演奏者の演奏音の遅延時間を記憶する。
第1の実空間における各演奏者の位置間の距離について説明する。図3は、オーケストラが第1の実空間である舞台上で演奏するときの楽器の種類ごとの配置位置を示す図であり、C(X1)はヴァイオリン奏者X1の位置を示し、C(X2)はヴァイオリン奏者X2の位置を示し、C(X3)はチェロ奏者X3の位置を示し、C(X4)は打楽器奏者X4の位置を示し、C(X5)はコントラバス奏者X5の位置を示す。各演奏者同士は、それぞれ所定距離離れて配置される。
図4は、図3に示す各演奏者の位置間の距離と、対応する音声遅延時間を示す表である。各演奏者間の距離は、C(X1)-C(X2)間は1.5m、C(X1)-C(X3)間は11.5m、C(X1)-C(X4)間は17.0m、C(X1)-C(X5)間は20.7m、C(X2)-C(X3)間は10.0m、C(X2)-C(X4)間は16.3m、C(X2)-C(X5)間は18.0m、C(X3)-C(X4)間は13.0m、C(X3)-C(X5)間は10.5m、C(X4)-C(X5)間は10.5mである。
また、一般的に15℃の空間における音速は340m/secであり、これに基づいて算出される各演奏者間の音声遅延時間は、C(X1)-C(X2)間は4.4 msec、C(X1)-C(X3)間は33.8msec、C(X1)-C(X4)間は50.0 msec、C(X1)-C(X5)間は60.9 msec、C(X2)-C(X3)間は29.4 msec、C(X2)-C(X4)間は38.2 msec、C(X2)-C(X5)間は52.9 msec、C(X3)-C(X4)間は38.2 msec、C(X3)-C(X5)間は30.9 msec、C(X4)-C(X5)間は30.9 msecである。
遅延時間記憶部17は、図4に示す演奏者の位置間ごとの音声遅延時間の情報のうち、少なくとも、自己のリモートセッション装置10に対応する演奏者の位置と、他の複数のリモートセッション装置10それぞれに対応する演奏者の位置との第1の実空間における距離に基づいて算出された、他の演奏者の位置ごとの演奏音の遅延時間を記憶する。
CPU18は、映像情報送信部181と、音声情報送信部182と、映像情報生成部183と、音声情報生成部184とを有する。
映像情報送信部181は、対応する撮像部12で撮影された映像情報に時刻情報を付加し、通信部16を介して他のリモートセッション装置10に送信する。
音声情報送信部182は、収音部13で収音された音声情報に時刻情報を付加し、通信部16を介して他のリモートセッション装置10に送信する。
映像情報生成部183は、他のリモートセッション装置10から送信された映像情報を、通信部16を介して取得し、通常モードで動作するときには、これらに付加された時刻情報に基づいて同期をとって合成した合成映像情報を生成し、表示部14に表示させる。また映像情報生成部183は、映像情報のタイミングを調整する映像調整モードで動作するときには、他のリモートセッション装置10からの各映像情報を、各映像情報の開始時刻から所定時間後のフレームから遅延時間記憶部17に記憶されている各演奏者の位置に対応する遅延時間から算出されるフレーム数分前のフレームを出力開始フレームとして合成した合成映像情報を生成する。
音声情報生成部184は、他のリモートセッション装置10から送信された音声情報を、通信部16を介して取得し、通常モードで動作するときには、これらに付加された時刻情報に基づいて同期をとって合成した合成音声情報を生成し、音声出力部15から出力させる。音声情報生成部184は、他のリモートセッション装置10からの各音声情報に遅延時間記憶部17に記憶されている各演奏者の位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成する。
〈一実施形態によるリモートセッションシステムの動作〉
次に、本実施形態によるリモートセッションシステム1の動作について説明する。まず、ヴァイオリン奏者X1が、リモートセッション装置10-1の入力部11から、リモートセッションを行うためのリモート通信を確立させる操作を行う。また、ヴァイオリン奏者X2が、リモートセッション装置10-2の入力部11から同様の操作を行う。また、チェロ奏者X3が、リモートセッション装置10-3の入力部11から同様の操作を行う。また、打楽器奏者X4が、リモートセッション装置10-4の入力部11から同様の操作を行う。また、コントラバス奏者X5が、リモートセッション装置10-5の入力部11から同様の操作を行う。これらの操作が行われると、リモートセッション装置10-1~10-5間で相互に通信が確立され、リモート通信が開始する。
リモート通信が開始すると、リモートセッション装置10-1の撮像部12は例えば解像度1920×1080ピクセル、フレームレート60fpsで撮影を開始し、映像情報送信部181は、撮影された映像情報M1に時刻情報を付加して他のリモートセッション装置10-2~10-5に送信する。リモートセッション装置10-2の撮像部12は撮影を開始し、映像情報送信部181は、撮影された映像情報M2に時刻情報を付加して他のリモートセッション装置10-1、および10-3~10-5に送信する。
リモートセッション装置10-3の撮像部12は撮影を開始し、映像情報送信部181は、撮影された映像情報M3に時刻情報を付加して他のリモートセッション装置10-1、10-2、10-4、および10-5に送信する。リモートセッション装置10-4の撮像部12は撮影を開始し、映像情報送信部181は、撮影された映像情報M4に時刻情報を付加して他のリモートセッション装置10-1~10-3、および10-5に送信する。リモートセッション装置10-5の撮像部12は撮影を開始し、映像情報送信部181は、撮影された映像情報M5に時刻情報を付加して他のリモートセッション装置10-1~10-4に送信する。
また、リモートセッション装置10-1の収音部13は収音を開始し、音声情報送信部182は、収音された音声情報N1に時刻情報を付加して他のリモートセッション装置10-2~10-5に送信する。リモートセッション装置10-2の収音部13は収音を開始し、音声情報送信部182は、収音された音声情報N2に時刻情報を付加して他のリモートセッション装置10-1、および10-3~10-5に送信する。リモートセッション装置10-3の収音部13は収音を開始し、音声情報送信部182は、収音された音声情報N3に時刻情報を付加して他のリモートセッション装置10-1、10-2、10-4、および10-5に送信する。
リモートセッション装置10-4の収音部13は収音を開始し、音声情報送信部182は、収音された音声情報N4に時刻情報を付加して他のリモートセッション装置10-1~10-3、および10-5に送信する。リモートセッション装置10-5の収音部13は収音を開始し、音声情報送信部182は、収音された音声情報N5に時刻情報を付加して他のリモートセッション装置10-1~10-4に送信する。
図5は、リモートセッション装置10-1~10-5間でリモート通信が開始した後に、各リモートセッション装置10-1~10-5が実行する処理の流れを示すフローチャートである。ここでは、一例として、ヴァイオリン奏者X1が聴取者として、音発生者である他の演奏者X2~X5の演奏音を聴いて演奏することでセッションを行う際に、リモートセッション装置10-1が実行する処理について説明する。
リモートセッション装置10-1は、リモート通信が開始した時点では通常モードで動作する。通常モードは、他のリモートセッション装置10-2~10-5から取得した映像情報および音声情報を、時刻情報に基づいて同期をとって合成して出力するモードである。
具体的には、リモートセッション装置10-1の映像情報生成部183は、通信部16を介して他のリモートセッション装置10-2~10-5から取得した映像情報M2、M3、M4、およびM5を時刻情報に基づいて同期をとって、映像情報M2、M3、M4、およびM5を水平960×垂直540ピクセルにサイズ調整した各フレームを、水平1920×垂直1080の1フレームを水平方向に2分割、垂直方向に2分割した4つの領域に配置して合成した合成映像情報P1を生成する。映像情報生成部183は、生成した合成映像情報P1を表示部14から出力させる。
また、リモートセッション装置10-1の音声情報生成部184は、通信部16を介して他のリモートセッション装置10-2~10-5から取得した音声情報N2、N3、N4、およびN5を、時刻情報に基づいて同期をとって合成した合成音声情報Q2を生成する。音声情報生成部184は、生成した合成音声情報Q2を音声出力部15から出力させる(S1)。
図6(a)は、通常モードで処理が開始したときに音声情報生成部184が生成した、合成音声情報Q1内の各音声情報N2、N3、N4、およびN5の先頭位置を示す説明図である。音声情報N2、N3、N4、およびN5はそれぞれ、リモート通信が開始したタイミングである時刻t1から生成されている。音声情報生成部184は、通常モードでは、音声情報N2、N3、N4、およびN5それぞれの先頭位置を揃えて合成して合成音声情報Q1を生成し、音声出力部15から出力させる。近年、通信ネットワーク20は低遅延化が進んでおり、音声情報生成部184が音声情報N2、N3、N4、およびN5を取得するタイミングのずれはほぼゼロとみなすことができる。
また、映像情報M2、M3、M4、およびM5もそれぞれ、リモート通信が開始した時刻t1から生成されている。映像情報生成部183は、映像情報M2、M3、M4、およびM5を、順次フレームごとに合成して合成映像情報P1-1、P1-2、P1-3・・・を生成する。
図6(b)は、映像情報生成部183が、映像情報M2、M3、M4、およびM5それぞれの1つ目のフレームF1を、水平方向に2フレーム、垂直方向に2フレーム配置して合成した1フレーム目の合成映像情報P1-1の画面構成図の一例である。映像情報M2、M3、M4、およびM5はフレームレート60fpsで撮影されているため、時刻t1から1フレーム分に対応する16.6msecの間、合成映像情報P1-1が表示部14に表示される。時刻t1から16.6msec後は、表示部14に表示される情報は、図6(c)に示すような、映像情報M2、M3、M4、およびM5の2つ目のフレームF2を、水平方向に2フレーム、垂直方向に2フレーム配置して合成した2フレーム目の合成映像情報P1-2に切り替わる。以降、16.6msecごとに、各映像情報M2、M3、M4、およびM5内の次のフレームに基づいて順次合成映像情報P1-3、P1-4、P1-5・・・が生成され、表示部14に表示される。
合成音声情報および合成映像情報の出力中、ヴァイオリン奏者X1が、他の演奏者X2~X5とセッションを行う際に、入力部11から、ヴァイオリン奏者X1が他の演奏者X2~X5による演奏音を聴取するタイミングを調整する音声調整モードであるセッションモードに切り替えるための操作を行う。
セッションモードに切り替えられると(S2の「YES」)、音声情報生成部184は、他のリモートセッション装置10-2~10-5から取得した音声情報N2、N3、N4、およびN5に、それぞれ遅延時間記憶部17に記憶した対応する遅延時間分の無音データを加算した遅延音声情報を合成して合成音声情報Q2を生成し、音声出力部15から出力するように切り替える(S3)。
図7は、セッションモードで処理が開始したときに音声情報生成部184が生成した、合成音声情報Q2内の各音声情報N2、N3、N4、およびN5の先頭位置を示す説明図である。音声情報生成部184は、セッションモードに切り替えられたタイミングである時刻t2以降の音声情報N2、N3、N4、およびN5の先頭に、対応する遅延時間分の無音データを付加して遅延音声情報を生成する。図7では、付加した無音データの部分を斜線で示す。
具体的には、音声情報生成部184は、時刻t2以降の音声情報N2の先頭には、4.4msec分の無音データを付加し、音声情報N3の先頭には、33.8msec分の無音データを付加し、音声情報N4の先頭には、50.0msec分の無音データを付加し、音声情報N5の先頭には、60.9msec分の無音データを付加して、それぞれ遅延音声情報を生成する。
このように生成した遅延音声情報を合成して合成音声情報Q2を生成し、これを出力することで、ヴァイオリン奏者X2、チェロ奏者X3、打楽器奏者X4、およびコントラバス奏者X5の演奏音が、実空間の舞台上におけるヴァイオリン奏者X1から各演奏者までの距離に応じて遅延してリモートセッション装置10-1から出力される。
セッションモードに切り替えられた後も、映像情報生成部183は通常モード実行時と同様に合成映像情報の生成処理を継続する。
その後、セッションが終了し、ヴァイオリン奏者X1が通常モードに切り替える操作を行うと(S4の「YES」)、ステップS1の処理に戻る。
ステップS4においてヴァイオリン奏者X1が通常モードに切り替える操作を行わず(S4の「NO」)、映像情報を調整する映像調整モードに切り替える操作を行うと(S5の「YES」)、撮像部12は、撮影条件を解像度960×540ピクセル、フレームレート240fpsに切り替える。これにより撮像部12は、映像調整モードに切り替えられたタイミングである時刻t3から1フレーム当たり4.15msecで撮影を実行し、順次フレームG1、G2、G3・・・を生成する。
リモートセッション装置10-1で映像調整モードに切り替えられたことを示す情報は、他のリモートセッション装置10-2~10-5に送信され、他のリモートセッション装置10-2~10-5の撮像部12においても、撮影条件が解像度960×540ピクセル、フレームレート240fpsに切り替えられる。
映像調整モードに切り替えられると、音声情報生成部184は、遅延時間記憶部17に記憶した情報に基づいて、音声情報N2、N3、N4、およびN5に対応する音声遅延時間の中の最長値を特定する。ここでは音声情報生成部184は、音声情報N5に対応する位置C(X1)-C(X5)間の音声遅延時間「60.9msec」を最長値として特定する。
次に、音声情報生成部184は、時刻t3以降の音声情報N2、N3、N4、およびN5の先頭に、特定した音声遅延時間「60.9msec」よりも大きい値の無音データを付加し、これを合成して合成音声情報Q3を生成する。
図8(a)は、映像調整モードで処理が開始したときに音声情報生成部184が生成した、合成音声情報Q3内の各音声情報N2、N3、N4、およびN5の先頭位置を示す説明図である。ここでは音声情報生成部184は、音声遅延時間「60.9msec」よりも大きく、フレームレート240fpsによる撮影タイミングの1つであるフレームG16の撮影タイミングに対応する62.5msec分の無音データを付加している。
また映像調整モードに切り替えられると、映像情報生成部183が、音声情報N2、N3、N4、およびN5の先頭位置としたフレームG16の撮影タイミングを基点として、時刻t3以降の映像情報M2、M3、M4それぞれに関する出力開始フレームを特定する(S6)。
ここでは映像情報生成部183は、まず映像情報M2に関して、遅延時間記憶部17に記憶した情報に基づいて、対応するヴァイオリン奏者X1とX2との位置に関する音声遅延時間4.4msecを特定する。そして映像情報生成部183は、この音声遅延時間4.4msecに対応するフレーム数を算出する。このとき、映像情報M2はフレームレート240fpsで撮影されているため、4.4msecに対応するフレーム数は0.4であり、映像情報生成部183は、この0.4の小数第1位を四捨五入して、音声遅延時間に対応するフレーム数「0」を算出する。
そして映像情報生成部183は、フレームG16の撮影タイミングから、音声遅延時間に対応するフレーム数「0」分、前のフレームを、映像情報M2の出力開始フレームとして特定する。つまり、映像情報生成部183は、フレームG16を映像情報M2の出力開始フレームとして特定する。
同様にして、映像情報生成部183は、映像情報M3に関する音声遅延時間に対応するフレーム数「3」を算出する。映像情報生成部183は、フレームG16の撮影タイミングから3フレーム前のフレームG13を、映像情報M3の出力開始フレームとして特定する。
同様にして、映像情報生成部183は、映像情報M4に関する音声遅延時間に対応するフレーム数「12」を算出する。映像情報生成部183は、フレームG16の撮影タイミングから12フレーム前のフレームG4を、映像情報M4の出力開始フレームとして特定する。
同様にして、映像情報生成部183は、映像情報M5に関する音声遅延時間に対応するフレーム数「15」を算出する。映像情報生成部183は、フレームG16の撮影タイミングから15フレーム前のフレームG1を、映像情報M5の出力開始フレームとして特定する。
映像情報生成部183は、映像情報M2、M3、M4それぞれについて特定したフレームを合成して、映像調整モードへの切り替え後1フレーム目の合成映像情報P2-1を生成する。図8(b)は、映像調整モードで処理が開始したときに映像情報生成部183が生成した合成映像情報P2-1の画面構成図の一例である。
映像情報生成部183がフレームレート60fpsで合成映像情報を生成する場合、次に生成する2フレーム目の合成映像情報P2-2は、図8(c)に示すように、映像情報M2のフレームG20、映像情報M3のフレームG17、映像情報M4のフレームG8、映像情報M5のフレームG5を合成して生成される。以降、同様にして、映像情報生成部183は合成映像情報P2-3、合成映像情報P2-4・・・を生成し、出力させる。
その後、ヴァイオリン奏者X1が通常モードに切り替える操作を行うと(S8の「YES」)、ステップS1の処理に戻る。また、ヴァイオリン奏者X1が再度セッションモードに切り替える操作を行うと(S8の「NO」→S9の「YES」)、ステップS3の処理に戻る。
また、ステップS2において、通常モードで処理が行われているときにヴァイオリン奏者X1が映像調整モードに切り替える操作を行ったときには(S2の「NO」→S10の「YES」)、ステップS6の処理に移行する。
同様にして、ヴァイオリン奏者X2の操作に基づいてリモートセッション装置10-2が動作し、チェロ奏者X3の操作に基づいてリモートセッション装置10-3が動作し、打楽器奏者X4の操作に基づいてリモートセッション装置10-4が動作し、コントラバス奏者X5の操作に基づいてリモートセッション装置10-5が動作する。そして、ヴァイオリン奏者X2、チェロ奏者X3、打楽器奏者X4、およびコントラバス奏者X5が、それぞれリモートセッション装置10-2~10-5でセッションモードへの切り替え操作、または映像調整モードへの切り替え操作を行ったときにも、上述した処理と同様の処理が実行される。
以上の実施形態によれば、オーケストラの楽団員である演奏者がリモート通信を用いてセッションを行う場合に、各演奏者は、実空間の舞台上の所定位置で演奏したときに近い状態で、他の演奏者の演奏音声を視聴しながら演奏することができる。
上述した実施形態においては、演奏者同士でリモートセッション装置を利用してリモートセッションを行う場合について説明したが、指揮者等の演奏しない聴取者が、リモートセッション装置を利用して複数の演奏者の演奏音をリモートで視聴してもよい。
上述したリモートセッション装置10のCPU18が有する機能を再生プログラムとしてプログラム化してコンピュータに搭載することにより、当該コンピュータをリモートセッション装置として機能させることも可能である。再生プログラムは非一時的な記憶媒体に記憶され、CPU18は再生プログラムを実行する。
1 リモートセッションシステム
10,10-1~10-5 リモートセッション装置
11 入力部
12 撮像部
13 収音部
14 表示部
15 音声出力部
16 通信部
17 遅延時間記憶部
20 通信ネットワーク
181 映像情報送信部
182 音声情報送信部
183 映像情報生成部
184 音声情報生成部

Claims (5)

  1. 第1の実空間における第1の位置に位置すべき聴取者が所持する第1の装置と、nを3以上の整数として、前記第1の実空間における前記第1の位置から離れた第2~第nの位置に位置すべき第1~第(n-1)の音発生者が所持する第2~第nの装置とが、それぞれ前記第1の実空間とは異なる第2~第(n+1)の実空間において通信ネットワークを介して接続されている状態における前記第1の装置に搭載されている再生装置であり、
    前記第2~第nの位置から発せられた音が前記第1の位置に到達するまでの前記第2~第nの位置に対応する音の遅延時間を記憶する遅延時間記憶部と、
    前記第1~第(n-1)の音発生者がそれぞれ前記第3~第(n+1)の実空間で発生させて前記第2~第nの装置が前記通信ネットワークを介して前記第1の装置に送信した音声情報を取得し、前記第2~第nの装置からの各音声情報に前記遅延時間記憶部に記憶されている前記第2~第nの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成する音声情報生成部と、
    を備える再生装置。
  2. 前記第2~第nの装置は、前記第1の装置に送信する音声情報に時刻情報を付加し、
    前記音声情報生成部は、
    通常モードで動作するときには、前記第2~第nの装置から取得した音声情報を、付加されている時刻情報に基づいて同期をとって合成した合成音声情報を生成し、
    前記聴取者が前記第2~第nの装置から取得した音声情報を聴取するタイミングを調整する音声調整モードで動作するときには、前記第2~第nの装置からの各音声情報に前記遅延時間記憶部に記憶されている前記第2~第nの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成する、
    請求項1に記載の再生装置。
  3. 前記第2~第nの装置が前記通信ネットワークを介して前記第1の装置に送信した、時刻情報が付加された映像情報を取得し、通常モードで動作するときには、前記第2~第nの装置から取得した映像情報を、付加されている時刻情報に基づいて同期をとって合成した合成映像情報を生成し、映像情報のタイミングを調整する映像調整モードで動作するときには、前記第2~第nの装置からの各映像情報を、前記各映像情報の開始時刻から所定時間後のフレームから前記遅延時間記憶部に記憶されている前記第2~第nの位置に対応する遅延時間から算出されるフレーム数分前のフレームを出力開始フレームとして合成した合成映像情報を生成する映像情報生成部をさらに備える、請求項1または2に記載の再生装置。
  4. 第1の実空間における第1の位置に位置すべき聴取者が所持する第1の装置と、nを3以上の整数として、前記第1の実空間における前記第1の位置から離れた第2~第nの位置に位置すべき第1~第(n-1)の音発生者が所持する第2~第nの装置とが、前記第1の実空間とは異なる第2~第nの実空間において通信ネットワークを介して接続されている状態における前記第1の装置に搭載されている再生装置が、
    前記第2~第nの位置から発せられた音が前記第1の位置に到達するまでの前記第2~第nの位置に対応する音の遅延時間を記憶し、
    前記第1~第(n-1)の音発生者が前記第3~第(n+1)の実空間で発生させて前記第2~第nの装置が前記通信ネットワークを介して前記第1の装置に送信した音声情報を取得し、前記第2~第nの装置からの各音声情報に、記憶した前記第2~第nの位置に対応する遅延時間をそれぞれ加算した遅延音声情報を合成した合成音声情報を生成して再生する、
    再生方法。
  5. 第1の実空間における第1の位置に位置すべき聴取者が所持する第1の装置と、nを3以上の整数として、前記第1の実空間における前記第1の位置から離れた第2~第nの位置に位置すべき第1~第(n-1)の音発生者が所持する第2~第nの装置とが、前記第1の実空間とは異なる第2~第nの実空間において通信ネットワークを介して接続されている状態における前記第1の装置に搭載されているコンピュータに、
    前記第1~第(n-1)の音発生者が前記第3~第(n+1)の実空間で発生させて前記第2~第nの装置が前記通信ネットワークを介して前記第1の装置に送信した音声情報を取得するステップと、
    取得した前記第2~第nの装置からの各音声情報に、それぞれ、前記第2~第nの位置から発せられた音が前記第1の位置に到達するまでの前記第2~第nの位置に対応する音の遅延時間を加算した遅延音声情報を生成するステップと、
    前記遅延音声情報を合成した合成音声情報を生成するステップと、
    を実行させる再生プログラム。
JP2022100355A 2022-06-22 2022-06-22 再生装置、再生方法、および再生プログラム Pending JP2024001600A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022100355A JP2024001600A (ja) 2022-06-22 2022-06-22 再生装置、再生方法、および再生プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022100355A JP2024001600A (ja) 2022-06-22 2022-06-22 再生装置、再生方法、および再生プログラム

Publications (1)

Publication Number Publication Date
JP2024001600A true JP2024001600A (ja) 2024-01-10

Family

ID=89454893

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022100355A Pending JP2024001600A (ja) 2022-06-22 2022-06-22 再生装置、再生方法、および再生プログラム

Country Status (1)

Country Link
JP (1) JP2024001600A (ja)

Similar Documents

Publication Publication Date Title
US10911501B2 (en) Collaborative session over a network
JP7251592B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Sawchuk et al. From remote media immersion to distributed immersive performance
JP4423790B2 (ja) 実演システム、ネットワークを介した実演方法
JPH10319950A (ja) データ送受信方法およびシステム
EP2743917B1 (en) Information system, information reproducing apparatus, information generating method, and storage medium
JP6197211B2 (ja) 映像音声配信システム、音声映像配信方法及びプログラム
JP2010112981A (ja) 遠隔実演再生方法、装置
JP2006041886A (ja) 情報処理装置および方法、記録媒体、並びにプログラム
JP2002091291A (ja) ピアノ教授用データ通信システム
JP2008089849A (ja) リモート演奏システム
JP5109496B2 (ja) データ配信装置、データ配信方法およびプログラム
EP1784049A1 (en) A method and system for sound reproduction, and a program product
JP2024001600A (ja) 再生装置、再生方法、および再生プログラム
JP4422656B2 (ja) ネットワークを用いた遠隔多地点合奏システム
Konstantas et al. The distributed musical rehearsal environment
JP6220576B2 (ja) 複数人による通信デュエットに特徴を有する通信カラオケシステム
JP3705581B2 (ja) データ送信方法および送信システム
JP2004094683A (ja) サーバ、通信方法及び観客端末
JP4214908B2 (ja) 教習用演奏再生表示システム
JP2003085068A (ja) ライブ情報提供サーバ、情報通信端末、ライブ情報提供システムおよびライブ情報提供方法
WO2023042671A1 (ja) 音信号処理方法、端末、音信号処理システム、管理装置
JP2009094701A (ja) 情報処理装置及びプログラム
JP2022134182A (ja) 映像出力方法、映像出力装置および映像出力システム
Braasch et al. Mixing console design considerations for telematic music applications