JP7457525B2 - Receiving device, content transmission system, and program - Google Patents
Receiving device, content transmission system, and program Download PDFInfo
- Publication number
- JP7457525B2 JP7457525B2 JP2020028692A JP2020028692A JP7457525B2 JP 7457525 B2 JP7457525 B2 JP 7457525B2 JP 2020028692 A JP2020028692 A JP 2020028692A JP 2020028692 A JP2020028692 A JP 2020028692A JP 7457525 B2 JP7457525 B2 JP 7457525B2
- Authority
- JP
- Japan
- Prior art keywords
- sound source
- source object
- coordinate system
- audio
- receiving device
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005540 biological transmission Effects 0.000 title claims description 26
- 238000012545 processing Methods 0.000 claims description 84
- 238000009877 rendering Methods 0.000 claims description 35
- 238000006243 chemical reaction Methods 0.000 claims description 19
- 238000013507 mapping Methods 0.000 claims description 14
- 230000000903 blocking effect Effects 0.000 claims description 4
- 230000006870 function Effects 0.000 description 26
- 238000010586 diagram Methods 0.000 description 20
- 210000003128 head Anatomy 0.000 description 19
- 238000012546 transfer Methods 0.000 description 14
- 238000000034 method Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 12
- 238000011156 evaluation Methods 0.000 description 9
- 238000001514 detection method Methods 0.000 description 8
- 238000005259 measurement Methods 0.000 description 8
- 239000013598 vector Substances 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000009466 transformation Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 6
- 230000015572 biosynthetic process Effects 0.000 description 5
- 238000003786 synthesis reaction Methods 0.000 description 5
- 230000000007 visual effect Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 4
- 230000001360 synchronised effect Effects 0.000 description 4
- 230000003247 decreasing effect Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000007613 environmental effect Effects 0.000 description 3
- 230000005236 sound signal Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000001934 delay Effects 0.000 description 2
- 210000000613 ear canal Anatomy 0.000 description 2
- 239000011521 glass Substances 0.000 description 2
- 230000005484 gravity Effects 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- PXFBZOLANLWPMH-UHFFFAOYSA-N 16-Epiaffinine Natural products C1C(C2=CC=CC=C2N2)=C2C(=O)CC2C(=CC)CN(C)C1C2CO PXFBZOLANLWPMH-UHFFFAOYSA-N 0.000 description 1
- 241000238631 Hexapoda Species 0.000 description 1
- 230000002238 attenuated effect Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 230000006866 deterioration Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000007654 immersion Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000009527 percussion Methods 0.000 description 1
- 230000002250 progressing effect Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000000638 stimulation Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000031836 visual learning Effects 0.000 description 1
Images
Landscapes
- Reverberation, Karaoke And Other Acoustics (AREA)
- User Interface Of Digital Computer (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Stereophonic System (AREA)
Description
本発明は、3次元音響を再生する受信装置、コンテンツ伝送システム、及びプログラムに関する。 The present invention relates to a receiving device, a content transmission system, and a program that reproduce three-dimensional sound.
近年、AR(Augmented Reality)/VR(Virtual Reality)技術の進歩により、AR/VR対応端末や、AR/VRコンテンツが普及し始めている。AR/VR対応端末とは、スマートフォン、タブレット型端末、VRゴーグル、ARグラスなどである。例えば特許文献1には、ARコンテンツ視聴システムの構成例が開示されている。
In recent years, with advances in AR (Augmented Reality)/VR (Virtual Reality) technology, AR/VR compatible terminals and AR/VR content have begun to spread. AR/VR compatible terminals include smartphones, tablet terminals, VR goggles, and AR glasses. For example,
AR/VRコンテンツの再生において、視覚情報は端末に搭載されるGPU(Graphic Processing Unit)を用いた実時間レンダリング処理により、ユーザの動作に応じたインタラクティブなグラフィック表示が実現されている。AR/VR対応端末には、ジャイロセンサや加速度センサなど複数のセンサが搭載されており、これらのセンサから取得した情報を使用して端末の自己位置推定及び姿勢推定が行われる。端末のカメラで撮影される実空間の映像に対してCGデータ等で与えられたオブジェクトを合成表示するARコンテンツの場合には、カメラで撮影された実空間の映像も、自己位置・姿勢推定処理の入力情報として使用できる。この自己位置・姿勢推定処理の結果として得られた視点位置、視線方向を反映したビューポートに応じて、GPUを用いてグラフィックの実時間レンダリング処理が行われる。なお、スマートフォンやタブレット型端末の自己位置・姿勢推定処理などAR/VRコンテンツの再生に必要な基本技術については、iOS端末のARKitやAndroid端末のARCoreなど、OS(Operating System)レベルでの標準機能としての実装が進んでおり、一般の開発者によるAR/VR対応のアプリ開発や配布が容易となっている。 When reproducing AR/VR content, visual information is rendered in real time using a GPU (Graphic Processing Unit) installed in the terminal, thereby realizing interactive graphical display according to the user's actions. An AR/VR compatible terminal is equipped with a plurality of sensors such as a gyro sensor and an acceleration sensor, and the self-position and orientation of the terminal are estimated using information acquired from these sensors. In the case of AR content that combines and displays objects given by CG data, etc. on images of real space captured by the device's camera, the images of real space captured by the camera are also subject to self-position/orientation estimation processing. It can be used as input information. Real-time graphic rendering processing is performed using the GPU in accordance with a viewport that reflects the viewpoint position and line-of-sight direction obtained as a result of this self-position/orientation estimation processing. The basic technologies necessary for playing AR/VR content, such as self-position and posture estimation processing on smartphones and tablet devices, are standard functions at the OS (Operating System) level, such as ARKit on iOS devices and ARCore on Android devices. Implementation is progressing, making it easier for general developers to develop and distribute AR/VR compatible applications.
AR/VRコンテンツの視聴におけるユーザの視点位置、視線方向の自由度は、DoF(Degrees of Freedom)と呼ばれる単位で表現される。例えば、360度VR映像コンテンツにおいて、視点位置が固定され、視線方向のみにインタラクティブ性がある場合は、ユーザの視線方向の自由度が3自由度(Role,Pitch,Yaw)の回転であるため3DoFと呼ばれる。一方、視線方向に加えて視点位置も自由に移動できるAR/VRコンテンツの場合には、視線方向の3自由度に加えて、視点位置の移動の自由度も3自由度(X,Y,Z)となるため合計6自由度であることから、6DoFと呼ばれる。また、3DoFを基本としながら、固定された椅子に座った状態での頭部の動きなど、限られた範囲での視点位置移動により、視覚情報に僅かながら自由度を追加するシステムを3DoF+と呼ぶ場合がある。 The degree of freedom of the user's viewpoint position and line of sight direction when viewing AR/VR content is expressed in units called DoF (Degrees of Freedom). For example, in 360-degree VR video content, if the viewpoint position is fixed and there is interactivity only in the direction of the line of sight, the degree of freedom in the direction of the user's line of sight is rotation with three degrees of freedom (Role, Pitch, Yaw), so 3DoF It is called. On the other hand, in the case of AR/VR content where the viewpoint position can be freely moved in addition to the viewing direction, in addition to the 3 degrees of freedom in the viewing direction, there are also 3 degrees of freedom in moving the viewpoint position (X, Y, Z). ), so there are 6 degrees of freedom in total, so it is called 6DoF. In addition, while based on 3DoF, a system that adds a small degree of freedom to visual information by moving the viewpoint position within a limited range, such as moving the head while sitting on a fixed chair, is called 3DoF+. There are cases.
視覚情報と聴覚情報を組み合わせたマルチモーダルな刺激により、AR/VRコンテンツの視聴においてユーザのコンテンツへの没入感を高められることが期待できる。例えば、特許文献2には、ユーザが仮想空間内を自由に動き回ることができるゲームコンテンツにおいて、環境音の発生エリアとユーザの視点に相当する仮想カメラの位置と方向の関係に応じて、適用的に環境音を生成するシステムの構成例が開示されている。また、特許文献3には、VRゲームにおいて、音源オブジェクトの音声を、ユーザの視線方向に応じてミックスされたモノラル音声又はステレオ音声を生成して提示するシステムのモデルが開示されている。
Multimodal stimulation that combines visual and auditory information can be expected to enhance the user's sense of immersion in the content when viewing AR/VR content. For example,
上述した先行技術文献に開示された技術では、いずれも音源オブジェクトがユーザの視点位置と同じ高さにあることを前提とするか、又は実際には視点位置と違う高さにある音源も視点の高さにあるものとみなしている。つまり、視点の高さの上下にある音源オブジェクトや環境音発生エリアの音声は、ユーザの視線の高さで地面に水平な2次元平面に定位してしまう。そのため、例えば、ユーザがまっすぐ正面を向いた状態において、頭上を飛ぶ飛行機の音や、足元の地面近くで鳴く虫の鳴き声などを提示しても、上下方向の立体感を得ることはできない。 In the techniques disclosed in the above-mentioned prior art documents, either the sound source object is assumed to be at the same height as the user's viewpoint position, or the sound source object is actually located at a different height from the user's viewpoint position. It is considered to be at a height. In other words, sounds from sound source objects and environmental sound generation areas located above and below the height of the viewpoint are localized on a two-dimensional plane horizontal to the ground at the height of the user's line of sight. Therefore, for example, when the user is facing straight ahead, even if the sound of an airplane flying overhead or the chirping of an insect near the ground near the feet of the user is presented, it is not possible to obtain a three-dimensional effect in the vertical direction.
そこで、音源オブジェクトの位置からユーザの外耳道入口までの音声波の伝達関数の周波数特性(頭部伝達関数)を用いた周波数領域での音響処理を用いることで、最終的な音声出力がステレオと同じ2チャンネル音声であっても、視点の高さよりも上下の方向も含めた3次元の音像定位を実現する技術が提案されている。このように、2チャンネル音声再生による3次元音響は、一般にバイノーラル音声と呼ばれる。バイノーラル音声は、頭部伝達関数を用いた周波数領域の演算によって生成する以外に、人間の頭部形状と外耳道を模擬したダミーヘッドを用いて実空間から直接収音することもできる。このため、実写による360度VR映像コンテンツでは、360度カメラによる全天周映像などの広視野撮影とダミーヘッドによるバイノーラル音声の収音が同時に行われ、パッケージ化されたVR映像コンテンツとして提供される場合がある。但し、ユーザがバイノーラル音声の立体感を正しく得られるのは、収音時にダミーヘッドが向いていた方向とユーザの視線方向が一致するときに限定される。 A technology has been proposed that uses frequency domain acoustic processing using the frequency characteristics (head-related transfer function) of the transfer function of the sound wave from the position of the sound source object to the entrance of the user's ear canal to achieve three-dimensional sound image localization including directions above and below the height of the viewpoint, even if the final audio output is the same two-channel audio as stereo. In this way, three-dimensional audio by two-channel audio playback is generally called binaural audio. In addition to generating binaural audio by frequency domain calculation using the head-related transfer function, it can also be collected directly from the real space using a dummy head that mimics the shape of a human head and the ear canal. For this reason, in live-action 360-degree VR video content, wide-field shooting such as panoramic video using a 360-degree camera and binaural audio collection using a dummy head are sometimes performed simultaneously, and the content is provided as a packaged VR video content. However, the user can correctly obtain the stereoscopic effect of binaural audio only when the direction in which the dummy head was facing at the time of audio collection matches the user's line of sight.
ユーザが視線方向を自由に変えることができる3DoFのVRコンテンツや、ユーザがコンテンツの3次元空間内を自由に動ことができる6DoFのAR/VRコンテンツでは、ダミーヘッドで収音した音声をそのまま使用することはできない。つまり、刻々と変化するユーザの視点位置と音源オブジェクトの位置の相対関係に応じて、頭部伝達関数を用いた演算を行い、リアルタイムにバイノーラル音声を生成する必要がある。これを実現するためには、まず、音源オブジェクトごとに独立した音声ストリームと、コンテンツの3次元空間上での位置を示す3次元座標とを時間軸で紐づけて伝送する必要がある。次に、受信装置において、音源オブジェクトの音声ストリームと3次元座標とが紐づけられたデータを受信して、音源オブジェクトとユーザの視点位置に応じたバイノーラル音声をリアルタイムに生成する機能を実装する必要がある。 In 3DoF VR content where the user can freely change the line of sight, and 6DoF AR/VR content where the user can freely move within the 3D space of the content, the audio collected by the dummy head is used as is. I can't. That is, it is necessary to generate binaural audio in real time by performing calculations using head-related transfer functions in accordance with the relative relationship between the user's viewpoint position and the position of the sound source object, which changes from moment to moment. In order to achieve this, it is first necessary to transmit an independent audio stream for each sound source object and three-dimensional coordinates indicating the position of the content in three-dimensional space in a time-based manner. Next, in the receiving device, it is necessary to implement a function that receives data in which the audio stream of the sound source object and the three-dimensional coordinates are linked, and generates binaural audio in real time according to the sound source object and the user's viewpoint position. There is.
しかし、タブレット型端末、スマートフォンなど一般的なモバイル端末には、グラフィック処理用のGPUに相当する様な音響処理用の専用ハードウェアであるDSP(Digital Signal Processor)が搭載されていないことや、グラフィック処理用のOpenGL(Open Graphics Library)に相当するような音響処理用のAPI(Application Programming Interface)の整備が十分でないことが、3次元音響対応の機能実装の障壁となっている。幅広いユーザに浸透するスマートフォン、タブレット型端末などのモバイル端末を対象にコンテンツを提供するためには、CPU(Central Processing Unit)上で実行されるソフトウェアによる3次元音響処理の実装が要求される。 However, common mobile devices such as tablets and smartphones are not equipped with a DSP (Digital Signal Processor), which is dedicated hardware for audio processing that is equivalent to a GPU for graphic processing, and The lack of sufficient API (Application Programming Interface) for sound processing, which corresponds to OpenGL (Open Graphics Library) for processing, is an obstacle to implementing functions that support three-dimensional sound. In order to provide content to mobile terminals such as smartphones and tablet terminals, which are popular among a wide range of users, it is necessary to implement three-dimensional sound processing using software executed on a CPU (Central Processing Unit).
さらに、コンテンツのコンポーネントとしてストリーミング伝送される音源オブジェクト数が増えた場合には、音源数に応じて受信装置の処理負荷が増大し、過大な負荷が生じ得る。このように音源オブジェクトの数の増加に伴い過度な処理負担が生じた場合、処理遅延により視覚情報と聴覚情報の同期ずれや音飛びなどが発生する可能性ある。 Furthermore, when the number of sound source objects streamed as components of content increases, the processing load on the receiving device increases in accordance with the number of sound sources, and an excessive load may occur. If an excessive processing load occurs due to the increase in the number of sound source objects, processing delays may cause out-of-synchronization of visual and auditory information, and sound skips may occur.
つまり、3次元音響を組み合わせたAR/VRコンテンツのストリーミング伝送による提供において、3次元空間内での音源オブジェクトの移動、ユーザの視点位置(視聴位置)の移動、ユーザの視線方向の回転が動的である場合、従来の頭部伝達関数を用いたバイノーラル音声の生成処理では、音源位置と視聴位置・方向の相対関係に応じた膨大な数の頭部伝達関数が必要となり、メモリ資源や演算資源が限られるモバイル端末でのソフトウェア実装は非現実的であるという課題があった。また、コンテンツの3次元空間内に配置される音源オブジェクトの数が増えた場合に、CPU、メモリなどの計算資源の限界により、全ての音源オブジェクトの音声をリアルタイムに処理することができず、遅延の増大による視覚情報との同期ずれ、音飛びなどの視聴品質の低下が生じるという課題があった。 In other words, when providing AR/VR content that combines three-dimensional sound through streaming transmission, the movement of the sound source object in three-dimensional space, the movement of the user's viewpoint position (viewing position), and the rotation of the user's line of sight are dynamic. In this case, conventional binaural audio generation processing using head-related transfer functions requires a huge number of head-related transfer functions depending on the relative relationship between the sound source position and the listening position/direction, which requires a large number of memory and computational resources. The problem was that it was impractical to implement software on mobile terminals, which have limited capabilities. In addition, when the number of sound source objects placed in the three-dimensional space of the content increases, due to the limitations of computational resources such as CPU and memory, it is not possible to process the sounds of all sound source objects in real time, resulting in delays. This has caused issues such as deterioration in viewing quality, such as loss of synchronization with visual information and skipping of sound.
かかる事情に鑑みてなされた本発明の目的は、演算量及びプログラム規模・回路規模の増加を抑制し、3次元音響を組み合わせたAR/VRコンテンツの再生のリアルタイム性を確保し、視聴品質を向上させることが可能な受信装置、コンテンツ伝送システム、及びプログラムをリーズナブルな実装コストで提供することにある。 The purpose of the present invention, which was made in view of the above circumstances, is to suppress increases in the amount of calculations, program scale, and circuit scale, ensure real-time playback of AR/VR content that combines three-dimensional sound, and improve viewing quality. The purpose of the present invention is to provide a receiving device, a content transmission system, and a program capable of transmitting data at a reasonable implementation cost.
一実施形態に係る受信装置は、音源オブジェクトの音声ストリームをブロック化した音声チャンクと、前記音源オブジェクトのワールド座標系における3次元座標を含む音源メタデータと、を受信する受信装置であって、前記音源オブジェクトの3次元座標を、ワールド座標系からビュー座標系へ変換する座標変換部と、当該受信装置の処理負荷に基づいて、前記ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択するオブジェクト選択部と、前記音響処理対象の音源オブジェクトの音声チャンクを用いてバイノーラル音声を生成する3次元音響レンダリング部と、を備える。
一実施形態に係る受信装置は、上記の構成において、前記オブジェクト選択部は、前記処理負荷が大きいほど、前記音源オブジェクト選択領域が小さくなるように規定する。
また、一実施形態に係る受信装置は、上記の構成において、前記音源メタデータは、前記音源オブジェクトの優先度を含み、前記オブジェクト選択部は、前記ビュー座標系における前記音源オブジェクトの原点からの距離を前記優先度が大きいほど短くなるように変更した場合に前記音源オブジェクト選択領域に含まれることになる音源オブジェクトを、前記音響処理対象の音源オブジェクトとして選択する。
また、一実施形態に係る受信装置は、上記の構成において、前記音源メタデータは、前記音源オブジェクトの最大音圧レベルを含み、前記オブジェクト選択部は、前記ビュー座標系における前記音源オブジェクトの原点からの距離を前記最大音圧レベルが大きいほど短くなるように変更した場合に前記音源オブジェクト選択領域に含まれることになる音源オブジェクトを、前記音響処理対象の音源オブジェクトとして選択する。
A receiving device according to an embodiment is a receiving device that receives audio chunks obtained by dividing an audio stream of a sound source object into blocks, and sound source metadata including three-dimensional coordinates of the sound source object in a world coordinate system, A coordinate conversion unit that converts the three-dimensional coordinates of the sound source object from the world coordinate system to the view coordinate system; and a sound source object selection area is defined in the view coordinate system based on the processing load of the receiving device, and the sound source object is selected. An object selection unit that selects a sound source object located within a region as a sound source object to be processed, and a three-dimensional sound rendering unit that generates binaural audio using audio chunks of the sound source object to be processed. .
In the receiving device according to one embodiment, in the above-described configuration, the object selection section defines that the sound source object selection area becomes smaller as the processing load becomes larger .
Further, in the receiving device according to one embodiment, in the above configuration, the sound source metadata includes a priority of the sound source object, and the object selection unit is configured to determine the distance from the origin of the sound source object in the view coordinate system. A sound source object that will be included in the sound source object selection area when the above priority is changed so that it becomes shorter as the priority increases is selected as the sound source object to be subjected to the sound processing.
Further, in the receiving device according to one embodiment, in the above configuration, the sound source metadata includes a maximum sound pressure level of the sound source object, and the object selection unit is configured to A sound source object that will be included in the sound source object selection area when the distance is changed such that it becomes shorter as the maximum sound pressure level increases is selected as the sound source object to be subjected to the sound processing.
さらに、一実施形態において、ユーザの視線方向を推定する位置姿勢推定部をさらに備え、前記座標変換部は、前記音源オブジェクトの3次元座標を、前記ワールド座標系から、前記視線方向を軸方向とする前記ビュー座標系へ変換させてもよい。 Furthermore, in one embodiment, the position and orientation estimating unit estimates the direction of the user's line of sight, and the coordinate conversion unit converts the three-dimensional coordinates of the sound source object from the world coordinate system to the direction of the line of sight as an axial direction. The view coordinate system may be converted to the view coordinate system.
さらに、一実施形態において、前記位置姿勢推定部は、前記ユーザの視点位置を推定し、前記座標変換部は、前記音源オブジェクトの3次元座標を、前記ワールド座標系から、前記視点位置を原点とする前記ビュー座標系へ変換させてもよい。 Furthermore, in one embodiment, the position and orientation estimation unit estimates a viewpoint position of the user, and the coordinate conversion unit converts the three-dimensional coordinates of the sound source object from the world coordinate system, with the viewpoint position as the origin. The view coordinate system may be converted to the view coordinate system.
さらに、一実施形態において、前記3次元音響レンダリング部は、前記音響処理対象の音源オブジェクトの音声チャンクを、前記ビュー座標系に配置された仮想マルチチャンネルスピーカに割り当てるマッピング部と、前記仮想マルチチャンネルスピーカに割り当てられた前記音声チャンクを用いて、前記バイノーラル音声を生成するダウンミックス部と、を備えてもよい。 Furthermore, in one embodiment, the three-dimensional sound rendering unit includes a mapping unit that allocates audio chunks of the sound source object to be processed for sound to a virtual multi-channel speaker arranged in the view coordinate system; and a downmix unit that generates the binaural audio using the audio chunks assigned to the audio chunks.
また、一実施形態に係るコンテンツ伝送システムは、上記受信装置と、前記音声チャンクと前記音源メタデータとを関連付けて、前記受信装置に送信する配信装置と、を備える。 Further, a content transmission system according to an embodiment includes the receiving device, and a distribution device that associates the audio chunk with the sound source metadata and transmits the same to the receiving device.
また、一実施形態に係るプログラムは、コンピュータを、上記受信装置として機能させる。 Further, the program according to one embodiment causes a computer to function as the receiving device.
本発明によれば、AR/VRコンテンツのストリーミング伝送を受信する受信装置において、演算量及び回路規模の増加を抑えることができ、コンテンツ再生のリアルタイム性を確保し、視聴品質を向上させることが可能となる。また、CPUクロックやメモリ搭載量の異なる様々な性能の端末を受信装置として利用し、各端末の処理性能に応じたコンテンツ再生が可能なサービスを実現することができる。 According to the present invention, in a receiving device that receives streaming transmission of AR/VR content, it is possible to suppress an increase in the amount of calculation and circuit scale, ensure real-time performance of content playback, and improve viewing quality. becomes. Furthermore, it is possible to use terminals of various performance with different CPU clocks and memory capacities as receiving devices, and to realize a service that can reproduce content according to the processing performance of each terminal.
以下、本発明の実施形態について、図面を参照して詳細に説明する。 Embodiments of the present invention will be described in detail below with reference to the drawings.
(第1の実施形態)
第1の実施形態では、自由度が6DoFのARコンテンツを伝送するARコンテンツ伝送システムについて説明する。
(First embodiment)
In the first embodiment, an AR content transmission system that transmits AR content with a degree of freedom of 6 DoF will be described.
図1は、3次元空間内に配置された複数の音源オブジェクト、及びARコンテンツを受信するタブレット型の受信装置10の一例を示す図である。なお、図中の表記において、3次元空間を右手系Yアップの座標系で表記するが、各実装における座標系はこの限りではない。図1に示す例では、3次元空間内に音源オブジェクトO1が(X1,Y1,Z1)に配置され、音源オブジェクO2が(X2,Y2,Z2)に配置され、音源オブジェクトO3が(X3,Y3,Z3)に配置され、音源オブジェクトO4が(X4,Y4,Z4)に配置され、音源オブジェクトO5が(X5,Y5,Z5)に配置されている。ユーザは、受信装置10を持って自由に空間内を移動することができる。受信装置10は、ユーザの視点位置や視線方向に応じて、音源オブジェクトの音声ストリームを処理したバイノーラル音声を生成する。ユーザは、受信装置10が備えるスピーカ(SP(L)及びSP(R))、又は外付けのステレオヘッドフォンなどで音声を聴取する。
FIG. 1 is a diagram illustrating an example of a tablet-
図2は、第1の実施形態に係るARコンテンツ伝送システムの構成例を示す図である。ARコンテンツ伝送システム1は、受信装置(AR受信装置)10と、配信装置40と、を備える。時刻サーバ(タイムサーバ)50は、受信装置10と配信装置40とを同期させるために設けられる。図2に示す例では、時刻サーバ50は1つであるが、受信装置10と配信装置40が参照する時刻サーバはそれぞれ異なるものであっても良い。時刻サーバ50は、インターネット上で提供されているものであっても良い。
FIG. 2 is a diagram illustrating a configuration example of an AR content transmission system according to the first embodiment. The AR
配信装置40は、放送やインターネットなどの伝送路60を経由して、ARコンテンツをストリーミング伝送する。配信装置40は、ARコンテンツの3次元空間内に複数配置される音源オブジェクトの音声ストリームと、音源オブジェクトの位置情報(ワールド座標系における3次元座標)を含む音源メタデータとを関連付けて、受信装置10に送信する。図2に示す例では、配信装置40は、クロック生成部41と、多重化部42と、を備える。
The
クロック生成部41は、時刻サーバ50から入力された時刻に同期した同期クロックを生成し、多重化部42に出力する。
The
多重化部42は、3次元モデルシーケンス(3次元オブジェクトのモデルシーケンス)、音声ストリーム(音声チャンクのシーケンス)、及び音源メタシーケンス(音源メタデータのシーケンス)を多重化してARコンテンツを生成し、配信装置40の外部に送信する。例えば、多重化部42の多重化方式にMMT(MPEG Media Transport)を使用した場合には、音声チャンクはMPU(Media Processing Unit)に対応付けることができる。また、クロック生成部41は絶対時刻であるUTC(Coordinated Universal Time)による提示時刻タイムスタンプPTS(Presentation Time Stamp)を多重化部42に出力し、多重化部42は、各データにPTSを付与する。
The multiplexing
3次元モデルシーケンスは、例えば、3次元オブジェクトの形状を表すジオメトリデータと、3次元オブジェクトの表面の模様を表すテクスチャデータとを、一定のフレームレートでシーケンス化したデータであり、実時間で送信される。 A three-dimensional model sequence is data in which, for example, geometry data representing the shape of a three-dimensional object and texture data representing the surface pattern of the three-dimensional object are sequenced at a constant frame rate and transmitted in real time.
音源メタシーケンスは、3次元オブジェクトの中でも特に音声発生源となる部位(音源オブジェクト)の位置をワールド座標系の座標で示した位置座標情報を、一定のフレームレートでサンプルしたデータであり、実時間で送信される。音声発生源の点は、例えば、人物オブジェクトであれば声を発する口の中心点、楽器であれば弦楽器のサウンドホールや打楽器の打面の中心点などが主に想定されるが、同じオブジェクトでも、どの部位を音声発生源とするかはコンテンツによって異なる。例えば、タップダンスをする人物のコンテンツであれば、人物オブジェクトの靴底が音声発生源となる。さらに、歌いながらタップダンスをする人物オブジェクト(口の中心点と靴底の2点が音声発生源)の場合など、視覚上1つの3次元オブジェクトに対して2つ以上の音源オジェクトが関連付けられる場合もある。 A sound source metasequence is data obtained by sampling at a constant frame rate position coordinate information that indicates the position of a part of a 3D object that is a sound source (sound source object) in coordinates of the world coordinate system, and is processed in real time. Sent in For example, the point of the sound source is usually assumed to be the center of the mouth where the voice is emitted in the case of a human object, or the center point of the sound hole of a stringed instrument or the center of the striking surface of a percussion instrument in the case of a musical instrument. , which part is used as the sound generation source differs depending on the content. For example, in the case of content about a person tap dancing, the sole of the person object's shoe becomes the audio source. Furthermore, when two or more sound source objects are visually associated with one three-dimensional object, such as in the case of a person object who tap dances while singing (the center point of the mouth and the sole of the shoe are the two sound sources). There is also.
音声ストリームは、3次元オブジェクトの音声発生源(音源オブジェクト)から発せられる音声のストリームデータであり、実時間で送信される。 The audio stream is stream data of audio emitted from an audio source (sound source object) of a three-dimensional object, and is transmitted in real time.
図3は、音声ストリーム及び音源メタシーケンスのブロック化を示す図である。音声ストリーム及び音源メタシーケンスを紐付けるため、音声ストリーム及び音源メタシーケンスは、概ね一定周期でブロック化される。以降、音声ストリームのブロックを「音声チャンク」と称し、音源メタシーケンスのブロックを「音源メタデータ」と称する。各種データを多重化する際の制御情報として、音源オブジェクトごとに音源オブジェクトID(object_id)が付与される。また、音声チャンク及び音源メタデータは、時間軸の対応付けを行うために、時系列のシーケンス番号(sequence_num)が付与される。音源メタデータ及び音声チャンクは、音源オブジェクトID及びシーケンス番号により紐付けられる。音源メタシーケンスは、座標データ(coordinates)の他に、後述する優先度(priority)、最大音圧レベル(maximum_level)などを含んでもよい。 FIG. 3 is a diagram illustrating blocking of an audio stream and a sound source metasequence. In order to link the audio stream and the audio source metasequence, the audio stream and the audio source metasequence are generally divided into blocks at regular intervals. Hereinafter, a block of an audio stream will be referred to as an "audio chunk" and a block of a sound source metasequence will be referred to as "sound source metadata." As control information when multiplexing various data, a sound source object ID (object_id) is assigned to each sound source object. In addition, a chronological sequence number (sequence_num) is assigned to the audio chunk and sound source metadata in order to correlate them on the time axis. Sound source metadata and audio chunks are linked by a sound source object ID and a sequence number. In addition to coordinates, the sound source metasequence may also include a priority, a maximum sound pressure level (maximum_level), etc., which will be described later.
受信装置10は、スマートフォン、タブレット型端末などのモバイル端末、ARグラス、ビデオシースルー型ARゴーグルなどである。受信装置10は、配信装置40から、音源オブジェクトの音声ストリームをブロック化した音声チャンクと、音源オブジェクトの位置情報を含む音源メタデータと、を受信する。
The receiving
図2に示す例では、受信装置10は、クロック生成部11と、多重分離部12と、第1バッファ13と、第2バッファ14と、モデル復号部15と、カメラ16と、フレームメモリ17と、検出部18と、位置姿勢推定部19と、モデルレンダリング部20と、映像合成部21と、ディスプレイ22と、座標変換部23と、処理負荷測定部24と、オブジェクト選択部25と、音声復号部26と、3次元音響レンダリング部27と、スピーカ28と、を備える。
In the example shown in FIG. 2, the receiving
クロック生成部11は、時刻サーバ50から入力された時刻に同期した同期クロックを生成し、第1バッファ13及び第2バッファ14に出力する。
The clock generation unit 11 generates a synchronized clock that is synchronized with the time input from the
多重分離部12は、配信装置40から、3次元モデルシーケンス、音声ストリーム、及び音源メタシーケンスが多重化されたARコンテンツを、放送やインターネットなどの伝送路60を経由して受信し、これらを分離する。そして、3次元モデルシーケンスを第1バッファ13に出力し、音声ストリーム及び音源メタシーケンスを第2バッファ14に出力する。バッファは1つであってもよいが、本実施形態では説明の便宜上、バッファを第1バッファ13及び第2バッファ14に分けている。
The
各データは、第1バッファ13又は第2バッファ14に蓄えられた後、クロック生成部11から入力された同期クロックに同期して、後段の処理が行われる。例えば、多重化方式にMMTが使用された場合には、第1バッファ13及び第2バッファ14は、同じPTSが付与されたデータの処理結果が最終出力時に同時に提示されるように、それぞれ処理時間を考慮した適切なオフセットを付けて後段にデータを出力する。
After each data is stored in the
モデル復号部15は、第1バッファ13から取得した3次元モデルシーケンスを、glTF(GL Transmission format)やH.265/HEVC(High Efficiency Video Coding)などの既存の方式により、モデルレンダリング部20が直接処理可能な形式に復号し、モデルレンダリング部20に出力する。例えば、グラフィックの描画処理にOpenGLで規定される関数を用いる場合に、VBO(Vertex Buffer Object)形式が用いられる場合がある。
The
カメラ16は、受信装置10の周囲の映像を撮影し、撮影したフレーム画像をフレームメモリ17に出力する。
The
検出部18は、ジャイロセンサ、加速度センサ、地磁気センサ、重力センサなどの1以上のセンサを有する。検出部18は、各種センサにより検出したセンサ情報を位置姿勢推定部19に出力する。ジャイロセンサは、物体が同じ方向の運動を続ける慣性の法則を利用して、3自由度(Role,Pitch,Yaw)の回転量を検知することができる。また、加速度センサは、物体が同じ場所に留まり続ける慣性の法則を利用して、3自由度(X,Y,Z)の移動速度変化を検知することができる。また、地磁気センサは南北方向を検知でき、重力センサは地面との垂直方向を検知できる。
The
位置姿勢推定部19は、検出部18により検出されたセンサ情報を用いて受信装置10の姿勢を推定する。位置姿勢推定部19は、カメラ16により撮影されたフレーム画像をさらに用いて受信装置10の位置及び姿勢を推定してもよい。位置姿勢推定部19は、受信装置10の姿勢から、ユーザの視線方向を推定する。例えば、ユーザの視線方向は、カメラ16の向いている方向としてもよい。
The position and
また、位置姿勢推定部19は、カメラ16により撮影された映像に基づいて、ユーザの視点位置を推定する。ユーザの視点位置は、カメラ16の位置としてもよい。位置姿勢推定部19は、例えば、実空間を撮影したある1枚の映像フレームの画像から特徴点を検出し、その次の映像フレームの画像内でその特徴点と同様の特徴量をもつ点を近傍探索により検出し、一つの特徴点の移動量を判定する。次に、前後2フレームにおけるその特徴点の位置と、映像フレームと同じ時間間隔での視線方向変化の推定結果を組み合わせることで、三点測量により受信装置10と特徴点との距離を求めることができる。同様に、位置姿勢推定部19は、複数の特徴点と受信装置10との距離を検出し、それらの特徴点が同一平面に存在することを判断することで、実空間内の平面を検出することができる。そして、位置姿勢推定部19は、ユーザの視点位置及び視線方向を示す視点情報をモデルレンダリング部20及び座標変換部23に出力する。
Further, the position and
なお、ARコンテンツを実際に視聴し始める前に、端末の位置姿勢推定部19に実空間の平面などのコンテンツ視聴空間の状況を学習させるキャリブレーション作業をユーザに行わせてもよい。事前のキャリブレーションをユーザに行わせる場合には、ユーザがARによってオブジェクトを合成させるように意図する平面(床面や、テーブルの卓面)を中心に、実空間をカメラ16で撮影して平面検出を行わせる。一般に、事前キャリブレーションによる空間学習を行うことで、ARによる実空間映像へのオブジェクトの合成をより安定させることが可能であるが、ARコンテンツ視聴において事前キャリブレーションを必要としない場合もある。
Before actually starting to view AR content, the user may be made to perform a calibration operation in which the position and
モデルレンダリング部20は、位置姿勢推定部19から視点情報を入力し、モデル復号部15により復号された3次元モデルシーケンスに対して、視点位置及び視線方向に応じたビューポートのレンダリングを行ってレンダリング画像を生成し、映像合成部21に出力する。
The model rendering unit 20 inputs viewpoint information from the position and
映像合成部21は、モデルレンダリング部20から入力したレンダリング画像と、フレームメモリ17から入力したフレーム画像とを合成して合成画像を生成し、該合成画像をディスプレイ22に表示させる。
The
座標変換部23は、位置姿勢推定部19から視点情報を入力し、第2バッファ14から音源メタデータ(音源オブジェクトのワールド座標系における3次元座標)を入力する。座標変換部23は、音源オブジェクトの3次元座標を、ワールド座標系から、ユーザの視点位置を中心として視線方向を軸方向とするビュー座標系に座標変換を行い、座標変換後の音源メタデータをオブジェクト選択部25に出力する。座標変換には、例えば、アフィン変換を用いることができる。視点位置を(Vx,Vy,Vz)、視線方向の単位ベクトルを(Dx,Dy,Dz)とすると、Y軸中心の回転角α、X軸中心の回転角βに関して、式(1)が成立する。
The coordinate
この時、ワールド座標系からビュー座標系への回転行列Aは、式(2)で表される。 At this time, the rotation matrix A from the world coordinate system to the view coordinate system is expressed by equation (2).
また、視点位置を原点とする座標移動行列Tは、式(3)で表される。 Further, a coordinate movement matrix T whose origin is the viewpoint position is expressed by equation (3).
以上より、座標変換部23は、式(4)の行列演算式により、音源オブジェクトの3次元座標ベクトルPをビュー座標系の座標ベクトルP’に座標変換する。これらの座標変換演算は、3次元モデルの描画時においても一般的に行われる演算処理であり、GPUの機能を用いることができる。なお、上記の変換行列は一例であり、ワールド座標系及びビュー座標系における右手系・左手系の違いや、軸極性の向き、座標ベクトルを行ベクトルで表現するか列ベクトルで表現するか等により異なる場合がある。
As described above, the coordinate
処理負荷測定部24は、CPU使用率、メモリ使用率などの受信装置10の処理負荷を示す負荷情報を測定し、オブジェクト選択部25に出力する。
The processing
オブジェクト選択部25は、クロックにより制御されたタイミングで、第2バッファ14から音声チャンクを入力する。オブジェクト選択部25は、処理負荷測定部24により測定された処理負荷に基づいて、ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択する。換言すれば、オブジェクト選択部25は、処理負荷測定部24により測定された処理負荷、及び座標変換部23から入力された音源メタデータ(音源オブジェクトのビュー座標系における3次元座標)に基づいて、音響処理対象の音源オブジェクトを選択する。そして、オブジェクト選択部25は、選択した音源オブジェクトの音声チャンクを音声復号部26に出力し、該音源オブジェクトの3次元座標を3次元音響レンダリング部27に出力する。
The
具体的には、オブジェクト選択部25は、処理負荷測定部24から入力された負荷情報を元に、処理負荷の評価値Lを算出する。例えば、CPU使用率をR1とし、メモリ使用率をR2とし、係数をK1及びK2すると、オブジェクト選択部25は、評価値L=K1×R1+K2×R2とする。係数K1及びK2の一方は0であってもよい。オブジェクト選択部25は、評価値L(処理負荷)が大きいほど、音源オブジェクト選択領域が小さくなるように規定する。例えば、オブジェクト選択部25は、評価値Lが第1の閾値を超える場合には、音響処理対象の音源オブジェクトの数を減らすように音源オブジェクト選択領域を縮小し、評価値Lが第2の閾値よりも小さい場合には、処理対象の音源オブジェクトの数を増やすように音源オブジェクト選択領域を拡大する。
Specifically, the
例えば、オブジェクト選択部25は、音源オブジェクト選択領域をユーザの視点位置であるビュー座標系の原点を中心とした半径Rの球体とし、原点からの距離rがr<Rとなる音源オブジェクトを処理対象とすることが考えられる。すなわち、オブジェクト選択部25は、処理負荷の評価値Lと半径Rの関係をR=f(L)(f(x)は単調減少関数)とし、処理負荷が予め定める閾値よりも大きい時は半径Rを小さくし、処理負荷が予め定める閾値よりも小さい時は半径Rを大きくする制御を行う。なお、本実施形態では音源オブジェクト選択領域をユーザの視点位置を中心とする球体とするが、ユーザの視線方向に指向性を持たせた楕円体など、その他の形状で定義することも可能である。
For example, the
音源メタデータは、音源オブジェクトの優先度pを含んでもよい。この場合には、オブジェクト選択部25は、ビュー座標系における音源オブジェクトの原点からの距離を優先度pが大きいほど短くなるように変更した場合に音源オブジェクト選択領域に含まれることになる音源オブジェクトを、音響処理対象の音源オブジェクトとして選択する。例えば、原点と音源オブジェクトとの実際の距離rに対して、r’=r*g(p)(g(x)は単調減少関数)を音源オブジェクト選択領域の半径Rと比較する際の評価値r’としてもよい。例えば、g(x)=1/xとしたとき、オブジェクト選択部25は、優先度p=1の音源オブジェクトについては、r’=r≦Rを満たさなければ音響処理対象の音源オブジェクトとして選択しないが、優先度p=100の音源オブジェクトについては、r’=r/100≦Rを満たせば音響処理対象の音源オブジェクトとして選択する。
The sound source metadata may include the priority p of the sound source object. In this case, the
また、音源メタデータは、音源オブジェクトの最大音圧レベルlを含んでもよい。この場合には、オブジェクト選択部25は、ビュー座標系における音源オブジェクトの原点からの距離を最大音圧レベルlが大きいほど短くなるように変更した場合に音源オブジェクト選択領域に含まれることになる音源オブジェクトを、音響処理対象の音源オブジェクトとして選択する。つまり、最大音圧レベルlについても、音圧レベルの高い音声ほど視聴位置から遠くても聞こえるため、r’=r*h(l)(h(x)は単調減少関数)を評価値とする。最大音圧レベルを音源メタデータとして伝送することにより、受信装置10で実際に音声チャンクを復号せずとも音圧レベルに応じた選択が可能となり、処理負荷の軽減が可能となる。優先度p及び最大音圧レベルlをともに考慮すると、音源オブジェクトの原点距離の評価値r’は実際の距離rに対して、r’=r*g(p)*h(l)となり、オブジェクト選択部25は、r’≦Rを満たす音源オブジェクトを、音響処理対象の音源オブジェクトとして選択する。
The sound source metadata may also include the maximum sound pressure level l of the sound source object. In this case, the
音声復号部26は、オブジェクト選択部25により選択された音源オブジェクトの音声チャンクを、3次元音響レンダリング部27が直接処理可能な形式に変換する。例えば、音声復号部26は、MPEG-4 AAC(Advanced Audio Codec)、MPEG-H 3DA(3D Audio)などの圧縮ストリームを復号処理し、PCM(Pulse Code Modulation)データなどの非圧縮ストリームに変換する。音声復号部26は、復号処理した音声チャンク(復号済み音声チャンク)を3次元音響レンダリング部27に出力する。
The
3次元音響レンダリング部27は、音声復号部26から復号済み音声チャンクを入力し、オブジェクト選択部25から音響処理対象として選択された音源オブジェクトのビュー座標系における3次元座標を入力する。3次元音響レンダリング部27は、音響処理対象の音源オブジェクトの音声チャンクを用いてバイノーラル音声を生成し、スピーカ28、又は図示しないヘッドフォンなどからバイノーラル音声を出力させる。
The three-dimensional
図4は、3次元音響レンダリング部27の構成例を示すブロック図である。3次元音響レンダリング部27は、マッピング部271と、ダウンミックス部272と、を備える。
Figure 4 is a block diagram showing an example configuration of the three-dimensional
マッピング部271は、復号済み音声チャンク及び音源メタデータ(音源オブジェクトの3次元座標)を、音源オブジェクトID及びシーケンス番号によって紐付け可能な状態で入力する。そして、マッピング部271は、復号済み音声チャンクを、ビュー座標系において視点位置を中心とした所定位置に配置された所定数の仮想マルチチャンネルスピーカ(仮想チャンネルベース音源)に割り当てる(ミックスする)。
The
図5は、3次元空間コンテンツのワールド座標系(真上からの視点)及び音源オブジェクトO1~O5の配置例を示す図である。図6は、視点位置を原点としたビュー座標系(真上からの視点)及び仮想マルチチャンネルスピーカの配置の例を示す図である。図6に示す例では、仮想マルチチャンネルスピーカは、視点位置と同じ高さに、視点位置を中心とする円上に等間隔に8個配置されており、以降の図7から図10ついても同様である。仮想マルチチャンネルスピーカの数及び配置場所はこの限りではなく、任意の数の仮想マルチチャンネルスピーカを任意の場所に配置可能である。例えば、5.1chや22.2chのマルチチャンネル音響のスピーカ配置などを使用してもよい。 FIG. 5 is a diagram showing an example of the world coordinate system (viewpoint from directly above) of three-dimensional space content and the arrangement of sound source objects O 1 to O 5 . FIG. 6 is a diagram showing an example of the view coordinate system (viewpoint from directly above) with the viewpoint position as the origin and the arrangement of virtual multichannel speakers. In the example shown in FIG. 6, eight virtual multi-channel speakers are arranged at equal intervals on a circle centered on the viewpoint position at the same height as the viewpoint position, and the same applies to the following FIGS. 7 to 10. It is. The number of virtual multi-channel speakers and their placement locations are not limited to these, and any number of virtual multi-channel speakers can be placed at any location. For example, a speaker arrangement for 5.1ch or 22.2ch multi-channel sound may be used.
ユーザの動作に伴い視点位置は移動するため、ワールド座標系とビュー座標系は、ユーザの動作によって相対的な位置関係が変化する。図7は、ある瞬間における、ワールド座標系に配置されたビュー座標系(真上からの視点)の例を示す図である。図8は、ある瞬間における、ワールド座標系に配置されたビュー座標系(真横からの視点)の例を示す図である。 Since the viewpoint position moves with the user's movements, the relative positional relationship between the world coordinate system and the view coordinate system changes depending on the user's movements. FIG. 7 is a diagram showing an example of a view coordinate system (viewpoint from directly above) arranged in the world coordinate system at a certain moment. FIG. 8 is a diagram illustrating an example of a view coordinate system (viewpoint from the side) arranged in the world coordinate system at a certain moment.
図9は、マッピング部271の処理の一例として、音源オブジェクトからビュー座標系の仮想マルチチャンネルスピーカへのマッピングの例を示す図である。図9では、オブジェクト選択部25は視点位置を中心とする球状の音源オブジェクト選択領域の内側に位置する音源オブジェクトを音響処理対象とするものとし、音源オブジェクト選択領域を2点鎖線で示している。なお、音源オブジェクトO2は、上側から投影図では音源オブジェクト選択領域の内部に位置するように見えるが、空間的に見ると原点を中心とする球状の音源オブジェクト選択領域の外部に位置するため、マッピングの対象から外れる。また、図9では、例として、ビュー座標系に変換された音源オブジェクトの座標と仮想マルチチャンネルスピーカとの間の距離を利用し、音源オブジェクトから最も距離が近い仮想マルチチャンネルスピーカにマッピングすることで規定数のチャンネルにマッピングをしていることを示している。なお、音源オブジェクトから仮想マルチチャンネルスピーカへのマッピング手法はこれに限られるものではなく、例えば1つの音源オブジェクトを複数の仮想マルチチャンネルスピーカに分散させてもよい。マッピングでは、例えば、ビュー座標系の原点と音源オブジェクトとの距離rに応じて音圧を減衰させる。なお、音響処理対象の音源オブジェクトの数が仮想マルチチャンネルスピーカの規定数に足りない場合には、オブジェクト選択部25は音源オブジェクト選択領域を広げて選択をやり直してもよい。
FIG. 9 is a diagram showing an example of mapping from a sound source object to a virtual multi-channel speaker in a view coordinate system as an example of processing by the
ダウンミックス部272は、仮想マルチチャンネルスピーカに割り当てられた復号済み音声チャンクを用いて、ユーザの左右の耳に対応する2チャンネルのバイノーラル音声にダウンミックスする。具体的には、ダウンミックス部272は、音声信号を一定の処理区間に区切り、音声信号を周波数領域に変換して固定数の頭部伝達関数の周波数特性を掛け合わせた後に、時間領域の音声信号に戻す処理を行うことにより、バイノーラル音声にダウンミックスする。
The
図10は、ダウンミックス部272の処理の一例として、ビュー座標系の仮想マルチチャンネルスピーカからバイノーラル音声を生成するダウンミックス処理の例を示している。図10に示す例では、前後方向の仮想マルチチャンネルスピーカについては左右両方のスピーカ28-1及び28-2に両方に均等に割り当て、その他の仮想マルチチャンネルスピーカは最寄りの左右いずれかのスピーカ28-1又は28-2にマッピングしている。これらのマッピングごとに頭部伝達関数の周波数領域の演算を行い、ミックスすることで、ユーザは上下前後左右の立体感を体験できる。図10に示すダウンミックスによると、必要な頭部伝達関数の数は10個となる。なお、図9に示したマッピング、及び図10に示したダウンミックスはあくまで一例であり、より高度なアルゴリズムにより3次元音場の再現性を高めてもよい。例えば、図10においては視線方向の左寄りの仮想マルチチャンネルスピーカはスピーカ28-1のみへ、右寄りの仮想マルチチャンネルスピーカはスピーカ28-2のみへの頭部伝達関数を考慮しているが、視線方向の左寄りの仮想マルチチャンネルスピーカからスピーカ28-2へ、右寄りの仮想マルチチャンネルスピーカはスピーカ28-1への頭部伝達関数を考慮するように、頭部伝達関数を増やしても良い。頭部伝達関数の数を増やすことで、よりリアリティのあるバイノーラル音声の生成が期待できるが、処理負荷増加とのトレードオフとなる。
FIG. 10 shows, as an example of the process of the
なお、音源オブジェクトのストリーミング伝送について、配信装置40は音声チャンクの音声符号データと音源メタデータを含む全てのデータをUDP/IPパケットなどに多重化してストリーミング伝送してもよいし、音声ストリームの符号データの実体は伝送せずに、代わりに音声チャンクのロケーション情報と音源メタデータをUDP/IPパケットなどに多重化してストリーミング伝送してもよい。ロケーション情報としては、HTTPなどにより音声チャンクのファイルを取得するためのURL情報や、IPマルチキャストなどにより音声チャンクのストリームを追加受信するためのマルチキャストIPアドレスおよびポート番号などを指定することができる。この場合には、受信装置10は、オブジェクト選択部25により音響処理対象として選択された音源オブジェクトのみをロケーション情報により指定される音声チャンクのファイルを取得することで、負荷削減が可能となる。また、音源メタデータにロケーション情報を含めて、配信装置40は音源メタデータのみをストリーミング伝送するようにしてもよい。
Regarding streaming transmission of the sound source object, the
(第2の実施形態)
次に、第2の実施形態として、自由度が3DoFのVRコンテンツ(360度VR映像コンテンツ)を伝送する360度VRコンテンツ伝送システムについて説明する。
(Second embodiment)
Next, as a second embodiment, a 360-degree VR content transmission system that transmits VR content (360-degree VR video content) with a degree of freedom of 3DoF will be described.
図11は、第2の実施形態に係る360度VRコンテンツ伝送システム2の構成例を示す図である。360度VRコンテンツ伝送システム2は、受信装置(VR受信装置)10Aと、配信装置40Aと、を備える。時刻サーバ50は、受信装置10Aと配信装置40Aとを同期させるために設けられる。以下、第1の実施形態に係るARコンテンツ伝送システム1と同一の構成については適宜説明を省略し、相違する部分について説明する。
Figure 11 is a diagram showing an example of the configuration of a 360-degree VR
配信装置40Aは、放送やインターネットなどの伝送路60を経由して、VRコンテンツをストリーミング伝送する。配信装置40Aは、VRコンテンツの3次元空間内に複数配置される音源オブジェクトの音声ストリームと、音源オブジェクトの位置情報(3次元座標)を含む音源メタデータとを、関連付けて、受信装置10Aに送信する。配信装置40Aは、クロック生成部41と、多重化部42と、を備える。
The
配信装置40Aは、第1の実施形態の配信装置40と比較して、3次元モデルシーケンスではなくVR映像シーケンスを多重化して伝送する点が相違する。すなわち、多重化部42は、VR映像シーケンス、音声ストリーム(音声チャンクのシーケンス)、及び音源メタシーケンス(音源メタデータのシーケンス)を多重化してVRコンテンツを生成し、配信装置40の外部に送信する。
The
受信装置10Aは、スマートフォン、タブレット型端末などのモバイル端末、VRゴーグル、VRヘッドマウントディスプレイなどの端末である。図11に示す例では、受信装置10Aは、クロック生成部11と、多重分離部12と、第1バッファ13と、第2バッファ14と、検出部18と、位置姿勢推定部19Aと、ディスプレイ22と、座標変換部23Aと、処理負荷測定部24と、オブジェクト選択部25と、音声復号部26と、3次元音響レンダリング部27と、スピーカ28と、映像復号部29と、映像切出部30と、を備える。受信装置10Aは、第1の実施形態の受信装置10と比較して、モデル復号部15、カメラ16、フレームメモリ17、モデルレンダリング部20、及び映像合成部21を有しておらず、映像復号部29及び映像切出部30を有している点が相違する。また、位置姿勢推定部19A及び座標変換部23Aの処理が、位置姿勢推定部19及び座標変換部23の処理と相違する。
The receiving
多重分離部12は、配信装置40Aから、VR映像シーケンス、音声ストリーム、及び音源メタシーケンスが多重化されたVRコンテンツを、放送やインターネットなどの伝送路60を経由して受信し、これらを分離する。そして、VR映像シーケンスを第1バッファ13に出力し、音源メタシーケンス及び音声ストリームを第2バッファ14に出力する。
The
映像復号部29は、第1バッファ13から取得したVR映像シーケンスをH.265/HEVCなどの既存の方式により復号し、映像切出部30に出力する。
The
位置姿勢推定部19Aは、検出部18から入力したセンサ情報を用いて、ユーザの視線方向を推定する。例えば、位置姿勢推定部19Aは、ユーザの視線方向をジャイロセンサの情報から推定する。ここでは、自由度が3DoF(視点位置が固定)のVRコンテンツを想定しているため、第1の実施形態の位置姿勢推定部19のように、加速度センサやカメラで撮影された映像などにより視点位置を推定する必要はない。位置姿勢推定部19Aは、ユーザの視線方向を示す視点情報を座標変換部23A及び映像切出部30に出力する。なお、位置姿勢推定部19Aは、位置姿勢推定部19と同等の機能としてユーザの視点位置情報を出力しても良いが、3DoFコンテンツでは視点位置情報は使用されない。
The position and
座標変換部23Aは、音源オブジェクトの3次元座標ベクトルPを、式(2)で示した回転行列Aを用いて、式(5)の行列演算式によりビュー座標系の座標ベクトルP’に座標変換する。ここでは、自由度が3DoFのVRコンテンツを想定しているため、ワールド座標系とビュー座標系の原点が一致する(ユーザの視点位置がワールド座標系の原点に固定される)ように音源メタデータの音源位置情報を制作することができる。この場合には、ワールド座標系からユーザ中心のビュー座標系への変換は、回転移動のみとなり平行移動を伴わない。
The coordinate
映像切出部30は、映像復号部29により復号されたVR映像から、位置姿勢推定部19Aにより推定されたユーザの視線方向に対応するビューポートの映像を切り出して切出映像を生成し、該切出画像をディスプレイ22に表示させる。
The
上述したように、受信装置10,10Aは、処理負荷に基づいて、ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択する。かかる構成により、音声復号部26及び3次元音響レンダリング部27の演算量及び回路規模を低減させることができ、コンテンツ再生のリアルタイム性を確保し、視聴品質を向上させることができる。また、CPUクロックやメモリ搭載量の異なる様々な性能の端末を受信装置として利用し、各端末の処理性能に応じたコンテンツ再生が可能なサービスを実現することができる。
As described above, the receiving
また、受信装置10,10Aは、ワールド座標系の3次元座標で伝送される音源オブジェクトの位置情報について、ユーザの視点位置を原点とするビュー座標系の3次元座標に変換してもよい。かかる構成により、ユーザの視点位置を座標系の中心の固定とみなすことができ、その後の演算を簡略化することができる。
The receiving
また、受信装置10,10Aは、音響処理対象の音源オブジェクトの音声チャンクを、一次処理としてビュー座標系に配置された仮想マルチチャンネルスピーカに割り当て、次に二次処理として仮想マルチチャンネルスピーカに割り当てられた音声チャンクを用いて、バイノーラル音声を生成してもよい。かかる構成により、一次処理においては、バイノーラル音声の生成に必要とされる高負荷な周波数領域の演算を用いないで、距離による単純な音圧減衰など低負荷な演算を用いることができ、さらに一次処理によって仮想チャンネル数・音源位置が固定となり、二次処理では有限数の頭部伝達関数を用いてバイノーラル音声を生成することができる。このため、3次元音響レンダリング部27の演算量及び回路規模をさらに低減させることができる。
Furthermore, the receiving
また、受信装置10,10Aは、負荷測定による現状の処理負荷に応じて音源オブジェクト選択領域を拡大・縮小させてもよい。かかる構成により、音声復号部26及び3次元音響レンダリング部27の処理負荷を最適化することができる。
Furthermore, the receiving
また、受信装置10,10Aは、ビュー座標系における音源オブジェクトの原点からの距離を優先度及び/又は最大音圧レベルが大きいほど短くなるように変更した場合に音源オブジェクト選択領域に含まれることになる音源オブジェクトを、音響処理対象の音源オブジェクトとして選択してもよい。かかる構成により、コンテンツの視聴品質をさらに向上させることができる。
The receiving
<プログラム>
上記の受信装置10,10Aとして機能させるためにプログラム命令を実行可能なコンピュータを用いることも可能である。コンピュータは、受信装置10,10Aの機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのプロセッサによってこのプログラムを読み出して実行させることで実現することができ、これらの処理内容の少なくとも一部をハードウェアで実現することとしてもよい。ここで、プログラム命令は、必要なタスクを実行するためのプログラムコード、コードセグメントなどであってもよい。プロセッサは、CPU、GPU、DSP、ASIC(Application Specific Integrated Circuit)などであってもよい。
<Program>
It is also possible to use a computer capable of executing program instructions to function as the above-mentioned
また、このプログラムは、コンピュータが読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROMなどの記録媒体であってもよい。また、このプログラムは、ネットワークを介したダウンロードによって提供することもできる。 Further, this program may be recorded on a computer-readable recording medium. Using such a recording medium, it is possible to install a program on a computer. Here, the recording medium on which the program is recorded may be a non-transitory recording medium. The non-transitory recording medium is not particularly limited, but may be a recording medium such as a CD-ROM or a DVD-ROM. Moreover, this program can also be provided by downloading via a network.
上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態に記載の構成ブロック又は処理ステップについて、複数を1つに組み合わせたり、1つを複数に分割したりすることが可能である。 Although the embodiments described above have been described as representative examples, it will be apparent to those skilled in the art that many modifications and substitutions can be made within the spirit and scope of the invention. Therefore, the present invention should not be construed as being limited to the above-described embodiments, and various modifications and changes can be made without departing from the scope of the claims. For example, it is possible to combine a plurality of building blocks or processing steps described in the embodiments into one, or to divide one into a plurality of blocks or processing steps.
1 ARコンテンツ伝送システム
2 360度VR映像コンテンツ伝送システム
10,10A 受信装置
11 クロック生成部
12 多重分離部
13 第1バッファ
14 第2バッファ
15 モデル復号部
16 カメラ
17 フレームメモリ
18 検出部
19,19A 位置姿勢推定部
20 モデルレンダリング部
21 映像合成部
22 ディスプレイ
23,23A 座標変換部
24 処理負荷測定部
25 オブジェクト選択部
26 音声復号部
27 3次元音響レンダリング部
28 スピーカ
29 映像復号部
30 映像切出部
40,40A 配信装置
41 クロック生成部
42 多重化部
50 時刻サーバ
60 伝送路
1 AR
Claims (8)
前記音源オブジェクトの3次元座標を、ワールド座標系からビュー座標系へ変換する座標変換部と、
当該受信装置の処理負荷に基づいて、前記ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択するオブジェクト選択部と、
前記音響処理対象の音源オブジェクトの音声チャンクを用いてバイノーラル音声を生成する3次元音響レンダリング部と、
を備え、
前記オブジェクト選択部は、前記処理負荷が大きいほど、前記音源オブジェクト選択領域が小さくなるように規定する受信装置。 A receiving device that receives audio chunks obtained by blocking an audio stream of a sound source object and sound source metadata including three-dimensional coordinates of the sound source object in a world coordinate system, the receiving device comprising:
a coordinate conversion unit that converts the three-dimensional coordinates of the sound source object from a world coordinate system to a view coordinate system;
an object selection unit that defines a sound source object selection area in the view coordinate system based on the processing load of the receiving device, and selects a sound source object located within the sound source object selection area as a sound source object to be subjected to acoustic processing;
a three-dimensional sound rendering unit that generates binaural sound using the audio chunks of the sound source object to be processed;
Equipped with
The object selection unit defines the sound source object selection area to become smaller as the processing load becomes larger .
前記音源オブジェクトの3次元座標を、ワールド座標系からビュー座標系へ変換する座標変換部と、
当該受信装置の処理負荷に基づいて、前記ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択するオブジェクト選択部と、
前記音響処理対象の音源オブジェクトの音声チャンクを用いてバイノーラル音声を生成する3次元音響レンダリング部と、
を備え、
前記音源メタデータは、前記音源オブジェクトの優先度を含み、
前記オブジェクト選択部は、前記ビュー座標系における前記音源オブジェクトの原点からの距離を前記優先度が大きいほど短くなるように変更した場合に前記音源オブジェクト選択領域に含まれることになる音源オブジェクトを、前記音響処理対象の音源オブジェクトとして選択する受信装置。 A receiving device that receives audio chunks obtained by dividing an audio stream of a sound source object into blocks, and sound source metadata including three-dimensional coordinates of the sound source object in a world coordinate system, comprising:
a coordinate conversion unit that converts the three-dimensional coordinates of the sound source object from a world coordinate system to a view coordinate system;
an object selection unit that defines a sound source object selection area in the view coordinate system based on a processing load of the receiving device, and selects a sound source object located within the sound source object selection area as a sound source object to be subjected to sound processing;
a three-dimensional audio rendering unit that generates binaural audio using audio chunks of the sound source object to be subjected to audio processing;
Equipped with
the audio source metadata includes a priority of the audio source object;
The object selection unit selects, as the sound source object to be subjected to acoustic processing, a sound source object that would be included in the sound source object selection area when the distance from the origin of the sound source object in the view coordinate system is changed so that the greater the priority, the shorter the distance.
前記音源オブジェクトの3次元座標を、ワールド座標系からビュー座標系へ変換する座標変換部と、
当該受信装置の処理負荷に基づいて、前記ビュー座標系において音源オブジェクト選択領域を規定し、該音源オブジェクト選択領域内に位置する音源オブジェクトを、音響処理対象の音源オブジェクトとして選択するオブジェクト選択部と、
前記音響処理対象の音源オブジェクトの音声チャンクを用いてバイノーラル音声を生成する3次元音響レンダリング部と、
を備え、
前記音源メタデータは、前記音源オブジェクトの最大音圧レベルを含み、
前記オブジェクト選択部は、前記ビュー座標系における前記音源オブジェクトの原点からの距離を前記最大音圧レベルが大きいほど短くなるように変更した場合に前記音源オブジェクト選択領域に含まれることになる音源オブジェクトを、前記音響処理対象の音源オブジェクトとして選択する受信装置。 A receiving device that receives audio chunks obtained by blocking an audio stream of a sound source object and sound source metadata including three-dimensional coordinates of the sound source object in a world coordinate system, the receiving device comprising:
a coordinate conversion unit that converts the three-dimensional coordinates of the sound source object from a world coordinate system to a view coordinate system;
an object selection unit that defines a sound source object selection area in the view coordinate system based on the processing load of the receiving device, and selects a sound source object located within the sound source object selection area as a sound source object to be subjected to acoustic processing;
a three-dimensional sound rendering unit that generates binaural sound using the audio chunks of the sound source object to be processed;
Equipped with
The sound source metadata includes a maximum sound pressure level of the sound source object,
The object selection unit selects a sound source object that will be included in the sound source object selection area when the distance from the origin of the sound source object in the view coordinate system is changed such that the larger the maximum sound pressure level, the shorter the distance from the origin. , a receiving device selected as the sound source object to be subjected to the acoustic processing.
前記座標変換部は、前記音源オブジェクトの3次元座標を、前記ワールド座標系から、前記視線方向を軸方向とする前記ビュー座標系へ変換する、請求項1から3のいずれか一項に記載の受信装置。 further comprising a position and orientation estimation unit that estimates the user's line of sight direction;
The coordinate conversion unit converts the three-dimensional coordinates of the sound source object from the world coordinate system to the view coordinate system with the line of sight as the axial direction. Receiving device.
前記座標変換部は、前記音源オブジェクトの3次元座標を、前記ワールド座標系から、前記視点位置を原点とする前記ビュー座標系へ変換する、請求項4に記載の受信装置。 The position and orientation estimation unit estimates a viewpoint position of the user,
The receiving device according to claim 4 , wherein the coordinate conversion unit converts the three-dimensional coordinates of the sound source object from the world coordinate system to the view coordinate system having the viewpoint position as its origin.
前記音響処理対象の音源オブジェクトの音声チャンクを、前記ビュー座標系に配置された仮想マルチチャンネルスピーカに割り当てるマッピング部と、
前記仮想マルチチャンネルスピーカに割り当てられた前記音声チャンクを用いて、前記バイノーラル音声を生成するダウンミックス部と、
を備える、請求項1から5のいずれか一項に記載の受信装置。 The three-dimensional sound rendering unit includes:
a mapping unit that allocates audio chunks of the sound source object to be processed for acoustic processing to virtual multi-channel speakers arranged in the view coordinate system;
a downmix unit that generates the binaural audio using the audio chunk assigned to the virtual multi-channel speaker;
The receiving device according to any one of claims 1 to 5 , comprising:
前記音声チャンクと前記音源メタデータとを関連付けて、前記受信装置に送信する配信装置と、
を備えるコンテンツ伝送システム。 A receiving device according to any one of claims 1 to 6 ,
a distribution device that associates the audio chunk with the sound source metadata and transmits the resulting association to the receiving device;
A content transmission system comprising:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020028692A JP7457525B2 (en) | 2020-02-21 | 2020-02-21 | Receiving device, content transmission system, and program |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020028692A JP7457525B2 (en) | 2020-02-21 | 2020-02-21 | Receiving device, content transmission system, and program |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021136465A JP2021136465A (en) | 2021-09-13 |
JP7457525B2 true JP7457525B2 (en) | 2024-03-28 |
Family
ID=77661826
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020028692A Active JP7457525B2 (en) | 2020-02-21 | 2020-02-21 | Receiving device, content transmission system, and program |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7457525B2 (en) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2023037510A (en) * | 2021-09-03 | 2023-03-15 | 株式会社Gatari | Information processing system, information processing method, and information processing program |
WO2024029634A1 (en) * | 2022-08-03 | 2024-02-08 | マクセル株式会社 | Broadcast reception device, content protection method, processing method for adding reverberation sound, and control method for broadcast reception device |
KR102504088B1 (en) * | 2022-10-21 | 2023-02-28 | 주식회사 킨트 | 3D sound content creation system through virtual reality device |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000013900A (en) | 1998-06-25 | 2000-01-14 | Matsushita Electric Ind Co Ltd | Sound reproducing device |
JP2018019295A (en) | 2016-07-28 | 2018-02-01 | キヤノン株式会社 | Information processing system, control method therefor, and computer program |
WO2018047667A1 (en) | 2016-09-12 | 2018-03-15 | ソニー株式会社 | Sound processing device and method |
WO2018180531A1 (en) | 2017-03-28 | 2018-10-04 | ソニー株式会社 | Information processing device, information processing method, and program |
JP2018191127A (en) | 2017-05-02 | 2018-11-29 | キヤノン株式会社 | Signal generation device, signal generation method, and program |
WO2019198486A1 (en) | 2018-04-09 | 2019-10-17 | ソニー株式会社 | Information processing device and method, and program |
-
2020
- 2020-02-21 JP JP2020028692A patent/JP7457525B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000013900A (en) | 1998-06-25 | 2000-01-14 | Matsushita Electric Ind Co Ltd | Sound reproducing device |
JP2018019295A (en) | 2016-07-28 | 2018-02-01 | キヤノン株式会社 | Information processing system, control method therefor, and computer program |
WO2018047667A1 (en) | 2016-09-12 | 2018-03-15 | ソニー株式会社 | Sound processing device and method |
WO2018180531A1 (en) | 2017-03-28 | 2018-10-04 | ソニー株式会社 | Information processing device, information processing method, and program |
JP2018191127A (en) | 2017-05-02 | 2018-11-29 | キヤノン株式会社 | Signal generation device, signal generation method, and program |
WO2019198486A1 (en) | 2018-04-09 | 2019-10-17 | ソニー株式会社 | Information processing device and method, and program |
Also Published As
Publication number | Publication date |
---|---|
JP2021136465A (en) | 2021-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3684083A1 (en) | Processing audio signals | |
EP3343349B1 (en) | An apparatus and associated methods in the field of virtual reality | |
JP6565903B2 (en) | Information reproducing apparatus and information reproducing method | |
JP7457525B2 (en) | Receiving device, content transmission system, and program | |
US20210092466A1 (en) | Information processing apparatus, information processing method, and program | |
US12081955B2 (en) | Audio apparatus and method of audio processing for rendering audio elements of an audio scene | |
WO2018047667A1 (en) | Sound processing device and method | |
US20190130644A1 (en) | Provision of Virtual Reality Content | |
US20230179756A1 (en) | Information processing device, information processing method, and program | |
CN112272817B (en) | Method and apparatus for providing audio content in immersive reality | |
JP2022500917A (en) | Equipment and methods for processing audiovisual data | |
KR20230088428A (en) | Audio-visual rendering device and its operating method | |
WO2019034804A2 (en) | Three-dimensional video processing | |
CN113676720A (en) | Multimedia resource playing method and device, computer equipment and storage medium | |
US20220036075A1 (en) | A system for controlling audio-capable connected devices in mixed reality environments | |
WO2023199815A1 (en) | Acoustic processing device, program, and acoustic processing system | |
RU2815366C2 (en) | Audio device and audio processing method | |
RU2798414C2 (en) | Audio device and audio processing method | |
RU2823573C1 (en) | Audio device and audio processing method | |
EP4413751A1 (en) | Sound field capture with headpose compensation | |
CN118042345A (en) | Method, device and storage medium for realizing space sound effect based on free view angle |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230123 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20230914 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231031 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231122 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20240220 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20240315 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7457525 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |