JP7235590B2 - Audio distribution system, distribution server, playback device, and program - Google Patents

Audio distribution system, distribution server, playback device, and program Download PDF

Info

Publication number
JP7235590B2
JP7235590B2 JP2019095290A JP2019095290A JP7235590B2 JP 7235590 B2 JP7235590 B2 JP 7235590B2 JP 2019095290 A JP2019095290 A JP 2019095290A JP 2019095290 A JP2019095290 A JP 2019095290A JP 7235590 B2 JP7235590 B2 JP 7235590B2
Authority
JP
Japan
Prior art keywords
audio
volume
stream
parameter
playback device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019095290A
Other languages
Japanese (ja)
Other versions
JP2020190615A (en
Inventor
翔平 森
敏 西村
正男 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2019095290A priority Critical patent/JP7235590B2/en
Publication of JP2020190615A publication Critical patent/JP2020190615A/en
Application granted granted Critical
Publication of JP7235590B2 publication Critical patent/JP7235590B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、音声配信システム、配信サーバ、再生装置、及びプログラムに関する。 The present invention relates to an audio distribution system, a distribution server, a playback device, and a program.

現在広く用いられているチャンネルベース音響方式では、配信側で完成された番組音声を伝送しており、視聴者に音声を選択する自由度は少ない。視聴者が好みの音声を選択して聴くことができる例としては、主音声と副音声の活用が挙げられる。例えば、主音声が母国語であり、副音声が外国語である場合、副音声を選択すれば外国語で動画を視聴することができる。また、主音声としてスポーツ実況の音声が提供され、副音声としてスポーツ実況のない競技場の背景音の音声が提供される場合もある。上記の主音声と副音声の活用のように、配信側で複数種類の音声を生成しておき、再生側で再生する音声を選択する方式とすることで、多様な音声サービスが可能になる。チャンネルベース音響方式において、音声の選択視聴を可能とする配信技術としては、例えば非特許文献1に記載の、MPEG-DASH(Dynamic Adaptive Streaming over HTTP)を用いて音声切り替えを行う技術が知られている。 In the channel-based audio system, which is widely used at present, the complete program sound is transmitted on the distribution side, and the viewer has little freedom in selecting the sound. An example of a viewer's ability to select and listen to their favorite sounds is the utilization of primary and secondary sounds. For example, if the primary audio is in your native language and the secondary audio is in a foreign language, you can view the video in the foreign language by selecting the secondary audio. Also, there is a case where the sound of the sports commentary is provided as the main sound, and the background sound of the stadium without the sports commentary is provided as the sub-audio. As with the use of the main and sub-audio described above, a variety of audio services can be provided by generating multiple types of audio on the distribution side and selecting the audio to be played on the playback side. In the channel-based audio system, as a distribution technology that enables selective viewing of audio, for example, a technique of switching audio using MPEG-DASH (Dynamic Adaptive Streaming over HTTP) described in Non-Patent Document 1 is known. there is

また、近年では、次世代の音声サービスとして、視聴者の好みや視聴環境に応じて番組音声のカスタマイズができるオブジェクトベース音響方式が注目されている。オブジェクトベース音響方式では、音声素材及び音響メタデータを伝送し、再生側のレンダリング機能を用いて、再生する音声信号を生成する。これにより、背景音及び解説音声の音量バランスの調節、外国語の解説音声への切り替えなど、視聴者が自身の好みに合わせて音声をカスタマイズすることができる。 Also, in recent years, as a next-generation audio service, an object-based audio system that can customize program audio according to the preferences of viewers and the viewing environment is attracting attention. In the object-based audio method, audio material and audio metadata are transmitted, and an audio signal to be played is generated using a rendering function on the playback side. As a result, the viewer can customize the sound according to his or her own preferences, such as adjusting the volume balance between the background sound and the commentary sound, switching to the commentary sound in a foreign language, and the like.

オブジェクトベース音響方式の再生技術例として、次の2点が挙げられる。1点目は、伝送された音声素材及び音響メタデータから再生する音声信号を生成するレンダリング機能をハードウェアにより実装する方法である。この方法は、チャンネルベース音響用の再生装置とは別にオブジェクトベース音響用のレンダリング機能を用意するか、オブジェクトベース音響用のレンダリング機能が内蔵された再生装置を用意する必要がある。2点目は、伝送された音声素材及び音響メタデータから再生する音声信号を生成するレンダリング機能を、ウェブブラウザ上でソフトウェアにより実装する方法である。例えば非特許文献2に記載の、ウェブ標準のHTML5の音声信号制御機能であるWeb Audio APIを用いて音声のレンダリングを行う技術が知られている。 The following two points can be cited as examples of reproduction technology of the object-based audio system. The first is a hardware implementation of a rendering function that generates an audio signal to be reproduced from transmitted audio material and acoustic metadata. In this method, it is necessary to prepare a rendering function for object-based audio separately from a playback device for channel-based audio, or to prepare a playback device with a built-in rendering function for object-based audio. The second is a method of implementing a rendering function, which generates an audio signal to be reproduced from transmitted audio material and acoustic metadata, by software on a web browser. For example, as described in Non-Patent Document 2, a technique of rendering audio using Web Audio API, which is a web standard HTML5 audio signal control function, is known.

上記のオブジェクトベース音響方式の再生技術により、再生側で視聴者が自身の好みや視聴環境に応じて番組音声をカスタマイズすることが可能となる。例えば、以下のような音声サービスが挙げられる。日本語の解説音声から英語などの外国語の解説音声に切り替えたり、スポーツ番組においてホーム側解説やビジター側解説に切り替えたりできるマルチ音声サービスが可能である。また、解説音声のみ音量を上げることもでき、高齢者や母語話者でない人などにとっても聞き取りやすい音声に調節することが可能である。さらに、効果音を追加したり、聴取位置を仮想的に切り替えたりといったサービスも考えられる。これらの音声サービスは、ステレオスピーカー、ヘッドフォンなど広く用いられている2チャンネルステレオの他、5.1チャンネルサラウンド、7.1チャンネルサラウンドなどのマルチチャンネルオーディオの再生環境にも対応することができる。 The reproduction technology of the object-based audio system enables the viewer to customize the program sound on the reproduction side according to his/her preference and viewing environment. Examples of voice services include: It is possible to provide a multi-audio service that can switch from Japanese audio commentary to English or other foreign language audio commentary, or switch to home-side commentary or visitor-side commentary for sports programs. In addition, it is possible to increase the volume of only the commentary voice, making it possible to adjust the voice so that it is easy to hear even for the elderly and non-native speakers. Furthermore, services such as adding sound effects and virtually switching the listening position are also conceivable. These audio services can support multi-channel audio playback environments such as 5.1-channel surround and 7.1-channel surround, in addition to widely used 2-channel stereo such as stereo speakers and headphones.

一般財団法人NHKエンジニアリングシステム、“ハイブリッドキャスト関連技術”、[2019年5月8日検索]、インターネット<URL:http://www.nes.or.jp/transfer/catalog/2018/01/71a/>General Incorporated Foundation NHK Engineering Systems, “Hybridcast related technology”, [Searched May 8, 2019], Internet <URL: http://www.nes.or.jp/transfer/catalog/2018/01/71a/ > Chris Pike、Peter Taylour、Frank Melchior、“Proceedings of the 1st Web Audio Conference”、2015Chris Pike, Peter Taylour, Frank Melchior, “Proceedings of the 1st Web Audio Conference”, 2015

オブジェクトベース音響方式の音声サービスを享受するためには、別途用意したオブジェクトベース音響専用のレンダリング装置、レンダリング機能が内蔵された再生装置、又はブラウザ上にレンダリング機能を実装可能な視聴端末が必要となるため、オブジェクトベース音響方式の再生環境を構築することは必ずしも容易ではない。 In order to enjoy the audio service of the object-based audio system, a separately prepared rendering device dedicated to object-based audio, a playback device with a built-in rendering function, or a viewing terminal that can implement the rendering function on the browser is required. Therefore, it is not necessarily easy to construct a reproduction environment for the object-based audio system.

非特許文献2に記載の、ブラウザ上にレンダリング機能を実装する方法により、専用のレンダリング機能を有していなくてもオブジェクトベース音響方式の再生が可能となる。しかし、Web Audio API対応の視聴端末であることが前提であるため、テレビのブラウザや、PCとモバイル端末の一部のブラウザは、Web Audio APIに対応しておらず、上記技術を利用することができない。 The method of implementing a rendering function on a browser, described in Non-Patent Document 2, makes it possible to reproduce an object-based audio system without having a dedicated rendering function. However, since it is assumed that the viewing terminal is compatible with Web Audio API, TV browsers and some browsers of PCs and mobile terminals do not support Web Audio API, and the above technology cannot be used. can't

また、再生側でレンダリングを行うためには、レンダリングに用いる全ての音声素材を配信する必要があるため、チャンネルベース音響方式で単一の音声を配信する場合と比較して、音声素材の伝送量が大幅に増大する。伝送量の増加は、配信負荷の増加やネットワークの混雑につながることから、不必要に伝送量を増大させることは望ましくない。 Also, in order to perform rendering on the playback side, it is necessary to distribute all the audio materials used for rendering. increases significantly. An increase in the transmission volume leads to an increase in distribution load and network congestion, so it is undesirable to increase the transmission volume unnecessarily.

かかる事情に鑑みてなされた本発明の目的は、再生側でレンダリング機能を備えていなくてもオブジェクトベース音響方式の音声サービスを実現でき、且つ従来のオブジェクトベース音響方式よりも伝送量を低減させることが可能な音声配信システム、配信サーバ、再生装置、及びプログラムを提供することにある。 An object of the present invention, which has been made in view of such circumstances, is to realize an object-based audio system voice service even if the playback side does not have a rendering function, and to reduce the amount of transmission compared to the conventional object-based audio system. To provide an audio distribution system, a distribution server, a reproduction device, and a program capable of

上記課題を解決するため、本発明に係る音声配信システムは、レンダリング機能を有さない第1再生装置及びレンダリング機能を有する第2再生装置に音声ストリームを配信する音声配信システムであって、N個の第1音声素材それぞれの音量を増減して音量制御済み第1音声素材を生成する音量制御部と、該音量制御済み第1音声素材を異なる組み合わせで混合して、音量バランス及び組み合わせが異なるN’個のレンダリング済み第1音声素材を生成する音声混合部と、を有するレンダリング装置と、前記N’個のレンダリング済み第1音声素材をそれぞれ符号化してN’個の第1音声ストリームを生成するとともに、M個の第2音声素材をそれぞれ符号化してM個の第2音声ストリームを生成する符号化装置と、前記第1再生装置及び前記第2再生装置からの要求に応じて、N’個のうち1個の前記第1音声ストリームを配信し、前記第2再生装置のみからの要求に応じて、M個のうち要求のあった数の前記第2音声ストリームを配信する配信サーバと、を備えることを特徴とする。 In order to solve the above problems, an audio distribution system according to the present invention is an audio distribution system that distributes an audio stream to a first playback device that does not have a rendering function and a second playback device that has a rendering function. N an audio mixer for generating ' rendered first audio material; and encoding each of said N' rendered first audio materials to generate N' first audio streams. an encoding device for encoding each of M second audio materials to generate M second audio streams; a distribution server that distributes one of the first audio streams among the M audio streams, and distributes the requested number of the second audio streams among the M audio streams in response to a request from only the second playback device; It is characterized by having

さらに、本発明に係る音声配信システムにおいて、前記音声混合部は、前記第1音声素材をカテゴリー別にグルーピングし、カテゴリーごとに1つの音量制御済み第1音声素材を選択して組み合わせることにより、前記レンダリング済み第1音声素材を生成することを特徴とする。 Further, in the audio distribution system according to the present invention, the audio mixing unit groups the first audio materials by category, selects and combines one volume-controlled first audio material for each category, and performs the rendering. The method is characterized by generating a finished first audio material.

さらに、本発明に係る音声配信システムにおいて、前記音声混合部は、受信側においてチャンネルベース音響方式の音量を増減させることにより等価な音量バランスを再構築できる組み合わせを除外して、前記レンダリング済み第1音声素材を生成することを特徴とする。 Further, in the audio distribution system according to the present invention, the audio mixing unit excludes combinations that can reconstruct an equivalent volume balance by increasing or decreasing the volume of the channel-based audio system on the receiving side, and removes the rendered first It is characterized by generating voice material.

また、上記課題を解決するため、本発明に係る配信サーバは、レンダリング機能を有さない第1再生装置及びレンダリング機能を有する第2再生装置に音声ストリームを配信する配信サーバであって、音量バランス及び組み合わせが異なるN’個のレンダリング済み第1音声素材、及びM個の第2音声素材をそれぞれ符号化した、N’個の第1音声ストリーム及びM個の第2音声ストリームを記憶し、前記第1再生装置及び前記第2再生装置からの要求に応じて、N’個のうち1個の前記第1音声ストリームを配信し、前記第2再生装置のみからの要求に応じて、M個のうち要求のあった数の前記第2音声ストリームを配信することを特徴とする。 In order to solve the above problems, a distribution server according to the present invention is a distribution server that distributes an audio stream to a first playback device that does not have a rendering function and a second playback device that has a rendering function. and storing N′ first audio streams and M second audio streams respectively encoding N′ rendered first audio materials and M second audio materials in different combinations; One of the N′ first audio streams is delivered in response to requests from the first playback device and the second playback device, and M audio streams are delivered in response to requests from the second playback device only. It is characterized by distributing the second audio stream as many as requested.

また、上記課題を解決するため、本発明に係る再生装置は、配信サーバから第1音声素材の音声ストリームである第1音声ストリームを受信する再生装置であって、視聴者により選択された、チャンネルベース音響方式として第1音声ストリームを再構築することができる音量バランスを表す第1音量バランスパラメータを取得するパラメータ取得部と、前記第1音量バランスパラメータに対応する、配信側にて第1音声素材同士を混合する際の音量バランスを表す第1音量バランス基準パラメータを決定し、該第1音量バランス基準パラメータに従う1個の第1音声ストリームを決定する要求ストリーム決定部と、前記要求ストリーム決定部により決定された前記第1音声ストリームを前記配信サーバから受信するストリーム受信部と、前記第1音量バランスパラメータ及び前記第1音量バランス基準パラメータの差に基づいて、前記ストリーム受信部により受信した前記第1音声ストリームの音量バランスを制御する音量制御部と、を備えることを特徴とする。 Further, in order to solve the above problems, a playback device according to the present invention is a playback device that receives a first audio stream, which is an audio stream of a first audio material, from a distribution server, and is a playback device that receives a channel selected by a viewer. A parameter acquisition unit for acquiring a first volume balance parameter representing a volume balance capable of reconstructing a first audio stream as a base acoustic scheme, and a first audio material on the distribution side corresponding to the first volume balance parameter a request stream determination unit that determines a first volume balance reference parameter that represents a volume balance when mixing audio streams, and determines one first audio stream that follows the first volume balance reference parameter; a stream receiving unit configured to receive the determined first audio stream from the distribution server; and a volume controller for controlling the volume balance of the audio stream.

さらに、本発明に係る再生装置において、前記パラメータ取得部は、さらに視聴者により選択された素材組み合わせパラメータを取得し、前記要求ストリーム決定部は、前記素材組み合わせパラメータ及び前記第1音量バランスパラメータに従う1個の第1音声ストリームを決定することを特徴とする。 Further, in the reproducing apparatus according to the present invention, the parameter acquisition unit further acquires a material combination parameter selected by the viewer, and the requested stream determination unit complies with the material combination parameter and the first volume balance parameter. It is characterized by determining the number of first audio streams.

さらに、本発明に係る再生装置において、前記パラメータ取得部は、さらに視聴者により選択された1以上の第2音声ストリームの音量バランスを表すパラメータを第2音量バランスパラメータとして取得し、前記要求ストリーム決定部は、さらに第2音量バランスパラメータに従う1以上の第2音声ストリームを決定し、前記ストリーム受信部は、さらに前記要求ストリーム決定部により決定された前記1以上の第2音声ストリームを前記配信サーバから受信し、前記音量制御部は、さらに前記第2音量バランスパラメータに基づいて、前記ストリーム受信部により受信した前記第2音声ストリームの音量バランスを制御することを特徴とする。 Further, in the reproducing apparatus according to the present invention, the parameter acquisition unit further acquires a parameter indicating volume balance of one or more second audio streams selected by the viewer as a second volume balance parameter, and determines the requested stream. The unit further determines one or more second audio streams according to a second volume balance parameter, and the stream receiving unit further transmits the one or more second audio streams determined by the requested stream determination unit from the distribution server. Further, the volume control unit controls the volume balance of the second audio stream received by the stream receiving unit based on the second volume balance parameter.

また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを、上記再生装置として機能させることを特徴とする。 Further, in order to solve the above problems, a program according to the present invention causes a computer to function as the playback device.

本発明によれば、視聴者が好みや再生環境に応じて音声をカスタマイズすることのできるオブジェクトベース音響方式の音声サービスを、再生側でレンダリング機能を備えていなくても簡易的に実現することができる。また、再生側でオブジェクトベース音響専用のレンダリング機能を備えている場合には、従来の再生技術の利点を損なわない。さらに、従来のオブジェクトベース音響方式と比べて、音声サービスを実現するための音声の配信負荷を低減することができる。 According to the present invention, it is possible to easily realize an object-based audio system audio service that allows a viewer to customize audio according to his or her preferences and playback environment, even if the playback side does not have a rendering function. can. Also, if the playback side has a rendering function dedicated to object-based audio, the advantages of the conventional playback technology are not lost. Furthermore, compared to the conventional object-based acoustic system, it is possible to reduce the audio distribution load for realizing the audio service.

本発明の一実施形態に係る音声配信システムの構成例を示す図である。1 is a diagram showing a configuration example of an audio distribution system according to one embodiment of the present invention; FIG. 本発明の一実施形態に係る音声配信システムにおけるレンダリング装置の構成例を示す図である。1 is a diagram showing a configuration example of a rendering device in an audio distribution system according to an embodiment of the present invention; FIG. 本発明の一実施形態に係る音声配信システムにおけるレンダリング装置で生成する音声数を低減する第1の方法を示す図である。FIG. 4 is a diagram showing a first method for reducing the number of sounds generated by a rendering device in the sound distribution system according to one embodiment of the present invention; 本発明の一実施形態に係る音声配信システムにおけるレンダリング装置で生成する音声数を低減する第2の方法を示す図である。FIG. 5 is a diagram illustrating a second method for reducing the number of sounds generated by a rendering device in the audio delivery system according to one embodiment of the present invention; 本発明の一実施形態に係る音声配信システムにおけるレンダリング装置で生成する音声数を低減する第2の方法を示す図である。FIG. 5 is a diagram illustrating a second method for reducing the number of sounds generated by a rendering device in the audio delivery system according to one embodiment of the present invention; 本発明の一実施形態に係る音声配信システムにおける符号化装置の入出力信号を示す図である。4 is a diagram showing input and output signals of an encoding device in the audio distribution system according to one embodiment of the present invention; FIG. 本発明の一実施形態に係る第1再生装置の構成例を示す図である。1 is a diagram showing a configuration example of a first playback device according to an embodiment of the present invention; FIG. 本発明の一実施形態に係る第1再生装置の音量制御動作の一例を示すフローチャートである。4 is a flow chart showing an example of volume control operation of the first playback device according to one embodiment of the present invention. 本発明の一実施形態に係る第2再生装置の構成例を示す図である。FIG. 4 is a diagram showing a configuration example of a second playback device according to one embodiment of the present invention; 本発明の一実施形態に係る第2音声素材の音量バランスの選択画面の一例を示す図である。FIG. 8 is a diagram showing an example of a selection screen for volume balance of a second audio material according to one embodiment of the present invention; 本発明の一実施形態に係る第2再生装置におけるレンダリング処理部の構成例を示すブロック図である。FIG. 4 is a block diagram showing a configuration example of a rendering processing unit in the second playback device according to one embodiment of the present invention; 本発明の一実施形態に係る第1再生装置及び第2再生装置の音声再生方法の一例を示すフローチャートである。4 is a flow chart showing an example of an audio reproduction method of the first reproduction device and the second reproduction device according to one embodiment of the present invention;

以下、本発明の一実施形態について、図面を参照して詳細に説明する。 An embodiment of the present invention will be described in detail below with reference to the drawings.

図1は、本発明の一実施形態に係る音声配信システムの構成例を示す図である。図1に示すように、音声配信システム1は、レンダリング装置10と、符号化装置20と、配信サーバ30とを備え、音声を配信する。なお、以下の実施形態では音声配信に関して説明するが、映像を併せて配信してもよい。したがって、本発明は動画に含まれる音声に対して適用することもできる。 FIG. 1 is a diagram showing a configuration example of an audio distribution system according to one embodiment of the present invention. As shown in FIG. 1, an audio distribution system 1 includes a rendering device 10, an encoding device 20, and a distribution server 30, and distributes audio. Note that although audio distribution will be described in the following embodiments, video may also be distributed together. Therefore, the present invention can also be applied to audio contained in moving images.

音声配信システム1は、第1音声素材の音声ストリームを、ネットワーク60を介して、レンダリング機能を有さない1以上の第1再生装置40及びレンダリング機能を有する1以上の第2再生装置50の双方に配信する。また、音声配信システム1は、第2音声素材の音声ストリームを、ネットワーク60を介して、1以上の第2再生装置50に配信する。図1では便宜上、第1再生装置40及び第2再生装置50を1つずつ示している。 The audio distribution system 1 distributes the audio stream of the first audio material via the network 60 to both the one or more first playback devices 40 that do not have the rendering function and the one or more second playback devices 50 that have the rendering function. deliver to The audio distribution system 1 also distributes the audio stream of the second audio material to one or more second playback devices 50 via the network 60 . For convenience, FIG. 1 shows one first playback device 40 and one second playback device 50 .

ここで、第1音声素材は、番組音声を構成する上で頻繁に用いられる音声素材であり、第2音声素材は、番組音声を構成する上で頻繁には用いられない音声素材である。一例としてスポーツ番組の場合、第1音声素材には日本語解説音声、英語解説音声、ホーム側解説、ビジター側解説、会場の背景音、ホーム側背景音、ビジター側背景音などを割り当てることが考えられる。また、第2音声素材には特定の選手の音声や効果音、第1音声素材に含まれていない外国語、2チャンネルステレオ以外の5.1チャンネルサラウンド、7.1チャンネルサラウンドなどのマルチチャンネルオーディオ用などを割り当てることが考えられる。 Here, the first audio material is an audio material that is frequently used in constructing the program audio, and the second audio material is an audio material that is not frequently used in constructing the program audio. As an example, in the case of a sports program, it is conceivable to assign Japanese commentary, English commentary, home side commentary, visitor side commentary, venue background sound, home side background sound, visitor side background sound, etc. to the first audio material. be done. In addition, the second audio material includes the voices of specific players and sound effects, foreign languages not included in the first audio material, and multi-channel audio such as 5.1-channel surround other than 2-channel stereo and 7.1-channel surround. It is conceivable to allocate

レンダリング装置10は、音声配信システム1の外部からN個の第1音声素材を入力し、音量バランス及び組み合わせが異なるN’個の音声(レンダリング済み第1音声素材)を生成する。 The rendering device 10 inputs N first audio materials from the outside of the audio distribution system 1 and generates N' audios (rendered first audio materials) with different volume balances and combinations.

図2は、レンダリング装置10の構成例を示す図である。図2に示すように、レンダリング装置10は、N個の音量制御部11と、音声混合部12とを備える。 FIG. 2 is a diagram showing a configuration example of the rendering device 10. As shown in FIG. As shown in FIG. 2 , the rendering device 10 includes N volume control units 11 and an audio mixing unit 12 .

各音量制御部11は、第1音声素材の音量を増減してG個の音量制御済み第1音声素材を生成し、音声混合部12に出力する。 Each volume control unit 11 increases or decreases the volume of the first audio material to generate G volume-controlled first audio materials and outputs them to the audio mixing unit 12 .

音声混合部12は、N個の音量制御部11から入力された音量制御済み第1音声素材を様々な異なる組み合わせで混合して、音量バランス及び組み合わせが異なるN’個のレンダリング済み第1音声素材を生成し、符号化装置20に出力する。音量制御部11で調節するゲインをG通りとするとき、レンダリング装置10で生成するレンダリング済み第1音声素材の音声数N’の最大値は、数学的にはG個となる。しかし、G個全ての音声を生成するとなると、レンダリング装置10や符号化装置20における処理負荷が増大することや、配信サーバ30に記憶させるデータ量が膨大となることが問題になり得る。そこで、音声数N’を低減させる方法について以下に説明する。 The audio mixing unit 12 mixes the volume-controlled first audio materials input from the N volume control units 11 in various different combinations to produce N′ rendered first audio materials with different volume balances and combinations. is generated and output to the encoding device 20 . Assuming that there are G gains to be adjusted by the volume control unit 11, the maximum number of voices N' of the rendered first audio material generated by the rendering device 10 is mathematically GN . However, if all G N sounds are generated, the processing load on the rendering device 10 and the encoding device 20 will increase, and the amount of data to be stored in the distribution server 30 will become enormous. Therefore, a method for reducing the number of voices N' will be described below.

図3は、レンダリング装置10で生成する音声数N’を低減する第1の方法を示す図である。この方法では、音声混合部12は、音量制御済み第1音声素材をカテゴリー別にグルーピングし、カテゴリーごとに1つの音量制御済み第1音声素材を選択して組み合わせることにより、N’個のレンダリング済み第1音声素材を生成する。これにより、番組音声を構成する際に不要な組み合わせを除外することができ、生成する音声数を低減することができる。該グルーピングは、レンダリング装置10のユーザの指示に基づいてなされてもよいし、音量制御済み第1音声素材の音声信号から抽出した特徴量などに基づいて自動化されてもよい。 FIG. 3 is a diagram showing a first method for reducing the number of sounds N' generated by the rendering device 10. As shown in FIG. In this method, the audio mixing unit 12 groups the volume-controlled first audio materials by category, selects one volume-controlled first audio material for each category, and combines them into N′ rendered first audio materials. 1 Generate audio material. As a result, unnecessary combinations can be excluded when constructing the program sound, and the number of sounds to be generated can be reduced. The grouping may be performed based on an instruction from the user of the rendering device 10, or may be automated based on a feature extracted from the audio signal of the volume-controlled first audio material.

図3に示す例では、スポーツ番組の第1音声素材として日本語解説、英語解説、ホーム側解説、ビジター解説、会場背景、ホーム側背景、及びビジター側背景の7個があり、これら7個の第1音声素材を、解説音声カテゴリーと背景音カテゴリーにグルーピングする。解説音声カテゴリーは、日本語解説音声、英語解説音声、ホーム側解説、及びビジター側解説の4個であり、背景音カテゴリーは、会場の背景音、ホーム側背景音、ビジター側背景音の3個である。視聴操作ではそれぞれのカテゴリーから所望の第1音声素材を1つずつ選択するため、解説音声同士、背景音同士などの不要な組み合わせを削減することができる。したがって、このスポーツ番組の場合、1組の音量バランスに対しては、組み合わせの異なる4×3=12通りの音声を生成すればよい。一例を示したが、カテゴリー数は任意でよく、カテゴリーA、カテゴリーBなどと一般化して記述してもよい。このように、どの音声素材同士を混合するかを示すパラメータを、素材組み合わせパラメータと称する。 In the example shown in FIG. 3, there are seven first audio materials of a sports program: Japanese commentary, English commentary, home-side commentary, visitor-side commentary, venue background, home-side background, and visitor-side background. The first audio material is grouped into a commentary audio category and a background sound category. There are four audio commentary categories: Japanese audio commentary, English audio commentary, home side commentary, and visitor side commentary. There are three background sound categories: venue background sound, home side background sound, and visitor side background sound. is. In the viewing operation, desired first audio materials are selected one by one from each category, so unnecessary combinations of commentary voices, background sounds, and the like can be reduced. Therefore, in the case of this sports program, 4×3=12 sounds with different combinations should be generated for one set of volume balance. Although an example is shown, the number of categories may be arbitrary, and generalized descriptions such as category A and category B may be used. A parameter indicating which audio materials are to be mixed in this way is called a material combination parameter.

図4は、レンダリング装置10で生成する音声数N’を低減する第2の方法を示す図である。この方法では、音声混合部12は、受信側においてチャンネルベース音響方式の音量を増減させることにより等価な音量バランスを再構築できる組み合わせを除外して、N’個のレンダリング済み第1音声素材を生成する。ここでは、図3と同じく、カテゴリー数が2個である場合の例について考える。音量制御部11で調節する音量は任意だが、一例として元の音声素材に対して、-6dB,-3dB,0dB,+3dB,+6dBの5通り(G=5)で音量制御を行うとする。カテゴリーAとカテゴリーBから選択した1組の第1音声素材に対する音量バランスは、図のように全部で25通りとなる。 FIG. 4 is a diagram showing a second method for reducing the number of sounds N' generated by the rendering device 10. As shown in FIG. In this method, the audio mixing unit 12 generates N' rendered first audio materials by excluding combinations that can reconstruct an equivalent volume balance by increasing or decreasing the volume of the channel-based audio system on the receiving side. do. Here, as in FIG. 3, consider an example in which the number of categories is two. Although the volume to be adjusted by the volume control unit 11 is arbitrary, as an example, it is assumed that volume control is performed in five ways (G=5) of −6 dB, −3 dB, 0 dB, +3 dB, and +6 dB for the original voice material. There are a total of 25 volume balances for a set of first audio materials selected from category A and category B, as shown in the figure.

ここで、例えばカテゴリーAが+6dBでカテゴリーBが-3dBである組み合わせに着目すると、共に3dB分音量を下げたカテゴリーAが+3dBでカテゴリーBが-6dBである組み合わせは、チャンネルベース音響方式としての音量を3dB分下げることと等価である。したがって、オブジェクトベース音響方式のレンダリング機能を有していない第1再生装置40においても、カテゴリーAが+6dBでカテゴリーBが-3dBである組み合わせを配信すれば、カテゴリーAが+3dBでカテゴリーBが-6dBである組み合わせを再構築することができる。同様に、図4Aの斜線部に該当する音量バランスの組み合わせは受信側で再構築することができるため、レンダリング装置10による音声生成は不要である。したがって、音声混合部12は、カテゴリーAとカテゴリーBから選択した1組の第1音声素材に対して、(+6dB,-6dB)、(+6dB,-3dB)、(+6dB,0dB)、(+6dB,+3dB)、(+6dB,+6dB)、(+3dB,+6dB)、(0dB,+6dB)、(-3dB,+6dB)、(-6dB,+6dB)の9通りの音量バランスの異なる音声を生成すればよい。 Here, for example, if we focus on the combination of +6 dB in category A and -3 dB in category B, the combination of +3 dB in category A and -6 dB in category B, which both lower the volume by 3 dB, has the same volume as the channel-based acoustic system. is equivalent to lowering by 3 dB. Therefore, even in the first playback device 40 that does not have the rendering function of the object-based audio method, if a combination of +6 dB for category A and -3 dB for category B is distributed, category A is +3 dB and category B is -6 dB. can be reconstructed. Similarly, the volume balance combinations corresponding to the shaded areas in FIG. 4A can be reconstructed at the receiving end, and thus do not require audio generation by the rendering device 10 . Therefore, the audio mixing unit 12 performs (+6 dB, -6 dB), (+6 dB, -3 dB), (+6 dB, 0 dB), (+6 dB, +3 dB), (+6 dB, +6 dB), (+3 dB, +6 dB), (0 dB, +6 dB), (-3 dB, +6 dB), (-6 dB, +6 dB).

図4Bは、第1音量バランス基準パラメータと第1音量バランスパラメータとの対応表の一例を示す図である。ここで、第1音量バランス基準パラメータとは、配信側(レンダリング装置10)にて第1音声素材同士を混合する際の音量バランスを表すパラメータである。第1音量バランスパラメータとは、視聴操作で選択でき、再生側(第1再生装置40及び第2再生装置50)にてチャンネルベース音響方式として第1音声ストリームを再構築することができる音量バランスを表すパラメータである。 FIG. 4B is a diagram showing an example of a correspondence table between first volume balance reference parameters and first volume balance parameters. Here, the first sound volume balance reference parameter is a parameter representing the sound volume balance when mixing the first audio materials on the distribution side (rendering device 10). The first volume balance parameter is a volume balance that can be selected by a viewing operation and that can reconstruct the first audio stream as a channel-based audio system on the playback side (the first playback device 40 and the second playback device 50). is a parameter that represents

図4Bに示す対応表は、右欄の第1音量バランスパラメータに従う音量制御が、左欄の第1音量バランス基準パラメータに従って音量制御された音声を基準として行われることを意味する。第1音量バランス基準パラメータに従ってレンダリングした音声素材を配信すれば、その第1音量バランス基準パラメータに対応する第1音量バランスパラメータの音声へは、受信側においてチャンネルベース音響方式で音量を増減させることにより変換することができる。以上より、図3及び図4に示した例であれば、音声混合部12は、組み合わせと音量バランスが異なるレンダリング済み第1音声素材を、合計で12×9=108通り生成すればよい。 The correspondence table shown in FIG. 4B means that volume control according to the first volume balance parameter in the right column is performed on the basis of the sound volume-controlled according to the first volume balance reference parameter in the left column. If the audio material rendered according to the first volume balance reference parameter is distributed, the audio of the first volume balance parameter corresponding to the first volume balance reference parameter can be obtained by increasing or decreasing the volume in the channel-based acoustic method on the receiving side. can be converted. From the above, in the example shown in FIGS. 3 and 4, the audio mixing unit 12 should generate a total of 12×9=108 rendered first audio materials with different combinations and volume balances.

さらに、音声混合部12は、視聴者によって選択される数が統計的に少ない組み合わせを除外して、N’個のレンダリング済み第1音声素材を生成してもよい。これにより、生成する音声数N’を更に低減させることができる。例えば、過去に放送された類似の構成の番組で用いられていた音声素材の組み合わせのアクセス率を取得し、アクセス率が閾値(例えば1%)未満の組み合わせを生成しないようにする。閾値は、組み合わせ数や視聴者層などの複数の要因で変化するため、適宜変更してもよい。また、該アクセス率は、レンダリング装置10のユーザが入力してもよい。 Furthermore, the audio mixer 12 may generate N′ rendered first audio materials by excluding combinations that are statistically less frequently selected by viewers. This makes it possible to further reduce the number of voices N' to be generated. For example, the access rates of combinations of audio materials used in programs with similar configurations that were broadcast in the past are obtained, and combinations with access rates below a threshold (for example, 1%) are not generated. Since the threshold varies depending on a plurality of factors such as the number of combinations and viewer demographics, it may be changed as appropriate. Alternatively, the access rate may be input by the user of the rendering device 10 .

図5は、符号化装置20の入出力信号を示す図である。図5に示すように、符号化装置20は、レンダリング装置10から入力されたN’個のレンダリング済み第1音声素材をそれぞれ符号化してストリーム形式に変換し、N’個の第1音声ストリームを生成し、配信サーバ30に送信する。また、符号化装置20は、音声配信システム1の外部から入力されたM個の第2音声素材をそれぞれ符号化してストリーム形式に変換し、M個の第2音声ストリームを生成し、配信サーバ30に送信する。配信プロトコルには、MPEG-DASHやHTTP Live Streamingなどのストリーミング方式を利用してもよい。 FIG. 5 is a diagram showing input and output signals of the encoding device 20. As shown in FIG. As shown in FIG. 5, the encoding device 20 encodes each of the N′ rendered first audio materials input from the rendering device 10, converts them into a stream format, and converts N′ first audio streams. Generate and transmit to distribution server 30 . Further, the encoding device 20 encodes each of M second audio materials input from outside the audio distribution system 1 and converts them into a stream format, generates M second audio streams, and distributes them to the distribution server 30 . Send to A streaming method such as MPEG-DASH or HTTP Live Streaming may be used as the distribution protocol.

再び図1を参照する。配信サーバ30は、符号化装置20から送信された第1音声ストリーム及び第2音声ストリームを、記憶部31に格納し、第1再生装置40,50から要求のあったストリームを配信する。第1音声ストリームについては、配信サーバ30は第1再生装置40及び第2再生装置50のいずれからも要求を受け付け、N’個のうち1個の第1音声ストリームを配信する。第2音声ストリームについては、配信サーバ30は第2再生装置50のみからの要求を受け付け、M個のうち要求のあった数の第2音声ストリームを配信する。 Refer to FIG. 1 again. The distribution server 30 stores the first audio stream and the second audio stream transmitted from the encoding device 20 in the storage unit 31 and distributes the streams requested by the first playback devices 40 and 50 . As for the first audio stream, the distribution server 30 receives requests from both the first reproduction device 40 and the second reproduction device 50, and distributes one of the N' first audio streams. As for the second audio streams, the distribution server 30 accepts requests only from the second playback devices 50, and distributes the requested number of the second audio streams among the M pieces.

<第1再生装置>
次に、レンダリング機能を有さない第1再生装置40について説明する。図6は、第1再生装置40の構成例を示す図である。第1再生装置40は、通信インターフェース41と、パラメータ取得部42と、パラメータ保持部43と、要求ストリーム決定部44と、ストリーム配信要求部45と、ストリーム受信部46と、音量制御指示部47と、音量制御部48と、再生処理部49とを備える。
<First playback device>
Next, the first playback device 40 that does not have a rendering function will be described. FIG. 6 is a diagram showing a configuration example of the first playback device 40. As shown in FIG. The first playback device 40 includes a communication interface 41, a parameter acquisition unit 42, a parameter storage unit 43, a request stream determination unit 44, a stream delivery request unit 45, a stream reception unit 46, and a volume control instruction unit 47. , a volume control unit 48 and a reproduction processing unit 49 .

通信インターフェース41は、イーサネット(登録商標)インターフェース、無線LANインターフェースなどであり、有線又は無線によりネットワーク60と接続する。 The communication interface 41 is an Ethernet (registered trademark) interface, a wireless LAN interface, or the like, and connects to the network 60 by wire or wirelessly.

パラメータ取得部42は、図3に示したような素材組み合わせパラメータを表示部(図示しない)に表示させる。そして、視聴者により選択された素材組み合わせパラメータを取得し、パラメータ保持部43に出力する。また、パラメータ取得部42は、第1音声素材の組み合わせに対して、図4Bの右欄に示したような第1音量バランスパラメータを表示部に表示させる。そして、視聴者により選択された第1音量バランスパラメータを取得し、パラメータ保持部43に出力する。なお、表示部に表示させるための素材組み合わせパラメータ及び第1音量バランスパラメータは、配信サーバ30から予め受信しておく。 The parameter acquisition unit 42 causes the display unit (not shown) to display material combination parameters as shown in FIG. Then, it acquires the material combination parameter selected by the viewer and outputs it to the parameter holding unit 43 . Further, the parameter acquisition unit 42 causes the display unit to display the first volume balance parameters as shown in the right column of FIG. 4B for the combination of the first audio materials. Then, it acquires the first volume balance parameter selected by the viewer and outputs it to the parameter holding unit 43 . Note that the material combination parameter and the first sound volume balance parameter to be displayed on the display unit are received in advance from the distribution server 30 .

パラメータ保持部43は、パラメータ取得部42により取得した素材組み合わせパラメータ及び第1音量バランスパラメータを、パラメータ取得部42により新たにパラメータが取得されるまで保持する。パラメータ保持部43が保持しているパラメータは、ストリーム配信要求部45及び音量制御指示部47からの参照要求に応じて、パラメータを提示する。 The parameter holding unit 43 holds the material combination parameter and the first volume balance parameter acquired by the parameter acquiring unit 42 until the parameter acquiring unit 42 acquires new parameters. The parameters held by the parameter holding unit 43 are presented in response to reference requests from the stream distribution requesting unit 45 and volume control instruction unit 47 .

要求ストリーム決定部44は、パラメータ取得部42により取得された第1音量バランスパラメータに対応する第1音量バランス基準パラメータを決定する。そして、要求ストリーム決定部44は、素材組み合わせパラメータ及び第1音量バランス基準パラメータに従う1個の第1音声ストリームを決定し、ストリーム配信要求部45に出力する。 The requested stream determination unit 44 determines the first volume balance reference parameter corresponding to the first volume balance parameter acquired by the parameter acquisition unit 42 . Then, the requested stream determination unit 44 determines one first audio stream according to the material combination parameter and the first volume balance reference parameter, and outputs it to the stream distribution request unit 45 .

ストリーム配信要求部45は、要求ストリーム決定部44により決定された1個の第1音声ストリームを、配信サーバ30に要求する。 The stream distribution requesting unit 45 requests the distribution server 30 for one first audio stream determined by the requested stream determining unit 44 .

ストリーム受信部46は、要求ストリーム決定部44により決定された1個の第1音声ストリームを、配信サーバ30から受信し、バッファリングする。 The stream receiving unit 46 receives one first audio stream determined by the requested stream determining unit 44 from the distribution server 30 and buffers it.

音量制御指示部47は、第1音量バランス基準パラメータ及び第1音量バランスパラメータの差に基づいて、ストリーム受信部46により受信した第1音声ストリームの音量バランスから、第1音量バランスパラメータに基づく音量バランスに再構築するための、第1音声ストリームの音量制御指示値を決定し、音量制御部48に出力する。 Based on the difference between the first volume balance reference parameter and the first volume balance parameter, the volume control instruction unit 47 converts the volume balance of the first audio stream received by the stream receiving unit 46 into the volume balance based on the first volume balance parameter. determines a volume control instruction value for the first audio stream for reconstruction into a volume control unit 48;

音量制御部48は、音量制御指示部47により決定された指示値に従って、ストリーム受信部46により受信した第1音声ストリームの音量バランスを制御し、再生処理部49に出力する。 The volume control unit 48 controls the volume balance of the first audio stream received by the stream reception unit 46 according to the instruction value determined by the volume control instruction unit 47 and outputs the result to the reproduction processing unit 49 .

再生処理部49は、音量制御部48から入力された音声信号を再生する。音声信号の再生にはスピーカー、ヘッドフォンなどを用いればよい。なお、再生処理部49を第1再生装置40から分離し、通信インターフェース41を介して別の装置で音声信号を再生してもよい。 The reproduction processing unit 49 reproduces the audio signal input from the volume control unit 48 . A speaker, headphones, or the like may be used to reproduce the audio signal. Note that the reproduction processing unit 49 may be separated from the first reproduction device 40 and the audio signal may be reproduced by another device via the communication interface 41 .

図7は、音量制御指示部47及び音量制御部48の動作例を示すフローチャートである。ステップS101では、音量制御指示部47は、パラメータ保持部43から視聴操作により選択された第1音量バランスパラメータを取得する。 FIG. 7 is a flow chart showing an operation example of the volume control instructing section 47 and the volume control section 48. As shown in FIG. In step S<b>101 , the volume control instructing unit 47 acquires the first volume balance parameter selected by the viewing operation from the parameter holding unit 43 .

ステップS102では、音量制御指示部47は、図4Bに例示したような第1音量バランス基準パラメータ及び第1音量バランスパラメータの対応表に基づいて、第1音量バランスパラメータと、該第1音量バランスパラメータに対応する第1音量バランス基準パラメータとを比較する。両者が等しい場合には処理をステップS103に進め、両者が等しくない場合には処理をステップS104に進める。 In step S102, the volume control instructing unit 47 selects the first volume balance parameter and the first volume balance parameter based on the correspondence table of the first volume balance reference parameter and the first volume balance parameter as illustrated in FIG. 4B. with a first volume balance reference parameter corresponding to . If both are equal, the process proceeds to step S103, and if they are not equal, the process proceeds to step S104.

ステップS103では、第1音量バランス基準パラメータ及び第1音量バランスパラメータが等しいため、音量バランスを再構築する必要がない。したがって、音量制御指示部47は音声制御値を0[dB]とする。この場合、音量制御部48は音量制御を行わない。 In step S103, since the first volume balance reference parameter and the first volume balance parameter are equal, there is no need to reconstruct the volume balance. Therefore, the volume control instruction unit 47 sets the audio control value to 0 [dB]. In this case, the volume control unit 48 does not perform volume control.

ステップS104では、第1音量バランス基準パラメータ及び第1音量バランスパラメータが異なるため、音量バランスを再構築する必要がある。そのため、音量制御指示部47は、第1音量バランスパラメータから、該第1音量バランスパラメータに対応する第1音量バランス基準パラメータを引いた差を計算し、その差x[dB]を音量制御指示値とする。例えば第1音量バランスパラメータが(0dB,-3dB)であり、図4Bに示した対応表を参照する場合、該第1音量バランスパラメータ対応する第1音量バランス基準パラメータは(+6dB,+3dB)であるため、音量制御指示値x=-6[dB]となる。 In step S104, since the first volume balance reference parameter and the first volume balance parameter are different, it is necessary to reconstruct the volume balance. Therefore, the volume control instruction unit 47 calculates the difference obtained by subtracting the first volume balance reference parameter corresponding to the first volume balance parameter from the first volume balance parameter, and converts the difference x [dB] to the volume control instruction value. and For example, when the first volume balance parameter is (0 dB, -3 dB) and referring to the correspondence table shown in FIG. 4B, the first volume balance reference parameter corresponding to the first volume balance parameter is (+6 dB, +3 dB). Therefore, the volume control instruction value x=-6 [dB].

ステップS105では、音量制御部48は音量制御指示値xが正の場合にはx[dB]分音量を増加させ、xが負の値の場合は|x|[dB]分音量を減少させる音量制御を行う。 In step S105, the volume control unit 48 increases the volume by x [dB] when the volume control instruction value x is positive, and decreases the volume by |x| [dB] when x is a negative value. control.

<第2再生装置>
次に、レンダリング機能を有する第2再生装置50について説明する。図8は、第2再生装置50の構成例を示す図である。第2再生装置50は、通信インターフェース51と、パラメータ取得部52と、パラメータ保持部53と、要求ストリーム決定部54と、ストリーム配信要求部55と、ストリーム受信部56と、音量制御指示部57と、レンダリング処理部58と、再生処理部59とを備える。
<Second playback device>
Next, the second playback device 50 having a rendering function will be described. FIG. 8 is a diagram showing a configuration example of the second playback device 50. As shown in FIG. The second playback device 50 includes a communication interface 51, a parameter acquisition unit 52, a parameter storage unit 53, a request stream determination unit 54, a stream delivery request unit 55, a stream reception unit 56, and a volume control instruction unit 57. , a rendering processing unit 58 and a reproduction processing unit 59 .

通信インターフェース51は、第1再生装置40の通信インターフェース41と同様に、有線又は無線によりネットワーク60と接続する。 The communication interface 51 connects to the network 60 by wire or wirelessly, like the communication interface 41 of the first playback device 40 .

パラメータ取得部52は、第1再生装置40のパラメータ取得部42と同様に、図3に示したような素材組み合わせパラメータを表示部(図示しない)に表示させる。そして、視聴者により選択された素材組み合わせパラメータを取得し、パラメータ保持部53に出力する。また、パラメータ取得部52は、第1再生装置40のパラメータ取得部42と同様に、第1音声素材の組み合わせに対して、図4Bの右欄に示したような第1音量バランスパラメータを表示部に表示させる。そして、視聴者により選択された第1音量バランスパラメータを取得し、パラメータ保持部53に出力する。 Like the parameter acquisition unit 42 of the first playback device 40, the parameter acquisition unit 52 causes the display unit (not shown) to display material combination parameters as shown in FIG. Then, the material combination parameter selected by the viewer is acquired and output to the parameter holding unit 53 . Further, similarly to the parameter acquisition unit 42 of the first playback device 40, the parameter acquisition unit 52 displays the first volume balance parameters as shown in the right column of FIG. 4B for the combination of the first audio materials. to display. Then, it acquires the first volume balance parameter selected by the viewer and outputs it to the parameter holding unit 53 .

さらに、パラメータ取得部52は、図9に示すような第2音声素材の音量バランスの選択画面を表示部に表示させる。そして、視聴者により選択された1以上の第2音声素材の音量バランスを表すパラメータを第2音量バランスパラメータとして取得する。図9に示す例では、第2音声素材1の音量バランスを+2とし、第2音声素材2の音量バランスを-4とした例を示している。 Furthermore, the parameter acquisition unit 52 causes the display unit to display a volume balance selection screen for the second audio material as shown in FIG. Then, a parameter representing the volume balance of the one or more second audio materials selected by the viewer is obtained as a second volume balance parameter. In the example shown in FIG. 9, the volume balance of the second audio material 1 is set to +2, and the volume balance of the second audio material 2 is set to -4.

パラメータ保持部53は、パラメータ取得部52により取得した素材組み合わせパラメータ、第1音量バランスパラメータ、及び第2音量バランスパラメータを、パラメータ取得部52により新たにパラメータが取得されるまで保持する。 The parameter holding unit 53 holds the material combination parameter, the first volume balance parameter, and the second volume balance parameter acquired by the parameter acquisition unit 52 until the parameter acquisition unit 52 acquires new parameters.

要求ストリーム決定部54は、第1再生装置40の要求ストリーム決定部44と同様に、パラメータ取得部52により取得された第1音量バランスパラメータに対応する第1音量バランス基準パラメータを決定する。そして、要求ストリーム決定部54は、素材組み合わせパラメータ及び第1音量バランス基準パラメータに従う1個の第1音声ストリームを決定し、ストリーム配信要求部55に出力する。 The requested stream determination unit 54 determines the first volume balance reference parameter corresponding to the first volume balance parameter acquired by the parameter acquisition unit 52, similarly to the requested stream determination unit 44 of the first playback device 40. FIG. Requested stream determining section 54 then determines one first audio stream according to the material combination parameter and the first volume balance reference parameter, and outputs it to stream delivery requesting section 55 .

また、要求ストリーム決定部54は、パラメータ取得部52により取得された第2音量バランスパラメータに従う1以上(視聴者に選択された数)の第2音声ストリームを決定し、ストリーム配信要求部55に出力する。 Further, the requested stream determination unit 54 determines one or more (the number selected by the viewer) second audio streams according to the second volume balance parameter acquired by the parameter acquisition unit 52 , and outputs them to the stream delivery request unit 55 . do.

ストリーム配信要求部55は、要求ストリーム決定部54により決定された1個の第1音声ストリーム及び1以上の第2音声ストリームを、配信サーバ30に要求する。 The stream distribution requesting unit 55 requests the distribution server 30 for one first audio stream and one or more second audio streams determined by the requested stream determining unit 54 .

ストリーム受信部56は、要求ストリーム決定部54により決定された1個の第1音声ストリーム及び1以上の第2音声ストリームを、配信サーバ30から受信し、バッファリングする。 The stream receiving unit 56 receives the one first audio stream and the one or more second audio streams determined by the requested stream determining unit 54 from the distribution server 30 and buffers them.

音量制御指示部57は、第1再生装置40の音量制御指示部47と同様に、第1音量バランス基準パラメータで配信された第1音声ストリームの音量バランスから第1音量バランスパラメータの音量バランスに再構築するための、第1音声ストリームの音声制御指示値を決定し、レンダリング処理部58に出力する。 Similarly to the volume control instruction unit 47 of the first playback device 40, the volume control instruction unit 57 reproduces the volume balance of the first audio stream distributed with the first volume balance reference parameter to the volume balance of the first volume balance parameter. The audio control directive values for the first audio stream to be constructed are determined and output to the rendering processor 58 .

また、音量制御指示部57は、第2音量バランスパラメータに基づいて、第2音声ストリームの音量制御指示値を決定し、レンダリング処理部58に出力する。 Also, the volume control instruction unit 57 determines a volume control instruction value for the second audio stream based on the second volume balance parameter, and outputs the volume control instruction value to the rendering processing unit 58 .

レンダリング処理部58は、音量制御指示部57により決定された音量制御指示値に従ってレンダリング処理を行い、再生処理部59に出力する。 The rendering processing unit 58 performs rendering processing according to the volume control instruction value determined by the volume control instruction unit 57 and outputs the result to the reproduction processing unit 59 .

図10は、レンダリング処理部58の構成例を示すブロック図である。レンダリング処理部58は、(j+1)個の音量制御部581と、音声混合部582とを備える。音量制御部581は、配信サーバ30から配信された1個の第1音声ストリーム及び選択数(j個)の第2音声ストリームのそれぞれに対して、音量制御指示部57により決定された音量制御指示値に従って音量バランスを制御し、音声混合部582に出力する。音声混合部582は、音量制御部581から入力された第1音声ストリーム及び第2音声ストリームを混合してレンダリング済み音声信号を生成し、再生処理部59に出力する。 FIG. 10 is a block diagram showing a configuration example of the rendering processing unit 58. As shown in FIG. The rendering processing unit 58 includes (j+1) volume control units 581 and audio mixing units 582 . The volume control unit 581 issues volume control instructions determined by the volume control instruction unit 57 to each of the one first audio stream and the selected number (j) of second audio streams distributed from the distribution server 30. The volume balance is controlled according to the value and output to the audio mixer 582 . The audio mixing section 582 mixes the first audio stream and the second audio stream input from the volume control section 581 to generate a rendered audio signal, and outputs the rendered audio signal to the reproduction processing section 59 .

再生処理部59は、レンダリング処理部58から入力されたレンダリング済み音声信号を再生する。レンダリング済み音声信号の再生にはスピーカー、ヘッドフォンなどを用いればよい。なお、再生処理部59を第2再生装置50から分離し、通信インターフェース51を介して別の装置で音声信号を再生してもよい。 The reproduction processing unit 59 reproduces the rendered audio signal input from the rendering processing unit 58 . A speaker, headphones, or the like may be used to reproduce the rendered audio signal. Note that the reproduction processing unit 59 may be separated from the second reproduction device 50 and the audio signal may be reproduced by another device via the communication interface 51 .

<音声再生方法>
次に、第1再生装置40及び第2再生装置50の音声再生方法について、図11を参照しながら説明する。図11は、第1再生装置40及び第2再生装置50の音声再生方法の一例を示すフローチャートである。
<Audio playback method>
Next, the audio reproduction method of the first reproduction device 40 and the second reproduction device 50 will be described with reference to FIG. FIG. 11 is a flow chart showing an example of an audio reproduction method of the first reproduction device 40 and the second reproduction device 50. As shown in FIG.

ステップS201では、第1再生装置40及び第2再生装置50は、通信インターフェース41,51を介して、配信サーバ30から素材組み合わせパラメータ及び第1音量バランスパラメータを受信する。 In step S<b>201 , the first playback device 40 and the second playback device 50 receive the material combination parameter and the first volume balance parameter from the distribution server 30 via the communication interfaces 41 and 51 .

ステップS202では、第1再生装置40及び第2再生装置50は、音声配信が終了するまで視聴操作を受け付ける。視聴操作があった場合には、ステップS203の視聴操作を検出するプロセスへ移る。視聴操作がない間は、音声信号の再生を継続する。 In step S202, the first playback device 40 and the second playback device 50 accept viewing operations until the audio distribution ends. If there is a viewing operation, the process moves to the process of detecting the viewing operation in step S203. While there is no viewing operation, the reproduction of the audio signal is continued.

ステップS203では、視聴操作を検出する。視聴者は、表示部に提示されている素材組み合わせパラメータ及び第1音量バランスパラメータのうち、聴きたい音声素材及び音量を画面タッチなどで選択する。視聴操作の方法は、画面タッチの他、リモコンのボタン操作やジェスチャー操作、レーザーポインターなどの遠隔操作であってもよい。 In step S203, a viewing operation is detected. The viewer selects, by touching the screen or the like, the desired audio material and volume from among the material combination parameters and the first volume balance parameters presented on the display unit. The method of the viewing operation may be remote operation such as remote control button operation, gesture operation, laser pointer, or the like, in addition to screen touch.

ステップS204では、パラメータ取得部42,52により、視聴操作によって選択された素材組み合わせパラメータ及び第1音量バランスパラメータを取得する。なお、音声素材へのパラメータの付与は、ファイル名に指定してもよいし、配列、リストなどを用いて音声素材のメタデータとして記述してもよい。 In step S204, the parameter acquisition units 42 and 52 acquire the material combination parameter and the first volume balance parameter selected by the viewing operation. It should be noted that parameters may be added to the audio material by specifying them in the file name, or by describing them as metadata of the audio material using an array, list, or the like.

ステップS205では、レンダリング機能を有するか否かに応じて、以降の処理を決定する。レンダリング機能を有さない第1再生装置40は、ステップS206~S209の処理を行った後に音声信号を再生し、レンダリング機能を有する第2再生装置50は、ステップS210~S213の処理を行った後に音声信号を再生する。 In step S205, subsequent processing is determined depending on whether or not the rendering function is provided. The first reproduction device 40 without the rendering function reproduces the audio signal after performing the processing of steps S206 to S209, and the second reproduction device 50 with the rendering function reproduces the audio signal after performing the processing of steps S210 to S213. Play an audio signal.

(レンダリング機能なし)
ステップS206では、要求ストリーム決定部44により、第1音量バランスパラメータから、該第1音量バランスパラメータに対応する第1音量バランス基準パラメータを決定する。
(without rendering function)
In step S206, the requested stream determining unit 44 determines a first volume balance reference parameter corresponding to the first volume balance parameter from the first volume balance parameter.

ステップS207では、要求ストリーム決定部44により、素材組み合わせパラメータ及び第1音量バランス基準パラメータに従う1個の第1音声ストリームを、配信サーバ30に要求する。 In step S207, the requested stream determination unit 44 requests the distribution server 30 for one first audio stream that conforms to the material combination parameter and the first volume balance reference parameter.

ステップS208では、ストリーム受信部46により、配信サーバ30から配信された第1音声ストリームを受信する。 In step S<b>208 , the first audio stream distributed from the distribution server 30 is received by the stream reception unit 46 .

ステップS209では、音量制御指示部47により、第1音量バランスパラメータ及び第1音量バランス基準パラメータから音声制御指示値を決定し、音量制御部48により音声制御指示値に従って音量制御を行う。具体的には、第1再生装置40は、視聴操作で選択された第1音量バランスパラメータと、該第1音量バランスパラメータに対応する第1音量バランス基準パラメータとを比較し、両者が等しい場合には音量制御を行わず、両者が異なる場合には、音量制御指示値に基づいて音量制御を行う。 In step S209, the volume control instructing unit 47 determines an audio control instruction value from the first volume balance parameter and the first volume balance reference parameter, and the volume control unit 48 performs volume control according to the audio control instruction value. Specifically, the first playback device 40 compares the first volume balance parameter selected by the viewing operation and the first volume balance reference parameter corresponding to the first volume balance parameter, and if both are equal, does not perform volume control, and if both are different, volume control is performed based on the volume control instruction value.

(レンダリング機能あり)
ステップS210では、要求ストリーム決定部54により、第1音量バランスパラメータから、該第1音量バランスパラメータに対応する第1音量バランス基準パラメータを決定する。また、パラメータ取得部52により、視聴操作によって選択された第2音量バランスパラメータを取得する。
(with rendering function)
In step S210, the requested stream determining unit 54 determines a first volume balance reference parameter corresponding to the first volume balance parameter from the first volume balance parameter. Also, the parameter acquisition unit 52 acquires the second volume balance parameter selected by the viewing operation.

ステップS211では、要求ストリーム決定部54により、素材組み合わせパラメータ及び第1音量バランス基準パラメータに従う1個の第1音声ストリームと、第2音量バランスパラメータに従う選択数の第2音声ストリームとを、配信サーバ30に要求する。 In step S211, the requested stream determining unit 54 distributes one first audio stream according to the material combination parameter and the first volume balance reference parameter and a selected number of second audio streams according to the second volume balance parameter to the distribution server 30. request to.

ステップS212では、ストリーム受信部56により、配信サーバ30から配信された第1音声ストリーム及び第2音声ストリームを受信する。 In step S<b>212 , the stream receiving unit 56 receives the first audio stream and the second audio stream distributed from the distribution server 30 .

ステップS213では、音量制御指示部57により、第1音量バランスパラメータ、第1音量バランス基準パラメータ、及び第2音量バランスパラメータから音声制御指示値を決定し、レンダリング処理部58により音声制御指示値に従ってレンダリング処理を行う。具体的には、第2再生装置50は、第1音声ストリームに対しては、視聴操作で選択された第1音量バランスパラメータと、該第1音量バランスパラメータに対応する第1音量バランス基準パラメータとを比較し、両者が等しい場合、音量制御を行わず、両者が異なる場合には、音量制御指示値をもとに音量制御を行う。また、第2再生装置50は、第2音声ストリームに対しては、第2音量バランスパラメータに一致するように音量制御を行う。そして、第2再生装置50は、音量制御された第1音声ストリーム及び第2音声ストリームを混合してレンダリング済み音声信号を生成する。 In step S213, the volume control instruction unit 57 determines an audio control instruction value from the first volume balance parameter, the first volume balance reference parameter, and the second volume balance parameter, and the rendering processing unit 58 renders according to the audio control instruction value. process. Specifically, for the first audio stream, the second playback device 50 sets the first volume balance parameter selected by the viewing operation and the first volume balance reference parameter corresponding to the first volume balance parameter. are compared, and if both are equal, volume control is not performed, and if both are different, volume control is performed based on the volume control instruction value. Also, the second playback device 50 performs volume control on the second audio stream so as to match the second volume balance parameter. The second playback device 50 then mixes the volume-controlled first and second audio streams to generate a rendered audio signal.

ステップS214では、再生処理部49,59により音声信号を再生し、出力する。 In step S214, the audio signal is reproduced by the reproduction processors 49 and 59 and output.

ステップS215では、第1再生装置40及び第2再生装置50は、音声配信が終了しているか否かを判定し、音声配信が終了していなければ、処理をステップS202に戻す。 In step S215, the first reproduction device 40 and the second reproduction device 50 determine whether or not the audio distribution has ended, and if the audio distribution has not ended, the process returns to step S202.

なお、上述したレンダリング装置10、符号化装置20、配信サーバ30、第1再生装置40、及び第2再生装置50の全体又は一部として機能させるためにコンピュータを用いることも可能である。そのようなコンピュータは、レンダリング装置10、符号化装置20、配信サーバ30、第1再生装置40、及び第2再生装置50の各機能を実現する処理内容を記述したプログラムを該コンピュータの記憶部に格納しておき、該コンピュータのCPU(Central Processing Unit)やDSP(Digital Signal Processor)によってこのプログラムを読み出して実行させることで実現することができる。 It is also possible to use a computer to function as all or part of the rendering device 10, the encoding device 20, the distribution server 30, the first playback device 40, and the second playback device 50 described above. Such a computer stores a program describing processing details for realizing each function of the rendering device 10, the encoding device 20, the distribution server 30, the first playback device 40, and the second playback device 50 in the storage unit of the computer. It can be realized by storing the program and reading and executing the program by a CPU (Central Processing Unit) or DSP (Digital Signal Processor) of the computer.

また、このプログラムは、コンピュータが読み取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、CD-ROM、DVD-ROMなどの記録媒体であってもよい。また、このプログラムは、ネットワークを介したダウンロードによって提供することもできる。 Also, this program may be recorded in a computer-readable recording medium. By using such a recording medium, it is possible to install the program in the computer. Here, the recording medium on which the program is recorded may be a non-transitory recording medium. The non-transitory recording medium is not particularly limited, but may be, for example, a recording medium such as a CD-ROM or a DVD-ROM. This program can also be provided by download over a network.

上述したように、レンダリング装置10は、音量制御部11によりN個の第1音声素材それぞれの音量を増減して音量制御済み第1音声素材を生成し、音声混合部12により該音量制御済み第1音声素材を異なる組み合わせで混合して、音量バランス及び組み合わせが異なるN’個のレンダリング済み第1音声素材を生成する。符号化装置20は、N’個のレンダリング済み第1音声素材及びM個の第2音声素を符号化してN’個の第1音声ストリーム及びM個の第2音声ストリームを生成する。配信サーバ30は、第1再生装置40及び第2再生装置50から第1音声ストリームの要求を受け付けてN’個のうち1個の第1音声ストリームを配信し、第2再生装置50のみから第2音声ストリームの要求を受け付けてM個のうち要求のあった数の第2音声ストリームを配信する。 As described above, the rendering device 10 increases or decreases the volume of each of the N first audio materials by the volume control unit 11 to generate the volume-controlled first audio material, and the audio mixing unit 12 generates the volume-controlled first audio material. 1 audio material is mixed in different combinations to generate N′ rendered first audio materials with different volume balances and combinations. Encoding device 20 encodes the N' rendered first audio material and M second phonemes to generate N' first audio streams and M second audio streams. The distribution server 30 receives requests for the first audio streams from the first reproduction device 40 and the second reproduction device 50, distributes one of the N' first audio streams, and receives the first audio stream from the second reproduction device 50 only. A request for two audio streams is accepted, and the requested number of second audio streams out of M is delivered.

かかる構成により、本発明によれば、視聴者が好みや再生環境に応じて音声をカスタマイズすることのできるオブジェクトベース音響方式の音声サービスを、レンダリング機能を備えていない第1再生装置40においても簡易的に実現することができる。非特許文献2に記載のブラウザレンダリングを行う方法により、専用のレンダリング装置がなくてもオブジェクトベース音響方式の再生が可能となるが、Web Audio API対応の視聴端末であることが前提である。本発明では、HTML5対応でストリーミング再生が可能な視聴端末でさえあれば、オブジェクトベース音響方式の簡易的な音声サービスをチャンネルベース音響方式の再生環境で享受することができる。また、Web Audio APIに対応していれば、同様にオブジェクトベース音響方式の再生環境を構築できるという利点を損なわない。 With such a configuration, according to the present invention, an object-based audio system audio service that allows a viewer to customize audio according to his/her preferences and playback environment can be easily provided even in the first playback device 40 that does not have a rendering function. can be practically realized. The browser rendering method described in Non-Patent Document 2 enables object-based audio reproduction without a dedicated rendering device, but it is premised on a viewing terminal that supports Web Audio API. According to the present invention, as long as the viewing terminal supports HTML5 and is capable of streaming playback, a simple voice service of the object-based audio system can be enjoyed in a playback environment of the channel-based audio system. Also, if it is compatible with Web Audio API, it does not impair the advantage of being able to construct a reproduction environment for the object-based audio system as well.

また、本発明によれば、配信側で予め設定したパラメータでレンダリングした音声を複数種類用意しておき、選択された音声を配信するため、音声サービスを実現するための音声の配信負荷を低減することができる。ただし、配信する音声を予め設定したパラメータに限定することで、レンダリングに用いる全ての音声素材を伝送する必要がある従来のオブジェクトベース音響方式と比較して音声素材の伝送量は低減されるが、あらゆる視聴者の視聴操作で選択されるあらゆるパターンを予め用意しておくことは非現実的である。そこで、音量制御部11により、レンダリングして生成する音声数を低減させる工夫を施すことが好適である。また、頻繁には視聴操作で選択されないと予想される音声は、従来のオブジェクトベース音響方式の配信を行うことで、配信側で生成する音声数を低減しつつ、配信負荷を低減させることができる。 Further, according to the present invention, a plurality of types of audio rendered with parameters set in advance on the distribution side are prepared, and the selected audio is distributed, thereby reducing the audio distribution load for realizing the audio service. be able to. However, by limiting the audio to be distributed to preset parameters, the transmission amount of audio materials is reduced compared to the conventional object-based audio method, which requires transmission of all audio materials used for rendering. It is unrealistic to prepare in advance every pattern selected by every viewer's viewing operation. Therefore, it is preferable that the volume control unit 11 is devised to reduce the number of voices to be rendered and generated. In addition, audio that is not expected to be frequently selected by viewing operations can be distributed using the conventional object-based audio method, thereby reducing the number of sounds generated on the distribution side and reducing the distribution load. .

上述の実施形態は代表的な例として説明したが、本発明の趣旨及び範囲内で、多くの変更及び置換ができることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、特許請求の範囲から逸脱することなく、種々の変形や変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを1つに組み合わせたり、あるいは1つの構成ブロックを分割したりすることが可能である。 Although the above embodiments have been described as representative examples, it will be apparent to those skilled in the art that many modifications and substitutions may be made within the spirit and scope of the invention. Therefore, the present invention should not be construed as limited by the embodiments described above, and various modifications and changes are possible without departing from the scope of the appended claims. For example, it is possible to combine a plurality of configuration blocks described in the configuration diagrams of the embodiments into one, or divide one configuration block.

1 音声配信システム
10 レンダリング装置
11 音量制御部
12 音声混合部
20 符号化装置
30 配信サーバ
31 記憶部
40 第1再生装置
41,51 通信インターフェース
42,52 パラメータ取得部
43,53 パラメータ保持部
44,54 要求ストリーム決定部
45,55 ストリーム配信要求部
46,56 ストリーム受信部
47,57 音量制御指示部
48 音量制御部
49,59 再生処理部
50 第2再生装置
58 レンダリング処理部
60 ネットワーク
581 音量制御部
582 音声混合部
1 audio distribution system 10 rendering device 11 volume control unit 12 audio mixing unit 20 encoding device 30 distribution server 31 storage unit 40 first playback device 41, 51 communication interface 42, 52 parameter acquisition unit 43, 53 parameter storage unit 44, 54 Request stream determining unit 45, 55 Stream distribution requesting unit 46, 56 Stream receiving unit 47, 57 Volume control instructing unit 48 Volume control unit 49, 59 Playback processing unit 50 Second playback device 58 Rendering processing unit 60 Network 581 Volume control unit 582 audio mixer

Claims (8)

レンダリング機能を有さない第1再生装置及びレンダリング機能を有する第2再生装置に音声ストリームを配信する音声配信システムであって、
N個の第1音声素材それぞれの音量を増減して音量制御済み第1音声素材を生成する音量制御部と、該音量制御済み第1音声素材を異なる組み合わせで混合して、音量バランス及び組み合わせが異なるN’個のレンダリング済み第1音声素材を生成する音声混合部と、を有するレンダリング装置と、
前記N’個のレンダリング済み第1音声素材をそれぞれ符号化してN’個の第1音声ストリームを生成するとともに、M個の第2音声素材をそれぞれ符号化してM個の第2音声ストリームを生成する符号化装置と、
前記第1再生装置及び前記第2再生装置からの要求に応じて、N’個のうち1個の前記第1音声ストリームを配信し、前記第2再生装置のみからの要求に応じて、M個のうち要求のあった数の前記第2音声ストリームを配信する配信サーバと、
を備えることを特徴とする、音声配信システム。
An audio distribution system that distributes an audio stream to a first playback device that does not have a rendering function and a second playback device that has a rendering function,
a volume control unit for increasing or decreasing the volume of each of the N first audio materials to generate volume-controlled first audio materials; and mixing the volume-controlled first audio materials in different combinations to achieve volume balance and combination an audio mixer for generating N′ different rendered first audio material;
encoding each of the N′ rendered first audio materials to generate N′ first audio streams and encoding each of the M second audio materials to generate M second audio streams; an encoding device that
One of the N′ first audio streams is delivered in response to requests from the first playback device and the second playback device, and M audio streams are delivered in response to requests from the second playback device only. a distribution server for distributing the requested number of second audio streams among
An audio distribution system, comprising:
前記音声混合部は、前記第1音声素材をカテゴリー別にグルーピングし、カテゴリーごとに1つの音量制御済み第1音声素材を選択して組み合わせることにより、前記レンダリング済み第1音声素材を生成することを特徴とする、請求項1に記載の音声配信システム。 The audio mixing unit groups the first audio materials by category, selects and combines one volume-controlled first audio material for each category, and generates the rendered first audio material. 2. The audio distribution system according to claim 1, wherein: 前記音声混合部は、受信側においてチャンネルベース音響方式の音量を増減させることにより等価な音量バランスを再構築できる組み合わせを除外して、前記レンダリング済み第1音声素材を生成することを特徴とする、請求項1又は2に記載の音声配信システム。 The audio mixing unit generates the rendered first audio material by excluding combinations that can reconstruct an equivalent volume balance by increasing or decreasing the volume of the channel-based acoustic method on the receiving side, 3. The audio distribution system according to claim 1 or 2. レンダリング機能を有さない第1再生装置及びレンダリング機能を有する第2再生装置に音声ストリームを配信する配信サーバであって、
音量バランス及び組み合わせが異なるN’個のレンダリング済み第1音声素材、及びM個の第2音声素材をそれぞれ符号化した、N’個の第1音声ストリーム及びM個の第2音声ストリームを記憶し、
前記第1再生装置及び前記第2再生装置からの要求に応じて、N’個のうち1個の前記第1音声ストリームを配信し、前記第2再生装置のみからの要求に応じて、M個のうち要求のあった数の前記第2音声ストリームを配信することを特徴とする、配信サーバ。
A distribution server that distributes an audio stream to a first playback device that does not have a rendering function and a second playback device that has a rendering function,
storing N′ first audio streams and M second audio streams respectively encoding N′ rendered first audio materials and M second audio materials with different volume balances and combinations; ,
One of the N′ first audio streams is delivered in response to requests from the first playback device and the second playback device, and M audio streams are delivered in response to requests from the second playback device only. A distribution server that distributes the requested number of the second audio streams out of the above.
配信サーバから第1音声素材の音声ストリームである第1音声ストリームを受信する再生装置であって、
視聴者により選択された、チャンネルベース音響方式として第1音声ストリームを再構築することができる音量バランスを表す第1音量バランスパラメータを取得するパラメータ取得部と、
前記第1音量バランスパラメータに対応する、配信側にて第1音声素材同士を混合する際の音量バランスを表す第1音量バランス基準パラメータを決定し、該第1音量バランス基準パラメータに従う1個の第1音声ストリームを決定する要求ストリーム決定部と、
前記要求ストリーム決定部により決定された前記第1音声ストリームを前記配信サーバから受信するストリーム受信部と、
前記第1音量バランスパラメータ及び前記第1音量バランス基準パラメータの差に基づいて、前記ストリーム受信部により受信した前記第1音声ストリームの音量バランスを制御する音量制御部と、
を備えることを特徴とする、再生装置。
A playback device for receiving a first audio stream, which is an audio stream of a first audio material, from a distribution server,
a parameter obtaining unit for obtaining a first volume balance parameter representing a volume balance that can reconstruct the first audio stream as a channel-based audio scheme selected by the viewer;
determining a first volume balance reference parameter corresponding to the first volume balance parameter and representing a volume balance when the first audio materials are mixed on the distribution side; a request stream determination unit that determines one audio stream;
a stream receiving unit that receives the first audio stream determined by the requested stream determining unit from the distribution server;
a volume control unit that controls the volume balance of the first audio stream received by the stream receiving unit based on the difference between the first volume balance parameter and the first volume balance reference parameter;
A playback device comprising:
前記パラメータ取得部は、さらに視聴者により選択された素材組み合わせパラメータを取得し、
前記要求ストリーム決定部は、前記素材組み合わせパラメータ及び前記第1音量バランスパラメータに従う1個の第1音声ストリームを決定することを特徴とする、請求項5に記載の再生装置。
The parameter acquisition unit further acquires material combination parameters selected by the viewer,
6. The reproducing apparatus according to claim 5, wherein the requested stream determining unit determines one first audio stream according to the material combination parameter and the first volume balance parameter.
前記パラメータ取得部は、さらに視聴者により選択された1以上の第2音声ストリームの音量バランスを表すパラメータを第2音量バランスパラメータとして取得し、
前記要求ストリーム決定部は、さらに第2音量バランスパラメータに従う1以上の第2音声ストリームを決定し、
前記ストリーム受信部は、さらに前記要求ストリーム決定部により決定された前記1以上の第2音声ストリームを前記配信サーバから受信し、
前記音量制御部は、さらに前記第2音量バランスパラメータに基づいて、前記ストリーム受信部により受信した前記第2音声ストリームの音量バランスを制御することを特徴とする、請求項5又は6に記載の再生装置。
The parameter acquisition unit further acquires a parameter representing volume balance of one or more second audio streams selected by the viewer as a second volume balance parameter,
The requested stream determining unit further determines one or more second audio streams according to a second volume balance parameter;
The stream receiving unit further receives the one or more second audio streams determined by the requested stream determining unit from the distribution server,
7. The reproduction according to claim 5, wherein the volume control unit further controls volume balance of the second audio stream received by the stream receiving unit based on the second volume balance parameter. Device.
コンピュータを、請求項5から7のいずれか一項に記載の再生装置として機能させるためのプログラム。

A program for causing a computer to function as the playback device according to any one of claims 5 to 7.

JP2019095290A 2019-05-21 2019-05-21 Audio distribution system, distribution server, playback device, and program Active JP7235590B2 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019095290A JP7235590B2 (en) 2019-05-21 2019-05-21 Audio distribution system, distribution server, playback device, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019095290A JP7235590B2 (en) 2019-05-21 2019-05-21 Audio distribution system, distribution server, playback device, and program

Publications (2)

Publication Number Publication Date
JP2020190615A JP2020190615A (en) 2020-11-26
JP7235590B2 true JP7235590B2 (en) 2023-03-08

Family

ID=73454513

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019095290A Active JP7235590B2 (en) 2019-05-21 2019-05-21 Audio distribution system, distribution server, playback device, and program

Country Status (1)

Country Link
JP (1) JP7235590B2 (en)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005164977A (en) 2003-12-03 2005-06-23 Eiji Fujisaki Minus-one recording method and corresponding musical score
JP2007093921A (en) 2005-09-28 2007-04-12 Yamaha Corp Information distribution device
JP2007178584A (en) 2005-12-27 2007-07-12 Yamaha Corp Music data distributing method and device
JP2007225934A (en) 2006-02-23 2007-09-06 Xing Inc Karaoke system and host device for the same
JP2017028352A (en) 2015-07-15 2017-02-02 富士通株式会社 Broadcast control apparatus, method, and program
JP2017511048A (en) 2014-02-27 2017-04-13 ディーティーエス・インコーポレイテッドDTS,Inc. Object-based audio volume management
WO2018096954A1 (en) 2016-11-25 2018-05-31 ソニー株式会社 Reproducing device, reproducing method, information processing device, information processing method, and program

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005164977A (en) 2003-12-03 2005-06-23 Eiji Fujisaki Minus-one recording method and corresponding musical score
JP2007093921A (en) 2005-09-28 2007-04-12 Yamaha Corp Information distribution device
JP2007178584A (en) 2005-12-27 2007-07-12 Yamaha Corp Music data distributing method and device
JP2007225934A (en) 2006-02-23 2007-09-06 Xing Inc Karaoke system and host device for the same
JP2017511048A (en) 2014-02-27 2017-04-13 ディーティーエス・インコーポレイテッドDTS,Inc. Object-based audio volume management
JP2017028352A (en) 2015-07-15 2017-02-02 富士通株式会社 Broadcast control apparatus, method, and program
WO2018096954A1 (en) 2016-11-25 2018-05-31 ソニー株式会社 Reproducing device, reproducing method, information processing device, information processing method, and program

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
技研だより,2019年5月号、No. 170,NHK放送技術研究所,2019年05月30日,第1-4ページ,[2023年1月23日検索], <URL: https://nhk.or.jp/strl/publica/giken_dayori/170/pdf/dayori170.pdf>

Also Published As

Publication number Publication date
JP2020190615A (en) 2020-11-26

Similar Documents

Publication Publication Date Title
CN110140170B (en) Distributed audio recording adapted for end user free viewpoint monitoring
KR101676634B1 (en) Reflected sound rendering for object-based audio
KR101673834B1 (en) Collaborative sound system
KR102422493B1 (en) Information processor and information-processing method
US20140328485A1 (en) Systems and methods for stereoisation and enhancement of live event audio
US20160315722A1 (en) Audio stem delivery and control
KR20170011999A (en) Systems and methods for delivery of personalized audio
CN110915220A (en) Audio input and output device with streaming capability
CN113050916A (en) Audio playing method, device and storage medium
Olivieri et al. Scene-based audio and higher order ambisonics: A technology overview and application to next-generation audio, vr and 360 video
JP2022083443A (en) Computer system for achieving user-customized being-there in association with audio and method thereof
US11930350B2 (en) Rendering audio
US20230085918A1 (en) Audio Representation and Associated Rendering
JP7235590B2 (en) Audio distribution system, distribution server, playback device, and program
CN114339297B (en) Audio processing method, device, electronic equipment and computer readable storage medium
Francombe et al. Media device orchestration for immersive spatial audio reproduction
US11102606B1 (en) Video component in 3D audio
US20180081619A1 (en) User preference selection for audio encoding
JP7037671B2 (en) Equipment and related methods for presenting audio
KR20170095477A (en) The smart multiple sounds control system and method
JP2005086537A (en) High presence sound field reproduction information transmitter, high presence sound field reproduction information transmitting program, high presence sound field reproduction information transmitting method and high presence sound field reproduction information receiver, high presence sound field reproduction information receiving program, high presence sound field reproduction information receiving method
Baume et al. Scaling New Heights in Broadcasting using Ambisonics
JP2019179985A (en) Video insertion device and video display terminal device
Rumsey Broadcast and Streaming: Immersive Audio, Objects, and OTT TV
US20230421981A1 (en) Reproducing device, reproducing method, information processing device, information processing method, and program

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220421

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20230123

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230131

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230224

R150 Certificate of patent or registration of utility model

Ref document number: 7235590

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150