JP6924863B2 - Audio signal processor - Google Patents
Audio signal processor Download PDFInfo
- Publication number
- JP6924863B2 JP6924863B2 JP2020056076A JP2020056076A JP6924863B2 JP 6924863 B2 JP6924863 B2 JP 6924863B2 JP 2020056076 A JP2020056076 A JP 2020056076A JP 2020056076 A JP2020056076 A JP 2020056076A JP 6924863 B2 JP6924863 B2 JP 6924863B2
- Authority
- JP
- Japan
- Prior art keywords
- dialog
- audio signal
- control
- channel signal
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 title claims description 97
- 238000000034 method Methods 0.000 claims description 25
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000001276 controlling effect Effects 0.000 claims 1
- 230000001105 regulatory effect Effects 0.000 claims 1
- 238000000926 separation method Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 8
- 238000004519 manufacturing process Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 5
- 238000007906 compression Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 101100126625 Caenorhabditis elegans itr-1 gene Proteins 0.000 description 1
- 101100018996 Caenorhabditis elegans lfe-2 gene Proteins 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Mathematical Physics (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
- Stereophonic System (AREA)
Description
本出願は、日本国特許出願2014−182695号(2014年9月8日出願)の優先権を主張するものであり、当該出願の開示全体を、ここに参照のために取り込む。 This application claims the priority of Japanese Patent Application No. 2014-182695 (filed September 8, 2014), the entire disclosure of which application is incorporated herein by reference.
本発明は、音声信号処理装置に関する。 The present invention relates to an audio signal processing device.
放送音声に対する視聴者意見は、ダイアログ(ナレーション、スピーチ、セリフ等)の聞きやすさに関するものが多い。従来の日本の放送音声は、放送局側で音声技術者がダイアログと背景の音量バランスを一意に調節してから送出するチャンネルベース方式を採用している(例えば、非特許文献1)。チャンネルベース方式とは例えばMPEG―4 AAC(例えば、非特許文献2)である。ダイアログの聞きやすさに対して、多くの視聴者が関心を寄せている。 Most viewers' opinions on broadcast audio are related to the ease of listening to dialogues (narration, speech, dialogue, etc.). Conventional Japanese broadcast audio employs a channel-based method in which an audio technician uniquely adjusts the volume balance between the dialog and the background on the broadcasting station side before transmitting the audio (for example, Non-Patent Document 1). The channel-based method is, for example, MPEG-4 AAC (for example, Non-Patent Document 2). Many viewers are interested in the ease of listening to the dialog.
ダイアログを聞き取りやすくするために、欧米の次世代放送の音声システムは、オブジェクトベース方式(例えば、特許文献1)を採用する方向で検討が進められている。オブジェクトベース方式とは、MPEG―H 3D Audio(例えば、非特許文献3)又はDolbyのAC―4等の符号化方式によって伝送を行う方式であり、ダイアログ等の重要な音声オブジェクトが受信機で制御可能になる方式である。 In order to make the dialogue easier to hear, studies are underway to adopt an object-based method (for example, Patent Document 1) for audio systems for next-generation broadcasting in Europe and the United States. The object-based method is a method in which transmission is performed by a coding method such as MPEG-H 3D Audio (for example, Non-Patent Document 3) or Dolby's AC-4, and important audio objects such as dialogs are controlled by a receiver. It is a method that becomes possible.
上述した、日本が採用しているチャンネルベース方式においては、受信機を操作する視聴者はダイアログの音量を調節することができない。しかしながら、視聴者の好み並びに年齢及び再生環境の多様性を考えた場合、放送局で調節した音量バランスではその多様性をカバーしきれない状況も存在すると考えられる。これは、ダイアログが聞き取りにくくなる要因の一つと考えられている。 In the channel-based method adopted by Japan as described above, the viewer operating the receiver cannot adjust the volume of the dialog. However, considering the viewer's taste and the diversity of age and playback environment, it is considered that there are situations in which the volume balance adjusted by the broadcasting station cannot cover the diversity. This is considered to be one of the factors that make the dialog difficult to hear.
日本の8K SHV 22.2ch放送の音声符号化方式は、上述したMPEG―4 AACであり、音声信号とスピーカとが一対一に対応するチャンネルベース方式である。また日本の地上デジタル放送の音声符号化方式はMPEG−2 AACであり、チャンネルベース方式である。このため、現状ではダイアログ等の音声オブジェクトの制御は不可能である。 The audio coding method for 8K SHV 22.2ch broadcasting in Japan is the above-mentioned MPEG-4 AAC, which is a channel-based method in which the audio signal and the speaker have a one-to-one correspondence. The audio coding method for terrestrial digital broadcasting in Japan is MPEG-2 AAC, which is a channel-based method. Therefore, at present, it is impossible to control audio objects such as dialogs.
かかる事情に鑑みてなされた本発明の目的は、チャンネルベース方式の制作手法及びチャンネルベース方式の符号化手法の枠組み内で、受信機等を用いて視聴者がダイアログを制御することができる仕組みを実現する符号化装置、復号化装置及び音声信号処理装置を提供することにある。 An object of the present invention made in view of such circumstances is to provide a mechanism that allows a viewer to control a dialog using a receiver or the like within the framework of a channel-based production method and a channel-based coding method. An object of the present invention is to provide a coding device, a decoding device, and an audio signal processing device to be realized.
本発明に係る音声信号処理装置は、各チャンネルに対応する音声信号に対して、チャンネルベース方式に基づいて音声信号処理を行う音声信号処理装置であって、ダイアログ制御機能に対応した番組か否かのフラグに基づいてダイアログ制御の可否を判定するダイアログ制御可否判定部と、前記ダイアログ制御可否判定部によりダイアログ制御可能と判定された場合に、ダイアログ専用チャンネル信号を特定するダイアログ専用チャンネル信号特定部と、前記音声信号を、前記ダイアログ専用チャンネル信号特定部の特定に基づいて、前記ダイアログ専用チャンネル信号と、前記ダイアログ専用チャンネル信号以外のチャンネル信号とに分離する音声信号分離部と、ダイアログ専用チャンネル信号の利得制御量の上限値及び下限値を、ダイアログ制御用メタデータとして取得し、前記ダイアログ専用チャンネル信号と、前記ダイアログ専用チャンネル信号以外のチャンネル信号とに対してそれぞれ異なる信号処理を行う制御部と、を備え、前記制御部は、ダイアログ音量を増加させる調節情報を制御情報入力装置から取得したとき、前記ダイアログ専用チャンネル信号以外のチャンネル信号の利得を低減させ、ダイアログ音量を低減させる調節情報を制御情報入力装置から取得したとき、前記ダイアログ専用チャンネル信号の利得のみを低減させる。
The audio signal processing device according to the present invention is an audio signal processing device that performs audio signal processing based on a channel-based method for an audio signal corresponding to each channel, and whether or not the program supports a dialog control function. A dialog control enable / disable determination unit that determines whether or not dialog control is possible based on the flag of , The audio signal separation unit that separates the audio signal into the dialog-dedicated channel signal and the channel signal other than the dialog-dedicated channel signal based on the identification of the dialog-dedicated channel signal identification unit, and the dialog-dedicated channel signal. A control unit that acquires the upper limit value and the lower limit value of the gain control amount as dialog control metadata and performs different signal processing for the dialog dedicated channel signal and the channel signal other than the dialog dedicated channel signal. When the control unit acquires the adjustment information for increasing the dialog volume from the control information input device , the control unit reduces the gain of channel signals other than the dialog dedicated channel signal and controls the adjustment information for reducing the dialog volume. When acquired from the input device, only the gain of the dialog-dedicated channel signal is reduced.
また、前記制御部は、ダイアログの制御を行った後にダウンミックスを含む変換手段によりチャンネル数を変換してもよい。 Further, the control unit may convert the number of channels by a conversion means including downmix after controlling the dialog.
また、前記制御部は、前記ダイアログ専用チャンネル信号と前記ダイアログ専用チャンネル信号以外のチャンネル信号との双方又はどちらか一方に、それぞれ周波数補正処理を含む信号処理を行ってもよい。 Further, the control unit may perform signal processing including frequency correction processing on both or one of the dialog-dedicated channel signal and the channel signal other than the dialog-dedicated channel signal.
また、前記制御部は、前記音声信号がビットストリームから分離された圧縮音声信号である場合、該圧縮音声信号を復号化せずにそのまま前記信号処理を行ってもよい。 Further, when the audio signal is a compressed audio signal separated from the bit stream, the control unit may perform the signal processing as it is without decoding the compressed audio signal.
本発明による音声信号処理装置によれば、チャンネルベース方式の制作手法及びチャンネルベース方式の符号化手法の枠組み内で、受信機又は当該受信機に接続された再生装置を用いて視聴者がダイアログを制御することができる仕組みを実現することができる。 According to the audio signal processing device according to the present invention, within the framework of the channel-based production method and the channel-based coding method, the viewer can use the receiver or the playback device connected to the receiver to display a dialog. It is possible to realize a mechanism that can be controlled.
以下、受信機又は当該受信機に接続された再生装置(スピーカ、録音装置等の外部再生装置)(以下、受信機等とする)においてダイアログを制御可能にする仕組みを説明する。本実施形態では、一例として複数の音声チャンネル及びダイアログ専用チャンネルを有する音響システムとして、8K SHV用の22.2ch音響システムを説明する。 Hereinafter, a mechanism for enabling the dialog to be controlled by the receiver or a playback device (external playback device such as a speaker or recording device) (hereinafter referred to as a receiver or the like) connected to the receiver will be described. In this embodiment, a 22.2ch sound system for 8K SHV will be described as an example of a sound system having a plurality of audio channels and a dedicated dialog channel.
本実施形態の音声信号処理システムは、符号化装置1、復号化装置2、音声信号処理装置3及び制御情報入力装置4を備え、これらはネットワークを介して有線又は無線により通信する。以下の説明では、本発明に係る音声処理システムの各機能を説明するが、それらが備える他の機能を排除することを意図したものではないことに留意されたい。
The audio signal processing system of the present embodiment includes a coding device 1, a
図1は22.2ch音響システムにおける、ダイアログ制御機能に対応した制作手法による制作時の3次元(立体)音響方式を示す図である。図1に示すように、超高精細・高臨場感映像音響システムの番組制作は、大画面映像ディスプレイ1a(例えば、7680×4320画素)とスピーカとを配置した標準制作条件下で行う。この標準制作条件下では、聴取位置を中心として大画面映像ディスプレイ1aを前方にして、低域効果音用スピーカLFE1及びLFE2を除いて、9チャンネルからなる上層、10チャンネルからなる中層及び3チャンネルからなる下層の計22チャンネルのスピーカで音響信号を制作する。当該22チャンネルのスピーカが配置される位置は、規格SMPTE ST2036−2−2008に規定されている。 FIG. 1 is a diagram showing a three-dimensional (three-dimensional) sound system at the time of production by a production method corresponding to a dialog control function in a 22.2ch sound system. As shown in FIG. 1, the program production of the ultra-high-definition, high-realism video-acoustic system is performed under standard production conditions in which a large-screen video display 1a (for example, 7680 × 4320 pixels) and a speaker are arranged. Under this standard production condition, with the large screen video display 1a facing forward with the listening position as the center, from the upper layer consisting of 9 channels and the middle layer consisting of 10 channels and 3 channels except for the low-frequency sound effect speakers LFE1 and LFE2. An acoustic signal is produced by a total of 22 channels of speakers in the lower layer. The position where the 22-channel speaker is arranged is specified in the standard SMPTE ST2036-2008.
チャンネルベース方式でダイアログ制御機能を実現するためには、背景音を重ねないダイアログ専用のチャンネルが必要である。本実施形態では、一例として図1のFCをダイアログ専用チャンネルとして説明する。なお、ダイアログ専用チャンネルは複数存在しても構わない。ダイアログ専用チャンネルが複数存在する場合は、それらのダイアログ専用チャンネルは同一の音声信号を再生しても構わないし、それぞれ異なる音声信号を再生しても構わない。 In order to realize the dialog control function by the channel-based method, a channel dedicated to the dialog that does not overlap the background sound is required. In the present embodiment, the FC of FIG. 1 will be described as a dialog-only channel as an example. There may be a plurality of dedicated dialog channels. When a plurality of dialog-dedicated channels exist, the dialog-dedicated channels may reproduce the same audio signal or may reproduce different audio signals.
図2は、符号化装置1の機能ブロック図である。符号化装置1は、圧縮符号化部11及び多重化部12を備える。圧縮符号化部11及び多重化部12が行う各種動作は、図示しないプロセッサ又はマイコン等の任意の処理装置によって処理される。
FIG. 2 is a functional block diagram of the coding device 1. The coding device 1 includes a
圧縮符号化部11は、入力された音声信号を取得し、デジタル方式で圧縮符号化する。圧縮符号化部11は、圧縮符号化した音声信号を、22.2chの圧縮音声信号に変換して多重化部12に出力する。
The
多重化部12は、圧縮符号化部11から取得した圧縮音声信号と、入力されたダイアログ制御用メタデータ及び音声方式を示すメタデータ(例えば、MPEG Audioでは、channel configuration)とを取得する。
The
次いで多重化部12は、ダイアログ制御用メタデータ、音声方式を示すメタデータを符号化し、取得した圧縮音声信号と共に多重化する。ダイアログ制御用メタデータとは、例えば、ダイアログ制御機能に対応した番組か否かのフラグ、受信機等における利得制御の上限値及び下限値等のデータである。多重化部12は、MPEG―4 AACで伝送する場合は、例えばユーザ拡張領域のDSE(Data Stream Element)にメタデータを格納する。多重化部12は、多重化したデータをビットストリームとして出力する。
Next, the
図3は、復号化装置2の機能ブロック図である。復号化装置2は、分離部21、メタデータ分離部22及び復号化部23を備える。分離部21、メタデータ分離部22及び復号化部23が行う各種動作は、図示しないプロセッサ又はマイコン等の任意の処理装置によって処理される。
FIG. 3 is a functional block diagram of the
分離部21は、符号化装置1から取得したビットストリームを分離する。具体的には、分離部21は、当該ビットストリーム(入力信号)をメタデータ及び圧縮音声信号に分離し、それぞれメタデータ分離部22及び復号化部23に出力する。
The
メタデータ分離部22は、取得したメタデータを、ダイアログ制御用メタデータ及び音声方式メタデータに分離する。
The
復号化部23は、取得した圧縮音声信号を音声信号に復号化する。なお復号化部23は、取得した圧縮音声信号を復号化しなくてもよい。この場合、音声信号処理装置3の制御部34は、当該圧縮音声信号を復号化せずにそのまま後述の音声信号処理を行ってから復号化して音声信号として出力する。制御部34は、当該圧縮音声信号を復号化せずにそのまま後述の音声信号処理を行ってから復号化せずに圧縮音声信号として出力してもよい。
The
図4は音声信号処理装置3及び制御情報入力装置4の機能ブロック図である。音声信号処理装置3は、例えば復号化装置2の後段に配置され、復号化装置2からダイアログ制御用メタデータ、音声方式メタデータ及び音声信号を取得する。音声信号処理装置3は、ダイアログ制御可否判定部31、ダイアログ専用チャンネル信号特定部32、音声信号分離部33、制御部34、制御情報取得部35及び記憶部36を備える。ダイアログ専用チャンネル信号特定部32、音声信号分離部33、制御部34及び制御情報取得部35が行う各種動作(音声信号処理)は、図示しないプロセッサ又はマイコン等の任意の処理装置によって処理される。
FIG. 4 is a functional block diagram of the audio signal processing device 3 and the control
ダイアログ制御可否判定部31は、復号化装置2から取得したダイアログ制御用メタデータ(ダイアログ制御機能に対応した番組か否かのフラグ)に基づいて、復号化装置2から取得した音声信号が、ダイアログ制御機能対応の番組か否か(ダイアログ制御の可否)を判定する。ダイアログ制御可否判定部31が、当該音声信号が、ダイアログ制御機能対応の番組でないと判定すると、音声信号処理装置3は当該音声信号に音声信号処理を行わずに受信機等に出力する。
The dialog control
ダイアログ専用チャンネル信号特定部32は、復号化装置2から取得した音声方式メタデータに基づいて、ダイアログ専用チャンネルの信号を特定する。なおダイアログ専用チャンネル信号特定部32は、復号化装置2以外の外部装置から取得した情報を用いてダイアログ専用チャンネルの信号を特定してもよい。
The dialog-dedicated channel
音声信号分離部33は、ダイアログ専用チャンネル信号特定部32による特定に基づいて、当該音声信号をダイアログ専用チャンネル信号とそれ以外の背景音チャンネル信号とに分離する。
The audio
制御部34は、音声信号分離部33からダイアログ専用チャンネル信号及び背景音チャンネル信号を取得する。
The
次いで制御部34は、復号化装置2から取得したダイアログ制御用メタデータに基づいて、受信機等での利得制御の上限値及び下限値(例えば、上限値は+18dB、下限値は−∞)を取得する。
Next, the
また、制御部34は、音声方式が22.2chであることから、記憶部36を参照してダイアログ専用チャンネル(本実施形態では図1のFC)を特定する。なお制御部34は、ダイアログ専用チャンネルを、その他の情報(例えば、番組情報)から特定してもよい。
Further, since the voice system is 22.2ch, the
更に、制御部34は、音声信号処理装置3の外部の制御情報入力装置4から、視聴者によるリモコン操作等によって受信視聴環境に応じて制御情報入力装置4に入力された制御情報(例えば、音量調節情報)を、制御情報取得部35を介して取得する。制御部34は、ダイアログ制御用メタデータと視聴者から与えられた制御情報とを用いて、ダイアログ専用チャンネル信号と背景音チャンネル信号とを制御する。
Further, the
当該制御において、制御部34は、ダイアログに話速変換処理を行ってもよい。また、当該制御において、制御部34は、利得制御量の上限値よりも高い又は下限値よりも低いダイアログ音量の調節情報を取得したとき、利得制御量の上限値又は下限値により調節を制限してもよい。
In the control, the
当該制御において制御部34は、ダイアログ専用チャンネル信号と背景音チャンネル信号とに対してそれぞれ異なる信号処理を行ってもよい。例えば、制御部34は、ダイアログ音量を増加させる調節情報を取得したとき、ダイアログ専用チャンネル信号以外のチャンネル信号の利得を低減させ、ダイアログ音量を低減させる調節情報を取得したとき、前記ダイアログ専用チャンネル信号の利得のみを低減させてもよい。また、制御部34は、前記のダイアログ音量の調節後に、ダイアログ専用チャンネル信号と背景音チャンネル信号の音量を、同時に増減してもよい。さらに、制御部34は、ダイアログ専用チャンネル信号とそれ以外の任意の数のチャンネル信号との双方又はどちらか一方に、それぞれ周波数補正処理を含む信号処理を行ってもよい。
In the control, the
また、制御部34は、必要に応じてダウンミックスを含む変換手段によりチャンネル数を変換した後、ダイアログ専用チャンネル信号と背景音チャンネル信号とを組み合わせた22.2chの音声信号を受信機に出力する。受信機は当該音声信号を、受信機に接続された再生装置から出力し、この結果、視聴者は制御情報に示す通りの所望の音声を視聴することができる。なお圧縮音声信号のまま上述の音声信号処理を行ったとき、制御部34は、ダイアログ制御用メタデータと音声方式メタデータの双方またはどちらか一方と、圧縮音声信号を多重化してビットストリームとして受信機等に出力してもよいし、メタデータを多重化せずに圧縮音声信号を出力してもよい。
Further, the
図5は、本発明の一実施形態に係る動作フローを示す図である。 FIG. 5 is a diagram showing an operation flow according to an embodiment of the present invention.
符号化装置1は、入力された音声信号を取得し(ステップS1)、圧縮符号化する(ステップS2)。次いで符号化装置1は、圧縮符号化した圧縮音声信号と、ダイアログ制御用メタデータ及び音声方式を示すメタデータとを多重化する(ステップS3)。符号化装置1は、多重化したデータをビットストリームとして復号化装置2に出力する(ステップS4)。 The coding device 1 acquires the input audio signal (step S1) and compresses and encodes it (step S2). Next, the coding device 1 multiplexes the compressed voice signal that has been compressed and coded, the metadata for dialog control, and the metadata that indicates the voice method (step S3). The coding device 1 outputs the multiplexed data as a bit stream to the decoding device 2 (step S4).
復号化装置2は、符号化装置1から取得したビットストリームをメタデータ及び圧縮音声信号に分離する(ステップS5)。復号化装置2はまた、メタデータを、ダイアログ制御用メタデータ及び音声方式メタデータに分離する(ステップS6)。次いで復号化装置2は、取得した圧縮音声信号を音声信号に復号化し(ステップS7)、ダイアログ制御用メタデータ、音声方式メタデータ及び音声信号を音声信号処理装置3に出力する(ステップS8)
The
音声信号処理装置3は、復号化装置2から取得した音声信号が、ダイアログ制御機能対応の番組か否かを判定する(ステップS9)。音声信号処理装置3は、当該音声信号がダイアログ制御機能対応の番組でないと判定すると(ステップS9のNo)、ステップS10〜ステップS14を行わない。
The audio signal processing device 3 determines whether or not the audio signal acquired from the
他方、音声信号処理装置3は、当該音声信号がダイアログ制御機能対応の番組であると判定すると(ステップS9のYes)、ダイアログ制御用メタデータから、受信機等での利得制御の上限値及び下限値の情報を取得する(ステップS10)。次いで音声信号処理装置3は、ダイアログ専用チャンネルの信号を特定する(ステップS11)。音声信号処理装置3は、当該特定に基づいて、当該音声信号をダイアログ専用チャンネル信号とそれ以外の背景音チャンネル信号とに分離する(ステップS12)。 On the other hand, when the audio signal processing device 3 determines that the audio signal is a program compatible with the dialog control function (Yes in step S9), the upper limit value and the lower limit of the gain control in the receiver or the like are obtained from the dialog control metadata. The value information is acquired (step S10). Next, the audio signal processing device 3 identifies the signal of the dialog-dedicated channel (step S11). Based on the identification, the audio signal processing device 3 separates the audio signal into a dialog-dedicated channel signal and other background sound channel signals (step S12).
音声信号処理装置3は、音声信号処理装置3の外部の制御情報入力装置4から、制御情報(例えば、音量調節情報)を、制御情報取得部35を介して取得する(ステップS13)。音声信号処理装置3は、当該制御情報に基づいて音声信号を調節する(ステップS14)。
The audio signal processing device 3 acquires control information (for example, volume control information) from the external control
次いで音声信号処理装置3は、音声信号を受信機等に出力する(ステップS15)。 Next, the audio signal processing device 3 outputs the audio signal to the receiver or the like (step S15).
従って、本実施形態に係る符号化装置1、復号化装置2、音声信号処理装置3及び制御情報入力装置4によれば、チャンネルベース方式の制作手法及びチャンネルベース方式の符号化手法の枠組み内で、受信機等を用いて視聴者がダイアログを制御することができる仕組みを実現することができる。
Therefore, according to the coding device 1, the
本発明を諸図面及び実施形態に基づき説明してきたが、当業者であれば本開示に基づき種々の変形や修正を行うことが容易である。従って、これらの変形及び修正は本発明の範囲に含まれることに留意されたい。例えば、各機能部、各手段、各ステップ等に含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の機能部やステップ等を1つ組み合わせること、或いは分割することが可能である。また、上述した本発明の実施形態は、それぞれ説明した実施形態に忠実に実施することに限定されるものではなく、適宜、各特徴を組み合わせたり、一部を省略したりして実施することもできる。 Although the present invention has been described based on the drawings and embodiments, those skilled in the art can easily make various modifications and modifications based on the present disclosure. Therefore, it should be noted that these modifications and modifications are within the scope of the present invention. For example, the functions included in each functional unit, each means, each step, etc. can be rearranged so as not to be logically inconsistent, and a plurality of functional units, steps, etc. can be combined or divided into one. Is. Further, the above-described embodiments of the present invention are not limited to faithful implementation of the respective embodiments described above, and each feature may be combined or partially omitted as appropriate. can.
また、本発明が、22.2ch以外の音声方式に適用可能であることは言うまでもない。また本発明は、MPEG―4 AACに限らず、ダイアログ制御情報を格納可能なメタデータ領域を有する音声符号化方式なら、適用可能である。更に本発明は、必ずしもダイアログのみに適用されるものではなく、何らかの音声信号のための専用チャンネルを設けて、個別に制御する目的の制御に対して応用可能であることは言うまでもない。 Needless to say, the present invention can be applied to audio systems other than 22.2ch. Further, the present invention is not limited to MPEG-4 AAC, and can be applied to any voice coding method having a metadata area capable of storing dialog control information. Further, it goes without saying that the present invention is not necessarily applied only to dialogues, and can be applied to control for the purpose of individually controlling by providing a dedicated channel for some audio signal.
1 符号化装置
11 圧縮符号化部
12 多重化部
2 復号化装置
21 分離部
22 メタデータ分離部
23 復号化部
3 音声信号処理装置
31 ダイアログ制御可否判定部
32 ダイアログ専用チャンネル信号特定部
33 音声信号分離部
34 制御部
35 制御情報取得部
36 記憶部
4 制御情報入力装置
1 Encoding
Claims (4)
ダイアログ制御機能に対応した番組か否かのフラグに基づいてダイアログ制御の可否を判定するダイアログ制御可否判定部と、
前記ダイアログ制御可否判定部によりダイアログ制御可能と判定された場合に、ダイアログ専用チャンネル信号を特定するダイアログ専用チャンネル信号特定部と、
前記音声信号を、前記ダイアログ専用チャンネル信号特定部の特定に基づいて、前記ダイアログ専用チャンネル信号と、前記ダイアログ専用チャンネル信号以外のチャンネル信号とに分離する音声信号分離部と、
ダイアログ専用チャンネル信号の利得制御量の上限値及び下限値を、ダイアログ制御用メタデータとして取得し、前記ダイアログ専用チャンネル信号と、前記ダイアログ専用チャンネル信号以外のチャンネル信号とに対してそれぞれ異なる信号処理を行う制御部と、
を備え、
前記制御部は、ダイアログ音量を増加させる調節情報を制御情報入力装置から取得したとき、前記ダイアログ専用チャンネル信号以外のチャンネル信号の利得を低減させ、ダイアログ音量を低減させる調節情報を前記制御情報入力装置から取得したとき、前記ダイアログ専用チャンネル信号の利得のみを低減させる音声信号処理装置。 An audio signal processing device that performs audio signal processing based on a channel-based method for audio signals corresponding to each channel.
A dialog control availability judgment unit that determines whether or not dialog control is possible based on a flag indicating whether or not the program supports the dialog control function,
When it is determined by the dialog control enable / disable determination unit that the dialog can be controlled, the dialog-dedicated channel signal specifying unit that specifies the dialog-dedicated channel signal and the dialog-dedicated channel signal specifying unit
An audio signal separating unit that separates the audio signal into a channel signal dedicated to the dialog and a channel signal other than the channel signal dedicated to the dialog based on the identification of the channel signal specifying unit dedicated to the dialog.
The upper limit value and the lower limit value of the gain control amount of the dialog-dedicated channel signal are acquired as dialog control metadata, and different signal processing is performed for the dialog-dedicated channel signal and the channel signal other than the dialog-dedicated channel signal. Control unit to perform and
With
Wherein, when obtaining regulatory information that increases the dialog volume from the control information input device, the dialog dedicated channel signal to reduce the gain of the channel signals other than the control information input device adjustment information to reduce the dialog volume An audio signal processing device that reduces only the gain of the dialog-dedicated channel signal when obtained from.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014182695 | 2014-09-08 | ||
JP2014182695 | 2014-09-08 | ||
JP2016547697A JP6683618B2 (en) | 2014-09-08 | 2015-09-07 | Audio signal processor |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016547697A Division JP6683618B2 (en) | 2014-09-08 | 2015-09-07 | Audio signal processor |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2020101837A JP2020101837A (en) | 2020-07-02 |
JP6924863B2 true JP6924863B2 (en) | 2021-08-25 |
Family
ID=55458647
Family Applications (3)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016547697A Active JP6683618B2 (en) | 2014-09-08 | 2015-09-07 | Audio signal processor |
JP2020056076A Active JP6924863B2 (en) | 2014-09-08 | 2020-03-26 | Audio signal processor |
JP2020056071A Active JP6924862B2 (en) | 2014-09-08 | 2020-03-26 | Audio signal processor |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016547697A Active JP6683618B2 (en) | 2014-09-08 | 2015-09-07 | Audio signal processor |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020056071A Active JP6924862B2 (en) | 2014-09-08 | 2020-03-26 | Audio signal processor |
Country Status (2)
Country | Link |
---|---|
JP (3) | JP6683618B2 (en) |
WO (1) | WO2016038876A1 (en) |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001245237A (en) * | 2000-02-28 | 2001-09-07 | Victor Co Of Japan Ltd | Broadcast receiving device |
KR101061132B1 (en) * | 2006-09-14 | 2011-08-31 | 엘지전자 주식회사 | Dialogue amplification technology |
KR20090115200A (en) * | 2007-02-13 | 2009-11-04 | 엘지전자 주식회사 | A method and an apparatus for processing an audio signal |
KR101227876B1 (en) * | 2008-04-18 | 2013-01-31 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | Method and apparatus for maintaining speech audibility in multi-channel audio with minimal impact on surround experience |
TWI443646B (en) * | 2010-02-18 | 2014-07-01 | Dolby Lab Licensing Corp | Audio decoder and decoding method using efficient downmixing |
JP5241865B2 (en) * | 2011-01-21 | 2013-07-17 | 日立コンシューマエレクトロニクス株式会社 | Video camera |
US9559651B2 (en) * | 2013-03-29 | 2017-01-31 | Apple Inc. | Metadata for loudness and dynamic range control |
CN106663435A (en) * | 2014-09-08 | 2017-05-10 | 索尼公司 | Coding device and method, decoding device and method, and program |
-
2015
- 2015-09-07 WO PCT/JP2015/004534 patent/WO2016038876A1/en active Application Filing
- 2015-09-07 JP JP2016547697A patent/JP6683618B2/en active Active
-
2020
- 2020-03-26 JP JP2020056076A patent/JP6924863B2/en active Active
- 2020-03-26 JP JP2020056071A patent/JP6924862B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
WO2016038876A1 (en) | 2016-03-17 |
JP2020101837A (en) | 2020-07-02 |
JP6683618B2 (en) | 2020-04-22 |
JP6924862B2 (en) | 2021-08-25 |
JP2020101836A (en) | 2020-07-02 |
JPWO2016038876A1 (en) | 2017-06-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111492427B (en) | Priority information for higher order ambisonic audio data | |
US20100324915A1 (en) | Encoding and decoding apparatuses for high quality multi-channel audio codec | |
EP3540733B1 (en) | Metadata for loudness and dynamic range control | |
KR101759005B1 (en) | Loudspeaker position compensation with 3d-audio hierarchical coding | |
TWI630829B (en) | Method for measuring hoa loudness level and device for measuring hoa loudness level | |
CN110603585A (en) | Hierarchical intermediate compression of audio data for higher order stereo surround | |
US10446160B2 (en) | Coding device and method, decoding device and method, and program | |
JP6924863B2 (en) | Audio signal processor | |
EP2175643A1 (en) | Personal recording apparatus and control method thereof | |
US11270711B2 (en) | Higher order ambisonic audio data | |
KR20230153402A (en) | Audio codec with adaptive gain control of downmix signals | |
JP5042182B2 (en) | Abstract content generation apparatus and computer program | |
JP6309061B2 (en) | Broadcast system | |
JP2007142865A (en) | Television receiver | |
JP4167346B2 (en) | Hearing compensation method for digital broadcasting and receiver used therefor | |
JP2016092698A (en) | Receiver unit, broadcasting system, reception method, and program | |
KR101516968B1 (en) | Method for processing audio signal and broadcasting output apparatus using the same | |
JP6137754B2 (en) | Receiving device, receiving method and program | |
JP2017069705A (en) | Reception device, reception method, broadcast system, and program | |
KR101432054B1 (en) | Multi audio output imaging device | |
JP6327711B2 (en) | Receiving apparatus, broadcasting system, receiving method and program | |
WO2024074285A1 (en) | Method, apparatus, and medium for encoding and decoding of audio bitstreams with flexible block-based syntax | |
JP2018033159A (en) | Receiver unit | |
US20110054917A1 (en) | Apparatus and method for structuring bitstream for object-based audio service, and apparatus for encoding the bitstream | |
KR20160002319U (en) | Audio and Set-Top-Box All-in-One System |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200326 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210210 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210302 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210414 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210706 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210802 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6924863 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |