JP6832095B2 - チャンネル数変換装置およびそのプログラム - Google Patents
チャンネル数変換装置およびそのプログラム Download PDFInfo
- Publication number
- JP6832095B2 JP6832095B2 JP2016161329A JP2016161329A JP6832095B2 JP 6832095 B2 JP6832095 B2 JP 6832095B2 JP 2016161329 A JP2016161329 A JP 2016161329A JP 2016161329 A JP2016161329 A JP 2016161329A JP 6832095 B2 JP6832095 B2 JP 6832095B2
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- channel
- signal
- dialog
- converted
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000005236 sound signal Effects 0.000 claims description 255
- 238000006243 chemical reaction Methods 0.000 claims description 144
- 238000004458 analytical method Methods 0.000 claims description 85
- 238000011156 evaluation Methods 0.000 claims description 61
- 238000000034 method Methods 0.000 claims description 35
- 230000000873 masking effect Effects 0.000 claims description 18
- 230000006872 improvement Effects 0.000 claims description 7
- 238000011426 transformation method Methods 0.000 claims 1
- 238000004364 calculation method Methods 0.000 description 48
- 238000012937 correction Methods 0.000 description 36
- 238000003860 storage Methods 0.000 description 17
- 238000010586 diagram Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 230000008569 process Effects 0.000 description 13
- 238000012986 modification Methods 0.000 description 9
- 230000004048 modification Effects 0.000 description 9
- 238000012546 transfer Methods 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 238000009877 rendering Methods 0.000 description 4
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004091 panning Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
Images
Landscapes
- Stereophonic System (AREA)
Description
非特許文献1や非特許文献2には、再生環境に応じてマルチチャンネル音声信号をダウンミックスやレンダリング等によりチャンネル数変換して、変換後のチャンネル数による音声信号を再生するための方法が記載されている。
本発明は、上記の事情を考慮して為されたものであり、ダイアログの明瞭性を損なうことのないチャンネル数変換装置およびプログラムを提供することを目的としている。
予め規定されたチャンネル数変換法である基準チャンネル数変換法を用いて、前記ダイアログ音声信号および前記マルチチャンネル音声信号を、予め規定されたチャンネル数である変換後マルチチャンネル音声信号および変換後ダイアログ音声信号に変換する基準チャンネル数変換部と、前記ダイアログ音声信号と前記マルチチャンネル音声信号と前記変換後ダイアログ音声信号と前記変換後マルチチャンネル音声信号とのそれぞれのエナジーを、チャンネルの方向別の中間評価値として計算し、前記方向別の中間評価値に対して所定の基準方向に対する重み付け補正を行い、補正後の最終評価値を用いて前記信号対雑音比および前記基準変換信号対雑音比を計算し、前記ダイアログ音声信号を基準として各チャンネルの最終重み付けを導出する分析部と、前記分析部が導出した前記最終重み付けを用いて前記変換後マルチチャンネル音声信号および前記変換後ダイアログ音声信号を前記出力音声信号に変換し、または、前記最終重み付けを用いて前記マルチチャンネル音声信号および前記ダイアログ音声信号を前記出力音声信号に変換する出力部と、を備え、前記分析部は、前記ダイアログ音声信号を信号として前記マルチチャンネル音声信号を雑音として算出される信号対雑音比と、前記変換後ダイアログ音声信号を信号として前記変換後マルチチャンネル音声信号を雑音として算出される基準変換信号対雑音比との差に基づいて、前記最終重み付けを決定する、ことを特徴とする。
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本発明に係る第1実施形態におけるチャンネル数変換装置の一例を示すブロック図である。図1に示すように、チャンネル数変換装置1は、基準チャンネル数変換部21と、分析部22と、チャンネル位置情報記憶部23と、出力部24と、を含んで構成される。
チャンネル数変換装置1において、基準チャンネル数変換部21が複数のチャンネルの信号を含むマルチチャンネル音声信号と、マルチチャンネル音声信号のチャンネル数よりも少ないチャンネル数のダイアログ音声信号とを入力する。分析部22は、ダイアログ音声信号を基準として各チャンネルの重み付けを導出する。出力部24は、分析部22が導出した重み付けを用いて、基準チャンネル数変換部21が変換した所定のチャンネル数のマルチチャンネル音声信号およびダイアログ音声信号を所定の出力音声信号に変換する。
チャンネル数変換装置1が入力するマルチチャンネル音声信号は、いわゆる8Kと呼ばれるSHV(スーパーハイビジョン)用の22.2チャンネル音響システムの信号である。また、ダイアログ音声信号は、一例として、TpFCチャンネル(トップフロントセンター)の音声信号、あるいは、TpFCチャンネルの差し替え用の音声信号である。
この場合、マルチチャンネル音声信号は24チャンネルの信号であり、ダイアログ音声信号は1チャンネルの信号である。なお、ダイアログ音声信号のチャンネル数が2チャンネル以上であってもよい。
なお、ダイアログ音声信号に含まれる音声は必ずしもダイアログ(対話)の音声に限られない。主に人の声で構成される音声信号をダイアログ音声信号として扱ってよい。
基準チャンネル数変換部21は、基準チャンネル数変換法として、例えば、VBAPを使用する。なお、VBAPは、Vector base amplitude panning(ベクトルベース振幅パンニング)の略である。
VBAP法では、例えば、音響の再生空間を、3個のスピーカからなる三角領域で分割し、各三角領域において、各スピーカの重み係数によって音響信号をスピーカに分配する。そして、任意の振幅のパンニングを行うことで仮想音像の定位を実現する。VBAPの基本原理の詳細は、例えば、下記の参考文献1に詳細に記載されている。
[参考文献1]映像情報メディア学会 Vol.66, No8, p.671-677(2012)
あるいはまた、基準チャンネル数変換部21は、基準チャンネル数変換法として、例えば、MPEG−4 AACのPCEまたはDSEで記述可能な変換法を使用する。AACのPCEまたはDSEの変換式は既知であり、例えば参考文献3に記載されている。
MPEG−4 AACは,音声信号を周波数成分に分解して符号化する「周波数領域の圧縮符号化」の一種であり、人の聴覚特性を利用したマスキングなどを効果的に用いることにより,高能率な圧縮を行う技術である。
この変換法は、下記の、参考文献2や、参考文献3の第2部に詳細に記載されている。
なお、5.1chを超えるマルチチャンネルステレオからダウンミックスによって2chステレオを得る場合は、一旦5.1chにダウンミックスしてから、2chステレオへダウンミックスする。
[参考文献2]「ISO/IEC 23008-3, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」,2015年
[参考文献3]「デジタル放送における映像符号化、音声符号化及び多重化方式 標準規格 VIDEO CODING, AUDIO CODING AND MULTIPLEXING SPECIFICATIONS FOR DIGITAL BROADCASTING ARIB STANDARD ARIB STD-B32 3.3版」,平成27年(2015年),社団法人電波産業会
なお、MPEGは、Moving Picture Experts Group(ムービング・ピクチャー・エクスパーツ・グループ)の略である。AACは、advanced audio coding(アドバンスド・オーディオ・コーディング)の略である。PCEは、program configuration element(プログラム・コンフィギュレーション・エレメント)の略である。DSEは、data stream element(データ・ストリーム・エレメント)の略である。
基準チャンネル数変換部21は、基準チャンネル数変換法として、例えば、MPEG CICPのチャンネルコンフィギュレーション(channel configuration)間で予め規定したチャンネル数変換法を使用する。なお、CICPは、Coding Independent Code Points(コーデック非依存コードポイント)の略である。
なお、MPEG CICPのチャンネルコンフィギュレーションは既知であり、その具体例は、例えば、下記の参考文献4に記載されている。
[参考文献4]「ISO/IEC 23001-8:2016 Information technology - MPEG systems technologies - Part 8: Coding-independent code points」,2016年
基準チャンネル数変換部21は、変換後マルチチャンネル音声信号と、変換後ダイアログ音声信号とを出力する。
変換後マルチチャンネル音声信号は、入力された22.2chのマルチチャンネル音声信号から、ダイアログ音声信号を除いて、5.1chに変換された信号である。変換後ダイアログ音声信号は、22.2ch音響システム用のダイアログ音声信号であるTpFCチャンネルの信号(またはその差し替え信号)を基に、5.1chに変換された信号である。
基準チャンネル数変換部21から出力されるこれらの信号は、分析部22と出力部24とに供給される。
なお、分析部22は、ダイアログ音声信号とマルチチャンネル音声信号と変換後ダイアログ音声信号と変換後マルチチャンネル音声信号とのそれぞれのエナジーの代わりに、チャンネルの方向別の中間評価値として、これら各信号の強度に基づいて低域と高域の音声が補正されたいわゆるラウドネスを用いてもよい。あるいはエナジーの代わりに各振幅を用いてもよい。この場合も、分析部22は、方向別の中間評価値に対して、所定の基準方向に対する重み付け補正を行い、補正後の最終評価値を用いて信号対雑音比および基準変換信号対雑音比を計算する。
エナジーの代わりにチャンネルの方向別の中間評価値として、これら各信号の強度に基づいて低域と高域の音声が補正されたいわゆるラウドネスを用いてもよい。例えば、元のチャンネルの方向別の信号に対して、2次の伝達関数を持つ2種類のフィルタ処理を行う。これによって、エナジーを用いる場合と比べると、低域に関しては感度が鈍く、2kHz以上で感度が高くなるという、より人の聴感にあった値に補正して出力することができる。即ち、ラウドネスを用いる場合、ダイアログ音声信号とマルチチャンネル音声信号に対しても、エナジーと比べると、人の聴感にあった値に補正して出力することができる。このことから、後述の信号対雑音比を計算する際により精度の高い計算結果が得られることが期待される。ラウドネスの計算は、例えばISO532Bで計算する方法でも良い。
伝達関数:
H(z)={b0+b1・z^(−1)+b2・z^(−2)}
/{1+a1・z^(−1)+a2・z^(−2)}
[b0,b1,b2] = [1.53512485958697 -2.69169618940638 1.19839281085285];
[a1 ,a2] = [1.0 -1.69065929318241 0.73248077421585];
伝達関数:
H(z)={B0+B1・z^(−1)+B2・z^(−2)}
/{1+A1・z^(−1)+A2・z^(−2)}
[B0,B1,B2]= [1.0 -2.0 1.0];
[A1 ,A2] = [1.0 -1.99004745483398 0.99007225036621];
なお、「^」はべき乗を表す。
なお、以下において、分析部22がダイアログ音声信号とマルチチャンネル音声信号と変換後ダイアログ音声信号と変換後マルチチャンネル音声信号とのチャンネルの方向別のそれぞれのエナジーによる中間評価値の計算を行う形態を説明する。ただし、チャンネルの方向別の中間評価値の代わりに、分析部22がラウドネスや振幅を各信号の評価値として計算する場合も、同様の処理を行う。
例えば、22.2chから5.1chの変換をする場合、22.2chの信号を5.1chを含む水平面上に射影させた上で、2個あるいは1個のスピーカで各チャンネルの振幅が視聴位置で等しくなるように変換する。ここで、タンジェントの法則を用いて、音源の方向をはさむ2個のスピーカの中央方向を基準として、それぞれのスピーカとの成す角をφ0としたとき、そして、変換前のスピーカ位置Snが中央方向を基準として2個のスピーカの中央方向と成す角をφとしたときに、はさむ2個のスピーカのゲインg(2n)およびg(2n+1)の比を次式で表せる。
g(2n)/g(2n+1)
=(tan(φ0)+tan(φ))/(tan(φ0)−tan(φ))
と変換することで視聴位置での振幅を等しくできる。この変換により再生方向の情報が含まれることになる。
図2は、上記の分析部22のさらに詳細な機能構成を示すブロック図である。図示するように、分析部22は、エナジー重み付け修正計算部221と、SN比差分計算部222と、記憶部223と、判定出力部224と、を含んで構成される。
図1を参照して既に説明したように、分析部22は、ダイアログ音声信号と、マルチチャンネル音声信号と、変換後ダイアログ音声信号と、マルチチャンネル音声信号とを入力する。分析部22は、基準チャンネル数変換の前後のそれぞれの音声信号に関して、ダイアログ音声信号を目的の信号(S)とみなし、マルチチャンネル音声信号をノイズ(N)とみなしたときのダイアログ音声信号(S)について、SN比に基づく評価を行う。そして、分析部22は、SN比に基づく評価の判定結果にしたがって、最終重み付け情報を出力する。なお、「SN比」とは、信号量と雑音量との比であり、「信号対雑音比(signal-to-noise ratio)」ともいう。
エナジー重み付け修正計算部221は、チャンネル数変換装置1が入力した信号であるダイアログ音声信号のエナジーS_D(ch1)を計算し、中間評価値としてエナジー重み付け修正計算部221に出力する。なお、チャンネル数変換装置1が入力する音声信号は22.2chのフォーマットによる信号である。ch1は、1以上で24以下の指標値である。
22.2chでは、「下層」−「中層」−「上層」の3層に22個のスピーカを配置し、 低域にはさらに2チャンネルのサブウーファーが用いられる。
例えば、エナジー重み付け修正計算部221は、LFE(Low Frequency Effect Channel、重低音強調効果チャンネル)チャンネル(例えば、ch1=4およびch1=10の場合)に対しては−∞dB(つまり、補正係数が0.0)のゲインを乗じ、その他のチャンネルには0.0dB(つまり、補正係数が1.0)のゲインを乗じた補正後の中間評価値を全て合算し、ダイアログ音声信号のエナジーS_Dを算出する。
なお、ここではLFEチャンネル以外のチャンネルのゲインを0.0dBとしたが、LFEチャンネル以外のチャンネルに予め定められた方向別明瞭度改善量のゲインを乗じることで同様の効果を得てもよい。
また、方向別明瞭度改善量の一例として、頭部伝達関数から推定した方向別のゲインをその他のチャンネルに乗じるようしてもよい。つまり、分析部22のエナジー重み付け修正計算部221は、ダイアログ音声信号から得られる中間評価値に、所定の基準方向に対する方向別明瞭度改善量として予め定められたゲインにより重み付け補正を行い、補正後の最終評価値を用いて信号対雑音比を計算してもよい。
なお、頭部伝達関数から方向別のゲインを計算する方法は既知であり、下記の参考文献5にも詳細に記載されている。
[参考文献5]Sivonen, V. P., and Ellemeier, W., “Directional loudness in an anechoic sound field, head-related transfer functions, and binaural summation,” J. Acoust. Soc. Am., Vol.119, No.5, pp.2965-2980 (May 2006).
また、エナジー重み付け修正計算部221は、チャンネル数変換装置1が入力したマルチチャンネル音声信号からチャンネルの中間評価値としてノイズであるエナジーN_B(ch1)を計算する。
そして、エナジー重み付け修正計算部221は、エナジーS_Dの計算と同様に、22.2chの中のダイアログ信号の明瞭度に対して、ほとんど寄与しない周波数帯域の成分のみを持つ、LFEチャンネル(例えば、ch1=4およびch1=10)には−∞dB(つまり、補正係数が0.0)のゲインを乗じる。
下の[表1]および[表2]は、方向別マスキングリリース量表の一例であり、正面、仰角30度方向を基準として方向別マスキングリリース量を示す。このように、水平角90度周辺でマルチチャンネル音声信号のマスキングリリース量を最大とすることで、ダイアログ音声の信号のエナジーが最大となりように設定している。なお、仰角および水平角それぞれ10度刻みでゲインを示している。10度未満の端数について参照する場合には、例えば、一の位を四捨五入したり、内挿補間したりする。仰角が0度から90度までの範囲を[表1]とし、仰角が100度から180度までの範囲を[表2]としている。
また、エナジー重み付け修正計算部221は、LFEチャンネル以外のチャンネルには各チャンネルの方向(α:水平角、β:仰角)のマスキングリリース量の値に応じて、下の[表1]および[表2]に示すマスキングリリース量分のゲインを減じて乗じる。つまり、[表1]および[表2]に示すマスキングリリース量分のゲインに負の符号を付して、乗じる。そして、エナジー重み付け修正計算部221は、方向別にゲインを乗じた補正後の最終評価値を全て合算して、マルチチャンネル音声信号のエナジーN_Bを算出する。なお、[表1]や[表2]と同様の表を基準となる角度毎に予め準備しておく。そして、基準となる方向に応じた表を用いて、上記の計算を行うようにする。
ここで、[表1]および[表2]では、正面、仰角30度方向を基準方向としているが、基準方向が別の方向である場合には、その場合における基準方向用の表を用いてゲインを求める。つまり、基準方向毎に、[表1]および[表2]と同様の表を予め記憶しておくようにする。
なお、このとき、エナジー重み付け修正計算部221は、各チャンネルの方向(水平角αおよび仰角β)の情報を、チャンネル位置情報記憶部23(図1)から読み出して使用する。
いわゆるダイバージェンスによる再生の一例として、22.2チャンネルのシステムにおける、第1チャンネル(1ch)、第2チャンネル(2ch)、第3チャンネル(3ch)がそれぞれダイアログ音声信号のチャンネルである場合、次の按分計算が可能である。即ち、第1チャンネル、第2チャンネル、第3チャンネルのダイアログ音声信号のエナジー比が1:1:2である場合を考える。第1チャンネル、第2チャンネル、第3チャンネルを基準方向として計算したときのエナジーを、それぞれ、N_B_1、N_B_2、N_B_3とする。このとき、N_Bの方向別補正量を、下の式(1)で計算可能である。
また、エナジー重み付け修正計算部221は、基準変換後の変換後ダイアログ音声信号からチャンネルの中間評価値としてエナジーS_D´(ch2)を計算する。なお、チャンネル数変換後の音声信号は5.1チャンネルのフォーマットであり、ch2は、1以上で6以下の指標値である。
そして、エナジー重み付け修正計算部221は、LFEチャンネル(例えば、ch2=4)には−∞dB(つまり、0.0)のゲインを乗じ、その他のチャンネルには0.0dB(つまり、1.0)のゲインを乗じる。そして、エナジー重み付け修正計算部221は、補正後の中間評価値を全て合算して、変換後ダイアログ音声信号のエナジーS_D´を算出する。
なお、ここではLFEチャンネル以外のチャンネルのゲインを0.0dBとしたが、方向別明瞭度改善量のゲインとして、一例として、頭部伝達関数から推定した方向別のゲインを用いても良い。つまり、この場合、エナジー重み付け修正計算部221(分析部22)は、変換後ダイアログ音声信号から得られる中間評価値に、所定の基準方向に対する方向別明瞭度改善量のゲインにより重み付け補正を行い、補正後の最終評価値を用いて基準変換信号対雑音比を計算する。
また、エナジー重み付け修正計算部221は、基準変換後の変換後マルチチャンネル音声信号からチャンネルの中間評価値としてノイズであるエナジーN_B´(ch2)を計算する。
そして、エナジー重み付け修正計算部221は、LFEチャンネル(例えば、ch2=4)には−∞dB(つまり、0.0)のゲインを乗じる。また、エナジー重み付け修正計算部221は、LFEチャンネル以外のチャンネルには各チャンネルの方向(α:水平角、β:仰角)の値に応じて、下の[表3]および[表4]に示すマスキングリリース量分のゲインを減じて乗じる。つまり、[表3]および[表4]に示すマスキングリリース量分のゲインに負符号を付して、乗じる。そして、エナジー重み付け修正計算部221は、方向別にゲインを乗じた補正後の最終評価値を全て合算して、変換後マルチチャンネル音声信号のエナジーN_B´を算出する。
ここで、[表3]および[表4]では、正面方向を基準方向としているが、基準方向が別の方向である場合には、その場合における基準方向用の表を用いてゲインを求める。つまり、基準方向毎に、[表3]および[表4]と同様の表を予め記憶しておくようにする。
なお、このとき、エナジー重み付け修正計算部221は、各チャンネルの方向(水平角αおよび仰角β)の情報を、チャンネル位置情報記憶部23(図1)から読み出して使用する。
具体的には、SN比差分計算部222は、ダイアログ音声信号とマルチチャンネル音声信号のSN比を、下の式(2)によって計算する。また、SN比差分計算部222は、変換後ダイアログ音声信号と変換後マルチチャンネル音声信号のSN比(基準変換SN比)を、下の式(3)によって計算する。
記憶部223は、SN比差分計算部222によって分析時間窓長毎に計算された、SN比と基準変換SN比との差分(SN比から基準変換SN比を減じた値)を記憶する。
具体的には、判定出力部224は、SN比と基準変換SN比との差分が予め定められた閾値(例えば6dB)を越えた場合、あるいは定められた区間記憶部に記録されたその差分の平均値が予め定められた別の閾値(例えば2dB)を越えた場合に、次のように最終重み付け情報を決定する。即ち、SN比と基準変換SN比との差分が閾値を越えた場合には、判定出力部224は、その差分に予め定められた係数を乗じることによって最終重み付け情報を決定する。また、SN比と基準変換SN比との差分の平均値が閾値を越えた場合には、その差分の平均値に予め定められた係数を乗じることによって最終重み付け情報を決定する。
最終重み付け情報は、一例として、変換後ダイアログ音声信号を強調して重畳するための係数である。
なお、SN比と基準変換SN比との差分が閾値を越えず、且つSN比と基準変換SN比との差分の平均値が閾値を越えない場合には、判定出力部224は、変換後ダイアログ音声信号と変換後マルチチャンネル音声信号がそのまま出力音声信号となるよう、最終重み付け情報を決定する。
なお、判定出力部224は、予め任意に定められたレベル幅(例えば、0.5デシベル刻みなど)で、最終重み付け情報を生成するようにしてもよい。
なお、判定出力部224は、分析時間窓長毎に上記の処理を実行する。
図3は、チャンネル数変換装置による動作の手順を示すフローチャートである。以下、このフローチャートに沿って動作手順を説明する。
まず、ステップS11において、チャンネル数変換装置1は、チャンネル数の変換の処理を開始する。
次に、ステップS12において、チャンネル数変換装置1は、マルチチャンネル音声信号の入力を開始する。
次に、ステップS13において、チャンネル数変換装置1は、ダイアログ音声信号の入力を開始する。
次に、ステップS14において、基準チャンネル数変換部21は、入力されるマルチチャンネル音声信号とダイアログ音声信号とを基に、基準チャンネル数の変換処理を行う。そして、基準チャンネル数変換部21は、以後、この基準チャンネル数の変換処理を継続する。
次に、ステップS17において、分析部22は、補正したSN比の差の所定時間長における平均値が、予め定められた閾値(第2閾値)以上であるか否かを判断する。SN比の差の平均値がその閾値以上であれば(ステップS17:YES)、ステップS18に制御を移す。SN比の差が閾値未満であれば(ステップS17:NO)、ステップS15に戻る。
そして、ステップS19において、出力部24は、分析部22から供給された最終重み付け情報に基づいて、変換後ダイアログ音声信号および変換後マルチチャンネル音声信号の再変換を行う。具体的には、出力部24は、最終重み付け情報としてチャンネル位置情報記憶部23から出力された値を、変換後のマルチチャンネル音声信号に重み付けして、変換後のダイアログ音声信号に加算して出力する。
また、上の処理で、ステップS17またはS19からステップS15に戻ったときには、次の分析時間窓の計算に移る。
なお、分析時間窓の長さは、例えば、50ミリ秒から200ミリ秒までの範囲内のいずれかとしてよい。ただし、この範囲外の任意の長さの分析時間窓としてもよい。また、SN比の差の平均値をとるための時間長は、分析時間窓の5個から10個までの範囲内のいずれかとしてよい。ただし、この範囲外の個数分の分析時間窓の長さでSN比の差の平均を取ってもよい。
次に、本発明の第2実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
図4は、本実施形態によるチャンネル数変換装置の概略機能構成を示すブロック図である。図示するように、チャンネル数変換装置2は、第1実施形態における出力部24に代えて、出力部24Aを含んで構成される。
出力部24Aは、分析部22から供給される最終重み付けの情報を用いて、マルチチャンネル音声信号およびダイアログ音声信号を、出力音声信号に変換する。出力部24Aは、基準チャンネル数変換部21が行う変換と、最終重み付け情報に基づく変換とを、同時に行う。つまり、出力部24Aが出力する出力音声信号は、第1実施形態における出力部24が出力する出力音声信号と等価な信号である。
次に、本発明の第3実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
図5は、本実施形態によるチャンネル数変換装置の概略機能構成を示すブロック図である。図示するように、チャンネル数変換装置3は、第1実施形態における分析部22に代えて、分析部22Bを含んで構成される。
分析部22Bは、SN比および基準変換SN比を計算する際に、代表的な上位のチャンネルのみを使用する。
具体的には、分析部22Bは、マルチチャンネル音声信号の各チャンネルの中間評価値の上位n個(nは正整数であって、マルチチャンネル音声信号のチャンネル数以下)と、ダイアログ音声信号の各チャンネルの中間評価値の上位m個(mは正整数であって、ダイアログ音声信号のチャンネル数以下)とからSN比を計算する。また、分析部22Bは、マルチチャンネル音声信号の各チャンネルの中間評価値の上位n個の音声信号とダイアログ音声信号の各チャンネルの中間評価値の上位m個の音声信号とから変換された、変換後マルチチャンネル音声信号と変換後ダイアログ音声信号とから基準変換SN比を計算する。
本実施形態により、チャンネル数変換装置による計算量を削減することが可能となる。
次に、本発明の第4実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
図6は、本実施形態によるチャンネル数変換装置の概略機能構成を示すブロック図である。図示するように、チャンネル数変換装置4は、第1実施形態における分析部22に代えて、分析部22Cを含んで構成される。
分析部22Cは、マルチチャンネル音声信号から得られる方向別の中間評価値に基づいてマルチチャンネル音声信号の主たる再生方向を推定する。また、分析部22Cは、変換後マルチチャンネル音声信号から得られる方向別の中間評価値から変換後マルチチャンネル音声信号の主たる再生方向を推定する。また、分析部22Cは、ダイアログ音声信号から得られる方向別の中間評価値からダイアログ音声信号の主たる再生方向を推定する。また、分析部22Cは、変換後ダイアログ音声信号から得られる方向別の中間評価値から変換後ダイアログ音声信号の主たる再生方向を推定する。なお、分析部22Cは、これらの主たる再生方向を推定する際には、各方向の信号のエナジーに基づいて、エナジーが相対的に高い方向を、主たる再生方向として推定する。そして、分析部22Cは、これら各音声信号の主たる再生方向に基づいて基準方向に対する方向別マスキングリリース量を決定し、その方向別マスキングリリース量に基づいてSN比および基準変換SN比を補正する。
言い換えれば、分析部22Cは、マルチチャンネル音声信号および変換後マルチチャンネル音声信号から得られる中間評価値からマルチチャンネル音声信号および変換マルチチャンネル音声信号の主たる再生方向を推定し、ダイアログ音声信号および変換ダイアログ音声信号から得られる方向別の中間評価値からダイアログ音声信号および変換ダイアログ音声信号の主たる再生方向を推定し、それぞれの音声信号の成す角度を導出し、それぞれの角度データの組み合わせを用いることで、基準方向に対する重み付け補正を算出する方向別マスキングリリース量を決定し、その値によりSN比および基準変換SN比を補正する。
次に、本発明の第5実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
図7は、本実施形態によるチャンネル数変換装置の概略機能構成を示すブロック図である。図示するように、チャンネル数変換装置5は、第1実施形態における分析部22に代えて、分析部22Dを含んで構成される。
分析部22Dは、チャンネルの重み付けとして、変換後マルチチャンネル音声信号に対して、変換後ダイアログ音声信号の含む周波数成分を修正するよう、最終重み付けを決定する。
また、特に、分析部22Dが、変換後ダイアログ音声信号の含まれるチャンネルに割り当てられる変換後マルチチャンネル音声信号に対して、変換後ダイアログ音声信号の含む周波数成分を修正するよう、最終重み付けを決定するようにしてもよい。
本実施形態では、最終重み付け情報は、周波数帯の情報を含む。
そして、出力部24は、最終重み付け情報で指定された周波数帯について、重み付けを変更する処理を行う。
次に、本発明の第6実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
図8は、本実施形態によるチャンネル数変換装置の概略機能構成を示すブロック図である。図示するように、チャンネル数変換装置6は、第1実施形態における分析部22に代えて、分析部22Eを含んで構成される。
分析部22Eは、出力音声信号におけるSN比である出力SN比が、SN比(入力SN比)と基準変換SN比との間の値になるよう、最終重み付けを決定する。
分析部22Eは、出力SN比がSN比(入力SN比)と基準変換SN比の間に含まれる値にするために、変換後のマルチチャンネル音声信号のレベルを一律に変えてエナジーが変わるように修正する。
また、分析部22Eが、変換後のダイアログ音声信号の再生されるチャンネルとの方向の近いチャンネルをより大きくレベルを変える重み付けをつけるようにしてもよい。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
変形例1では、分析部は、計算された基準変換SN比が、あらかじめ定められた閾値よりも大きい場合には、基準チャンネル数変換部が出力した変換後マルチチャンネル音声信号および変換後ダイアログ音声信号をそのまま出力音声信号とするよう、最終重み付けを決定する。
この変形例では、基準チャンネル数変換によって所定のSN比が得られている場合には、その音声信号をさらに修正する必要がない。
各実施形態では、変換前の音声信号が22.2チャンネル音響システム(LFEチャンネルを含めて24チャンネル)であり、変換後の音声信号が5.1チャンネル音響システム(LFEチャンネルを含めて6チャンネル)である場合について説明した。
変形例2では、変換前または変換後あるいはそれら両方の音声信号のチャンネル数が、これらと異なっていても良い。なお、変形例2において、変換前および変換後のチャンネル数は2以上であり、変換前チャンネル数のほうが、変換後チャンネル数よりも多い。
21 基準チャンネル数変換部
22,22B,22C,22D,22E 分析部
23 チャンネル位置情報記憶部
24,24A 出力部
221 エナジー重み付け修正計算部
222 SN比差分計算部
223 記憶部
224 判定出力部
Claims (5)
- 複数のチャンネルの信号を含むマルチチャンネル音声信号と、前記マルチチャンネル音声信号のチャンネル数よりも少ないチャンネル数のダイアログ音声信号とを入力し、前記ダイアログ音声信号を基準として、前記マルチチャンネル音声信号および前記ダイアログ音声信号を所定のチャンネル数の出力音声信号に変換するチャンネル数変換装置であって、
予め規定されたチャンネル数変換法である基準チャンネル数変換法を用いて、前記ダイアログ音声信号および前記マルチチャンネル音声信号を、予め規定されたチャンネル数である変換後マルチチャンネル音声信号および変換後ダイアログ音声信号に変換する基準チャンネル数変換部と、
前記ダイアログ音声信号と前記マルチチャンネル音声信号と前記変換後ダイアログ音声信号と前記変換後マルチチャンネル音声信号とのそれぞれのエナジーまたはラウドネスを、チャンネルの方向別の中間評価値として計算し、前記方向別の中間評価値に対して所定の基準方向に対する重み付け補正を行い、補正後の最終評価値を用いて、前記ダイアログ音声信号を信号として前記マルチチャンネル音声信号を雑音として算出される信号対雑音比および前記変換後ダイアログ音声信号を信号として前記変換後マルチチャンネル音声信号を雑音として算出される基準変換信号対雑音比を計算し、前記信号対雑音比と前記基準変換信号対雑音比との差に基づいて、前記ダイアログ音声信号を基準として各チャンネルの最終重み付けを導出する分析部と、
前記分析部が導出した前記最終重み付けを用いて前記変換後マルチチャンネル音声信号および前記変換後ダイアログ音声信号を前記出力音声信号に変換し、または、前記最終重み付けを用いて前記マルチチャンネル音声信号および前記ダイアログ音声信号を前記出力音声信号に変換する出力部と、
を備え、
前記分析部は、前記ダイアログ音声信号から得られる前記中間評価値と前記変換後ダイアログ音声信号から得られる前記中間評価値に、所定の基準方向に対する方向別明瞭度改善量のゲインにより重み付け補正を行い、それぞれ、補正後の最終評価値を用いて前記信号対雑音比および前記基準変換信号対雑音比を計算する、
チャンネル数変換装置。 - 前記分析部は、
前記マルチチャンネル音声信号の各チャンネルの中間評価値の上位n個(nは正整数であって、前記マルチチャンネル音声信号のチャンネル数以下)と、前記ダイアログ音声信号の各チャンネルの中間評価値の上位m個(mは正整数であって、前記ダイアログ音声信号のチャンネル数以下)とから前記信号対雑音比を計算するとともに、
前記マルチチャンネル音声信号の各チャンネルの中間評価値の上位n個の音声信号と前記ダイアログ音声信号の各チャンネルの中間評価値の上位m個の音声信号とから変換された、変換後マルチチャンネル音声信号と変換後ダイアログ音声信号とから前記基準変換信号対雑音比を計算する、
請求項1に記載のチャンネル数変換装置。 - 前記分析部は、前記マルチチャンネル音声信号から得られる方向別の前記中間評価値から前記マルチチャンネル音声信号の相対的に前記エナジーまたはラウドネスが高い方向を主たる再生方向として推定し、前記変換後マルチチャンネル音声信号から得られる方向別の前記中間評価値から前記変換後マルチチャンネル音声信号の相対的に前記エナジーまたはラウドネスが高い方向を主たる再生方向として推定し、前記ダイアログ音声信号から得られる方向別の中間評価値から前記ダイアログ音声信号の相対的に前記エナジーまたはラウドネスが高い方向を主たる再生方向として推定し、前記変換後ダイアログ音声信号から得られる方向別の中間評価値から前記変換後ダイアログ音声信号の相対的に前記エナジーまたはラウドネスが高い方向を主たる再生方向として推定し、これら各音声信号の主たる再生方向に基づいて基準方向に対する方向別マスキングリリース量を決定し、前記方向別マスキングリリース量に基づいて前記信号対雑音比および前記基準変換信号対雑音比を補正する、
請求項1または2に記載のチャンネル数変換装置。 - 基準チャンネル数変換法が、MPEG−4 AACのPCEまたはDSEで記述可能な変換法である、
請求項1から3までのいずれか一項に記載のチャンネル数変換装置。 - コンピューターを、請求項1から4までのいずれか一項に記載のチャンネル数変換装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016161329A JP6832095B2 (ja) | 2016-08-19 | 2016-08-19 | チャンネル数変換装置およびそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016161329A JP6832095B2 (ja) | 2016-08-19 | 2016-08-19 | チャンネル数変換装置およびそのプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018029306A JP2018029306A (ja) | 2018-02-22 |
JP6832095B2 true JP6832095B2 (ja) | 2021-02-24 |
Family
ID=61249229
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016161329A Active JP6832095B2 (ja) | 2016-08-19 | 2016-08-19 | チャンネル数変換装置およびそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6832095B2 (ja) |
-
2016
- 2016-08-19 JP JP2016161329A patent/JP6832095B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018029306A (ja) | 2018-02-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4939933B2 (ja) | オーディオ信号符号化装置及びオーディオ信号復号化装置 | |
JP6968376B2 (ja) | ステレオ仮想バス拡張 | |
JP5906312B2 (ja) | スペクトル重みジェネレータを使用する周波数領域処理を用いてステレオ録音を分解するための方法および装置 | |
US9743215B2 (en) | Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio | |
JP2005535266A (ja) | オーディオチャンネルの空間的変換 | |
WO2013090463A1 (en) | Audio processing method and audio processing apparatus | |
US11979723B2 (en) | Content based spatial remixing | |
US20210250717A1 (en) | Spatial audio Capture, Transmission and Reproduction | |
JP6562572B2 (ja) | ステレオ信号のステレオイメージを修正するためのオーディオ信号処理装置及び方法 | |
JP2005507584A (ja) | サウンドアルゴリズムの選定方法とその装置 | |
WO2012032845A1 (ja) | 音声信号変換装置、方法、プログラム、及び記録媒体 | |
US20220174443A1 (en) | Sound Field Related Rendering | |
CN112823534B (zh) | 信号处理设备和方法以及程序 | |
JP6832095B2 (ja) | チャンネル数変換装置およびそのプログラム | |
US20220400351A1 (en) | Systems and Methods for Audio Upmixing | |
JP6694755B2 (ja) | チャンネル数変換装置およびそのプログラム | |
CN112133316A (zh) | 空间音频表示和渲染 | |
JP2017212732A (ja) | チャンネル数変換装置およびプログラム | |
JP6510870B2 (ja) | 番組音声チャンネル数変換装置、放送番組受信装置及び番組音声チャンネル数変換プログラム | |
JP7332745B2 (ja) | 音声処理方法及び音声処理装置 | |
JP2013526166A (ja) | 下位互換音声形式記述を生成する方法および装置 | |
JP2006270649A (ja) | 音声・音響信号処理装置およびその方法 | |
JP2015065551A (ja) | 音声再生システム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20181026 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190702 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200318 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200526 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200714 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210105 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210201 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6832095 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |