JP2018029306A - チャンネル数変換装置およびそのプログラム - Google Patents

チャンネル数変換装置およびそのプログラム Download PDF

Info

Publication number
JP2018029306A
JP2018029306A JP2016161329A JP2016161329A JP2018029306A JP 2018029306 A JP2018029306 A JP 2018029306A JP 2016161329 A JP2016161329 A JP 2016161329A JP 2016161329 A JP2016161329 A JP 2016161329A JP 2018029306 A JP2018029306 A JP 2018029306A
Authority
JP
Japan
Prior art keywords
audio signal
channel
signal
dialog
converted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2016161329A
Other languages
English (en)
Other versions
JP6832095B2 (ja
Inventor
小森 智康
Tomoyasu Komori
智康 小森
一穂 小野
Kazuo Ono
一穂 小野
大出 訓史
Norifumi Oide
訓史 大出
岳大 杉本
Takehiro Sugimoto
岳大 杉本
陽 佐々木
Akira Sasaki
陽 佐々木
北島 周
Shu Kitajima
周 北島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2016161329A priority Critical patent/JP6832095B2/ja
Publication of JP2018029306A publication Critical patent/JP2018029306A/ja
Application granted granted Critical
Publication of JP6832095B2 publication Critical patent/JP6832095B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Abstract

【課題】ダイアログの明瞭性を損なうことなくチャンネル数を変換できるチャンネル数変換装置およびプログラムを提供する。【解決手段】基準チャンネル数変換部は、予め規定された基準チャンネル数変換法を用いて、ダイアログ音声信号およびマルチチャンネル音声信号を、予め規定されたチャンネル数である変換後マルチチャンネル音声信号および変換後ダイアログ音声信号に変換する。分析部は、補正後の最終評価値を用いて前記信号対雑音比および前記基準変換信号対雑音比を計算し、前記ダイアログ音声信号を基準として各チャンネルの最終重み付けを導出する。前記分析部は、信号対雑音比の差に基づいて、最終重み付けを決定する。出力部は、分析部が導出した最終重み付けを用いて出力音声信号への変換を行う。【選択図】図1

Description

本発明は、音響信号のチャンネル数を変換するための、チャンネル数変換装置およびそのプログラムに関する。
現在、22.2chなどのマルチチャンネル音声放送(非特許文献1)の実用化が進められている。マルチチャンネル音声放送により、高い臨場感を持った音声の再生を実現することができる。しかし、一般的な家庭の場合、例えば、2ステレオ等、22.2chより少ないチャンネル数のみを再生可能な環境である場合が多いと想定される。このため、マルチチャンネル音声放送を家庭で再生するには、家庭で再生できるチャンネル数に合わせて、音声信号のチャンネル数を変換する必要がある。
そこで、一般的にダウンミックスやレンダリング等を行って再生環境に応じたチャンネル数に変換する技術が知られている。
非特許文献1や非特許文献2には、再生環境に応じてマルチチャンネル音声信号をダウンミックスやレンダリング等によりチャンネル数変換して、変換後のチャンネル数による音声信号を再生するための方法が記載されている。
「デジタル放送における映像符号化、音声符号化及び多重化方式 標準規格 VIDEO CODING, AUDIO CODING AND MULTIPLEXING SPECIFICATIONS FOR DIGITAL BROADCASTING ARIB STANDARD ARIB STD-B32 3.6版」,平成28年(2016年)3月25日,一般社団法人電波産業会 「ISO/IEC 23008-3, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」,2015年
しかしながら、従来技術では、マルチチャンネル音声信号を、ダウンミックスやレンダリングなどを用いて、聴取環境に応じてチャンネル数変換して再生することが一般的であった。このため、ダウンミックスやレンダリングにおいて、単に各マルチチャンネル音声信号に対して一定の係数を乗じてチャンネル数変換を行うと、例えば、同じ方向から再生する音同士のマスキング量は大きくなるという空間マスキングの性質によりダイアログの明瞭度が下がるという問題があった。さらに、従来技術によるチャンネル数変換法では音声コンテンツの内容に関わらず、一意にチャンネル数を変換していたため、ダイアログの明瞭性を著しく損なう場合も考えられる。
したがって、本発明の課題は、マルチチャンネルの音声による番組の演出をなるべく損なわずに、かつダイアログの明瞭度を落とさないようにチャンネル数変換することである。
本発明は、上記の事情を考慮して為されたものであり、ダイアログの明瞭性を損なうことのないチャンネル数変換装置およびプログラムを提供することを目的としている。
[1]上記の課題を解決するため、本発明の一態様によるチャンネル数変換装置は、複数のチャンネルの信号を含むマルチチャンネル音声信号と、前記マルチチャンネル音声信号のチャンネル数よりも少ないチャンネル数のダイアログ音声信号とを入力し、前記ダイアログ音声信号を基準として、前記マルチチャンネル音声信号および前記ダイアログ音声信号を所定のチャンネル数の出力音声信号に変換するチャンネル数変換装置であって、
予め規定されたチャンネル数変換法である基準チャンネル数変換法を用いて、前記ダイアログ音声信号および前記マルチチャンネル音声信号を、予め規定されたチャンネル数である変換後マルチチャンネル音声信号および変換後ダイアログ音声信号に変換する基準チャンネル数変換部と、前記ダイアログ音声信号と前記マルチチャンネル音声信号と前記変換後ダイアログ音声信号と前記変換後マルチチャンネル音声信号とのそれぞれのエナジーを、チャンネルの方向別の中間評価値として計算し、前記方向別の中間評価値に対して所定の基準方向に対する重み付け補正を行い、補正後の最終評価値を用いて前記信号対雑音比および前記基準変換信号対雑音比を計算し、前記ダイアログ音声信号を基準として各チャンネルの最終重み付けを導出する分析部と、前記分析部が導出した前記最終重み付けを用いて前記変換後マルチチャンネル音声信号および前記変換後ダイアログ音声信号を前記出力音声信号に変換し、または、前記最終重み付けを用いて前記マルチチャンネル音声信号および前記ダイアログ音声信号を前記出力音声信号に変換する出力部と、を備え、前記分析部は、前記ダイアログ音声信号を信号として前記マルチチャンネル音声信号を雑音として算出される信号対雑音比と、前記変換後ダイアログ音声信号を信号として前記変換後マルチチャンネル音声信号を雑音として算出される基準変換信号対雑音比との差に基づいて、前記最終重み付けを決定する、ことを特徴とする。
[2]また、本発明の一態様は、上記のチャンネル数変換装置において、前記エナジーに代えてラウドネスとすることを特徴とする。
[3]また、本発明の一態様は、上記のチャンネル数変換装置において、前記分析部は、前記ダイアログ音声信号から得られる前記中間評価値と前記変換後ダイアログ音声信号から得られる前記中間評価値に、所定の基準方向に対する方向別明瞭度改善量のゲインにより重み付け補正を行い、それぞれ、補正後の最終評価値を用いて前記信号対雑音比および前記基準変換信号対雑音比を計算する、ことを特徴とする。
[4]また、本発明の一態様は、上記のチャンネル数変換装置において、前記分析部は、前記マルチチャンネル音声信号の各チャンネルの中間評価値の上位n個(nは正整数であって、前記マルチチャンネル音声信号のチャンネル数以下)と、前記ダイアログ音声信号の各チャンネルの中間評価値の上位m個(mは正整数であって、前記ダイアログ音声信号のチャンネル数以下)とから前記信号対雑音比を計算するとともに、前記マルチチャンネル音声信号の各チャンネルの中間評価値の上位n個の音声信号と前記ダイアログ音声信号の各チャンネルの中間評価値の上位m個の音声信号とから変換された、変換後マルチチャンネル音声信号と変換後ダイアログ音声信号とから前記基準変換信号対雑音比を計算する、ことを特徴とする。
[5]また、本発明の一態様は、上記のチャンネル数変換装置において、前記分析部は、前記マルチチャンネル音声信号から得られる方向別の前記中間評価値から前記マルチチャンネル音声信号の相対的にエナジーが高い方向を主たる再生方向として推定し、前記変換後マルチチャンネル音声信号から得られる方向別の前記中間評価値から前記変換後マルチチャンネル音声信号の相対的にエナジーが高い方向を主たる再生方向として推定し、前記ダイアログ音声信号から得られる方向別の中間評価値から前記ダイアログ音声信号の相対的にエナジーが高い方向を主たる再生方向として推定し、前記変換後ダイアログ音声信号から得られる方向別の中間評価値から前記変換後ダイアログ音声信号の相対的にエナジーが高い方向を主たる再生方向として推定し、これら各音声信号の主たる再生方向に基づいて基準方向に対する方向別マスキングリリース量を決定し、前記方向別マスキングリリース量に基づいて前記信号対雑音比および前記基準変換信号対雑音比を補正する、ことを特徴とする。
[6]また、本発明の一態様は、上記のチャンネル数変換装置において、基準チャンネル数変換法が、MPEG−4 AACのPCEまたはDSEで記述可能な変換法である、ことを特徴とする。
[7]また、本発明の一態様は、コンピューターを、上記[1]から[6]までのいずれかに記載のチャンネル数変換装置として機能させるためのプログラムである。
本発明によれば、多チャンネルによる音声の演出意図を維持しながら、ダイアログを明瞭化し、チャンネル数を変換することができる。
本発明の第1実施形態によるチャンネル数変換装置の概略機能構成を示したブロック図である。 同実施形態による分析部の詳細な機能構成を示したブロック図である。 同実施形態による処理の手順を示したフローチャートである。 本発明の第2実施形態によるチャンネル数変換装置の概略機能構成を示したブロック図である。 本発明の第3実施形態によるチャンネル数変換装置の概略機能構成を示したブロック図である。 本発明の第4実施形態によるチャンネル数変換装置の概略機能構成を示したブロック図である。 本発明の第5実施形態によるチャンネル数変換装置の概略機能構成を示したブロック図である。 本発明の第6実施形態によるチャンネル数変換装置の概略機能構成を示したブロック図である。
[第1実施形態]
次に、本発明の一実施形態について、図面を参照しながら説明する。
図1は、本発明に係る第1実施形態におけるチャンネル数変換装置の一例を示すブロック図である。図1に示すように、チャンネル数変換装置1は、基準チャンネル数変換部21と、分析部22と、チャンネル位置情報記憶部23と、出力部24と、を含んで構成される。
チャンネル数変換装置1において、基準チャンネル数変換部21が複数のチャンネルの信号を含むマルチチャンネル音声信号と、マルチチャンネル音声信号のチャンネル数よりも少ないチャンネル数のダイアログ音声信号とを入力する。分析部22は、ダイアログ音声信号を基準として各チャンネルの重み付けを導出する。出力部24は、分析部22が導出した重み付けを用いて、基準チャンネル数変換部21が変換した所定のチャンネル数のマルチチャンネル音声信号およびダイアログ音声信号を所定の出力音声信号に変換する。
チャンネル数変換装置1が入力するマルチチャンネル音声信号は、いわゆる8Kと呼ばれるSHV(スーパーハイビジョン)用の22.2チャンネル音響システムの信号である。また、ダイアログ音声信号は、一例として、TpFCチャンネル(トップフロントセンター)の音声信号、あるいは、TpFCチャンネルの差し替え用の音声信号である。
この場合、マルチチャンネル音声信号は24チャンネルの信号であり、ダイアログ音声信号は1チャンネルの信号である。なお、ダイアログ音声信号のチャンネル数が2チャンネル以上であってもよい。
なお、ダイアログ音声信号に含まれる音声は必ずしもダイアログ(対話)の音声に限られない。主に人の声で構成される音声信号をダイアログ音声信号として扱ってよい。
基準チャンネル数変換部21と分析部22と出力部24は、図示しないチャンネル数変換部の構成要素である。このチャンネル数変換部は、複数のチャンネルの信号を含むマルチチャンネル音声信号と、マルチチャンネル音声信号のチャンネル数よりも少ないチャンネル数のダイアログ音声信号とを入力する。そして、チャンネル数変換部は、ダイアログ音声信号を基準として各チャンネルの重み付けを導出し、その重み付けを用いてマルチチャンネル音声信号およびダイアログ音声信号を所定のチャンネル数の出力音声信号に変換する。
基準チャンネル数変換部21は、入力したマルチチャンネル音声信号およびダイアログ音声信号を、より少ないチャンネル数の変換後マルチチャンネル音声信号および変換後ダイアログ音声信号に変換する。言い換えれば、基準チャンネル数変換部21は、予め規定されたダウンミックス(基準チャンネル数変換法)により、ダイアログ音声信号およびマルチチャンネル音声信号を、変換後マルチチャンネル音声信号および変換後ダイアログ音声信号に変換する。なお、変換後マルチチャンネル音声信号および変換後ダイアログ音声信号のチャンネル数も、予め規定されている。
基準チャンネル数変換部21は、基準チャンネル数変換法として、例えば、VBAPを使用する。なお、VBAPは、Vector base amplitude panning(ベクトルベース振幅パンニング)の略である。
VBAP法では、例えば、音響の再生空間を、3個のスピーカからなる三角領域で分割し、各三角領域において、各スピーカの重み係数によって音響信号をスピーカに分配する。そして、任意の振幅のパンニングを行うことで仮想音像の定位を実現する。VBAPの基本原理の詳細は、例えば、下記の参考文献1に詳細に記載されている。
[参考文献1]映像情報メディア学会 Vol.66, No8, p.671-677(2012)
あるいはまた、基準チャンネル数変換部21は、基準チャンネル数変換法として、例えば、MPEG−4 AACのPCEまたはDSEで記述可能な変換法を使用する。AACのPCEまたはDSEの変換式は既知であり、例えば参考文献3に記載されている。
MPEG−4 AACは,音声信号を周波数成分に分解して符号化する「周波数領域の圧縮符号化」の一種であり、人の聴覚特性を利用したマスキングなどを効果的に用いることにより,高能率な圧縮を行う技術である。
この変換法は、下記の、参考文献2や、参考文献3の第2部に詳細に記載されている。
なお、5.1chを超えるマルチチャンネルステレオからダウンミックスによって2chステレオを得る場合は、一旦5.1chにダウンミックスしてから、2chステレオへダウンミックスする。
[参考文献2]「ISO/IEC 23008-3, Information technology - High efficiency coding and media delivery in heterogeneous environments - Part 3: 3D audio」,2015年
[参考文献3]「デジタル放送における映像符号化、音声符号化及び多重化方式 標準規格 VIDEO CODING, AUDIO CODING AND MULTIPLEXING SPECIFICATIONS FOR DIGITAL BROADCASTING ARIB STANDARD ARIB STD-B32 3.3版」,平成27年(2015年),社団法人電波産業会
なお、MPEGは、Moving Picture Experts Group(ムービング・ピクチャー・エクスパーツ・グループ)の略である。AACは、advanced audio coding(アドバンスド・オーディオ・コーディング)の略である。PCEは、program configuration element(プログラム・コンフィギュレーション・エレメント)の略である。DSEは、data stream element(データ・ストリーム・エレメント)の略である。
基準チャンネル数変換部21は、基準チャンネル数変換法として、例えば、MPEG CICPのチャンネルコンフィギュレーション(channel configuration)間で予め規定したチャンネル数変換法を使用する。なお、CICPは、Coding Independent Code Points(コーデック非依存コードポイント)の略である。
なお、MPEG CICPのチャンネルコンフィギュレーションは既知であり、その具体例は、例えば、下記の参考文献4に記載されている。
[参考文献4]「ISO/IEC 23001-8:2016 Information technology - MPEG systems technologies - Part 8: Coding-independent code points」,2016年
なお、本実施形態での変換後マルチチャンネル音声信号および変換後ダイアログ音声信号は、5.1chの音声信号である。
基準チャンネル数変換部21は、変換後マルチチャンネル音声信号と、変換後ダイアログ音声信号とを出力する。
変換後マルチチャンネル音声信号は、入力された22.2chのマルチチャンネル音声信号から、ダイアログ音声信号を除いて、5.1chに変換された信号である。変換後ダイアログ音声信号は、22.2ch音響システム用のダイアログ音声信号であるTpFCチャンネルの信号(またはその差し替え信号)を基に、5.1chに変換された信号である。
基準チャンネル数変換部21から出力されるこれらの信号は、分析部22と出力部24とに供給される。
分析部22は、チャンネル数変換装置1の外から入力されるダイアログ音声信号とマルチチャンネル音声信号とを取得する。また、分析部22は、基準チャンネル数変換部21が出力する変換後ダイアログ音声信号と変換後マルチチャンネル音声信号とを取得する。これら4系統の音声信号を基に、分析部22は、出力部24に供給するための最終重み付け情報を求める。言い換えれば、分析部22は、ダイアログ音声信号とマルチチャンネル音声信号と変換後マルチチャンネル音声信号と変換後ダイアログ音声信号とに基づいて、ダイアログ音声信号を基準として各チャンネルの最終重み付けを導出する。
具体的には、分析部22は、ダイアログ音声信号を目的とする信号とみなし、マルチチャンネル音声信号を雑音とみなして信号対雑音比(入力信号対雑音比)を算出する。また、分析部22は、変換後ダイアログ音声信号を目的とする信号とみなし、変換後マルチチャンネル音声信号を雑音とみなして基準変換信号対雑音比を算出する。そして、分析部22は、求めた信号対雑音比と基準変換信号対雑音比との差に基づいて、最終重み付けを決定する。
より具体的には、分析部22は、ダイアログ音声信号とマルチチャンネル音声信号と変換後ダイアログ音声信号と変換後マルチチャンネル音声信号とのそれぞれのエナジー(信号の二乗平均値)を計算し、各チャンネルの予め定められた方向別の中間評価値を求める。分析部22は、求めた方向別の中間評価値に対して、目的とする方向である所定の基準方向に対する重み付けをすることで中間評価値の補正をし、補正後の最終評価値を用いて信号対雑音比および基準変換信号対雑音比を求める。ここで、「所定の基準方向」とは、正面方向や各ダイアログ音声信号の各チャンネルの方向、あるいは主たるダイアログ音声信号の方向である。
なお、分析部22は、ダイアログ音声信号とマルチチャンネル音声信号と変換後ダイアログ音声信号と変換後マルチチャンネル音声信号とのそれぞれのエナジーの代わりに、チャンネルの方向別の中間評価値として、これら各信号の強度に基づいて低域と高域の音声が補正されたいわゆるラウドネスを用いてもよい。あるいはエナジーの代わりに各振幅を用いてもよい。この場合も、分析部22は、方向別の中間評価値に対して、所定の基準方向に対する重み付け補正を行い、補正後の最終評価値を用いて信号対雑音比および基準変換信号対雑音比を計算する。
エナジーの代わりにチャンネルの方向別の中間評価値として、これら各信号の強度に基づいて低域と高域の音声が補正されたいわゆるラウドネスを用いてもよい。例えば、元のチャンネルの方向別の信号に対して、2次の伝達関数を持つ2種類のフィルタ処理を行う。これによって、エナジーを用いる場合と比べると、低域に関しては感度が鈍く、2kHz以上で感度が高くなるという、より人の聴感にあった値に補正して出力することができる。即ち、ラウドネスを用いる場合、ダイアログ音声信号とマルチチャンネル音声信号に対しても、エナジーと比べると、人の聴感にあった値に補正して出力することができる。このことから、後述の信号対雑音比を計算する際により精度の高い計算結果が得られることが期待される。ラウドネスの計算は、例えばISO532Bで計算する方法でも良い。
伝達関数:
H(z)={b0+b1・z^(−1)+b2・z^(−2)}
/{1+a1・z^(−1)+a2・z^(−2)}
[b0,b1,b2] = [1.53512485958697 -2.69169618940638 1.19839281085285];
[a1 ,a2] = [1.0 -1.69065929318241 0.73248077421585];
伝達関数:
H(z)={B0+B1・z^(−1)+B2・z^(−2)}
/{1+A1・z^(−1)+A2・z^(−2)}
[B0,B1,B2]= [1.0 -2.0 1.0];
[A1 ,A2] = [1.0 -1.99004745483398 0.99007225036621];
なお、「^」はべき乗を表す。
なお、以下において、分析部22がダイアログ音声信号とマルチチャンネル音声信号と変換後ダイアログ音声信号と変換後マルチチャンネル音声信号とのチャンネルの方向別のそれぞれのエナジーによる中間評価値の計算を行う形態を説明する。ただし、チャンネルの方向別の中間評価値の代わりに、分析部22がラウドネスや振幅を各信号の評価値として計算する場合も、同様の処理を行う。
なお、分析部22による動作の詳細については、後述する。
チャンネル位置情報記憶部23は、音声信号に含まれる各チャンネルの再生方向(再生位置)の情報を記憶する。チャンネル位置情報記憶部23は、例えば、2次元の極座標(水平角および仰角・俯角)による、各チャンネルの方向の情報を記憶する。なお、チャンネル位置情報記憶部23が、例えば、3次元直交座標(x軸、y軸、z軸)による、各チャンネルの方向の情報を記憶するようにしてもよい。
例えば、22.2chから5.1chの変換をする場合、22.2chの信号を5.1chを含む水平面上に射影させた上で、2個あるいは1個のスピーカで各チャンネルの振幅が視聴位置で等しくなるように変換する。ここで、タンジェントの法則を用いて、音源の方向をはさむ2個のスピーカの中央方向を基準として、それぞれのスピーカとの成す角をφ0としたとき、そして、変換前のスピーカ位置Snが中央方向を基準として2個のスピーカの中央方向と成す角をφとしたときに、はさむ2個のスピーカのゲインg(2n)およびg(2n+1)の比を次式で表せる。
g(2n)/g(2n+1)
=(tan(φ0)+tan(φ))/(tan(φ0)−tan(φ))
と変換することで視聴位置での振幅を等しくできる。この変換により再生方向の情報が含まれることになる。
出力部24は、分析部22が出力する最終重み付けの情報を用いて変換後マルチチャンネル音声信号および変換後ダイアログ音声信号を出力音声信号に変換する。具体的には、出力部24は、最終重み付け情報としてチャンネル位置情報記憶部23が出力した値を、変換後のマルチチャンネル音声信号に重み付けして、変換後のダイアログ音声信号に加算して出力する。
次に、分析部22のより詳細な動作について説明する。
図2は、上記の分析部22のさらに詳細な機能構成を示すブロック図である。図示するように、分析部22は、エナジー重み付け修正計算部221と、SN比差分計算部222と、記憶部223と、判定出力部224と、を含んで構成される。
図1を参照して既に説明したように、分析部22は、ダイアログ音声信号と、マルチチャンネル音声信号と、変換後ダイアログ音声信号と、マルチチャンネル音声信号とを入力する。分析部22は、基準チャンネル数変換の前後のそれぞれの音声信号に関して、ダイアログ音声信号を目的の信号(S)とみなし、マルチチャンネル音声信号をノイズ(N)とみなしたときのダイアログ音声信号(S)について、SN比に基づく評価を行う。そして、分析部22は、SN比に基づく評価の判定結果にしたがって、最終重み付け情報を出力する。なお、「SN比」とは、信号量と雑音量との比であり、「信号対雑音比(signal-to-noise ratio)」ともいう。
より具体的には、分析部22は、チャンネル数変換前(22.2ch)および変換後(5.1ch)の、それぞれのチャンネルフォーマット毎に、予め定められた音声信号の分析時間窓長に応じて、変換前SN比(「入力SN比」とも呼ぶ)と変換後SN比の差を計算する。分析の窓関数は任意であり、例えばハニング窓、ブラックマン窓等を用いる。そして、音声信号の一定の周期を時間長としてもよい。
エナジー重み付け修正計算部221は、ダイアログ音声信号と、マルチチャンネル音声信号と、変換後ダイアログ音声信号と、変換後マルチチャンネル音声信号の各信号から、エナジーを計算する。
(1)エナジーS_Dの計算(チャンネル変換前、ダイアログ音声信号)
エナジー重み付け修正計算部221は、チャンネル数変換装置1が入力した信号であるダイアログ音声信号のエナジーS_D(ch1)を計算し、中間評価値としてエナジー重み付け修正計算部221に出力する。なお、チャンネル数変換装置1が入力する音声信号は22.2chのフォーマットによる信号である。ch1は、1以上で24以下の指標値である。
22.2chでは、「下層」−「中層」−「上層」の3層に22個のスピーカを配置し、 低域にはさらに2チャンネルのサブウーファーが用いられる。
例えば、エナジー重み付け修正計算部221は、LFE(Low Frequency Effect Channel、重低音強調効果チャンネル)チャンネル(例えば、ch1=4およびch1=10の場合)に対しては−∞dB(つまり、補正係数が0.0)のゲインを乗じ、その他のチャンネルには0.0dB(つまり、補正係数が1.0)のゲインを乗じた補正後の中間評価値を全て合算し、ダイアログ音声信号のエナジーS_Dを算出する。
なお、ここではLFEチャンネル以外のチャンネルのゲインを0.0dBとしたが、LFEチャンネル以外のチャンネルに予め定められた方向別明瞭度改善量のゲインを乗じることで同様の効果を得てもよい。
また、方向別明瞭度改善量の一例として、頭部伝達関数から推定した方向別のゲインをその他のチャンネルに乗じるようしてもよい。つまり、分析部22のエナジー重み付け修正計算部221は、ダイアログ音声信号から得られる中間評価値に、所定の基準方向に対する方向別明瞭度改善量として予め定められたゲインにより重み付け補正を行い、補正後の最終評価値を用いて信号対雑音比を計算してもよい。
なお、頭部伝達関数から方向別のゲインを計算する方法は既知であり、下記の参考文献5にも詳細に記載されている。
[参考文献5]Sivonen, V. P., and Ellemeier, W., “Directional loudness in an anechoic sound field, head-related transfer functions, and binaural summation,” J. Acoust. Soc. Am., Vol.119, No.5, pp.2965-2980 (May 2006).
(2)エナジーN_Bの計算(チャンネル変換前、マルチチャンネル音声信号)
また、エナジー重み付け修正計算部221は、チャンネル数変換装置1が入力したマルチチャンネル音声信号からチャンネルの中間評価値としてノイズであるエナジーN_B(ch1)を計算する。
そして、エナジー重み付け修正計算部221は、エナジーS_Dの計算と同様に、22.2chの中のダイアログ信号の明瞭度に対して、ほとんど寄与しない周波数帯域の成分のみを持つ、LFEチャンネル(例えば、ch1=4およびch1=10)には−∞dB(つまり、補正係数が0.0)のゲインを乗じる。
下の[表1]および[表2]は、方向別マスキングリリース量表の一例であり、正面、仰角30度方向を基準として方向別マスキングリリース量を示す。このように、水平角90度周辺でマルチチャンネル音声信号のマスキングリリース量を最大とすることで、ダイアログ音声の信号のエナジーが最大となりように設定している。なお、仰角および水平角それぞれ10度刻みでゲインを示している。10度未満の端数について参照する場合には、例えば、一の位を四捨五入したり、内挿補間したりする。仰角が0度から90度までの範囲を[表1]とし、仰角が100度から180度までの範囲を[表2]としている。
また、エナジー重み付け修正計算部221は、LFEチャンネル以外のチャンネルには各チャンネルの方向(α:水平角、β:仰角)のマスキングリリース量の値に応じて、下の[表1]および[表2]に示すマスキングリリース量分のゲインを減じて乗じる。つまり、[表1]および[表2]に示すマスキングリリース量分のゲインに負の符号を付して、乗じる。そして、エナジー重み付け修正計算部221は、方向別にゲインを乗じた補正後の最終評価値を全て合算して、マルチチャンネル音声信号のエナジーN_Bを算出する。なお、[表1]や[表2]と同様の表を基準となる角度毎に予め準備しておく。そして、基準となる方向に応じた表を用いて、上記の計算を行うようにする。
ここで、[表1]および[表2]では、正面、仰角30度方向を基準方向としているが、基準方向が別の方向である場合には、その場合における基準方向用の表を用いてゲインを求める。つまり、基準方向毎に、[表1]および[表2]と同様の表を予め記憶しておくようにする。
なお、このとき、エナジー重み付け修正計算部221は、各チャンネルの方向(水平角αおよび仰角β)の情報を、チャンネル位置情報記憶部23(図1)から読み出して使用する。
Figure 2018029306
表1
Figure 2018029306
表2
なお、ダイアログ音声信号のチャンネル数が複数ある場合には、エナジー重み付け修正計算部221は、エナジーN_Bを求めるための方向別補正量を、ダイアログ音声信号のチャンネルごとに計算する。そのとき、エナジー重み付け修正計算部221は、ダイアログ音声のエナジーの比に比例した割合でエナジーN_Bを割り振る按分計算を行う。
例えば、ダイアログ音声信号を複数のチャンネルのエナジーの比率を変えて再生する場合がある。
いわゆるダイバージェンスによる再生の一例として、22.2チャンネルのシステムにおける、第1チャンネル(1ch)、第2チャンネル(2ch)、第3チャンネル(3ch)がそれぞれダイアログ音声信号のチャンネルである場合、次の按分計算が可能である。即ち、第1チャンネル、第2チャンネル、第3チャンネルのダイアログ音声信号のエナジー比が1:1:2である場合を考える。第1チャンネル、第2チャンネル、第3チャンネルを基準方向として計算したときのエナジーを、それぞれ、N_B_1、N_B_2、N_B_3とする。このとき、N_Bの方向別補正量を、下の式(1)で計算可能である。
Figure 2018029306
つまり、式(1)では、ダイアログ音声信号を含む各チャンネルの方向ごとのエナジー比の重みにより、各方向を基準方向として計算したときのエナジーを按分している。
ただし、本実施形態のように、22.2チャンネルシステムにおけるトップフロントセンター(TpFC)のみ(1チャンネルのみ)をダイアログ音声信号としている場合には、上記のような按分計算を必要としない。
(3)エナジーS_D´の計算(チャンネル変換後、ダイアログ音声信号)
また、エナジー重み付け修正計算部221は、基準変換後の変換後ダイアログ音声信号からチャンネルの中間評価値としてエナジーS_D´(ch2)を計算する。なお、チャンネル数変換後の音声信号は5.1チャンネルのフォーマットであり、ch2は、1以上で6以下の指標値である。
そして、エナジー重み付け修正計算部221は、LFEチャンネル(例えば、ch2=4)には−∞dB(つまり、0.0)のゲインを乗じ、その他のチャンネルには0.0dB(つまり、1.0)のゲインを乗じる。そして、エナジー重み付け修正計算部221は、補正後の中間評価値を全て合算して、変換後ダイアログ音声信号のエナジーS_D´を算出する。
なお、ここではLFEチャンネル以外のチャンネルのゲインを0.0dBとしたが、方向別明瞭度改善量のゲインとして、一例として、頭部伝達関数から推定した方向別のゲインを用いても良い。つまり、この場合、エナジー重み付け修正計算部221(分析部22)は、変換後ダイアログ音声信号から得られる中間評価値に、所定の基準方向に対する方向別明瞭度改善量のゲインにより重み付け補正を行い、補正後の最終評価値を用いて基準変換信号対雑音比を計算する。
(4)エナジーN_B´の計算(チャンネル変換後、マルチチャンネル音声信号)
また、エナジー重み付け修正計算部221は、基準変換後の変換後マルチチャンネル音声信号からチャンネルの中間評価値としてノイズであるエナジーN_B´(ch2)を計算する。
そして、エナジー重み付け修正計算部221は、LFEチャンネル(例えば、ch2=4)には−∞dB(つまり、0.0)のゲインを乗じる。また、エナジー重み付け修正計算部221は、LFEチャンネル以外のチャンネルには各チャンネルの方向(α:水平角、β:仰角)の値に応じて、下の[表3]および[表4]に示すマスキングリリース量分のゲインを減じて乗じる。つまり、[表3]および[表4]に示すマスキングリリース量分のゲインに負符号を付して、乗じる。そして、エナジー重み付け修正計算部221は、方向別にゲインを乗じた補正後の最終評価値を全て合算して、変換後マルチチャンネル音声信号のエナジーN_B´を算出する。
ここで、[表3]および[表4]では、正面方向を基準方向としているが、基準方向が別の方向である場合には、その場合における基準方向用の表を用いてゲインを求める。つまり、基準方向毎に、[表3]および[表4]と同様の表を予め記憶しておくようにする。
なお、このとき、エナジー重み付け修正計算部221は、各チャンネルの方向(水平角αおよび仰角β)の情報を、チャンネル位置情報記憶部23(図1)から読み出して使用する。
なお、下の[表3]および[表4]は、方向別マスキングリリース量表の例であり、正面方向(仰角0度)を基準とする。なお、仰角および水平角それぞれ10度刻みでゲインを示している。10度未満の端数について参照する場合には、例えば、一の位を四捨五入したり、内挿補間したりする。仰角が0度から90度までの範囲を「表3」とし、仰角が100度から180度までの範囲を「表4」としている。
Figure 2018029306
表3
Figure 2018029306
表4
以上のように、エナジー重み付け修正計算部221は、分析時間窓長毎に、各信号のエナジーを計算する。具体的には、エナジー重み付け修正計算部221は、ダイアログ音声信号のエナジー(S_D)、マルチチャンネル音声信号のエナジー(N_B)、変換後ダイアログ音声信号のエナジー(S_D´)、変換後マルチチャンネル音声信号のエナジー(N_B´)を計算する。
SN比差分計算部222は、エナジー重み付け修正計算部221によって計算されたエナジーの比を、基準チャンネル数変換前後のそれぞれについて計算する。
具体的には、SN比差分計算部222は、ダイアログ音声信号とマルチチャンネル音声信号のSN比を、下の式(2)によって計算する。また、SN比差分計算部222は、変換後ダイアログ音声信号と変換後マルチチャンネル音声信号のSN比(基準変換SN比)を、下の式(3)によって計算する。
Figure 2018029306
Figure 2018029306
SN比差分計算部222は、上記のSN比と基準変換SN比を計算し、それら両者の差分をさらに計算し、計算結果を逐次、記憶部223に記録しておく、
記憶部223は、SN比差分計算部222によって分析時間窓長毎に計算された、SN比と基準変換SN比との差分(SN比から基準変換SN比を減じた値)を記憶する。
判定出力部224は、SN比と基準変換SN比との差分に基づいて、最終重み付け情報を決定し、出力する。
具体的には、判定出力部224は、SN比と基準変換SN比との差分が予め定められた閾値(例えば6dB)を越えた場合、あるいは定められた区間記憶部に記録されたその差分の平均値が予め定められた別の閾値(例えば2dB)を越えた場合に、次のように最終重み付け情報を決定する。即ち、SN比と基準変換SN比との差分が閾値を越えた場合には、判定出力部224は、その差分に予め定められた係数を乗じることによって最終重み付け情報を決定する。また、SN比と基準変換SN比との差分の平均値が閾値を越えた場合には、その差分の平均値に予め定められた係数を乗じることによって最終重み付け情報を決定する。
最終重み付け情報は、一例として、変換後ダイアログ音声信号を強調して重畳するための係数である。
なお、SN比と基準変換SN比との差分が閾値を越えず、且つSN比と基準変換SN比との差分の平均値が閾値を越えない場合には、判定出力部224は、変換後ダイアログ音声信号と変換後マルチチャンネル音声信号がそのまま出力音声信号となるよう、最終重み付け情報を決定する。
なお、判定出力部224は、予め任意に定められたレベル幅(例えば、0.5デシベル刻みなど)で、最終重み付け情報を生成するようにしてもよい。
なお、判定出力部224は、分析時間窓長毎に上記の処理を実行する。
なお、チャンネル数変換装置1を構成する各々の機能部は、電子回路を用いて実現される。また、コンピューターとプログラムとを用いてこれら各部の機能を実現するようにしても良い。また、チャンネル位置情報記憶部23は、半導体メモリや磁気ディスク装置等の記憶媒体を用いて実現できる。
(チャンネル数変換装置の動作)
図3は、チャンネル数変換装置による動作の手順を示すフローチャートである。以下、このフローチャートに沿って動作手順を説明する。
まず、ステップS11において、チャンネル数変換装置1は、チャンネル数の変換の処理を開始する。
次に、ステップS12において、チャンネル数変換装置1は、マルチチャンネル音声信号の入力を開始する。
次に、ステップS13において、チャンネル数変換装置1は、ダイアログ音声信号の入力を開始する。
次に、ステップS14において、基準チャンネル数変換部21は、入力されるマルチチャンネル音声信号とダイアログ音声信号とを基に、基準チャンネル数の変換処理を行う。そして、基準チャンネル数変換部21は、以後、この基準チャンネル数の変換処理を継続する。
次に、ステップS15において、分析部22は、補正したSN比の差を計算する。SN比の差の具体的な計算方法については、既に述べたとおりである。なお、本ステップにおいて、分析部22は、現在計算対象としている分析時間窓についてのSN比の差を計算する。
次に、ステップS16において、分析部22は、ステップS15で計算された、補正したSN比の差が、予め定められた閾値(第1閾値)以上であるか否かを判断する。このSN比の差が閾値以上であれば(ステップS16:YES)、ステップS18に制御を移す。SN比の差が閾値未満であれば(ステップS16:NO)、次のステップS17の処理に移る。
次に、ステップS17において、分析部22は、補正したSN比の差の所定時間長における平均値が、予め定められた閾値(第2閾値)以上であるか否かを判断する。SN比の差の平均値がその閾値以上であれば(ステップS17:YES)、ステップS18に制御を移す。SN比の差が閾値未満であれば(ステップS17:NO)、ステップS15に戻る。
次に、ステップS18に進んだ場合(ステップS16またはS17から)、ステップS18において、分析部22は、最終重み付けを決定し、その情報を出力部24に供給する。このとき、分析部22は、一例として、差分の1/2の乗算計算を行う。
そして、ステップS19において、出力部24は、分析部22から供給された最終重み付け情報に基づいて、変換後ダイアログ音声信号および変換後マルチチャンネル音声信号の再変換を行う。具体的には、出力部24は、最終重み付け情報としてチャンネル位置情報記憶部23から出力された値を、変換後のマルチチャンネル音声信号に重み付けして、変換後のダイアログ音声信号に加算して出力する。
なお、上の処理で、ステップS18およびS19に進まなかった場合には、出力部24は、重み付けの変更を行わず、変換後ダイアログ音声信号および変換後マルチチャンネル音声信号を、そのまま出力音声信号として出力する。
また、上の処理で、ステップS17またはS19からステップS15に戻ったときには、次の分析時間窓の計算に移る。
なお、分析時間窓の長さは、例えば、50ミリ秒から200ミリ秒までの範囲内のいずれかとしてよい。ただし、この範囲外の任意の長さの分析時間窓としてもよい。また、SN比の差の平均値をとるための時間長は、分析時間窓の5個から10個までの範囲内のいずれかとしてよい。ただし、この範囲外の個数分の分析時間窓の長さでSN比の差の平均を取ってもよい。
[第2実施形態]
次に、本発明の第2実施形態について説明する。なお、前実施形態において既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
図4は、本実施形態によるチャンネル数変換装置の概略機能構成を示すブロック図である。図示するように、チャンネル数変換装置2は、第1実施形態における出力部24に代えて、出力部24Aを含んで構成される。
出力部24Aは、分析部22から供給される最終重み付けの情報を用いて、マルチチャンネル音声信号およびダイアログ音声信号を、出力音声信号に変換する。出力部24Aは、基準チャンネル数変換部21が行う変換と、最終重み付け情報に基づく変換とを、同時に行う。つまり、出力部24Aが出力する出力音声信号は、第1実施形態における出力部24が出力する出力音声信号と等価な信号である。
[第3実施形態]
次に、本発明の第3実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
図5は、本実施形態によるチャンネル数変換装置の概略機能構成を示すブロック図である。図示するように、チャンネル数変換装置3は、第1実施形態における分析部22に代えて、分析部22Bを含んで構成される。
分析部22Bは、SN比および基準変換SN比を計算する際に、代表的な上位のチャンネルのみを使用する。
具体的には、分析部22Bは、マルチチャンネル音声信号の各チャンネルの中間評価値の上位n個(nは正整数であって、マルチチャンネル音声信号のチャンネル数以下)と、ダイアログ音声信号の各チャンネルの中間評価値の上位m個(mは正整数であって、ダイアログ音声信号のチャンネル数以下)とからSN比を計算する。また、分析部22Bは、マルチチャンネル音声信号の各チャンネルの中間評価値の上位n個の音声信号とダイアログ音声信号の各チャンネルの中間評価値の上位m個の音声信号とから変換された、変換後マルチチャンネル音声信号と変換後ダイアログ音声信号とから基準変換SN比を計算する。
本実施形態により、チャンネル数変換装置による計算量を削減することが可能となる。
[第4実施形態]
次に、本発明の第4実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
図6は、本実施形態によるチャンネル数変換装置の概略機能構成を示すブロック図である。図示するように、チャンネル数変換装置4は、第1実施形態における分析部22に代えて、分析部22Cを含んで構成される。
分析部22Cは、マルチチャンネル音声信号から得られる方向別の中間評価値に基づいてマルチチャンネル音声信号の主たる再生方向を推定する。また、分析部22Cは、変換後マルチチャンネル音声信号から得られる方向別の中間評価値から変換後マルチチャンネル音声信号の主たる再生方向を推定する。また、分析部22Cは、ダイアログ音声信号から得られる方向別の中間評価値からダイアログ音声信号の主たる再生方向を推定する。また、分析部22Cは、変換後ダイアログ音声信号から得られる方向別の中間評価値から変換後ダイアログ音声信号の主たる再生方向を推定する。なお、分析部22Cは、これらの主たる再生方向を推定する際には、各方向の信号のエナジーに基づいて、エナジーが相対的に高い方向を、主たる再生方向として推定する。そして、分析部22Cは、これら各音声信号の主たる再生方向に基づいて基準方向に対する方向別マスキングリリース量を決定し、その方向別マスキングリリース量に基づいてSN比および基準変換SN比を補正する。
言い換えれば、分析部22Cは、マルチチャンネル音声信号および変換後マルチチャンネル音声信号から得られる中間評価値からマルチチャンネル音声信号および変換マルチチャンネル音声信号の主たる再生方向を推定し、ダイアログ音声信号および変換ダイアログ音声信号から得られる方向別の中間評価値からダイアログ音声信号および変換ダイアログ音声信号の主たる再生方向を推定し、それぞれの音声信号の成す角度を導出し、それぞれの角度データの組み合わせを用いることで、基準方向に対する重み付け補正を算出する方向別マスキングリリース量を決定し、その値によりSN比および基準変換SN比を補正する。
[第5実施形態]
次に、本発明の第5実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
図7は、本実施形態によるチャンネル数変換装置の概略機能構成を示すブロック図である。図示するように、チャンネル数変換装置5は、第1実施形態における分析部22に代えて、分析部22Dを含んで構成される。
分析部22Dは、チャンネルの重み付けとして、変換後マルチチャンネル音声信号に対して、変換後ダイアログ音声信号の含む周波数成分を修正するよう、最終重み付けを決定する。
また、特に、分析部22Dが、変換後ダイアログ音声信号の含まれるチャンネルに割り当てられる変換後マルチチャンネル音声信号に対して、変換後ダイアログ音声信号の含む周波数成分を修正するよう、最終重み付けを決定するようにしてもよい。
本実施形態では、最終重み付け情報は、周波数帯の情報を含む。
そして、出力部24は、最終重み付け情報で指定された周波数帯について、重み付けを変更する処理を行う。
[第6実施形態]
次に、本発明の第6実施形態について説明する。なお、前実施形態までにおいて既に説明した事項については以下において説明を省略する場合がある。ここでは、本実施形態に特有の事項を中心に説明する。
図8は、本実施形態によるチャンネル数変換装置の概略機能構成を示すブロック図である。図示するように、チャンネル数変換装置6は、第1実施形態における分析部22に代えて、分析部22Eを含んで構成される。
分析部22Eは、出力音声信号におけるSN比である出力SN比が、SN比(入力SN比)と基準変換SN比との間の値になるよう、最終重み付けを決定する。
分析部22Eは、出力SN比がSN比(入力SN比)と基準変換SN比の間に含まれる値にするために、変換後のマルチチャンネル音声信号のレベルを一律に変えてエナジーが変わるように修正する。
また、分析部22Eが、変換後のダイアログ音声信号の再生されるチャンネルとの方向の近いチャンネルをより大きくレベルを変える重み付けをつけるようにしてもよい。
なお、複数の実施形態を組み合わせて実施するようにしてもよい。
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
[変形例1]
変形例1では、分析部は、計算された基準変換SN比が、あらかじめ定められた閾値よりも大きい場合には、基準チャンネル数変換部が出力した変換後マルチチャンネル音声信号および変換後ダイアログ音声信号をそのまま出力音声信号とするよう、最終重み付けを決定する。
この変形例では、基準チャンネル数変換によって所定のSN比が得られている場合には、その音声信号をさらに修正する必要がない。
[変形例2]
各実施形態では、変換前の音声信号が22.2チャンネル音響システム(LFEチャンネルを含めて24チャンネル)であり、変換後の音声信号が5.1チャンネル音響システム(LFEチャンネルを含めて6チャンネル)である場合について説明した。
変形例2では、変換前または変換後あるいはそれら両方の音声信号のチャンネル数が、これらと異なっていても良い。なお、変形例2において、変換前および変換後のチャンネル数は2以上であり、変換前チャンネル数のほうが、変換後チャンネル数よりも多い。
なお、上述した各実施形態および変形例におけるチャンネル数変換装置の機能の少なくとも一部をコンピューターで実現するようにしても良い。その場合、機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD−ROM等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
以上、この発明の実施形態および変形例について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
本発明は、音声を処理する装置において利用することができる。一例として、放送コンテンツを再生する装置において利用することができる。
1,2,3,4,5,6 チャンネル数変換装置
21 基準チャンネル数変換部
22,22B,22C,22D,22E 分析部
23 チャンネル位置情報記憶部
24,24A 出力部
221 エナジー重み付け修正計算部
222 SN比差分計算部
223 記憶部
224 判定出力部

Claims (7)

  1. 複数のチャンネルの信号を含むマルチチャンネル音声信号と、前記マルチチャンネル音声信号のチャンネル数よりも少ないチャンネル数のダイアログ音声信号とを入力し、前記ダイアログ音声信号を基準として、前記マルチチャンネル音声信号および前記ダイアログ音声信号を所定のチャンネル数の出力音声信号に変換するチャンネル数変換装置であって、
    予め規定されたチャンネル数変換法である基準チャンネル数変換法を用いて、前記ダイアログ音声信号および前記マルチチャンネル音声信号を、予め規定されたチャンネル数である変換後マルチチャンネル音声信号および変換後ダイアログ音声信号に変換する基準チャンネル数変換部と、
    前記ダイアログ音声信号と前記マルチチャンネル音声信号と前記変換後ダイアログ音声信号と前記変換後マルチチャンネル音声信号とのそれぞれのエナジーを、チャンネルの方向別の中間評価値として計算し、前記方向別の中間評価値に対して所定の基準方向に対する重み付け補正を行い、補正後の最終評価値を用いて前記信号対雑音比および前記基準変換信号対雑音比を計算し、前記ダイアログ音声信号を基準として各チャンネルの最終重み付けを導出する分析部と、
    前記分析部が導出した前記最終重み付けを用いて前記変換後マルチチャンネル音声信号および前記変換後ダイアログ音声信号を前記出力音声信号に変換し、または、前記最終重み付けを用いて前記マルチチャンネル音声信号および前記ダイアログ音声信号を前記出力音声信号に変換する出力部と、を備え、
    前記分析部は、前記ダイアログ音声信号を信号として前記マルチチャンネル音声信号を雑音として算出される信号対雑音比と、前記変換後ダイアログ音声信号を信号として前記変換後マルチチャンネル音声信号を雑音として算出される基準変換信号対雑音比との差に基づいて、前記最終重み付けを決定する、
    ことを特徴とするチャンネル数変換装置。
  2. 請求項1におけるチャンネル数変換装置において、
    前記エナジーに代えてラウドネスとする
    ことを特徴とするチャンネル数変換装置。
  3. 請求項1または2に記載のチャンネル数変換装置において、
    前記分析部は、前記ダイアログ音声信号から得られる前記中間評価値と前記変換後ダイアログ音声信号から得られる前記中間評価値に、所定の基準方向に対する方向別明瞭度改善量のゲインにより重み付け補正を行い、それぞれ、補正後の最終評価値を用いて前記信号対雑音比および前記基準変換信号対雑音比を計算する、
    ことを特徴とするチャンネル数変換装置。
  4. 請求項1から3までのいずれか一項に記載のチャンネル数変換装置において、
    前記分析部は、
    前記マルチチャンネル音声信号の各チャンネルの中間評価値の上位n個(nは正整数であって、前記マルチチャンネル音声信号のチャンネル数以下)と、前記ダイアログ音声信号の各チャンネルの中間評価値の上位m個(mは正整数であって、前記ダイアログ音声信号のチャンネル数以下)とから前記信号対雑音比を計算するとともに、
    前記マルチチャンネル音声信号の各チャンネルの中間評価値の上位n個の音声信号と前記ダイアログ音声信号の各チャンネルの中間評価値の上位m個の音声信号とから変換された、変換後マルチチャンネル音声信号と変換後ダイアログ音声信号とから前記基準変換信号対雑音比を計算する、
    ことを特徴とするチャンネル数変換装置。
  5. 請求項1から4までのいずれか一項に記載のチャンネル数変換装置において、
    前記分析部は、前記マルチチャンネル音声信号から得られる方向別の前記中間評価値から前記マルチチャンネル音声信号の相対的にエナジーが高い方向を主たる再生方向として推定し、前記変換後マルチチャンネル音声信号から得られる方向別の前記中間評価値から前記変換後マルチチャンネル音声信号の相対的にエナジーが高い方向を主たる再生方向として推定し、前記ダイアログ音声信号から得られる方向別の中間評価値から前記ダイアログ音声信号の相対的にエナジーが高い方向を主たる再生方向として推定し、前記変換後ダイアログ音声信号から得られる方向別の中間評価値から前記変換後ダイアログ音声信号の相対的にエナジーが高い方向を主たる再生方向として推定し、これら各音声信号の主たる再生方向に基づいて基準方向に対する方向別マスキングリリース量を決定し、前記方向別マスキングリリース量に基づいて前記信号対雑音比および前記基準変換信号対雑音比を補正する、
    ことを特徴とするチャンネル数変換装置。
  6. 請求項1から5までのいずれか一項に記載のチャンネル数変換装置において、
    基準チャンネル数変換法が、MPEG−4 AACのPCEまたはDSEで記述可能な変換法である、
    ことを特徴とするチャンネル数変換装置。
  7. コンピューターを、請求項1から6までのいずれか一項に記載のチャンネル数変換装置として機能させるためのプログラム。
JP2016161329A 2016-08-19 2016-08-19 チャンネル数変換装置およびそのプログラム Active JP6832095B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2016161329A JP6832095B2 (ja) 2016-08-19 2016-08-19 チャンネル数変換装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2016161329A JP6832095B2 (ja) 2016-08-19 2016-08-19 チャンネル数変換装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2018029306A true JP2018029306A (ja) 2018-02-22
JP6832095B2 JP6832095B2 (ja) 2021-02-24

Family

ID=61249229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016161329A Active JP6832095B2 (ja) 2016-08-19 2016-08-19 チャンネル数変換装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP6832095B2 (ja)

Also Published As

Publication number Publication date
JP6832095B2 (ja) 2021-02-24

Similar Documents

Publication Publication Date Title
JP4434951B2 (ja) オーディオチャンネルの空間的変換
RU2640647C2 (ru) Устройство и способ преобразования первого и второго входных каналов, по меньшей мере, в один выходной канал
JP6968376B2 (ja) ステレオ仮想バス拡張
GB2549532A (en) Merging audio signals with spatial metadata
RU2601189C2 (ru) Способ и устройство для разложения стереофонической записи с использованием обработки в частотной области, применяющей генератор спектральных весов
US9743215B2 (en) Apparatus and method for center signal scaling and stereophonic enhancement based on a signal-to-downmix ratio
WO2013090463A1 (en) Audio processing method and audio processing apparatus
TW201514455A (zh) 產生多重頻道聲音訊號之方法,該訊號用於揚聲器頻道的l1頻道至不同的l2頻道,及產生多重頻道聲音訊號之裝置,該訊號用於揚聲器頻道的l1頻道至不同的l2頻道
US20210250717A1 (en) Spatial audio Capture, Transmission and Reproduction
JP2024028527A (ja) 音場関連レンダリング
JP2024023412A (ja) 音場関連のレンダリング
JP4810621B1 (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
JP6562572B2 (ja) ステレオ信号のステレオイメージを修正するためのオーディオ信号処理装置及び方法
JP6832095B2 (ja) チャンネル数変換装置およびそのプログラム
WO2022132197A1 (en) Systems and methods for audio upmixing
CN112133316A (zh) 空间音频表示和渲染
JP6694755B2 (ja) チャンネル数変換装置およびそのプログラム
JP2017212732A (ja) チャンネル数変換装置およびプログラム
JP6510870B2 (ja) 番組音声チャンネル数変換装置、放送番組受信装置及び番組音声チャンネル数変換プログラム
JP2013526166A (ja) 下位互換音声形式記述を生成する方法および装置
JP2011239036A (ja) 音声信号変換装置、方法、プログラム、及び記録媒体
Uhle Center signal scaling using signal-to-downmix ratios
JP2015065551A (ja) 音声再生システム

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20181026

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190702

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200318

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200526

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200714

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210105

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210201

R150 Certificate of patent or registration of utility model

Ref document number: 6832095

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250