JP4257862B2

JP4257862B2 - 音声復号化装置

Info

Publication number: JP4257862B2
Application number: JP2006275276A
Authority: JP
Inventors: 英之角野; 直樹進藤
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2006-10-06
Filing date: 2006-10-06
Publication date: 2009-04-22
Anticipated expiration: 2026-10-06
Also published as: JP2008096508A; EP1909538B1; EP1909538A3; US20080086312A1; US8090585B2; EP1909538A2

Description

本発明は、符号化された音声データを含んだストリームデータを復号化する音声復号化装置に関するものである。

例えば、ヨーロッパなどのディジタルテレビ放送のなかには、主音声（ステレオ形式）が符号化されたストリームデータとともに、放送内容を解説する目的などに使用される副音声が符号化されたストリームデータを使用するものがある。

上記のディジタルテレビ放送を受信する装置は、これらのストリームデータを復号化して得た主音声データ（ステレオ形式）と副音声データとを合成してから出力する。その際、単に主音声データと副音声データとを合成すると、音量が必要以上に大きくなってしまい、聴取には不便である。そのため、合成後の音量が適切になるように、主音声データの音量を合成前にある程度落しておく必要がある。また、副音声データの音像定位を制御できると、聴取者の利便性がよい。

そのため、上記の副音声データのストリームデータは、主音声データや副音声データを加工して、主音声データと副音声データとの音量の大小関係を調整したり、副音声の音像定位を制御したりするためのパラメータを含んでおり、これらのストリームデータを復号化する音声復号化装置では、上記のパラメータを用いて、音量調整や音像定位を制御するようになっている（例えば非特許文献１を参照）。
Digital TV Group， "Digital Terrestrial Television Requirements for Interoperability Issue 4.0"（4.5節 Audio description）， 11 January 2005

しかしながら、上記のパラメータは、受信条件によっては、不正な値に変わってしまう場合があり、このような場合には、正しく音量調整等ができない。

本発明は、上記の問題に着目してなされたものであり、ストリームデータが含んでいるデータ加工用のパラメータが不正な値であっても、適正に音量調整等のデータ加工ができるようにすることを目的としている。

前記の課題を解決するため、本発明の一態様は、
第１の音声データを符号化した符号データを含んだ第１のストリームデータと、第２の音声データを符号化した符号データとともに前記第１の音声データ及び前記第２の音声データの２つの音声データに対してデータ加工をするためのデータ加工パラメータを含んだ第２のストリームデータとを復号化する音声復号化装置であって、
前記第１のストリームデータ及び前記第２のストリームデータを復号化して、前記２つの音声データ及び前記データ加工パラメータを生成する音声デコード部と、
前記データ加工パラメータに相当するパラメータが設定される外部設定部と、
前記２つの音声データに対してデータ加工をする音声データ加工部とを備え、
前記音声データ加工部は、前記第２のストリームデータに含まれたデータ加工パラメータが不正な場合に、前記２つの音声データのうちの少なくとも一方に対しては、前記外部設定部に設定されているパラメータを用いてデータ加工を行い、前記第２のストリームデータに含まれたデータ加工パラメータが適正な場合に、前記音声デコード部が生成したデータ加工パラメータを用いてデータ加工を行なうように構成されていることを特徴とする。

本発明によれば、ストリームデータが含んでいるデータ加工用のパラメータが不正な値であっても、適正に音量調整等のデータ加工を行なうことが可能になる。

以下に説明する各実施形態や各変形例は、ディジタルテレビ放送の音声情報をデコードして出力する音声復号化装置の例である。各音声復号化装置には、２種類のオーディオストリームデータ（以降、単にストリームデータと略記する）が入力されており、各ストリームデータをデコードし、デコードして得た各音声データを合成して出力する。

２種類のストリームデータの１つは、ディジタルテレビ放送の主音声データを含んだストリームデータ（第１のストリームデータＳ１０１と呼ぶ）である。以下の各実施形態では、主音声データは、２チャンネル（左チャンネル及び右チャンネル）のステレオ形式で入力されている。

また、もう１つのストリームデータは、ディジタルテレビ放送の副音声データを含んだストリームデータ（第２のストリームデータＳ１０２と呼ぶ）であり、例えば放送内容を解説する目的などに使用される。

第１のストリームデータＳ１０１をデコードして得た主音声データと、第２のストリームデータＳ１０２をデコードして得た副音声データとを単に合成すると、音量が必要以上に大きくなってしまう。これに対しては、合成した音声の音量が適切になるように、主音声データの音量を予め落しておくとよい。また、副音声データの音像定位を制御できると、聴取者の利便性がよい。

そこで、上記の第２のストリームデータＳ１０２には、主音声データと副音声データとを加工するためのストリーム情報が含められている。そして、このストリーム情報は、２種類のパラメータ（データ加工パラメータと呼ぶ）を含んでいる。

データ加工パラメータの１つは、フェード（Ｆａｄｅ）と呼ばれるパラメータである。フェード値は、主音声データと副音声データとを合成する前に、主音声データの音量をどの程度落すかを示すパラメータである。また、もう１つのデータ加工パラメータは、パン（Ｐａｎ）と呼ばれるパラメータである。パン値は、副音声の音像定位を制御するパラメータである。

上記の第１のストリームデータＳ１０１及び第２のストリームデータＳ１０２の一例としては、イギリスの企業連合からなる「Digital TV Group」が、“Digital Terrestrial Television Requirements for Interoperability Issue 4.0”において定めるディジタル放送規格で用いられる“main program data”及び“Audio description data”が挙げられる。

以下、本発明の各実施形態及び各変形例について図面を参照しながら説明する。なお、以下の各実施形態や各変形例の説明において、一度説明した構成要素と同様の機能を有する構成要素については、同一の符号を付して説明を省略する。

《発明の実施形態１》
図１は、本発明の実施形態１に係る音声復号化装置１００の構成を示すブロック図である。音声復号化装置１００は、図１に示すように、音声デコード部１０１、外部設定部１０２、音声データ加工部１０３、及び合成部１０４を備えている。

音声デコード部１０１は、第１のストリームデータＳ１０１をデコード（復号化）した第１の復号化データＳ１０３と、第２のストリームデータＳ１０２を復号化した第２の復号化データＳ１０４とを出力するようになっている。第１のストリームデータＳ１０１は、主音声データを２チャンネル（左チャンネル及び右チャンネル）のステレオ形式で含んでいるので、第１の復号化データＳ１０３も２チャンネルのステレオ形式である。一方、第２のストリームデータＳ１０２をデコードして得た第２の復号化データＳ１０４は、１チャンネルの副音声データに加え、フェード値とパン値とを含んでいる。

外部設定部１０２は、フェード値に相当する値と、パン値に相当する値とを設定できるようになっている(これらの値を外部設定情報と呼ぶ)。外部設定情報は、ユーザ（例えば、本装置を用いてテレビ放送受信機等を設計する者や、本装置が組み込まれたテレビ放送受信機等を用いて放送を視聴する者）によって外部設定部１０２に設定される。

また、外部設定部１０２には、第２の復号化データＳ１０４に含まれたフェード値、及び外部設定部１０２内に設定されたフェード値のうちの何れを音量調整に使用するかを示すフェード値選択フラグが設定され、さらに、第２の復号化データＳ１０４に含まれたパン値、及び外部設定部１０２内に設定されたパン値のうちの何れを音像定位の制御に使用するかを示すパン値選択フラグが設定されるようになっている。これらのフラグは、例えば、エラー検出部（図示せず）が、第２のストリームデータＳ１０２内のフェード値等が不正な状態（エラー状態）か否かを検出し、検出結果に応じ、所定の値（例えば適正な場合に０ｘ１、不正な場合に０ｘ０）に書き換えるようにすればよい。図２に外部設定部１０２の記述内容の一例を示す。

音声データ加工部１０３は、フェード制御部１０３ａとパン制御部１０３ｂとを備え、主音声データと副音声データとを加工するようになっている。具体的に、本実施形態で音声データ加工部１０３が行なう加工は、主音声データと副音声データとの音量の大小関係、及び副音声データの音像定位を制御である。

フェード制御部１０３ａは、フェード値選択フラグの値に応じ、第２の復号化データＳ１０４に含まれたフェード値、及び外部設定部１０２内のフェード値のうちの何れかを選択し、選択した値を用いて、主音声データの音量調整（具体的には音量を所定量低下させる。以下フェード制御と呼ぶ）を行なうようになっている。詳しくは、入力された第２のストリームデータＳ１０２内のフェード値等が不正である場合には、外部設定部１０２内のフェード値を使用してフェード制御を行い、そうでない場合には、第２の復号化データＳ１０４に含まれたフェード値を使用してフェード制御を行なう。

パン制御部１０３ｂは、パン値選択フラグの値に応じ、第２の復号化データＳ１０４に含まれたパン値、及び外部設定部１０２内のパン値のうちの何れかを選択し、選択した値を用いて、副音声データの音像定位を制御するようになっている（以下パン制御と呼ぶ）。詳しくは、入力された第２のストリームデータＳ１０２内のパン値等が不正である場合には、外部設定部１０２内のパン値を使用してパン制御を行い、そうでない場合には、第２の復号化データＳ１０４に含まれたパン値を使用してパン制御を行なう。なお、パン制御部１０３ｂの出力は、２チャンネルのステレオ形式である。また、外部設定部１０２内のフェード値やパン値を使用して、音量調整や音像定位を制御することをエラー復帰と呼ぶことにする。

合成部１０４は、フェード制御部１０３ａの出力とパン制御部１０３ｂの出力とを合成して出力するようになっている。

（音声復号化装置１００の動作）
音声復号化装置１００では、エラー検出部が、第２のストリームデータＳ１０２内のフェード値及びパン値の何れかが不正であることを検出すると、不正なパラメータに対応する外部設定部１０２内のフラグの値を、パラメータが不正であることを示す値にセットする。

一方、音声デコード部１０１は、入力された第１のストリームデータＳ１０１及び第２のストリームデータＳ１０２をそれぞれでコードして、第１の復号化データＳ１０３及び第２の復号化データＳ１０４を出力する。

フェード制御部１０３ａは、第２のストリームデータＳ１０２内のフェード値が不正であることをフェード値選択フラグが示している場合には、外部設定部１０２からフェード値を読み出して、読み出したフェード値に基づいて、主音声データの音量を調整し、第２のストリームデータＳ１０２内のフェード値が適正であることをフェード値選択フラグが示している場合には、第２の復号化データＳ１０４内のフェード値に基づいて、第１の復号化データＳ１０３の音量を調整する。

同様に、パン制御部１０３ｂは、第２のストリームデータＳ１０２内のパン値が不正であることをパン値選択フラグが示している場合には、外部設定部１０２からパン値を読み出して、読み出したパン値に基づいて、副音声データの音像定位を制御し、そうでない場合には、第２の復号化データＳ１０４内のパン値に基づいて、副音声データの音像定位を制御する。

以上のように、本実施形態によれば、第２のストリームデータＳ１０２内のフェード値やパン値が不正であっても、外部設定部１０２内に設定されている値が用いられて、音量の調整や音像定位の制御が行なわれるので、適正な音声出力が保証される。

《発明の実施形態１の変形例１》
図３は、本発明の実施形態１の変形例１に係る音声復号化装置の構成を示すブロック図である。この音声復号化装置は、音像定位の制御の際に、常に第２の復号化データＳ１０４内のパン値を参照するように、パン制御部１０３ｂを構成したものである。例えば、モノラル放送が中心の地域などで使用する場合などには、音像定位の制御が不要な場合が多い。そのため、モノラル放送が中心の地域向けの装置では、本変形例のように、パン制御部１０３ｂを構成してもよい。なお、本変形例においても、第２のストリームデータＳ１０２内のフェード値が不正の場合には、外部設定部１０２内に設定されている値が用いられて、フェード制御が行なわれる。

《発明の実施形態１の変形例２》
図４は、本発明の実施形態１の変形例２に係る音声復号化装置の構成を示すブロック図である。この音声復号化装置は、音量の制御の際に、常に第２の復号化データＳ１０４内のフェード値を参照するように、フェード制御部１０３ａを構成したものである。なお、本変形例においても、第２のストリームデータＳ１０２内のパン値が不正の場合には、外部設定部１０２内に設定されている値が用いられて、パン制御が行なわれる。

《発明の実施形態２》
図５は、本発明の実施形態２に係る音声復号化装置２００の構成を示すブロック図である。音声復号化装置２００は、同図に示すように、音声復号化装置１００にパラメータ制御部２０１を追加して構成したものである。

パラメータ制御部２０１は、フェード制御部１０３ａの出力、及びパン制御部１０３ｂの出力に応じて、フェード値とパン値とを外部設定部１０２に設定するようになっている。例えば、パラメータ制御部２０１は、第２の復号化データＳ１０４内の適正なフェード値を用いて音量調整した場合におけるフェード制御部１０３ａの出力の振幅に比べて、外部設定部１０２内のフェード値を用いて音量調整した場合におけるフェード制御部１０３ａの出力の振幅が大きく異ならないように、フェード値を決定して外部設定部１０２に設定する。

さらに、パラメータ制御部２０１は、第２の復号化データＳ１０４内の適正なパン値を用いて音像定位を制御した場合に比べて、外部設定部１０２内のパン値を用いて音像定位を制御した場合の音像の位置が大きく異ならないように、パン値を決定して外部設定部１０２に設定する。

したがって、本実施形態によれば、外部設定部１０２に設定するパラメータを、ユーザが一々求める必要がない。

なお、パラメータ制御部２０１は、合成部１０４の出力の振幅に応じ、フェード値、及びパン値の値を外部設定部１０２に設定するように構成してもよい。

また、パラメータ制御部２０１は、フェード制御部１０３ａの出力に応じて、フェード値のみを設定するように構成して、パン値はユーザが設定するようにしてもよいし、パン制御部１０３ｂの出力に応じて、パン値のみを設定するように構成して、フェード値はユーザが設定するようにしてもよい。

《発明の実施形態３》
図６は、本発明の実施形態３に係る音声復号化装置３００の構成を示すブロック図である。音声復号化装置３００は、同図に示すように、音声復号化装置１００の合成部１０４を合成部３０１に置き換え、さらに合成選択部３０２を追加して構成したものである。

合成部３０１は、入力された制御信号（合成制御信号と呼ぶ）に応じ、フェード制御部１０３ａの出力とパン制御部１０３ｂの出力とを合成した信号、及びフェード制御部１０３ａの出力信号の何れか一方を選択的に出力するようになっている。

合成選択部３０２は、外部からの指示（例えば聴取者からの指示）を受けて、その指示に応じて、合成制御信号を合成部３０１に出力するようになっている。

上記の音声復号化装置３００によれば、副音声を聴取するか否かを切り替えることが可能になる。

《発明の実施形態４》
図７は、本発明の実施形態４に係る音声復号化装置４００の構成を示すブロック図である。音声復号化装置４００は、同図に示すように、音声復号化装置１００において、音声データ加工部１０３の代わりに音声データ加工部４０３を設け、さらに、エラー復帰開始時間制御部４０１とエラー復帰移行時間制御部４０２とを追加して構成したものである。

音声データ加工部４０３は、フェード制御部４０３ａとパン制御部４０３ｂとを備え、主音声データと副音声データとを加工するようになっている。

フェード制御部４０３ａは、与えられた所定の制御信号に応じ、エラー復帰を開始するタイミングと、現時点の音量から新たに選択されたフェード値に対応した音量に移行するまでの時間（エラー復帰移行時間と呼ぶ）とを変更できるように、フェード制御部１０３ａを構成したものである。

パン制御部４０３ｂは、与えられた所定の制御信号に応じ、エラー復帰を開始するタイミングと、現時点の音像定位から、新たに選択されたパン値に対応した音像位置に移行するまでの時間（これもエラー復帰移行時間と呼ぶ）とを変更できるように、パン制御部１０３ｂを構成したものである。

エラー復帰開始時間制御部４０１は、第２の復号化データS104内のフェード値及びパン値の少なくとも一方のエラー状態が、所定時間以上継続した場合に、エラー復帰開始が必要であると判定し、フェード制御部４０３ａ及びパン制御部４０３ｂのうちのエラー復帰開始が必要である方に、エラー復帰開始を指示するようになっている。

エラー復帰移行時間制御部４０２は、フェード制御部４０３ａ及びパン制御部４０３ｂに、エラー復帰移行時間を指示するようになっている。

（音声復号化装置４００の動作）
音声復号化装置４００では、第２の復号化データS104内のフェード値及びパン値の少なくとも一方のエラー状態が所定時間以上継続すると、エラー復帰開始時間制御部４０１は、フェード制御部４０３ａ及びパン制御部４０３ｂのうちのエラー復帰開始が必要である方に、エラー復帰開始を指示する。一方、エラー復帰移行時間制御部４０２は、フェード制御部４０３ａとパン制御部４０３ｂとにエラー復帰移行時間を指示する。

それにより、フェード制御部４０３ａとパン制御部４０３ｂとは、与えられたエラー復帰移行時間をかけて、段階的に、現時点の状態から、新たなパラメータに対応した状態まで、音量レベルや、音像定位を制御する。

上記のように、本実施形態によれば、エラー状態が所定時間以上継続した場合に、音量や、音像定位の制御が段階的に行なわれる。したがって、例えば突発的なエラーによって、音量等が急変することがない。

なお、エラー復帰開始時間制御部４０１は、単位時あたりに発生したエラー回数をカウントして、その結果が所定回数を越えた場合に、エラー復帰開始を指示するようにしてもよいし、用途によっては、エラーが検知されたら直ちにエラー復帰開始を指示するようにしてもよい。

また、エラー復帰開始時間制御部４０１は、これらのエラー復帰指示方法（エラー継続時間によるエラー復帰指示、単位時間あたりのエラー発生回数によるエラー復帰指示等）のそれぞれを実行できるように構成し、例えば音声復号化装置４００の使用環境などに応じて、何れのエラー復帰指示方法を使用するかを切り替えるように構成してもよい。それにより、最も聴取者に違和感なくエラー復帰することが可能になる。

《発明の実施形態４の変形例その１》
図８は、本発明の実施形態４の変形例１に係る音声復号化装置の構成を示すブロック図である。この音声復号化装置は、フェード制御についてのみ、エラー復帰のタイミングと、エラー復帰移行時間とが制御されている。パン制御のエラー復帰開始タイミングは、音声復号化装置１００等と同様に、外部設定部１０２にセットされているフラグに基づいて制御され、エラー復帰にかける時間（エラー復帰移行時間）はデフォルト値である。

《発明の実施形態４の変形例その２》
図９は、本発明の実施形態４の変形例２に係る音声復号化装置の構成を示すブロック図である。この音声復号化装置は、パン制御についてのみ、エラー復帰のタイミングと、エラー復帰移行時間とが制御されている。フェード制御のエラー復帰開始タイミングは、音声復号化装置１００等と同様に、外部設定部１０２にセットされているフラグに基づいて制御され、エラー復帰にかける時間（エラー復帰移行時間）はデフォルト値である。

本発明に係る音声復号化装置は、ストリームデータが含んでいるデータ加工用のパラメータが不正な値であっても、適正に音量調整等のデータ加工を行なうことが可能になるという効果を有し、符号化された音声データを含んだストリームデータを復号化する音声復号化装置等として有用である。

実施形態１に係る音声復号化装置１００の構成を示すブロック図である。外部設定部１０２の記述内容の一例を示す図である。実施形態１の変形例１に係る音声復号化装置の構成を示すブロック図である。実施形態１の変形例２に係る音声復号化装置の構成を示すブロック図である。実施形態２に係る音声復号化装置２００の構成を示すブロック図である。実施形態３に係る音声復号化装置３００の構成を示すブロック図である。実施形態４に係る音声復号化装置４００の構成を示すブロック図である。実施形態４の変形例１に係る音声復号化装置の構成を示すブロック図である。実施形態４の変形例２に係る音声復号化装置の構成を示すブロック図である。

符号の説明

１００音声復号化装置
１０１音声デコード部
１０２外部設定部
１０３音声データ加工部
１０３ａフェード制御部
１０３ｂパン制御部
１０４合成部
２００音声復号化装置
２０１パラメータ制御部
３００音声復号化装置
３０１合成部
３０２合成選択部
４００音声復号化装置
４０１エラー復帰開始時間制御部
４０２エラー復帰移行時間制御部
４０３音声データ加工部
４０３ａフェード制御部
４０３ｂパン制御部
Ｓ１０１第１のストリームデータ
Ｓ１０２第２のストリームデータ
Ｓ１０３第１の復号化データ
Ｓ１０４第２の復号化データ

Claims

第１の音声データを符号化した符号データを含んだ第１のストリームデータと、第２の音声データを符号化した符号データとともに前記第１の音声データ及び前記第２の音声データの２つの音声データに対してデータ加工をするためのデータ加工パラメータを含んだ第２のストリームデータとを復号化する音声復号化装置であって、
前記第１のストリームデータ及び前記第２のストリームデータを復号化して、前記２つの音声データ及び前記データ加工パラメータを生成する音声デコード部と、
前記データ加工パラメータに相当するパラメータが設定される外部設定部と、
前記２つの音声データに対してデータ加工をする音声データ加工部とを備え、
前記音声データ加工部は、前記第２のストリームデータに含まれたデータ加工パラメータが不正な場合に、前記２つの音声データのうちの少なくとも一方に対しては、前記外部設定部に設定されているパラメータを用いてデータ加工を行い、前記第２のストリームデータに含まれたデータ加工パラメータが適正な場合に、前記音声デコード部が生成したデータ加工パラメータを用いてデータ加工を行なうように構成されていることを特徴とする音声復号化装置。
請求項１の音声復号化装置であって、
前記データ加工パラメータは、前記第１の音声データの音量を低下させる量を示すパラメータであることを特徴とする音声復号化装置。
請求項１の音声復号化装置であって、
前記データ加工パラメータは、前記第２の音声データの音像定位を制御するパラメータであることを特徴とする音声復号化装置。
請求項１の音声復号化装置であって、さらに、
前記音声データ加工部が加工した２つの音声データを合成する合成部と、
前記合成部が出力した音声データの音量が、所定範囲に収まるように、前記外部設定部にパラメータを設定するパラメータ制御部と、
をさらに備えたことを特徴とする音声復号化装置。
請求項１の音声復号化装置であって、
前記音声データ加工部が加工した第１の音声データを出力するか、前記音声データ加工部が加工した２つの音声データを合成した音声データを出力するかが、与えられた制御信号に応じて切り替わる合成部をさらに備えたことを特徴とする音声復号化装置。
請求項１の音声復号化装置であって、
さらに、前記音声デコード部が生成したデータ加工パラメータが不正である時間が所定以上連続した場合に、前記音声データ加工部にデータ加工の開始を指示するエラー復帰開始時間制御部を備え、
前記音声データ加工部は、前記エラー復帰開始時間制御部の指示を受けて、データ加工を開始するように構成されていることを特徴とする音声復号化装置。
請求項１の音声復号化装置であって、
さらに、前記音声デコード部が生成したデータ加工パラメータが不正であった回数が所定以上連続した場合に、前記音声データ加工部にデータ加工の開始を指示するエラー復帰開始時間制御部を備え、
前記音声データ加工部は、前記エラー復帰開始時間制御部の指示を受けて、データ加工を開始するように構成されていることを特徴とする音声復号化装置。
請求項１の音声復号化装置であって、
前記音声デコード部が生成したデータ加工パラメータが不正である時間が所定以上連続した場合に、前記音声データ加工部にデータ加工の開始を指示する第１のエラー復帰指示方法、及び前記音声デコード部が生成したデータ加工パラメータが不正であった回数が所定以上連続した場合に、前記音声データ加工部にデータ加工の開始を指示する第２のエラー復帰指示方法のうちの何れかのエラー復帰指示方法を選択し、選択したエラー復帰指示方法によって、前記音声データ加工部にデータ加工の開始を指示するエラー復帰開始時間制御部を備え、
前記音声データ加工部は、前記エラー復帰開始時間制御部の指示を受けて、データ加工を開始するように構成されていることを特徴とする音声復号化装置。
請求項６、請求項７、及び請求項８のうちの何れか１項の音声復号化装置であって、
さらに、データ加工を開始してから完了するまでの時間を前記音声データ加工部に指示するエラー復帰移行時間制御部を備え、
前記音声データ加工部は、前記エラー復帰移行時間制御部の指示に応じた時間で、データ加工を完了するように構成されていることを特徴とする音声復号化装置。