JP4750010B2

JP4750010B2 - 音響音声再生装置

Info

Publication number: JP4750010B2
Application number: JP2006352297A
Authority: JP
Inventors: 修藤井
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2006-12-27
Filing date: 2006-12-27
Publication date: 2011-08-17
Anticipated expiration: 2026-12-27
Also published as: JP2008166976A

Description

本発明は、符号化されたデジタルデータからコンテンツを分類して原音響音声信号を再生する音響音声再生装置に関する。

従来の音声再生装置には、入力される音声信号の周波数スペクトルによる母音長と、高レベル音の長さと、低レベル音の長さとにより入力信号を検出する検出手段と、この検出手段の検出結果について、予め設定したメンバーシップ関係に基づき入力信号ソースモードをファジィ推論を使って判断する判断手段と、この判断手段の出力により音声出力モードを選択する自動切替手段とを備えているものがある（例えば、特許文献１参照。）。

特開平７−１１５６０６号公報（請求項１，［０００８］〜［００１９］、図１）

上記した従来の音声再生装置では、多数の帯域通過フィルタやアナログ／デジタル変換器（ＡＤＣ）が必要であるため、装置が高価になるとともに、消費電力が大きいという課題があった。また、ＡＤＣを用いているため、量子化雑音に起因して音質の劣化が生じるという課題があった。

本発明は、上述した事情に鑑みてなされたものであり、上述のような課題を解決することができる音響音声再生装置を提供することを目的とする。

上記課題を解決するために、請求項１記載の発明に係る音響音声再生装置は、デジタル音響音声データのスペクトル成分からホルマント成分を抽出し、前記スペクトル成分の前記ホルマント成分のパワー又はエネルギと、前記スペクトル成分から前記ホルマント成分を除いた成分のパワー又はエネルギとのパワー比又はエネルギ比を算出するホルマント周波数検出部と、前記パワー比又はエネルギ比を累積加算するパワー比又はエネルギ比加算部と、前記パワー比又はエネルギ比の累積加算値に応じてスピーカ構成を決定するスピーカ構成決定部とを有することを特徴としている。

また、請求項２記載の発明は、請求項１記載の音響音声再生装置に係り、前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分のみであり、前記ホルマント成分を除いた成分がないことを示す場合には、前記スピーカ構成をセンターチャンネルのスピーカの１台と決定することを特徴としている。

また、請求項３記載の発明は、請求項２記載の音響音声再生装置に係り、前記スピーカ構成決定部が前記スピーカ構成をセンターチャンネルのスピーカの１台と決定した場合には、前記デジタル音響音声データの時間領域のデータである左チャンネルの音響音声データ及び右チャンネルの音響音声データからモノラルの音声データを生成する再生データ生成部をさらに有することを特徴としている。

また、請求項４記載の発明は、請求項１乃至３のいずれかに記載の音響音声再生装置に係り、前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分と、少ない前記ホルマント成分を除いた成分とからなることを示す場合は、前記スピーカ構成を左チャンネルのスピーカ、前記センターチャンネルのスピーカ及び右チャンネルのスピーカの３台と決定することを特徴としている。

また、請求項５記載の発明は、請求項４記載の音響音声再生装置に係り、前記再生データ生成部は、前記スピーカ構成決定部が前記スピーカ構成を前記左チャンネルのスピーカ、前記センターチャンネルのスピーカ及び前記右チャンネルのスピーカの３台と決定した場合には、前記左チャンネルの音響音声データ及び前記右チャンネルの音響音声データの同一成分から台詞成分の音声データを抽出することを特徴としている。

また、請求項６記載の発明は、請求項１乃至５のいずれかに記載の音響音声再生装置に係り、前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分と、多くの前記ホルマント成分を除いた成分とからなることを示す場合又は、多くの前記ホルマント成分を除いた成分のみであり、前記ホルマント成分がないことを示す場合は、前記スピーカ構成を左チャンネルのスピーカ及び右チャンネルのスピーカの２台と決定することを特徴としている。

本発明によれば、ソースのコンテンツが異なっても聴取者が聴きやすい音響音声再生装置を安価に構成できるとともに、消費電力を大幅に削減することができる。また、量子化雑音に起因する音質劣化を防止することができる。

実施の形態１．
図１は、本発明の実施の形態１に係る音響音声再生装置の構成を示すブロック図である。この例の音響音声再生装置は、地上デジタルテレビジョン放送、ＢＳデジタルテレビジョン放送やＣＳデジタルテレビジョン放送等で採用されている音声圧縮符号化技術の１つであるＡＡＣ（Advanced Audio Coding）方式が適用されている。この例の音響音声再生装置は、アンパッキング・逆量子化部１と、ブロックサイズ判定部２と、周波数・時間変換部３と、ホルマント周波数検出部４と、パワー比加算部５と、スピーカ構成決定部６と、再生データ生成部７と、アンプ８と、Ｌ（左）チャンネルスピーカ９と、Ｃ（センター）チャンネルスピーカ１０と、Ｒ（右）チャンネルスピーカ１１とから構成されている。

アンパッキング・逆量子化部１は、圧縮符号化されたデジタル音響音声データＣＤＡＤ（ビットストリーム（Bitstream））からヘッダ、スケールファクタ、ブロックサイズ等の符号化データを展開する。また、アンパッキング・逆量子化部１は、展開したヘッダ、スケールファクタ、ブロックサイズ等の符号化データを逆量子化するとともに、これらに基づいて、逆量子化したブロックサイズごとの周波数成分の逆修正離散余弦変換（ＩＭＤＣＴ；Inverse Modified Discrete Cosine Transform）係数（スペクトルデータ）を算出する。

ブロックサイズ判定部２は、アンパッキング・逆量子化部１で展開されたブロックサイズに基づいて、１フレームをロングブロック（例えば、２０４８サンプルブロック）又はショートブロック（例えば、２５６サンプルブロック）のいずれかで、周波数・時間変換部３に周波数・時間変換処理を行わせるかを判定する。この判定は、例えば、定常音の場合にはロングブロックで周波数・時間変換処理を行うと判定し、過渡音の場合にはショートブロックで周波数・時間変換処理を行うと判定する。

このような判定を行うのは、過渡音をショートブロックで周波数・時間変換処理を行った場合には、経時マスキング効果に起因する量子化誤差の影響を低減することができるからである。ここで、経時マスキング効果とは、複数の音圧レベルの音が時間的に接近して発生している場合、ある大きな音圧レベルの音によって、その直前及び直後に発生した音圧レベルの低い別の音がマスキングされ、人には聴こえない又は聴こえにくくなるという聴感効果をいう。

周波数・時間変換部３は、アンパッキング・逆量子化部１で算出された逆量子化後のスペクトルデータについて、ブロックサイズ判定部２で判定されたブロックサイズごとに、公知のＩＭＤＣＴ処理を施すことにより、対応する時間領域のデータ、即ち、Ｌチャンネルの音響音声データ及びＲチャンネルの音響音声データに直交変換する。

ホルマント周波数検出部４は、アンパッキング・逆量子化部１で算出された逆量子化後のスペクトルデータについて、以下に示す手法によりホルマントを分析する。ここで、ホルマントとは、声道の伝達関数の極と零により音声波の周波数スペクトル上に生じる数個の共振の山をいう。第ｎ番目（ｎは自然数）のホルマントピーク近傍のスペクトル成分の周波数をｆ_ｉ（ｉは自然数）、各スペクトル成分に対する加重係数をＷ_ｉとした場合、ホルマント周波数Ｆ_ｎは、近似的には、式（１）により算出される。

式（１）において、加重係数Ｗ_ｉは、各スペクトル成分の振幅Ａ_ｉと、着目される周波数領域内でのスペクトル成分の最大振幅Ａ_ｍａｘとの比Ａ_ｉ／Ａ_ｍａｘで与えられる。

従って、ホルマント周波数検出部４は、ホルマントの着目される周波数領域を、例えば、基本周波数Ｆ_０について１００Ｈｚ〜３００Ｈｚ、ホルマント周波数Ｆ_１について２５０Ｈｚ〜１１００Ｈｚ、ホルマント周波数Ｆ_２について８００Ｈｚ〜３５００Ｈｚ、ホルマント周波数Ｆ_３について１６００Ｈｚ〜３８００Ｈｚとそれぞれ設定し、上記式（１）を用いてホルマント周波数Ｆ_０〜Ｆ_３を算出する。

次に、ホルマント周波数検出部４は、算出したホルマント周波数Ｆ_０〜Ｆ_３の値が図２に示すホルマント判定表のいずれかの母音と相関があるか否かを判定し、相関がある場合には母音が存在すると判断し、図２に示すホルマント振幅の重み係数Ｌ_１〜Ｌ_３を乗算することによりホルマントスペクトルを抽出する。図２は、三浦種敏監修、勝木保次外７名著、社団法人電子情報通信学会編著、新版「聴覚と音声」、第７版、社団法人電子情報通信学会、平成６年６月１０日、ｐ３５５に記載されている、バーネイ・ピーターソン（Barney Peterson）氏によって測定された米語母音のホルマントの平均の基本周波数Ｆ_０と、平均ホルマント周波数Ｆ_１〜Ｆ_３と、それぞれの平均ホルマント振幅とを示している。この場合、抽出されるホルマントスペクトルの帯域幅は、正弦波のスペクトルデータについてＭＤＣＴ処理を施した場合に統計的分布より得られるので、予めＲＯＭやフラッシュメモリ等の記憶部に保存しておくことが好ましい。

また、抽出したホルマントスペクトル、即ち、ホルマント成分のスペクトルを２乗してホルマント成分のスペクトルパワーを求めるとともに、全帯域のスペクトルを２乗して全帯域のスペクトルパワーを求める。そして、ホルマント成分のスペクトルパワーの総和、即ち、エネルギをＰ_ｏｗ（Ｆ_ｓｕｍ）、さらに全帯域のスペクトルパワーの総和をＰ_ｏｗ（Ｓ_ｓｕｍ）、同様にスペクトル成分からホルマント成分を除いた成分のスペクトルパワーの総和をＰ_ｏｗ（Ｎ_ｓｕｍ）とすると、ホルマント成分を除いた成分のエネルギＰ_ｏｗ（Ｎ_ｓｕｍ）は、式（２）で算出される。
Ｐ_ｏｗ（Ｎ_ｓｕｍ）＝Ｐ_ｏｗ（Ｓ_ｓｕｍ）−Ｐ_ｏｗ（Ｆ_ｓｕｍ）・・・（２）
従って、ホルマント周波数検出部４は、ホルマント成分のパワーとホルマント成分を除いた成分のパワー又はエネルギの比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）を算出することができる。これ以降、パワー比又はエネルギ比を総称して、「パワー比」と称する。

パワー比加算部５は、内部にＲＡＭ等の記憶部を有し、ホルマント周波数検出部４で算出された１フレーム分のパワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）を、例えば、数十秒間記憶部に保存し、例えば、数十秒間経過した後、パワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）を累積加算する。

スピーカ構成決定部６は、パワー比加算部５で算出されたパワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）の累積加算値に応じて、例えば、以下に示すようにスピーカ構成を決定する。
（１）パワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）の累積加算値が、ソースがホルマント成分のみであり、ホルマント成分を除いた成分がないことを示す場合（例えば、日本語の場合、５０％以上）は、ソースがニュース、対談又は討論等の音声が主であるコンテンツであると判断し、スピーカ構成をＣチャンネルスピーカ１０の１台と決定する。

このように、ソースがニュース、対談又は討論等の音声が主であるコンテンツである場合にスピーカ構成をＣチャンネルスピーカ１０の１台と決定するのは以下に示す理由による。即ち、音声をＣチャンネルスピーカからモノラルで放射した場合には、聴取者がその聴取位置を変更しても違和感なく同じように聴くことができる。これに対し、音声をＬチャンネルスピーカ及びＲチャンネルスピーカからステレオで放射した場合には、聴取者がその聴取位置を変更した場合、聴取位置によっては違和感を持つ場合がある。

（２）パワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）の累積加算値が、ソースがホルマント成分と、少ないホルマント成分を除いた成分とからなることを示す場合は、ソースがドラマ等の音声が主であるがテーマ音楽や主題歌等も随時挿入されるコンテンツである判断し、スピーカ構成をＬチャンネルスピーカ９、Ｃチャンネルスピーカ１０及びＲチャンネルスピーカ１１の３台と決定する。なお、ソースが映画の場合には、予めシネマモード（例えば、５．１チャンネル）が設定されているので、このシネマモードに基づいてスピーカ構成を決定すれば良い。

（３）パワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）の累積加算値が、ソースがホルマント成分と、多くのホルマント成分を除いた成分とからなることを示す場合は、ソースが楽器の演奏をバックに歌手が歌を歌っている等の楽曲と音声とが混在しているコンテンツである判断し、スピーカ構成をＬチャンネルスピーカ９及びＲチャンネルスピーカ１１の２台と決定する。

（４）パワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）の累積加算値が、ソースが多くのホルマント成分を除いた成分のみであり、ホルマント成分がないことを示す場合は、ソースが楽器の演奏のみ等の楽曲が主であるコンテンツであると判断し、スピーカ構成をＬチャンネルスピーカ９及びＲチャンネルスピーカ１１の２台と決定する。

（５）パワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）の累積加算値が、ソースが少ないホルマント成分を除いた成分のみであり、ホルマント成分がないことを示す場合は、自然な騒音や台詞と台詞の間、曲間等が主であるコンテンツと判断し、スピーカ構成をＬチャンネルスピーカ９、Ｃチャンネルスピーカ１０及びＲチャンネルスピーカ１１の３台又はＬチャンネルスピーカ９及びＲチャンネルスピーカ１１の２台と決定する。

再生データ生成部７は、スピーカ構成決定部６の決定結果が（１）の場合、周波数・時間変換部３から供給されるＬチャンネルの音響音声データ及びＲチャンネルの音響音声データからＣチャンネルスピーカ１０に供給すべきモノラルの音声データを生成し、Ｌチャンネルの音響音声データ、Ｒチャンネルの音響音声データ及びモノラルの音声データをアンプ８に供給する。

また、再生データ生成部７は、スピーカ構成決定部６の決定結果が（２）の場合、周波数・時間変換部３から供給されるＬチャンネルの音響音声データ及びＲチャンネルの音響音声データの同一成分からＣチャンネルスピーカ１０に供給すべき台詞成分の音声データを抽出し、Ｌチャンネルの音響音声データ、Ｒチャンネルの音響音声データ及び台詞成分の音声データをアンプ８に供給する。

なお、台詞成分の音声データの抽出手法については、例えば、ドルビープロロジックII（ドルビーは登録商標）等、通常のＬチャンネルの音響音声データ及びＲチャンネルの音響音声データを３チャンネル以上のサラウンドサウンドとして拡張する手法を用いても良い。

さらに、再生データ生成部７は、スピーカ構成決定部６の決定結果が（３）及び（４）の場合、周波数・時間変換部３から供給されるＬチャンネルの音響音声データ及びＲチャンネルの音響音声データをそのままアンプ８に供給する。

また、再生データ生成部７は、スピーカ構成決定部６の決定結果が（５）の場合、周波数・時間変換部３から供給されるＬチャンネルの音響音声データ及びＲチャンネルの音響音声データをそのままアンプ８に供給したり、Ｌチャンネルの音響音声データ及びＲチャンネルの音響音声データの同一成分からＣチャンネルスピーカ１０に供給すべき音響音声データを抽出し、Ｌチャンネルの音響音声データ、Ｒチャンネルの音響音声データ及び抽出した音響音声データをアンプ８に供給したりする。

アンプ８は、デジタル／アナログ変換器（ＤＡＣ）、前置増幅器（プリアンプ）、主増幅器（メインアンプ）等からなり、Ｌチャンネルの音響音声データ、Ｒチャンネルの音響音声データ、モノラルの音声データあるいは台詞成分等の抽出された音声データのアナログの音響音声信号又は音声信号への変換、音質の調整、音量の調整、電力増幅等を行う。

Ｌチャンネルスピーカ９、Ｃチャンネルスピーカ１０及びＲチャンネルスピーカ１１は、いずれも全音域を出力可能なスピーカであり、例えば、居間等において聴取者の聴取位置に向かって前方左側、前方正面、前方右側にそれぞれ配置され、アンプ８から供給されるアナログの音響音声信号等に基づいて楽音又は音声を放射する。

次に、上記構成の音響音声再生装置の動作について説明する。アンパッキング・逆量子化部１は、外部から供給されたデジタル音響音声データＣＤＡＤから符号化データを展開した後、展開した符号化データを逆量子化するとともに、これらに基づいて、逆量子化したブロックサイズごとの周波数成分のスペクトルデータを算出する。

これにより、ブロックサイズ判定部２は、上記展開されたブロックサイズに基づいて、１フレームをロングブロック又はショートブロックのいずれかで、周波数・時間変換部３に周波数・時間変換処理を行わせるかを判定する。次に、周波数・時間変換部３は、上記逆量子化後のスペクトルデータについて、ブロックサイズ判定部２で判定されたブロックサイズごとに、公知のＩＭＤＣＴ処理を施すことにより、Ｌチャンネルの音響音声データ及びＲチャンネルの音響音声データに直交変換する。

一方、ホルマント周波数検出部４は、アンパッキング・逆量子化部１で算出された逆量子化後のスペクトルデータについて、上記式（１）を用いてホルマント周波数Ｆ_０〜Ｆ_３を算出した後、算出したホルマント周波数Ｆ_０〜Ｆ_３の値が図２に示すホルマント判定表のいずれかの母音と相関があるか否かを判定し、相関がある場合には母音が存在すると判断し、図２に示すホルマント振幅の重み係数Ｌ_１〜Ｌ_３を乗算することによりホルマントスペクトルを抽出する。次に、ホルマント周波数検出部４は、抽出したホルマントスペクトルに基づいて、ホルマント成分のパワーとホルマント成分を除いた成分のパワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）を算出する。

これにより、パワー比加算部５は、上記１フレーム分のパワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）を数十秒間記憶部に保存し、数十秒間経過した後、パワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）を累積加算する。次に、スピーカ構成決定部６は、上記パワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）の累積加算値に応じて、上記（１）〜（５）に示すようにスピーカ構成を決定する。例えば、ソースがニュース、対談又は討論等の音声が主であるコンテンツである場合にはスピーカ構成がＣチャンネルスピーカ１０の１台と決定され、ソースがドラマ等の音声が主であるがテーマ音楽や主題歌等も随時挿入されるコンテンツである場合には、スピーカ構成がＬチャンネルスピーカ９、Ｃチャンネルスピーカ１０及びＲチャンネルスピーカ１１の３台と決定される。

一方、ソースが楽器の演奏をバックに歌手が歌を歌っている等の楽曲と音声とが混在しているコンテンツである場合には、スピーカ構成がＬチャンネルスピーカ９及びＲチャンネルスピーカ１１の２台と決定され、ソースが楽器の演奏のみ等の楽曲が主であるコンテンツである場合には、スピーカ構成がＬチャンネルスピーカ９及びＲチャンネルスピーカ１１の２台と決定される。さらに、ソースが自然な騒音や台詞と台詞の間、曲間等が主であるコンテンツである場合には、スピーカ構成がＬチャンネルスピーカ９、Ｃチャンネルスピーカ１０及びＲチャンネルスピーカ１１の３台又はＬチャンネルスピーカ９及びＲチャンネルスピーカ１１の２台と決定される。

これにより、再生データ生成部７は、スピーカ構成決定部６の決定結果が（１）の場合、上記Ｌチャンネルの音響音声データ及びＲチャンネルの音響音声データからＣチャンネルスピーカ１０に供給すべきモノラルの音声データを生成し、Ｌチャンネルの音響音声データ、Ｒチャンネルの音響音声データ及びモノラルの音声データをアンプ８に供給する。一方、スピーカ構成決定部６の決定結果が（２）の場合、再生データ生成部７は、上記Ｌチャンネルの音響音声データ及びＲチャンネルの音響音声データの同一成分からＣチャンネルスピーカ１０に供給すべき台詞成分の音声データを抽出し、Ｌチャンネルの音響音声データ、Ｒチャンネルの音響音声データ及び台詞成分の音声データをアンプ８に供給する。

また、再生データ生成部７は、スピーカ構成決定部６の決定結果が（３）及び（４）の場合、上記Ｌチャンネルの音響音声データ及びＲチャンネルの音響音声データをそのままアンプ８に供給し、スピーカ構成決定部６の決定結果が（５）の場合、周波数・時間変換部３から供給されるＬチャンネルの音響音声データ及びＲチャンネルの音響音声データをそのままアンプ８に供給したり、Ｌチャンネルの音響音声データ及びＲチャンネルの音響音声データの同一成分からＣチャンネルスピーカ１０に供給すべき音響音声データを抽出し、Ｌチャンネルの音響音声データ、Ｒチャンネルの音響音声データ及び抽出した音響音声データをアンプ８に供給したりする。

これにより、アンプ８は、上記Ｌチャンネルの音響音声データ、上記Ｒチャンネルの音響音声データ、上記モノラルの音声データあるいは上記台詞成分等の抽出された音声データをアナログの音響音声信号又は音声信号へ変換した後、聴取者の操作に応じて、音質の調整、音量の調整、電力増幅等を行い、Ｌチャンネルスピーカ９、Ｃチャンネルスピーカ１０又はＲチャンネルスピーカ１１に供給する。従って、スピーカ構成決定部６の決定結果が（１）の場合には、例えば、Ｃチャンネルスピーカ１０からニュースを読むアナウンサーの音声が放射される。また、スピーカ構成決定部６の決定結果が（２）の場合には、例えば、Ｌチャンネルスピーカ９及びＲチャンネルスピーカ１１からドラマで使用されている楽音が放射されるとともに、Ｃチャンネルスピーカ１０から俳優の音声が放射される。

また、スピーカ構成決定部６の決定結果が（３）の場合には、例えば、Ｌチャンネルスピーカ９及びＲチャンネルスピーカ１１から楽器の演奏をバックに歌手が歌を歌っている等の楽曲と音声とが放射される。さらに、スピーカ構成決定部６の決定結果が（４）の場合には、例えば、Ｌチャンネルスピーカ９及びＲチャンネルスピーカ１１から楽器の演奏の楽音が放射される。また、スピーカ構成決定部６の決定結果が（５）の場合には、Ｌチャンネルスピーカ９及びＲチャンネルスピーカ１１又は、Ｌチャンネルスピーカ９、Ｃチャンネルスピーカ１０及びＲチャンネルスピーカ１１から自然な騒音等が放射される。

このように、本発明の実施の形態１によれば、圧縮された符号化データからホルマント成分を抽出し、このホルマント成分とホルマント成分を除いた成分とからソースを自動的に判断し、この判断結果に基づいてスピーカ構成を決定している。従って、ソースがニュース、対談又は討論等の音声が主であるコンテンツである場合や、ドラマ等の音声が主であるがテーマ音楽や主題歌等も随時挿入されるコンテンツである場合には、聴取者の聴取範囲を広げることができる。一方、ソースが楽器の演奏をバックに歌手が歌を歌っている等の楽曲と音声とが混在しているコンテンツである場合や、楽器の演奏のみ等の楽曲が主であるコンテンツである場合には、当該コンテンツの制作者（例えば、ミキシングエンジニア）の意図通りにステレオで再生することができる。

また、本発明の実施の形態１によれば、デジタルのＩＭＤＣＴ係数（スペクトルデータ）からホルマント成分を抽出しているため、上記した従来の音響音声再生装置にように、アナログの音響音声信号を、アナログ／デジタル変換及び高速フーリエ変換（ＦＦＴ：Fast Fourier Transform）した後にホルマント成分を抽出する場合と比べて、装置を安価に構成できるとともに、消費電力を大幅に削減することができる。また、ＡＤＣが不要であるため、量子化雑音に起因する音質劣化を防止することができる。

実施の形態２．
上述の実施の形態１においては、ホルマント周波数検出部４によりホルマントを分析し、パワー比加算部５によりパワー比Ｐ_ｏｗ（Ｆ_ｓｕｍ）／Ｐ_ｏｗ（Ｎ_ｓｕｍ）を累積加算する例を示したが、これに限定されない。例えば、ホルマント周波数検出部４及びパワー比加算部５に換えて、一定時間のフレームごとに音響音声信号の音響パワーを算出するパワー算出部と、算出された音響パワー値を予め設定したしきい値と比較してそのフレームの有音無音を判定する有音無音判定部と、フレームごとに音響信号の波形の零交差回数を算出する零交差算出部と、算出された零交差回数を予め設定したしきい値と比較してそのフレームの子音性を判定する子音性判定部と、連続する所定複数フレーム区間におけるパワー値の最大値と最小値を検出し、その差分値を算出する定常性判定部と、複数フレームにおいて無音と判定されたフレームの存在比率と、子音性が高いと判定されたフレームの存在比率と、差分値とがそれぞれに予め設定したしきい値よりもすべて大きい場合にその複数フレーム区間における音響信号は音声と判定し、音声と判定されない場合であって、複数フレームにおいて無音と判定されたフレームの存在比率と、差分値とがそれぞれに予めしきい値以下に設定されたしきい値よりも小さい場合にはその複数フレーム区間の音響信号は非音声と判定し、それ以外を不定と判定し、判定結果を複数フレームごとに出力する音声判定部とを設けても良い。そして、スピーカ構成決定部６は、音声判定部の判定結果に基づいて、スピーカ構成を決定しても良い。この構成によれば、上記した実施の形態１と略同様の効果が得られる。なお、上記パワー算出部、上記有音無音判定部、上記零交差算出部、上記子音性判定部、上記定常性判定部及び上記音声判定部については、例えば、特許第２８３５４８３号公報を参照されたい。

実施の形態３．
上述の実施の形態１においては、ホルマント周波数検出部４、パワー比加算部５、スピーカ構成決定部６及び再生データ生成部７が処理を行うタイミングについては特に言及していないが、そのタイミングは任意で良い。例えば、ソースのコンテンツが切り替わった直後にスピーカ構成決定部６が上記（１）〜（５）の判断を行っても良いし、所定時間経過後に上記判断を行っても良い。また、今まで（３）〜（５）の判断を行っていたが、コンテンツが切り替わることにより（１）及び（２）の判断を行った場合でも、直ちにＣチャンネルスピーカ１０にモノラルの音声データ又は台詞成分の音声データのすべてを供給するように制御するのではなく、Ｃチャンネルスピーカ１０に供給する音声データの割合を時間の経過とともに増加させるように構成しても良い。逆に、今まで（１）又は（２）の判断を行っていたが、コンテンツが切り替わることにより（３）〜（５）の判断を行った場合でも、直ちにＣチャンネルスピーカ１０へのモノラルの音声データ又は台詞成分の音声データの供給を中止するように制御するのではなく、Ｃチャンネルスピーカ１０に供給する音声データの割合を時間の経過とともに減少させるように構成しても良い。このように構成すれば、聴取者に違和感を与えることが少ない。

実施の形態４．
上述の実施の形態１においては、音響音声再生装置をハードウェアで構成した例を示したが、これに限定されない。即ち、上記音響音声再生装置のうち、アンパッキング・逆量子化部１、ブロックサイズ判定部２、周波数・時間変換部３、ホルマント周波数検出部４、パワー比加算部５、スピーカ構成決定部６、再生データ生成部７を、ＣＰＵ（中央処理装置）と、ＲＯＭやＲＡＭ等の内部記憶装置と、ＦＤドライブ、ＨＤドライブ、ＭＯディスクドライブ、ＣＤ／ＤＶＤドライブ等の外部記憶装置と、出力手段と、入力手段とを有するコンピュータによって構成しても良い。そして、ＣＰＵの機能が音響音声再生プログラムとして、ＲＯＭ等の半導体メモリや、ＦＤ、ＨＤやＣＤ−ＲＯＭ等の記憶媒体に記憶されていると構成しても良い。この場合、音響音声再生プログラムは、記憶媒体からＣＰＵに各々読み込まれ、ＣＰＵの動作を制御する。音響音声再生プログラムが起動されると、ＣＰＵは上記アンパッキング・逆量子化部１、上記ブロックサイズ判定部２、上記周波数・時間変換部３、上記ホルマント周波数検出部４、上記パワー比加算部５、上記スピーカ構成決定部６、上記再生データ生成部７として機能し、音響音声再生プログラムの制御により、上記した処理を実行するのである。

以上、本発明の実施の形態について図面を参照して詳述してきたが、具体的な構成はこれらの実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計の変更等があっても本発明に含まれる。
例えば、上述の各実施の形態では、本発明は、ＡＡＣ方式が適用された音響音声再生装置に適用する例を示したが、これに限定されない。本発明は、例えば、ＭＰ３（MPEG Audio Layer-3）方式、ＡＣ−３（Audio Code number 3）方式、あるいはＷＭＡ（Windows Media Audio）（Windowsは登録商標）方式等の音声圧縮符号化技術が適用された音響音声再生装置にも適用することができる。
また、上述の各実施の形態では、符号化デジタルデータを生成するための変換方法としては、ＭＤＣＴを挙げたが、ＤＣＴといった直交変換する変換方法であれば本発明が適用可能である。

また、上述の各実施の形態では、それぞれＬチャンネルスピーカ９、Ｃチャンネルスピーカ１０及びＲチャンネルスピーカ１１を聴取位置に向かって前方左側、前方正面及び前方右側にそれぞれ配置する例を示したが、これに限定されない。例えば、上記３台のスピーカに加えて、低音出力用のサブウーファースピーカーを聴取位置に向かって前方正面に配置しても良い。また、上記４台のスピーカに加えて、それぞれＬチャンネルスピーカ及びＲチャンネルスピーカを聴取位置に向かって後方左側及び後方右側にそれぞれ配置しても良い。

また、上述の各実施の形態では、本発明を地上デジタルテレビジョン放送等のテレビジョン信号を構成する圧縮されたデジタル音響音声データを復号化する場合に適用する例を示したが、これに限定されない。本発明は、例えば、ミニディスク（ＭＤ）、コンパクトディスク（ＣＤ）、ＤＶＤ（Digital Versatile Disk）、ハードディスク（ＨＤ）、あるいはフラッシュメモリなどの半導体メモリ等の記録媒体に記録された圧縮されたデジタル音響音声データを復号化する場合にも適用することができる。

本発明の実施の形態１に係る音響音声再生装置の構成を示すブロック図である。ホルマント判定表の一例を示す図である。

符号の説明

１アンパッキング・逆量子化部
２ブロックサイズ判定部
３周波数・時間変換部
４ホルマント周波数検出部
５パワー比加算部（パワー比又はエネルギ比加算部）
６スピーカ構成決定部
７再生データ生成部
８アンプ
９Ｌチャンネルスピーカ（左チャンネルのスピーカ）
１０Ｃチャンネルスピーカ（センターチャンネルのスピーカ）
１１Ｒチャンネルスピーカ（右チャンネルのスピーカ）

Claims

デジタル音響音声データのスペクトル成分からホルマント成分を抽出し、前記スペクトル成分の前記ホルマント成分のパワー又はエネルギと、前記スペクトル成分から前記ホルマント成分を除いた成分のパワー又はエネルギとのパワー比又はエネルギ比を算出するホルマント周波数検出部と、
前記パワー比又はエネルギ比を累積加算するパワー比又はエネルギ比加算部と、
前記パワー比又はエネルギ比の累積加算値に応じてスピーカ構成を決定するスピーカ構成決定部と
を有することを特徴とする音響音声再生装置。
前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分のみであり、前記ホルマント成分を除いた成分がないことを示す場合には、前記スピーカ構成をセンターチャンネルのスピーカの１台と決定することを特徴とする請求項１記載の音響音声再生装置。
前記スピーカ構成決定部が前記スピーカ構成をセンターチャンネルのスピーカの１台と決定した場合には、前記デジタル音響音声データの時間領域のデータである左チャンネルの音響音声データ及び右チャンネルの音響音声データからモノラルの音声データを生成する再生データ生成部をさらに有することを特徴とする請求項２記載の音響音声再生装置。
前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分と、少ない前記ホルマント成分を除いた成分とからなることを示す場合は、前記スピーカ構成を左チャンネルのスピーカ、前記センターチャンネルのスピーカ及び右チャンネルのスピーカの３台と決定することを特徴とする請求項１乃至３のいずれかに記載の音響音声再生装置。
前記再生データ生成部は、前記スピーカ構成決定部が前記スピーカ構成を前記左チャンネルのスピーカ、前記センターチャンネルのスピーカ及び前記右チャンネルのスピーカの３台と決定した場合には、前記左チャンネルの音響音声データ及び前記右チャンネルの音響音声データの同一成分から台詞成分の音声データを抽出することを特徴とする請求項４記載の音響音声再生装置。
前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分と、多くの前記ホルマント成分を除いた成分とからなることを示す場合又は、多くの前記ホルマント成分を除いた成分のみであり、前記ホルマント成分がないことを示す場合は、前記スピーカ構成を左チャンネルのスピーカ及び右チャンネルのスピーカの２台と決定することを特徴とする請求項１乃至５のいずれかに記載の音響音声再生装置。