JP4750010B2 - 音響音声再生装置 - Google Patents

音響音声再生装置 Download PDF

Info

Publication number
JP4750010B2
JP4750010B2 JP2006352297A JP2006352297A JP4750010B2 JP 4750010 B2 JP4750010 B2 JP 4750010B2 JP 2006352297 A JP2006352297 A JP 2006352297A JP 2006352297 A JP2006352297 A JP 2006352297A JP 4750010 B2 JP4750010 B2 JP 4750010B2
Authority
JP
Japan
Prior art keywords
component
speaker
formant
data
channel
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006352297A
Other languages
English (en)
Other versions
JP2008166976A (ja
Inventor
修 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2006352297A priority Critical patent/JP4750010B2/ja
Publication of JP2008166976A publication Critical patent/JP2008166976A/ja
Application granted granted Critical
Publication of JP4750010B2 publication Critical patent/JP4750010B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Stereophonic System (AREA)

Description

本発明は、符号化されたデジタルデータからコンテンツを分類して原音響音声信号を再生する音響音声再生装置に関する。
従来の音声再生装置には、入力される音声信号の周波数スペクトルによる母音長と、高レベル音の長さと、低レベル音の長さとにより入力信号を検出する検出手段と、この検出手段の検出結果について、予め設定したメンバーシップ関係に基づき入力信号ソースモードをファジィ推論を使って判断する判断手段と、この判断手段の出力により音声出力モードを選択する自動切替手段とを備えているものがある(例えば、特許文献1参照。)。
特開平7−115606号公報(請求項1,[0008]〜[0019]、図1)
上記した従来の音声再生装置では、多数の帯域通過フィルタやアナログ/デジタル変換器(ADC)が必要であるため、装置が高価になるとともに、消費電力が大きいという課題があった。また、ADCを用いているため、量子化雑音に起因して音質の劣化が生じるという課題があった。
本発明は、上述した事情に鑑みてなされたものであり、上述のような課題を解決することができる音響音声再生装置を提供することを目的とする。
上記課題を解決するために、請求項1記載の発明に係る音響音声再生装置は、デジタル音響音声データのスペクトル成分からホルマント成分を抽出し、前記スペクトル成分の前記ホルマント成分のパワー又はエネルギと、前記スペクトル成分から前記ホルマント成分を除いた成分のパワー又はエネルギとのパワー比又はエネルギ比を算出するホルマント周波数検出部と、前記パワー比又はエネルギ比を累積加算するパワー比又はエネルギ比加算部と、前記パワー比又はエネルギ比の累積加算値に応じてスピーカ構成を決定するスピーカ構成決定部とを有することを特徴としている。
また、請求項2記載の発明は、請求項1記載の音響音声再生装置に係り、前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分のみであり、前記ホルマント成分を除いた成分がないことを示す場合には、前記スピーカ構成をセンターチャンネルのスピーカの1台と決定することを特徴としている。
また、請求項3記載の発明は、請求項2記載の音響音声再生装置に係り、前記スピーカ構成決定部が前記スピーカ構成をセンターチャンネルのスピーカの1台と決定した場合には、前記デジタル音響音声データの時間領域のデータである左チャンネルの音響音声データ及び右チャンネルの音響音声データからモノラルの音声データを生成する再生データ生成部をさらに有することを特徴としている。
また、請求項4記載の発明は、請求項1乃至3のいずれかに記載の音響音声再生装置に係り、前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分と、少ない前記ホルマント成分を除いた成分とからなることを示す場合は、前記スピーカ構成を左チャンネルのスピーカ、前記センターチャンネルのスピーカ及び右チャンネルのスピーカの3台と決定することを特徴としている。
また、請求項5記載の発明は、請求項4記載の音響音声再生装置に係り、前記再生データ生成部は、前記スピーカ構成決定部が前記スピーカ構成を前記左チャンネルのスピーカ、前記センターチャンネルのスピーカ及び前記右チャンネルのスピーカの3台と決定した場合には、前記左チャンネルの音響音声データ及び前記右チャンネルの音響音声データの同一成分から台詞成分の音声データを抽出することを特徴としている。
また、請求項6記載の発明は、請求項1乃至5のいずれかに記載の音響音声再生装置に係り、前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分と、多くの前記ホルマント成分を除いた成分とからなることを示す場合又は、多くの前記ホルマント成分を除いた成分のみであり、前記ホルマント成分がないことを示す場合は、前記スピーカ構成を左チャンネルのスピーカ及び右チャンネルのスピーカの2台と決定することを特徴としている。
本発明によれば、ソースのコンテンツが異なっても聴取者が聴きやすい音響音声再生装置を安価に構成できるとともに、消費電力を大幅に削減することができる。また、量子化雑音に起因する音質劣化を防止することができる。
実施の形態1.
図1は、本発明の実施の形態1に係る音響音声再生装置の構成を示すブロック図である。この例の音響音声再生装置は、地上デジタルテレビジョン放送、BSデジタルテレビジョン放送やCSデジタルテレビジョン放送等で採用されている音声圧縮符号化技術の1つであるAAC(Advanced Audio Coding)方式が適用されている。この例の音響音声再生装置は、アンパッキング・逆量子化部1と、ブロックサイズ判定部2と、周波数・時間変換部3と、ホルマント周波数検出部4と、パワー比加算部5と、スピーカ構成決定部6と、再生データ生成部7と、アンプ8と、L(左)チャンネルスピーカ9と、C(センター)チャンネルスピーカ10と、R(右)チャンネルスピーカ11とから構成されている。
アンパッキング・逆量子化部1は、圧縮符号化されたデジタル音響音声データCDAD(ビットストリーム(Bitstream))からヘッダ、スケールファクタ、ブロックサイズ等の符号化データを展開する。また、アンパッキング・逆量子化部1は、展開したヘッダ、スケールファクタ、ブロックサイズ等の符号化データを逆量子化するとともに、これらに基づいて、逆量子化したブロックサイズごとの周波数成分の逆修正離散余弦変換(IMDCT;Inverse Modified Discrete Cosine Transform)係数(スペクトルデータ)を算出する。
ブロックサイズ判定部2は、アンパッキング・逆量子化部1で展開されたブロックサイズに基づいて、1フレームをロングブロック(例えば、2048サンプルブロック)又はショートブロック(例えば、256サンプルブロック)のいずれかで、周波数・時間変換部3に周波数・時間変換処理を行わせるかを判定する。この判定は、例えば、定常音の場合にはロングブロックで周波数・時間変換処理を行うと判定し、過渡音の場合にはショートブロックで周波数・時間変換処理を行うと判定する。
このような判定を行うのは、過渡音をショートブロックで周波数・時間変換処理を行った場合には、経時マスキング効果に起因する量子化誤差の影響を低減することができるからである。ここで、経時マスキング効果とは、複数の音圧レベルの音が時間的に接近して発生している場合、ある大きな音圧レベルの音によって、その直前及び直後に発生した音圧レベルの低い別の音がマスキングされ、人には聴こえない又は聴こえにくくなるという聴感効果をいう。
周波数・時間変換部3は、アンパッキング・逆量子化部1で算出された逆量子化後のスペクトルデータについて、ブロックサイズ判定部2で判定されたブロックサイズごとに、公知のIMDCT処理を施すことにより、対応する時間領域のデータ、即ち、Lチャンネルの音響音声データ及びRチャンネルの音響音声データに直交変換する。
ホルマント周波数検出部4は、アンパッキング・逆量子化部1で算出された逆量子化後のスペクトルデータについて、以下に示す手法によりホルマントを分析する。ここで、ホルマントとは、声道の伝達関数の極と零により音声波の周波数スペクトル上に生じる数個の共振の山をいう。第n番目(nは自然数)のホルマントピーク近傍のスペクトル成分の周波数をf(iは自然数)、各スペクトル成分に対する加重係数をWとした場合、ホルマント周波数Fは、近似的には、式(1)により算出される。
Figure 0004750010

式(1)において、加重係数Wは、各スペクトル成分の振幅Aと、着目される周波数領域内でのスペクトル成分の最大振幅Amaxとの比A/Amaxで与えられる。
従って、ホルマント周波数検出部4は、ホルマントの着目される周波数領域を、例えば、基本周波数Fについて100Hz〜300Hz、ホルマント周波数Fについて250Hz〜1100Hz、ホルマント周波数Fについて800Hz〜3500Hz、ホルマント周波数Fについて1600Hz〜3800Hzとそれぞれ設定し、上記式(1)を用いてホルマント周波数F〜Fを算出する。
次に、ホルマント周波数検出部4は、算出したホルマント周波数F〜Fの値が図2に示すホルマント判定表のいずれかの母音と相関があるか否かを判定し、相関がある場合には母音が存在すると判断し、図2に示すホルマント振幅の重み係数L〜Lを乗算することによりホルマントスペクトルを抽出する。図2は、三浦 種敏監修、勝木 保次外7名著、社団法人電子情報通信学会編著、新版「聴覚と音声」、第7版、社団法人電子情報通信学会、平成6年6月10日、p355に記載されている、バーネイ・ピーターソン(Barney Peterson)氏によって測定された米語母音のホルマントの平均の基本周波数Fと、平均ホルマント周波数F〜Fと、それぞれの平均ホルマント振幅とを示している。この場合、抽出されるホルマントスペクトルの帯域幅は、正弦波のスペクトルデータについてMDCT処理を施した場合に統計的分布より得られるので、予めROMやフラッシュメモリ等の記憶部に保存しておくことが好ましい。
また、抽出したホルマントスペクトル、即ち、ホルマント成分のスペクトルを2乗してホルマント成分のスペクトルパワーを求めるとともに、全帯域のスペクトルを2乗して全帯域のスペクトルパワーを求める。そして、ホルマント成分のスペクトルパワーの総和、即ち、エネルギをPow(Fsum)、さらに全帯域のスペクトルパワーの総和をPow(Ssum)、同様にスペクトル成分からホルマント成分を除いた成分のスペクトルパワーの総和をPow(Nsum)とすると、ホルマント成分を除いた成分のエネルギPow(Nsum)は、式(2)で算出される。
ow(Nsum)=Pow(Ssum)−Pow(Fsum) ・・・(2)
従って、ホルマント周波数検出部4は、ホルマント成分のパワーとホルマント成分を除いた成分のパワー又はエネルギの比Pow(Fsum)/Pow(Nsum)を算出することができる。これ以降、パワー比又はエネルギ比を総称して、「パワー比」と称する。
パワー比加算部5は、内部にRAM等の記憶部を有し、ホルマント周波数検出部4で算出された1フレーム分のパワー比Pow(Fsum)/Pow(Nsum)を、例えば、数十秒間記憶部に保存し、例えば、数十秒間経過した後、パワー比Pow(Fsum)/Pow(Nsum)を累積加算する。
スピーカ構成決定部6は、パワー比加算部5で算出されたパワー比Pow(Fsum)/Pow(Nsum)の累積加算値に応じて、例えば、以下に示すようにスピーカ構成を決定する。
(1)パワー比Pow(Fsum)/Pow(Nsum)の累積加算値が、ソースがホルマント成分のみであり、ホルマント成分を除いた成分がないことを示す場合(例えば、日本語の場合、50%以上)は、ソースがニュース、対談又は討論等の音声が主であるコンテンツであると判断し、スピーカ構成をCチャンネルスピーカ10の1台と決定する。
このように、ソースがニュース、対談又は討論等の音声が主であるコンテンツである場合にスピーカ構成をCチャンネルスピーカ10の1台と決定するのは以下に示す理由による。即ち、音声をCチャンネルスピーカからモノラルで放射した場合には、聴取者がその聴取位置を変更しても違和感なく同じように聴くことができる。これに対し、音声をLチャンネルスピーカ及びRチャンネルスピーカからステレオで放射した場合には、聴取者がその聴取位置を変更した場合、聴取位置によっては違和感を持つ場合がある。
(2)パワー比Pow(Fsum)/Pow(Nsum)の累積加算値が、ソースがホルマント成分と、少ないホルマント成分を除いた成分とからなることを示す場合は、ソースがドラマ等の音声が主であるがテーマ音楽や主題歌等も随時挿入されるコンテンツである判断し、スピーカ構成をLチャンネルスピーカ9、Cチャンネルスピーカ10及びRチャンネルスピーカ11の3台と決定する。なお、ソースが映画の場合には、予めシネマモード(例えば、5.1チャンネル)が設定されているので、このシネマモードに基づいてスピーカ構成を決定すれば良い。
(3)パワー比Pow(Fsum)/Pow(Nsum)の累積加算値が、ソースがホルマント成分と、多くのホルマント成分を除いた成分とからなることを示す場合は、ソースが楽器の演奏をバックに歌手が歌を歌っている等の楽曲と音声とが混在しているコンテンツである判断し、スピーカ構成をLチャンネルスピーカ9及びRチャンネルスピーカ11の2台と決定する。
(4)パワー比Pow(Fsum)/Pow(Nsum)の累積加算値が、ソースが多くのホルマント成分を除いた成分のみであり、ホルマント成分がないことを示す場合は、ソースが楽器の演奏のみ等の楽曲が主であるコンテンツであると判断し、スピーカ構成をLチャンネルスピーカ9及びRチャンネルスピーカ11の2台と決定する。
(5)パワー比Pow(Fsum)/Pow(Nsum)の累積加算値が、ソースが少ないホルマント成分を除いた成分のみであり、ホルマント成分がないことを示す場合は、自然な騒音や台詞と台詞の間、曲間等が主であるコンテンツと判断し、スピーカ構成をLチャンネルスピーカ9、Cチャンネルスピーカ10及びRチャンネルスピーカ11の3台又はLチャンネルスピーカ9及びRチャンネルスピーカ11の2台と決定する。
再生データ生成部7は、スピーカ構成決定部6の決定結果が(1)の場合、周波数・時間変換部3から供給されるLチャンネルの音響音声データ及びRチャンネルの音響音声データからCチャンネルスピーカ10に供給すべきモノラルの音声データを生成し、Lチャンネルの音響音声データ、Rチャンネルの音響音声データ及びモノラルの音声データをアンプ8に供給する。
また、再生データ生成部7は、スピーカ構成決定部6の決定結果が(2)の場合、周波数・時間変換部3から供給されるLチャンネルの音響音声データ及びRチャンネルの音響音声データの同一成分からCチャンネルスピーカ10に供給すべき台詞成分の音声データを抽出し、Lチャンネルの音響音声データ、Rチャンネルの音響音声データ及び台詞成分の音声データをアンプ8に供給する。
なお、台詞成分の音声データの抽出手法については、例えば、ドルビープロロジックII(ドルビーは登録商標)等、通常のLチャンネルの音響音声データ及びRチャンネルの音響音声データを3チャンネル以上のサラウンドサウンドとして拡張する手法を用いても良い。
さらに、再生データ生成部7は、スピーカ構成決定部6の決定結果が(3)及び(4)の場合、周波数・時間変換部3から供給されるLチャンネルの音響音声データ及びRチャンネルの音響音声データをそのままアンプ8に供給する。
また、再生データ生成部7は、スピーカ構成決定部6の決定結果が(5)の場合、周波数・時間変換部3から供給されるLチャンネルの音響音声データ及びRチャンネルの音響音声データをそのままアンプ8に供給したり、Lチャンネルの音響音声データ及びRチャンネルの音響音声データの同一成分からCチャンネルスピーカ10に供給すべき音響音声データを抽出し、Lチャンネルの音響音声データ、Rチャンネルの音響音声データ及び抽出した音響音声データをアンプ8に供給したりする。
アンプ8は、デジタル/アナログ変換器(DAC)、前置増幅器(プリアンプ)、主増幅器(メインアンプ)等からなり、Lチャンネルの音響音声データ、Rチャンネルの音響音声データ、モノラルの音声データあるいは台詞成分等の抽出された音声データのアナログの音響音声信号又は音声信号への変換、音質の調整、音量の調整、電力増幅等を行う。
Lチャンネルスピーカ9、Cチャンネルスピーカ10及びRチャンネルスピーカ11は、いずれも全音域を出力可能なスピーカであり、例えば、居間等において聴取者の聴取位置に向かって前方左側、前方正面、前方右側にそれぞれ配置され、アンプ8から供給されるアナログの音響音声信号等に基づいて楽音又は音声を放射する。
次に、上記構成の音響音声再生装置の動作について説明する。アンパッキング・逆量子化部1は、外部から供給されたデジタル音響音声データCDADから符号化データを展開した後、展開した符号化データを逆量子化するとともに、これらに基づいて、逆量子化したブロックサイズごとの周波数成分のスペクトルデータを算出する。
これにより、ブロックサイズ判定部2は、上記展開されたブロックサイズに基づいて、1フレームをロングブロック又はショートブロックのいずれかで、周波数・時間変換部3に周波数・時間変換処理を行わせるかを判定する。次に、周波数・時間変換部3は、上記逆量子化後のスペクトルデータについて、ブロックサイズ判定部2で判定されたブロックサイズごとに、公知のIMDCT処理を施すことにより、Lチャンネルの音響音声データ及びRチャンネルの音響音声データに直交変換する。
一方、ホルマント周波数検出部4は、アンパッキング・逆量子化部1で算出された逆量子化後のスペクトルデータについて、上記式(1)を用いてホルマント周波数F〜Fを算出した後、算出したホルマント周波数F〜Fの値が図2に示すホルマント判定表のいずれかの母音と相関があるか否かを判定し、相関がある場合には母音が存在すると判断し、図2に示すホルマント振幅の重み係数L〜Lを乗算することによりホルマントスペクトルを抽出する。次に、ホルマント周波数検出部4は、抽出したホルマントスペクトルに基づいて、ホルマント成分のパワーとホルマント成分を除いた成分のパワー比Pow(Fsum)/Pow(Nsum)を算出する。
これにより、パワー比加算部5は、上記1フレーム分のパワー比Pow(Fsum)/Pow(Nsum)を数十秒間記憶部に保存し、数十秒間経過した後、パワー比Pow(Fsum)/Pow(Nsum)を累積加算する。次に、スピーカ構成決定部6は、上記パワー比Pow(Fsum)/Pow(Nsum)の累積加算値に応じて、上記(1)〜(5)に示すようにスピーカ構成を決定する。例えば、ソースがニュース、対談又は討論等の音声が主であるコンテンツである場合にはスピーカ構成がCチャンネルスピーカ10の1台と決定され、ソースがドラマ等の音声が主であるがテーマ音楽や主題歌等も随時挿入されるコンテンツである場合には、スピーカ構成がLチャンネルスピーカ9、Cチャンネルスピーカ10及びRチャンネルスピーカ11の3台と決定される。
一方、ソースが楽器の演奏をバックに歌手が歌を歌っている等の楽曲と音声とが混在しているコンテンツである場合には、スピーカ構成がLチャンネルスピーカ9及びRチャンネルスピーカ11の2台と決定され、ソースが楽器の演奏のみ等の楽曲が主であるコンテンツである場合には、スピーカ構成がLチャンネルスピーカ9及びRチャンネルスピーカ11の2台と決定される。さらに、ソースが自然な騒音や台詞と台詞の間、曲間等が主であるコンテンツである場合には、スピーカ構成がLチャンネルスピーカ9、Cチャンネルスピーカ10及びRチャンネルスピーカ11の3台又はLチャンネルスピーカ9及びRチャンネルスピーカ11の2台と決定される。
これにより、再生データ生成部7は、スピーカ構成決定部6の決定結果が(1)の場合、上記Lチャンネルの音響音声データ及びRチャンネルの音響音声データからCチャンネルスピーカ10に供給すべきモノラルの音声データを生成し、Lチャンネルの音響音声データ、Rチャンネルの音響音声データ及びモノラルの音声データをアンプ8に供給する。一方、スピーカ構成決定部6の決定結果が(2)の場合、再生データ生成部7は、上記Lチャンネルの音響音声データ及びRチャンネルの音響音声データの同一成分からCチャンネルスピーカ10に供給すべき台詞成分の音声データを抽出し、Lチャンネルの音響音声データ、Rチャンネルの音響音声データ及び台詞成分の音声データをアンプ8に供給する。
また、再生データ生成部7は、スピーカ構成決定部6の決定結果が(3)及び(4)の場合、上記Lチャンネルの音響音声データ及びRチャンネルの音響音声データをそのままアンプ8に供給し、スピーカ構成決定部6の決定結果が(5)の場合、周波数・時間変換部3から供給されるLチャンネルの音響音声データ及びRチャンネルの音響音声データをそのままアンプ8に供給したり、Lチャンネルの音響音声データ及びRチャンネルの音響音声データの同一成分からCチャンネルスピーカ10に供給すべき音響音声データを抽出し、Lチャンネルの音響音声データ、Rチャンネルの音響音声データ及び抽出した音響音声データをアンプ8に供給したりする。
これにより、アンプ8は、上記Lチャンネルの音響音声データ、上記Rチャンネルの音響音声データ、上記モノラルの音声データあるいは上記台詞成分等の抽出された音声データをアナログの音響音声信号又は音声信号へ変換した後、聴取者の操作に応じて、音質の調整、音量の調整、電力増幅等を行い、Lチャンネルスピーカ9、Cチャンネルスピーカ10又はRチャンネルスピーカ11に供給する。従って、スピーカ構成決定部6の決定結果が(1)の場合には、例えば、Cチャンネルスピーカ10からニュースを読むアナウンサーの音声が放射される。また、スピーカ構成決定部6の決定結果が(2)の場合には、例えば、Lチャンネルスピーカ9及びRチャンネルスピーカ11からドラマで使用されている楽音が放射されるとともに、Cチャンネルスピーカ10から俳優の音声が放射される。
また、スピーカ構成決定部6の決定結果が(3)の場合には、例えば、Lチャンネルスピーカ9及びRチャンネルスピーカ11から楽器の演奏をバックに歌手が歌を歌っている等の楽曲と音声とが放射される。さらに、スピーカ構成決定部6の決定結果が(4)の場合には、例えば、Lチャンネルスピーカ9及びRチャンネルスピーカ11から楽器の演奏の楽音が放射される。また、スピーカ構成決定部6の決定結果が(5)の場合には、Lチャンネルスピーカ9及びRチャンネルスピーカ11又は、Lチャンネルスピーカ9、Cチャンネルスピーカ10及びRチャンネルスピーカ11から自然な騒音等が放射される。
このように、本発明の実施の形態1によれば、圧縮された符号化データからホルマント成分を抽出し、このホルマント成分とホルマント成分を除いた成分とからソースを自動的に判断し、この判断結果に基づいてスピーカ構成を決定している。従って、ソースがニュース、対談又は討論等の音声が主であるコンテンツである場合や、ドラマ等の音声が主であるがテーマ音楽や主題歌等も随時挿入されるコンテンツである場合には、聴取者の聴取範囲を広げることができる。一方、ソースが楽器の演奏をバックに歌手が歌を歌っている等の楽曲と音声とが混在しているコンテンツである場合や、楽器の演奏のみ等の楽曲が主であるコンテンツである場合には、当該コンテンツの制作者(例えば、ミキシングエンジニア)の意図通りにステレオで再生することができる。
また、本発明の実施の形態1によれば、デジタルのIMDCT係数(スペクトルデータ)からホルマント成分を抽出しているため、上記した従来の音響音声再生装置にように、アナログの音響音声信号を、アナログ/デジタル変換及び高速フーリエ変換(FFT:Fast Fourier Transform)した後にホルマント成分を抽出する場合と比べて、装置を安価に構成できるとともに、消費電力を大幅に削減することができる。また、ADCが不要であるため、量子化雑音に起因する音質劣化を防止することができる。
実施の形態2.
上述の実施の形態1においては、ホルマント周波数検出部4によりホルマントを分析し、パワー比加算部5によりパワー比Pow(Fsum)/Pow(Nsum)を累積加算する例を示したが、これに限定されない。例えば、ホルマント周波数検出部4及びパワー比加算部5に換えて、一定時間のフレームごとに音響音声信号の音響パワーを算出するパワー算出部と、算出された音響パワー値を予め設定したしきい値と比較してそのフレームの有音無音を判定する有音無音判定部と、フレームごとに音響信号の波形の零交差回数を算出する零交差算出部と、算出された零交差回数を予め設定したしきい値と比較してそのフレームの子音性を判定する子音性判定部と、連続する所定複数フレーム区間におけるパワー値の最大値と最小値を検出し、その差分値を算出する定常性判定部と、複数フレームにおいて無音と判定されたフレームの存在比率と、子音性が高いと判定されたフレームの存在比率と、差分値とがそれぞれに予め設定したしきい値よりもすべて大きい場合にその複数フレーム区間における音響信号は音声と判定し、音声と判定されない場合であって、複数フレームにおいて無音と判定されたフレームの存在比率と、差分値とがそれぞれに予めしきい値以下に設定されたしきい値よりも小さい場合にはその複数フレーム区間の音響信号は非音声と判定し、それ以外を不定と判定し、判定結果を複数フレームごとに出力する音声判定部とを設けても良い。そして、スピーカ構成決定部6は、音声判定部の判定結果に基づいて、スピーカ構成を決定しても良い。この構成によれば、上記した実施の形態1と略同様の効果が得られる。なお、上記パワー算出部、上記有音無音判定部、上記零交差算出部、上記子音性判定部、上記定常性判定部及び上記音声判定部については、例えば、特許第2835483号公報を参照されたい。
実施の形態3.
上述の実施の形態1においては、ホルマント周波数検出部4、パワー比加算部5、スピーカ構成決定部6及び再生データ生成部7が処理を行うタイミングについては特に言及していないが、そのタイミングは任意で良い。例えば、ソースのコンテンツが切り替わった直後にスピーカ構成決定部6が上記(1)〜(5)の判断を行っても良いし、所定時間経過後に上記判断を行っても良い。また、今まで(3)〜(5)の判断を行っていたが、コンテンツが切り替わることにより(1)及び(2)の判断を行った場合でも、直ちにCチャンネルスピーカ10にモノラルの音声データ又は台詞成分の音声データのすべてを供給するように制御するのではなく、Cチャンネルスピーカ10に供給する音声データの割合を時間の経過とともに増加させるように構成しても良い。逆に、今まで(1)又は(2)の判断を行っていたが、コンテンツが切り替わることにより(3)〜(5)の判断を行った場合でも、直ちにCチャンネルスピーカ10へのモノラルの音声データ又は台詞成分の音声データの供給を中止するように制御するのではなく、Cチャンネルスピーカ10に供給する音声データの割合を時間の経過とともに減少させるように構成しても良い。このように構成すれば、聴取者に違和感を与えることが少ない。
実施の形態4.
上述の実施の形態1においては、音響音声再生装置をハードウェアで構成した例を示したが、これに限定されない。即ち、上記音響音声再生装置のうち、アンパッキング・逆量子化部1、ブロックサイズ判定部2、周波数・時間変換部3、ホルマント周波数検出部4、パワー比加算部5、スピーカ構成決定部6、再生データ生成部7を、CPU(中央処理装置)と、ROMやRAM等の内部記憶装置と、FDドライブ、HDドライブ、MOディスクドライブ、CD/DVDドライブ等の外部記憶装置と、出力手段と、入力手段とを有するコンピュータによって構成しても良い。そして、CPUの機能が音響音声再生プログラムとして、ROM等の半導体メモリや、FD、HDやCD−ROM等の記憶媒体に記憶されていると構成しても良い。この場合、音響音声再生プログラムは、記憶媒体からCPUに各々読み込まれ、CPUの動作を制御する。音響音声再生プログラムが起動されると、CPUは上記アンパッキング・逆量子化部1、上記ブロックサイズ判定部2、上記周波数・時間変換部3、上記ホルマント周波数検出部4、上記パワー比加算部5、上記スピーカ構成決定部6、上記再生データ生成部7として機能し、音響音声再生プログラムの制御により、上記した処理を実行するのである。
以上、本発明の実施の形態について図面を参照して詳述してきたが、具体的な構成はこれらの実施の形態に限られるものではなく、本発明の要旨を逸脱しない範囲の設計の変更等があっても本発明に含まれる。
例えば、上述の各実施の形態では、本発明は、AAC方式が適用された音響音声再生装置に適用する例を示したが、これに限定されない。本発明は、例えば、MP3(MPEG Audio Layer-3)方式、AC−3(Audio Code number 3)方式、あるいはWMA(Windows Media Audio)(Windowsは登録商標)方式等の音声圧縮符号化技術が適用された音響音声再生装置にも適用することができる。
また、上述の各実施の形態では、符号化デジタルデータを生成するための変換方法としては、MDCTを挙げたが、DCTといった直交変換する変換方法であれば本発明が適用可能である。
また、上述の各実施の形態では、それぞれLチャンネルスピーカ9、Cチャンネルスピーカ10及びRチャンネルスピーカ11を聴取位置に向かって前方左側、前方正面及び前方右側にそれぞれ配置する例を示したが、これに限定されない。例えば、上記3台のスピーカに加えて、低音出力用のサブウーファースピーカーを聴取位置に向かって前方正面に配置しても良い。また、上記4台のスピーカに加えて、それぞれLチャンネルスピーカ及びRチャンネルスピーカを聴取位置に向かって後方左側及び後方右側にそれぞれ配置しても良い。
また、上述の各実施の形態では、本発明を地上デジタルテレビジョン放送等のテレビジョン信号を構成する圧縮されたデジタル音響音声データを復号化する場合に適用する例を示したが、これに限定されない。本発明は、例えば、ミニディスク(MD)、コンパクトディスク(CD)、DVD(Digital Versatile Disk)、ハードディスク(HD)、あるいはフラッシュメモリなどの半導体メモリ等の記録媒体に記録された圧縮されたデジタル音響音声データを復号化する場合にも適用することができる。
本発明の実施の形態1に係る音響音声再生装置の構成を示すブロック図である。 ホルマント判定表の一例を示す図である。
符号の説明
1 アンパッキング・逆量子化部
2 ブロックサイズ判定部
3 周波数・時間変換部
4 ホルマント周波数検出部
5 パワー比加算部(パワー比又はエネルギ比加算部)
6 スピーカ構成決定部
7 再生データ生成部
8 アンプ
9 Lチャンネルスピーカ(左チャンネルのスピーカ)
10 Cチャンネルスピーカ(センターチャンネルのスピーカ)
11 Rチャンネルスピーカ(右チャンネルのスピーカ)

Claims (6)

  1. デジタル音響音声データのスペクトル成分からホルマント成分を抽出し、前記スペクトル成分の前記ホルマント成分のパワー又はエネルギと、前記スペクトル成分から前記ホルマント成分を除いた成分のパワー又はエネルギとのパワー比又はエネルギ比を算出するホルマント周波数検出部と、
    前記パワー比又はエネルギ比を累積加算するパワー比又はエネルギ比加算部と、
    前記パワー比又はエネルギ比の累積加算値に応じてスピーカ構成を決定するスピーカ構成決定部と
    を有することを特徴とする音響音声再生装置。
  2. 前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分のみであり、前記ホルマント成分を除いた成分がないことを示す場合には、前記スピーカ構成をセンターチャンネルのスピーカの1台と決定することを特徴とする請求項1記載の音響音声再生装置。
  3. 前記スピーカ構成決定部が前記スピーカ構成をセンターチャンネルのスピーカの1台と決定した場合には、前記デジタル音響音声データの時間領域のデータである左チャンネルの音響音声データ及び右チャンネルの音響音声データからモノラルの音声データを生成する再生データ生成部をさらに有することを特徴とする請求項2記載の音響音声再生装置。
  4. 前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分と、少ない前記ホルマント成分を除いた成分とからなることを示す場合は、前記スピーカ構成を左チャンネルのスピーカ、前記センターチャンネルのスピーカ及び右チャンネルのスピーカの3台と決定することを特徴とする請求項1乃至3のいずれかに記載の音響音声再生装置。
  5. 前記再生データ生成部は、前記スピーカ構成決定部が前記スピーカ構成を前記左チャンネルのスピーカ、前記センターチャンネルのスピーカ及び前記右チャンネルのスピーカの3台と決定した場合には、前記左チャンネルの音響音声データ及び前記右チャンネルの音響音声データの同一成分から台詞成分の音声データを抽出することを特徴とする請求項4記載の音響音声再生装置。
  6. 前記スピーカ構成決定部は、前記パワー比又はエネルギ比の累積加算値が、前記ホルマント成分と、多くの前記ホルマント成分を除いた成分とからなることを示す場合又は、多くの前記ホルマント成分を除いた成分のみであり、前記ホルマント成分がないことを示す場合は、前記スピーカ構成を左チャンネルのスピーカ及び右チャンネルのスピーカの2台と決定することを特徴とする請求項1乃至5のいずれかに記載の音響音声再生装置。
JP2006352297A 2006-12-27 2006-12-27 音響音声再生装置 Expired - Fee Related JP4750010B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006352297A JP4750010B2 (ja) 2006-12-27 2006-12-27 音響音声再生装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006352297A JP4750010B2 (ja) 2006-12-27 2006-12-27 音響音声再生装置

Publications (2)

Publication Number Publication Date
JP2008166976A JP2008166976A (ja) 2008-07-17
JP4750010B2 true JP4750010B2 (ja) 2011-08-17

Family

ID=39695852

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006352297A Expired - Fee Related JP4750010B2 (ja) 2006-12-27 2006-12-27 音響音声再生装置

Country Status (1)

Country Link
JP (1) JP4750010B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011250311A (ja) 2010-05-28 2011-12-08 Panasonic Corp 聴覚ディスプレイ装置及び方法

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03236691A (ja) * 1990-02-14 1991-10-22 Hitachi Ltd テレビジョン受信機用音声回路
JPH03285500A (ja) * 1990-03-31 1991-12-16 Mazda Motor Corp 音響装置
JPH04249484A (ja) * 1991-02-06 1992-09-04 Hitachi Ltd テレビジョン受信機用音声回路
JPH0560100U (ja) * 1992-01-27 1993-08-06 クラリオン株式会社 音響再生装置
DE69423922T2 (de) * 1993-01-27 2000-10-05 Koninkl Philips Electronics Nv Tonsignalverarbeitungsanordnung zur Ableitung eines Mittelkanalsignals und audiovisuelles Wiedergabesystem mit solcher Verarbeitungsanordnung
JPH07115606A (ja) * 1993-10-19 1995-05-02 Sharp Corp 音声モード自動切替装置
JP3331297B2 (ja) * 1997-01-23 2002-10-07 株式会社東芝 背景音/音声分類方法及び装置並びに音声符号化方法及び装置
JP2002095095A (ja) * 2000-09-13 2002-03-29 Toshiba Corp 音量制御装置
JP4243829B2 (ja) * 2002-09-27 2009-03-25 日本電気株式会社 ブロードバンド信号検出方法及び装置
JP2006254187A (ja) * 2005-03-11 2006-09-21 Yamaha Corp 音場判定方法及び音場判定装置

Also Published As

Publication number Publication date
JP2008166976A (ja) 2008-07-17

Similar Documents

Publication Publication Date Title
US9837086B2 (en) Encoded audio extended metadata-based dynamic range control
JP6026678B2 (ja) 高度なスペクトラム拡張を使用して量子化ノイズを低減するための圧縮伸張装置および方法
US20050157884A1 (en) Audio encoding apparatus and frame region allocation circuit for audio encoding apparatus
CN101421779B (zh) 用于产生环境信号的设备和方法
US10861475B2 (en) Signal-dependent companding system and method to reduce quantization noise
JP2017187790A (ja) オーディオ信号符号化方法および装置
JP2011501225A (ja) スペクトル傾斜で制御されたフレーミングを使用して帯域拡張データを計算するための装置及び方法
WO2006003813A1 (ja) オーディオ符号化及び復号化装置
JP4750010B2 (ja) 音響音声再生装置
US11830507B2 (en) Coding dense transient events with companding
JP2005114813A (ja) オーディオ信号再生装置及び再生方法
JP2003280691A (ja) 音声処理方法および音声処理装置
JP2008028574A (ja) オーディオ処理装置、オーディオ処理方法、プログラム、および集積回路
US20230162743A1 (en) Audio watermark to indicate post-processing
KR101567665B1 (ko) 퍼스널 오디오 스튜디오 시스템
KR101536855B1 (ko) 레지듀얼 코딩을 이용하는 인코딩 장치 및 방법
JP2000151414A (ja) ディジタルオーディオ符号化装置、同符号化方法、及び同符号化プログラムを記録した記録媒体
JP2005003835A (ja) オーディオ信号符号化装置、オーディオ信号符号化方法、及びプログラム
Stanković et al. Digital Audio
JP2011081316A (ja) 音量制御装置及び電子機器
Wittenburg Effects of Compression on Linguistically Relevant Speech Analysis Parameters

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20090218

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110406

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110510

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110518

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140527

Year of fee payment: 3

LAPS Cancellation because of no payment of annual fees