JP5650227B2 - 音声信号処理装置及び音声信号処理方法 - Google Patents

音声信号処理装置及び音声信号処理方法 Download PDF

Info

Publication number
JP5650227B2
JP5650227B2 JP2012530521A JP2012530521A JP5650227B2 JP 5650227 B2 JP5650227 B2 JP 5650227B2 JP 2012530521 A JP2012530521 A JP 2012530521A JP 2012530521 A JP2012530521 A JP 2012530521A JP 5650227 B2 JP5650227 B2 JP 5650227B2
Authority
JP
Japan
Prior art keywords
frame
additional data
audio signal
data
change
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012530521A
Other languages
English (en)
Other versions
JPWO2012026092A1 (ja
Inventor
宮阪 修二
修二 宮阪
理史 新崎
理史 新崎
伸 赤松
伸 赤松
山田 周平
周平 山田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2012530521A priority Critical patent/JP5650227B2/ja
Publication of JPWO2012026092A1 publication Critical patent/JPWO2012026092A1/ja
Application granted granted Critical
Publication of JP5650227B2 publication Critical patent/JP5650227B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3089Control of digital or coded signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Stereophonic System (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声信号が符号化されたビットストリームを処理する音声信号処理装置及び音声信号処理方法に関する。特に、本発明は、ビットストリームをデコードし、デコードがされた後における信号を、その信号へとデコードされたビットストリームに含まれる付加データを用いて加工する音声信号処理装置及び音声信号処理方法に関する。
従来、音声信号を圧縮符号化することで生成されたビットストリームをデコードすることで、デコード信号を生成し、生成したデコード信号に、所定の処理を行う音声信号処理装置が知られている。
例えば、デコード信号を可聴信号として出力する音声信号再生装置、及び、デコード信号を、そのデコード信号が符号化された符号化方式とは異なる符号化方式に従って再符号化して、再符号化後の信号を生成するトランスコード装置などが知られている。
従来の音声信号処理装置は、ビットストリームが、音量の大きい部分を圧縮するためのDRC(Dynamic Range Control)データを、フレーム単位で含んでいる場合、含まれているDRCデータを用いて、デコード信号の振幅を調整している。
例えば、特許文献1には、音声信号のチャンネル数に応じて、DRCデータを用いた処理(DRC機能)のオン/オフを切り替えて符号化する技術が開示されている。例えば、5.1chの音声信号に対しては、DRC機能をオンにすることで、デコード信号の振幅を抑制し、2chの音声信号に対しては、DRC機能をオフにすることで、デコード信号の振幅を抑制しない。これにより、音声信号のチャンネルの切り替わり部分において、急激な音量の変化が生じてしまうのを防止することができる。
また、非特許文献1には、連続する2つのフレームの間で、DRCデータが変化した場合に、DRCデータのスムージングを行う技術が開示されている。DRCデータをスムージングすることにより、急激な音量の変化を防止することができる。
特開2010−114803号公報
ISO/IEC 14496−3
しかしながら、上記従来技術では、入力されるビットストリームによっては、本来、小さな振幅に圧縮されるべきデコード信号が、大きな振幅のまま出力される場合があるという課題がある。大きな振幅の部分(例えば、図8における、第4フレームでの部分9aなどを参照)は、聞き手に違和感を与えるので、従来技術によれば、主観的な音質が劣化するという課題がある。
そこで、本発明は、主観的な音質の劣化(図4の不適切な振幅6Bhの音声信号5Bhを参照)を抑制して、音質を高くすることができる音声信号処理装置及び音声信号処理方法を提供することを目的とする。
上記目的を達成するために、本発明の一態様に係る音声信号処理装置は、音声信号がフレーム単位で符号化されたビットストリームを処理する音声信号処理装置であって、前記ビットストリームは、フレーム毎に、符号化された音声信号を示す符号化データと、前記符号化データをデコードすることで生成されるデコード信号の振幅に関する付加データ(DRCデータなど)と、前記符号化データの性質を示す属性情報(ステレオ放送でのデータか、マルチチャンネル放送でのデータかを示す情報など)とを含み、前記音声信号処理装置は、対象フレームの符号化データをデコードすることで、前記デコード信号を生成するデコード部と、前記デコード部によって生成された前記デコード信号を加工する加工部と、前記対象フレーム(第1の期間のフレーム)と、当該対象フレームに連続する隣接フレーム(第2の期間のフレーム)との間で、前記属性情報が変化したか否かを検出する検出部と、前記対象フレームの付加データを含む少なくとも2個の前記付加データを蓄積するための蓄積部とを備え、前記加工部は、前記検出部によって変化が検出されなかった場合(図5の期間7Aを参照)、前記蓄積部に蓄積された少なくとも2個の前記付加データを用いて(第2の期間での付加データも用いて)、前記対象フレームの前記デコード信号を加工し(第2の期間の付加データから決定される振幅の信号へと加工し)、前記検出部によって変化が検出された場合、前記蓄積部に蓄積された付加データのうち、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみを用いて(第2の期間での付加データを用いずに)、前記対象フレームの前記デコード信号を加工する。
本構成によれば、属性情報の変化が検出された場合には、変化が検出される前の付加データ、及び、変化が検出された後の付加データのいずれか一方のみを用いて(第2の期間での付加データを用いずに)、対象フレームのデコード信号を加工する。すなわち、変化が検出された時点を跨ぐようには、付加データを用いない。すなわち、音声信号の性質が大きく異なったフレームの付加データ(第1の期間での第1の属性情報とは異なる第2の属性情報の第2の期間での付加データ)を利用しない。このため、加工により生成される、第1の期間での、加工後の信号における、主観的な音質の劣化を抑制することができる。例えば、本来、小さな振幅に圧縮されるべきデコード信号の振幅を、大振幅(図4の振幅6Bhを参照)に加工して、不適切な振幅に加工してしまうことなどを防止することができる。つまり、加工後における振幅が、適切な振幅(図5の振幅6Biを参照)にされて、音質が高くできる。
また、前記隣接フレームは、前記対象フレームの直前のフレームであり、前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの2つの付加データを蓄積し、前記加工部は、前記検出部によって変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、前記検出部によって変化が検出された場合、前記対象フレームの付加データを含む、変化が検出された後の少なくとも1個の付加データを用いて、前記対象フレームの前記デコード信号を加工してもよい。
本構成によれば、変化が検出された後の少なくとも1個の付加データを利用し、変化が検出される前の性質の異なるフレームの付加データを利用しない。つまり、対象フレームと性質が同じフレームの付加データを利用し、性質が異なるフレームの付加データを利用しないので、主観的な音質の劣化を抑制することができる。
また、前記隣接フレームは、前記対象フレームの直後のフレームであり、前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの2つの付加データを蓄積し、前記加工部は、前記検出部によって、変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、前記検出部によって、変化が検出された場合、前記対象フレームの付加データを含む、変化が検出される前の少なくとも1個の付加データを用いて、前記対象フレームの前記デコード信号を加工してもよい。
本構成によれば、変化が検出される前の少なくとも1個の付加データを利用し、変化が検出された後の性質の異なるフレームの付加データを利用しない。つまり、対象フレームと性質が同じフレームの付加データを利用し、性質が異なるフレームの付加データを利用しないので、主観的な音質の劣化を抑制することができる。
また、前記付加データは、前記デコード信号の振幅を調整するためのDRCデータであり、前記加工部は、前記DRCデータに基づいて、前記対象フレームの前記デコード信号の振幅を増減させてもよい。
本構成によれば、DRCデータを用いてデコード信号の振幅を調整するので、出力される音声信号の音量を容易に調整することができる。
また、前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出してもよい。
本構成によれば、チャンネル数が同じであるか異なっているかを判定することで、フレームの性質が大きく異なったか否かを容易に判断することができる。つまり、対象フレームと隣接フレームとの間でチャンネル数が異なっている場合には、音声コンテンツが異なっていると考えられる。したがって、音声コンテンツが異なるフレームの付加データを対象フレームに適用しないので、主観的な音質の劣化を抑制することができる。
また、前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出してもよい。
本構成によれば、付加データの有無を判定することで、フレームの性質が大きく異なったか否かを容易に判断することができる。つまり、対象フレームと隣接フレームとの間で付加データの有無が異なっている場合には、音声コンテンツが異なっていると考えられる。したがって、音声コンテンツが異なるフレームの付加データを対象フレームに適用しないので、主観的な音質の劣化を抑制することができる。
また、前記加工部は、前記ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、前記デコード信号を再符号化し、前記検出部によって、変化が検出されなかった場合、前記蓄積部に蓄積された、少なくとも2個の付加データを用いて、再符号化後のフレームに対応する付加データを生成し、前記検出部によって、変化が検出された場合、前記蓄積部に蓄積された各付加データのうち、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみを用いて、再符号化後のフレームに対応する付加データを生成してもよい。
本構成によれば、デコード信号を異なるフレーム長のフレーム単位で再符号化する際に、適切な付加データを生成することができる。例えば、本来であれば、小振幅用の付加データが多重化されるべきフレームに、大振幅用の付加データが多重化されて、主観的な音質が劣化してしまうことを防止することができる。
また、前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出し、前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の2つのフレーム間の境目とが一致していない場合、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方として、チャンネル数が多い方の付加データを用いて、再符号化後のフレームに対応する付加データを生成してもよい。
本構成によれば、対象フレームと隣接フレームとの境目、すなわち、属性情報の変化の検出された時点(変化点)と、再符号化後のフレームの境目とが一致していない場合に、チャンネル数の多い方のフレームの付加データを利用して再符号化後のフレームに対応する付加データを生成する。変化点と再符号化後のフレームの境目とが一致していない場合は、性質が異なる複数のフレームが、1つのフレームとして再符号化される。このときに、チャンネル数の多い方のフレームの付加データを利用することで、小振幅用の付加データを再符号化後のフレームの付加データとして多重化することができる。
また、前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出し、前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の2つのフレーム間の境目とが一致していない場合、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方として、付加データが存在する方の付加データを用いて、再符号化後のフレームに対応する付加データを生成してもよい。
本構成によれば、変化点と再符号化後のフレームの境目とが一致していない場合に、存在する付加データを利用して再符号化後のフレームに対応する付加データを生成する。変化点と再符号化後のフレームの境目とが一致していない場合は、性質が異なる複数のフレームが、1つのフレームとして再符号化される。このときに、存在する付加データを利用することで、小振幅用の付加データを再符号化後のフレームの付加データとして多重化することができる。
また、前記付加データは、前記デコード信号の振幅を調整するためのDRCデータであり、前記加工部は、前記DRCデータに基づいて、再符号化後のフレームをデコードすることで生成される再デコード信号の振幅を調整するためのDRCデータを生成してもよい。
本構成によれば、DRCデータを再符号化後のフレームに多重化するので、再符号化後のフレームをさらにデコードした場合に、出力される音声信号の音量を容易に調整することができる。
なお、本発明は、音声信号処理装置として実現できるだけではなく、当該音声信号処理装置を構成する処理手段をステップとする方法として実現することもできる。
以上のように、本発明に係る音声信号処理装置及び音声信号処理方法によれば、主観的な音質の劣化(図4の不適切な振幅6Bhの音声信号5Bhを参照)を抑制して、音質を高くすることができる。
図1は、本発明の実施の形態1に係る音声信号処理装置の構成の一例を示すブロック図である。 図2は、本発明の実施の形態1に係る音声信号処理装置に入力されるビットストリームの構造の一例を示す図である。 図3は、本発明の実施の形態1に係る付加データを用いた音量の調整処理の一例を説明するための図である。 図4は、本発明の実施の形態1に係る音声信号処理装置が解決する課題を説明するための図である。 図5は、本発明の実施の形態1に係る音声信号処理装置の動作及び効果を説明するための図である。 図6は、本発明の実施の形態1に係る音声信号処理装置の動作の一例を示すフローチャートである。 図7は、本発明の実施の形態2に係る音声信号処理装置の構成の一例を示すブロック図である。 図8は、本発明の実施の形態2に係る音声信号処理装置が解決する課題を説明するための図である。 図9は、本発明の実施の形態2に係る音声信号処理装置の動作及び効果を説明するための図である。 図10は、本発明の実施の形態2に係る音声信号処理装置の動作の一例を示すフローチャートである。
以下、本発明に係る音声信号処理装置及び音声信号処理方法の実施の形態について、図面を参照しながら詳細に説明する。
(実施の形態1)
本発明の実施の形態1に係る音声信号処理装置(音声信号処理装置100)は、対象フレーム(例えば、図4、図5の第1の期間7Aa)の符号化データ(図1の符号化データ100fを参照)をデコードすることで、デコード信号(図5の第1の音声信号3Aa)を生成するデコード部(デコード部110)と、生成されたデコード信号(第1の音声信号3Aa)を加工する加工部(加工部140)と、対象フレーム(第1の期間7Aa、7Ba))と、隣接フレーム(近傍の第2の期間7Ab、7Bb)との間で、属性情報(音声信号の種類、例えば、図5等の例での、マルチチャンネル放送の音声信号であるか、ステレオ放送の音声信号であるかなど)が変化したか否かを検出する検出部(検出部120)と、対象フレーム(第1の期間7Aa、7Ba)の付加データを含む少なくとも2個以上の付加データ(対象フレームのDRCデータ4Aa、4Ba、隣接フレームのDRCデータ4A、4B)を蓄積するための蓄積部(蓄積部130)とを備える。そして、加工部は、検出部によって、変化が検出されなかった場合(期間7Aの場合)、蓄積部に蓄積された、近傍の第2の期間7AbのDRCデータ4Aを含む、少なくとも2個の付加データを用いて、対象フレーム(第1の期間7Aa)のデコード信号(第1の音声信号3Aa)を加工し、検出部によって変化が検出された場合(期間7Bの場合)、蓄積部に蓄積された付加データのうち、変化が検出される前の少なくとも1個の付加データ(DRCデータ4B)、及び、変化が検出された後の少なくとも1個の付加データ(DRCデータ4Ba)のうちのいずれか一方のみ(その一方のみが用いられれば、不適切な振幅(図4の振幅6Bhを参照)が生じない方である一方(DRCデータ4Ba)のみ)を用いて(近傍の第2の期間7BbのDRCデータ4Bを用いずに)、対象フレームのデコード信号(第1の音声信号3Ba)を加工することを特徴とする。
すなわち、例えば、第1の音声信号3Xaの種類(ステレオ放送の音声信号か、マルチチャンネル放送)が、第1の音声信号3Xaにより示す音声の第1の期間7Xaに近い(類似する、近傍の)第2の期間7Xbにおける音声を示す第2の音声信号3Xbの種類と同じ種類か否かが検出される(図6のS103)。第2の音声信号3XbのDRCデータ4は、同じ種類の場合にのみ、そのDRCデータ4での調整後の振幅が、適切な振幅(例えば図5の振幅6Aa)であり、同じ種類でない場合には、適切でない振幅(例えば図4の振幅6Bh)であるDRCデータである。そして、同じ種類と検出された場合にのみ(S103のNo、期間7A)、生成される第3の音声信号5X(第3の音声信号5Aa)の振幅が、近い第2の期間7Xb(第2の期間7Ab)のDRCデータ4(DRCデータ4A)から決定される振幅(振幅6Aa)にされて、その振幅の第3の音声信号5Xを生成させる制御がされたり、その生成の処理そのものがされたりする。同じ種類でないと検出された場合には(S103のYes、期間7B)、近い第2の期間7Xb(第2の期間7Bb)のDRCデータ4(DRCデータ4B)から決定される振幅(振幅6Bh)にされず、その他の振幅(そのDRCデータ4以外の他のデータのみ(例えばDRCデータ4Baのみ)から決定される振幅)にされる。
これにより、期間7Aの場合に、加工がされた後の加工後の第3の音声信号(第3の音声信号5Aa)が、高い音質の音声信号になるだけに止まらなくなる。
すなわち、期間7Bの場合に、加工後の第2の音声信号が、低い音質の音声信号(図4の、不適切な振幅6Bhの第2の音声信号5Bh)になってしまうのが回避され、高い音質の音声信号(図5の、適切な振幅6Biの第2の音声信号5Bi)にできる。
これにより、何れの場合にも、音質が高くできて、確実に、音質が高くできる。
まず、本発明の実施の形態1に係る音声信号処理装置の構成を説明する。
図1は、本発明の実施の形態1に係る音声信号処理装置100の構成の一例を示すブロック図である。
音声信号処理装置100は、音声信号がフレーム単位で符号化されたビットストリームを処理する。
本発明の実施の形態1に係る音声信号処理装置100は、ビットストリーム(ビットストリーム100a)をデコードすることで、ビットストリームがデコードされたデコード信号を生成する。そして、生成したデコード信号の音量を調整し、調整後のデコード信号を、可聴信号として出力する。
ここで、音声信号処理装置100に入力されるビットストリームについて、図2を用いて説明する。
図2は、本発明の実施の形態1に係る音声信号処理装置100に入力されるビットストリームの構造の一例を示す図である。
なお、図2では、ビットストリームを構成する複数のフレームの1つ(フレーム100b)について示している。
ビットストリームの1つのフレーム(フレーム100b)は、図2に示すように、ヘッダ(ヘッダ100c)と、データブロック(データ100d)とを含んでいる。ヘッダには、情報(属性情報)100eが含まれる。データブロックには、符号化データと付加データ(メタデータ)とが含まれる(データ(付加データ)100f、100g)。
符号化データは、符号化された音声信号を示すデータである。すなわち、符号化データは、所定の符号化規格に基づいて符号化された、1フレーム分の、その1フレーム分の長さにおける期間(図3のフレーム2fなどを参照)での音声信号を示している。
付加データは、符号化データをデコードすることで生成されるデコード信号の振幅に関するデータである。
つまり、付加データは、デコード信号の振幅を調整するためのDRCデータなどである。DRCデータを用いることで、デコード信号の振幅を大きく、又は、小さくすることができる。
属性情報は、符号化データの性質を示す情報である。
例えば、属性情報は、その属性情報に対応するフレーム(その属性情報が含まれるヘッダが含まれるフレーム)の、符号化された音声信号のチャンネル数を示す。
具体的には、属性情報は、音声信号がマルチチャンネル放送(5.1ch、7.1chなど)であるか、ステレオ放送(2ch)であるかを示す。
以上のように、ビットストリームは、フレーム毎に区分された符号化データ(データ100f)を含み、そのビットストリームに含まれる1以上の符号化データのうちのそれぞれの符号化データに対応する、付加データと属性情報とを各々含んでいる。
なお、図2に示す属性情報及び付加データの、フレーム内の位置は、一例であって、この例には限定されない。例えば、ヘッダに、付加データが含まれていてもよく、また、付加データに、属性情報が含まれていてもよい。さらに、ヘッダとデータブロックとの両方に、属性情報及び付加データが含まれていてもよい。
図1に戻ると、音声信号処理装置100は、デコード部110と、検出部120と、蓄積部130と、加工部140とを備える。
デコード部110は、対象フレーム(例えば、図3の対象フレーム2fx)の符号化データをデコードすることで、その符号化データがデコードされた信号であるデコード信号(例えば、図4の第1の音声信号3Baなど)を生成する。
検出部120は、対象フレーム(例えば、図2のフレーム100m(図5の期間7Xaを参照))と、当該対象フレームに連続する(隣接する)隣接フレーム(フレーム100n(図5の期間7Xb参照))との間で、属性情報が変化したか否かを検出する。
すなわち、検出部120は、付加データの属性情報が、連続する、それらの、対象フレームおよび隣接フレームの2つのフレームの間で変化したか否かを検出する。
例えば、検出部120は、属性情報を参照することで、対象フレームと、隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出する。
なお、隣接フレームは、例えば、入力順又は処理順で、対象フレームの直前のフレーム(直前フレーム)である。
蓄積部130は、対象フレームの付加データを含む、少なくとも2個の付加データを蓄積するためのメモリである。具体的には、蓄積部130は、少なくとも、対象フレームの付加データ(図1に示される、フレーム100mの付加データ131m)と、隣接フレームの付加データ(フレーム100nの付加データ131n)との2つの付加データを蓄積する。
加工部140は、デコード部110によって生成された信号(デコード信号)110a(図1)を加工する。
具体的には、加工部140は、検出部120によって、対象フレームと、隣接フレームとの間において、属性情報の変化が検出されなかった場合、次の動作をする。
その動作では、蓄積部130に蓄積された、少なくとも2個の付加データの両方を用いて、対象フレームのデコード信号を加工する。
また、加工部140は、検出部120によって、対象フレームと、隣接フレームとの間において、属性情報の変化が検出された場合、次の動作をする。
その動作では、蓄積部130に蓄積された付加データのうち、変化が検出される前の、少なくとも1個の付加データ、及び、変化が検出された後の、少なくとも1個の付加データのいずれか一方のみを用いて、対象フレームのデコード信号を加工する。
本発明の実施の形態1では、加工部140は、図1に示される音量調整部141を備える。
音量調整部141は、付加データを用いて、対象フレームのデコード信号の音量を調整する。
例えば、音量調整部141は、対象フレームのDRCデータ(付加データ100g)を用いて、音量調整用の係数を算出し、算出した係数を用いて、対象フレームのデコード信号の振幅を調整する。
また、対象フレームのDRCデータ(付加データ131m)と、直前フレームのDRCデータ(付加データ131n)とが異なっている場合には、音量調整部141は、対象フレームのDRCデータと、直前フレームのDRCデータとをスムージングすることで、音量調整用の係数を算出する。そして、音量調整部141は、算出した係数を用いて、対象フレーム(フレーム100m)のデコード信号の振幅を調整する。
以下では、付加データを用いた、音量の調整処理について、図3を用いて詳細に説明する。
図3は、本発明の実施の形態1に係る、付加データを用いた、音量の調整処理の一例を説明するための図である。
図3に示す例では、信号(デコード信号)110aは、マルチチャンネル放送の音声信号(音声信号110pなど)と、ステレオ放送の音声信号(音声信号110qなど)とを含んでいる。
デコード信号は、フレーム毎に区分され、各フレーム(フレーム2f)は、付加データ(メタデータ、付加データ100g)として、DRCデータ(DRCデータ110s、110tなど)を含んでいる。
マルチチャンネル放送のフレーム(信号110pのフレーム2f)の場合、当該フレームのDRCデータ(付加データ)は、デコード信号の振幅を小さくするような、小振幅用のDRCデータである。
また、ステレオ放送のフレーム(信号110qのフレーム2f)の場合、当該フレームのDRCデータ(付加データ)は、デコード信号の振幅を大きくするような、大振幅用のDRCデータである。
ステレオ放送の場合には、通常、2個のスピーカを利用するのに対して、マルチチャンネル放送の場合には、例えば、6個のスピーカなどの、より多くのスピーカを利用する。このため、同一の振幅のデコード信号を出力すると、マルチチャンネル放送の方が大きく聞こえてしまう。このため、マルチチャンネル放送のデコード信号の振幅を小さくするように、DRCデータが、付加される。
このように、図3に示す例では、マルチチャンネル放送(又は、ステレオ放送)の音声信号では、共通して、小振幅用のDRCデータ(又は、大振幅用のDRCデータ)が付加されている。
なお、これらは、単なる一例であって、マルチチャンネル放送の音声信号内で、互いに異なる2つのDRCデータが付加されていてもよい。すなわち、フレーム毎に、DRCデータを自由に設定することができる。
例えば、音量調整部141(図1)は、小振幅用のDRCデータを用いることで、大振幅用のDRCデータを用いる場合よりも、デコード信号の振幅を小さくすることができる。
時間的に連続する2つのフレーム(例えば、対象フレームと隣接フレーム)の間で、DRCデータが互いに異なっている場合、音量調整部141は、DRCデータをスムージング(図4のスムージング4xも参照)する。これにより、音量を滑らかに変化させることができる。
例えば、図3に示す対象フレーム(対象フレーム2fx)の音量を調整する場合、音量調整部141は、対象フレームのDRCデータ(大振幅用)と、直前のフレーム(隣接フレーム2fy)のDRCデータ(小振幅用)とを、スムージングする。
スムージングとは、例えば、次の処理などをいう。つまり、その処理では、フレーム内の最初のサンプルに対して、直前のフレームのDRCデータを用い、フレーム内の最後のサンプルに対して、対象フレームのDRCデータを用いる。そして、残りのサンプルに対して、振幅が滑らかになるように、最初のサンプルでの振幅と、最後のサンプルでの振幅との間の中間の振幅にすることを行う。
以上のように、DRCデータが変化する場合には、変化する前のDRCデータと、変化する後のDRCデータとをスムージングすることで、音量を、滑らかに変化させることができる。
しかしながら、例えば、図4に示すようなデコード信号に対して、DRCデータのスムージングを行うと、本来、小さな振幅に圧縮されるべきデコード信号が、大きな振幅(不適切な振幅6Bhを参照)のまま出力されてしまうという課題がある。
図4は、本発明の実施の形態1に係る音声信号処理装置が解決する課題を説明するための図である。
図4に示すデコード信号は、ステレオ放送の音声信号の4つの区間のうちで、最初と最後の区間に、無音のフレームを含んでいる。例えば、映画などのマルチチャンネル放送の間に、CM(コマーシャル)などのステレオ放送が挿入される場合などがある。
図4に示すように、対象フレームのDRCデータと、直前のフレームのDRCデータとが異なっているので、音量調整部141は、これらのDRCデータをスムージングする。
これにより、マルチチャンネル放送の対象フレーム(期間7Baを参照)は、本来、小振幅になるように、音量が調整されるべきフレームであるのに、図4に示すように、大振幅から小振幅になるように、デコード信号の振幅が調整される。これにより、無音状態から、突然、大きな振幅のデコード信号が出力されるので、この部分のデコード信号は、聞き手にとって不快な音として聞こえる。
つまり、単純に、DRCデータをスムージングするだけでは、主観的な音質の劣化を防止することができない。
これに対して、本発明の実施の形態1に係る音声信号処理装置100は、属性情報の変化を検出し、属性情報が変化した場合には(後述の図6のYes)、変化検出前及び変化検出後の何れか一方(その一方のみが用いられれば、不適切な振幅6Bhが生じない方である一方)のみのDRCデータを用いて、デコード信号の振幅を調整する。
すなわち、音声信号処理装置100は、スムージングに用いる複数のDRCデータが、属性情報が変化した時点(変化点)を跨いでいる場合には、複数のDRCデータを、変化点を跨ぐようには用いない。
これにより、属性情報が変わることで、デコード信号そのものが大きく変化している部分で、異なる属性情報に対応するDRCデータのスムージングを行わないので、違和感のある音が出力されてしまうことを防止することができる。
また、本発明の実施の形態1に係る音声信号処理装置100は、属性情報が変化していない場合には、DRCデータのスムージングを行う。これにより、音量が急激に変化することを防止することができる。
次に、本発明の実施の形態1に係る音声信号処理装置100の具体的な動作を説明する。
図5は、本発明の実施の形態1に係る音声信号処理装置100の動作及び効果を説明するための図である。
本実施の形態では、加工部140は、検出部120によって、変化が検出されなかった場合(期間7Aなどを参照)、対象フレームの付加データと、直前のフレームである隣接フレーム(直前フレーム)の付加データとを用いて、デコード信号を加工する。具体的には、加工部140が備える音量調整部141が、対象フレームのDRCデータと、直前フレームのDRCデータとをスムージングする。なお、図5では、DRCデータ4Aと、DRCデータ4Aaとに付されたハッチングのパターンが、互いに異なる。つまり、例えば、図5のDRCデータ4Aと、DRCデータ4Aaとが、ある程度異なってもよい。この点が、パターンが異なることにより、模式的に示されると考えられてもよい。
また、加工部140は、検出部120によって変化が検出された場合(期間7Bなどを参照)、対象フレームの付加データを含む、変化が検出された後の少なくとも1個の付加データを用いて、デコード信号を加工する。
例えば、図5に示す例では、対象フレームAと、直前フレームAとの間、及び、対象フレームBと、直前フレームBとの間で、属性情報が変化している。
具体的には、直前フレームAの属性情報は、直前フレームAが、マルチチャンネル放送であることを示し、対象フレームAの属性情報は、対象フレームAが、ステレオ放送であることを示している。
同様に、直前フレームBの属性情報は、直前フレームBが。ステレオ放送であることを示し、対象フレームBの属性情報は、対象フレームBが、マルチチャンネル放送であることを示している。
したがって、音量調整部141は、対象フレームAのデコード信号を加工する際には、変化が検出された後のフレームである対象フレームAのDRCデータを用いて、音量の調整を行う。
同様に、音量調整部141は、対象フレームBのデコード信号を加工する際には、変化が検出された後のフレームである対象フレームBのDRCデータを用いて、音量の調整を行う。
このとき、直前フレームBのDRCデータを用いないので、対象フレームBについては、小振幅用のDRCデータのみが用いられる。これにより、図4に示すように、振幅が大きな音声信号(音声信号5Bh)が生成されることはないようにできる。
なお、加工部140は、対象フレームBを加工する際に、対象フレームBの付加データを用いてもよい。
つまり、加工部140は、属性情報の変化点より前のフレーム、具体的には、対象フレームBより前のフレームの付加データを用いなければよく、属性情報の変化点より後のフレームの付加データを用いてもよい。
図6は、本発明の実施の形態1に係る音声信号処理装置100の動作の一例を示すフローチャートである。
まず、デコード部110は、1フレームの符号化データをデコードすることで、デコード信号を生成する(S101)。つまり、デコード部110は、対象フレームの符号化データをデコードする。
次に、蓄積部130は、対象フレームの付加データを蓄積する(S102)。
次に、検出部120は、属性情報が変化したか否かを検出する(S103)。
具体的には、検出部120は、直前フレームと、対象フレームとの間で、属性情報が変化したか否かを検出する。
言い換えると、検出部120は、直前フレームの属性情報と、対象フレームの属性情報とが同じであるか、異なっているかを検出する。
本実施の形態では、検出部120は、例えば、属性情報を参照することで、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであるか否かを検出する。
検出部120は、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであれば、属性情報は変化していないと判断し、異なっていれば、属性情報が変化したと判断する。
属性情報の変化が検出されなかった場合(S103でNo)、音量調整部141は、付加データをスムージングして、音量調整用の係数を作成する(S104)。なお、直前フレームのDRCデータと、対象フレームのDRCデータとが互いに同一である場合には、スムージングを行う必要はない。
属性情報の変化が検出された場合(S103でYes)、音量調整部141は、その変化が検出された後の付加データのみを用いて、音量調整用の係数を作成する(S105)。
具体的には、音量調整部141は、図5に示すように、対象フレームのDRCデータのみを用いて、音量調整用の係数を作成する。
最後に、音量調整部141は、作成した係数を用いて、デコード信号の振幅を調整することで、音声信号処理装置100が出力する音声信号の音量を調整する(S106)。
全てのフレームの処理が完了していなければ(S107でNo)、音声信号処理装置100は、上記の処理を繰り返す(S101に戻る)。
以上のように、本発明の実施の形態1に係る音声信号処理装置100は、属性情報の変化(例えば、図5の期間7Bでの変化など)を検出し、変化が検出された場合には、変化前の少なくとも1個の付加データ(例えばDRCデータ4B)と、変化後の少なくとも1個の付加データ(例えばDRCデータ4Ba)とのうちの何れか一方のみ(その一方のみが用いられれば、不適切な振幅6Bhが回避される一方のみ)を用いて(例えば、DRCデータ4Baのみを用いて)、デコード信号(音声信号3Ba)を、加工後の信号(音声信号5Bi)へと加工する。
これにより、対象の音声信号(音声信号3Ba)の属性情報(マルチチャンネル放送での属性情報)とは異なる属性情報(ステレオ放送での属性情報)の音声信号(音声信号3Bb)を加工するための付加データ(DRCデータ4B)を、対象の音声信号(音声信号3Ba)の加工に用いることを禁止することができる。したがって、本来であれば、小振幅に加工されるはずの音声信号が大振幅に加工されること(図4の音声信号5Bhを参照)を防止することができ、主観的な音質の劣化を防止することができる。
なお、属性情報は、付加データの有無を示す情報でもよい。言い換えると、属性情報は、符号化データに、付加データが対応付けられているか否かを示す情報でもよい。なお、このとき、属性情報は、図2に示すように、フレームのヘッダに含まれていてもよく、あるいは、データブロックに含まれていてもよい。
この場合、検出部120は、属性情報を参照することで、対象フレームと、隣接フレームとの間で、付加データの有無の変化を検出する。例えば、マルチチャンネル放送のフレームは、付加データを含み、ステレオ放送のフレームは、付加データを含んでいない場合がある。
例えば、音量調整部141は、上述のように、対象フレームの付加データと、直前フレームの付加データとが異なっている場合に、これら2つの付加データをスムージングすることで、音量調整用の係数を算出する。そして、算出した係数を用いて、対象フレームの振幅を調整する。このような処理がされる場合について、以下に、より詳しく説明する。
対象フレームの付加データがなく、直前フレームの付加データがある場合であって、検出部120によって、対象フレームと、直前フレームとの間での、属性情報の変化が検出された場合、上述のように、加工部140は、対象フレームの付加データを用いて、デコード信号を加工する。ただし、この場合には、対象フレームの付加データがないので、結果的に、加工部140は、対象フレームのデコード信号の加工を行わない。
これにより、図4に示す課題でのように、対象フレームのデコード信号を加工するのに、直前フレームの付加データを用いることを防止することができるので、音質の劣化を抑制することができる。
また、属性情報は、属性情報が変化した場合に(S103のYesを参照)、音声信号の性質が、大きく異なっていることを示す情報であればよい。言い換えると、属性情報は、音声コンテンツの切り替わりを示す情報であればよい。例えば、属性情報は、サンプリング周波数、量子化ビット数、又は、符号化方式などを示す情報でもよい。
また、隣接フレームは、対象フレームの直後のフレーム(直後フレーム)でもよい。すなわち、加工部140は、対象フレームの付加データと、直後フレームの付加データとを用いて、デコード信号を加工してもよい。具体的には、音量調整部141は、対象フレームのDRCデータと、直後フレームのDRCデータとが異なっている場合、対象フレームのDRCデータと、直後フレームのDRCデータとをスムージングすることで、音量調整用の係数を算出する。そして、音量調整部141は、算出した係数を用いて、対象フレームのデコード信号の振幅を調整する。
なお、この場合、検出部120は、対象フレームと、直後フレームとの間で、属性情報が変化したか否かを検出する。言い換えると、検出部120は、対象フレームの属性情報と、直後フレームの属性情報とが同じであるか、異なっているかを検出する。
加工部140は、検出部120によって、変化が検出された場合、変化が検出される前の少なくとも1個の付加データを用いて、デコード信号を加工する。具体的には、音量調整部141は、対象フレームのDRCデータを用いて、デコード信号の振幅を調整する。
また、検出部120によって、変化が検出されなかった場合、加工部140は、対象フレームの付加データと、対象フレームの付加データ以外の付加データとを用いて、対象フレームのデコード信号を加工する。具体的には、音量調整部141は、対象フレームのDRCデータと、直後フレームのDRCデータとをスムージングすることで、音量調整用の係数を算出し、算出した係数を用いて、対象フレームのデコード信号の振幅を調整してもよい。
以上のように、本発明の実施の形態1に係る音声信号処理装置では、スムージングに用いるDRCデータは、直前フレームのDRCデータでもよく、直後フレームのDRCデータでもよい。
なお、このように、例えば、次の動作が行われてもよい。
その動作では、振幅(例えば図5の振幅6Aa)が決定される。
そして、第1の期間(例えば第1の期間7Aa)における音声を表わす第1の音声信号(第1の音声信号3Aa)の振幅が、決定された振幅(振幅6Aa)へと変更された第3の音声信号(第3の音声信号5Aa)を生成させる制御がされる。
振幅(振幅6Aa)が決定されるのに際して、第1の期間(第1の期間7Aa)に近い(類似する、近傍の)第2の期間(例えば第2の期間7Ab)における第2の音声信号(第2の音声信号3Ab)のDRCデータ(DRCデータ4A)から、決定が行われる。
なお、例えば、第1の音声信号は、第1の期間における音声を示す一方で、第2の音声信号は、別の第2の期間での音声を示してもよい。
なお、一方の期間に近い他方の期間は、例えば、その期間における何れの時刻も、一方の期間の近傍に含まれる時刻である期間などをいう。
具体的には、このDRCデータが含まれる1つ以上のデータ(例えば、2つのDRCデータ4A、4Aa)から、決定が行われてもよい。
しかしながら、上述された、その音声信号のDRCデータからの決定がされる第2の音声信号(第2の音声信号3Xb(例えば3Ab))の種類(ステレオ放送)が、第1の音声信号(第1の音声信号3Xa(3Aa))の種類(ステレオ放送)と同じ種類(ステレオ放送)である場合(期間7Aの場合)のみがあるとは限らないことが考えられる。
つまり、第2の音声信号(第2の音声信号3Xb(例えば3Bb))の種類(ステレオ放送)が、第1の音声信号(第1の音声信号3Xa(3Ba))の種類(マルチチャンネル放送)とは異なる種類(ステレオ放送)である場合(期間7Bの場合)もあることも考えられる。
すなわち、同じ種類である場合(期間7Aの場合)にのみ、第2の音声信号(第2の音声信号3Ab)のDRCデータ(DRCデータ4A)からの決定での、決定される振幅(振幅6Aa)が、適切な振幅で、生成される、その振幅の第3の音声信号(第3の音声信号5Aa)の音質が、比較的高いことが考えられる。
つまり、異なる種類である場合(期間7Bの場合)には、第2の音声信号(第2の音声信号3Bb)のDRCデータ(DRCデータ4B)からの決定での、決定される振幅が、不適切な振幅(図4の振幅6Bh)で、その振幅の第3の音声信号(図4の第3の音声信号5Bh)の音質が、比較的低くなってしまうことが考えられる。
そこで、第2の音声信号(第2の音声信号3Xb)の種類が、同じ種類であるか(第2の音声信号3Ab)、異なる種類であるか(第2の音声信号3Bb)が判定(検出)されてもよい(図6のS103)。
同じ種類と判定される場合にのみ(第2の音声信号3Ab、S103のNo)、近傍の第2の期間(期間7Ab)のDRCデータ(DRCデータ4A)からの決定がされる。これにより、この場合(S103のNo、期間7A)にのみ、決定される振幅が、近傍でのDRCデータ(DRCデータ4A)から決定される振幅(振幅6Aa)である(S104、S106)。
つまり、異なる種類と判定される場合には(第2の音声信号3Bb、S103のYes)、近傍の第2の期間(期間7Bb)のDRCデータ(DRCデータ4B)からの決定がされない。これにより、この場合には(S103のYes、期間7B)、決定される振幅が、近傍でのDRCデータ(DRCデータ4B)から決定される振幅(図4の不適切な振幅6Bh)ではなく、その振幅以外の他の振幅(図5の適切な振幅6Bi)である(S105、S106)。
これにより、同じ種類の場合(期間7Aの場合)に、適切な振幅(振幅6Aa)で、音質が高いだけに止まらず、異なる種類の場合(期間7Bの場合)にも、不適切な振幅(図4の振幅6Bh)であるのが回避されて、適切な振幅(図5の振幅6Bi)にされる。これにより、より確実に、振幅が、適切な振幅にできる。
なお、そのDRCデータ(例えば、後述される図7のDRCデータ241a、図9のDRCデータ9niなど)での、振幅の調整における、調整後の振幅が、生成される第3の音声信号(図9の音声信号5Biにおける、期間7Bqの部分、図5の第3の音声信号5Aa、5Biを参照)の振幅であるDRCデータ(例えば図7のDRCデータ241a)が生成されてもよい。
生成されるDRCデータでの調整における、調整後の振幅が、決定された振幅(先述の振幅6Aa、6Biを参照)でもよい。
こうして、DRCデータ(DRCデータ241a)が生成されることにより、そのDRCデータでの、調整後の振幅へと、生成される第3の音声信号の振幅が制御されてもよい。
なお、生成される第3の音声信号は、対応するDRCデータを有してもよい。そして、第3の音声信号の振幅は、対応するDRCデータでの調整後の振幅にされることにより、上述された、適切な振幅にされてもよい。
そして、第1、第2の音声信号が含まれる信号が符号化された、再符号化前の符号化信号(例えば、後述の図7における音声信号処理装置200によりデコードされるビットストリーム(先述のビットストリーム100aを参照))の処理がされてもよい。
つまり、このような、再符号化前の符号化信号が、第3の音声信号が含まれる信号が符号化された、再符号化後の符号化信号(図7の符号化信号9aを参照)へと再符号化されてもよい。
そして、再符号化後の符号化信号が、第3の音声信号が含まれる信号へと復号化(デコード)されて、第3の音声信号が含まれる信号が生成されることにより、第3の音声信号が生成されてもよい。
そして、こうして、再符号化がされた後に行われる復号化において、第3の音声信号が生成されるのに際して、生成される第3の音声信号の振幅が、先述された適切な振幅にされるようにする制御がされるなどしてもよい。
なお、複数の第2の期間(図9に示される、2つの期間7Bbを参照)があり、それぞれの第2の期間でのDRCデータ(DRCデータ4Ba、4B)があってもよい。
そして、それぞれの第2の期間での第2の音声信号(2つの第2の音声信号3Bbを参照)があってもよい。
そして、それぞれの第2の音声信号の種類について、その種類(左側の第2の音声信号3Bbでの、マルチチャンネル放送の種類、右側の第2の音声信号3Bbでの、ステレオ放送の種類)が、第1の期間(例えば、図9の期間7Baに含まれる期間7Bq)における第1の音声信号の種類(期間7Bqでの、マルチチャンネル放送の種類)と同じ種類(左側の音声信号3Bb参照)か、異なる種類(右側の音声信号3Bb参照)かが判定されてもよい。
同じ種類との判定がされた、それぞれの第2の音声信号(左側の第2の音声信号3Bb)のDRCデータ(DRCデータ4Ba)が含まれ、異なる種類と判定された、それぞれの第2の音声信号(右側の第2の音声信号3Bb)のDRCデータ(DRCデータ4B)を含まない0個以上のDRCデータ(1つのDRCデータ4Ba)からの処理がされてもよい。
つまり、その0個以上のDRCデータから、生成される第3の音声信号(例えば、音声信号5Biのうちの、期間7Bqの部分、または、当該音声信号5Biの期間である期間7Baの全体での当該音声信号5Bi)の振幅が決定されてもよい。
なお、上述のように、例えば、一方の種類の音声信号が、ステレオ放送の音声信号である一方で、一方の種類と同じでない、異なる他方の種類の音声信号が、マルチチャンネル放送の音声信号でもよい。
また、一方の種類の音声信号におけるサンプリング周波数が、異なる他方の種類の音声信号におけるサンプリング周波数と異なってもよい。
同様に、例えば、量子化ビット数が異なってもよいし、符号化方式などが異なってもよい。
なお、近傍の第2の期間のDRCデータから、振幅が決定されるのに際しては、例えば、非特許文献1で示される、スムージングの処理と同様の処理(図4のスムージング4xを参照)がされてもよい。
振幅の決定では、第1の期間(例えば、図4での第1の期間7Baを参照)における、それぞれの時刻での振幅が決定されて、1つ以上の時刻での振幅が決定されてもよい。
なお、DRCデータとして、そのDRCデータから決定される振幅が、比較的小さい、小振幅用のDRCデータ(図9のDRCデータ4Baを参照)と、そのDRCデータから決定される振幅が、比較的大きい、大振幅用のDRCデータ(図9のDRCデータ4Bを参照)とがあってもよい。
つまり、第1の音声信号における、第1の期間(例えば、図9の期間7Bq)のDRCデータが、小振幅用のDRCデータ(DRCデータ4Ba)である第1の場合と、大振幅用のDRCデータ(DRCデータ4B)である第2の場合とがあってもよい。
そして、第1の場合(小振幅用の場合)にのみ、音質の低下(例えば、弊害が生じる程度に大きな低下幅での低下など)が生じ、第2の場合(大振幅用の場合)には、生じなくてもよい。
そして、第1の場合か、第2の場合かが判定されてもよい。
そして、第1の場合と判定されるとき(小振幅用の場合)にのみ、上述の処理がされてもよい。これにより、音質の向上が維持できる。
そして、第2の場合と判定されるとき(大振幅用の場合)には、上述の処理がされなくてもよい。
これにより、処理量が少なくできる。
これにより、音質の向上が維持されつつも、処理量が少なくされて、高い音質と、少ない処理量とが両立できる。
(実施の形態2)
本発明の実施の形態2に係る音声信号処理装置では、加工部は、ビットストリームに含まれるフレームのフレーム長(例えば、後述される、1024個のサンプルが含まれるフレームのフレーム長)とは異なるフレーム長(例えば、1536個のサンプルが含まれるフレームでのフレーム長)のフレーム単位で、デコード信号を再符号化する。本発明の実施の形態2に係る加工部は、検出部によって、変化が検出されなかった場合、蓄積部に蓄積された、少なくとも2個の付加データを用いて、再符号化後のフレームに対応する付加データを生成し、検出部によって、変化が検出された場合、蓄積部に蓄積された付加データのうち、変化が検出される前の、少なくとも1個の付加データ、及び、変化が検出された後の、少なくとも1個の付加データのいずれか一方のみ(先述の説明を参照)を用いて、再符号化後のフレームに対応する付加データを生成することを特徴とする。
まず、本発明の実施の形態2に係る音声信号処理装置の構成を説明する。
図7は、本発明の実施の形態2に係る音声信号処理装置200の構成の一例を示すブロック図である。
図7に示す音声信号処理装置200は、実施の形態1に係る音声信号処理装置100と比較して、加工部140の代わりに、加工部240を備える点が異なっている。以下では、実施の形態1と同じ点は、詳細な説明を省略し、異なる点を中心に説明する。なお、図1と同様の要素には、同一の符号を付している。
本発明の実施の形態2に係る音声信号処理装置200は、所定の符号化方式で符号化されたビットストリームをデコードし、デコード結果を、異なる符号化方式で再符号化するトランスコード装置である。本実施の形態では、入力されたビットストリームと、再符号化後のビットストリームとで、1フレーム当たりのフレーム長が異なる場合について説明する。
加工部240は、ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、デコード信号を再符号化する。フレーム長は、例えば、1フレームに含まれるサンプル数で示される。本発明の実施の形態2では、加工部240は、符号化部241を備える。
符号化部241は、対象フレームのデコード信号を符号化することで、再符号化後のフレーム(符号化信号9a)を生成する。ここで、対象フレームのフレーム長と、再符号化後のフレーム長とは、異なっている。したがって、符号化部241は、再符号化後のフレーム長に相当する分のデコード信号が生成された後に、デコード信号を再符号化することで、再符号化後のフレームを生成する。
さらに、符号化部241は、再符号化後のフレームに対応する付加データ(DRCデータ241a)を生成する。具体的には、符号化部241は、DRCデータに基づいて、再符号化後のフレームをデコードすることで、生成される再デコード信号の振幅を調整するためのDRCデータ(DRCデータ241a)を生成する。
符号化部241は、検出部120によって変化が検出されなかった場合、蓄積部130に蓄積された少なくとも2個の付加データを用いて、再符号化後のフレームに対応する付加データ(DRCデータ241a)を生成する。また、符号化部241は、検出部120によって変化が検出された場合、蓄積部130に蓄積された付加データのうち、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみ(先述の説明を参照)を用いて、再符号化後のフレームに対応する付加データを生成する。
例えば、属性情報が、音声信号のチャンネル数を示す場合であり、検出部120が、属性情報を参照することで、対象フレームと、隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出する場合について、詳しく説明する。
符号化部241は、検出部120によって、変化が検出された場合であって、対象フレームと、隣接フレームとの境目と、再符号化フレーム間の境目とが一致していない場合、変化が検出される前の少なくとも1個の付加データと、変化が検出された後の少なくとも1個の付加データとの何れかのうち、チャンネル数が多い方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する。
チャンネル数が多い音声信号には、小振幅用の付加データが含まれていることが多い。このため、結果的に、符号化部241は、小振幅用の付加データを用いて再符号化後の付加データを生成する。
以下では、本発明の実施の形態2に係る音声信号処理装置200の動作について説明する。
図8は、本発明の実施の形態2に係る音声信号処理装置200が解決する課題を説明するための図である。
なお、図8では、一例として、1フレーム当たりに、1024個のサンプルを含むフレームの複数個から構成される入力ビットストリームを、1フレーム当たりに、1536個のサンプルを含む、再符号化後のフレームの複数個から構成される出力ビットストリームに変換する場合を示す。
図8に示すように、入力ビットストリームのフレーム長と、出力ビットストリームのフレーム長とが異なっているので、符号化部241は、再符号化後のフレーム毎に、それぞれの、再符号化後のフレームに対応する付加データ(図7のDRCデータ241a)を生成する。図8の例では、再符号化後のフレームに含まれるデコード信号に対応する付加データを用いて、新たな付加データを生成する。
例えば、再符号化フレームAは、第1フレームのデコード信号の一部と、第2フレームのデコード信号とを含む。
このため、再符号化フレームAに対応する付加データは、第1フレームの付加データと、第2フレームの付加データとから生成される。
また、再符号化フレームBは、第3フレームのデコード信号と、第4フレームのデコード信号の一部とを含む。
このため、再符号化フレームBに対応する付加データは、第2、第3及び第4フレームの付加データから生成される。
なお、第2フレームの付加データを用いるのは、実施の形態1でも説明したように、直前の再符号化フレームからの急激な変化を防止するためである。
ここで、先述のように、入力ビットストリームと、出力ビットストリームとで、フレーム長が異なる。このため、図8に示す再符号化フレームCのように、異なる属性情報の複数のフレーム(第4、第5フレーム)を含む場合がある。この場合、実施の形態1で説明したように、第4フレームと、第5フレームとの間で、属性情報の変化が検出される。このため、加工部240は、第5フレームを用いて、再符号化フレームCの付加データ(DRCデータ9nh)を生成する。この場合、大振幅用のDRCデータ(DRCデータ4B)が、再符号化フレームCの付加データとして多重化される。
したがって、再符号化フレームCをデコードした場合、本来、小振幅であるべき、マルチチャンネル放送のデコード信号の振幅が、図8に示すように、大振幅になる(再符号化フレームCの再デコード信号、音声信号5Bh、音声信号5Bhにおける、期間7Bqの部分9a)。
このように、対象フレームと隣接フレームとの境目と、再符号化後のフレームの境目とが一致していない場合、本来、小振幅用の付加データが多重化されるべきフレームに、大振幅用の付加データが多重化されてしまい、主観的な音質が劣化してしまうという課題がある。
図9は、本発明の実施の形態2に係る音声信号処理装置200の動作及び効果を説明するための図である。
本発明の実施の形態2に係る音声信号処理装置200では、検出部120は、属性情報を参照することで、音声信号のチャンネル数が変化したか否かを検出する。そして、加工部240は、チャンネル数の変化を検出した場合であって、当該変化が検出された時点である、直前フレームと対象フレームとの境目と、再符号化後のフレームの境目とが一致していない場合、チャンネル数が大きい方のフレームの付加データ(DRCデータ4Ba)を用いて、再符号化フレームに対応する付加データ(DRCデータ9ni)を生成する。
具体的には、図9に示すように、再符号化フレームCに対応する付加データは、第4フレームの付加データ(DRCデータ4Ba)のみを参照して生成される。これにより、マルチチャンネル放送の音声信号の振幅を、小振幅にすることができる。
図10は、本発明の実施の形態2に係る音声信号処理装置200の動作の一例を示すフローチャートである。
まず、音声信号処理装置200は、トランスコード処理に必要なパラメータを設定する(S201)。
例えば、音声信号処理装置200は、当該音声信号処理装置200の全体の制御を行う制御部(図7には示していない)を備え、この制御部は、蓄積フレーム数Kと、属性情報変化フラグZとを、ともに0に設定する。
なお、蓄積フレーム数Kは、デコード信号を一時的に記憶するためのメモリ(図7には示していない)に蓄積されているフレームの個数を示すパラメータである。
属性情報変化フラグZは、連続する2つのフレームの間で、属性情報が変化したか否かを示すパラメータである。具体的には、Z=0であれば、属性情報が変化していないことを示し、Z=1であれば、属性情報が変化したことを示す。
次に、デコード部110は、1フレームの符号化データをデコードすることで、デコード信号を生成する(S202)。
つまり、デコード部110は、対象フレームの符号化データをデコードする。
生成された、対象フレームのデコード信号は、上記メモリに蓄積される。
次に、蓄積部130は、対象フレームの付加データを蓄積する(S203)。
そして、1フレームのデコードが完了したので、音声信号処理装置200は、蓄積フレーム数Kを、インクリメントする(S204)。
次に、検出部120は、属性情報が変化したか否かを検出する(S205)。
具体的には、検出部120は、直前フレームと、対象フレームとの間で、属性情報が変化したか否かを検出する。すなわち、検出部120は、直前フレームの属性情報と、対象フレームの属性情報とが同じであるか、異なっているかを検出する。
本実施の形態では、検出部120は、属性情報を参照することで、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであるか否かを検出する。検出部120は、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであれば、属性情報は変化していないと判断し(図8の期間7Aを参照)、異なっていれば、属性情報が変化したと判断する(期間7Bを参照)。
属性情報の変化が検出された場合(S205でYes、期間7B)、音声信号処理装置200は、属性情報変化フラグZを、1に設定する(S206)。
次に、符号化部241は、再エンコードするのに十分なデコード信号が生成されているか否か、すなわち、メモリに格納されているか否かを判定する(S207)。
具体的には、符号化部241は、再エンコード処理のフレーム長以上のフレーム長のデコード信号が生成されているか否かを判定する。
例えば、符号化部241は、K×Ld≧Leを満たすか否かを判定する。ここで、Ldは、再エンコード前のフレーム長(具体的には、入力ビットストリームのフレーム長)であり、Leは、再エンコード後のフレーム長(具体的には、出力ビットストリームのフレーム長)である。
次に、属性情報の変化が検出されている場合、すなわち、属性情報変化フラグZが、1である場合(S208でYes、期間7B)、音声信号処理装置200は、属性情報変化フラグZを、0にリセットする(S209)。なお、属性情報変化フラグZのリセットは、次に、フレームの処理が開始されるまでに行えばよい。
そして、変化検出前のチャンネル数が、変化検出後のチャンネル数より大きい場合(S210でYes)、符号化部241は、変化検出前の付加データ(例えば、DRCデータ4Ba)を用いて、出力ビットストリームに多重化するための、再符号化用の付加データ(DRCデータ9ni)を生成する(S211)。
他方、変化検出前のチャンネル数が、変化検出後のチャンネル数より小さい場合(S210でNo)、符号化部241は、変化検出後の付加データを用いて、出力ビットストリームに多重化するための再符号化用の付加データを生成する(S212)。
このように、符号化部241は、チャンネル数が大きい方のデコード信号に付加されていた付加データを利用して、再符号化後のフレームに対応する付加データを生成する。
属性情報の変化が検出されていない場合、すなわち、属性情報変化フラグZが0である場合(S208でNo、期間7Aa)、符号化部241は、蓄積部130に蓄積されている付加データ(例えば、2つのDRCデータ4A、4Aaの両方)を用いて、出力ビットストリームに多重化するための、再符号化用の付加データを生成する(S213)。
再符号化後のフレームに対応する付加データの生成が完了した後、符号化部241は、1フレームのデコード信号を符号化する(S214)。
全てのフレームの処理が完了していなければ(S215でNo)、音声信号処理装置200は、蓄積フレーム数Kの値を、現在のKの値から、Le/Ldを減算した値に、置き換える(S216)。そして、上記の処理を繰り返す(S202に戻る)。
以上のように、本発明の実施の形態2に係る音声信号処理装置200では、ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、デコード信号を再符号化する。このとき、音声信号処理装置200は、検出部120によって、属性情報の変化が検出された場合であって、対象フレームと、隣接フレームとの境目と、再符号化後のフレームの境目とが一致していない場合には(期間7Baの場合)、変化検出前及び変化検出後の何れか一方の付加データのみを用いて(DRCデータ4Bを用いず、DRCデータ4Baを用いないで)、再符号化後のフレームに対応する付加データ(DRCデータ9ni)を生成する。
具体的には、チャンネル数が、より大きい方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する。
これにより、本来であれば、小振幅用の付加データが多重化されるべきフレーム(図8での、期間7Baのフレームを参照)に、大振幅用の付加データ(図8のDRCデータ9nhを参照)が多重化されて、主観的な音質が劣化してしまうことを防止することができる。
なお、実施の形態1と同様に、属性情報は、付加データの有無を示す情報でもよい。言い換えると、属性情報は、符号化データに、付加データが対応付けられているか否かを示す情報でもよい。
この場合、検出部120は、属性情報を参照することで、対象フレームと、隣接フレームとの間で、付加データの有無の変化を検出する。例えば、マルチチャンネル放送のフレームは、付加データを含み、ステレオ放送のフレームは、付加データを含んでいない場合がある。
そして、検出部120によって、変化が検出された場合であって、対象フレームと、隣接フレームとの境目と、再符号化後のフレーム間の境目とが一致していない場合、符号化部241は、変化が検出される前の、少なくとも1個の付加データ、及び、変化が検出された後の、少なくとも1個の付加データのいずれか一方として、付加データが存在する方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する。これにより、存在する付加データを利用するので、小振幅用の付加データを、再符号化後のフレームの付加データとして多重化することができる。
なお、このように、近傍の第2の期間として、2つ以上の第2の期間(第2の期間7Bb)があり、それぞれの第2の期間のDRCデータ(DRCデータ4B、4Ba)が含まれてなる2つ以上のDRCデータから、生成される第3の音声信号(例えば、期間7Baの音声信号5Biのうちの、期間7Bqの部分の音声信号、または、音声信号5Biそのものなど)の振幅が決定されてもよい。
なお、第3の音声信号の期間(例えば期間7Bq)は、それらの2つ以上のDRCデータの期間のうちの1つ以上の期間のうちのそれぞれと異なってもよい。
つまり、例えば、第3の音声信号の期間の長さ(期間7Bqの長さ、期間7Baの長さ、例えば、図9の例での、1536個のサンプルでの長さ)は、それらの2つ以上のDRCデータの期間(期間7Bb)のうちの何れの期間の長さ(1024個のサンプルでの長さ)とも異なってもよい。
そして、さらに具体的には、上述のように、例えば、それらの2つ以上のDRCデータの各々は、音声信号処理装置200により再符号化がされる前における、再符号化前の符号化信号でのデータでもよい。そして、生成される第3の音声信号は、上述された、再符号化前の符号化信号が再符号化された後における音声信号でもよい。
以上、本発明に係る音声信号処理装置及び音声信号処理方法について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を当該実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。
例えば、付加データは、ダウンミックス係数でもよい。ダウンミックス係数は、例えば、マルチチャンネルの音声信号を、ステレオの音声信号に変換するのに用いられるパラメータである。
また、上記の実施の形態では、デコード信号に対する加工処理として、信号の振幅の調整(音量の調整)及び再符号化を例に説明したが、これに限られない。
また、上記実施の形態1及び2に係る音声信号処理装置に含まれる各処理部は典型的には集積回路であるLSI(Large Scale Integration)として実現される。これらは個別に1チップ化されてもよいし、一部又は全てを含むように1チップ化されてもよい。
ここでは、LSIとしたが、集積度の違いにより、IC(Integrated Circuit)、システムLSI、スーパーLSI、ウルトラLSIと呼称されることもある。
また、集積回路化はLSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後にプログラムすることが可能なFPGA(Field Programmable Gate Array)、又はLSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて各処理部の集積化を行ってもよい。バイオ技術の適用等が可能性として考えられる。
また、本発明の実施の形態1及び2に係る、音声信号処理装置の機能の一部又は全てを、CPU(Central Processing Unit)等のプロセッサがプログラムを実行することにより実現してもよい。
さらに、本発明は上記プログラムであってもよいし、上記プログラムが記録された記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。
また、上記で用いた数字は、全て本発明を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。また、構成要素間の接続関係は、本発明を具体的に説明するために例示するものであり、本発明の機能を実現する接続関係はこれに限定されない。
さらに、上記の実施の形態は、ハードウェア及び/又はソフトウェアを用いて構成されるが、ハードウェアを用いる構成は、ソフトウェアを用いても構成可能であり、ソフトウェアを用いる構成は、ハードウェアを用いても構成可能である。
本発明に係る音声信号処理装置及び音声信号処理方法は、主観的な音質の劣化(図4の不適切な振幅6Bhの音声信号5Bhを参照)を抑制して、音質を高くすることができるという効果を奏し、例えば、オーディオプレーヤ、デジタルテレビ、デジタルレコーダなどにおいて、音質がより高くされるのに際し、利用することができる。
3Aa、3Ab、3Ba、3Bb 音声信号
3Xa、3Xb 音声信号
4、4A、4B、4Aa、4Ba DRCデータ
5X、5Aa、5Bi、5Bh 音声信号
6Bh、6Bi、6Aa 振幅
7Aa、7Ab、7Ba、7Bb 期間
7Xa、7Xb、7A、7B 期間
100、200 音声信号処理装置
100e 情報
100f 符号化データ
100g 付加データ
110 デコード部
110a デコード信号
120 検出部
130 蓄積部
140、240 加工部
141 音量調整部
241 符号化部

Claims (11)

  1. 音声信号がフレーム単位で符号化されたビットストリームを処理する音声信号処理装置であって、
    前記ビットストリームは、フレーム毎に、
    符号化された音声信号を示す符号化データと、
    前記符号化データをデコードすることで生成されるデコード信号の振幅に関する付加データと、
    前記符号化データの性質を示す属性情報とを含み、
    前記音声信号処理装置は、
    対象フレームの符号化データをデコードすることで、前記デコード信号を生成するデコード部と、
    前記デコード部によって生成された前記デコード信号を加工する加工部と、
    前記対象フレームと、当該対象フレームに連続する隣接フレームとの間で、前記属性情報が変化したか否かを検出する検出部と、
    前記対象フレームの付加データを含む少なくとも2個の前記付加データを蓄積するための蓄積部とを備え、
    前記加工部は、
    前記検出部によって変化が検出されなかった場合、前記蓄積部に蓄積された少なくとも2個の前記付加データを用いて、前記対象フレームの前記デコード信号を加工し、
    前記検出部によって変化が検出された場合、前記蓄積部に蓄積された付加データのうち、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみを用いて、前記対象フレームの前記デコード信号を加工する
    音声信号処理装置。
  2. 前記隣接フレームは、前記対象フレームの直前のフレームであり、
    前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの2個の付加データを蓄積し、
    前記加工部は、
    前記検出部によって変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、
    前記検出部によって変化が検出された場合、前記対象フレームの付加データを含む、変化が検出された後の少なくとも1個の付加データを用いて、前記対象フレームの前記デコード信号を加工する
    請求項1記載の音声信号処理装置。
  3. 前記隣接フレームは、前記対象フレームの直後のフレームであり、
    前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの2個の付加データを蓄積し、
    前記加工部は、
    前記検出部によって、変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、
    前記検出部によって、変化が検出された場合、前記対象フレームの付加データを含む、変化が検出される前の少なくとも1個の付加データを用いて、前記対象フレームの前記デコード信号を加工する
    請求項1記載の音声信号処理装置。
  4. 前記付加データは、前記デコード信号の振幅を調整するためのDRC(Dynamic Range Control)データであり、
    前記加工部は、前記DRCデータに基づいて、前記対象フレームの前記デコード信号の振幅を増減させる
    請求項1〜3のいずれか1項に記載の音声信号処理装置。
  5. 前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、
    前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出する
    請求項1〜4のいずれか1項に記載の音声信号処理装置。
  6. 前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、
    前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出する
    請求項1〜4のいずれか1項に記載の音声信号処理装置。
  7. 前記加工部は、
    前記ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、前記デコード信号を再符号化し、
    前記検出部によって、変化が検出されなかった場合、前記蓄積部に蓄積された、少なくとも2個の付加データを用いて、再符号化後のフレームに対応する付加データを生成し、
    前記検出部によって、変化が検出された場合、前記蓄積部に蓄積された各付加データのうち、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみを用いて、再符号化後のフレームに対応する付加データを生成する
    請求項1記載の音声信号処理装置。
  8. 前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、
    前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出し、
    前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の2つのフレームの間の境目とが一致していない場合、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方として、チャンネル数が多い方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する
    請求項7記載の音声信号処理装置。
  9. 前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、
    前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出し、
    前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の2つのフレーム間の境目とが一致していない場合、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方として、付加データが存在する方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する
    請求項7記載の音声信号処理装置。
  10. 前記付加データは、前記デコード信号の振幅を調整するためのDRCデータであり、
    前記加工部は、前記DRCデータに基づいて、再符号化後のフレームをデコードすることで生成される再デコード信号の振幅を調整するためのDRCデータを生成する
    請求項7〜9のいずれか1項に記載の音声信号処理装置。
  11. 音声信号がフレーム単位で符号化されたビットストリームを処理する音声信号処理方法であって、
    前記ビットストリームは、フレーム毎に、
    符号化された音声信号を示す符号化データと、
    前記符号化データをデコードすることで生成されるデコード信号の振幅に関する付加データと、
    前記符号化データの性質を示す属性情報とを含み、
    前記音声信号処理方法は、
    対象フレームの符号化データをデコードすることで、前記デコード信号を生成するデコードステップと、
    前記デコードステップにおいて生成された前記デコード信号を加工する加工ステップと、
    前記対象フレームと、当該対象フレームに連続する隣接フレームとの間で、前記属性情報が変化したか否かを検出する検出ステップと、
    前記加工ステップでは、
    前記検出ステップにおいて変化が検出されなかった場合、前記対象フレームの付加データを含む少なくとも2個の前記付加データを用いて、前記対象フレームの前記デコード信号を加工し、
    前記検出ステップにおいて変化が検出された場合、変化が検出される前の少なくとも1個の付加データ、及び、変化が検出された後の少なくとも1個の付加データのいずれか一方のみを用いて、前記対象フレームの前記デコード信号を加工する
    音声信号処理方法。
JP2012530521A 2010-08-23 2011-08-16 音声信号処理装置及び音声信号処理方法 Expired - Fee Related JP5650227B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012530521A JP5650227B2 (ja) 2010-08-23 2011-08-16 音声信号処理装置及び音声信号処理方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010186349 2010-08-23
JP2010186349 2010-08-23
PCT/JP2011/004602 WO2012026092A1 (ja) 2010-08-23 2011-08-16 音声信号処理装置及び音声信号処理方法
JP2012530521A JP5650227B2 (ja) 2010-08-23 2011-08-16 音声信号処理装置及び音声信号処理方法

Publications (2)

Publication Number Publication Date
JPWO2012026092A1 JPWO2012026092A1 (ja) 2013-10-28
JP5650227B2 true JP5650227B2 (ja) 2015-01-07

Family

ID=45723114

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012530521A Expired - Fee Related JP5650227B2 (ja) 2010-08-23 2011-08-16 音声信号処理装置及び音声信号処理方法

Country Status (5)

Country Link
US (1) US9472197B2 (ja)
EP (1) EP2610865B1 (ja)
JP (1) JP5650227B2 (ja)
CN (1) CN103003877B (ja)
WO (1) WO2012026092A1 (ja)

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8359205B2 (en) 2008-10-24 2013-01-22 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US9667365B2 (en) 2008-10-24 2017-05-30 The Nielsen Company (Us), Llc Methods and apparatus to perform audio watermarking and watermark detection and extraction
US10844689B1 (en) 2019-12-19 2020-11-24 Saudi Arabian Oil Company Downhole ultrasonic actuator system for mitigating lost circulation
CN112185398A (zh) * 2012-05-18 2021-01-05 杜比实验室特许公司 用于维持与参数音频编码器相关联的可逆动态范围控制信息的系统
US9601122B2 (en) * 2012-06-14 2017-03-21 Dolby International Ab Smooth configuration switching for multichannel audio
US9607624B2 (en) * 2013-03-29 2017-03-28 Apple Inc. Metadata driven dynamic range control
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9711152B2 (en) 2013-07-31 2017-07-18 The Nielsen Company (Us), Llc Systems apparatus and methods for encoding/decoding persistent universal media codes to encoded audio
US20150039321A1 (en) 2013-07-31 2015-02-05 Arbitron Inc. Apparatus, System and Method for Reading Codes From Digital Audio on a Processing Device
CN109920440B (zh) * 2013-09-12 2024-01-09 杜比实验室特许公司 用于各种回放环境的动态范围控制
WO2015144587A1 (en) 2014-03-25 2015-10-01 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder device and an audio decoder device having efficient gain coding in dynamic range control
US20150286460A1 (en) * 2014-04-03 2015-10-08 Analog Devices Global Apparatus and methods for gracefully managing audio discontinuity
CN106463125B (zh) * 2014-04-25 2020-09-15 杜比实验室特许公司 基于空间元数据的音频分割
ES2912586T3 (es) 2014-10-01 2022-05-26 Dolby Int Ab Descodificación de una señal de audio codificada usando perfiles DRC
EP3518236B8 (en) * 2014-10-10 2022-05-25 Dolby Laboratories Licensing Corporation Transmission-agnostic presentation-based program loudness
PL3822969T3 (pl) * 2017-01-10 2024-01-08 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Dekoder audio, enkoder audio, sposób dostarczania dekodowanego sygnału audio, sposób dostarczania enkodowanego sygnału audio, strumień audio, moduł dostarczania strumienia audio i program komputerowy używający identyfikator strumienia
CN113113046B (zh) * 2021-04-14 2024-01-19 杭州网易智企科技有限公司 音频处理的性能检测方法、装置、存储介质及电子设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007274163A (ja) * 2006-03-30 2007-10-18 Oki Electric Ind Co Ltd 自動利得制御装置
JP2008078888A (ja) * 2006-09-20 2008-04-03 Sharp Corp 音声再生装置、映像音声再生装置、及びその音場モード切り替え方法
JP2008078879A (ja) * 2006-09-20 2008-04-03 Sharp Corp 音声再生装置、映像音声再生装置、及びその音場モード切り替え方法
JP2008288935A (ja) * 2007-05-18 2008-11-27 Panasonic Corp 音声処理装置
JP2009289385A (ja) * 2008-06-02 2009-12-10 Nec Electronics Corp デジタルオーディオ信号処理装置、及び方法
JP2010507330A (ja) * 2006-10-20 2010-03-04 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション リセットを用いるオーディオダイナミクス処理

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE60045538D1 (de) * 1999-09-02 2011-03-03 Panasonic Corp Aufnahmeanlage und Kodieranlage
SE522261C2 (sv) * 2000-05-10 2004-01-27 Global Ip Sound Ab Kodning och avkodning av en digital signal
US6782366B1 (en) * 2000-05-15 2004-08-24 Lsi Logic Corporation Method for independent dynamic range control
US6785655B1 (en) * 2000-05-15 2004-08-31 Lsi Logic Corporation Method for independent dynamic range control
DE10124699C1 (de) * 2001-05-18 2002-12-19 Micronas Gmbh Schaltungsanordnung zur Verbesserung der Verständlichkeit von Sprache enthaltenden Audiosignalen
JP4219898B2 (ja) * 2002-10-31 2009-02-04 富士通株式会社 音声強調装置
WO2005048609A1 (en) * 2003-11-13 2005-05-26 Matsushita Electric Industrial Co., Ltd. Packetization of variable bit rate encoded data based on rate control
JP4374448B2 (ja) * 2004-07-02 2009-12-02 日本電信電話株式会社 多チャネル信号符号化方法、その復号化方法、これらの装置、プログラム及びその記録媒体
WO2006009087A1 (ja) * 2004-07-20 2006-01-26 Matsushita Electric Industrial Co., Ltd. ストリームデータ受信再生装置およびストリームデータ受信再生方法
CN1780326A (zh) * 2005-01-05 2006-05-31 展讯通信(上海)有限公司 通话音量自适应调节方法
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
JP4737683B2 (ja) * 2006-06-22 2011-08-03 ルネサスエレクトロニクス株式会社 シリアル伝送システム、伝送装置、及びシリアル伝送方法
US7853649B2 (en) * 2006-09-21 2010-12-14 Apple Inc. Audio processing for improved user experience
US20080080722A1 (en) * 2006-09-29 2008-04-03 Carroll Tim J Loudness controller with remote and local control
MX2008013078A (es) * 2007-02-14 2008-11-28 Lg Electronics Inc Metodos y aparatos para codificar y descodificar señales de audio basadas en objeto.
US20090132242A1 (en) * 2007-11-19 2009-05-21 Cool-Idea Technology Corp. Portable audio recording and playback system
JP4968147B2 (ja) * 2008-03-31 2012-07-04 富士通株式会社 通信端末、通信端末の音声出力調整方法
US9373339B2 (en) * 2008-05-12 2016-06-21 Broadcom Corporation Speech intelligibility enhancement system and method
US8798776B2 (en) * 2008-09-30 2014-08-05 Dolby International Ab Transcoding of audio metadata
JP2010114803A (ja) * 2008-11-10 2010-05-20 Panasonic Corp 音声処理装置
US8577060B2 (en) * 2009-07-02 2013-11-05 Avaya Inc. Method and apparatus for dynamically determining mix sets in an audio processor

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007274163A (ja) * 2006-03-30 2007-10-18 Oki Electric Ind Co Ltd 自動利得制御装置
JP2008078888A (ja) * 2006-09-20 2008-04-03 Sharp Corp 音声再生装置、映像音声再生装置、及びその音場モード切り替え方法
JP2008078879A (ja) * 2006-09-20 2008-04-03 Sharp Corp 音声再生装置、映像音声再生装置、及びその音場モード切り替え方法
JP2010507330A (ja) * 2006-10-20 2010-03-04 ドルビー・ラボラトリーズ・ライセンシング・コーポレーション リセットを用いるオーディオダイナミクス処理
JP2008288935A (ja) * 2007-05-18 2008-11-27 Panasonic Corp 音声処理装置
JP2009289385A (ja) * 2008-06-02 2009-12-10 Nec Electronics Corp デジタルオーディオ信号処理装置、及び方法

Also Published As

Publication number Publication date
WO2012026092A1 (ja) 2012-03-01
CN103003877A (zh) 2013-03-27
JPWO2012026092A1 (ja) 2013-10-28
US20130144631A1 (en) 2013-06-06
EP2610865B1 (en) 2014-07-23
CN103003877B (zh) 2014-12-31
EP2610865A1 (en) 2013-07-03
EP2610865A4 (en) 2013-12-18
US9472197B2 (en) 2016-10-18

Similar Documents

Publication Publication Date Title
JP5650227B2 (ja) 音声信号処理装置及び音声信号処理方法
US10643630B2 (en) High frequency replication utilizing wave and noise information in encoding and decoding audio signals
TWI524330B (zh) 用於新媒體設備上之具有及不具有嵌入式響度元資料之媒體之標準化音訊播放的方法及裝置
JP5129888B2 (ja) トランスコード方法、トランスコーディングシステム及びセットトップボックス
JP5046654B2 (ja) スケーラブル復号装置及びスケーラブル復号方法
ES2900065T3 (es) Concepto para la compresión combinada del intervalo dinámico y prevención guiada de recortes para dispositivos de audio
ES2738494T3 (es) Metadatos para control de sonoridad y rango dinámico
JP5236006B2 (ja) 音声信号調整装置及び音声信号調整方法
US20090061785A1 (en) Scalable decoder and scalable decoding method
TW201042637A (en) Signal clipping protection using pre-existing audio gain metadata
WO2010129808A1 (en) Hybrid permanent/reversible dynamic range control system
KR20230156156A (ko) 라우드니스 레벨을 제어하는 오디오 신호 처리 방법 및 장치
US20100185916A1 (en) Audio reproduction device, information reproduction system, audio reproduction method, and program
EP2610867A1 (en) Audio reproducing device and audio reproducing method
JP2009296297A (ja) 音声信号処理装置および方法
US20120257760A1 (en) Systems and Methods for Adjusting Audio Levels in a Plurality of Audio Signals
JP5527827B2 (ja) ラウドネス調整装置、ラウドネス調整方法、及びプログラム
JP2009206869A (ja) 音響装置、音響信号処理方法、音響信号処理プログラム及び記録媒体
US8948417B2 (en) Characteristic correcting device and characteristic correcting method
WO2018131513A1 (ja) 情報処理装置および方法、並びにプログラム
JP2007293214A (ja) 話速変換装置及びテレビジョン受像機並びに話速変換方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140521

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20141104

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20141112

R151 Written notification of patent or utility model registration

Ref document number: 5650227

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees