JP5650227B2

JP5650227B2 - 音声信号処理装置及び音声信号処理方法

Info

Publication number: JP5650227B2
Application number: JP2012530521A
Authority: JP
Inventors: 宮阪　修二; 修二宮阪; 理史新崎; 伸赤松; 山田　周平; 周平山田
Original assignee: Panasonic Corp; Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Corp; Panasonic Holdings Corp
Priority date: 2010-08-23
Filing date: 2011-08-16
Publication date: 2015-01-07
Anticipated expiration: 2031-08-16
Also published as: WO2012026092A1; CN103003877A; JPWO2012026092A1; US20130144631A1; EP2610865B1; CN103003877B; EP2610865A1; EP2610865A4; US9472197B2

Description

本発明は、音声信号が符号化されたビットストリームを処理する音声信号処理装置及び音声信号処理方法に関する。特に、本発明は、ビットストリームをデコードし、デコードがされた後における信号を、その信号へとデコードされたビットストリームに含まれる付加データを用いて加工する音声信号処理装置及び音声信号処理方法に関する。

従来、音声信号を圧縮符号化することで生成されたビットストリームをデコードすることで、デコード信号を生成し、生成したデコード信号に、所定の処理を行う音声信号処理装置が知られている。

例えば、デコード信号を可聴信号として出力する音声信号再生装置、及び、デコード信号を、そのデコード信号が符号化された符号化方式とは異なる符号化方式に従って再符号化して、再符号化後の信号を生成するトランスコード装置などが知られている。

従来の音声信号処理装置は、ビットストリームが、音量の大きい部分を圧縮するためのＤＲＣ（ＤｙｎａｍｉｃＲａｎｇｅＣｏｎｔｒｏｌ）データを、フレーム単位で含んでいる場合、含まれているＤＲＣデータを用いて、デコード信号の振幅を調整している。

例えば、特許文献１には、音声信号のチャンネル数に応じて、ＤＲＣデータを用いた処理（ＤＲＣ機能）のオン／オフを切り替えて符号化する技術が開示されている。例えば、５．１ｃｈの音声信号に対しては、ＤＲＣ機能をオンにすることで、デコード信号の振幅を抑制し、２ｃｈの音声信号に対しては、ＤＲＣ機能をオフにすることで、デコード信号の振幅を抑制しない。これにより、音声信号のチャンネルの切り替わり部分において、急激な音量の変化が生じてしまうのを防止することができる。

また、非特許文献１には、連続する２つのフレームの間で、ＤＲＣデータが変化した場合に、ＤＲＣデータのスムージングを行う技術が開示されている。ＤＲＣデータをスムージングすることにより、急激な音量の変化を防止することができる。

特開２０１０−１１４８０３号公報

ＩＳＯ／ＩＥＣ１４４９６−３

しかしながら、上記従来技術では、入力されるビットストリームによっては、本来、小さな振幅に圧縮されるべきデコード信号が、大きな振幅のまま出力される場合があるという課題がある。大きな振幅の部分（例えば、図８における、第４フレームでの部分９ａなどを参照）は、聞き手に違和感を与えるので、従来技術によれば、主観的な音質が劣化するという課題がある。

そこで、本発明は、主観的な音質の劣化（図４の不適切な振幅６Ｂｈの音声信号５Ｂｈを参照）を抑制して、音質を高くすることができる音声信号処理装置及び音声信号処理方法を提供することを目的とする。

上記目的を達成するために、本発明の一態様に係る音声信号処理装置は、音声信号がフレーム単位で符号化されたビットストリームを処理する音声信号処理装置であって、前記ビットストリームは、フレーム毎に、符号化された音声信号を示す符号化データと、前記符号化データをデコードすることで生成されるデコード信号の振幅に関する付加データ（ＤＲＣデータなど）と、前記符号化データの性質を示す属性情報（ステレオ放送でのデータか、マルチチャンネル放送でのデータかを示す情報など）とを含み、前記音声信号処理装置は、対象フレームの符号化データをデコードすることで、前記デコード信号を生成するデコード部と、前記デコード部によって生成された前記デコード信号を加工する加工部と、前記対象フレーム（第１の期間のフレーム）と、当該対象フレームに連続する隣接フレーム（第２の期間のフレーム）との間で、前記属性情報が変化したか否かを検出する検出部と、前記対象フレームの付加データを含む少なくとも２個の前記付加データを蓄積するための蓄積部とを備え、前記加工部は、前記検出部によって変化が検出されなかった場合（図５の期間７Ａを参照）、前記蓄積部に蓄積された少なくとも２個の前記付加データを用いて（第２の期間での付加データも用いて）、前記対象フレームの前記デコード信号を加工し（第２の期間の付加データから決定される振幅の信号へと加工し）、前記検出部によって変化が検出された場合、前記蓄積部に蓄積された付加データのうち、変化が検出される前の少なくとも１個の付加データ、及び、変化が検出された後の少なくとも１個の付加データのいずれか一方のみを用いて（第２の期間での付加データを用いずに）、前記対象フレームの前記デコード信号を加工する。

本構成によれば、属性情報の変化が検出された場合には、変化が検出される前の付加データ、及び、変化が検出された後の付加データのいずれか一方のみを用いて（第２の期間での付加データを用いずに）、対象フレームのデコード信号を加工する。すなわち、変化が検出された時点を跨ぐようには、付加データを用いない。すなわち、音声信号の性質が大きく異なったフレームの付加データ（第１の期間での第１の属性情報とは異なる第２の属性情報の第２の期間での付加データ）を利用しない。このため、加工により生成される、第１の期間での、加工後の信号における、主観的な音質の劣化を抑制することができる。例えば、本来、小さな振幅に圧縮されるべきデコード信号の振幅を、大振幅（図４の振幅６Ｂｈを参照）に加工して、不適切な振幅に加工してしまうことなどを防止することができる。つまり、加工後における振幅が、適切な振幅（図５の振幅６Ｂｉを参照）にされて、音質が高くできる。

また、前記隣接フレームは、前記対象フレームの直前のフレームであり、前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの２つの付加データを蓄積し、前記加工部は、前記検出部によって変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、前記検出部によって変化が検出された場合、前記対象フレームの付加データを含む、変化が検出された後の少なくとも１個の付加データを用いて、前記対象フレームの前記デコード信号を加工してもよい。

本構成によれば、変化が検出された後の少なくとも１個の付加データを利用し、変化が検出される前の性質の異なるフレームの付加データを利用しない。つまり、対象フレームと性質が同じフレームの付加データを利用し、性質が異なるフレームの付加データを利用しないので、主観的な音質の劣化を抑制することができる。

また、前記隣接フレームは、前記対象フレームの直後のフレームであり、前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの２つの付加データを蓄積し、前記加工部は、前記検出部によって、変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、前記検出部によって、変化が検出された場合、前記対象フレームの付加データを含む、変化が検出される前の少なくとも１個の付加データを用いて、前記対象フレームの前記デコード信号を加工してもよい。

本構成によれば、変化が検出される前の少なくとも１個の付加データを利用し、変化が検出された後の性質の異なるフレームの付加データを利用しない。つまり、対象フレームと性質が同じフレームの付加データを利用し、性質が異なるフレームの付加データを利用しないので、主観的な音質の劣化を抑制することができる。

また、前記付加データは、前記デコード信号の振幅を調整するためのＤＲＣデータであり、前記加工部は、前記ＤＲＣデータに基づいて、前記対象フレームの前記デコード信号の振幅を増減させてもよい。

本構成によれば、ＤＲＣデータを用いてデコード信号の振幅を調整するので、出力される音声信号の音量を容易に調整することができる。

また、前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出してもよい。

本構成によれば、チャンネル数が同じであるか異なっているかを判定することで、フレームの性質が大きく異なったか否かを容易に判断することができる。つまり、対象フレームと隣接フレームとの間でチャンネル数が異なっている場合には、音声コンテンツが異なっていると考えられる。したがって、音声コンテンツが異なるフレームの付加データを対象フレームに適用しないので、主観的な音質の劣化を抑制することができる。

また、前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出してもよい。

本構成によれば、付加データの有無を判定することで、フレームの性質が大きく異なったか否かを容易に判断することができる。つまり、対象フレームと隣接フレームとの間で付加データの有無が異なっている場合には、音声コンテンツが異なっていると考えられる。したがって、音声コンテンツが異なるフレームの付加データを対象フレームに適用しないので、主観的な音質の劣化を抑制することができる。

また、前記加工部は、前記ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、前記デコード信号を再符号化し、前記検出部によって、変化が検出されなかった場合、前記蓄積部に蓄積された、少なくとも２個の付加データを用いて、再符号化後のフレームに対応する付加データを生成し、前記検出部によって、変化が検出された場合、前記蓄積部に蓄積された各付加データのうち、変化が検出される前の少なくとも１個の付加データ、及び、変化が検出された後の少なくとも１個の付加データのいずれか一方のみを用いて、再符号化後のフレームに対応する付加データを生成してもよい。

本構成によれば、デコード信号を異なるフレーム長のフレーム単位で再符号化する際に、適切な付加データを生成することができる。例えば、本来であれば、小振幅用の付加データが多重化されるべきフレームに、大振幅用の付加データが多重化されて、主観的な音質が劣化してしまうことを防止することができる。

また、前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出し、前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の２つのフレーム間の境目とが一致していない場合、変化が検出される前の少なくとも１個の付加データ、及び、変化が検出された後の少なくとも１個の付加データのいずれか一方として、チャンネル数が多い方の付加データを用いて、再符号化後のフレームに対応する付加データを生成してもよい。

本構成によれば、対象フレームと隣接フレームとの境目、すなわち、属性情報の変化の検出された時点（変化点）と、再符号化後のフレームの境目とが一致していない場合に、チャンネル数の多い方のフレームの付加データを利用して再符号化後のフレームに対応する付加データを生成する。変化点と再符号化後のフレームの境目とが一致していない場合は、性質が異なる複数のフレームが、１つのフレームとして再符号化される。このときに、チャンネル数の多い方のフレームの付加データを利用することで、小振幅用の付加データを再符号化後のフレームの付加データとして多重化することができる。

また、前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出し、前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の２つのフレーム間の境目とが一致していない場合、変化が検出される前の少なくとも１個の付加データ、及び、変化が検出された後の少なくとも１個の付加データのいずれか一方として、付加データが存在する方の付加データを用いて、再符号化後のフレームに対応する付加データを生成してもよい。

本構成によれば、変化点と再符号化後のフレームの境目とが一致していない場合に、存在する付加データを利用して再符号化後のフレームに対応する付加データを生成する。変化点と再符号化後のフレームの境目とが一致していない場合は、性質が異なる複数のフレームが、１つのフレームとして再符号化される。このときに、存在する付加データを利用することで、小振幅用の付加データを再符号化後のフレームの付加データとして多重化することができる。

また、前記付加データは、前記デコード信号の振幅を調整するためのＤＲＣデータであり、前記加工部は、前記ＤＲＣデータに基づいて、再符号化後のフレームをデコードすることで生成される再デコード信号の振幅を調整するためのＤＲＣデータを生成してもよい。

本構成によれば、ＤＲＣデータを再符号化後のフレームに多重化するので、再符号化後のフレームをさらにデコードした場合に、出力される音声信号の音量を容易に調整することができる。

なお、本発明は、音声信号処理装置として実現できるだけではなく、当該音声信号処理装置を構成する処理手段をステップとする方法として実現することもできる。

以上のように、本発明に係る音声信号処理装置及び音声信号処理方法によれば、主観的な音質の劣化（図４の不適切な振幅６Ｂｈの音声信号５Ｂｈを参照）を抑制して、音質を高くすることができる。

図１は、本発明の実施の形態１に係る音声信号処理装置の構成の一例を示すブロック図である。図２は、本発明の実施の形態１に係る音声信号処理装置に入力されるビットストリームの構造の一例を示す図である。図３は、本発明の実施の形態１に係る付加データを用いた音量の調整処理の一例を説明するための図である。図４は、本発明の実施の形態１に係る音声信号処理装置が解決する課題を説明するための図である。図５は、本発明の実施の形態１に係る音声信号処理装置の動作及び効果を説明するための図である。図６は、本発明の実施の形態１に係る音声信号処理装置の動作の一例を示すフローチャートである。図７は、本発明の実施の形態２に係る音声信号処理装置の構成の一例を示すブロック図である。図８は、本発明の実施の形態２に係る音声信号処理装置が解決する課題を説明するための図である。図９は、本発明の実施の形態２に係る音声信号処理装置の動作及び効果を説明するための図である。図１０は、本発明の実施の形態２に係る音声信号処理装置の動作の一例を示すフローチャートである。

以下、本発明に係る音声信号処理装置及び音声信号処理方法の実施の形態について、図面を参照しながら詳細に説明する。

(実施の形態１)
本発明の実施の形態１に係る音声信号処理装置（音声信号処理装置１００）は、対象フレーム（例えば、図４、図５の第１の期間７Ａａ）の符号化データ（図１の符号化データ１００ｆを参照）をデコードすることで、デコード信号（図５の第１の音声信号３Ａａ）を生成するデコード部（デコード部１１０）と、生成されたデコード信号（第１の音声信号３Ａａ）を加工する加工部（加工部１４０）と、対象フレーム（第１の期間７Ａａ、７Ｂａ））と、隣接フレーム（近傍の第２の期間７Ａｂ、７Ｂｂ）との間で、属性情報（音声信号の種類、例えば、図５等の例での、マルチチャンネル放送の音声信号であるか、ステレオ放送の音声信号であるかなど）が変化したか否かを検出する検出部（検出部１２０）と、対象フレーム（第１の期間７Ａａ、７Ｂａ）の付加データを含む少なくとも２個以上の付加データ（対象フレームのＤＲＣデータ４Ａａ、４Ｂａ、隣接フレームのＤＲＣデータ４Ａ、４Ｂ）を蓄積するための蓄積部（蓄積部１３０）とを備える。そして、加工部は、検出部によって、変化が検出されなかった場合（期間７Ａの場合）、蓄積部に蓄積された、近傍の第２の期間７ＡｂのＤＲＣデータ４Ａを含む、少なくとも２個の付加データを用いて、対象フレーム（第１の期間７Ａａ）のデコード信号（第１の音声信号３Ａａ）を加工し、検出部によって変化が検出された場合（期間７Ｂの場合）、蓄積部に蓄積された付加データのうち、変化が検出される前の少なくとも１個の付加データ（ＤＲＣデータ４Ｂ）、及び、変化が検出された後の少なくとも１個の付加データ（ＤＲＣデータ４Ｂａ）のうちのいずれか一方のみ（その一方のみが用いられれば、不適切な振幅（図４の振幅６Ｂｈを参照）が生じない方である一方（ＤＲＣデータ４Ｂａ）のみ）を用いて（近傍の第２の期間７ＢｂのＤＲＣデータ４Ｂを用いずに）、対象フレームのデコード信号（第１の音声信号３Ｂａ）を加工することを特徴とする。

すなわち、例えば、第１の音声信号３Ｘａの種類（ステレオ放送の音声信号か、マルチチャンネル放送）が、第１の音声信号３Ｘａにより示す音声の第１の期間７Ｘａに近い（類似する、近傍の）第２の期間７Ｘｂにおける音声を示す第２の音声信号３Ｘｂの種類と同じ種類か否かが検出される（図６のＳ１０３）。第２の音声信号３ＸｂのＤＲＣデータ４は、同じ種類の場合にのみ、そのＤＲＣデータ４での調整後の振幅が、適切な振幅（例えば図５の振幅６Ａａ）であり、同じ種類でない場合には、適切でない振幅（例えば図４の振幅６Ｂｈ）であるＤＲＣデータである。そして、同じ種類と検出された場合にのみ（Ｓ１０３のＮｏ、期間７Ａ）、生成される第３の音声信号５Ｘ（第３の音声信号５Ａａ）の振幅が、近い第２の期間７Ｘｂ（第２の期間７Ａｂ）のＤＲＣデータ４（ＤＲＣデータ４Ａ）から決定される振幅（振幅６Ａａ）にされて、その振幅の第３の音声信号５Ｘを生成させる制御がされたり、その生成の処理そのものがされたりする。同じ種類でないと検出された場合には（Ｓ１０３のＹｅｓ、期間７Ｂ）、近い第２の期間７Ｘｂ（第２の期間７Ｂｂ）のＤＲＣデータ４（ＤＲＣデータ４Ｂ）から決定される振幅（振幅６Ｂｈ）にされず、その他の振幅（そのＤＲＣデータ４以外の他のデータのみ（例えばＤＲＣデータ４Ｂａのみ）から決定される振幅）にされる。

これにより、期間７Ａの場合に、加工がされた後の加工後の第３の音声信号（第３の音声信号５Ａａ）が、高い音質の音声信号になるだけに止まらなくなる。

すなわち、期間７Ｂの場合に、加工後の第２の音声信号が、低い音質の音声信号（図４の、不適切な振幅６Ｂｈの第２の音声信号５Ｂｈ）になってしまうのが回避され、高い音質の音声信号（図５の、適切な振幅６Ｂｉの第２の音声信号５Ｂｉ）にできる。

これにより、何れの場合にも、音質が高くできて、確実に、音質が高くできる。

まず、本発明の実施の形態１に係る音声信号処理装置の構成を説明する。

図１は、本発明の実施の形態１に係る音声信号処理装置１００の構成の一例を示すブロック図である。

音声信号処理装置１００は、音声信号がフレーム単位で符号化されたビットストリームを処理する。

本発明の実施の形態１に係る音声信号処理装置１００は、ビットストリーム（ビットストリーム１００ａ）をデコードすることで、ビットストリームがデコードされたデコード信号を生成する。そして、生成したデコード信号の音量を調整し、調整後のデコード信号を、可聴信号として出力する。

ここで、音声信号処理装置１００に入力されるビットストリームについて、図２を用いて説明する。

図２は、本発明の実施の形態１に係る音声信号処理装置１００に入力されるビットストリームの構造の一例を示す図である。

なお、図２では、ビットストリームを構成する複数のフレームの１つ（フレーム１００ｂ）について示している。

ビットストリームの１つのフレーム（フレーム１００ｂ）は、図２に示すように、ヘッダ（ヘッダ１００ｃ）と、データブロック（データ１００ｄ）とを含んでいる。ヘッダには、情報（属性情報）１００ｅが含まれる。データブロックには、符号化データと付加データ（メタデータ）とが含まれる（データ（付加データ）１００ｆ、１００ｇ）。

符号化データは、符号化された音声信号を示すデータである。すなわち、符号化データは、所定の符号化規格に基づいて符号化された、１フレーム分の、その１フレーム分の長さにおける期間（図３のフレーム２ｆなどを参照）での音声信号を示している。

付加データは、符号化データをデコードすることで生成されるデコード信号の振幅に関するデータである。

つまり、付加データは、デコード信号の振幅を調整するためのＤＲＣデータなどである。ＤＲＣデータを用いることで、デコード信号の振幅を大きく、又は、小さくすることができる。

属性情報は、符号化データの性質を示す情報である。

例えば、属性情報は、その属性情報に対応するフレーム（その属性情報が含まれるヘッダが含まれるフレーム）の、符号化された音声信号のチャンネル数を示す。

具体的には、属性情報は、音声信号がマルチチャンネル放送（５．１ｃｈ、７．１ｃｈなど）であるか、ステレオ放送（２ｃｈ）であるかを示す。

以上のように、ビットストリームは、フレーム毎に区分された符号化データ（データ１００ｆ）を含み、そのビットストリームに含まれる１以上の符号化データのうちのそれぞれの符号化データに対応する、付加データと属性情報とを各々含んでいる。

なお、図２に示す属性情報及び付加データの、フレーム内の位置は、一例であって、この例には限定されない。例えば、ヘッダに、付加データが含まれていてもよく、また、付加データに、属性情報が含まれていてもよい。さらに、ヘッダとデータブロックとの両方に、属性情報及び付加データが含まれていてもよい。

図１に戻ると、音声信号処理装置１００は、デコード部１１０と、検出部１２０と、蓄積部１３０と、加工部１４０とを備える。

デコード部１１０は、対象フレーム（例えば、図３の対象フレーム２ｆｘ）の符号化データをデコードすることで、その符号化データがデコードされた信号であるデコード信号（例えば、図４の第１の音声信号３Ｂａなど）を生成する。

検出部１２０は、対象フレーム（例えば、図２のフレーム１００ｍ（図５の期間７Ｘａを参照））と、当該対象フレームに連続する（隣接する）隣接フレーム（フレーム１００ｎ（図５の期間７Ｘｂ参照））との間で、属性情報が変化したか否かを検出する。

すなわち、検出部１２０は、付加データの属性情報が、連続する、それらの、対象フレームおよび隣接フレームの２つのフレームの間で変化したか否かを検出する。

例えば、検出部１２０は、属性情報を参照することで、対象フレームと、隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出する。

なお、隣接フレームは、例えば、入力順又は処理順で、対象フレームの直前のフレーム（直前フレーム）である。

蓄積部１３０は、対象フレームの付加データを含む、少なくとも２個の付加データを蓄積するためのメモリである。具体的には、蓄積部１３０は、少なくとも、対象フレームの付加データ（図１に示される、フレーム１００ｍの付加データ１３１ｍ）と、隣接フレームの付加データ（フレーム１００ｎの付加データ１３１ｎ）との２つの付加データを蓄積する。

加工部１４０は、デコード部１１０によって生成された信号（デコード信号）１１０ａ（図１）を加工する。

具体的には、加工部１４０は、検出部１２０によって、対象フレームと、隣接フレームとの間において、属性情報の変化が検出されなかった場合、次の動作をする。

その動作では、蓄積部１３０に蓄積された、少なくとも２個の付加データの両方を用いて、対象フレームのデコード信号を加工する。

また、加工部１４０は、検出部１２０によって、対象フレームと、隣接フレームとの間において、属性情報の変化が検出された場合、次の動作をする。

その動作では、蓄積部１３０に蓄積された付加データのうち、変化が検出される前の、少なくとも１個の付加データ、及び、変化が検出された後の、少なくとも１個の付加データのいずれか一方のみを用いて、対象フレームのデコード信号を加工する。

本発明の実施の形態１では、加工部１４０は、図１に示される音量調整部１４１を備える。

音量調整部１４１は、付加データを用いて、対象フレームのデコード信号の音量を調整する。

例えば、音量調整部１４１は、対象フレームのＤＲＣデータ（付加データ１００ｇ）を用いて、音量調整用の係数を算出し、算出した係数を用いて、対象フレームのデコード信号の振幅を調整する。

また、対象フレームのＤＲＣデータ（付加データ１３１ｍ）と、直前フレームのＤＲＣデータ（付加データ１３１ｎ）とが異なっている場合には、音量調整部１４１は、対象フレームのＤＲＣデータと、直前フレームのＤＲＣデータとをスムージングすることで、音量調整用の係数を算出する。そして、音量調整部１４１は、算出した係数を用いて、対象フレーム（フレーム１００ｍ）のデコード信号の振幅を調整する。

以下では、付加データを用いた、音量の調整処理について、図３を用いて詳細に説明する。

図３は、本発明の実施の形態１に係る、付加データを用いた、音量の調整処理の一例を説明するための図である。

図３に示す例では、信号（デコード信号）１１０ａは、マルチチャンネル放送の音声信号（音声信号１１０ｐなど）と、ステレオ放送の音声信号（音声信号１１０ｑなど）とを含んでいる。

デコード信号は、フレーム毎に区分され、各フレーム（フレーム２ｆ）は、付加データ（メタデータ、付加データ１００ｇ）として、ＤＲＣデータ（ＤＲＣデータ１１０ｓ、１１０ｔなど）を含んでいる。

マルチチャンネル放送のフレーム（信号１１０ｐのフレーム２ｆ）の場合、当該フレームのＤＲＣデータ（付加データ）は、デコード信号の振幅を小さくするような、小振幅用のＤＲＣデータである。

また、ステレオ放送のフレーム（信号１１０ｑのフレーム２ｆ）の場合、当該フレームのＤＲＣデータ（付加データ）は、デコード信号の振幅を大きくするような、大振幅用のＤＲＣデータである。

ステレオ放送の場合には、通常、２個のスピーカを利用するのに対して、マルチチャンネル放送の場合には、例えば、６個のスピーカなどの、より多くのスピーカを利用する。このため、同一の振幅のデコード信号を出力すると、マルチチャンネル放送の方が大きく聞こえてしまう。このため、マルチチャンネル放送のデコード信号の振幅を小さくするように、ＤＲＣデータが、付加される。

このように、図３に示す例では、マルチチャンネル放送（又は、ステレオ放送）の音声信号では、共通して、小振幅用のＤＲＣデータ（又は、大振幅用のＤＲＣデータ）が付加されている。

なお、これらは、単なる一例であって、マルチチャンネル放送の音声信号内で、互いに異なる２つのＤＲＣデータが付加されていてもよい。すなわち、フレーム毎に、ＤＲＣデータを自由に設定することができる。

例えば、音量調整部１４１（図１）は、小振幅用のＤＲＣデータを用いることで、大振幅用のＤＲＣデータを用いる場合よりも、デコード信号の振幅を小さくすることができる。

時間的に連続する２つのフレーム（例えば、対象フレームと隣接フレーム）の間で、ＤＲＣデータが互いに異なっている場合、音量調整部１４１は、ＤＲＣデータをスムージング（図４のスムージング４ｘも参照）する。これにより、音量を滑らかに変化させることができる。

例えば、図３に示す対象フレーム（対象フレーム２ｆｘ）の音量を調整する場合、音量調整部１４１は、対象フレームのＤＲＣデータ（大振幅用）と、直前のフレーム（隣接フレーム２ｆｙ）のＤＲＣデータ（小振幅用）とを、スムージングする。

スムージングとは、例えば、次の処理などをいう。つまり、その処理では、フレーム内の最初のサンプルに対して、直前のフレームのＤＲＣデータを用い、フレーム内の最後のサンプルに対して、対象フレームのＤＲＣデータを用いる。そして、残りのサンプルに対して、振幅が滑らかになるように、最初のサンプルでの振幅と、最後のサンプルでの振幅との間の中間の振幅にすることを行う。

以上のように、ＤＲＣデータが変化する場合には、変化する前のＤＲＣデータと、変化する後のＤＲＣデータとをスムージングすることで、音量を、滑らかに変化させることができる。

しかしながら、例えば、図４に示すようなデコード信号に対して、ＤＲＣデータのスムージングを行うと、本来、小さな振幅に圧縮されるべきデコード信号が、大きな振幅（不適切な振幅６Ｂｈを参照）のまま出力されてしまうという課題がある。

図４は、本発明の実施の形態１に係る音声信号処理装置が解決する課題を説明するための図である。

図４に示すデコード信号は、ステレオ放送の音声信号の４つの区間のうちで、最初と最後の区間に、無音のフレームを含んでいる。例えば、映画などのマルチチャンネル放送の間に、ＣＭ（コマーシャル）などのステレオ放送が挿入される場合などがある。

図４に示すように、対象フレームのＤＲＣデータと、直前のフレームのＤＲＣデータとが異なっているので、音量調整部１４１は、これらのＤＲＣデータをスムージングする。

これにより、マルチチャンネル放送の対象フレーム（期間７Ｂａを参照）は、本来、小振幅になるように、音量が調整されるべきフレームであるのに、図４に示すように、大振幅から小振幅になるように、デコード信号の振幅が調整される。これにより、無音状態から、突然、大きな振幅のデコード信号が出力されるので、この部分のデコード信号は、聞き手にとって不快な音として聞こえる。

つまり、単純に、ＤＲＣデータをスムージングするだけでは、主観的な音質の劣化を防止することができない。

これに対して、本発明の実施の形態１に係る音声信号処理装置１００は、属性情報の変化を検出し、属性情報が変化した場合には（後述の図６のＹｅｓ）、変化検出前及び変化検出後の何れか一方（その一方のみが用いられれば、不適切な振幅６Ｂｈが生じない方である一方）のみのＤＲＣデータを用いて、デコード信号の振幅を調整する。

すなわち、音声信号処理装置１００は、スムージングに用いる複数のＤＲＣデータが、属性情報が変化した時点（変化点）を跨いでいる場合には、複数のＤＲＣデータを、変化点を跨ぐようには用いない。

これにより、属性情報が変わることで、デコード信号そのものが大きく変化している部分で、異なる属性情報に対応するＤＲＣデータのスムージングを行わないので、違和感のある音が出力されてしまうことを防止することができる。

また、本発明の実施の形態１に係る音声信号処理装置１００は、属性情報が変化していない場合には、ＤＲＣデータのスムージングを行う。これにより、音量が急激に変化することを防止することができる。

次に、本発明の実施の形態１に係る音声信号処理装置１００の具体的な動作を説明する。

図５は、本発明の実施の形態１に係る音声信号処理装置１００の動作及び効果を説明するための図である。

本実施の形態では、加工部１４０は、検出部１２０によって、変化が検出されなかった場合（期間７Ａなどを参照）、対象フレームの付加データと、直前のフレームである隣接フレーム（直前フレーム）の付加データとを用いて、デコード信号を加工する。具体的には、加工部１４０が備える音量調整部１４１が、対象フレームのＤＲＣデータと、直前フレームのＤＲＣデータとをスムージングする。なお、図５では、ＤＲＣデータ４Ａと、ＤＲＣデータ４Ａａとに付されたハッチングのパターンが、互いに異なる。つまり、例えば、図５のＤＲＣデータ４Ａと、ＤＲＣデータ４Ａａとが、ある程度異なってもよい。この点が、パターンが異なることにより、模式的に示されると考えられてもよい。

また、加工部１４０は、検出部１２０によって変化が検出された場合（期間７Ｂなどを参照）、対象フレームの付加データを含む、変化が検出された後の少なくとも１個の付加データを用いて、デコード信号を加工する。

例えば、図５に示す例では、対象フレームＡと、直前フレームＡとの間、及び、対象フレームＢと、直前フレームＢとの間で、属性情報が変化している。

具体的には、直前フレームＡの属性情報は、直前フレームＡが、マルチチャンネル放送であることを示し、対象フレームＡの属性情報は、対象フレームＡが、ステレオ放送であることを示している。

同様に、直前フレームＢの属性情報は、直前フレームＢが。ステレオ放送であることを示し、対象フレームＢの属性情報は、対象フレームＢが、マルチチャンネル放送であることを示している。

したがって、音量調整部１４１は、対象フレームＡのデコード信号を加工する際には、変化が検出された後のフレームである対象フレームＡのＤＲＣデータを用いて、音量の調整を行う。

同様に、音量調整部１４１は、対象フレームＢのデコード信号を加工する際には、変化が検出された後のフレームである対象フレームＢのＤＲＣデータを用いて、音量の調整を行う。

このとき、直前フレームＢのＤＲＣデータを用いないので、対象フレームＢについては、小振幅用のＤＲＣデータのみが用いられる。これにより、図４に示すように、振幅が大きな音声信号（音声信号５Ｂｈ）が生成されることはないようにできる。

なお、加工部１４０は、対象フレームＢを加工する際に、対象フレームＢの付加データを用いてもよい。

つまり、加工部１４０は、属性情報の変化点より前のフレーム、具体的には、対象フレームＢより前のフレームの付加データを用いなければよく、属性情報の変化点より後のフレームの付加データを用いてもよい。

図６は、本発明の実施の形態１に係る音声信号処理装置１００の動作の一例を示すフローチャートである。

まず、デコード部１１０は、１フレームの符号化データをデコードすることで、デコード信号を生成する（Ｓ１０１）。つまり、デコード部１１０は、対象フレームの符号化データをデコードする。

次に、蓄積部１３０は、対象フレームの付加データを蓄積する（Ｓ１０２）。

次に、検出部１２０は、属性情報が変化したか否かを検出する（Ｓ１０３）。

具体的には、検出部１２０は、直前フレームと、対象フレームとの間で、属性情報が変化したか否かを検出する。

言い換えると、検出部１２０は、直前フレームの属性情報と、対象フレームの属性情報とが同じであるか、異なっているかを検出する。

本実施の形態では、検出部１２０は、例えば、属性情報を参照することで、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであるか否かを検出する。

検出部１２０は、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであれば、属性情報は変化していないと判断し、異なっていれば、属性情報が変化したと判断する。

属性情報の変化が検出されなかった場合（Ｓ１０３でＮｏ）、音量調整部１４１は、付加データをスムージングして、音量調整用の係数を作成する（Ｓ１０４）。なお、直前フレームのＤＲＣデータと、対象フレームのＤＲＣデータとが互いに同一である場合には、スムージングを行う必要はない。

属性情報の変化が検出された場合（Ｓ１０３でＹｅｓ）、音量調整部１４１は、その変化が検出された後の付加データのみを用いて、音量調整用の係数を作成する（Ｓ１０５）。

具体的には、音量調整部１４１は、図５に示すように、対象フレームのＤＲＣデータのみを用いて、音量調整用の係数を作成する。

最後に、音量調整部１４１は、作成した係数を用いて、デコード信号の振幅を調整することで、音声信号処理装置１００が出力する音声信号の音量を調整する（Ｓ１０６）。

全てのフレームの処理が完了していなければ（Ｓ１０７でＮｏ）、音声信号処理装置１００は、上記の処理を繰り返す（Ｓ１０１に戻る）。

以上のように、本発明の実施の形態１に係る音声信号処理装置１００は、属性情報の変化（例えば、図５の期間７Ｂでの変化など）を検出し、変化が検出された場合には、変化前の少なくとも１個の付加データ（例えばＤＲＣデータ４Ｂ）と、変化後の少なくとも１個の付加データ（例えばＤＲＣデータ４Ｂａ）とのうちの何れか一方のみ（その一方のみが用いられれば、不適切な振幅６Ｂｈが回避される一方のみ）を用いて（例えば、ＤＲＣデータ４Ｂａのみを用いて）、デコード信号（音声信号３Ｂａ）を、加工後の信号（音声信号５Ｂｉ）へと加工する。

これにより、対象の音声信号（音声信号３Ｂａ）の属性情報（マルチチャンネル放送での属性情報）とは異なる属性情報（ステレオ放送での属性情報）の音声信号（音声信号３Ｂｂ）を加工するための付加データ（ＤＲＣデータ４Ｂ）を、対象の音声信号（音声信号３Ｂａ）の加工に用いることを禁止することができる。したがって、本来であれば、小振幅に加工されるはずの音声信号が大振幅に加工されること（図４の音声信号５Ｂｈを参照）を防止することができ、主観的な音質の劣化を防止することができる。

なお、属性情報は、付加データの有無を示す情報でもよい。言い換えると、属性情報は、符号化データに、付加データが対応付けられているか否かを示す情報でもよい。なお、このとき、属性情報は、図２に示すように、フレームのヘッダに含まれていてもよく、あるいは、データブロックに含まれていてもよい。

この場合、検出部１２０は、属性情報を参照することで、対象フレームと、隣接フレームとの間で、付加データの有無の変化を検出する。例えば、マルチチャンネル放送のフレームは、付加データを含み、ステレオ放送のフレームは、付加データを含んでいない場合がある。

例えば、音量調整部１４１は、上述のように、対象フレームの付加データと、直前フレームの付加データとが異なっている場合に、これら２つの付加データをスムージングすることで、音量調整用の係数を算出する。そして、算出した係数を用いて、対象フレームの振幅を調整する。このような処理がされる場合について、以下に、より詳しく説明する。

対象フレームの付加データがなく、直前フレームの付加データがある場合であって、検出部１２０によって、対象フレームと、直前フレームとの間での、属性情報の変化が検出された場合、上述のように、加工部１４０は、対象フレームの付加データを用いて、デコード信号を加工する。ただし、この場合には、対象フレームの付加データがないので、結果的に、加工部１４０は、対象フレームのデコード信号の加工を行わない。

これにより、図４に示す課題でのように、対象フレームのデコード信号を加工するのに、直前フレームの付加データを用いることを防止することができるので、音質の劣化を抑制することができる。

また、属性情報は、属性情報が変化した場合に（Ｓ１０３のＹｅｓを参照）、音声信号の性質が、大きく異なっていることを示す情報であればよい。言い換えると、属性情報は、音声コンテンツの切り替わりを示す情報であればよい。例えば、属性情報は、サンプリング周波数、量子化ビット数、又は、符号化方式などを示す情報でもよい。

また、隣接フレームは、対象フレームの直後のフレーム（直後フレーム）でもよい。すなわち、加工部１４０は、対象フレームの付加データと、直後フレームの付加データとを用いて、デコード信号を加工してもよい。具体的には、音量調整部１４１は、対象フレームのＤＲＣデータと、直後フレームのＤＲＣデータとが異なっている場合、対象フレームのＤＲＣデータと、直後フレームのＤＲＣデータとをスムージングすることで、音量調整用の係数を算出する。そして、音量調整部１４１は、算出した係数を用いて、対象フレームのデコード信号の振幅を調整する。

なお、この場合、検出部１２０は、対象フレームと、直後フレームとの間で、属性情報が変化したか否かを検出する。言い換えると、検出部１２０は、対象フレームの属性情報と、直後フレームの属性情報とが同じであるか、異なっているかを検出する。

加工部１４０は、検出部１２０によって、変化が検出された場合、変化が検出される前の少なくとも１個の付加データを用いて、デコード信号を加工する。具体的には、音量調整部１４１は、対象フレームのＤＲＣデータを用いて、デコード信号の振幅を調整する。

また、検出部１２０によって、変化が検出されなかった場合、加工部１４０は、対象フレームの付加データと、対象フレームの付加データ以外の付加データとを用いて、対象フレームのデコード信号を加工する。具体的には、音量調整部１４１は、対象フレームのＤＲＣデータと、直後フレームのＤＲＣデータとをスムージングすることで、音量調整用の係数を算出し、算出した係数を用いて、対象フレームのデコード信号の振幅を調整してもよい。

以上のように、本発明の実施の形態１に係る音声信号処理装置では、スムージングに用いるＤＲＣデータは、直前フレームのＤＲＣデータでもよく、直後フレームのＤＲＣデータでもよい。

なお、このように、例えば、次の動作が行われてもよい。

その動作では、振幅（例えば図５の振幅６Ａａ）が決定される。

そして、第１の期間（例えば第１の期間７Ａａ）における音声を表わす第１の音声信号（第１の音声信号３Ａａ）の振幅が、決定された振幅（振幅６Ａａ）へと変更された第３の音声信号（第３の音声信号５Ａａ）を生成させる制御がされる。

振幅（振幅６Ａａ）が決定されるのに際して、第１の期間（第１の期間７Ａａ）に近い（類似する、近傍の）第２の期間（例えば第２の期間７Ａｂ）における第２の音声信号（第２の音声信号３Ａｂ）のＤＲＣデータ（ＤＲＣデータ４Ａ）から、決定が行われる。

なお、例えば、第１の音声信号は、第１の期間における音声を示す一方で、第２の音声信号は、別の第２の期間での音声を示してもよい。

なお、一方の期間に近い他方の期間は、例えば、その期間における何れの時刻も、一方の期間の近傍に含まれる時刻である期間などをいう。

具体的には、このＤＲＣデータが含まれる１つ以上のデータ（例えば、２つのＤＲＣデータ４Ａ、４Ａａ）から、決定が行われてもよい。

しかしながら、上述された、その音声信号のＤＲＣデータからの決定がされる第２の音声信号（第２の音声信号３Ｘｂ（例えば３Ａｂ））の種類（ステレオ放送）が、第１の音声信号（第１の音声信号３Ｘａ（３Ａａ））の種類（ステレオ放送）と同じ種類（ステレオ放送）である場合（期間７Ａの場合）のみがあるとは限らないことが考えられる。

つまり、第２の音声信号（第２の音声信号３Ｘｂ（例えば３Ｂｂ））の種類（ステレオ放送）が、第１の音声信号（第１の音声信号３Ｘａ（３Ｂａ））の種類（マルチチャンネル放送）とは異なる種類（ステレオ放送）である場合（期間７Ｂの場合）もあることも考えられる。

すなわち、同じ種類である場合（期間７Ａの場合）にのみ、第２の音声信号（第２の音声信号３Ａｂ）のＤＲＣデータ（ＤＲＣデータ４Ａ）からの決定での、決定される振幅（振幅６Ａａ）が、適切な振幅で、生成される、その振幅の第３の音声信号（第３の音声信号５Ａａ）の音質が、比較的高いことが考えられる。

つまり、異なる種類である場合（期間７Ｂの場合）には、第２の音声信号（第２の音声信号３Ｂｂ）のＤＲＣデータ（ＤＲＣデータ４Ｂ）からの決定での、決定される振幅が、不適切な振幅（図４の振幅６Ｂｈ）で、その振幅の第３の音声信号（図４の第３の音声信号５Ｂｈ）の音質が、比較的低くなってしまうことが考えられる。

そこで、第２の音声信号（第２の音声信号３Ｘｂ）の種類が、同じ種類であるか（第２の音声信号３Ａｂ）、異なる種類であるか（第２の音声信号３Ｂｂ）が判定（検出）されてもよい（図６のＳ１０３）。

同じ種類と判定される場合にのみ（第２の音声信号３Ａｂ、Ｓ１０３のＮｏ）、近傍の第２の期間（期間７Ａｂ）のＤＲＣデータ（ＤＲＣデータ４Ａ）からの決定がされる。これにより、この場合（Ｓ１０３のＮｏ、期間７Ａ）にのみ、決定される振幅が、近傍でのＤＲＣデータ（ＤＲＣデータ４Ａ）から決定される振幅（振幅６Ａａ）である（Ｓ１０４、Ｓ１０６）。

つまり、異なる種類と判定される場合には（第２の音声信号３Ｂｂ、Ｓ１０３のＹｅｓ）、近傍の第２の期間（期間７Ｂｂ）のＤＲＣデータ（ＤＲＣデータ４Ｂ）からの決定がされない。これにより、この場合には（Ｓ１０３のＹｅｓ、期間７Ｂ）、決定される振幅が、近傍でのＤＲＣデータ（ＤＲＣデータ４Ｂ）から決定される振幅（図４の不適切な振幅６Ｂｈ）ではなく、その振幅以外の他の振幅（図５の適切な振幅６Ｂｉ）である（Ｓ１０５、Ｓ１０６）。

これにより、同じ種類の場合（期間７Ａの場合）に、適切な振幅（振幅６Ａａ）で、音質が高いだけに止まらず、異なる種類の場合（期間７Ｂの場合）にも、不適切な振幅（図４の振幅６Ｂｈ）であるのが回避されて、適切な振幅（図５の振幅６Ｂｉ）にされる。これにより、より確実に、振幅が、適切な振幅にできる。

なお、そのＤＲＣデータ（例えば、後述される図７のＤＲＣデータ２４１ａ、図９のＤＲＣデータ９ｎｉなど）での、振幅の調整における、調整後の振幅が、生成される第３の音声信号（図９の音声信号５Ｂｉにおける、期間７Ｂｑの部分、図５の第３の音声信号５Ａａ、５Ｂｉを参照）の振幅であるＤＲＣデータ（例えば図７のＤＲＣデータ２４１ａ）が生成されてもよい。

生成されるＤＲＣデータでの調整における、調整後の振幅が、決定された振幅（先述の振幅６Ａａ、６Ｂｉを参照）でもよい。

こうして、ＤＲＣデータ（ＤＲＣデータ２４１ａ）が生成されることにより、そのＤＲＣデータでの、調整後の振幅へと、生成される第３の音声信号の振幅が制御されてもよい。

なお、生成される第３の音声信号は、対応するＤＲＣデータを有してもよい。そして、第３の音声信号の振幅は、対応するＤＲＣデータでの調整後の振幅にされることにより、上述された、適切な振幅にされてもよい。

そして、第１、第２の音声信号が含まれる信号が符号化された、再符号化前の符号化信号（例えば、後述の図７における音声信号処理装置２００によりデコードされるビットストリーム（先述のビットストリーム１００ａを参照））の処理がされてもよい。

つまり、このような、再符号化前の符号化信号が、第３の音声信号が含まれる信号が符号化された、再符号化後の符号化信号（図７の符号化信号９ａを参照）へと再符号化されてもよい。

そして、再符号化後の符号化信号が、第３の音声信号が含まれる信号へと復号化（デコード）されて、第３の音声信号が含まれる信号が生成されることにより、第３の音声信号が生成されてもよい。

そして、こうして、再符号化がされた後に行われる復号化において、第３の音声信号が生成されるのに際して、生成される第３の音声信号の振幅が、先述された適切な振幅にされるようにする制御がされるなどしてもよい。

なお、複数の第２の期間（図９に示される、２つの期間７Ｂｂを参照）があり、それぞれの第２の期間でのＤＲＣデータ（ＤＲＣデータ４Ｂａ、４Ｂ）があってもよい。

そして、それぞれの第２の期間での第２の音声信号（２つの第２の音声信号３Ｂｂを参照）があってもよい。

そして、それぞれの第２の音声信号の種類について、その種類（左側の第２の音声信号３Ｂｂでの、マルチチャンネル放送の種類、右側の第２の音声信号３Ｂｂでの、ステレオ放送の種類）が、第１の期間（例えば、図９の期間７Ｂａに含まれる期間７Ｂｑ）における第１の音声信号の種類（期間７Ｂｑでの、マルチチャンネル放送の種類）と同じ種類（左側の音声信号３Ｂｂ参照）か、異なる種類（右側の音声信号３Ｂｂ参照）かが判定されてもよい。

同じ種類との判定がされた、それぞれの第２の音声信号（左側の第２の音声信号３Ｂｂ）のＤＲＣデータ（ＤＲＣデータ４Ｂａ）が含まれ、異なる種類と判定された、それぞれの第２の音声信号（右側の第２の音声信号３Ｂｂ）のＤＲＣデータ（ＤＲＣデータ４Ｂ）を含まない０個以上のＤＲＣデータ（１つのＤＲＣデータ４Ｂａ）からの処理がされてもよい。

つまり、その０個以上のＤＲＣデータから、生成される第３の音声信号（例えば、音声信号５Ｂｉのうちの、期間７Ｂｑの部分、または、当該音声信号５Ｂｉの期間である期間７Ｂａの全体での当該音声信号５Ｂｉ）の振幅が決定されてもよい。

なお、上述のように、例えば、一方の種類の音声信号が、ステレオ放送の音声信号である一方で、一方の種類と同じでない、異なる他方の種類の音声信号が、マルチチャンネル放送の音声信号でもよい。

また、一方の種類の音声信号におけるサンプリング周波数が、異なる他方の種類の音声信号におけるサンプリング周波数と異なってもよい。

同様に、例えば、量子化ビット数が異なってもよいし、符号化方式などが異なってもよい。

なお、近傍の第２の期間のＤＲＣデータから、振幅が決定されるのに際しては、例えば、非特許文献１で示される、スムージングの処理と同様の処理（図４のスムージング４ｘを参照）がされてもよい。

振幅の決定では、第１の期間（例えば、図４での第１の期間７Ｂａを参照）における、それぞれの時刻での振幅が決定されて、１つ以上の時刻での振幅が決定されてもよい。

なお、ＤＲＣデータとして、そのＤＲＣデータから決定される振幅が、比較的小さい、小振幅用のＤＲＣデータ（図９のＤＲＣデータ４Ｂａを参照）と、そのＤＲＣデータから決定される振幅が、比較的大きい、大振幅用のＤＲＣデータ（図９のＤＲＣデータ４Ｂを参照）とがあってもよい。

つまり、第１の音声信号における、第１の期間（例えば、図９の期間７Ｂｑ）のＤＲＣデータが、小振幅用のＤＲＣデータ（ＤＲＣデータ４Ｂａ）である第１の場合と、大振幅用のＤＲＣデータ（ＤＲＣデータ４Ｂ）である第２の場合とがあってもよい。

そして、第１の場合（小振幅用の場合）にのみ、音質の低下（例えば、弊害が生じる程度に大きな低下幅での低下など）が生じ、第２の場合（大振幅用の場合）には、生じなくてもよい。

そして、第１の場合か、第２の場合かが判定されてもよい。

そして、第１の場合と判定されるとき（小振幅用の場合）にのみ、上述の処理がされてもよい。これにより、音質の向上が維持できる。

そして、第２の場合と判定されるとき（大振幅用の場合）には、上述の処理がされなくてもよい。

これにより、処理量が少なくできる。

これにより、音質の向上が維持されつつも、処理量が少なくされて、高い音質と、少ない処理量とが両立できる。

（実施の形態２）
本発明の実施の形態２に係る音声信号処理装置では、加工部は、ビットストリームに含まれるフレームのフレーム長（例えば、後述される、１０２４個のサンプルが含まれるフレームのフレーム長）とは異なるフレーム長（例えば、１５３６個のサンプルが含まれるフレームでのフレーム長）のフレーム単位で、デコード信号を再符号化する。本発明の実施の形態２に係る加工部は、検出部によって、変化が検出されなかった場合、蓄積部に蓄積された、少なくとも２個の付加データを用いて、再符号化後のフレームに対応する付加データを生成し、検出部によって、変化が検出された場合、蓄積部に蓄積された付加データのうち、変化が検出される前の、少なくとも１個の付加データ、及び、変化が検出された後の、少なくとも１個の付加データのいずれか一方のみ（先述の説明を参照）を用いて、再符号化後のフレームに対応する付加データを生成することを特徴とする。

まず、本発明の実施の形態２に係る音声信号処理装置の構成を説明する。

図７は、本発明の実施の形態２に係る音声信号処理装置２００の構成の一例を示すブロック図である。

図７に示す音声信号処理装置２００は、実施の形態１に係る音声信号処理装置１００と比較して、加工部１４０の代わりに、加工部２４０を備える点が異なっている。以下では、実施の形態１と同じ点は、詳細な説明を省略し、異なる点を中心に説明する。なお、図１と同様の要素には、同一の符号を付している。

本発明の実施の形態２に係る音声信号処理装置２００は、所定の符号化方式で符号化されたビットストリームをデコードし、デコード結果を、異なる符号化方式で再符号化するトランスコード装置である。本実施の形態では、入力されたビットストリームと、再符号化後のビットストリームとで、１フレーム当たりのフレーム長が異なる場合について説明する。

加工部２４０は、ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、デコード信号を再符号化する。フレーム長は、例えば、１フレームに含まれるサンプル数で示される。本発明の実施の形態２では、加工部２４０は、符号化部２４１を備える。

符号化部２４１は、対象フレームのデコード信号を符号化することで、再符号化後のフレーム（符号化信号９ａ）を生成する。ここで、対象フレームのフレーム長と、再符号化後のフレーム長とは、異なっている。したがって、符号化部２４１は、再符号化後のフレーム長に相当する分のデコード信号が生成された後に、デコード信号を再符号化することで、再符号化後のフレームを生成する。

さらに、符号化部２４１は、再符号化後のフレームに対応する付加データ（ＤＲＣデータ２４１ａ）を生成する。具体的には、符号化部２４１は、ＤＲＣデータに基づいて、再符号化後のフレームをデコードすることで、生成される再デコード信号の振幅を調整するためのＤＲＣデータ（ＤＲＣデータ２４１ａ）を生成する。

符号化部２４１は、検出部１２０によって変化が検出されなかった場合、蓄積部１３０に蓄積された少なくとも２個の付加データを用いて、再符号化後のフレームに対応する付加データ（ＤＲＣデータ２４１ａ）を生成する。また、符号化部２４１は、検出部１２０によって変化が検出された場合、蓄積部１３０に蓄積された付加データのうち、変化が検出される前の少なくとも１個の付加データ、及び、変化が検出された後の少なくとも１個の付加データのいずれか一方のみ（先述の説明を参照）を用いて、再符号化後のフレームに対応する付加データを生成する。

例えば、属性情報が、音声信号のチャンネル数を示す場合であり、検出部１２０が、属性情報を参照することで、対象フレームと、隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出する場合について、詳しく説明する。

符号化部２４１は、検出部１２０によって、変化が検出された場合であって、対象フレームと、隣接フレームとの境目と、再符号化フレーム間の境目とが一致していない場合、変化が検出される前の少なくとも１個の付加データと、変化が検出された後の少なくとも１個の付加データとの何れかのうち、チャンネル数が多い方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する。

チャンネル数が多い音声信号には、小振幅用の付加データが含まれていることが多い。このため、結果的に、符号化部２４１は、小振幅用の付加データを用いて再符号化後の付加データを生成する。

以下では、本発明の実施の形態２に係る音声信号処理装置２００の動作について説明する。

図８は、本発明の実施の形態２に係る音声信号処理装置２００が解決する課題を説明するための図である。

なお、図８では、一例として、１フレーム当たりに、１０２４個のサンプルを含むフレームの複数個から構成される入力ビットストリームを、１フレーム当たりに、１５３６個のサンプルを含む、再符号化後のフレームの複数個から構成される出力ビットストリームに変換する場合を示す。

図８に示すように、入力ビットストリームのフレーム長と、出力ビットストリームのフレーム長とが異なっているので、符号化部２４１は、再符号化後のフレーム毎に、それぞれの、再符号化後のフレームに対応する付加データ（図７のＤＲＣデータ２４１ａ）を生成する。図８の例では、再符号化後のフレームに含まれるデコード信号に対応する付加データを用いて、新たな付加データを生成する。

例えば、再符号化フレームＡは、第１フレームのデコード信号の一部と、第２フレームのデコード信号とを含む。

このため、再符号化フレームＡに対応する付加データは、第１フレームの付加データと、第２フレームの付加データとから生成される。

また、再符号化フレームＢは、第３フレームのデコード信号と、第４フレームのデコード信号の一部とを含む。

このため、再符号化フレームＢに対応する付加データは、第２、第３及び第４フレームの付加データから生成される。

なお、第２フレームの付加データを用いるのは、実施の形態１でも説明したように、直前の再符号化フレームからの急激な変化を防止するためである。

ここで、先述のように、入力ビットストリームと、出力ビットストリームとで、フレーム長が異なる。このため、図８に示す再符号化フレームＣのように、異なる属性情報の複数のフレーム（第４、第５フレーム）を含む場合がある。この場合、実施の形態１で説明したように、第４フレームと、第５フレームとの間で、属性情報の変化が検出される。このため、加工部２４０は、第５フレームを用いて、再符号化フレームＣの付加データ（ＤＲＣデータ９ｎｈ）を生成する。この場合、大振幅用のＤＲＣデータ（ＤＲＣデータ４Ｂ）が、再符号化フレームＣの付加データとして多重化される。

したがって、再符号化フレームＣをデコードした場合、本来、小振幅であるべき、マルチチャンネル放送のデコード信号の振幅が、図８に示すように、大振幅になる（再符号化フレームＣの再デコード信号、音声信号５Ｂｈ、音声信号５Ｂｈにおける、期間７Ｂｑの部分９ａ）。

このように、対象フレームと隣接フレームとの境目と、再符号化後のフレームの境目とが一致していない場合、本来、小振幅用の付加データが多重化されるべきフレームに、大振幅用の付加データが多重化されてしまい、主観的な音質が劣化してしまうという課題がある。

図９は、本発明の実施の形態２に係る音声信号処理装置２００の動作及び効果を説明するための図である。

本発明の実施の形態２に係る音声信号処理装置２００では、検出部１２０は、属性情報を参照することで、音声信号のチャンネル数が変化したか否かを検出する。そして、加工部２４０は、チャンネル数の変化を検出した場合であって、当該変化が検出された時点である、直前フレームと対象フレームとの境目と、再符号化後のフレームの境目とが一致していない場合、チャンネル数が大きい方のフレームの付加データ（ＤＲＣデータ４Ｂａ）を用いて、再符号化フレームに対応する付加データ（ＤＲＣデータ９ｎｉ）を生成する。

具体的には、図９に示すように、再符号化フレームＣに対応する付加データは、第４フレームの付加データ（ＤＲＣデータ４Ｂａ）のみを参照して生成される。これにより、マルチチャンネル放送の音声信号の振幅を、小振幅にすることができる。

図１０は、本発明の実施の形態２に係る音声信号処理装置２００の動作の一例を示すフローチャートである。

まず、音声信号処理装置２００は、トランスコード処理に必要なパラメータを設定する（Ｓ２０１）。

例えば、音声信号処理装置２００は、当該音声信号処理装置２００の全体の制御を行う制御部（図７には示していない）を備え、この制御部は、蓄積フレーム数Ｋと、属性情報変化フラグＺとを、ともに０に設定する。

なお、蓄積フレーム数Ｋは、デコード信号を一時的に記憶するためのメモリ（図７には示していない）に蓄積されているフレームの個数を示すパラメータである。

属性情報変化フラグＺは、連続する２つのフレームの間で、属性情報が変化したか否かを示すパラメータである。具体的には、Ｚ＝０であれば、属性情報が変化していないことを示し、Ｚ＝１であれば、属性情報が変化したことを示す。

次に、デコード部１１０は、１フレームの符号化データをデコードすることで、デコード信号を生成する（Ｓ２０２）。

つまり、デコード部１１０は、対象フレームの符号化データをデコードする。

生成された、対象フレームのデコード信号は、上記メモリに蓄積される。

次に、蓄積部１３０は、対象フレームの付加データを蓄積する（Ｓ２０３）。

そして、１フレームのデコードが完了したので、音声信号処理装置２００は、蓄積フレーム数Ｋを、インクリメントする（Ｓ２０４）。

次に、検出部１２０は、属性情報が変化したか否かを検出する（Ｓ２０５）。

具体的には、検出部１２０は、直前フレームと、対象フレームとの間で、属性情報が変化したか否かを検出する。すなわち、検出部１２０は、直前フレームの属性情報と、対象フレームの属性情報とが同じであるか、異なっているかを検出する。

本実施の形態では、検出部１２０は、属性情報を参照することで、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであるか否かを検出する。検出部１２０は、直前フレームのチャンネル数と、対象フレームのチャンネル数とが同じであれば、属性情報は変化していないと判断し（図８の期間７Ａを参照）、異なっていれば、属性情報が変化したと判断する（期間７Ｂを参照）。

属性情報の変化が検出された場合（Ｓ２０５でＹｅｓ、期間７Ｂ）、音声信号処理装置２００は、属性情報変化フラグＺを、１に設定する（Ｓ２０６）。

次に、符号化部２４１は、再エンコードするのに十分なデコード信号が生成されているか否か、すなわち、メモリに格納されているか否かを判定する（Ｓ２０７）。

具体的には、符号化部２４１は、再エンコード処理のフレーム長以上のフレーム長のデコード信号が生成されているか否かを判定する。

例えば、符号化部２４１は、Ｋ×Ｌｄ≧Ｌｅを満たすか否かを判定する。ここで、Ｌｄは、再エンコード前のフレーム長（具体的には、入力ビットストリームのフレーム長）であり、Ｌｅは、再エンコード後のフレーム長（具体的には、出力ビットストリームのフレーム長）である。

次に、属性情報の変化が検出されている場合、すなわち、属性情報変化フラグＺが、１である場合（Ｓ２０８でＹｅｓ、期間７Ｂ）、音声信号処理装置２００は、属性情報変化フラグＺを、０にリセットする（Ｓ２０９）。なお、属性情報変化フラグＺのリセットは、次に、フレームの処理が開始されるまでに行えばよい。

そして、変化検出前のチャンネル数が、変化検出後のチャンネル数より大きい場合（Ｓ２１０でＹｅｓ）、符号化部２４１は、変化検出前の付加データ（例えば、ＤＲＣデータ４Ｂａ）を用いて、出力ビットストリームに多重化するための、再符号化用の付加データ（ＤＲＣデータ９ｎｉ）を生成する（Ｓ２１１）。

他方、変化検出前のチャンネル数が、変化検出後のチャンネル数より小さい場合（Ｓ２１０でＮｏ）、符号化部２４１は、変化検出後の付加データを用いて、出力ビットストリームに多重化するための再符号化用の付加データを生成する（Ｓ２１２）。

このように、符号化部２４１は、チャンネル数が大きい方のデコード信号に付加されていた付加データを利用して、再符号化後のフレームに対応する付加データを生成する。

属性情報の変化が検出されていない場合、すなわち、属性情報変化フラグＺが０である場合（Ｓ２０８でＮｏ、期間７Ａａ）、符号化部２４１は、蓄積部１３０に蓄積されている付加データ（例えば、２つのＤＲＣデータ４Ａ、４Ａａの両方）を用いて、出力ビットストリームに多重化するための、再符号化用の付加データを生成する（Ｓ２１３）。

再符号化後のフレームに対応する付加データの生成が完了した後、符号化部２４１は、１フレームのデコード信号を符号化する（Ｓ２１４）。

全てのフレームの処理が完了していなければ（Ｓ２１５でＮｏ）、音声信号処理装置２００は、蓄積フレーム数Ｋの値を、現在のＫの値から、Ｌｅ／Ｌｄを減算した値に、置き換える（Ｓ２１６）。そして、上記の処理を繰り返す（Ｓ２０２に戻る）。

以上のように、本発明の実施の形態２に係る音声信号処理装置２００では、ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、デコード信号を再符号化する。このとき、音声信号処理装置２００は、検出部１２０によって、属性情報の変化が検出された場合であって、対象フレームと、隣接フレームとの境目と、再符号化後のフレームの境目とが一致していない場合には（期間７Ｂａの場合）、変化検出前及び変化検出後の何れか一方の付加データのみを用いて（ＤＲＣデータ４Ｂを用いず、ＤＲＣデータ４Ｂａを用いないで）、再符号化後のフレームに対応する付加データ（ＤＲＣデータ９ｎｉ）を生成する。

具体的には、チャンネル数が、より大きい方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する。

これにより、本来であれば、小振幅用の付加データが多重化されるべきフレーム（図８での、期間７Ｂａのフレームを参照）に、大振幅用の付加データ（図８のＤＲＣデータ９ｎｈを参照）が多重化されて、主観的な音質が劣化してしまうことを防止することができる。

なお、実施の形態１と同様に、属性情報は、付加データの有無を示す情報でもよい。言い換えると、属性情報は、符号化データに、付加データが対応付けられているか否かを示す情報でもよい。

そして、検出部１２０によって、変化が検出された場合であって、対象フレームと、隣接フレームとの境目と、再符号化後のフレーム間の境目とが一致していない場合、符号化部２４１は、変化が検出される前の、少なくとも１個の付加データ、及び、変化が検出された後の、少なくとも１個の付加データのいずれか一方として、付加データが存在する方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する。これにより、存在する付加データを利用するので、小振幅用の付加データを、再符号化後のフレームの付加データとして多重化することができる。

なお、このように、近傍の第２の期間として、２つ以上の第２の期間（第２の期間７Ｂｂ）があり、それぞれの第２の期間のＤＲＣデータ（ＤＲＣデータ４Ｂ、４Ｂａ）が含まれてなる２つ以上のＤＲＣデータから、生成される第３の音声信号（例えば、期間７Ｂａの音声信号５Ｂｉのうちの、期間７Ｂｑの部分の音声信号、または、音声信号５Ｂｉそのものなど）の振幅が決定されてもよい。

なお、第３の音声信号の期間（例えば期間７Ｂｑ）は、それらの２つ以上のＤＲＣデータの期間のうちの１つ以上の期間のうちのそれぞれと異なってもよい。

つまり、例えば、第３の音声信号の期間の長さ（期間７Ｂｑの長さ、期間７Ｂａの長さ、例えば、図９の例での、１５３６個のサンプルでの長さ）は、それらの２つ以上のＤＲＣデータの期間（期間７Ｂｂ）のうちの何れの期間の長さ（１０２４個のサンプルでの長さ）とも異なってもよい。

そして、さらに具体的には、上述のように、例えば、それらの２つ以上のＤＲＣデータの各々は、音声信号処理装置２００により再符号化がされる前における、再符号化前の符号化信号でのデータでもよい。そして、生成される第３の音声信号は、上述された、再符号化前の符号化信号が再符号化された後における音声信号でもよい。

以上、本発明に係る音声信号処理装置及び音声信号処理方法について、実施の形態に基づいて説明したが、本発明は、これらの実施の形態に限定されるものではない。本発明の趣旨を逸脱しない限り、当業者が思いつく各種変形を当該実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構築される形態も、本発明の範囲内に含まれる。

例えば、付加データは、ダウンミックス係数でもよい。ダウンミックス係数は、例えば、マルチチャンネルの音声信号を、ステレオの音声信号に変換するのに用いられるパラメータである。

また、上記の実施の形態では、デコード信号に対する加工処理として、信号の振幅の調整（音量の調整）及び再符号化を例に説明したが、これに限られない。

また、上記実施の形態１及び２に係る音声信号処理装置に含まれる各処理部は典型的には集積回路であるＬＳＩ（ＬａｒｇｅＳｃａｌｅＩｎｔｅｇｒａｔｉｏｎ）として実現される。これらは個別に１チップ化されてもよいし、一部又は全てを含むように１チップ化されてもよい。

ここでは、ＬＳＩとしたが、集積度の違いにより、ＩＣ（ＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）、システムＬＳＩ、スーパーＬＳＩ、ウルトラＬＳＩと呼称されることもある。

また、集積回路化はＬＳＩに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。ＬＳＩ製造後にプログラムすることが可能なＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、又はＬＳＩ内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。

さらには、半導体技術の進歩又は派生する別技術によりＬＳＩに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて各処理部の集積化を行ってもよい。バイオ技術の適用等が可能性として考えられる。

また、本発明の実施の形態１及び２に係る、音声信号処理装置の機能の一部又は全てを、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサがプログラムを実行することにより実現してもよい。

さらに、本発明は上記プログラムであってもよいし、上記プログラムが記録された記録媒体であってもよい。また、上記プログラムは、インターネット等の伝送媒体を介して流通させることができるのは言うまでもない。

また、上記で用いた数字は、全て本発明を具体的に説明するために例示するものであり、本発明は例示された数字に制限されない。また、構成要素間の接続関係は、本発明を具体的に説明するために例示するものであり、本発明の機能を実現する接続関係はこれに限定されない。

さらに、上記の実施の形態は、ハードウェア及び／又はソフトウェアを用いて構成されるが、ハードウェアを用いる構成は、ソフトウェアを用いても構成可能であり、ソフトウェアを用いる構成は、ハードウェアを用いても構成可能である。

本発明に係る音声信号処理装置及び音声信号処理方法は、主観的な音質の劣化（図４の不適切な振幅６Ｂｈの音声信号５Ｂｈを参照）を抑制して、音質を高くすることができるという効果を奏し、例えば、オーディオプレーヤ、デジタルテレビ、デジタルレコーダなどにおいて、音質がより高くされるのに際し、利用することができる。

３Ａａ、３Ａｂ、３Ｂａ、３Ｂｂ音声信号
３Ｘａ、３Ｘｂ音声信号
４、４Ａ、４Ｂ、４Ａａ、４ＢａＤＲＣデータ
５Ｘ、５Ａａ、５Ｂｉ、５Ｂｈ音声信号
６Ｂｈ、６Ｂｉ、６Ａａ振幅
７Ａａ、７Ａｂ、７Ｂａ、７Ｂｂ期間
７Ｘａ、７Ｘｂ、７Ａ、７Ｂ期間
１００、２００音声信号処理装置
１００ｅ情報
１００ｆ符号化データ
１００ｇ付加データ
１１０デコード部
１１０ａデコード信号
１２０検出部
１３０蓄積部
１４０、２４０加工部
１４１音量調整部
２４１符号化部

Claims

音声信号がフレーム単位で符号化されたビットストリームを処理する音声信号処理装置であって、
前記ビットストリームは、フレーム毎に、
符号化された音声信号を示す符号化データと、
前記符号化データをデコードすることで生成されるデコード信号の振幅に関する付加データと、
前記符号化データの性質を示す属性情報とを含み、
前記音声信号処理装置は、
対象フレームの符号化データをデコードすることで、前記デコード信号を生成するデコード部と、
前記デコード部によって生成された前記デコード信号を加工する加工部と、
前記対象フレームと、当該対象フレームに連続する隣接フレームとの間で、前記属性情報が変化したか否かを検出する検出部と、
前記対象フレームの付加データを含む少なくとも２個の前記付加データを蓄積するための蓄積部とを備え、
前記加工部は、
前記検出部によって変化が検出されなかった場合、前記蓄積部に蓄積された少なくとも２個の前記付加データを用いて、前記対象フレームの前記デコード信号を加工し、
前記検出部によって変化が検出された場合、前記蓄積部に蓄積された付加データのうち、変化が検出される前の少なくとも１個の付加データ、及び、変化が検出された後の少なくとも１個の付加データのいずれか一方のみを用いて、前記対象フレームの前記デコード信号を加工する
音声信号処理装置。
前記隣接フレームは、前記対象フレームの直前のフレームであり、
前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの２個の付加データを蓄積し、
前記加工部は、
前記検出部によって変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、
前記検出部によって変化が検出された場合、前記対象フレームの付加データを含む、変化が検出された後の少なくとも１個の付加データを用いて、前記対象フレームの前記デコード信号を加工する
請求項１記載の音声信号処理装置。
前記隣接フレームは、前記対象フレームの直後のフレームであり、
前記蓄積部は、少なくとも、前記対象フレームの付加データと、前記隣接フレームの付加データとの２個の付加データを蓄積し、
前記加工部は、
前記検出部によって、変化が検出されなかった場合、前記対象フレームの付加データと、前記隣接フレームの付加データとを用いて、前記対象フレームの前記デコード信号を加工し、
前記検出部によって、変化が検出された場合、前記対象フレームの付加データを含む、変化が検出される前の少なくとも１個の付加データを用いて、前記対象フレームの前記デコード信号を加工する
請求項１記載の音声信号処理装置。
前記付加データは、前記デコード信号の振幅を調整するためのＤＲＣ（ＤｙｎａｍｉｃＲａｎｇｅＣｏｎｔｒｏｌ）データであり、
前記加工部は、前記ＤＲＣデータに基づいて、前記対象フレームの前記デコード信号の振幅を増減させる
請求項１〜３のいずれか１項に記載の音声信号処理装置。
前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、
前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出する
請求項１〜４のいずれか１項に記載の音声信号処理装置。
前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、
前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出する
請求項１〜４のいずれか１項に記載の音声信号処理装置。
前記加工部は、
前記ビットストリームに含まれるフレームのフレーム長とは異なるフレーム長のフレーム単位で、前記デコード信号を再符号化し、
前記検出部によって、変化が検出されなかった場合、前記蓄積部に蓄積された、少なくとも２個の付加データを用いて、再符号化後のフレームに対応する付加データを生成し、
前記検出部によって、変化が検出された場合、前記蓄積部に蓄積された各付加データのうち、変化が検出される前の少なくとも１個の付加データ、及び、変化が検出された後の少なくとも１個の付加データのいずれか一方のみを用いて、再符号化後のフレームに対応する付加データを生成する
請求項１記載の音声信号処理装置。
前記属性情報は、対応するフレームの、符号化された音声信号のチャンネル数を示す情報であり、
前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間で、音声信号のチャンネル数が変化したか否かを検出し、
前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の２つのフレームの間の境目とが一致していない場合、変化が検出される前の少なくとも１個の付加データ、及び、変化が検出された後の少なくとも１個の付加データのいずれか一方として、チャンネル数が多い方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する
請求項７記載の音声信号処理装置。
前記属性情報は、対応するフレームの、前記付加データの有無を示す情報であり、
前記検出部は、前記属性情報を参照することで、前記対象フレームと、前記隣接フレームとの間での、前記付加データの有無の変化を検出し、
前記加工部は、前記検出部によって、変化が検出された場合であって、前記対象フレームと、前記隣接フレームとの境目と、再符号化後の２つのフレーム間の境目とが一致していない場合、変化が検出される前の少なくとも１個の付加データ、及び、変化が検出された後の少なくとも１個の付加データのいずれか一方として、付加データが存在する方の付加データを用いて、再符号化後のフレームに対応する付加データを生成する
請求項７記載の音声信号処理装置。
前記付加データは、前記デコード信号の振幅を調整するためのＤＲＣデータであり、
前記加工部は、前記ＤＲＣデータに基づいて、再符号化後のフレームをデコードすることで生成される再デコード信号の振幅を調整するためのＤＲＣデータを生成する
請求項７〜９のいずれか１項に記載の音声信号処理装置。
音声信号がフレーム単位で符号化されたビットストリームを処理する音声信号処理方法であって、
前記ビットストリームは、フレーム毎に、
符号化された音声信号を示す符号化データと、
前記符号化データをデコードすることで生成されるデコード信号の振幅に関する付加データと、
前記符号化データの性質を示す属性情報とを含み、
前記音声信号処理方法は、
対象フレームの符号化データをデコードすることで、前記デコード信号を生成するデコードステップと、
前記デコードステップにおいて生成された前記デコード信号を加工する加工ステップと、
前記対象フレームと、当該対象フレームに連続する隣接フレームとの間で、前記属性情報が変化したか否かを検出する検出ステップと、
前記加工ステップでは、
前記検出ステップにおいて変化が検出されなかった場合、前記対象フレームの付加データを含む少なくとも２個の前記付加データを用いて、前記対象フレームの前記デコード信号を加工し、
前記検出ステップにおいて変化が検出された場合、変化が検出される前の少なくとも１個の付加データ、及び、変化が検出された後の少なくとも１個の付加データのいずれか一方のみを用いて、前記対象フレームの前記デコード信号を加工する
音声信号処理方法。