JP2009300707A

JP2009300707A - 情報処理装置および方法、並びにプログラム

Info

Publication number: JP2009300707A
Application number: JP2008154837A
Authority: JP
Inventors: Shiro Suzuki; 志朗鈴木; Akira Inoue; 晃井上; Kazutomo Kenmochi; 千智劔持; Hidesuke Takahashi; 秀介高橋
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2008-06-13
Filing date: 2008-06-13
Publication date: 2009-12-24
Also published as: EP2133873B1; CN101604528A; US20090310799A1; EP2133873A1; ATE542218T1; CN101604528B

Abstract

【課題】より確実に音声の音質を向上させる。
【解決手段】分類部１８１は、供給された楽曲の音声データに基づいて、楽曲を分類する。切換制御部１８２は、楽曲の分類結果に応じて切換部１８３を制御し、音声データの出力先を切り換えさせる。切換部１８３は、供給された音声データを、周波数帯域拡張部１８８、時間帯域拡張部１８９、または時間／周波数帯域拡張部１９０の何れかに供給する。周波数帯域拡張部１８８は、周波数領域で楽曲を帯域拡張し、時間帯域拡張部１８９は、時間領域で楽曲を帯域拡張し、時間／周波数帯域拡張部１９０は、時間領域および周波数領域の両方の領域で楽曲を帯域拡張する。本発明は、音声再生装置に適用することができる。
【選択図】図８

Description

本発明は情報処理装置および方法、並びにプログラムに関し、特に、エンコードされた音声データを再生する場合に用いて好適な情報処理装置および方法、並びにプログラムに関する。

例えば、ATRAC（Adaptive Transform Acoustic Coding）方式、MP3（Moving Picture Experts Group Audio Layer-3）方式といった、既に一般化されたエンコード方式（圧縮方式）で楽曲の音声データをエンコードすると、高周波数成分が欠落してしまうことが知られている。高周波数成分が欠落すると、再生される楽曲がこもったような音になってしまい、いわゆる音のきらびやかさ感が損なわれてしまう。

楽曲の音声データがエンコードされる場合、図１に示すように、時間波形を有する音声データは、まずエンコーダの周波数変換部１１において楽曲の各周波数成分、つまり各周波数のパワーを示す周波数情報に変換され、さらに、この周波数情報が量子化部１２により量子化されて、量子化情報に変換される。そして、量子化情報は、符号化部１３により符号化されて、符号化により得られた符号列が、エンコードされた音声データとして出力される。ここで、時間波形を有する音声データとは、各時刻における音声の振幅（ゲイン）を示すデータをいう。

一方、このようにしてエンコードされた音声データは、楽曲の再生時において、デコーダによりデコードされて再生される。つまり、音声データは、復号部１４において復号されて量子化情報とされ、量子化情報が逆量子化部１５により逆量子化されて周波数情報とされる。そして、この周波数情報が時間変換部１６により、時間波形を有する音声データに変換されて、デコードされた音声データとして出力される。

音声データがエンコードされる場合、データの圧縮を目的として、周波数情報に含まれる楽曲の高周波数成分がカット（除去）されることが多い。これは、人間の耳には、周波数の高い音は聞こえにくいため、データ削減の影響が少ないからである。

ところが、音声データから高周波数成分が除去されると、周波数変換部１１から出力される周波数情報と、逆量子化部１５から出力される周波数情報とは同じものとはならなくなる。すなわち、例えば、図２に示すように、エンコードにより楽曲の高域成分（高周波数成分）がカットされてしまう。

なお、図２において、縦方向は楽曲の音声の振幅、または周波数のパワーを示しており、横方向は、時間または周波数を示している。

図中、上段に示される時間波形の音声の音声データが周波数変換されると、図中、中段の左側に示す周波数情報が得られる。この周波数情報には、低域成分から高域成分まで各周波数の成分が含まれている。音声データのエンコード時に、この周波数情報の高域成分が除去されると、デコード時に得られる周波数情報は、図中、中段の右側に示すように、高域成分の含まれていないものとなる。つまり、図中、中段の右側に示す周波数情報には、低域成分しか含まれていないものとなる。

そのため、逆量子化部１５による逆量子化により得られた周波数情報を時間変換すると、図中、下段に示すように、エンコード前の元の音声と比べて時間波形のなまった音声の音声データが得られる。このように、デコードされて得られた音声データに基づく音声の時間波形がなまってしまうのは、元の音声データに含まれていた高域成分（高周波数成分）が除去されたためである。

このようにして高域成分の除去された音声データを用いて楽曲を再生すると、元の楽曲がきらびやかな音であっても、再生された楽曲はこもった音となってしまうことがある。ここで、再生された楽曲がどの程度こもった音となるかは、高域成分がどの程度除去されるかによって異なる。

人間の可聴範囲の周波数の上限は約20kHz程度といわれており、殆どの人は、約15kHz程度までの周波数成分が音声データに含まれていれば、再生された音声がこもっているとは感じない。年齢や個人差はあるが、一般的な成人においては、音声データに11kHz程度以下の成分しか含まれなくなると、殆どの人が、再生された音声に対して、こもった感じを受けるようになることが広く知られている。

これは、約15kHzまでの周波数成分の含まれる信号が用いられるＦＭ（Frequency Modulation）放送ではこもった感じはほとんどないが、約8KHzまでの周波数成分しか含まれていない信号が用いられるＡＭ（Amplitude Modulation）放送を聴くと、殆どの人がこもった音と感じるという例により、よく説明される。

ところで、従来、エンコードにより失われてしまった音声データの高域成分を、音声の再生時に生成して音声データに付加することにより、再生される音声のきらびやかさ感を向上させる帯域拡張と呼ばれる技術が知られている（例えば、特許文献１参照）。

例えば、帯域拡張技術を用いた音楽再生装置では、図３に示すように、デコーダから供給された音声データに対して、帯域拡張部４１により帯域拡張処理が施される。すなわち、帯域拡張部４１は、時間変換部１６から供給された、デコードされた音声データを用いて、その音声データの高域成分を生成する。そして、帯域拡張部４１は、生成した高域成分を音声データに付加して最終的な音声データとし、その音声データを出力する。なお、図３において、図１における場合と対応する部分には、同一の符号を付してあり、その説明は省略する。

例えば、デコーダの時間変換部１６から帯域拡張部４１に供給される音声データには、高域成分が含まれていないとすると、その音声データに基づく音声は、図４の上段に示すように、時間変化の少ないなまった時間波形を有する音声となる。なお、図４において、縦方向は音声の振幅、または周波数のパワーを示しており、横方向は、時間または周波数を示している。

図中、上段に示す時間波形の音声の音声データが帯域拡張部４１に給されると、帯域拡張部４１は、供給された音声データを周波数解析して高域成分を生成する。すなわち、帯域拡張部４１は、図中、中段の左側に示すように、音声データの低域成分ＳＬ’を複製して、音声データに付加される高域成分ＳＨ’を生成し、さらに図中、中段の右側に示すように、生成した高域成分ＳＨ’の形状を調整して、最終的な高域成分ＸＳＨ’とする。

帯域拡張部４１は、このようにして生成した高域成分ＸＳＨ’を時間変換部１６から供給された音声データに付加する。これにより、図中、下段に示すように、時間変化の大きい時間波形を有する音声の音声データ、つまり高域成分を有する音声データが得られ、再生対象の音声の音質を向上させることができる。

このように、帯域拡張部４１が音声の高域成分を生成して音声データに付加する帯域拡張処理の具体的な方法として、周波数軸上で帯域拡張する方法、時間軸上で帯域拡張する方法、並びに時間軸上および周波数軸上の両方で帯域拡張する方法が考えられる。

これらの３つの帯域拡張方法のうちの周波数軸上で帯域拡張する方法では、図５Ａに示すように、音声データが一旦、周波数情報に変換され、変換により得られた周波数情報が用いられて高域成分が生成される。そして、生成された高域成分が付加された周波数情報が時間変換され、帯域拡張された、時間波形を有する音声データが得られる。

すなわち、周波数変換部７１は、デコードされた音声データを周波数変換することで、音声データを周波数情報に変換する。また、複製生成部７２は、周波数情報を用いて音声に付加される高域成分を生成し、形状調整部７３は、高域成分を加工して各周波数成分のパワーを変化させ、高域成分の形状を調整する。

さらに、高域貼付部７４は、形状調整された高域成分を周波数情報に貼り付けて時間変換部７５に供給する。そして、時間変換部７５は、高域成分が貼り付けられた周波数情報、つまり高域成分が付加された周波数情報を時間変換により、各時刻の音声の振幅を示す音声データに変換し、出力する。なお、以下、周波数軸上、つまり周波数領域で帯域拡張する方法を、周波数帯域拡張方式での帯域拡張と呼ぶこととする。

また、時間軸上で帯域拡張する方法では、図５Ｂに示すように、供給された音声データから分割フィルタ８１を用いて抽出された低域成分を加工することで高域成分が生成され、供給された音声データと、生成された高域成分の音声データとが合成フィルタ部８４にて合成されて帯域拡張された音声データが得られる。

すなわち、分割フィルタ部８１は、分割フィルタを用いてデコードされた音声データを帯域分割し、音声データから音声の低域成分と高域成分を抽出する。なお、デコードされた音声データには、高域成分が殆ど含まれていない。したがって、分割フィルタにより音声データから高域成分も殆ど抽出されず、後段で利用することができないため、図中に「×（バツ）」で示されている。

複製生成部８２は、分割フィルタ部８１により抽出された低域成分の音声データを用いて、音声に付加される高域成分の音声データを生成し、形状調整部８３は、生成された高域成分の音声データを加工して、高域成分の形状を調整する。そして、合成フィルタ部８４は、分割フィルタ部８１により抽出された低域成分の音声データと、形状調整された高域成分の音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを、帯域拡張された音声データとして出力する。なお、以下、時間軸上、つまり時間領域で帯域拡張する方法を、時間帯域拡張方式での帯域拡張と呼ぶこととする。

さらに、時間軸上および周波数軸上の両方で帯域拡張する方法では、図５Ｃに示すように、音声データから分割フィルタ部９１によって低域成分を抽出し、これが周波数情報に変換され、変換により得られた周波数情報を用いて高域成分が生成される。そして、生成された高域成分と低域成分とが時間変換により音声データに変換され、その結果得られた２つの音声データが合成されて、帯域拡張された、時間波形を有する音声データが得られる。

すなわち、分割フィルタ部９１は、分割フィルタを用いてデコードされた音声データを帯域分割し、音声データから音声の低域成分を抽出する。また、周波数変換部９２は、抽出された低域成分の音声データを周波数変換により周波数情報に変換する。さらに、複製生成部９３は、周波数情報を用いて、音声に付加される高域成分を生成し、形状調整部９４は、生成された高域成分の形状を調整する。

そして、時間変換部９５は、形状調整された高域成分を時間変換により、各時刻の音声の振幅を示す音声データに変換し、時間変換部９６は周波数変換部９２からの周波数情報を時間変換により音声データに変換する。さらに、合成フィルタ部９７は、時間変換部９５からの音声データと、時間変換部９６からの音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを、帯域拡張された音声データとして出力する。なお、以下、時間軸上および周波数軸上の両方で、つまり時間領域および周波数領域の両方の領域で帯域拡張する方法を、時間／周波数帯域拡張方式での帯域拡張と呼ぶこととする。

特開２００７−３２８２６８号公報

ところで、従来の帯域拡張機能を有する音楽再生装置では、所定の帯域拡張方式により音声データの帯域拡張が行われて、音声が再生されることになるが、帯域拡張の対象となる音声データによっては、必ずしも音質を向上させることができるとは限らない。

すなわち、帯域拡張の技術は、音声データに基づく音声の失われてしまった高域成分（高周波数成分）が、どのようなものであったかを推定し、推定された高域成分を擬似的に生成して元の音声に付加する技術である。そのため、必ずしも音声が本来持っていた高域成分が得られる訳ではなく、帯域拡張した結果、かえって音声に耳障りな雑音が付加されてしまう場合もある。

このように、従来の帯域拡張方法では、音声データに基づく音声の特徴によって、音声の音質向上の効果が得られたり、得られなかったりして、音声データによらず、確実に音声の音質を向上させることは困難であった。

本発明は、このような状況に鑑みてなされたものであり、より確実に音声の音質を向上させることができるようにするものである。

本発明の一側面の情報処理装置は、特定の周波数帯域の成分を生成してオーディオデータに付加する帯域拡張処理を行う帯域拡張手段と、互いに異なる複数の帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる制御手段とを備える。

前記帯域拡張手段には、エンコードされたオーディオデータをデコードすることにより得られるオーディオデータに基づいて、前記特定の周波数帯域の成分を生成して前記オーディオデータに付加する帯域拡張処理を行わせることができる。

前記複数の前記帯域拡張方法には、時間軸上で前記帯域拡張処理を行う前記帯域拡張方法、周波数軸上で前記帯域拡張処理を行う前記帯域拡張方法、並びに時間軸上および周波数軸上で前記帯域拡張処理を行う前記帯域拡張方法が少なくとも含まれるようにすることができる。

前記オーディオデータは、楽曲を再生させるデータとし、前記楽曲の１曲分の前記オーディオデータに基づいて、楽曲の有する特徴により予め定められた、いくつかの前記楽曲分類のうちの何れかに前記楽曲を分類する分類手段をさらに設けることができる。

前記帯域拡張手段には、前記オーディオデータを用いて、前記特定の周波数帯域の成分を生成する生成手段と、前記特定の周波数帯域の各周波数成分を増減させる調整手段とを設け、前記制御手段には、前記特定の周波数帯域の成分の複数の調整方法のうち、前記分類手段による分類結果に対して予め定められた調整方法で、前記調整手段に前記各周波数成分を増減させることができる。

前記制御手段には、前記特定の周波数帯域の成分の複数の生成方法のうち、前記分類手段による分類結果に対して予め定められた生成方法で、前記生成手段に前記特定の周波数帯域の成分を生成させることができる。

前記楽曲分類ごとに、複数の前記帯域拡張方法、前記生成方法、および前記調整方法の組み合わせのうち、予め行われた評価の最も高い組み合わせを示す情報を記録する記録手段をさらに設け、前記制御手段には、前記分類結果および前記情報に基づいて選択した前記帯域拡張方法、前記生成方法、および前記調整方法で、前記帯域拡張手段に前記帯域拡張処理を行わせることができる。

前記評価は、前記帯域拡張処理により得られたオーディオデータを分析することで得られる客観的な評価結果と、主観的な評価結果とを統計処理することにより得られたものとすることができる。

本発明の一側面の情報処理方法またはプログラムは、特定の周波数帯域の成分を生成してオーディオデータに付加する帯域拡張処理を行う帯域拡張手段と、互いに異なる複数の帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる制御手段とを備える情報処理装置の情報処理方法またはプログラムであって、前記制御手段が、前記複数の前記帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させるステップを含む。

本発明の一側面においては、互いに異なる複数の帯域拡張方法のうち、オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で帯域拡張手段により、前記帯域拡張処理が実行される。

本発明の一側面によれば、音声データに対して帯域拡張することができる。特に、本発明の一側面によれば、より確実に音声の音質を向上させることができる。

以下、図面を参照して、本発明を適用した実施の形態について説明する。

本発明を適用した音声再生装置は、帯域拡張の対象となる音声を、その音声の特徴に応じて分類し、その分類結果に応じて適切な帯域拡張方式を選択して、選択された帯域拡張方式での帯域拡張処理を音声データに施すものである。

例えば、帯域拡張対象の音声が楽曲である場合、音声の分類は、特定の特徴を有する楽曲が属すべきグループである楽曲分類を予めいくつか用意し、帯域拡張対象の音声の有する特徴によって、その音声を用意した複数の楽曲分類のうちの何れかに分類することにより行われる。

なお、音声再生装置において、音声の分類結果に応じて帯域拡張方式を変更するだけでなく、音声データに付加される高域成分の生成方法、および高域成分の形状調整方法も分類結果に応じて変更されるようにしてもよい。ここで高域成分の形状調整方法とは、どのような規則に従って高域成分としての各周波数成分の大きさを増減させるか、つまり各周波数成分の変化のさせ方をいう。

例えば、高域成分の生成方法には、音声データに基づく音声の特定の周波数帯域の成分を周波数軸上で折り返してからシフト（平行移動）させて高域成分とする方法（以下、折り返し方式と称する）、音声の特定の周波数帯域の成分を、周波数軸上でそのままシフトさせて高域成分とする方法（以下、平行移動方式と称する）などがある。

具体的に、例えば、折り返し方式および平行移動方式により、音声信号に含まれる周波数成分が0kHz乃至20kHzとした場合を考え、この周波数成分を均等に２つに分割して得られる0kHz乃至10kHzを低域成分、10kHz乃至20kHzを高域成分とおき、周波数0kHz乃至10kHzの成分（以下、低域成分と称する）が用いられて、高域成分として周波数10kHz乃至20kHzの成分が生成されるものとして、以下に説明を続ける。

この場合、折り返し方式では、音声の低域成分である0kHz乃至10kHzの各周波数成分のそれぞれが、生成しようとする高域成分の20kHz乃至10kHzの各周波数成分のそれぞれとされる。つまり、低域成分のより小さい周波数の成分の大きさが、高域成分のより大きい周波数の成分の大きさとなるように、低域成分が周波数軸上で線対称に折り返される。

また、移動方式では、音声の低域成分である0kHz乃至10kHzの各周波数成分のそれぞれが、生成しようとする高域成分の10kHz乃至20kHzの各周波数成分のそれぞれとされる。つまり、低域成分のより小さい周波数の成分の大きさが、高域成分のより小さい周波数の成分の大きさとなるように、低域成分が周波数軸上で、そのまま高周波数側に平行移動されて高域成分とされる。

なお、高域成分の生成方式は、例えば、音声の周波数のうちのどの周波数帯域が高域成分の生成に用いられるかによっても異なる方式とされる。

さらに、例えば、高域成分の形状調整方法には、音声データに基づく音声の周波数情報における傾き、つまり音声のスペクトル形状に応じて高域成分を音声に外挿する方法（以下、外挿方式と称する）、音声の低域成分の特徴に応じて、高域成分を予め定められた形状に加工して音声に挿入する方法（以下、学習方式と称する）などがある。

すなわち、外挿方式では、帯域拡張対象の音声の各周波数と、それらの周波数のパワーとの関係、つまり周波数情報における、周波数に対するパワーの勾配の形状に適合するように高域成分の形状が調整される。具体的には、例えば、周波数が大きくなるにつれて音声の周波数のパワー、つまり周波数成分の大きさ（量）が小さくなる場合、付加しようとする高域成分も、周波数が大きくなるにつれてパワーが小さくなるように形状調整される。

また、学習方式では、音声に含まれる低域、例えば0kHz乃至10kHzの周波数帯域の各周波数のパワー、すなわち音声のスペクトル形状から、その音声が本来どのような高域成分を有しているかが統計的な処理により予め学習されている。つまり、互いに異なる低域のスペクトル形状を有するいくつかの音声のモデルに対して、平均的な高域成分のスペクトル形状が求められている。

そして、学習方式による形状調整時には、パターンマッチングにより、帯域拡張の対象となる音声のスペクトル形状に、最も近いスペクトル形状の音声のモデルが選択される。さらに、形状調整の対象となる高域成分のスペクトル形状、つまり高域成分としての各周波数のパワーの相対的な大きさが、選択されたモデルに対して予め定められている高域成分のスペクトル形状と同じ形状となるように、形状調整の対象となる高域成分の形状調整が行われる。

なお、以下、説明を簡単にするため、帯域拡張の対象となる音声データは、楽曲を再生するための音声データであるものとする。

音声再生装置において、音声データに基づく楽曲（音声）の楽曲分類に対して、音質向上に最も効果のある帯域拡張方法、高域成分の生成方法、および形状調整方法が選択されて、選択されたそれらの方法で楽曲の帯域拡張が行われる場合、例えば、図６に示すように、予め各楽曲分類について、各方法の組み合わせの評価がなされる。

なお、図６には、楽曲（音声）の楽曲分類α、楽曲分類β、楽曲分類γについて、帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせの評価が示されている。ここで、組み合わせに対する評価は４段階評価であり、評価の高い順に、二重丸、丸（円）、三角、およびバツとされている。

また、「枠組」の欄には、帯域拡張方法が示され、文字「周波数」、「時間」、および「時間＋周波数」のそれぞれは、周波数帯域拡張方式、時間帯域拡張方式、および時間／周波数帯域拡張方式のそれぞれを示している。さらに、「複製」の欄には、高域成分の生成方法が示されており、文字「折り返し」および「移動」は、折り返し方式および平行移動方式を示している。さらに、また、「形状」の欄には、高域成分の形状調整方法が示されており、文字「外挿」および「学習」は、外挿方式および学習方式を示している。

したがって、例えば楽曲分類αに属す楽曲の音声データには、時間帯域拡張方式、折り返し方式、および学習方式の組み合わせで帯域拡張を行うと、最も音質向上の効果が得られることが分かる。同様に、例えば、楽曲分類βに属す楽曲の音声データには、周波数帯域拡張方式、折り返し方式、および学習方式の組み合わせで帯域拡張を行うと、最も音質向上の効果が得られることが分かる。

なお、このような各楽曲分類についての各方法の組み合わせの評価時には、例えば、まず、帯域拡張の対象となる楽曲が、それぞれ１曲ずつ何らかの方法により、予め用意された複数の楽曲分類の何れかに分類される。次に、楽曲分類ごとに、帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせが複数選択されて、それらの組み合わせについて楽曲分類に属す楽曲に対する帯域拡張が行われ、各方法の組み合わせの評価が行われる。

例えば、分析器や計算機が音声データを分析することで、客観的（定量的）に各方法の組み合わせを評価して得られた評価結果と、人間が実際に帯域拡張された楽曲を聴いて、主観的に各方法の組み合わせを評価して得られた評価結果との両方の評価結果を統計的処理することにより、各方法の組み合わせの最終的な評価が求められる。

このように、図６の例では、楽曲分類ごとに、最も適した方法の組み合わせ、つまり最も音質向上の効果が得られる帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせが異なっている。帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせによって、各楽曲分類に分類された楽曲を帯域拡張したときの評価が異なるのは、各方法（方式）によって異なる利点および欠点があるからである。

例えば、周波数帯域拡張方式では、周波数変換によって楽曲にどのような周波数成分が含まれているかを詳しく調べることが可能であり、高域成分の予測精度が高いという利点がある。つまり、周波数帯域拡張方式は、高い周波数分解能を有する。

しかしながら、周波数帯域拡張方式では、高域成分を生成する際に、時間波形を有する音声データをそのまま用いるのではなく、一旦、音声データが周波数情報に変換される。そのため、生成された高域成分には時間に関する情報がなく、高域成分としての周波数情報を、時間波形を有する音声データに変換しても、例えば、得られた高域成分により再生される音声の時間波形が元の楽曲の高域成分の時間波形との一致が悪化、すなわち高域成分の音声の振幅の時間変化が正しく再現されなくなってしまう場合がある。換言すれば、周波数帯域拡張方式では、高域成分の時間分解能が悪化してしまうという欠点がある。

一方、時間帯域拡張方式では、高域成分を生成する際に、時間波形を有する音声データをそのまま利用するため、楽曲の低域成分の時間変化によく一致する高域成分の生成が可能であり、高い時間分解能を有するという利点がある。しかしながら、時間帯域拡張方式では、楽曲にどのような周波数成分が含まれているかを詳しく調べることが出来ないため、高域成分の予測精度が低い、つまり周波数分解能が低いという欠点がある。

また、時間／周波数帯域拡張方式では、周波数帯域拡張方式および時間帯域拡張方式の両方の利点を同時に得ることが可能ではあるが、逆に、それらの２つの方式の欠点も同時に引き継ぐ可能性がある。つまり、時間／周波数帯域拡張方式は、それなりに高い周波数分解能および時間分解能を有しているが、周波数分解能および時間分解能の高さは、帯域拡張対象となる楽曲によって異なる。

音声再生装置には、以上のようにして予め定められた、各楽曲分類と、楽曲分類に対して最も音質向上の効果が得られる帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせとを示す情報からなる帯域拡張マッチングデータベースが予め記録されている。そして、音声再生装置は、記録している帯域拡張マッチングデータベースに基づいて、音声データの帯域拡張を行う。

次に、この音声再生装置において、楽曲の分類結果に応じて、適切な帯域拡張方式を選択し、選択された帯域拡張方式により帯域拡張を行う例について説明する。

図７は、本発明を適用した音声再生装置の一実施の形態の構成例を示すブロック図である。音声再生装置１３１は、取り込み部１４１、デコード部１４２、補正部１４３、および出力部１４４から構成される。

取り込み部１４１は、音声再生装置１３１に装着されたＣＤ（Compact Disc）等の光ディスクや、音声再生装置１３１に接続された他の装置から、楽曲の音声データを取り込み、取り込んだ音声データを記録する。この音声データは、例えば、ATRAC方式やMP3方式などでエンコードされたデータである。また、取り込み部１４１は、記録している音声データをデコード部１４２に供給する。

デコード部１４２は、これから再生しようとする楽曲の音声データを取り込み部１４１から取り込んでデコードする。デコード部１４２は、復号部１５１、逆量子化部１５２、および時間変換部１５３を備えている。

復号部１５１は、取り込み部１４１からの音声データを復号することにより、音声データとしての符号列を量子化情報に変換し、量子化情報を逆量子化部１５２に供給する。逆量子化部１５２は、復号部１５１からの量子化情報を逆量子化し、その結果得られた周波数情報を時間変換部１５３に供給する。時間変換部１５３は、逆量子化部１５２からの周波数情報を時間変換することにより、周波数情報を、楽曲の各時刻の振幅を示す音声データに変換する。そして、時間変換部１５３は、時間変換により得られた音声データを、デコードされた音声データとして補正部１４３に供給する。

補正部１４３は、時間変換部１５３からの音声データを帯域拡張し、帯域拡張された音声データを出力部１４４に供給する。出力部１４４は、例えば、スピーカなどからなり、補正部１４３からの音声データに基づいて楽曲を再生する。

図７の補正部１４３は、例えば図８に示すように構成される。すなわち、補正部１４３は、分類部１８１、切換制御部１８２、切換部１８３、ノード１８４乃至ノード１８７、周波数帯域拡張部１８８、時間帯域拡張部１８９、および時間／周波数帯域拡張部１９０から構成される。また、時間変換部１５３からの音声データは、分類部１８１および切換部１８３に供給される。

分類部１８１は、時間変換部１５３からの音声データに基づいて、音声データに基づく楽曲の分類を行う。例えば、分類部１８１は１２音解析を行って、音声データから楽曲の特徴を示す楽曲特徴量を抽出する。そして、分類部１８１は、抽出した楽曲特徴量と、分類部１８１に備えられている楽曲分類データベース保持部２１１に保持されている楽曲分類データベースとを用いて楽曲を分類する。

例えば、楽曲分類データベース保持部２１１には、「ロック」、「ポップス」、「クラシック」、「ジャズ」、「ボーカル」などの楽曲の種類（カテゴリ）を表す楽曲分類を示す分類情報と、それらの分類情報に対応付けられている楽曲特徴量とからなる楽曲分類データベースが記録されている。この楽曲分類データベースに含まれる楽曲特徴量は、対応付けられた楽曲分類に属す楽曲から抽出される平均的な楽曲特徴量である。

分類部１８１は、楽曲分類データベース保持部２１１に記録されている楽曲分類データベースを参照して、音声データから抽出した楽曲特徴量に最も近い楽曲特徴量と対応付けられている分類情報を、切換制御部１８２に供給する。

なお、楽曲の分類は、カテゴリに限らず、「明るい」、「暗い」などの楽曲のムードや、「速い」、「遅い」などの楽曲のテンポなどにより行われてもよい。つまり、楽曲の特徴を表す情報であれば、どのような情報が用いられて楽曲が分類されてもよい。

切換制御部１８２は、分類部１８１から供給された分類情報に基づいて、帯域拡張方式を選択し、選択した帯域拡張方式での帯域拡張が行われるように、切換部１８３の動作を制御する。

すなわち、切換制御部１８２には、帯域拡張マッチングデータベース保持部２１２が設けられており、帯域拡張マッチングデータベース保持部２１２には、楽曲分類を示す分類情報と、その分類情報に対応付けられた帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせを示す情報とからなる帯域拡張マッチングデータベースが記録されている。切換制御部１８２は、帯域拡張マッチングデータベースを参照して、分類部１８１から供給された分類情報に対応付けられている帯域拡張方式を選択する。

切換部１８３は、例えば、スイッチなどからなり、切換制御部１８２の制御に基づいて、時間変換部１５３からの音声データの出力先を切り換える。すなわち、切換部１８３は、ノード１８４乃至ノード１８７の何れかに接続することで、音声データを周波数帯域拡張部１８８、時間帯域拡張部１８９、時間／周波数帯域拡張部１９０、または出力部１４４の何れかに出力する。

周波数帯域拡張部１８８は、ノード１８４を介して切換部１８３から供給された音声データを、周波数帯域拡張方式で帯域拡張する。周波数帯域拡張部１８８は、周波数変換部２１３、帯域拡張部２１４、時間変換部２１５から構成される。

周波数変換部２１３は、切換部１８３からの音声データを周波数変換し、その結果得られた周波数情報を帯域拡張部２１４に供給する。

帯域拡張部２１４は、周波数変換部２１３から供給された周波数情報を用いて、帯域拡張された周波数情報を生成する。帯域拡張部２１４は、複製生成部２３１、形状調整部２３２、および高域貼付部２３３から構成される。

複製生成部２３１は、予め定められた高域成分の生成方法により、周波数変換部２１３からの周波数情報を用いて楽曲に付加する擬似的な高域成分、より詳細には高周波数成分の周波数情報を生成し、生成した高域成分と、周波数変換部２１３からの周波数情報とを形状調整部２３２に供給する。

形状調整部２３２は、予め定められた形状調整方法により、複製生成部２３１からの高域成分を加工して高域成分の形状を調整し、形状調整された高域成分と、複製生成部２３１からの楽曲の周波数情報とを高域貼付部２３３に供給する。高域貼付部２３３は、形状調整部２３２から周波数情報および高域成分が供給されると、周波数情報に高域成分を付加して時間変換部２１５に供給する。時間変換部２１５は、高域貼付部２３３からの周波数情報を時間変換により音声データに変換し、変換により得られた音声データを出力部１４４に供給する。

また、時間帯域拡張部１８９は、ノード１８５を介して切換部１８３から供給された音声データを、時間帯域拡張方式で帯域拡張する。時間帯域拡張部１８９は、分割フィルタ部２１６、帯域拡張部２１７、および合成フィルタ部２１８から構成される。

分割フィルタ部２１６は、分割フィルタを用いて、切換部１８３からの音声データを帯域分割し、音声データから楽曲の低域成分、例えば楽曲の0kHz乃至10kHzの成分の音声データを抽出し、帯域拡張部２１７および合成フィルタ部２１８に供給する。

帯域拡張部２１７は、分割フィルタ部２１６から供給された音声データを用いて、楽曲に付加する擬似的な高域成分を生成する。帯域拡張部２１７は、複製生成部２３４および形状調整部２３５から構成される。

複製生成部２３４は、予め定められた高域成分の生成方法により、分割フィルタ部２１６からの音声データを用いて楽曲の擬似的な高域成分、より詳細には高域成分の音声データを生成し、形状調整部２３５に供給する。形状調整部２３５は、予め定められた形状調整方法により、複製生成部２３４からの高域成分を加工して高域成分の形状を調整し、形状調整された高域成分を合成フィルタ部２１８に供給する。

合成フィルタ部２１８は、分割フィルタ部２１６から供給された音声データと、形状調整部２３５から供給された高域成分の音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを出力部１４４に供給する。

さらに、時間／周波数帯域拡張部１９０は、ノード１８６を介して切換部１８３から供給された音声データを、時間／周波数帯域拡張方式で帯域拡張する。時間／周波数帯域拡張部１９０は、分割フィルタ部２１９、周波数変換部２２０、帯域拡張部２２１、時間変換部２２２、時間変換部２２３、および合成フィルタ部２２４から構成される。

分割フィルタ部２１９は、分割フィルタを用いて、切換部１８３からの音声データを帯域分割し、音声データから楽曲の低域成分の音声データを抽出して周波数変換部２２０に供給する。周波数変換部２２０は、分割フィルタ部２１９からの低域成分の音声データを周波数変換し、その結果得られた周波数情報を帯域拡張部２２１および時間変換部２２３に供給する。

帯域拡張部２２１は、周波数変換部２２０から供給された周波数情報を用いて、楽曲に付加する高域成分を生成する。帯域拡張部２２１は、複製生成部２３６および形状調整部２３７から構成される。

複製生成部２３６は、予め定められた高域成分の生成方法により、周波数変換部２２０からの周波数情報を用いて楽曲に付加する擬似的な高域成分、より詳細には高周波数成分の周波数情報を生成し、生成した高域成分を形状調整部２３７に供給する。形状調整部２３７は、予め定められた形状調整方法により、複製生成部２３６からの高域成分を加工して高域成分の形状を調整し、時間変換部２２２に供給する。

時間変換部２２２は、形状調整部２３７からの周波数情報を時間変換により音声データに変換し、合成フィルタ部２２４に供給する。また、時間変換部２２３は、周波数変換部２２０からの周波数情報を時間変換により音声データに変換し、合成フィルタ部２２４に供給する。合成フィルタ部２２４は、時間変換部２２２からの音声データと、時間変換部２２３からの音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを出力部１４４に供給する。

ところで、音声再生装置１３１の電源がオンされて、ユーザにより楽曲の再生が指示されると、音声再生装置１３１は、ユーザにより指示された楽曲を再生するための音声データを取り込んで再生する再生処理を行う。

以下、図９のフローチャートを参照して、音声再生装置１３１による再生処理について説明する。

ステップＳ１１において、取り込み部１４１はユーザの操作に応じて、これから再生しようとするいくつかの楽曲の音声データを取り込んで記録する。例えば、取り込み部１４１は、音声再生装置１３１に装着された光ディスク、音声再生装置１３１に設けられているハードディスク、音声再生装置１３１と接続されている他の装置などから音声データを取り込む。なお、取り込み部１４１により取り込んだ音声データが、音声再生装置１３１に設けられた、ハードディスクなどの不揮発性メモリにも記録されるようにしてもよい。

ステップＳ１２において、デコード部１４２は、ユーザにより指示された楽曲の音声データを取り込み部１４１から取得してデコードする。

すなわち、復号部１５１は、取り込み部１４１から音声データを取得して復号し、その結果得られた量子化情報を逆量子化部１５２に供給する。逆量子化部１５２は、復号部１５１からの量子化情報を逆量子化し、その結果得られた周波数情報を時間変換部１５３に供給する。また、時間変換部１５３は、逆量子化部１５２から供給された、楽曲の各周波数のパワーを示す周波数情報を時間変換することにより、楽曲の各時刻の振幅を示す音声データに変換する。この音声データは、デコードされた音声データとして時間変換部１５３から分類部１８１および切換部１８３に供給される。

ステップＳ１３において、補正部１４３は、帯域拡張を行うか否かを判定する。例えば、ユーザにより音声再生装置１３１に対する操作が行われ、帯域拡張が指示された場合、帯域拡張を行うと判定される。

なお、音声再生装置１３１の電源がオフされる場合に、音声再生装置１３１がその時点において、ユーザにより帯域拡張が指示されていたか否かを示す情報を記録しておき、次に音声再生装置１３１の電源がオンされた直後において、音声再生装置１３１が記録している情報に基づいて、帯域拡張を行うか否かを判定するようにしてもよい。

ステップＳ１３において、帯域拡張を行わないと判定された場合、補正部１４３は、切換制御部１８２に、音声データのノード１８７への出力を指示する。すると、切換制御部１８２は、補正部１４３の指示に応じて、切換部１８３の動作を制御し、ノード１８７に接続させる。そして、切換部１８３が音声データの出力先をノード１８７に切り換えると、その後、処理はステップＳ１４に進む。

ステップＳ１４において、出力部１４４は楽曲を再生する。すなわち、切換部１８３は、時間変換部１５３からの音声データを、ノード１８７を介して出力部１４４に供給し、出力部１４４は、切換部１８３から供給された音声データに基づいて、楽曲を再生する。これにより、帯域拡張の行われていない楽曲が再生される。また、ステップＳ１４において楽曲が再生されると、処理はステップＳ２２に進む。

一方、ステップＳ１３において、帯域拡張を行うと判定された場合、ステップＳ１５において、分類部１８１は、時間変換部１５３から供給された楽曲の１曲分の音声データに基づいて楽曲を分類し、その分類結果を切換制御部１８２に供給する。

例えば、分類部１８１が１２音解析を行うことで楽曲を分類する場合、分類部１８１は、１楽曲分の音声データを複数のオクターブの信号に分割し、それらのオクターブの信号のそれぞれにフィルタ処理を施して、オクターブごとに１２の音程の信号を抽出する。そして、分類部１８１は、音声データから得られた１２の音程の信号を用いて、ビート構造、コード進行などの楽曲の特徴を示す楽曲特徴量を求める。

さらに、分類部１８１は、楽曲分類データベース保持部２１１の楽曲分類データベースを参照して、音声データから抽出した楽曲特徴量に最も近い（類似する）楽曲特徴量と対応付けられている分類情報を、楽曲の分類結果として切換制御部１８２に供給する。この分類情報は、楽曲が分類された楽曲分類を示している。

このように、１つの楽曲全体の音声データから、その楽曲自体の分類を行うことで、音声データの一部分だけを用いて、その部分に対応する楽曲の区間の分類を行う場合と比べて、より確実性の高い分類を行うことができる。

なお、分類部１８１が楽曲の分類を行わずに、インターネット等の通信網を介して音声再生装置１３１に接続された他の装置から分類情報を取得したり、デコード部１４２および取り込み部１４１を介して、音声再生装置１３１に装着された光ディスクから分類情報を取得したりしてもよい。例えば、CD-Textの規格に対応した光ディスクでは、光ディスクのリードインエリアに分類情報が記録されている。

また、楽曲の音声データが取り込み部１４１に取り込まれた時点で、楽曲の分類が行われるようにし、その分類結果を記録しておくようにしてもよい。楽曲の分類結果を予め記録しておけば、より迅速に楽曲の再生を開始することができる。

ステップＳ１６において、切換部１８３は、切換制御部１８２の制御に基づいて、時間変換部１５３からの音声データの出力先を切り換える。

すなわち、切換制御部１８２は、帯域拡張マッチングデータベース保持部２１２の帯域拡張マッチングデータベースを参照して、分類部１８１から供給された分類情報に対応付けられている帯域拡張方法を選択する。そして、切換制御部１８２は、選択した帯域拡張方法に応じて切換部１８３を制御し、音声データをノード１８４乃至ノード１８６の何れかに供給させる。例えば、帯域拡張方法として、周波数帯域拡張方式が選択された場合、切換制御部１８２は、周波数帯域拡張方式により帯域拡張が行われるように、切換部１８３をノード１８４に接続させる。

ステップＳ１７において、切換制御部１８２は、周波数帯域拡張方式で帯域拡張するか否かを判定する。例えば、切換部１８３がノード１８４に接続され、音声データが切換部１８３から周波数帯域拡張部１８８に供給された場合、周波数帯域拡張方式で帯域拡張すると判定される。

ステップＳ１７において、周波数帯域拡張方式で帯域拡張すると判定された場合、ステップＳ１８において、音声再生装置１３１は、周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を行う。なお、周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理の詳細は後述するが、この周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理において、周波数帯域拡張方式により楽曲の帯域拡張が行われ、楽曲が再生される。つまり、周波数領域での帯域拡張が行われる。

周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理が行われると、その後、処理はステップＳ２２に進む。

これに対して、ステップＳ１７において、周波数帯域拡張方式で帯域拡張しないと判定された場合、ステップＳ１９において、切換制御部１８２は、時間帯域拡張方式で帯域拡張するか否かを判定する。例えば、切換部１８３がノード１８５に接続され、音声データが切換部１８３から時間帯域拡張部１８９に供給された場合、時間帯域拡張方式で帯域拡張すると判定される。

ステップＳ１９において、時間帯域拡張方式で帯域拡張すると判定された場合、ステップＳ２０において、音声再生装置１３１は、時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を行う。なお、時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理の詳細は後述するが、この時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理において、時間帯域拡張方式により楽曲の帯域拡張が行われ、楽曲が再生される。つまり、時間領域での帯域拡張が行われる。

時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理が行われると、その後、処理はステップＳ２２に進む。

また、ステップＳ１９において、時間帯域拡張方式で帯域拡張しないと判定された場合、ステップＳ２１において、音声再生装置１３１は、時間／周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を行う。なお、時間／周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理の詳細は後述するが、時間／周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理において、時間／周波数帯域拡張方式により楽曲の帯域拡張が行われ、楽曲が再生される。つまり、時間領域および周波数領域の両方の領域での帯域拡張が行われる。

時間／周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理が行われると、その後、処理はステップＳ２２に進む。

ステップＳ１４、ステップＳ１８、ステップＳ２０、またはステップＳ２１において、１曲分の楽曲が再生されると、ステップＳ２２において、音声再生装置１３１は、楽曲の再生を終了するか否かを判定する。例えば、ユーザにより指定された全ての楽曲の再生が終了した場合、再生を終了すると判定される。

ステップＳ２２において、再生を終了しないと判定された場合、処理はステップＳ１２に戻り、上述した処理が繰り返されて、次の楽曲が再生される。

これに対して、ステップＳ２２において、再生を終了すると判定された場合、音声再生装置１３１の各部は行っている処理を終了し、再生処理は終了する。

このようにして、音声再生装置１３１は、楽曲を分類し、その分類結果に応じて帯域拡張方法を変更する。そして、音声再生装置１３１は、楽曲の１曲分の音声データに対して、同じ帯域拡張方法で帯域拡張を行う。

このように、楽曲の分類結果に応じて帯域拡張方法を変更することで、その楽曲の楽曲分類に最も適した帯域拡張方法で帯域拡張を行うことができる。つまり、再生しようとする楽曲に対して、最も音質向上の効果が得られる帯域拡張方法により、音声データを帯域拡張することができる。したがって、従来と比較して、より確実に楽曲（音声）の音質を向上させることができる。

次に、図１０のフローチャートを参照して、図９のステップＳ１８の処理に対応する周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理について説明する。

ステップＳ５１において、周波数変換部２１３は、切換部１８３からの音声データを周波数変換し、その結果得られた周波数情報を複製生成部２３１に供給する。例えば、周波数変換部２１３は、周波数変換として、離散フーリエ変換や修正離散コサイン変換などの直交変換を行う。これにより、楽曲に含まれる各周波数成分の大きさ、つまり各周波数のパワーを示す周波数情報が得られる。

ステップＳ５２において、複製生成部２３１は、例えば、折り返し方式などの予め定められた高域成分の生成方法により、周波数変換部２１３からの周波数情報を用いて楽曲に付加する擬似的な高域成分、例えば10kHz乃至20kHzなどの特定の周波数帯域の成分を生成する。この高域成分（高周波数成分）は、より詳細には、楽曲の周波数情報に含まれる一部または全部の周波数帯域の成分が用いられて生成された、特定の周波数帯域の各周波数のパワーを示す周波数情報、つまり特定の周波数の音声の周波数情報である。

複製生成部２３１は、高域成分を生成すると、生成した高域成分と、周波数変換部２１３から供給された周波数情報とを形状調整部２３２に供給する。

ステップＳ５３において、形状調整部２３２は、例えば外挿方式などの予め定められた形状調整方法により、複製生成部２３１からの高域成分の形状を調整する。すなわち、形状調整部２３２は、高域成分の各周波数のパワーを増減させて、高域成分の形状を調整する。そして、形状調整部２３２は、形状調整された高域成分と、複製生成部２３１からの楽曲の周波数情報とを高域貼付部２３３に供給する。

ステップＳ５４において、高域貼付部２３３は、形状調整部２３２から周波数情報および高域成分が供給されると、周波数情報に高域成分を貼り付けて時間変換部２１５に供給する。すなわち、低域の各周波数のパワーからなる楽曲の周波数情報に、周波数情報には含まれていない高域の周波数のパワーが付加されて、低域から高域までの各周波数のパワーを示す周波数情報が生成される。

ステップＳ５５において、時間変換部２１５は、高域貼付部２３３からの周波数情報を時間変換により音声データに変換し、変換により得られた音声データを出力部１４４に供給する。例えば、時間変換部２１５は、時間変換として逆離散フーリエ変換や、逆修正離散コサイン変換などを行い、周波数情報を、時間波形を有する音声データ、つまり楽曲の各時刻の振幅を示す音声データに変換する。

ステップＳ５６において、出力部１４４は、時間変換部２１５から供給された音声データに基づいて楽曲を再生する。このようにして周波数帯域拡張方式で帯域拡張された楽曲が再生されると、周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理は終了し、その後、処理は図９のステップＳ２２に進む。

このようにして、音声再生装置１３１は、周波数領域で楽曲（音声データ）の帯域拡張を行い、その結果得られた楽曲を再生する。このように、周波数領域で帯域拡張を行うことにより、より高い精度で楽曲の本来の高域成分を推定することができ、より確実に楽曲の音質を向上させることができる。

次に、図１１のフローチャートを参照して、図９のステップＳ２０の処理に対応する時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理について説明する。

ステップＳ９１において、分割フィルタ部２１６は、分割フィルタを用いて、切換部１８３からの音声データを帯域分割し、音声データから楽曲の低域成分を抽出し、抽出された低域成分からなる音声データを、複製生成部２３４および合成フィルタ部２１８に供給する。

ステップＳ９２において、複製生成部２３４は、例えば折り返し方式などの予め定められた高域成分の生成方法により、分割フィルタ部２１６からの音声データを用いて楽曲に付加する高域成分を生成し、形状調整部２３５に供給する。

具体的には、例えば、複製生成部２３４は、時間波形を有する音声データを周波数変調することにより、特定の周波数帯域の成分からなる音声の音声データを高域成分として生成する。なお、周波数変調の具体的方法としては、図４に示したように、単に分割フィルタによって得られる低域成分を、同じ分割フィルタによって得られるはずであった高域成分としてそのまま利用してもよいが、その他様々な方法を適宜選択しても構わない。ここで、複製生成部２３４により生成される高域成分は、楽曲に付加される音声の各時刻における振幅を示す音声データである。

なお、同じ高域成分の生成方法により高域成分を生成する場合であっても、例えば、複製生成部２３１が、周波数情報を用いて高域成分（高周波数成分の周波数情報）を生成するのに対し、複製生成部２３４は、音声データを用いて高域成分（高周波数成分の音声データ）を生成する。つまり、帯域拡張方式によって、取り扱われるデータの形式が異なる。

ステップＳ９３において、形状調整部２３５は、例えば、学習方式などの予め定められた形状調整方法により、複製生成部２３４からの高域成分の形状を調整し、合成フィルタ部２１８に供給する。すなわち、形状調整部２３５は、供給された高域成分としての音声データの音声の各時刻の振幅を適宜変更することにより、高域成分の形状を調整する。より具体的には、例えば、所定の形状（周波数特性）を有するFIR（Finite impulse response）フィルタ、IIR（Infinite impulse response）フィルタなどのフィルタのフィルタ係数と、高域成分の時間信号を畳み込み演算することで、高域成分の形状（周波数特性）が調整される。

ステップＳ９４において、合成フィルタ部２１８は、分割フィルタ部２１６から供給された音声データと、形状調整部２３５から供給された高域成分としての音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを出力部１４４に供給する。すなわち、合成フィルタ部２１８は、高域成分の音声データを低域成分の音声データに加算して、低周波数から高周波数までの各周波数成分が含まれる楽曲の音声データを生成する。

ステップＳ９５において、出力部１４４は、合成フィルタ部２１８から供給された音声データに基づいて楽曲を再生する。このようにして時間帯域拡張方式で帯域拡張された楽曲が再生されると、時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理は終了し、その後、処理は図９のステップＳ２２に進む。

このようにして、音声再生装置１３１は、時間領域で楽曲（音声データ）の帯域拡張を行い、その結果得られた楽曲を再生する。このように、時間領域で帯域拡張を行うことにより、元の低域成分の時間変化によく一致する高域成分を生成することができ、より確実に楽曲の音質を向上させることができる。

さらに、図１２のフローチャートを参照して、図９のステップＳ２１の処理に対応する時間／周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理について説明する。

ステップＳ１２１において、分割フィルタ部２１９は、分割フィルタを用いて、切換部１８３からの音声データを帯域分割し、音声データから楽曲の低域成分を抽出して周波数変換部２２０に供給する。

ステップＳ１２２において、周波数変換部２２０は、分割フィルタ部２１９からの音声データを周波数変換し、その結果得られた周波数情報を複製生成部２３６および時間変換部２２３に供給する。例えば、周波数変換部２２０は、周波数変換として、離散フーリエ変換や修正離散コサイン変換などの直交変換を行う。これにより、楽曲に含まれる各周波数のパワーを示す周波数情報が得られる。

ステップＳ１２３において、複製生成部２３６は、例えば、折り返し方式などの予め定められた高域成分の生成方法により、周波数変換部２２０からの周波数情報を用いて楽曲の高域成分、例えば10kHz乃至20kHzなどの特定の周波数帯域の成分を生成する。この高域成分（高周波数成分）は、より詳細には、楽曲の周波数情報に含まれる一部または全部の周波数帯域の成分が用いられて生成された、特定の周波数帯域の各周波数のパワーを示す周波数情報である。

ステップＳ１２４において、形状調整部２３７は、例えば外挿方式などの予め定められた形状調整方法により、複製生成部２３６からの高域成分の形状を調整し、時間変換部２２２に供給する。すなわち、形状調整部２３７は、高域成分の各周波数のパワーを増減させて、高域成分の形状を調整する。

ステップＳ１２５において、時間変換部２２２および時間変換部２２３は、形状調整部２３７からの高域成分、および周波数変換部２２０からの周波数情報を時間変換し、その結果得られた音声データを合成フィルタ部２２４に供給する。例えば、時間変換部２２２および時間変換部２２３は、時間変換として逆離散フーリエ変換や、逆修正離散コサイン変換などを行い、周波数情報を、時間波形を有する音声データ、つまり音声の各時刻の振幅を示す音声データに変換する。

ステップＳ１２６において、合成フィルタ部２２４は、時間変換部２２２から供給された高域成分としての音声データと、時間変換部２２３から供給された音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを出力部１４４に供給する。これにより、低周波数から高周波数までの成分の含まれる楽曲の音声データが得られる。

ステップＳ１２７において、出力部１４４は、合成フィルタ部２２４から供給された音声データに基づいて楽曲を再生する。このようにして時間／周波数帯域拡張方式で帯域拡張された楽曲が再生されると、時間／周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理は終了し、その後、処理は図９のステップＳ２２に進む。

このようにして、音声再生装置１３１は、時間領域および周波数領域の両方の領域で、音声データに対して楽曲を帯域拡張する処理を行って、帯域拡張された楽曲を再生する。このように、時間領域および周波数領域で帯域拡張を行うことにより、時間帯域拡張方式および周波数帯域拡張方式の特徴を併せ持った高域成分を生成することができ、楽曲の音質を向上させることができる。

また、一旦、音声データの帯域分割を行ってから周波数情報への変換を行うことにより、処理に必要な低域成分だけを周波数変換の処理対象とすることができる。したがって、周波数変換の処理量をより少なくすることができ、より効率よく、かつ迅速に高域成分を生成することができる。さらに、時間／周波数帯域拡張方式で帯域拡張すると、周波数変換の処理量を減少させることができるので、より小さいハードウェア構成で高域成分を生成することができるようになる。

なお、切換制御部１８２が、帯域拡張マッチングデータベースを参照して、分類情報により定まる高域成分の生成方法で、複製生成部２３１、複製生成部２３４、または複製生成部２３６に高域成分を生成させるようにしてもよいし、高域成分の生成方法がユーザの指示により変更されるようにしてもよい。

同様に、切換制御部１８２が、帯域拡張マッチングデータベースを参照して、分類情報により定まる形状調整方法で、形状調整部２３２、形状調整部２３５、または形状調整部２３７に形状調整させるようにしてもよいし、形状調整方法がユーザの指示により変更されるようにしてもよい。

また、切換部１８３の音声データの出力先、つまりノード１８４乃至ノード１８６への接続が、ユーザの指示により切り換えられるようにしてもよい。

さらに、以上においては、楽曲の分類結果に応じて、帯域拡張方法だけを変更する例について説明したが、帯域拡張方法だけでなく、高域成分の生成方法および形状調整方法も楽曲の楽曲分類により変更されるようにしてもよい。

そのような場合、補正部１４３は、例えば、図１３に示すように構成される。なお、図１３において、図８における場合と対応する部分には同一の符号を付してあり、その説明は適宜、省略する。

図１３に示す補正部１４３では、ノード１８４乃至ノード１８６のそれぞれに、周波数変換部２１３、分割フィルタ部２１６、および分割フィルタ部２１９のそれぞれが接続されており、また分割フィルタ部２１９には周波数変換部２２０が接続されている。

さらに、周波数変換部２１３、分割フィルタ部２１６、および周波数変換部２２０には、切換部２７１を介してノード２７２乃至ノード２７７が接続されている。

すなわち、切換部２７１には、周波数変換部２１３からの周波数情報の出力先をノード２７２またはノード２７３に切り換えるスイッチ３２１、分割フィルタ部２１６からの音声データの出力先をノード２７４またはノード２７５に切り換えるスイッチ３２２、および周波数変換部２２０からの周波数情報の出力先をノード２７６またはノード２７７に切り換えるスイッチ３２３が設けられている。切換部２７１は、切換制御部１８２の制御に基づいて、スイッチ３２１乃至スイッチ３２３の接続先を切り換える。

ノード２７２乃至ノード２７７のそれぞれには、複製生成部２７８乃至複製生成部２８３のそれぞれが接続されている。

複製生成部２７８、複製生成部２８０、および複製生成部２８２のそれぞれは、周波数変換部２１３からの周波数情報、分割フィルタ部２１６からの音声データ、および周波数変換部２２０からの周波数情報のそれぞれを用いて、折り返し方式により楽曲に付加する擬似的な高域成分を生成する。

また、複製生成部２７９、複製生成部２８１、および複製生成部２８３のそれぞれは、周波数変換部２１３からの周波数情報、分割フィルタ部２１６からの音声データ、および周波数変換部２２０からの周波数情報のそれぞれを用いて、平行移動方式により楽曲に付加する擬似的な高域成分を生成する。

複製生成部２７８乃至複製生成部２８３により生成された高域成分は、切換部２８４を介してノード２８５乃至ノード２９６に供給される。すなわち、切換部２８４は、スイッチ３２４乃至スイッチ３２９を備えている。

スイッチ３２４は、複製生成部２７８からの高域成分の出力先をノード２８５またはノード２８６の何れかに切り換え、スイッチ３２５は、複製生成部２７９からの高域成分の出力先をノード２８７またはノード２８８の何れかに切り換える。

また、スイッチ３２６は、複製生成部２８０からの高域成分の出力先をノード２８９またはノード２９０の何れかに切り換え、スイッチ３２７は、複製生成部２８１からの高域成分の出力先をノード２９１またはノード２９２の何れかに切り換える。さらに、スイッチ３２８は、複製生成部２８２からの高域成分の出力先をノード２９３またはノード２９４の何れかに切り換え、スイッチ３２９は、複製生成部２８３からの高域成分の出力先をノード２９５またはノード２９６の何れかに切り換える。

切換部２８４は、切換制御部１８２の制御に基づいて、スイッチ３２４乃至スイッチ３２９の接続先を切り換える。

また、ノード２８５乃至ノード２９６のそれぞれには、形状調整部２９７乃至形状調整部３０８のそれぞれが接続されている。

形状調整部２９７、形状調整部２９９、形状調整部３０１、形状調整部３０３、形状調整部３０５、および形状調整部３０７は、複製生成部２７８乃至複製生成部２８３からの高域成分を、外挿方式により形状調整する。

また、形状調整部２９８、形状調整部３００、形状調整部３０２、形状調整部３０４、形状調整部３０６、および形状調整部３０８は、複製生成部２７８乃至複製生成部２８３からの高域成分を、学習方式により形状調整する。

形状調整部２９７乃至形状調整部３００により形状調整された高域成分は、高域貼付部２３３に供給され、形状調整部３０１乃至形状調整部３０４により形状調整された高域成分は、合成フィルタ部２１８に供給され、形状調整部３０５乃至形状調整部３０８により形状調整された高域成分は、時間変換部２２２に供給される。

このように、図１３に示す補正部１４３では、帯域拡張方法、高域成分の生成方法、および形状調整方法のそれぞれをどのような組み合わせとするかによって、切換部１８３、切換部２７１、および切換部２８４により、各データの出力先が切り換えられる。

また、図１３の補正部１４３では、周波数変換部２１３、複製生成部２７８、複製生成部２７９、形状調整部２９７乃至形状調整部３００、高域貼付部２３３、および時間変換部２１５が、図８の周波数帯域拡張１８８に相当する。

同様に、図１３の補正部１４３では、分割フィルタ部２１６、複製生成部２８０、複製生成部２８１、形状調整部３０１乃至形状調整部３０４、および合成フィルタ部２１８が、図８の時間帯域拡張部１８９に相当する。さらに、図１３の補正部１４３では、分割フィルタ部２１９、周波数変換部２２０、複製生成部２８２、複製生成部２８３、形状調整部３０５乃至形状調整部３０８、時間変換部２２２、時間変換部２２３、および合成フィルタ部２２４が、図８の時間／周波数帯域拡張部１９０に相当する。

次に、図１４のフローチャートを参照して、補正部１４３が図１３に示す構成とされる場合における再生処理について説明する。なお、ステップＳ１５１乃至ステップＳ１５５の処理のそれぞれは、図９のステップＳ１１乃至ステップＳ１５の処理のそれぞれと同様であるので、その説明は省略する。

ステップＳ１５５において、楽曲が分類され、分類部１８１から切換制御部１８２に楽曲の分類情報が供給されると、ステップＳ１５６において、切換部１８３は、切換制御部１８２の制御に基づいて、時間変換部１５３からの音声データの出力先を切り換える。

すなわち、切換制御部１８２は、帯域拡張マッチングデータベース保持部２１２の帯域拡張マッチングデータベースを参照して、分類部１８１から供給された分類情報に対応付けられている帯域拡張方式、高域成分の生成方式、および形状調整方式を選択する。

そして、切換制御部１８２は、選択した帯域拡張方式に応じて切換部１８３を制御し、音声データをノード１８４乃至ノード１８６の何れかに供給させる。したがって、切換部１８３からの音声データは、周波数帯域拡張方式が選択された場合には、ノード１８４を介して周波数変換部２１３に供給され、時間帯域拡張方式が選択された場合には、ノード１８５を介して分割フィルタ部２１６に供給され、時間／周波数帯域拡張方式が選択された場合には、ノード１８６を介して分割フィルタ部２１９に供給される。

ステップＳ１５７において、切換部２７１は、切換制御部１８２の制御に基づいて、周波数情報または音声データの出力先を切り換える。すなわち、切換制御部１８２は、ステップＳ１５６の処理において選択した帯域拡張方式、および高域成分の生成方式に応じて、切換部２７１の動作を制御する。

例えば、切換制御部１８２は、周波数帯域拡張方式および折り返し方式が選択された場合、切換部２７１のスイッチ３２１をノード２７２に接続させ、周波数帯域拡張方式および平行移動方式が選択された場合、切換部２７１のスイッチ３２１をノード２７３に接続させる。

また、切換制御部１８２は、時間帯域拡張方式および折り返し方式が選択された場合、切換部２７１のスイッチ３２２をノード２７４に接続させ、時間帯域拡張方式および平行移動方式が選択された場合、切換部２７１のスイッチ３２２をノード２７５に接続させる。さらに、切換制御部１８２は、時間／周波数帯域拡張方式および折り返し方式が選択された場合、切換部２７１のスイッチ３２３をノード２７６に接続させ、時間／周波数帯域拡張方式および平行移動方式が選択された場合、切換部２７１のスイッチ３２３をノード２７７に接続させる。

ステップＳ１５８において、切換部２８４は、切換制御部１８２の制御に基づいて、高域成分の出力先を切り換える。すなわち、切換制御部１８２は、ステップＳ１５６の処理において選択した帯域拡張方式、高域成分の生成方式、および形状調整方式に応じて、切換部２８４の動作を制御する。

例えば、切換制御部１８２は、周波数帯域拡張方式および折り返し方式が選択された場合、外挿方式が選択されたとき、切換部２８４のスイッチ３２４をノード２８５に接続させ、学習方式が選択されたとき、切換部２８４のスイッチ３２４をノード２８６に接続させる。また、切換制御部１８２は、周波数帯域拡張方式および平行移動方式が選択された場合、外挿方式が選択されたとき、切換部２８４のスイッチ３２５をノード２８７に接続させ、学習方式が選択されたとき、切換部２８４のスイッチ３２５をノード２８８に接続させる。

同様に、切換制御部１８２は、時間帯域拡張方式および折り返し方式が選択された場合、外挿方式が選択されたとき、切換部２８４のスイッチ３２６をノード２８９に接続させ、学習方式が選択されたとき、切換部２８４のスイッチ３２６をノード２９０に接続させる。また、切換制御部１８２は、時間帯域拡張方式および平行移動方式が選択された場合、外挿方式が選択されたとき、切換部２８４のスイッチ３２７をノード２９１に接続させ、学習方式が選択されたとき、切換部２８４のスイッチ３２７をノード２９２に接続させる。

さらに、切換制御部１８２は、時間／周波数帯域拡張方式および折り返し方式が選択された場合、外挿方式が選択されたとき、切換部２８４のスイッチ３２８をノード２９３に接続させ、学習方式が選択されたとき、切換部２８４のスイッチ３２８をノード２９４に接続させる。また、切換制御部１８２は、時間／周波数帯域拡張方式および平行移動方式が選択された場合、外挿方式が選択されたとき、切換部２８４のスイッチ３２９をノード２９５に接続させ、学習方式が選択されたとき、切換部２８４のスイッチ３２９をノード２９６に接続させる。

このように、切換制御部１８２は、切換部１８３に音声データの出力先を切り換えさせることで、指定された帯域拡張方法で帯域拡張させる。また、切換制御部１８２は、切換部２７１に周波数情報または音声データの出力先を切り換えさせることで、指定された高域成分の生成方法で、高域成分を生成させるとともに、切換部２８４に、高域成分の出力先を切り換えさせることで、指定された形状調整方法で、高域成分の形状を調整させる。

このようにして、切換部１８３、切換部２７１、および切換部２８４の動作が制御されると、その後、ステップＳ１５９乃至ステップＳ１６４の処理が行われて、再生処理は終了するが、それらの処理は、図９のステップＳ１７乃至ステップＳ２２の処理のそれぞれと同様であるので、その説明は省略する。

なお、ステップＳ１６０、ステップＳ１６２、およびステップＳ１６３のそれぞれにおいては、図１０乃至図１２を参照して説明した周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理、時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理、および時間／周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理のそれぞれと同様の処理が行われる。

但し、高域成分を生成する処理は、複製生成部２７８乃至複製生成部２８３のうち、切換部２７１から周波数情報または音声データが供給された複製生成部により行われる。同様に、高域成分の形状を調整する処理は、形状調整部２９７乃至形状調整部３０８のうち、切換部２８４から高域成分が供給された形状調整部により行われる。

例えば、ステップＳ１５６において、切換制御部１８２により、周波数帯域拡張方式、折り返し方式、および外挿方式が選択されたとする。この場合、ステップＳ１６０の周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理では、複製生成部２７８および形状調整部２９７により、高域成分の生成および形状調整が行われる。

すなわち、図１０のステップＳ５１に対応する処理では、周波数変換部２１３により音声データが周波数情報に変換されて、スイッチ３２１およびノード２７２を介して複製生成部２７８に供給される。そして、ステップＳ５２に対応する処理では、複製生成部２７８により高域成分が生成されて、その高域成分および周波数情報がスイッチ３２４およびノード２８５を介して形状調整部２９７に供給され、ステップＳ５３に対応する処理では、形状調整部２９７により高域成分の形状調整が行われる。

また、その後、形状調整された高域成分、および周波数情報が形状調整部２９７から高域貼付部２３３に供給され、ステップＳ５４およびステップＳ５５に対応する処理において、高域貼付部２３３により高域成分の周波数情報への貼り付けが行われ、時間変換部２１５により周波数情報の音声データへの変換が行われる。さらに、ステップＳ５６に対応する処理において、出力部１４４により楽曲が再生される。

また、例えば、ステップＳ１５６において、切換制御部１８２により、時間帯域拡張方式、折り返し方式、および外挿方式が選択されたとする。この場合、ステップＳ１６２の時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理では、複製生成部２８０および形状調整部３０１により、高域成分の生成および形状調整が行われる。

すなわち、切換部１８３からの音声データは、分割フィルタ部２１６に供給されて、分割フィルタ部２１６により帯域分割されて、合成フィルタ部２１８に供給されるとともに、スイッチ３２２およびノード２７４を介して複製生成部２８０に供給される。そして、複製生成部２８０は、分割フィルタ部２１６からの音声データを用いて、折り返し方式により高域成分を生成し、生成した高域成分を、スイッチ３２６およびノード２８９を介して形状調整部３０１に供給する。

形状調整部３０１は、複製生成部２８０からの高域成分を外挿方式により形状調整して合成フィルタ部２１８に供給し、合成フィルタ部２１８は、形状調整部３０１からの高域成分と、分割フィルタ部２１６からの音声データとを帯域合成して出力部１４４に供給する。

さらに、例えば、ステップＳ１５６において、切換制御部１８２により、時間／周波数帯域拡張方式、折り返し方式、および外挿方式が選択されたとする。この場合、ステップＳ１６３の時間／周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理では、複製生成部２８２および形状調整部３０５により、高域成分の生成および形状調整が行われる。

すなわち、切換部１８３からの音声データは、分割フィルタ部２１９に供給されて帯域分割され、周波数変換部２２０に供給される。周波数変換部２２０は、分割フィルタ部２１９からの音声データを周波数情報に変換して時間変換部２２３に供給するとともに、スイッチ３２３およびノード２７６を介して複製生成部２８２に供給する。

すると、複製生成部２８２は、周波数変換部２２０からの周波数情報を用いて折り返し方式により高域成分を生成し、スイッチ３２８およびノード２９３を介して形状調整部３０５に供給する。また、形状調整部３０５は、複製生成部２８２からの高域成分を外挿方式により形状調整し、時間変換部２２２に供給する。

さらに、時間変換部２２２は、形状調整部３０５からの高域成分を音声データに変換して合成フィルタ部２２４に供給し、時間変換部２２３も周波数変換部２２０からの周波数情報を音声データに変換して合成フィルタ部２２４に供給する。そして、合成フィルタ部２２４は、時間変換部２２２からの音声データと、時間変換部２２３からの音声データとを帯域合成し、出力部１４４に供給する。

以上のように、楽曲の分類結果に応じて、帯域拡張方法だけでなく、高域成分の生成方法、および形状調整方法も最も効果の得られる方法に変更し、それらの方法で高域成分の生成および形状調整を行うことで、より確実に楽曲（音声）の音質を向上させることができる。

例えば、楽曲を、楽曲の種類、すなわちジャズやクラシックといったカテゴリを表す楽曲分類に分類する場合、楽曲分類ごとに高域成分の生成方法や形状調整方法を変更することで、音質を向上させることができる。

具体的には、クラシックを表す楽曲分類の楽曲、つまりクラシックに分類される楽曲は、低域成分が多く含まれており、高域成分は殆ど含まれていないという特徴を有している。したがって、例えば、楽曲の中域成分を用いて楽曲に付加する高域成分を生成し、生成された高域成分が低く抑えられるように形状を調整するような、高域成分の生成方法および形状調整方法が選択されれば、帯域拡張により、元の楽曲に近い音質が得られるはずである。

また、ロックを表す楽曲分類の楽曲は、各周波数成分、つまり周波数スペクトルが可聴帯域範囲内に広く存在している場合が多いという特徴を有している。したがって、例えば、楽曲の中域成分を用いて高域成分を生成し、周波数領域において、生成された高域成分のパワーが低中域成分のパワーの分布に沿った形状となるように形状調整するような、高域成分の生成方法および形状調整方法が選択されれば、帯域拡張により、元の楽曲に近い音質が得られるはずである。

このように、楽曲分類ごとに楽曲の有する特徴が異なるため、各楽曲分類に対して最も音質向上の効果のある帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせを記録しておき、帯域拡張時に楽曲分類に応じて、それらの方法の組み合わせで帯域拡張を行うことで、より確実に楽曲の音質を向上させることができる。

なお、以上においては、楽曲の分類結果に応じて、帯域拡張方法、高域成分の生成方法、および形状調整方法を選択すると説明したが、それらの方法をユーザが個別に指定できるようにしてもよい。

そのような場合、例えば、ユーザが音声再生装置１３１を操作して、帯域拡張方法を指定すると、ユーザの操作に応じた操作信号が切換部１８３に供給される。そして、切換部１８３は、切換制御部１８２からの指示よりも、ユーザの操作に応じて供給された操作信号を優先して、その操作信号により示される帯域拡張方法に応じて、ノード１８４乃至ノード１８６の何れかに音声データの出力先を切り換える。

同様に、ユーザにより高域成分の生成方法が指定された場合、切換部２７１は、切換制御部１８２の指示よりも、ユーザの操作に応じて供給された操作信号を優先し、その操作信号により示される高域成分の生成方法と、選択されている帯域拡張方法とに応じて、スイッチ３２１乃至スイッチ３２３の何れかの出力先を切り換える。

また、ユーザにより高域成分の形状調整方法が指定された場合、切換部２８４は、切換制御部１８２の指示よりも、ユーザの操作に応じて供給された操作信号を優先し、その操作信号により示される形状調整方法と、選択されている帯域拡張方法および高域成分の生成方法とに応じて、スイッチ３２４乃至スイッチ３２９の何れかの出力先を切り換える。

このように、ユーザが帯域拡張方法、高域成分の生成方法、および形状調整方法を自由に選択できるようにすることで、そのユーザにとって、最も効果的な帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせで帯域拡張を行うことができる。

すなわち、帯域拡張マッチングデータベースに記録されている楽曲分類ごとの帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせは、上述したように、客観的・主観的な評価結果を統計的に処理して得られたものである。そのため、それらの楽曲分類ごとの組み合わせは、必ずしも全てのユーザに対して、音質の向上に最も効果的であることを保証するわけではない。

また、ユーザにとって、常に同じ組み合わせが、音質の向上に最も効果的であると感じられるとは限らず、さらに、ユーザが、たまには気分を変えて、いつもとちょっと違う音を楽しみたいと思うこともある。

そこで、帯域拡張方法、高域成分の生成方法、および形状調整方法を、個別にユーザが指定できるという柔軟な構成を実現することで、そのときにユーザにとって最適な帯域拡張方法、高域成分の生成方法、または形状調整方法で帯域拡張を行うことができる。また、たまには気分を変えていつもと違う帯域拡張方法で帯域拡張するといった、ユーザの極めて人間的で曖昧な要求にも答えることが可能となる。

さらに、図１３に示した補正部１４３では、帯域拡張方法ごとに、同じ高域成分の生成方法で高域成分を生成する複製生成部が設けられているが、帯域拡張方法ごとに異なる方法で高域成分を生成する複製生成部が設けられてもよい。

すなわち、補正部１４３では、周波数帯域拡張方式に対して、折り返し方式および平行移動方式で高域成分を生成する複製生成部２７８および複製生成部２７９が設けられており、時間帯域拡張方式に対しても、それらの方式で高域成分を生成する複製生成部２８０および複製生成部２８１が設けられている。これを例えば、複製生成部２８０および複製生成部２８１が、折り返し方式および平行移動方式とは異なる方式で高域成分を生成するようにしてもよい。

同様に、形状調整方法についても、帯域拡張方法および高域成分の生成方法ごとに、同じ形状調整方法で形状調整する形状調整部が設けられているが、帯域拡張方法および高域成分の生成方法の組み合わせごとに、異なる形状調整方法で形状調整を行う形状調整部が設けられてもよい。

また、図１３の補正部１４３では、同じ方法で形状調整を行う形状調整部、および同じ方法で高域成分を生成する複製生成部がそれぞれ複数設けられているが、いくつかの形状調整部および複製生成部が共有されるようにしてもよい。

すなわち、例えば、スイッチ３２５は、形状調整部２９９または形状調整部３００に接続されるようになされているが、形状調整部２９９または形状調整部３００と同じ方法で形状調整を行う形状調整部２９７または形状調整部２９８に接続されるようにされてもよい。これにより、形状調整部２９９および形状調整部３００を補正部１４３に設ける必要がなくなり、補正部１４３の小型化を図ることができる。

なお、この場合、スイッチ３２４およびスイッチ３２５から同時に高域成分が出力されることはないため、複数の高域成分が１つの形状調整部に同時に入力されるようなこともない。このように、いくつかの形状調整部または複製生成部を共有化することで、補正部１４３全体の構成を効率的に組むことが可能となり、小型化も図ることができる。

上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。

図１５は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。

コンピュータにおいて、CPU（Central Processing Unit）５０１，ROM（Read Only Memory）５０２，RAM（Random Access Memory）５０３は、バス５０４により相互に接続されている。

バス５０４には、さらに、入出力インターフェース５０５が接続されている。入出力インターフェース５０５には、キーボード、マウス、マイクロホンなどよりなる入力部５０６、ディスプレイ、スピーカなどよりなる出力部５０７、ハードディスクや不揮発性のメモリなどよりなる記録部５０８、ネットワークインターフェースなどよりなる通信部５０９、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア５１１を駆動するドライブ５１０が接続されている。

以上のように構成されるコンピュータでは、CPU５０１が、例えば、記録部５０８に記録されているプログラムを、入出力インターフェース５０５及びバス５０４を介して、RAM５０３にロードして実行することにより、上述した一連の処理が行われる。

コンピュータ（CPU５０１）が実行するプログラムは、例えば、磁気ディスク（フレキシブルディスクを含む）、光ディスク（CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等）、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア５１１に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。

そして、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インターフェース５０５を介して、記録部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記録部５０８にインストールすることができる。その他、プログラムは、ROM５０２や記録部５０８に、あらかじめインストールしておくことができる。

なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。

従来のエンコーダおよびデコーダの構成を示す図である。従来のエンコード時に生じる高域成分の欠落について説明する図である。従来の帯域拡張について説明する図である。従来の帯域拡張について説明する図である。従来の帯域拡張を行う帯域拡張部の構成を示す図である。帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせの評価を示す図である。本発明を適用した音声再生装置の一実施の形態の構成例を示すブロック図である。補正部の構成例を示す図である。再生処理を説明するフローチャートである。周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を説明するフローチャートである。時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を説明するフローチャートである。時間／周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を説明するフローチャートである。補正部の他の構成例を示す図である。再生処理を説明するフローチャートである。コンピュータの構成例を示す図である。

符号の説明

１３１音声再生装置，１４２デコード部，１４３補正部，１４４出力部，１８１分類部，１８２切換制御部，１８３切換部，１８８周波数帯域拡張処理部，１８９時間帯域拡張処理部，１９０時間／周波数帯域拡張処理部，２３１複製生成部，２３２形状調整部，２３４複製生成部，２３５形状調整部，２３６複製生成部，２３７形状調整部，２７１切換部，２８４切換部

Claims

特定の周波数帯域の成分を生成してオーディオデータに付加する帯域拡張処理を行う帯域拡張手段と、
互いに異なる複数の帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる制御手段と
を備える情報処理装置。
前記帯域拡張手段は、エンコードされたオーディオデータをデコードすることにより得られるオーディオデータに基づいて、前記特定の周波数帯域の成分を生成して前記オーディオデータに付加する帯域拡張処理を行う
請求項１に記載の情報処理装置。
前記複数の前記帯域拡張方法には、時間軸上で前記帯域拡張処理を行う前記帯域拡張方法、周波数軸上で前記帯域拡張処理を行う前記帯域拡張方法、並びに時間軸上および周波数軸上で前記帯域拡張処理を行う前記帯域拡張方法が少なくとも含まれる
請求項２に記載の情報処理装置。
前記オーディオデータは、楽曲を再生させるデータであり、
前記楽曲の１曲分の前記オーディオデータに基づいて、楽曲の有する特徴により予め定められた、いくつかの前記楽曲分類のうちの何れかに前記楽曲を分類する分類手段をさらに備える
請求項３に記載の情報処理装置。
前記帯域拡張手段は、
前記オーディオデータを用いて、前記特定の周波数帯域の成分を生成する生成手段と、
前記特定の周波数帯域の各周波数成分を増減させる調整手段と
を備え、
前記制御手段は、前記特定の周波数帯域の成分の複数の調整方法のうち、前記分類手段による分類結果に対して予め定められた調整方法で、前記調整手段に前記各周波数成分を増減させる
請求項４に記載の情報処理装置。
前記制御手段は、前記特定の周波数帯域の成分の複数の生成方法のうち、前記分類手段による分類結果に対して予め定められた生成方法で、前記生成手段に前記特定の周波数帯域の成分を生成させる
請求項５に記載の情報処理装置。
前記楽曲分類ごとに、複数の前記帯域拡張方法、前記生成方法、および前記調整方法の組み合わせのうち、予め行われた評価の最も高い組み合わせを示す情報を記録する記録手段をさらに備え、
前記制御手段は、前記分類結果および前記情報に基づいて選択した前記帯域拡張方法、前記生成方法、および前記調整方法で、前記帯域拡張手段に前記帯域拡張処理を行わせる
請求項６に記載の情報処理装置。
前記評価は、前記帯域拡張処理により得られたオーディオデータを分析することで得られる客観的な評価結果と、主観的な評価結果とを統計処理することにより得られたものである
請求項７に記載の情報処理装置。
特定の周波数帯域の成分を生成してオーディオデータに付加する帯域拡張処理を行う帯域拡張手段と、
互いに異なる複数の帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる制御手段と
を備える情報処理装置の情報処理方法であって、
前記制御手段が、前記複数の前記帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる
ステップを含む情報処理方法。
特定の周波数帯域の成分を生成してオーディオデータに付加する帯域拡張処理を行う帯域拡張手段と、
互いに異なる複数の帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる制御手段と
を備える情報処理装置のコンピュータに、
前記制御手段が、前記複数の前記帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる
ステップを含む処理を実行させるプログラム。