JP2009300707A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2009300707A
JP2009300707A JP2008154837A JP2008154837A JP2009300707A JP 2009300707 A JP2009300707 A JP 2009300707A JP 2008154837 A JP2008154837 A JP 2008154837A JP 2008154837 A JP2008154837 A JP 2008154837A JP 2009300707 A JP2009300707 A JP 2009300707A
Authority
JP
Japan
Prior art keywords
unit
band
audio data
music
frequency
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008154837A
Other languages
English (en)
Inventor
Shiro Suzuki
志朗 鈴木
Akira Inoue
晃 井上
Kazutomo Kenmochi
千智 劔持
Hidesuke Takahashi
秀介 高橋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Priority to JP2008154837A priority Critical patent/JP2009300707A/ja
Priority to AT09251449T priority patent/ATE542218T1/de
Priority to EP09251449A priority patent/EP2133873B1/en
Priority to US12/480,324 priority patent/US20090310799A1/en
Priority to CN2009101458232A priority patent/CN101604528B/zh
Publication of JP2009300707A publication Critical patent/JP2009300707A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques

Abstract

【課題】より確実に音声の音質を向上させる。
【解決手段】分類部181は、供給された楽曲の音声データに基づいて、楽曲を分類する。切換制御部182は、楽曲の分類結果に応じて切換部183を制御し、音声データの出力先を切り換えさせる。切換部183は、供給された音声データを、周波数帯域拡張部188、時間帯域拡張部189、または時間/周波数帯域拡張部190の何れかに供給する。周波数帯域拡張部188は、周波数領域で楽曲を帯域拡張し、時間帯域拡張部189は、時間領域で楽曲を帯域拡張し、時間/周波数帯域拡張部190は、時間領域および周波数領域の両方の領域で楽曲を帯域拡張する。本発明は、音声再生装置に適用することができる。
【選択図】図8

Description

本発明は情報処理装置および方法、並びにプログラムに関し、特に、エンコードされた音声データを再生する場合に用いて好適な情報処理装置および方法、並びにプログラムに関する。
例えば、ATRAC(Adaptive Transform Acoustic Coding)方式、MP3(Moving Picture Experts Group Audio Layer-3)方式といった、既に一般化されたエンコード方式(圧縮方式)で楽曲の音声データをエンコードすると、高周波数成分が欠落してしまうことが知られている。高周波数成分が欠落すると、再生される楽曲がこもったような音になってしまい、いわゆる音のきらびやかさ感が損なわれてしまう。
楽曲の音声データがエンコードされる場合、図1に示すように、時間波形を有する音声データは、まずエンコーダの周波数変換部11において楽曲の各周波数成分、つまり各周波数のパワーを示す周波数情報に変換され、さらに、この周波数情報が量子化部12により量子化されて、量子化情報に変換される。そして、量子化情報は、符号化部13により符号化されて、符号化により得られた符号列が、エンコードされた音声データとして出力される。ここで、時間波形を有する音声データとは、各時刻における音声の振幅(ゲイン)を示すデータをいう。
一方、このようにしてエンコードされた音声データは、楽曲の再生時において、デコーダによりデコードされて再生される。つまり、音声データは、復号部14において復号されて量子化情報とされ、量子化情報が逆量子化部15により逆量子化されて周波数情報とされる。そして、この周波数情報が時間変換部16により、時間波形を有する音声データに変換されて、デコードされた音声データとして出力される。
音声データがエンコードされる場合、データの圧縮を目的として、周波数情報に含まれる楽曲の高周波数成分がカット(除去)されることが多い。これは、人間の耳には、周波数の高い音は聞こえにくいため、データ削減の影響が少ないからである。
ところが、音声データから高周波数成分が除去されると、周波数変換部11から出力される周波数情報と、逆量子化部15から出力される周波数情報とは同じものとはならなくなる。すなわち、例えば、図2に示すように、エンコードにより楽曲の高域成分(高周波数成分)がカットされてしまう。
なお、図2において、縦方向は楽曲の音声の振幅、または周波数のパワーを示しており、横方向は、時間または周波数を示している。
図中、上段に示される時間波形の音声の音声データが周波数変換されると、図中、中段の左側に示す周波数情報が得られる。この周波数情報には、低域成分から高域成分まで各周波数の成分が含まれている。音声データのエンコード時に、この周波数情報の高域成分が除去されると、デコード時に得られる周波数情報は、図中、中段の右側に示すように、高域成分の含まれていないものとなる。つまり、図中、中段の右側に示す周波数情報には、低域成分しか含まれていないものとなる。
そのため、逆量子化部15による逆量子化により得られた周波数情報を時間変換すると、図中、下段に示すように、エンコード前の元の音声と比べて時間波形のなまった音声の音声データが得られる。このように、デコードされて得られた音声データに基づく音声の時間波形がなまってしまうのは、元の音声データに含まれていた高域成分(高周波数成分)が除去されたためである。
このようにして高域成分の除去された音声データを用いて楽曲を再生すると、元の楽曲がきらびやかな音であっても、再生された楽曲はこもった音となってしまうことがある。ここで、再生された楽曲がどの程度こもった音となるかは、高域成分がどの程度除去されるかによって異なる。
人間の可聴範囲の周波数の上限は約20kHz程度といわれており、殆どの人は、約15kHz程度までの周波数成分が音声データに含まれていれば、再生された音声がこもっているとは感じない。年齢や個人差はあるが、一般的な成人においては、音声データに11kHz程度以下の成分しか含まれなくなると、殆どの人が、再生された音声に対して、こもった感じを受けるようになることが広く知られている。
これは、約15kHzまでの周波数成分の含まれる信号が用いられるFM(Frequency Modulation)放送ではこもった感じはほとんどないが、約8KHzまでの周波数成分しか含まれていない信号が用いられるAM(Amplitude Modulation)放送を聴くと、殆どの人がこもった音と感じるという例により、よく説明される。
ところで、従来、エンコードにより失われてしまった音声データの高域成分を、音声の再生時に生成して音声データに付加することにより、再生される音声のきらびやかさ感を向上させる帯域拡張と呼ばれる技術が知られている(例えば、特許文献1参照)。
例えば、帯域拡張技術を用いた音楽再生装置では、図3に示すように、デコーダから供給された音声データに対して、帯域拡張部41により帯域拡張処理が施される。すなわち、帯域拡張部41は、時間変換部16から供給された、デコードされた音声データを用いて、その音声データの高域成分を生成する。そして、帯域拡張部41は、生成した高域成分を音声データに付加して最終的な音声データとし、その音声データを出力する。なお、図3において、図1における場合と対応する部分には、同一の符号を付してあり、その説明は省略する。
例えば、デコーダの時間変換部16から帯域拡張部41に供給される音声データには、高域成分が含まれていないとすると、その音声データに基づく音声は、図4の上段に示すように、時間変化の少ないなまった時間波形を有する音声となる。なお、図4において、縦方向は音声の振幅、または周波数のパワーを示しており、横方向は、時間または周波数を示している。
図中、上段に示す時間波形の音声の音声データが帯域拡張部41に給されると、帯域拡張部41は、供給された音声データを周波数解析して高域成分を生成する。すなわち、帯域拡張部41は、図中、中段の左側に示すように、音声データの低域成分SL’を複製して、音声データに付加される高域成分SH’を生成し、さらに図中、中段の右側に示すように、生成した高域成分SH’の形状を調整して、最終的な高域成分XSH’とする。
帯域拡張部41は、このようにして生成した高域成分XSH’を時間変換部16から供給された音声データに付加する。これにより、図中、下段に示すように、時間変化の大きい時間波形を有する音声の音声データ、つまり高域成分を有する音声データが得られ、再生対象の音声の音質を向上させることができる。
このように、帯域拡張部41が音声の高域成分を生成して音声データに付加する帯域拡張処理の具体的な方法として、周波数軸上で帯域拡張する方法、時間軸上で帯域拡張する方法、並びに時間軸上および周波数軸上の両方で帯域拡張する方法が考えられる。
これらの3つの帯域拡張方法のうちの周波数軸上で帯域拡張する方法では、図5Aに示すように、音声データが一旦、周波数情報に変換され、変換により得られた周波数情報が用いられて高域成分が生成される。そして、生成された高域成分が付加された周波数情報が時間変換され、帯域拡張された、時間波形を有する音声データが得られる。
すなわち、周波数変換部71は、デコードされた音声データを周波数変換することで、音声データを周波数情報に変換する。また、複製生成部72は、周波数情報を用いて音声に付加される高域成分を生成し、形状調整部73は、高域成分を加工して各周波数成分のパワーを変化させ、高域成分の形状を調整する。
さらに、高域貼付部74は、形状調整された高域成分を周波数情報に貼り付けて時間変換部75に供給する。そして、時間変換部75は、高域成分が貼り付けられた周波数情報、つまり高域成分が付加された周波数情報を時間変換により、各時刻の音声の振幅を示す音声データに変換し、出力する。なお、以下、周波数軸上、つまり周波数領域で帯域拡張する方法を、周波数帯域拡張方式での帯域拡張と呼ぶこととする。
また、時間軸上で帯域拡張する方法では、図5Bに示すように、供給された音声データから分割フィルタ81を用いて抽出された低域成分を加工することで高域成分が生成され、供給された音声データと、生成された高域成分の音声データとが合成フィルタ部84にて合成されて帯域拡張された音声データが得られる。
すなわち、分割フィルタ部81は、分割フィルタを用いてデコードされた音声データを帯域分割し、音声データから音声の低域成分と高域成分を抽出する。なお、デコードされた音声データには、高域成分が殆ど含まれていない。したがって、分割フィルタにより音声データから高域成分も殆ど抽出されず、後段で利用することができないため、図中に「×(バツ)」で示されている。
複製生成部82は、分割フィルタ部81により抽出された低域成分の音声データを用いて、音声に付加される高域成分の音声データを生成し、形状調整部83は、生成された高域成分の音声データを加工して、高域成分の形状を調整する。そして、合成フィルタ部84は、分割フィルタ部81により抽出された低域成分の音声データと、形状調整された高域成分の音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを、帯域拡張された音声データとして出力する。なお、以下、時間軸上、つまり時間領域で帯域拡張する方法を、時間帯域拡張方式での帯域拡張と呼ぶこととする。
さらに、時間軸上および周波数軸上の両方で帯域拡張する方法では、図5Cに示すように、音声データから分割フィルタ部91によって低域成分を抽出し、これが周波数情報に変換され、変換により得られた周波数情報を用いて高域成分が生成される。そして、生成された高域成分と低域成分とが時間変換により音声データに変換され、その結果得られた2つの音声データが合成されて、帯域拡張された、時間波形を有する音声データが得られる。
すなわち、分割フィルタ部91は、分割フィルタを用いてデコードされた音声データを帯域分割し、音声データから音声の低域成分を抽出する。また、周波数変換部92は、抽出された低域成分の音声データを周波数変換により周波数情報に変換する。さらに、複製生成部93は、周波数情報を用いて、音声に付加される高域成分を生成し、形状調整部94は、生成された高域成分の形状を調整する。
そして、時間変換部95は、形状調整された高域成分を時間変換により、各時刻の音声の振幅を示す音声データに変換し、時間変換部96は周波数変換部92からの周波数情報を時間変換により音声データに変換する。さらに、合成フィルタ部97は、時間変換部95からの音声データと、時間変換部96からの音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを、帯域拡張された音声データとして出力する。なお、以下、時間軸上および周波数軸上の両方で、つまり時間領域および周波数領域の両方の領域で帯域拡張する方法を、時間/周波数帯域拡張方式での帯域拡張と呼ぶこととする。
特開2007−328268号公報
ところで、従来の帯域拡張機能を有する音楽再生装置では、所定の帯域拡張方式により音声データの帯域拡張が行われて、音声が再生されることになるが、帯域拡張の対象となる音声データによっては、必ずしも音質を向上させることができるとは限らない。
すなわち、帯域拡張の技術は、音声データに基づく音声の失われてしまった高域成分(高周波数成分)が、どのようなものであったかを推定し、推定された高域成分を擬似的に生成して元の音声に付加する技術である。そのため、必ずしも音声が本来持っていた高域成分が得られる訳ではなく、帯域拡張した結果、かえって音声に耳障りな雑音が付加されてしまう場合もある。
このように、従来の帯域拡張方法では、音声データに基づく音声の特徴によって、音声の音質向上の効果が得られたり、得られなかったりして、音声データによらず、確実に音声の音質を向上させることは困難であった。
本発明は、このような状況に鑑みてなされたものであり、より確実に音声の音質を向上させることができるようにするものである。
本発明の一側面の情報処理装置は、特定の周波数帯域の成分を生成してオーディオデータに付加する帯域拡張処理を行う帯域拡張手段と、互いに異なる複数の帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる制御手段とを備える。
前記帯域拡張手段には、エンコードされたオーディオデータをデコードすることにより得られるオーディオデータに基づいて、前記特定の周波数帯域の成分を生成して前記オーディオデータに付加する帯域拡張処理を行わせることができる。
前記複数の前記帯域拡張方法には、時間軸上で前記帯域拡張処理を行う前記帯域拡張方法、周波数軸上で前記帯域拡張処理を行う前記帯域拡張方法、並びに時間軸上および周波数軸上で前記帯域拡張処理を行う前記帯域拡張方法が少なくとも含まれるようにすることができる。
前記オーディオデータは、楽曲を再生させるデータとし、前記楽曲の1曲分の前記オーディオデータに基づいて、楽曲の有する特徴により予め定められた、いくつかの前記楽曲分類のうちの何れかに前記楽曲を分類する分類手段をさらに設けることができる。
前記帯域拡張手段には、前記オーディオデータを用いて、前記特定の周波数帯域の成分を生成する生成手段と、前記特定の周波数帯域の各周波数成分を増減させる調整手段とを設け、前記制御手段には、前記特定の周波数帯域の成分の複数の調整方法のうち、前記分類手段による分類結果に対して予め定められた調整方法で、前記調整手段に前記各周波数成分を増減させることができる。
前記制御手段には、前記特定の周波数帯域の成分の複数の生成方法のうち、前記分類手段による分類結果に対して予め定められた生成方法で、前記生成手段に前記特定の周波数帯域の成分を生成させることができる。
前記楽曲分類ごとに、複数の前記帯域拡張方法、前記生成方法、および前記調整方法の組み合わせのうち、予め行われた評価の最も高い組み合わせを示す情報を記録する記録手段をさらに設け、前記制御手段には、前記分類結果および前記情報に基づいて選択した前記帯域拡張方法、前記生成方法、および前記調整方法で、前記帯域拡張手段に前記帯域拡張処理を行わせることができる。
前記評価は、前記帯域拡張処理により得られたオーディオデータを分析することで得られる客観的な評価結果と、主観的な評価結果とを統計処理することにより得られたものとすることができる。
本発明の一側面の情報処理方法またはプログラムは、特定の周波数帯域の成分を生成してオーディオデータに付加する帯域拡張処理を行う帯域拡張手段と、互いに異なる複数の帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる制御手段とを備える情報処理装置の情報処理方法またはプログラムであって、前記制御手段が、前記複数の前記帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させるステップを含む。
本発明の一側面においては、互いに異なる複数の帯域拡張方法のうち、オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で帯域拡張手段により、前記帯域拡張処理が実行される。
本発明の一側面によれば、音声データに対して帯域拡張することができる。特に、本発明の一側面によれば、より確実に音声の音質を向上させることができる。
以下、図面を参照して、本発明を適用した実施の形態について説明する。
本発明を適用した音声再生装置は、帯域拡張の対象となる音声を、その音声の特徴に応じて分類し、その分類結果に応じて適切な帯域拡張方式を選択して、選択された帯域拡張方式での帯域拡張処理を音声データに施すものである。
例えば、帯域拡張対象の音声が楽曲である場合、音声の分類は、特定の特徴を有する楽曲が属すべきグループである楽曲分類を予めいくつか用意し、帯域拡張対象の音声の有する特徴によって、その音声を用意した複数の楽曲分類のうちの何れかに分類することにより行われる。
なお、音声再生装置において、音声の分類結果に応じて帯域拡張方式を変更するだけでなく、音声データに付加される高域成分の生成方法、および高域成分の形状調整方法も分類結果に応じて変更されるようにしてもよい。ここで高域成分の形状調整方法とは、どのような規則に従って高域成分としての各周波数成分の大きさを増減させるか、つまり各周波数成分の変化のさせ方をいう。
例えば、高域成分の生成方法には、音声データに基づく音声の特定の周波数帯域の成分を周波数軸上で折り返してからシフト(平行移動)させて高域成分とする方法(以下、折り返し方式と称する)、音声の特定の周波数帯域の成分を、周波数軸上でそのままシフトさせて高域成分とする方法(以下、平行移動方式と称する)などがある。
具体的に、例えば、折り返し方式および平行移動方式により、音声信号に含まれる周波数成分が0kHz乃至20kHzとした場合を考え、この周波数成分を均等に2つに分割して得られる0kHz乃至10kHzを低域成分、10kHz乃至20kHzを高域成分とおき、周波数0kHz乃至10kHzの成分(以下、低域成分と称する)が用いられて、高域成分として周波数10kHz乃至20kHzの成分が生成されるものとして、以下に説明を続ける。
この場合、折り返し方式では、音声の低域成分である0kHz乃至10kHzの各周波数成分のそれぞれが、生成しようとする高域成分の20kHz乃至10kHzの各周波数成分のそれぞれとされる。つまり、低域成分のより小さい周波数の成分の大きさが、高域成分のより大きい周波数の成分の大きさとなるように、低域成分が周波数軸上で線対称に折り返される。
また、移動方式では、音声の低域成分である0kHz乃至10kHzの各周波数成分のそれぞれが、生成しようとする高域成分の10kHz乃至20kHzの各周波数成分のそれぞれとされる。つまり、低域成分のより小さい周波数の成分の大きさが、高域成分のより小さい周波数の成分の大きさとなるように、低域成分が周波数軸上で、そのまま高周波数側に平行移動されて高域成分とされる。
なお、高域成分の生成方式は、例えば、音声の周波数のうちのどの周波数帯域が高域成分の生成に用いられるかによっても異なる方式とされる。
さらに、例えば、高域成分の形状調整方法には、音声データに基づく音声の周波数情報における傾き、つまり音声のスペクトル形状に応じて高域成分を音声に外挿する方法(以下、外挿方式と称する)、音声の低域成分の特徴に応じて、高域成分を予め定められた形状に加工して音声に挿入する方法(以下、学習方式と称する)などがある。
すなわち、外挿方式では、帯域拡張対象の音声の各周波数と、それらの周波数のパワーとの関係、つまり周波数情報における、周波数に対するパワーの勾配の形状に適合するように高域成分の形状が調整される。具体的には、例えば、周波数が大きくなるにつれて音声の周波数のパワー、つまり周波数成分の大きさ(量)が小さくなる場合、付加しようとする高域成分も、周波数が大きくなるにつれてパワーが小さくなるように形状調整される。
また、学習方式では、音声に含まれる低域、例えば0kHz乃至10kHzの周波数帯域の各周波数のパワー、すなわち音声のスペクトル形状から、その音声が本来どのような高域成分を有しているかが統計的な処理により予め学習されている。つまり、互いに異なる低域のスペクトル形状を有するいくつかの音声のモデルに対して、平均的な高域成分のスペクトル形状が求められている。
そして、学習方式による形状調整時には、パターンマッチングにより、帯域拡張の対象となる音声のスペクトル形状に、最も近いスペクトル形状の音声のモデルが選択される。さらに、形状調整の対象となる高域成分のスペクトル形状、つまり高域成分としての各周波数のパワーの相対的な大きさが、選択されたモデルに対して予め定められている高域成分のスペクトル形状と同じ形状となるように、形状調整の対象となる高域成分の形状調整が行われる。
なお、以下、説明を簡単にするため、帯域拡張の対象となる音声データは、楽曲を再生するための音声データであるものとする。
音声再生装置において、音声データに基づく楽曲(音声)の楽曲分類に対して、音質向上に最も効果のある帯域拡張方法、高域成分の生成方法、および形状調整方法が選択されて、選択されたそれらの方法で楽曲の帯域拡張が行われる場合、例えば、図6に示すように、予め各楽曲分類について、各方法の組み合わせの評価がなされる。
なお、図6には、楽曲(音声)の楽曲分類α、楽曲分類β、楽曲分類γについて、帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせの評価が示されている。ここで、組み合わせに対する評価は4段階評価であり、評価の高い順に、二重丸、丸(円)、三角、およびバツとされている。
また、「枠組」の欄には、帯域拡張方法が示され、文字「周波数」、「時間」、および「時間+周波数」のそれぞれは、周波数帯域拡張方式、時間帯域拡張方式、および時間/周波数帯域拡張方式のそれぞれを示している。さらに、「複製」の欄には、高域成分の生成方法が示されており、文字「折り返し」および「移動」は、折り返し方式および平行移動方式を示している。さらに、また、「形状」の欄には、高域成分の形状調整方法が示されており、文字「外挿」および「学習」は、外挿方式および学習方式を示している。
したがって、例えば楽曲分類αに属す楽曲の音声データには、時間帯域拡張方式、折り返し方式、および学習方式の組み合わせで帯域拡張を行うと、最も音質向上の効果が得られることが分かる。同様に、例えば、楽曲分類βに属す楽曲の音声データには、周波数帯域拡張方式、折り返し方式、および学習方式の組み合わせで帯域拡張を行うと、最も音質向上の効果が得られることが分かる。
なお、このような各楽曲分類についての各方法の組み合わせの評価時には、例えば、まず、帯域拡張の対象となる楽曲が、それぞれ1曲ずつ何らかの方法により、予め用意された複数の楽曲分類の何れかに分類される。次に、楽曲分類ごとに、帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせが複数選択されて、それらの組み合わせについて楽曲分類に属す楽曲に対する帯域拡張が行われ、各方法の組み合わせの評価が行われる。
例えば、分析器や計算機が音声データを分析することで、客観的(定量的)に各方法の組み合わせを評価して得られた評価結果と、人間が実際に帯域拡張された楽曲を聴いて、主観的に各方法の組み合わせを評価して得られた評価結果との両方の評価結果を統計的処理することにより、各方法の組み合わせの最終的な評価が求められる。
このように、図6の例では、楽曲分類ごとに、最も適した方法の組み合わせ、つまり最も音質向上の効果が得られる帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせが異なっている。帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせによって、各楽曲分類に分類された楽曲を帯域拡張したときの評価が異なるのは、各方法(方式)によって異なる利点および欠点があるからである。
例えば、周波数帯域拡張方式では、周波数変換によって楽曲にどのような周波数成分が含まれているかを詳しく調べることが可能であり、高域成分の予測精度が高いという利点がある。つまり、周波数帯域拡張方式は、高い周波数分解能を有する。
しかしながら、周波数帯域拡張方式では、高域成分を生成する際に、時間波形を有する音声データをそのまま用いるのではなく、一旦、音声データが周波数情報に変換される。そのため、生成された高域成分には時間に関する情報がなく、高域成分としての周波数情報を、時間波形を有する音声データに変換しても、例えば、得られた高域成分により再生される音声の時間波形が元の楽曲の高域成分の時間波形との一致が悪化、すなわち高域成分の音声の振幅の時間変化が正しく再現されなくなってしまう場合がある。換言すれば、周波数帯域拡張方式では、高域成分の時間分解能が悪化してしまうという欠点がある。
一方、時間帯域拡張方式では、高域成分を生成する際に、時間波形を有する音声データをそのまま利用するため、楽曲の低域成分の時間変化によく一致する高域成分の生成が可能であり、高い時間分解能を有するという利点がある。しかしながら、時間帯域拡張方式では、楽曲にどのような周波数成分が含まれているかを詳しく調べることが出来ないため、高域成分の予測精度が低い、つまり周波数分解能が低いという欠点がある。
また、時間/周波数帯域拡張方式では、周波数帯域拡張方式および時間帯域拡張方式の両方の利点を同時に得ることが可能ではあるが、逆に、それらの2つの方式の欠点も同時に引き継ぐ可能性がある。つまり、時間/周波数帯域拡張方式は、それなりに高い周波数分解能および時間分解能を有しているが、周波数分解能および時間分解能の高さは、帯域拡張対象となる楽曲によって異なる。
音声再生装置には、以上のようにして予め定められた、各楽曲分類と、楽曲分類に対して最も音質向上の効果が得られる帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせとを示す情報からなる帯域拡張マッチングデータベースが予め記録されている。そして、音声再生装置は、記録している帯域拡張マッチングデータベースに基づいて、音声データの帯域拡張を行う。
次に、この音声再生装置において、楽曲の分類結果に応じて、適切な帯域拡張方式を選択し、選択された帯域拡張方式により帯域拡張を行う例について説明する。
図7は、本発明を適用した音声再生装置の一実施の形態の構成例を示すブロック図である。音声再生装置131は、取り込み部141、デコード部142、補正部143、および出力部144から構成される。
取り込み部141は、音声再生装置131に装着されたCD(Compact Disc)等の光ディスクや、音声再生装置131に接続された他の装置から、楽曲の音声データを取り込み、取り込んだ音声データを記録する。この音声データは、例えば、ATRAC方式やMP3方式などでエンコードされたデータである。また、取り込み部141は、記録している音声データをデコード部142に供給する。
デコード部142は、これから再生しようとする楽曲の音声データを取り込み部141から取り込んでデコードする。デコード部142は、復号部151、逆量子化部152、および時間変換部153を備えている。
復号部151は、取り込み部141からの音声データを復号することにより、音声データとしての符号列を量子化情報に変換し、量子化情報を逆量子化部152に供給する。逆量子化部152は、復号部151からの量子化情報を逆量子化し、その結果得られた周波数情報を時間変換部153に供給する。時間変換部153は、逆量子化部152からの周波数情報を時間変換することにより、周波数情報を、楽曲の各時刻の振幅を示す音声データに変換する。そして、時間変換部153は、時間変換により得られた音声データを、デコードされた音声データとして補正部143に供給する。
補正部143は、時間変換部153からの音声データを帯域拡張し、帯域拡張された音声データを出力部144に供給する。出力部144は、例えば、スピーカなどからなり、補正部143からの音声データに基づいて楽曲を再生する。
図7の補正部143は、例えば図8に示すように構成される。すなわち、補正部143は、分類部181、切換制御部182、切換部183、ノード184乃至ノード187、周波数帯域拡張部188、時間帯域拡張部189、および時間/周波数帯域拡張部190から構成される。また、時間変換部153からの音声データは、分類部181および切換部183に供給される。
分類部181は、時間変換部153からの音声データに基づいて、音声データに基づく楽曲の分類を行う。例えば、分類部181は12音解析を行って、音声データから楽曲の特徴を示す楽曲特徴量を抽出する。そして、分類部181は、抽出した楽曲特徴量と、分類部181に備えられている楽曲分類データベース保持部211に保持されている楽曲分類データベースとを用いて楽曲を分類する。
例えば、楽曲分類データベース保持部211には、「ロック」、「ポップス」、「クラシック」、「ジャズ」、「ボーカル」などの楽曲の種類(カテゴリ)を表す楽曲分類を示す分類情報と、それらの分類情報に対応付けられている楽曲特徴量とからなる楽曲分類データベースが記録されている。この楽曲分類データベースに含まれる楽曲特徴量は、対応付けられた楽曲分類に属す楽曲から抽出される平均的な楽曲特徴量である。
分類部181は、楽曲分類データベース保持部211に記録されている楽曲分類データベースを参照して、音声データから抽出した楽曲特徴量に最も近い楽曲特徴量と対応付けられている分類情報を、切換制御部182に供給する。
なお、楽曲の分類は、カテゴリに限らず、「明るい」、「暗い」などの楽曲のムードや、「速い」、「遅い」などの楽曲のテンポなどにより行われてもよい。つまり、楽曲の特徴を表す情報であれば、どのような情報が用いられて楽曲が分類されてもよい。
切換制御部182は、分類部181から供給された分類情報に基づいて、帯域拡張方式を選択し、選択した帯域拡張方式での帯域拡張が行われるように、切換部183の動作を制御する。
すなわち、切換制御部182には、帯域拡張マッチングデータベース保持部212が設けられており、帯域拡張マッチングデータベース保持部212には、楽曲分類を示す分類情報と、その分類情報に対応付けられた帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせを示す情報とからなる帯域拡張マッチングデータベースが記録されている。切換制御部182は、帯域拡張マッチングデータベースを参照して、分類部181から供給された分類情報に対応付けられている帯域拡張方式を選択する。
切換部183は、例えば、スイッチなどからなり、切換制御部182の制御に基づいて、時間変換部153からの音声データの出力先を切り換える。すなわち、切換部183は、ノード184乃至ノード187の何れかに接続することで、音声データを周波数帯域拡張部188、時間帯域拡張部189、時間/周波数帯域拡張部190、または出力部144の何れかに出力する。
周波数帯域拡張部188は、ノード184を介して切換部183から供給された音声データを、周波数帯域拡張方式で帯域拡張する。周波数帯域拡張部188は、周波数変換部213、帯域拡張部214、時間変換部215から構成される。
周波数変換部213は、切換部183からの音声データを周波数変換し、その結果得られた周波数情報を帯域拡張部214に供給する。
帯域拡張部214は、周波数変換部213から供給された周波数情報を用いて、帯域拡張された周波数情報を生成する。帯域拡張部214は、複製生成部231、形状調整部232、および高域貼付部233から構成される。
複製生成部231は、予め定められた高域成分の生成方法により、周波数変換部213からの周波数情報を用いて楽曲に付加する擬似的な高域成分、より詳細には高周波数成分の周波数情報を生成し、生成した高域成分と、周波数変換部213からの周波数情報とを形状調整部232に供給する。
形状調整部232は、予め定められた形状調整方法により、複製生成部231からの高域成分を加工して高域成分の形状を調整し、形状調整された高域成分と、複製生成部231からの楽曲の周波数情報とを高域貼付部233に供給する。高域貼付部233は、形状調整部232から周波数情報および高域成分が供給されると、周波数情報に高域成分を付加して時間変換部215に供給する。時間変換部215は、高域貼付部233からの周波数情報を時間変換により音声データに変換し、変換により得られた音声データを出力部144に供給する。
また、時間帯域拡張部189は、ノード185を介して切換部183から供給された音声データを、時間帯域拡張方式で帯域拡張する。時間帯域拡張部189は、分割フィルタ部216、帯域拡張部217、および合成フィルタ部218から構成される。
分割フィルタ部216は、分割フィルタを用いて、切換部183からの音声データを帯域分割し、音声データから楽曲の低域成分、例えば楽曲の0kHz乃至10kHzの成分の音声データを抽出し、帯域拡張部217および合成フィルタ部218に供給する。
帯域拡張部217は、分割フィルタ部216から供給された音声データを用いて、楽曲に付加する擬似的な高域成分を生成する。帯域拡張部217は、複製生成部234および形状調整部235から構成される。
複製生成部234は、予め定められた高域成分の生成方法により、分割フィルタ部216からの音声データを用いて楽曲の擬似的な高域成分、より詳細には高域成分の音声データを生成し、形状調整部235に供給する。形状調整部235は、予め定められた形状調整方法により、複製生成部234からの高域成分を加工して高域成分の形状を調整し、形状調整された高域成分を合成フィルタ部218に供給する。
合成フィルタ部218は、分割フィルタ部216から供給された音声データと、形状調整部235から供給された高域成分の音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを出力部144に供給する。
さらに、時間/周波数帯域拡張部190は、ノード186を介して切換部183から供給された音声データを、時間/周波数帯域拡張方式で帯域拡張する。時間/周波数帯域拡張部190は、分割フィルタ部219、周波数変換部220、帯域拡張部221、時間変換部222、時間変換部223、および合成フィルタ部224から構成される。
分割フィルタ部219は、分割フィルタを用いて、切換部183からの音声データを帯域分割し、音声データから楽曲の低域成分の音声データを抽出して周波数変換部220に供給する。周波数変換部220は、分割フィルタ部219からの低域成分の音声データを周波数変換し、その結果得られた周波数情報を帯域拡張部221および時間変換部223に供給する。
帯域拡張部221は、周波数変換部220から供給された周波数情報を用いて、楽曲に付加する高域成分を生成する。帯域拡張部221は、複製生成部236および形状調整部237から構成される。
複製生成部236は、予め定められた高域成分の生成方法により、周波数変換部220からの周波数情報を用いて楽曲に付加する擬似的な高域成分、より詳細には高周波数成分の周波数情報を生成し、生成した高域成分を形状調整部237に供給する。形状調整部237は、予め定められた形状調整方法により、複製生成部236からの高域成分を加工して高域成分の形状を調整し、時間変換部222に供給する。
時間変換部222は、形状調整部237からの周波数情報を時間変換により音声データに変換し、合成フィルタ部224に供給する。また、時間変換部223は、周波数変換部220からの周波数情報を時間変換により音声データに変換し、合成フィルタ部224に供給する。合成フィルタ部224は、時間変換部222からの音声データと、時間変換部223からの音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを出力部144に供給する。
ところで、音声再生装置131の電源がオンされて、ユーザにより楽曲の再生が指示されると、音声再生装置131は、ユーザにより指示された楽曲を再生するための音声データを取り込んで再生する再生処理を行う。
以下、図9のフローチャートを参照して、音声再生装置131による再生処理について説明する。
ステップS11において、取り込み部141はユーザの操作に応じて、これから再生しようとするいくつかの楽曲の音声データを取り込んで記録する。例えば、取り込み部141は、音声再生装置131に装着された光ディスク、音声再生装置131に設けられているハードディスク、音声再生装置131と接続されている他の装置などから音声データを取り込む。なお、取り込み部141により取り込んだ音声データが、音声再生装置131に設けられた、ハードディスクなどの不揮発性メモリにも記録されるようにしてもよい。
ステップS12において、デコード部142は、ユーザにより指示された楽曲の音声データを取り込み部141から取得してデコードする。
すなわち、復号部151は、取り込み部141から音声データを取得して復号し、その結果得られた量子化情報を逆量子化部152に供給する。逆量子化部152は、復号部151からの量子化情報を逆量子化し、その結果得られた周波数情報を時間変換部153に供給する。また、時間変換部153は、逆量子化部152から供給された、楽曲の各周波数のパワーを示す周波数情報を時間変換することにより、楽曲の各時刻の振幅を示す音声データに変換する。この音声データは、デコードされた音声データとして時間変換部153から分類部181および切換部183に供給される。
ステップS13において、補正部143は、帯域拡張を行うか否かを判定する。例えば、ユーザにより音声再生装置131に対する操作が行われ、帯域拡張が指示された場合、帯域拡張を行うと判定される。
なお、音声再生装置131の電源がオフされる場合に、音声再生装置131がその時点において、ユーザにより帯域拡張が指示されていたか否かを示す情報を記録しておき、次に音声再生装置131の電源がオンされた直後において、音声再生装置131が記録している情報に基づいて、帯域拡張を行うか否かを判定するようにしてもよい。
ステップS13において、帯域拡張を行わないと判定された場合、補正部143は、切換制御部182に、音声データのノード187への出力を指示する。すると、切換制御部182は、補正部143の指示に応じて、切換部183の動作を制御し、ノード187に接続させる。そして、切換部183が音声データの出力先をノード187に切り換えると、その後、処理はステップS14に進む。
ステップS14において、出力部144は楽曲を再生する。すなわち、切換部183は、時間変換部153からの音声データを、ノード187を介して出力部144に供給し、出力部144は、切換部183から供給された音声データに基づいて、楽曲を再生する。これにより、帯域拡張の行われていない楽曲が再生される。また、ステップS14において楽曲が再生されると、処理はステップS22に進む。
一方、ステップS13において、帯域拡張を行うと判定された場合、ステップS15において、分類部181は、時間変換部153から供給された楽曲の1曲分の音声データに基づいて楽曲を分類し、その分類結果を切換制御部182に供給する。
例えば、分類部181が12音解析を行うことで楽曲を分類する場合、分類部181は、1楽曲分の音声データを複数のオクターブの信号に分割し、それらのオクターブの信号のそれぞれにフィルタ処理を施して、オクターブごとに12の音程の信号を抽出する。そして、分類部181は、音声データから得られた12の音程の信号を用いて、ビート構造、コード進行などの楽曲の特徴を示す楽曲特徴量を求める。
さらに、分類部181は、楽曲分類データベース保持部211の楽曲分類データベースを参照して、音声データから抽出した楽曲特徴量に最も近い(類似する)楽曲特徴量と対応付けられている分類情報を、楽曲の分類結果として切換制御部182に供給する。この分類情報は、楽曲が分類された楽曲分類を示している。
このように、1つの楽曲全体の音声データから、その楽曲自体の分類を行うことで、音声データの一部分だけを用いて、その部分に対応する楽曲の区間の分類を行う場合と比べて、より確実性の高い分類を行うことができる。
なお、分類部181が楽曲の分類を行わずに、インターネット等の通信網を介して音声再生装置131に接続された他の装置から分類情報を取得したり、デコード部142および取り込み部141を介して、音声再生装置131に装着された光ディスクから分類情報を取得したりしてもよい。例えば、CD-Textの規格に対応した光ディスクでは、光ディスクのリードインエリアに分類情報が記録されている。
また、楽曲の音声データが取り込み部141に取り込まれた時点で、楽曲の分類が行われるようにし、その分類結果を記録しておくようにしてもよい。楽曲の分類結果を予め記録しておけば、より迅速に楽曲の再生を開始することができる。
ステップS16において、切換部183は、切換制御部182の制御に基づいて、時間変換部153からの音声データの出力先を切り換える。
すなわち、切換制御部182は、帯域拡張マッチングデータベース保持部212の帯域拡張マッチングデータベースを参照して、分類部181から供給された分類情報に対応付けられている帯域拡張方法を選択する。そして、切換制御部182は、選択した帯域拡張方法に応じて切換部183を制御し、音声データをノード184乃至ノード186の何れかに供給させる。例えば、帯域拡張方法として、周波数帯域拡張方式が選択された場合、切換制御部182は、周波数帯域拡張方式により帯域拡張が行われるように、切換部183をノード184に接続させる。
ステップS17において、切換制御部182は、周波数帯域拡張方式で帯域拡張するか否かを判定する。例えば、切換部183がノード184に接続され、音声データが切換部183から周波数帯域拡張部188に供給された場合、周波数帯域拡張方式で帯域拡張すると判定される。
ステップS17において、周波数帯域拡張方式で帯域拡張すると判定された場合、ステップS18において、音声再生装置131は、周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を行う。なお、周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理の詳細は後述するが、この周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理において、周波数帯域拡張方式により楽曲の帯域拡張が行われ、楽曲が再生される。つまり、周波数領域での帯域拡張が行われる。
周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理が行われると、その後、処理はステップS22に進む。
これに対して、ステップS17において、周波数帯域拡張方式で帯域拡張しないと判定された場合、ステップS19において、切換制御部182は、時間帯域拡張方式で帯域拡張するか否かを判定する。例えば、切換部183がノード185に接続され、音声データが切換部183から時間帯域拡張部189に供給された場合、時間帯域拡張方式で帯域拡張すると判定される。
ステップS19において、時間帯域拡張方式で帯域拡張すると判定された場合、ステップS20において、音声再生装置131は、時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を行う。なお、時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理の詳細は後述するが、この時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理において、時間帯域拡張方式により楽曲の帯域拡張が行われ、楽曲が再生される。つまり、時間領域での帯域拡張が行われる。
時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理が行われると、その後、処理はステップS22に進む。
また、ステップS19において、時間帯域拡張方式で帯域拡張しないと判定された場合、ステップS21において、音声再生装置131は、時間/周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を行う。なお、時間/周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理の詳細は後述するが、時間/周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理において、時間/周波数帯域拡張方式により楽曲の帯域拡張が行われ、楽曲が再生される。つまり、時間領域および周波数領域の両方の領域での帯域拡張が行われる。
時間/周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理が行われると、その後、処理はステップS22に進む。
ステップS14、ステップS18、ステップS20、またはステップS21において、1曲分の楽曲が再生されると、ステップS22において、音声再生装置131は、楽曲の再生を終了するか否かを判定する。例えば、ユーザにより指定された全ての楽曲の再生が終了した場合、再生を終了すると判定される。
ステップS22において、再生を終了しないと判定された場合、処理はステップS12に戻り、上述した処理が繰り返されて、次の楽曲が再生される。
これに対して、ステップS22において、再生を終了すると判定された場合、音声再生装置131の各部は行っている処理を終了し、再生処理は終了する。
このようにして、音声再生装置131は、楽曲を分類し、その分類結果に応じて帯域拡張方法を変更する。そして、音声再生装置131は、楽曲の1曲分の音声データに対して、同じ帯域拡張方法で帯域拡張を行う。
このように、楽曲の分類結果に応じて帯域拡張方法を変更することで、その楽曲の楽曲分類に最も適した帯域拡張方法で帯域拡張を行うことができる。つまり、再生しようとする楽曲に対して、最も音質向上の効果が得られる帯域拡張方法により、音声データを帯域拡張することができる。したがって、従来と比較して、より確実に楽曲(音声)の音質を向上させることができる。
次に、図10のフローチャートを参照して、図9のステップS18の処理に対応する周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理について説明する。
ステップS51において、周波数変換部213は、切換部183からの音声データを周波数変換し、その結果得られた周波数情報を複製生成部231に供給する。例えば、周波数変換部213は、周波数変換として、離散フーリエ変換や修正離散コサイン変換などの直交変換を行う。これにより、楽曲に含まれる各周波数成分の大きさ、つまり各周波数のパワーを示す周波数情報が得られる。
ステップS52において、複製生成部231は、例えば、折り返し方式などの予め定められた高域成分の生成方法により、周波数変換部213からの周波数情報を用いて楽曲に付加する擬似的な高域成分、例えば10kHz乃至20kHzなどの特定の周波数帯域の成分を生成する。この高域成分(高周波数成分)は、より詳細には、楽曲の周波数情報に含まれる一部または全部の周波数帯域の成分が用いられて生成された、特定の周波数帯域の各周波数のパワーを示す周波数情報、つまり特定の周波数の音声の周波数情報である。
複製生成部231は、高域成分を生成すると、生成した高域成分と、周波数変換部213から供給された周波数情報とを形状調整部232に供給する。
ステップS53において、形状調整部232は、例えば外挿方式などの予め定められた形状調整方法により、複製生成部231からの高域成分の形状を調整する。すなわち、形状調整部232は、高域成分の各周波数のパワーを増減させて、高域成分の形状を調整する。そして、形状調整部232は、形状調整された高域成分と、複製生成部231からの楽曲の周波数情報とを高域貼付部233に供給する。
ステップS54において、高域貼付部233は、形状調整部232から周波数情報および高域成分が供給されると、周波数情報に高域成分を貼り付けて時間変換部215に供給する。すなわち、低域の各周波数のパワーからなる楽曲の周波数情報に、周波数情報には含まれていない高域の周波数のパワーが付加されて、低域から高域までの各周波数のパワーを示す周波数情報が生成される。
ステップS55において、時間変換部215は、高域貼付部233からの周波数情報を時間変換により音声データに変換し、変換により得られた音声データを出力部144に供給する。例えば、時間変換部215は、時間変換として逆離散フーリエ変換や、逆修正離散コサイン変換などを行い、周波数情報を、時間波形を有する音声データ、つまり楽曲の各時刻の振幅を示す音声データに変換する。
ステップS56において、出力部144は、時間変換部215から供給された音声データに基づいて楽曲を再生する。このようにして周波数帯域拡張方式で帯域拡張された楽曲が再生されると、周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理は終了し、その後、処理は図9のステップS22に進む。
このようにして、音声再生装置131は、周波数領域で楽曲(音声データ)の帯域拡張を行い、その結果得られた楽曲を再生する。このように、周波数領域で帯域拡張を行うことにより、より高い精度で楽曲の本来の高域成分を推定することができ、より確実に楽曲の音質を向上させることができる。
次に、図11のフローチャートを参照して、図9のステップS20の処理に対応する時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理について説明する。
ステップS91において、分割フィルタ部216は、分割フィルタを用いて、切換部183からの音声データを帯域分割し、音声データから楽曲の低域成分を抽出し、抽出された低域成分からなる音声データを、複製生成部234および合成フィルタ部218に供給する。
ステップS92において、複製生成部234は、例えば折り返し方式などの予め定められた高域成分の生成方法により、分割フィルタ部216からの音声データを用いて楽曲に付加する高域成分を生成し、形状調整部235に供給する。
具体的には、例えば、複製生成部234は、時間波形を有する音声データを周波数変調することにより、特定の周波数帯域の成分からなる音声の音声データを高域成分として生成する。なお、周波数変調の具体的方法としては、図4に示したように、単に分割フィルタによって得られる低域成分を、同じ分割フィルタによって得られるはずであった高域成分としてそのまま利用してもよいが、その他様々な方法を適宜選択しても構わない。ここで、複製生成部234により生成される高域成分は、楽曲に付加される音声の各時刻における振幅を示す音声データである。
なお、同じ高域成分の生成方法により高域成分を生成する場合であっても、例えば、複製生成部231が、周波数情報を用いて高域成分(高周波数成分の周波数情報)を生成するのに対し、複製生成部234は、音声データを用いて高域成分(高周波数成分の音声データ)を生成する。つまり、帯域拡張方式によって、取り扱われるデータの形式が異なる。
ステップS93において、形状調整部235は、例えば、学習方式などの予め定められた形状調整方法により、複製生成部234からの高域成分の形状を調整し、合成フィルタ部218に供給する。すなわち、形状調整部235は、供給された高域成分としての音声データの音声の各時刻の振幅を適宜変更することにより、高域成分の形状を調整する。より具体的には、例えば、所定の形状(周波数特性)を有するFIR(Finite impulse response)フィルタ、IIR(Infinite impulse response)フィルタなどのフィルタのフィルタ係数と、高域成分の時間信号を畳み込み演算することで、高域成分の形状(周波数特性)が調整される。
ステップS94において、合成フィルタ部218は、分割フィルタ部216から供給された音声データと、形状調整部235から供給された高域成分としての音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを出力部144に供給する。すなわち、合成フィルタ部218は、高域成分の音声データを低域成分の音声データに加算して、低周波数から高周波数までの各周波数成分が含まれる楽曲の音声データを生成する。
ステップS95において、出力部144は、合成フィルタ部218から供給された音声データに基づいて楽曲を再生する。このようにして時間帯域拡張方式で帯域拡張された楽曲が再生されると、時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理は終了し、その後、処理は図9のステップS22に進む。
このようにして、音声再生装置131は、時間領域で楽曲(音声データ)の帯域拡張を行い、その結果得られた楽曲を再生する。このように、時間領域で帯域拡張を行うことにより、元の低域成分の時間変化によく一致する高域成分を生成することができ、より確実に楽曲の音質を向上させることができる。
さらに、図12のフローチャートを参照して、図9のステップS21の処理に対応する時間/周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理について説明する。
ステップS121において、分割フィルタ部219は、分割フィルタを用いて、切換部183からの音声データを帯域分割し、音声データから楽曲の低域成分を抽出して周波数変換部220に供給する。
ステップS122において、周波数変換部220は、分割フィルタ部219からの音声データを周波数変換し、その結果得られた周波数情報を複製生成部236および時間変換部223に供給する。例えば、周波数変換部220は、周波数変換として、離散フーリエ変換や修正離散コサイン変換などの直交変換を行う。これにより、楽曲に含まれる各周波数のパワーを示す周波数情報が得られる。
ステップS123において、複製生成部236は、例えば、折り返し方式などの予め定められた高域成分の生成方法により、周波数変換部220からの周波数情報を用いて楽曲の高域成分、例えば10kHz乃至20kHzなどの特定の周波数帯域の成分を生成する。この高域成分(高周波数成分)は、より詳細には、楽曲の周波数情報に含まれる一部または全部の周波数帯域の成分が用いられて生成された、特定の周波数帯域の各周波数のパワーを示す周波数情報である。
ステップS124において、形状調整部237は、例えば外挿方式などの予め定められた形状調整方法により、複製生成部236からの高域成分の形状を調整し、時間変換部222に供給する。すなわち、形状調整部237は、高域成分の各周波数のパワーを増減させて、高域成分の形状を調整する。
ステップS125において、時間変換部222および時間変換部223は、形状調整部237からの高域成分、および周波数変換部220からの周波数情報を時間変換し、その結果得られた音声データを合成フィルタ部224に供給する。例えば、時間変換部222および時間変換部223は、時間変換として逆離散フーリエ変換や、逆修正離散コサイン変換などを行い、周波数情報を、時間波形を有する音声データ、つまり音声の各時刻の振幅を示す音声データに変換する。
ステップS126において、合成フィルタ部224は、時間変換部222から供給された高域成分としての音声データと、時間変換部223から供給された音声データとを合成フィルタを用いて帯域合成し、その結果得られた音声データを出力部144に供給する。これにより、低周波数から高周波数までの成分の含まれる楽曲の音声データが得られる。
ステップS127において、出力部144は、合成フィルタ部224から供給された音声データに基づいて楽曲を再生する。このようにして時間/周波数帯域拡張方式で帯域拡張された楽曲が再生されると、時間/周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理は終了し、その後、処理は図9のステップS22に進む。
このようにして、音声再生装置131は、時間領域および周波数領域の両方の領域で、音声データに対して楽曲を帯域拡張する処理を行って、帯域拡張された楽曲を再生する。このように、時間領域および周波数領域で帯域拡張を行うことにより、時間帯域拡張方式および周波数帯域拡張方式の特徴を併せ持った高域成分を生成することができ、楽曲の音質を向上させることができる。
また、一旦、音声データの帯域分割を行ってから周波数情報への変換を行うことにより、処理に必要な低域成分だけを周波数変換の処理対象とすることができる。したがって、周波数変換の処理量をより少なくすることができ、より効率よく、かつ迅速に高域成分を生成することができる。さらに、時間/周波数帯域拡張方式で帯域拡張すると、周波数変換の処理量を減少させることができるので、より小さいハードウェア構成で高域成分を生成することができるようになる。
なお、切換制御部182が、帯域拡張マッチングデータベースを参照して、分類情報により定まる高域成分の生成方法で、複製生成部231、複製生成部234、または複製生成部236に高域成分を生成させるようにしてもよいし、高域成分の生成方法がユーザの指示により変更されるようにしてもよい。
同様に、切換制御部182が、帯域拡張マッチングデータベースを参照して、分類情報により定まる形状調整方法で、形状調整部232、形状調整部235、または形状調整部237に形状調整させるようにしてもよいし、形状調整方法がユーザの指示により変更されるようにしてもよい。
また、切換部183の音声データの出力先、つまりノード184乃至ノード186への接続が、ユーザの指示により切り換えられるようにしてもよい。
さらに、以上においては、楽曲の分類結果に応じて、帯域拡張方法だけを変更する例について説明したが、帯域拡張方法だけでなく、高域成分の生成方法および形状調整方法も楽曲の楽曲分類により変更されるようにしてもよい。
そのような場合、補正部143は、例えば、図13に示すように構成される。なお、図13において、図8における場合と対応する部分には同一の符号を付してあり、その説明は適宜、省略する。
図13に示す補正部143では、ノード184乃至ノード186のそれぞれに、周波数変換部213、分割フィルタ部216、および分割フィルタ部219のそれぞれが接続されており、また分割フィルタ部219には周波数変換部220が接続されている。
さらに、周波数変換部213、分割フィルタ部216、および周波数変換部220には、切換部271を介してノード272乃至ノード277が接続されている。
すなわち、切換部271には、周波数変換部213からの周波数情報の出力先をノード272またはノード273に切り換えるスイッチ321、分割フィルタ部216からの音声データの出力先をノード274またはノード275に切り換えるスイッチ322、および周波数変換部220からの周波数情報の出力先をノード276またはノード277に切り換えるスイッチ323が設けられている。切換部271は、切換制御部182の制御に基づいて、スイッチ321乃至スイッチ323の接続先を切り換える。
ノード272乃至ノード277のそれぞれには、複製生成部278乃至複製生成部283のそれぞれが接続されている。
複製生成部278、複製生成部280、および複製生成部282のそれぞれは、周波数変換部213からの周波数情報、分割フィルタ部216からの音声データ、および周波数変換部220からの周波数情報のそれぞれを用いて、折り返し方式により楽曲に付加する擬似的な高域成分を生成する。
また、複製生成部279、複製生成部281、および複製生成部283のそれぞれは、周波数変換部213からの周波数情報、分割フィルタ部216からの音声データ、および周波数変換部220からの周波数情報のそれぞれを用いて、平行移動方式により楽曲に付加する擬似的な高域成分を生成する。
複製生成部278乃至複製生成部283により生成された高域成分は、切換部284を介してノード285乃至ノード296に供給される。すなわち、切換部284は、スイッチ324乃至スイッチ329を備えている。
スイッチ324は、複製生成部278からの高域成分の出力先をノード285またはノード286の何れかに切り換え、スイッチ325は、複製生成部279からの高域成分の出力先をノード287またはノード288の何れかに切り換える。
また、スイッチ326は、複製生成部280からの高域成分の出力先をノード289またはノード290の何れかに切り換え、スイッチ327は、複製生成部281からの高域成分の出力先をノード291またはノード292の何れかに切り換える。さらに、スイッチ328は、複製生成部282からの高域成分の出力先をノード293またはノード294の何れかに切り換え、スイッチ329は、複製生成部283からの高域成分の出力先をノード295またはノード296の何れかに切り換える。
切換部284は、切換制御部182の制御に基づいて、スイッチ324乃至スイッチ329の接続先を切り換える。
また、ノード285乃至ノード296のそれぞれには、形状調整部297乃至形状調整部308のそれぞれが接続されている。
形状調整部297、形状調整部299、形状調整部301、形状調整部303、形状調整部305、および形状調整部307は、複製生成部278乃至複製生成部283からの高域成分を、外挿方式により形状調整する。
また、形状調整部298、形状調整部300、形状調整部302、形状調整部304、形状調整部306、および形状調整部308は、複製生成部278乃至複製生成部283からの高域成分を、学習方式により形状調整する。
形状調整部297乃至形状調整部300により形状調整された高域成分は、高域貼付部233に供給され、形状調整部301乃至形状調整部304により形状調整された高域成分は、合成フィルタ部218に供給され、形状調整部305乃至形状調整部308により形状調整された高域成分は、時間変換部222に供給される。
このように、図13に示す補正部143では、帯域拡張方法、高域成分の生成方法、および形状調整方法のそれぞれをどのような組み合わせとするかによって、切換部183、切換部271、および切換部284により、各データの出力先が切り換えられる。
また、図13の補正部143では、周波数変換部213、複製生成部278、複製生成部279、形状調整部297乃至形状調整部300、高域貼付部233、および時間変換部215が、図8の周波数帯域拡張188に相当する。
同様に、図13の補正部143では、分割フィルタ部216、複製生成部280、複製生成部281、形状調整部301乃至形状調整部304、および合成フィルタ部218が、図8の時間帯域拡張部189に相当する。さらに、図13の補正部143では、分割フィルタ部219、周波数変換部220、複製生成部282、複製生成部283、形状調整部305乃至形状調整部308、時間変換部222、時間変換部223、および合成フィルタ部224が、図8の時間/周波数帯域拡張部190に相当する。
次に、図14のフローチャートを参照して、補正部143が図13に示す構成とされる場合における再生処理について説明する。なお、ステップS151乃至ステップS155の処理のそれぞれは、図9のステップS11乃至ステップS15の処理のそれぞれと同様であるので、その説明は省略する。
ステップS155において、楽曲が分類され、分類部181から切換制御部182に楽曲の分類情報が供給されると、ステップS156において、切換部183は、切換制御部182の制御に基づいて、時間変換部153からの音声データの出力先を切り換える。
すなわち、切換制御部182は、帯域拡張マッチングデータベース保持部212の帯域拡張マッチングデータベースを参照して、分類部181から供給された分類情報に対応付けられている帯域拡張方式、高域成分の生成方式、および形状調整方式を選択する。
そして、切換制御部182は、選択した帯域拡張方式に応じて切換部183を制御し、音声データをノード184乃至ノード186の何れかに供給させる。したがって、切換部183からの音声データは、周波数帯域拡張方式が選択された場合には、ノード184を介して周波数変換部213に供給され、時間帯域拡張方式が選択された場合には、ノード185を介して分割フィルタ部216に供給され、時間/周波数帯域拡張方式が選択された場合には、ノード186を介して分割フィルタ部219に供給される。
ステップS157において、切換部271は、切換制御部182の制御に基づいて、周波数情報または音声データの出力先を切り換える。すなわち、切換制御部182は、ステップS156の処理において選択した帯域拡張方式、および高域成分の生成方式に応じて、切換部271の動作を制御する。
例えば、切換制御部182は、周波数帯域拡張方式および折り返し方式が選択された場合、切換部271のスイッチ321をノード272に接続させ、周波数帯域拡張方式および平行移動方式が選択された場合、切換部271のスイッチ321をノード273に接続させる。
また、切換制御部182は、時間帯域拡張方式および折り返し方式が選択された場合、切換部271のスイッチ322をノード274に接続させ、時間帯域拡張方式および平行移動方式が選択された場合、切換部271のスイッチ322をノード275に接続させる。さらに、切換制御部182は、時間/周波数帯域拡張方式および折り返し方式が選択された場合、切換部271のスイッチ323をノード276に接続させ、時間/周波数帯域拡張方式および平行移動方式が選択された場合、切換部271のスイッチ323をノード277に接続させる。
ステップS158において、切換部284は、切換制御部182の制御に基づいて、高域成分の出力先を切り換える。すなわち、切換制御部182は、ステップS156の処理において選択した帯域拡張方式、高域成分の生成方式、および形状調整方式に応じて、切換部284の動作を制御する。
例えば、切換制御部182は、周波数帯域拡張方式および折り返し方式が選択された場合、外挿方式が選択されたとき、切換部284のスイッチ324をノード285に接続させ、学習方式が選択されたとき、切換部284のスイッチ324をノード286に接続させる。また、切換制御部182は、周波数帯域拡張方式および平行移動方式が選択された場合、外挿方式が選択されたとき、切換部284のスイッチ325をノード287に接続させ、学習方式が選択されたとき、切換部284のスイッチ325をノード288に接続させる。
同様に、切換制御部182は、時間帯域拡張方式および折り返し方式が選択された場合、外挿方式が選択されたとき、切換部284のスイッチ326をノード289に接続させ、学習方式が選択されたとき、切換部284のスイッチ326をノード290に接続させる。また、切換制御部182は、時間帯域拡張方式および平行移動方式が選択された場合、外挿方式が選択されたとき、切換部284のスイッチ327をノード291に接続させ、学習方式が選択されたとき、切換部284のスイッチ327をノード292に接続させる。
さらに、切換制御部182は、時間/周波数帯域拡張方式および折り返し方式が選択された場合、外挿方式が選択されたとき、切換部284のスイッチ328をノード293に接続させ、学習方式が選択されたとき、切換部284のスイッチ328をノード294に接続させる。また、切換制御部182は、時間/周波数帯域拡張方式および平行移動方式が選択された場合、外挿方式が選択されたとき、切換部284のスイッチ329をノード295に接続させ、学習方式が選択されたとき、切換部284のスイッチ329をノード296に接続させる。
このように、切換制御部182は、切換部183に音声データの出力先を切り換えさせることで、指定された帯域拡張方法で帯域拡張させる。また、切換制御部182は、切換部271に周波数情報または音声データの出力先を切り換えさせることで、指定された高域成分の生成方法で、高域成分を生成させるとともに、切換部284に、高域成分の出力先を切り換えさせることで、指定された形状調整方法で、高域成分の形状を調整させる。
このようにして、切換部183、切換部271、および切換部284の動作が制御されると、その後、ステップS159乃至ステップS164の処理が行われて、再生処理は終了するが、それらの処理は、図9のステップS17乃至ステップS22の処理のそれぞれと同様であるので、その説明は省略する。
なお、ステップS160、ステップS162、およびステップS163のそれぞれにおいては、図10乃至図12を参照して説明した周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理、時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理、および時間/周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理のそれぞれと同様の処理が行われる。
但し、高域成分を生成する処理は、複製生成部278乃至複製生成部283のうち、切換部271から周波数情報または音声データが供給された複製生成部により行われる。同様に、高域成分の形状を調整する処理は、形状調整部297乃至形状調整部308のうち、切換部284から高域成分が供給された形状調整部により行われる。
例えば、ステップS156において、切換制御部182により、周波数帯域拡張方式、折り返し方式、および外挿方式が選択されたとする。この場合、ステップS160の周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理では、複製生成部278および形状調整部297により、高域成分の生成および形状調整が行われる。
すなわち、図10のステップS51に対応する処理では、周波数変換部213により音声データが周波数情報に変換されて、スイッチ321およびノード272を介して複製生成部278に供給される。そして、ステップS52に対応する処理では、複製生成部278により高域成分が生成されて、その高域成分および周波数情報がスイッチ324およびノード285を介して形状調整部297に供給され、ステップS53に対応する処理では、形状調整部297により高域成分の形状調整が行われる。
また、その後、形状調整された高域成分、および周波数情報が形状調整部297から高域貼付部233に供給され、ステップS54およびステップS55に対応する処理において、高域貼付部233により高域成分の周波数情報への貼り付けが行われ、時間変換部215により周波数情報の音声データへの変換が行われる。さらに、ステップS56に対応する処理において、出力部144により楽曲が再生される。
また、例えば、ステップS156において、切換制御部182により、時間帯域拡張方式、折り返し方式、および外挿方式が選択されたとする。この場合、ステップS162の時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理では、複製生成部280および形状調整部301により、高域成分の生成および形状調整が行われる。
すなわち、切換部183からの音声データは、分割フィルタ部216に供給されて、分割フィルタ部216により帯域分割されて、合成フィルタ部218に供給されるとともに、スイッチ322およびノード274を介して複製生成部280に供給される。そして、複製生成部280は、分割フィルタ部216からの音声データを用いて、折り返し方式により高域成分を生成し、生成した高域成分を、スイッチ326およびノード289を介して形状調整部301に供給する。
形状調整部301は、複製生成部280からの高域成分を外挿方式により形状調整して合成フィルタ部218に供給し、合成フィルタ部218は、形状調整部301からの高域成分と、分割フィルタ部216からの音声データとを帯域合成して出力部144に供給する。
さらに、例えば、ステップS156において、切換制御部182により、時間/周波数帯域拡張方式、折り返し方式、および外挿方式が選択されたとする。この場合、ステップS163の時間/周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理では、複製生成部282および形状調整部305により、高域成分の生成および形状調整が行われる。
すなわち、切換部183からの音声データは、分割フィルタ部219に供給されて帯域分割され、周波数変換部220に供給される。周波数変換部220は、分割フィルタ部219からの音声データを周波数情報に変換して時間変換部223に供給するとともに、スイッチ323およびノード276を介して複製生成部282に供給する。
すると、複製生成部282は、周波数変換部220からの周波数情報を用いて折り返し方式により高域成分を生成し、スイッチ328およびノード293を介して形状調整部305に供給する。また、形状調整部305は、複製生成部282からの高域成分を外挿方式により形状調整し、時間変換部222に供給する。
さらに、時間変換部222は、形状調整部305からの高域成分を音声データに変換して合成フィルタ部224に供給し、時間変換部223も周波数変換部220からの周波数情報を音声データに変換して合成フィルタ部224に供給する。そして、合成フィルタ部224は、時間変換部222からの音声データと、時間変換部223からの音声データとを帯域合成し、出力部144に供給する。
以上のように、楽曲の分類結果に応じて、帯域拡張方法だけでなく、高域成分の生成方法、および形状調整方法も最も効果の得られる方法に変更し、それらの方法で高域成分の生成および形状調整を行うことで、より確実に楽曲(音声)の音質を向上させることができる。
例えば、楽曲を、楽曲の種類、すなわちジャズやクラシックといったカテゴリを表す楽曲分類に分類する場合、楽曲分類ごとに高域成分の生成方法や形状調整方法を変更することで、音質を向上させることができる。
具体的には、クラシックを表す楽曲分類の楽曲、つまりクラシックに分類される楽曲は、低域成分が多く含まれており、高域成分は殆ど含まれていないという特徴を有している。したがって、例えば、楽曲の中域成分を用いて楽曲に付加する高域成分を生成し、生成された高域成分が低く抑えられるように形状を調整するような、高域成分の生成方法および形状調整方法が選択されれば、帯域拡張により、元の楽曲に近い音質が得られるはずである。
また、ロックを表す楽曲分類の楽曲は、各周波数成分、つまり周波数スペクトルが可聴帯域範囲内に広く存在している場合が多いという特徴を有している。したがって、例えば、楽曲の中域成分を用いて高域成分を生成し、周波数領域において、生成された高域成分のパワーが低中域成分のパワーの分布に沿った形状となるように形状調整するような、高域成分の生成方法および形状調整方法が選択されれば、帯域拡張により、元の楽曲に近い音質が得られるはずである。
このように、楽曲分類ごとに楽曲の有する特徴が異なるため、各楽曲分類に対して最も音質向上の効果のある帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせを記録しておき、帯域拡張時に楽曲分類に応じて、それらの方法の組み合わせで帯域拡張を行うことで、より確実に楽曲の音質を向上させることができる。
なお、以上においては、楽曲の分類結果に応じて、帯域拡張方法、高域成分の生成方法、および形状調整方法を選択すると説明したが、それらの方法をユーザが個別に指定できるようにしてもよい。
そのような場合、例えば、ユーザが音声再生装置131を操作して、帯域拡張方法を指定すると、ユーザの操作に応じた操作信号が切換部183に供給される。そして、切換部183は、切換制御部182からの指示よりも、ユーザの操作に応じて供給された操作信号を優先して、その操作信号により示される帯域拡張方法に応じて、ノード184乃至ノード186の何れかに音声データの出力先を切り換える。
同様に、ユーザにより高域成分の生成方法が指定された場合、切換部271は、切換制御部182の指示よりも、ユーザの操作に応じて供給された操作信号を優先し、その操作信号により示される高域成分の生成方法と、選択されている帯域拡張方法とに応じて、スイッチ321乃至スイッチ323の何れかの出力先を切り換える。
また、ユーザにより高域成分の形状調整方法が指定された場合、切換部284は、切換制御部182の指示よりも、ユーザの操作に応じて供給された操作信号を優先し、その操作信号により示される形状調整方法と、選択されている帯域拡張方法および高域成分の生成方法とに応じて、スイッチ324乃至スイッチ329の何れかの出力先を切り換える。
このように、ユーザが帯域拡張方法、高域成分の生成方法、および形状調整方法を自由に選択できるようにすることで、そのユーザにとって、最も効果的な帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせで帯域拡張を行うことができる。
すなわち、帯域拡張マッチングデータベースに記録されている楽曲分類ごとの帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせは、上述したように、客観的・主観的な評価結果を統計的に処理して得られたものである。そのため、それらの楽曲分類ごとの組み合わせは、必ずしも全てのユーザに対して、音質の向上に最も効果的であることを保証するわけではない。
また、ユーザにとって、常に同じ組み合わせが、音質の向上に最も効果的であると感じられるとは限らず、さらに、ユーザが、たまには気分を変えて、いつもとちょっと違う音を楽しみたいと思うこともある。
そこで、帯域拡張方法、高域成分の生成方法、および形状調整方法を、個別にユーザが指定できるという柔軟な構成を実現することで、そのときにユーザにとって最適な帯域拡張方法、高域成分の生成方法、または形状調整方法で帯域拡張を行うことができる。また、たまには気分を変えていつもと違う帯域拡張方法で帯域拡張するといった、ユーザの極めて人間的で曖昧な要求にも答えることが可能となる。
さらに、図13に示した補正部143では、帯域拡張方法ごとに、同じ高域成分の生成方法で高域成分を生成する複製生成部が設けられているが、帯域拡張方法ごとに異なる方法で高域成分を生成する複製生成部が設けられてもよい。
すなわち、補正部143では、周波数帯域拡張方式に対して、折り返し方式および平行移動方式で高域成分を生成する複製生成部278および複製生成部279が設けられており、時間帯域拡張方式に対しても、それらの方式で高域成分を生成する複製生成部280および複製生成部281が設けられている。これを例えば、複製生成部280および複製生成部281が、折り返し方式および平行移動方式とは異なる方式で高域成分を生成するようにしてもよい。
同様に、形状調整方法についても、帯域拡張方法および高域成分の生成方法ごとに、同じ形状調整方法で形状調整する形状調整部が設けられているが、帯域拡張方法および高域成分の生成方法の組み合わせごとに、異なる形状調整方法で形状調整を行う形状調整部が設けられてもよい。
また、図13の補正部143では、同じ方法で形状調整を行う形状調整部、および同じ方法で高域成分を生成する複製生成部がそれぞれ複数設けられているが、いくつかの形状調整部および複製生成部が共有されるようにしてもよい。
すなわち、例えば、スイッチ325は、形状調整部299または形状調整部300に接続されるようになされているが、形状調整部299または形状調整部300と同じ方法で形状調整を行う形状調整部297または形状調整部298に接続されるようにされてもよい。これにより、形状調整部299および形状調整部300を補正部143に設ける必要がなくなり、補正部143の小型化を図ることができる。
なお、この場合、スイッチ324およびスイッチ325から同時に高域成分が出力されることはないため、複数の高域成分が1つの形状調整部に同時に入力されるようなこともない。このように、いくつかの形状調整部または複製生成部を共有化することで、補正部143全体の構成を効率的に組むことが可能となり、小型化も図ることができる。
上述した一連の処理は、ハードウェアにより実行することもできるし、ソフトウェアにより実行することもできる。一連の処理をソフトウェアにより実行する場合には、そのソフトウェアを構成するプログラムが、専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、プログラム記録媒体からインストールされる。
図15は、上述した一連の処理をプログラムにより実行するコンピュータのハードウェアの構成例を示すブロック図である。
コンピュータにおいて、CPU(Central Processing Unit)501,ROM(Read Only Memory)502,RAM(Random Access Memory)503は、バス504により相互に接続されている。
バス504には、さらに、入出力インターフェース505が接続されている。入出力インターフェース505には、キーボード、マウス、マイクロホンなどよりなる入力部506、ディスプレイ、スピーカなどよりなる出力部507、ハードディスクや不揮発性のメモリなどよりなる記録部508、ネットワークインターフェースなどよりなる通信部509、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア511を駆動するドライブ510が接続されている。
以上のように構成されるコンピュータでは、CPU501が、例えば、記録部508に記録されているプログラムを、入出力インターフェース505及びバス504を介して、RAM503にロードして実行することにより、上述した一連の処理が行われる。
コンピュータ(CPU501)が実行するプログラムは、例えば、磁気ディスク(フレキシブルディスクを含む)、光ディスク(CD-ROM(Compact Disc-Read Only Memory),DVD(Digital Versatile Disc)等)、光磁気ディスク、もしくは半導体メモリなどよりなるパッケージメディアであるリムーバブルメディア511に記録して、あるいは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供される。
そして、プログラムは、リムーバブルメディア511をドライブ510に装着することにより、入出力インターフェース505を介して、記録部508にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部509で受信し、記録部508にインストールすることができる。その他、プログラムは、ROM502や記録部508に、あらかじめインストールしておくことができる。
なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。
なお、本発明の実施の形態は、上述した実施の形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の変更が可能である。
従来のエンコーダおよびデコーダの構成を示す図である。 従来のエンコード時に生じる高域成分の欠落について説明する図である。 従来の帯域拡張について説明する図である。 従来の帯域拡張について説明する図である。 従来の帯域拡張を行う帯域拡張部の構成を示す図である。 帯域拡張方法、高域成分の生成方法、および形状調整方法の組み合わせの評価を示す図である。 本発明を適用した音声再生装置の一実施の形態の構成例を示すブロック図である。 補正部の構成例を示す図である。 再生処理を説明するフローチャートである。 周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を説明するフローチャートである。 時間帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を説明するフローチャートである。 時間/周波数帯域拡張方式による帯域拡張処理を施した楽曲の再生処理を説明するフローチャートである。 補正部の他の構成例を示す図である。 再生処理を説明するフローチャートである。 コンピュータの構成例を示す図である。
符号の説明
131 音声再生装置, 142 デコード部, 143 補正部, 144 出力部, 181 分類部, 182 切換制御部, 183 切換部, 188 周波数帯域拡張処理部, 189 時間帯域拡張処理部, 190 時間/周波数帯域拡張処理部, 231 複製生成部, 232 形状調整部, 234 複製生成部, 235 形状調整部, 236 複製生成部, 237 形状調整部, 271 切換部, 284 切換部

Claims (10)

  1. 特定の周波数帯域の成分を生成してオーディオデータに付加する帯域拡張処理を行う帯域拡張手段と、
    互いに異なる複数の帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる制御手段と
    を備える情報処理装置。
  2. 前記帯域拡張手段は、エンコードされたオーディオデータをデコードすることにより得られるオーディオデータに基づいて、前記特定の周波数帯域の成分を生成して前記オーディオデータに付加する帯域拡張処理を行う
    請求項1に記載の情報処理装置。
  3. 前記複数の前記帯域拡張方法には、時間軸上で前記帯域拡張処理を行う前記帯域拡張方法、周波数軸上で前記帯域拡張処理を行う前記帯域拡張方法、並びに時間軸上および周波数軸上で前記帯域拡張処理を行う前記帯域拡張方法が少なくとも含まれる
    請求項2に記載の情報処理装置。
  4. 前記オーディオデータは、楽曲を再生させるデータであり、
    前記楽曲の1曲分の前記オーディオデータに基づいて、楽曲の有する特徴により予め定められた、いくつかの前記楽曲分類のうちの何れかに前記楽曲を分類する分類手段をさらに備える
    請求項3に記載の情報処理装置。
  5. 前記帯域拡張手段は、
    前記オーディオデータを用いて、前記特定の周波数帯域の成分を生成する生成手段と、
    前記特定の周波数帯域の各周波数成分を増減させる調整手段と
    を備え、
    前記制御手段は、前記特定の周波数帯域の成分の複数の調整方法のうち、前記分類手段による分類結果に対して予め定められた調整方法で、前記調整手段に前記各周波数成分を増減させる
    請求項4に記載の情報処理装置。
  6. 前記制御手段は、前記特定の周波数帯域の成分の複数の生成方法のうち、前記分類手段による分類結果に対して予め定められた生成方法で、前記生成手段に前記特定の周波数帯域の成分を生成させる
    請求項5に記載の情報処理装置。
  7. 前記楽曲分類ごとに、複数の前記帯域拡張方法、前記生成方法、および前記調整方法の組み合わせのうち、予め行われた評価の最も高い組み合わせを示す情報を記録する記録手段をさらに備え、
    前記制御手段は、前記分類結果および前記情報に基づいて選択した前記帯域拡張方法、前記生成方法、および前記調整方法で、前記帯域拡張手段に前記帯域拡張処理を行わせる
    請求項6に記載の情報処理装置。
  8. 前記評価は、前記帯域拡張処理により得られたオーディオデータを分析することで得られる客観的な評価結果と、主観的な評価結果とを統計処理することにより得られたものである
    請求項7に記載の情報処理装置。
  9. 特定の周波数帯域の成分を生成してオーディオデータに付加する帯域拡張処理を行う帯域拡張手段と、
    互いに異なる複数の帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる制御手段と
    を備える情報処理装置の情報処理方法であって、
    前記制御手段が、前記複数の前記帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる
    ステップを含む情報処理方法。
  10. 特定の周波数帯域の成分を生成してオーディオデータに付加する帯域拡張処理を行う帯域拡張手段と、
    互いに異なる複数の帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる制御手段と
    を備える情報処理装置のコンピュータに、
    前記制御手段が、前記複数の前記帯域拡張方法のうち、前記オーディオデータの有する特徴により定まる楽曲分類に対して予め定められている帯域拡張方法で、前記帯域拡張手段に前記帯域拡張処理を実行させる
    ステップを含む処理を実行させるプログラム。
JP2008154837A 2008-06-13 2008-06-13 情報処理装置および方法、並びにプログラム Pending JP2009300707A (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2008154837A JP2009300707A (ja) 2008-06-13 2008-06-13 情報処理装置および方法、並びにプログラム
AT09251449T ATE542218T1 (de) 2008-06-13 2009-06-01 Audioinformationsverarbeitungsgerät, audioinformationsverarbeitungsverfahren und dazugehöriges computer-programm
EP09251449A EP2133873B1 (en) 2008-06-13 2009-06-01 Audio information processing apparatus, audio information processing method and associated computer program
US12/480,324 US20090310799A1 (en) 2008-06-13 2009-06-08 Information processing apparatus and method, and program
CN2009101458232A CN101604528B (zh) 2008-06-13 2009-06-15 信息处理设备和方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008154837A JP2009300707A (ja) 2008-06-13 2008-06-13 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2009300707A true JP2009300707A (ja) 2009-12-24

Family

ID=40845984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008154837A Pending JP2009300707A (ja) 2008-06-13 2008-06-13 情報処理装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US20090310799A1 (ja)
EP (1) EP2133873B1 (ja)
JP (1) JP2009300707A (ja)
CN (1) CN101604528B (ja)
AT (1) ATE542218T1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013222205A (ja) * 2012-04-16 2013-10-28 Samsung Electronics Co Ltd 音質向上装置及び方法
JP2014167557A (ja) * 2013-02-28 2014-09-11 Oki Electric Ind Co Ltd 音声帯域拡張装置及びプログラム

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102687432A (zh) * 2010-02-15 2012-09-19 三菱电机株式会社 Fm广播接收装置
US8737602B2 (en) * 2012-10-02 2014-05-27 Nvoq Incorporated Passive, non-amplified audio splitter for use with computer telephony integration
EP3036919A1 (en) 2013-08-20 2016-06-29 HARMAN BECKER AUTOMOTIVE SYSTEMS MANUFACTURING Kft A system for and a method of generating sound
DK201300471A1 (en) * 2013-08-20 2015-03-02 Bang & Olufsen As System for dynamically modifying car audio system tuning parameters
US9837089B2 (en) * 2015-06-18 2017-12-05 Qualcomm Incorporated High-band signal generation
US10847170B2 (en) 2015-06-18 2020-11-24 Qualcomm Incorporated Device and method for generating a high-band signal from non-linearly processed sub-ranges
CN112133319A (zh) * 2020-08-31 2020-12-25 腾讯音乐娱乐科技(深圳)有限公司 音频生成的方法、装置、设备及存储介质
CN112086102B (zh) * 2020-08-31 2024-04-16 腾讯音乐娱乐科技(深圳)有限公司 扩展音频频带的方法、装置、设备以及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003514263A (ja) * 1999-11-10 2003-04-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マッピング・マトリックスを用いた広帯域音声合成
JP2003216199A (ja) * 2001-11-15 2003-07-30 Matsushita Electric Ind Co Ltd 復号装置、復号方法及びプログラム供給媒体
JP2004102095A (ja) * 2002-09-12 2004-04-02 Sony Corp 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
JP2004517358A (ja) * 2000-12-22 2004-06-10 コーディング テクノロジーズ アクチボラゲット 適応転置による情報源符号化システムの増強方法
JP2007192964A (ja) * 2006-01-18 2007-08-02 Yamaha Corp オーディオ信号の帯域拡張装置
JP2007328268A (ja) * 2006-06-09 2007-12-20 Kddi Corp 音楽信号の帯域拡張方式

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP0740410B1 (en) * 1995-04-25 2001-10-24 Matsushita Electric Industrial Co., Ltd. Sound quality control system
SE512719C2 (sv) * 1997-06-10 2000-05-02 Lars Gustaf Liljeryd En metod och anordning för reduktion av dataflöde baserad på harmonisk bandbreddsexpansion
US7003120B1 (en) * 1998-10-29 2006-02-21 Paul Reed Smith Guitars, Inc. Method of modifying harmonic content of a complex waveform
JP2001084000A (ja) * 1999-09-08 2001-03-30 Roland Corp 波形再生装置
SE0001926D0 (sv) * 2000-05-23 2000-05-23 Lars Liljeryd Improved spectral translation/folding in the subband domain
US20050004691A1 (en) * 2003-07-03 2005-01-06 Edwards Christoper A. Versatile system for processing digital audio signals
KR20050104976A (ko) * 2004-04-30 2005-11-03 삼성전자주식회사 자동 음질 평가 방법 및 그 시스템
US7983904B2 (en) * 2004-11-05 2011-07-19 Panasonic Corporation Scalable decoding apparatus and scalable encoding apparatus

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003514263A (ja) * 1999-11-10 2003-04-15 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ マッピング・マトリックスを用いた広帯域音声合成
JP2004517358A (ja) * 2000-12-22 2004-06-10 コーディング テクノロジーズ アクチボラゲット 適応転置による情報源符号化システムの増強方法
JP2003216199A (ja) * 2001-11-15 2003-07-30 Matsushita Electric Ind Co Ltd 復号装置、復号方法及びプログラム供給媒体
JP2004102095A (ja) * 2002-09-12 2004-04-02 Sony Corp 信号処理システム、信号処理装置および方法、記録媒体、並びにプログラム
JP2007192964A (ja) * 2006-01-18 2007-08-02 Yamaha Corp オーディオ信号の帯域拡張装置
JP2007328268A (ja) * 2006-06-09 2007-12-20 Kddi Corp 音楽信号の帯域拡張方式

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013222205A (ja) * 2012-04-16 2013-10-28 Samsung Electronics Co Ltd 音質向上装置及び方法
US9596542B2 (en) 2012-04-16 2017-03-14 Samsung Electronics Co., Ltd. Apparatus and method with enhancement of sound quality
KR101897455B1 (ko) * 2012-04-16 2018-10-04 삼성전자주식회사 음질 향상 장치 및 방법
JP2014167557A (ja) * 2013-02-28 2014-09-11 Oki Electric Ind Co Ltd 音声帯域拡張装置及びプログラム

Also Published As

Publication number Publication date
EP2133873B1 (en) 2012-01-18
CN101604528A (zh) 2009-12-16
US20090310799A1 (en) 2009-12-17
EP2133873A1 (en) 2009-12-16
ATE542218T1 (de) 2012-02-15
CN101604528B (zh) 2013-08-28

Similar Documents

Publication Publication Date Title
JP2009300707A (ja) 情報処理装置および方法、並びにプログラム
JP4817658B2 (ja) 音響仮想現実エンジンおよび配信された音声改善のための新技術
KR102048672B1 (ko) 신호 처리 장치 및 방법, 및 컴퓨터 판독가능 기록 매체
JP6484605B2 (ja) 複数のオーディオステムからの自動マルチチャネル音楽ミックス
KR100462615B1 (ko) 적은 계산량으로 고주파수 성분을 복원하는 오디오 디코딩방법 및 장치
JP5585401B2 (ja) 再生装置、再生方法、提供装置および再生システム
JP5651980B2 (ja) 復号装置、復号方法、およびプログラム
JP4645241B2 (ja) 音声処理装置およびプログラム
JP2004198485A (ja) 音響符号化信号復号化装置及び音響符号化信号復号化プログラム
JP2002215195A (ja) 音楽信号処理装置
US8670577B2 (en) Electronically-simulated live music
WO2022014326A1 (ja) 信号処理装置および方法、並びにプログラム
WO2011121955A1 (ja) オーディオ装置
CN113196387A (zh) 高分辨率音频编解码
Mores Music studio technology
WO2010146624A1 (ja) 音声信号処理装置のタイムスケーリング方法、音声信号処理装置のピッチシフト方法、音声信号処理装置およびプログラム
CN113348508A (zh) 电子设备、方法和计算机程序
US11735193B2 (en) High resolution audio coding
JP7130878B2 (ja) 高分解能オーディオコーディング
JP4556866B2 (ja) 高能率符号化プログラム及び高能率符号化装置
Butterfield Lossy Distortion as a Musical Effect
BR112021013720A2 (pt) Método implementado por computador para codificação de áudio, dispositivo eletrônico e meio legível por computador não transitório
JP5892395B2 (ja) 符号化装置、符号化方法、およびプログラム
KR100264389B1 (ko) 키변환 기능을 갖는 컴퓨터 음악반주기
BR112021013726A2 (pt) Método implementado por computador para realizar quantização residual, dispositivo eletrônico e meio legível por computador não transitório

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100405

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100415

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100602

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20110208