JP5556673B2

JP5556673B2 - 音声信号補正装置、音声信号補正方法及びプログラム

Info

Publication number: JP5556673B2
Application number: JP2011003403A
Authority: JP
Inventors: 真巳中村
Original assignee: JVCKenwood Corp
Current assignee: JVCKenwood Corp
Priority date: 2011-01-11
Filing date: 2011-01-11
Publication date: 2014-07-23
Anticipated expiration: 2031-01-11
Also published as: US20120177220A1; US8989405B2; EP2474977A1; EP2474977B1; JP2012145716A

Description

本発明は、音声信号補正装置、音声信号補正方法及びプログラムに関する。

ドラム等の打楽器を打撃した際に生じる衝撃音（以下、アタック音という）は、音の立ち上がりが早く、瞬時に音量（レベル）が変化する。このような音を一旦録音し、再生出力する場合、アタック音が生じたタイミングに瞬時にスピーカが振動しなかったり、復号した音声信号が劣化していたりして、音の立ち上りが遅く、よって、アタック音より立ち上がりが遅い緩やかな音に聞こえる場合がある。この現象が発生する原因としては、スピーカのコイルの巻き数が少ないこと、スピーカを構成するコーン紙が歪んでいること、音声をデジタル化する際の量子化誤差、音声をデジタル圧縮する際の高調波カット等、があげられる。

このアタック音が劣化するという問題を解決するために、音声信号波形の極大と極小を検出し、該極大と極小との間に存在するデジタルデータの数（サンプル数）を検出するとともに極大と極小の値の差分を算出してこれらの値に基づいてテーブルを参照して補正係数を求め、補正係数により波形を補正して音声を再生することでアタック音を強調するアタック音強調装置が提案されている（特許文献１参照）。

特開２００８−１１２１３０号公報

特許文献１に記載のアタック音強調装置は、データベースに記憶されているサンプルデータに基づいて波形を補正する。このため、補正後のアタック音が元の音声信号の波形に近いとは必ずしもいえない。このため、依然として、音の立ち上がりが遅く、緩やかな音にしか聞こえない場合や、違和感のある音となる場合がある。また、データベースに記憶されているサンプルデータを参照するなど、処理に時間がかかるため、アタック音の再生が遅延し、結果的に、原音を適切に再現することができない場合がある。

このため、アタック音はシャープさに欠け、リアリティに欠けるといった印象を与えることがあった。

本発明は、上記実情に鑑みてなされたものであり、デジタル化や圧縮化により劣化等したアタック音部分を含む音声信号を元の音声信号に近づける補正をすることができる音声信号補正装置、音声信号補正方法及びプログラムを提供することを目的とする。

本発明の第１の観点にかかる音声信号補正装置は、
デジタルステレオ音声信号の左チャネルの音量を示す第１のデジタル音声信号の入力データの値とｉ（ｉは自然数）サンプル期間前の入力データの値との差に相当する第１の差分値を求め、前記求められた第１の差分値の絶対値を求める第１の差分値取得手段と、
前記デジタルステレオ音声信号の右チャネルの音量を示す第２のデジタル音声信号の入力データの値とｊ（ｊは自然数）サンプル期間前の入力データの値との差に相当する第２の差分値を求め、前記求められた第２の差分値の絶対値を求める第２の差分値取得手段と、
前記第１の差分値取得手段により得られた前記第１の差分値の絶対値と前記第２の差分値取得手段により得られた前記第２の差分値の絶対値とを第１の比率で加算して、第１の補正係数を求め、前記第１の差分値の絶対値と前記第２の差分値の絶対値とを第２の比率で加算して、第２の補正係数を求める補正係数取得手段と、
前記補正係数取得手段により求められた前記第１の補正係数を前記第１のデジタル音声信号に乗算して、前記第１のデジタル音声信号を補正し、前記補正係数取得手段により求められた前記第２の補正係数を前記第２のデジタル音声信号に乗算して、前記第２のデジタル音声信号を補正し、それぞれ出力する補正手段と、
を備え、
前記補正係数取得手段は、前記第１の差分値と前記第２の差分値とを、前記第１の差分値が前記第２の差分値よりも大きい比率で加算して、前記第１の補正係数を求め、前記第１の差分値と前記第２の差分値とを、前記第２の差分値が前記第１の差分値よりも大きい比率で加算して、前記第２の補正係数を求める、
ことを特徴とする。

また、前記補正係数取得手段により求められる前記第１の補正係数と前記第２の補正係数の変動を抑える時定数調整手段をさらに備えてもよい。

本発明の第２の観点にかかる音声信号補正方法は、
デジタルステレオ音声信号の左チャネルの音量を示す第１のデジタル音声信号の入力データの値と所定サンプル期間前の入力データの値との差に相当する第１の差分値を求め、前記求められた第１の差分値の絶対値を求める第１の差分値取得ステップと、
前記デジタルステレオ音声信号の右チャネルの音量を示す第２のデジタル音声信号の入力データの値と所定サンプル期間前の入力データの値との差に相当する第２の差分値を求め、前記求められた第２の差分値の絶対値を求める第２の差分値取得ステップと、
前記第１の差分値の絶対値と前記第２の差分値の絶対値とを第１の比率で加算して、第１の補正係数を求め、前記第１の差分値の絶対値と前記第２の差分値の絶対値とを第２の比率で加算して、第２の補正係数を求める補正係数取得ステップと、
前記第１の補正係数を前記第１のデジタル音声信号に乗算して出力し、前記第２の補正係数を前記第２のデジタル音声信号に乗算して出力する出力ステップと、
を備え、
前記補正係数取得ステップでは、前記第１の差分値と前記第２の差分値とを、前記第１の差分値が前記第２の差分値よりも大きい比率で加算して、前記第１の補正係数を求め、前記第１の差分値と前記第２の差分値とを、前記第２の差分値が前記第１の差分値よりも大きい比率で加算して、前記第２の補正係数を求める、
ことを特徴とする。

本発明の第３の観点にかかるプログラムは、
コンピュータに、
デジタルステレオ音声信号の左チャネルの音量を示す第１のデジタル音声信号の入力データの値と所定サンプル期間前の入力データの値との差に相当する第１の差分値を求め、前記求められた第１の差分値の絶対値を求める第１の差分値取得手順と、
前記デジタルステレオ音声信号の右チャネルの音量を示す第２のデジタル音声信号の入力データの値と所定サンプル期間前の入力データの値との差に相当する第２の差分値を求め、前記求められた第２の差分値の絶対値を求める第２の差分値取得手順と、
前記第１の差分値の絶対値と前記第２の差分値の絶対値とを第１の比率で加算して、第１の補正係数を求め、前記第１の差分値の絶対値と前記第２の差分値の絶対値とを第２の比率で加算して、第２の補正係数を求める補正係数取得手順と、
前記第１の補正係数を前記第１のデジタル音声信号に乗算して出力し、前記第２の補正係数を前記第２のデジタル音声信号に乗算して出力する出力手順と、
を実行させ、
前記補正係数取得手順では、前記第１の差分値と前記第２の差分値とを、前記第１の差分値が前記第２の差分値よりも大きい比率で加算して、前記第１の補正係数を求め、前記第１の差分値と前記第２の差分値とを、前記第２の差分値が前記第１の差分値よりも大きい比率で加算して、前記第２の補正係数を求める、
ことを特徴とする。

本発明によれば、デジタル化や圧縮化により劣化等したアタック音部分を含む音声信号を元の音声信号に近づける補正をすることができる。

本発明の一実施形態に係るオーディオ再生装置の構成を示すブロック図である。図１の装置におけるＤＳＰの構成の一例を示すブロック図である。図１の装置によるアタック音強調処理を説明するための図である。図１の装置におけるデコーダから出力される音声信号の一例を示す図である。図１の装置におけるＤＳＰから出力される音声信号の一例を示す図である。図４と図５の音声信号を重ねた図である。図１の装置におけるＤＳＰの構成の一例を示すブロック図である。時定数τを任意の値に設定する構成を例示すブロック図である。図１の装置におけるアタック音強調処理についてのフローチャートである。

（第１の実施形態）
以下に、本発明の実施形態に係る、音声信号補正機能（例えば、アタック音強調機能）を備えるオーディオ再生装置について図１を参照して説明する。

本実施の形態に係るオーディオ再生装置１は、例えば、デジタルテレビ放送受信機に搭載され、１６ｋＨｚ以上がカットされているＡＡＣ（Advanced Audio Coding、先進的音響符号）方式の信号を処理したり、携帯端末に搭載し、８ｋＨｚ以上がカットされているＭＰ３（MPEG audio layer-3）方式の信号を処理したりすることを想定しており、音源装置１００、デコーダ１１０、ＤＳＰ１２０、ＤＡＣ１３０及びスピーカ１４０から構成されている。

音源装置１００は、デジタルテレビ放送受信機から構成され、１６ｋＨｚ以上がカットされているＡＡＣ（Advanced Audio Coding、先進的音響符号）方式の信号を出力する。或いは、ＭＰ３プレーヤから構成され、８ｋＨｚ以上がカットされているＭＰ３方式の信号を出力する。即ち、音源装置１００は、高域成分がカットされた非可逆圧縮音声データを出力する。
音源装置１００は、左（Ｌ）チャネルと右（Ｒ）チャネルの非可逆圧縮音声データを出力する。

デコーダ１１０は、上述のＡＡＣ方式やＭＰ３方式などのうちの１種類の圧縮方式に対応し、音源装置１００から供給されたＬチャネルとＲチャネルの非可逆圧縮音声データを、それぞれの圧縮方式に対応した伸長方式で伸長し、ＰＣＭ（Pulse Code Modulation、パルス符号変調）のデジタル音声信号にする。伸長されたデジタル音声信号は、ＤＳＰ１２０に出力される。伸長されたデジタル音声信号も、高周波成分が欠けたものとなる。

ＤＳＰ（Digital Signal Processor）１２０は、デジタル信号処理を行うための演算処理装置であり、デコーダ１１０により伸長されたＬチャネルとＲチャネルのデジタル音声信号を、アタック音を強調したデジタル音声信号データに補正して、ＤＡＣ１３０に出力する。

ＤＡＣ（Digital Analog Converter）１３０は、デジタル音声信号をアナログ音声信号に変換する装置であり、ＤＳＰ１２０から供給されたＬチャネルとＲチャネルの補正済デジタル音声信号をアナログ音声信号に変換し、スピーカ１４０に出力する。

スピーカ１４０は、ＤＡＣ１３０から供給されたアナログ音声信号を実際の音に変換して音声を出力する。

ここで、ＤＳＰ１２０の構成について、図２を参照して更に詳しく説明する。

ＤＳＰ１２０は、左チャネルの音声信号ＳＬについて、入力された音声信号ＳＬのデータ（信号素片）を１倍するバッファ１１１、遅延素子１１３の出力信号を−１倍するバッファ１１２、入力された左チャネル音声信号ＳＬを１サンプリング期間遅延して１サンプル前の信号を出力する遅延素子１１３、バッファ１１１と１１２の出力信号を加算する加算器１１４、加算器１１４の出力信号を絶対値化する絶対値回路１１５、絶対値回路１１５の出力信号を一定の比で増幅するバッファ１１６と１１７、バッファ１１６の出力信号と後述する右チャネルのバッファ１２７の出力信号とを加算する加算器１１８、加算器１１８の出力信号を左チャネルの音声信号ＳＬに乗じてＤＳＰ１２０の左チャネル側の補正済出力ＳＬとする乗算器１１９を備える。

左チャネルを構成する上述の各部をより詳細に説明する。
ここで、左チャネルの音声信号ＳＬのタイミングｔにおけるデータ（信号素片）をＳＬ（ｔ）、その１サンプリング期間前のデータをＳＬ（ｔ−１）とすると、バッファ１１１は、ＳＬ（ｔ）を出力する。

バッファ１１２は、遅延素子１１３の出力データＳＬ（ｔ−１）を−１倍して、−ＳＬ（ｔ−１）を出力する。

遅延素子１１３は、データＳＬ（ｔ）の１サンプリング期間前のデータＳＬ（ｔ−１）を出力する。

加算器１１４は、バッファ１１１の出力するデータＳＬ（ｔ）とバッファ１１２の出力するデータ−ＳＬ（ｔ−１）を加算し、ＳＬ（ｔ）−ＳＬ（ｔ−１）を出力する。

絶対値回路１１５は、加算器１１４の出力するデータの絶対値｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜を出力する。

バッファ１１６は、絶対値回路１１５の出力データ｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜に所定の乗数Ａを乗算してＡ・｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜を出力する。また、バッファ１１７は、絶対値回路１１５の出力データ｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜に所定の乗数Ｂを乗算してＢ・｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜を出力する。ここで、Ａ＞Ｂであることが望ましい。

加算器１１８は、バッファ１１６の出力データＡ・｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜と、後述するＲチャネルのバッファ１２７の出力データＢ・｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜と、を加算し、Ａ・｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜＋Ｂ・｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜を出力する。

乗算器１１９は、ＬチャネルのデータＳＬ（ｔ）と加算器１１８の出力データＡ・｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜＋Ｂ・｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜を乗算し、ＳＬ（ｔ）・｛Ａ・｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜＋Ｂ・｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜｝をＤＳＰ１２０の左チャネル側の出力データとする。

ＤＳＰ１２０は、Ｒチャネルについて、Ｌチャネルと同様に、入力された音声信号ＳＲのデータを１倍するバッファ１２１、遅延素子１２３の出力信号を−１倍するバッファ１２２、入力された右チャネル音声信号ＳＲを１サンプリング期間遅延して１サンプル前の信号を出力する遅延素子１２３、バッファ１２１と１２２の出力信号を加算する加算器１２４、加算器１２４の出力信号を絶対値化する絶対値回路１２５、絶対値回路１２５の出力信号を一定の比で増幅するバッファ１２６と１２７、バッファ１２６の出力信号と左チャネルのバッファ１１７の出力信号とを加算する加算器１２８、加算器１２８の出力信号を右チャネル音声信号ＳＲに乗じてＤＳＰ１２０の右チャネル側の補正済出力ＳＲとする乗算器１２９を備える。

右チャネルを構成する上述の各部をより詳細に説明する。

遅延素子１２３は、データＳＲ（ｔ）の１サンプリング期間前のデータＳＲ（ｔ−１）を出力する。

バッファ１２２は、遅延素子１２３の出力データＳＲ（ｔ−１）を−１倍して、−ＳＲ（ｔ−１）を出力する。

加算器１２４は、バッファ１２１の出力するデータＳＲ（ｔ）とバッファ１２２の出力するデータ−ＳＲ（ｔ−１）を加算し、ＳＲ（ｔ）−ＳＲ（ｔ−１）を出力する。

絶対値回路１２５は、加算器１２４の出力するデータの絶対値｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜を出力する。

バッファ１２６は、絶対値回路１２５の出力データ｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜に乗数Ａを乗算してＡ・｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜を出力する。また、バッファ１２７は、絶対値回路１２５の出力データ｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜に所定の乗数Ｂを乗算してＢ・｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜を出力する。

加算器１２８は、バッファ１２６の出力データＡ・｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜と、左チャネルのバッファ１１７の出力データＢ・｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜と、を加算し、Ａ・｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜＋Ｂ・｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜を出力する。

乗算器１２９は、右チャネルのデータＳＲ（ｔ）と加算器１２８の出力データＡ・｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜＋Ｂ・｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜を乗算し、積ＳＲ（ｔ）・｛Ａ・｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜＋Ｂ・｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜｝をＤＳＰ１２０の左チャネル側の出力データとする。

次に、オーディオ再生装置１の動作を説明する。

音源装置１００は、左（Ｌ）チャネルと右（Ｒ）チャネルの非可逆圧縮音声データを出力する。

デコーダ１１０は、音源装置１００からの左（Ｌ）チャネルと右（Ｒ）チャネルの非可逆圧縮音声データをデコードし、左（Ｌ）チャネルと右（Ｒ）チャネルのデジタル音声信号ＳＬとＳＲに伸長して、ＤＳＰ１２０に入力する。

ＤＳＰ１２０は、入力されたデジタル音声信号をアタック音が強調されたデジタル音声信号に補正し、出力する。

ここで、左チャネルを例に考えると、タイミングｔにおいて音声信号ＳＬのデータＳＬ（ｔ）はバッファ１１１により１倍される。遅延素子１１３が保持している１サンプル前のデジタル信号ＳＬ（ｔ−１）がバッファ１１２により−１倍される。バッファ１１１及び１１２の出力信号は、加算器１１４により加算され、ＳＬ（ｔ）−ＳＬ（ｔ−１）となる。即ち、左チャネルの入力信号ＳＬについて、今回のデータと１サンプル前のデータとの差分ｘＬ（ｔ）が得られる。差分ｘＬ（ｔ）は、絶対値回路１１５により絶対値化され｜ｘＬ（ｔ）｜となる。絶対値化された差分｜ｘＬ（ｔ）｜は、バッファ１１６によりＡ倍（例えば、０．８倍）に増幅され、Ａ・｜ｘＬ（ｔ）｜となる。加算器１１８の出力信号は、バッファ１１６の出力信号と右チャネルの音声信号ＳＲの１サンプル前のデータとの差分ｘＲの絶対値｜ｘＲ（ｔ）｜をＢ倍に増幅した（例えば、０．２倍）信号Ｂ・｜ｘＲ（ｔ）｜とを加算器１１８により加算し、Ａ・｜ｘＬ（ｔ）｜＋Ｂ・｜ｘＲ（ｔ）｜となる。加算器１１８の出力信号は、乗算器１１９によりデータＳＬ（ｔ）に乗算される。これにより、音声信号ＳＬ（ｔ）のレベルが補正され、補正された信号が出力される。

この処理が、順次入力されるデジタル音声データＳＬ（ｔ）、ＳＬ（ｔ＋１）、ＳＬ（ｔ＋２）．．．について実行され、そのレベル調整が行われる。

右チャネルの音声信号ＳＲについても、各要素１２３〜１２９により、左チャネルの音声信号と同様にして、音声信号ＳＲ（ｔ）のレベルが、サンプル前のデジタル信号との差分ｘＲ（ｔ）の絶対値をＡ倍に増幅した信号と左チャネルの音声信号ＳＬの差分ｘＬの絶対値｜ｘＬ（ｔ）｜をＢ倍（例えば、０．２倍）で増幅した信号とに基づいて音声信号ＳＲのレベルが補正され、補正された信号が出力される。

スピーカ１４０は、左チャネルの音声信号と右チャネルの音声信号とを、それぞれ、音に変換して放音する。

ここで、絶対値回路１１５及び１２５が出力する差分の絶対値｜ｘＬ（ｔ）｜と｜ｘＲ（ｔ）｜は、１サンプル前の音声データＳＬ（ｔ−１）、ＳＲ（ｔ−１）に対する現在の音声データＳＬ（ｔ）、ＳＲ（ｔ）の変化量を表すが、この変化量が正で大きいとき、すなわち音が大きく立ち上がるときは、左チャネルの音声データＳＬ（ｔ）に、左チャネルの差分ｘＬ（ｔ）の絶対値と右チャネルの音声信号ＳＲに基づく差分ｘＲ（ｔ）の絶対値とを重み付け加算した値が乗算されるので、出力される音声信号のレベルは大きくなる。音の立ち上りが小さいときも、同様の処理が実行されるが、差分ｘＬ（ｔ）、ｘＲ（ｔ）の絶対値が小さいため、出力される音声信号のレベルはほとんど大きくならない。

また、差分のｘＬ（ｔ）とｘＲ（ｔ）とが負でその絶対値が大きいときも出力される音声信号のレベルが大きくなるが同様に処理する。

以上説明したオーディオ再生装置１によるアタック音強調処理によりどのようにアタック音が強調されるかを具体的に説明する。

まず、図３の実線に示すような左チャネルの元波形の信号がＬチャネルに入力されたと仮定する。この元波形は、例えば、ＭＰ３方式で圧縮された非可逆圧縮音声データがＭＰ３デコーダでデコードされてＰＣＭ（Pulse Code Modulation）音声に変換されたものであり、高域が失われ、迫力が無くなった状態のものである。

ここで、ＤＳＰ１２０のアタック音強調機能により、現（ｔ）サンプルの波形レベルＳＬ（ｔ）と１つ前（ｔ−１）のサンプルの波形レベルＳＬ（ｔ−１）との差｛ＳＬ（ｔ）−ＳＬ（ｔ−１）｝が求められる。さらに、加工処理により、現サンプルのサンプル値が｛ＳＬ（ｔ）・｛Ａ・｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜＋Ｂ・｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜｝に修正される。これにより、図３に示すように、現サンプルのサンプル値が増大される。この修正された値を有する音声データがＤＡＣ１３０に出力される。これにより、アタック音強調加工後のアナログ波形は、実線で示す波形から破線で示す波形に変化し、アタック音が強調されたものとなる。
この修正後の音が出力されることで、シャープで迫力あるアタック音が再生される。

以上説明したオーディオ再生装置１のアタック音強調機能により、どの程度アタック音が強調されるかを説明する。

図４は、デコーダ１１０から出力される一連の音声信号の一例を示す。なお、横軸は時間［秒］であり、縦軸はレベルを表す。一方、図５は、図４に示す音声信号の入力に対して、ＤＳＰ１２０から出力される対応する一連の音声信号を示す。

図６は、図４と図５を重ねた図であり、図中の灰色の曲線ＣＡは、デコーダ１１０から出力される音声信号を表しており、その背後に重なった黒色の曲線ＣＢはＤＳＰ１２０から出力される音声信号を表している。曲線ＣＡで１サンプル前のデータに対し、レベルが大きく増大しているデータについては、レベルがより大きくなるように補正されていることがわかる。

よって、本実施形態のオーディオ再生装置１によれば、音の立ち上がりが早くて瞬時に音量が変化するアタック音の場合、レベルが瞬時に大きく増大し、よりシャープで明瞭なアタック音として再生される。

また、ＤＳＰ１２０において、フィルタを使用していないので、位相による遅れや位相周りを生じさせることなく、かつ、非常に軽い処理によって音声信号をリアルタイムに補正することができる。また、音の立ち上りが大きいときに、レベルがより大きくなるような補正を行うようにしているので、スピーカ１４０の変換損失等の特性を考慮した出力を行うことができる。また、帰還回路が無いので、発振することなく、安定した出力を得ることができる。さらに、左右片方の音声信号のレベル差のみに基づいて音声信号を補正するのではなく、左右両方の音声信号のレベル差に基づいて音声信号を補正しているので、音像が左右にぶれることなくかつレベルが瞬時に大きくなるよう補正することができるため、よりリアルにアタック音を再生することができる。

すなわち、本実施形態のオーディオ再生装置１は、音声信号のアタック音部分をより原音（元の音声信号）の波形に近づける補正をして、アタック音をよりシャープで明瞭にかつリアリティのある音として再生することができる。また、本実施形態のオーディオ再生装置１は、アタック音をより原音に近い形態で再生することができる。

（第２の実施形態）
次に、本発明の第２の実施形態について説明する。
本実施形態に係るオーディオ再生装置２の基本構成は、第１の実施形態に係るオーディオ再生装置１の基本構成と同一であり、図１に示されている。
ただし、ＤＳＰ１２０の機能構成は第１の実施形態と異なっており、図７に示すとおり、第１の実施形態のＤＳＰ１２０の構成に対して、時定数回路１１Ａと１２Ａが追加された構成を有している。

時定数回路１１Ａは加算器１１８と乗算器１１９との間に、時定数回路１２Ａは加算器１２８と乗算器１２９との間に設けられており、時定数回路１１Ａは、加算器１１８の出力信号を入力し、反応速度を変化させて乗算器１１９に信号を出力し、時定数回路１２Ａは、加算器１２８の出力信号を入力し、反応速度を変化させて乗算器１２９に信号を出力する。

反応速度を遅らせる手法は任意である。例えば、時定数回路１１Ａ、１１Ｂは、入力データを遅延して出力してもよい。また、時定数回路１１Ａ、１１Ｂは、例えば、入力データを積分して出力したり、入力信号の高周波分を抑圧して出力したりしてもよい。

本実施形態の動作は、第１の実施形態における動作と基本的に同じであるが、本実施形態の構成にすると、信号の立ち上がりの早さ（反応速度）を変化させることができる。すなわち、動特性を変化させることができる。つまり差分ｘＬ（ｔ）とｘＲ（ｔ）のレベル差が大きいとき、検出したときから加工し、加工し始めてから一定時間の間で徐々に加工量を減らすという変化を調節するということである。そして、時定数回路１１Ａ、１２Ａの時定数を調整することにより、以下のような効果を得ることができる。

すなわち、時定数を小さくして反応速度を早くすると、信号の立ち上がりが早くなるため、アタック音など急激に変化する音を適切に出力することができるが、音声の再現性が低下してしまう。

これに対して、時定数を大きくして反応速度を遅くすると、信号の立ち上がりが遅くなるため、アタック音など急激に変化する音を最適には出力することができなくなるが、音声の再現性が向上する。

ここで言及している再現性とは立ち上がりしているポイントのみ加工すると加工以降の音のつながりが崩れ、違和感が出やすくなり、立ち上がりしているポイントと、その後の音を加工するとつながりがスムーズになり違和感がなくなる、ということである。

図８に示すように、設定回路１２を配置し、時定数回路１１Ａ、１１Ｂの時定数τを適宜変更設定できるように構成してもよい。

設定回路１２は、例えば、ユーザからの入力指示により、応答して時定数τを設定する。設定回路１２は、例えば、ユーザからのユーザＩＤの入力に応答して、ユーザＩＤに予め対応付けられている時定数τを設定する。

或いは、設定回路１２は、例えば、音源装置１００から供給される再生信号のジャンル情報に基づいて、ジャンルに予め対応付けられている時定数τを設定する。

本実施形態に係る機器によれば、高音域の抜けの度合いや曲のジャンルなどに応じて、ユーザの好みに合致した反応速度に設定することができる。

（第３の実施形態）
第１および第２の実施形態では、ＤＳＰ１２０を用いてオーディオ再生装置を実現したが、通常のプロセッサ（ＣＰＵ）を使用しても、同様の機能が実現可能である。この場合、オーディオ再生装置内に後述する処理を実行させるプログラムを記憶したＲＡＭ、ＲＯＭ等の記憶媒体を配置することが望ましく、ＣＰＵ、ＲＡＭ及びＲＯＭが協働して動作することで、後述する処理を実現する。

この場合の回路構成は、ＤＳＰ１２０をＣＰＵに置換する以外は図１に示す構成と共通である。

次に、本実施形態におけるＣＰＵの動作であるアタック音強調処理について図９を参照して説明する。

まず、タイミングを示す変数ｔに０を代入する（ステップＳ１０１）。

次に、左右それぞれの音声信号ＳＬ（ｔ）とＳＲ（ｔ）を入力し、変数ｔと関連づけて記憶する（ステップＳ１０２）。

変数ｔが０かどうか判別する（ステップＳ１０３）。

変数ｔが０であると判別した場合（ステップＳ１０３：ＹＥＳ）、左右各チャネルの音声データが１つしかなく、差分を求めることができないため、ｔを＋１して（ステップＳ１０４）、ステップＳ１０２からの処理を再度実行する。

これに対して、ステップＳ１０３で、変数ｔが０でないと判別した場合（ステップＳ１０３：ＮＯ）、左右両チャネルについて、今回取得した音声データＳＬ（ｔ）とＳＲ（ｔ）と１サンプル前に入力された音声信号データＳＬ（ｔ−１）、ＳＲ（ｔ−１）との差分の絶対値ｘＬ（ｔ）＝｜ＳＬ（ｔ）−ＳＬ（ｔ−１）｜とＸＲ（ｔ）＝｜ＳＲ（ｔ）−ＳＲ（ｔ−１）｜を算出する（ステップＳ１０５）。

次に、左チャネルと右チャネルを組み合わせて乗数ＭＬ（ｔ）＝Ａ・ｘＬ（ｔ）＋Ｂ・ｘＲとＭＲ（ｔ）＝Ａ・ｘＲ（ｔ）＋Ｂ・ｘＬを求め、記憶する（ステップＳ１０６）。

次に、乗数ＭＬとＭＲのうち、時定数τに対応するものを選択する。例えば、時定数τがｎサンプリングクロック期間の場合、ＭＬ（ｔ−ｎ）、ＭＲ（ｔ−ｎ）を選択する（ステップＳ１０７）。

続いて、選択したＭＬ（ｔ−ｎ）、ＭＲ（ｔ−ｎ）を、入力音声データＳＬ（ｔ）、ＳＲ（ｔ）に乗算することにより、出力信号ＯＬ（ｔ）とＯＲ（ｔ）を求める（ステップＳ１０８）。
続いて、次サンプルの音声データが存在するかどうか判別する（ステップＳ１０９）。

そして、次サンプルの音声データが存在すると判別した場合（ステップＳ１０９：ＹＥＳ）、ステップＳ１０２にリターンして、上述の処理を再度実行し、次サンプルの音声データが存在しないと判別した場合（ステップＳ１０９：ＮＯ）、アタック音強調処理を終了する。

このような構成によっても、非可逆性圧縮等の原因により劣化したアタック音を強調した補正を行うことができる。

なお、本発明は上記実施形態に限定されることなく、適宜変形して実施することができる。

上記実施の形態においては、左チャネル音声信号ＳＬと右チャネルの音声信号ＳＲの変換を抽出するための、連続する２つの音声データ間の差分を求めているが、この発明はこれに限定されず、左チャネル音声信号と右チャネル音声信号ＳＲの変化量を表す実質的な差分値を求めることができれば、その手法は任意である。

例えば、左右のチャンネルにおいて、遅延素子を複数段（ｎ個）ずつ設け、１サンプル前、２サンプル前、・・・、ｎサンプル前のデータそれぞれとの差分を総合的に考慮して出力信号を補正してもよい。

具体的には、例えば、遅延素子１１３をシーケンシャルに複数配置し、加算器１１４が、ｘＬ（ｔ）＝Ｗ１・（ＳＬ（ｔ）−ＳＬ（ｔ−１））＋Ｗ２・（ＳＬ（ｔ−１）−ＳＬ（ｔ−２））＋・・・＋Ｗｎ・（ＳＬ（ｔ−ｎ＋１）−ＳＬ（ｔ−ｎ））を求めて出力するように構成してもよい。同様に、加算器１１４が、ｘＬ（ｔ）＝Ｗ１・（ＳＬ（ｔ）−ＳＬ（ｔ−１））＋Ｗ２・（ＳＬ（ｔ）−ＳＬ（ｔ−２））＋・・・＋Ｗｎ・（ＳＬ（ｔ）−ＳＬ（ｔ−ｎ））を求めて出力するように構成してもよい。なお、重みＷ１〜Ｗｎは、任意に設定される。右チャネルの加算器１２４についても同様である。
さらに、加算器１１４がΣＷｉｊ・｛（ＳＬ（ｔ−ｉ）−ＳＬ（ｔ−ｊ））（ｉ＝０〜ｎ＋１、ｊ＝１〜ｎ；ｉ＜ｊ）を求めるようにしてもよい。

また、例えば、１〜ｎサンプル前のデータそれぞれとの差分の平均値や最大値を差分ｘとして適用して出力信号を補正するようにしてもよい。

絶対値回路１１５、１２５を取り除くことも可能である。

定数ＡとＢは、上述した例に限定されず、任意に変更可能である。ただし、Ａ＞Ｂの関係を維持することが望ましい。また、左チャネル用と右チャネル用で異なる定数（比率）を使用することも可能である。

上記実施形態においては、入力した音声信号と加算器１１８，１２８で得られた補正係数を乗算しているが、得られた補正係数を基礎として、他の要素を加味して得られた値を乗算するようにしてもよい。例えば、加算器１１８、１２８で得られた値に所定のバイアス値を加算した値を補正係数とし、これを入力音声信号に乗算してもよい。

また、音源装置１００から供給される音声データが非可逆圧縮音声データであるか可逆圧縮音声データであるかを判別し、非可逆圧縮音声データである場合には、図２又は図６に例示するアタック補正回路で補正を施してアタック音を強調し、可逆圧縮音声データである場合には、アタック補正回路をスルーする（補正を施さない）、ように切り替えるスイッチを配置してもよい。

また、本実施形態に係るオーディオ再生装置１、２は、専用のシステムや回路によらず、通常のコンピュータシステムを用いて実現可能である。たとえば、上述の動作を実行するためのプログラムを、コンピュータが読み取り可能な記録媒体（フレキシブルディスク、ＣＤ−ＲＯＭ、ＤＶＤ−ＲＯＭ等）に格納して配布し、このプログラムをコンピュータにインストールすることにより、上述の処理を実行するオーディオ再生装置１、２を構成してもよい。また、インターネット等の通信ネットワーク上のサーバ装置が有する記憶装置にこのプログラムを格納しておき、通常のコンピュータシステムがダウンロード等することでオーディオ再生装置１、２を構成してもよい。

また、オーディオ再生装置１、２の機能を、ＯＳ（オペレーティングシステム）とアプリケーションプログラムの分担、またはＯＳとアプリケーションプログラムとの協働により実現する場合などには、アプリケーションプログラム部分のみを記録媒体や記憶装置に格納してもよい。

また、搬送波にプログラムを重畳し、通信ネットワークを介して配信することも可能である。たとえば、通信ネットワーク上の掲示板（ＢＢＳ：ＢｕｌｌｅｔｉｎＢｏａｒｄＳｙｓｔｅｍ）にこのプログラムを掲示し、ネットワークを介してプログラムを配信してもよい。そして、このプログラムを起動し、ＯＳの制御下で、他のアプリケーションプログラムと同様に実行することにより、上述の処理を実行できるように構成してもよい。

１、２オーディオ再生装置
１１Ａ、１２Ａ時定数回路
１２設定回路
１００音源装置
１１０デコーダ
１１１、１１２、１１６、１１７、１２１、１２２、１２６、１２７バッファ
１１３、１２３遅延素子
１１４、１１８，１２４、１２８加算器
１１５、１２５絶対値回路
１１９、１２９乗算器
１２０ＤＳＰ
１３０ＤＡＣ
１４０スピーカ

Claims

デジタルステレオ音声信号の左チャネルの音量を示す第１のデジタル音声信号の入力データの値とｉ（ｉは自然数）サンプル期間前の入力データの値との差に相当する第１の差分値を求め、前記求められた第１の差分値の絶対値を求める第１の差分値取得手段と、
前記デジタルステレオ音声信号の右チャネルの音量を示す第２のデジタル音声信号の入力データの値とｊ（ｊは自然数）サンプル期間前の入力データの値との差に相当する第２の差分値を求め、前記求められた第２の差分値の絶対値を求める第２の差分値取得手段と、
前記第１の差分値取得手段により得られた前記第１の差分値の絶対値と前記第２の差分値取得手段により得られた前記第２の差分値の絶対値とを第１の比率で加算して、第１の補正係数を求め、前記第１の差分値の絶対値と前記第２の差分値の絶対値とを第２の比率で加算して、第２の補正係数を求める補正係数取得手段と、
前記補正係数取得手段により求められた前記第１の補正係数を前記第１のデジタル音声信号に乗算して、前記第１のデジタル音声信号を補正し、前記補正係数取得手段により求められた前記第２の補正係数を前記第２のデジタル音声信号に乗算して、前記第２のデジタル音声信号を補正し、それぞれ出力する補正手段と、
を備え、
前記補正係数取得手段は、前記第１の差分値と前記第２の差分値とを、前記第１の差分値が前記第２の差分値よりも大きい比率で加算して、前記第１の補正係数を求め、前記第１の差分値と前記第２の差分値とを、前記第２の差分値が前記第１の差分値よりも大きい比率で加算して、前記第２の補正係数を求める、
ことを特徴とする音声信号補正装置。
前記補正係数取得手段により求められる前記第１の補正係数と前記第２の補正係数の変動を抑える時定数調整手段をさらに備える、
ことを特徴とする請求項１に記載の音声信号補正装置。
デジタルステレオ音声信号の左チャネルの音量を示す第１のデジタル音声信号の入力データの値と所定サンプル期間前の入力データの値との差に相当する第１の差分値を求め、前記求められた第１の差分値の絶対値を求める第１の差分値取得ステップと、
前記デジタルステレオ音声信号の右チャネルの音量を示す第２のデジタル音声信号の入力データの値と所定サンプル期間前の入力データの値との差に相当する第２の差分値を求め、前記求められた第２の差分値の絶対値を求める第２の差分値取得ステップと、
前記第１の差分値の絶対値と前記第２の差分値の絶対値とを第１の比率で加算して、第１の補正係数を求め、前記第１の差分値の絶対値と前記第２の差分値の絶対値とを第２の比率で加算して、第２の補正係数を求める補正係数取得ステップと、
前記第１の補正係数を前記第１のデジタル音声信号に乗算して出力し、前記第２の補正係数を前記第２のデジタル音声信号に乗算して出力する出力ステップと、
を備え、
前記補正係数取得ステップでは、前記第１の差分値と前記第２の差分値とを、前記第１の差分値が前記第２の差分値よりも大きい比率で加算して、前記第１の補正係数を求め、前記第１の差分値と前記第２の差分値とを、前記第２の差分値が前記第１の差分値よりも大きい比率で加算して、前記第２の補正係数を求める、
ことを特徴とする音声信号補正方法。
コンピュータに、
デジタルステレオ音声信号の左チャネルの音量を示す第１のデジタル音声信号の入力データの値と所定サンプル期間前の入力データの値との差に相当する第１の差分値を求め、前記求められた第１の差分値の絶対値を求める第１の差分値取得手順と、
前記デジタルステレオ音声信号の右チャネルの音量を示す第２のデジタル音声信号の入力データの値と所定サンプル期間前の入力データの値との差に相当する第２の差分値を求め、前記求められた第２の差分値の絶対値を求める第２の差分値取得手順と、
前記第１の差分値の絶対値と前記第２の差分値の絶対値とを第１の比率で加算して、第１の補正係数を求め、前記第１の差分値の絶対値と前記第２の差分値の絶対値とを第２の比率で加算して、第２の補正係数を求める補正係数取得手順と、
前記第１の補正係数を前記第１のデジタル音声信号に乗算して出力し、前記第２の補正係数を前記第２のデジタル音声信号に乗算して出力する出力手順と、
を実行させ、
前記補正係数取得手順では、前記第１の差分値と前記第２の差分値とを、前記第１の差分値が前記第２の差分値よりも大きい比率で加算して、前記第１の補正係数を求め、前記第１の差分値と前記第２の差分値とを、前記第２の差分値が前記第１の差分値よりも大きい比率で加算して、前記第２の補正係数を求める、
ことを特徴とするコンピュータプログラム。