JP4439579B1

JP4439579B1 - 音質補正装置、音質補正方法及び音質補正用プログラム

Info

Publication number: JP4439579B1
Application number: JP2008328788A
Authority: JP
Inventors: 広和竹内; 裕米久保
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2008-12-24
Filing date: 2008-12-24
Publication date: 2010-03-24
Anticipated expiration: 2028-12-24
Also published as: US7864967B2; JP2010152015A; US20100158261A1

Abstract

【課題】この発明は、入力オーディオ信号に含まれる音声信号と音楽信号との類似度を、背景音の影響をも含めて定量的に評価し、その類似度に応じて適応的な音質補正処理を施すことを可能とした音質補正装置、音質補正方法及び音質補正用プログラムを提供することを目的としている。
【解決手段】入力オーディオ信号から音声と音楽との判別及び音楽と背景音との判別を行なうための各種の特徴パラメータを算出し、それらの特徴パラメータから入力オーディオ信号が音声信号に近いか音楽信号に近いかをスコア判定するとともに、音楽信号でかつ背景音信号であると判定された場合には、背景音の影響を考慮して先のスコア判定結果を補正し、その補正されたスコア値に基づいて、入力オーディオ信号に音声向けまたは音楽向けの音質補正処理を施すようにしている。
【選択図】図３

Description

この発明は、再生すべきオーディオ（可聴周波数）信号に含まれる音声信号と音楽信号とに対して、それぞれ適応的に音質補正処理を施す音質補正装置、音質補正方法及び音質補正用プログラムに関する。

周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質補正処理を施すことによって、より一層の高音質化を図るようにしている。

この場合、オーディオ信号に施す音質補正処理の内容は、オーディオ信号が人の話し声のような音声信号であるか、楽曲のような音楽（非音声）信号であるかに応じて異なる。すなわち、音声信号に対しては、トークシーンやスポーツ実況等のようにセンター定位成分を強調して明瞭化するように音質補正処理を施すことで音質が向上し、音楽信号に対しては、ステレオ感を強調した拡がりのある音質補正処理を施すことで音質が向上する。

このため、取得したオーディオ信号が音声信号か音楽信号かを判別し、その判別結果に応じて対応する音質補正処理を施すことが考えられている。しかしながら、実際のオーディオ信号では、音声信号と音楽信号とが混在している場合が多いことから、それらの判別処理が困難になっているため、オーディオ信号に対して適切な音質補正処理が施されているとは言えないのが現状である。

特許文献１には、入力される音響信号の零交差回数やパワー変動等を分析することによって、音響信号を「音声」と「非音声」と「不定」との３種類に分類し、音響信号に対する周波数特性を、「音声」と判別されたとき音声帯域を強調した特性に、「非音声」と判別されたときフラットな特性に、「不定」と判別されたとき前の判定による特性を維持するように制御する構成が開示されている。
特開平７−１３５８６号公報

そこで、この発明は上記事情を考慮してなされたもので、入力オーディオ信号に含まれる音声信号と音楽信号との類似度を、背景音の影響をも含めて定量的に評価し、その類似度に応じて適応的な音質補正処理を施すことを可能とした音質補正装置、音質補正方法及び音質補正用プログラムを提供することを目的とする。

この発明に係る音質補正装置は、入力オーディオ信号から音声信号と音楽信号との判別及び音楽信号と背景音信号との判別を行なうための各種の特徴パラメータを算出する特徴パラメータ算出手段と、特徴パラメータ算出手段で算出された音声信号と音楽信号とを判別するための各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する音声音楽識別スコア算出手段と、特徴パラメータ算出手段で算出された音楽信号と背景音信号とを判別するための各種の特徴パラメータに基づいて、入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する音楽背景音識別スコア算出手段と、音声音楽識別スコア算出手段で算出された音声音楽識別スコアが音楽信号であることを示し、かつ、音楽背景音識別スコア算出手段で算出された音楽背景音識別スコアが背景音信号であることを示している場合、音楽背景音識別スコアの値に基づいて音声音楽識別スコアを補正する音声音楽識別スコア補正手段と、音声音楽識別スコア補正手段で補正された音声音楽識別スコアに基づいて、入力オーディオ信号の音声信号または音楽信号との近さを求め、音声向けまたは音楽向けの音質補正処理を施す音質補正手段とを備えるようにしたものである。

また、この発明に係る音質補正方法は、入力オーディオ信号から音声信号と音楽信号との判別及び音楽信号と背景音信号との判別を行なうための各種の特徴パラメータを算出する工程と、音声信号と音楽信号とを判別するための各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する工程と、音楽信号と背景音信号とを判別するための各種の特徴パラメータに基づいて、入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する工程と、音声音楽識別スコアが音楽信号であることを示し、かつ、音楽背景音識別スコアが背景音信号であることを示している場合、音楽背景音識別スコアの値に基づいて音声音楽識別スコアを補正する工程と、補正された音声音楽識別スコアに基づいて、入力オーディオ信号の音声信号または音楽信号との近さを求め、音声向けまたは音楽向けの音質補正処理を施す工程とを有するようにしたものである。

さらに、この発明に係る音質補正用プログラムは、入力オーディオ信号から音声信号と音楽信号との判別及び音楽信号と背景音信号との判別を行なうための各種の特徴パラメータを算出する処理と、音声信号と音楽信号とを判別するための各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する処理と、音楽信号と背景音信号とを判別するための各種の特徴パラメータに基づいて、入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する処理と、音声音楽識別スコアが音楽信号であることを示し、かつ、音楽背景音識別スコアが背景音信号であることを示している場合、音楽背景音識別スコアの値に基づいて音声音楽識別スコアを補正する処理と、補正された音声音楽識別スコアに基づいて、入力オーディオ信号の音声信号または音楽信号との近さを求め、音声向けまたは音楽向けの音質補正処理を施す処理とを、コンピュータに実行させるようにしたものである。

上記した発明によれば、入力オーディオ信号から音声と音楽との判別及び音楽と背景音との判別を行なうための各種の特徴パラメータを算出し、それらの特徴パラメータから入力オーディオ信号が音声信号に近いか音楽信号に近いかをスコア判定するとともに、音楽と判定された場合には、背景音の影響を考慮して先のスコア判定結果を補正し、そのスコア値に基づいて音質補正処理を行なうようにしている。これにより、入力オーディオ信号に含まれる音声信号と音楽信号との類似度を、背景音の影響をも含めて定量的に評価し、その類似度に応じて適応的な音質補正処理を施すことが可能となる。

以下、この発明の実施の形態について図面を参照して詳細に説明する。図１は、この実施の形態で説明するデジタルテレビジョン放送受信装置１１の外観と、このデジタルテレビジョン放送受信装置１１を中心として構成されるネットワークシステムの一例とを概略的に示している。

すなわち、デジタルテレビジョン放送受信装置１１は、主として、薄型のキャビネット１２と、このキャビネット１２を起立させて支持する支持台１３とから構成されている。そして、このキャビネット１２には、例えばＳＥＤ（surface-conduction electron-emitter display）表示パネルまたは液晶表示パネル等でなる平面パネル型の映像表示器１４、一対のスピーカ１５，１５、操作部１６、リモートコントローラ１７から送信される操作情報を受ける受光部１８等が設置されている。

また、このデジタルテレビジョン放送受信装置１１には、例えばＳＤ（secure digital）メモリカード、ＭＭＣ（multimedia card）及びメモリスティック等の第１のメモリカード１９が着脱可能となっており、この第１のメモリカード１９に対して番組や写真等の情報の記録再生が行なわれるようになっている。

さらに、このデジタルテレビジョン放送受信装置１１には、例えば契約情報等の記録された第２のメモリカード［ＩＣ（integrated circuit）カード等］２０が着脱可能となっており、この第２のメモリカード２０に対して情報の記録再生が行なわれるようになっている。

また、このデジタルテレビジョン放送受信装置１１は、第１のＬＡＮ（local area network）端子２１、第２のＬＡＮ端子２２、ＵＳＢ（universal serial bus）端子２３及びＩＥＥＥ（institute of electrical and electronics engineers）１３９４端子２４を備えている。

このうち、第１のＬＡＮ端子２１は、ＬＡＮ対応ＨＤＤ（hard disk drive）専用ポートとして使用される。すなわち、この第１のＬＡＮ端子２１は、それに接続されたＮＡＳ（network attached storage）であるＬＡＮ対応のＨＤＤ２５に対して、イーサネット（登録商標）により情報の記録再生を行なうために使用される。

このように、デジタルテレビジョン放送受信装置１１にＬＡＮ対応ＨＤＤ専用ポートとしての第１のＬＡＮ端子２１を設けることにより、他のネットワーク環境やネットワーク使用状況等に影響されることなく、ＨＤＤ２５に対してハイビジョン画質による放送番組の情報記録を安定して行なうことができる。

また、第２のＬＡＮ端子２２は、イーサネット（登録商標）を用いた一般的なＬＡＮ対応ポートとして使用される。すなわち、この第２のＬＡＮ端子２２は、ハブ２６を介して、ＬＡＮ対応のＨＤＤ２７、ＰＣ（personal computer）２８、ＨＤＤ内蔵のＤＶＤ（digital versatile disk）レコーダ２９等の機器を接続して、例えば家庭内ネットワークを構築し、これらの機器と情報伝送を行なうために使用される。

この場合、ＰＣ２８及びＤＶＤレコーダ２９については、それぞれ、家庭内ネットワークにおいてコンテンツのサーバ機器として動作するための機能を持ち、さらにコンテンツのアクセスに必要なＵＲＩ（uniform resource identifier）情報を提供するサービスを備えたＵＰｎＰ（universal plug and play）対応機器として構成される。

なお、ＤＶＤレコーダ２９については、第２のＬＡＮ端子２２を介して通信されるデジタル情報が制御系のみの情報であるため、デジタルテレビジョン放送受信装置１１との間でアナログの映像及びオーディオ情報を伝送するために、専用のアナログ伝送路３０が設けられている。

さらに、この第２のＬＡＮ端子２２は、ハブ２６に接続されたブロードバンドルータ３１を介して、例えばインターネット等の外部のネットワーク３２に接続される。そして、この第２のＬＡＮ端子２２は、ネットワーク３２を介してＰＣ３３や携帯電話３４等と情報伝送を行なうためにも使用される。

また、上記ＵＳＢ端子２３は、一般的なＵＳＢ対応ポートとして使用されるもので、例えばハブ３５を介して、携帯電話３６、デジタルカメラ３７、メモリカードに対するカードリーダ／ライタ３８、ＨＤＤ３９、キーボード４０等のＵＳＢ機器を接続し、これらのＵＳＢ機器と情報伝送を行なうために使用される。

さらに、上記ＩＥＥＥ１３９４端子２４は、例えばＡＶ−ＨＤＤ４１及びＤ（digital）−ＶＨＳ（video home system）４２等のような複数の情報記録再生機器をシリアル接続し、各機器と選択的に情報伝送を行なうために使用される。

図２は、上記したデジタルテレビジョン放送受信装置１１の主要な信号処理系を示している。すなわち、ＢＳ／ＣＳ（broadcasting satellite／communication satellite）デジタル放送受信用のアンテナ４３で受信した衛星デジタルテレビジョン放送信号は、入力端子４４を介して衛星デジタル放送用のチューナ４５に供給されることにより、所望のチャンネルの放送信号が選局される。

そして、このチューナ４５で選局された放送信号は、ＰＳＫ（phase shift keying）復調器４６及びＴＳ（transport stream）復号器４７に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部４８に出力される。

また、地上波放送受信用のアンテナ４９で受信した地上デジタルテレビジョン放送信号は、入力端子５０を介して地上デジタル放送用のチューナ５１に供給されることにより、所望のチャンネルの放送信号が選局される。

そして、このチューナ５１で選局された放送信号は、例えば日本ではＯＦＤＭ（orthogonal frequency division multiplexing）復調器５２及びＴＳ復号器５３に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。

また、上記地上波放送受信用のアンテナ４９で受信した地上アナログテレビジョン放送信号は、入力端子５０を介して地上アナログ放送用のチューナ５４に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ５４で選局された放送信号は、アナログ復調器５５に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。

ここで、上記信号処理部４８は、ＴＳ復号器４７，５３からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部５６及びオーディオ処理部５７に出力している。

また、上記信号処理部４８には、複数（図示の場合は４つ）の入力端子５８ａ，５８ｂ，５８ｃ，５８ｄが接続されている。これら入力端子５８ａ〜５８ｄは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置１１の外部から入力可能とするものである。

信号処理部４８は、上記アナログ復調器５５及び各入力端子５８ａ〜５８ｄからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部５６及びオーディオ処理部５７に出力する。

グラフィック処理部５６は、信号処理部４８から供給されるデジタルの映像信号に、ＯＳＤ（on screen display）信号生成部５９で生成されるＯＳＤ信号を重畳して出力する機能を有する。このグラフィック処理部５６は、信号処理部４８の出力映像信号と、ＯＳＤ信号生成部５９の出力ＯＳＤ信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。

グラフィック処理部５６から出力されたデジタルの映像信号は、映像処理部６０に供給される。この映像処理部６０は、入力されたデジタルの映像信号を、前記映像表示器１４で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器１４に出力して映像表示させるとともに、出力端子６１を介して外部に導出させる。

また、上記オーディオ処理部５７は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ１５で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ１５に出力されてオーディオ再生に供されるとともに、出力端子６２を介して外部に導出される。

ここで、このデジタルテレビジョン放送受信装置１１は、上記した各種の受信動作を含むその全ての動作を制御部６３によって統括的に制御されている。この制御部６３は、ＣＰＵ（central processing unit）６４を内蔵しており、前記操作部１６からの操作情報、または、リモートコントローラ１７から送出され前記受光部１８に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。

この場合、制御部６３は、主として、そのＣＰＵ６４が実行する制御プログラムを格納したＲＯＭ（read only memory）６５と、該ＣＰＵ６４に作業エリアを提供するＲＡＭ（random access memory）６６と、各種の設定情報及び制御情報等が格納される不揮発性メモリ６７とを利用している。

また、この制御部６３は、カードＩ／Ｆ（interface）６８を介して、前記第１のメモリカード１９が装着可能なカードホルダ６９に接続されている。これによって、制御部６３は、カードホルダ６９に装着された第１のメモリカード１９と、カードＩ／Ｆ６８を介して情報伝送を行なうことができる。

さらに、上記制御部６３は、カードＩ／Ｆ７０を介して、前記第２のメモリカード２０が装着可能なカードホルダ７１に接続されている。これにより、制御部６３は、カードホルダ７１に装着された第２のメモリカード２０と、カードＩ／Ｆ７０を介して情報伝送を行なうことができる。

また、上記制御部６３は、通信Ｉ／Ｆ７２を介して第１のＬＡＮ端子２１に接続されている。これにより、制御部６３は、第１のＬＡＮ端子２１に接続されたＬＡＮ対応のＨＤＤ２５と、通信Ｉ／Ｆ７２を介して情報伝送を行なうことができる。この場合、制御部６３は、ＤＨＣＰ（dynamic host configuration protocol）サーバ機能を有し、第１のＬＡＮ端子２１に接続されたＬＡＮ対応のＨＤＤ２５にＩＰ（internet protocol）アドレスを割り当てて制御している。

さらに、上記制御部６３は、通信Ｉ／Ｆ７３を介して第２のＬＡＮ端子２２に接続されている。これにより、制御部６３は、第２のＬＡＮ端子２２に接続された各機器（図１参照）と、通信Ｉ／Ｆ７３を介して情報伝送を行なうことができる。

また、上記制御部６３は、ＵＳＢＩ／Ｆ７４を介して前記ＵＳＢ端子２３に接続されている。これにより、制御部６３は、ＵＳＢ端子２３に接続された各機器（図１参照）と、ＵＳＢＩ／Ｆ７４を介して情報伝送を行なうことができる。

さらに、上記制御部６３は、ＩＥＥＥ１３９４Ｉ／Ｆ７５を介してＩＥＥＥ１３９４端子２４に接続されている。これにより、制御部６３は、ＩＥＥＥ１３９４端子２４に接続された各機器（図１参照）と、ＩＥＥＥ１３９４Ｉ／Ｆ７５を介して情報伝送を行なうことができる。

図３は、上記オーディオ処理部５７内に備えられる音質補正処理部７６を示している。この音質補正処理部７６では、入力端子７７に供給されたオーディオ信号が、原音遅延補償部７８、音声用補正処理部７９及び音楽用補正処理部８０にそれぞれ供給されるとともに、特徴パラメータ算出部８１に供給されている。

このうち、特徴パラメータ算出部８１は、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータや、音楽信号と例えばＢＧＭ（back ground music）、拍手及び歓声等の背景音となる背景音信号とを判別するための各種の特徴パラメータを算出している。

すなわち、この特徴パラメータ算出部８１は、入力されたオーディオ信号を、図４（ａ）に示すように、数１００msec程度のフレーム単位に切り出し、さらに、各フレームを数１０msec程度のサブフレーム単位に分割する。

この場合、特徴パラメータ算出部８１では、入力されたオーディオ信号から、サブフレーム単位で、音声信号と音楽信号とを判別するための各種の判別情報や、音楽信号と背景音信号とを判別するための各種の判別情報等を算出し、算出された各種の判別情報のそれぞれについて、フレーム単位での統計量（例えば平均，分散，最大，最小等）を求めることにより、種々の特徴パラメータを生成している。

例えば、特徴パラメータ算出部８１では、サブフレーム単位で入力オーディオ信号の信号振幅の二乗和であるパワー値を判別情報として算出し、その算出されたパワー値に対するフレーム単位での統計量を求めることにより、パワー値に関する特徴パラメータｐｗを生成している。

また、特徴パラメータ算出部８１では、サブフレーム単位で入力オーディオ信号の時間波形が振幅方向に零を横切る回数である零交差周波数を判別情報として算出し、その算出された零交差周波数に対するフレーム単位での統計量を求めることにより、零交差周波数に関する特徴パラメータｚｃを生成している。

さらに、特徴パラメータ算出部８１では、サブフレーム単位で入力オーディオ信号の周波数領域でのスペクトル変動を判別情報として算出し、その算出されたスペクトル変動に対するフレーム単位での統計量を求めることにより、スペクトル変動に関する特徴パラメータｓｆを生成している。

また、特徴パラメータ算出部８１では、サブフレーム単位で入力オーディオ信号における２チャンネルステレオの左右（ＬＲ）信号のパワー比（ＬＲパワー比）を判別情報として算出し、その算出されたＬＲパワー比に対するフレーム単位での統計量を求めることにより、ＬＲパワー比に関する特徴パラメータｌｒを生成している。

さらに、特徴パラメータ算出部８１では、サブフレーム単位で、入力オーディオ信号の周波数領域変換後、楽曲の楽器音に特徴的な特定の周波数帯域のパワー成分の集中度合いを判別情報として算出している。この集中度合いは、入力オーディオ信号の全帯域または特定の帯域内における、上記した特徴的な特定の周波数帯域のパワー占有割合等で示される。特徴パラメータ算出部８１では、この判別情報に対するフレーム単位での統計量を求めることにより、楽器音に特徴的な特定の周波数帯域の集中度合いに関する特徴パラメータｉｎｓｔを生成している。

図５は、特徴パラメータ算出部８１が、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータや、音楽信号と背景音信号とを判別するための各種の特徴パラメータを生成する処理動作をまとめたフローチャートの一例を示している。

すなわち、処理が開始（ステップＳ５ａ）されると、特徴パラメータ算出部８１は、ステップＳ５ｂで、入力オーディオ信号から数１０msec程度のサブフレームを抽出する。そして、特徴パラメータ算出部８１は、ステップＳ５ｃで、入力オーディオ信号からサブフレーム単位でのパワー値を算出する。

その後、特徴パラメータ算出部８１は、ステップＳ５ｄで、入力オーディオ信号からサブフレーム単位での零交差周波数を算出し、ステップＳ５ｅで、入力オーディオ信号からサブフレーム単位でのスペクトル変動を算出し、ステップＳ５ｆで、入力オーディオ信号からサブフレーム単位でのＬＲパワー比を算出する。

また、特徴パラメータ算出部８１は、ステップＳ５ｇで、入力オーディオ信号からサブフレーム単位で、楽器音に特徴的な特定の周波数帯域のパワー成分の集中度合いを算出する。同様に、特徴パラメータ算出部８１は、ステップＳ５ｈで、入力オーディオ信号からサブフレーム単位での他の判別情報を算出する。

その後、特徴パラメータ算出部８１は、ステップＳ５ｉで、入力オーディオ信号から数１００msec程度のフレームを抽出する。そして、特徴パラメータ算出部８１は、ステップＳ５ｊで、サブフレーム単位で算出した各種の判別情報に対して、それぞれフレーム単位での統計量を求めることにより種々の特徴パラメータを生成し、処理を終了（ステップＳ５ｋ）する。

上記のようにして、特徴パラメータ算出部８１で生成された各種の特徴パラメータは、音声・音楽識別スコア算出部８２及び音楽・背景音識別スコア算出部８３にそれぞれ供給される。

このうち、音声・音楽識別スコア算出部８２は、詳細は後述するが、特徴パラメータ算出部８１で生成された各種の特徴パラメータに基づいて、入力端子７７に供給されたオーディオ信号が、スピーチのような音声信号の特性に近いか、音楽（楽曲）信号の特性に近いかを定量的に示す音声・音楽識別スコアＳ１を算出している。

また、音楽・背景音識別スコア算出部８３は、詳細は後述するが、特徴パラメータ算出部８１で生成された各種の特徴パラメータに基づいて、入力端子７７に供給されたオーディオ信号が、音楽信号の特性に近いか、背景音信号の特性に近いかを定量的に示す音楽・背景音識別スコアＳ２を算出している。

一方、上記音声用補正処理部７９は、入力されたオーディオ信号内の音声信号を強調するように音質補正処理を行なうもので、例えば、スポーツ番組の実況や音楽番組のトークシーンにおける音声信号を強調して明瞭化するものである。これらの音声信号は、その多くがステレオの場合センターに定位しているため、センターの信号成分を強調することによって、音声信号に対する音質補正が可能となる。

また、上記音楽用補正処理部８０は、入力されたオーディオ信号内の音楽信号に対して音質補正処理を施すもので、例えば、音楽番組での楽曲演奏シーンにおける音楽信号に対して、ワイドステレオ処理やリバーブ処理を施すことにより、拡がり感のある音場を実現させている。

さらに、上記原音遅延補償部７８は、入力オーディオ信号そのままの原音信号と、音声用補正処理部７９及び音楽用補正処理部８０から得られる音声信号及び音楽信号との処理遅延を吸収するために設けられたものである。これにより、後段における原音信号、音声信号及び音楽信号のミクシング時（あるいは切り替わり時）に、各信号の時間ずれに伴なう異音の発生を防ぐことができる。

そして、上記原音遅延補償部７８、音声用補正処理部７９及び音楽用補正処理部８０から出力される原音信号、音声信号及び音楽信号は、それぞれ、可変利得増幅器８４，８５，８６に供給されて所定のゲインで増幅された後、加算器８７でミクシングされる。これにより、上記原音信号、音声信号及び音楽信号に対して、それぞれゲイン調整により適応的に音質補正処理の施されたオーディオ信号が生成される。

その後、上記加算器８７から出力されたオーディオ信号は、レベル補正部８８に供給される。このレベル補正部８８は、上記原音遅延補償部７８から供給される原音信号に基づいて、出力オーディオ信号のレベルが原音信号に対して一定レベルの範囲内に収められるように、入力オーディオ信号にレベル補正を施している。

このレベル補正は、音声用補正処理部７９や音楽用補正処理部８０による補正処理によって、音声信号や音楽信号のレベルが変化する場合があり、このようにレベルの変化した音声信号や音楽信号を原音信号にミクシングすることで、出力オーディオ信号のレベルが変動し、聴取者に違和感を与えることを防止しているものである。

具体的に言えば、レベル補正部８８では、過去数１０フレーム分の原音信号のパワーを算出し、これを基準に加算器８７によるミクシング後のオーディオ信号のレベルが、原音信号のレベルに比較して一定レベルを超える場合に、出力オーディオ信号が一定レベル以下となるようにゲイン調整しレベル補正している。そして、レベル補正部８８によってレベル補正処理の施されたオーディオ信号が、出力端子８９を介して上記スピーカ１５に供給されオーディオ再生に供される。

ここで、上記音声・音楽識別スコア算出部８２から出力される音声・音楽識別スコアＳ１と、音楽・背景音識別スコア算出部８３から出力される音楽・背景音識別スコアＳ２とは、ミクシング制御部９０に供給される。このミクシング制御部９０は、詳細は後述するが、入力された音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２に基づいて、音声用補正処理部７９及び音楽用補正処理部８０における補正処理の有無や補正処理の度合い等を制御するための判定スコアＳ１′を生成している。

また、このミクシング制御部９０は、入力された音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２に基づいて生成した判定スコアＳ１′に応じて、可変利得増幅器８４，８５，８６にそれぞれ与えるゲインＧｏ，Ｇｓ，Ｇｍを設定している。これにより、上記原音遅延補償部７８、音声用補正処理部７９及び音楽用補正処理部８０から出力される原音信号、音声信号及び音楽信号に対して、ゲイン調整による最適な音質補正処理が行なわれるようになる。

次に、上記した音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出について説明するに先立ち、各種の特徴パラメータの性質について説明しておくことにする。まず、上記パワー値に関する特徴パラメータｐｗについて説明する。すなわち、パワー変動に関して言えば、一般に、音声は、発話している区間と沈黙している区間とが交互に現れるため、サブフレーム間での信号パワーの違いが大きくなり、フレーム単位で見ると各サブフレーム間のパワー値の分散が大きくなる傾向にある。ここでパワー変動とは、サブフレームにおいて計算したパワー値について、より長いフレーム区間内での値の変動に着目した特徴量を指し、具体的にはパワーの分散値等を用いる。

また、上記零交差周波数に関する特徴パラメータｚｃについて説明すると、零交差周波数に関して言えば、前述した発話区間と沈黙区間との違いに加えて、音声信号は零交差周波数が子音では高く母音では低くなるため、フレーム単位で見ると各サブフレーム間の零交差周波数の分散が大きくなる傾向にある。

さらに、上記スペクトル変動に関する特徴パラメータｓｆについて説明すると、スペクトル変動に関して言えば、音声信号は、音楽信号のようにトーナル（調音構造的）な信号に比べて周波数特性の変動が激しいため、フレーム単位で見るとスペクトル変動分散が大きくなる傾向にある。

また、上記したＬＲパワー比に関する特徴パラメータｌｒについて説明すると、ＬＲパワー比に関して言えば、音楽信号では、ボーカル以外の楽器演奏がセンター以外に定位していることが多いため、左右のチャンネル間のパワー比が大きくなる傾向にある。

上記音声・音楽識別スコア算出部８２では、これらの特徴パラメータｐｗ，ｚｃ，ｓｆ，ｌｒのように、音声信号と音楽信号との性質の違いに着目した、これらの信号種別を切り分け易い特徴パラメータを用いて、音声・音楽識別スコアＳ１を算出している。

ただし、これらの特徴パラメータｐｗ，ｚｃ，ｓｆ，ｌｒは、純粋な音声信号と音楽信号とを判別するためには有効であるが、例えば大人数の拍手、歓声、笑い声、雑踏等の背景音が重畳されている音声信号に対しては、必ずしも同じような判別効果を発揮することができるわけではなく、背景音の影響により音楽信号であるとの誤判定を起こし易くなっている。

このような誤判定の発生を抑制するために、上記音楽・背景音識別スコア算出部８３では、入力オーディオ信号が音楽信号の特性に近いか背景音信号の特性に近いかを定量的に示す音楽・背景音識別スコアＳ２を算出している。そして、上記ミクシング制御部９０では、この音楽・背景音識別スコアＳ２に基づいて音声・音楽識別スコアＳ１を補正し、音声用補正処理部７９及び音楽用補正処理部８０に与える最終的な判定スコアＳ１′を生成している。

この場合、音楽・背景音識別スコア算出部８３では、音楽信号と背景音信号とを判別するために適した判別情報として、楽器の特定周波数成分の集中度合いに対応した特徴パラメータｉｎｓｔを採用している。

この特徴パラメータｉｎｓｔについて説明すると、音楽信号は、楽曲を構成する楽器によって特定の周波数帯域に振幅パワーが集中することが多くなっている。例として、現代の楽曲では、多くの場合、ベースとなる楽器が存在し、そのベース音を解析すると、信号の周波数領域において、振幅パワーが特定の低周波数帯域に集中している。

これに対し、背景音信号には、このような特定の低周波数帯域のパワー集中度は見られず、特徴パラメータｉｎｓｔは、音楽信号と背景音信号とを判別する上で有効な指標となっている。

次に、上記音声・音楽識別スコア算出部８２及び音楽・背景音識別スコア算出部８３における音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出について説明する。音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出手法については１つの手法に特定しないが、ここでは、線形識別関数を用いた算出手法について説明する。

線形識別関数を用いる手法では、音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出に必要な各種特徴パラメータに乗ずる重み付け係数をオフライン学習により算出している。この重み付け係数としては、信号種別の判別に効果の高い特徴パラメータほど大きい値が与えられる。

また、重み付け係数は、音声・音楽識別スコアＳ１については、予め準備した多くの既知の音声信号及び音楽信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出され、音楽・背景音識別スコアＳ２については、予め準備した多くの既知の音楽信号及び背景音信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出される。

まず、音声・音楽識別スコアＳ１の算出について説明すると、今、学習対象とする参照データのｋ番目のフレームの特徴パラメータセットをベクトルｘで表わし、入力オーディオ信号が属する信号区間｛音声、音楽｝としてｚで以下のように表わすものとする。

ここで、上記（１）式の各要素は、抽出したｎ個の特徴パラメータに対応する。また、上記（２）式の−１，＋１は、それぞれ、音声区間及び音楽区間に対応し、使用する音声・音楽判別用の参照データの正解信号種別となる区間について、予め人手で２値のラベル付けをしたものである。さらに、上記（２）式より、以下の線形識別関数を立てる。

ｋ＝１〜Ｎ（Ｎは参照データの入力フレーム数）に対し、ベクトルｘを抽出し、（３）式の評価値と正解信号種別（２）式の誤差二乗和（４）式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数Ａ_ｉ（ｉ＝０〜ｎ）が決定される。

学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を（３）式より計算し、ｆ（ｘ）＜０であれば音声区間、ｆ（ｘ）＞０であれば音楽区間と判定する。そして、このときのｆ（ｘ）が上記音声・音楽識別スコアＳ１に相当する。これにより、
Ｓ１＝Ａ_０＋Ａ_１・ｘ_１＋Ａ_２・ｘ_２＋……＋Ａ_ｎ・ｘ_ｎ
が算出される。

また、音楽・背景音識別スコアＳ２の算出についても同様に、学習対象とする参照データのｋ番目のフレームの特徴パラメータセットをベクトルｙで表わし、入力オーディオ信号が属する信号区間｛背景音、音楽｝としてｚで以下のように表わすものとする。

ここで、上記（５）式の各要素は、抽出したｍ個の特徴パラメータに対応する。また、上記（６）式の−１，＋１は、それぞれ、背景音区間及び音楽区間に対応し、使用する音楽・背景音判別用の参照データの正解信号種別となる区間について、予め人手で２値のラベル付けをしたものである。さらに、上記（６）式より、以下の線形識別関数を立てる。

ｋ＝１〜Ｎ（Ｎは参照データの入力フレーム数）に対し、ベクトルｙを抽出し、（７）式の評価値と正解信号種別（６）式の誤差二乗和（８）式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数Ｂ_ｉ（ｉ＝０〜ｍ）が決定される。

学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を（７）式より計算し、ｆ（ｙ）＜０であれば背景音区間、ｆ（ｙ）＞０であれば音楽区間と判定する。そして、このときのｆ（ｙ）が上記音楽・背景音識別スコアＳ２に相当する。これにより、
Ｓ２＝Ｂ_０＋Ｂ_１・ｙ_１＋Ｂ_２・ｙ_２＋……＋Ｂ_ｍ・ｙ_ｍ
が算出される。

なお、音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出については、上記した線形識別関数を用いたオフライン学習により求めた重み付け係数を特徴パラメータに乗ずる手法に限定されるものではなく、例えば各特徴パラメータの算出値に対して経験的な閾値を設定し、この閾値との比較判定に応じて各特徴パラメータに重み付けされた得点を付与し、スコアを算出する等の手法も用いることが可能である。

図６は、上記のように線形識別関数を用いたオフライン学習で算出した各特徴パラメータの重み付け係数に基づき、音声・音楽識別スコア算出部８２及び音楽・背景音識別スコア算出部８３が音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２を算出する処理動作をまとめたフローチャートの一例を示している。

すなわち、処理が開始（ステップＳ６ａ）されると、音声・音楽識別スコア算出部８２は、ステップＳ６ｂで、特徴パラメータ算出部８１で算出される各種の特徴パラメータに対して、予め学習した音声・音楽判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・音楽識別スコア算出部８２は、ステップＳ６ｃで、重み付け係数を乗じた各特徴パラメータの総和を、音声・音楽識別スコアＳ１として算出する。

また、音楽・背景音識別スコア算出部８３は、ステップＳ６ｄで、特徴パラメータ算出部８１で算出される各種の特徴パラメータに対して、予め学習した音楽・背景音判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・背景音識別スコア算出部８３は、ステップＳ６ｅで、重み付け係数を乗じた各特徴パラメータの総和を、音楽・背景音識別スコアＳ２として算出し、処理を終了（ステップＳ６ｆ）する。

ここで、上記ミクシング制御部９０が、入力された音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２に基づいて生成した判定スコアＳ１′に応じて、可変利得増幅器８４，８５，８６にそれぞれ与えるゲインＧｏ，Ｇｓ，Ｇｍを設定する手法について説明する。

この判定スコアＳ１′は、詳細な算出手法は後述するが、入力オーディオ信号が音声信号の特性に近いか音楽信号の特性に近いかを、背景音の影響を考慮した上で定量的に示したもので、正の場合には、音楽信号が強いことを意味しており、逆に負の場合には、音声信号が強いことを意味している。

図７は、この判定スコアＳ１′とゲインＧ（ＧｓまたはＧｍ）との関係を示している。すなわち、判定スコアＳ１′の絶対値｜Ｓ１′｜が予め設定されたしきい値ＴＨ１よりも小さいとき、つまり、｜Ｓ１′｜＜ＴＨ１のとき、ゲインＧはＧminに設定される。また、判定スコアＳ１′の絶対値｜Ｓ１′｜が予め設定されたしきい値ＴＨ２以上であるとき、つまり、｜Ｓ１′｜≧ＴＨ２のとき、ゲインＧはＧmaxに設定される。

さらに、判定スコアＳ１′の絶対値｜Ｓ１′｜がしきい値ＴＨ１以上でしきい値ＴＨ２よりも小さいとき、つまり、ＴＨ１≦｜Ｓ１′｜＜ＴＨ２のとき、ゲインＧは、
Ｇ＝Ｇmin +（Ｇmax−Ｇmin）／（ＴＨ２−ＴＨ１）・（｜Ｓ１′｜−ＴＨ１）
となる。

判定スコアＳ１′の絶対値｜Ｓ１′｜がしきい値ＴＨ１よりも小さいときと、しきい値ＴＨ２以上のときとでゲインＧを飽和させているのは、音声あるいは音楽の判定が定常的になっている状態でのゲインＧのふらつきを抑制するためである。

そして、判定スコアＳ１′が正の場合には、音声信号を増幅する可変利得増幅器８５に与えるゲインＧｓは０に制御され、音楽信号を増幅する可変利得増幅器８６に与えるゲインＧｍが、判定スコアＳ１′に応じて図７に示した特性から決定される。また、判定スコアＳ１′が負の場合には、音楽信号を増幅する可変利得増幅器８６に与えるゲインＧｍは０に制御され、音声信号を増幅する可変利得増幅器８５に与えるゲインＧｓが、判定スコアＳ１′に応じて図７に示した特性から決定される。

なお、入力オーディオ信号（原音信号）を増幅する可変利得増幅器８４に与えるゲインＧｏは、加算器８７によるミクシング後の信号パワーを揃えるために、他のゲインＧ（ＧｓまたはＧｍ）に基づいて、Ｇｏ＝１．０−Ｇのように設定する。ここで、ゲインＧ（ＧｓまたはＧｍ）が０の場合は、可変利得増幅器８５，８６の動作を停止させてもよい。

上記のように求められたゲインＧｏ，Ｇｓ，Ｇｍを原音信号、音声信号及び音楽信号にそれぞれ乗算した信号が加算されて、上記レベル補正部８８に供給されることにより、前述したレベル補正に供される。

図８は、上記音声用補正処理部７９を示している。この音声用補正処理部７９は、前述したように、センターに定位する音声信号を強調するように機能する。すなわち、入力端子７９ａ，７９ｂに供給された左（Ｌ）及び右（Ｒ）チャンネルのオーディオ信号は、それぞれフーリエ変換部７９ｃ，７９ｄに供給されて周波数領域信号（スペクトル）に変換される。

そして、フーリエ変換部７９ｃから出力されたＬチャンネルオーディオ信号成分は、ＭＳパワー比算出部７９ｅ、チャンネル間相関算出部７９ｆ及びゲイン補正部７９ｇにそれぞれ供給される。また、フーリエ変換部７９ｄから出力されたＲチャンネルオーディオ信号成分は、ＭＳパワー比算出部７９ｅ、チャンネル間相関算出部７９ｆ及びゲイン補正部７９ｈにそれぞれ供給される。

このうち、ＭＳパワー比算出部７９ｅは、両チャンネルの周波数bin毎の和信号（Ｍ信号）と差信号（Ｓ信号）とからＭＳパワー比（Ｍ／Ｓ）を算出している。このＭ／Ｓパワー比を算出するのは、センターに定位するスペクトル成分を抽出するためであり、Ｍ／Ｓパワー比が大きいほど、センターに定位した信号成分と判断できるからである。

また、上記チャンル間相関算出部７９ｆは、両チャンネルのスペクトル間の相関係数をバーク帯域毎に算出している。このチャンネル間相関を算出するのは、ＭＳパワー比と同様に、相関係数が大きい（１に近い）ほどセンターに定位したスペクトル信号成分と判断することができるからである。

そして、ＭＳパワー比算出部７９ｅで算出されたＭＳパワー比と、チャンル間相関算出部７９ｆで算出されたチャンネル間相関係数とは、補正ゲイン算出部７９ｉにそれぞれ供給される。この補正ゲイン算出部７９ｉは、入力されたパラメータ（ＭＳパワー比とチャンネル間相関係数）にそれぞれ重み付けを施して加算することにより、センター定位スコアを算出する。そして、このセンター定位スコアに基づいて、図７と同様の関係にしたがい（ただし、しきい値は図９に示すようにＴＨ３，ＴＨ４）、センターに定位するスペクトル成分を強調するために周波数bin毎の補正ゲインを求めるものである。

つまり、補正ゲイン算出部７９ｉは、センター定位スコアが高い周波数成分のゲインを大きくし、センター定位スコアが低い周波数成分のゲインを小さくする。この補正ゲイン算出部７９ｉでは、図３に示したミクシング制御部８９による各可変利得増幅器８４〜８６でのゲイン制御の代替、または、並列処理として特性スコアに応じて強調効果を制御することが可能である。

具体的に言えば、補正ゲイン算出部７９ｉは、入力端子７９ｊを介して供給される判定スコアＳ１′が負の場合に音声信号であると判断できるため、判定スコアＳ１′に基づいて、図９に示すように補正ゲイン下限を増加（あるいはしきい値ＴＨ３を減少）させるよう補正特性を制御することで強調効果を得られ易くしている。

そして、この補正ゲイン算出部７９ｉで算出された補正ゲインは、平滑化部７９ｋに供給される。この平滑化部７９ｋは、補正ゲイン算出部７９ｉで算出された補正ゲインが、隣接する周波数bin間で違いが大きい場合に異音が生じるので、これを避けるため補正ゲインに対して平滑化を行なった後、上記ゲイン補正部７９ｇ，７９ｈに供給している。

これらのゲイン補正部７９ｇ，７９ｈでは、それぞれ、入力されたＬ及びＲチャンネルオーディオ信号成分に対して、補正ゲインを周波数bin毎に乗算することにより強調処理を行なっている。そして、各ゲイン補正部７９ｇ，７９ｈで補正の行なわれたＬ及びＲチャンネルオーディオ信号成分は、それぞれ、逆フーリエ変換部７９ｌ，７９ｍに供給されることにより周波数領域信号を時間域信号に戻され、出力端子７９ｎ，７９ｏを介して可変利得増幅器８５に出力される。

なお、図８では、２チャンネルのオーディオ信号に対してセンターを強調することについて説明したが、マルチチャンネルのオーディオ信号の場合には、センターチャンネルの強調を行なうことで同様の処理が可能となる。

図１０は、上記音楽用補正処理部８０を示している。この音楽用補正処理部８０は、前述したように、音楽信号に対してワイドステレオ処理やリバーブ処理を行なうことによって、拡がり感のある音場を実現するように機能する。すなわち、入力端子８０ａ，８０ｂに供給された左（Ｌ）及び右（Ｒ）チャンネルのオーディオ信号は、ステレオ感を強調する（ワイド感を出す）ために、減算器８０ｃに供給されてそれらの差分が求められる。

そして、その差分は、さらに、聴感特性を向上させるために、カットオフ周波数が１ｋＨz程度の低域通過フィルタ８０ｄに通された後、ゲイン調整部８０ｅに供給されて、入力端子８０ｆを介して供給される判定スコアＳ１′に基づいたゲイン調整が施される。このゲイン調整後の信号は、加算器８０ｇにより、入力端子８０ａに供給されたＬチャンネルオーディオ信号と、入力端子８０ａ，８０ｂに供給されたＬ及びＲチャンネルオーディオ信号を加算器８０ｈで加算し増幅器８０ｉで増幅した信号と加算される。

また、上記ゲイン調整部８０ｅでゲイン調整された信号は、逆相変換器８０ｊで逆相にされた後、加算器８０ｋにより、入力端子８０ｂに供給されたＲチャンネルオーディオ信号と、増幅器８０ｉの出力信号と加算される。このように、ＬチャンネルとＲチャンネルとでオーディオ信号を逆相にして加算することにより、ＬＲの差分を強調することができる。

ここで、上記ゲイン調整８０ｅでは、図３に示したミクシング制御部９０による各可変利得増幅器８４〜８６でのゲイン制御の代替、または、並列処理として特性スコアに応じて強調効果を制御することが可能である。具体的に言えば、ゲイン調整部８０ｅは、判定スコアＳ１′が正の場合に音楽信号であると判断できるため、｜Ｓ１′｜に応じて減算器８０ｃから得られる差分信号のゲインを制御する（つまり、図７に示した特性のように｜Ｓ１′｜が大きいほどゲインを大きくする）ことで補正効果を得られ易くしている。

また、差分信号強調に伴なうセンター成分の低下を補うために、Ｌ及びＲチャンネルのオーディオ信号を加算器８０ｈにより加算した和信号を増幅器８０ｉでゲイン調整した（減衰させた）信号を、各加算器８０ｇ，８０ｋで各々に加算している。

そして、各加算器８０ｇ，８０ｋの出力は、それぞれ、イコライザ部８０ｌ，８０ｍに供給される。これらのイコライザ部８０ｌ，８０ｍは、ステレオ信号に対する聴覚特性向上の観点と、差分信号を低域通過フィルタ８０ｄに通したことによる高域の相対的な落ち込みを補償するために高域部を強調するとともに、補正前後でのパワー変動による違和感を抑圧するため、全体のゲイン調整を行なっている。

その後、各イコライザ部８０ｌ，８０ｍの出力は、それぞれ、リバーブ部８０ｎ，８０ｏに供給される。これらのリバーブ部８０ｎ，８０ｏは、再生環境（部屋等）の残響を模擬した遅延特性を持つインパルス応答の畳み込みを行なうもので、音楽視聴に適した拡がり感のある音場効果を与える補正音を生成している。そして、各リバーブ部８０ｎ，８０ｏの出力が、出力端子８０ｐ，８０ｑを介して可変利得増幅器８６に出力される。

図１１乃至図１３は、上記した音質補正処理部７６が行なう一連の音質補正処理動作をまとめたフローチャートを示している。すなわち、処理が開始（ステップＳ１１ａ）されると、音質補正処理部７６は、ステップＳ１１ｂで、音質・音楽識別スコア算出部８２及び音楽・背景音識別スコア算出部８３により音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２を算出させ、ステップＳ１１ｃで、音声・音楽識別スコアＳ１が負（Ｓ１＜０）であるか否か、つまり、入力オーディオ信号が音声であるか否かを判別する。

そして、音声・音楽識別スコアＳ１が正（Ｓ１＞０）、つまり、入力オーディオ信号が音楽であると判断された場合（ＮＯ）、音質補正処理部７６は、ステップＳ１１ｄで、音楽・背景音識別スコアＳ２が正（Ｓ２＞０）であるか否か、つまり、音楽であるか否かを判別する。

その結果、音楽・背景音識別スコアＳ２が負（Ｓ２＜０）、つまり、背景音であると判断された場合（ＮＯ）、音質補正処理部７６は、背景音に対して音楽用補正処理部８０で音楽用の音質補正処理が施されることによる違和感の発生を緩和するように、音声・音楽識別スコアＳ１を補正する。

この補正は、まず、ステップＳ１１ｅで、音声・音楽識別スコアＳ１から背景音に関する寄与分を減らすように、音声・音楽識別スコアＳ１に音楽・背景音識別スコアＳ２に所定の係数α乗算した値を加算する。つまり、Ｓ１＝Ｓ１＋（α×Ｓ２）としている。この場合、音楽・背景音識別スコアＳ２は負であるから、音声・音楽識別スコアＳ１としては、その値が減少することになる。

その後、ステップＳ１１ｅでの音声・音楽識別スコアＳ１に対する過度の補正を防ぐため、ステップＳ１１ｆで、ステップＳ１１ｅで得られた音声・音楽識別スコアＳ１が、予め設定された最小値Ｓ１minと最大値Ｓ１maxとの範囲内に収まるように、つまり、Ｓ１min≦Ｓ１≦Ｓ１maxとなるようにクリップ処理が施される。

そして、このステップＳ１１ｆの後、または、上記ステップＳ１１ｄで音楽・背景音識別スコアＳ２が正（Ｓ２＞０）、つまり、音楽であると判断された場合（ＹＥＳ）、音質補正処理部７６は、ステップＳ１１ｇで、音楽用補正処理部８０における音楽用の音質補正処理効果を高めるための安定化パラメータＳ３を生成する。

この場合、安定化パラメータＳ３は、後段の音楽用補正処理部８０に対する補正処理の強度を決定している音声・音楽識別スコアＳ１に対して、補正強度を高めるとともに安定化を図るように作用する。これは、音楽シーンによっては、音声・音楽識別スコアＳ１が大きな値にならないことがあり、その場合、音楽信号に対して十分な音質補正効果が得られなくなることを防止しているものである。

すなわち、ステップＳ１１ｇにおいて、安定化パラメータＳ３は、音声・音楽識別スコアＳ１が正となっている、つまり、音楽信号であると判別されている継続時間が長いほど音質補正処理が強化されるように、音声・音楽識別スコアＳ１が正と判定されたフレームが、予め設定されたＣｍ回以上連続して検出される毎に、予め設定された所定値βを累積加算することにより生成される。

また、この安定化パラメータＳ３の値は、フレームを跨いでも保持されているため、入力オーディオ信号が音声に変わった場合にも、引き続き更新される。すなわち、上記ステップＳ１１ｃで音声・音楽識別スコアＳ１が負（Ｓ１＜０）、つまり、入力オーディオ信号が音声であると判断された場合（ＹＥＳ）、音質補正処理部７６は、ステップＳ１１ｈで、音声・音楽識別スコアＳ１が負となっている、つまり、音声信号であると判別されている継続時間が長いほど、音楽用補正処理部８０における音楽用の音質補正処理効果が軽減されるように、音声・音楽識別スコアＳ１が負と判定されたフレームが、予め設定されたＣｓ回以上連続して検出される毎に、安定化パラメータＳ３から予め設定された所定値γを減算する。

その後、音質補正処理部７６は、ステップＳ１１ｉで、上記ステップＳ１１ｇ，Ｓ１１ｈで生成された安定化パラメータＳ３による過度の補正を防ぐために、安定化パラメータＳ３が予め設定された最小値Ｓ３minと最大値Ｓ３maxとの範囲内に収まるように、つまり、Ｓ３min≦Ｓ３≦Ｓ３maxとなるようにクリップ処理が施される。

そして、音質補正処理部７６は、ステップＳ１１ｊで、上記ステップＳ１１ｆでクリップ処理の施された音声・音楽識別スコアＳ１に、上記ステップＳ１１ｉでクリップ処理の施された安定化パラメータＳ３を加算することにより、上記判定スコアＳ１′を生成している。

その後、音質補正処理部７６は、ステップＳ１２ａで、判定スコアＳ１′が負（Ｓ１′＜０）であるか否か、つまり、入力オーディオ信号が音声であるか否かを判別し、負（音声）であると判断された場合（ＹＥＳ）、ステップＳ１２ｂで、判定スコアＳ１′が予め設定された音声信号用の上限しきい値ＴＨ２ｓ以上であるか否か、つまり、Ｓ１′≧ＴＨ２ｓであるか否かを判別する。

そして、Ｓ１′≧ＴＨ２ｓであると判断された場合（ＹＥＳ）、音質補正処理部７６は、ステップＳ１２ｃで、音声信号の補正用出力ゲイン（可変利得増幅器８５に与えるゲイン）ＧｓをＧsmaxに設定する。

また、上記ステップＳ１２ｂでＳ１′≧ＴＨ２ｓでないと判断された場合（ＮＯ）、音質補正処理部７６は、ステップＳ１２ｄで、判定スコアＳ１′が予め設定された音声信号用の下限しきい値ＴＨ１ｓより小さいか否か、つまり、Ｓ１′＜ＴＨ１ｓであるか否かを判別する。そして、Ｓ１′＜ＴＨ１ｓであると判断された場合（ＹＥＳ）、音質補正処理部７６は、ステップＳ１２ｅで、音声信号の補正用出力ゲイン（可変利得増幅器８５に与えるゲイン）ＧｓをＧsminに設定する。

さらに、上記ステップＳ１２ｄでＳ１′＜ＴＨ１ｓでないと判断された場合（ＮＯ）、音質補正処理部７６は、ステップＳ１２ｆで、音声信号の補正用出力ゲイン（可変利得増幅器８５に与えるゲイン）Ｇｓを、図７に示した特性のＴＨ１ｓ≦Ｓ１′＜ＴＨ２ｓの範囲に基づいて設定する。

そして、上記したステップＳ１２ｄ、Ｓ１２ｅまたはＳ１２ｆの後、音質補正処理部７６は、ステップＳ１２ｇで、判定スコアＳ１′を用いて音声用補正処理部７９による音声信号に対しての音質補正処理を実行する。その後、音質補正処理部７６は、ステップＳ１２ｈで、音楽信号に対する補正用出力ゲイン（可変利得増幅器８６に与えるゲイン）Ｇｍを０に設定する。

また、音質補正処理部７６は、ステップＳ１２ｉで、原音信号に対する補正用出力ゲイン（可変利得増幅器８４に与えるゲイン）Ｇｏを１．０−Ｇｓなる演算により算出する。その後、音質補正処理部７６は、ステップＳ１２ｊで、各利得可変増幅器８４〜８６の出力を加算器８７でミクシングする。

そして、音質補正処理部７６は、ステップＳ１２ｋで、レベル補正部８８により、加算器８７でミクシングされたオーディオ信号に対し、原音信号のレベルに基づいたレベル補正処理を施して、処理を終了（ステップＳ１２ｌ）する。

一方、上記ステップＳ１２ａで判定スコアＳ１′が正、つまり、入力オーディオ信号が音楽であると判断された場合（ＮＯ）、音質補正処理部７６は、ステップＳ１３ａで、判定スコアＳ１′が予め設定された音楽信号用の上限しきい値ＴＨ２ｍ以上であるか否か、つまり、Ｓ１′≧ＴＨ２ｍであるか否かを判別する。そして、Ｓ１′≧ＴＨ２ｍであると判断された場合（ＹＥＳ）、音質補正処理部７６は、ステップＳ１３ｂで、音楽信号の補正用出力ゲイン（可変利得増幅器８６に与えるゲイン）ＧｍをＧmmaxに設定する。

また、上記ステップＳ１３ａでＳ１′≧ＴＨ２ｍでないと判断された場合（ＮＯ）、音質補正処理部７６は、ステップＳ１３ｃで、判定スコアＳ１′が予め設定された音楽信号用の下限しきい値ＴＨ１ｍより小さいか否か、つまり、Ｓ１′＜ＴＨ１ｍであるか否かを判別する。そして、Ｓ１′＜ＴＨ１ｍであると判断された場合（ＹＥＳ）、音質補正処理部７６は、ステップＳ１３ｄで、音楽信号の補正用出力ゲイン（可変利得増幅器８６に与えるゲイン）ＧｍをＧmminに設定する。

さらに、上記ステップＳ１３ｃでＳ１′＜ＴＨ１ｍでないと判断された場合（ＮＯ）、音質補正処理部７６は、ステップＳ１３ｅで、音楽信号の補正用出力ゲイン（可変利得増幅器８６に与えるゲイン）Ｇｍを、図７に示した特性のＴＨ１ｍ≦Ｓ１′＜ＴＨ２ｍの範囲に基づいて設定する。

そして、上記したステップＳ１３ｂ、Ｓ１３ｄまたはＳ１３ｅの後、音質補正処理部７６は、ステップＳ１３ｆで、判定スコアＳ１′を用いて音楽用補正処理部８０による音楽信号に対しての音質補正処理を実行する。その後、音質補正処理部７６は、ステップＳ１３ｇで、音声信号に対する補正用出力ゲイン（可変利得増幅器８５に与えるゲイン）Ｇｓを０に設定する。

また、音質補正処理部７６は、ステップＳ１３ｈで、原音信号に対する補正用出力ゲイン（可変利得増幅器８４に与えるゲイン）Ｇｏを１．０−Ｇｍなる演算により算出し、上記ステップＳ１２ｊの処理に移行される。

図１４は、上記した音声・音楽識別スコアＳ１を安定化パラメータＳ３で補正する処理動作を説明している。すなわち、元となる音声・音楽識別スコアＳ１が正、つまり、音楽信号であると判定されている場合には、時間経過とともに音楽信号に対する音質補正処理が強化されるように、安定化パラメータＳ３により音声・音楽識別スコアＳ１がかさ上げされて判定スコアＳ１′が生成される。

この場合、元となる音声・音楽識別スコアＳ１が、図７に示した特性の上限しきい値ＴＨ２以下で遷移している状態でも、判定スコアＳ１′は、上限しきい値ＴＨ２以上の値に保持される。しかしながら、音楽信号に対する音質補正強度が、上限しきい値ＴＨ２に対応するゲインＧmaxで飽和されることを考慮すると、実際には、図１４に太線で示すようなゲイン遷移により、安定的な音質補正処理を実現することができる。

また、元となる音声・音楽識別スコアＳ１が負、つまり、音声信号であると判定されている場合には、時間経過とともに音楽信号に対する音質補正処理が軽減されるように安定化パラメータＳ３が減少して、速やかに音声信号に対する音質補正処理に切り替わるように制御される。

上記した実施の形態によれば、入力オーディオ信号から音声と音楽との特徴量をそれぞれ解析し、それらの特徴パラメータから入力オーディオ信号が音声信号に近いか音楽信号に近いかをスコア判定するとともに、音楽と判定された場合には、背景音の影響を考慮して先のスコア判定結果を補正し、そのスコア値に基づいて音質補正処理を行なうことにより、背景音に対してロバストで安定的な音質補正機能を実現することができる。

なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。

この発明の実施の形態を示すもので、デジタルテレビジョン放送受信装置とそれを中心としたネットワークシステムの一例とを概略的に説明するために示す図。同実施の形態におけるデジタルテレビジョン放送受信装置の主要な信号処理系を説明するために示すブロック構成図。同実施の形態におけるデジタルテレビジョン放送受信装置のオーディオ処理部に含まれる音質補正処理部を説明するために示すブロック構成図。同実施の形態における音質補正処理部に含まれる特徴パラメータ算出部の動作を説明するために示す図。同実施の形態における特徴パラメータ算出部が行なう処理動作を説明するために示すフローチャート。同実施の形態における音質補正処理部が行なう音声・音楽識別スコア及び音楽・背景音識別スコアの算出動作を説明するために示すフローチャート。同実施の形態における音質補正処理部が備える各可変利得増幅器に与えるゲインの設定手法を説明するために示す特性図。同実施の形態における音質補正処理部が備える音声用補正処理部を説明するために示すブロック構成図。同実施の形態における音声用補正処理部で使用される補正ゲインの設定手法を説明するために示す特性図。同実施の形態における音質補正処理部が備える音楽用補正処理部を説明するために示すブロック構成図。同実施の形態における音質補正処理部が実行する動作の一部を説明するために示すフローチャート。同実施の形態における音質補正処理部が実行する動作の他の一部を説明するために示すフローチャート。同実施の形態における音質補正処理部が実行する動作の残部を説明するために示すフローチャート。同実施の形態における音質補正処理部が行なうスコア補正を説明するために示す図。

符号の説明

１１…デジタルテレビジョン放送受信装置、１２…キャビネット、１３…支持台、１４…映像表示器、１５…スピーカ、１６…操作部、１７…リモートコントローラ、１８…受光部、１９…第１のメモリカード、２０…第２のメモリカード、２１…第１のＬＡＮ端子、２２…第２のＬＡＮ端子、２３…ＵＳＢ端子、２４…ＩＥＥＥ１３９４端子、２５…ＨＤＤ、２６…ハブ、２７…ＨＤＤ、２８…ＰＣ、２９…ＤＶＤレコーダ、３０…アナログ伝送路、３１…ブロードバンドルータ、３２…ネットワーク、３３…ＰＣ、３４…携帯電話、３５…ハブ、３６…携帯電話、３７…デジタルカメラ、３８…カードリーダ／ライタ、３９…ＨＤＤ、４０…キーボード、４１…ＡＶ−ＨＤＤ、４２…Ｄ−ＶＨＳ、４３…アンテナ、４４…入力端子、４５…チューナ、４６…ＰＳＫ復調器、４７…ＴＳ復号器、４８…信号処理部、４９…アンテナ、５０…入力端子、５１…チューナ、５２…ＯＦＤＭ復調器、５３…ＴＳ復号器、５４…チューナ、５５…アナログ復調器、５６…グラフィック処理部、５７…オーディオ処理部、５８ａ〜５８ｄ…入力端子、５９…ＯＳＤ信号生成部、６０…映像処理部、６１，６２…出力端子、６３…制御部、６４…ＣＰＵ、６５…ＲＯＭ、６６…ＲＡＭ、６７…不揮発性メモリ、６８…カードＩ／Ｆ、６９…カードホルダ、７０…カードＩ／Ｆ、７１…カードホルダ、７２，７３…通信Ｉ／Ｆ、７４…ＵＳＢＩ／Ｆ、７５…ＩＥＥＥ１３９４Ｉ／Ｆ、７６…音質補正処理部、７７…入力端子、７８…原音遅延補償部、７９…音声用補正処理部、８０…音楽用補正処理部、８１…特徴パラメータ算出部、８２…音声・音楽識別スコア算出部、８３…音楽・背景音識別スコア算出部、８４〜８６…可変利得増幅器、８７…加算器、８８…レベル補正部、８９…出力端子、９０…ミクシング制御部。

Claims

入力オーディオ信号から音声信号と音楽信号との判別及び音楽信号と背景音信号との判別を行なうための各種の特徴パラメータを算出する特徴パラメータ算出手段と、
前記特徴パラメータ算出手段で算出された音声信号と音楽信号とを判別するための各種の特徴パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する音声音楽識別スコア算出手段と、
前記特徴パラメータ算出手段で算出された音楽信号と背景音信号とを判別するための各種の特徴パラメータに基づいて、前記入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する音楽背景音識別スコア算出手段と、
前記音声音楽識別スコア算出手段で算出された音声音楽識別スコアが音楽信号であることを示し、かつ、前記音楽背景音識別スコア算出手段で算出された音楽背景音識別スコアが背景音信号であることを示している場合、前記音楽背景音識別スコアの値に基づいて前記音声音楽識別スコアを補正する音声音楽識別スコア補正手段と、
前記音声音楽識別スコア補正手段で補正された音声音楽識別スコアに基づいて、前記入力オーディオ信号の音声信号または音楽信号との近さを求め、音声向けまたは音楽向けの音質補正処理を施す音質補正手段とを具備することを特徴とする音質補正装置。
前記音声音楽識別スコア補正手段は、音楽背景音識別スコア算出手段で算出された音楽背景音識別スコアに所定の係数を乗算し、その係数を乗算した音楽背景音識別スコアを前記音声音楽識別スコア算出手段で算出された音声音楽識別スコアに加算することにより、前記音声音楽識別スコアを補正することを特徴とする請求項１記載の音質補正装置。
前記音声音楽識別スコア算出手段は、前記特徴パラメータ算出手段で算出された音声信号と音楽信号とを判別するための各種の特徴パラメータそれぞれに対して、予め用意された音声信号及び音楽信号を参照データとして各特徴パラメータを学習することにより算出された重み付け係数を乗算し、その重み付け係数を乗算した各特徴パラメータの総和を前記音声音楽識別スコアとして算出し、
前記音楽背景音識別スコア算出手段は、前記特徴パラメータ算出手段で算出された音楽信号と背景音信号とを判別するための各種の特徴パラメータそれぞれに対して、予め用意された音楽信号及び背景音信号を参照データとして各特徴パラメータを学習することにより算出された重み付け係数を乗算し、その重み付け係数を乗算した各特徴パラメータの総和を前記音楽背景音識別スコアとして算出することを特徴とする請求項１記載の音質補正装置。
前記音声音楽識別スコア算出手段は、前記入力オーディオ信号を所定の単位毎に切り分け、その切り分けられた単位毎に音声音楽識別スコアを算出することを特徴とする請求項１記載の音質補正装置。
前記音声音楽識別スコア算出手段で前記入力オーディオ信号の所定の単位毎に算出される音声音楽識別スコアが、所定回数以上連続して音楽信号であることを示した場合、前記音声音楽識別スコアに前記音質補正手段に音楽向けの補正強度を高くするように安定化パラメータを加算するとともに、前記音声音楽識別スコア算出手段で前記入力オーディオ信号の所定の単位毎に算出される音声音楽識別スコアが、所定回数以上連続して音声信号であることを示した場合、前記音声音楽識別スコアに前記音質補正手段に音楽向けの補正を軽減させるように安定化パラメータを加算する安定化パラメータ加算手段を具備することを特徴とする請求項４記載の音質補正装置。
前記音質補正手段により音質補正処理が施されたオーディオ信号に対して、前記入力オーディオ信号とのレベル変動が所定の範囲内に収まるようにレベル補正処理を施すレベル補正手段を具備することを特徴とする請求項１記載の音質補正装置。
入力オーディオ信号から音声信号と音楽信号との判別及び音楽信号と背景音信号との判別を行なうための各種の特徴パラメータを算出する工程と、
前記音声信号と音楽信号とを判別するための各種の特徴パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する工程と、
前記音楽信号と背景音信号とを判別するための各種の特徴パラメータに基づいて、前記入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する工程と、
前記音声音楽識別スコアが音楽信号であることを示し、かつ、前記音楽背景音識別スコアが背景音信号であることを示している場合、前記音楽背景音識別スコアの値に基づいて前記音声音楽識別スコアを補正する工程と、
補正された音声音楽識別スコアに基づいて、前記入力オーディオ信号の音声信号または音楽信号との近さを求め、音声向けまたは音楽向けの音質補正処理を施す工程とを有することを特徴とする音質補正方法。
入力オーディオ信号から音声信号と音楽信号との判別及び音楽信号と背景音信号との判別を行なうための各種の特徴パラメータを算出する処理と、
前記音声信号と音楽信号とを判別するための各種の特徴パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する処理と、
前記音楽信号と背景音信号とを判別するための各種の特徴パラメータに基づいて、前記入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する処理と、
前記音声音楽識別スコアが音楽信号であることを示し、かつ、前記音楽背景音識別スコアが背景音信号であることを示している場合、前記音楽背景音識別スコアの値に基づいて前記音声音楽識別スコアを補正する処理と、
補正された音声音楽識別スコアに基づいて、前記入力オーディオ信号の音声信号または音楽信号との近さを求め、音声向けまたは音楽向けの音質補正処理を施す処理とを、コンピュータに実行させることを特徴とする音質補正用プログラム。