JP4621792B2

JP4621792B2 - 音質補正装置、音質補正方法及び音質補正用プログラム

Info

Publication number: JP4621792B2
Application number: JP2009156004A
Authority: JP
Inventors: 広和竹内
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2009-06-30
Filing date: 2009-06-30
Publication date: 2011-01-26
Anticipated expiration: 2029-06-30
Also published as: US7957966B2; JP2011015067A; US20100332237A1

Description

この発明は、再生すべきオーディオ（可聴周波数）信号に含まれる音声信号と音楽信号とに対して、それぞれ適応的に音質補正処理を施す音質補正装置、音質補正方法及び音質補正用プログラムに関する。

周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質補正処理を施すことによって、より一層の高音質化を図るようにしている。

この場合、オーディオ信号に施す音質補正処理の内容は、オーディオ信号が人の話し声のような音声信号であるか、楽曲のような音楽（非音声）信号であるかに応じて異なる。すなわち、音声信号に対しては、トークシーンやスポーツ実況等のようにセンター定位成分を強調して明瞭化するように音質補正処理を施すことで音質が向上し、音楽信号に対しては、ステレオ感を強調した拡がりのある音質補正処理を施すことで音質が向上する。

このため、取得したオーディオ信号が音声信号か音楽信号かを判別し、その判別結果に応じて対応する音質補正処理を施すことが考えられている。しかしながら、実際のオーディオ信号では、音声信号と音楽信号とが混在している場合が多いことから、それらの判別処理が困難になっているため、オーディオ信号に対して適切な音質補正処理が施されているとは言えないのが現状である。

特許文献１には、入力される音響信号の零交差回数やパワー変動等を分析することによって、音響信号を「音声」と「非音声」と「不定」との３種類に分類し、音響信号に対する周波数特性を、「音声」と判別されたとき音声帯域を強調した特性に、「非音声」と判別されたときフラットな特性に、「不定」と判別されたとき前の判定による特性を維持するように制御する構成が開示されている。

特開平７−１３５８６号公報

そこで、この発明は上記事情を考慮してなされたもので、入力オーディオ信号に含まれる音声信号と音楽信号との類似度を定量的に評価し、その類似度に応じて適応的な音質補正処理を施すことを可能とした音質補正装置、音質補正方法及び音質補正用プログラムを提供することを目的とする。

この発明に係る音質補正装置は、入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する特徴パラメータ算出手段と、特徴パラメータ算出手段で算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する音声音楽識別スコア算出手段と、入力オーディオ信号に対してそれぞれ異なる複数種類の音質補正処理を施す音質補正手段と、音声音楽識別スコア算出手段で算出された音声音楽識別スコアに基づいて、音質補正手段が施す複数種類の音質補正処理に対する補正強度をそれぞれ制御するもので、音声音楽識別スコアに基づいて、音質補正手段が施す複数種類の音質補正処理に対してそれぞれ目標とする補正強度を設定し、音質補正手段が施す複数種類の音質補正処理毎に現在の補正強度を目標とする補正強度に向けて変更する際、音質補正手段が施す複数種類の音質補正処理毎に予め設定された前方遷移時間及び後方遷移時間に基づいて段階的に変更する制御手段とを備えるようにしたものである。

また、この発明に係る音質補正方法は、入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する工程と、算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する工程と、入力オーディオ信号に対して音質補正手段によりそれぞれ異なる複数種類の音質補正処理を施す工程と、算出された音声音楽識別スコアに基づいて、音質補正手段が施す複数種類の音質補正処理に対する補正強度をそれぞれ制御する工程であって、音声音楽識別スコアに基づいて、音質補正手段が施す複数種類の音質補正処理に対してそれぞれ目標とする補正強度を設定し、音質補正手段が施す複数種類の音質補正処理毎に現在の補正強度を目標とする補正強度に向けて変更する際、音質補正手段が施す複数種類の音質補正処理毎に予め設定された前方遷移時間及び後方遷移時間に基づいて段階的に変更する工程とを有するようにしたものである。

さらに、この発明に係る音質補正用プログラムは、入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する処理と、算出された各種の特徴パラメータに基づいて、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する処理と、入力オーディオ信号に対して音質補正手段によりそれぞれ異なる複数種類の音質補正処理を施すとき、算出された音声音楽識別スコアに基づいて、音質補正手段が施す複数種類の音質補正処理に対する補正強度をそれぞれ制御するもので、音声音楽識別スコアに基づいて、音質補正手段が施す複数種類の音質補正処理に対してそれぞれ目標とする補正強度を設定し、音質補正手段が施す複数種類の音質補正処理毎に現在の補正強度を目標とする補正強度に向けて変更する際、音質補正手段が施す複数種類の音質補正処理毎に予め設定された前方遷移時間及び後方遷移時間に基づいて段階的に変更する処理とを、コンピュータに実行させるようにしたものである。

上記した発明によれば、入力オーディオ信号に対してそれぞれ異なる複数種類の音質補正処理を施すとき、入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアに基づいて、複数種類の音質補正処理に対してそれぞれ目標とする補正強度を設定し、音質補正処理毎に現在の補正強度を目標とする補正強度に向けて変更する際、音質補正処理毎に予め設定された前方遷移時間及び後方遷移時間に基づいて段階的に変更するようにしている。このため、入力オーディオ信号に含まれる音声信号と音楽信号との類似度を定量的に評価し、その類似度に応じて適応的な音質補正処理を施すことを可能とすることができる。

この発明の実施の形態を示すもので、デジタルテレビジョン放送受信装置とそれを中心としたネットワークシステムの一例とを概略的に説明するために示す図。同実施の形態におけるデジタルテレビジョン放送受信装置の主要な信号処理系を説明するために示すブロック構成図。同実施の形態におけるデジタルテレビジョン放送受信装置のオーディオ処理部に含まれる音質補正処理部を説明するために示すブロック構成図。同実施の形態における音質補正処理部に含まれる特徴パラメータ算出部の動作を説明するために示す図。同実施の形態における特徴パラメータ算出部が行なう処理動作を説明するために示すフローチャート。同実施の形態における音質補正処理部が行なう音声・音楽識別スコア及び音楽・背景音識別スコアの算出動作を説明するために示すフローチャート。同実施の形態における音質補正処理部が行なうスコア補正動作の一部を説明するために示すフローチャート。同実施の形態における音質補正処理部が行なうスコア補正動作の残部を説明するために示すフローチャート。同実施の形態における音質補正処理部が行なう間欠スコアの生成手法を説明するために示す図。同実施の形態における音質補正処理部が行なう間欠スコアを生成する動作の一例を説明するために示すフローチャート。同実施の形態における音質補正処理部が行なう間欠スコアを生成する動作の他の例を説明するために示すフローチャート。同実施の形態における音質補正処理部に含まれる音質補正部の一例を説明するために示すブロック構成図。同実施の形態における音質補正処理部が音質補正の強度を設定するのに使用するテーブルを説明するために示す図。同実施の形態における音質補正処理部がテーブルに基づいて音質補正強度を変更する処理動作を説明するために示すフローチャート。同実施の形態における音質補正処理部によって行なわれる音質補正強度の遷移状況を説明するために示す図。

以下、この発明の実施の形態について図面を参照して詳細に説明する。図１は、この実施の形態で説明するデジタルテレビジョン放送受信装置１１の外観と、このデジタルテレビジョン放送受信装置１１を中心として構成されるネットワークシステムの一例とを概略的に示している。

すなわち、デジタルテレビジョン放送受信装置１１は、主として、薄型のキャビネット１２と、このキャビネット１２を起立させて支持する支持台１３とから構成されている。そして、このキャビネット１２には、例えばＳＥＤ（surface-conduction electron-emitter display）表示パネルまたは液晶表示パネル等でなる平面パネル型の映像表示器１４、一対のスピーカ１５，１５、操作部１６、リモートコントローラ１７から送信される操作情報を受ける受光部１８等が設置されている。

また、このデジタルテレビジョン放送受信装置１１には、例えばＳＤ（secure digital）メモリカード、ＭＭＣ（multimedia card）及びメモリスティック等の第１のメモリカード１９が着脱可能となっており、この第１のメモリカード１９に対して番組や写真等の情報の記録再生が行なわれるようになっている。

さらに、このデジタルテレビジョン放送受信装置１１には、例えば契約情報等の記録された第２のメモリカード［ＩＣ（integrated circuit）カード等］２０が着脱可能となっており、この第２のメモリカード２０に対して情報の記録再生が行なわれるようになっている。

また、このデジタルテレビジョン放送受信装置１１は、第１のＬＡＮ（local area network）端子２１、第２のＬＡＮ端子２２、ＵＳＢ（universal serial bus）端子２３及びＩＥＥＥ（institute of electrical and electronics engineers）１３９４端子２４を備えている。

このうち、第１のＬＡＮ端子２１は、ＬＡＮ対応ＨＤＤ（hard disk drive）専用ポートとして使用される。すなわち、この第１のＬＡＮ端子２１は、それに接続されたＮＡＳ（network attached storage）であるＬＡＮ対応のＨＤＤ２５に対して、イーサネット（登録商標）により情報の記録再生を行なうために使用される。

このように、デジタルテレビジョン放送受信装置１１にＬＡＮ対応ＨＤＤ専用ポートとしての第１のＬＡＮ端子２１を設けることにより、他のネットワーク環境やネットワーク使用状況等に影響されることなく、ＨＤＤ２５に対してハイビジョン画質による放送番組の情報記録を安定して行なうことができる。

また、第２のＬＡＮ端子２２は、イーサネット（登録商標）を用いた一般的なＬＡＮ対応ポートとして使用される。すなわち、この第２のＬＡＮ端子２２は、ハブ２６を介して、ＬＡＮ対応のＨＤＤ２７、ＰＣ（personal computer）２８、ＨＤＤ内蔵のＤＶＤ（digital versatile disk）レコーダ２９等の機器を接続して、例えば家庭内ネットワークを構築し、これらの機器と情報伝送を行なうために使用される。

この場合、ＰＣ２８及びＤＶＤレコーダ２９については、それぞれ、家庭内ネットワークにおいてコンテンツのサーバ機器として動作するための機能を持ち、さらにコンテンツのアクセスに必要なＵＲＩ（uniform resource identifier）情報を提供するサービスを備えたＵＰｎＰ（universal plug and play）対応機器として構成される。

なお、ＤＶＤレコーダ２９については、第２のＬＡＮ端子２２を介して通信されるデジタル情報が制御系のみの情報であるため、デジタルテレビジョン放送受信装置１１との間でアナログの映像及びオーディオ情報を伝送するために、専用のアナログ伝送路３０が設けられている。

さらに、この第２のＬＡＮ端子２２は、ハブ２６に接続されたブロードバンドルータ３１を介して、例えばインターネット等の外部のネットワーク３２に接続される。そして、この第２のＬＡＮ端子２２は、ネットワーク３２を介してＰＣ３３や携帯電話３４等と情報伝送を行なうためにも使用される。

また、上記ＵＳＢ端子２３は、一般的なＵＳＢ対応ポートとして使用されるもので、例えばハブ３５を介して、携帯電話３６、デジタルカメラ３７、メモリカードに対するカードリーダ／ライタ３８、ＨＤＤ３９、キーボード４０等のＵＳＢ機器を接続し、これらのＵＳＢ機器と情報伝送を行なうために使用される。

さらに、上記ＩＥＥＥ１３９４端子２４は、例えばＡＶ−ＨＤＤ４１及びＤ（digital）−ＶＨＳ（video home system）４２等のような複数の情報記録再生機器をシリアル接続し、各機器と選択的に情報伝送を行なうために使用される。

図２は、上記したデジタルテレビジョン放送受信装置１１の主要な信号処理系を示している。すなわち、ＢＳ／ＣＳ（broadcasting satellite／communication satellite）デジタル放送受信用のアンテナ４３で受信した衛星デジタルテレビジョン放送信号は、入力端子４４を介して衛星デジタル放送用のチューナ４５に供給されることにより、所望のチャンネルの放送信号が選局される。

そして、このチューナ４５で選局された放送信号は、ＰＳＫ（phase shift keying）復調器４６及びＴＳ（transport stream）復号器４７に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部４８に出力される。

また、地上波放送受信用のアンテナ４９で受信した地上デジタルテレビジョン放送信号は、入力端子５０を介して地上デジタル放送用のチューナ５１に供給されることにより、所望のチャンネルの放送信号が選局される。

そして、このチューナ５１で選局された放送信号は、例えば日本ではＯＦＤＭ（orthogonal frequency division multiplexing）復調器５２及びＴＳ復号器５３に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。

また、上記地上波放送受信用のアンテナ４９で受信した地上アナログテレビジョン放送信号は、入力端子５０を介して地上アナログ放送用のチューナ５４に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ５４で選局された放送信号は、アナログ復調器５５に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。

ここで、上記信号処理部４８は、ＴＳ復号器４７，５３からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部５６及びオーディオ処理部５７に出力している。

また、上記信号処理部４８には、複数（図示の場合は４つ）の入力端子５８ａ，５８ｂ，５８ｃ，５８ｄが接続されている。これら入力端子５８ａ〜５８ｄは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置１１の外部から入力可能とするものである。

そして、上記信号処理部４８は、上記アナログ復調器５５及び各入力端子５８ａ〜５８ｄからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部５６及びオーディオ処理部５７に出力する。

グラフィック処理部５６は、信号処理部４８から供給されるデジタルの映像信号に、ＯＳＤ（on screen display）信号生成部５９で生成されるＯＳＤ信号を重畳して出力する機能を有する。このグラフィック処理部５６は、信号処理部４８の出力映像信号と、ＯＳＤ信号生成部５９の出力ＯＳＤ信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。

グラフィック処理部５６から出力されたデジタルの映像信号は、映像処理部６０に供給される。この映像処理部６０は、入力されたデジタルの映像信号を、前記映像表示器１４で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器１４に出力して映像表示させるとともに、出力端子６１を介して外部に導出させる。

また、上記オーディオ処理部５７は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ１５で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ１５に出力されてオーディオ再生に供されるとともに、出力端子６２を介して外部に導出される。

ここで、このデジタルテレビジョン放送受信装置１１は、上記した各種の受信動作を含むその全ての動作を制御部６３によって統括的に制御されている。この制御部６３は、ＣＰＵ（central processing unit）６４を内蔵しており、前記操作部１６からの操作情報、または、リモートコントローラ１７から送出され前記受光部１８に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。

この場合、制御部６３は、主として、そのＣＰＵ６４が実行する制御プログラムを格納したＲＯＭ（read only memory）６５と、該ＣＰＵ６４に作業エリアを提供するＲＡＭ（random access memory）６６と、各種の設定情報及び制御情報等が格納される不揮発性メモリ６７とを利用している。

また、この制御部６３は、カードＩ／Ｆ（interface）６８を介して、前記第１のメモリカード１９が装着可能なカードホルダ６９に接続されている。これによって、制御部６３は、カードホルダ６９に装着された第１のメモリカード１９と、カードＩ／Ｆ６８を介して情報伝送を行なうことができる。

さらに、上記制御部６３は、カードＩ／Ｆ７０を介して、前記第２のメモリカード２０が装着可能なカードホルダ７１に接続されている。これにより、制御部６３は、カードホルダ７１に装着された第２のメモリカード２０と、カードＩ／Ｆ７０を介して情報伝送を行なうことができる。

また、上記制御部６３は、通信Ｉ／Ｆ７２を介して第１のＬＡＮ端子２１に接続されている。これにより、制御部６３は、第１のＬＡＮ端子２１に接続されたＬＡＮ対応のＨＤＤ２５と、通信Ｉ／Ｆ７２を介して情報伝送を行なうことができる。この場合、制御部６３は、ＤＨＣＰ（dynamic host configuration protocol）サーバ機能を有し、第１のＬＡＮ端子２１に接続されたＬＡＮ対応のＨＤＤ２５にＩＰ（internet protocol）アドレスを割り当てて制御している。

さらに、上記制御部６３は、通信Ｉ／Ｆ７３を介して第２のＬＡＮ端子２２に接続されている。これにより、制御部６３は、第２のＬＡＮ端子２２に接続された各機器（図１参照）と、通信Ｉ／Ｆ７３を介して情報伝送を行なうことができる。

また、上記制御部６３は、ＵＳＢＩ／Ｆ７４を介して前記ＵＳＢ端子２３に接続されている。これにより、制御部６３は、ＵＳＢ端子２３に接続された各機器（図１参照）と、ＵＳＢＩ／Ｆ７４を介して情報伝送を行なうことができる。

さらに、上記制御部６３は、ＩＥＥＥ１３９４Ｉ／Ｆ７５を介してＩＥＥＥ１３９４端子２４に接続されている。これにより、制御部６３は、ＩＥＥＥ１３９４端子２４に接続された各機器（図１参照）と、ＩＥＥＥ１３９４Ｉ／Ｆ７５を介して情報伝送を行なうことができる。

図３は、上記オーディオ処理部５７内に備えられる音質補正処理部７６を示している。この音質補正処理部７６では、入力端子７７に供給されたオーディオ信号が、直列接続された複数（図示の場合は４つ）の音質補正部７８，７９，８０，８１によって、それぞれ異なる種類の音質補正処理を施された後、出力端子８２から取り出される。

一例を言えば、音質補正部７８は入力オーディオ信号にリバーブ処理を施し、音質補正部７９は入力オーディオ信号にワイドステレオ処理を施し、音質補正部８０は入力オーディオ信号にセンター強調処理を施し、音質補正部８１は入力オーディオ信号にイコライザ処理を施している。

そして、これらの音質補正部７８〜８１にあっては、後述するミクシング制御部８８から各音質補正部７８〜８１に対してそれぞれ別個に生成されて出力される補正強度制御信号に基づいて、入力オーディオ信号に施す音質補正処理の強度が独立に制御されるようになっている。

一方、上記音質補正処理部７６では、入力端子７７に供給されたオーディオ信号が特徴パラメータ算出部８３に供給されている。この特徴パラメータ算出部８３は、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータや、音楽信号と例えばＢＧＭ（back ground music）、拍手及び歓声等の背景音となる背景音信号とを判別するための各種の特徴パラメータを算出している。

すなわち、この特徴パラメータ算出部８３は、入力されたオーディオ信号を、図４（ｂ）に示すように、数１０ｍｓｅｃ程度のサブフレーム単位に切り出し、図４（ａ）に示すように切り出したサブフレームから構成される数１００ｍｓｅｃ程度のフレーム単位に算出処理を行なう。

そして、この特徴パラメータ算出部８３では、入力されたオーディオ信号から、サブフレーム単位で、音声信号と音楽信号とを判別するための各種の判別情報や、音楽信号と背景音信号とを判別するための各種の判別情報等を算出し、算出された各種の判別情報のそれぞれについて、フレーム単位での統計量（例えば平均，分散，最大，最小等）を求めることにより、種々の特徴パラメータを生成している。

例えば、特徴パラメータ算出部８３では、サブフレーム単位で入力オーディオ信号の信号振幅の二乗和であるパワー値を判別情報として算出し、その算出されたパワー値に対するフレーム単位での統計量を求めることにより、パワー値に関する特徴パラメータｐｗを生成している。

また、特徴パラメータ算出部８３では、サブフレーム単位で入力オーディオ信号の時間波形が振幅方向に零を横切る回数である零交差周波数を判別情報として算出し、その算出された零交差周波数に対するフレーム単位での統計量を求めることにより、零交差周波数に関する特徴パラメータｚｃを生成している。

さらに、特徴パラメータ算出部８３では、サブフレーム単位で入力オーディオ信号の周波数領域でのスペクトル変動を判別情報として算出し、その算出されたスペクトル変動に対するフレーム単位での統計量を求めることにより、スペクトル変動に関する特徴パラメータｓｆを生成している。

また、特徴パラメータ算出部８３では、サブフレーム単位で入力オーディオ信号における２チャンネルステレオの左右（ＬＲ）信号のパワー比（ＬＲパワー比）を判別情報として算出し、その算出されたＬＲパワー比に対するフレーム単位での統計量を求めることにより、ＬＲパワー比に関する特徴パラメータｌｒを生成している。

さらに、特徴パラメータ算出部８３では、サブフレーム単位で、入力オーディオ信号の周波数領域変換後、楽曲の楽器音に特徴的な特定の周波数帯域のパワー成分の集中度合いを判別情報として算出している。この集中度合いは、入力オーディオ信号の全帯域または特定の帯域内における、上記した特徴的な特定の周波数帯域のパワー占有割合等で示される。特徴パラメータ算出部８３では、この判別情報に対するフレーム単位での統計量を求めることにより、楽器音に特徴的な特定の周波数帯域の集中度合いに関する特徴パラメータｉｎｓｔを生成している。

図５は、上記特徴パラメータ算出部８３が、入力されたオーディオ信号から、音声信号と音楽信号とを判別するための各種の特徴パラメータや、音楽信号と背景音信号とを判別するための各種の特徴パラメータを生成する処理動作をまとめたフローチャートの一例を示している。

まず、処理が開始（ステップＳ５ａ）されると、特徴パラメータ算出部８３は、ステップＳ５ｂで、入力オーディオ信号から数１０ｍｓｅｃ程度のサブフレームを抽出する。そして、特徴パラメータ算出部８３は、ステップＳ５ｃで、入力オーディオ信号からサブフレーム単位でのパワー値を算出する。

その後、特徴パラメータ算出部８３は、ステップＳ５ｄで、入力オーディオ信号からサブフレーム単位での零交差周波数を算出し、ステップＳ５ｅで、入力オーディオ信号からサブフレーム単位でのスペクトル変動を算出し、ステップＳ５ｆで、入力オーディオ信号からサブフレーム単位でのＬＲパワー比を算出する。

また、特徴パラメータ算出部８３は、ステップＳ５ｇで、入力オーディオ信号からサブフレーム単位で、楽器音に特徴的な特定の周波数帯域のパワー成分の集中度合いを算出する。同様に、特徴パラメータ算出部８３は、ステップＳ５ｈで、入力オーディオ信号からサブフレーム単位での他の判別情報を算出する。

その後、特徴パラメータ算出部８３は、ステップＳ５ｉで、入力オーディオ信号から数１００ｍｓｅｃ程度のフレームを抽出する。そして、特徴パラメータ算出部８３は、ステップＳ５ｊで、サブフレーム単位で算出した各種の判別情報に対して、それぞれフレーム単位での統計量を求めることにより種々の特徴パラメータを生成し、処理を終了（ステップＳ５ｋ）する。

上記のようにして、特徴パラメータ算出部８３で生成された各種の特徴パラメータは、再び、図３に示すように、音声・音楽識別スコア算出部８４及び音楽・背景音識別スコア算出部８５にそれぞれ供給される。

このうち、音声・音楽識別スコア算出部８４は、特徴パラメータ算出部８３で生成された各種の特徴パラメータに基づいて、入力端子７７に供給されたオーディオ信号が、スピーチのような音声信号の特性に近いか、音楽（楽曲）信号の特性に近いかを定量的に示す音声・音楽識別スコアＳ１を算出している。

また、音楽・背景音識別スコア算出部８５は、特徴パラメータ算出部８３で生成された各種の特徴パラメータに基づいて、入力端子７７に供給されたオーディオ信号が、音楽信号の特性に近いか、背景音信号の特性に近いかを定量的に示す音楽・背景音識別スコアＳ２を算出している。

そして、上記音声・音楽識別スコア算出部８４から出力される音声・音楽識別スコアＳ１と、音楽・背景音識別スコア算出部８５から出力される音楽・背景音識別スコアＳ２とは、スコア補正部８６に供給される。このスコア補正部８６は、詳細は後述するが、音声・音楽識別スコアＳ１を音楽・背景音識別スコアＳ２に基づいて補正することにより、音種別スコアＳを生成している。

ここで、上記音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出について説明するに先立ち、各種の特徴パラメータの性質について説明しておくことにする。まず、上記パワー値に関する特徴パラメータｐｗについて説明する。すなわち、パワー変動に関して言えば、一般に、音声は、発話している区間と沈黙している区間とが交互に現れるため、サブフレーム間での信号パワーの違いが大きくなり、フレーム単位で見ると各サブフレーム間のパワー値の分散が大きくなる傾向にある。ここでパワー変動とは、サブフレームにおいて計算したパワー値について、より長いフレーム区間内での値の変動に着目した特徴量を指し、具体的にはパワーの分散値等を用いる。

また、上記零交差周波数に関する特徴パラメータｚｃについて説明すると、零交差周波数に関して言えば、前述した発話区間と沈黙区間との違いに加えて、音声信号は零交差周波数が子音では高く母音では低くなるため、フレーム単位で見ると各サブフレーム間の零交差周波数の分散が大きくなる傾向にある。

さらに、上記スペクトル変動に関する特徴パラメータｓｆについて説明すると、スペクトル変動に関して言えば、音声信号は、音楽信号のようにトーナル（調音構造的）な信号に比べて周波数特性の変動が激しいため、フレーム単位で見るとスペクトル変動分散が大きくなる傾向にある。

また、上記したＬＲパワー比に関する特徴パラメータｌｒについて説明すると、ＬＲパワー比に関して言えば、音楽信号では、ボーカル以外の楽器演奏がセンター以外に定位していることが多いため、左右のチャンネル間のパワー比が大きくなる傾向にある。

上記音声・音楽識別スコア算出部８４では、これらの特徴パラメータｐｗ，ｚｃ，ｓｆ，ｌｒのように、音声信号と音楽信号との性質の違いに着目した、これらの信号種別を切り分け易い特徴パラメータを用いて、音声・音楽識別スコアＳ１を算出している。

ただし、これらの特徴パラメータｐｗ，ｚｃ，ｓｆ，ｌｒは、純粋な音声信号と音楽信号とを判別するためには有効であるが、例えば大人数の拍手、歓声、笑い声、雑踏等の背景音が重畳されている音声信号に対しては、必ずしも同じような判別効果を発揮することができるわけではなく、背景音の影響により音楽信号であるとの誤判定を起こし易くなっている。

このような誤判定の発生を抑制するために、上記音楽・背景音識別スコア算出部８５では、入力オーディオ信号が音楽信号の特性に近いか背景音信号の特性に近いかを定量的に示す音楽・背景音識別スコアＳ２を算出している。

そして、上記スコア補正部８６では、音楽・背景音識別スコアＳ２を用いて、背景音の影響を除外するように音声・音楽識別スコアＳ１を補正している。これにより、スコア補正部８６からは、音声・音楽識別スコアＳ１が背景音の影響により実際よりも音楽信号に近い値になってしまうという不都合が抑制された音種別スコアＳが出力される。

この場合、音楽・背景音識別スコア算出部８５では、音楽信号と背景音信号とを判別するために適した判別情報として、楽器の特定周波数成分の集中度合いに対応した特徴パラメータｉｎｓｔを採用している。

この特徴パラメータｉｎｓｔについて説明すると、音楽信号は、楽曲を構成する楽器によって特定の周波数帯域に振幅パワーが集中することが多くなっている。例として、現代の楽曲では、多くの場合、ベースとなる楽器が存在し、そのベース音を解析すると、信号の周波数領域において、振幅パワーが特定の低周波数帯域に集中している。

これに対し、背景音信号には、このような特定の低周波数帯域のパワー集中度は見られないものである。つまり、ベースとなる楽器の低周波成分が特定の周波数帯域に集中し易いという観点から、楽曲と背景音とを区別するための判別情報として、ベース成分のエネルギー集中度を用いることは非常に有効である。これにより、上記特徴パラメータｉｎｓｔは、音楽信号と背景音信号とを判別する上で有効な指標となる。

次に、上記音声・音楽識別スコア算出部８４及び音楽・背景音識別スコア算出部８５における音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出について説明する。音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出手法については１つの手法に特定しないが、ここでは、線形識別関数を用いた算出手法について説明する。

線形識別関数を用いる手法では、音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出に必要な各種特徴パラメータに乗ずる重み付け係数をオフライン学習により算出している。この重み付け係数としては、信号種別の判別に効果の高い特徴パラメータほど大きい値が与えられる。

また、重み付け係数は、音声・音楽識別スコアＳ１については、予め準備した多くの既知の音声信号及び音楽信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出され、音楽・背景音識別スコアＳ２については、予め準備した多くの既知の音楽信号及び背景音信号を基準となる参照データとして入力し、その参照データについて特徴パラメータを学習することで算出される。

まず、音声・音楽識別スコアＳ１の算出について説明すると、今、学習対象とする参照データのｋ番目のフレームの特徴パラメータセットをベクトルｘで表わし、入力オーディオ信号が属する信号区間｛音声、音楽｝としてｚで以下のように表わすものとする。

ｘ^ｋ＝（１，ｘ_１ ^ｋ，ｘ_２ ^ｋ，……，ｘ_ｎ ^ｋ） … （１）
ｚ^ｋ＝｛−１，＋１｝ … （２）
ここで、上記（１）式の各要素は、抽出したｎ個の特徴パラメータに対応する。また、上記（２）式の−１，＋１は、それぞれ、音声区間及び音楽区間に対応し、使用する音声・音楽判別用の参照データの正解信号種別となる区間について、予め人手で２値のラベル付けをしたものである。さらに、上記（２）式より、以下の線形識別関数を立てる。

ｆ（ｘ）＝Ａ_０＋Ａ_１・ｘ_１＋Ａ_２・ｘ_２＋……＋Ａ_ｎ・ｘ_ｎ … （３）
ｋ＝１〜Ｎ（Ｎは参照データの入力フレーム数）に対し、ベクトルｘを抽出し、（３）式の評価値と（２）式の正解信号種別との誤差二乗和である（４）式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数Ａ_ｉ（ｉ＝０〜ｎ）が決定される。

学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を（３）式より計算し、ｆ（ｘ）＜０であれば音声区間、ｆ（ｘ）＞０であれば音楽区間と判定する。そして、このときのｆ（ｘ）が上記音声・音楽識別スコアＳ１に相当する。これにより、
Ｓ１＝Ａ_０＋Ａ_１・ｘ_１＋Ａ_２・ｘ_２＋……＋Ａ_ｎ・ｘ_ｎ
が算出される。

また、音楽・背景音識別スコアＳ２の算出についても同様に、学習対象とする参照データのｋ番目のフレームの特徴パラメータセットをベクトルｙで表わし、入力オーディオ信号が属する信号区間｛背景音、音楽｝としてｚで以下のように表わすものとする。

ｙ^ｋ＝（１，ｙ_１ ^ｋ，ｙ_２ ^ｋ，……，ｙ_ｍ ^ｋ） … （５）
ｚ^ｋ＝｛−１，＋１｝ … （６）
ここで、上記（５）式の各要素は、抽出したｍ個の特徴パラメータに対応する。また、上記（６）式の−１，＋１は、それぞれ、背景音区間及び音楽区間に対応し、使用する音楽・背景音判別用の参照データの正解信号種別となる区間について、予め人手で２値のラベル付けをしたものである。さらに、上記（６）式より、以下の線形識別関数を立てる。

ｆ（ｙ）＝Ｂ_０＋Ｂ_１・ｙ_１＋Ｂ_２・ｙ_２＋……＋Ｂ_ｍ・ｙ_ｍ … （７）
ｋ＝１〜Ｎ（Ｎは参照データの入力フレーム数）に対し、ベクトルｙを抽出し、（７）式の評価値と（６）式の正解信号種別との誤差二乗和である（８）式が最小となる正規方程式を解くことにより、各特徴パラメータに対する重み付け係数Ｂ_ｉ（ｉ＝０〜ｍ）が決定される。

学習によって決定した重み付け係数を用い、実際に識別するオーディオ信号の評価値を（７）式より計算し、ｆ（ｙ）＜０であれば背景音区間、ｆ（ｙ）＞０であれば音楽区間と判定する。そして、このときのｆ（ｙ）が上記音楽・背景音識別スコアＳ２に相当する。これにより、
Ｓ２＝Ｂ_０＋Ｂ_１・ｙ_１＋Ｂ_２・ｙ_２＋……＋Ｂ_ｍ・ｙ_ｍ
が算出される。

なお、音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２の算出については、上記した線形識別関数を用いたオフライン学習により求めた重み付け係数を特徴パラメータに乗ずる手法に限定されるものではなく、例えば各特徴パラメータの算出値に対して経験的な閾値を設定し、この閾値との比較判定に応じて各特徴パラメータに重み付けされた得点を付与し、スコアを算出する等の手法も用いることが可能である。

図６は、上記のように線形識別関数を用いたオフライン学習で算出した各特徴パラメータの重み付け係数に基づき、音声・音楽識別スコア算出部８４及び音楽・背景音識別スコア算出部８５が音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２を算出する処理動作をまとめたフローチャートの一例を示している。

すなわち、処理が開始（ステップＳ６ａ）されると、音声・音楽識別スコア算出部８４は、ステップＳ６ｂで、特徴パラメータ算出部８３で算出される各種の特徴パラメータに対して、予め学習した音声・音楽判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・音楽識別スコア算出部８４は、ステップＳ６ｃで、重み付け係数を乗じた各特徴パラメータの総和を、音声・音楽識別スコアＳ１として算出する。

また、音楽・背景音識別スコア算出部８５は、ステップＳ６ｄで、特徴パラメータ算出部８３で算出される各種の特徴パラメータに対して、予め学習した音楽・背景音判別用の参照データの特徴パラメータに基づく重み付け係数を付与し、重み付け係数を乗じた特徴パラメータを算出する。その後、音声・背景音識別スコア算出部８５は、ステップＳ６ｅで、重み付け係数を乗じた各特徴パラメータの総和を、音楽・背景音識別スコアＳ２として算出し、処理を終了（ステップＳ６ｆ）する。

また、図７及び図８は、上記スコア補正部８６が音声・音楽識別スコアＳ１を音楽・背景音識別スコアＳ２に基づいて補正することにより、上記音種別スコアＳを算出する処理動作をまとめたフローチャートの一例を示している。

すなわち、処理が開始（ステップＳ７ａ）されると、スコア補正部８６は、ステップＳ７ｂで、音質・音楽識別スコア算出部８４及び音楽・背景音識別スコア算出部８５から音声・音楽識別スコアＳ１及び音楽・背景音識別スコアＳ２を入力し、ステップＳ７ｃで、音声・音楽識別スコアＳ１が負（Ｓ１＜０）であるか否か、つまり、入力オーディオ信号が音声であるか否かを判別する。

そして、音声・音楽識別スコアＳ１が正（Ｓ１＞０）、つまり、入力オーディオ信号が音楽であると判断された場合（ＮＯ）、スコア補正部８６は、ステップＳ７ｄで、音楽・背景音識別スコアＳ２が正（Ｓ２＞０）であるか否か、つまり、入力オーディオ信号が音楽であるか否かを判別する。

上記ステップ７ｄにより音楽・背景音識別スコアＳ２が負（Ｓ２＜０）、つまり、入力オーディオ信号が背景音であると判断された場合（ＮＯ）、スコア補正部８６は、音楽・背景音識別スコアＳ２を用いて、背景音の影響が除外されるように音声・音楽識別スコアＳ１を補正する。

この補正は、まず、ステップＳ７ｅで、音声・音楽識別スコアＳ１から背景音に関する寄与分を減らすように、音声・音楽識別スコアＳ１に音楽・背景音識別スコアＳ２に所定の係数αを乗算した値を加算する。つまり、Ｓ１＝Ｓ１＋（α×Ｓ２）としている。この場合、音楽・背景音識別スコアＳ２は負であるから、音声・音楽識別スコアＳ１としては、その値が減少することになる。

その後、スコア補正部８６は、ステップＳ７ｅでの音声・音楽識別スコアＳ１に対する過度の補正を防ぐため、ステップＳ７ｆで、ステップＳ７ｅによる演算誤の音声・音楽識別スコアＳ１が、予め設定された最小値Ｓ１ｍｉｎと最大値Ｓ１ｍａｘとの範囲内に収まるように、つまり、Ｓ１ｍｉｎ≦Ｓ１≦Ｓ１ｍａｘとなるようにクリップ処理を施している。

そして、このステップＳ７ｆの後、または、上記ステップＳ７ｄで音楽・背景音識別スコアＳ２が正（Ｓ２＞０）、つまり、音楽であると判断された場合（ＹＥＳ）、スコア補正部８６は、ステップＳ７ｇで、上記した音質補正部７８〜８１において音楽用の音質補正処理効果を高めるための安定化パラメータＳ３を生成する。

この場合、安定化パラメータＳ３は、音質補正部７８〜８１に対する補正処理の強度を決定している音声・音楽識別スコアＳ１に対して、補正強度を高めるとともに安定化を図るように作用する。これは、音楽シーンによっては、音声・音楽識別スコアＳ１が大きな値にならないことがあり、その場合、音楽信号に対して十分な音質補正効果が得られなくなることを防止しているものである。

すなわち、ステップＳ７ｇにおいて、安定化パラメータＳ３は、音声・音楽識別スコアＳ１が正となっている時間、つまり、音楽信号であると判別されている継続時間が長いほど音質補正処理が強化されるように、音声・音楽識別スコアＳ１が正と判定されたフレームが、予め設定されたＣｍ回以上連続して検出される毎に、予め設定された所定値βを累積加算することにより生成される。

また、この安定化パラメータＳ３の値は、フレームを跨いでも保持されているため、入力オーディオ信号が音声に変わった場合にも、引き続き更新される。すなわち、上記ステップＳ７ｃで音声・音楽識別スコアＳ１が負（Ｓ１＜０）、つまり、入力オーディオ信号が音声であると判断された場合（ＹＥＳ）、スコア補正部８６は、ステップＳ７ｈで、音声・音楽識別スコアＳ１が負となっている時間、つまり、音声信号であると判別されている継続時間が長いほど、音質補正部７８〜８１における音楽用の音質補正処理効果が軽減されるように、音声・音楽識別スコアＳ１が負と判定されたフレームが、予め設定されたＣｓ回以上連続して検出される毎に、安定化パラメータＳ３から予め設定された所定値γを減算する。

その後、スコア補正部８６は、ステップＳ７ｉで、上記ステップＳ７ｇまたはＳ７ｈで生成された安定化パラメータＳ３による過度の補正を防ぐために、安定化パラメータＳ３が予め設定された最小値Ｓ３ｍｉｎと最大値Ｓ３ｍａｘとの範囲内に収まるように、つまり、Ｓ３ｍｉｎ≦Ｓ３≦Ｓ３ｍａｘとなるようにクリップ処理を施している。

そして、スコア補正部８６は、ステップＳ７ｊで、上記ステップＳ７ｆによりクリップ処理の施された音声・音楽識別スコアＳ１に、上記ステップＳ７ｉによりクリップ処理の施された安定化パラメータＳ３を加算することによって、補正スコアＳ１′を生成している。

その後、スコア補正部８６は、ステップＳ８ａで、上記補正スコアＳ１′が負（Ｓ１′＜０）であるか否かを判別し、負であると判断された場合（ＹＥＳ）、ステップＳ８ｂで、入力オーディオ信号の音種別が音声であると判断する。

そして、スコア補正部８６は、ステップＳ８ｃで、補正スコアＳ１′が負値であるためその絶対値をとり、補正スコアの絶対値｜Ｓ１′｜が音声用として予め設定された最大値ＭＡＸｓよりも大きいか否かを判別する。

ここで、補正スコアの絶対値｜Ｓ１′｜が最大値ＭＡＸｓよりも大きくないと判断された場合（ＮＯ）、スコア補正部８６は、ステップＳ８ｄで、補正スコアの絶対値｜Ｓ１′｜を音種別スコアＳとして出力し、処理を終了（ステップＳ８ｊ）する。

また、上記ステップＳ８ｃで補正スコアの絶対値｜Ｓ１′｜が最大値ＭＡＸｓよりも大きいと判断された場合（ＹＥＳ）、スコア補正部８６は、ステップＳ８ｅで、最大値ＭＡＸｓを音種別スコアＳとして出力し、処理を終了（ステップＳ８ｊ）する。

一方、上記ステップＳ８ａで、上記補正スコアＳ１′が正であると判断された場合（ＮＯ）、スコア補正部８６は、ステップＳ８ｆで、入力オーディオ信号の音種別が音楽であると判断する。

そして、スコア補正部８６は、ステップＳ８ｇで、補正スコアＳ１′が音楽用として予め設定された最大値ＭＡＸｍよりも大きいか否かを判別する。補正スコアＳ１′が最大値ＭＡＸｍよりも大きくないと判断された場合（ＮＯ）、スコア補正部８６は、ステップＳ８ｈで、補正スコアＳ１′を音種別スコアＳとして出力し、処理を終了（ステップＳ８ｊ）する。

また、上記ステップＳ８ｇで補正スコアＳ１′が最大値ＭＡＸｍよりも大きいと判断された場合（ＹＥＳ）、スコア補正部８６は、ステップＳ８ｉで、最大値ＭＡＸｍを音種別スコアＳとして出力し、処理を終了（ステップＳ８ｊ）する。

そして、上記のようにしてスコア補正部８６から出力される音種別スコアＳは、再び、図３に示すように、間欠通知処理部８７に供給される。この間欠通知処理部８７は、数１０ｍｓｅｃの解析区間毎に算出される音種別スコアＳを、約１ｓｅｃ程度毎の間隔で上記音質補正部７８〜８１による音質補正処理に供させるように平滑化あるいは重み付けし、それを間欠スコアＳｄとして前記ミキシング制御部８８に通知している。

このように、音種別スコアＳから、それよりも長い周期を有する間欠スコアＳｄを生成し、その間欠スコアＳｄをミクシング制御部８８に供給して音質補正部７８〜８１による音質補正処理に供させるようにしている。これにより、ハードウエア構成またはソフトウエア構成によっては、音声・音楽・背景音の判別処理系と音質補正処理系とが分離して実装されるような場合に、両者間の通信負荷を削減することができる。

図９は、音種別スコアＳと間欠スコアＳｄとの対応関係を示している。音種別スコアＳを平滑化する手法としては、通知間隔内に存在する複数の音種別スコアＳ（ｎ）の平均値を利用する方法や、下式のように通知時刻に近い音種別スコアＳ（ｎ）の値を重視するような重み付け係数ａ（ｎ）を音種別スコアＳ（ｎ）に乗算する算出する方法等が考えられる。

Sd＝ａ(n)・Sd(n)＋ａ(n-1)・Sd(n-1)＋ａ(n-2)・Sd(n-2)＋……
ここで、ｎは音種別スコアＳの算出間隔を単位とした離散時間であり、重み付け係数ａはａ（ｎ−１）＜ａ（ｎ）≦１．０の関係にある。

図１０は、上記した間欠通知処理部８７が音種別スコアＳから間欠スコアＳｄを生成する処理動作の一例をまとめたフローチャートを示している。すなわち、処理が開始（ステップＳ１０ａ）されると、間欠通知処理部８７は、ステップＳ１０ｂで、スコア補正部８６から音種別スコアＳを受信する。

その後、間欠通知処理部８７は、ステップＳ１０ｃで、間欠スコアＳｄをミクシング制御部８８に通知する周期が廻ってきたか否かを判別し、通知時刻に達していないと判断された場合（ＮＯ）、ステップＳ１０ｄで、スコア補正部８６から受信した音種別スコアＳを例えば前記した不揮発性メモリ６７等に蓄積して、ステップＳ１０ｂの処理に戻される。

また、上記ステップＳ１０ｃで通知時刻に達したと判断された場合（ＹＥＳ）、間欠通知処理部８７は、ステップＳ１０ｅで、蓄積された音種別スコアＳ（ｎ）と重み付け係数ａ（ｎ）とから、間欠スコアＳｄを算出する。

その後、間欠通知処理部８７は、ステップＳ１０ｆで、不揮発性メモリ６７に蓄積された音種別スコアＳをクリアし、ステップＳ１０ｇで、ステップＳ１０ｅにより算出された間欠スコアＳｄに、それが音楽であるか音声であるかを示す音種別情報を付して、ミクシング制御部８８に送信し、ステップＳ１０ｂの処理に戻される。

また、図１１は、上記した間欠通知処理部８７が音種別スコアＳから間欠スコアＳｄを生成する処理動作の他の例をまとめたフローチャートを示している。すなわち、処理が開始（ステップＳ１１ａ）されると、間欠通知処理部８７は、ステップＳ１１ｂで、スコア補正部８６から音種別スコアＳを受信する。

その後、間欠通知処理部８７は、ステップＳ１１ｃで、間欠スコアＳｄをミクシング制御部８８に通知する周期が廻ってきたか否かを判別し、通知時刻に達していないと判断された場合（ＮＯ）、ステップＳ１１ｄで、スコア補正部８６から受信した音種別スコアＳを例えば前記した不揮発性メモリ６７等に蓄積して、ステップＳ１１ｂの処理に戻される。

また、上記ステップＳ１１ｃで通知時刻に達したと判断された場合（ＹＥＳ）、間欠通知処理部８７は、ステップＳ１１ｅで、蓄積された音種別スコアＳ（ｎ）と重み付け係数ａ（ｎ）とから、音楽用の間欠スコアＳｄｍｓを算出する。この場合、音楽用の間欠スコアＳｄｍｓは、音種別が音楽の値のみが使用される。

さらに、間欠通知処理部８７は、ステップＳ１１ｆで、蓄積された音種別スコアＳ（ｎ）と重み付け係数ａ（ｎ）とから、音声用の間欠スコアＳｄｓｐを算出する。この場合も、音声用の間欠スコアＳｄｓｐは、音種別が音声の値のみが使用される。

その後、間欠通知処理部８７は、ステップＳ１１ｇで、不揮発性メモリ６７に蓄積された音種別スコアＳをクリアし、ステップＳ１１ｈで、ステップＳ１１ｅ及び１１ｆにより算出された音楽用及び音声用の各間欠スコアＳｄｍｓ及びＳｄｓｐをミクシング制御部８８に送信して、ステップＳ１１ｂの処理に戻される。

次に、図１２は、上記した各音質補正部７８〜８１のうち音質補正部７８の一例を示している。なお、他の音質補正部７９〜８１については、音質補正部７８とほぼ同様の構成及び動作を有するため、それらの説明は省略する。

すなわち、音質補正部７８は、入力端子７８ａに供給されたオーディオ信号が、リバーブ処理部７８ｂ及び遅延補償部７８ｃにそれぞれ供給される。このうち、リバーブ処理部７８ｂは、入力オーディオ信号にエコー効果を与えるためのリバーブ処理を施した後、可変利得増幅部７８ｄに出力している。

この可変利得増幅部７８ｄは、入力オーディオ信号に対して、上記ミクシング制御部８８から出力され入力端子７８ｅを介して供給される補正強度制御信号に基づいたゲインＧで増幅処理を施している。この場合、可変利得増幅部７８ｄのゲインＧは、補正強度制御信号に基づいて、０．０〜１．０の範囲で可変される。

また、上記遅延補償部７８ｃは、入力オーディオ信号とリバーブ処理部７８ｂから得られるオーディオ信号との処理遅延を吸収するために設けられている。この遅延補償部７８ｄから出力されたオーディオ信号は、可変利得増幅部７８ｆに供給される。

この可変利得増幅部７８ｆは、可変利得増幅部７８ｄのゲインＧに対して、１．０−Ｇなるゲインで、入力オーディオ信号に増幅処理を施している。そして、上記可変利得増幅部７８ｄ，７８ｆから出力される各オーディオ信号は、加算部７８ｇにより加算されて、出力端子７８ｈから取り出される。

なお、他の音質補正部７９〜８１では、上記した音質補正部７８のリバーブ処理部７８ｂが、ワイドステレオ処理部、センター強調処理部、イコライザ処理部等に入れ替わることになる。

図１３は、上記ミクシング制御部８８が、入力された間欠スコアＳｄに基づいて各音質補正部７８〜８１に対する音質補正の強度を設定するためのテーブルを示している。この補正強度設定テーブルは、音質補正の種類（リバーブ、ワイドステレオ、センター強調、イコライザ）別に、音種別と、間欠スコアＳｄが最大値のときに可変利得増幅部７８ｄに設定するゲインＧと、間欠スコアＳｄが最小値のときに可変利得増幅部７８ｄに設定するゲインＧと、音質補正を強化する方向に制御する場合の前方遷移時間と、音質補正を軽減する方向に制御する場合の後方遷移時間とを規定している。

そして、例えば音質補正部７８におけるリバーブ処理について言えば、ミクシング制御部８８は、音種別が音楽で間欠スコアＳｄが最大値の場合、または、図１１の算出方法に基づく間欠スコアＳｄｍｓが最大値である場合、リバーブ処理部７８ｂから出力されるオーディオ信号のみが出力端子７８ｈから出力されるように、可変利得増部７８ｄのゲインＧを１．０に設定させ、原音側となる可変利得増幅部７８ｆのゲインを０．０（＝１．０−Ｇ）に設定させる補正強度制御信号を音質補正部７８に出力することで、リバーブ処理に対する音質補正強度を最も強くしている。

逆に、音種別が音楽で間欠スコアＳｄが最小値の場合、音種別が音声である場合、または、図１１の算出方法に基づく間欠スコアＳｄｍｓが最小値である場合、ミクシング制御部８８は、リバーブ処理部７８ｂから出力されるオーディオ信号を増幅する可変利得増部７８ｄのゲインＧを０．０に設定させ、原音側となる可変利得増幅部７８ｆのゲインを１．０（＝１．０−Ｇ）に設定させることで、リバーブ処理に対する音質補正強度を最も弱くしている。

また、例えば音質補正部８０におけるセンター強調処理について言えば、ミクシング制御部８８は、音種別が音声で間欠スコアＳｄが最大値の場合、または、図１１の算出方法に基づく間欠スコアＳｄｓｐが最大値である場合、センター強調処理部（音質補正部７８で言えばリバーブ処理部７８ｂの位置に存在する）から出力されるオーディオ信号のみが出力端子から出力されるように、可変利得増部（音質補正部７８で言えば可変利得増幅部７８ｄの位置に存在する）のゲインＧを１．０に設定させ、原音側となる可変利得増幅部（音質補正部７８で言えば可変利得増幅部７８ｆの位置に存在する）のゲインを０．０（＝１．０−Ｇ）に設定させる補正強度制御信号を音質補正部８０に出力することで、センター強調処理に対する音質補正強度を最も強くしている。

逆に、音種別が音声で間欠スコアＳｄが最小値の場合、音種別が音楽である場合、または、図１１の算出方法に基づく間欠スコアＳｄｓｐが最小値である場合、ミクシング制御部８８は、センター強調処理部から出力されるオーディオ信号を増幅する可変利得増部のゲインＧを０．０に設定させ、原音側となる可変利得増幅部のゲインを１．０（＝１．０−Ｇ）に設定させることで、センター強調処理に対する音質補正強度を最も弱くしている。

また、リバーブに対する音質補正を強化していく場合、ミクシング制御部８８は、前方遷移時間Ｔ１ｆｓｅｃ毎に一定量ずつ補正を強化させる補正強度制御信号を音質補正部７８に出力する。さらに、リバーブに対する音質補正を軽減していく場合にも、ミクシング制御部８８は、後方遷移時間Ｔ１ｂｓｅｃ毎に一定量ずつ補正を軽減させる補正強度制御信号を音質補正部７８に出力する。

このように、音質補正を種類毎に強化する場合と軽減する場合とで、それぞれ遷移時間を設けることにより、楽曲（音楽判定）中あるいはトーク（音声判定）中の誤判定による補正の主観的な違和感を軽減することができる。

この誤判定による主観的な影響は、音質補正の種類によって異なる。例えば、イコライザに対する補正強度は、楽曲中に急に弱くすると大きな影響が生じる。一方、トークでの誤判定の影響はそれほど大きくないため、前方遷移時間を短くするとともに後方遷移時間を長くすることにより、誤判定による影響を緩和しつつ、高い補正効果を維持することができる。

また、音楽向けの補正であるリバーブによる補正は、トークでの誤判定に与える影響が大きいため、後方遷移時間を短くすると共に前方遷移時間を長くすることで影響を緩和することができる。

図１４は、上記したミクシング制御部８８が、入力された間欠スコアＳｄ、または、図１３の音種別に対応した間欠スコアＳｄｍｓあるいはＳｄｓｐに基づいて音質補正の強度を制御する処理動作をまとめたフローチャートを示している（以下では、全てＳｄとして表記している）。すなわち、処理が開始（ステップＳ１４ａ）されると、ミクシング制御部８８は、ステップＳ１４ｂで、間欠スコアＳｄが通知されたか否かを判別する。

そして、通知されたと判断された場合（ＹＥＳ）、ミクシング制御部８８は、ステップＳ１４ｃで、通知された間欠スコアＳｄに基づいて補正強度設定テーブルを参照することにより、それぞれの音質補正の種類毎に目標となる補正強度を算出する。

このステップＳ１４ｃの後、または、上記ステップＳ１４ｂで間欠スコアＳｄが通知されないと判断された場合（ＮＯ）、ミクシング制御部８８は、ステップＳ１４ｄで、現在の補正強度が目標の補正強度（ステップＳ１４ｂでＮＯの場合は、最後に通知された間欠スコアＳｄにより算出された目標の補正強度）と一致しているか否かを判別する。

そして、一致していないと判断された場合（ＮＯ）、ミクシング制御部８８は、ステップＳ１４ｅで、現在の補正強度が目標の補正強度より弱いか否かを判別する。現在の補正強度が目標の補正強度より弱いと判断された場合（ＹＥＳ）、補正強度を強める必要があるため、ミクシング制御部８８は、ステップＳ１４ｆで、補正強度対応テーブルの前方遷移時間に基づいて以下の式で算出されるステップ幅の単位で、現在の補正強度を強化する方向に更新する。なお、このステップＳ１４ｆにおける現在の補正強度を強化する方向への更新は、予め設定された所定の制御周期（例えば数１０ｍｓｅｃ）毎に行なわれる。

また、上記ステップＳ１４ｅで現在の補正強度が目標の補正強度より強いと判断された場合（ＮＯ）、補正強度を弱める必要があるため、ミクシング制御部８８は、ステップＳ１４ｇで、補正強度対応テーブルの後方遷移時間に基づいて以下の式で算出されるステップ幅の単位で、現在の補正強度を軽減する方向に更新する。なお、このステップＳ１４ｅにおける現在の補正強度を軽減する方向への更新も、予め設定された所定の制御周期（例えば数１０ｍｓｅｃ）で行なわれる。

そして、上記ステップＳ１４ｆまたはＳ１４ｇの後、もしくは、上記ステップＳ１４ｄで現在の補正強度が目標の補正強度と一致していると判断された場合（ＹＥＳ）、ミクシング制御部８８は、ステップＳ１４ｈで、次の補正強度の制御周期が廻ってくるまで待機した後、ステップＳ１４ｂの処理に戻される。

ここで、補正強度を更新する際の上記ステップ幅Ｇstepは、間欠スコアＳｄの最大値（間欠スコアＳｄが８ビットであれば１０進で“２５５”）に対応する補正強度をＧmaxとし、間欠スコアＳｄの最小値（間欠スコアＳｄが８ビットであれば１０進で“０”）に対応する補正強度をＧminとし、制御周期をＴcntとし、遷移時間をＴtransとすると、
Ｇstep＝（Ｇmax−Ｇmin）・Ｔcnt／Ｔtrans
で表わされる。

図１５は、ミクシング制御部８８による音質補正強度の遷移状況を示している。すなわち、間欠スコアが通知される毎に、目標の補正強度は、図１５に一点鎖線で示すように、間欠スコアＳｄの通知間隔（約１ｓｅｃ）毎に、最大補正強度Ｇmaxと最小補正強度Ｇminとの範囲内で更新される。

そして、この通知間隔内において、図１５に太線で示すように、所定の制御周期Ｔcnt（数１０ｍｓｅｃ）毎に、遷移時間Ｔtransに基づいて決まるステップ幅Ｇstep単位で、目標補正強度に向けて補正強度が順次更新されている。

上記した実施の形態によれば、まず、入力オーディオ信号から音声と音楽との特徴量をそれぞれ解析し、それらの特徴パラメータから入力オーディオ信号が音声信号に近いか音楽信号に近いかをスコア判定するとともに、音楽と判定された場合には、背景音の影響を考慮して先のスコア判定結果を補正している。

そして、この補正されたスコア値に基づいて、複数種類の音質補正要素（リバーブ、ワイドステレオ、センター強調、イコライザ等）毎に補正強度を制御するとともに、補正要素毎に強度を変更する際の遷移時間を制御するようにしている。このため、誤判定やスコア変動に対するロバスト性（主観的な違和感の軽減）と補正効果向上の両立を図ることができるようになる。

また、補正されたスコア値を、所定の通知間隔内で平滑化または重み付け加算することにより間欠スコアを生成し、その間欠スコアに基づいて、目標となる補正強度を更新する制御を所定の通知間隔毎に間欠的に行なうようにしている。このため、音声・音楽・背景音の判別処理系と音質補正処理系との間の、ハードウエア的またはソフトウエア的な通信帯域を削減して、処理負荷を低減することができる。

さらに、上記した実施の形態では、補正すべき音質の要素として、リバーブ、ワイドステレオ、センター強調、イコライザ等を挙げたが、これに限らず、例えばサラウンド等を含む音質補正可能な各種の要素について音質補正を行なうことができることはもちろんである。

なお、この発明は上記した実施の形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を種々変形して具体化することができる。また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係る構成要素を適宜組み合わせても良いものである。

１１…デジタルテレビジョン放送受信装置、１２…キャビネット、１３…支持台、１４…映像表示器、１５…スピーカ、１６…操作部、１７…リモートコントローラ、１８…受光部、１９…第１のメモリカード、２０…第２のメモリカード、２１…第１のＬＡＮ端子、２２…第２のＬＡＮ端子、２３…ＵＳＢ端子、２４…ＩＥＥＥ１３９４端子、２５…ＨＤＤ、２６…ハブ、２７…ＨＤＤ、２８…ＰＣ、２９…ＤＶＤレコーダ、３０…アナログ伝送路、３１…ブロードバンドルータ、３２…ネットワーク、３３…ＰＣ、３４…携帯電話、３５…ハブ、３６…携帯電話、３７…デジタルカメラ、３８…カードリーダ／ライタ、３９…ＨＤＤ、４０…キーボード、４１…ＡＶ−ＨＤＤ、４２…Ｄ−ＶＨＳ、４３…アンテナ、４４…入力端子、４５…チューナ、４６…ＰＳＫ復調器、４７…ＴＳ復号器、４８…信号処理部、４９…アンテナ、５０…入力端子、５１…チューナ、５２…ＯＦＤＭ復調器、５３…ＴＳ復号器、５４…チューナ、５５…アナログ復調器、５６…グラフィック処理部、５７…オーディオ処理部、５８ａ〜５８ｄ…入力端子、５９…ＯＳＤ信号生成部、６０…映像処理部、６１，６２…出力端子、６３…制御部、６４…ＣＰＵ、６５…ＲＯＭ、６６…ＲＡＭ、６７…不揮発性メモリ、６８…カードＩ／Ｆ、６９…カードホルダ、７０…カードＩ／Ｆ、７１…カードホルダ、７２，７３…通信Ｉ／Ｆ、７４…ＵＳＢＩ／Ｆ、７５…ＩＥＥＥ１３９４Ｉ／Ｆ、７６…音質補正処理部、７７…入力端子、７８…音質補正部、７８ａ…入力端子、７８ｂ…リバーブ処理部、７８ｃ…遅延補償部、７８ｄ…可変利得増幅部、７８ｅ…入力端子、７８ｆ…可変利得増幅部、７８ｇ…加算部、７８ｈ…出力端子、７９〜８１…音質補正部、８２…出力端子、８３…特徴パラメータ算出部、８４…音声・音楽識別スコア算出部、８５…音楽・背景音識別スコア算出部、８６…スコア補正部、８７…間欠通知処理部、８８…ミクシング制御部。

Claims

入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する特徴パラメータ算出手段と、
前記特徴パラメータ算出手段で算出された各種の特徴パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する音声音楽識別スコア算出手段と、
前記入力オーディオ信号に対してそれぞれ異なる複数種類の音質補正処理を施す音質補正手段と、
前記音声音楽識別スコア算出手段で算出された音声音楽識別スコアに基づいて、前記音質補正手段が施す複数種類の音質補正処理に対する補正強度をそれぞれ制御するもので、前記音声音楽識別スコアに基づいて、前記音質補正手段が施す複数種類の音質補正処理に対してそれぞれ目標とする補正強度を設定し、前記音質補正手段が施す複数種類の音質補正処理毎に現在の補正強度を目標とする補正強度に向けて変更する際、前記音質補正手段が施す複数種類の音質補正処理毎に予め設定された前方遷移時間及び後方遷移時間に基づいて段階的に変更する制御手段とを具備することを特徴とする音質補正装置。
前記制御手段は、予め設定された所定の間隔毎に、前記音声音楽識別スコアに基づく前記音質補正手段が施す複数種類の音質補正処理に対する補正強度の制御を行なうことを特徴とする請求項１記載の音質補正装置。
前記特徴パラメータ算出手段は、前記入力オーディオ信号から音楽信号と背景音信号との判別を行なうための各種の特徴パラメータを算出し、
前記特徴パラメータ算出手段で算出された音楽信号と背景音信号とを判別するための各種の特徴パラメータに基づいて、前記入力オーディオ信号が音楽信号及び背景音信号のいずれに近いかを示す音楽背景音識別スコアを算出する音楽背景音識別スコア算出手段と、
前記音声音楽識別スコア算出手段で算出された音声音楽識別スコアが音楽信号であることを示し、かつ、前記音楽背景音識別スコア算出手段で算出された音楽背景音識別スコアが背景音信号であることを示している場合、前記音楽背景音識別スコアの値に基づいて前記音声音楽識別スコアを補正する音声音楽識別スコア補正手段とを備え、
前記制御手段は、前記音声音楽識別スコア補正手段で補正された前記音声音楽識別スコアに基づいて、前記音質補正手段が施す複数種類の音質補正処理に対する補正強度をそれぞれ制御することを特徴とする請求項１記載の音質補正装置。
前記制御手段は、前記音声音楽識別スコアと前記音質補正手段が施す複数種類の音質補正処理に対する補正強度とを対応付けたテーブルを有し、前記音声音楽識別スコアが入力されたとき、前記テーブルを参照して、前記音質補正手段が施す複数種類の音質補正処理に対する補正強度をそれぞれ設定することを特徴とする請求項１記載の音質補正装置。
前記音質補正手段は、前記入力オーディオ信号に対して、少なくともリバーブ処理、ワイドステレオ処理、センター強調処理、イコライザ処理、サラウンド処理のいずれかを施すことを特徴とする請求項１記載の音質補正装置。
入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する工程と、
算出された各種の特徴パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する工程と、
前記入力オーディオ信号に対して音質補正手段によりそれぞれ異なる複数種類の音質補正処理を施す工程と、
算出された前記音声音楽識別スコアに基づいて、前記音質補正手段が施す複数種類の音質補正処理に対する補正強度をそれぞれ制御する工程であって、前記音声音楽識別スコアに基づいて、前記音質補正手段が施す複数種類の音質補正処理に対してそれぞれ目標とする補正強度を設定し、前記音質補正手段が施す複数種類の音質補正処理毎に現在の補正強度を目標とする補正強度に向けて変更する際、前記音質補正手段が施す複数種類の音質補正処理毎に予め設定された前方遷移時間及び後方遷移時間に基づいて段階的に変更する工程とを有することを特徴とする音質補正方法。
入力オーディオ信号から音声信号と音楽信号との判別を行なうための各種の特徴パラメータを算出する処理と、
算出された各種の特徴パラメータに基づいて、前記入力オーディオ信号が音声信号及び音楽信号のいずれに近いかを示す音声音楽識別スコアを算出する処理と、
前記入力オーディオ信号に対して音質補正手段によりそれぞれ異なる複数種類の音質補正処理を施すとき、算出された音声音楽識別スコアに基づいて、前記音質補正手段が施す複数種類の音質補正処理に対する補正強度をそれぞれ制御するもので、前記音声音楽識別スコアに基づいて、前記音質補正手段が施す複数種類の音質補正処理に対してそれぞれ目標とする補正強度を設定し、前記音質補正手段が施す複数種類の音質補正処理毎に現在の補正強度を目標とする補正強度に向けて変更する際、前記音質補正手段が施す複数種類の音質補正処理毎に予め設定された前方遷移時間及び後方遷移時間に基づいて段階的に変更する処理とを、コンピュータに実行させることを特徴とする音質補正用プログラム。