JP4709928B1

JP4709928B1 - 音質補正装置及び音質補正方法

Info

Publication number: JP4709928B1
Application number: JP2010011428A
Authority: JP
Inventors: 広和竹内; 裕米久保
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-01-21
Filing date: 2010-01-21
Publication date: 2011-06-29
Anticipated expiration: 2030-01-21
Also published as: US8099276B2; US20110178805A1; JP2011150143A

Abstract

【課題】音声信号と音楽信号との類似度を定量的に評価し、適応的な音質補正処理を施すことを可能とした技術を提供する。
【解決手段】入力オーディオ信号を時間領域で特性を解析し時間領域の特徴量を抽出する時間域特徴量抽出手段と、前記入力オーディオ信号を周波数領域の信号に変換する時間周波数変換手段と、前記時間周波数変換手段の出力を解析し周波数域特徴量を抽出する周波数域特徴量抽出手段と、第１の音声スコアと第２の音声スコアとの差分から前記第１の音声スコアを補正、または第１の音楽スコアと第２の音楽スコアとの差分から前記第１の音楽スコアを補正するスコア補正手段と、前記スコア補正手段から得られるスコアに基づいて前記入力オーディオ信号の音質制御を行う音質補正手段とを備えたことを特徴とする音質補正装置。
【選択図】図２

Description

この発明は、再生すべきオーディオ（可聴周波数）信号に含まれる音声信号と音楽信号とに対して、それぞれ適応的に音質補正処理を施す音質補正装置及び音質補正方法に関する。

周知のように、例えばテレビジョン放送を受信する放送受信機器や、情報記録媒体からその記録情報を再生する情報再生機器等にあっては、受信した放送信号や情報記録媒体から読み取った信号等からオーディオ信号を再生する際に、オーディオ信号に音質補正処理を施すことによって、より一層の高音質化を図るようにしている。

この場合、オーディオ信号に施す音質補正処理の内容は、オーディオ信号が人の話し声のような音声信号であるか、楽曲のような音楽（非音声）信号であるかに応じて異なる。すなわち、音声信号に対しては、トークシーンやスポーツ実況等のようにセンター定位成分を強調して明瞭化するように音質補正処理を施すことで音質が向上し、音楽信号に対しては、ステレオ感を強調した拡がりのある音質補正処理を施すことで音質が向上する。

このため、取得したオーディオ信号が音声信号か音楽信号かを判別し、その判別結果に応じて対応する音質補正処理を施すことが考えられている。例えば特許文献１には、入力される音響信号の零交差回数やパワー変動等を分析することによって、音響信号を「音声」と「非音声」と「不定」との３種類に分類し、音響信号に対する周波数特性を、「音声」と判別されたとき音声帯域を強調した特性に、「非音声」と判別されたときフラットな特性に、「不定」と判別されたとき前の判定による特性を維持するように制御する構成が開示されている。

しかしながら、実際のオーディオ信号では、音声信号と音楽信号とが混在している場合が多いことから、それらの判別処理が困難になっているため、オーディオ信号に対して適切な音質補正処理が施されているとは言えないのが現状である。

特開平７−１３５８６号公報

そこで、この発明は上記事情を考慮してなされたもので、入力オーディオ信号に含まれる音声信号と音楽信号との類似度を定量的に評価し、その類似度に応じて適応的な音質補正処理を施すことを可能とした音質補正装置及び音質補正方法を提供することを目的とする。

上記課題を解決するために、本発明の音質補正装置は、入力オーディオ信号を時間領域で特性を解析し時間領域の特徴量を抽出する時間域特徴量抽出手段と、前記入力オーディオ信号を周波数領域の信号に変換する時間周波数変換手段と、前記時間周波数変換手段の出力を解析し周波数域特徴量を抽出する周波数域特徴量抽出手段と、前記時間域特徴量抽出手段または前記周波数域特徴量抽出手段の出力から音声信号特性との類似度を表す第１の音声スコアを算出する第１の音声スコア算出手段と、前記時間域特徴量抽出手段または前記周波数域特徴量抽出手段の出力から音楽信号特性との類似度を表す第１の音楽スコアを算出する第１の音楽スコア算出手段と、前記入力オーディオ信号に対してセンター強調、音声帯域強調、ノイズサプレスの内少なくとも１つの処理を行う補正フィルタ処理手段と、前記補正フィルタ処理手段の出力から音声信号特性との類似度を表す第２の音声スコアを算出する第２の音声スコア算出手段と、前記補正フィルタ処理手段の出力から音楽信号特性との類似度を表す第２の音楽スコアを算出する第２の音楽スコア算出手段と、前記第１の音声スコアと前記第２の音声スコアとの差分から前記第１の音声スコアを補正、または前記第１の音楽スコアと前記第２の音楽スコアとの差分から前記第１の音楽スコアを補正するスコア補正手段と、前記スコア補正手段から得られるスコアに基づいて前記入力オーディオ信号の音質制御を行う音質補正手段とを備えたことを特徴とする。

本発明によれば、混合信号や背景音(拍手、歓声、BGM等)が重畳された原音入力信号に対して音声か音楽かの判定において各特徴パラメータ値から音声の度合いおよび音楽の度合いをスコアリングすると共に、音声抽出に適した補正フィルタ処理(音声帯域強調、センター強調等)を通した信号に対してもスコアリングしたパラメータを利用し、その差分に応じたスコアリング補正をすることで、音声信号を含む混合信号に対して検出精度向上を図ると共に、入力信号に適した効果的な音質補正を実現することができる。

この発明の一実施形態を示すブロック構成図。同実施形態の音質補正装置全体ブロック図。同実施形態の音声スコアおよび音楽スコア算出処理フロー。同実施形態の補正フィルタブロック図。同実施形態に用いられるスコア補正処理フロー。第2の実施形態の音質補正装置全体ブロック図。

以下、本発明の実施形態を説明する。
（実施形態１）
本発明による実施形態１を図１乃至図５を参照して説明する。
図１は、この発明の一実施形態であるデジタルテレビジョン放送受信装置１１の主要な信号処理系を示している。すなわち、ＢＳ／ＣＳ（broadcasting satellite／communication satellite）デジタル放送受信用のアンテナ４３で受信した衛星デジタルテレビジョン放送信号は、入力端子４４を介して衛星デジタル放送用のチューナ４５に供給されることにより、所望のチャンネルの放送信号が選局される。

そして、このチューナ４５で選局された放送信号は、ＰＳＫ（phase shift keying）復調器４６及びＴＳ（transport stream）復号器４７に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、信号処理部４８に出力される。

また、地上波放送受信用のアンテナ４９で受信した地上デジタルテレビジョン放送信号は、入力端子５０を介して地上デジタル放送用のチューナ５１に供給されることにより、所望のチャンネルの放送信号が選局される。

そして、このチューナ５１で選局された放送信号は、例えば日本ではＯＦＤＭ（orthogonal frequency division multiplexing）復調器５２及びＴＳ復号器５３に順次供給されることにより、デジタルの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。

また、上記地上波放送受信用のアンテナ４９で受信した地上アナログテレビジョン放送信号は、入力端子５０を介して地上アナログ放送用のチューナ５４に供給されることにより、所望のチャンネルの放送信号が選局される。そして、このチューナ５４で選局された放送信号は、アナログ復調器５５に供給されてアナログの映像信号及びオーディオ信号に復調された後、上記信号処理部４８に出力される。

ここで、上記信号処理部４８は、ＴＳ復号器４７，５３からそれぞれ供給されたデジタルの映像信号及びオーディオ信号に対して、選択的に所定のデジタル信号処理を施し、グラフィック処理部５６及びオーディオ処理部５７に出力している。

また、上記信号処理部４８には、複数（図示の場合は４つ）の入力端子５８ａ，５８ｂ，５８ｃ，５８ｄが接続されている。これら入力端子５８ａ〜５８ｄは、それぞれ、アナログの映像信号及びオーディオ信号を、デジタルテレビジョン放送受信装置１１の外部から入力可能とするものである。

そして、上記信号処理部４８は、上記アナログ復調器５５及び各入力端子５８ａ〜５８ｄからそれぞれ供給されたアナログの映像信号及びオーディオ信号を選択的にデジタル化し、このデジタル化された映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、グラフィック処理部５６及びオーディオ処理部５７に出力する。

グラフィック処理部５６は、信号処理部４８から供給されるデジタルの映像信号に、ＯＳＤ（on screen display）信号生成部５９で生成されるＯＳＤ信号を重畳して出力する機能を有する。このグラフィック処理部５６は、信号処理部４８の出力映像信号と、ＯＳＤ信号生成部５９の出力ＯＳＤ信号とを選択的に出力すること、また、両出力をそれぞれ画面の半分を構成するように組み合わせて出力することができる。

グラフィック処理部５６から出力されたデジタルの映像信号は、映像処理部６０に供給される。この映像処理部６０は、入力されたデジタルの映像信号を、前記映像表示器１４で表示可能なフォーマットのアナログ映像信号に変換した後、映像表示器１４に出力して映像表示させるとともに、出力端子６１を介して外部に導出させる。

また、上記オーディオ処理部５７は、入力されたデジタルのオーディオ信号に対して、後述する音質補正処理を施した後、前記スピーカ１５で再生可能なフォーマットのアナログオーディオ信号に変換している。そして、このアナログオーディオ信号は、スピーカ１５に出力されてオーディオ再生に供されるとともに、出力端子６２を介して外部に導出される。スピーカ１５は、音質制御された出力オーディオ信号を出力する出力手段となる。

ここで、このデジタルテレビジョン放送受信装置１１は、上記した各種の受信動作を含むその全ての動作を制御部６３によって統括的に制御されている。この制御部６３は、ＣＰＵ（central processing unit）６４を内蔵しており、前記操作部１６からの操作情報、または、リモートコントローラ１７から送出され前記受光部１８に受信された操作情報を受けて、その操作内容が反映されるように各部をそれぞれ制御している。

この場合、制御部６３は、主として、そのＣＰＵ６４が実行する制御プログラムを格納したＲＯＭ（read only memory）６５と、該ＣＰＵ６４に作業エリアを提供するＲＡＭ（random access memory）６６と、各種の設定情報及び制御情報等が格納される不揮発性メモリ６７とを利用している。

また、この制御部６３は、カードＩ／Ｆ（interface）６８を介して、前記第１のメモリカード１９が装着可能なカードホルダ６９に接続されている。これによって、制御部６３は、カードホルダ６９に装着された第１のメモリカード１９と、カードＩ／Ｆ６８を介して情報伝送を行なうことができる。

さらに、上記制御部６３は、カードＩ／Ｆ７０を介して、前記第２のメモリカード２０が装着可能なカードホルダ７１に接続されている。これにより、制御部６３は、カードホルダ７１に装着された第２のメモリカード２０と、カードＩ／Ｆ７０を介して情報伝送を行なうことができる。

また、上記制御部６３は、通信Ｉ／Ｆ７２を介して第１のＬＡＮ端子２１に接続されている。これにより、制御部６３は、第１のＬＡＮ端子２１に接続されたＬＡＮ対応のＨＤＤ２５と、通信Ｉ／Ｆ７２を介して情報伝送を行なうことができる。この場合、制御部６３は、ＤＨＣＰ（dynamic host configuration protocol）サーバ機能を有し、第１のＬＡＮ端子２１に接続されたＬＡＮ対応のＨＤＤ２５にＩＰ（internet protocol）アドレスを割り当てて制御している。

さらに、上記制御部６３は、通信Ｉ／Ｆ７３を介して第２のＬＡＮ端子２２に接続されている。これにより、制御部６３は、第２のＬＡＮ端子２２に接続された各機器と、通信Ｉ／Ｆ７３を介して情報伝送を行なうことができる。

また、上記制御部６３は、ＵＳＢＩ／Ｆ７４を介して前記ＵＳＢ端子２３に接続されている。これにより、制御部６３は、ＵＳＢ端子２３に接続された各機器と、ＵＳＢＩ／Ｆ７４を介して情報伝送を行なうことができる。

さらに、上記制御部６３は、ＩＥＥＥ１３９４Ｉ／Ｆ７５を介してＩＥＥＥ１３９４端子２４に接続されている。これにより、制御部６３は、ＩＥＥＥ１３９４端子２４に接続された各機器と、ＩＥＥＥ１３９４Ｉ／Ｆ７５を介して情報伝送を行なうことができる。

図２は、オーディオ処理部５７内に備えられ適応的に音質補正処理を施す音質補正装置の全体構成である。本装置は、時間域特徴量抽出部７９，８１、時間周波数変換部７７，７８、周波数域特徴量抽出部８０，８２、原音音声スコア算出部８３、原音音楽スコア算出部８４、補正フィルタ７６、フィルタ音声スコア算出部８５、フィルタ音楽スコア算出部８６、スコア補正部８７、音質制御部８８から構成されている。本装置は、入力オーディオ信号に対して混合信号や背景音(拍手、歓声、BGM等)が重畳された原音入力信号に対して音声が音楽かの判定において各特徴パラメータ値から音声の度合いおよび音楽の度合いをスコアリングすると共に、音声抽出に適した補正フィルタ処理(音声帯域強調、センター強調等)を通した信号に対してもスコアリングしたパラメータを利用し、その差分に応じたスコアリング補正をすることにより、音声信号を含む混合信号に対して検出精度向上を図ると共に、入力信号に適した効果的な音質補正を実現する。

時間域特徴量抽出部７９，８１は、入力オーディオ信号を数百msec程度毎にをフレームとして切り出し、更にそれらを数十msecのサブフレームに分割し、サブフレーム単位でのパワー値、零交差周波数、およびステレオ信号の場合には左右(LR)信号のパワー比を求め、これらについてフレーム単位で統計量(平均/分散/最大/最小等)を算出して特徴パラメータとして抽出する。時間周波数変換部７７，７８は、上記サブフレームに対応する信号単位で離散フーリエ変換を行うことで周波数領域の信号に変換する。周波数領域特徴量抽出部８０，８２は、スペクトル変動やMFCC(メルケプストラム係数)変動や特定周波数帯域(楽器のベース成分)のエネルギー集中度を求め、これらについてフレーム単位で統計量(平均/分散/最大/最小等)を算出して特徴パラメータとする。原音音声スコア算出部８３および原音音楽スコア算出部８４は、本願発明者らによる既出願特許(特願P2009-156004号, 特願P2009-217941号)と同様に、時間域および周波数域特徴パラメータから音声(スピーチ)信号の特性に近いか音楽(楽曲)の信号特性に近いかをそれぞれ原音音声スコアSS0および原音音楽スコアSM0として算出する。それぞれのスコア算出にあたっては、まず、下式のように特徴パラメータセットxiを重み係数Aiで線形加算した音声・音楽識別スコアS1を算出する。これは、音楽度合いの方が高ければ正値になるように、また音声度合いの方が高ければ負値になるように線形識別するスコアである。

ここで重み係数Aiは、予め準備した多くの既知の音声信号データおよび音楽信号データを参照データとして予めオフライン学習させて決定する。学習は、全参照データに対する音声・音楽識別スコアS1が、音楽の場合には1.0、音声の場合には-1.0とする参照スコアとの誤差が最小になるよう係数を決定する。

また、背景音と音楽を識別するために背景音・音楽識別スコアS2を算出する。これは、音声・音楽識別スコアS1と同様に特徴パラメータの重み付け加算として算出するが、背景音と音楽とを区別するためのベース成分のエネルギー集中度といった特徴量を新たに加えている。S2は、音楽度合いの方が高ければ正値になるように、また背景音の音声度合いの方が高ければ負値になるように線形識別するスコアである。

ここで重み係数Biは、音声・音楽識別と同様に予め準備した多くの既知の背景音信号データおよび音楽信号データを参照データとして予めオフライン学習させて決定する。上記のようなこれらS1およびS2とから、前記既出願特許と同様に図３に示すとおりの背景音補正および安定化処理を経て音種別毎のスコアとして原音音声スコアSS0および原音音楽スコアSM0を算出する。原音音声スコアSS0および原音音楽スコアSM0は、前述の音声・音楽識別スコアS1および背景音・音楽識別スコアS2に基づいて算出される。フィルタ音声スコアSS1およびフィルタ音楽スコアSM1の算出も同様であり、図３では原音音声スコアSS0とフィルタ音声スコアSS1を代表して音声スコアSSと、また原音音楽スコアSM0とフィルタ音楽スコアSM1とを代表して音楽スコアSMと表記している。

図３ではまず各スコア算出部が上記S1とS2とを算出する(ステップS31)。続いてスコア補正部８７による以下の背景音補正は、S1<0(音楽より音声に近い、ステップS32のYes)かつS2>0(背景音より音楽に近い、ステップS33のYes)場合には、音声スコアSSは音声・音楽識別スコアS1が負値であるため絶対値|S1|(ステップS34)、音楽スコアSMは音声信号特性に近いので0に設定する(ステップS35)。S1<0(音楽より音声に近い、ステップS32のYes)かつS2>0でない(音楽より背景音に近い、ステップS33のNo)場合には、音声スコアSSはS1は負値であるため絶対値|S1|に加えて背景音に含まれる音声成分を考慮してαs×|S2|分だけ補正し(ステップS36)、音楽スコアSMは音声信号特性に近いので0に設定する(ステップS37)。

またS1<0でなく(音声より音楽に近い、ステップS32のNo)かつS2>0(背景音より音楽に近い、ステップS38のYes)場合には、音声スコアSSは音楽信号特性に近いので0(ステップS39)、音楽スコアSMは音楽信号度合いに対応するS1に設定する(ステップS40)。S1<0でなく(音声より音楽に近い)かつS2>0でない(音楽より背景音に近い、ステップS38のNo)場合には、音声スコアSSは音声度合いに対応するスコアである-S1に対して背景音に含まれる音声成分を考慮してαs×|S2|分だけ補正し(ステップS41)、音楽スコアSMは音楽信号度合い対応するS1に対して背景音の度合いを考慮してαm×|S2|分だけ減算して補正する(ステップS42)。

また、安定化補正は、背景音補正して得られた音声スコアSSあるいは音楽スコアSMの連続性に応じて補正するパラメータである初期値0のSS3およびSM3を加算することにより行う。

例えば、ステップS35とステップS37の後に連続するフレームで既定回数Cs以上SS>0ならSS3にSS3を適正化するためのある既定の正値βsを加え、SM3からSM3を適正化するための既定の正値γmをひく(ステップS43)。また、ステップS40とステップS41の後に連続するフレームで既定回数Cｍ以上SM>0ならSS3からγsをひきSM3にβmを加える(ステップS44)。

その後、スコア補正部８７は、上記ステップS43またはステップS44で生成された安定化パラメータSS3およびSM3による過度の補正を防ぐために、これら安定化パラメータが予め設定された最小値Ｓと最大値との範囲内に収まるように、クリップ処理を施している(ステップS45)。

最後にSS3およびSM3による安定化補正をし(ステップS46)、スコアの平滑化として、過去フレームのスコアとの平均（移動平均等)をとる(ステップS47)。

一方、原音入力信号とは別に音声抽出に適した信号に対して特徴量抽出を行う。補正フィルタ部７６は、図４に示すようにセンター強調部９１、音声帯域強調部９２、ノイズサプレッサ部９３から構成される。センター強調部９１は、一般に放送信号等では音声信号はセンターに定位させていることが多いことから、ステレオ信号に対して左右チャネル信号の和を強調することでより音声を抽出しやすくするための処理を行なう。音声帯域強調部９２は、音声信号の成分がより顕著に現れやすい300Hz〜7kHz周波数帯域を強調(あるいはそれ以外の帯域の減衰)をさせるイコライジング処理を行なう。ノイズサプレッサ部９３は、音声に混じって入力される背景雑音の影響を緩和するために、定常的な雑音成分を抑制する処理を行なう。

これらの処理から構成される補正フィルタを通したフィルタ信号に対して原音信号と同じように音声スコアSS1および音楽スコアSM1を算出する。ここで、時間周波数変換部７８、時間域特徴量抽出部８１および周波数域特徴量抽出部８２は原音信号に対する処理と同じである。ただし、フィルタ音声スコア算出部８５は、音声・音楽識別スコアS1および背景音・音楽識別スコアS2を計算する際の重み係数AiおよびBiを求める過程においてフィルタ信号を用いて予め学習させた係数を利用する。以上より、原音信号および補正フィルタ信号に対して、それぞれの判定スコアとして原音音声スコアSS0、原音音楽スコアSM0、フィルタ音声スコアSS1、フィルタ音楽スコアSM1が求められる。スコア補正部８７は、これら4つのスコアに基いて音声・音楽混合信号に対するスコア補正を行い音声スコアおよび音楽スコアを算出する。この処理の詳細については、図５に基いて後述する。音質制御部８８は、音声スコアおよび音楽スコアに応じて前記既出願特許と同様に音声向けあるいは音楽向けの音質補正制御の度合いを制御してコンテンツの信号特性にあった最適な音質補正を実現する。

図５は、これらスコアを利用したスコア補正部８７の処理フローを示している。４つのスコアを受信した後(ステップS51)、原音音声スコアSS0とフィルタ音声スコアSS1を比較し(ステップS52)、補正スコアが原音スコアに対して閾値THs以上大きい場合には、原音では検出できない多くの音声成分が含まれていると判断し、下式により音声スコアを増加させるように補正する(ステップS53)。

SS0 = SS0 + α×(SS1 - SS0 - THs) （式３）
ここでαはスコア差分に対する補正量を調整するための定数である。次に、原音音楽スコアSM0とフィルタ音楽スコアSM1を比較し(ステップS54)、補正スコアが原音スコアに対して閾値THm以上大きい場合には、原音では検出できない多くの音声成分が含まれていると判断し、下式により音楽スコアを減少させるように補正する(ステップS55)。

SM0 = SM0 + β×(SM0 - SM1 - THm)
（式４）
ここでβはスコア差分に対する補正量を調整するための定数である。上記フローにより、補正フィルタによる出力を考慮した音声スコア原音音声スコアSS0および音楽スコアSM0が算出される。

（実施形態２）
本発明による実施形態２を図１及び図３乃至図６を参照して説明する。実施形態１と共通する部分は説明を省略する。
図６は、適応的に音質補正処理を施す音質補正装置の第2の全体構成である。この第2の構成は、実施形態１と比べて補正フィルタ７６の代わりに入力信号の時間周波数変換後のスペクトル信号に対して処理するスペクトル補正部７６ａを設けている。これは、図1の構成で処理負荷の高い時間周波数域変換を１回に削減し、処理量を削減するためである。スペクトル補正部７６ａは、補正フィルタ７６の処理を周波数領域で行うものでセンター強調は各チャネルのスペクトルbin(帯域区分)毎に左右チャネルの成分の和を強調する処理である。また音声帯域強調は、スペクトル信号に対してFFTフィルタ等によりスペクトル音声信号の成分がより顕著に現れやすい300Hz〜7kHz周波数帯域を強調(あるいはそれ以外の帯域を減衰)する。またノイズサプレスは、スペクトルサブストラクション法等により定常的な雑音成分を抑制する。これらスペクトル補正処理を介して音声抽出に適した信号に補正し、図２の構成と同様に周波数域特徴量抽出、フィルタ音声スコア算出およびフィルタ音楽スコア算出を行う。また、第２の構成でのフィルタ(スペクトル補正)音声スコア算出部およびフィルタ(スペクトル補正)音楽スコア算出部における線形識別でのスコア算出の重み係数は、スペクトル補正処理を介して予め学習させた係数を利用する。以降の処理ブロックであるスコア補正部８７、音質制御部８８は図２の構成と同様に動作させる。

以上の実施形態のようにして、オーディオ信号に対して音声あるいは音楽の識別を行い、混合信号に対してもそれぞれに適した補正処理を制御することにより高音質化を図ることができる。実施形態のポイントは次のようである。

（１）オーディオ入力信号の特性を解析して音声あるいは音楽にどの程度近いかをスコア判定する際に、音声/音楽の混合信号に対して原音信号に加えて音声の抽出に適した補正フィルタを通した信号に対しても特徴量抽出およびスコア判定を行い、原音信号とフィルタ信号に対するスコア差分に基づくスコア補正を行うことで、混合信号で埋もれた音声の検出精度向上およびそれに適した音質制御を行う。

（２）音声の抽出に適した補正フィルタとは、音声信号以外の信号と混合された音声信号に対してセンター強調、音声帯域強調、ノイズサプレスのいずれかあるいは複数を含む処理を行うことで、音声信号の検出を容易にするものである。

（３）補正フィルタの代わりに、時間周波数変換後の信号に対して補正フィルタ処理に相当する音声帯域強調、センター強調のいずれかあるいは複数を含むスペクトル補正処理を行うことで、補正フィルタによる構成に比較して時間周波数変換に関する処理負荷低減した音声の検出精度向上およびそれに適した音質制御を行う。

こうすることにより、混合信号や背景音(拍手、歓声、BGM等)が重畳された原音入力信号に対して音声か音楽かの判定において各特徴パラメータ値から音声の度合いおよび音楽の度合いをスコアリングすると共に、音声抽出に適した補正フィルタ処理(音声帯域強調、センター強調等)を通した信号に対してもスコアリングしたパラメータを利用し、その差分に応じたスコアリング補正をすることで、音声信号を含む混合信号に対して検出精度向上を図ると共に、入力信号に適した効果的な音質補正を実現することができる。

また、補正フィルタ処理の代替として時間周波数変換後の信号に対してスペクトル補正処理を行うことにより、補正フィルタ追加に伴う処理負荷増を軽減することができる。

なお、この発明は上記実施形態に限定されるものではなく、この外その要旨を逸脱しない範囲で種々変形して実施することができる。
また、上記した実施の形態に開示されている複数の構成要素を適宜に組み合わせることにより、種々の発明を形成することができる。例えば、実施の形態に示される全構成要素から幾つかの構成要素を削除しても良いものである。さらに、異なる実施の形態に係わる構成要素を適宜組み合わせても良いものである。

１１…デジタルテレビジョン放送受信装置、１４…映像表示器、１５…スピーカ、１６…操作部、１７…リモートコントローラ、１８…受光部、１９…第１のメモリカード、２０…第２のメモリカード、２１…第１のＬＡＮ端子、２２…第２のＬＡＮ端子、２３…ＵＳＢ端子、２４…ＩＥＥＥ１３９４端子、４３…アンテナ、４４…入力端子、４５…チューナ、４６…ＰＳＫ復調器、４７…ＴＳ復号器、４８…信号処理部、４９…アンテナ、５０…入力端子、５１…チューナ、５２…ＯＦＤＭ復調器、５３…ＴＳ復号器、５４…チューナ、５５…アナログ復調器、５６…グラフィック処理部、５７…オーディオ処理部、５８ａ〜５８ｄ…入力端子、５９…ＯＳＤ信号生成部、６０…映像処理部、６１，６２…出力端子、６３…制御部、６４…ＣＰＵ、６５…ＲＯＭ、６６…ＲＡＭ、６７…不揮発性メモリ、６８…カードＩ／Ｆ、６９…カードホルダ、７０…カードＩ／Ｆ、７１…カードホルダ、７２，７３…通信Ｉ／Ｆ、７４…ＵＳＢＩ／Ｆ、７５…ＩＥＥＥ１３９４Ｉ／Ｆ、７６…補正フィルタ、７７，７８…時間周波数変換部、７９，８１…時間領域特徴量抽出部、８０，８２…周波数領域特徴量抽出部、８３…原音音声スコア算出部、８４…原音音楽スコア算出部、８５…フィルタ音声スコア算出部、８６…フィルタ音楽スコア算出部、８７…スコア補正部、８８…音質制御部、９１…センター強調部、９２…音声帯域強調部、９３…ノイズサプレッサ部。

Claims

入力オーディオ信号を時間領域で特性を解析し時間領域の特徴量を抽出する時間域特徴量抽出手段と、
前記入力オーディオ信号を周波数領域の信号に変換する時間周波数変換手段と、
前記時間周波数変換手段の出力を解析し周波数域特徴量を抽出する周波数域特徴量抽出手段と、
前記時間域特徴量抽出手段および前記周波数域特徴量抽出手段の出力から音声信号特性との類似度を表す第１の音声スコアを算出する第１の音声スコア算出手段と、
前記時間域特徴量抽出手段および前記周波数域特徴量抽出手段の出力から音楽信号特性との類似度を表す第１の音楽スコアを算出する第１の音楽スコア算出手段と、
前記入力オーディオ信号に対してセンター強調、音声帯域強調、ノイズサプレスの内少なくとも１つの処理を行う補正フィルタ処理手段と、
前記補正フィルタ処理手段の出力から音声信号特性との類似度を表す第２の音声スコアを算出する第２の音声スコア算出手段と、
前記補正フィルタ処理手段の出力から音楽信号特性との類似度を表す第２の音楽スコアを算出する第２の音楽スコア算出手段と、
前記第１の音声スコアと前記第２の音声スコアとの差分から前記第１の音声スコアを補正し、かつ前記第１の音楽スコアと前記第２の音楽スコアとの差分から前記第１の音楽スコアを補正するスコア補正手段と、
前記スコア補正手段から得られる音声スコアおよび音楽スコアに基づいて前記入力オーディオ信号の音質制御を行う音質補正手段とを備えた音質補正装置。
前記補正フィルタ処理手段は、時間領域で動作し音声信号を強調するフィルタ処理を含む請求項１に記載の音質補正装置。
前記補正フィルタ処理手段は、前記時間周波数変換手段の出力を用いて周波数領域で動作し音声信号を強調するスペクトル補正処理を含む請求項１に記載の音質補正装置。
前記音質制御手段により音質制御された出力オーディオ信号を出力する出力手段を更に備えた請求項１に記載の音質補正装置。
入力オーディオ信号を時間領域で特性を解析し時間領域の特徴量を抽出し、
前記入力オーディオ信号を周波数領域の信号に変換し、
前記周波数領域の特徴量を抽出し、
前記時間領域の特徴量および前記周波数領域の特徴量から音声信号特性との類似度を表す第１の音声スコアを算出し、
前記時間領域の特徴量および前記周波数領域の特徴量から音楽信号特性との類似度を表す第１の音楽スコアを算出し、
前記入力オーディオ信号に対してセンター強調、音声帯域強調、ノイズサプレスの内少なくとも１つの補正フィルタ処理を行い、
前記補正フィルタ処理の結果から音声信号特性との類似度を表す第２の音声スコアを算出し、
前記補正フィルタ処理の結果から音楽信号特性との類似度を表す第２の音楽スコアを算出し、
前記第１の音声スコアと前記第２の音声スコアとの差分から前記第１の音声スコアを補正し、かつ前記第１の音楽スコアと前記第２の音楽スコアとの差分から前記第１の音楽スコアを補正し、
この補正結果から得られる音声スコアおよび音楽スコアに基づいて前記入力オーディオ信号の音質制御を行う音質補正方法。