JP2012063726A

JP2012063726A - 音質補正装置及び音声補正方法

Info

Publication number: JP2012063726A
Application number: JP2010210078A
Authority: JP
Inventors: Yutaka Yonekubo; 裕米久保; Hirokazu Takeuchi; 広和竹内
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2010-09-17
Filing date: 2010-09-17
Publication date: 2012-03-29
Anticipated expiration: 2030-09-17
Also published as: US8837744B2; US20120070016A1; JP4937393B2

Abstract

【課題】オーディオ信号の内容に応じた好適な音質補正を行うことのできる音質補正装置及び音質補正方法の提供。
【解決手段】実施形態に係る音質補正装置は、オーディオ信号が入力される入力手段と、入力された前記オーディオ信号の特徴量を、一定の時間長の第１区間毎に算出する特徴量算出手段と、算出された前記特徴量に基づいて、前記第１区間毎にスコア値を算出するスコア算出手段と、入力された前記オーディオ信号の変調スペクトルの、所定の変調周波数におけるパワー値を算出する変調スペクトルパワー算出手段と、前記第１区間を複数含む第２区間において算出された前記パワー値が一定値以上である場合、当該第２区間に含まれる複数の前記第１区間毎の前記スコア値を補正するスコア補正手段と、補正された前記スコア値に基づいて前記オーディオ信号を補正する信号補正手段とを備える。
【選択図】図２

Description

本発明の実施形態は、音質補正装置及び音声補正方法に関する。

テレビジョン放送を受信する放送受信装置や、記録メディアに記録されたデータを再生する再生装置がある。そして、受信したテレビジョン放送やメディアに記録されたデータのオーディオ信号を再生・出力する場合には、当該オーディオ信号に音質補正処理を実行することにより、高音質のオーディオ信号を出力できることが好ましい。

特開２０１０−１５２０１５号公報

ここで、オーディオ信号に対して音質補正処理を施す場合には、オーディオ信号の内容に応じた好適な補正を行えることが好ましい。
そこで本発明の実施形態は、オーディオ信号の内容に応じた好適な音質補正を行うことのできる音質補正装置及び音質補正方法の提供を目的とする。

上記の課題を解決するために、実施形態に係る音質補正装置は、入力手段と特徴量算出手段とスコア算出手段と変調スペクトルパワー算出手段とスコア補正手段と信号補正手段とを備える。入力手段にはオーディオ信号が入力される。と徴量算出手段は、入力されたオーディオ信号の特徴量を、一定の時間長の第１区間毎に算出する。スコア算出手段は、算出された特徴量に基づいて、第１区間毎にスコア値を算出する。変調スペクトルパワー算出手段は、入力された前記オーディオ信号の変調スペクトルの、所定の変調周波数におけるパワー値を算出する。スコア補正手段は、前記第１区間を複数含む第２区間において算出された前記パワー値が一定値以上である場合、当該第２区間に含まれる複数の前記第１区間毎の前記スコア値を補正する。信号補正手段は、補正された前記スコア値に基づいて前記オーディオ信号を補正する信号補正手段とを備える。

第１実施形態のテレビ装置の利用形態例を示す図。第１実施形態のテレビ装置のシステム構成例を示す図。第１実施形態のテレビ装置のオーディオ処理に関する機能ブロック例を示す図。第１実施形態のテレビ装置によるオーディオ処理例を示す図。第１実施形態のテレビ装置によるオーディオ処理フロー例を示す図。第２実施形態のテレビ装置によるオーディオ処理フロー例を示す図。

以下、図面を参照して第１実施形態を説明する。
図１は第１実施形態に係る音質補正装置の利用形態例を示す図である。第１実施形態に係る音質補正装置は、例えば受信装置１００として実現される。そして受信装置１００は、デジタルインタフェース３００を介して表示・スピーカ装置２００と接続されている。

受信装置１００は、チューナ１５、２０及び２３（図１では不図示）、オーディオ処理部２７、映像・オーディオ出力部３２等を備える。また表示・スピーカ装置２００は、映像・オーディオ入力部２０１、スピーカ部２０３等を備える。

チューナ１５、２０及び２３は、テレビ放送の放送信号を受信する。オーディオ処理部２７は、これらチューナが受信した放送信号に含まれるオーディオ信号を補正する。次に映像・オーディオ出力部３２は、当該補正されたオーディオ信号をデジタルインタフェース３００を介して表示・スピーカ装置２００に出力する。そして表示・スピーカ装置２００のスピーカ部２０３は、映像・オーディオ入力部２０１に入力されたオーディオ信号の音を出力する。

ここでオーディオ処理部２７は、オーディオ信号を補正する場合に、当該オーディオ信号の内容に応じた補正を行うことができる。例えばオーディオ信号には、音楽の演奏音が含まれる区間や、演奏音及び歌唱音声が含まれる区間、また演奏音及び人間が発話した音声が含まれる区間等が含まれる場合がある。これに対し本実施形態の受信装置１００は、人間が発話した音声が含まれる区間を検出して、当該区間に対して好適な音質補正を行うことができるものであるが、詳細については図２乃至図５を参照して後述する。

次に図２を参照して、受信装置１００及び表示・スピーカ装置２００のシステム構成例を説明する。
受信装置１００は、入力端子１４、チューナ１５、ＰＳＫ復調部１６、ＴＳ復号部１７、入力端子１９、チューナ２０、ＯＦＤＭ復調部２１、ＴＳ復号部２２、アナログチューナ２３、アナログ復調部２４、信号処理部２５、入力端子２６、オーディオ処理部２７、グラフィック処理部２９、ＯＳＤ信号生成部３０、表示処理部３１、映像・オーディオ出力部３２、操作部３５、受光部３６、通信Ｉ／Ｆ３７、コネクタ３８、ＨＤＤ３９、制御部４０、ＣＰＵ４１、ＲＯＭ４２、ＲＡＭ４３、不揮発性メモリ４４等を備える。

入力端子１４は、ＢＳ／ＣＳ（ＢｒｏａｄｃａｓｔｉｎｇＳａｔｅｌｌｉｔｅ／ＣｏｍｍｕｎｉｃａｔｉｏｎＳａｔｅｌｌｉｔｅ）デジタル放送受信用のアンテナ１３と接続される。そして入力端子１４には、アンテナ１３が受信した衛星デジタルテレビジョン放送信号が入力される。

衛星デジタル放送用のチューナ１５は、入力端子１４に入力された放送信号を受信する。そして、チューナ１５で受信された放送信号は、ＰＳＫ（ＰｈａｓｅＳｈｉｆｔＫｅｙｉｎｇ）復調部１６にてデジタルの映像信号及びオーディオ信号に復調された後、ＴＳ（ＴｒａｎｓｐｏｒｔＳｔｒｅａｍ）復号部１７にて復号される。当該復号された映像信号及びオーディオ信号は、信号処理部２５に出力される。

入力端子１９には、当該入力端子１９に接続された地上波放送受信用のアンテナ１８が受信した地上デジタルテレビジョン放送信号が入力される。そして地上デジタル放送用のチューナ２０は、入力端子１９に入力された放送信号を受信する。そして、チューナ２０が受信した放送信号は、例えば日本ではＯＦＤＭ（ＯｒｔｈｏｇｏｎａｌＦｒｅｑｕｅｎｃｙＤｉｖｉｓｉｏｎＭｕｌｔｉｐｌｅｘｉｎｇ）復調部２１デジタルの映像信号及びオーディオ信号に復調された後、ＴＳ復号部２２にて復号され、当該復号されたデジタル映像信号及びオーディオ信号は信号処理部２５に出力される。

また、地上波放送受信用のアンテナ１８が受信した地上アナログテレビジョン放送信号は、入力端子１９を介して地上アナログ放送用のアナログチューナ２３に入力される。そしてアナログチューナ２３が受信した放送信号は、アナログ復調部２４に出力されてアナログの映像信号及びオーディオ信号に復調された後、信号処理部２５に出力される。

ここで、信号処理部２５は、ＴＳ復号部１７及び２２の夫々から入力されたデジタルの映像信号（データ）及びオーディオ信号（データ）に対して、所定のデジタル信号処理を施し、オーディオ処理部２７及びグラフィック処理部２９に出力する。また信号処理部２５は、制御部４０から入力される映像・オーディオ信号に対しても同様に信号処理を実行して出力する。

また信号処理部２５には入力端子２６が接続されている。ここで入力端子２６は、例えば複数の入力端子であり、アナログの映像信号及びオーディオ信号を、受信装置１００の外部から入力可能とするものである。そして信号処理部２５は、アナログ復調部２４及び入力端子２６からそれぞれ入力されたアナログの映像信号及びオーディオ信号をデジタル化し、当該デジタル化した映像信号及びオーディオ信号に対して所定のデジタル信号処理を施した後、オーディオ処理部２７及びグラフィック処理部２９に出力する。

オーディオ処理部２７は、信号処理部２５から入力されたデジタルのオーディオ信号に対して後述する音質補正処理を実行する。そしてオーディオ処理部２７は、補正したオーディオ信号を、スピーカ装置が出力可能な形式のオーディオ信号に変換する。そしてオーディオ処理部２７は、当該変換したオーディオ信号を映像・オーディオ出力部３２に出力する。

グラフィック処理部２９は、信号処理部２５から入力されるデジタルの映像信号に対し、ＯＳＤ（ＯｎＳｃｒｅｅｎＤｉｓｐｌａｙ）信号生成部３１が生成するＯＳＤ信号を重畳する機能を有する。そしてグラフィック処理部２９は、当該重畳した信号を表示処理部３１に出力する。またグラフィック処理部２９は、信号処理部２５から入力された映像信号と、ＯＳＤ信号生成部３０から入力されたＯＳＤ信号との何れかを選択的に表示処理部３１に出力することもできる。

表示処理部３１は、入力されたデジタルの映像信号を、表示装置が表示可能な形式の映像信号に変換した後、当該変換した映像信号を映像・オーディオ出力部３２に出力する。

映像・オーディオ出力部３２は、オーディオ処理部２７から入力されたオーディオ信号と表示処理部３１から入力された映像信号とを、デジタルインタフェース３００を介して表示・スピーカ装置２００に出力する。

操作部３５は、ユーザからの操作入力を受ける操作パネル等の操作入力装置である。また受光部３６は、リモートコントローラ等の操作入力装置（不図示）からの操作入力信号を受信する。そして操作部３５及び受光部３６は、受け付けた操作入力の情報を制御部４０に出力する。

通信Ｉ／Ｆ３７は、コネクタ３８に接続された外部機器との通信を実行する。ここで通信Ｉ／Ｆ３７は、例えばイーサネット（登録商標）を用いた一般的なＬＡＮ通信や、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）による通信を実行する。そして通信コネクタ３８には、例えばＨＤＤ等の記憶装置、ＰＣ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）レコーダ等の再生装置が接続される。また通信Ｉ／Ｆ３７は、コネクタ３８をインターネット等のネットワークに接続することも可能である。そして通信Ｉ／Ｆ３７は、コネクタ３８を介して外部機器から入力された映像やオーディオ等の信号（データ）を、制御部４０を介して信号処理部２５に出力することもできる。

ＨＤＤ３９は、映像及びオーディオのデータを記憶する機能を有する。ここでＨＤＤ３９は、例えばチューナ１５、２０及び２３等が受信したテレビ放送の映像及びオーディオデータや、通信Ｉ／Ｆ３７に入力された映像及びオーディオデータを記憶する。

制御部４０は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４１、ＲＯＭ４２、ＲＡＭ４３、不揮発性メモリ４４を備え、受信装置１００の各構成を制御し、各種の処理動作を制御する。ここでＣＰＵ４１は、各種処理動作の制御を実行する場合、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）４２に格納された制御プログラムを読み込み、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４３を作業領域として用いる。またＣＰＵ４１は、不揮発性メモリ４４に格納された各種の設定情報及び制御情報等も読み込む。

また制御部４０は、例えば操作部３５から入力される操作情報、またはリモートコントローラ（不図示）等の操作入力装置から送信され受光部３６が受信した操作情報を受けて、その操作情報の内容に応じて、受信装置１００の各構成を制御する。

また制御部４０は、ＨＤＤ３９に映像及び音声データを記憶させ、当該記憶させたデータを読み出して信号処理部２５に出力することができる。更に制御部４０は、通信Ｉ／Ｆ３７に入力された映像・音声データを信号処理部２５に出力する。

続いて表示・スピーカ装置２００のシステム構成例を説明する。表示・スピーカ装置２００は、映像・オーディオ入力部２０１、表示部２０２、スピーカ部２０３等を備える。ここで映像・オーディオ入力部２０１には、受信装置１００から出力された映像信号及びオーディオ信号が、デジタルインタフェース３００を介して入力される。そして映像・オーディオ入力部２０１は、入力された映像信号を表示部２０２に、入力されたオーディオ信号をスピーカ部２０３に出力する。そして表示部２０２は、入力された映像信号に基づいた映像を表示し、スピーカ部２０３は、入力されたオーディオ信号に基づいた音を出力する。

次に図３を参照して、オーディオ処理部２７の機能ブロック例を説明する。
オーディオ処理部２７は、例えば音声特徴量検出部５１、音声度算出部５２、音楽特徴量検出部５３、音楽度算出部５４、区間判別部５５、調整部５６、音質補正部５７等を備える。

音声特徴量検出部５１には、信号処理部２５からオーディオ信号が入力される。そして音声特徴量検出部５１は、入力されたオーディオ信号から、例えば人が発声した音声の音の成分に関する特徴量を検出する。ここで、まず音声特徴量検出部５１は、入力されたオーディオ信号を、例えば時間長が数百ｍｓｅｃ程度の区間毎にフレームとして切り出す。さらに音声特徴量検出部５１は、フレーム毎のオーディオ信号を数十ｍｓｅｃ程度のサブフレーム単位に分割する。

そして音声特徴量検出部５１は、当該サブフレーム単位で、オーディオ信号の各種パラメータを検出する。ここで音声特徴量検出部５１は、例えばオーディオ信号の振幅の２乗和であるパワー値や、オーディオ信号の時間波形が単位時間毎に振幅方向に零を横切る回数である零交差周波数等の、人間の発話時の音声の検出が可能となるパラメータを検出する。

そして音声特徴量検出部５１は、検出したこれらのパラメータのフレーム毎の平均、分散、最大、最小等の統計量を算出し、当該算出した統計量を特徴量として検出する。なお音声特徴量検出部５１は、特徴量として他のパラメータを検出しても構わない。

ここで、各パラメータの性質について説明する。例えば人間が発声する区間においては、当該発話の区間と沈黙の区間が交互に現れる場合がある。このため、サブフレーム毎のオーディオ信号の振幅パワー値の分散が大きくなる傾向があり、当該パワー値の分散を検出することにより、発声区間を検出することができる。また、人が発声する音声においては、母音では零交差周波数が低く、子音では零交差周波数が高くなるため、サブフレーム毎の零交差周波数の分散が大きくなる傾向がある。

また音声特徴量検出部５１は、入力されたオーディオ信号の発話区間を識別するための特徴量として、変調スペクトルを検出（算出）する。ここで発話区間とは、オーディオ信号の時間区間のうち、スピーチや会話等の、人間が発話した音声の信号が含まれる区間を指す。また、変調スペクトルとは、所定の周波数成分（又は所定の周波数範囲）における、当該周波数成分（範囲）のパワー値（パワー値）の時間変化の周期性を示すスペクトルである。

人間が発話した音声においては、音声が含まれる例えば８ｋＨｚ以下の帯域の周波数成分において、当該周波数成分のパワー値が４Ｈｚ程度の周期で変動する。一方、人間が発声した音声であっても、例えば歌唱の音声では、パワー値の変動は上記の周期に当てはまらないことが多い。このため、変調スペクトルに基づいて、入力されたオーディオ信号中の所定の周波数成分のパワー値変動の周期性を判別することにより、オーディオ信号中の発話音声の区間と歌唱音声の区間とを判別できる。

なお音声特徴量検出部５１は、人間の発話時の音声を識別可能な周波数成分について、変調スペクトルパワー値の変動を算出すればよい。また、当該パワー値の変動の周期は必ずしも４Ｈｚ程度であるとは限らず、例えば２乃至１０Ｈｚ程度の周期で変動する場合もあるが、一般的に４Ｈｚ程度の周期で変動する場合が多い。

ここで音声特徴量検出部５１は、変調スペクトルを検出する場合、まず、入力されたオーディオ信号のある時間区間における時間波形をフーリエ変換して、当該オーディオ信号の周波数毎のパワースペクトル（周波数−パワースペクトル）を算出する。続いて音声特徴量検出部５１は、複数の連続する区間毎の周波数−パワースペクトルに基づいて、ある周波数成分のパワー値の時間変化を示すパワースペクトルを算出する。次に音声特徴量検出部５１は、当該時間変化を示すパワースペクトルをフーリエ変換することにより、ある周波数の音のパワー値の時間変化の周期性の度合いを示す変調スペクトルを算出する。

つまり音声特徴量検出部５１は、オーディオ信号を例えばサブフレーム毎にフーリエ変換して周波数−パワースペクトルを算出する。そして当該周波数−パワースペクトルの時間軌跡をフーリエ変換することにより、フレーム毎の変調スペクトルを算出する。そして音声特徴量検出部５１は、算出した変調スペクトルを区間判別部５５に出力する。

また、当該変調スペクトルの算出において音声特徴量検出部５１は、オーディオ信号のフーリエ変換により算出した周波数−パワースペクトルを、例えば人間の聴覚上の周波数成分分解能に適した周波数スケールであるメルスケールのパワースペクトルに変換する。更にここで音声特徴量検出部５１は、フーリエ変換で得られたパワースペクトルに対し、メルスケールに変換するとともに複数の三角波フィルタバンクによる分析を行い、複数の帯域に分割されたメルスケールの周波数−パワースペクトルを算出する。

なお、人間が発声する音声の周波数は、一般的に約８ｋＨｚ以下の帯域である。このため音声特徴量検出部５１は、フーリエ変換により算出した周波数−パワースペクトルのうち、約８ｋＨｚ以下の帯域のスペクトルに対して当該メルスケール変換及び三角波フィルタバンク分析を実行する。そして音声特徴量検出部５１は、メルスケール変換及びフィルタバンク分析されたパワースペクトルから変調スペクトルを算出する。

音声度算出部５２は、音声特徴量検出部５１が検出した各種の特徴量パラメータに基づいて、入力されたオーディオ信号における人間が発声した音声成分の度合いを算出する。そして音声度算出部５２は、発声音声の度合いを示す音声スコアを生成し、当該生成したスコアを区間判別部５５に出力する。

ここで、音声度算出部５２による音声の度合いの判別方法を説明する。音声度算出部５２は、例えば線形識別関数により音声の度合いを算出する。そして当該線形識別関数では、例えば以下の式により、音声スコアＳ１が算出される。

Ｓ１＝Ａ０＋Ａ１・Ｘ１＋Ａ２・Ｘ２＋・・・・・・Ａｎ・Ｘｎ
ここでＸ１乃至Ｘｎは、音声特徴量検出部５１が検出した各種の特徴量パラメータであり、Ａ０乃至Ａｎは、特徴量パラメータの重み付け係数である。なお重み付け係数Ａ０乃至Ａｎとしては、人間が発声した音声の特徴を強く示す特徴量パラメータに対応する係数ほど大きい値となっている。また、重み付け係数Ａ０乃至Ａｎは、例えば、オーディオの内容が既知であるオーディオ信号を参照データとして入力し、その参照データについて特徴パラメータを学習することで算出される。

また、重み付け係数Ａ０乃至Ａｎは、音声スコアＳ１の値が、入力された特徴量パラメータの値に応じて例えば０−１の範囲を取り得るような係数となっていてもよい。また音声度算出部５２による音声度合いの判別は上記の方法に限るものではなく、例えばＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌｓ）等の手法を用いてもよく、更に入力されたオーディオ信号のチャンネル数に応じて異なる判別式を用いてもよい。

音楽特徴量検出部５３には、信号処理部２５からオーディオ信号が入力される。そして音楽特徴量検出部５３は、入力されたオーディオ信号から、例えば楽曲及びＢＧＭ（ＢａｃｋＧｒｏｕｎｄＭｕｓｉｃ）等の、音楽の音の成分に関する特徴量を検出する。このとき音楽特徴量検出部５３は、音声特徴量検出部５１と同様に、入力されたオーディオ信号を、例えば時間長が数百ｍｓｅｃ程度の区間毎にフレームとして切り出して、さらに数十ｍｓｅｃ程度のサブフレーム単位に分割する。

そして音楽特徴量検出部５３は、当該サブフレーム単位でオーディオ信号の各種パラメータを検出する。ここで音楽特徴量検出部５３は、例えばフーリエ変換したオーディオ信号の所定の周波数帯域でのパワー値、ステレオのオーディオ信号におけるＬＲパワー比、及びフーリエ変換したオーディオ信号における音階情報等のパラメータを検出する。そして音楽特徴量検出部５３は、検出したこれらのパラメータのフレーム毎の平均、分散、最大、最小等の統計量を算出し、当該算出した統計量を特徴量として検出する。なお音楽特徴量検出部５３は、特徴量として他のパラメータを検出しても構わない。

ここで、各パラメータの性質について説明する。例えば楽器等の演奏の音を含むオーディオ信号には、楽曲を構成する楽器に応じた特定の周波数帯域に振幅パワーが集中する場合が多い。このため、フーリエ変換したオーディオ信号の所定の周波数帯域でのパワー値を検出することにより、オーディオ信号中に所定の楽器による演奏の音の成分が含まれているかを識別することができる。

また、音楽の録音時には、ボーカル以外の楽器演奏がセンター以外に定位する場合が多い。このため例えばステレオ形式のオーディオ信号においては、左右のチャンネル間のパワー比が大きくなる傾向がある。つまり、例えばステレオのオーディオ信号におけるＬ側とＲ側とのチャンネルのオーディオ信号のパワーの比を検出することにより、オーディオ信号中に楽器演奏の音が含まれるか否かを判別できる。

また、楽器等による演奏の音が含まれるオーディオ信号においては、ある音階の音の成分が含まれる場合、当該音階の１乃至数オクターブ上（又は下）の音階の音、即ち倍音の成分も含まれる場合が多い。そのため、ある音階の音を検出した場合に、当該音階の音に対応した倍音のパワー値を検出することにより、楽器等が演奏されているか否かを判別できる。なお倍音とは、ある音の周波数の略整数倍の周波数の音を指す。

音楽度算出部５４は、音楽特徴量検出部５３が検出した各種の特徴量パラメータに基づいて、入力されたオーディオ信号における音楽の音の度合いを算出する。そして音楽度算出部５４は、オーディオ信号中に含まれる音の成分のうちの音楽の音成分の度合いを示す音楽スコアを生成し、当該生成した音声スコアを区間判別部５５に出力する。

ここで、音楽度算出部５４は、音声度算出部５２と同様に、例えば線形識別関数により音楽の度合いを算出する。
当該線形識別関数では、例えば以下の式により、音楽スコアＳ２が算出される。
Ｓ２＝Ｂ０＋Ｂ１・Ｙ１＋Ｂ２・Ｙ２＋・・・・・・Ｂｎ・Ｙｎ
ここでＹ１乃至Ｙｎは、音声特徴量検出部５３が検出した各種の特徴量パラメータであり、Ｂ０乃至Ｂｎは、特徴量パラメータの重み付け係数である。なお重み付け係数Ｂ０乃至Ｂｎとしては、音楽の音の特徴を強く示す特徴量パラメータに対応する係数ほど大きい値となっている。また、重み付け係数Ｂ０乃至Ｂｎは、例えば、オーディオの内容が既知であるオーディオ信号を参照データとして入力し、その参照データについて特徴パラメータを学習することで算出される。

また、重み付け係数Ｂ０乃至Ｂｎは、音楽スコアＳ２の値が、入力された特徴量パラメータの値に応じて例えば０−１の範囲を取り得るような係数となっていてもよい。なお音楽度算出部５４による音楽度合いの算出は上記の方法に限るものではなく、例えばＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌｓ）等の手法を用いてもよく、更に入力されたオーディオ信号のチャンネル数に応じて異なる判別式を用いてもよい。

区間判別部５５は、音声特徴量検出部５１から入力された変動スペクトル情報に基づいて、複数のフレームが、人間が発話した音声を含む区間であるか否かを判別する。ここで区間判別部５５は、例えば変動スペクトル情報に基づいて、変調周波数の所定の帯域において、変調スペクトルのパワー値が一定の閾値以上であるかを判別する。そしてこのとき区間判別部５５は、例えば４Ｈｚ付近の変調周波数や、２−１０Ｈｚの範囲の変調周波数において、変調スペクトルのパワー値が閾値以上であるかを判別する。

そして区間判別部５５は、過去のＰ個のフレームにおいて、変調スペクトルパワー値が閾値以上を示すフレームが一定数以上である場合に、当該Ｐ個のフレームを人間が発話している発話区間であると判別する。また区間判別部５５は、発話区間として判別した区間の後の区間については、変調スペクトルのパワー値が閾値以上を示すフレームの数が一定数以上でない場合であっても、当該区間を発話区間であると判別しても良い。

このとき区間判別部５５は、例えばある区間を発話区間として判別した場合に、一定のマージン時間ｍを設定し、当該マージン時間内に判別した区間を発話区間として判別する。なお当該判別処理に関しては図５及び６を参照して後述する。

また区間判別部５５は、音声度算出部５２及び音楽度算出部５４から入力された音声スコア及び音楽スコアを、当該スコアが算出された区間が発話区間であるか否かに応じて補正する。即ち区間判別部５５は、発話区間と判別した区間に含まれるフレーム毎に算出された音声スコアの値に、例えば一定値を加算又は乗算して当該音声スコアを補正（補強）する。

なお、音声特徴量検出部５２や音楽特徴量検出部５４で算出したスコア値を、そのままオーディオ信号の音質補正のレベルに対応する度合い情報として利用すると次のような問題が起こる恐れがある。例えばドラマ等の放送番組のオーディオ信号においては、ＢＧＭの音と台詞（発話）の音とが混在する区間がある。このような区間において、当該区間のある時点では音楽要素だけが、別の時点では音声要素だけがあるような場合、音声スコアや音楽スコアの判別式により算出したスコアが急激に変動する場合がある。そしてスコアの急激な変動はオーディオ信号の音質補正の急激な切替りにつながり、ユーザにとって不適な音を出力する恐れがある。

ここで、ＢＧＭと台詞とが混在する区間中のある時点のオーディオ信号を補正する場合、当該時点の過去に台詞音声が存在すると判別できれば、オーディオ信号に使用するスコア値の急激な変動を抑えて滑らかにオーディオ信号を補正できる。これに対し本実施形態の受信装置１００は、発話音声を高い確度で検出できる特定のパラメータを、音声スコア及び音楽スコア算出の後段で用いて、スコア判別式により算出されたのスコア値を事後的に調整制御できる。

さらに、一般に音楽要素が音声要素より支配的になるような区間においては、音声要素が埋もれる場合がある。この場合、当該音声の要素の検出は一般的に困難となるが、8kHz以下の帯域に対して抽出した4Hz付近の変調スペクトルパワーは、音楽が重畳された区間でも音声を検出する確度が大きい。このため上記調整制御用のパラメータとして用いるのに好適である。

調整部５６は、音声度算出部５２が生成した音声スコアＳ１及び音楽度算出部５４が生成した音楽スコアＳ２の調整を行う。ここで調整部５６は、例えば複数のフレーム単位でスコアの移動平均値を算出して、フレーム毎の音声スコア及び音楽スコアを平滑化する。

音質補正部５７は、調整部５６が調整した音声スコア及び音楽スコアに基づいて、オーディオ信号の補正を行う。ここで音質補正部５７は、例えば音声スコアが入力されると、当該スコアのスコア値に応じて、オーディオ信号を人間の声に適した音質に補正する。前述の通り、スコア値は例えば０−１の間の数値を取り得る。そして音質補正部５７は、当該数値の大小に応じた度合いで音質を補正する。

そして音質補正部５７は、オーディオ信号を人間の声に適した音質に補正する場合、例えばステレオ形式等のオーディオ信号のセンターに定位する信号成分を強調する補正を行う。これは、スポーツ番組の実況や音楽番組のトークシーンにおける人間の声の信号は、複数チャンネルのオーディオ信号のセンターに定位している場合が多いためであり、センターの信号成分を強調することにより、発話した声の信号を明瞭にする音質補正が可能となる。

なお音質補正部５７による、声に適した音質の補正は上記に限るものではなく、オーディオ信号に含まれる人間の発声した音声の成分を、ユーザにとって好適な音質にできる補正であればどのような補正であっても構わない。しかし何れの補正であっても、音質補正部５７は、入力された音声スコアのスコア値に応じた度合いでこれらの補正を実行する。

また音質補正部５７は、音楽スコアが入力されると、当該スコアのスコア値に基づいて、オーディオ信号を音楽に適した音質に補正する。ここで音質補正部５７は、例えばオーディオ信号に対してワイドステレオ処理やリバーブ処理等を行うことにより、オーディオ信号を音楽に適した音質に補正する。ワイドステレオ処理とは、例えば２チャンネルのステレオ形式のオーディオ信号に対して、Ｌ及びＲのオーディオ信号の夫々を調整することにより、当該オーディオ信号の音をスピーカ装置から出力した場合に当該出力音が広がり感のある音となるように補正する処理である。またリバーブ処理とは、オーディオ信号に対して、当該オーディオ信号の音の成分が残響効果を有するように補正する処理である。

なお音質補正部５７による音楽に適した音質の補正は上記に限るものではなく、オーディオ信号中の音楽の音声成分をユーザにとって好適な音質にできる補正であればどのような補正であっても構わない。しかし何れの補正であっても、音質補正部５７は、入力された音楽スコアのスコア値に応じた度合いでこれらの補正を実行する。

そして音声音質補正部５７は、補正したオーディオ信号を映像・オーディオ出力部３２に出力する。
次に図４を参照して、オーディオ処理部２７による処理例を説明する。
図４に示すオーディオ信号Ｓｇは、例えば数百ｍｓｅｃの時間長毎の区間であるフレームＦ１乃至Ｆｎに分割される。そして、夫々のフレームは、更に数十ｍｓｅｃの時間長毎の区間であるサブフレームＧ１乃至Ｇｎに分割される。ここで音声特徴量検出部５１及び音楽特徴量検出部５４は、サブフレームＧ１乃至Ｇｎの夫々から各種パラメータを検出し、当該検出したパラメータを用いて、フレームの特徴量を算出する。

そしてフレームの特徴量が算出されると、音声度算出部５２及び音楽度算出部５４は、当該特徴量に基づいて、オーディオ信号中の音声の音成分及び音楽の音成分の度合いを示すスコアをフレーム単位で算出する。

また、ここで音声特徴量検出部５１は、サブフレーム毎にオーディオ信号Ｓｇをフーリエ変換してパワースペクトルを算出し、複数のサブフレーム毎のパワースペクトルを用いてパワースペクトルの時間軌跡を生成する。そして音声特徴量検出部５１は、スペクトルの時間軌跡を更にフーリエ変換することにより、変調スペクトルを得る。ここで区間判別部５５は、当該変調スペクトルに基づいて、当該変調スペクトルの所定の変調周波数におけるパワー値が一定の値である閾値以上であるか否かを判別する。

そしてオーディオ処理部２７は、上記の処理をフレーム毎に繰り返す。このとき、区間判別部５５は、例えばＰ個のフレームのうち一定数以上の数のフレームで、変調スペクトルのパワー値が一定値以上である場合、当該Ｐ個のフレームの区間を発話区間であると判別する。

そして区間判別部５５は、当該発話区間であると判別した区間に含まれるフレーム毎に算出された音声スコアの値に、例えば一定値を加算又は乗算して当該音声スコアを補正する。

次に図５を参照して、オーディオ処理部２７によるオーディオ処理フロー例を説明する。
まず音声特徴量検出部５１及び音楽特徴量検出部５４に、フレーム単位のオーディオ信号が入力される（Ｓ５０１）。そして音声特徴量検出部５１及び音楽特徴量検出部５４は、入力されたフレームの特徴量を算出する（Ｓ５０２）。また、ここで音声特徴量検出部５１は、フレーム単位のオーディオ信号の変調スペクトルのパワー値を算出する（Ｓ５０３）。

続いて音声度算出部５２及び音楽度算出部５４は、算出された特徴量に基づいて、当該特徴量が算出されたフレームのオーディオ信号における音声及び音楽の音成分の度合いを示すスコアを算出する（Ｓ５０３）。なおここで音声度算出部５２は、オーディオ信号中の音声の音の成分の度合いを示す音声スコアを算出し、音楽度算出部５４は、オーディオ信号中の音楽の音の成分の度合いを示す音楽スコアを算出する。

次に区間判別部５５は、連続するＰ個のフレームにおいて、変調スペクトルのパワー値が閾値を超えるフレームの数が一定数以上であるか否かを判別する（Ｓ５０５）。ここでフレーム数が一定数以上の場合（Ｓ５０５のＹｅｓ）、区間判別部５５は、マージン時間として一定時間ｍを設定し（Ｓ５０６）、音声スコアを補正する（Ｓ５０７）。なおＳ５０５において、変調スペクトルのパワー値の閾値は例えば複数であっても良い。そしてこの場合Ｓ５０７において区間判別部５５は、変調スペクトルのパワー値が超えた閾値に応じた度合いで音声スコアを補正する。

一方Ｓ５０５においてフレーム数が一定数に満たない場合（Ｓ５０５のＮｏ）、区間判別部５５は、マージン時間ｍをデクリメントして（Ｓ５０８）、マージン時間ｍが０より大きいかを判別する（Ｓ５０９）。そして区間判別部５５は、マージン時間ｍが０より大きい場合（Ｓ５０９のＹｅｓ）、Ｓ５０７の処理を実行し、マージン時間が０の場合（Ｓ５０９のＮｏ）、Ｓ５１０の処理を実行する。

このようにマージン時間を設定することにより、例えばドラマ等における台詞の区間のように、発話区間が途切れがちな区間であっても、連続的に発話の区間であるとして判別し、オーディオ信号に対して変動を抑えた補正をすることができる。

なお区間判別部５５は、マージン時間が設定されていない場合、Ｓ５０８の処理を省略し、またＳ５０９においてマージン時間ｍが０であると判別する。またＳ５０８において区間判別部５５は、マージン時間ｍを例えば数十ｍｓｅｃデクリメントする。

次にオーディオ処理部２７は、後続するフレームがある場合（Ｓ５１０のＹｅｓ）、Ｓ５０１の処理を実行してフレームを入力する。一方フレームが入力されない場合（Ｓ５１０のＮｏ）、オーディオ処理部２７による処理フローは完了する。

なお本実施形態において、受信装置１００は音楽の度合いを示す音楽スコアと音声の度合いを示す音声スコアとの２つのスコアを算出するとして説明したが、スコアの形式はこれに限るものではない。例えば１つのスコアの値により音声及び音楽の度合いの両方を示しても構わない。そしてこの場合にも区間判別部５５は、変調スペクトルのパワー値に応じて、当該１つのスコアを補正する。また、ここで区間判別部５５は、変調スペクトルパワー値に基づいて発話区間と判別した区間のスコアを、音声の度合いが強くなるように補正する。そして音質補正部５７は、入力されたスコアの値が示す音声及び音楽の度合いに応じてオーディオ信号を補正する。

また本実施形態において、受信装置と表示装置とは別の装置であるとして説明しているが、例えばテレビジョン装置のように受信装置と表示装置とが一体であっても構わない。

（第２実施形態）
以下、図６を参照して、第２実施形態を説明する。なお、第２実施形態に係る音質補正装置は、第１実施形態と同様に例えば受信装置１００として実現される。そして第２実施形態に係る受信装置１００のシステム構成及び構成毎の機能については第１実施形態と同様であるため、ここでは第１実施形態と異なる機能及び処理フロー例を中心に説明する。

第１実施形態に係る受信装置１００においては、音声特徴量検出部５１が検出した変調スペクトルに基づいて区間判別部５５がスコアを補正していた。これに対し第２実施形態に係る受信装置１００において区間判別部５５は、音声特徴量検出部５１が検出した特徴量のうちの何れかの特徴量と、音楽特徴量検出部５３が検出した特徴量のうちの何れかの特徴量とに基づいてスコアを補正する。

まず図３を参照して第２実施形態に係るオーディオ処理部２７の機能例を説明する。
音声特徴量検出部５１は、第１実施形態と同様に特徴量を検出し、当該検出した特徴量を音声度算出部５２に出力する。また音声特徴量検出部５１は、検出した特徴量のうち、オーディオ信号中の発話区間の識別に有効な特徴量を、音声スコア補正用の特徴量として区間判別部５５に出力する。なおここで音声特徴量検出部５１は、例えば変調スペクトルのパワー値を区間判別部５５に出力するが、ここで音声特徴量検出部は、発話区間の識別に有効な特徴量であればどのような特徴量を出力しても構わない。

また音声特徴量検出部５１は、検出した特徴量を音声度算出部５２に出力し、音声度算出部５２は、入力された特徴量に基づいて音声スコアを算出する。
音楽特徴量検出部５３は、特徴量を検出すると共に、検出した特徴量のうち、オーディオ信号中の音楽の区間を効果的に判別することができる特徴量を、音楽スコア補正用の特徴量として区間判別部５５に出力する（音楽特徴量検出部５３から区間判別部５５へのデータフローは不図示）。ここで音楽特徴量検出部５３は、例えば音階に関する特徴量のように、オーディオ信号中に音楽が含まれていることを強く示す特徴量を区間判別部５５に出力するが、出力する特徴量はこれに限るものではない。

また音楽特徴量５３は、検出した特徴量を音楽度算出部５４に出力する。そして音楽度算出部５４は、入力された特徴量に基づいて、オーディオ信号中の音楽の音の成分の度合いを示す音楽スコアを算出する。

区間判別部５５は、入力された音声スコア補正用の特徴量と音楽スコア補正用の特徴量とに基づいて、音声スコア及び音楽スコアを補正する。ここで区間判別部５５は、例えばＰ個のフレームにおいて音声スコア補正用の特徴量Ｃ１が閾値以上であるフレームが一定数以上の場合であって、当該Ｐ個のフレーム中に音楽スコア補正用の特徴量Ｃ２が閾値以上であるフレームが一定数以上の場合に、当該Ｐ個のフレームの区間に対して算出された音声スコア及び音楽スコアの値をクリップ処理する。

ここでクリップ処理とは、音声スコア及び音楽スコアの値を、これらのスコア値が取り得る値の中程度の範囲に制限する処理である。つまり、例えば音声スコア値や音楽スコア値が取り得る値の最大値が１で最小値が０の場合、当該クリップ処理により、スコアの値は例えば０．３−０．７程度の範囲に補正される。なおクリップ処理により補正される値の範囲はこれに限るものではなく、少なくともスコアが取り得る値の最小値より大きな値と当該取り得る値の最大値より小さな値との間の範囲であればよい。

ここで図６を参照して、第２実施形態に係るオーディオ処理の処理フロー例を説明する。
まずオーディオ処理部２７にオーディオ信号が入力されると、音声特徴量検出部５１及び音楽特徴量検出部５４は、入力されたオーディオ信号のフレーム単位で特徴量を算出する（Ｓ６０１）。ここで音声特徴量検出部５１は、変調スペクトルのパワー値等の、音声スコアの補正に用いるための特徴量Ｃ１を検出する（Ｓ６０２）。またこのとき音楽特徴量検出部５３は、例えば音階に関する特徴量等の、音楽スコアの補正に用いるための特徴量Ｃ２を検出する（Ｓ６０３）。

続いて音声度算出部５２及び音楽度算出部５４は、算出された特徴量に基づいて、当該特徴量が算出されたフレームのオーディオ信号における音声成分や音楽成分を示すスコアを算出する（Ｓ６０４）。

次に区間判別部５５は、連続するＰ個のフレームにおいて、音声スコア補正用の特徴量の値が閾値を超えるフレームの数が一定数以上であるか否かを判別する（Ｓ６０５）。ここでフレーム数が一定数以上の場合（Ｓ６０５のＹｅｓ）、区間判別部５５は続いて音楽スコア補正用の特徴量の値が閾値を超えるフレームの数が一定数以上であるか否かを判別する（Ｓ６０６）。そしてフレーム数が一定数以上の場合（Ｓ６０６のＹｅｓ）、区間判別部５５は、マージン時間ｍを設定し（Ｓ６０７）、音声スコア値及び音楽スコア値をクリップ処理する（Ｓ６０８）。なおＳ６０８において区間判別部５５は、音声スコア値と音楽スコア値とのうち少なくとも一方をクリップ処理しても構わない。

一方Ｓ６０５又はＳ６０６において、特徴量の値が閾値を越えるフレームの数が一定数未満の場合（Ｓ６０５のＮｏ、Ｓ６０６のＮｏ）、区間判別部５５はマージン時間ｍをデクリメントして（Ｓ６０９）、マージン時間ｍが０より大きいかを判別する（Ｓ６１０）。そして区間判別部５５は、マージン時間ｍが０より大きい場合（Ｓ６１０のＹｅｓ）、Ｓ６０８の処理を実行し、マージン時間が０の場合（Ｓ６１０のＮｏ）、Ｓ６１１の処理を実行する。

次にオーディオ処理部２７は、後続するフレームがある場合（Ｓ６１１のＹｅｓ）、次のフレームを入力してＳ６０１の処理を実行する。一方、残りのフレームがない場合（Ｓ６１１のＮｏ）、オーディオ処理部２７による処理フローは完了する。

第１及び第２実施形態によれば、受信装置１００は、入力されたオーディオ信号中の歌唱区間と発話区間とを判別して、夫々の区間に応じた音質のオーディオ信号を出力することができる。また受信装置１００は、オーディオ信号から検出されたフレームの特徴量に基づいて算出したスコア値を、複数のフレームに対して算出した例えば変調スペクトルのパワー値等の特徴量に基づいて補正することができる。このため、オーディオ信号中に音楽要素と発話要素とが混在する区間において、スコア値の変動を抑制し、当該スコアに基づいて補正されるオーディオ信号の変動を抑えることができる。

なお、本発明の実施形態は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具現化できる。例えば本実施形態の区間判別部５５が補正したスコア値に基づいて、発話区間をインデクシングする装置等に応用することもできる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。

１００…受信装置、１３…アンテナ、１４…入力端子、１５…チューナ、１６…ＰＳＫ復調部、１７…ＴＳ復号部、１８…アンテナ、１９…入力端子、２０…チューナ、２１…ＯＦＤＭ復調部、２２…ＴＳ復号部、２３…アナログチューナ、２４…アナログ復調部、２５…信号処理部、２６…入力端子、２７…オーディオ処理部、２９…グラフィック処理部、３０…ＯＳＤ信号生成部、３１…表示処理部、３２…映像・オーディオ出力部、３５…操作部、３６…受光部、３７…通信Ｉ／Ｆ、３８…コネクタ、３９…ＨＤＤ、４０…制御部、４１…ＣＰＵ、４２…ＲＯＭ、４３…ＲＡＭ、４４…不揮発性メモリ、５１…音声特徴量検出部、５２…音声度算出部、５３…音楽特徴量検出部、５４…音楽度算出部、５５…区間判別部、５６…調整部、５７…音質補正部、２００…表示・スピーカ装置、２００…表示部、２０３…スピーカ部

Claims

オーディオ信号が入力される入力手段と、
入力された前記オーディオ信号の特徴量を、一定の時間長の第１区間毎に算出する特徴量算出手段と、
算出された前記特徴量に基づいて、前記第１区間毎にスコア値を算出するスコア算出手段と、
入力された前記オーディオ信号の変調スペクトルの、所定の変調周波数におけるパワー値を算出する変調スペクトルパワー算出手段と、
前記第１区間を複数含む第２区間において算出された前記パワー値が一定値以上である場合、当該第２区間に含まれる複数の前記第１区間毎の前記スコア値を補正するスコア補正手段と、
補正された前記スコア値に基づいて前記オーディオ信号を補正する信号補正手段と
を備える音質補正装置。
前記算出手段は、前記第１区間毎に前記パワー値を算出し、
前記スコア補正手段は、前記第２区間に、算出された前記パワー値が一定値以上である前記第１区間が一定数以上含まれる場合に前記スコア値を補正する、請求項１記載の音質補正装置。
前記スコア補正手段は、前記第２区間に、算出された前記パワー値が一定値以上である前記第１区間が一定数以上含まれる場合、当該第２区間に後続する区間の前記パワー値が一定値以上でない場合であっても、当該後続する区間の前記スコア値を補正する、請求項２記載の音質補正装置。
前記変調スペクトルパワー算出手段は、前記変調スペクトルの、２乃至１０Ｈｚの変調周波数帯域に含まれる変調周波数成分のパワー値を算出する、請求項１記載の音質補正装置。
前記スコア算出手段は、算出された前記特徴量に基づいて、前記オーディオ信号に含まれる声の音の成分の度合いを示す音声スコア値を前記第１区間毎に算出し、
前記スコア補正手段は、前記第１区間を複数含む第２区間において算出された前記パワー値が一定値以上である場合、当該第２区間に含まれる複数の前記第１区間毎の前記音声スコア値を補正し、
前記信号補正手段は、補正された前記音声スコア値に基づいて前記オーディオ信号に第１の補正を実行する、請求項１記載の音質補正装置。
前記スコア算出手段は、算出された前記特徴量に基づいて、前記オーディオ信号に含まれる音楽の音の成分の度合いを示す音楽スコア値を算出し、
前記スコア補正手段は、前記第１区間を複数含む第２区間において算出された特徴量のうち、何れかの特徴量が示す値が一定値以上である場合、当該第２区間に含まれる複数の前記第１区間毎の前記音楽スコア値を補正し、
前記信号補正手段は、補正された前記音楽スコア値に基づいて、前記オーディオ信号に、前記第１の補正とは異なる第２の補正を実行する、請求項５記載の音質補正装置。
前記スコア補正手段は、前記第２区間に対して算出された前記パワー値が第１の値以上であり、前記第２区間に対して算出された前記何れかの特徴量が示す値が第２の値以上である場合、前記音声スコア値を、当該音声スコア値が取り得る値の最大値よりも小さな値と、前記取り得る値の最小値よりも大きな値との間の値にクリップする前記第１の補正を実行する、請求項６記載の音質補正装置。
前記スコア補正手段は、前記第２区間に対して算出された前記パワー値が第１の値以上であり、前記第２区間に対して算出された前記何れかの特徴量が示す値が第２の値以上である場合、前記音楽スコア値を、当該音楽スコア値が取り得る値の最大値よりも小さな値と、前記取り得る値の最小値よりも大きな値との間の値にクリップする第２の補正を実行する、請求項６記載の音質補正装置。
オーディオ信号が重畳された放送波を受信するチューナを更に備え、
前記入力手段には、前記チューナが受信した放送波に重畳された前記オーディオ信号が入力される、請求項１記載の音質補正装置。
オーディオ信号が入力される装置における音質補正方法であって、
オーディオ信号が入力されることと、
入力された前記オーディオ信号の特徴量を、一定の時間長の第１区間毎に算出することと、
算出された前記特徴量に基づいて、前記第１区間毎にスコア値を算出することと、
入力された前記オーディオ信号の変調スペクトルの、所定の変調周波数におけるパワー値を算出することと、
前記第１区間を複数含む第２区間において算出された前記パワー値が一定値以上である場合、当該第２区間に含まれる複数の前記第１区間毎の前記スコア値を補正し、当該補正したスコア値に基づいて前記オーディオ信号を補正することと
を備える音質補正方法。