JP6969368B2

JP6969368B2 - オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法。

Info

Publication number: JP6969368B2
Application number: JP2017251461A
Authority: JP
Inventors: 森茂藤澤; 浩太郎中林; 雄太湯山
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-12-27
Filing date: 2017-12-27
Publication date: 2021-11-24
Anticipated expiration: 2037-12-27
Also published as: US20190200151A1; US10848888B2; JP2019118038A

Description

本発明は、オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法に関する。

下記特許文献１には、チューナから取得したオーディオ信号に対して、デコード処理、音響処理、遅延処理等を施す音声処理部が、音場効果を切り替える際に、ノイズ発生を防止するために、一定期間音声をミュートする構成が開示されている。

特開２０１０−９８４６０号公報

本発明においては、ミュート処理を行うことなく、ノイズの発生を抑制した音場効果の切り替えを実現することを目的とする。

本開示に係るオーディオデータ処理装置は、パラメータを用いた演算処理により、オーディオデータに音場効果データを付与する音場効果データ生成部と、前記オーディオデータにつきシーンの解析を行うシーン解析部と、前記シーン解析部による解析結果に基づきシーンの切り替えを認識すると、前記音場効果データ生成部の入力ゲインと出力ゲインの双方を段階的に減少させ、前記パラメータを変化させた後、前記入力ゲインと前記出力ゲインの双方を段階的に増加させる制御部と、を含む、オーディオデータ処理装置。

本開示に係るオーディオデータ処理装置の制御方法は、パラメータを用いた演算処理により、オーディオデータに音場効果データを付与する音場効果データ生成部を含む、オーディオデータ処理装置の制御方法であって、前記オーディオデータにつきシーンの解析を行う第１のステップと、前記シーンの解析結果に基づき前記シーンの切り替えを認識する第２のステップと、前記音場効果データ生成部の入力ゲインと出力ゲインの双方を段階的に減少させる第３のステップと、前記演算処理に用いられるパラメータを変化させる第４のステップと、前記音場効果データ生成部の前記入力ゲインと前記出力ゲインの双方を段階的に増加させる第５のステップと、を含む。

図１は第１の実施形態におけるオーディオデータ処理装置を含む聴取環境の模式図である。図２は第１の実施形態におけるオーディオデータ処理装置の構成を示す模式的なブロック図である。図３は第１の実施形態における制御部、オーディオデータ処理部、及びシーン解析部の機能的構成を示したブロック図である。図４は第１の実施形態におけるオーディオデータ処理装置の制御方法を示すフローチャートである。図５は第１の実施形態における制御部、オーディオデータ処理部、及びシーン解析部の機能的構成を示したブロック図である。

［第１の実施形態］
第１の実施形態について、図面を用いて以下に説明する。

［オーディオデータ処理装置１］
図１は、本実施形態におけるオーディオデータ処理装置１を含む聴取環境の模式図である。図１に示すように、本実施形態では、聴取位置Ｕの周囲に、フロント・レフトスピーカ２１Ｌ、フロント・ライトスピーカ２１Ｒ、センタースピーカ２１Ｃ、サラウンド・レフトスピーカ２１ＳＬ、およびサラウンド・ライトスピーカ２１ＳＲが設置されている。フロント・レフトスピーカ２１Ｌは、聴取位置Ｕの前方左側、フロント・ライトスピーカ２１Ｒは、聴取位置Ｕの前方右側、センタースピーカ２１Ｃは、聴取位置Ｕの前方中央、サラウンド・レフトスピーカ２１ＳＬは、聴取位置Ｕの後方左側、サラウンド・ライトスピーカ２１ＳＲは、聴取位置Ｕの後方右側に設置されている。フロント・レフトスピーカ２１Ｌ、フロント・ライトスピーカ２１Ｒ、センタースピーカ２１Ｃ、サラウンド・レフトスピーカ２１ＳＬ、およびサラウンド・ライトスピーカ２１ＳＲは、それぞれオーディオデータ処理装置１に、無線又は有線により接続されている。なお、本実施形態においては、５ｃｈのサラウンドシステムを例に挙げて説明するが、本開示は、その他、２．０ｃｈ、５．１ｃｈ、７．１ｃｈ、１１．２ｃｈなど、様々なチャンネル数のサラウンドシステムにおいても用いることができる。

図２は、本実施形態におけるオーディオデータ処理装置の構成を示す模式的なブロック図である。図２に示すように、本実施形態におけるオーディオデータ処理装置１は、入力部１１、デコーダ１２、チャンネル拡張部１３、オーディオデータ処理部１４、Ｄ／Ａコンバータ１５、アンプ（amplifier）１６、制御部１７、ＲＯＭ（read‐only memory）１８、ＲＡＭ（Random access memory）１９、及びシーン解析部２０を備えている。

制御部１７は、ＲＯＭ１８に記憶されている動作用プログラム（ファームウェア）をＲＡＭ１９に読み出し、オーディオデータ処理装置１を統括的に制御する。当該動作用プログラムは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。

入力部１１は、ＨＤＭＩ（登録商標）やネットワークを経由して、オーディオ信号を取得する。オーディオ信号の方式としては、例えば、ＰＣＭ（pulse code modulation）、Dolby（登録商標）、Dolby TrueHD、Dolby Digital Plus、DOLBY ATMOS（登録商標）、ＡＡＣ（Advanced Audio Coding）（登録商標）、ＤＴＳ（登録商標）、DTS-HD（登録商標） Master Audio、DTS：X（登録商標）、ＤＳＤ（Direct Stream Digital）（登録商標）などが含まれ、その種類は特に限定されない。入力部１１は、オーディオデータをデコーダ１２に出力する。

本実施形態において、ネットワークは、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）などを含み、オーディオデータ処理装置１と、光ディスクプレイヤー等のソース装置との信号伝達経路として機能する。

デコーダ１２は、例えばＤＳＰ（Digital Signal Processor）からなり、オーディオ信号をデコードし、オーディオデータを抽出する。なお、本実施形態においては、オーディオデータは特に記載がない限り全てデジタルデータとして説明する。

チャンネル拡張部１３は、例えばＤＳＰからなり、上述したフロント・レフトスピーカ２１Ｌ、フロント・ライトスピーカ２１Ｒ、センタースピーカ２１Ｃ、サラウンド・レフトスピーカ２１ＳＬ、サラウンド・ライトスピーカ２１ＳＲのそれぞれに対応する、複数チャンネルのオーディオデータをチャンネル拡張処理によって生成する。なお、チャンネル拡張処理については、周知技術（例えば米国特許第７００３４６７号公報等）を適用することができる。生成された各チャンネルのオーディオデータは、オーディオデータ処理部１４に出力される。

オーディオデータ処理部１４は、例えばＤＳＰからなり、制御部１７の設定に応じて、入力された各チャンネルのオーディオデータに所定の音場効果データを付与する処理を行う。

音場効果データは、例えば入力されたオーディオデータから生成される擬似反射音データからなる。生成された擬似反射音データは、元のオーディオデータに加算されて出力される。

Ｄ／Ａコンバータ１５は、各チャンネルのオーディオデータをアナログ信号に変換する。

アンプ１６は、Ｄ／Ａコンバータ１５から出力されたアナログ信号を増幅し、フロント・レフトスピーカ２１Ｌ、フロント・ライトスピーカ２１Ｒ、センタースピーカ２１Ｃ、サラウンド・レフトスピーカ２１ＳＬ、サラウンド・ライトスピーカ２１ＳＲのそれぞれに出力する。このような構成により、オーディオコンテンツの直接音に擬似反射音が付与された音声が各スピーカから出力され、聴取位置Ｕの周囲に所定の音響空間を模した音場が形成される。

図３は、本実施形態における制御部１７、オーディオデータ処理部１４、及びシーン解析部２０の機能的構成を示したブロック図である。オーディオデータ処理部１４は、第１の加算処理部１４１、音場効果データ生成部１４２、および第２の加算処理部１４３を備えており、第１の加算処理部１４１は、音場効果データ生成部１４２の入力ゲインを、第２の加算処理部１４３は、音場効果データ生成部１４２の出力ゲインを調整する。

第１の加算処理部１４１は、各チャンネルのオーディオデータを所定のゲインで合成して、モノラル信号にダウンミックスする。各チャンネルのゲインは、制御部１７により設定される。なお、この第１の加算処理部１４１を複数設け、複数の第１の加算処理部１４１のそれぞれが、ダウンミックスしたモノラル信号を出力する構成としてもよい。

音場効果データ生成部１４２は、制御部１７の指示に基づき、各種パラメータを用いて、第１の加算処理部１４１から出力されたモノラル信号に対して演算処理を行い、音場効果データを生成する。第１の加算処理部１４１が複数存在し、複数のモノラル信号が出力された場合には、音場効果データ生成部１４２が、複数のモノラル信号について演算処理を行い、複数の音場効果データを生成する。音場効果データ生成部１４２は、生成した音場効果データを、後述する第２の加算処理部１４３を介して、各チャンネルのオーディオデータに付与する。音場効果データ生成部１４２が演算処理に用いるパラメータとしては、例えば、各チャンネルのゲイン比率、ディレイタイム、及びフィルタ係数など、多数含まれている。音場効果データ生成部１４２は、制御部１７から出力されたコマンド信号に従い、ゲイン比率、ディレイタイム、フィルタ係数等の各種パラメータを用いた演算処理を実行する。

第２の加算処理部１４３は、チャンネル拡張部１３から送信された各チャンネルのオーディオデータに、音場効果データ生成部１４２が生成した音場効果データを足し合わせる。各チャンネルのゲインは、制御部１７により設定される。

シーン解析部２０は、オーディオデータにつきシーン解析を行う。シーンの種類としては、本実施形態においては、例えば「映画シーン」、「音楽シーン」、「静かなシーン」、「セリフ重視のシーン」、「ＢＧＭ重視のシーン」、「効果音重視のシーン」、及び「低域重視のシーン」などが含まれる。

シーン解析部２０は、機械学習を用いて、チャンネル拡張部１３から出力されたオーディオデータが、上述したシーンの内のいずれに当てはまるかを判定する。具体例としては、シーン解析部２０は、数千から数万のオーディオデータのパターンに関する情報を記憶している。この情報には、各シーンの特徴量や、各パターンがいずれのシーンに該当するかに関する情報等が含まれている。各シーンの特徴量としては、ゲイン比率の情報、周波数特性の情報、チャンネル構成などの情報を総合した情報が含まれている。そして、シーン解析部２０は、例えばサポートベクターマシンによるパターン認識を用いて、チャンネル拡張部１３から出力されたオーディオデータが、どのシーンに当てはまるかを判定する。シーン解析部２０は、解析結果を制御部１７に出力する。

制御部１７は、シーン解析部２０による解析結果に基づき、シーンの切り替えを認識すると、音場効果データ生成部１４２の入力ゲインと出力ゲインの双方を段階的に減少させる。具体的には、制御部１７は、シーンの切り替えを認識すると、第１の加算処理部１４１、及び第２の加算処理部１４３における、各チャンネルのゲインを、例えば−６０ｄＢのような、非常に小さな値にまで段階的に減少させる。

制御部１７は、シーン解析部２０によるシーン解析結果に基づくコマンド信号を音場効果データ生成部１４２に出力する。当該コマンド信号には、音場効果データ生成部１４２が演算処理に用いる各種パラメータの設定に関する指示が含まれている。各種パラメータには、例えば各チャンネルのゲイン比率や、フィルタ係数、及びディレイタイム等が含まれる。音場効果データ生成部１４２は、このコマンド信号に基づき、各種パラメータの変更を行う。

音場効果データ生成部１４２による各種パラメータの変更が行われた後、制御部１７は、音場効果データ生成部１４２の入力ゲインと出力ゲインとを、シーン切り替え前の状態にまで、段階的に増加させる。即ち、制御部１７は、第１の加算処理部１４１、及び第２の加算処理部１４３における、各チャンネルのゲインを、シーン切り替え前の状態にまで段階的に増加させる。

上述した構成によって、音場効果データが付与されたオーディオデータは、Ｄ／Ａコンバータ１５においてアナログ信号に変換され、アンプ１６で増幅された後に各スピーカに出力される。これにより、聴取位置Ｕの周囲に所定の音響空間を模した音場が形成される。

［オーディオデータ処理装置１の制御方法］
図４は、本実施形態におけるオーディオデータ処理装置１の制御方法を示すフローチャートである。以下、図４を用いて、本実施形態におけるオーディオデータ処理装置１の制御方法について説明する。

［シーン解析ステップＳ００１］
チャンネル拡張部１３から、各チャンネルのオーディオデータが出力されると、シーン解析部２０が、このオーディオデータが、どのようなシーンかについて解析する。シーン解析部２０によるシーン解析は、上述したとおり、機械学習を用いて行うことができる。本実施形態に含まれるシーンとしては、例えば「映画シーン」、「音楽シーン」、「静かなシーン」、「セリフ重視のシーン」、「ＢＧＭ重視のシーン」、「効果音重視のシーン」、及び「低域重視のシーン」などが含まれる。

シーンの切り替え方法には、通常パターンのシーン切り替えと、例外パターンのシーン切り替えとがあり、例外パターンのシーン切り替えについては、例えば予めＲＯＭ１８に記憶させておくか、あるいはシーン解析部２０に記憶させておく。

本実施形態においては、ＲＯＭ１８が、例外パターンの切り替え例として、切り替え後の状態が「低域重視のシーン」であった場合、切り替え後の状態が「音楽シーン」であった場合、及び切り替え前後が「静かなシーン」、「セリフ重視のシーン」の組み合わせであった場合の３パターンを記憶していることとする。

まずは、通常パターンのシーン切り替えの例として、シーン解析部２０が、第１の時点Ｔ１におけるシーンが「音楽シーン」であり、切り替え後である第２の時点Ｔ２におけるシーンが「映画シーン」であると判定した例について説明する。

［切り替え認識ステップＳ００２］
第１の時点Ｔ１において、制御部１７は、シーン解析部２０から、第１の時点Ｔ１におけるシーンが「音楽シーン」である旨の判定結果を受け取っている。制御部１７は、第２の時点Ｔ２においても、この判定結果を記憶している。

第２の時点Ｔ２において、シーン解析部２０から、第２の時点Ｔ２におけるシーンが「映画シーン」である旨の判定結果を受けた制御部１７は、「音楽シーン」から「映画シーン」にシーンが切り替わることを認識する。

また、制御部１７は、今回のシーン切り替えが、予めＲＯＭ１８に記憶させておいて例外パターンに属するか否かを判断する。今回の「音楽シーン」から「映画シーン」へのシーン切り替えは、切り替え後の状態が「低域重視のシーン」でもなく、「音楽シーン」でもなく、切り替え前後が「静かなシーン」、「セリフ重視のシーン」の組み合わせでもない。そのため、制御部１７は、今回のシーン切り替えが、上述した例外パターンに属さない、通常パターンのシーン切り替えであると判断する。

ここで、「音楽シーン」における、各チャンネルのゲイン比率が第１の比率Ｒ１であり、フィルタ係数が第１のフィルタ係数Ｆ１であり、ディレイタイムが第１のディレイタイムＤ１であるとする。また、「映画シーン」における、各チャンネルのゲイン比率が第２の比率Ｒ２であり、フィルタ係数が第２のフィルタ係数Ｆ２であり、ディレイタイムが第２のディレイタイムＤ２であるとする。

ここで、本実施形態においては、第１の比率Ｒ１と第２の比率Ｒ２は異なり、第１のフィルタ係数Ｆ１と第２のフィルタ係数Ｆ２とは異なり、第１のディレイタイムＤ１と第２のディレイタイムＤ２とは異なる。

［フェードアウトステップＳ００３］
制御部１７は、第１の加算処理部１４１、及び第２の加算処理部１４３における通常状態のゲインＧ１を、例えば−６０ｄＢのような非常に低い所定のゲインＧ０に、段階的に減少させる。その際、制御部１７は、例えば５０ｍsecなど、所定の時間（第１の時間）をかけて、第１の加算処理部１４１、及び第２の加算処理部１４３における通常状態のゲインＧ１を、所定のゲインＧ０にまで、段階的に減少させる。なお、通常状態のゲインＧ１から、所定のゲインＧ０までの遷移は、時間の推移に比例してゲインを変化させる直線的な遷移であってもよく、時間の推移にゲインの変化が比例しない曲線的な遷移であってもよい。

この制御部１７による、第１の加算処理部１４１、及び第２の加算処理部１４３に対する制御により、現在「音楽シーン」としての音場効果に寄与していた擬似反射音はフェードアウトし、チャンネル拡張部１３から出力される直接音に、僅かな擬似反射音が加えられた音声が、アンプ１６から出力される。

このように、制御部１７は、音場効果データ生成部１４２の後段側である第２の加算処理部１４３のゲインのみを段階的に減少させるのではなく、音場効果データ生成部１４２の前段側である第１の加算処理部１４１のゲインも段階的に減少させる構成とすることにより、ノイズ発生を抑制することができる。その理由について以下、説明する。

まず、音場効果データ生成部１４２内においては、切り替え前のシーンにおける第１のディレイタイムＤ１に応じたバッファ処理により、まだ第２の加算処理部１４３へと出力されていないオーディオデータが残存している。従って、第１の加算処理部１４１のゲインを段階的に減少することなく、音場効果データ生成部１４２内の各種パラメータを変化させると、この音場効果データ生成部１４２内に残存するオーディオデータと、第１の加算処理部１４１から音場効果データ生成部１４２に新たに入力されてくるオーディオデータとの境界において、不連続点が発生する。そして、この境界領域が第２の加算処理部１４３へと出力されるタイミングにおいては、既に第２の加算処理部１４３におけるフェードアウトステップＳ００３は終了しているため、当該不連続点については、フェード処理がなされることなく、Ｄ／Ａコンバータ１５へと出力されてしまう。

しかし、本実施形態に示すように、このフェードアウトステップＳ００５において、第１の加算処理部１４１のゲインについても段階的に減少させ、後述するフェードインステップＳ００５において、第１の加算処理部１４１のゲインを段階的に増加させる構成とすることにより、上記不連続点についてもフェード処理を施すことができ、各スピーカから出力される音声において、シーン切り替えに起因するノイズが発生するのを抑制することができる。

なお、図５に示すように、チャンネル拡張部１３の後段であって、第１の加算処理部１４１の前段に、バッファ１４４を設ける構成とすることにより、シーンに対応した音場切り替えをより効果的に行うことができる。即ち、バッファ１４４を設ける構成とすることにより、シーン切り替え前のオーディオデータが第１の加算処理部１４１に入力される前に、シーン解析部２０がシーンの切り替えを認識し、制御部１７が上述したフェードアウトステップＳ００３を実施することができるため、シーンに対応した音場切り替えをより効果的に行うことができる。なお、バッファ１４４は、オーディオ信号処理部１４の内部に設けてもよく、オーディオ信号処理部１４の外部であって、チャンネル拡張部１３とオーディオ信号処理部１４の間に設ける構成としてもよい。

［パラメータ変更ステップＳ００４］
第１の加算処理部１４１、及び第２の加算処理部１４３のゲインが、所定のゲインＧ０まで減少したことを制御部１７が認識すると、制御部１７は、音場効果データ生成部１４２に対し、各種パラメータの変更を指示するコマンド信号を送信する。

具体的には、制御部１７は、音場効果データ生成部１４２に対し、音場効果データ生成部１４２内の演算処理に用いる、各チャンネルのゲイン比率を第１の比率Ｒ１から第２の比率Ｒ２に変更し、フィルタ係数を第１のフィルタ係数Ｆ１から第２のフィルタ係数Ｆ２に変更し、ディレイタイムを第１のディレイタイムＤ１から第２のディレイタイムＤ２に変更することを指示するコマンド信号を送信する。

なお、制御部１７が、第１の加算処理部１４１、及び第２の加算処理部１４３のゲインが、所定のゲインＧ０にまで減少したことを認識する方法としては、実際に第１の加算処理部１４１、及び第２の加算処理部１４３のゲインを検知してもよく、あるいは、上述した第１の時間が経過したことをもって、第１のゲインＧ１から所定の値に変更されたと認識してもよい。

制御部１７からのコマンド信号を受信した音場効果データ生成部１４２は、当該コマンド信号に基づき、各種パラメータを変更する。

［フェードインステップＳ００５］
音場効果データ生成部１４２が、各種パラメータの変更を完了すると、制御部１７は、第１の加算処理部１４１、及び第２の加算処理部１４３におけるゲインを、所定のゲインＧ０から、通常状態のゲインＧ１にまで段階的に増加させる。

その際、制御部１７は、例えば１００ｍsecなど、所定の時間（第２の時間）をかけて、第１の加算処理部１４１、及び第２の加算処理部１４３におけるゲインを、所定のゲインＧ０から、通常状態のゲインＧ１にまで、段階的に増加させる。なお、所定のゲインＧ０から、通常状態のゲインＧ１までの遷移は、時間の推移に比例してゲインを変化させる直線的な遷移であってもよく、時間の推移にゲインの変化が比例しない曲線的な遷移であってもよい。

この制御部１７による、第１の加算処理部１４１、及び第２の加算処理部１４３に対する制御により、フェードアウトしていた疑似反射音が、新たなシーンである「映画シーン」に適した疑似反射音としてフェードインし、チャンネル拡張部１３から出力される直接音に、新たな擬似反射音が加えられた音声が、アンプ１６から出力される。

このような制御方法により、ミュート処理を行うことなく、シーン切り替えに応じた音場効果音の切り替えを実現することができる。

まず、音場効果データ生成部１４２の後段側である第２の加算処理部１４３のゲインを段階的に減少、段階的に増加することにより、例えばシーン変更に伴うディレイタイムの変更があっても、音場効果データが付与されたオーディオデータにおいてエッジが発生することを抑制することができる。その結果として、各スピーカから出力される音声において、ノイズが発生するのを抑制することができる。

また、上述した通り、音場効果データ生成部１４２の後段側である第２の加算処理部１４３のゲインのみを段階的に減少、段階的に増加させるのではなく、音場効果データ生成部１４２の前段側である第１の加算処理部１４１のゲインについても、段階的に減少、段階的に増加させる制御方法とすることにより、ノイズ発生を抑制することができる。

即ち、第１の加算処理部１４１のゲインについて、段階的に減少、段階的に増加させる制御方法とすることにより、音場効果データ生成部１４２内において、バッファ処理により残存しているオーディオデータと、第１の加算処理部１４１から音場効果データ生成部１４２に新たに入力されてくるオーディオデータとの境界における不連続点の影響を小さくすることができるため、各スピーカから出力される音声において、シーン切り替えに起因するノイズが発生するのを抑制することができる。

また、上述した制御方法により、２つ以上の音場効果データ生成部を用いて、それらの出力を切り替えることによりシーン切り替えを行うような構成とする必要がなく、１つの音場効果データ生成部１４２を用いて、ノイズの発生を抑制したシーン切り替えを実現することができ、オーディオデータ処理装置１の小型化を実現することができる。

なお、本実施形態においては、第１のシーンから第２のシーンに移行するに際して、ゲイン比率、フィルタ係数、ディレイタイムの内の２以上の演算パラメータを変更する必要があったため、第１の加算処理部１４１、及び第２の加算処理部１４３のゲインを段階的に減少させるフェードアウトステップＳ００３と、第１の加算処理部１４１、及び第２の加算処理部１４３のゲインを段階的に増加させるフェードインステップＳ００５とを含む制御方法とした。

しかし、シーン切り替えに際して、演算パラメータの内の一つのみ（例えば、ゲイン比率のみ、フィルタ係数のみ、あるいはディレイタイムのみ）の変更で足りる場合は、上述したフェードアウトステップＳ００３、フェードインステップＳ００５を行わずに、変更する演算パラメータのみを、第１のパラメータ値から第２のパラメータ値に段階的に変化させる構成としてもよい。

ただし、本実施形態に示すように、２以上の演算パラメータの変更を制御する場合は、個々のパラメータに対して複雑な制御を行うよりも、第１の加算処理部１４１、及び第２の加算処理部１４３のゲインにつき、上述したフェードアウトステップＳ００３と、フェードインステップＳ００５とを含む制御方法とする方が、より合理的で簡便な制御となるため望ましい。

以下、シーンの切り替え方法として、例外パターンの切り替え方法について説明する。

まず、切り替え後の状態が「低域重視のシーン」であった場合について説明する。

制御部１７は、シーン切り替え前である第１の時点Ｔ１におけるシーンの判定結果によらず、切り替え後である第２の時点Ｔ２におけるシーンが「低域重視のシーン」であるとの判定結果をシーン解析部２０から取得した場合には、ＲＯＭ１８に記憶された例外パターンであることを認識する。

オーディオデータにおいて、例えば２００Ｈｚ以下の低域の音に関するオーディオデータ成分に不連続点が生じると、ノイズが発生しやすくなる。そのため、切り替え後のシーンが、２００Ｈｚ以下の低域の音が所定の割合以上である「低域重視のシーン」となる場合においては、制御部１７は、上述したフェードインステップＳ００５に要する時間、即ち第１の加算処理部１４１、及び第２の加算処理部１４３のゲインを段階的に増加させる処理に要する時間を、通常パターンにおいて要する第２の時間よりも長い、例えば１２０ｍsecとすることを決定する。

なお、ノイズが発生するのは、切り替え後のフェードインステップＳ００５時である。そのため、制御部１７は、上述したフェードアウトステップＳ００３に要する時間、即ち第１の加算処理部１４１、及び第２の加算処理部１４３のゲインを段階的に減少させる処理に要する時間については、通常パターンにおいて要する第１の時間と同じか、あるいはそれよりも短い、例えば３０ｍsecとすることを決定する。

なお、制御部１７が、フェードアウトステップＳ００３に要する時間を、第１の時間よりも短い時間とすることにより、フェードアウトステップＳ００３に要する時間、及びフェードインステップＳ００５に要する時間を含む、フェード処理全体としての時間を長くしすぎない制御とすることが可能となり、望ましい。

次に、切り替え後の状態が、音楽の信号成分が所定の割合以上である「音楽シーン」であった場合について説明する。

制御部１７は、シーン切り替え前である第１の時点Ｔ１におけるシーンの判定結果によらず、切り替え後である第２の時点Ｔ２におけるシーンが「音楽シーン」であるとの判定結果をシーン解析部２０から取得した場合には、ＲＯＭ１８に記憶された例外パターンであることを認識する。

「音楽シーン」に切り替わった際、曲の途中から音場効果音が切り替わると、聴取者が違和感を抱きやすい。そのため、切り替え後のシーンが「音楽シーン」となる場合においては、制御部１７は、上述したフェードアウトステップＳ００３に要する時間について、通常パターンにおいて要する第１の時間よりも短い、例えば３０ｍsecとすることを決定する。

また、制御部１７は、上述したフェードインステップＳ００５に要する時間についても、通常パターンにおいて要する第２の時間よりも短い、例えば８０ｍsecとすることを決定する。

次に、切り替え前が「静かなシーン」で、切り替え後が「セリフ重視のシーン」の組み合わせであった場合について説明する。

制御部１７は、シーン切り替え前である第１の時点Ｔ１におけるシーンの判別結果が「静かなシーン」であり、切り替え後である第２の時点Ｔ２におけるシーンが「セリフ重視のシーン」であるとの判定結果をシーン解析部２０から取得した場合には、ＲＯＭ１８に記憶された例外パターンであることを認識する。

「静かなシーン」、及び「セリフ重視のシーン」は、双方とも静かなシーンであるため、上述したフェード処理を短時間で行ってもノイズが発生しにくい。しかし、その場合、セリフ成分のみがノイズになってしまう可能性がある。そのため、制御部１７は、この例外パターンにおけるシーン切り替えにおいては、セリフ成分のみを抽出し、セリフ成分のフェード処理時間を、セリフ以外の音声成分のフェード処理時間よりも長くすることを決定する。

なお、セリフ成分の抽出としては、例えば、音場効果データ生成部１４２が、各チャンネルにおけるオーディオデータのうち、例えば０．２から８ｋＨｚの周波数成分について分析し、セリフ成分を抽出する。

フェード処理時間の具体例としては、制御部１７は、セリフ成分以外の信号成分については、フェードアウトステップＳ００３に要する時間を、通常パターンにおいて要する第１の時間よりも短い３０ｍsecとすることを決定する。

また、制御部１７は、セリフ成分以外の信号成分については、フェードインステップＳ００５に要する時間を、通常パターンにおいて要する第２の時間よりも短い８０ｍsecとすることを決定する。

制御部１７は、セリフ成分についてのフェードアウトステップＳ００３に要する時間を、セリフ成分以外の信号成分についての、フェードアウトステップＳ００３に要する時間よりも長い時間とすることを決定する。例えば、制御部１７は、セリフ成分についてのフェードアウトステップＳ００３に要する時間を、通常パターンにおいて要する第１の時間とすることを決定する。

制御部１７は、セリフ成分についてのフェードインステップＳ００５に要する時間を、セリフ成分以外の信号成分についての、フェードインステップＳ００５に要する時間よりも長い時間とすることを決定する。例えば、制御部１７は、セリフ成分についてのフェードインステップＳ００５に要する時間を、通常パターンにおいて要する第２の時間とすることを決定する。

このように、上述した例外パターンのシーン切り替えを行うことにより、できるだけ早くフェード処理を行うことと、できるだけノイズを発生させずにシーンを切り替えることとのトレードオフのバランスをとることが可能となる。

なお、上述したフェード処理に関する時間や、フェードアウトステップＳ００３においてターゲットとなるゲインの値、各種周波数の数値等は、あくまで一例であり、本開示は、上記の具体的な数値に限定されない。

１オーディオデータ処理装置、１１入力部、１２デコーダ、１３チャンネル拡張部、１４オーディオデータ処理部、１５Ｄ／Ａコンバータ、１６アンプ、１７制御部、１８ＲＯＭ、１９ＲＡＭ、２０シーン解析部、２１Ｌフロント・レフトスピーカ、２１Ｒフロント・ライトスピーカ、２１Ｃセンタースピーカ、２１ＳＬサラウンド・レフトスピーカ、２１ＳＲサラウンド・ライトスピーカ、１４１第１の加算処理部、１４２音場効果データ生成部、１４３第２の加算処理部、１４４
バッファ、Ｔ１第１の時点、Ｔ２第２の時点、Ｕ聴取位置、Ｇ０ゲイン、Ｇ１ゲイン、Ｒ１第１の比率、Ｒ２第２の比率、Ｆ１第１のフィルタ係数、Ｆ２第２のフィルタ係数、Ｄ１第１のディレイタイム、Ｄ２第２のディレイタイム、Ｓ００１シーン解析ステップ、Ｓ００２切り替え認識ステップ、Ｓ００３フェードアウトステップ、Ｓ００４パラメータ変更ステップ、Ｓ００５フェードインステップ。

Claims

パラメータを用いた演算処理により、オーディオデータに音場効果データを付与する音場効果データ生成部と、
前記オーディオデータにつきシーンの解析を行うシーン解析部と、
前記シーン解析部による解析結果に基づきシーンの切り替えを認識すると、前記音場効果データ生成部の入力ゲインと出力ゲインの双方を段階的に減少させ、前記パラメータを変化させた後、前記入力ゲインと前記出力ゲインの双方を段階的に増加させる制御部と、
を含む、オーディオデータ処理装置。
前記オーディオデータは複数のチャンネルを含み、
前記音場効果データ生成部は、前記複数のチャンネルに対して前記パラメータを用いた演算処理を行い、
前記制御部は、前記複数のチャンネルについての前記入力ゲインと、前記複数のチャンネルについての前記出力ゲインについて制御する、
請求項１に記載のオーディオデータ処理装置。
前記パラメータは、ゲイン比率、フィルタ係数、ディレイタイムを含み、
前記シーンの切り替えにおいて、前記ゲイン比率、前記フィルタ係数、及びディレイタイムの内のいずれか二つ以上を変化させる、
請求項１又は２に記載のオーディオデータ処理装置。
前記制御部が、前記切り替え後のシーンの種類に応じて、前記入力ゲインと前記出力ゲインとの段階的減少に要する時間を決定する、
請求項１乃至３のいずれか一つに記載のオーディオデータ処理装置。
前記制御部が、前記切り替え後のシーンの種類に応じて、前記入力ゲインと前記出力ゲインとの段階的増加に要する時間を決定する、
請求項１乃至４のいずれか一つに記載のオーディオデータ処理装置。
前記制御部が、通常パターンの前記シーンの切り替えにおいて、第１の時間をかけて前記入力ゲインと前記出力ゲインとを段階的に減少させ、第２の時間をかけて前記入力ゲインと前記出力ゲインとを段階的に増加させる、
請求項１乃至５のいずれか一つに記載のオーディオデータ処理装置。
前記切り替え後のシーンにおいて２００Ｈｚ以下の音が所定の割合以上である場合、前記制御部は、前記入力ゲインと前記出力ゲインとの段階的増加に要する時間を、前記第２の時間よりも長い時間とする、
請求項６に記載のオーディオデータ処理装置。
前記切り替え後のシーンにおいて２００Ｈｚ以下の音が所定の割合以上である場合、前記制御部は、前記入力ゲインと前記出力ゲインとの段階的減少に要する時間を、前記第１の時間よりも短い時間とする、
請求項６に記載のオーディオデータ処理装置。
前記切り替え後のシーンにおいて音楽の信号成分が所定の割合以上である場合、前記制御部は、前記入力ゲインと前記出力ゲインとの段階的減少に要する時間を、前記第１の時間よりも短い時間とする、
請求項６に記載のオーディオデータ処理装置。
前記切り替え後のシーンにおいて音楽の信号成分が所定の割合以上である場合、前記制御部は、前記入力ゲインと前記出力ゲインとの段階的増加に要する時間を、前記第２の時間よりも短い時間とする、
請求項６に記載のオーディオデータ処理装置。
前記切り替え後のシーンがセリフ成分を含む場合、前記制御部は、前記セリフ成分の前記入力ゲインと前記出力ゲインとの段階的減少に要する時間を、前記セリフ成分以外の成分の前記入力ゲインと前記出力ゲインとの段階的減少に要する時間よりも長い時間とする、
請求項４に記載のオーディオデータ処理装置。
前記切り替え後のシーンがセリフ成分を含む場合、前記制御部は、前記セリフ成分の前記入力ゲインと前記出力ゲインとの段階的増加に要する時間を、前記セリフ成分以外の成分の前記入力ゲインと前記出力ゲインとの段階的増加に要する時間よりも長い時間とする、
請求項５に記載のオーディオデータ処理装置。
前記音場効果データ生成部の入力ゲインを調整する第１の加算処理部と、
前記第１の加算処理部の前段に設けられたバッファと、を更に含む、
請求項１乃至１２のいずれか一つに記載のオーディオデータ処理装置。
パラメータを用いた演算処理により、オーディオデータに音場効果データを付与する音場効果データ生成部を含む、オーディオデータ処理装置の制御方法であって、
前記オーディオデータにつきシーンの解析を行う第１のステップと、
前記シーンの解析結果に基づき前記シーンの切り替えを認識する第２のステップと、
前記音場効果データ生成部の入力ゲインと出力ゲインの双方を段階的に減少させる第３のステップと、
前記演算処理に用いられるパラメータを変化させる第４のステップと、
前記音場効果データ生成部の前記入力ゲインと前記出力ゲインの双方を段階的に増加させる第５のステップと、
を含む、オーディオデータ処理装置の制御方法。