JP6969368B2 - オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法。 - Google Patents

オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法。 Download PDF

Info

Publication number
JP6969368B2
JP6969368B2 JP2017251461A JP2017251461A JP6969368B2 JP 6969368 B2 JP6969368 B2 JP 6969368B2 JP 2017251461 A JP2017251461 A JP 2017251461A JP 2017251461 A JP2017251461 A JP 2017251461A JP 6969368 B2 JP6969368 B2 JP 6969368B2
Authority
JP
Japan
Prior art keywords
scene
audio data
gain
switching
data processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017251461A
Other languages
English (en)
Other versions
JP2019118038A (ja
Inventor
森茂 藤澤
浩太郎 中林
雄太 湯山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2017251461A priority Critical patent/JP6969368B2/ja
Priority to US16/233,523 priority patent/US10848888B2/en
Publication of JP2019118038A publication Critical patent/JP2019118038A/ja
Application granted granted Critical
Publication of JP6969368B2 publication Critical patent/JP6969368B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels

Description

本発明は、オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法に関する。
下記特許文献1には、チューナから取得したオーディオ信号に対して、デコード処理、音響処理、遅延処理等を施す音声処理部が、音場効果を切り替える際に、ノイズ発生を防止するために、一定期間音声をミュートする構成が開示されている。
特開2010−98460号公報
本発明においては、ミュート処理を行うことなく、ノイズの発生を抑制した音場効果の切り替えを実現することを目的とする。
本開示に係るオーディオデータ処理装置は、パラメータを用いた演算処理により、オーディオデータに音場効果データを付与する音場効果データ生成部と、前記オーディオデータにつきシーンの解析を行うシーン解析部と、前記シーン解析部による解析結果に基づきシーンの切り替えを認識すると、前記音場効果データ生成部の入力ゲインと出力ゲインの双方を段階的に減少させ、前記パラメータを変化させた後、前記入力ゲインと前記出力ゲインの双方を段階的に増加させる制御部と、を含む、オーディオデータ処理装置。
本開示に係るオーディオデータ処理装置の制御方法は、パラメータを用いた演算処理により、オーディオデータに音場効果データを付与する音場効果データ生成部を含む、オーディオデータ処理装置の制御方法であって、前記オーディオデータにつきシーンの解析を行う第1のステップと、前記シーンの解析結果に基づき前記シーンの切り替えを認識する第2のステップと、前記音場効果データ生成部の入力ゲインと出力ゲインの双方を段階的に減少させる第3のステップと、前記演算処理に用いられるパラメータを変化させる第4のステップと、前記音場効果データ生成部の前記入力ゲインと前記出力ゲインの双方を段階的に増加させる第5のステップと、を含む。
図1は第1の実施形態におけるオーディオデータ処理装置を含む聴取環境の模式図である。 図2は第1の実施形態におけるオーディオデータ処理装置の構成を示す模式的なブロック図である。 図3は第1の実施形態における制御部、オーディオデータ処理部、及びシーン解析部の機能的構成を示したブロック図である。 図4は第1の実施形態におけるオーディオデータ処理装置の制御方法を示すフローチャートである。 図5は第1の実施形態における制御部、オーディオデータ処理部、及びシーン解析部の機能的構成を示したブロック図である。
[第1の実施形態]
第1の実施形態について、図面を用いて以下に説明する。
[オーディオデータ処理装置1]
図1は、本実施形態におけるオーディオデータ処理装置1を含む聴取環境の模式図である。図1に示すように、本実施形態では、聴取位置Uの周囲に、フロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、およびサラウンド・ライトスピーカ21SRが設置されている。フロント・レフトスピーカ21Lは、聴取位置Uの前方左側、フロント・ライトスピーカ21Rは、聴取位置Uの前方右側、センタースピーカ21Cは、聴取位置Uの前方中央、サラウンド・レフトスピーカ21SLは、聴取位置Uの後方左側、サラウンド・ライトスピーカ21SRは、聴取位置Uの後方右側に設置されている。フロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、およびサラウンド・ライトスピーカ21SRは、それぞれオーディオデータ処理装置1に、無線又は有線により接続されている。なお、本実施形態においては、5chのサラウンドシステムを例に挙げて説明するが、本開示は、その他、2.0ch、5.1ch、7.1ch、11.2chなど、様々なチャンネル数のサラウンドシステムにおいても用いることができる。
図2は、本実施形態におけるオーディオデータ処理装置の構成を示す模式的なブロック図である。図2に示すように、本実施形態におけるオーディオデータ処理装置1は、入力部11、デコーダ12、チャンネル拡張部13、オーディオデータ処理部14、D/Aコンバータ15、アンプ(amplifier)16、制御部17、ROM(read‐only memory)18、RAM(Random access memory)19、及びシーン解析部20を備えている。
制御部17は、ROM18に記憶されている動作用プログラム(ファームウェア)をRAM19に読み出し、オーディオデータ処理装置1を統括的に制御する。当該動作用プログラムは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
入力部11は、HDMI(登録商標)やネットワークを経由して、オーディオ信号を取得する。オーディオ信号の方式としては、例えば、PCM(pulse code modulation)、Dolby(登録商標)、Dolby TrueHD、Dolby Digital Plus、DOLBY ATMOS(登録商標)、AAC(Advanced Audio Coding)(登録商標)、DTS(登録商標)、DTS-HD(登録商標) Master Audio、DTS:X(登録商標)、DSD(Direct Stream Digital)(登録商標)などが含まれ、その種類は特に限定されない。入力部11は、オーディオデータをデコーダ12に出力する。
本実施形態において、ネットワークは、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)などを含み、オーディオデータ処理装置1と、光ディスクプレイヤー等のソース装置との信号伝達経路として機能する。
デコーダ12は、例えばDSP(Digital Signal Processor)からなり、オーディオ信号をデコードし、オーディオデータを抽出する。なお、本実施形態においては、オーディオデータは特に記載がない限り全てデジタルデータとして説明する。
チャンネル拡張部13は、例えばDSPからなり、上述したフロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、サラウンド・ライトスピーカ21SRのそれぞれに対応する、複数チャンネルのオーディオデータをチャンネル拡張処理によって生成する。なお、チャンネル拡張処理については、周知技術(例えば米国特許第7003467号公報等)を適用することができる。生成された各チャンネルのオーディオデータは、オーディオデータ処理部14に出力される。
オーディオデータ処理部14は、例えばDSPからなり、制御部17の設定に応じて、入力された各チャンネルのオーディオデータに所定の音場効果データを付与する処理を行う。
音場効果データは、例えば入力されたオーディオデータから生成される擬似反射音データからなる。生成された擬似反射音データは、元のオーディオデータに加算されて出力される。
D/Aコンバータ15は、各チャンネルのオーディオデータをアナログ信号に変換する。
アンプ16は、D/Aコンバータ15から出力されたアナログ信号を増幅し、フロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、サラウンド・ライトスピーカ21SRのそれぞれに出力する。このような構成により、オーディオコンテンツの直接音に擬似反射音が付与された音声が各スピーカから出力され、聴取位置Uの周囲に所定の音響空間を模した音場が形成される。
図3は、本実施形態における制御部17、オーディオデータ処理部14、及びシーン解析部20の機能的構成を示したブロック図である。オーディオデータ処理部14は、第1の加算処理部141、音場効果データ生成部142、および第2の加算処理部143を備えており、第1の加算処理部141は、音場効果データ生成部142の入力ゲインを、第2の加算処理部143は、音場効果データ生成部142の出力ゲインを調整する。
第1の加算処理部141は、各チャンネルのオーディオデータを所定のゲインで合成して、モノラル信号にダウンミックスする。各チャンネルのゲインは、制御部17により設定される。なお、この第1の加算処理部141を複数設け、複数の第1の加算処理部141のそれぞれが、ダウンミックスしたモノラル信号を出力する構成としてもよい。
音場効果データ生成部142は、制御部17の指示に基づき、各種パラメータを用いて、第1の加算処理部141から出力されたモノラル信号に対して演算処理を行い、音場効果データを生成する。第1の加算処理部141が複数存在し、複数のモノラル信号が出力された場合には、音場効果データ生成部142が、複数のモノラル信号について演算処理を行い、複数の音場効果データを生成する。音場効果データ生成部142は、生成した音場効果データを、後述する第2の加算処理部143を介して、各チャンネルのオーディオデータに付与する。音場効果データ生成部142が演算処理に用いるパラメータとしては、例えば、各チャンネルのゲイン比率、ディレイタイム、及びフィルタ係数など、多数含まれている。音場効果データ生成部142は、制御部17から出力されたコマンド信号に従い、ゲイン比率、ディレイタイム、フィルタ係数等の各種パラメータを用いた演算処理を実行する。
第2の加算処理部143は、チャンネル拡張部13から送信された各チャンネルのオーディオデータに、音場効果データ生成部142が生成した音場効果データを足し合わせる。各チャンネルのゲインは、制御部17により設定される。
シーン解析部20は、オーディオデータにつきシーン解析を行う。シーンの種類としては、本実施形態においては、例えば「映画シーン」、「音楽シーン」、「静かなシーン」、「セリフ重視のシーン」、「BGM重視のシーン」、「効果音重視のシーン」、及び「低域重視のシーン」などが含まれる。
シーン解析部20は、機械学習を用いて、チャンネル拡張部13から出力されたオーディオデータが、上述したシーンの内のいずれに当てはまるかを判定する。具体例としては、シーン解析部20は、数千から数万のオーディオデータのパターンに関する情報を記憶している。この情報には、各シーンの特徴量や、各パターンがいずれのシーンに該当するかに関する情報等が含まれている。各シーンの特徴量としては、ゲイン比率の情報、周波数特性の情報、チャンネル構成などの情報を総合した情報が含まれている。そして、シーン解析部20は、例えばサポートベクターマシンによるパターン認識を用いて、チャンネル拡張部13から出力されたオーディオデータが、どのシーンに当てはまるかを判定する。シーン解析部20は、解析結果を制御部17に出力する。
制御部17は、シーン解析部20による解析結果に基づき、シーンの切り替えを認識すると、音場効果データ生成部142の入力ゲインと出力ゲインの双方を段階的に減少させる。具体的には、制御部17は、シーンの切り替えを認識すると、第1の加算処理部141、及び第2の加算処理部143における、各チャンネルのゲインを、例えば−60dBのような、非常に小さな値にまで段階的に減少させる。
制御部17は、シーン解析部20によるシーン解析結果に基づくコマンド信号を音場効果データ生成部142に出力する。当該コマンド信号には、音場効果データ生成部142が演算処理に用いる各種パラメータの設定に関する指示が含まれている。各種パラメータには、例えば各チャンネルのゲイン比率や、フィルタ係数、及びディレイタイム等が含まれる。音場効果データ生成部142は、このコマンド信号に基づき、各種パラメータの変更を行う。
音場効果データ生成部142による各種パラメータの変更が行われた後、制御部17は、音場効果データ生成部142の入力ゲインと出力ゲインとを、シーン切り替え前の状態にまで、段階的に増加させる。即ち、制御部17は、第1の加算処理部141、及び第2の加算処理部143における、各チャンネルのゲインを、シーン切り替え前の状態にまで段階的に増加させる。
上述した構成によって、音場効果データが付与されたオーディオデータは、D/Aコンバータ15においてアナログ信号に変換され、アンプ16で増幅された後に各スピーカに出力される。これにより、聴取位置Uの周囲に所定の音響空間を模した音場が形成される。
[オーディオデータ処理装置1の制御方法]
図4は、本実施形態におけるオーディオデータ処理装置1の制御方法を示すフローチャートである。以下、図4を用いて、本実施形態におけるオーディオデータ処理装置1の制御方法について説明する。
[シーン解析ステップS001]
チャンネル拡張部13から、各チャンネルのオーディオデータが出力されると、シーン解析部20が、このオーディオデータが、どのようなシーンかについて解析する。シーン解析部20によるシーン解析は、上述したとおり、機械学習を用いて行うことができる。本実施形態に含まれるシーンとしては、例えば「映画シーン」、「音楽シーン」、「静かなシーン」、「セリフ重視のシーン」、「BGM重視のシーン」、「効果音重視のシーン」、及び「低域重視のシーン」などが含まれる。
シーンの切り替え方法には、通常パターンのシーン切り替えと、例外パターンのシーン切り替えとがあり、例外パターンのシーン切り替えについては、例えば予めROM18に記憶させておくか、あるいはシーン解析部20に記憶させておく。
本実施形態においては、ROM18が、例外パターンの切り替え例として、切り替え後の状態が「低域重視のシーン」であった場合、切り替え後の状態が「音楽シーン」であった場合、及び切り替え前後が「静かなシーン」、「セリフ重視のシーン」の組み合わせであった場合の3パターンを記憶していることとする。
まずは、通常パターンのシーン切り替えの例として、シーン解析部20が、第1の時点T1におけるシーンが「音楽シーン」であり、切り替え後である第2の時点T2におけるシーンが「映画シーン」であると判定した例について説明する。
[切り替え認識ステップS002]
第1の時点T1において、制御部17は、シーン解析部20から、第1の時点T1におけるシーンが「音楽シーン」である旨の判定結果を受け取っている。制御部17は、第2の時点T2においても、この判定結果を記憶している。
第2の時点T2において、シーン解析部20から、第2の時点T2におけるシーンが「映画シーン」である旨の判定結果を受けた制御部17は、「音楽シーン」から「映画シーン」にシーンが切り替わることを認識する。
また、制御部17は、今回のシーン切り替えが、予めROM18に記憶させておいて例外パターンに属するか否かを判断する。今回の「音楽シーン」から「映画シーン」へのシーン切り替えは、切り替え後の状態が「低域重視のシーン」でもなく、「音楽シーン」でもなく、切り替え前後が「静かなシーン」、「セリフ重視のシーン」の組み合わせでもない。そのため、制御部17は、今回のシーン切り替えが、上述した例外パターンに属さない、通常パターンのシーン切り替えであると判断する。
ここで、「音楽シーン」における、各チャンネルのゲイン比率が第1の比率R1であり、フィルタ係数が第1のフィルタ係数F1であり、ディレイタイムが第1のディレイタイムD1であるとする。また、「映画シーン」における、各チャンネルのゲイン比率が第2の比率R2であり、フィルタ係数が第2のフィルタ係数F2であり、ディレイタイムが第2のディレイタイムD2であるとする。
ここで、本実施形態においては、第1の比率R1と第2の比率R2は異なり、第1のフィルタ係数F1と第2のフィルタ係数F2とは異なり、第1のディレイタイムD1と第2のディレイタイムD2とは異なる。
[フェードアウトステップS003]
制御部17は、第1の加算処理部141、及び第2の加算処理部143における通常状態のゲインG1を、例えば−60dBのような非常に低い所定のゲインG0に、段階的に減少させる。その際、制御部17は、例えば50msecなど、所定の時間(第1の時間)をかけて、第1の加算処理部141、及び第2の加算処理部143における通常状態のゲインG1を、所定のゲインG0にまで、段階的に減少させる。なお、通常状態のゲインG1から、所定のゲインG0までの遷移は、時間の推移に比例してゲインを変化させる直線的な遷移であってもよく、時間の推移にゲインの変化が比例しない曲線的な遷移であってもよい。
この制御部17による、第1の加算処理部141、及び第2の加算処理部143に対する制御により、現在「音楽シーン」としての音場効果に寄与していた擬似反射音はフェードアウトし、チャンネル拡張部13から出力される直接音に、僅かな擬似反射音が加えられた音声が、アンプ16から出力される。
このように、制御部17は、音場効果データ生成部142の後段側である第2の加算処理部143のゲインのみを段階的に減少させるのではなく、音場効果データ生成部142の前段側である第1の加算処理部141のゲインも段階的に減少させる構成とすることにより、ノイズ発生を抑制することができる。その理由について以下、説明する。
まず、音場効果データ生成部142内においては、切り替え前のシーンにおける第1のディレイタイムD1に応じたバッファ処理により、まだ第2の加算処理部143へと出力されていないオーディオデータが残存している。従って、第1の加算処理部141のゲインを段階的に減少することなく、音場効果データ生成部142内の各種パラメータを変化させると、この音場効果データ生成部142内に残存するオーディオデータと、第1の加算処理部141から音場効果データ生成部142に新たに入力されてくるオーディオデータとの境界において、不連続点が発生する。そして、この境界領域が第2の加算処理部143へと出力されるタイミングにおいては、既に第2の加算処理部143におけるフェードアウトステップS003は終了しているため、当該不連続点については、フェード処理がなされることなく、D/Aコンバータ15へと出力されてしまう。
しかし、本実施形態に示すように、このフェードアウトステップS005において、第1の加算処理部141のゲインについても段階的に減少させ、後述するフェードインステップS005において、第1の加算処理部141のゲインを段階的に増加させる構成とすることにより、上記不連続点についてもフェード処理を施すことができ、各スピーカから出力される音声において、シーン切り替えに起因するノイズが発生するのを抑制することができる。
なお、図5に示すように、チャンネル拡張部13の後段であって、第1の加算処理部141の前段に、バッファ144を設ける構成とすることにより、シーンに対応した音場切り替えをより効果的に行うことができる。即ち、バッファ144を設ける構成とすることにより、シーン切り替え前のオーディオデータが第1の加算処理部141に入力される前に、シーン解析部20がシーンの切り替えを認識し、制御部17が上述したフェードアウトステップS003を実施することができるため、シーンに対応した音場切り替えをより効果的に行うことができる。なお、バッファ144は、オーディオ信号処理部14の内部に設けてもよく、オーディオ信号処理部14の外部であって、チャンネル拡張部13とオーディオ信号処理部14の間に設ける構成としてもよい。
[パラメータ変更ステップS004]
第1の加算処理部141、及び第2の加算処理部143のゲインが、所定のゲインG0まで減少したことを制御部17が認識すると、制御部17は、音場効果データ生成部142に対し、各種パラメータの変更を指示するコマンド信号を送信する。
具体的には、制御部17は、音場効果データ生成部142に対し、音場効果データ生成部142内の演算処理に用いる、各チャンネルのゲイン比率を第1の比率R1から第2の比率R2に変更し、フィルタ係数を第1のフィルタ係数F1から第2のフィルタ係数F2に変更し、ディレイタイムを第1のディレイタイムD1から第2のディレイタイムD2に変更することを指示するコマンド信号を送信する。
なお、制御部17が、第1の加算処理部141、及び第2の加算処理部143のゲインが、所定のゲインG0にまで減少したことを認識する方法としては、実際に第1の加算処理部141、及び第2の加算処理部143のゲインを検知してもよく、あるいは、上述した第1の時間が経過したことをもって、第1のゲインG1から所定の値に変更されたと認識してもよい。
制御部17からのコマンド信号を受信した音場効果データ生成部142は、当該コマンド信号に基づき、各種パラメータを変更する。
[フェードインステップS005]
音場効果データ生成部142が、各種パラメータの変更を完了すると、制御部17は、第1の加算処理部141、及び第2の加算処理部143におけるゲインを、所定のゲインG0から、通常状態のゲインG1にまで段階的に増加させる。
その際、制御部17は、例えば100msecなど、所定の時間(第2の時間)をかけて、第1の加算処理部141、及び第2の加算処理部143におけるゲインを、所定のゲインG0から、通常状態のゲインG1にまで、段階的に増加させる。なお、所定のゲインG0から、通常状態のゲインG1までの遷移は、時間の推移に比例してゲインを変化させる直線的な遷移であってもよく、時間の推移にゲインの変化が比例しない曲線的な遷移であってもよい。
この制御部17による、第1の加算処理部141、及び第2の加算処理部143に対する制御により、フェードアウトしていた疑似反射音が、新たなシーンである「映画シーン」に適した疑似反射音としてフェードインし、チャンネル拡張部13から出力される直接音に、新たな擬似反射音が加えられた音声が、アンプ16から出力される。
このような制御方法により、ミュート処理を行うことなく、シーン切り替えに応じた音場効果音の切り替えを実現することができる。
まず、音場効果データ生成部142の後段側である第2の加算処理部143のゲインを段階的に減少、段階的に増加することにより、例えばシーン変更に伴うディレイタイムの変更があっても、音場効果データが付与されたオーディオデータにおいてエッジが発生することを抑制することができる。その結果として、各スピーカから出力される音声において、ノイズが発生するのを抑制することができる。
また、上述した通り、音場効果データ生成部142の後段側である第2の加算処理部143のゲインのみを段階的に減少、段階的に増加させるのではなく、音場効果データ生成部142の前段側である第1の加算処理部141のゲインについても、段階的に減少、段階的に増加させる制御方法とすることにより、ノイズ発生を抑制することができる。
即ち、第1の加算処理部141のゲインについて、段階的に減少、段階的に増加させる制御方法とすることにより、音場効果データ生成部142内において、バッファ処理により残存しているオーディオデータと、第1の加算処理部141から音場効果データ生成部142に新たに入力されてくるオーディオデータとの境界における不連続点の影響を小さくすることができるため、各スピーカから出力される音声において、シーン切り替えに起因するノイズが発生するのを抑制することができる。
また、上述した制御方法により、2つ以上の音場効果データ生成部を用いて、それらの出力を切り替えることによりシーン切り替えを行うような構成とする必要がなく、1つの音場効果データ生成部142を用いて、ノイズの発生を抑制したシーン切り替えを実現することができ、オーディオデータ処理装置1の小型化を実現することができる。
なお、本実施形態においては、第1のシーンから第2のシーンに移行するに際して、ゲイン比率、フィルタ係数、ディレイタイムの内の2以上の演算パラメータを変更する必要があったため、第1の加算処理部141、及び第2の加算処理部143のゲインを段階的に減少させるフェードアウトステップS003と、第1の加算処理部141、及び第2の加算処理部143のゲインを段階的に増加させるフェードインステップS005とを含む制御方法とした。
しかし、シーン切り替えに際して、演算パラメータの内の一つのみ(例えば、ゲイン比率のみ、フィルタ係数のみ、あるいはディレイタイムのみ)の変更で足りる場合は、上述したフェードアウトステップS003、フェードインステップS005を行わずに、変更する演算パラメータのみを、第1のパラメータ値から第2のパラメータ値に段階的に変化させる構成としてもよい。
ただし、本実施形態に示すように、2以上の演算パラメータの変更を制御する場合は、個々のパラメータに対して複雑な制御を行うよりも、第1の加算処理部141、及び第2の加算処理部143のゲインにつき、上述したフェードアウトステップS003と、フェードインステップS005とを含む制御方法とする方が、より合理的で簡便な制御となるため望ましい。
以下、シーンの切り替え方法として、例外パターンの切り替え方法について説明する。
まず、切り替え後の状態が「低域重視のシーン」であった場合について説明する。
制御部17は、シーン切り替え前である第1の時点T1におけるシーンの判定結果によらず、切り替え後である第2の時点T2におけるシーンが「低域重視のシーン」であるとの判定結果をシーン解析部20から取得した場合には、ROM18に記憶された例外パターンであることを認識する。
オーディオデータにおいて、例えば200Hz以下の低域の音に関するオーディオデータ成分に不連続点が生じると、ノイズが発生しやすくなる。そのため、切り替え後のシーンが、200Hz以下の低域の音が所定の割合以上である「低域重視のシーン」となる場合においては、制御部17は、上述したフェードインステップS005に要する時間、即ち第1の加算処理部141、及び第2の加算処理部143のゲインを段階的に増加させる処理に要する時間を、通常パターンにおいて要する第2の時間よりも長い、例えば120msecとすることを決定する。
なお、ノイズが発生するのは、切り替え後のフェードインステップS005時である。そのため、制御部17は、上述したフェードアウトステップS003に要する時間、即ち第1の加算処理部141、及び第2の加算処理部143のゲインを段階的に減少させる処理に要する時間については、通常パターンにおいて要する第1の時間と同じか、あるいはそれよりも短い、例えば30msecとすることを決定する。
なお、制御部17が、フェードアウトステップS003に要する時間を、第1の時間よりも短い時間とすることにより、フェードアウトステップS003に要する時間、及びフェードインステップS005に要する時間を含む、フェード処理全体としての時間を長くしすぎない制御とすることが可能となり、望ましい。
次に、切り替え後の状態が、音楽の信号成分が所定の割合以上である「音楽シーン」であった場合について説明する。
制御部17は、シーン切り替え前である第1の時点T1におけるシーンの判定結果によらず、切り替え後である第2の時点T2におけるシーンが「音楽シーン」であるとの判定結果をシーン解析部20から取得した場合には、ROM18に記憶された例外パターンであることを認識する。
「音楽シーン」に切り替わった際、曲の途中から音場効果音が切り替わると、聴取者が違和感を抱きやすい。そのため、切り替え後のシーンが「音楽シーン」となる場合においては、制御部17は、上述したフェードアウトステップS003に要する時間について、通常パターンにおいて要する第1の時間よりも短い、例えば30msecとすることを決定する。
また、制御部17は、上述したフェードインステップS005に要する時間についても、通常パターンにおいて要する第2の時間よりも短い、例えば80msecとすることを決定する。
次に、切り替え前が「静かなシーン」で、切り替え後が「セリフ重視のシーン」の組み合わせであった場合について説明する。
制御部17は、シーン切り替え前である第1の時点T1におけるシーンの判別結果が「静かなシーン」であり、切り替え後である第2の時点T2におけるシーンが「セリフ重視のシーン」であるとの判定結果をシーン解析部20から取得した場合には、ROM18に記憶された例外パターンであることを認識する。
「静かなシーン」、及び「セリフ重視のシーン」は、双方とも静かなシーンであるため、上述したフェード処理を短時間で行ってもノイズが発生しにくい。しかし、その場合、セリフ成分のみがノイズになってしまう可能性がある。そのため、制御部17は、この例外パターンにおけるシーン切り替えにおいては、セリフ成分のみを抽出し、セリフ成分のフェード処理時間を、セリフ以外の音声成分のフェード処理時間よりも長くすることを決定する。
なお、セリフ成分の抽出としては、例えば、音場効果データ生成部142が、各チャンネルにおけるオーディオデータのうち、例えば0.2から8kHzの周波数成分について分析し、セリフ成分を抽出する。
フェード処理時間の具体例としては、制御部17は、セリフ成分以外の信号成分については、フェードアウトステップS003に要する時間を、通常パターンにおいて要する第1の時間よりも短い30msecとすることを決定する。
また、制御部17は、セリフ成分以外の信号成分については、フェードインステップS005に要する時間を、通常パターンにおいて要する第2の時間よりも短い80msecとすることを決定する。
制御部17は、セリフ成分についてのフェードアウトステップS003に要する時間を、セリフ成分以外の信号成分についての、フェードアウトステップS003に要する時間よりも長い時間とすることを決定する。例えば、制御部17は、セリフ成分についてのフェードアウトステップS003に要する時間を、通常パターンにおいて要する第1の時間とすることを決定する。
制御部17は、セリフ成分についてのフェードインステップS005に要する時間を、セリフ成分以外の信号成分についての、フェードインステップS005に要する時間よりも長い時間とすることを決定する。例えば、制御部17は、セリフ成分についてのフェードインステップS005に要する時間を、通常パターンにおいて要する第2の時間とすることを決定する。
このように、上述した例外パターンのシーン切り替えを行うことにより、できるだけ早くフェード処理を行うことと、できるだけノイズを発生させずにシーンを切り替えることとのトレードオフのバランスをとることが可能となる。
なお、上述したフェード処理に関する時間や、フェードアウトステップS003においてターゲットとなるゲインの値、各種周波数の数値等は、あくまで一例であり、本開示は、上記の具体的な数値に限定されない。
1 オーディオデータ処理装置、11 入力部、12 デコーダ、13 チャンネル拡張部、14 オーディオデータ処理部、15 D/Aコンバータ、16 アンプ、17 制御部、18 ROM、19 RAM、20 シーン解析部、21L フロント・レフトスピーカ、21R フロント・ライトスピーカ、21C センタースピーカ、21SL サラウンド・レフトスピーカ、21SR サラウンド・ライトスピーカ、141 第1の加算処理部、142 音場効果データ生成部、143 第2の加算処理部、144
バッファ、T1 第1の時点、T2 第2の時点、U 聴取位置、G0 ゲイン、G1 ゲイン、R1 第1の比率、R2 第2の比率、F1 第1のフィルタ係数、F2 第2のフィルタ係数、D1 第1のディレイタイム、D2 第2のディレイタイム、S001 シーン解析ステップ、S002 切り替え認識ステップ、S003 フェードアウトステップ、S004 パラメータ変更ステップ、S005 フェードインステップ。

Claims (14)

  1. パラメータを用いた演算処理により、オーディオデータに音場効果データを付与する音場効果データ生成部と、
    前記オーディオデータにつきシーンの解析を行うシーン解析部と、
    前記シーン解析部による解析結果に基づきシーンの切り替えを認識すると、前記音場効果データ生成部の入力ゲインと出力ゲインの双方を段階的に減少させ、前記パラメータを変化させた後、前記入力ゲインと前記出力ゲインの双方を段階的に増加させる制御部と、
    を含む、オーディオデータ処理装置。
  2. 前記オーディオデータは複数のチャンネルを含み、
    前記音場効果データ生成部は、前記複数のチャンネルに対して前記パラメータを用いた演算処理を行い、
    前記制御部は、前記複数のチャンネルについての前記入力ゲインと、前記複数のチャンネルについての前記出力ゲインについて制御する、
    請求項1に記載のオーディオデータ処理装置。
  3. 前記パラメータは、ゲイン比率、フィルタ係数、ディレイタイムを含み、
    前記シーンの切り替えにおいて、前記ゲイン比率、前記フィルタ係数、及びディレイタイムの内のいずれか二つ以上を変化させる、
    請求項1又は2に記載のオーディオデータ処理装置。
  4. 前記制御部が、前記切り替え後のシーンの種類に応じて、前記入力ゲインと前記出力ゲインとの段階的減少に要する時間を決定する、
    請求項1乃至3のいずれか一つに記載のオーディオデータ処理装置。
  5. 前記制御部が、前記切り替え後のシーンの種類に応じて、前記入力ゲインと前記出力ゲインとの段階的増加に要する時間を決定する、
    請求項1乃至4のいずれか一つに記載のオーディオデータ処理装置。
  6. 前記制御部が、通常パターンの前記シーンの切り替えにおいて、第1の時間をかけて前記入力ゲインと前記出力ゲインとを段階的に減少させ、第2の時間をかけて前記入力ゲインと前記出力ゲインとを段階的に増加させる、
    請求項1乃至5のいずれか一つに記載のオーディオデータ処理装置。
  7. 前記切り替え後のシーンにおいて200Hz以下の音が所定の割合以上である場合、前記制御部は、前記入力ゲインと前記出力ゲインとの段階的増加に要する時間を、前記第2の時間よりも長い時間とする、
    請求項6に記載のオーディオデータ処理装置。
  8. 前記切り替え後のシーンにおいて200Hz以下の音が所定の割合以上である場合、前記制御部は、前記入力ゲインと前記出力ゲインとの段階的減少に要する時間を、前記第1の時間よりも短い時間とする、
    請求項6に記載のオーディオデータ処理装置。
  9. 前記切り替え後のシーンにおいて音楽の信号成分が所定の割合以上である場合、前記制御部は、前記入力ゲインと前記出力ゲインとの段階的減少に要する時間を、前記第1の時間よりも短い時間とする、
    請求項6に記載のオーディオデータ処理装置。
  10. 前記切り替え後のシーンにおいて音楽の信号成分が所定の割合以上である場合、前記制御部は、前記入力ゲインと前記出力ゲインとの段階的増加に要する時間を、前記第2の時間よりも短い時間とする、
    請求項6に記載のオーディオデータ処理装置。
  11. 前記切り替え後のシーンがセリフ成分を含む場合、前記制御部は、前記セリフ成分の前記入力ゲインと前記出力ゲインとの段階的減少に要する時間を、前記セリフ成分以外の成分の前記入力ゲインと前記出力ゲインとの段階的減少に要する時間よりも長い時間とする、
    請求項4に記載のオーディオデータ処理装置。
  12. 前記切り替え後のシーンがセリフ成分を含む場合、前記制御部は、前記セリフ成分の前記入力ゲインと前記出力ゲインとの段階的増加に要する時間を、前記セリフ成分以外の成分の前記入力ゲインと前記出力ゲインとの段階的増加に要する時間よりも長い時間とする、
    請求項5に記載のオーディオデータ処理装置。
  13. 前記音場効果データ生成部の入力ゲインを調整する第1の加算処理部と、
    前記第1の加算処理部の前段に設けられたバッファと、を更に含む、
    請求項1乃至12のいずれか一つに記載のオーディオデータ処理装置。
  14. パラメータを用いた演算処理により、オーディオデータに音場効果データを付与する音場効果データ生成部を含む、オーディオデータ処理装置の制御方法であって、
    前記オーディオデータにつきシーンの解析を行う第1のステップと、
    前記シーンの解析結果に基づき前記シーンの切り替えを認識する第2のステップと、
    前記音場効果データ生成部の入力ゲインと出力ゲインの双方を段階的に減少させる第3のステップと、
    前記演算処理に用いられるパラメータを変化させる第4のステップと、
    前記音場効果データ生成部の前記入力ゲインと前記出力ゲインの双方を段階的に増加させる第5のステップと、
    を含む、オーディオデータ処理装置の制御方法。
JP2017251461A 2017-12-27 2017-12-27 オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法。 Active JP6969368B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2017251461A JP6969368B2 (ja) 2017-12-27 2017-12-27 オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法。
US16/233,523 US10848888B2 (en) 2017-12-27 2018-12-27 Audio data processing device and control method for an audio data processing device

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017251461A JP6969368B2 (ja) 2017-12-27 2017-12-27 オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法。

Publications (2)

Publication Number Publication Date
JP2019118038A JP2019118038A (ja) 2019-07-18
JP6969368B2 true JP6969368B2 (ja) 2021-11-24

Family

ID=66950839

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017251461A Active JP6969368B2 (ja) 2017-12-27 2017-12-27 オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法。

Country Status (2)

Country Link
US (1) US10848888B2 (ja)
JP (1) JP6969368B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113113046B (zh) * 2021-04-14 2024-01-19 杭州网易智企科技有限公司 音频处理的性能检测方法、装置、存储介质及电子设备
CN114501125B (zh) * 2021-12-21 2023-09-12 广州番禺巨大汽车音响设备有限公司 一种自动匹配支持杜比全景声音频的方法及系统
CN114598917B (zh) * 2022-01-27 2024-03-29 海信视像科技股份有限公司 显示设备及音频处理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003467B1 (en) 2000-10-06 2006-02-21 Digital Theater Systems, Inc. Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
US6816599B2 (en) * 2000-11-14 2004-11-09 Topholm & Westermann Aps Ear level device for synthesizing music
JP2010098460A (ja) 2008-10-15 2010-04-30 Yamaha Corp オーディオ信号処理装置
JP5577787B2 (ja) * 2009-05-14 2014-08-27 ヤマハ株式会社 信号処理装置
EP3048818B1 (en) * 2015-01-20 2018-10-10 Yamaha Corporation Audio signal processing apparatus

Also Published As

Publication number Publication date
US20190200151A1 (en) 2019-06-27
US10848888B2 (en) 2020-11-24
JP2019118038A (ja) 2019-07-18

Similar Documents

Publication Publication Date Title
JP5674827B2 (ja) 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム
US8121307B2 (en) In-vehicle sound control system
JP6969368B2 (ja) オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法。
CN103262409A (zh) 用于改进的感觉的频谱不平衡的音频信号的动态补偿
JP6323089B2 (ja) レベル調整方法およびレベル調整装置
KR20110103339A (ko) 오디오 신호에서 음량 레벨의 자동 보정
JPH0764598A (ja) 音声信号弁別装置及びオーディオ装置
US8750529B2 (en) Signal processing apparatus
US20230386501A1 (en) Data processing device and data processing method
JP7143852B2 (ja) 制御装置、制御方法、プログラム
US8635077B2 (en) Apparatus and method for expanding/compressing audio signal
JP6902049B2 (ja) 発話信号を含むオーディオ信号のラウドネスレベル自動修正
US9219455B2 (en) Peak detection when adapting a signal gain based on signal loudness
JP6424421B2 (ja) 音響装置
JP6569571B2 (ja) 信号処理装置及び信号処理方法
KR20200068684A (ko) 오디오 신호의 개별 적응을 위한 파라미터들을 설정하기 위한 방법
JP7451896B2 (ja) 音響処理装置および音響処理方法
JP6807927B2 (ja) 再生装置及び再生方法
US9653065B2 (en) Audio processing device, method, and program
JP2013114242A (ja) 音響処理装置
Chang et al. Audio dynamic range control for set-top box

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201023

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210824

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210928

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211011

R151 Written notification of patent or utility model registration

Ref document number: 6969368

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151