JP6902049B2 - 発話信号を含むオーディオ信号のラウドネスレベル自動修正 - Google Patents

発話信号を含むオーディオ信号のラウドネスレベル自動修正 Download PDF

Info

Publication number
JP6902049B2
JP6902049B2 JP2018556359A JP2018556359A JP6902049B2 JP 6902049 B2 JP6902049 B2 JP 6902049B2 JP 2018556359 A JP2018556359 A JP 2018556359A JP 2018556359 A JP2018556359 A JP 2018556359A JP 6902049 B2 JP6902049 B2 JP 6902049B2
Authority
JP
Japan
Prior art keywords
channel
signal
gain
audio input
utterance
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2018556359A
Other languages
English (en)
Other versions
JP2019525213A (ja
Inventor
トビアス ミュンヒ,
トビアス ミュンヒ,
アルント ヘンスゲンス,
アルント ヘンスゲンス,
Original Assignee
ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー
ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー, ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー filed Critical ハーマン ベッカー オートモーティブ システムズ ゲーエムベーハー
Publication of JP2019525213A publication Critical patent/JP2019525213A/ja
Application granted granted Critical
Publication of JP6902049B2 publication Critical patent/JP6902049B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/034Automatic adjustment
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/22Automatic control in amplifiers having discharge tubes
    • H03G3/24Control dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G7/00Volume compression or expansion in amplifiers
    • H03G7/002Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G9/00Combinations of two or more types of control, e.g. gain control and tone control
    • H03G9/02Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
    • H03G9/025Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04WWIRELESS COMMUNICATION NETWORKS
    • H04W4/00Services specially adapted for wireless communication networks; Facilities therefor
    • H04W4/30Services specially adapted for particular environments, situations or purposes
    • H04W4/40Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
    • H04W4/48Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for in-vehicle communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/13Aspects of volume control, not necessarily automatic, in stereophonic sound systems

Description

本出願は、異なる信号レベル範囲を有する少なくとも2つの異なるトラックを含み、潜在的な発話信号成分を含む、Nチャネルオーディオ入力信号のゲインの適応方法に関する。さらに、そのための対応するシステムが提供される。
音楽及び/または発話を含むオーディオ信号の多くの異なるソースが技術的に知られている。音楽信号は、CD、DVDまたは任意の他の記憶媒体上に記憶することができる。特に、MPEG等の新規の圧縮方式の開発に伴い、異なるジャンル及びアーティストのオーディオ信号が記憶媒体上に記憶され、ユーザに送出されるプレイリストに組み合わされてもよい。特に、車両環境において、乗客によって知覚されるオーディオ信号は、オーディオ信号自体ならびに、ロードタイヤの騒音、空気力学的騒音及びエンジンの騒音を含む。異なるオーディオソースの異なるオーディオ信号はしばしば、異なる信号及びダイナミクス圧縮レベルを有する。しばしば、オーディオ出力信号の異なるトラックは、ユーザによって異なるラウドネスレベルで知覚される、異なる信号レベル範囲を有する。特に、車両環境において、受信されるオーディオ信号はユーザに知覚可能であるべきであり、それはすなわち、車両内に存在する騒音を超えなければならないことを意味する。同時に、全体のオーディオ信号レベルは、聴力を損ない得る、または知覚がユーザにとって苦痛である特定のレベルを超えるべきではない。
車両環境において動画をマルチチャンネルオーディオにて再生する際、中央チャネルは発話及び対話を再生している。しかし、発話素材の知覚されるラウドネスはしばしば、ユーザが対話を適切に知覚することができるほど十分でない。
したがって、特に騒音環境下において、オーディオ信号内に存在する発話信号の良好な知覚を維持しながら、オーディオ信号のラウドネスレベルの動的自動修正を可能にする必要がある。
この必要性は、独立請求項の特徴により、充足される。従属請求項において、本発明の好ましい実施形態が例示される。
第1の態様によると、Nチャネルオーディオ出力信号を生成するために、Nチャネルオーディオ入力信号内に存在する場合に発話信号成分が存在する発話入力チャネルをNチャネルオーディオ入力信号が含む、Nチャネルオーディオ入力信号のゲインの適応方法が提供される。Nチャネルオーディオ入力信号は、他のオーディオ入力チャネルをさらに含む。本方法の1つのステップによると、Nチャネルオーディオ入力信号の知覚されるラウドネスは動的に決定される。さらに、発話信号成分が発話入力チャネル内に存在するか否かが判定される。発話信号成分が発話入力チャネル内に存在する場合、第1のゲイン制御ユニットから出力される他のオーディオ出力チャネルの少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第1のゲインパラメータにより、Nチャネルオーディオ入力信号の判定された知覚されるラウドネスに基づき、他のオーディオ入力チャネルのゲインが第1のゲイン制御ユニットにおいて動的に適応される。第2のゲイン制御ユニットから出力される発話出力チャネルの少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータにより、Nチャネルオーディオ入力信号の判定されたラウドネスに基づき、発話入力チャネルのゲインが第2のゲイン制御ユニットにおいて動的に適応される。これにより、第2のゲインパラメータは、第1のパラメータとは異なる。
さらに、Nチャネルオーディオ入力信号のゲインを適応させるよう構成された、対応するシステムが提供される。本システムは、Nチャネルオーディオ入力信号の知覚されるラウドネスを判定するよう構成された、ラウドネス判定ユニットを含む。さらに、発話信号成分が発話入力チャネル内に存在するか否かを判定するよう構成された、発話検出ユニットが提供される。第1のゲイン制御ユニットが提供されて他のオーディオ入力チャネルのゲインを制御するよう構成され、発話入力チャネルのゲインを制御するよう構成された、第2のゲイン制御ユニットが提供される。発話信号成分が発話入力信号内に存在する場合、第1のゲイン制御ユニットから出力される他のオーディオ出力チャネルの少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第1のゲインパラメータにより、Nチャネルオーディオ入力信号の判定された知覚されるラウドネスに基づき、第1のゲイン制御ユニットは、他のオーディオ入力チャネルのゲインを動的に適応させる。第2のゲイン制御ユニットから出力される発話出力チャネルの少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータにより、Nチャネルオーディオ入力信号の判定されたラウドネスに基づき、第2のゲイン制御ユニットは発話入力チャネルのゲインを動的に適応させる。第1のゲイン制御ユニット及び第2のゲイン制御ユニットは、異なるゲインパラメータが異なるように、第1のゲイン及び第2のゲインを判定する。
発話成分の明瞭度を向上させるために、発話入力チャネルのゲインが、他のオーディオ入力チャネルのゲインと比較して高く増大する可能性がある。例えば、発話入力信号の信号レベルの発話出力信号の信号レベルに対する比率が、他のオーディオ入力チャネルの信号レベルの他のオーディオ出力チャネルの信号レベルに対する比率より小さいように、第1のゲインパラメータ及び第2のゲインパラメータが決定されてもよい。言い換えれば、他のオーディオ入力チャネルと比較してより高いゲインが発話入力チャネルに適応される。
さらなる例として、第2のゲインパラメータによって、発話入力信号の信号レベルが、第1のゲインパラメータによって増大される他のオーディオ入力チャネルの信号レベルと比較してより高く増大されるように、第1のゲインパラメータ及び第2のゲインパラメータが決定される。
事前に定義された信号レベルの範囲内に信号レベルを保つためにNチャネルオーディオ入力信号の信号レベルが低減される場合、第2のゲインパラメータによって、発話入力信号の信号レベルが、第1のゲインパラメータによって低減される他のオーディオ入力チャネルの信号レベルと比較してより小さく低減されるように、第1のゲインパラメータ及び第2のゲインパラメータが決定される可能性がある。
上述の特徴または以下に説明する特徴は、表されるそれぞれの組み合わせのみではなく、本発明の範囲を逸脱することなく、他の組み合わせで、または分離して用いることが可能であることが理解される。上述の態様の実施形態の特徴は、別段の明示的な記載がない限り、他の実施形態において互いに組み合わせされてもよい。
本発明は、例えば、以下を提供する。
(項目1)
Nチャネルオーディオ出力信号を生成するためのNチャネルオーディオ入力信号のゲインの適応方法であって、前記Nチャネルオーディオ入力信号が、前記Nチャネルオーディオ入力信号内に存在する場合に発話信号成分が存在する発話入力チャネル(21)を含み、他のオーディオ入力チャネル(20)を含む方法であって、
前記Nチャネルオーディオ入力信号の知覚されるラウドネスを動的に判定することと、
発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することと、
発話信号成分が前記発話入力チャネル(21)内に存在する場合に、
第1のゲイン制御ユニット(43)から出力される他のオーディオ出力チャネル(45)の少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第1のゲインパラメータ(39)により、前記Nチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記第1のゲイン制御ユニット(43)において前記他のオーディオ入力チャネル(20)のゲインを動的に適応させることと、
第2のゲイン制御ユニット(44)から出力される発話出力チャネル(46)の少なくとも2つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータ(38)により、前記Nチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル(21)のゲインを前記第2のゲイン制御ユニット(44)において動的に適応させることであって、前記第2のゲインパラメータ(38)が前記第1のゲインパラメータ(39)とは異なる、前記適応させることと、
を含む、前記方法。
(項目2)
前記発話入力信号(21)の前記信号レベルの前記発話出力信号(52)の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル(20)の前記信号レベルの前記他のオーディオ出力チャネル(51)の前記信号レベルに対する比率より小さいように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、項目1に記載の方法。
(項目3)
前記第2のゲインパラメータ(38)によって、前記発話入力信号の前記信号レベルが、前記第1のゲインパラメータ(39)によって増大される前記他のオーディオ出力チャネルの前記信号レベルと比較してより高く増大されるように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、前記項目1または2に記載の方法。
(項目4)
前記第2のゲインパラメータによって、前記発話入力信号(21)の前記信号レベルが、前記第1のゲインパラメータ(39)によって低減される前記他のオーディオ入力チャネルの前記信号レベルと比較してより小さく低減されるように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、先行項目のいずれか1項に記載の方法。
(項目5)
全てのNチャネル合計のために、前記Nチャネルオーディオ入力信号に対する前記知覚されるラウドネスが判定される、先行項目のいずれか1項に記載の方法。
(項目6)
前記Nチャネルオーディオ入力信号の別個のグループのために、前記知覚されるラウドネスが個別に判定される、項目1から4のいずれかに記載の方法。
(項目7)
発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することが、
オーディオフレームに前記発話入力チャネルを分離すること、
フレームごとに特徴抽出を実行すること、
特徴空間において、前記抽出された特徴をクラスタリングすること、
のステップを含む、
先行項目のいずれか1項に記載の方法。
(項目8)
前記Nチャネルオーディオ入力信号が出力される空間において周辺騒音を推定することのステップであって、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルが適応される前記ステップをさらに含む、先行項目のいずれか1項に記載の方法。
(項目9)
前記Nチャネルオーディオ入力信号が車両内部に出力され、前記周辺騒音を推定することが、車両速度を判定することと、前記判定された車両速度に基づいて前記周辺騒音を判定することを含む、項目8に記載の方法。
(項目10)
前記発話入力チャネル内に発話信号成分が一切存在しない場合に、前記オーディオ入力チャネル(20)及び前記発話入力チャネル(21)が同じゲインによって適応される、先行項目のいずれか1項に記載の方法。
(項目11)
Nチャネルオーディオ出力信号を生成するためにNチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Nチャネルオーディオ入力信号が、前記Nチャネルオーディオ入力信号内に存在する場合に発話信号成分が存在する発話入力チャネル(21)を含み、他のオーディオ入力チャネル(20)を含むシステムであって、
前記Nチャネルオーディオ入力信号の知覚されるラウドネスを判定するよう構成された、ラウドネス判定ユニット(31)と、
発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定するよう構成された、発話検出ユニット(37)と、
前記他のオーディオ入力チャネル(20)のゲインを制御するよう構成された、第1のゲイン制御ユニット(43)と、
前記発話入力チャネル(20)のゲインを制御するよう構成された、第2のゲイン制御ユニット(44)と、
前記発話入力信号内に発話信号成分が存在すると前記発話検出ユニットが検出する場合に、
前記第1のゲイン制御ユニット(43)から出力される他のオーディオ出力チャネル(51)の少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、前記第1のゲインパラメータ(39)により、前記Nチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記他のオーディオ入力チャネル(20)の前記ゲインを動的に適応させる前記第1のゲイン制御ユニット(43)と、
第2のゲイン制御ユニット(44)から出力される発話出力チャネル(52)の少なくとも2つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータ(38)により、前記Nチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル(21)の前記ゲインを動的に適応させる前記第2のゲイン制御ユニット(44)であって、前記第2のゲインパラメータが前記第1のゲインパラメータとは異なる、前記第2のゲイン制御ユニット(44)と、
を含む、前記システム。
(項目12)
前記発話入力信号(21)の前記信号レベルの前記発話出力信号(52)の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル(20)の前記信号レベルの前記他のオーディオ出力チャネル(51)の前記信号レベルに対する比率より小さいように、前記第1の制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が、前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、項目11に記載のシステム。
(項目13)
前記第2のゲインパラメータによって、前記発話入力信号の前記信号レベルが、前記第1のゲインパラメータによって増大される前記他のオーディオ出力チャネルの前記信号レベルよりも高く増大されるように、前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、前記項目11または12に記載のシステム。
(項目14)
前記第2のゲインパラメータによって、前記発話入力信号(21)の前記信号レベルが、前記第1のゲインパラメータによって低減される前記他のオーディオ入力チャネルの前記信号レベルよりも小さく低減されるように、前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、項目11から13のいずれか1項に記載のシステム。
(項目15)
前記ラウドネス判定ユニット(31)が、組み合わせられたラウドネスレベルとしての全てのNチャネル合計のために、前記Nチャネルオーディオ入力信号のための前記知覚されるラウドネスを判定するよう構成される、項目11から14のいずれか1項に記載のシステム。
(項目16)
前記ラウドネス判定ユニット(31)が、前記Nチャネルオーディオ入力信号の別個のグループのために、前記知覚されるラウドネスを個別に判定するように構成される、項目11から14のいずれかに記載のシステム。
(項目17)
オーディオフレームに前記発話入力チャネルを分離すること、
フレームごとに特徴抽出を実行すること、
特徴空間において、前記抽出された特徴をクラスタリングすること、
を含むステップに基づき、発話信号成分が前記発話入力チャネル内に存在するか否かを判定するよう前記発話検出ユニット(37)が構成される、項目11から16のいずれか1項に記載のシステム。
(項目18)
前記Nチャネルオーディオ入力信号が出力される空間において周辺騒音を推定する騒音推定器(50)をさらに含み、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルを適応させるよう第1のゲイン制御ユニット(43)及び第2のゲイン制御ユニット(44)が構成される、項目11から17のいずれか1項に記載のシステム。
(項目19)
前記Nチャネルオーディオ入力信号が車両内部に出力され、車両速度を判定し、前記判定された車両速度に基づいて前記周辺雑音を判定するよう前記雑音推定器が構成される、項目11から18のいずれかに記載のシステム。
(項目20)
Nチャネルオーディオ出力信号を生成するためにNチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Nチャネルオーディオ入力信号が、前記Nチャネルオーディオ入力信号内に存在する場合に発話信号成分が存在する発話入力チャネルを含み、他のオーディオ入力チャネルを含むシステム(400)であって、
少なくとも1つのプロセッサ(420)と、
前記少なくとも1つのプロセッサによって実行可能な命令を含むメモリ(430)を含み、項目1から10のいずれかに記載の方法を実行するよう前記システムが操作可能である、
前記システム(400)。
本発明の前述のおよび追加的な特徴ならびに効果は、同様の参照番号が同様の要素を指す添付図面と併せ読むことにより、以下の詳細な説明から明らかである。
Nチャネルオーディオ入力信号のゲインを適応させるために利用されるシステムを概略的に示す。 オーディオ入力信号のラウドネスを判定し、Nチャネルオーディオ入力信号の発話信号成分を検出するために利用されるオーディオ分析ユニットのより詳細な図を示す。 ラウドネスを平滑化する、すなわち、ラウドネスの増大に対する迅速な反応及び、ラウドネスレベルの低減時の遅延した反応のための種々の時定数を含む、ゲイン適応のないオーディオ入力信号及び推定されるラウドネスの例を示す。 自動ラウドネス調整のために調整され、完全な信号内容が知られている際に理想的に修正されるべき、図3のオーディオ入力信号の動的レベル調整を示す。 図2のオーディオ分析ユニット内で利用される発話検出ユニットにおいて、発話信号成分が検出される方法を概略的に示す。 Nチャネルオーディオ入力信号のあるブロックから別のブロックへのゲイン変化を表すオーディオ信号への時定数の導入を概略的に示す。 定義された信号レベルの範囲内に留まるように信号レベルが低減される、自動ラウドネス適応前後のNチャネルオーディオ入力信号の信号レベルを示す。 信号レベルが増大される自動ラウドネス適応前後のNチャネルオーディオ入力信号の信号レベルの別の例を示す。 他の信号成分とは異なる方法で発話信号成分が適応されるシステムの概略図を示す。
本発明の実施形態について、添付図面を参照しながら以下に説明する。実施形態の以下の説明は限定的な意味では解釈されるべきものではないことが理解される。本発明の範囲は、例証の目的のために解釈され、以下に説明する実施形態または図面に限定されるものではない。
図面は表現として見なされるべきであり、図面内の例示される要素は必ずしも原寸に比例しているわけではない。むしろ、様々な要素は、それらの機能及び一般的目的が当業者に明らかとなるように表現される。図面に示される、または本明細書に記載される機能ブロック、装置、構成要素または物理的機能単位間の任意の接続または結合が、間接的な接続または結合によって実行されてもよい。構成要素間の結合は、有線または無線接続を通して確立されてもよい。さらに、機能ブロックは、ハードウェア、ソフトウェア、ファームウェアまたはその組み合わせにおいて実行されてもよい。
図1において、Nチャネルオーディオ入力信号のラウドネスを適応させることができるシステムが示される。Nチャネルオーディオ入力信号は、5.1.または7.1.オーディオ信号とすることができ、CD、DVDまたは、ハードディスク等の任意の他の記憶媒体上に記憶されてもよい。Nチャネルオーディオ入力信号は、入力信号内に存在する場合に発話信号成分が存在する、発話入力チャネル21を含む。5.1.または7.1.オーディオ信号において、発話入力チャネルは中央チャネルとすることができる。さらに、Nチャネルオーディオ入力チャネルは、他のオーディオ入力チャネル20を含む。
示されるシステムは特に、人間の聴覚の心理音響定位モデルを利用して、また、信号統計を利用して、チャネルオーディオ入力信号のラウドネスが判定されるオーディオ信号分析ユニット30を含む。
信号分析ユニット30において、人間の聴覚の心理音響モデルに基づき、また、信号統計に基づき、ラウドネスが判定される。以下にさらに詳細に説明するように、音の定位のためにラウドネスを推定する目的で、また、オーディオ入力信号内に主要な要因として、例えば、ポーズ中に、または2つのトラック間に、騒音が存在するか否かを判定するために、心理音響モデルが利用される。信号統計は、ラウドネスを判定するか、または推定するための、また、オーディオ信号内に騒音のあるポーズが存在するか否かを判定するための、第2の根拠である。例として、娯楽用オーディオ信号の信号強度を判定することができる。以下にさらに説明するように、心理音響モデルのみに基づいて、または、統計的信号モデルと組み合わせて、適応可能な時定数を動的に判定することによって、ラウドネス適応が判定される。
図2において、オーディオ信号分析ユニット30のより詳細な図が示される。
オーディオ信号分析ユニット30において、Nチャネルオーディオ入力信号は、ダウンミキシングユニット36におけるダウンミックスの対象となる。本例において、ダウンミキシングは、Nチャネルオーディオ入力信号において、異なるチャネルが信号分析ユニット30にて個別に分析されるか否か、または、オーディオ信号の特定のグループが生成されるか否かがダウンミキシングユニットにて判定されることを意味する。例として、5.1サラウンド信号の前方信号チャネルがともにあるグループか、または前方信号チャネル及び中央チャネルにグループ分けされてもよく、一方で、後方チャネルまたはサラウンドチャネルが別のグループにグループ分けされてもよい。したがって、ダウンミキシングユニットにおいて、オーディオ入力信号の異なる入力チャネルがどのグループにおいて処理されるか、または、全てのチャネルが個別に処理されるか否かが判定される。発話入力チャネル20はさらに、発話成分が発話入力チャネル内に存在するか否かが検出される判定発話検出ユニット37に供給される。対話等の発話信号成分がNチャネルオーディオ入力信号内に存在する場合、それらは発話入力チャネル内に存在する。他のオーディオ入力チャネル20は、発話入力成分を含まない。発話検出ユニットについては、図5を参照しながら以下にさらに詳細に説明する。
オーディオ信号分析ユニットはさらに、受信されたオーディオ入力信号のラウドネスを推定するラウドネス判定ユニット31を含む。ラウドネス判定ユニット31は、当該技術分野で既知の、特にITU−R BS1770−1に説明される方法でラウドネスを判定してもよい。Nチャネルオーディオ入力信号の定位及び、ラウドネスの判定のさらなる詳細のために、同様に、2003年10月の115th Convention、Audio Engineering Society Convention Paper 5864における、Wolfgang Hess他による「Acoustical Evaluation of Virtual Rooms by Means of Binaural Activity Patterns」、1986年12月のJournal of Acoustic Society of Americaの1608〜1622ページ、Vol.80(6)における、W.Lindemannの「Extension of a Binaural Cross−Correlation Model by Contralateral Inhibition.I.Simulation of Lateralization for Stationary Signals」、及び、ITU−R BS 1770−1を参照する。しかし、当該技術分野で既知の、オーディオ信号のラウドネスを判定するための任意の他の方法が利用されてもよいことは言及されるべきである。
ラウドネス判定ユニット31はさらに、ラウドネスを判定するために、また、入力信号20及び21を聞き取る際に、その信号がユーザによって定位され得るか否か、ならびにその場所を判定するために、人間の聴覚の両耳聴モデルを利用してもよい。両耳聴モデルは、オーディオ入力信号の空間的知覚をシミュレーションし、オーディオ入力信号が主に騒音または音楽もしくは発話等の任意の他の入力信号のいずれを含むかを判定することを可能にする。オーディオ入力信号の定位について、本出願に上述した文書において、または、EP 1 522 868A1にて記載されているように、W.Lindemannの文書において、または、上述のAudio Engineering Society Convention Paper 5864において、より詳細に説明される。定位技術により、他の音声信号から騒音を識別し、オーディオ入力信号において騒音のみが検出される場合に、増大したゲインによってこの騒音が出力されることを回避することが可能になる。また、ポーズが検出された際に、時定数生成ユニット32によって生成された適応可能な時定数をリセットすることが可能になる。ラウドネス判定ユニット31は、人間の聴覚の心理音響定位モデルを利用して、オーディオ入力信号のラウドネスを推定する。2つの連続するトラック間のポーズの検出が、ポーズ検出ユニット33によって、概略的に示される。
さらに、ラウドネス判定ユニット31は、オーディオ入力信号のラウドネスを推定するために、または、信号のポーズを検出するために、統計的信号処理を付加的に利用することができる。オーディオ入力信号の統計的分析において、オーディオ入力信号の異なるサンプルの実際の信号レベルが判定される。例えば、入力信号のいくつかの連続するサンプルがガウス分布に従う場合、処理されたサンプルが騒音を含むが、他のオーディオ信号は一切含まないものと推定され得る。
オーディオ信号分析ユニットはその後、オーディオ入力信号20及び21に導入する時定数を算出するために、ラウドネス推定の結果を利用する。図2において、時定数の算出が時定数生成器32によってシンボル化される。図6に関連して詳細に説明するように、時定数により、ゲインが適応される。
オーディオ信号分析ユニット30はさらに、発話入力チャネル21の、また、他のオーディオ入力チャネル20のゲインを適応させる、ゲイン判定ユニット35を含む。ラウドネス判定ユニット31は、dBラウドネス同等物(dBLEQ)を発することにより、音楽入力信号の特定の部分、例えば、いくつかのサンプルを含むブロックに関して、ラウドネスを提供する。ゲイン判定ユニット35は、例えば、図7及び8において示されるように、図の下部における−12dB、または、任意の他の信号レベル閾値等の、オーディオ信号の出力時に満たされるべき事前に定義された信号レベルを有する。ゲイン判定ユニット35において、判定されたラウドネスは、ゲインを算出するために取得される平均信号レベルから減算される。例えば、判定されたラウドネスが、−5dBに対応する場合、また、目標が−12dBフルスケールである場合、約−12dBの平均信号レベルを有するためにゲインを低減することによって、ゲインは適宜、適応されなければならない。ゲイン判定ユニットは、他のオーディオ入力チャネル20のために第1のゲインパラメータを判定し、発話入力チャネル21のために第2のゲインパラメータを判定する。図6に関連して説明するように、ゲイン判定ユニットは、ゲインを適応させるために利用される時定数を算出する。
ゲイン判定ユニットは、発話入力チャネルに存在する対話がユーザによってより良好に知覚されることができるような方法で、発話入力チャネルの、また、他のオーディオ入力チャネルのゲインを適応させるよう構成される。
例えば、全体の信号レベルが増大する際に、第2のゲインパラメータによって増大される発話入力信号の信号レベルは、第1のゲインパラメータによって増大される他のオーディオ入力チャネルの信号レベルと比較してより高く増大されてもよい。言い換えれば、発話入力信号の信号レベルの発話出力信号の信号レベルに対する比率が、他のオーディオ入力チャネルの信号レベルの他のオーディオ出力チャネルの信号レベルに対する比率より小さいように、第1のゲインパラメータ及び第2のパラメータが決定される。
しかし、特定の範囲内に信号レベルを保つためにオーディオ信号の合計信号レベルは低減されるべきである場合、第2のゲインパラメータによって低減される発話入力信号の信号レベルが、第1のゲインパラメータによって低減される他のオーディオ入力チャネルの信号レベルと比較してより小さく低減されるように、発話入力信号の信号レベルが低減されるべく、第1のゲインパラメータ及び第2のゲインパラメータが決定されてもよい。
車両環境において、利用される車両に応じて、異なる周囲騒音が車両の乗員によって知覚される。車両音声信号は、騒音成分及びオーディオ信号成分を含む。騒音信号成分は、ロードタイヤの騒音、空気力学的騒音またはエンジンの騒音に起因し得る。騒音は、60dB SPL(信号圧力レベル)と85dB SPLとの間の値を有し得る。聴覚痛閾値は120dB SPL程度であるため、オーディオ信号成分の範囲は20〜40dB SPL内にある。
図1を再び参照すると、発話入力チャネルのためのオーディオ信号分析ユニットの信号出力38及び他のオーディオ入力チャネルのための信号出力39が、信号制御ユニット40に入力される。時定数の形式でゲイン適応を説明する信号出力38がゲイン制御ユニット44に供給され、一方、信号出力39がゲイン制御ユニット43に供給される。他のオーディオ入力チャネル21は、第1の遅延要素41に入力される。遅延要素は、とりわけ、信号分析ユニットにおけるゲインの判定のため、また、潜在的な発話信号成分の検出のために必要な遅延を入力信号20に導入する。遅延要素により、時定数判定の目的であったオーディオ信号に対応する正確な時定数を用いて、信号分析ユニット30によって処理される信号が実際に制御されることが保証される。同じ方法で、発話入力信号21が、対応する遅延が発話入力信号に導入される第2の遅延ユニット42に供給される。示される実施形態において、2つの異なる遅延ユニット41及び42が提供されるが、信号20及び21に導入される遅延が好ましくは同じであるため、単一の遅延ユニットが利用されてもよい。
信号制御ユニット40はさらに、他のオーディオ入力チャネルのためのゲイン制御ユニット43及び、発話入力チャネル21のためのゲイン制御ユニット44を含む。ゲイン制御ユニット35によって判定されるゲインが実際に、ゲイン制御ユニット43から出力される他のオーディオ出力チャネル45の、または、ゲイン制御ユニット44から出力される発話出力チャネル46の信号出力レベルに影響を与える量が、ゲイン制御ユニット43、44により判定される。このために、オーディオ信号分析ユニット30によるゲイン修正が出力に利用されるパーセンテージをユーザが示すことができるユーザインターフェース(図示せず)が提供されてもよい。組み合わせられた出力信号60内に存在するように、ゲインの100%が出力されるべきである場合、ゲイン判定ユニット35によって判定される値が引き継がれる。しかし、例えばユーザが1曲内においてラウドネス変化を維持したい等、ユーザがゲイン適応を望まない可能性もある。この例において、ゲイン制御ユニット43内でユーザがゲイン適応を0%に設定する、すなわち、ユニット30において判定される修正が出力に一切利用されない可能性がある。ゲイン制御ユニット43において、例えば、0%と100%の間に要因を設定することによって、ゲイン修正量を判定することができる。要因が0%に設定される場合、時定数に影響なくゲインが判定される。
ユーザインターフェースに加えて、または、ユーザインターフェースの代わりに、車両室内の周辺騒音を推定する騒音推定器50を提供することができる。上述のように、車両速度は車両室内の騒音に強く影響を与える。車両が非常に低速で移動しているか、静止している場合、ゲイン判定ユニットによって判定されるゲイン適応は必要であると見なされなくてもよい。出力信号60がゲイン制御ユニットに一切影響されるべきでない、すなわち、ユニット30において判定される修正が出力に一切利用されない場合、ゲイン制御ユニットは、出力信号がユニット30において実行される算出に影響される要因を0%に設定することができる。騒音推定器50は、車両速度を受信することができ、また、車両速度と騒音との間の関係が提供される表51にアクセスすることができる。この表は、車両製造社によって設定された、事前に定義された表であってもよい。通常、表51において与えられた値を適応させることを運転者に可能にするべきではない。しかし、表において与えられた値は、例えば、音声設定を調整することができるソフトウェアツールによって変更されてもよい。車両速度がより速い場合、周辺騒音もまた、80dB(A)にであってもよい。この例では、105dB(A)の閾値が超えられるべきでない場合、25dB(A)のみに留まる。周辺騒音が80dB(A)である場合、上述のように、ゲイン判定ユニットによってオーディオ出力信号のラウドネスが動的に判定されてもよい。ゲイン判定ユニットは周辺騒音に基づいて0%と100%との間で要因を判定することができ、このパーセンテージは、上述のように、ラウドネスが適応されるべき量を示す。示される実施形態において、車両速度は周辺騒音を判定するための唯一の変数である。しかし、他の要因が単独で、または、マイクロフォン(図示せず)によって判定されるような周辺騒音等の車両速度と組み合わせて利用されてもよい。
図3の上部において、オーディオ入力信号の信号レベルがフルスケールで示される。すなわち、0dBフルスケール(0dBFS)が、デジタル領域における最大の潜在的な信号レベルに割り当てられる。dBフルスケールとは、フルスケールに対するデシベルを意味する。図3の上部から分かるように、信号レベル、したがって同様に、ユーザによって知覚される信号に対応するラウドネスレベルが大幅に変化する。図3の下部において、信号入力レベルから対応するラウドネスが推定された。ラウドネス推定の1つの可能性が、Recommendation ITU−R BS.1770−1(「Algorithms to Measure Audio Program Loudness and to a Peak Audio Level」)において説明される。本出願において、ラウドネスは両耳聴定位モデルを通じて推定されてもよい。図3に示す音声信号が車両内のユーザに再生される場合、オーディオ信号の一部が不快なラウドネスで知覚されてもよく、一方で、オーディオ信号の他の部分がユーザによって正確に知覚されるには低すぎると見なされてもよい。図4において、図3の信号の理想的に調整されたレベルが示される。例えば、範囲201における信号サンプルはより低い信号レベルに適応されるべきであり、一方で、範囲202における信号は、ユーザによる良好な知覚のために、より高い信号レベルに適応されるべきである。同様に、範囲203における信号は、強く低減された信号レベルで出力されるべきである。
図4の下部において、上部において理想的に調整されたレベルの対応する推定されたラウドネスが示される。図2の下部を図4の下部と比較すると、図4に示されるラウドネス評価が図3に示されるラウドネス評価よりも好ましいと推定され得る。図4のラウドネス評価は、図3のラウドネス評価よりも良好に知覚されることができる。ここでは、平滑化された、比較的一定なラウドネスに達し、それが視覚化される。
図5は、発話検出ユニットの部分のより詳細な図を示す。発話検出ユニットは、発話入力信号が発話成分を含むか否かを判定しなければならない。このために、発話入力信号は、分割ユニット370において定義された長さのフレーム、例えば、2秒に分離されてもよく、特徴抽出ユニット371において、フレームごとに特徴が算出され、抽出されてもよい。したがって、発話入力信号がフレームに分割され、特徴抽出のためにバッファに入力され、バッファ内容ごとに、特徴抽出が実行される。ユニット372において、抽出された特徴に基づき、分類が実行される。例えば、平均値及び標準偏差が算出されてもよい。最終的に、ユニット373において、クラスタリングが実行される。このクラスタリングユニット373において、特徴空間におけるクラスタリング中心を判定し、各特徴ベクトルを最も近い中心に割り当てるために、フレームごとにクラスラベルの発見が試みられる。例として、K平均アルゴリズムが利用されてもよい。
ユニット371における抽出特徴は、合計スペクトルパワー、零交差率または、メル周波数ケプストラム係数(MFCCs)等の特徴を含んでもよい。
発話入力信号内の発話信号成分を検出するために、当該技術分野で既知の任意の他の方法が利用され得ることを理解すべきである。発話検出は特に、曲内に発生する発話及びテキストを識別するよう構成されるべきである。ゲイン判定ユニットによってこれらの成分に、Nチャネルオーディオ入力信号における他の非発話成分と比較して異なる処理を行うために、発話言語の発話成分のみが検出されるべきである。
発話検出ユニットの出力は、0%から100%の間の確率とすることができる。確率が特定のレベルを上回る場合、発話検出ユニットは発話入力チャネル内に発話が存在すると仮定してもよく、ゲイン判定ユニットがオーディオ入力チャネルと比較して異なる方法で発話入力チャネルを制御することができるように、ゲイン判定ユニットに情報を適宜伝達してもよい。発話入力チャネル内に発話が一切存在しないと発話検出ユニットが仮定する場合、発話入力チャネル及び他のオーディオ入力チャネルの両方を、同様に適応させることができる。
図6において、発話出力チャネル46の1つの異なるサンプル61から63が、異なる時定数71から73によって個別に示される。時定数71から73は、1つのサンプルから次のサンプルにラウドネスがどのように適応されるかを示す。時定数は、上昇する時定数または下降する時定数とすることができる。上昇する時定数は1つのサンプルから次のサンプルに信号ゲインがどのように増大されるかを示し、一方で、下降する時定数は1つのサンプルから次のサンプルへのゲインの低減を示す。時定数71から73は、上昇する時定数が下降する時定数よりもはるかに迅速に適応され得るように判定される。例えば、2つのトラック間またはトラック内で信号ポーズが判定される場合、騒音の増幅を回避するために、オーディオ信号レベルは増大されるべきではない。新規トラックが開始する際、非常に低い信号レベルの直後に、高い信号レベルが発生してもよい。ラウドネス推定の上昇する時定数は、新規トラック開始時の信号レベルが大幅に増大することを回避するために、適宜に適応されるべきである。オーディオ信号レベルの低減の場合の下降する時定数のみにより、増大に比較して、信号レベルのより緩やかな低減が可能である。さらに、時定数は、適応可能な時定数である。すなわち、トラックが長いほど、時定数の反応は緩やかである。平滑化されたラウドネス推定もまた、人間がラウドネスを知覚するのと同様の方法でのラウドネス推定を保証する。ピーク及びディップは、人間の聴覚システムによって平滑化される。オーディオトラックの増大時間とともに時定数がより緩やかに変化するという事実により、オーディオ信号のダイナミクスが維持される。しかしまた、音楽信号の長いランタイムに達する際、増大するラウドネスのより短い反応時間により、迅速な信号増大への適切な反応が保証される。さらに、時定数は、発話出力チャネルにおける発話を含む成分が、他のオーディオ出力チャネルの成分と比較して異なる方法で適応されるものである。図6の上部はさらに、異なる時定数91から93によって分離された他のオーディオ出力チャネル45の異なるサンプルを示す。
図6の下部において、出力信号45及び46についてのゲイン増大及びゲイン低減が時間の経過とともに示される。音楽サンプルの第1のブロック64に関して、第1のゲイン75が示されるように判定される。続く信号ブロック65に関して増大されたゲインが判定され、信号ブロック66がわずかに低減したゲインとともにそれに続き、ゲイン低減は76によってシンボル化されるように適応される。時定数を利用したラウドネス適応に基づき、ブロックごとのゲイン、すなわち、ブロックごとの目標ゲインが判定される。ブロックnの目標ゲインはその後、前のブロックn−1の目標ゲインから開始する線形ランプにて達成される。下部に示される例において、対応するゲイン95及び96を有する異なるサンプル84から86を含む発話出力チャネルについてのゲイン増大及びゲイン低減が示される。ブロック64の終端で発話が検知されると仮定される。さらに、発話信号成分は、発話成分の明瞭度を向上させるために、他の成分と比較して増大されるべきであると仮定される。ゲイン75をゲイン95と比較すると、発話出力チャネル46は、他のオーディオ出力チャネル45と比較して、より強い増大を受けたものと推定され得る。
トラック内の、または2つのトラック間のポーズが判定される場合、時定数がリセットされてもよい。図2の信号分析ユニット30において実行されるポーズ検出またはトラック検出が、ポーズ検出ユニット33及びトラック検出ユニット34によってシンボル化される。図2の実施形態において、ラウドネス判定ユニット31、時定数生成ユニット32、ポーズ及びトラック検出ユニット33及び34、ゲイン判定ユニット35、ダウンミックスユニット36ならびに発話検出ユニット37が別個のユニットとして示される。しかし、異なるユニットがより少ないユニットに組み込まれてもよいこと、また、ユニットがいくつかのユニットまたは1つのユニットにさえ組み合わせられてもよいことが当業者に明らかとなるだろう。さらに、信号分析ユニットは、ハードウェア要素によって、またはソフトウェア要素によって、または、ハードウェアとソフトウェアとの組み合わせによって、設計されてもよい。
図7において、自動ラウドネス適応の第1の例が示される。図7の上部において、ラウドネス推定前のオーディオ入力信号が示される。オーディオ入力信号の2つのチャネルから分かるように、入力信号は異なる入力レベル範囲を包含する。最大インプットレベルは0dBフルスケールであってもよい。図7の下部において、ラウドネス推定後のオーディオ出力信号19及びゲイン適応が示される。図7の上部から分かるように、平均信号レベルは−12dBフルスケールに設定される。同時に、オーディオ信号の動的構造が維持される。
図8において、入力レベルが−20dBフルスケールの最大入力レベルを有する別の例が示される。図8の下部において、ラウドネス推定後のオーディオ出力信号19及びゲイン適応が示される。再び動的構造が維持され、平均信号レベルは再び−12dBフルスケールになる。図7及び8の上部において示される入力信号がユーザに出力された場合、不快に高い信号レベルを回避し、信号レベルが聴くには低すぎるオーディオ信号の部分についての信号を増大させるために、ユーザは音量を頻繁に調整しなければならない。
図9は、システム400の概略的なアーキテクチャビューを示す。システム400は、他の図に関連して上述した全てのステップを実行するよう構成することができる。システム400は、詳細には図示されない入力ユニット及び出力ユニットを有するインターフェース410を含む。図1に示す組み合わせられた出力信号60の出力のためにインターフェースが提供される。図1に関連して上述したように、インターフェースは、異なる入力信号20、21を受信するように、さらに構成される。
さらに、システム400の操作を担当する処理ユニット420が提供される。例えば、デジタル信号処理装置(DSP)等の1つまたは複数の処理装置を含む処理ユニット420は、メモリ430上で命令を実行することができ、メモリは、読み出し専用メモリ、ランダムアクセスメモリ、マスストレージ等を含んでもよい。メモリはさらに、図1から8に関連して上述したように、発話信号成分がNチャネルオーディオ入力信号の他のオーディオ入力チャネルと比較して異なる方法で適応される、システムの上述の機能を実行するために、処理ユニット420によって実行される好適なプログラムコードを含むことができる。
本出願により、システムがラウドネスを推定し、出力前にゲインを自動的かつ動的に揃えるため、ユーザによる頻繁な音量調整が必要なくなる。さらに、Nチャネル信号内に存在する発話成分をよりよく理解することができるように、異なる成分のゲインが適応される。

Claims (16)

  1. Nチャネルオーディオ出力信号を生成するためのNチャネルオーディオ入力信号のゲインを適応させる方法であって、前記Nチャネルオーディオ入力信号が、発話入力チャネル(21)を含み、発話信号成分は、前記Nチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Nチャネルオーディオ入力信号が、他のオーディオ入力チャネル(20)を含み、前記方法は、
    前記Nチャネルオーディオ入力信号の知覚されるラウドネスを動的に判定することと、
    発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することと、
    発話信号成分が前記発話入力チャネル(21)内に存在する場合に、
    第1のゲイン制御ユニット(43)から出力される他のオーディオ出力チャネル(45)の少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第1のゲインパラメータ(39)により、前記Nチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記第1のゲイン制御ユニット(43)において前記他のオーディオ入力チャネル(20)のゲインを動的に適応させることと、
    第2のゲイン制御ユニット(44)から出力される発話出力チャネル(46)の少なくとも2つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータ(38)により、前記Nチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル(21)のゲインを前記第2のゲイン制御ユニット(44)において動的に適応させることであって、前記第2のゲインパラメータ(38)が前記第1のゲインパラメータ(39)とは異なる、ことと、
    を含み、
    発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することが、
    オーディオフレームに前記発話入力チャネルを分離するステップと、
    フレームごとに特徴抽出を実行するステップと、
    特徴空間において、前記抽出された特徴をクラスタリングするステップと
    を含み、
    前記Nチャネルオーディオ入力信号のNチャネルの別個のグループの各々に対して、前記知覚されるラウドネスが判定される、方法。
  2. 前記発話入力チャネル内に発話信号成分が一切存在しない場合に、前記他のオーディオ入力チャネル(20)及び前記発話入力チャネル(21)が同じゲインによって適応される、請求項1に記載の方法。
  3. Nチャネルオーディオ出力信号を生成するためのNチャネルオーディオ入力信号のゲインを適応させる方法であって、前記Nチャネルオーディオ入力信号が、発話入力チャネル(21)を含み、発話信号成分は、前記Nチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Nチャネルオーディオ入力信号が、他のオーディオ入力チャネル(20)を含み、前記方法は、
    前記Nチャネルオーディオ入力信号の知覚されるラウドネスを動的に判定することと、
    発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することと、
    発話信号成分が前記発話入力チャネル(21)内に存在する場合に、
    第1のゲイン制御ユニット(43)から出力される他のオーディオ出力チャネル(45)の少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第1のゲインパラメータ(39)により、前記Nチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記第1のゲイン制御ユニット(43)において前記他のオーディオ入力チャネル(20)のゲインを動的に適応させることと、
    第2のゲイン制御ユニット(44)から出力される発話出力チャネル(46)の少なくとも2つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータ(38)により、前記Nチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル(21)のゲインを前記第2のゲイン制御ユニット(44)において動的に適応させることであって、前記第2のゲインパラメータ(38)が前記第1のゲインパラメータ(39)とは異なる、ことと、
    を含み、
    発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することが、
    オーディオフレームに前記発話入力チャネルを分離するステップと、
    フレームごとに特徴抽出を実行するステップと、
    特徴空間において、前記抽出された特徴をクラスタリングするステップと
    を含み、
    前記発話入力チャネル内に発話信号成分が一切存在しない場合に、前記他のオーディオ入力チャネル(20)及び前記発話入力チャネル(21)が同じゲインによって適応される、方法。
  4. 組み合わせられたラウドネスレベルとして、前記Nチャネルオーディオ入力信号の全てのNチャネルを組み合わせた前記Nチャネルオーディオ入力信号に対して、前記知覚されるラウドネスが判定される、請求項に記載の方法。
  5. 前記発話入力信号(21)の前記信号レベルの前記発話出力信号(52)の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル(20)の前記信号レベルの前記他のオーディオ出力チャネル(51)の前記信号レベルに対する比率より小さいように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、請求項1〜4のいずれか1項に記載の方法。
  6. 前記第2のゲインパラメータ(38)によって、前記発話入力信号の前記信号レベルが、前記第1のゲインパラメータ(39)によって増大される前記他のオーディオ入力チャネルの前記信号レベルと比較してより高く増大されるように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、請求項1〜5のいずれか1項に記載の方法。
  7. 前記第2のゲインパラメータによって、前記発話入力信号(21)の前記信号レベルが、前記第1のゲインパラメータ(39)によって低減される前記他のオーディオ入力チャネルの前記信号レベルと比較してより小さく低減されるように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、請求項1〜のいずれか1項に記載の方法。
  8. 前記Nチャネルオーディオ入力信号が出力される空間において周辺騒音を推定するステップであって、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルが適応される、ステップをさらに含む、請求項1〜のいずれか1項に記載の方法。
  9. 前記Nチャネルオーディオ入力信号が車両の内部に出力され、前記周辺騒音を推定することが、車両速度を判定することと、前記判定された車両速度に基づいて前記周辺騒音を判定することとを含む、請求項に記載の方法。
  10. Nチャネルオーディオ出力信号を生成するためにNチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Nチャネルオーディオ入力信号が、発話入力チャネル(21)を含み、発話信号成分は、前記Nチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Nチャネルオーディオ入力信号が、他のオーディオ入力チャネル(20)を含み、前記システムは、
    前記Nチャネルオーディオ入力信号の知覚されるラウドネスを判定するよう構成された、ラウドネス判定ユニット(31)と、
    発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定するよう構成された、発話検出ユニット(37)と、
    前記他のオーディオ入力チャネル(20)のゲインを制御するよう構成された、第1のゲイン制御ユニット(43)と、
    前記発話入力チャネル(20)のゲインを制御するよう構成された、第2のゲイン制御ユニット(44)と
    を含み、
    前記発話入力信号内に発話信号成分が存在すると前記発話検出ユニットが検出する場合に、
    前記第1のゲイン制御ユニット(43)は、前記第1のゲイン制御ユニット(43)から出力される他のオーディオ出力チャネル(51)の少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第1のゲインパラメータ(39)により、前記Nチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記他のオーディオ入力チャネル(20)の前記ゲインを動的に適応させ、
    前記第2のゲイン制御ユニット(44)は、前記第2のゲイン制御ユニット(44)から出力される発話出力チャネル(52)の少なくとも2つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータ(38)により、前記Nチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル(21)の前記ゲインを動的に適応させ、前記第2のゲインパラメータが前記第1のゲインパラメータとは異なり、
    オーディオフレームに前記発話入力チャネルを分離すること、
    フレームごとに特徴抽出を実行すること、
    特徴空間において、前記抽出された特徴をクラスタリングすること、
    を含むステップに基づき、発話信号成分が前記発話入力チャネル内に存在するか否かを判定するよう前記発話検出ユニット(37)が構成され
    前記Nチャネルオーディオ入力信号のNチャネルの別個のグループの各々に対して、前記知覚されるラウドネスが判定される、システム。
  11. 前記発話入力信号(21)の前記信号レベルの前記発話出力信号(52)の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル(20)の前記信号レベルの前記他のオーディオ出力チャネル(51)の前記信号レベルに対する比率より小さいように、前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が、前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、請求項10に記載のシステム。
  12. 前記第2のゲインパラメータによって、前記発話入力信号の前記信号レベルが、前記第1のゲインパラメータによって増大される前記他のオーディオ入力チャネルの前記信号レベルよりも高く増大されるように、前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、請求項10または11に記載のシステム。
  13. 前記第2のゲインパラメータによって、前記発話入力信号(21)の前記信号レベルが、前記第1のゲインパラメータによって低減される前記他のオーディオ入力チャネルの前記信号レベルよりも小さく低減されるように、前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、請求項10〜12のいずれか1項に記載のシステム。
  14. 前記Nチャネルオーディオ入力信号が出力される空間において周辺騒音を推定するよう構成された騒音推定器(50)をさらに含み、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルを適応させるよう前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が構成される、請求項10〜13のいずれか1項に記載のシステム。
  15. 前記Nチャネルオーディオ入力信号が車両の内部に出力され、車両速度を判定し、前記判定された車両速度に基づいて前記周辺雑音を判定するよう前記雑音推定器が構成される、請求項14に記載のシステム。
  16. Nチャネルオーディオ出力信号を生成するためにNチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Nチャネルオーディオ入力信号が、発話入力チャネルを含み、発話信号成分は、前記Nチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Nチャネルオーディオ入力信号が、他のオーディオ入力チャネルを含み、前記システムは、
    少なくとも1つのプロセッサ(420)と、
    前記少なくとも1つのプロセッサによって実行可能な命令を含むメモリ(430)と
    を含み、請求項1〜9のいずれか1項に記載の方法を実行するよう前記システムが操作可能である、システム(400)。
JP2018556359A 2016-07-04 2016-07-04 発話信号を含むオーディオ信号のラウドネスレベル自動修正 Active JP6902049B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/EP2016/065661 WO2018006927A1 (en) 2016-07-04 2016-07-04 Automatic correction of loudness level in audio signals containing speech signals

Publications (2)

Publication Number Publication Date
JP2019525213A JP2019525213A (ja) 2019-09-05
JP6902049B2 true JP6902049B2 (ja) 2021-07-14

Family

ID=56360391

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018556359A Active JP6902049B2 (ja) 2016-07-04 2016-07-04 発話信号を含むオーディオ信号のラウドネスレベル自動修正

Country Status (6)

Country Link
US (1) US10861481B2 (ja)
EP (1) EP3479378B1 (ja)
JP (1) JP6902049B2 (ja)
KR (1) KR102622459B1 (ja)
CN (1) CN109643555B (ja)
WO (1) WO2018006927A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3073694B1 (fr) * 2017-11-16 2019-11-29 Augmented Acoustics Procede de sonorisation live, au casque, tenant compte des caracteristiques de perception auditive de l’auditeur
KR102522567B1 (ko) * 2018-09-03 2023-04-18 삼성전자주식회사 전자 장치 및 그 동작 방법
US11595730B2 (en) * 2021-03-08 2023-02-28 Tencent America LLC Signaling loudness adjustment for an audio scene
CN113345447B (zh) * 2021-08-09 2021-10-29 北京百瑞互联技术有限公司 防止广告干扰的音频编解码方法、系统、发射器及接收器

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4321049B2 (ja) 2002-07-29 2009-08-26 パナソニック電工株式会社 自動利得制御装置
US7551745B2 (en) * 2003-04-24 2009-06-23 Dolby Laboratories Licensing Corporation Volume and compression control in movie theaters
ATE502311T1 (de) 2003-10-10 2011-04-15 Harman Becker Automotive Sys System und verfahren zur bestimmung der position einer schallquelle
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN101154379B (zh) * 2006-09-27 2011-11-23 夏普株式会社 定位语音中的关键词的方法和设备以及语音识别系统
JP4844622B2 (ja) * 2008-12-05 2011-12-28 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器、音響装置
KR101068227B1 (ko) * 2009-06-23 2011-09-28 주식회사 더바인코퍼레이션 명료도 향상장치와 이를 이용한 음성출력장치
EP2367286B1 (en) * 2010-03-12 2013-02-20 Harman Becker Automotive Systems GmbH Automatic correction of loudness level in audio signals
US9424743B2 (en) * 2012-10-12 2016-08-23 Tata Consultancy Services Limited Real-time traffic detection
US9413322B2 (en) 2012-11-19 2016-08-09 Harman International Industries, Incorporated Audio loudness control system
US9135920B2 (en) 2012-11-26 2015-09-15 Harman International Industries, Incorporated System for perceived enhancement and restoration of compressed audio signals
CN111580772B (zh) * 2013-10-22 2023-09-26 弗劳恩霍夫应用研究促进协会 用于音频设备的组合动态范围压缩和引导截断防止的构思
US9520851B2 (en) * 2014-06-26 2016-12-13 Kirusa, Inc. Predictive automatic gain control in a media processing system
JP6594721B2 (ja) * 2015-09-28 2019-10-23 アルパイン株式会社 音声認識システム、ゲイン設定システム及びコンピュータプログラム
CN105448290B (zh) * 2015-11-16 2019-03-01 南京邮电大学 一种变帧率的音频特征提取方法

Also Published As

Publication number Publication date
KR102622459B1 (ko) 2024-01-08
CN109643555B (zh) 2024-01-30
US20190362735A1 (en) 2019-11-28
EP3479378A1 (en) 2019-05-08
KR20190025816A (ko) 2019-03-12
JP2019525213A (ja) 2019-09-05
US10861481B2 (en) 2020-12-08
WO2018006927A1 (en) 2018-01-11
CN109643555A (zh) 2019-04-16
EP3479378B1 (en) 2023-05-24

Similar Documents

Publication Publication Date Title
EP2367286B1 (en) Automatic correction of loudness level in audio signals
US10586557B2 (en) Voice activity detector for audio signals
JP6902049B2 (ja) 発話信号を含むオーディオ信号のラウドネスレベル自動修正
JPWO2010131470A1 (ja) ゲイン制御装置及びゲイン制御方法、音声出力装置
US9571055B2 (en) Level adjustment device and method
US9219455B2 (en) Peak detection when adapting a signal gain based on signal loudness

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190703

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190703

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200716

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200729

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201020

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201215

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210319

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210319

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210330

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210524

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210618

R150 Certificate of patent or registration of utility model

Ref document number: 6902049

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150