JP6902049B2 - 発話信号を含むオーディオ信号のラウドネスレベル自動修正 - Google Patents
発話信号を含むオーディオ信号のラウドネスレベル自動修正 Download PDFInfo
- Publication number
- JP6902049B2 JP6902049B2 JP2018556359A JP2018556359A JP6902049B2 JP 6902049 B2 JP6902049 B2 JP 6902049B2 JP 2018556359 A JP2018556359 A JP 2018556359A JP 2018556359 A JP2018556359 A JP 2018556359A JP 6902049 B2 JP6902049 B2 JP 6902049B2
- Authority
- JP
- Japan
- Prior art keywords
- channel
- signal
- gain
- audio input
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
- G10L21/0324—Details of processing therefor
- G10L21/034—Automatic adjustment
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers without distortion of the input signal
- H03G3/20—Automatic control
- H03G3/22—Automatic control in amplifiers having discharge tubes
- H03G3/24—Control dependent upon ambient noise level or sound level
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers without distortion of the input signal
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G7/00—Volume compression or expansion in amplifiers
- H03G7/002—Volume compression or expansion in amplifiers in untuned or low-frequency amplifiers, e.g. audio amplifiers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G9/00—Combinations of two or more types of control, e.g. gain control and tone control
- H03G9/02—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers
- H03G9/025—Combinations of two or more types of control, e.g. gain control and tone control in untuned amplifiers frequency-dependent volume compression or expansion, e.g. multiple-band systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R3/00—Circuits for transducers, loudspeakers or microphones
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S3/00—Systems employing more than two channels, e.g. quadraphonic
- H04S3/008—Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04W—WIRELESS COMMUNICATION NETWORKS
- H04W4/00—Services specially adapted for wireless communication networks; Facilities therefor
- H04W4/30—Services specially adapted for particular environments, situations or purposes
- H04W4/40—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P]
- H04W4/48—Services specially adapted for particular environments, situations or purposes for vehicles, e.g. vehicle-to-pedestrians [V2P] for in-vehicle communication
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R2499/00—Aspects covered by H04R or H04S not otherwise provided for in their subgroups
- H04R2499/10—General applications
- H04R2499/13—Acoustic transducers and sound field adaptation in vehicles
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/05—Generation or adaptation of centre channel in multi-channel audio systems
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/13—Aspects of volume control, not necessarily automatic, in stereophonic sound systems
Description
本発明は、例えば、以下を提供する。
(項目1)
Nチャネルオーディオ出力信号を生成するためのNチャネルオーディオ入力信号のゲインの適応方法であって、前記Nチャネルオーディオ入力信号が、前記Nチャネルオーディオ入力信号内に存在する場合に発話信号成分が存在する発話入力チャネル(21)を含み、他のオーディオ入力チャネル(20)を含む方法であって、
前記Nチャネルオーディオ入力信号の知覚されるラウドネスを動的に判定することと、
発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することと、
発話信号成分が前記発話入力チャネル(21)内に存在する場合に、
第1のゲイン制御ユニット(43)から出力される他のオーディオ出力チャネル(45)の少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第1のゲインパラメータ(39)により、前記Nチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記第1のゲイン制御ユニット(43)において前記他のオーディオ入力チャネル(20)のゲインを動的に適応させることと、
第2のゲイン制御ユニット(44)から出力される発話出力チャネル(46)の少なくとも2つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータ(38)により、前記Nチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル(21)のゲインを前記第2のゲイン制御ユニット(44)において動的に適応させることであって、前記第2のゲインパラメータ(38)が前記第1のゲインパラメータ(39)とは異なる、前記適応させることと、
を含む、前記方法。
(項目2)
前記発話入力信号(21)の前記信号レベルの前記発話出力信号(52)の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル(20)の前記信号レベルの前記他のオーディオ出力チャネル(51)の前記信号レベルに対する比率より小さいように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、項目1に記載の方法。
(項目3)
前記第2のゲインパラメータ(38)によって、前記発話入力信号の前記信号レベルが、前記第1のゲインパラメータ(39)によって増大される前記他のオーディオ出力チャネルの前記信号レベルと比較してより高く増大されるように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、前記項目1または2に記載の方法。
(項目4)
前記第2のゲインパラメータによって、前記発話入力信号(21)の前記信号レベルが、前記第1のゲインパラメータ(39)によって低減される前記他のオーディオ入力チャネルの前記信号レベルと比較してより小さく低減されるように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、先行項目のいずれか1項に記載の方法。
(項目5)
全てのNチャネル合計のために、前記Nチャネルオーディオ入力信号に対する前記知覚されるラウドネスが判定される、先行項目のいずれか1項に記載の方法。
(項目6)
前記Nチャネルオーディオ入力信号の別個のグループのために、前記知覚されるラウドネスが個別に判定される、項目1から4のいずれかに記載の方法。
(項目7)
発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することが、
オーディオフレームに前記発話入力チャネルを分離すること、
フレームごとに特徴抽出を実行すること、
特徴空間において、前記抽出された特徴をクラスタリングすること、
のステップを含む、
先行項目のいずれか1項に記載の方法。
(項目8)
前記Nチャネルオーディオ入力信号が出力される空間において周辺騒音を推定することのステップであって、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルが適応される前記ステップをさらに含む、先行項目のいずれか1項に記載の方法。
(項目9)
前記Nチャネルオーディオ入力信号が車両内部に出力され、前記周辺騒音を推定することが、車両速度を判定することと、前記判定された車両速度に基づいて前記周辺騒音を判定することを含む、項目8に記載の方法。
(項目10)
前記発話入力チャネル内に発話信号成分が一切存在しない場合に、前記オーディオ入力チャネル(20)及び前記発話入力チャネル(21)が同じゲインによって適応される、先行項目のいずれか1項に記載の方法。
(項目11)
Nチャネルオーディオ出力信号を生成するためにNチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Nチャネルオーディオ入力信号が、前記Nチャネルオーディオ入力信号内に存在する場合に発話信号成分が存在する発話入力チャネル(21)を含み、他のオーディオ入力チャネル(20)を含むシステムであって、
前記Nチャネルオーディオ入力信号の知覚されるラウドネスを判定するよう構成された、ラウドネス判定ユニット(31)と、
発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定するよう構成された、発話検出ユニット(37)と、
前記他のオーディオ入力チャネル(20)のゲインを制御するよう構成された、第1のゲイン制御ユニット(43)と、
前記発話入力チャネル(20)のゲインを制御するよう構成された、第2のゲイン制御ユニット(44)と、
前記発話入力信号内に発話信号成分が存在すると前記発話検出ユニットが検出する場合に、
前記第1のゲイン制御ユニット(43)から出力される他のオーディオ出力チャネル(51)の少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、前記第1のゲインパラメータ(39)により、前記Nチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記他のオーディオ入力チャネル(20)の前記ゲインを動的に適応させる前記第1のゲイン制御ユニット(43)と、
第2のゲイン制御ユニット(44)から出力される発話出力チャネル(52)の少なくとも2つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータ(38)により、前記Nチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル(21)の前記ゲインを動的に適応させる前記第2のゲイン制御ユニット(44)であって、前記第2のゲインパラメータが前記第1のゲインパラメータとは異なる、前記第2のゲイン制御ユニット(44)と、
を含む、前記システム。
(項目12)
前記発話入力信号(21)の前記信号レベルの前記発話出力信号(52)の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル(20)の前記信号レベルの前記他のオーディオ出力チャネル(51)の前記信号レベルに対する比率より小さいように、前記第1の制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が、前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、項目11に記載のシステム。
(項目13)
前記第2のゲインパラメータによって、前記発話入力信号の前記信号レベルが、前記第1のゲインパラメータによって増大される前記他のオーディオ出力チャネルの前記信号レベルよりも高く増大されるように、前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、前記項目11または12に記載のシステム。
(項目14)
前記第2のゲインパラメータによって、前記発話入力信号(21)の前記信号レベルが、前記第1のゲインパラメータによって低減される前記他のオーディオ入力チャネルの前記信号レベルよりも小さく低減されるように、前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、項目11から13のいずれか1項に記載のシステム。
(項目15)
前記ラウドネス判定ユニット(31)が、組み合わせられたラウドネスレベルとしての全てのNチャネル合計のために、前記Nチャネルオーディオ入力信号のための前記知覚されるラウドネスを判定するよう構成される、項目11から14のいずれか1項に記載のシステム。
(項目16)
前記ラウドネス判定ユニット(31)が、前記Nチャネルオーディオ入力信号の別個のグループのために、前記知覚されるラウドネスを個別に判定するように構成される、項目11から14のいずれかに記載のシステム。
(項目17)
オーディオフレームに前記発話入力チャネルを分離すること、
フレームごとに特徴抽出を実行すること、
特徴空間において、前記抽出された特徴をクラスタリングすること、
を含むステップに基づき、発話信号成分が前記発話入力チャネル内に存在するか否かを判定するよう前記発話検出ユニット(37)が構成される、項目11から16のいずれか1項に記載のシステム。
(項目18)
前記Nチャネルオーディオ入力信号が出力される空間において周辺騒音を推定する騒音推定器(50)をさらに含み、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルを適応させるよう第1のゲイン制御ユニット(43)及び第2のゲイン制御ユニット(44)が構成される、項目11から17のいずれか1項に記載のシステム。
(項目19)
前記Nチャネルオーディオ入力信号が車両内部に出力され、車両速度を判定し、前記判定された車両速度に基づいて前記周辺雑音を判定するよう前記雑音推定器が構成される、項目11から18のいずれかに記載のシステム。
(項目20)
Nチャネルオーディオ出力信号を生成するためにNチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Nチャネルオーディオ入力信号が、前記Nチャネルオーディオ入力信号内に存在する場合に発話信号成分が存在する発話入力チャネルを含み、他のオーディオ入力チャネルを含むシステム(400)であって、
少なくとも1つのプロセッサ(420)と、
前記少なくとも1つのプロセッサによって実行可能な命令を含むメモリ(430)を含み、項目1から10のいずれかに記載の方法を実行するよう前記システムが操作可能である、
前記システム(400)。
オーディオ信号分析ユニット30において、Nチャネルオーディオ入力信号は、ダウンミキシングユニット36におけるダウンミックスの対象となる。本例において、ダウンミキシングは、Nチャネルオーディオ入力信号において、異なるチャネルが信号分析ユニット30にて個別に分析されるか否か、または、オーディオ信号の特定のグループが生成されるか否かがダウンミキシングユニットにて判定されることを意味する。例として、5.1サラウンド信号の前方信号チャネルがともにあるグループか、または前方信号チャネル及び中央チャネルにグループ分けされてもよく、一方で、後方チャネルまたはサラウンドチャネルが別のグループにグループ分けされてもよい。したがって、ダウンミキシングユニットにおいて、オーディオ入力信号の異なる入力チャネルがどのグループにおいて処理されるか、または、全てのチャネルが個別に処理されるか否かが判定される。発話入力チャネル20はさらに、発話成分が発話入力チャネル内に存在するか否かが検出される判定発話検出ユニット37に供給される。対話等の発話信号成分がNチャネルオーディオ入力信号内に存在する場合、それらは発話入力チャネル内に存在する。他のオーディオ入力チャネル20は、発話入力成分を含まない。発話検出ユニットについては、図5を参照しながら以下にさらに詳細に説明する。
Claims (16)
- Nチャネルオーディオ出力信号を生成するためのNチャネルオーディオ入力信号のゲインを適応させる方法であって、前記Nチャネルオーディオ入力信号が、発話入力チャネル(21)を含み、発話信号成分は、前記Nチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Nチャネルオーディオ入力信号が、他のオーディオ入力チャネル(20)を含み、前記方法は、
前記Nチャネルオーディオ入力信号の知覚されるラウドネスを動的に判定することと、
発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することと、
発話信号成分が前記発話入力チャネル(21)内に存在する場合に、
第1のゲイン制御ユニット(43)から出力される他のオーディオ出力チャネル(45)の少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第1のゲインパラメータ(39)により、前記Nチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記第1のゲイン制御ユニット(43)において前記他のオーディオ入力チャネル(20)のゲインを動的に適応させることと、
第2のゲイン制御ユニット(44)から出力される発話出力チャネル(46)の少なくとも2つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータ(38)により、前記Nチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル(21)のゲインを前記第2のゲイン制御ユニット(44)において動的に適応させることであって、前記第2のゲインパラメータ(38)が前記第1のゲインパラメータ(39)とは異なる、ことと、
を含み、
発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することが、
オーディオフレームに前記発話入力チャネルを分離するステップと、
フレームごとに特徴抽出を実行するステップと、
特徴空間において、前記抽出された特徴をクラスタリングするステップと
を含み、
前記Nチャネルオーディオ入力信号のNチャネルの別個のグループの各々に対して、前記知覚されるラウドネスが判定される、方法。 - 前記発話入力チャネル内に発話信号成分が一切存在しない場合に、前記他のオーディオ入力チャネル(20)及び前記発話入力チャネル(21)が同じゲインによって適応される、請求項1に記載の方法。
- Nチャネルオーディオ出力信号を生成するためのNチャネルオーディオ入力信号のゲインを適応させる方法であって、前記Nチャネルオーディオ入力信号が、発話入力チャネル(21)を含み、発話信号成分は、前記Nチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Nチャネルオーディオ入力信号が、他のオーディオ入力チャネル(20)を含み、前記方法は、
前記Nチャネルオーディオ入力信号の知覚されるラウドネスを動的に判定することと、
発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することと、
発話信号成分が前記発話入力チャネル(21)内に存在する場合に、
第1のゲイン制御ユニット(43)から出力される他のオーディオ出力チャネル(45)の少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第1のゲインパラメータ(39)により、前記Nチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記第1のゲイン制御ユニット(43)において前記他のオーディオ入力チャネル(20)のゲインを動的に適応させることと、
第2のゲイン制御ユニット(44)から出力される発話出力チャネル(46)の少なくとも2つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータ(38)により、前記Nチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル(21)のゲインを前記第2のゲイン制御ユニット(44)において動的に適応させることであって、前記第2のゲインパラメータ(38)が前記第1のゲインパラメータ(39)とは異なる、ことと、
を含み、
発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定することが、
オーディオフレームに前記発話入力チャネルを分離するステップと、
フレームごとに特徴抽出を実行するステップと、
特徴空間において、前記抽出された特徴をクラスタリングするステップと
を含み、
前記発話入力チャネル内に発話信号成分が一切存在しない場合に、前記他のオーディオ入力チャネル(20)及び前記発話入力チャネル(21)が同じゲインによって適応される、方法。 - 組み合わせられたラウドネスレベルとして、前記Nチャネルオーディオ入力信号の全てのNチャネルを組み合わせた前記Nチャネルオーディオ入力信号に対して、前記知覚されるラウドネスが判定される、請求項3に記載の方法。
- 前記発話入力信号(21)の前記信号レベルの前記発話出力信号(52)の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル(20)の前記信号レベルの前記他のオーディオ出力チャネル(51)の前記信号レベルに対する比率より小さいように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、請求項1〜4のいずれか1項に記載の方法。
- 前記第2のゲインパラメータ(38)によって、前記発話入力信号の前記信号レベルが、前記第1のゲインパラメータ(39)によって増大される前記他のオーディオ入力チャネルの前記信号レベルと比較してより高く増大されるように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、請求項1〜5のいずれか1項に記載の方法。
- 前記第2のゲインパラメータによって、前記発話入力信号(21)の前記信号レベルが、前記第1のゲインパラメータ(39)によって低減される前記他のオーディオ入力チャネルの前記信号レベルと比較してより小さく低減されるように、前記第1のゲインパラメータ(39)及び前記第2のゲインパラメータ(38)が決定される、請求項1〜6のいずれか1項に記載の方法。
- 前記Nチャネルオーディオ入力信号が出力される空間において周辺騒音を推定するステップであって、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルが適応される、ステップをさらに含む、請求項1〜7のいずれか1項に記載の方法。
- 前記Nチャネルオーディオ入力信号が車両の内部に出力され、前記周辺騒音を推定することが、車両速度を判定することと、前記判定された車両速度に基づいて前記周辺騒音を判定することとを含む、請求項8に記載の方法。
- Nチャネルオーディオ出力信号を生成するためにNチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Nチャネルオーディオ入力信号が、発話入力チャネル(21)を含み、発話信号成分は、前記Nチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Nチャネルオーディオ入力信号が、他のオーディオ入力チャネル(20)を含み、前記システムは、
前記Nチャネルオーディオ入力信号の知覚されるラウドネスを判定するよう構成された、ラウドネス判定ユニット(31)と、
発話信号成分が前記発話入力チャネル(21)内に存在するか否かを判定するよう構成された、発話検出ユニット(37)と、
前記他のオーディオ入力チャネル(20)のゲインを制御するよう構成された、第1のゲイン制御ユニット(43)と、
前記発話入力チャネル(20)のゲインを制御するよう構成された、第2のゲイン制御ユニット(44)と
を含み、
前記発話入力信号内に発話信号成分が存在すると前記発話検出ユニットが検出する場合に、
前記第1のゲイン制御ユニット(43)は、前記第1のゲイン制御ユニット(43)から出力される他のオーディオ出力チャネル(51)の少なくとも2つの連続するトラックが事前に定義された信号レベルの範囲または事前に定義されたラウドネス範囲に限定されるように、第1のゲインパラメータ(39)により、前記Nチャネルオーディオ入力信号の前記判定された知覚されるラウドネスに基づき、前記他のオーディオ入力チャネル(20)の前記ゲインを動的に適応させ、
前記第2のゲイン制御ユニット(44)は、前記第2のゲイン制御ユニット(44)から出力される発話出力チャネル(52)の少なくとも2つの連続するトラックが前記事前に定義された信号レベルの範囲またはラウドネス範囲に限定されるように、第2のゲインパラメータ(38)により、前記Nチャネルオーディオ入力信号の前記判定されたラウドネスに基づき、前記発話入力チャネル(21)の前記ゲインを動的に適応させ、前記第2のゲインパラメータが前記第1のゲインパラメータとは異なり、
オーディオフレームに前記発話入力チャネルを分離すること、
フレームごとに特徴抽出を実行すること、
特徴空間において、前記抽出された特徴をクラスタリングすること、
を含むステップに基づき、発話信号成分が前記発話入力チャネル内に存在するか否かを判定するよう前記発話検出ユニット(37)が構成され、
前記Nチャネルオーディオ入力信号のNチャネルの別個のグループの各々に対して、前記知覚されるラウドネスが判定される、システム。 - 前記発話入力信号(21)の前記信号レベルの前記発話出力信号(52)の前記信号レベルに対する比率が、前記他のオーディオ入力チャネル(20)の前記信号レベルの前記他のオーディオ出力チャネル(51)の前記信号レベルに対する比率より小さいように、前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が、前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、請求項10に記載のシステム。
- 前記第2のゲインパラメータによって、前記発話入力信号の前記信号レベルが、前記第1のゲインパラメータによって増大される前記他のオーディオ入力チャネルの前記信号レベルよりも高く増大されるように、前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、請求項10または11に記載のシステム。
- 前記第2のゲインパラメータによって、前記発話入力信号(21)の前記信号レベルが、前記第1のゲインパラメータによって低減される前記他のオーディオ入力チャネルの前記信号レベルよりも小さく低減されるように、前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が前記第1のゲインパラメータ及び前記第2のゲインパラメータを決定する、請求項10〜12のいずれか1項に記載のシステム。
- 前記Nチャネルオーディオ入力信号が出力される空間において周辺騒音を推定するよう構成された騒音推定器(50)をさらに含み、前記推定された周辺騒音を考慮して前記他のオーディオ入力チャネルの前記ゲイン及び前記発話入力チャネルを適応させるよう前記第1のゲイン制御ユニット(43)及び前記第2のゲイン制御ユニット(44)が構成される、請求項10〜13のいずれか1項に記載のシステム。
- 前記Nチャネルオーディオ入力信号が車両の内部に出力され、車両速度を判定し、前記判定された車両速度に基づいて前記周辺雑音を判定するよう前記雑音推定器が構成される、請求項14に記載のシステム。
- Nチャネルオーディオ出力信号を生成するためにNチャネルオーディオ入力信号のゲインを適応させるよう構成されたシステムであって、前記Nチャネルオーディオ入力信号が、発話入力チャネルを含み、発話信号成分は、前記Nチャネルオーディオ入力信号内に存在する場合に前記発話入力チャネル内に存在し、前記Nチャネルオーディオ入力信号が、他のオーディオ入力チャネルを含み、前記システムは、
少なくとも1つのプロセッサ(420)と、
前記少なくとも1つのプロセッサによって実行可能な命令を含むメモリ(430)と
を含み、請求項1〜9のいずれか1項に記載の方法を実行するよう前記システムが操作可能である、システム(400)。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/EP2016/065661 WO2018006927A1 (en) | 2016-07-04 | 2016-07-04 | Automatic correction of loudness level in audio signals containing speech signals |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2019525213A JP2019525213A (ja) | 2019-09-05 |
JP6902049B2 true JP6902049B2 (ja) | 2021-07-14 |
Family
ID=56360391
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018556359A Active JP6902049B2 (ja) | 2016-07-04 | 2016-07-04 | 発話信号を含むオーディオ信号のラウドネスレベル自動修正 |
Country Status (6)
Country | Link |
---|---|
US (1) | US10861481B2 (ja) |
EP (1) | EP3479378B1 (ja) |
JP (1) | JP6902049B2 (ja) |
KR (1) | KR102622459B1 (ja) |
CN (1) | CN109643555B (ja) |
WO (1) | WO2018006927A1 (ja) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
FR3073694B1 (fr) * | 2017-11-16 | 2019-11-29 | Augmented Acoustics | Procede de sonorisation live, au casque, tenant compte des caracteristiques de perception auditive de l’auditeur |
KR102522567B1 (ko) * | 2018-09-03 | 2023-04-18 | 삼성전자주식회사 | 전자 장치 및 그 동작 방법 |
US11595730B2 (en) * | 2021-03-08 | 2023-02-28 | Tencent America LLC | Signaling loudness adjustment for an audio scene |
CN113345447B (zh) * | 2021-08-09 | 2021-10-29 | 北京百瑞互联技术有限公司 | 防止广告干扰的音频编解码方法、系统、发射器及接收器 |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4321049B2 (ja) | 2002-07-29 | 2009-08-26 | パナソニック電工株式会社 | 自動利得制御装置 |
US7551745B2 (en) * | 2003-04-24 | 2009-06-23 | Dolby Laboratories Licensing Corporation | Volume and compression control in movie theaters |
ATE502311T1 (de) | 2003-10-10 | 2011-04-15 | Harman Becker Automotive Sys | System und verfahren zur bestimmung der position einer schallquelle |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
CN101154379B (zh) * | 2006-09-27 | 2011-11-23 | 夏普株式会社 | 定位语音中的关键词的方法和设备以及语音识别系统 |
JP4844622B2 (ja) * | 2008-12-05 | 2011-12-28 | ソニー株式会社 | 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器、音響装置 |
KR101068227B1 (ko) * | 2009-06-23 | 2011-09-28 | 주식회사 더바인코퍼레이션 | 명료도 향상장치와 이를 이용한 음성출력장치 |
EP2367286B1 (en) * | 2010-03-12 | 2013-02-20 | Harman Becker Automotive Systems GmbH | Automatic correction of loudness level in audio signals |
US9424743B2 (en) * | 2012-10-12 | 2016-08-23 | Tata Consultancy Services Limited | Real-time traffic detection |
US9413322B2 (en) | 2012-11-19 | 2016-08-09 | Harman International Industries, Incorporated | Audio loudness control system |
US9135920B2 (en) | 2012-11-26 | 2015-09-15 | Harman International Industries, Incorporated | System for perceived enhancement and restoration of compressed audio signals |
CN111580772B (zh) * | 2013-10-22 | 2023-09-26 | 弗劳恩霍夫应用研究促进协会 | 用于音频设备的组合动态范围压缩和引导截断防止的构思 |
US9520851B2 (en) * | 2014-06-26 | 2016-12-13 | Kirusa, Inc. | Predictive automatic gain control in a media processing system |
JP6594721B2 (ja) * | 2015-09-28 | 2019-10-23 | アルパイン株式会社 | 音声認識システム、ゲイン設定システム及びコンピュータプログラム |
CN105448290B (zh) * | 2015-11-16 | 2019-03-01 | 南京邮电大学 | 一种变帧率的音频特征提取方法 |
-
2016
- 2016-07-04 CN CN201680086918.XA patent/CN109643555B/zh active Active
- 2016-07-04 US US16/312,778 patent/US10861481B2/en active Active
- 2016-07-04 WO PCT/EP2016/065661 patent/WO2018006927A1/en unknown
- 2016-07-04 JP JP2018556359A patent/JP6902049B2/ja active Active
- 2016-07-04 EP EP16735637.7A patent/EP3479378B1/en active Active
- 2016-07-04 KR KR1020187032335A patent/KR102622459B1/ko active IP Right Grant
Also Published As
Publication number | Publication date |
---|---|
KR102622459B1 (ko) | 2024-01-08 |
CN109643555B (zh) | 2024-01-30 |
US20190362735A1 (en) | 2019-11-28 |
EP3479378A1 (en) | 2019-05-08 |
KR20190025816A (ko) | 2019-03-12 |
JP2019525213A (ja) | 2019-09-05 |
US10861481B2 (en) | 2020-12-08 |
WO2018006927A1 (en) | 2018-01-11 |
CN109643555A (zh) | 2019-04-16 |
EP3479378B1 (en) | 2023-05-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP2367286B1 (en) | Automatic correction of loudness level in audio signals | |
US10586557B2 (en) | Voice activity detector for audio signals | |
JP6902049B2 (ja) | 発話信号を含むオーディオ信号のラウドネスレベル自動修正 | |
JPWO2010131470A1 (ja) | ゲイン制御装置及びゲイン制御方法、音声出力装置 | |
US9571055B2 (en) | Level adjustment device and method | |
US9219455B2 (en) | Peak detection when adapting a signal gain based on signal loudness |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190703 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20190703 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20200716 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20200729 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201020 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20201215 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210319 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20210319 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20210330 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20210331 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210524 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210618 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6902049 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |