JP2005537510A - 音声その他のオーディオ素材を有する信号中の音声の大きさの制御 - Google Patents
音声その他のオーディオ素材を有する信号中の音声の大きさの制御 Download PDFInfo
- Publication number
- JP2005537510A JP2005537510A JP2004532903A JP2004532903A JP2005537510A JP 2005537510 A JP2005537510 A JP 2005537510A JP 2004532903 A JP2004532903 A JP 2004532903A JP 2004532903 A JP2004532903 A JP 2004532903A JP 2005537510 A JP2005537510 A JP 2005537510A
- Authority
- JP
- Japan
- Prior art keywords
- volume
- audio
- segment
- speech
- audio signal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 239000000463 material Substances 0.000 title abstract description 26
- 238000000034 method Methods 0.000 claims abstract description 89
- 230000005236 sound signal Effects 0.000 claims abstract description 86
- 238000005259 measurement Methods 0.000 claims description 38
- 238000012545 processing Methods 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 24
- 230000008859 change Effects 0.000 claims description 15
- 230000004044 response Effects 0.000 claims description 12
- 238000003672 processing method Methods 0.000 claims 5
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000003595 spectral effect Effects 0.000 description 25
- 238000001228 spectrum Methods 0.000 description 16
- 238000010586 diagram Methods 0.000 description 13
- 238000004364 calculation method Methods 0.000 description 12
- 238000001514 detection method Methods 0.000 description 12
- 230000001020 rhythmical effect Effects 0.000 description 12
- 230000006870 function Effects 0.000 description 9
- 230000004907 flux Effects 0.000 description 6
- 230000007774 longterm Effects 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 230000006835 compression Effects 0.000 description 4
- 238000007906 compression Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 230000000694 effects Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 206010039740 Screaming Diseases 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010348 incorporation Methods 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000000691 measurement method Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000007873 sieving Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
- 230000001755 vocal effect Effects 0.000 description 1
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
- Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
- Stereophonic System (AREA)
- Diaphragms For Electromechanical Transducers (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
図1は、送信機2が経路1からオーディオ信号を受信し、このオーディオ信号を処理してオーディオ信号を表すオーディオ情報を生成し、このオーディオ情報を経路3に沿って伝送するオーディオシステムの概略ブロックダイアグラムである。経路3は、オーディオ情報を直ちに使用するために伝達する通信経路、又は、その後取り出して使うためにオーディオ情報を保存しておく記憶媒体と接続した信号経路を表現している。受信機4は、オーディオ情報を経路3から受信し、オーディオ情報を処理してオーディオ信号を生成し、オーディオ信号をリスナーに聞かせるために経路5に沿って伝送する。
本発明は、音声その他のオーディオ素材を有する信号中の音声の大きさを制御することを対象とする。表1と表3の記載は異なったプログラムにおける様々多形式のオーディオ素材の音声レベルを表している。
本発明は、送信機又は受信機のどちらかで単独に処理することにより、あるいは、送信機と受信機を組み合わせて協同して処理することにより実施することができる。
図2は、送信機又は受信機において単独処理を行うために用いられる装置の概略ブロックダイアグラムである。この装置は、経路11からオーディオ信号の間隔を示すオーディオ情報を受信する。分類装置12は、オーディオ情報を調査して、音声と分類されるオーディオ信号部分を表す「音声セグメント」として、又は、音声とは分類されないオーディオ信号部分を表す「非音声セグメント」としてオーディオ情報のセグメントを分類する。分類装置12は、非音声セグメントをいくつかの類別に分類してもよい。オーディオ情報のセグメントを分類するために用いられる技術については上述した。好ましい技術については以下に述べる。
図3は、送信機における協調的処理に組み込むために用いることのできる装置の概略ブロックダイアグラムである。送信機は経路11からオーディオ信号の間隔を表すオーディオ情報を受け取る。分類装置12と音量測定装置14は、上記と実質的に同じ動作を行う。音量測定装置14により送られた測定した音量の値は経路15に沿って送られる。図に示した実施の形態において、エンコーダー18は経路11から受け取ったオーディオ情報をエンコードして経路19に沿って発信する。エンコーダー18は、本質的にいわゆる知覚的コーディング(perceptual coding)を含むあらゆる形式の望ましいエンコーディングを採用することができる。例えば、図3に示した装置は、AC−3に適合したデータストリームに組み込んだダイアルノームを送信するためにオーディオエンコーダーに組み込んでもよい。エンコーダー18は、本発明に必須ではない。エンコーダー18を省略した他の実施の形態では、オーディオ情報そのものが経路19に沿って伝達される。フォーマッター20は、経路19から受け取ったオーディオ情報の表示と経路15から受け取った測定音量の値とを集めて出力信号とし、この出力信号は伝達又は保存のために経路21に沿って送られる。
図4は、音声と他の形式のオーディオ素材を含むオーディオ信号中の音声に音声量の値を送るために用いられる装置の概略ブロックダイアグラムである。この装置は経路11からオーディオ信号の間隔を表すオーディオ情報を受信する。分類装置12と音量測定装置14は上述した通りの動作を行う。音量測定装置14から送られてきた測定音量の値は経路15に沿って送られる。この値は好みの形式で表示することができ、又は、引き続いて処理を行うために他の装置に送られる。
本発明は本質的に、音声分類を含む2以上の分類にオーディオ情報のセグメントを分類することのできるどんな技術に用いてもよい。適切な分類技術のいくつかの例は上述した。好ましい実施の形態において、オーディオ情報のセグメントは、以下に記載する技術の形態を用いて分類される。
図5に示した特定の実施形態において、図示のための便宜上、オーディオ情報から3つの特性のみを抽出した成分が示されている。好ましい実施の形態においてはしかしながら、セグメントの分類は、以下に記載の7つの特性に基づいている。各抽出成分は、フレーム内に配置したサンプルのブロック上で計算を行うことによりオーディオ情報の特性を抽出する。7個の所定の各特性に用いられるフレーム毎のブロックの大きさと数は表6に示されている。
重み付けられたスペクトルフラックスのL2ノルムの2乗平均は、音声が通常急速に変化するスペクトルを持つという事実を利用する。音声信号は一般に発声音声と呼ばれる音色のような信号と非発声音声と呼ばれるノイズのような信号の2つの形をもつ。これらの2つの形間での移行は、スペクトルに突然の変化を起こさせる。さらには、発声音声の期間に、強調のために、又は、言語の様式により、又は、このような変化が言語の自然な部分であるので、多くの話者はピッチを変化させる。音楽のような非発声音声信号もまた急激なスペクトルの変化を起こすが、このような変化はまれである。歌手は通常かなりの時間同じ周波数で歌うので、音楽のボーカル部分でさえも変化の頻度は少ない。
x[n]=ブロックm中のサンプル番号n
Xm[k]=ブロックm中のサンプルに対する変換係数k
次のステップで、現在のブロックと前のブロックの平均指数から現在のブロックの重みWを計算する。もしサンプルx[n]が複素数あるいは虚数値でなく実数値を取るならば、パーセヴァルの定理を使って、以下に示す式の変換係数から平均指数を計算することができる。
次のステップで、現在のブロックのスペクトル成分と前のブロックのスペクトル成分との違いの大きさを2乗し、その結果を式(2)で計算したブロックの重みWmで除算し、重み付けられたスペクトルフラックスを算出する。L2ノルムつまりユークリッド距離はこうして計算される。重み付けられたスペクトルフラックスとL2ノルムの計算は以下の式で表される。
ブロックからなるフレームの特性は、フレーム中の各ブロックにおける2乗L2ノルムの和を計算することにより得られる。この和は以下の式に示される。
Fl(t)=フレームtにおける重み付けられたスペクトルフラックスのL2ノルムの2乗平均
b)測定スペクトルパワー密度による最適回帰線のスキュー
対数スペクトルパワー密度による最適回帰線の勾配又は傾きにより、信号のスペクトルの傾き又はスペクトル的な強調点の測定値が得られる。もし信号が低い周波数を強調していたら、信号のスペクトルの形を近似する線は高い周波数に向かって下に傾き、線の傾きは負となる。もし信号が高い周波数を強調していたら、信号のスペクトルの形を近似する線は高い周波数に向かって上に傾き、線の傾きは正となる。
c)休止総数
休止総数の特性は、オーディオパワー非常に少なくなるか又は全くなくなる信号の休止又は短い区間が一般に音声に存在するが他のタイプの音声素材には一般に存在しないという事実を利用するものである。
第2のステップでは、フレーム内におけるオーディオ情報のパワーPFを計算する。この特性としてのフレームt内における休止の数F3(t)は、このフレーム内でそれぞれのパワーP[m]が1/4PF以下であるブロックの数に等しい。4分の1という値は経験的に導き出された。
ゼロ交差率は、オーディオ情報で表示され、ある時間間隔中にゼロ点を交差するオーディオ信号の回数で示される。ゼロ交差率は、オーディオ情報サンプルの短いブロックにおけるゼロ点を交差する数を数えることにより測定することができる。ここに記載した実施の形態においては、ブロックには16msec間に256個の連続するサンプルが存在する。
F4(t)=フレームtのゼロ交差率のスキュー係数特性
e)ゼロ交差率の平均値対中央値比
フレームt内においてゼロ交差率のスキュー係数の分布の表示を提示する他の特性はゼロ交差率の平均値対中央値比である。これは以下の式により得られる。
F5(t)=フレームtのゼロ交差率の平均値対中央値比特性
f)短期リズミック尺度
ここまで説明した特性は多くの形式のオーディオ素材中の音声を検出することができる。しかし、これらの技術は、いわゆる「ラップ」と呼ばれるようなリズミカルなオーディオ素材及びポピュラー音楽の多くの場合に高い確率で誤検出を行うことがある。オーディオ情報のセグメントは、非常にリズミカルな素材を検出することにより、より高い信頼度で音声であると分類することができ、さらにそのような素材を分類から除外するか又は素材を音声であるとして分類するために必要な確かなレベルに引き上げることができる。
短期リズミック尺度の特性は、自己相関値の最大値から導き出される。この最大値には、遅れl=0のブロックについての値が含まれていない。したがって、この最大値は、遅れl≧Lのブロックの値の集合から得られたものである。数値Lは期待される最も速いリズムの期間を表す。一実施の形態においてLは、最低期間である160msecを表す10に設定される。この特性は、以下の式に示すように、最大値を、遅れl=0のブロックの自己相関値で除することにより計算される。
g)長期リズミック尺度
長期リズミック尺度は、ゼロ平均シーケンス値がスペクトルの重みに置き換える点を除いて、上述の短期リズミック尺度についての説明と同じ方法で導き出される。これらのスペクトルの重みは、上述の式(5)及び(6)で示した対数パワースペクトル密度を得ることによりまず計算され、対数スペクトルパワー密度による最適回帰線の勾配のスキューに関連して説明される。ここで説明した実施の形態において、長期リズミック尺度の計算でのブロック長さは勾配のスキューの計算に用いるブロック長さとは異なることを指摘しておくことは助けになるかもしれない。
各ブロックにおけるスペクトルの重みは、(Om・α)に等しい閾値より大きな対数領域パワースペクトル値のピークの数により決められる。この決定は以下の式により表現される。
sign(n)=+1 n≦0のとき、 −1 n<0のとき
α=経験から導かれた定数で0.1
各フレームの端で、前のフレームのM個のスペクトルの重みのシーケンスと現在のフレームのM個のスペクトルの重みのシーケンスとが結び付けられて2M個のスペクトルの重みのシーケンスとなる。次いで、この長いシーケンスの自己相関が以下の式により計算される。
この長期リズミック尺度の特性は、自己相関係数の最大値から導き出される。この最大値には、遅れl=0のブロックについての値が含まれていない。したがって、この最大値は、遅れl≧LLのブロックの値の集合から得られたものである。数値LLは期待される最も速いリズムの期間を表す。ここに記載された実施の形態においてLLは10に設定される。この特性は、以下の式に示すように、最大値を、遅れl=0のブロックの自己相関値で除することにより計算される。
2.音声の検出
音声検出装置35は、オーディオ情報のセグメントが音声に分類すべきものかどうかを決定するために各フレームから抽出した特性を結合する。特性を結合するために用いる1つの方法では、簡単な又は暫定的な分類装置が導入される。暫定的な分類装置では、上述の特性の1つを閾値と比較して2進数値を算出する。この2進数値は係数により重み付けられる。各暫定的な分類装置により、1つの特性に基づき暫定的な分類が行われる。特定の特性を2以上の暫定的な分類装置に用いてもよい。暫定的な分類を以下の式で行われる計算により実行してもよい。
cf=暫定的分類装置jの係数
Fi=オーディオ情報から抽出した特性i
THj=暫定的分類装置jの閾値
この特定の実施形態において、暫定的分類Cj=1であることは、暫定的分類装置jがオーディオ情報の特定のフレームは音声に分類すべきであるとの決定を支持しようとしていることを示している。暫定的分類Cj=−1であることは、暫定的分類装置jがオーディオ情報の特定のフレームは音声に分類すべきでないとの決定を支持しようとしていることを示している。
J=分類を行うために用いられる暫定的な分類装置の数
音声検出装置の信頼性は、暫定的な分類装置の選択を最適化すること、及び、これらの暫定的な分類装置の係数と閾値を最適化することにより改善することができる。この最適化は、引用した米国特許5,819,247及び1999年人工知能についての第16回内部合同会議での、Schapire,「A Brief Introduction to Boosting」手順を含む様々な方法で実行することができる。
上述の実施形態では、切れ目や重複のない固定長のブロックから特性を抽出している。その代わり、分類技術を切れ目や重複のない可変長のブロックに適用したり、重複のある固定長又は可変長のブロックに適用したり、あるいは、連続しない固定長又は可変長のブロックに適用したりすることができる。例えば、オーディオ情報をもっと変動の少ないものにするために、トランジエント、休止、又はオーディオエネルギーのごく少ないか全くない期間に適応して、ブロック長さを変化させるようにしてもよい。フレーム毎のブロックの数の変化に適応して、及び/又は、フレーム内のブロックの長さの変化に適応して、フレーム長さも変化させるようにしてもよい。
音量測定装置14は、オーディオ情報のセグメントを調査し、音声セグメントの音量の測定値を得る。一実施の形態において、音声のセグメントと分類された各フレームについて音量が測定される。音量は要求されるあらゆる期間に対して本質的に測定され得る。
本発明の様々な機能は、汎用コンピュータシステムのソフトウエアや、汎用コンピュータシステムに見られるような要素と似た部品と組み合わせたデジタル信号処理(DSP)回路のようなさらに特化した部品を含む他の装置による方法を含む、広く様々な方法で実施することができる。図6は、オーディオをエンコードする送信機又はオーディオをデコードする受信機において本発明の様々な機能を実施するために用いることができる装置70のブロックダイアグラムである。DSP72は計算リソースを提供する。RAM73はDSP72で信号処理に用いられるランダムアクセスメモリー装置(RAM)である。ROM74は、装置70を動作させるために必要なプログラムを保存するためのリードオンリーメモリー(ROM)のような永久的な記憶装置を表している。I/O制御75はコミュニケーションチャンネル76,77を介して信号の伝送と受信を行うインターフェース回路を表している。アナログオーディオ信号を受信及び/又は送信したいときは、アナログからデジタルへの変換器及びデジタルからアナログへの変換器をI/O制御75に含ませてもよい。図示の実施形態において、すべてのシステム部品はバス71に接続される。このバスは、物理的な1以上のバスであってもよいが、バスの概念は本発明の実施に必要ではない。
Claims (36)
- 信号処理方法であって、
入力信号を受け取り、該入力信号からオーディオ情報を獲得するステップであって、ここで、該オーディオ情報はオーディオ信号の区間を意味する、ステップと、
前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査するステップであって、ここで、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有し、前記音声セグメントの該音量は音量の大きい1以上の非音声セグメントの音量より小さい、ステップと、
前記音声セグメントの音量の測定値を得るために前記オーディオ情報を調査するステップと、
前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも音声セグメントの音量の測定値に敏感に対応する制御情報を生成することによりオーディオ信号の区間の音量の表示を行うステップと、
を具備する信号処理方法。 - 前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、ここで、音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、音量の大きい1以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくする、ステップを具備する請求項1に記載の方法。
- 前記オーディオ情報の表示と前記制御情報の表示とを出力信号に組み立て、該出力信号を送信するステップを具備する請求項1に記載の方法。
- 音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得るステップを具備する請求項1又は請求項2に記載の方法。
- オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得るステップを具備する請求項1又は請求項2に記載の方法。
- 前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類するステップを具備する請求項1又は請求項2に記載の方法。
- オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の区間のみの音量を調整することで前記オーディオ信号の区間の音量を制御するステップを具備する請求項1に記載の方法。
- 前記オーディオ信号の区間の音量の表示は、音声セグメントの音量の測定値のみに対応している請求項1又は請求項2に記載の方法。
- 1以上の非音声セグメントの音量を測定するステップであって、ここで、前記オーディオ信号の区間の音量の表示は、1以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応している、ステップを具備する請求項1又は請求項2に記載の方法。
- 各々のセグメントで表現されるオーディオ信号が音声の特性を持つ程度を表示する音声指標を作成するステップと、
各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成するステップと、
を具備する請求項1又は請求項2に記載の方法。 - セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備する請求項1又は請求項2に記載の方法。
- オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備する請求項1又は請求項2に記載の方法。
- 信号処理方法を行う装置により実行しうる命令のプログラムを伝達し、該装置により読み込むことのできる媒体であって、
該信号処理方法は、
入力信号を受け取り、該入力信号からオーディオ情報を獲得するステップであって、ここで、該オーディオ情報はオーディオ信号の区間を意味する、ステップと、
前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査するステップであって、ここで、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有し、前記音声セグメントの該音量は音量の大きい1以上の非音声セグメントの音量より小さい、ステップと、
前記音声セグメントの音量の測定値を得るために前記オーディオ情報を調査するステップと、
前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも音声セグメントの音量の測定値に敏感に対応する制御情報を生成することによりオーディオ信号の区間の音量の表示を行うステップと
を具備する信号処理方法を行う装置により実行しうる命令のプログラムを伝達し、該装置により読み込むことのできる媒体。 - 前記方法は、前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、ここで、音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、音量の大きい1以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくする、ステップを具備する、請求項13に記載の媒体。
- 前記方法は、前記オーディオ情報の表示と前記制御情報の表示とを出力信号に組み立て、該出力信号を送信するステップを具備する、請求項13に記載の媒体。
- 前記方法は、音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得るステップを具備する、請求項13又は請求項14に記載の媒体。
- 前記方法は、オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得るステップを具備する、請求項13又は請求項14に記載の媒体。
- 前記方法は、前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類するステップを具備する、請求項13又は請求項14に記載の媒体。
- 前記方法は、オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の区間のみの音量を調整することで前記オーディオ信号の区間の音量を制御するステップを具備する、請求項13又は請求項14に記載の媒体。
- 前記方法において、前記オーディオ信号の区間の音量の表示は、音声セグメントの音量の測定値のみに対応している、請求項13又は請求項14に記載の媒体。
- 前記方法は、1以上の非音声セグメントの音量を測定するステップであって、ここで、前記オーディオ信号の区間の音量の表示は、1以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応している、ステップを具備する、請求項13又は請求項14に記載の媒体。
- 前記方法は、
各々のセグメントで表現されるオーディオ信号が音声の特性を持つ程度を表示する音声指標を作成するステップと、
各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成するステップと、
を具備する、請求項13又は請求項14に記載の媒体。 - 前記方法は、セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備する、請求項13又は請求項14に記載の媒体。
- 前記方法は、オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備する、請求項13又は請求項14に記載の媒体。
- 信号処理のための装置であって、
入力信号を受け取るための入力端子と、
記憶装置と、
前記入力端子と前記記憶装置に接続された処理回路であって、該処理回路は、
入力信号を受け取り、該入力信号からオーディオ情報を獲得するステップであって、ここで、該オーディオ情報はオーディオ信号の区間を意味する、ステップと、
前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査するステップであって、ここで、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有し、前記音声セグメントの該音量は音量の大きい1以上の非音声セグメントの音量より小さい、ステップと、
前記音声セグメントの音量の測定値を得るために前記オーディオ情報を調査するステップと、
前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも音声セグメントの音量の測定値に敏感に対応する制御情報を生成することによりオーディオ信号の区間の音量の表示を行うステップと、
を具備する処理を行うのに適合している、信号処理のための装置。 - 前記処理回路は、前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、ここで、音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、音量の大きい1以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくする、ステップを具備する処理を行うのに適合している、請求項25に記載の装置。
- 前記処理回路は、前記オーディオ情報の表示と前記制御情報の表示とを出力信号に組み立て、該出力信号を送信するステップを具備する処理を行うのに適合している、請求項25に記載の装置。
- 前記処理回路は、音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得るステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
- 前記処理回路は、オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得るステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
- 前記処理回路は、前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類するステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
- 前記処理回路は、オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の区間のみの音量を調整することで前記オーディオ信号の区間の音量を制御するステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
- 前記処理回路は、前記オーディオ信号の区間の音量の表示が音声セグメントの音量の測定値のみに対応する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
- 前記処理回路は、1以上の非音声セグメントの音量を測定するステップであって、ここで、前記オーディオ信号の区間の音量の表示は、1以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応している、ステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
- 前記処理回路は、
各々のセグメントで表現されるオーディオ信号が音声の特性を持つ程度を表示する音声指標を作成するステップと、
各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成するステップと、
を具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。 - 前記処理回路は、セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
- 前記処理回路は、オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10/233,073 US7454331B2 (en) | 2002-08-30 | 2002-08-30 | Controlling loudness of speech in signals that contain speech and other types of audio material |
PCT/US2003/025627 WO2004021332A1 (en) | 2002-08-30 | 2003-08-15 | Controlling loudness of speech in signals that contain speech and other types of audio material |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2005537510A true JP2005537510A (ja) | 2005-12-08 |
JP2005537510A5 JP2005537510A5 (ja) | 2006-09-28 |
JP4585855B2 JP4585855B2 (ja) | 2010-11-24 |
Family
ID=31977143
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2004532903A Expired - Lifetime JP4585855B2 (ja) | 2002-08-30 | 2003-08-15 | 音声その他のオーディオ素材を有する信号中の音声の大きさの制御 |
Country Status (15)
Country | Link |
---|---|
US (2) | US7454331B2 (ja) |
EP (1) | EP1532621B1 (ja) |
JP (1) | JP4585855B2 (ja) |
KR (1) | KR101019681B1 (ja) |
CN (1) | CN100371986C (ja) |
AT (1) | ATE328341T1 (ja) |
AU (1) | AU2003263845B2 (ja) |
CA (1) | CA2491570C (ja) |
DE (1) | DE60305712T8 (ja) |
HK (1) | HK1073917A1 (ja) |
IL (1) | IL165938A (ja) |
MX (1) | MXPA05002290A (ja) |
MY (1) | MY133623A (ja) |
TW (1) | TWI306238B (ja) |
WO (1) | WO2004021332A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013519918A (ja) * | 2010-02-11 | 2013-05-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法 |
JP2014515124A (ja) * | 2011-04-28 | 2014-06-26 | ドルビー・インターナショナル・アーベー | 効率的なコンテンツ分類及びラウドネス推定 |
JP2016514856A (ja) * | 2013-03-21 | 2016-05-23 | インテレクチュアル ディスカバリー カンパニー リミテッド | オーディオ信号大きさの制御方法及び装置 |
JP2016519784A (ja) * | 2013-03-26 | 2016-07-07 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオ分類および処理のための装置および方法 |
Families Citing this family (96)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7610205B2 (en) * | 2002-02-12 | 2009-10-27 | Dolby Laboratories Licensing Corporation | High quality time-scaling and pitch-scaling of audio signals |
US7711123B2 (en) * | 2001-04-13 | 2010-05-04 | Dolby Laboratories Licensing Corporation | Segmenting audio signals into auditory events |
US7461002B2 (en) * | 2001-04-13 | 2008-12-02 | Dolby Laboratories Licensing Corporation | Method for time aligning audio signals using characterizations based on auditory events |
US20040045022A1 (en) * | 2002-09-03 | 2004-03-04 | Steven Riedl | Digital message insertion technique for analog video services |
DK1629463T3 (da) * | 2003-05-28 | 2007-12-10 | Dolby Lab Licensing Corp | Fremgangsmåde, apparat og computerprogram til beregning og justering af den opfattede styrke af et audiosignal |
US7353169B1 (en) * | 2003-06-24 | 2008-04-01 | Creative Technology Ltd. | Transient detection and modification in audio signals |
US8086448B1 (en) * | 2003-06-24 | 2011-12-27 | Creative Technology Ltd | Dynamic modification of a high-order perceptual attribute of an audio signal |
US7398207B2 (en) | 2003-08-25 | 2008-07-08 | Time Warner Interactive Video Group, Inc. | Methods and systems for determining audio loudness levels in programming |
DE60320414T2 (de) * | 2003-11-12 | 2009-05-20 | Sony Deutschland Gmbh | Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen |
US7970144B1 (en) | 2003-12-17 | 2011-06-28 | Creative Technology Ltd | Extracting and modifying a panned source for enhancement and upmix of audio signals |
KR101079066B1 (ko) | 2004-03-01 | 2011-11-02 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 멀티채널 오디오 코딩 |
US7376890B2 (en) * | 2004-05-27 | 2008-05-20 | International Business Machines Corporation | Method and system for checking rotate, shift and sign extension functions using a modulo function |
US7617109B2 (en) * | 2004-07-01 | 2009-11-10 | Dolby Laboratories Licensing Corporation | Method for correcting metadata affecting the playback loudness and dynamic range of audio information |
US7508947B2 (en) | 2004-08-03 | 2009-03-24 | Dolby Laboratories Licensing Corporation | Method for combining audio signals using auditory scene analysis |
EP2262108B1 (en) | 2004-10-26 | 2017-03-01 | Dolby Laboratories Licensing Corporation | Adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US8199933B2 (en) | 2004-10-26 | 2012-06-12 | Dolby Laboratories Licensing Corporation | Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal |
US7962327B2 (en) * | 2004-12-17 | 2011-06-14 | Industrial Technology Research Institute | Pronunciation assessment method and system based on distinctive feature analysis |
CN102276769B (zh) * | 2005-04-18 | 2013-12-04 | 巴斯夫欧洲公司 | 一种呈由至少三种不同的单烯属不饱和单体构成的聚合物形式的共聚物 |
MX2007015118A (es) * | 2005-06-03 | 2008-02-14 | Dolby Lab Licensing Corp | Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion. |
TWI396188B (zh) * | 2005-08-02 | 2013-05-11 | Dolby Lab Licensing Corp | 依聆聽事件之函數控制空間音訊編碼參數的技術 |
WO2007045797A1 (fr) * | 2005-10-20 | 2007-04-26 | France Telecom | Procede, programme et dispositif de description d'un fichier musical, procede et programme de comparaison de deux fichiers musicaux entre eux, et serveur et terminal pour la mise en oeuvre de ces procedes |
US8068627B2 (en) | 2006-03-14 | 2011-11-29 | Starkey Laboratories, Inc. | System for automatic reception enhancement of hearing assistance devices |
US7986790B2 (en) * | 2006-03-14 | 2011-07-26 | Starkey Laboratories, Inc. | System for evaluating hearing assistance device settings using detected sound environment |
US8494193B2 (en) * | 2006-03-14 | 2013-07-23 | Starkey Laboratories, Inc. | Environment detection and adaptation in hearing assistance devices |
TWI517562B (zh) | 2006-04-04 | 2016-01-11 | 杜比實驗室特許公司 | 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式 |
CN101410892B (zh) * | 2006-04-04 | 2012-08-08 | 杜比实验室特许公司 | 改进的离散余弦变换域中的音频信号响度测量及修改 |
US8682654B2 (en) * | 2006-04-25 | 2014-03-25 | Cyberlink Corp. | Systems and methods for classifying sports video |
JP5129806B2 (ja) | 2006-04-27 | 2013-01-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御 |
KR101137715B1 (ko) | 2006-10-20 | 2012-04-25 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 리셋을 사용하는 오디오 다이내믹스 프로세싱 |
US8521314B2 (en) * | 2006-11-01 | 2013-08-27 | Dolby Laboratories Licensing Corporation | Hierarchical control path with constraints for audio dynamics processing |
JP2010513974A (ja) | 2006-12-21 | 2010-04-30 | コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ | 音声データを処理するシステム |
JP4938862B2 (ja) * | 2007-01-03 | 2012-05-23 | ドルビー ラボラトリーズ ライセンシング コーポレイション | ハイブリッドデジタル/アナログラウドネス補償音量調節 |
CN101647059B (zh) * | 2007-02-26 | 2012-09-05 | 杜比实验室特许公司 | 增强娱乐音频中的语音的方法和设备 |
US8204359B2 (en) * | 2007-03-20 | 2012-06-19 | At&T Intellectual Property I, L.P. | Systems and methods of providing modified media content |
KR101106948B1 (ko) * | 2007-06-19 | 2012-01-20 | 돌비 레버러토리즈 라이쎈싱 코오포레이션 | 스펙트럼 수정들에 의한 라우드니스 측정 |
US8054948B1 (en) * | 2007-06-28 | 2011-11-08 | Sprint Communications Company L.P. | Audio experience for a communications device user |
JP2009020291A (ja) * | 2007-07-11 | 2009-01-29 | Yamaha Corp | 音声処理装置および通信端末装置 |
JP5192544B2 (ja) * | 2007-07-13 | 2013-05-08 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 聴覚情景分析とスペクトルの歪みを用いた音響処理 |
CN101918999B (zh) | 2007-11-12 | 2013-11-13 | 尼尔森(美国)有限公司 | 执行音频水印嵌入以及水印检测和提取的方法和设备 |
EP2232700B1 (en) * | 2007-12-21 | 2014-08-13 | Dts Llc | System for adjusting perceived loudness of audio signals |
US8457951B2 (en) * | 2008-01-29 | 2013-06-04 | The Nielsen Company (Us), Llc | Methods and apparatus for performing variable black length watermarking of media |
US20090226152A1 (en) * | 2008-03-10 | 2009-09-10 | Hanes Brett E | Method for media playback optimization |
EP2172930B1 (en) * | 2008-03-24 | 2012-02-22 | Victor Company Of Japan, Limited | Audio signal processing device and audio signal processing method |
EP2289065B1 (en) * | 2008-06-10 | 2011-12-07 | Dolby Laboratories Licensing Corporation | Concealing audio artifacts |
WO2010033384A1 (en) | 2008-09-19 | 2010-03-25 | Dolby Laboratories Licensing Corporation | Upstream quality enhancement signal processing for resource constrained client devices |
WO2010033387A2 (en) * | 2008-09-19 | 2010-03-25 | Dolby Laboratories Licensing Corporation | Upstream signal processing for client devices in a small-cell wireless network |
US7755526B2 (en) * | 2008-10-31 | 2010-07-13 | At&T Intellectual Property I, L.P. | System and method to modify a metadata parameter |
JP4826625B2 (ja) * | 2008-12-04 | 2011-11-30 | ソニー株式会社 | 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器 |
JP5270006B2 (ja) * | 2008-12-24 | 2013-08-21 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 周波数領域におけるオーディオ信号ラウドネス決定と修正 |
CN101483416B (zh) * | 2009-01-20 | 2011-09-14 | 杭州火莲科技有限公司 | 一种语音的响度均衡处理方法 |
US8428758B2 (en) * | 2009-02-16 | 2013-04-23 | Apple Inc. | Dynamic audio ducking |
EP2237269B1 (en) * | 2009-04-01 | 2013-02-20 | Motorola Mobility LLC | Apparatus and method for processing an encoded audio data signal |
KR101616054B1 (ko) * | 2009-04-17 | 2016-04-28 | 삼성전자주식회사 | 음성 검출 장치 및 방법 |
EP2425426B1 (en) * | 2009-04-30 | 2013-03-13 | Dolby Laboratories Licensing Corporation | Low complexity auditory event boundary detection |
WO2010127024A1 (en) * | 2009-04-30 | 2010-11-04 | Dolby Laboratories Licensing Corporation | Controlling the loudness of an audio signal in response to spectral localization |
US8302047B2 (en) | 2009-05-06 | 2012-10-30 | Texas Instruments Incorporated | Statistical static timing analysis in non-linear regions |
US8996538B1 (en) * | 2009-05-06 | 2015-03-31 | Gracenote, Inc. | Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects |
TWI503816B (zh) * | 2009-05-06 | 2015-10-11 | Dolby Lab Licensing Corp | 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術 |
CN102498514B (zh) * | 2009-08-04 | 2014-06-18 | 诺基亚公司 | 用于音频信号分类的方法和装置 |
US8538042B2 (en) | 2009-08-11 | 2013-09-17 | Dts Llc | System for increasing perceived loudness of speakers |
GB0919672D0 (en) * | 2009-11-10 | 2009-12-23 | Skype Ltd | Noise suppression |
TWI525987B (zh) | 2010-03-10 | 2016-03-11 | 杜比實驗室特許公司 | 在單一播放模式中組合響度量測的系統 |
WO2011141772A1 (en) | 2010-05-12 | 2011-11-17 | Nokia Corporation | Method and apparatus for processing an audio signal based on an estimated loudness |
US8731216B1 (en) * | 2010-10-15 | 2014-05-20 | AARIS Enterprises, Inc. | Audio normalization for digital video broadcasts |
KR101726738B1 (ko) * | 2010-12-01 | 2017-04-13 | 삼성전자주식회사 | 음성처리장치 및 그 방법 |
TWI687918B (zh) * | 2010-12-03 | 2020-03-11 | 美商杜比實驗室特許公司 | 音頻解碼裝置、音頻解碼方法及音頻編碼方法 |
US9620131B2 (en) | 2011-04-08 | 2017-04-11 | Evertz Microsystems Ltd. | Systems and methods for adjusting audio levels in a plurality of audio signals |
JP2013041197A (ja) * | 2011-08-19 | 2013-02-28 | Funai Electric Co Ltd | デジタル放送受信装置 |
EP2783366B1 (en) | 2011-11-22 | 2015-09-16 | Dolby Laboratories Licensing Corporation | Method and system for generating an audio metadata quality score |
KR102057744B1 (ko) * | 2011-12-29 | 2020-01-22 | 레이던 비비엔 테크놀로지스 코포레이션 | 비인접 스펙트럼-대역 변조기 및 비인접 스펙트럼-대역 변조를 위한 방법 |
US9312829B2 (en) * | 2012-04-12 | 2016-04-12 | Dts Llc | System for adjusting loudness of audio signals in real time |
WO2013154868A1 (en) | 2012-04-12 | 2013-10-17 | Dolby Laboratories Licensing Corporation | System and method for leveling loudness variation in an audio signal |
US9053710B1 (en) * | 2012-09-10 | 2015-06-09 | Amazon Technologies, Inc. | Audio content presentation using a presentation profile in a content header |
CN102946520B (zh) * | 2012-10-30 | 2016-12-21 | 深圳创维数字技术有限公司 | 一种自动控制频道音量的方法及数字电视终端 |
CN103841241B (zh) * | 2012-11-21 | 2017-02-08 | 联想(北京)有限公司 | 音量调整方法及装置 |
US8958586B2 (en) | 2012-12-21 | 2015-02-17 | Starkey Laboratories, Inc. | Sound environment classification by coordinated sensing using hearing assistance devices |
US9171552B1 (en) * | 2013-01-17 | 2015-10-27 | Amazon Technologies, Inc. | Multiple range dynamic level control |
CN203134365U (zh) * | 2013-01-21 | 2013-08-14 | 杜比实验室特许公司 | 用于利用响度处理状态元数据处理音频的音频解码器 |
RU2631139C2 (ru) | 2013-01-21 | 2017-09-19 | Долби Лэборетериз Лайсенсинг Корпорейшн | Оптимизация громкости и динамического диапазона через различные устройства воспроизведения |
AU2014207590B2 (en) * | 2013-01-21 | 2015-08-13 | Dolby Laboratories Licensing Corporation | Audio encoder and decoder with program loudness and boundary metadata |
JP6179122B2 (ja) * | 2013-02-20 | 2017-08-16 | 富士通株式会社 | オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム |
US20140278911A1 (en) * | 2013-03-15 | 2014-09-18 | Telemetry Limited | Method and apparatus for determining digital media audibility |
CN104080024B (zh) | 2013-03-26 | 2019-02-19 | 杜比实验室特许公司 | 音量校平器控制器和控制方法以及音频分类器 |
TWI502582B (zh) * | 2013-04-03 | 2015-10-01 | Chung Han Interlingua Knowledge Co Ltd | 服務點之語音客服系統 |
TWM487509U (zh) * | 2013-06-19 | 2014-10-01 | 杜比實驗室特許公司 | 音訊處理設備及電子裝置 |
US9344825B2 (en) | 2014-01-29 | 2016-05-17 | Tls Corp. | At least one of intelligibility or loudness of an audio program |
US9578436B2 (en) | 2014-02-20 | 2017-02-21 | Bose Corporation | Content-aware audio modes |
US9473094B2 (en) * | 2014-05-23 | 2016-10-18 | General Motors Llc | Automatically controlling the loudness of voice prompts |
US9842608B2 (en) | 2014-10-03 | 2017-12-12 | Google Inc. | Automatic selective gain control of audio data for speech recognition |
CN107112023B (zh) | 2014-10-10 | 2020-10-30 | 杜比实验室特许公司 | 基于发送无关的表示的节目响度 |
JP6395558B2 (ja) * | 2014-10-21 | 2018-09-26 | オリンパス株式会社 | 第1の録音装置、第2の録音装置、録音システム、第1の録音方法、第2の録音方法、第1の録音プログラム、および第2の録音プログラム |
US20160283566A1 (en) * | 2015-03-27 | 2016-09-29 | Ca, Inc. | Analyzing sorted mobile application operational state sequences based on sequence metrics |
US10251016B2 (en) | 2015-10-28 | 2019-04-02 | Dts, Inc. | Dialog audio signal balancing in an object-based audio program |
BR112021009667A2 (pt) * | 2018-12-13 | 2021-08-17 | Dolby Laboratories Licensing Corporation | inteligência de mídia de dupla extremidade |
CN110231087B (zh) * | 2019-06-06 | 2021-07-23 | 江苏省广播电视集团有限公司 | 一种高清电视音频响度分析报警及归一化制作方法和设备 |
US11138477B2 (en) * | 2019-08-15 | 2021-10-05 | Collibra Nv | Classification of data using aggregated information from multiple classification modules |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04359298A (ja) * | 1991-06-06 | 1992-12-11 | Matsushita Electric Ind Co Ltd | 音楽音声判別装置 |
JPH05161198A (ja) * | 1991-12-04 | 1993-06-25 | Matsushita Electric Ind Co Ltd | 音楽音声処理装置 |
WO2000078093A1 (en) * | 1999-06-15 | 2000-12-21 | Hearing Enhancement Co., Llc. | Voice-to-remaining audio (vra) interactive hearing aid & auxiliary equipment |
JP2001095082A (ja) * | 1999-09-24 | 2001-04-06 | Yamaha Corp | 指向性拡声装置 |
Family Cites Families (38)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4281218A (en) * | 1979-10-26 | 1981-07-28 | Bell Telephone Laboratories, Incorporated | Speech-nonspeech detector-classifier |
DE3314570A1 (de) * | 1983-04-22 | 1984-10-25 | Philips Patentverwaltung Gmbh, 2000 Hamburg | Verfahren und anordnung zur einstellung der verstaerkung |
US5097510A (en) * | 1989-11-07 | 1992-03-17 | Gs Systems, Inc. | Artificial intelligence pattern-recognition-based noise reduction system for speech processing |
EP0517233B1 (en) | 1991-06-06 | 1996-10-30 | Matsushita Electric Industrial Co., Ltd. | Music/voice discriminating apparatus |
US5548638A (en) * | 1992-12-21 | 1996-08-20 | Iwatsu Electric Co., Ltd. | Audio teleconferencing apparatus |
US5457769A (en) * | 1993-03-30 | 1995-10-10 | Earmark, Inc. | Method and apparatus for detecting the presence of human voice signals in audio signals |
BE1007355A3 (nl) | 1993-07-26 | 1995-05-23 | Philips Electronics Nv | Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling. |
IN184794B (ja) * | 1993-09-14 | 2000-09-30 | British Telecomm | |
JP2986345B2 (ja) * | 1993-10-18 | 1999-12-06 | インターナショナル・ビジネス・マシーンズ・コーポレイション | 音声記録指標化装置及び方法 |
GB9419388D0 (en) * | 1994-09-26 | 1994-11-09 | Canon Kk | Speech analysis |
CA2167748A1 (en) * | 1995-02-09 | 1996-08-10 | Yoav Freund | Apparatus and methods for machine learning hypotheses |
DE19509149A1 (de) | 1995-03-14 | 1996-09-19 | Donald Dipl Ing Schulz | Codierverfahren |
JPH08328599A (ja) | 1995-06-01 | 1996-12-13 | Mitsubishi Electric Corp | Mpegオーディオ復号器 |
US5712954A (en) * | 1995-08-23 | 1998-01-27 | Rockwell International Corp. | System and method for monitoring audio power level of agent speech in a telephonic switch |
DE59713033D1 (de) * | 1996-07-19 | 2010-06-02 | Bernafon Ag | Lautheitsgesteuerte Verarbeitung akustischer Signale |
JP2953397B2 (ja) * | 1996-09-13 | 1999-09-27 | 日本電気株式会社 | ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器 |
US6570991B1 (en) | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
US6125343A (en) * | 1997-05-29 | 2000-09-26 | 3Com Corporation | System and method for selecting a loudest speaker by comparing average frame gains |
US6272360B1 (en) * | 1997-07-03 | 2001-08-07 | Pan Communications, Inc. | Remotely installed transmitter and a hands-free two-way voice terminal device using same |
US6233554B1 (en) * | 1997-12-12 | 2001-05-15 | Qualcomm Incorporated | Audio CODEC with AGC controlled by a VOCODER |
US6298139B1 (en) * | 1997-12-31 | 2001-10-02 | Transcrypt International, Inc. | Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control |
US6182033B1 (en) * | 1998-01-09 | 2001-01-30 | At&T Corp. | Modular approach to speech enhancement with an application to speech coding |
US6353671B1 (en) * | 1998-02-05 | 2002-03-05 | Bioinstco Corp. | Signal processing circuit and method for increasing speech intelligibility |
US6311155B1 (en) * | 2000-02-04 | 2001-10-30 | Hearing Enhancement Company Llc | Use of voice-to-remaining audio (VRA) in consumer applications |
US6351731B1 (en) * | 1998-08-21 | 2002-02-26 | Polycom, Inc. | Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor |
US6823303B1 (en) * | 1998-08-24 | 2004-11-23 | Conexant Systems, Inc. | Speech encoder using voice activity detection in coding noise |
US6411927B1 (en) * | 1998-09-04 | 2002-06-25 | Matsushita Electric Corporation Of America | Robust preprocessing signal equalization system and method for normalizing to a target environment |
DE19848491A1 (de) | 1998-10-21 | 2000-04-27 | Bosch Gmbh Robert | Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger |
US6314396B1 (en) * | 1998-11-06 | 2001-11-06 | International Business Machines Corporation | Automatic gain control in a speech recognition system |
SE9903553D0 (sv) | 1999-01-27 | 1999-10-01 | Lars Liljeryd | Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL) |
DE69933929T2 (de) * | 1999-04-09 | 2007-06-06 | Texas Instruments Inc., Dallas | Bereitstellen von digitalen Audio- und Videoprodukten |
US6351733B1 (en) * | 2000-03-02 | 2002-02-26 | Hearing Enhancement Company, Llc | Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process |
US6889186B1 (en) * | 2000-06-01 | 2005-05-03 | Avaya Technology Corp. | Method and apparatus for improving the intelligibility of digitally compressed speech |
US6625433B1 (en) * | 2000-09-29 | 2003-09-23 | Agere Systems Inc. | Constant compression automatic gain control circuit |
US6807525B1 (en) * | 2000-10-31 | 2004-10-19 | Telogy Networks, Inc. | SID frame detection with human auditory perception compensation |
DE10058786A1 (de) * | 2000-11-27 | 2002-06-13 | Philips Corp Intellectual Pty | Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts |
US7068723B2 (en) * | 2002-02-28 | 2006-06-27 | Fuji Xerox Co., Ltd. | Method for automatically producing optimal summaries of linear media |
US7155385B2 (en) * | 2002-05-16 | 2006-12-26 | Comerica Bank, As Administrative Agent | Automatic gain control for adjusting gain during non-speech portions |
-
2002
- 2002-08-30 US US10/233,073 patent/US7454331B2/en not_active Ceased
-
2003
- 2003-07-30 TW TW092120799A patent/TWI306238B/zh not_active IP Right Cessation
- 2003-08-15 KR KR1020057003479A patent/KR101019681B1/ko active IP Right Grant
- 2003-08-15 CN CNB038199181A patent/CN100371986C/zh not_active Expired - Lifetime
- 2003-08-15 AT AT03791682T patent/ATE328341T1/de not_active IP Right Cessation
- 2003-08-15 CA CA2491570A patent/CA2491570C/en not_active Expired - Lifetime
- 2003-08-15 AU AU2003263845A patent/AU2003263845B2/en not_active Expired
- 2003-08-15 DE DE60305712T patent/DE60305712T8/de active Active
- 2003-08-15 WO PCT/US2003/025627 patent/WO2004021332A1/en active IP Right Grant
- 2003-08-15 MX MXPA05002290A patent/MXPA05002290A/es active IP Right Grant
- 2003-08-15 JP JP2004532903A patent/JP4585855B2/ja not_active Expired - Lifetime
- 2003-08-15 EP EP03791682A patent/EP1532621B1/en not_active Expired - Lifetime
- 2003-08-28 MY MYPI20033257A patent/MY133623A/en unknown
-
2004
- 2004-12-22 IL IL165938A patent/IL165938A/en active IP Right Grant
-
2005
- 2005-08-01 HK HK05106543A patent/HK1073917A1/xx not_active IP Right Cessation
-
2010
- 2010-11-17 US US12/948,730 patent/USRE43985E1/en not_active Expired - Lifetime
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04359298A (ja) * | 1991-06-06 | 1992-12-11 | Matsushita Electric Ind Co Ltd | 音楽音声判別装置 |
JPH05161198A (ja) * | 1991-12-04 | 1993-06-25 | Matsushita Electric Ind Co Ltd | 音楽音声処理装置 |
WO2000078093A1 (en) * | 1999-06-15 | 2000-12-21 | Hearing Enhancement Co., Llc. | Voice-to-remaining audio (vra) interactive hearing aid & auxiliary equipment |
JP2003522439A (ja) * | 1999-06-15 | 2003-07-22 | ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー | 音声対残留オーディオ(vra)相互作用式補聴装置および補助設備 |
JP2001095082A (ja) * | 1999-09-24 | 2001-04-06 | Yamaha Corp | 指向性拡声装置 |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2013519918A (ja) * | 2010-02-11 | 2013-05-30 | ドルビー ラボラトリーズ ライセンシング コーポレイション | 携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法 |
US9646622B2 (en) | 2010-02-11 | 2017-05-09 | Dolby Laboratories Licensing Corporation | System and method for non-destructively normalizing loudness of audio signals within portable devices |
US10418045B2 (en) | 2010-02-11 | 2019-09-17 | Dolby Laboratories Licensing Corporation | System and method for non-destructively normalizing loudness of audio signals within portable devices |
US10566006B2 (en) | 2010-02-11 | 2020-02-18 | Dolby Laboratories Licensing Corporation | System and method for non-destructively normalizing loudness of audio signals within portable devices |
US11341982B2 (en) | 2010-02-11 | 2022-05-24 | Dolby Laboratories Licensing Corporation | System and method for non-destructively normalizing loudness of audio signals within portable devices |
US11670315B2 (en) | 2010-02-11 | 2023-06-06 | Dolby Laboratories Licensing Corporation | System and method for non-destructively normalizing loudness of audio signals within portable devices |
US11948592B2 (en) | 2010-02-11 | 2024-04-02 | Dolby Laboratories Licensing Corporation | System and method for non-destructively normalizing loudness of audio signals within portable devices |
JP2014515124A (ja) * | 2011-04-28 | 2014-06-26 | ドルビー・インターナショナル・アーベー | 効率的なコンテンツ分類及びラウドネス推定 |
JP2016514856A (ja) * | 2013-03-21 | 2016-05-23 | インテレクチュアル ディスカバリー カンパニー リミテッド | オーディオ信号大きさの制御方法及び装置 |
JP2016519784A (ja) * | 2013-03-26 | 2016-07-07 | ドルビー ラボラトリーズ ライセンシング コーポレイション | オーディオ分類および処理のための装置および方法 |
US10803879B2 (en) | 2013-03-26 | 2020-10-13 | Dolby Laboratories Licensing Corporation | Apparatuses and methods for audio classifying and processing |
Also Published As
Publication number | Publication date |
---|---|
EP1532621B1 (en) | 2006-05-31 |
IL165938A0 (en) | 2006-01-15 |
AU2003263845B2 (en) | 2008-08-28 |
US7454331B2 (en) | 2008-11-18 |
MY133623A (en) | 2007-11-30 |
MXPA05002290A (es) | 2005-06-08 |
WO2004021332A1 (en) | 2004-03-11 |
TW200404272A (en) | 2004-03-16 |
KR101019681B1 (ko) | 2011-03-07 |
ATE328341T1 (de) | 2006-06-15 |
JP4585855B2 (ja) | 2010-11-24 |
USRE43985E1 (en) | 2013-02-05 |
CA2491570C (en) | 2011-10-18 |
TWI306238B (en) | 2009-02-11 |
IL165938A (en) | 2010-04-15 |
HK1073917A1 (en) | 2005-10-21 |
CN1679082A (zh) | 2005-10-05 |
CA2491570A1 (en) | 2004-03-11 |
AU2003263845A1 (en) | 2004-03-19 |
DE60305712D1 (de) | 2006-07-06 |
CN100371986C (zh) | 2008-02-27 |
KR20050057045A (ko) | 2005-06-16 |
EP1532621A1 (en) | 2005-05-25 |
DE60305712T8 (de) | 2007-07-12 |
DE60305712T2 (de) | 2007-03-08 |
US20040044525A1 (en) | 2004-03-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4585855B2 (ja) | 音声その他のオーディオ素材を有する信号中の音声の大きさの制御 | |
US10586557B2 (en) | Voice activity detector for audio signals | |
KR101726208B1 (ko) | 볼륨 레벨러 제어기 및 제어 방법 | |
CN109616142B (zh) | 用于音频分类和处理的装置和方法 | |
KR102072026B1 (ko) | 잡음 검출 및 라우드니스 하락 검출을 포함하는 라우드니스 제어 | |
EP2979359B1 (en) | Equalizer controller and controlling method | |
US10374564B2 (en) | Loudness control with noise detection and loudness drop detection | |
JPH0748695B2 (ja) | 音声符号化方式 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20060810 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20060810 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20091201 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100226 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100406 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20100706 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20100713 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100805 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20100831 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20100906 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4585855 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20130910 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |