JP2005537510A - 音声その他のオーディオ素材を有する信号中の音声の大きさの制御 - Google Patents

音声その他のオーディオ素材を有する信号中の音声の大きさの制御 Download PDF

Info

Publication number
JP2005537510A
JP2005537510A JP2004532903A JP2004532903A JP2005537510A JP 2005537510 A JP2005537510 A JP 2005537510A JP 2004532903 A JP2004532903 A JP 2004532903A JP 2004532903 A JP2004532903 A JP 2004532903A JP 2005537510 A JP2005537510 A JP 2005537510A
Authority
JP
Japan
Prior art keywords
volume
audio
segment
speech
audio signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2004532903A
Other languages
English (en)
Other versions
JP4585855B2 (ja
JP2005537510A5 (ja
Inventor
ヴィントン、マーク・スチュアート
ロビンソン、チャールズ・クイト
ギャンドリー、ケネス・ジャイムス
ヴェネチア、スティーブン・ジョセフ
リードミラー、ジェフェリー・チャールズ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dolby Laboratories Licensing Corp
Original Assignee
Dolby Laboratories Licensing Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dolby Laboratories Licensing Corp filed Critical Dolby Laboratories Licensing Corp
Publication of JP2005537510A publication Critical patent/JP2005537510A/ja
Publication of JP2005537510A5 publication Critical patent/JP2005537510A5/ja
Application granted granted Critical
Publication of JP4585855B2 publication Critical patent/JP4585855B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands

Landscapes

  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
  • Signal Processing Not Specific To The Method Of Recording And Reproducing (AREA)
  • Stereophonic System (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

音声及び他の形式のオーディオ素材を含むオーディオ信号の音量の表示が、オーディオ情報のセグメントを音声又は非音声に分類することで得られる。音声セグメントの音量が測定されこの測定値は音量の表示の算出に用いられる。音量の表示は、異なったプログラム間での音声の大きさの変動を減らすために信号レベルを制御するために用いてもよい。音声セグメントを分類するために引用された方法が記載されている。

Description

本発明は、音声その他のオーディオ素材を有する信号中の音声の大きさを計測し制御するオーディオシステム及び方法に関する。
ラジオやテレビ放送を視聴するときに、リスナーは十分な音声の大きさを得るためにボリュームの設定をたびたび変更する。十分なボリュームの設定は、リスニング環境における周囲の騒音、再生装置の周波数応答、及び、個人の嗜好等のような様々な要因により影響を受ける。ボリュームの設定を定めた後リスナーは、一般に、音楽やサウンドエフェクトのような他のプログラム素材の存在の有無にかかわらず、音声の大きさを一定に保つことを望む。
プログラムが変わったり違うチャンネルが選択されたりすると、新しいプログラムにおける音声の大きさはしばしば異なり、好みの大きさに戻すためにボリュームの設定を変更する必要がでてくる。ほとんどのアナログ放送は、アナログ放送システムによりカバーすることのできる最大許容レベルで音声を含むプログラムを配信するので、アナログ放送により配信されたプログラムにおける音声の大きさを調整するためには、普通は少しの設定変更を必要とするのみである。一般にこのことは、放送システムにおける様々な要因により引き起こされるノイズに対する音声信号のレベルを上げるためにオーディオプログラム素材のダイナミックレンジを圧縮することによりなされる。それでもやはり、異なったチャンネルで受信したプログラムの音声の大きさ、及び、コマーシャル音声あるいは「コマーシャル」及びそれにより割り込まれるプログラムのような、同じチャンネルで受信した異なったタイプのプログラムに対する音声の大きさには、音声の大きさに不快な違いが存在する。
デジタル放送は、ダイナミックレンジを圧縮することなくまた音声のレベル設定を許容最大値の近傍で設定することもなく、適当な信号対ノイズのレベルで信号を配信することができるので、デジタル放送技術の導入によりこの問題はさらに重大となるであろう。結果、同じチャンネルの異なったプログラム間での音声の大きさ、及び異なったチャンネルのプログラム間での音声の大きさにさらに大きな違いが出てくるであろう。例えば、アナログテレビジョンチャンネルで受信したプログラムの音声とデジタルテレビジョンチャンネルで受信したプログラムの音声との間には、時には20dBを越える違いが観測される。
音声の大きさの違いを減らす1つの方法は、すべての放送局に音声のレベルを最大値より十分低い標準の大きさに統一させ、圧縮や限定の必要性をなくすために素材に広いダイナミックレンジを持たせるのに十分な余裕を持たせることである。残念ながら、この解決方法は、放送の手順に対してできそうもない変化を必要とする。
もう1つ別の解決手段は、米国のデジタルテレビジョン放送に採用されたAC−3オーディオコーディング技術により提供される。AC−3標準に準拠したデジタル放送は、エンコードされたオーディオデータと共にメタデータを伝達する。メタデータには、受信機において、一定の又は標準化された大きさの音声に信号レベルを調整するために使われる「ダイアルノーム(dialnorm)」として知られる制御情報が含まれる。言い換えれば、ダイアルノーム情報により、受信機は、リスナーがしていたようなプログラム毎又はチャンネル毎のボリュームの適切な調整を自動的に行う。リスナーが特定のプログラムに対して好ましい音声の大きさにボリュームを設定すると、受信機はダイアルノーム情報を用いて、プログラム毎又はチャンネル毎に存在したであろう違いにかかわらず、確実にこの好ましいレベルを保持する。ダイアルノーム情報の使用について書いた更なる情報は、2001年8月20日に発行された、Advanced Television System Committee (ATSC)の文書、表題「Revision A to Digital Audio Compression (AC-3) Standard」、及び、1995年10月4日に発行されたATSCの文書、表題「Guide to the Use of the ATSC Digital Television Standard」により得ることができる。
適切なダイアルノームの値は、AC−3準拠のエンコードされた信号を生成するコーディングシステムの一部として利用できなければならない。エンコード処理は、受信機に現れるプログラムにおける音声の大きさを保持するために使うことのできるダイアルノームの値を決定するために、特定のプログラムにおける音声の大きさを測定し評価するための方法を必要とする。
音声の大きさは様々な方法で測定することができる。International Electrotechnical Commission (IEC)により発行された、標準IEC60804 (2000-10)、表題「Integrating-Averaging sound level meters」には、周波数による重み付けに基づく時間平均化された音圧レベルの計測について記載されている。International Organization for Standardizationにより発行された、ISO標準 532:1975、表題「Method for calculating loudness level」には、周波数サブバンドに対して計算されたパワーレベルの組み合わせから大きさの計測値を得る方法について記載されている。大きさを測定するために用いることのできる心理音響的モデルは、1997年4月のJ. Audio Eng. Soc., vol. 45, No. 4 の「A model for the prediction of thresholds, loudness and partial loudness」Moore, Glasberg及び Baer、及び、2002年5月のJ. Audio Eng. Soc., vol. 50, No. 5 の「A model of loudness applicable to time-varying sounds」Glasberg及び Baerに記載されている。
残念ながら、これらのあるいは他の既知の技術を適用するための適当な方法がない。例えば、放送でのアプリケーションにおいて、放送局はオーディオ素材のインターバルを選択し、選択されたインターバルにおける音声の大きさの測定と評価を行い、AC−3準拠のデジタルデータの流れにダイアルノーム情報を挿入する装置に測定値を伝達することが義務付けられる。選択されたインターバルには、代表する音声が含まれるべきであるが、大きさの測定を歪める他の形式のオーディオ素材は含むべきではない。プログラムには故意に音声よりうるさくしたり静かにしたりした他の成分が含まれているので、一般に全体的なオーディオプログラムの音量を計測することは好ましくない。音楽と音響効果の音の大きな部分は、好ましい音声レベルよりはるかに音を大きくすることが好ましいことがよくある。また、風、遠くの交通往来、又は静かに流れる水のような背景音は、音声と同じ音量にすることが好ましくないことは明らかである。
本発明の発明者は、音声を含むオーディオ信号がダイアルノーム情報として適当な値を定めるための改善された処理に用いることができるかどうかを決定する技術を見つけた。音声の検出のための様々な技術のうちのどんな技術も使うことができる。いくつかの技術を以下に引用する。
1981年7月28日に発行された米国特許4,281,218には、短期間のパワーのようなの1以上の信号特性を抽出することによりその信号が音声なのか音声でないのかを区分する技術が記載されている。この区分は、音声信号と音声でない信号とに対して適切な信号処理手法を選択するために用いられる。
1992年3月17日に発行された米国特許5,097,510には、入力信号の振幅包絡線の変化を分析する技術が記載されている。急激に変化量が変化する場合は、音声とみなされ、信号から除去される。その残りは、4つのノイズ区分のうちの1つに区分され、この区分は入力信号を異なったタイプのノイズ低減のための篩い分けを選択するために用いられる。
1995年10月10日に発行された米国特許5,457,769には、音声作動スイッチを動作させるための音声を検出する技術が記載されている。約150Hzでお互い区分された周波数成分を持つ信号を特定することにより音声が検出される。この条件はそれがおそらく音声の信号伝達フォーマットであることを示している。
1999年10月14日に発行されたEP特許0737011及び1999年3月2日に発行された米国特許5,878,391には、1つのオーディオ信号がスピーチ信号である確率を示す信号を生成する技術が記載されている。この確率は、スペクトルの異なった部分間でのパワー比の変化のような信号から1以上の特性を抽出することにより得られる。これらの文献では、確率を導き出すために数多くの特性を使えば、導き出された確率の信頼性が改善されることを示している。
2000年5月9日に発行された米国特許6,061,647には、音声が存在するかどうかを決定するために入力信号をモデルと比較し、ノイズモデルを更新するためにこの入力信号が用いられるべき時を決めるための補助検出装置を用いて、音声を含まないノイズのモデルを保存することで音声を検出する技術が開示されている。
1998年6月25日に発行された国際特許出願WO 98/27543には、1つの入力信号から1組の特性を抽出して各特性に対していくつかの区分技術のうちの1つを用いることによって、音楽から音声を識別する技術が開示されている。特性の最良の組と各特性に対して用いられる最適な区分技術は、経験的に決定される。
これらの引用例で開示された技術及びその他の既知の音声検出技術は、音声でない信号を処理するためのあるいは音声でない信号を取り扱うための方法とは異なった方法により、音声を処理又は音声を取り扱うことができるように、音声を検出すること又はオーディオを区分することを試みる技術である。
1998年10月6日に発行された米国特許5,819,247には、光学的特性認識装置のような区分装置に用いられる仮説を構築するための技術が開示されている。不十分な仮説が実例から構築されその後評価される。反復処理により不十分な仮説が強固な仮説に作り上げられる。音声検出には触れられていないが、この発明者はこの技術が既知の音声検出技術を改善することに使うことができるかもしれないことを認識している。
音声その他のオーディオ素材を有する信号中の音声の大きさの制御を提供することが本発明の目的である。
本発明によれば、入力信号を受け取ることにより信号が処理され、オーディオ信号のインターバルを表す入力信号からオーディオ情報を取得し、このオーディオ情報を調査してオーディオ情報のセグメントを音声セグメント又は非音声セグメントに分類し、オーディソ情報を調査して音声セグメントの音量を測定し、非音声セグメントとして表示されたオーディオ信号の部分の音量より、音声セグメントの音量の測定に対して敏感な制御情報を生成することによりこのオーディオ信号のインターバルに音量の表示を提供する。
音量の表示は、音声セグメントの音量の変化を減少するようにオーディオ信号の音量を制御するために使われてもよい。音声セグメントとして表示されたオーディオ信号の部分の音量が増加するとき非音声セグメントとして表示されたオーディオ信号の部分の音量も増加する。
本発明とその好ましい実施の形態における様々な機能は、以下の説明と、図の相当する要素に参照番号を付加した添付図面を参照することによりよく理解できるであろう。以下の説明と図面の内容は例示としてのみ述べたもので、本発明の技術範囲を限定するためのものではないと理解すべきである。
A.システムの概観
図1は、送信機2が経路1からオーディオ信号を受信し、このオーディオ信号を処理してオーディオ信号を表すオーディオ情報を生成し、このオーディオ情報を経路3に沿って伝送するオーディオシステムの概略ブロックダイアグラムである。経路3は、オーディオ情報を直ちに使用するために伝達する通信経路、又は、その後取り出して使うためにオーディオ情報を保存しておく記憶媒体と接続した信号経路を表現している。受信機4は、オーディオ情報を経路3から受信し、オーディオ情報を処理してオーディオ信号を生成し、オーディオ信号をリスナーに聞かせるために経路5に沿って伝送する。
図1に示したシステムは、送信機と受信機とを含むが、本発明は、複数の送信機及び/又は複数の受信機とを含むシステムに用いられる。本発明の様々な機能は、送信機2にのみ、受信機4にのみ、又は送信機2と受信機4の両方に組み込むことができる。
一実施の形態において、送信機2は、オーディオ情報を低い帯域幅のチャンネルを介して伝送することができ、少ない容量の媒体に保存することができるように、オーディオ信号より必要な情報容量が低いエンコードされたオーディオ情報へと、オーディオ信号をエンコードする処理を行う。受信機4は、なるべく入力信号と同じか又は似たものとして認識されるオーディオ信号を生成するために用いることができる形式へと、エンコードされたオーディオ情報をデコードする処理を行う。例えば、送信機2と受信機4は、AC−3コーディング標準又はモーションピクチャーエキスパートグループ(MPEG)により発行されたいくつかの標準に準拠するデジタルビットストリームにエンコードしデコードする。本発明はエンコーディングとデコーディング処理に適用するシステムに有効に適用することができるが、これらの処理は本発明を実施するために必要ではない。
本発明はアナログ信号処理に導入してもよいが、デジタル信号処理技術により導入されるほうが一般に好都合である。以下の例は特にデジタル信号処理について説明している。
B.音声の大きさ
本発明は、音声その他のオーディオ素材を有する信号中の音声の大きさを制御することを対象とする。表1と表3の記載は異なったプログラムにおける様々多形式のオーディオ素材の音声レベルを表している。
表1には、おそらくテレビジョン受信機に放送される3つのプログラム中の音声の相対的な音量の情報が含まれる。ニュース放送1では、2人が異なったレベルでしゃべっている。ニュース放送2では、音声よりたまたま大きな他のサウンドより低いレベルで1人がしゃべっている。音楽はしばしば低いレベルで現れる。コマーシャルにおいては、人は非常に高いレベルしゃべり音楽はちょくちょくむしろ音が大きくなる。
Figure 2005537510
本発明において、オーディオシステムは、音声大きさの変化が自動的に小さくなるよう3つのプログラム中におけるオーディオ素材の音量を自動的に制御する。ニュース放送1中のオーディオ素材の音量も、2つの声のレベルの差が小さくなるよう自動的に制御される。例えば、もしすべての音声の望ましいレベルが−24dBであるならば、表1中に示されたオーディオ素材の音量は、表2に示されたレベルに調整される。
Figure 2005537510
表3には、1以上の動画中の3つの異なったシーンにおける異なったサウンドの相対的な音量の情報が含まれる。シーン1において、人々は船のデッキで話をしている。背景音には、音声と比べて著しくレベルの低い波の打ち寄せる音や遠くの霧笛の音が含まれている。このシーンにはまた、音声に比べて十分に音の大きい船の汽笛の吹く音も含まれている。シーン2において、人々はささやいていて時計は背後で時を刻んでいる。このシーンでの音声は普通の音声に比べて大きくはなく時計の動作音はさらに小さい。シーン3において、人々は大きな音を立てている機械のそばで叫び声を上げている。この叫び声は普通の音声より音が大きい。
Figure 2005537510
本発明において、オーディオシステムは、音声大きさの変化が自動的に小さくなるよう3つのシーンにおけるオーディオ素材の音量を自動的に制御する。例えば、オーディオ素材の音量を、すべてのシーンでの音声の大きさが同じか本質的に同じとなるよう調整することができるであろう。
あるいは、オーディオ素材の音量を、すべてのシーンでの音声の大きさが所定の範囲内になるよう調整することができる。例えば、音声の大きさの所定の範囲が−24dBから−30dBであるなら、表3で示したオーディオ素材の音量を、表4デ示したレベルに調整することができるであろう。
Figure 2005537510
他の実施の形態においては、オーディオ信号のレベルが音量の測定値の平均が好ましいレベルに保持されるよう制御される。この平均は、10分間とかいった所定の間隔で得られたものか、又は、プログラムのすべての部分又は所定の部分で得られたものとすることができる。再び表3に示された音量の情報を参照しすると、3つのシーンが同じ動画のものであるとすると、動画全体の音声の大きさの平均は、−25dBと算定され、好ましい音声の大きさは−27dBとなる。この3つのシーンの信号レベルは、各シーンの測定される音量が表5に示すように修正される。この実施の形態においては、プログラム又は動画における音声の大きさの変化は保持されるが、他のプログラム又は動画において音声の大きさの平均は減少する。言い換えれば、プログラム又はプログラムの一部における音声の大きさの変化は、これらのプログラム又はプログラムの一部において必要とするダイナミックレンジの圧縮を行うことなく達成される。
Figure 2005537510
ダイナミックレンジの圧縮もまた好ましいかもしれないが、この機能は任意的であり、要求されたときに提供すればよい。
C.音声の大きさの制御
本発明は、送信機又は受信機のどちらかで単独に処理することにより、あるいは、送信機と受信機を組み合わせて協同して処理することにより実施することができる。
1.単独処理
図2は、送信機又は受信機において単独処理を行うために用いられる装置の概略ブロックダイアグラムである。この装置は、経路11からオーディオ信号の間隔を示すオーディオ情報を受信する。分類装置12は、オーディオ情報を調査して、音声と分類されるオーディオ信号部分を表す「音声セグメント」として、又は、音声とは分類されないオーディオ信号部分を表す「非音声セグメント」としてオーディオ情報のセグメントを分類する。分類装置12は、非音声セグメントをいくつかの類別に分類してもよい。オーディオ情報のセグメントを分類するために用いられる技術については上述した。好ましい技術については以下に述べる。
オーディオ情報のセグメントであらわされるオーディオ信号の各部は各々音量を持つ。音量測定装置14は音声セグメントを調査し、音声セグメントの音量の測定値を得る。測定音量値は経路15に沿って伝達される。代替の実施形態においては、音量測定装置14は少なくともいくつかの非音声セグメントを調査し、これらのセグメントの音量の測定値を得る。音量を測定するいくつかの方法については上述した。
制御装置16は、経路15から音量の表示を受信し、経路11からオーディオ情報を受信し、必要に応じてオーディオ情報を修正して、音声セグメントと表示されたオーディオ信号の部分の音量の変化を減少させる。もし制御装置16が音声セグメントの音量を増加させた場合は、音声セグメントより大きなものも含むすべての非音声セグメントの音量も増加させるだろう。修正されたオーディオ情報は、経路17に沿って続く処理に伝達される。送信機において、例えば、修正されたオーディオ情報はエンコードされあるいは他の処理がなされて伝送又は保存がなされる。受信機において、この修正されたオーディオ情報はリスナーに聞かせるために処理される。
分類装置12と音量測定装置14と制御装置16は、測定した音声セグメントの音量が音声セグメントのみならず非音声セグメントの音量の制御にも使われるように構成される。これは様々な方法で行われる。ある実施の形態においては、音量測定装置14は各音声セグメントに測定した音量を送る。制御装置16は、音量を測定した音声セグメントの音量に対して必要とする調整をおこない、さらに、次の音声セグメントのための測定値を受信するまで、この測定値を用いて引き続いて非音声セグメントの音量に対して必要とする調整を行う。このような実施形態は、あらかじめ調査することができないオーディオ信号をリアルタイムで信号レベルを調整しなければならない時に適切なものである。オーディオ信号をあらかじめ調査することができるときに適切である他の実施の形態においては、プログラムの全部又は大部分の音声セグメントの平均音量を測定し、そしてこの測定値がこのオーディオ信号に対して必要な調整を行う。さらに他の実施の形態においては、破線で示された経路に沿って分類装置12から送られてくる音声セグメント及び非音声セグメントの1以上の特性に応答して測定レベルを適合させる。
好ましい実施の形態においては、制御装置16もまたすべてのセグメントに対する音量又は信号エネルギーの表示を受け取り、セグメントの音量又は信号エネルギーがある閾値以内になるように音量のみの調整を行う。あるいは、分類装置12又は音量測定装置14が音量に対する調整をその範囲で行うべきセグメントの値を制御装置16に送ってもよい。
2.協調的処理
図3は、送信機における協調的処理に組み込むために用いることのできる装置の概略ブロックダイアグラムである。送信機は経路11からオーディオ信号の間隔を表すオーディオ情報を受け取る。分類装置12と音量測定装置14は、上記と実質的に同じ動作を行う。音量測定装置14により送られた測定した音量の値は経路15に沿って送られる。図に示した実施の形態において、エンコーダー18は経路11から受け取ったオーディオ情報をエンコードして経路19に沿って発信する。エンコーダー18は、本質的にいわゆる知覚的コーディング(perceptual coding)を含むあらゆる形式の望ましいエンコーディングを採用することができる。例えば、図3に示した装置は、AC−3に適合したデータストリームに組み込んだダイアルノームを送信するためにオーディオエンコーダーに組み込んでもよい。エンコーダー18は、本発明に必須ではない。エンコーダー18を省略した他の実施の形態では、オーディオ情報そのものが経路19に沿って伝達される。フォーマッター20は、経路19から受け取ったオーディオ情報の表示と経路15から受け取った測定音量の値とを集めて出力信号とし、この出力信号は伝達又は保存のために経路21に沿って送られる。
図示されないコンプリメンタリー受信機において、経路21に沿って生成された信号を受信し処理してオーディオ情報の表示と測定音量の値とを復元する。測定音量の値は、オーディオ情報の表示から生成されたオーディオ信号の信号レベルを制御するために用いられる。
3.音量測定装置
図4は、音声と他の形式のオーディオ素材を含むオーディオ信号中の音声に音声量の値を送るために用いられる装置の概略ブロックダイアグラムである。この装置は経路11からオーディオ信号の間隔を表すオーディオ情報を受信する。分類装置12と音量測定装置14は上述した通りの動作を行う。音量測定装置14から送られてきた測定音量の値は経路15に沿って送られる。この値は好みの形式で表示することができ、又は、引き続いて処理を行うために他の装置に送られる。
D.セグメントの分類
本発明は本質的に、音声分類を含む2以上の分類にオーディオ情報のセグメントを分類することのできるどんな技術に用いてもよい。適切な分類技術のいくつかの例は上述した。好ましい実施の形態において、オーディオ情報のセグメントは、以下に記載する技術の形態を用いて分類される。
図5は、好ましい分類技術によるオーディオ情報のセグメントを分類するために用いることのできる装置の概略ブロックダイアグラムである。サンプルレート変換装置は経路11からオーディオ情報のデジタルサンプルを受け取り、所定のレートでのデジタルサンプルを得るために必要なので、オーディオ情報を再サンプルする。以下に記載の実施形態においては、所定のレートは1秒間に16kサンプルである。サンプルレートの変換は本発明を実行する上で必要なものではないが、入力サンプルレートがオーディオ情報を分類するために必要なサンプルレートより高いときオーディオ情報のサンプルレートを変換することが好ましく、サンプルレートを低くすることによって分類処理はより効率的に行うことが可能になる。さらに、特性を抽出した成分の実施は、各成分が単一のサンプルレートで動くように設計されていれば普通は簡単になる。
図示された実施において、オーディオ情報の特性又は特性は、抽出成分31,32,及び33として抽出される。他の実施の形態においては、わずか1つの特性を抽出しても、又は、有効な処理資源でできる限り多くの特性を抽出してもよい。音声検出装置35は、抽出した特性を受け取り、これらを使ってオーディオ情報のセグメントが音声に分類すべきかどうかを決定する。特性の抽出と音声の検出とについては以下に説明する。
1.特性
図5に示した特定の実施形態において、図示のための便宜上、オーディオ情報から3つの特性のみを抽出した成分が示されている。好ましい実施の形態においてはしかしながら、セグメントの分類は、以下に記載の7つの特性に基づいている。各抽出成分は、フレーム内に配置したサンプルのブロック上で計算を行うことによりオーディオ情報の特性を抽出する。7個の所定の各特性に用いられるフレーム毎のブロックの大きさと数は表6に示されている。
Figure 2005537510
この実施形態において、各フレームは32,768サンプルまたは2.057秒の長さである。表に記載した7個の特性については以下に説明する。以下の説明を通して、ブロック当たりのサンプル数は記号Nで示され、フレーム当たりのブロック数は記号Mで示される。
a)重み付けられたスペクトルフラックスのL2ノルムの2乗平均
重み付けられたスペクトルフラックスのL2ノルムの2乗平均は、音声が通常急速に変化するスペクトルを持つという事実を利用する。音声信号は一般に発声音声と呼ばれる音色のような信号と非発声音声と呼ばれるノイズのような信号の2つの形をもつ。これらの2つの形間での移行は、スペクトルに突然の変化を起こさせる。さらには、発声音声の期間に、強調のために、又は、言語の様式により、又は、このような変化が言語の自然な部分であるので、多くの話者はピッチを変化させる。音楽のような非発声音声信号もまた急激なスペクトルの変化を起こすが、このような変化はまれである。歌手は通常かなりの時間同じ周波数で歌うので、音楽のボーカル部分でさえも変化の頻度は少ない。
重み付けられたスペクトルフラックスのL2ノルムの2乗平均を計算する処理の第1のステップは、オーディオ情報のサンプルのブロックに離散フーリエ変換(DFT)のような変換を適用し、変換結果得られた係数の大きさを得る。サンプルのブロックは、変換を適用する前に、ハミング窓関数のような窓関数w[n]により重み付けされることが好ましい。DFT係数の大きさは以下の式により計算することができる。
Figure 2005537510
ここで、N=ブロック中のサンプルの数
x[n]=ブロックm中のサンプル番号n
Xm[k]=ブロックm中のサンプルに対する変換係数k
次のステップで、現在のブロックと前のブロックの平均指数から現在のブロックの重みWを計算する。もしサンプルx[n]が複素数あるいは虚数値でなく実数値を取るならば、パーセヴァルの定理を使って、以下に示す式の変換係数から平均指数を計算することができる。
Figure 2005537510
ここで、Wm=現在のブロックmに対する重み
次のステップで、現在のブロックのスペクトル成分と前のブロックのスペクトル成分との違いの大きさを2乗し、その結果を式(2)で計算したブロックの重みWmで除算し、重み付けられたスペクトルフラックスを算出する。L2ノルムつまりユークリッド距離はこうして計算される。重み付けられたスペクトルフラックスとL2ノルムの計算は以下の式で表される。
Figure 2005537510
ここで、‖lm‖=ブロックmに対する重み付けられたスペクトルのL2ノルム
ブロックからなるフレームの特性は、フレーム中の各ブロックにおける2乗L2ノルムの和を計算することにより得られる。この和は以下の式に示される。
Figure 2005537510
ここで、M=フレーム中のブロックの数
(t)=フレームtにおける重み付けられたスペクトルフラックスのL2ノルムの2乗平均

b)測定スペクトルパワー密度による最適回帰線のスキュー
対数スペクトルパワー密度による最適回帰線の勾配又は傾きにより、信号のスペクトルの傾き又はスペクトル的な強調点の測定値が得られる。もし信号が低い周波数を強調していたら、信号のスペクトルの形を近似する線は高い周波数に向かって下に傾き、線の傾きは負となる。もし信号が高い周波数を強調していたら、信号のスペクトルの形を近似する線は高い周波数に向かって上に傾き、線の傾きは正となる。
音声は、発声音声の区間では低い周波数を強調し、非発声音声の区間では高い周波数を強調する。発声音声のスペクトルの形を近似する線の傾きは負であり、非発声音声のスペクトルの形を近似する線の傾きは正である。音声は主に非発声であるよりむしろ発声であるので、音声のスペクトルの形を近似する線の傾きはほとんどの時間で負であるが、正と負の傾きの間を急激に切り替わる。結果として、線の傾き又は勾配の分布は強く負方向にスキューする。音楽や他のオーディオ素材では、傾きの分布はもっと対称的になる。
信号のスペクトルの形を近似する線の傾きは、信号の対数スペクトルパワー密度の測定による最適回帰線を計算することにより得られる。信号のスペクトルパワー密度は、上記の式(1)で示したような変換を用いて変換係数の2乗を計算することにより得られる。スペクトルパワー密度の計算は以下の式に示される。
Figure 2005537510
式(5)で計算されたパワースペクトル密度は、以下の式で示される対数領域に変換される。
Figure 2005537510
最適回帰線の勾配は、最小2乗法から導かれる以下の式で計算される。
Figure 2005537510
ここで、Gm=ブロックmの回帰係数
フレームtの特性は、以下の式で与えられるフレームについてのスキューで測定される。
Figure 2005537510
ここで、F(t)=フレームtの対数スペクトルパワー密度による最適回帰線の勾配による特性

c)休止総数
休止総数の特性は、オーディオパワー非常に少なくなるか又は全くなくなる信号の休止又は短い区間が一般に音声に存在するが他のタイプの音声素材には一般に存在しないという事実を利用するものである。
この特性を抽出する最初のステップでは、フレーム内の各ブロックmにおけるオーディオ情報のパワーP[m]を計算する。これは以下に示す式で計算することができる。
Figure 2005537510
ここで、P[m]=ブロックmにおけるパワーの計算値
第2のステップでは、フレーム内におけるオーディオ情報のパワーPを計算する。この特性としてのフレームt内における休止の数F3(t)は、このフレーム内でそれぞれのパワーP[m]が1/4P以下であるブロックの数に等しい。4分の1という値は経験的に導き出された。
d)ゼロ交差率のスキュー係数
ゼロ交差率は、オーディオ情報で表示され、ある時間間隔中にゼロ点を交差するオーディオ信号の回数で示される。ゼロ交差率は、オーディオ情報サンプルの短いブロックにおけるゼロ点を交差する数を数えることにより測定することができる。ここに記載した実施の形態においては、ブロックには16msec間に256個の連続するサンプルが存在する。
概念としては単純であるが、ゼロ交差率から得られる情報により、オーディオ信号中に音声が存在するかどうかの信頼性の高い指標が得られる。音声中の非発声部分が比較的ゼロ交差率が高いのに対して、音声中の発声部分は比較的低いゼロ交差率を持つ。さらに、一般に音声は発生部分と休止とを非発声部分より多く含んでいるので、ゼロ交差率の分布は一般に低い比率にスキューする。フレームt内におけるスキューの表示を与える1つの特性は、以下の式で計算されるゼロ交差率のスキュー係数である。
Figure 2005537510
ここで、Zm=ブロックmにおけるゼロ交差数
(t)=フレームtのゼロ交差率のスキュー係数特性
e)ゼロ交差率の平均値対中央値比
フレームt内においてゼロ交差率のスキュー係数の分布の表示を提示する他の特性はゼロ交差率の平均値対中央値比である。これは以下の式により得られる。
Figure 2005537510
ここで、Zmedian=フレームt中のゼロ交差率のブロックにおける中央値
(t)=フレームtのゼロ交差率の平均値対中央値比特性
f)短期リズミック尺度
ここまで説明した特性は多くの形式のオーディオ素材中の音声を検出することができる。しかし、これらの技術は、いわゆる「ラップ」と呼ばれるようなリズミカルなオーディオ素材及びポピュラー音楽の多くの場合に高い確率で誤検出を行うことがある。オーディオ情報のセグメントは、非常にリズミカルな素材を検出することにより、より高い信頼度で音声であると分類することができ、さらにそのような素材を分類から除外するか又は素材を音声であるとして分類するために必要な確かなレベルに引き上げることができる。
短期リズミック尺度は、以下の式に示すように各ブロック内のサンプルの分散を最初に計算することにより計算される。
Figure 2005537510
ゼロ平均シーケンスは、以下の式に示すようにフレーム中のすべてのブロックの分散から導き出される。
Figure 2005537510
ゼロ平均シーケンスの自己相関は、以下に示した式により得られる。
Figure 2005537510
ここで、A[l]=ブロック遅れlを持つフレームtに対する自己相関値
短期リズミック尺度の特性は、自己相関値の最大値から導き出される。この最大値には、遅れl=0のブロックについての値が含まれていない。したがって、この最大値は、遅れl≧Lのブロックの値の集合から得られたものである。数値Lは期待される最も速いリズムの期間を表す。一実施の形態においてLは、最低期間である160msecを表す10に設定される。この特性は、以下の式に示すように、最大値を、遅れl=0のブロックの自己相関値で除することにより計算される。
Figure 2005537510
ここで、F(t)=フレームtの短期リズミック尺度
g)長期リズミック尺度
長期リズミック尺度は、ゼロ平均シーケンス値がスペクトルの重みに置き換える点を除いて、上述の短期リズミック尺度についての説明と同じ方法で導き出される。これらのスペクトルの重みは、上述の式(5)及び(6)で示した対数パワースペクトル密度を得ることによりまず計算され、対数スペクトルパワー密度による最適回帰線の勾配のスキューに関連して説明される。ここで説明した実施の形態において、長期リズミック尺度の計算でのブロック長さは勾配のスキューの計算に用いるブロック長さとは異なることを指摘しておくことは助けになるかもしれない。
次のステップで、以下の式に示すような各ブロックにおける対数領域のパワースペクトル値の最大値を取得する。
Figure 2005537510
ここで、O=ブロックmにおける最大対数パワースペクトル
各ブロックにおけるスペクトルの重みは、(O・α)に等しい閾値より大きな対数領域パワースペクトル値のピークの数により決められる。この決定は以下の式により表現される。
Figure 2005537510
ここで、W[m]=ブロックmのスペクトルの重み
sign(n)=+1 n≦0のとき、 −1 n<0のとき
α=経験から導かれた定数で0.1
各フレームの端で、前のフレームのM個のスペクトルの重みのシーケンスと現在のフレームのM個のスペクトルの重みのシーケンスとが結び付けられて2M個のスペクトルの重みのシーケンスとなる。次いで、この長いシーケンスの自己相関が以下の式により計算される。
Figure 2005537510
ここで、AL=フレームtの自己相関係数
この長期リズミック尺度の特性は、自己相関係数の最大値から導き出される。この最大値には、遅れl=0のブロックについての値が含まれていない。したがって、この最大値は、遅れl≧LLのブロックの値の集合から得られたものである。数値LLは期待される最も速いリズムの期間を表す。ここに記載された実施の形態においてLLは10に設定される。この特性は、以下の式に示すように、最大値を、遅れl=0のブロックの自己相関値で除することにより計算される。
Figure 2005537510
ここで、F(t)=フレームtの長期リズミック尺度
2.音声の検出
音声検出装置35は、オーディオ情報のセグメントが音声に分類すべきものかどうかを決定するために各フレームから抽出した特性を結合する。特性を結合するために用いる1つの方法では、簡単な又は暫定的な分類装置が導入される。暫定的な分類装置では、上述の特性の1つを閾値と比較して2進数値を算出する。この2進数値は係数により重み付けられる。各暫定的な分類装置により、1つの特性に基づき暫定的な分類が行われる。特定の特性を2以上の暫定的な分類装置に用いてもよい。暫定的な分類を以下の式で行われる計算により実行してもよい。
Figure 2005537510
ここで、C=暫定的分類装置jにより提供される2進数値の分類
=暫定的分類装置jの係数
=オーディオ情報から抽出した特性i
TH=暫定的分類装置jの閾値
この特定の実施形態において、暫定的分類C=1であることは、暫定的分類装置jがオーディオ情報の特定のフレームは音声に分類すべきであるとの決定を支持しようとしていることを示している。暫定的分類C=−1であることは、暫定的分類装置jがオーディオ情報の特定のフレームは音声に分類すべきでないとの決定を支持しようとしていることを示している。
表7の項目は、係数と閾値とオーディオ情報のフレームの分類の実施形態で用いられるいくつかの暫定的な分類装置の適切な特性を示す。
Figure 2005537510
最終的な分類は、暫定的な分類結果を組み合わせたものに基づく。これは以下の式に示すように行うことができる。
Figure 2005537510
ここで、Cfinal=オーディオ情報のフレームの最終分類
J=分類を行うために用いられる暫定的な分類装置の数
音声検出装置の信頼性は、暫定的な分類装置の選択を最適化すること、及び、これらの暫定的な分類装置の係数と閾値を最適化することにより改善することができる。この最適化は、引用した米国特許5,819,247及び1999年人工知能についての第16回内部合同会議での、Schapire,「A Brief Introduction to Boosting」手順を含む様々な方法で実行することができる。
代替的な実施の形態において、音声検出は2進数化された判断として表示されるのではなく、代わりに、音声検出は等級をつけた分類のための指標として表される。この指標は、音声である確率の測定値、又は、音声分類における確かさのレベルを表現することとなる。これは、例えば、式(21)で示される2進数化された結果を得るのではなくて暫定的分類の総計から最終分類を得るというような様々な方法で行うことができる。
3.サンプルブロック
上述の実施形態では、切れ目や重複のない固定長のブロックから特性を抽出している。その代わり、分類技術を切れ目や重複のない可変長のブロックに適用したり、重複のある固定長又は可変長のブロックに適用したり、あるいは、連続しない固定長又は可変長のブロックに適用したりすることができる。例えば、オーディオ情報をもっと変動の少ないものにするために、トランジエント、休止、又はオーディオエネルギーのごく少ないか全くない期間に適応して、ブロック長さを変化させるようにしてもよい。フレーム毎のブロックの数の変化に適応して、及び/又は、フレーム内のブロックの長さの変化に適応して、フレーム長さも変化させるようにしてもよい。
E.音量の測定
音量測定装置14は、オーディオ情報のセグメントを調査し、音声セグメントの音量の測定値を得る。一実施の形態において、音声のセグメントと分類された各フレームについて音量が測定される。音量は要求されるあらゆる期間に対して本質的に測定され得る。
他の実施形態においては、処理開始要求に応答して測定処理が始まり、処理停止要求を受け取るまで続けられる。受信機4では、例えば、これらの要求は、経路3から受け取った信号中の特定のコードに変換される。あるいは、これらの要求は、音量を測定するために用いられる装置上に設置されたスイッチや他の制御機器の操作により提供してもよい。音量測定装置14の処理を一時停止させ現在の測定値を保持させる追加的な制御機器を用意してもよい。
一実施の形態において、音声と分類されるすべてのオーディオ情報のセグメントに対して測定される。原則として、しかしながら、例えば、閾値より大きなオーディオエネルギーのレベルを持つセグメントにのみとするように、選択された音声セグメントについてのみ音量を測定してもよい。分類装置12に低エネルギーセグメントを音声ではないと分類させ、そしてすべての音声セグメントの音量を測定することでも同様の効果が得られよう。他の変形も可能である。例えば、音量の測定計算において古いセグメントに低い重みを与えることもできる。
さらに他の実施の形態において、音量測定装置14は少なくともいくつかの非音声セグメントについて音量を測定する。非音声セグメントについて測定された音量はオーディオ情報の期間における音量の計算として用いられる。しかしながら、これらの計算は音声セグメントにおける測定に対応すべきである。非音声セグメントの測定は、セグメントの分類のために段階的指標を提供する実施形態に用いてもよい。オーディオ情報の区間における計算は、分類のための段階的指標を明らかにするような方法で音声セグメントと非音声セグメントの音量を測定に対応できる。例えば、段階的指標は、オーディオ情報のセグメントが音声を含む確度の表示を表すことができる。音量の測定は、音量測定計算においてこれらのセグメントに高い重み付けをすることにより、より高い確度でセグメントに対応するようにすることができる。
音量は上述したような方法を含む様々な方法で測定することができる。本発明には特別な測定技術は必要ではないが、コンピュータリソースをそれほど必要としない単純な技術が実際の実施において一般的に好ましいと考えられる。
F.実施
本発明の様々な機能は、汎用コンピュータシステムのソフトウエアや、汎用コンピュータシステムに見られるような要素と似た部品と組み合わせたデジタル信号処理(DSP)回路のようなさらに特化した部品を含む他の装置による方法を含む、広く様々な方法で実施することができる。図6は、オーディオをエンコードする送信機又はオーディオをデコードする受信機において本発明の様々な機能を実施するために用いることができる装置70のブロックダイアグラムである。DSP72は計算リソースを提供する。RAM73はDSP72で信号処理に用いられるランダムアクセスメモリー装置(RAM)である。ROM74は、装置70を動作させるために必要なプログラムを保存するためのリードオンリーメモリー(ROM)のような永久的な記憶装置を表している。I/O制御75はコミュニケーションチャンネル76,77を介して信号の伝送と受信を行うインターフェース回路を表している。アナログオーディオ信号を受信及び/又は送信したいときは、アナログからデジタルへの変換器及びデジタルからアナログへの変換器をI/O制御75に含ませてもよい。図示の実施形態において、すべてのシステム部品はバス71に接続される。このバスは、物理的な1以上のバスであってもよいが、バスの概念は本発明の実施に必要ではない。
汎用コンピュータで実施する形態においては、インターフェース用、及び、磁気テープ又は磁気ディスク又は光学媒体などの記憶媒体を有する記憶装置を制御するためのキーボードやマウス及びディスプレイなどの付加的な部品が含まれる。記憶媒体はシステムを動作させるためのプログラム、ユーティリティー及びアプリケーションのプログラムを記録するために用いてもよく、記憶媒体には本発明のいろいろな機能を実行するプログラムの具体的表現を含ませてもよい。本発明の実行に必要な機能は、個々のロジック部品、1以上のASIC及び/又はプログラム制御のプロセッサーを含む広く様々な方法を組み込んだ特殊目的の部品により遂行することもできる。これらの部品を組み込む方法は、本発明にとって重要ではない。
本発明におけるソフトウエアの組み込みは、ベースバンド又は超音波から紫外線までの周波数を含む全スペクトルの変調経路のような様々な読み込み媒体機構により、あるいは、磁気テープ、磁気ディスク、光ディスクを含む、本質的に磁気又は光学的記憶技術を用いて情報を伝達する媒体を含む記憶媒体により行われる。種々の機能は、ASIC、汎用集積回路、ROM又はRAMのいろいろな形で具現化したプログラムにより制御される処理回路、及び、その他の技術による回路のような処理回路によりコンピュータシステム70の様々な部品に組み込むこともできる。
本発明の様々な機能に組み込まれたオーディオシステムの概略ブロックダイアグラムである。 音声その他のオーディオ素材を有するオーディオ信号の音量を制御するために用いられる装置の概略ブロックダイアグラムである。 音声を表現するオーディオ情報及び音声の大きさを表す制御情報を生成し伝送するために用いられる装置の概略ブロックダイアグラムである。 音声その他のオーディオ素材を有するオーディオ信号中の音声の大きさを提供し表示するために用いられる装置の概略ブロックダイアグラムである。 オーディオ情報のセグメントを分類するために用いられる装置の概略ブロックダイアグラムである。 本発明の様々な状況で用いられる装置の概略ブロックダイアグラムである。

Claims (36)

  1. 信号処理方法であって、
    入力信号を受け取り、該入力信号からオーディオ情報を獲得するステップであって、ここで、該オーディオ情報はオーディオ信号の区間を意味する、ステップと、
    前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査するステップであって、ここで、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有し、前記音声セグメントの該音量は音量の大きい1以上の非音声セグメントの音量より小さい、ステップと、
    前記音声セグメントの音量の測定値を得るために前記オーディオ情報を調査するステップと、
    前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも音声セグメントの音量の測定値に敏感に対応する制御情報を生成することによりオーディオ信号の区間の音量の表示を行うステップと、
    を具備する信号処理方法。
  2. 前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、ここで、音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、音量の大きい1以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくする、ステップを具備する請求項1に記載の方法。
  3. 前記オーディオ情報の表示と前記制御情報の表示とを出力信号に組み立て、該出力信号を送信するステップを具備する請求項1に記載の方法。
  4. 音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得るステップを具備する請求項1又は請求項2に記載の方法。
  5. オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得るステップを具備する請求項1又は請求項2に記載の方法。
  6. 前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類するステップを具備する請求項1又は請求項2に記載の方法。
  7. オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の区間のみの音量を調整することで前記オーディオ信号の区間の音量を制御するステップを具備する請求項1に記載の方法。
  8. 前記オーディオ信号の区間の音量の表示は、音声セグメントの音量の測定値のみに対応している請求項1又は請求項2に記載の方法。
  9. 1以上の非音声セグメントの音量を測定するステップであって、ここで、前記オーディオ信号の区間の音量の表示は、1以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応している、ステップを具備する請求項1又は請求項2に記載の方法。
  10. 各々のセグメントで表現されるオーディオ信号が音声の特性を持つ程度を表示する音声指標を作成するステップと、
    各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成するステップと、
    を具備する請求項1又は請求項2に記載の方法。
  11. セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備する請求項1又は請求項2に記載の方法。
  12. オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備する請求項1又は請求項2に記載の方法。
  13. 信号処理方法を行う装置により実行しうる命令のプログラムを伝達し、該装置により読み込むことのできる媒体であって、
    該信号処理方法は、
    入力信号を受け取り、該入力信号からオーディオ情報を獲得するステップであって、ここで、該オーディオ情報はオーディオ信号の区間を意味する、ステップと、
    前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査するステップであって、ここで、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有し、前記音声セグメントの該音量は音量の大きい1以上の非音声セグメントの音量より小さい、ステップと、
    前記音声セグメントの音量の測定値を得るために前記オーディオ情報を調査するステップと、
    前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも音声セグメントの音量の測定値に敏感に対応する制御情報を生成することによりオーディオ信号の区間の音量の表示を行うステップと
    を具備する信号処理方法を行う装置により実行しうる命令のプログラムを伝達し、該装置により読み込むことのできる媒体。
  14. 前記方法は、前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、ここで、音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、音量の大きい1以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくする、ステップを具備する、請求項13に記載の媒体。
  15. 前記方法は、前記オーディオ情報の表示と前記制御情報の表示とを出力信号に組み立て、該出力信号を送信するステップを具備する、請求項13に記載の媒体。
  16. 前記方法は、音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得るステップを具備する、請求項13又は請求項14に記載の媒体。
  17. 前記方法は、オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得るステップを具備する、請求項13又は請求項14に記載の媒体。
  18. 前記方法は、前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類するステップを具備する、請求項13又は請求項14に記載の媒体。
  19. 前記方法は、オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の区間のみの音量を調整することで前記オーディオ信号の区間の音量を制御するステップを具備する、請求項13又は請求項14に記載の媒体。
  20. 前記方法において、前記オーディオ信号の区間の音量の表示は、音声セグメントの音量の測定値のみに対応している、請求項13又は請求項14に記載の媒体。
  21. 前記方法は、1以上の非音声セグメントの音量を測定するステップであって、ここで、前記オーディオ信号の区間の音量の表示は、1以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応している、ステップを具備する、請求項13又は請求項14に記載の媒体。
  22. 前記方法は、
    各々のセグメントで表現されるオーディオ信号が音声の特性を持つ程度を表示する音声指標を作成するステップと、
    各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成するステップと、
    を具備する、請求項13又は請求項14に記載の媒体。
  23. 前記方法は、セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備する、請求項13又は請求項14に記載の媒体。
  24. 前記方法は、オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備する、請求項13又は請求項14に記載の媒体。
  25. 信号処理のための装置であって、
    入力信号を受け取るための入力端子と、
    記憶装置と、
    前記入力端子と前記記憶装置に接続された処理回路であって、該処理回路は、
    入力信号を受け取り、該入力信号からオーディオ情報を獲得するステップであって、ここで、該オーディオ情報はオーディオ信号の区間を意味する、ステップと、
    前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査するステップであって、ここで、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有し、前記音声セグメントの該音量は音量の大きい1以上の非音声セグメントの音量より小さい、ステップと、
    前記音声セグメントの音量の測定値を得るために前記オーディオ情報を調査するステップと、
    前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも音声セグメントの音量の測定値に敏感に対応する制御情報を生成することによりオーディオ信号の区間の音量の表示を行うステップと、
    を具備する処理を行うのに適合している、信号処理のための装置。
  26. 前記処理回路は、前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、ここで、音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、音量の大きい1以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくする、ステップを具備する処理を行うのに適合している、請求項25に記載の装置。
  27. 前記処理回路は、前記オーディオ情報の表示と前記制御情報の表示とを出力信号に組み立て、該出力信号を送信するステップを具備する処理を行うのに適合している、請求項25に記載の装置。
  28. 前記処理回路は、音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得るステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
  29. 前記処理回路は、オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得るステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
  30. 前記処理回路は、前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類するステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
  31. 前記処理回路は、オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の区間のみの音量を調整することで前記オーディオ信号の区間の音量を制御するステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
  32. 前記処理回路は、前記オーディオ信号の区間の音量の表示が音声セグメントの音量の測定値のみに対応する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
  33. 前記処理回路は、1以上の非音声セグメントの音量を測定するステップであって、ここで、前記オーディオ信号の区間の音量の表示は、1以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応している、ステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
  34. 前記処理回路は、
    各々のセグメントで表現されるオーディオ信号が音声の特性を持つ程度を表示する音声指標を作成するステップと、
    各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成するステップと、
    を具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
  35. 前記処理回路は、セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
  36. 前記処理回路は、オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備する処理を行うのに適合している、請求項25又は請求項26に記載の装置。
JP2004532903A 2002-08-30 2003-08-15 音声その他のオーディオ素材を有する信号中の音声の大きさの制御 Expired - Lifetime JP4585855B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/233,073 US7454331B2 (en) 2002-08-30 2002-08-30 Controlling loudness of speech in signals that contain speech and other types of audio material
PCT/US2003/025627 WO2004021332A1 (en) 2002-08-30 2003-08-15 Controlling loudness of speech in signals that contain speech and other types of audio material

Publications (3)

Publication Number Publication Date
JP2005537510A true JP2005537510A (ja) 2005-12-08
JP2005537510A5 JP2005537510A5 (ja) 2006-09-28
JP4585855B2 JP4585855B2 (ja) 2010-11-24

Family

ID=31977143

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004532903A Expired - Lifetime JP4585855B2 (ja) 2002-08-30 2003-08-15 音声その他のオーディオ素材を有する信号中の音声の大きさの制御

Country Status (15)

Country Link
US (2) US7454331B2 (ja)
EP (1) EP1532621B1 (ja)
JP (1) JP4585855B2 (ja)
KR (1) KR101019681B1 (ja)
CN (1) CN100371986C (ja)
AT (1) ATE328341T1 (ja)
AU (1) AU2003263845B2 (ja)
CA (1) CA2491570C (ja)
DE (1) DE60305712T8 (ja)
HK (1) HK1073917A1 (ja)
IL (1) IL165938A (ja)
MX (1) MXPA05002290A (ja)
MY (1) MY133623A (ja)
TW (1) TWI306238B (ja)
WO (1) WO2004021332A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013519918A (ja) * 2010-02-11 2013-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション 携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法
JP2014515124A (ja) * 2011-04-28 2014-06-26 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
JP2016514856A (ja) * 2013-03-21 2016-05-23 インテレクチュアル ディスカバリー カンパニー リミテッド オーディオ信号大きさの制御方法及び装置
JP2016519784A (ja) * 2013-03-26 2016-07-07 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ分類および処理のための装置および方法

Families Citing this family (96)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
US7711123B2 (en) * 2001-04-13 2010-05-04 Dolby Laboratories Licensing Corporation Segmenting audio signals into auditory events
US7461002B2 (en) * 2001-04-13 2008-12-02 Dolby Laboratories Licensing Corporation Method for time aligning audio signals using characterizations based on auditory events
US20040045022A1 (en) * 2002-09-03 2004-03-04 Steven Riedl Digital message insertion technique for analog video services
DK1629463T3 (da) * 2003-05-28 2007-12-10 Dolby Lab Licensing Corp Fremgangsmåde, apparat og computerprogram til beregning og justering af den opfattede styrke af et audiosignal
US7353169B1 (en) * 2003-06-24 2008-04-01 Creative Technology Ltd. Transient detection and modification in audio signals
US8086448B1 (en) * 2003-06-24 2011-12-27 Creative Technology Ltd Dynamic modification of a high-order perceptual attribute of an audio signal
US7398207B2 (en) 2003-08-25 2008-07-08 Time Warner Interactive Video Group, Inc. Methods and systems for determining audio loudness levels in programming
DE60320414T2 (de) * 2003-11-12 2009-05-20 Sony Deutschland Gmbh Vorrichtung und Verfahren zur automatischen Extraktion von wichtigen Ereignissen in Audiosignalen
US7970144B1 (en) 2003-12-17 2011-06-28 Creative Technology Ltd Extracting and modifying a panned source for enhancement and upmix of audio signals
KR101079066B1 (ko) 2004-03-01 2011-11-02 돌비 레버러토리즈 라이쎈싱 코오포레이션 멀티채널 오디오 코딩
US7376890B2 (en) * 2004-05-27 2008-05-20 International Business Machines Corporation Method and system for checking rotate, shift and sign extension functions using a modulo function
US7617109B2 (en) * 2004-07-01 2009-11-10 Dolby Laboratories Licensing Corporation Method for correcting metadata affecting the playback loudness and dynamic range of audio information
US7508947B2 (en) 2004-08-03 2009-03-24 Dolby Laboratories Licensing Corporation Method for combining audio signals using auditory scene analysis
EP2262108B1 (en) 2004-10-26 2017-03-01 Dolby Laboratories Licensing Corporation Adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US8199933B2 (en) 2004-10-26 2012-06-12 Dolby Laboratories Licensing Corporation Calculating and adjusting the perceived loudness and/or the perceived spectral balance of an audio signal
US7962327B2 (en) * 2004-12-17 2011-06-14 Industrial Technology Research Institute Pronunciation assessment method and system based on distinctive feature analysis
CN102276769B (zh) * 2005-04-18 2013-12-04 巴斯夫欧洲公司 一种呈由至少三种不同的单烯属不饱和单体构成的聚合物形式的共聚物
MX2007015118A (es) * 2005-06-03 2008-02-14 Dolby Lab Licensing Corp Aparato y metodo para codificacion de senales de audio con instrucciones de decodificacion.
TWI396188B (zh) * 2005-08-02 2013-05-11 Dolby Lab Licensing Corp 依聆聽事件之函數控制空間音訊編碼參數的技術
WO2007045797A1 (fr) * 2005-10-20 2007-04-26 France Telecom Procede, programme et dispositif de description d'un fichier musical, procede et programme de comparaison de deux fichiers musicaux entre eux, et serveur et terminal pour la mise en oeuvre de ces procedes
US8068627B2 (en) 2006-03-14 2011-11-29 Starkey Laboratories, Inc. System for automatic reception enhancement of hearing assistance devices
US7986790B2 (en) * 2006-03-14 2011-07-26 Starkey Laboratories, Inc. System for evaluating hearing assistance device settings using detected sound environment
US8494193B2 (en) * 2006-03-14 2013-07-23 Starkey Laboratories, Inc. Environment detection and adaptation in hearing assistance devices
TWI517562B (zh) 2006-04-04 2016-01-11 杜比實驗室特許公司 用於將多聲道音訊信號之全面感知響度縮放一期望量的方法、裝置及電腦程式
CN101410892B (zh) * 2006-04-04 2012-08-08 杜比实验室特许公司 改进的离散余弦变换域中的音频信号响度测量及修改
US8682654B2 (en) * 2006-04-25 2014-03-25 Cyberlink Corp. Systems and methods for classifying sports video
JP5129806B2 (ja) 2006-04-27 2013-01-30 ドルビー ラボラトリーズ ライセンシング コーポレイション 特定ラウドネスに基づく聴覚イベント検出を使用する音声ゲイン制御
KR101137715B1 (ko) 2006-10-20 2012-04-25 돌비 레버러토리즈 라이쎈싱 코오포레이션 리셋을 사용하는 오디오 다이내믹스 프로세싱
US8521314B2 (en) * 2006-11-01 2013-08-27 Dolby Laboratories Licensing Corporation Hierarchical control path with constraints for audio dynamics processing
JP2010513974A (ja) 2006-12-21 2010-04-30 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声データを処理するシステム
JP4938862B2 (ja) * 2007-01-03 2012-05-23 ドルビー ラボラトリーズ ライセンシング コーポレイション ハイブリッドデジタル/アナログラウドネス補償音量調節
CN101647059B (zh) * 2007-02-26 2012-09-05 杜比实验室特许公司 增强娱乐音频中的语音的方法和设备
US8204359B2 (en) * 2007-03-20 2012-06-19 At&T Intellectual Property I, L.P. Systems and methods of providing modified media content
KR101106948B1 (ko) * 2007-06-19 2012-01-20 돌비 레버러토리즈 라이쎈싱 코오포레이션 스펙트럼 수정들에 의한 라우드니스 측정
US8054948B1 (en) * 2007-06-28 2011-11-08 Sprint Communications Company L.P. Audio experience for a communications device user
JP2009020291A (ja) * 2007-07-11 2009-01-29 Yamaha Corp 音声処理装置および通信端末装置
JP5192544B2 (ja) * 2007-07-13 2013-05-08 ドルビー ラボラトリーズ ライセンシング コーポレイション 聴覚情景分析とスペクトルの歪みを用いた音響処理
CN101918999B (zh) 2007-11-12 2013-11-13 尼尔森(美国)有限公司 执行音频水印嵌入以及水印检测和提取的方法和设备
EP2232700B1 (en) * 2007-12-21 2014-08-13 Dts Llc System for adjusting perceived loudness of audio signals
US8457951B2 (en) * 2008-01-29 2013-06-04 The Nielsen Company (Us), Llc Methods and apparatus for performing variable black length watermarking of media
US20090226152A1 (en) * 2008-03-10 2009-09-10 Hanes Brett E Method for media playback optimization
EP2172930B1 (en) * 2008-03-24 2012-02-22 Victor Company Of Japan, Limited Audio signal processing device and audio signal processing method
EP2289065B1 (en) * 2008-06-10 2011-12-07 Dolby Laboratories Licensing Corporation Concealing audio artifacts
WO2010033384A1 (en) 2008-09-19 2010-03-25 Dolby Laboratories Licensing Corporation Upstream quality enhancement signal processing for resource constrained client devices
WO2010033387A2 (en) * 2008-09-19 2010-03-25 Dolby Laboratories Licensing Corporation Upstream signal processing for client devices in a small-cell wireless network
US7755526B2 (en) * 2008-10-31 2010-07-13 At&T Intellectual Property I, L.P. System and method to modify a metadata parameter
JP4826625B2 (ja) * 2008-12-04 2011-11-30 ソニー株式会社 音量補正装置、音量補正方法、音量補正プログラムおよび電子機器
JP5270006B2 (ja) * 2008-12-24 2013-08-21 ドルビー ラボラトリーズ ライセンシング コーポレイション 周波数領域におけるオーディオ信号ラウドネス決定と修正
CN101483416B (zh) * 2009-01-20 2011-09-14 杭州火莲科技有限公司 一种语音的响度均衡处理方法
US8428758B2 (en) * 2009-02-16 2013-04-23 Apple Inc. Dynamic audio ducking
EP2237269B1 (en) * 2009-04-01 2013-02-20 Motorola Mobility LLC Apparatus and method for processing an encoded audio data signal
KR101616054B1 (ko) * 2009-04-17 2016-04-28 삼성전자주식회사 음성 검출 장치 및 방법
EP2425426B1 (en) * 2009-04-30 2013-03-13 Dolby Laboratories Licensing Corporation Low complexity auditory event boundary detection
WO2010127024A1 (en) * 2009-04-30 2010-11-04 Dolby Laboratories Licensing Corporation Controlling the loudness of an audio signal in response to spectral localization
US8302047B2 (en) 2009-05-06 2012-10-30 Texas Instruments Incorporated Statistical static timing analysis in non-linear regions
US8996538B1 (en) * 2009-05-06 2015-03-31 Gracenote, Inc. Systems, methods, and apparatus for generating an audio-visual presentation using characteristics of audio, visual and symbolic media objects
TWI503816B (zh) * 2009-05-06 2015-10-11 Dolby Lab Licensing Corp 調整音訊信號響度並使其具有感知頻譜平衡保持效果之技術
CN102498514B (zh) * 2009-08-04 2014-06-18 诺基亚公司 用于音频信号分类的方法和装置
US8538042B2 (en) 2009-08-11 2013-09-17 Dts Llc System for increasing perceived loudness of speakers
GB0919672D0 (en) * 2009-11-10 2009-12-23 Skype Ltd Noise suppression
TWI525987B (zh) 2010-03-10 2016-03-11 杜比實驗室特許公司 在單一播放模式中組合響度量測的系統
WO2011141772A1 (en) 2010-05-12 2011-11-17 Nokia Corporation Method and apparatus for processing an audio signal based on an estimated loudness
US8731216B1 (en) * 2010-10-15 2014-05-20 AARIS Enterprises, Inc. Audio normalization for digital video broadcasts
KR101726738B1 (ko) * 2010-12-01 2017-04-13 삼성전자주식회사 음성처리장치 및 그 방법
TWI687918B (zh) * 2010-12-03 2020-03-11 美商杜比實驗室特許公司 音頻解碼裝置、音頻解碼方法及音頻編碼方法
US9620131B2 (en) 2011-04-08 2017-04-11 Evertz Microsystems Ltd. Systems and methods for adjusting audio levels in a plurality of audio signals
JP2013041197A (ja) * 2011-08-19 2013-02-28 Funai Electric Co Ltd デジタル放送受信装置
EP2783366B1 (en) 2011-11-22 2015-09-16 Dolby Laboratories Licensing Corporation Method and system for generating an audio metadata quality score
KR102057744B1 (ko) * 2011-12-29 2020-01-22 레이던 비비엔 테크놀로지스 코포레이션 비인접 스펙트럼-대역 변조기 및 비인접 스펙트럼-대역 변조를 위한 방법
US9312829B2 (en) * 2012-04-12 2016-04-12 Dts Llc System for adjusting loudness of audio signals in real time
WO2013154868A1 (en) 2012-04-12 2013-10-17 Dolby Laboratories Licensing Corporation System and method for leveling loudness variation in an audio signal
US9053710B1 (en) * 2012-09-10 2015-06-09 Amazon Technologies, Inc. Audio content presentation using a presentation profile in a content header
CN102946520B (zh) * 2012-10-30 2016-12-21 深圳创维数字技术有限公司 一种自动控制频道音量的方法及数字电视终端
CN103841241B (zh) * 2012-11-21 2017-02-08 联想(北京)有限公司 音量调整方法及装置
US8958586B2 (en) 2012-12-21 2015-02-17 Starkey Laboratories, Inc. Sound environment classification by coordinated sensing using hearing assistance devices
US9171552B1 (en) * 2013-01-17 2015-10-27 Amazon Technologies, Inc. Multiple range dynamic level control
CN203134365U (zh) * 2013-01-21 2013-08-14 杜比实验室特许公司 用于利用响度处理状态元数据处理音频的音频解码器
RU2631139C2 (ru) 2013-01-21 2017-09-19 Долби Лэборетериз Лайсенсинг Корпорейшн Оптимизация громкости и динамического диапазона через различные устройства воспроизведения
AU2014207590B2 (en) * 2013-01-21 2015-08-13 Dolby Laboratories Licensing Corporation Audio encoder and decoder with program loudness and boundary metadata
JP6179122B2 (ja) * 2013-02-20 2017-08-16 富士通株式会社 オーディオ符号化装置、オーディオ符号化方法、オーディオ符号化プログラム
US20140278911A1 (en) * 2013-03-15 2014-09-18 Telemetry Limited Method and apparatus for determining digital media audibility
CN104080024B (zh) 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
TWI502582B (zh) * 2013-04-03 2015-10-01 Chung Han Interlingua Knowledge Co Ltd 服務點之語音客服系統
TWM487509U (zh) * 2013-06-19 2014-10-01 杜比實驗室特許公司 音訊處理設備及電子裝置
US9344825B2 (en) 2014-01-29 2016-05-17 Tls Corp. At least one of intelligibility or loudness of an audio program
US9578436B2 (en) 2014-02-20 2017-02-21 Bose Corporation Content-aware audio modes
US9473094B2 (en) * 2014-05-23 2016-10-18 General Motors Llc Automatically controlling the loudness of voice prompts
US9842608B2 (en) 2014-10-03 2017-12-12 Google Inc. Automatic selective gain control of audio data for speech recognition
CN107112023B (zh) 2014-10-10 2020-10-30 杜比实验室特许公司 基于发送无关的表示的节目响度
JP6395558B2 (ja) * 2014-10-21 2018-09-26 オリンパス株式会社 第1の録音装置、第2の録音装置、録音システム、第1の録音方法、第2の録音方法、第1の録音プログラム、および第2の録音プログラム
US20160283566A1 (en) * 2015-03-27 2016-09-29 Ca, Inc. Analyzing sorted mobile application operational state sequences based on sequence metrics
US10251016B2 (en) 2015-10-28 2019-04-02 Dts, Inc. Dialog audio signal balancing in an object-based audio program
BR112021009667A2 (pt) * 2018-12-13 2021-08-17 Dolby Laboratories Licensing Corporation inteligência de mídia de dupla extremidade
CN110231087B (zh) * 2019-06-06 2021-07-23 江苏省广播电视集团有限公司 一种高清电视音频响度分析报警及归一化制作方法和设备
US11138477B2 (en) * 2019-08-15 2021-10-05 Collibra Nv Classification of data using aggregated information from multiple classification modules

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04359298A (ja) * 1991-06-06 1992-12-11 Matsushita Electric Ind Co Ltd 音楽音声判別装置
JPH05161198A (ja) * 1991-12-04 1993-06-25 Matsushita Electric Ind Co Ltd 音楽音声処理装置
WO2000078093A1 (en) * 1999-06-15 2000-12-21 Hearing Enhancement Co., Llc. Voice-to-remaining audio (vra) interactive hearing aid & auxiliary equipment
JP2001095082A (ja) * 1999-09-24 2001-04-06 Yamaha Corp 指向性拡声装置

Family Cites Families (38)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4281218A (en) * 1979-10-26 1981-07-28 Bell Telephone Laboratories, Incorporated Speech-nonspeech detector-classifier
DE3314570A1 (de) * 1983-04-22 1984-10-25 Philips Patentverwaltung Gmbh, 2000 Hamburg Verfahren und anordnung zur einstellung der verstaerkung
US5097510A (en) * 1989-11-07 1992-03-17 Gs Systems, Inc. Artificial intelligence pattern-recognition-based noise reduction system for speech processing
EP0517233B1 (en) 1991-06-06 1996-10-30 Matsushita Electric Industrial Co., Ltd. Music/voice discriminating apparatus
US5548638A (en) * 1992-12-21 1996-08-20 Iwatsu Electric Co., Ltd. Audio teleconferencing apparatus
US5457769A (en) * 1993-03-30 1995-10-10 Earmark, Inc. Method and apparatus for detecting the presence of human voice signals in audio signals
BE1007355A3 (nl) 1993-07-26 1995-05-23 Philips Electronics Nv Spraaksignaaldiscriminatieschakeling alsmede een audio-inrichting voorzien van een dergelijke schakeling.
IN184794B (ja) * 1993-09-14 2000-09-30 British Telecomm
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
GB9419388D0 (en) * 1994-09-26 1994-11-09 Canon Kk Speech analysis
CA2167748A1 (en) * 1995-02-09 1996-08-10 Yoav Freund Apparatus and methods for machine learning hypotheses
DE19509149A1 (de) 1995-03-14 1996-09-19 Donald Dipl Ing Schulz Codierverfahren
JPH08328599A (ja) 1995-06-01 1996-12-13 Mitsubishi Electric Corp Mpegオーディオ復号器
US5712954A (en) * 1995-08-23 1998-01-27 Rockwell International Corp. System and method for monitoring audio power level of agent speech in a telephonic switch
DE59713033D1 (de) * 1996-07-19 2010-06-02 Bernafon Ag Lautheitsgesteuerte Verarbeitung akustischer Signale
JP2953397B2 (ja) * 1996-09-13 1999-09-27 日本電気株式会社 ディジタル補聴器の聴覚補償処理方法及びディジタル補聴器
US6570991B1 (en) 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6125343A (en) * 1997-05-29 2000-09-26 3Com Corporation System and method for selecting a loudest speaker by comparing average frame gains
US6272360B1 (en) * 1997-07-03 2001-08-07 Pan Communications, Inc. Remotely installed transmitter and a hands-free two-way voice terminal device using same
US6233554B1 (en) * 1997-12-12 2001-05-15 Qualcomm Incorporated Audio CODEC with AGC controlled by a VOCODER
US6298139B1 (en) * 1997-12-31 2001-10-02 Transcrypt International, Inc. Apparatus and method for maintaining a constant speech envelope using variable coefficient automatic gain control
US6182033B1 (en) * 1998-01-09 2001-01-30 At&T Corp. Modular approach to speech enhancement with an application to speech coding
US6353671B1 (en) * 1998-02-05 2002-03-05 Bioinstco Corp. Signal processing circuit and method for increasing speech intelligibility
US6311155B1 (en) * 2000-02-04 2001-10-30 Hearing Enhancement Company Llc Use of voice-to-remaining audio (VRA) in consumer applications
US6351731B1 (en) * 1998-08-21 2002-02-26 Polycom, Inc. Adaptive filter featuring spectral gain smoothing and variable noise multiplier for noise reduction, and method therefor
US6823303B1 (en) * 1998-08-24 2004-11-23 Conexant Systems, Inc. Speech encoder using voice activity detection in coding noise
US6411927B1 (en) * 1998-09-04 2002-06-25 Matsushita Electric Corporation Of America Robust preprocessing signal equalization system and method for normalizing to a target environment
DE19848491A1 (de) 1998-10-21 2000-04-27 Bosch Gmbh Robert Rundfunkempfänger zum Empfang von Radio-Daten und Verfahren zur Beeinflussung einer Klangcharakteristik eines wiederzugebenden Audiosignals in einem Rundfunkempfänger
US6314396B1 (en) * 1998-11-06 2001-11-06 International Business Machines Corporation Automatic gain control in a speech recognition system
SE9903553D0 (sv) 1999-01-27 1999-10-01 Lars Liljeryd Enhancing percepptual performance of SBR and related coding methods by adaptive noise addition (ANA) and noise substitution limiting (NSL)
DE69933929T2 (de) * 1999-04-09 2007-06-06 Texas Instruments Inc., Dallas Bereitstellen von digitalen Audio- und Videoprodukten
US6351733B1 (en) * 2000-03-02 2002-02-26 Hearing Enhancement Company, Llc Method and apparatus for accommodating primary content audio and secondary content remaining audio capability in the digital audio production process
US6889186B1 (en) * 2000-06-01 2005-05-03 Avaya Technology Corp. Method and apparatus for improving the intelligibility of digitally compressed speech
US6625433B1 (en) * 2000-09-29 2003-09-23 Agere Systems Inc. Constant compression automatic gain control circuit
US6807525B1 (en) * 2000-10-31 2004-10-19 Telogy Networks, Inc. SID frame detection with human auditory perception compensation
DE10058786A1 (de) * 2000-11-27 2002-06-13 Philips Corp Intellectual Pty Verfahren zum Steuerung eines eine akustische Ausgabeeinrichtung aufweisenden Geräts
US7068723B2 (en) * 2002-02-28 2006-06-27 Fuji Xerox Co., Ltd. Method for automatically producing optimal summaries of linear media
US7155385B2 (en) * 2002-05-16 2006-12-26 Comerica Bank, As Administrative Agent Automatic gain control for adjusting gain during non-speech portions

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04359298A (ja) * 1991-06-06 1992-12-11 Matsushita Electric Ind Co Ltd 音楽音声判別装置
JPH05161198A (ja) * 1991-12-04 1993-06-25 Matsushita Electric Ind Co Ltd 音楽音声処理装置
WO2000078093A1 (en) * 1999-06-15 2000-12-21 Hearing Enhancement Co., Llc. Voice-to-remaining audio (vra) interactive hearing aid & auxiliary equipment
JP2003522439A (ja) * 1999-06-15 2003-07-22 ヒアリング エンハンスメント カンパニー,リミティド ライアビリティー カンパニー 音声対残留オーディオ(vra)相互作用式補聴装置および補助設備
JP2001095082A (ja) * 1999-09-24 2001-04-06 Yamaha Corp 指向性拡声装置

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013519918A (ja) * 2010-02-11 2013-05-30 ドルビー ラボラトリーズ ライセンシング コーポレイション 携帯機器内でオーディオ信号のラウドネスを非破壊的に正規化するシステムおよび方法
US9646622B2 (en) 2010-02-11 2017-05-09 Dolby Laboratories Licensing Corporation System and method for non-destructively normalizing loudness of audio signals within portable devices
US10418045B2 (en) 2010-02-11 2019-09-17 Dolby Laboratories Licensing Corporation System and method for non-destructively normalizing loudness of audio signals within portable devices
US10566006B2 (en) 2010-02-11 2020-02-18 Dolby Laboratories Licensing Corporation System and method for non-destructively normalizing loudness of audio signals within portable devices
US11341982B2 (en) 2010-02-11 2022-05-24 Dolby Laboratories Licensing Corporation System and method for non-destructively normalizing loudness of audio signals within portable devices
US11670315B2 (en) 2010-02-11 2023-06-06 Dolby Laboratories Licensing Corporation System and method for non-destructively normalizing loudness of audio signals within portable devices
US11948592B2 (en) 2010-02-11 2024-04-02 Dolby Laboratories Licensing Corporation System and method for non-destructively normalizing loudness of audio signals within portable devices
JP2014515124A (ja) * 2011-04-28 2014-06-26 ドルビー・インターナショナル・アーベー 効率的なコンテンツ分類及びラウドネス推定
JP2016514856A (ja) * 2013-03-21 2016-05-23 インテレクチュアル ディスカバリー カンパニー リミテッド オーディオ信号大きさの制御方法及び装置
JP2016519784A (ja) * 2013-03-26 2016-07-07 ドルビー ラボラトリーズ ライセンシング コーポレイション オーディオ分類および処理のための装置および方法
US10803879B2 (en) 2013-03-26 2020-10-13 Dolby Laboratories Licensing Corporation Apparatuses and methods for audio classifying and processing

Also Published As

Publication number Publication date
EP1532621B1 (en) 2006-05-31
IL165938A0 (en) 2006-01-15
AU2003263845B2 (en) 2008-08-28
US7454331B2 (en) 2008-11-18
MY133623A (en) 2007-11-30
MXPA05002290A (es) 2005-06-08
WO2004021332A1 (en) 2004-03-11
TW200404272A (en) 2004-03-16
KR101019681B1 (ko) 2011-03-07
ATE328341T1 (de) 2006-06-15
JP4585855B2 (ja) 2010-11-24
USRE43985E1 (en) 2013-02-05
CA2491570C (en) 2011-10-18
TWI306238B (en) 2009-02-11
IL165938A (en) 2010-04-15
HK1073917A1 (en) 2005-10-21
CN1679082A (zh) 2005-10-05
CA2491570A1 (en) 2004-03-11
AU2003263845A1 (en) 2004-03-19
DE60305712D1 (de) 2006-07-06
CN100371986C (zh) 2008-02-27
KR20050057045A (ko) 2005-06-16
EP1532621A1 (en) 2005-05-25
DE60305712T8 (de) 2007-07-12
DE60305712T2 (de) 2007-03-08
US20040044525A1 (en) 2004-03-04

Similar Documents

Publication Publication Date Title
JP4585855B2 (ja) 音声その他のオーディオ素材を有する信号中の音声の大きさの制御
US10586557B2 (en) Voice activity detector for audio signals
KR101726208B1 (ko) 볼륨 레벨러 제어기 및 제어 방법
CN109616142B (zh) 用于音频分类和处理的装置和方法
KR102072026B1 (ko) 잡음 검출 및 라우드니스 하락 검출을 포함하는 라우드니스 제어
EP2979359B1 (en) Equalizer controller and controlling method
US10374564B2 (en) Loudness control with noise detection and loudness drop detection
JPH0748695B2 (ja) 音声符号化方式

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20060810

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060810

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100226

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100406

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20100706

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20100713

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100805

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100831

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100906

R150 Certificate of patent or registration of utility model

Ref document number: 4585855

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130910

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term