JP2005537510A

JP2005537510A - 音声その他のオーディオ素材を有する信号中の音声の大きさの制御

Info

Publication number: JP2005537510A
Application number: JP2004532903A
Authority: JP
Inventors: ヴィントン、マーク・スチュアート; ロビンソン、チャールズ・クイト; ギャンドリー、ケネス・ジャイムス; ヴェネチア、スティーブン・ジョセフ; リードミラー、ジェフェリー・チャールズ
Original assignee: Dolby Laboratories Licensing Corp
Current assignee: Dolby Laboratories Licensing Corp
Priority date: 2002-08-30
Filing date: 2003-08-15
Publication date: 2005-12-08
Anticipated expiration: 2023-08-15
Also published as: EP1532621B1; IL165938A0; AU2003263845B2; US7454331B2; MY133623A; MXPA05002290A; WO2004021332A1; TW200404272A; KR101019681B1; ATE328341T1; JP4585855B2; USRE43985E1; CA2491570C; TWI306238B; IL165938A; HK1073917A1; CN1679082A; CA2491570A1; AU2003263845A1; DE60305712D1

Abstract

音声及び他の形式のオーディオ素材を含むオーディオ信号の音量の表示が、オーディオ情報のセグメントを音声又は非音声に分類することで得られる。音声セグメントの音量が測定されこの測定値は音量の表示の算出に用いられる。音量の表示は、異なったプログラム間での音声の大きさの変動を減らすために信号レベルを制御するために用いてもよい。音声セグメントを分類するために引用された方法が記載されている。

Description

本発明は、音声その他のオーディオ素材を有する信号中の音声の大きさを計測し制御するオーディオシステム及び方法に関する。

ラジオやテレビ放送を視聴するときに、リスナーは十分な音声の大きさを得るためにボリュームの設定をたびたび変更する。十分なボリュームの設定は、リスニング環境における周囲の騒音、再生装置の周波数応答、及び、個人の嗜好等のような様々な要因により影響を受ける。ボリュームの設定を定めた後リスナーは、一般に、音楽やサウンドエフェクトのような他のプログラム素材の存在の有無にかかわらず、音声の大きさを一定に保つことを望む。

プログラムが変わったり違うチャンネルが選択されたりすると、新しいプログラムにおける音声の大きさはしばしば異なり、好みの大きさに戻すためにボリュームの設定を変更する必要がでてくる。ほとんどのアナログ放送は、アナログ放送システムによりカバーすることのできる最大許容レベルで音声を含むプログラムを配信するので、アナログ放送により配信されたプログラムにおける音声の大きさを調整するためには、普通は少しの設定変更を必要とするのみである。一般にこのことは、放送システムにおける様々な要因により引き起こされるノイズに対する音声信号のレベルを上げるためにオーディオプログラム素材のダイナミックレンジを圧縮することによりなされる。それでもやはり、異なったチャンネルで受信したプログラムの音声の大きさ、及び、コマーシャル音声あるいは「コマーシャル」及びそれにより割り込まれるプログラムのような、同じチャンネルで受信した異なったタイプのプログラムに対する音声の大きさには、音声の大きさに不快な違いが存在する。

デジタル放送は、ダイナミックレンジを圧縮することなくまた音声のレベル設定を許容最大値の近傍で設定することもなく、適当な信号対ノイズのレベルで信号を配信することができるので、デジタル放送技術の導入によりこの問題はさらに重大となるであろう。結果、同じチャンネルの異なったプログラム間での音声の大きさ、及び異なったチャンネルのプログラム間での音声の大きさにさらに大きな違いが出てくるであろう。例えば、アナログテレビジョンチャンネルで受信したプログラムの音声とデジタルテレビジョンチャンネルで受信したプログラムの音声との間には、時には２０ｄＢを越える違いが観測される。

音声の大きさの違いを減らす１つの方法は、すべての放送局に音声のレベルを最大値より十分低い標準の大きさに統一させ、圧縮や限定の必要性をなくすために素材に広いダイナミックレンジを持たせるのに十分な余裕を持たせることである。残念ながら、この解決方法は、放送の手順に対してできそうもない変化を必要とする。

もう１つ別の解決手段は、米国のデジタルテレビジョン放送に採用されたＡＣ−３オーディオコーディング技術により提供される。ＡＣ−３標準に準拠したデジタル放送は、エンコードされたオーディオデータと共にメタデータを伝達する。メタデータには、受信機において、一定の又は標準化された大きさの音声に信号レベルを調整するために使われる「ダイアルノーム（dialnorm）」として知られる制御情報が含まれる。言い換えれば、ダイアルノーム情報により、受信機は、リスナーがしていたようなプログラム毎又はチャンネル毎のボリュームの適切な調整を自動的に行う。リスナーが特定のプログラムに対して好ましい音声の大きさにボリュームを設定すると、受信機はダイアルノーム情報を用いて、プログラム毎又はチャンネル毎に存在したであろう違いにかかわらず、確実にこの好ましいレベルを保持する。ダイアルノーム情報の使用について書いた更なる情報は、２００１年８月２０日に発行された、Advanced Television System Committee (ATSC)の文書、表題「Revision A to Digital Audio Compression (AC-3) Standard」、及び、１９９５年１０月４日に発行されたATSCの文書、表題「Guide to the Use of the ATSC Digital Television Standard」により得ることができる。

適切なダイアルノームの値は、ＡＣ−３準拠のエンコードされた信号を生成するコーディングシステムの一部として利用できなければならない。エンコード処理は、受信機に現れるプログラムにおける音声の大きさを保持するために使うことのできるダイアルノームの値を決定するために、特定のプログラムにおける音声の大きさを測定し評価するための方法を必要とする。

音声の大きさは様々な方法で測定することができる。International Electrotechnical Commission (IEC)により発行された、標準IEC60804 (2000-10)、表題「Integrating-Averaging sound level meters」には、周波数による重み付けに基づく時間平均化された音圧レベルの計測について記載されている。International Organization for Standardizationにより発行された、ISO標準 532:1975、表題「Method for calculating loudness level」には、周波数サブバンドに対して計算されたパワーレベルの組み合わせから大きさの計測値を得る方法について記載されている。大きさを測定するために用いることのできる心理音響的モデルは、１９９７年４月のJ. Audio Eng. Soc., vol. 45, No. 4 の「A model for the prediction of thresholds, loudness and partial loudness」Moore, Glasberg及び Baer、及び、２００２年５月のJ. Audio Eng. Soc., vol. 50, No. 5 の「A model of loudness applicable to time-varying sounds」Glasberg及び Baerに記載されている。

残念ながら、これらのあるいは他の既知の技術を適用するための適当な方法がない。例えば、放送でのアプリケーションにおいて、放送局はオーディオ素材のインターバルを選択し、選択されたインターバルにおける音声の大きさの測定と評価を行い、ＡＣ−３準拠のデジタルデータの流れにダイアルノーム情報を挿入する装置に測定値を伝達することが義務付けられる。選択されたインターバルには、代表する音声が含まれるべきであるが、大きさの測定を歪める他の形式のオーディオ素材は含むべきではない。プログラムには故意に音声よりうるさくしたり静かにしたりした他の成分が含まれているので、一般に全体的なオーディオプログラムの音量を計測することは好ましくない。音楽と音響効果の音の大きな部分は、好ましい音声レベルよりはるかに音を大きくすることが好ましいことがよくある。また、風、遠くの交通往来、又は静かに流れる水のような背景音は、音声と同じ音量にすることが好ましくないことは明らかである。

本発明の発明者は、音声を含むオーディオ信号がダイアルノーム情報として適当な値を定めるための改善された処理に用いることができるかどうかを決定する技術を見つけた。音声の検出のための様々な技術のうちのどんな技術も使うことができる。いくつかの技術を以下に引用する。

１９８１年７月２８日に発行された米国特許4,281,218には、短期間のパワーのようなの１以上の信号特性を抽出することによりその信号が音声なのか音声でないのかを区分する技術が記載されている。この区分は、音声信号と音声でない信号とに対して適切な信号処理手法を選択するために用いられる。

１９９２年３月１７日に発行された米国特許5,097,510には、入力信号の振幅包絡線の変化を分析する技術が記載されている。急激に変化量が変化する場合は、音声とみなされ、信号から除去される。その残りは、４つのノイズ区分のうちの１つに区分され、この区分は入力信号を異なったタイプのノイズ低減のための篩い分けを選択するために用いられる。

１９９５年１０月１０日に発行された米国特許5,457,769には、音声作動スイッチを動作させるための音声を検出する技術が記載されている。約１５０Hzでお互い区分された周波数成分を持つ信号を特定することにより音声が検出される。この条件はそれがおそらく音声の信号伝達フォーマットであることを示している。

１９９９年１０月１４日に発行されたEP特許0737011及び１９９９年３月２日に発行された米国特許5,878,391には、１つのオーディオ信号がスピーチ信号である確率を示す信号を生成する技術が記載されている。この確率は、スペクトルの異なった部分間でのパワー比の変化のような信号から１以上の特性を抽出することにより得られる。これらの文献では、確率を導き出すために数多くの特性を使えば、導き出された確率の信頼性が改善されることを示している。

２０００年５月９日に発行された米国特許6,061,647には、音声が存在するかどうかを決定するために入力信号をモデルと比較し、ノイズモデルを更新するためにこの入力信号が用いられるべき時を決めるための補助検出装置を用いて、音声を含まないノイズのモデルを保存することで音声を検出する技術が開示されている。

１９９８年６月２５日に発行された国際特許出願WO 98/27543には、１つの入力信号から１組の特性を抽出して各特性に対していくつかの区分技術のうちの１つを用いることによって、音楽から音声を識別する技術が開示されている。特性の最良の組と各特性に対して用いられる最適な区分技術は、経験的に決定される。

これらの引用例で開示された技術及びその他の既知の音声検出技術は、音声でない信号を処理するためのあるいは音声でない信号を取り扱うための方法とは異なった方法により、音声を処理又は音声を取り扱うことができるように、音声を検出すること又はオーディオを区分することを試みる技術である。

１９９８年１０月６日に発行された米国特許5,819,247には、光学的特性認識装置のような区分装置に用いられる仮説を構築するための技術が開示されている。不十分な仮説が実例から構築されその後評価される。反復処理により不十分な仮説が強固な仮説に作り上げられる。音声検出には触れられていないが、この発明者はこの技術が既知の音声検出技術を改善することに使うことができるかもしれないことを認識している。

音声その他のオーディオ素材を有する信号中の音声の大きさの制御を提供することが本発明の目的である。

本発明によれば、入力信号を受け取ることにより信号が処理され、オーディオ信号のインターバルを表す入力信号からオーディオ情報を取得し、このオーディオ情報を調査してオーディオ情報のセグメントを音声セグメント又は非音声セグメントに分類し、オーディソ情報を調査して音声セグメントの音量を測定し、非音声セグメントとして表示されたオーディオ信号の部分の音量より、音声セグメントの音量の測定に対して敏感な制御情報を生成することによりこのオーディオ信号のインターバルに音量の表示を提供する。

音量の表示は、音声セグメントの音量の変化を減少するようにオーディオ信号の音量を制御するために使われてもよい。音声セグメントとして表示されたオーディオ信号の部分の音量が増加するとき非音声セグメントとして表示されたオーディオ信号の部分の音量も増加する。

本発明とその好ましい実施の形態における様々な機能は、以下の説明と、図の相当する要素に参照番号を付加した添付図面を参照することによりよく理解できるであろう。以下の説明と図面の内容は例示としてのみ述べたもので、本発明の技術範囲を限定するためのものではないと理解すべきである。

Ａ．システムの概観
図１は、送信機２が経路１からオーディオ信号を受信し、このオーディオ信号を処理してオーディオ信号を表すオーディオ情報を生成し、このオーディオ情報を経路３に沿って伝送するオーディオシステムの概略ブロックダイアグラムである。経路３は、オーディオ情報を直ちに使用するために伝達する通信経路、又は、その後取り出して使うためにオーディオ情報を保存しておく記憶媒体と接続した信号経路を表現している。受信機４は、オーディオ情報を経路３から受信し、オーディオ情報を処理してオーディオ信号を生成し、オーディオ信号をリスナーに聞かせるために経路５に沿って伝送する。

図１に示したシステムは、送信機と受信機とを含むが、本発明は、複数の送信機及び／又は複数の受信機とを含むシステムに用いられる。本発明の様々な機能は、送信機２にのみ、受信機４にのみ、又は送信機２と受信機４の両方に組み込むことができる。

一実施の形態において、送信機２は、オーディオ情報を低い帯域幅のチャンネルを介して伝送することができ、少ない容量の媒体に保存することができるように、オーディオ信号より必要な情報容量が低いエンコードされたオーディオ情報へと、オーディオ信号をエンコードする処理を行う。受信機４は、なるべく入力信号と同じか又は似たものとして認識されるオーディオ信号を生成するために用いることができる形式へと、エンコードされたオーディオ情報をデコードする処理を行う。例えば、送信機２と受信機４は、ＡＣ−３コーディング標準又はモーションピクチャーエキスパートグループ（ＭＰＥＧ）により発行されたいくつかの標準に準拠するデジタルビットストリームにエンコードしデコードする。本発明はエンコーディングとデコーディング処理に適用するシステムに有効に適用することができるが、これらの処理は本発明を実施するために必要ではない。

本発明はアナログ信号処理に導入してもよいが、デジタル信号処理技術により導入されるほうが一般に好都合である。以下の例は特にデジタル信号処理について説明している。

Ｂ．音声の大きさ
本発明は、音声その他のオーディオ素材を有する信号中の音声の大きさを制御することを対象とする。表１と表３の記載は異なったプログラムにおける様々多形式のオーディオ素材の音声レベルを表している。

表１には、おそらくテレビジョン受信機に放送される３つのプログラム中の音声の相対的な音量の情報が含まれる。ニュース放送１では、２人が異なったレベルでしゃべっている。ニュース放送２では、音声よりたまたま大きな他のサウンドより低いレベルで１人がしゃべっている。音楽はしばしば低いレベルで現れる。コマーシャルにおいては、人は非常に高いレベルしゃべり音楽はちょくちょくむしろ音が大きくなる。

本発明において、オーディオシステムは、音声大きさの変化が自動的に小さくなるよう３つのプログラム中におけるオーディオ素材の音量を自動的に制御する。ニュース放送１中のオーディオ素材の音量も、２つの声のレベルの差が小さくなるよう自動的に制御される。例えば、もしすべての音声の望ましいレベルが−２４ｄＢであるならば、表１中に示されたオーディオ素材の音量は、表２に示されたレベルに調整される。

表３には、１以上の動画中の３つの異なったシーンにおける異なったサウンドの相対的な音量の情報が含まれる。シーン１において、人々は船のデッキで話をしている。背景音には、音声と比べて著しくレベルの低い波の打ち寄せる音や遠くの霧笛の音が含まれている。このシーンにはまた、音声に比べて十分に音の大きい船の汽笛の吹く音も含まれている。シーン２において、人々はささやいていて時計は背後で時を刻んでいる。このシーンでの音声は普通の音声に比べて大きくはなく時計の動作音はさらに小さい。シーン３において、人々は大きな音を立てている機械のそばで叫び声を上げている。この叫び声は普通の音声より音が大きい。

本発明において、オーディオシステムは、音声大きさの変化が自動的に小さくなるよう３つのシーンにおけるオーディオ素材の音量を自動的に制御する。例えば、オーディオ素材の音量を、すべてのシーンでの音声の大きさが同じか本質的に同じとなるよう調整することができるであろう。

あるいは、オーディオ素材の音量を、すべてのシーンでの音声の大きさが所定の範囲内になるよう調整することができる。例えば、音声の大きさの所定の範囲が−２４ｄＢから−３０ｄＢであるなら、表３で示したオーディオ素材の音量を、表４デ示したレベルに調整することができるであろう。

他の実施の形態においては、オーディオ信号のレベルが音量の測定値の平均が好ましいレベルに保持されるよう制御される。この平均は、１０分間とかいった所定の間隔で得られたものか、又は、プログラムのすべての部分又は所定の部分で得られたものとすることができる。再び表３に示された音量の情報を参照しすると、３つのシーンが同じ動画のものであるとすると、動画全体の音声の大きさの平均は、−２５ｄＢと算定され、好ましい音声の大きさは−２７ｄＢとなる。この３つのシーンの信号レベルは、各シーンの測定される音量が表５に示すように修正される。この実施の形態においては、プログラム又は動画における音声の大きさの変化は保持されるが、他のプログラム又は動画において音声の大きさの平均は減少する。言い換えれば、プログラム又はプログラムの一部における音声の大きさの変化は、これらのプログラム又はプログラムの一部において必要とするダイナミックレンジの圧縮を行うことなく達成される。

ダイナミックレンジの圧縮もまた好ましいかもしれないが、この機能は任意的であり、要求されたときに提供すればよい。

Ｃ．音声の大きさの制御
本発明は、送信機又は受信機のどちらかで単独に処理することにより、あるいは、送信機と受信機を組み合わせて協同して処理することにより実施することができる。

１．単独処理
図２は、送信機又は受信機において単独処理を行うために用いられる装置の概略ブロックダイアグラムである。この装置は、経路11からオーディオ信号の間隔を示すオーディオ情報を受信する。分類装置１２は、オーディオ情報を調査して、音声と分類されるオーディオ信号部分を表す「音声セグメント」として、又は、音声とは分類されないオーディオ信号部分を表す「非音声セグメント」としてオーディオ情報のセグメントを分類する。分類装置１２は、非音声セグメントをいくつかの類別に分類してもよい。オーディオ情報のセグメントを分類するために用いられる技術については上述した。好ましい技術については以下に述べる。

オーディオ情報のセグメントであらわされるオーディオ信号の各部は各々音量を持つ。音量測定装置１４は音声セグメントを調査し、音声セグメントの音量の測定値を得る。測定音量値は経路１５に沿って伝達される。代替の実施形態においては、音量測定装置１４は少なくともいくつかの非音声セグメントを調査し、これらのセグメントの音量の測定値を得る。音量を測定するいくつかの方法については上述した。

制御装置１６は、経路15から音量の表示を受信し、経路１１からオーディオ情報を受信し、必要に応じてオーディオ情報を修正して、音声セグメントと表示されたオーディオ信号の部分の音量の変化を減少させる。もし制御装置１６が音声セグメントの音量を増加させた場合は、音声セグメントより大きなものも含むすべての非音声セグメントの音量も増加させるだろう。修正されたオーディオ情報は、経路１７に沿って続く処理に伝達される。送信機において、例えば、修正されたオーディオ情報はエンコードされあるいは他の処理がなされて伝送又は保存がなされる。受信機において、この修正されたオーディオ情報はリスナーに聞かせるために処理される。

分類装置１２と音量測定装置１４と制御装置１６は、測定した音声セグメントの音量が音声セグメントのみならず非音声セグメントの音量の制御にも使われるように構成される。これは様々な方法で行われる。ある実施の形態においては、音量測定装置１４は各音声セグメントに測定した音量を送る。制御装置１６は、音量を測定した音声セグメントの音量に対して必要とする調整をおこない、さらに、次の音声セグメントのための測定値を受信するまで、この測定値を用いて引き続いて非音声セグメントの音量に対して必要とする調整を行う。このような実施形態は、あらかじめ調査することができないオーディオ信号をリアルタイムで信号レベルを調整しなければならない時に適切なものである。オーディオ信号をあらかじめ調査することができるときに適切である他の実施の形態においては、プログラムの全部又は大部分の音声セグメントの平均音量を測定し、そしてこの測定値がこのオーディオ信号に対して必要な調整を行う。さらに他の実施の形態においては、破線で示された経路に沿って分類装置１２から送られてくる音声セグメント及び非音声セグメントの１以上の特性に応答して測定レベルを適合させる。

好ましい実施の形態においては、制御装置１６もまたすべてのセグメントに対する音量又は信号エネルギーの表示を受け取り、セグメントの音量又は信号エネルギーがある閾値以内になるように音量のみの調整を行う。あるいは、分類装置１２又は音量測定装置１４が音量に対する調整をその範囲で行うべきセグメントの値を制御装置１６に送ってもよい。

２．協調的処理
図３は、送信機における協調的処理に組み込むために用いることのできる装置の概略ブロックダイアグラムである。送信機は経路１１からオーディオ信号の間隔を表すオーディオ情報を受け取る。分類装置１２と音量測定装置１４は、上記と実質的に同じ動作を行う。音量測定装置１４により送られた測定した音量の値は経路１５に沿って送られる。図に示した実施の形態において、エンコーダー１８は経路１１から受け取ったオーディオ情報をエンコードして経路１９に沿って発信する。エンコーダー１８は、本質的にいわゆる知覚的コーディング（perceptual coding）を含むあらゆる形式の望ましいエンコーディングを採用することができる。例えば、図３に示した装置は、ＡＣ−３に適合したデータストリームに組み込んだダイアルノームを送信するためにオーディオエンコーダーに組み込んでもよい。エンコーダー１８は、本発明に必須ではない。エンコーダー１８を省略した他の実施の形態では、オーディオ情報そのものが経路１９に沿って伝達される。フォーマッター２０は、経路１９から受け取ったオーディオ情報の表示と経路１５から受け取った測定音量の値とを集めて出力信号とし、この出力信号は伝達又は保存のために経路２１に沿って送られる。

図示されないコンプリメンタリー受信機において、経路２１に沿って生成された信号を受信し処理してオーディオ情報の表示と測定音量の値とを復元する。測定音量の値は、オーディオ情報の表示から生成されたオーディオ信号の信号レベルを制御するために用いられる。

３．音量測定装置
図４は、音声と他の形式のオーディオ素材を含むオーディオ信号中の音声に音声量の値を送るために用いられる装置の概略ブロックダイアグラムである。この装置は経路１１からオーディオ信号の間隔を表すオーディオ情報を受信する。分類装置１２と音量測定装置１４は上述した通りの動作を行う。音量測定装置１４から送られてきた測定音量の値は経路１５に沿って送られる。この値は好みの形式で表示することができ、又は、引き続いて処理を行うために他の装置に送られる。

Ｄ．セグメントの分類
本発明は本質的に、音声分類を含む2以上の分類にオーディオ情報のセグメントを分類することのできるどんな技術に用いてもよい。適切な分類技術のいくつかの例は上述した。好ましい実施の形態において、オーディオ情報のセグメントは、以下に記載する技術の形態を用いて分類される。

図５は、好ましい分類技術によるオーディオ情報のセグメントを分類するために用いることのできる装置の概略ブロックダイアグラムである。サンプルレート変換装置は経路11からオーディオ情報のデジタルサンプルを受け取り、所定のレートでのデジタルサンプルを得るために必要なので、オーディオ情報を再サンプルする。以下に記載の実施形態においては、所定のレートは１秒間に１６ｋサンプルである。サンプルレートの変換は本発明を実行する上で必要なものではないが、入力サンプルレートがオーディオ情報を分類するために必要なサンプルレートより高いときオーディオ情報のサンプルレートを変換することが好ましく、サンプルレートを低くすることによって分類処理はより効率的に行うことが可能になる。さらに、特性を抽出した成分の実施は、各成分が単一のサンプルレートで動くように設計されていれば普通は簡単になる。

図示された実施において、オーディオ情報の特性又は特性は、抽出成分３１，３２，及び３３として抽出される。他の実施の形態においては、わずか１つの特性を抽出しても、又は、有効な処理資源でできる限り多くの特性を抽出してもよい。音声検出装置３５は、抽出した特性を受け取り、これらを使ってオーディオ情報のセグメントが音声に分類すべきかどうかを決定する。特性の抽出と音声の検出とについては以下に説明する。

１．特性
図５に示した特定の実施形態において、図示のための便宜上、オーディオ情報から３つの特性のみを抽出した成分が示されている。好ましい実施の形態においてはしかしながら、セグメントの分類は、以下に記載の７つの特性に基づいている。各抽出成分は、フレーム内に配置したサンプルのブロック上で計算を行うことによりオーディオ情報の特性を抽出する。７個の所定の各特性に用いられるフレーム毎のブロックの大きさと数は表６に示されている。

この実施形態において、各フレームは３２,７６８サンプルまたは２．０５７秒の長さである。表に記載した７個の特性については以下に説明する。以下の説明を通して、ブロック当たりのサンプル数は記号Ｎで示され、フレーム当たりのブロック数は記号Ｍで示される。

ａ）重み付けられたスペクトルフラックスのＬ２ノルムの２乗平均
重み付けられたスペクトルフラックスのＬ２ノルムの２乗平均は、音声が通常急速に変化するスペクトルを持つという事実を利用する。音声信号は一般に発声音声と呼ばれる音色のような信号と非発声音声と呼ばれるノイズのような信号の２つの形をもつ。これらの２つの形間での移行は、スペクトルに突然の変化を起こさせる。さらには、発声音声の期間に、強調のために、又は、言語の様式により、又は、このような変化が言語の自然な部分であるので、多くの話者はピッチを変化させる。音楽のような非発声音声信号もまた急激なスペクトルの変化を起こすが、このような変化はまれである。歌手は通常かなりの時間同じ周波数で歌うので、音楽のボーカル部分でさえも変化の頻度は少ない。

重み付けられたスペクトルフラックスのＬ２ノルムの２乗平均を計算する処理の第１のステップは、オーディオ情報のサンプルのブロックに離散フーリエ変換（ＤＦＴ）のような変換を適用し、変換結果得られた係数の大きさを得る。サンプルのブロックは、変換を適用する前に、ハミング窓関数のような窓関数ｗ［ｎ］により重み付けされることが好ましい。ＤＦＴ係数の大きさは以下の式により計算することができる。

ここで、Ｎ＝ブロック中のサンプルの数
ｘ［ｎ］＝ブロックｍ中のサンプル番号ｎ
Ｘｍ［ｋ］＝ブロックｍ中のサンプルに対する変換係数ｋ
次のステップで、現在のブロックと前のブロックの平均指数から現在のブロックの重みＷを計算する。もしサンプルｘ［ｎ］が複素数あるいは虚数値でなく実数値を取るならば、パーセヴァルの定理を使って、以下に示す式の変換係数から平均指数を計算することができる。

ここで、Ｗｍ＝現在のブロックｍに対する重み
次のステップで、現在のブロックのスペクトル成分と前のブロックのスペクトル成分との違いの大きさを２乗し、その結果を式（２）で計算したブロックの重みＷｍで除算し、重み付けられたスペクトルフラックスを算出する。Ｌ２ノルムつまりユークリッド距離はこうして計算される。重み付けられたスペクトルフラックスとＬ２ノルムの計算は以下の式で表される。

ここで、‖ｌｍ‖＝ブロックｍに対する重み付けられたスペクトルのＬ２ノルム
ブロックからなるフレームの特性は、フレーム中の各ブロックにおける２乗Ｌ２ノルムの和を計算することにより得られる。この和は以下の式に示される。

ここで、Ｍ＝フレーム中のブロックの数
Ｆ_ｌ（ｔ）＝フレームｔにおける重み付けられたスペクトルフラックスのＬ２ノルムの２乗平均

ｂ）測定スペクトルパワー密度による最適回帰線のスキュー
対数スペクトルパワー密度による最適回帰線の勾配又は傾きにより、信号のスペクトルの傾き又はスペクトル的な強調点の測定値が得られる。もし信号が低い周波数を強調していたら、信号のスペクトルの形を近似する線は高い周波数に向かって下に傾き、線の傾きは負となる。もし信号が高い周波数を強調していたら、信号のスペクトルの形を近似する線は高い周波数に向かって上に傾き、線の傾きは正となる。

音声は、発声音声の区間では低い周波数を強調し、非発声音声の区間では高い周波数を強調する。発声音声のスペクトルの形を近似する線の傾きは負であり、非発声音声のスペクトルの形を近似する線の傾きは正である。音声は主に非発声であるよりむしろ発声であるので、音声のスペクトルの形を近似する線の傾きはほとんどの時間で負であるが、正と負の傾きの間を急激に切り替わる。結果として、線の傾き又は勾配の分布は強く負方向にスキューする。音楽や他のオーディオ素材では、傾きの分布はもっと対称的になる。

信号のスペクトルの形を近似する線の傾きは、信号の対数スペクトルパワー密度の測定による最適回帰線を計算することにより得られる。信号のスペクトルパワー密度は、上記の式（１）で示したような変換を用いて変換係数の２乗を計算することにより得られる。スペクトルパワー密度の計算は以下の式に示される。

式（５）で計算されたパワースペクトル密度は、以下の式で示される対数領域に変換される。

最適回帰線の勾配は、最小２乗法から導かれる以下の式で計算される。

ここで、Ｇｍ＝ブロックｍの回帰係数
フレームｔの特性は、以下の式で与えられるフレームについてのスキューで測定される。

ここで、Ｆ_２（ｔ）＝フレームｔの対数スペクトルパワー密度による最適回帰線の勾配による特性

ｃ）休止総数
休止総数の特性は、オーディオパワー非常に少なくなるか又は全くなくなる信号の休止又は短い区間が一般に音声に存在するが他のタイプの音声素材には一般に存在しないという事実を利用するものである。

この特性を抽出する最初のステップでは、フレーム内の各ブロックｍにおけるオーディオ情報のパワーＰ［ｍ］を計算する。これは以下に示す式で計算することができる。

ここで、Ｐ［ｍ］＝ブロックｍにおけるパワーの計算値
第２のステップでは、フレーム内におけるオーディオ情報のパワーＰ_Ｆを計算する。この特性としてのフレームｔ内における休止の数Ｆ３（ｔ）は、このフレーム内でそれぞれのパワーＰ［ｍ］が１／４Ｐ_Ｆ以下であるブロックの数に等しい。４分の１という値は経験的に導き出された。

ｄ）ゼロ交差率のスキュー係数
ゼロ交差率は、オーディオ情報で表示され、ある時間間隔中にゼロ点を交差するオーディオ信号の回数で示される。ゼロ交差率は、オーディオ情報サンプルの短いブロックにおけるゼロ点を交差する数を数えることにより測定することができる。ここに記載した実施の形態においては、ブロックには１６ｍｓｅｃ間に２５６個の連続するサンプルが存在する。

概念としては単純であるが、ゼロ交差率から得られる情報により、オーディオ信号中に音声が存在するかどうかの信頼性の高い指標が得られる。音声中の非発声部分が比較的ゼロ交差率が高いのに対して、音声中の発声部分は比較的低いゼロ交差率を持つ。さらに、一般に音声は発生部分と休止とを非発声部分より多く含んでいるので、ゼロ交差率の分布は一般に低い比率にスキューする。フレームｔ内におけるスキューの表示を与える１つの特性は、以下の式で計算されるゼロ交差率のスキュー係数である。

ここで、Ｚｍ＝ブロックｍにおけるゼロ交差数
Ｆ_４（ｔ）＝フレームｔのゼロ交差率のスキュー係数特性
ｅ）ゼロ交差率の平均値対中央値比
フレームｔ内においてゼロ交差率のスキュー係数の分布の表示を提示する他の特性はゼロ交差率の平均値対中央値比である。これは以下の式により得られる。

ここで、Ｚ_median＝フレームｔ中のゼロ交差率のブロックにおける中央値
Ｆ_５（ｔ）＝フレームｔのゼロ交差率の平均値対中央値比特性
ｆ）短期リズミック尺度
ここまで説明した特性は多くの形式のオーディオ素材中の音声を検出することができる。しかし、これらの技術は、いわゆる「ラップ」と呼ばれるようなリズミカルなオーディオ素材及びポピュラー音楽の多くの場合に高い確率で誤検出を行うことがある。オーディオ情報のセグメントは、非常にリズミカルな素材を検出することにより、より高い信頼度で音声であると分類することができ、さらにそのような素材を分類から除外するか又は素材を音声であるとして分類するために必要な確かなレベルに引き上げることができる。

短期リズミック尺度は、以下の式に示すように各ブロック内のサンプルの分散を最初に計算することにより計算される。

ゼロ平均シーケンスは、以下の式に示すようにフレーム中のすべてのブロックの分散から導き出される。

ゼロ平均シーケンスの自己相関は、以下に示した式により得られる。

ここで、Ａ_ｔ［ｌ］＝ブロック遅れｌを持つフレームｔに対する自己相関値
短期リズミック尺度の特性は、自己相関値の最大値から導き出される。この最大値には、遅れｌ＝０のブロックについての値が含まれていない。したがって、この最大値は、遅れｌ≧Ｌのブロックの値の集合から得られたものである。数値Ｌは期待される最も速いリズムの期間を表す。一実施の形態においてＬは、最低期間である１６０ｍｓｅｃを表す１０に設定される。この特性は、以下の式に示すように、最大値を、遅れｌ＝０のブロックの自己相関値で除することにより計算される。

ここで、Ｆ_６（ｔ）＝フレームｔの短期リズミック尺度
ｇ）長期リズミック尺度
長期リズミック尺度は、ゼロ平均シーケンス値がスペクトルの重みに置き換える点を除いて、上述の短期リズミック尺度についての説明と同じ方法で導き出される。これらのスペクトルの重みは、上述の式（５）及び（６）で示した対数パワースペクトル密度を得ることによりまず計算され、対数スペクトルパワー密度による最適回帰線の勾配のスキューに関連して説明される。ここで説明した実施の形態において、長期リズミック尺度の計算でのブロック長さは勾配のスキューの計算に用いるブロック長さとは異なることを指摘しておくことは助けになるかもしれない。

次のステップで、以下の式に示すような各ブロックにおける対数領域のパワースペクトル値の最大値を取得する。

ここで、Ｏ_ｍ＝ブロックｍにおける最大対数パワースペクトル
各ブロックにおけるスペクトルの重みは、（Ｏ_ｍ・α）に等しい閾値より大きな対数領域パワースペクトル値のピークの数により決められる。この決定は以下の式により表現される。

ここで、Ｗ［ｍ］＝ブロックｍのスペクトルの重み
ｓｉｇｎ（ｎ）＝＋１ｎ≦０のとき、 −１ｎ＜０のとき
α＝経験から導かれた定数で０．１
各フレームの端で、前のフレームのＭ個のスペクトルの重みのシーケンスと現在のフレームのＭ個のスペクトルの重みのシーケンスとが結び付けられて２Ｍ個のスペクトルの重みのシーケンスとなる。次いで、この長いシーケンスの自己相関が以下の式により計算される。

ここで、ＡＬ_ｔ＝フレームｔの自己相関係数
この長期リズミック尺度の特性は、自己相関係数の最大値から導き出される。この最大値には、遅れｌ＝０のブロックについての値が含まれていない。したがって、この最大値は、遅れｌ≧ＬＬのブロックの値の集合から得られたものである。数値ＬＬは期待される最も速いリズムの期間を表す。ここに記載された実施の形態においてＬＬは１０に設定される。この特性は、以下の式に示すように、最大値を、遅れｌ＝０のブロックの自己相関値で除することにより計算される。

ここで、Ｆ_７（ｔ）＝フレームｔの長期リズミック尺度
２．音声の検出
音声検出装置３５は、オーディオ情報のセグメントが音声に分類すべきものかどうかを決定するために各フレームから抽出した特性を結合する。特性を結合するために用いる１つの方法では、簡単な又は暫定的な分類装置が導入される。暫定的な分類装置では、上述の特性の１つを閾値と比較して２進数値を算出する。この２進数値は係数により重み付けられる。各暫定的な分類装置により、１つの特性に基づき暫定的な分類が行われる。特定の特性を２以上の暫定的な分類装置に用いてもよい。暫定的な分類を以下の式で行われる計算により実行してもよい。

ここで、Ｃ_ｊ＝暫定的分類装置ｊにより提供される２進数値の分類
ｃ_ｆ＝暫定的分類装置ｊの係数
Ｆ_ｉ＝オーディオ情報から抽出した特性ｉ
ＴＨ_ｊ＝暫定的分類装置ｊの閾値
この特定の実施形態において、暫定的分類Ｃ_ｊ＝１であることは、暫定的分類装置ｊがオーディオ情報の特定のフレームは音声に分類すべきであるとの決定を支持しようとしていることを示している。暫定的分類Ｃ_ｊ＝−１であることは、暫定的分類装置ｊがオーディオ情報の特定のフレームは音声に分類すべきでないとの決定を支持しようとしていることを示している。

表７の項目は、係数と閾値とオーディオ情報のフレームの分類の実施形態で用いられるいくつかの暫定的な分類装置の適切な特性を示す。

最終的な分類は、暫定的な分類結果を組み合わせたものに基づく。これは以下の式に示すように行うことができる。

ここで、Ｃ_final＝オーディオ情報のフレームの最終分類
Ｊ＝分類を行うために用いられる暫定的な分類装置の数
音声検出装置の信頼性は、暫定的な分類装置の選択を最適化すること、及び、これらの暫定的な分類装置の係数と閾値を最適化することにより改善することができる。この最適化は、引用した米国特許5,819,247及び１９９９年人工知能についての第１６回内部合同会議での、Schapire,「A Brief Introduction to Boosting」手順を含む様々な方法で実行することができる。

代替的な実施の形態において、音声検出は２進数化された判断として表示されるのではなく、代わりに、音声検出は等級をつけた分類のための指標として表される。この指標は、音声である確率の測定値、又は、音声分類における確かさのレベルを表現することとなる。これは、例えば、式（２１）で示される２進数化された結果を得るのではなくて暫定的分類の総計から最終分類を得るというような様々な方法で行うことができる。

３．サンプルブロック
上述の実施形態では、切れ目や重複のない固定長のブロックから特性を抽出している。その代わり、分類技術を切れ目や重複のない可変長のブロックに適用したり、重複のある固定長又は可変長のブロックに適用したり、あるいは、連続しない固定長又は可変長のブロックに適用したりすることができる。例えば、オーディオ情報をもっと変動の少ないものにするために、トランジエント、休止、又はオーディオエネルギーのごく少ないか全くない期間に適応して、ブロック長さを変化させるようにしてもよい。フレーム毎のブロックの数の変化に適応して、及び／又は、フレーム内のブロックの長さの変化に適応して、フレーム長さも変化させるようにしてもよい。

Ｅ．音量の測定
音量測定装置１４は、オーディオ情報のセグメントを調査し、音声セグメントの音量の測定値を得る。一実施の形態において、音声のセグメントと分類された各フレームについて音量が測定される。音量は要求されるあらゆる期間に対して本質的に測定され得る。

他の実施形態においては、処理開始要求に応答して測定処理が始まり、処理停止要求を受け取るまで続けられる。受信機４では、例えば、これらの要求は、経路３から受け取った信号中の特定のコードに変換される。あるいは、これらの要求は、音量を測定するために用いられる装置上に設置されたスイッチや他の制御機器の操作により提供してもよい。音量測定装置１４の処理を一時停止させ現在の測定値を保持させる追加的な制御機器を用意してもよい。

一実施の形態において、音声と分類されるすべてのオーディオ情報のセグメントに対して測定される。原則として、しかしながら、例えば、閾値より大きなオーディオエネルギーのレベルを持つセグメントにのみとするように、選択された音声セグメントについてのみ音量を測定してもよい。分類装置１２に低エネルギーセグメントを音声ではないと分類させ、そしてすべての音声セグメントの音量を測定することでも同様の効果が得られよう。他の変形も可能である。例えば、音量の測定計算において古いセグメントに低い重みを与えることもできる。

さらに他の実施の形態において、音量測定装置１４は少なくともいくつかの非音声セグメントについて音量を測定する。非音声セグメントについて測定された音量はオーディオ情報の期間における音量の計算として用いられる。しかしながら、これらの計算は音声セグメントにおける測定に対応すべきである。非音声セグメントの測定は、セグメントの分類のために段階的指標を提供する実施形態に用いてもよい。オーディオ情報の区間における計算は、分類のための段階的指標を明らかにするような方法で音声セグメントと非音声セグメントの音量を測定に対応できる。例えば、段階的指標は、オーディオ情報のセグメントが音声を含む確度の表示を表すことができる。音量の測定は、音量測定計算においてこれらのセグメントに高い重み付けをすることにより、より高い確度でセグメントに対応するようにすることができる。

音量は上述したような方法を含む様々な方法で測定することができる。本発明には特別な測定技術は必要ではないが、コンピュータリソースをそれほど必要としない単純な技術が実際の実施において一般的に好ましいと考えられる。

Ｆ．実施
本発明の様々な機能は、汎用コンピュータシステムのソフトウエアや、汎用コンピュータシステムに見られるような要素と似た部品と組み合わせたデジタル信号処理（ＤＳＰ）回路のようなさらに特化した部品を含む他の装置による方法を含む、広く様々な方法で実施することができる。図６は、オーディオをエンコードする送信機又はオーディオをデコードする受信機において本発明の様々な機能を実施するために用いることができる装置７０のブロックダイアグラムである。ＤＳＰ７２は計算リソースを提供する。ＲＡＭ７３はＤＳＰ７２で信号処理に用いられるランダムアクセスメモリー装置（ＲＡＭ）である。ＲＯＭ７４は、装置７０を動作させるために必要なプログラムを保存するためのリードオンリーメモリー（ＲＯＭ）のような永久的な記憶装置を表している。Ｉ／Ｏ制御７５はコミュニケーションチャンネル７６，７７を介して信号の伝送と受信を行うインターフェース回路を表している。アナログオーディオ信号を受信及び／又は送信したいときは、アナログからデジタルへの変換器及びデジタルからアナログへの変換器をＩ／Ｏ制御７５に含ませてもよい。図示の実施形態において、すべてのシステム部品はバス７１に接続される。このバスは、物理的な１以上のバスであってもよいが、バスの概念は本発明の実施に必要ではない。

汎用コンピュータで実施する形態においては、インターフェース用、及び、磁気テープ又は磁気ディスク又は光学媒体などの記憶媒体を有する記憶装置を制御するためのキーボードやマウス及びディスプレイなどの付加的な部品が含まれる。記憶媒体はシステムを動作させるためのプログラム、ユーティリティー及びアプリケーションのプログラムを記録するために用いてもよく、記憶媒体には本発明のいろいろな機能を実行するプログラムの具体的表現を含ませてもよい。本発明の実行に必要な機能は、個々のロジック部品、１以上のＡＳＩＣ及び／又はプログラム制御のプロセッサーを含む広く様々な方法を組み込んだ特殊目的の部品により遂行することもできる。これらの部品を組み込む方法は、本発明にとって重要ではない。

本発明におけるソフトウエアの組み込みは、ベースバンド又は超音波から紫外線までの周波数を含む全スペクトルの変調経路のような様々な読み込み媒体機構により、あるいは、磁気テープ、磁気ディスク、光ディスクを含む、本質的に磁気又は光学的記憶技術を用いて情報を伝達する媒体を含む記憶媒体により行われる。種々の機能は、ＡＳＩＣ、汎用集積回路、ＲＯＭ又はＲＡＭのいろいろな形で具現化したプログラムにより制御される処理回路、及び、その他の技術による回路のような処理回路によりコンピュータシステム７０の様々な部品に組み込むこともできる。

本発明の様々な機能に組み込まれたオーディオシステムの概略ブロックダイアグラムである。音声その他のオーディオ素材を有するオーディオ信号の音量を制御するために用いられる装置の概略ブロックダイアグラムである。音声を表現するオーディオ情報及び音声の大きさを表す制御情報を生成し伝送するために用いられる装置の概略ブロックダイアグラムである。音声その他のオーディオ素材を有するオーディオ信号中の音声の大きさを提供し表示するために用いられる装置の概略ブロックダイアグラムである。オーディオ情報のセグメントを分類するために用いられる装置の概略ブロックダイアグラムである。本発明の様々な状況で用いられる装置の概略ブロックダイアグラムである。

Claims

信号処理方法であって、
入力信号を受け取り、該入力信号からオーディオ情報を獲得するステップであって、ここで、該オーディオ情報はオーディオ信号の区間を意味する、ステップと、
前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査するステップであって、ここで、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有し、前記音声セグメントの該音量は音量の大きい１以上の非音声セグメントの音量より小さい、ステップと、
前記音声セグメントの音量の測定値を得るために前記オーディオ情報を調査するステップと、
前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも音声セグメントの音量の測定値に敏感に対応する制御情報を生成することによりオーディオ信号の区間の音量の表示を行うステップと、
を具備する信号処理方法。
前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、ここで、音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、音量の大きい１以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくする、ステップを具備する請求項１に記載の方法。
前記オーディオ情報の表示と前記制御情報の表示とを出力信号に組み立て、該出力信号を送信するステップを具備する請求項１に記載の方法。
音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得るステップを具備する請求項１又は請求項２に記載の方法。
オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得るステップを具備する請求項１又は請求項２に記載の方法。
前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類するステップを具備する請求項１又は請求項２に記載の方法。
オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の区間のみの音量を調整することで前記オーディオ信号の区間の音量を制御するステップを具備する請求項１に記載の方法。
前記オーディオ信号の区間の音量の表示は、音声セグメントの音量の測定値のみに対応している請求項１又は請求項２に記載の方法。
１以上の非音声セグメントの音量を測定するステップであって、ここで、前記オーディオ信号の区間の音量の表示は、１以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応している、ステップを具備する請求項１又は請求項２に記載の方法。
各々のセグメントで表現されるオーディオ信号が音声の特性を持つ程度を表示する音声指標を作成するステップと、
各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成するステップと、
を具備する請求項１又は請求項２に記載の方法。
セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備する請求項１又は請求項２に記載の方法。
オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備する請求項１又は請求項２に記載の方法。
信号処理方法を行う装置により実行しうる命令のプログラムを伝達し、該装置により読み込むことのできる媒体であって、
該信号処理方法は、
入力信号を受け取り、該入力信号からオーディオ情報を獲得するステップであって、ここで、該オーディオ情報はオーディオ信号の区間を意味する、ステップと、
前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査するステップであって、ここで、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有し、前記音声セグメントの該音量は音量の大きい１以上の非音声セグメントの音量より小さい、ステップと、
前記音声セグメントの音量の測定値を得るために前記オーディオ情報を調査するステップと、
前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも音声セグメントの音量の測定値に敏感に対応する制御情報を生成することによりオーディオ信号の区間の音量の表示を行うステップと
を具備する信号処理方法を行う装置により実行しうる命令のプログラムを伝達し、該装置により読み込むことのできる媒体。
前記方法は、前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、ここで、音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、音量の大きい１以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくする、ステップを具備する、請求項１３に記載の媒体。
前記方法は、前記オーディオ情報の表示と前記制御情報の表示とを出力信号に組み立て、該出力信号を送信するステップを具備する、請求項１３に記載の媒体。
前記方法は、音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得るステップを具備する、請求項１３又は請求項１４に記載の媒体。
前記方法は、オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得るステップを具備する、請求項１３又は請求項１４に記載の媒体。
前記方法は、前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類するステップを具備する、請求項１３又は請求項１４に記載の媒体。
前記方法は、オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の区間のみの音量を調整することで前記オーディオ信号の区間の音量を制御するステップを具備する、請求項１３又は請求項１４に記載の媒体。
前記方法において、前記オーディオ信号の区間の音量の表示は、音声セグメントの音量の測定値のみに対応している、請求項１３又は請求項１４に記載の媒体。
前記方法は、１以上の非音声セグメントの音量を測定するステップであって、ここで、前記オーディオ信号の区間の音量の表示は、１以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応している、ステップを具備する、請求項１３又は請求項１４に記載の媒体。
前記方法は、
各々のセグメントで表現されるオーディオ信号が音声の特性を持つ程度を表示する音声指標を作成するステップと、
各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成するステップと、
を具備する、請求項１３又は請求項１４に記載の媒体。
前記方法は、セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備する、請求項１３又は請求項１４に記載の媒体。
前記方法は、オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備する、請求項１３又は請求項１４に記載の媒体。
信号処理のための装置であって、
入力信号を受け取るための入力端子と、
記憶装置と、
前記入力端子と前記記憶装置に接続された処理回路であって、該処理回路は、
入力信号を受け取り、該入力信号からオーディオ情報を獲得するステップであって、ここで、該オーディオ情報はオーディオ信号の区間を意味する、ステップと、
前記オーディオ情報のセグメントが、音声に分類されるオーディオ信号の部分を示す音声セグメントであるのか、又は、音声には分類されないオーディオ信号の部分を示す非音声セグメントであるのかを分類するためにオーディオ情報を調査するステップであって、ここで、セグメントで表されるオーディオ信号の各部分はそれぞれ音量を有し、前記音声セグメントの該音量は音量の大きい１以上の非音声セグメントの音量より小さい、ステップと、
前記音声セグメントの音量の測定値を得るために前記オーディオ情報を調査するステップと、
前記非音声セグメントで表現される前記オーディオ信号部分の音量よりも音声セグメントの音量の測定値に敏感に対応する制御情報を生成することによりオーディオ信号の区間の音量の表示を行うステップと、
を具備する処理を行うのに適合している、信号処理のための装置。
前記処理回路は、前記音声セグメントの音量の変化を減少させるために前記制御情報に応答して前記オーディオ信号の区間の音量を制御するステップであって、ここで、音声セグメントで表現される前記オーディオ信号の部分の音量を大きくするとき、音量の大きい１以上の非音声セグメントで表現される前記オーディオ信号の部分の音量も大きくする、ステップを具備する処理を行うのに適合している、請求項２５に記載の装置。
前記処理回路は、前記オーディオ情報の表示と前記制御情報の表示とを出力信号に組み立て、該出力信号を送信するステップを具備する処理を行うのに適合している、請求項２５に記載の装置。
前記処理回路は、音声セグメントで表現されるオーディオ信号を周波数で重み付けしたものの平均指数を計算することにより音声セグメントの音量の測定値を得るステップを具備する処理を行うのに適合している、請求項２５又は請求項２６に記載の装置。
前記処理回路は、オーディオ情報に音響心理学的モデルに基づく音量を適用することにより、音声セグメントの音量の測定値を得るステップを具備する処理を行うのに適合している、請求項２５又は請求項２６に記載の装置。
前記処理回路は、前記オーディオ情報から前記オーディオ信号の複数の特性を導き出し、各々の重要さの程度により重み付けを行い、該重み付けされた特性の組み合わせに従って前記セグメントの分類を行うことによりセグメントを分類するステップを具備する処理を行うのに適合している、請求項２５又は請求項２６に記載の装置。
前記処理回路は、オーディオエネルギーの程度が閾値より小さい前記オーディオ信号の区間のみの音量を調整することで前記オーディオ信号の区間の音量を制御するステップを具備する処理を行うのに適合している、請求項２５又は請求項２６に記載の装置。
前記処理回路は、前記オーディオ信号の区間の音量の表示が音声セグメントの音量の測定値のみに対応する処理を行うのに適合している、請求項２５又は請求項２６に記載の装置。
前記処理回路は、１以上の非音声セグメントの音量を測定するステップであって、ここで、前記オーディオ信号の区間の音量の表示は、１以上の前記非音声セグメントの音量の計測値より前記音声セグメントの音量の測定値に敏感に対応している、ステップを具備する処理を行うのに適合している、請求項２５又は請求項２６に記載の装置。
前記処理回路は、
各々のセグメントで表現されるオーディオ信号が音声の特性を持つ程度を表示する音声指標を作成するステップと、
各々のセグメントの前記音声指標に応じた各々のセグメントの音量の測定値に対応するような音量の表示を作成するステップと、
を具備する処理を行うのに適合している、請求項２５又は請求項２６に記載の装置。
前記処理回路は、セグメントの時間順序に応じた各セグメントの音量の測定値に対応するような音量の表示を作成するステップを具備する処理を行うのに適合している、請求項２５又は請求項２６に記載の装置。
前記処理回路は、オーディオ情報の特性に対応してオーディオ情報のセグメントの長さを適合させるステップを具備する処理を行うのに適合している、請求項２５又は請求項２６に記載の装置。