JP2008505348A - 音声活動の検出 - Google Patents

音声活動の検出 Download PDF

Info

Publication number
JP2008505348A
JP2008505348A JP2007518732A JP2007518732A JP2008505348A JP 2008505348 A JP2008505348 A JP 2008505348A JP 2007518732 A JP2007518732 A JP 2007518732A JP 2007518732 A JP2007518732 A JP 2007518732A JP 2008505348 A JP2008505348 A JP 2008505348A
Authority
JP
Japan
Prior art keywords
signal
audio
step size
encoded signal
encoded
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2007518732A
Other languages
English (en)
Other versions
JP5172335B2 (ja
Inventor
ロバート、ヤング
Original Assignee
ケンブリッジ シリコン ラジオ リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ケンブリッジ シリコン ラジオ リミテッド filed Critical ケンブリッジ シリコン ラジオ リミテッド
Publication of JP2008505348A publication Critical patent/JP2008505348A/ja
Application granted granted Critical
Publication of JP5172335B2 publication Critical patent/JP5172335B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04BTRANSMISSION
    • H04B14/00Transmission systems not characterised by the medium used for transmission
    • H04B14/02Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation
    • H04B14/06Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using differential modulation, e.g. delta modulation
    • H04B14/062Transmission systems not characterised by the medium used for transmission characterised by the use of pulse modulation using differential modulation, e.g. delta modulation using delta modulation or one-bit differential modulation [1DPCM]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03MCODING; DECODING; CODE CONVERSION IN GENERAL
    • H03M3/00Conversion of analogue values to or from differential modulation
    • H03M3/02Delta modulation, i.e. one-bit differential modulation
    • H03M3/022Delta modulation, i.e. one-bit differential modulation with adaptable step size, e.g. adaptive delta modulation [ADM]

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmitters (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Geophysics And Detection Of Objects (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

通信システムにおいてオーディオ活動の存在或いは不存在を検出するための方法であって、オーディオ信号はデルタ変調符号化アルゴリズムによって符号化され、ステップサイズパラメータは前記符号化された信号の特性に従って適応化され、この方法は、前記ステップサイズパラメータのマグニチュードに基づいて前記符号化された信号がオーディオ活動を表すか否かを決定するステップと、前記通信システムの動作をその決定に基づいて適応化するステップと、を含む。

Description

本発明は通信システムにおける符号化された音声信号、とりわけデルタ変調符号化信号の検出に係る。
オーディオ通信システムにおいては、オーディオ信号は、典型的には、通信リンクを横断して送信される前に符号化される。信号を符号化すると、通信媒体は信号劣化を受け易いため、その信号が受信機の所で受信されたときのその品質を向上させることができる。加えて、通信媒体は通常は周波数帯域に限りがあり、この符号化スキームはその有効信号帯域幅を向上させるように選択することもできる。
一般的な符号化技法は、オーディオ信号をその信号のサンプリングされた部分のデジタル表現を得るためにサンプリングすることと、その後、このサンプリングされた部分をデジタル符号化することとを伴う。
一般的な符号化技法の一例は、デルタ変調(delta modulation)である。これは、オーディオ信号のデジタルサンプリングを繰り返し遂行することと、サンプルからサンプルまでの信号振幅の変化を符号化することとを伴う。この最も単純な例においては、こうして符号化された信号は、あるオーディオサンプルがその前のサンプルと比較して振幅においてより高いか或いはより低いかを表す。このタイプの符号化は以下の等式によって表すことができる:
x(n)=x(n−1)+(2・b(n)−1)・δ (1)
ここで、x(n)はあるオーディオサンプルであり、x(n−1)はその前のオーディオサンプルであり、b(n)は0或いは1であり、そのオーディオ信号内を送信されているデータのあるビットを表し、そして、δはステップサイズとして知られている。
このステップサイズδは、ある与えられたサンプル(x(n))に対する、その前のサンプル(x(n−1))と比較しての正或いは負の振幅調節のサイズを示す。
等式(1)を用いることで、そのオーディオサンプルx(n)は復号器の所でその前のサンプルx(n−1)から再構成することができる。
幾つかの符号化スキームにおいては、このステップサイズδは、符号化あるいは復号化されている信号の特性に従って適応化するようにされる。これは、こうすることで、振幅と周波数が大きく変動する信号を効率的に表現することが許されることから望ましい。例えば、振幅の大きな或いは周波数の高い信号を符号化或いは復号すべきときは、このステップサイズをより大きくなり、結果としてサンプルからサンプル間の信号振幅におけるより大きな変化を表現することが可能になる。適応的ステップサイズ(adaptive step size)を用いるデルタ変調符号化スキームのある特定の一例は、連続可変傾きデルタ変調(Continuous Variable Slope Delta Modulation, CVSD)である。適応的ステップサイズを用いるという基本概念には、多くのバリエーションが存在し、例えば、複数のビットを用いてサンプル間の振幅の変化に関する情報を正確に符号化し、結果として単にあるサンプルがその前のサンプルより高いか或いは低いかというよりも、より多くの情報を送信しても良い。
注意すべきことは、このステップサイズパラメータ自体は通信媒体を通じて送信する必要はないことである。代わりに、ある送信機と受信機が、各々同一のステップサイズパラメータ適応化アルゴリズムを、現在のステップサイズをある伝送された信号内の値b(n)に基づいて決定するために用いることもできる。
音声あるいは他のオーディオデータを通信システム(これは有線でも無線でも良い)を通じて送信することを伴う幾つかの用途においては、一般要件として、入力或いは出力デバイス、例えばマイクロホン或いはスピーカの利得は、自動的に調節可能できることを要求される。これは、あるオーディオ信号の振幅をその通信路の後続段において最適化することができるように要求される。例えば、図1に示されるような携帯無線用途において、マイクロホ1bの利得を、ハンドセット1から送信すべき音声信号の強度に従って調節し、これによってマイクロホンの増幅器の過負荷を避けるとともに、信号対雑音比を最大化することもできる。同様に、ハンドセットのスピーカ1aの利得を、そのハンドセットによって受信されるオーディオ信号の特性に従って調節し、この結果としてスピーカから出力される信号の品質を最適化することもできる。
さらに、図1に示されるそれのような双方向通信システムにおいては、通信リンク3の一端1の所のマイクロホン入力1bの利得を、この通信リンクの同一端のスピーカ出力1aの所の音声信号の存否と振幅に従って、例えば、マイクロホン内へのスピーカのフィードバック(4)を最小限に押さえるために、調節することが必要となることもあり、これを行わないと、このフィードバックのために、リンク2の他端の所でうるさいエコーが発生することがある。
通信システムの一例はブルートゥース(Bluetooth)である。このシステムは上述のCVSD符号化を利用する。ブルートゥースシステムにおいて、1つオプションとしては、受信機の所でデータが検出できないときは、これは沈黙(silence)と解釈され、その受信機からオーディオ信号は出力されない。これはブルートゥースの送信機の所で利用し、人がその送信機の所のマイクロホン内に話し込むのを止めると、その送信機はこれを検出し、データの送信を止めるようにすることもできる。これは送信機の所での電力を節約できるという長所を有する。マイクロホンの利得も、同様なやり方で、ブルートゥース及び他のシステム内で調節することができ、こうして、人がマイクロホン内に話し込むのを止めると、その利得が自動的に低減されるようにすることもできる。このような構成は、VOGAD(voice operated gain adjusting device:音声作動利得調節デバイス)として知られている。
利得を通信システムにおける様々なポイントにおいて既知の技法を用いて制御するためには、送信された信号の振幅を測定することが必要となる。これは、通常、信号サンプルの処理を伴うが、これはかなりの計算能力を要求することがある。さらに、背景(バックグラウンド)内に存在するような信号振幅の緩やかな変動によって、信号振幅の計算に歪みが生しることもある。固定されたオフセットも、類似の歪みを生じさせる原因となる。
信号の振幅を監視するための既知の技法と関連するもう1つの問題は、オーディオ信号、とりわけ音声データのバースト性である。見かけ上連続的な音声のある期間内においても、実際には、図2からわかるように、高信号エネルギーの期間の間に、低信号エネルギー(沈黙)の短い期間が存在する。これは、そのオーディオ信号のあるサンプルが取られたとき、そのサンプルは、実際にはその信号は全体としては音声を表すのに、沈黙に対応する低信号エネルギーを示す、ということを意味する。従って、あるオーディオ信号の1つのある瞬間サンプルを、その信号が音声を表すか否かの指標として用いるというやり方は、信頼性の点に問題がある。
デルタ変調ステップサイズ適応アルゴリズム(delta modulation step size adaptation algorithm)はこの問題を部分的に克服することができる。これらサンプリングされた信号は、オーディオ信号のこのバースト性の幾らかを平滑化する。
ステップサイズの適応化の速度は、符号化された信号の精度に影響を及ぼす。典型的には、ステップサイズをあるオーディオ信号の特性に依存して変化させるために用いられる方法は、ステップサイズを比較的低速に、例えば数ミリ秒なる時定数にて変化させる。適応化時間が速いほど、符号化はより正確となる。
”アタック”(attack time)”と”減衰”時間(decay time)という概念は、適応的な利得制御を要求する通信用途において重要である。アタック時間とは、音声或いは他のオーディオ信号の開始に対応しての信号エネルギーの増加に対する応答時間である。減衰時間とは、音声或いは他のオーディオ信号の間隙(ギャップ)対応しての信号エネルギーの減少に対する応答時間である。多くの用途、例えばモバイル通信においては、アタック時間は相対的に短く、減衰時間は相対的に長いことが望ましい。こうすることで、システムは、一方で、ある信号の開始に迅速に応答することができ、この結果として、例えばシステムの適応化する間に音声データが失われることがなくなり、システムは、他方で、信号エネルギーの、例えば音声信号におけるワード間の、短間隙(short gaps)に対して相対的に不変となる。
本発明はあるオーディオ信号の存在或いは不存在を検出するための、計算面で効率的な方法を提供する助けとなり得る。この方法の幾つかの実施例は、ある要求されるオーディオ信号上に重畳された固定オフセット(fixed offsets)と低周波妨害(low frequency disturbances)に対して比較的不変である。本発明の幾つかの実施例は少なくとも部分的にオーディオ信号のバースト性と関連するこれら問題を克服することができる。
本発明の第一の態様によると、通信システム内においてオーディオ活動(audio activity)の存在或いは不存在を検出するための方法が提供され、ここでオーディオ信号はデルタ変調符号化アルゴリズムにて符号化され、ステップサイズパラメータはこの符号化された信号の特性に従って適応化され、この方法はこのステップサイズパラメータのマグニチュードに基づいてその符号化された信号が音声活動を表すか否かを決定するステップと、その通信システムの動作をこの決定に基づいて適応化するステップとを含む。
この符号化された信号は、好適には、ステップサイズパラメータのマグニチュードが第一の閾値より高いとき、オーディオ活動を表すものと決定される。この符号化された信号は、好適には、このステップサイズパラメータのマグニチュードがこの第一の閾値より低いときは、オーディオ活動を表さないものと決定される。代わりに、その符号化された信号が既にオーディオ活動を表すものと決定されているときに、その符号化された信号は、その後、ステップサイズパラメータのマグニチュードがこの第一の閾値よりも低い第二の閾値より低くなったとき、オーディオ活動を表さないものと決定しても良い。
この方法は、好ましくは、オーディオ信号を分析するステップと、そのステップサイズパラメータをこの信号のこの分析に基づいて決定するステップとを含む。好ましくは、このステップサイズパラメータは、決定されたステップサイズパラメータを表す出力信号を生成するために定期的にサンプリングされる。このサンプリング速度は1kHz以下であっても良く、より好ましくは200Hz以下である。
この方法は、好ましくは、この出力信号に低域通過フィルタを適用するステップを含む。この低域通過フィルタは好ましくは非線形フィルタである。
好ましくは、この符号化された信号は、そのオーディオ信号を送信機の所で符号化することで形成される。
この決定ステップは、受信機の所で遂行しても或いは送信機の所で遂行しても良い。
この方法は、その信号がオーディオ活動を表すと決定されたときそのオーディオ信号を表すデータを送信するステップと、そうでないときはそのオーディオ信号を表すデータは送信しないステップとを含んでも良い。
この決定ステップが送信機の所で遂行されるときは、この送信機はそれによってオーディオ信号が検出されるマイクロホンを含んでも良く、この方法はそのマイクロホンによって検出された信号に、直前のオーディオ信号を符号化することによって形成された符号化信号がオーディオ活動を表さないことが決定されたときは、そのオーディオ信号がオーディオ活動を表すと決定されたときよりも、より低い利得を適用するステップを含んでも良い。
この受信機は、それによってオーディオ信号が出力されるオーディオ出力デバイスを含んでも良く、この方法はこの出力デバイスにパスされる信号に、そのオーディオ信号がオーディオ活動を表さないと決定されたときは、そのオーディオ信号がオーディオ活動を表すと決定されたときよりも、より低い利得を適用することを含んでも良い。
この通信システムは、ブルートゥースシステムであっても良い。この通信システムは、好ましくは、オーディオ信号が送信されないときは沈黙を示すようなプロトコルに従って動作する。
本発明の第二の態様によると、通信システム内においてあるオーディオ信号のエネルギーを推定するための方法が提供され、ここで信号はデルタ変調符号化アルゴリズムによって符号化され、ステップサイズパラメータはその信号の特性に従って適応化され、この方法はこのステップサイズパラメータに基づいてその信号のエネルギーを推定するステップを含む。
本発明の第三の態様によると、通信システム内においてあるオーディオ信号の存在或いは不在を検出するための装置が提供され、ここでオーディオ信号はデルタ変調符号化アルゴリズムによって符号化され、ステップサイズパラメータはこの符号化された信号の特性に従って適応化され、この装置はこのステップサイズパラメータのマグニチュードに基づいてその符号化された信号がオーディオ活動を表すか否かを決定するための手段と、その通信システムの動作をこの決定に基づいて適応化するための手段と、を含む。
以下に本発明が一例として図面を参照しながら説明される。
図2はある音声信号の表現を示す。このような音声信号は、例えば図1に示されるそれのような通信システム、或いは例えばTV若しくは無線放送のような一方向システム内において送信され得る。
この信号のセクションAは、送信されることを要求される音声を表す。セクションBは、音声のある部分の終端の後の期間を表し、信号のこの部分は単に背景雑音(background noise)である。通信システムにおいては、入力或いは出力デバイスの利得はある音声信号に応じて自動的に調節可能であるべきである。この現在の例においては、信号25は、ハンドセットのマイクロホン1b内に、ハンドセット2に送信するために話し込まれる。このケースにおいては、マイクロホン1bの利得は、理想的には、音声がこのマイクロホン内に話し込まれている最中のセクショの際には、マイクロホンに音声が話し込まれていないときのセクションBの際よりも、送信されるべき音声が存在しないときは電力が節約できるように、高くなるべきである。逆に、信号25は、ハンドセット1の所に受信され、スピーカ1の所に出力されても良い。このケースにおいては、スピーカの利得は、スピーカがセクションAを出力しているときに、これがセクションBを出力しているときより、音響品質を最適化するために、大きくなることが望ましい。加えて、好ましくは、ハンドセット1からの送信は、音声セクションAが終端したとき、切断される。
デルタ変調符号化スキームにおいては、符号化されるべき信号は、典型的には、約8kHzの速度にてサンプリングされる。多くの現実的なケースにおいては、デルタ変調は、ある元の信号のアップ・サンプリングされたバージョン(up-sampled version)に適用される。例えば、ブルートゥースにおいては、信号は元の8kHzなるオーディオサンプリング速度から64kHzに挿間(interpolate)される。値b(n)が次にこのより高い速度にて送信される。その後、受信機の所で、その復号された信号は、このより高い速度から要求されるオーディオサンプリング速度に低減(decimate)される。各サンプルに対して(あるいはより低い頻度にて)、ステップサイズパラメータδが、例えば等式(1)に従って、決定及び符号化される。図2の一例としての信号25を考慮すると、セクションAにおいては、このδ値は、典型的には各サンプルの間に信号の振幅に大きな変化が存在するために、平均的に見れば、相対的に高くなる。逆に、セクションBにおいては、これは、各サンプル間には平均的に信号振幅の小さくな変化しか存在しないために、相対的に低くなる。
本発明の発明者は、このステップサイズδ自体を、音声信号が存在するか否かの指標として用いることができることを認識した。例えば、セクションA内の相対的に高いδ値は音声が存在することの指標として取ることができ、一方、セクションB内の低いδは、存在する唯一のオーディオ信号は背景雑音に対応するという指標として取ることもできる。これらδ値から音声信号が存在するか否かを決定することで、計算負荷を既知のシステムと比較して、オーディオ信号の別個の処理が要求されないことから、低減することができる。つまり、通常ならオーディオ信号の符号化のために行わるところのこの処理を、それ自体がオーディオが存在するか否かを示すために、用いることもできる。本発明の態様のもう1つの利点は、オーディオ信号に重畳された固定オフセットと低周波妨害が、ステップサイズδはこれら因子に不変であるために、音声信号の存在或いは不存在の指標に歪みを与えることはありそうもないことである。
一つの態様によると、ステップサイズパラメータの閾値が適用され、この閾値41に達すると、入力或いは出力デバイスの利得は自動的に調節され、代替として或いは追加的に、送信が開始或いは停止される。
図3はオーディオ信号25のデルタ変調バージョン30を示す。信号30は等式(1)に定義されるようなx(n)を表す。
図4は検出されたステップサイズδを時間に対して示すグラフである。このグラフは符号化された信号30のサンプリングによって検出されるステップサイズを表す。図3と図4からわかるように、δは、音声が存在し、従って信号の振幅がより高いとき(セクションA)はより高くなり、背景雑音しか存在せず、従って信号振幅がより低いとき(セクションB)はより低くなる。このステップサイズは、セクションAが終端した、すなわちその音声信号が単なる背景雑音となった直後に、閾値41以下に落ちる。この閾値は、送信を開始或いは停止するためのトリガを表しても良く、及び/又はこれはデバイス利得を調節するためのトリガを表しても良い。一つの代替実施例においては、2つの閾値がヒステリシスを提供するために用いられる。図4に示される例においては、このステップサイズは、音声が終端する前のポイントにおいてもこの閾値以下に落ちるが、しかしながら、送信の停止或いは利得の調節をトリガするために用いられる方法次第で、このポイントは、δはこの閾値以下に短時間しか落ちないために、無視しても良い。δにおけるこのような突然の落ち込み(dip)或いはピーク(peak)を無視することを許す本発明の幾つかの実施例については後に説明される。
本発明の1つの実施例においては、このステップサイズδはあるオーディオ信号のエネルギーの推定を提供するために用いられる。上で図2と図3を参照しながら説明されたように、δは、ある信号の平均振幅(従ってエネルギー)が高いときは、相対的に高くなる。このステップサイズを信号エネルギーの推定を提供するために用いることで、固定オフセットと低周波雑音の問題が克服される。
典型的には、信号振幅に従ってステップサイズを適応化するために用いられる技法は、ステップサイズを比較的低速にて、例えば数ミリ秒なる時定数にて変化させる。従って、多くの状況においては、ステップサイズを必要以上に頻繁に監視してもなんの利益も得られない。典型的には、約100Hz近傍のサンプリング速度で十分であり、これによって、良好な精度にて、重要な情報を失うことなく、ある信号の存在の検出或いはそのエネルギーの推定を行うことができる。このサンプリング速度は、既知の技法と比較しても、そして信号を符号化するための典型的なサンプリング速度(約kHz)と比較しても相対的に低いため、これに対応して計算負荷も低くなる。
図2からわかるように、音声信号は、上で説明されたようにバースト特性を有することがある。本発明の幾つかの実施例は、底辺に横たわる信号ではなく、ステップサイズを監視することで、測定された信号のバースト性を低減するが(図2と図4を参照)、音声の存在のより信頼できる指標或いは信号エネルギーのより信頼できる推定を与えるために、測定された信号をさらに平滑化する望ましいこともある。例えば、図4に示されるような、セクショAの際に発生するδの突然の落ち込みを、これは音声の終端は表さないために、除去することが望ましいこともある。これを達成するためには、好ましくは、検出されたステップサイズパラメータに関して後処理技術が施される。信号を考慮する期間をより長くすることで、より信頼性の高いエネルギー推定を達成することもできる。
一つの実施例においては、ステップサイズパラメータは、重要な情報が失われるのを回避するのに適当な速度、例えば100Hzにてサンプリングされ、その後、高周波変動が除去されるように、低域通過フィルタに送られる。音声検出の目的に対しては、その後、単一の閾値或いは代替としてヒステリシスを提供するために2つの閾値が、この低域通過フィルタの出力に加えられる。こうして、結果として得られる信号のバースト性が最小化される。
ステップサイズパラメータ信号から高周波数変動をフィルタリングするためには、線形或いは非線形低域フィルタのいずれを用いても良い。しかし、どちらかというと、非線形フィルタの方が好ましい。これは、非線形フィルタでは、相対的に高速なアタック時間と相対的に低速な減衰時間が可能となるが、他方、線形フィルタでは、信号エネルギーの増加に対する応答時間は、低減に対するそれと同一となるためである。上述のように、減衰時間の方が相対的に長いことが望ましい。
図2はアタック時間と減衰時間の長さの重要性を図解する。セクショの開始の所に示される、音声の始まりにおいては、入力及び/或いは出力デバイスの利得は、例えば、マイクロホン1bが、人がその中に話し込むのを開始したときにその音声を十分な利得にて直ちに拾い上げることができるように、迅速に適応化されることが望ましい。図2における時間期間20は、ある典型的なアタック時間を図解する。これは比較的短く、このため音声が開始されると直ちに該当するデバイスの利得はそれに従って適応化される。他方、21,22及び23は典型的な減衰時間である。これらは相対的に長く、このため(例えば26と27の所に示される)音声期間の間の沈黙の短い期間によっては、デバイス利得の適応化は引き起こされない。これら利得はその音声が28において終端したときにはじめて修正される。
こうして、この実施例のステップサイズ信号に対しては、非線形フィルタリング技法を用いるのが望ましいことがわかる。このようなフィルタの一例は以下のような特性を有する:
y(n)=α・y(n−1)+(1−α)・x’(n) (2)
z(n)=max(y(n),β・z(n−1)) (3)

ここで、X'(n)はステップサイズパラメータのn番目のサンプルであり、y(n)は中間値であり、z(n)はこの非線形フィルタのn番目の出力である。パラメータ0≦α<1はアタック定数を決定し、ここでαのより低い値はより高速なアタック時間を与える。パラメータ0≦β<1は減衰時定数を決定し、ここでβのより低い値はより高速な減衰時間を与える。もし、β=0であるときは、この減衰時間とアタック時間は等しい。
これら式(2)と(3)によって記述されるフィルタは、アタック期間の際には一次フィルタリングを提供し、減衰期間の際には二次フィルタリングを提供する。このフィルタの多くのバリエーションが適当であるが、いずれにしても、その目的は、減衰時定数よりより小さなアタック時定数を提供し、この結果として、後処理技術がそのタイプの信号の典型的な特性を考慮して施されたとき、その符号化されたオーディオ信号の存在及び/或いはそのエネルギーに関する有益な指標が高い信頼度にて得られるようにすることにある。
本発明は、ここに暗黙に或いは明示的に開示された任意の特徴或いは特徴の組み合わせ、若しくは任意のこれらの一般化を、上で説明された任意の定義の範囲に制限されることなく、含むものである。
上の説明から当業者においては本発明の範囲内で様々な修正を行うことができることは明白であろう。
典型的な双方向通信システムを示す。 ある音声信号の略表現である。 あるデルタ変調符号化された音声信号の表現である。 ステップサイズパラメータの時間に対するグラフである。

Claims (36)

  1. 通信システムにおいてオーディオ活動の存在或いは不存在を検出するための方法であって、
    オーディオ信号はデルタ変調符号化アルゴリズムによって符号化され、ステップサイズパラメータは前記符号化された信号の特性に従って適応化され、この方法は前記ステップサイズパラメータのマグニチュードに基づいて前記符号化された信号がオーディオ活動を表すか否かを決定するステップと、
    前記通信システムの動作をその決定に基づいて適応化するステップと、
    を含む方法。
  2. 前記符号化された信号は、前記ステップサイズパラメータの前記マグニチュードが第一の閾値より高いときオーディオ活動を表すものと決定される請求項1記載の方法。
  3. 前記符号化された信号は、前記ステップサイズパラメータの前記マグニチュードが前記第一の閾値より低いときオーディオ活動を表わさないものと決定される請求項2記載の方法。
  4. 前記符号化された信号は、前記ステップサイズパラメータの前記マグニチュードが前記第一の閾値よりも低い第二の閾値より低いときはオーディオ活動を表わさないものと決定される請求項2記載の方法。
  5. 前記符号化された信号を分析するステップと、前記ステップサイズパラメータを前記符号化された信号の前記分析に基づいて決定するステップと、を含む請求項1乃至4のいずれかに記載の方法。
  6. 前記ステップサイズパラメータは、決定されたステップサイズパラメータを表す出力信号を生成するためのあるサンプリング速度にてサンプリングされる請求項5記載の方法。
  7. 前記サンプリング速度は1kHzより低い請求項6記載の方法。
  8. 前記サンプリング速度は200kHzより低い請求項6又は7記載の方法。
  9. さらに、低域通過フィルタを前記出力信号に適用するステップを含む請求項6乃至8のいずれかに記載の方法。
  10. 前記低域通過フィルタは、非線形フィルタである請求項9記載の方法。
  11. 前記符号化された信号は前記オーディオ信号を送信機の所で符号化することで形成される請求項1乃至10のいずれかに記載の方法。
  12. 前記符号化された信号がオーディオ活動を表すか否かを決定するステップは、受信機の所で遂行される請求項1乃至11のいずれかに記載の方法。
  13. 前記符号化された信号がオーディオ活動を表すか否かを決定するステップは、送信機の所で遂行される請求項1乃至12のいずれかに記載の方法。
  14. 前記符号化された信号を前記符号化された信号がオーディオ活動を表すと決定されたとき送信するステップと、そうでないときは前記符号化された信号を送信しないステップと、を含む請求項13記載の方法。
  15. 前記送信機はそれによって前記オーディオ信号は検出されるマイクロホンを含み、前記方法は、さらに、前記マイクロホンによって検出されたオーディオ信号に、直前のオーディオ信号を符号化することによって形成された前記符号化された信号がオーディオ活動を表さないと決定されたときは、前記符号化された信号がオーディオ活動を表すと決定されたきときより、より低い利得を適用するステップを含む請求項13または14に記載の方法。
  16. 前記受信機はそれによって前記オーディオ信号が出力されるオーディオ出力デバイスを含み、この方法は、前記出力デバイスにパスされる信号に、前記符号化された信号がオーディオ活動を表さないと決定されたときは、前記符号化された信号がオーディオ活動を表すと決定されたときより、より低い利得を適用するステップを含む請求項12記載の方法。
  17. 前記通信システムはブルートゥースシステムである請求項1乃至16のいずれかに記載の方法。
  18. 通信システムにおいてあるオーディオ信号のエネルギーを推定するための方法であって、オーディオ信号はデルタ変調符号化アルゴリズムによって符号化され、テップサイズパラメータは前記符号化された信号の特性に従って適応化され、前記ステップサイズパラメータに基づいて前記オーディオ信号のエネルギーを推定するステップを含む方法。
  19. 通信システムにおいてオーディオ活動の存在或いは不存在を検出するための装置であって、オーディオ信号はデルタ変調符号化アルゴリズムによって符号化され、ステップサイズパラメータは前記符号化された信号の特性に従って適応化され、前記通信システムは送信機と受信機とを含み、前記ステップサイズパラメータのマグニチュードに基づいて前記符号化された信号がオーディオ活動を表すか否かを決定するための少なくとも1つの決定ユニットと、前記通信システムの動作をその決定に基づいて適応化するための適応化ユニットと、を含む装置。
  20. 前記符号化された信号は、前記ステップサイズパラメータの前記マグニチュードが第一の閾値より高いとき、オーディオ活動を表すものと決定される請求項19記載の装置。
  21. 前記符号化された信号は、前記ステップサイズパラメータの前記マグニチュードが前記第一の閾値より低いとき、オーディオ活動を表わさないものと決定される請求項20記載の装置。
  22. 前記符号化された信号は、前記ステップサイズパラメータの前記マグニチュードが前記第一の閾値よりも低い第二の閾値より低いときはオーディオ活動を表わさないものと決定される請求項20記載の装置。
  23. さらに前記オーディオ信号を分析するためと、前記ステップサイズパラメータを前記符号化された信号の前記分析に基づいて決定するための分析ユニットを含む請求項19乃至22のいずれかに記載の装置。
  24. 前記ステップサイズパラメータは、決定されたステップサイズパラメータを表す出力信号を生成するためのあるサンプリング速度にてサンプリングされる請求項23記載の装置。
  25. 前記サンプリング速度は1kHzより低い請求項24記載の装置。
  26. 前記サンプリング速度は200kHzより低い請求項24または25記載の装置。
  27. さらに、前記出力信号をフィルタリングするために構成された低域通過フィルタを含む請求項24乃至26のいずれかに記載の装置。
  28. 前記低域通過フィルタは非線形フィルタである請求項27記載の装置。
  29. 前記送信機は、前記符号化された信号を、前記オーディオ信号を符号化することで形成するように構成される、請求項19乃至28のいずれかに記載の装置。
  30. 前記少なくとも1つの決定ユニットの1つは前記受信機の所に置かれる請求項19乃至29のいずれかに記載の装置。
  31. 前記少なくとも1つの決定ユニットの1つは送信機の所に置かれる請求項19または20記載の装置。
  32. 前記送信機は、前記符号化された信号を前記決定ユニットの前記1つが前記符号化された信号がオーディオ活動を表すと決定したとき送信し、そうでないときは前記符号化された信号を送信しないように構成される請求項31記載の装置。
  33. 前記送信機はオーディオ信号を検出するように構成されたマイクロホンを含み、前記送信機は、さらに、前記マイクロホンによって検出されたオーディオ信号に、直前のオーディオ信号を符号化することによって形成された前記符号化された信号がオーディオ活動を表さないと決定されたときは、前記符号化された信号がオーディオ活動を表すと決定されたときよりも、より低い利得を適用するように構成される請求項31または32記載の装置。
  34. 前記受信機はオーディオ信号を出力するために構成されたオーディオ出力デバイスを含み、前記受信機は、前記出力デバイスにパスされた信号に、前記符号化された信号がオーディオ活動を表さないと決定されたときは、前記符号化された信号がオーディオ活動を表すと決定されたときよりも、より低い利得を適用するように構成される請求項30記載の装置。
  35. 前記通信システムはブルートゥースシステムである請求項19乃至34のいずれかに記載の装置。
  36. 通信システムにおいてあるオーディオ信号のエネルギーを推定するための装置であって、オーディオ信号はデルタ変調符号化アルゴリズムによって符号化され、ステップサイズパラメータは前記符号化された信号の特性に従って適応化され、この装置は前記ステップサイズパラメータに基づいて前記オーディオ信号のエネルギーを推定するための推定ユニットを含む装置。
JP2007518732A 2004-06-28 2005-06-24 音声活動の検出 Expired - Fee Related JP5172335B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GB0414420.0 2004-06-28
GBGB0414420.0A GB0414420D0 (en) 2004-06-28 2004-06-28 Speech activity detection
PCT/IB2005/002039 WO2006003502A1 (en) 2004-06-28 2005-06-24 Speech activity detection

Publications (2)

Publication Number Publication Date
JP2008505348A true JP2008505348A (ja) 2008-02-21
JP5172335B2 JP5172335B2 (ja) 2013-03-27

Family

ID=32800305

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2007518732A Expired - Fee Related JP5172335B2 (ja) 2004-06-28 2005-06-24 音声活動の検出

Country Status (7)

Country Link
US (1) US7672839B2 (ja)
EP (1) EP1763867B1 (ja)
JP (1) JP5172335B2 (ja)
AT (1) ATE502374T1 (ja)
DE (1) DE602005026937D1 (ja)
GB (1) GB0414420D0 (ja)
WO (1) WO2006003502A1 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103325385B (zh) * 2012-03-23 2018-01-26 杜比实验室特许公司 语音通信方法和设备、操作抖动缓冲器的方法和设备
US9496922B2 (en) 2014-04-21 2016-11-15 Sony Corporation Presentation of content on companion display device based on content presented on primary display device
CN108986837B (zh) * 2018-09-05 2021-08-17 科大讯飞股份有限公司 一种滤波器更新方法及装置
US11906642B2 (en) * 2018-09-28 2024-02-20 Silicon Laboratories Inc. Systems and methods for modifying information of audio data based on one or more radio frequency (RF) signal reception and/or transmission characteristics

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57192997A (en) * 1981-05-22 1982-11-27 Nippon Telegraph & Telephone Detection of existance of voice
JPS58132799A (ja) * 1982-02-03 1983-08-08 富士通株式会社 音声検出回路
JPS58217998A (ja) * 1982-01-27 1983-12-19 ウエスターン エレクトリック カムパニー,インコーポレーテッド スピ−チ処理システムと方法
JPS6291024A (ja) * 1985-10-16 1987-04-25 Fujitsu Ltd 符号化伝送装置
JPH08272394A (ja) * 1995-03-30 1996-10-18 Olympus Optical Co Ltd 音声符号化装置
JPH1049199A (ja) * 1996-08-02 1998-02-20 Nec Corp 無音圧縮音声符号化復号化装置

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3815033A (en) * 1970-12-02 1974-06-04 Bell Telephone Labor Inc Discrete adaptive delta modulation system
US3703688A (en) * 1971-04-07 1972-11-21 Bell Telephone Labor Inc Digital adaptive-to-linear delta modulated signal converter
US3909532A (en) * 1974-03-29 1975-09-30 Bell Telephone Labor Inc Apparatus and method for determining the beginning and the end of a speech utterance
US4411003A (en) * 1981-07-20 1983-10-18 Communication Satellite Corporation Multiple-loop adaptive delta modulator
US4449190A (en) * 1982-01-27 1984-05-15 Bell Telephone Laboratories, Incorporated Silence editing speech processor
US4811325A (en) * 1987-10-15 1989-03-07 Personics Corporation High-speed reproduction facility for audio programs
SE465144B (sv) * 1990-06-26 1991-07-29 Ericsson Ge Mobile Communicat Saett och anordning foer behandling av en analog signal
DE69116167D1 (de) * 1990-11-27 1996-02-15 Gordon M Jacobs Digitaler datenumsetzer
US5357609A (en) * 1992-03-25 1994-10-18 One Touch Systems, Inc. Site controller with echo suppression
WO1998058448A1 (en) * 1997-06-16 1998-12-23 Telefonaktiebolaget Lm Ericsson Method and apparatus for low complexity noise reduction
GB2330961B (en) * 1997-11-04 2002-04-24 Nokia Mobile Phones Ltd Automatic Gain Control
US7073113B2 (en) * 2000-07-13 2006-07-04 The Regents Of The University Of California Adaptive sigma-delta modulation with improved dynamic range
US7013117B2 (en) * 2002-03-25 2006-03-14 Broadcom Corporation Analog power detection for gain control operations

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS57192997A (en) * 1981-05-22 1982-11-27 Nippon Telegraph & Telephone Detection of existance of voice
JPS58217998A (ja) * 1982-01-27 1983-12-19 ウエスターン エレクトリック カムパニー,インコーポレーテッド スピ−チ処理システムと方法
JPS58132799A (ja) * 1982-02-03 1983-08-08 富士通株式会社 音声検出回路
JPS6291024A (ja) * 1985-10-16 1987-04-25 Fujitsu Ltd 符号化伝送装置
JPH08272394A (ja) * 1995-03-30 1996-10-18 Olympus Optical Co Ltd 音声符号化装置
JPH1049199A (ja) * 1996-08-02 1998-02-20 Nec Corp 無音圧縮音声符号化復号化装置

Also Published As

Publication number Publication date
JP5172335B2 (ja) 2013-03-27
EP1763867A1 (en) 2007-03-21
ATE502374T1 (de) 2011-04-15
DE602005026937D1 (de) 2011-04-28
EP1763867B1 (en) 2011-03-16
GB0414420D0 (en) 2004-07-28
US7672839B2 (en) 2010-03-02
WO2006003502A1 (en) 2006-01-12
US20080288247A1 (en) 2008-11-20

Similar Documents

Publication Publication Date Title
US8326620B2 (en) Robust downlink speech and noise detector
JP5326051B2 (ja) 音声コーデックを備えた補聴器および方法
US7907977B2 (en) Echo canceller with correlation using pre-whitened data values received by downlink codec
CN102804260A (zh) 声音信号处理装置以及声音信号处理方法
EP1229520A2 (en) Silence insertion descriptor (sid) frame detection with human auditory perception compensation
KR20060061259A (ko) 잔향 추정 및 억제 시스템
JP4018571B2 (ja) 音声強調装置
US20100169082A1 (en) Enhancing Receiver Intelligibility in Voice Communication Devices
JP2008543194A (ja) オーディオ信号ゲイン制御装置及び方法
EP2132734B1 (en) Method of estimating noise levels in a communication system
US8787490B2 (en) Transmitting data in a communication system
JP5172335B2 (ja) 音声活動の検出
US6993125B2 (en) Variable sidetone system for reducing amplitude induced distortion
US8587376B2 (en) Automatic gain control
KR101236817B1 (ko) 오디오 인공물들을 감소시키기 위한 방법 및 장치
JP2001507551A (ja) 改善されたオーディオ再生装置及び電話機端末
US7565283B2 (en) Method and system for controlling potentially harmful signals in a signal arranged to convey speech
EP1065653A2 (en) Apparatus for background noise level estimation and volume control of a communication apparatus
US8457215B2 (en) Apparatus and method for suppressing noise in receiver
JP2001188599A (ja) オーディオ信号復号装置
JP4398323B2 (ja) デジタル無線通信装置
US9099095B2 (en) Apparatus and method of processing a received voice signal in a mobile terminal
JP2003510643A (ja) オーディオ信号を補正する処理回路、受信機、通信システム、携帯装置、及びその方法
WO2015111415A1 (ja) 音声スイッチ及びそれを用いる通話装置、通話システム
JPH07212296A (ja) Vox制御通信装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080603

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110701

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110712

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20111005

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20111013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120803

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121102

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121127

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121226

LAPS Cancellation because of no payment of annual fees
S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350