JP4025018B2 - 音声信号の改善された音声/雑音選別のための複合信号活動検出 - Google Patents
音声信号の改善された音声/雑音選別のための複合信号活動検出 Download PDFInfo
- Publication number
- JP4025018B2 JP4025018B2 JP2000584462A JP2000584462A JP4025018B2 JP 4025018 B2 JP4025018 B2 JP 4025018B2 JP 2000584462 A JP2000584462 A JP 2000584462A JP 2000584462 A JP2000584462 A JP 2000584462A JP 4025018 B2 JP4025018 B2 JP 4025018B2
- Authority
- JP
- Japan
- Prior art keywords
- information
- signal
- noise
- audio signal
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 239000002131 composite material Substances 0.000 title description 27
- 230000000694 effects Effects 0.000 title description 12
- 238000001514 detection method Methods 0.000 title description 3
- 238000000034 method Methods 0.000 claims description 33
- 230000005236 sound signal Effects 0.000 claims description 28
- 230000005540 biological transmission Effects 0.000 claims description 12
- 238000001914 filtration Methods 0.000 claims description 9
- 238000010219 correlation analysis Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 claims description 7
- 230000004044 response Effects 0.000 claims description 5
- 230000007774 longterm Effects 0.000 claims description 4
- 238000009499 grossing Methods 0.000 claims description 3
- 206010019133 Hangover Diseases 0.000 description 18
- 230000006835 compression Effects 0.000 description 15
- 238000007906 compression Methods 0.000 description 15
- 238000004891 communication Methods 0.000 description 7
- 239000000872 buffer Substances 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 5
- 230000003044 adaptive effect Effects 0.000 description 3
- 230000015572 biosynthetic process Effects 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000003786 synthesis reaction Methods 0.000 description 2
- 102000020897 Formins Human genes 0.000 description 1
- 108091022623 Formins Proteins 0.000 description 1
- 230000006978 adaptation Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 230000008447 perception Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 238000001228 spectrum Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/012—Comfort noise or silence coding
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
- Mobile Radio Communication Systems (AREA)
Description
【発明の属する技術分野】
本願は、米国特許法第119条(e)(1)にもとづく、1998年11月23日出願の米国特許仮出願第60/109,556号に基づく優先権を主張する。
本発明は、音声信号圧縮、詳細には、音声圧縮における音声/雑音選別に関する。
【0002】
【従来の技術】
音声コーダおよび復号化器は、従来、それぞれ無線送信機および無線受信機に備えられており、無線リンクによって任意の送信機と受信機との間の音声通信を可能にするために協働する。音声コーダと音声復号化器の組合せはしばしば音声コーデックと呼ばれる。移動無線電話(例えば携帯電話)は、一般に音声コーダを有する無線送信機および音声復号化器を有する無線受信機を備える従来の通信装置の実例である。
【0003】
従来のブロックベース音声コーダにおいて、入力音声信号は、フレームと呼ばれるブロックに分割される。普通の4kHzテレフォニー帯域用の場合、典型的なフレーム長は20msまたは160サンプルである。フレームは、一般に長さ5msまたは40サンプルのサブフレームにさらに分割される。
【0004】
入力音声信号を圧縮する際、音声符号化器は従来、先進のロッシー圧縮技法を使用する。圧縮された(または符号化された)信号情報は、無線リンクといった通信チャネルによって復号化器に伝送される。復号化器はその後、圧縮信号情報から入力音声信号を再現しようと試みる。入力音声信号の一定の特性が既知であれば、通信チャネルのビットレートは可能な限り低く維持することができる。音声信号が聴取者にとって関連性のある情報を含んでいる場合、その情報は保持されなければならない。しかし、音声信号が関係ない情報(例えば暗騒音)だけを含んでいる場合は、信号に関する限定された量の情報だけを伝送することによって帯域幅を節減できる。関係ない情報だけを含んでいる多くの信号の場合、極めて低いビットレートで高品質の圧縮を行えることが多い。極端な場合、入力音声信号が再び関連性のある情報を含むと判定されるまで、通信チャネルによるいかなる情報の更新も伴わずに入力信号を復号化器において合成できることもある。
【0005】
従来、非常に低いビットレートで極めて正確に再現できる典型的な信号には、定常雑音、自動車騒音、およびある程度までのざわめきの騒音が含まれる。音楽、または音声と音楽の組合せのようなより複合的な非音声信号は、復号化器によって正確に再現されるためにより高いビットレートを必要とする。
【0006】
多くの普通の形式の暗騒音の場合、音声に必要であるよりもはるかに低いビットレートにより、信号の十分に良好なモデルが得られる。現行の移動通信システムは、このことを利用して,暗騒音の間の伝送ビットレートを下方に調整している。例えば、連続伝送技法を使用する従来のシステムでは、可変レート(VR)音声コーダはその最低ビットレートを使用することができる。
【0007】
従来の不連続伝送(DTX)方式では、話者が不活動の時に、送信機は符号化音声フレームの送信を停止する。規則的または不規則な間隔(例えば100〜500msごと)で、送信機は、復号化器におけるコンフォートノイズの従来の作成のために適切な音声パラメータを送る。コンフォートノイズ作成(CNG)のためのそれらのパラメータは、時に無音デスクリプタ(SID)フレームと呼ばれるものに従来通りに符号化される。受信機では、復号化器は、従来のコンフォートノイズ挿入(CNI)アルゴリズムによって人工的雑音を合成するためにSIDフレームで受信されたコンフォートノイズパラメータを使用する。
【0008】
従来のDTXシステムの復号化器においてコンフォートノイズが作成される場合、雑音は、非常に静的で、アクティブ(非DTX)モードで作成された暗騒音と相当異なるものとして知覚されることが多い。この知覚の理由は、DTXのSIDフレームが通常の音声フレームほどの頻度で受信機に送られないからである。DTXモードを有する従来の線形予測分析合成(LPAS)コーデックでは、暗騒音のスペクトルおよびエネルギーは一般に、数フレームについて推定され(例えば平均され)、その後、推定されたパラメータが量子化されチャンネルによってSIDフレームで復号化器に送信される。
【0009】
規則的な音声フレームを送らずに相対的に低いアップデート率でSIDフレームを送信する利点は2つある。例えば移動無線トランシーバの電池の寿命が消費電力の低下により延長し、また、送信機により生じる妨害は減少し、それによってより高いシステム容量が得られる。
【0010】
音楽のような複合信号を過度に単純な圧縮モデルで、そして対応する過度に低いビットレートを用いて圧縮した場合、復号化器において再現される信号は、より良好な(より高品質な)圧縮技法を用いて得られるはずの結果と極めて異なるであろう。過度に単純な圧縮方式の使用は、複合信号を雑音として誤って分類することによって生じ得る。そのような誤分類が生じた場合、復号化器が劣悪に再現された信号を出力するだけでなく、誤分類自体が、高品質圧縮方式から低品質圧縮方式への望ましくないスイッチをもたらす。誤分類を訂正するために、高品質圧縮方式への別のスイッチバックが必要になる。圧縮方式間のそのようなスイッチが頻繁に起こった場合、それは通常極めて可聴となり、聴取者を苛立たせるものになり得る。
【0011】
【発明が解決しようとする課題】
上述より、妥当な場合、例えば話者が沈黙している間の暗騒音を圧縮するような場合に、低ビットレート(高圧縮)を維持しつつ、主観的に関連性のある信号の誤分類を減らすことが望ましいことがわかる。それらが苛立たせるように知覚されなければ、非常に強力な圧縮技法を使用することもできる。DTXシステムに関して上述したコンフォートノイズパラメータの使用は、ランダム励振方法を使用する従来の低レート線形予測符号化(LPC)と同様、強力な圧縮技法の実例である。強い圧縮を利用するこうした符号化技法は一般に、定常的な自動車騒音、市街の騒音、レストランの騒音(ざわめき)および他の同様の信号といった知覚的に単純な雑音形式を正確に再現できるにすぎない。
【0012】
入力音声信号が関連性のある情報を含んでいるか否かを判定するための従来の選別技法は、基本的に、入力音声信号の相対的に単純な定常性分析にもとづく。入力信号が定常であると判定された場合、それは雑音状信号であるとみなされる。しかし、この従来の定常性分析だけでは、かなり定常ではあるが、実際には知覚的関連性のある情報を含む複合信号を雑音として誤分類させる可能性がある。そうした誤分類は、上述のような問題を不都合に生じる。
【0013】
従って、上述の形式の複合信号における知覚的関連性のある情報の存在を確実に検出する選別技法を提供することが望ましい。
【0014】
【課題を解決するための手段】
本発明によれば、聴取者にとって知覚的に重要な関連性のある情報を含む複合的な非音声信号を確実に検出するための複合信号の活動検出が提供される。確実に検出できる複合的な非音声信号の例には、音楽、保留中音楽、音声と音楽の組合せ、背景音楽、および他の調音または調和音が含まれる。
【0015】
【発明の実施の形態】
図1は、本発明に従った音声符号化装置の例示的実施形態の関係する部分を略示している。この音声符号化装置は、例えば、無線通信チャンネルによって音声情報を通信する無線トランシーバに設けることができる。そうした無線トランシーバの1例は、携帯電話といった移動無線電話である。
【0016】
図1において、入力音声信号は、複合信号活動検出器(CAD)に、そして音声活動検出器(VAD)へも入力される。複合信号活動検出器CADは、音声入力信号に応答し、その入力信号が、聴取者にとって知覚的関連性のある情報を含むかどうかを決定する関連性分析を実行し、信号関連性パラメータの集合をVADに供給する。VADは、入力音声信号が音声または雑音のいずれであるかを判定するために、受信音声入力信号とともにそれらの信号関連性パラメータを使用する。VADは、音声/雑音選別器として動作し、出力音声/雑音指標を供給する。CADは音声/雑音指標を入力として受信する。CADは、音声/雑音指標および入力音声信号に応答し、VADにより供給される音声/雑音指標を同じく入力として受信するハングオーバ論理回路部に出力される複合信号フラグの集合を生じる。
【0017】
ハングオーバ論理回路は、複合信号フラグおよび音声/雑音指標に応答し、通信チャネルの他方の端の受信機の復号化装置によって出力される再現音声信号を聴く聴取者にとって知覚的関連性のある情報を入力音声信号が含むか否かを指示する出力を供給する。ハングオーバ論理回路の出力は、例えば(DTXシステムにおける)DTX動作または(可変レート(VR)符号化器における)ビットレートを制御するために適切に使用され得る。入力音声信号が関連性のある情報を含まないとハングオーバ論理回路出力が指示した場合、(DTXシステムでは)コンフォートノイズを作成することができ、または、(VR符号化器では)ビットレートを低減することができる。
【0018】
入力信号(前処理できる)は、CADにおいて、特定の周波数帯の信号の相関に関する情報を各フレームごとに抽出することによって分析される。これは、最初に適切なフィルタ、例えば帯域通過フィルタまたは高域フィルタにより信号をろ波することによって行える。このフィルタは、分析において関係するエネルギーの大半を含む周波数帯を加重する。一般に、低周波領域は、例えば自動車騒音といった強い低周波成分を減じるためにフィルタ除去されなければならない。ろ波された信号はその後、開ループ長時間予測(LTP)相関分析に渡すことができる。LTP分析は、結果として、相関シフトあたり1個の値により、相関値または正規化ゲイン値のベクトルを供給する。例えば、シフト範囲は従来のLTP分析におけるように[20,147]としてよい。所要の関連性検出を得るための代替的でより単純な方法は、相関計算においてろ波していない信号を使用し、以下に詳述するように、アルゴリズム的に類似の「フィルタリング」プロセスによって相関値を修正することである。
【0019】
個々の分析フレームについて、最も大きい振幅を有する正規化相関値(ゲイン値)が選択され、バッファされる。シフト(選択された相関値のLTPラグに対応する)は使用されない。値はさらに、暗騒音推定プロセスによる使用のためにVADに送信される信号関連性パラメータのベクトルを供給するために分析される。バッファされた相関値も処理され、信号が関連性のあるものかどうか(すなわち、知覚的重要性を有するか)、およびVADの決定が信頼できるかどうかに関する最終決定を行うために使用される。VADが深刻な誤分類を犯しがちな時を、すなわち実際には知覚的関連性のある情報が存在する場合に雑音の分類を行いがちな時を指示するために、フラグVAD_fail_longおよびVAD_fail_shortの組が作成される。
【0020】
CADの関連性分析において計算される信号関連性パラメータは、VAD方式の性能を増強するために使用される。VAD方式は、信号が音声信号(恐らく環境雑音により劣化された)または雑音信号のいずれであるかを決定しようと試みる。音声+雑音の信号を雑音と区別できるように、VADは従来通り雑音の推定値を保持する。VADは、音声+雑音の信号の選別においてより良好な決定を行うために、暗騒音の自己自身の推定値を更新しなければならない。CADからの関連性パラメータは、VADの暗騒音および活動信号の推定値をどの程度まで更新するかを決定するために使用される。
【0021】
VADが信頼できると考えられる場合、ハングオーバ論理回路は、信号の関連性に関する以前の情報および以前のVADの決定を用いて信号の最終決定を調整する。ハングオーバ論理回路の出力は、信号が関連性のあるものか否かについての最終決定である。関連性のないものである場合、符号化には低ビットレートを使用できる。DTXシステムにおいて、この関連性の有無の情報は、現フレームが通常通りに符号化されるべき(関連性がある)かまたは、そのフレームが代わりにコンフォートノイズパラメータで符号化されるべきである(関連性がない)かを決定するために使用される。
【0022】
例示的な1実施形態において、CADの効率的な複雑さの低い具体化は、線形予測合成分析(LPAS)構造を使用する音声コーダにおいて得られる。音声コーダへの入力信号は従来の手段(ハイパスフィルタ処理、基準化など)によって調整される。調整された信号s(n)はその後、LPASコーダにより使用される従来の適応雑音加重フィルタによってろ波される。そして加重された音声信号sw(n)は開ループLTP分析に渡される。LTP分析は、範囲[Lmin,Lmax](ここで、例えばLmin=18、Lmax=147)における各シフトについて相関値を計算し、記憶する。範囲における各ラグ値(シフト)Lについて、ラグ値lの相関Rxx(k,l)は以下のように計算される。
【数1】
式中、Kは分析フレームの長さである。kがゼロに設定されている場合、これは以下の通り、ラグlにのみ依存する関数として記述できる。
【数2】
また、以下を定義することもできる。
【数3】
これらの手順は従来、LPASコーダにおいて適応コードブック探索の予備探索として実行されているので、いかなる余分な計算上の損失も伴わずに入手可能である。
【0023】
単一タップ予測器の最適ゲイン係数g_optは、次式においてひずみDを最小にすることによって得られる。
【数4】
最適ゲイン係数g_opt(実際には正規化相関)は、Dを最小にする式4のgの値であり、以下によって与えられる。
【数5】
式中、LはひずみD(式4)が最小にされるラグ、Exx(L)はエネルギーである。複合信号検出器は、加重信号swのハイパスフィルタ処理されたものの最適ゲイン(g_opt)を計算する。高域フィルタは例えば、フィルタ係数[h0,h1]を備える単純な一次フィルタとすることができる。1実施形態では、相関計算の前に加重信号をハイパスフィルタ処理する代わりに、簡略化した公式により、ろ波信号sw_f(n)を用いてD(式4参照)を最小にする。ハイパスフィルタ処理信号sw_f(n)は、以下によって与えられる。
【数6】
この場合、g_max(ろ波信号のg_opt)は以下として得られる。
【数7】
このようにして、パラメータg_maxは、ろ波信号sw_fについて新しいRxxを計算する代わりに、ろ波していない信号swから得られる上述の既に使用可能なRxxおよびExx値を用いて、式8に従って計算できる。
【0024】
フィルタ係数[h0,h1]を[1,−1]と選択し、ラグを正規化する分母LdenがLden=0に設定された場合、g_maxの計算は以下に還元される。
【数8】
【0025】
さらなる単純化は、式(8)の分母において(最適なL_opt、すなわち式4の最適ラグに代わり)Lden=(Lmm+1)の値を使用し、最大値LをLmax−1に、また最大値探索における最小のLmin値を(Lmin+1)に制限することによって得られる。この場合、開ループLTP分析からすでに使用可能なRxx(l)値以外、いかなる余分な相関計算も必要とされない。
【0026】
各フレームについて、最も大きい振幅を有するゲイン値g_maxが記憶される。平滑化された値g_f(i)は、g_f(i)=b0・g_max(i)−a1・g_f(i−1)に従って各フレームで得られるg_max値をろ波することによって得られる。一部の実施形態では、フィルタ係数b0およびa1が、時間変化となり得、また、状態飽和問題を避けるために状態および入力依存性となり得る。例えば、b0およびa1は、個々の時間の関数g_max(i)およびg_f(i−1)として表現できる。すなわち、b0=fb(t,g_max(i),g_f(i−1))およびa1=fa(t,g_max(i),g_f(i−1))。
【0027】
信号g_f(i)はCAD関連性分析の一次作成物である。g_f(i)の状態および履歴を分析することによって、VAD適応は援助が得られ、ハングオーバ論理回路ブロックは動作指示が提供される。
【0028】
図2は、図1の上述した複合信号活動検出器CADの例示的実施形態を例示している。前述の加重信号sw(n)を作成するために、前処理部21が入力信号を前処理する。信号sw(n)は、例えば開ループ長時間予測(LTP)相関分析器といった従来の相関分析器23に適用される。相関分析器23の出力22は、24の適応コードブック探索への入力として従来通り供給される。上述のように、従来の相関分析器23において使用されるRxxおよびExx値は、本発明に従って、g_f(i)の計算に使用されるために使用可能である。
【0029】
RxxおよびExx値は、25で、上述の通りg_max値を計算する最大正規化ゲイン計算器20に供給される。個々のフレームについて最も大きい振幅(最大振幅)g_max値が計算器20により選択され、バッファ26に記憶される。バッファされた値はその後、上述のようよ平滑化フィルタ27に適用される。平滑化フィルタ27の出力はg_f(i)である。
【0030】
信号g_f(i)はパラメータジェネレータ28に入力される。パラメータジェネレータ28は、入力信号g_f(i)に応答して、信号関連性パラメータとしてVADに供給される(図1参照)1組の出力complex_highおよびcomplex_lowを作成する。パラメータジェネレータ28はまた、カウンタ201を制御するカウンタコントローラ29に入力されるcomplex_timer出力も作成する。カウンタ201の出力complex_hang_countは、信号関連性パラメータとしてVADに供給され、また、ハングオーバ論理回路に供給される複合信号フラグである出力VAD_fail_longを有する比較器203にも入力される(図1参照)。信号g_f(i)はまた、ANDゲート207の入力に結合されている出力208を有する別の比較器205にも供給される。
【0031】
図2の複合信号活動検出器は、VADからの音声/雑音指標(図1参照)、すなわち信号sp_vad_prim(例えば、雑音の場合=0、音声の場合=1)も受信する。この信号は、出力が比較器204に結合されているバッファ202に入力される。比較器204の出力206はANDゲート207の他方の入力と結合されている。ANDゲート207の出力は、図1のハングオーバ論理回路に入力される複合信号フラグVAD_fail_shortである。
【0032】
図13は、図2の構成の例示的な代替例を図示しており、この場合、上述の式5のg_opt値は、sw(n)のハイパスフィルタ処理されたもの、すなわち高域フィルタ131からの出力sw_f(n)から相関分析器23によって計算される。各フレームの最も大きい振幅g_opt値はその後、g_maxに代わり図2の26においてバッファされる。相関分析器23はまた、図2と同様に信号sw_(n)から従来の出力22も作成する。
【0033】
図3は、図1のVADの例示的実施形態の関係する部分を図示している。図2に関して上述の通り、VADは、CADから信号関連性パラメータcomplex_high、complex_lowおよびcomplex_hang_countを受信する。complex_highおよびcomplex_lowは、各自のバッファ30および31に入力され、それらの出力はそれぞれ比較器32および33に結合されている。比較器32および33の出力は、カウンタコントローラ35にcomplex_warning信号を出力するORゲート34のそれぞれの入力に結合される。カウンタコントローラ35はcomplex_warning信号に応答してカウンタ36を制御する。
【0034】
音声入力信号は雑音推定器38の入力に結合され、また、音声/雑音決定器39の入力にも結合される。音声/雑音決定器39は、雑音推定器38から暗騒音の推定値303も従来通りに受信する。音声/雑音決定器は、入力音声信号および303の雑音推定値情報に従来通り応答し、音声/雑音指標sp_vad_primを作成し、これは図1のCADおよびハングオーバ論理回路に供給される。
【0035】
信号complex_hang_countは、出力が雑音推定器38のDOWN入力に結合されている比較器37に入力される。DOWN入力がアクティブになると、雑音推定器はその雑音推定値を下方に更新するか、またはそれを不変のままにしておくことだけが可能になり、すなわち、雑音のあらゆる新しい推定値は、以前の推定値よりも少ない雑音、または同一の雑音を指示しなければならない。他の実施形態では、DOWN入力がアクティブになることにより、雑音推定器はその推定値を上方へ更新し、より多くの雑音を指示するようにできるが、更新の速度(強さ)を著しく低減させなければならない。
【0036】
雑音推定器38はまた、カウンタ36によって作成された出力信号すなわちstat_countと結合されたDELAY入力も有する。従来のVADの雑音推定器は一般に、例えば、入力信号が非定常、ピッチドまたはトーン信号であるという指標を受信した後に、遅延期間を実施する。この遅延期間中には、雑音推定値はより高い値に更新できない。これは、雑音または音声の定常信号に隠れた非雑音信号に対する誤った応答を防止するために役立つ。遅延期間が満了すると、たとえしばらく音声が指示されていても、雑音推定器はその雑音推定値を上方へ更新することができる。これは、雑音レベルが突然増大した場合にVADアルゴリズム全体が活動指標にロックされることを防ぐ。
【0037】
DELAY入力は、本発明によればstat_countによって駆動され、信号が過度に関連性があるとみなされ雑音推定値の「迅速な」増加を可能にできないような場合、雑音推定器の前述の遅延期間に下限を設定する(すなわち、従来別様に必要とされるよりも長い遅延を要求する)。stat_count信号は、極めて高い関連性がCADによってやや長時間(例えば2秒)検出された場合、かなり長時間(例えば5秒)雑音推定値の増加を遅延し得る。1実施形態において、stat_countは、より高い関連性がCADによって指示された場合、雑音推定値の更新の速度(強さ)を低減させるために使用される。
【0038】
音声/雑音決定器39は出力301を有し、これはカウンタコントローラ35の入力と結合され、また、雑音推定器38とも結合されており、後者の結合は従来通りである。音声/雑音決定器が、音声入力信号のいずれかのフレームが例えば、ピッチド信号、トーン信号または非定常信号であると決定すると、出力301はそれをカウンタコントローラ35に指示し、後者は代わってカウンタ36の出力stat_countを所定値に設定する。出力301が定常信号を指示した場合、コントローラ35はカウンタ36を減分できる。
【0039】
図4は、図1のハングオーバ論理回路の例示的実施形態を例示している。図4において、複合信号フラグVAD_fail_shortおよびVAD_fail_longは、別のORゲート43の入力を駆動する出力を有するORゲート41に入力される。VADからの音声/雑音指標sp_vad_primは、従来のVADハングオーバ論理回路45に入力される。VADハングオーバ論理回路の出力sp_vadはORゲート43の第2の入力に結合される。複合信号フラグVAD_fail_shortまたはVAD_fail_longのどちらか一方がアクティブの場合、ORゲート41の出力はORゲート43に入力信号が関連性があることを指示させる。
【0040】
複合信号フラグのどちらもアクティブでなければ、VADハングオーバ論理回路45の音声/雑音決定すなわち信号sp_vadは、関連性の有無の指標を構成するであろう。sp_vadがアクティブであり、従って音声を指示する場合、ORゲート43の出力は信号が関連性があることを指示する。他方、sp_vadがイナクティブであり、雑音を指示した場合、ORゲート43の出力は信号が関連性がないことを指示する。ORゲート43からの関連性の有無の指標は、例えばDTXシステムのDTX制御部に、またはVRシステムのビットレート制御部に供給することができる。
【0041】
図5は、信号complex_high、complex_lowおよびcomplex_timerを作成するために図2のパラメータジェネレータ28により実行され得る例示的動作を例示している。図5(および図6〜11における)の指数iは、音声入力信号の現フレームを示す。図5に示すように、上記の信号の各々は、信号g_f(i)が各自の閾値、すなわち51〜52でのcomplex_highのTHh、54〜55でのcomplex_lowのTHlまたは57〜58でのcomplex_timerのTHtを超えていなければ、値0を有する。g_f(i)が51で閾値THhを超えた場合、complex_highは53で1に設定され、そして、g_f(i)が54で閾値THlを超えた場合、complex_lowは56で1に設定される。g_f(i)が57で閾値THtを超えた場合、complex_timerが59で1だけ増分される。図5における例示的閾値は、THh=0.6、THl=0.5およびTHt=0.7を含む。図5から、complex_timerはg_f(i)がTHtより大きい連続するフレームの数を表していることがわかる。
【0042】
図6は、図2のカウンタコントローラ29およびカウンタ201により実行され得る例示的動作を例示している。61でcomplex_timerが閾値THctを超えている場合、カウンタコントローラ29は62でカウンタ201の出力complex_hang_countを値Hに設定する。61でcomplex_timerが閾値THctを超えていないが、63で0より大きい場合、カウンタコントローラ29は64でカウンタ201の出力complex_hang_countを減分する。図6の例示的値は、THct=100(1実施形態において2秒に対応する)、およびH=250(1実施形態において5秒に対応する)を含む。
【0043】
図7は、図2の比較器203により実行され得る例示的動作を例示している。complex_hang_countが71でTHhcより大きい場合、VAD_fail_longは72で1に設定される。そうでなければ、VAD_fail_longは73で0に設定される。1実施形態において、THhc=0である。
【0044】
図8は、図2のバッファ202、比較器204および205、およびANDゲート207により実行され得る例示的動作を例示している。図8に示す通り、sp_vad_primの現在の第(i)値の直前の最後のsp_vad_primのp値が81ですべて0に等しく、また、g_f(i)が82で閾値THfsを超えている場合、VAD_fail_shortは83で1に設定される。そうでなければ、VAD_fail_shortは84で0に設定される。図8における例示的値は、THfs=0.55、およびp=10を含む。
【0045】
図9は、図3のバッファ30および31、比較器32および33、およびORゲート34により実行され得る例示的動作を例示している。complex_highの現在の第(i)値の直前の最後のcomplex_highのm値がすべて91で1に等しい場合、または、complex_lowの現在の第(i)値の直前の最後のcomplex_lowのn値がすべて92で1に等しい場合、complex_warningは93で1に設定される。そうでなければ、complex_warningは94で0に設定される。図9における例示値はm=8およびn=15を含む。
【0046】
図10は、図3のカウンタコントローラ35およびカウンタ36により実行され得る例示的動作を例示している。音声信号が100で定常であると指示された場合(図3の301参照)、stat_countは104で減分される。さらに、101でcomplex_warning=1であり、102でstat_countが値MIN未満である場合、stat_countは103でMINに設定される。100で音声信号が定常ではない場合、stat_countは105でAに設定される。MINおよびAの例示値はそれぞれ5および20であり、これらは1実施形態において、雑音推定器38(図3)の遅延値をそれぞれ100msおよび400msの下限にさせる。
【0047】
図11は、図3の比較器37および雑音推定器38により実行され得る例示的動作を例示している。complex_hang_countが111で閾値THhcを超えた場合、112で比較器37は雑音推定器38のDOWN入力をアクティブに駆動し、その結果、雑音推定器38はその雑音推定値を下方に更新する(または、それらを不変のままにしておく)ことだけが可能になる。111でcomplex_hang_countが閾値THhc1を超えていない場合、雑音推定器38のDOWN入力はイナクティブであり、従って、雑音推定器38は113でその雑音推定値の上方または下方の更新を行うことができる。1例では、THhc1=0である。
【0048】
上述のように、CADによって作成される複合信号フラグは、入力音声信号が聴取者にとって知覚的関連性のある情報を含む複合信号であるとCADが判定した場合に、VADによる「雑音」の分類を選択的に無効にできるようにする。VAD_fail_shortフラグは、所定数の連続するフレームがVADにより雑音として分類された後に、g_f(i)が所定値を超えていると判定された時に、ハングオーバ論理回路の出力に「関連性のある」の指標をトリガする。
【0049】
また、VAD_fail_longフラグは、ハングオーバ論理回路の出力に「関連性のある」の指標をトリガすることができ、所定数の連続するフレームについてg_f(i)が所定値を超えた後に、相対的に長い維持期間この指標を維持することができる。この維持期間は、g_f(i)が前述の所定値を超えているが、連続するフレームの個別のシーケンスの各々は前述の所定数より少ないフレームより構成される、連続するフレームの複数の個別のシーケンスを包含し得る。
【0050】
1実施形態において、信号関連性パラメータcomplex_hang_countは、雑音推定器38のDOWN入力を、複合信号フラグVAD_fail_longと同じ条件下でアクティブにさせることができる。信号関連性パラメータcomplex_highおよびcomplex_lowは、g_f(i)が、第1の数の連続するフレームに関する所定の閾値を超えているか、または第2の数の連続するフレームに関する所定の閾値を超えている場合、たとえ複数の連続するフレームが定常であると(音声/雑音決定器39によって)判定されても、雑音推定器38のDELAY入力が(必要に応じて)下限値まで持ち上げられ得るように動作可能である。
【0051】
図12は、図1〜11の音声符号化器の実施形態により実行され得る例示的動作を例示している。121において、現フレームについて最も大きい(最大)振幅を有する正規化ゲインが計算される。122で、ゲインは、関連性パラメータおよび複合信号フラグを作成するために分析される。123で、関連性パラメータはVADでの暗騒音推定のために使用される。124で、複合信号フラグはハングオーバ論理回路の関連性決定において使用される。125で音声信号が知覚的関連性のある情報を含んでいないと決定された場合、126で、例えばVRシステムではビットレートが低減され、または例えばDTXシステムではコンフォートノイズパラメータを符号化することができる。
【0052】
以上の説明から、図1〜13の実施形態が、従来の音声符号化装置において、ソフトウェア、ハードウェアまたは両者の適切な変更態様によって容易に実施可能であることは、当業者にとって明白であろう。
【0053】
本発明の例示的実施形態を詳細に説明したが、それは、多様な実施形態において実施し得る本発明の範囲を限定するものではない。
【図面の簡単な説明】
【図1】 本発明に従った例示的な音声符号化装置の関係する部分を略示する。
【図2】 図1の複合信号活動検出器の例示的実施形態を例示する。
【図3】 図1の音声活動検出器の例示的実施形態を例示する。
【図4】 図1のハングオーバ論理回路の例示的実施形態を例示する。
【図5】 図2のパラメータジェネレータの例示的動作を例示する。
【図6】 図2のカウンタコントローラの例示的動作を例示する。
【図7】 図2の一部の例示的動作を例示する。
【図8】 図2の別の部分の例示的動作を例示する。
【図9】 図3の一部の例示的動作を例示する。
【図10】 図3のカウンタコントローラの例示的動作を例示する。
【図11】 図3のさらに別の部分の例示的動作を例示する。
【図12】 図1から11の実施形態によって実行され得る例示的動作を例示する。
【図13】 図2の複合信号活動検出器の代替実施形態を例示する。
Claims (13)
- 音声信号の符号化に際して音声信号中において雑音情報よりも高い伝送ビットレートを必要とする非音声情報を保存する方法であって、
音声信号が、音声情報または雑音情報のいずれを含むかを示す第1の決定を行う過程と、
音声信号が、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むか否かの第2の決定を行う過程と、
前記第2の決定に応答して、雑音情報を示す前記第1の決定を選択的に無効にする過程とを有し、
前記第2の決定を行う過程において、所与の期間中に、最大振幅の正規化相関値が所定の閾値を超えるフレームの数が所定数を超える場合に、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むと決定する方法。 - 前記第2の決定を行う過程において、最大振幅の正規化相関値が所定の閾値を超えるフレームの連続する数が所定数を超える場合に、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むと決定することを特徴とする請求項1記載の方法。
- それぞれのフレームについて、音声信号の開ループ長時間予測相関分析において得られた正規化相関値を用いて計算される候補値の集合から、前記最大振幅の正規化相関値が選択されることを特徴とする請求項1記載の方法。
- それぞれのフレームについて、音声信号をハイパスフィルタ処理した後にハイパスフィルタ処理された音声信号に対して相関分析を適用することにより算出された複数の正規化相関値から、前記最大振幅の正規化相関値が選択されることを特徴とする請求項1記載の方法。
- 音声信号に含まれる雑音情報よりも高い伝送ビットレートを必要とする非音声情報を保存するために音声信号符号化器において使用する装置(10)であって、
音声信号(12)を受信し、音声信号(12)が音声情報または雑音情報のいずれを含むかを示す第1の決定を行う選別器(16)と、
音声信号(12)を受信し、音声信号(12)が雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むか否かの第2の決定を行う検出器(14)と、
前記選別器(16)および前記検出器(14)と結合され、前記第1の決定を示す情報を出力に選択的に供給するように動作可能である論理回路(18)とを有して構成され、
前記第2の決定を行う検出器(14)において、所与の期間中に、最大振幅の正規化相関値が所定の閾値を超えるフレームの数が所定数を超えて、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むと決定された場合に、前記論理回路(18)において、雑音情報を示す前記第1の決定が無効にされる装置。 - 前記第2の決定を行う検出器(14)において、最大振幅の正規化相関値が所定の閾値を超えるフレームの連続する数が所定数を超える場合に、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含むと決定されることを特徴とする請求項5記載の装置。
- それぞれのフレームについて、音声信号の開ループ長時間予測相関分析において得られた正規化相関値を用いて計算される候補値の集合から、前記最大振幅の正規化相関値が選択されることを特徴とする請求項5記載の装置。
- それぞれのフレームについて、音声信号をハイパスフィルタ処理した後にハイパスフィ ルタ処理された音声信号に対して相関分析を適用することにより算出された複数の正規化相関値から、前記最大振幅の正規化相関値が選択されることを特徴とする請求項1記載の方法。
- 複数のフレームに分割される音声信号の符号化に際して音声信号中において雑音情報よりも高い伝送ビットレートを必要とする非音声情報を保存する方法であって、
音声信号が音声情報または雑音情報のいずれを含むかを示す第1の決定を行う過程と、
それぞれのフレームについて、ハイパスフィルタ処理された音声信号についての最大正規化相関値を表す数値を検出することで数値の第1のシーケンスを作成する過程と、
該第1のシーケンスの数値に対して平滑化フィルタリング処理を適用することでそれぞれ得られる数値の第2のシーケンスを作成する過程と、
第2のシーケンスの数値を少なくとも1つの閾値と比較することで、雑音情報よりも高い伝送ビットレートを必要とする非音声情報を含む音声信号であるか否かを示す第2の決定を行う過程と、
前記第2の決定に応答して、雑音情報を示す前記第1の決定を選択的に無効にする過程とを有する方法。 - 最大正規化相関値を表す数値を検出する前記過程が、音声信号の相関分析から得られる数値を対象として実行されることを特徴とする請求項9に記載の方法。
- それぞれのフレームについて、ハイパスフィルタ処理された音声信号についての最大正規化相関値を表す数値が、音声信号の開ループ長時間予測相関分析において得られた正規化相関値を用いて計算される候補値の集合から選択されることを特徴とする請求項9に記載の方法。
- 最大正規化相関値を表す数値を検出する前記過程が、音声信号をハイパスフィルタ処理した後にハイパスフィルタ処理された音声信号に対して相関分析を適用することを含むことを特徴とする請求項9に記載の方法。
- 最大正規化相関値を表す数値を検出する前記過程において、それぞれのフレームについて、ハイパスフィルタ処理された音声信号についての最大正規化相関値を表す数値が、最大振幅の正規化相関値であることを特徴とする請求項9記載の方法。
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US10955698P | 1998-11-23 | 1998-11-23 | |
US60/109,556 | 1998-11-23 | ||
US09/434,787 | 1999-11-05 | ||
US09/434,787 US6424938B1 (en) | 1998-11-23 | 1999-11-05 | Complex signal activity detection for improved speech/noise classification of an audio signal |
PCT/SE1999/002073 WO2000031720A2 (en) | 1998-11-23 | 1999-11-12 | Complex signal activity detection for improved speech/noise classification of an audio signal |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002540441A JP2002540441A (ja) | 2002-11-26 |
JP2002540441A5 JP2002540441A5 (ja) | 2007-08-30 |
JP4025018B2 true JP4025018B2 (ja) | 2007-12-19 |
Family
ID=26807081
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2000584462A Expired - Lifetime JP4025018B2 (ja) | 1998-11-23 | 1999-11-12 | 音声信号の改善された音声/雑音選別のための複合信号活動検出 |
Country Status (15)
Country | Link |
---|---|
US (1) | US6424938B1 (ja) |
EP (1) | EP1224659B1 (ja) |
JP (1) | JP4025018B2 (ja) |
KR (1) | KR100667008B1 (ja) |
CN (2) | CN1828722B (ja) |
AR (1) | AR030386A1 (ja) |
AU (1) | AU763409B2 (ja) |
BR (1) | BR9915576B1 (ja) |
CA (1) | CA2348913C (ja) |
DE (1) | DE69925168T2 (ja) |
HK (1) | HK1097080A1 (ja) |
MY (1) | MY124630A (ja) |
RU (1) | RU2251750C2 (ja) |
WO (1) | WO2000031720A2 (ja) |
ZA (1) | ZA200103150B (ja) |
Families Citing this family (46)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7072832B1 (en) * | 1998-08-24 | 2006-07-04 | Mindspeed Technologies, Inc. | System for speech encoding having an adaptive encoding arrangement |
US6424938B1 (en) * | 1998-11-23 | 2002-07-23 | Telefonaktiebolaget L M Ericsson | Complex signal activity detection for improved speech/noise classification of an audio signal |
US6633841B1 (en) * | 1999-07-29 | 2003-10-14 | Mindspeed Technologies, Inc. | Voice activity detection speech coding to accommodate music signals |
US6694012B1 (en) * | 1999-08-30 | 2004-02-17 | Lucent Technologies Inc. | System and method to provide control of music on hold to the hold party |
US20030205124A1 (en) * | 2002-05-01 | 2003-11-06 | Foote Jonathan T. | Method and system for retrieving and sequencing music by rhythmic similarity |
US20040064314A1 (en) * | 2002-09-27 | 2004-04-01 | Aubert Nicolas De Saint | Methods and apparatus for speech end-point detection |
EP1569200A1 (en) * | 2004-02-26 | 2005-08-31 | Sony International (Europe) GmbH | Identification of the presence of speech in digital audio data |
US7983906B2 (en) * | 2005-03-24 | 2011-07-19 | Mindspeed Technologies, Inc. | Adaptive voice mode extension for a voice activity detector |
US8874437B2 (en) * | 2005-03-28 | 2014-10-28 | Tellabs Operations, Inc. | Method and apparatus for modifying an encoded signal for voice quality enhancement |
CA2612903C (en) * | 2005-06-20 | 2015-04-21 | Telecom Italia S.P.A. | Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system |
KR100785471B1 (ko) * | 2006-01-06 | 2007-12-13 | 와이더댄 주식회사 | 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의출력 품질 개선을 위한 오디오 신호의 처리 방법 및 상기방법을 채용한 오디오 신호 처리 장치 |
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
US9966085B2 (en) * | 2006-12-30 | 2018-05-08 | Google Technology Holdings LLC | Method and noise suppression circuit incorporating a plurality of noise suppression techniques |
CA2690433C (en) | 2007-06-22 | 2016-01-19 | Voiceage Corporation | Method and device for sound activity detection and sound signal classification |
EP2235924A1 (en) * | 2007-12-07 | 2010-10-06 | Agere Systems, Inc. | End user control of music on hold |
US20090154718A1 (en) * | 2007-12-14 | 2009-06-18 | Page Steven R | Method and apparatus for suppressor backfill |
DE102008009719A1 (de) * | 2008-02-19 | 2009-08-20 | Siemens Enterprise Communications Gmbh & Co. Kg | Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen |
CA2716817C (en) * | 2008-03-03 | 2014-04-22 | Lg Electronics Inc. | Method and apparatus for processing audio signal |
WO2009110751A2 (ko) * | 2008-03-04 | 2009-09-11 | Lg Electronics Inc. | 오디오 신호 처리 방법 및 장치 |
MY154452A (en) * | 2008-07-11 | 2015-06-15 | Fraunhofer Ges Forschung | An apparatus and a method for decoding an encoded audio signal |
EP2410521B1 (en) | 2008-07-11 | 2017-10-04 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Audio signal encoder, method for generating an audio signal and computer program |
KR101251045B1 (ko) * | 2009-07-28 | 2013-04-04 | 한국전자통신연구원 | 오디오 판별 장치 및 그 방법 |
JP5754899B2 (ja) * | 2009-10-07 | 2015-07-29 | ソニー株式会社 | 復号装置および方法、並びにプログラム |
CN102044243B (zh) * | 2009-10-15 | 2012-08-29 | 华为技术有限公司 | 语音激活检测方法与装置、编码器 |
AU2010308597B2 (en) * | 2009-10-19 | 2015-10-01 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and background estimator for voice activity detection |
EP2491549A4 (en) | 2009-10-19 | 2013-10-30 | Ericsson Telefon Ab L M | DETECTOR AND METHOD FOR DETECTING VOICE ACTIVITY |
US20110178800A1 (en) * | 2010-01-19 | 2011-07-21 | Lloyd Watts | Distortion Measurement for Noise Suppression System |
JP5609737B2 (ja) * | 2010-04-13 | 2014-10-22 | ソニー株式会社 | 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム |
CN102237085B (zh) * | 2010-04-26 | 2013-08-14 | 华为技术有限公司 | 音频信号的分类方法及装置 |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
ES2489472T3 (es) | 2010-12-24 | 2014-09-02 | Huawei Technologies Co., Ltd. | Método y aparato para una detección adaptativa de la actividad vocal en una señal de audio de entrada |
EP2477188A1 (en) | 2011-01-18 | 2012-07-18 | Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. | Encoding and decoding of slot positions of events in an audio signal frame |
US20140006019A1 (en) * | 2011-03-18 | 2014-01-02 | Nokia Corporation | Apparatus for audio signal processing |
CN103187065B (zh) | 2011-12-30 | 2015-12-16 | 华为技术有限公司 | 音频数据的处理方法、装置和系统 |
US9208798B2 (en) | 2012-04-09 | 2015-12-08 | Board Of Regents, The University Of Texas System | Dynamic control of voice codec data rate |
EP3301676A1 (en) | 2012-08-31 | 2018-04-04 | Telefonaktiebolaget LM Ericsson (publ) | Method and device for voice activity detection |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
KR101690899B1 (ko) | 2012-12-21 | 2016-12-28 | 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. | 오디오 신호의 불연속 전송에서 높은 스펙트럼-시간 해상도를 가진 편안한 잡음의 생성 |
CA2948015C (en) | 2012-12-21 | 2018-03-20 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschung E.V. | Comfort noise addition for modeling background noise at low bit-rates |
RU2675777C2 (ru) | 2013-06-21 | 2018-12-24 | Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. | Устройство и способ улучшенного плавного изменения сигнала в различных областях во время маскирования ошибок |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
ES2941782T3 (es) | 2013-12-19 | 2023-05-25 | Ericsson Telefon Ab L M | Estimación de ruido de fondo en señales de audio |
WO2016033364A1 (en) | 2014-08-28 | 2016-03-03 | Audience, Inc. | Multi-sourced noise suppression |
KR102299330B1 (ko) * | 2014-11-26 | 2021-09-08 | 삼성전자주식회사 | 음성 인식 방법 및 그 전자 장치 |
US10978096B2 (en) * | 2017-04-25 | 2021-04-13 | Qualcomm Incorporated | Optimized uplink operation for voice over long-term evolution (VoLte) and voice over new radio (VoNR) listen or silent periods |
CN113345446B (zh) * | 2021-06-01 | 2024-02-27 | 广州虎牙科技有限公司 | 音频处理方法、装置、电子设备和计算机可读存储介质 |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS58143394A (ja) * | 1982-02-19 | 1983-08-25 | 株式会社日立製作所 | 音声区間の検出・分類方式 |
US5276765A (en) * | 1988-03-11 | 1994-01-04 | British Telecommunications Public Limited Company | Voice activity detection |
AU671952B2 (en) * | 1991-06-11 | 1996-09-19 | Qualcomm Incorporated | Variable rate vocoder |
US5659622A (en) * | 1995-11-13 | 1997-08-19 | Motorola, Inc. | Method and apparatus for suppressing noise in a communication system |
US5930749A (en) * | 1996-02-02 | 1999-07-27 | International Business Machines Corporation | Monitoring, identification, and selection of audio signal poles with characteristic behaviors, for separation and synthesis of signal contributions |
US6570991B1 (en) * | 1996-12-18 | 2003-05-27 | Interval Research Corporation | Multi-feature speech/music discrimination system |
US6097772A (en) * | 1997-11-24 | 2000-08-01 | Ericsson Inc. | System and method for detecting speech transmissions in the presence of control signaling |
US6104992A (en) * | 1998-08-24 | 2000-08-15 | Conexant Systems, Inc. | Adaptive gain reduction to produce fixed codebook target signal |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6173257B1 (en) * | 1998-08-24 | 2001-01-09 | Conexant Systems, Inc | Completed fixed codebook for speech encoder |
US6260010B1 (en) * | 1998-08-24 | 2001-07-10 | Conexant Systems, Inc. | Speech encoder using gain normalization that combines open and closed loop gains |
US6188980B1 (en) * | 1998-08-24 | 2001-02-13 | Conexant Systems, Inc. | Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients |
US6424938B1 (en) * | 1998-11-23 | 2002-07-23 | Telefonaktiebolaget L M Ericsson | Complex signal activity detection for improved speech/noise classification of an audio signal |
-
1999
- 1999-11-05 US US09/434,787 patent/US6424938B1/en not_active Expired - Lifetime
- 1999-11-12 CN CN2006100733243A patent/CN1828722B/zh not_active Expired - Lifetime
- 1999-11-12 KR KR1020017006424A patent/KR100667008B1/ko active IP Right Grant
- 1999-11-12 RU RU2001117231/09A patent/RU2251750C2/ru active
- 1999-11-12 BR BRPI9915576-1A patent/BR9915576B1/pt active IP Right Grant
- 1999-11-12 DE DE69925168T patent/DE69925168T2/de not_active Expired - Lifetime
- 1999-11-12 CA CA002348913A patent/CA2348913C/en not_active Expired - Lifetime
- 1999-11-12 EP EP99958602A patent/EP1224659B1/en not_active Expired - Lifetime
- 1999-11-12 JP JP2000584462A patent/JP4025018B2/ja not_active Expired - Lifetime
- 1999-11-12 CN CNB998136255A patent/CN1257486C/zh not_active Expired - Lifetime
- 1999-11-12 WO PCT/SE1999/002073 patent/WO2000031720A2/en active IP Right Grant
- 1999-11-12 AU AU15938/00A patent/AU763409B2/en not_active Expired
- 1999-11-20 MY MYPI99005074A patent/MY124630A/en unknown
- 1999-11-23 AR ARP990105966A patent/AR030386A1/es active IP Right Grant
-
2001
- 2001-04-18 ZA ZA2001/03150A patent/ZA200103150B/en unknown
-
2007
- 2007-02-12 HK HK07101656.6A patent/HK1097080A1/xx not_active IP Right Cessation
Also Published As
Publication number | Publication date |
---|---|
KR100667008B1 (ko) | 2007-01-10 |
CN1828722A (zh) | 2006-09-06 |
CA2348913C (en) | 2009-09-15 |
US6424938B1 (en) | 2002-07-23 |
EP1224659A2 (en) | 2002-07-24 |
MY124630A (en) | 2006-06-30 |
ZA200103150B (en) | 2002-06-26 |
DE69925168D1 (de) | 2005-06-09 |
KR20010078401A (ko) | 2001-08-20 |
JP2002540441A (ja) | 2002-11-26 |
BR9915576A (pt) | 2001-08-14 |
CN1419687A (zh) | 2003-05-21 |
BR9915576B1 (pt) | 2013-04-16 |
CN1257486C (zh) | 2006-05-24 |
CN1828722B (zh) | 2010-05-26 |
RU2251750C2 (ru) | 2005-05-10 |
HK1097080A1 (en) | 2007-06-15 |
EP1224659B1 (en) | 2005-05-04 |
AR030386A1 (es) | 2003-08-20 |
AU1593800A (en) | 2000-06-13 |
AU763409B2 (en) | 2003-07-24 |
CA2348913A1 (en) | 2000-06-02 |
WO2000031720A2 (en) | 2000-06-02 |
WO2000031720A3 (en) | 2002-03-21 |
DE69925168T2 (de) | 2006-02-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4025018B2 (ja) | 音声信号の改善された音声/雑音選別のための複合信号活動検出 | |
JP4659216B2 (ja) | 忠実度改善のためのコンフォートノイズ変動特性に基づく音声符号化 | |
US9646621B2 (en) | Voice detector and a method for suppressing sub-bands in a voice detector | |
CN100508028C (zh) | 将释放延迟帧添加到由声码器编码的多个帧的方法和装置 | |
KR101452014B1 (ko) | 향상된 음성 액티비티 검출기 | |
CN107195313B (zh) | 用于语音活动性检测的方法和设备 | |
EP2491548A1 (en) | Method and voice activity detector for a speech encoder | |
WO2008148321A1 (fr) | Appareil de codage et de décodage et procédé de traitement du bruit de fond et dispositif de communication utilisant cet appareil | |
JP2002237785A (ja) | 人間の聴覚補償によりsidフレームを検出する方法 | |
JPH09152894A (ja) | 有音無音判別器 | |
US6424942B1 (en) | Methods and arrangements in a telecommunications system | |
CN102903364B (zh) | 一种进行语音自适应非连续传输的方法及装置 | |
JP2010520503A (ja) | 通信ネットワークにおける方法及び装置 | |
RU2237296C2 (ru) | Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения | |
JPH10341211A (ja) | 音声符号化方法および装置 | |
JPH07334195A (ja) | サブフレーム長可変音声符号化装置 | |
JPH07202794A (ja) | Vox制御通信装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20040709 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20070116 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20070411 |
|
A602 | Written permission of extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A602 Effective date: 20070425 |
|
A524 | Written submission of copy of amendment under article 19 pct |
Free format text: JAPANESE INTERMEDIATE CODE: A524 Effective date: 20070713 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20070904 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20071004 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4025018 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20101012 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20111012 Year of fee payment: 4 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121012 Year of fee payment: 5 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131012 Year of fee payment: 6 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
EXPY | Cancellation because of completion of term |