JP2002540441A - 音声信号の改善された音声/雑音選別のための複合信号活動検出 - Google Patents

音声信号の改善された音声/雑音選別のための複合信号活動検出

Info

Publication number
JP2002540441A
JP2002540441A JP2000584462A JP2000584462A JP2002540441A JP 2002540441 A JP2002540441 A JP 2002540441A JP 2000584462 A JP2000584462 A JP 2000584462A JP 2000584462 A JP2000584462 A JP 2000584462A JP 2002540441 A JP2002540441 A JP 2002540441A
Authority
JP
Japan
Prior art keywords
speech
signal
noise
audio signal
value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2000584462A
Other languages
English (en)
Other versions
JP2002540441A5 (ja
JP4025018B2 (ja
Inventor
ジョナス スヴェドベリ,
エリック エクデン,
アンデルス ウヴリデン,
インゲマール ヨハンソン,
Original Assignee
テレフォンアクチーボラゲット エル エム エリクソン(パブル)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=26807081&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=JP2002540441(A) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by テレフォンアクチーボラゲット エル エム エリクソン(パブル) filed Critical テレフォンアクチーボラゲット エル エム エリクソン(パブル)
Publication of JP2002540441A publication Critical patent/JP2002540441A/ja
Publication of JP2002540441A5 publication Critical patent/JP2002540441A5/ja
Application granted granted Critical
Publication of JP4025018B2 publication Critical patent/JP4025018B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

(57)【要約】 【解決手段】知覚的関連性のある非音声情報を、音声信号が当該情報を含むか否かを判定することによって音声信号の符号化において保存することができる(122,124,125)。含む場合には、音声信号の音声/雑音選別は無効にされ(43)、雑音としての誤分類を防止する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】
本願は、米国特許法第119条(e)(1)にもとづく、1998年11月2
3日出願の米国特許仮出願第60/109,556号に基づく優先権を主張する
。 本発明は、音声信号圧縮、詳細には、音声圧縮における音声/雑音選別に関す
る。
【0002】
【従来の技術】
音声コーダおよび復号化器は、従来、それぞれ無線送信機および無線受信機に
備えられており、無線リンクによって任意の送信機と受信機との間の音声通信を
可能にするために協働する。音声コーダと音声復号化器の組合せはしばしば音声
コーデックと呼ばれる。移動無線電話(例えば携帯電話)は、一般に音声コーダ
を有する無線送信機および音声復号化器を有する無線受信機を備える従来の通信
装置の実例である。
【0003】 従来のブロックベース音声コーダにおいて、入力音声信号は、フレームと呼ば
れるブロックに分割される。普通の4kHzテレフォニー帯域用の場合、典型的
なフレーム長は20msまたは160サンプルである。フレームは、一般に長さ
5msまたは40サンプルのサブフレームにさらに分割される。
【0004】 入力音声信号を圧縮する際、音声符号化器は従来、先進のロッシー圧縮技法を
使用する。圧縮された(または符号化された)信号情報は、無線リンクといった
通信チャネルによって復号化器に伝送される。復号化器はその後、圧縮信号情報
から入力音声信号を再現しようと試みる。入力音声信号の一定の特性が既知であ
れば、通信チャネルのビットレートは可能な限り低く維持することができる。音
声信号が聴取者にとって関連性のある情報を含んでいる場合、その情報は保持さ
れなければならない。しかし、音声信号が関係ない情報(例えば暗騒音)だけを
含んでいる場合は、信号に関する限定された量の情報だけを伝送することによっ
て帯域幅を節減できる。関係ない情報だけを含んでいる多くの信号の場合、極め
て低いビットレートで高品質の圧縮を行えることが多い。極端な場合、入力音声
信号が再び関連性のある情報を含むと判定されるまで、通信チャネルによるいか
なる情報の更新も伴わずに入力信号を復号化器において合成できることもある。
【0005】 従来、非常に低いビットレートで極めて正確に再現できる典型的な信号には、
定常雑音、自動車騒音、およびある程度までのざわめきの騒音が含まれる。音楽
、または音声と音楽の組合せのようなより複合的な非音声信号は、復号化器によ
って正確に再現されるためにより高いビットレートを必要とする。
【0006】 多くの普通の形式の暗騒音の場合、音声に必要であるよりもはるかに低いビッ
トレートにより、信号の十分に良好なモデルが得られる。現行の移動通信システ
ムは、このことを利用して,暗騒音の間の伝送ビットレートを下方に調整してい
る。例えば、連続伝送技法を使用する従来のシステムでは、可変レート(VR)
音声コーダはその最低ビットレートを使用することができる。
【0007】 従来の不連続伝送(DTX)方式では、話者が不活動の時に、送信機は符号化
音声フレームの送信を停止する。規則的または不規則な間隔(例えば100〜5
00msごと)で、送信機は、復号化器におけるコンフォートノイズの従来の作
成のために適切な音声パラメータを送る。コンフォートノイズ作成(CNG)の
ためのそれらのパラメータは、時に無音デスクリプタ(SID)フレームと呼ば
れるものに従来通りに符号化される。受信機では、復号化器は、従来のコンフォ
ートノイズ挿入(CNI)アルゴリズムによって人工的雑音を合成するためにS
IDフレームで受信されたコンフォートノイズパラメータを使用する。
【0008】 従来のDTXシステムの復号化器においてコンフォートノイズが作成される場
合、雑音は、非常に静的で、アクティブ(非DTX)モードで作成された暗騒音
と相当異なるものとして知覚されることが多い。この知覚の理由は、DTXのS
IDフレームが通常の音声フレームほどの頻度で受信機に送られないからである
。DTXモードを有する従来の線形予測分析合成(LPAS)コーデックでは、
暗騒音のスペクトルおよびエネルギーは一般に、数フレームについて推定され(
例えば平均され)、その後、推定されたパラメータが量子化されチャンネルによ
ってSIDフレームで復号化器に送信される。
【0009】 規則的な音声フレームを送らずに相対的に低いアップデート率でSIDフレー
ムを送信する利点は2つある。例えば移動無線トランシーバの電池の寿命が消費
電力の低下により延長し、また、送信機により生じる妨害は減少し、それによっ
てより高いシステム容量が得られる。
【0010】 音楽のような複合信号を過度に単純な圧縮モデルで、そし
て対応する過度に低いビットレートを用いて圧縮した場合、復号化器において再
現される信号は、より良好な(より高品質な)圧縮技法を用いて得られるはずの
結果と極めて異なるであろう。過度に単純な圧縮方式の使用は、複合信号を雑音
として誤って分類することによって生じ得る。そのような誤分類が生じた場合、
復号化器が劣悪に再現された信号を出力するだけでなく、誤分類自体が、高品質
圧縮方式から低品質圧縮方式への望ましくないスイッチをもたらす。誤分類を訂
正するために、高品質圧縮方式への別のスイッチバックが必要になる。圧縮方式
間のそのようなスイッチが頻繁に起こった場合、それは通常極めて可聴となり、
聴取者を苛立たせるものになり得る。
【0011】
【発明が解決しようとする課題】
上述より、妥当な場合、例えば話者が沈黙している間の暗騒音を圧縮するよう
な場合に、低ビットレート(高圧縮)を維持しつつ、主観的に関連性のある信号
の誤分類を減らすことが望ましいことがわかる。それらが苛立たせるように知覚
されなければ、非常に強力な圧縮技法を使用することもできる。DTXシステム
に関して上述したコンフォートノイズパラメータの使用は、ランダム励振方法を
使用する従来の低レート線形予測符号化(LPC)と同様、強力な圧縮技法の実
例である。強い圧縮を利用するこうした符号化技法は一般に、定常的な自動車騒
音、市街の騒音、レストランの騒音(ざわめき)および他の同様の信号といった
知覚的に単純な雑音形式を正確に再現できるにすぎない。
【0012】 入力音声信号が関連性のある情報を含んでいるか否かを判定するための従来の
選別技法は、基本的に、入力音声信号の相対的に単純な定常性分析にもとづく。
入力信号が定常であると判定された場合、それは雑音状信号であるとみなされる
。しかし、この従来の定常性分析だけでは、かなり定常ではあるが、実際には知
覚的関連性のある情報を含む複合信号を雑音として誤分類させる可能性がある。
そうした誤分類は、上述のような問題を不都合に生じる。
【0013】 従って、上述の形式の複合信号における知覚的関連性のある情報の存在を確実
に検出する選別技法を提供することが望ましい。
【0014】
【課題を解決するための手段】
本発明によれば、聴取者にとって知覚的に重要な関連性のある情報を含む複合
的な非音声信号を確実に検出するための複合信号の活動検出が提供される。確実
に検出できる複合的な非音声信号の例には、音楽、保留中音楽、音声と音楽の組
合せ、背景音楽、および他の調音または調和音が含まれる。
【0015】
【発明の実施の形態】
図1は、本発明に従った音声符号化装置の例示的実施形態の関係する部分を略
示している。この音声符号化装置は、例えば、無線通信チャンネルによって音声
情報を通信する無線トランシーバに設けることができる。そうした無線トランシ
ーバの1例は、携帯電話といった移動無線電話である。
【0016】 図1において、入力音声信号は、複合信号活動検出器(CAD)に、そして音
声活動検出器(VAD)へも入力される。複合信号活動検出器CADは、音声入
力信号に応答し、その入力信号が、聴取者にとって知覚的関連性のある情報を含
むかどうかを決定する関連性分析を実行し、信号関連性パラメータの集合をVA
Dに供給する。VADは、入力音声信号が音声または雑音のいずれであるかを判
定するために、受信音声入力信号とともにそれらの信号関連性パラメータを使用
する。VADは、音声/雑音選別器として動作し、出力音声/雑音指標を供給す
る。CADは音声/雑音指標を入力として受信する。CADは、音声/雑音指標
および入力音声信号に応答し、VADにより供給される音声/雑音指標を同じく
入力として受信するハングオーバ論理回路部に出力される複合信号フラグの集合
を生じる。
【0017】 ハングオーバ論理回路は、複合信号フラグおよび音声/雑音指標に応答し、通
信チャネルの他方の端の受信機の復号化装置によって出力される再現音声信号を
聴く聴取者にとって知覚的関連性のある情報を入力音声信号が含むか否かを指示
する出力を供給する。ハングオーバ論理回路の出力は、例えば(DTXシステム
における)DTX動作または(可変レート(VR)符号化器における)ビットレ
ートを制御するために適切に使用され得る。入力音声信号が関連性のある情報を
含まないとハングオーバ論理回路出力が指示した場合、(DTXシステムでは)
コンフォートノイズを作成することができ、または、(VR符号化器では)ビッ
トレートを低減することができる。
【0018】 入力信号(前処理できる)は、CADにおいて、特定の周波数帯の信号の相関
に関する情報を各フレームごとに抽出することによって分析される。これは、最
初に適切なフィルタ、例えば帯域通過フィルタまたは高域フィルタにより信号を
ろ波することによって行える。このフィルタは、分析において関係するエネルギ
ーの大半を含む周波数帯を加重する。一般に、低周波領域は、例えば自動車騒音
といった強い低周波成分を減じるためにフィルタ除去されなければならない。ろ
波された信号はその後、開ループ長時間予測(LTP)相関分析に渡すことがで
きる。LTP分析は、結果として、相関シフトあたり1個の値により、相関値ま
たは正規化ゲイン値のベクトルを供給する。例えば、シフト範囲は従来のLTP
分析におけるように[20,147]としてよい。所要の関連性検出を得るため
の代替的でより単純な方法は、相関計算においてろ波していない信号を使用し、
以下に詳述するように、アルゴリズム的に類似の「フィルタリング」プロセスに
よって相関値を修正することである。
【0019】 個々の分析フレームについて、最も大きい振幅を有する正規化相関値(ゲイン
値)が選択され、バッファされる。シフト(選択された相関値のLTPラグに対
応する)は使用されない。値はさらに、暗騒音推定プロセスによる使用のために
VADに送信される信号関連性パラメータのベクトルを供給するために分析され
る。バッファされた相関値も処理され、信号が関連性のあるものかどうか(すな
わち、知覚的重要性を有するか)、およびVADの決定が信頼できるかどうかに
関する最終決定を行うために使用される。VADが深刻な誤分類を犯しがちな時
を、すなわち実際には知覚的関連性のある情報が存在する場合に雑音の分類を行
いがちな時を指示するために、フラグVAD_fail_longおよびVAD
_fail_shortの組が作成される。
【0020】 CADの関連性分析において計算される信号関連性パラメータは、VAD方式
の性能を増強するために使用される。VAD方式は、信号が音声信号(恐らく環
境雑音により劣化された)または雑音信号のいずれであるかを決定しようと試み
る。音声+雑音の信号を雑音と区別できるように、VADは従来通り雑音の推定
値を保持する。VADは、音声+雑音の信号の選別においてより良好な決定を行
うために、暗騒音の自己自身の推定値を更新しなければならない。CADからの
関連性パラメータは、VADの暗騒音および活動信号の推定値をどの程度まで更
新するかを決定するために使用される。
【0021】 VADが信頼できると考えられる場合、ハングオーバ論理回路は、信号の関連
性に関する以前の情報および以前のVADの決定を用いて信号の最終決定を調整
する。ハングオーバ論理回路の出力は、信号が関連性のあるものか否かについて
の最終決定である。関連性のないものである場合、符号化には低ビットレートを
使用できる。DTXシステムにおいて、この関連性の有無の情報は、現フレーム
が通常通りに符号化されるべき(関連性がある)かまたは、そのフレームが代わ
りにコンフォートノイズパラメータで符号化されるべきである(関連性がない)
かを決定するために使用される。
【0022】 例示的な1実施形態において、CADの効率的な複雑さの低い具体化は、線形
予測合成分析(LPAS)構造を使用する音声コーダにおいて得られる。音声コ
ーダへの入力信号は従来の手段(ハイパスフィルタ処理、基準化など)によって
調整される。調整された信号s(n)はその後、LPASコーダにより使用され
る従来の適応雑音加重フィルタによってろ波される。そして加重された音声信号
sw(n)は開ループLTP分析に渡される。LTP分析は、範囲[Lmin,
Lmax](ここで、例えばLmin=18、Lmax=147)における各シ
フトについて相関値を計算し、記憶する。範囲における各ラグ値(シフト)Lに
ついて、ラグ値lの相関Rxx(k,l)は以下のように計算される。
【数1】 式中、Kは分析フレームの長さである。kがゼロに設定されている場合、これは
以下の通り、ラグlにのみ依存する関数として記述できる。
【数2】 また、以下を定義することもできる。
【数3】 これらの手順は従来、LPASコーダにおいて適応コードブック探索の予備探索
として実行されているので、いかなる余分な計算上の損失も伴わずに入手可能で
ある。
【0023】 単一タップ予測器の最適ゲイン係数g_optは、次式においてひずみDを最
小にすることによって得られる。
【数4】 最適ゲイン係数g_opt(実際には正規化相関)は、Dを最小にする式4のg
の値であり、以下によって与えられる。
【数5】 式中、LはひずみD(式4)が最小にされるラグ、Exx(L)はエネルギーで
ある。複合信号検出器は、加重信号swのハイパスフィルタ処理されたものの最
適ゲイン(g_opt)を計算する。高域フィルタは例えば、フィルタ係数[h
0,h1]を備える単純な一次フィルタとすることができる。1実施形態では、
相関計算の前に加重信号をハイパスフィルタ処理する代わりに、簡略化した公式
により、ろ波信号sw_f(n)を用いてD(式4参照)を最小にする。ハイパ
スフィルタ処理信号sw_f(n)は、以下によって与えられる。
【数6】 この場合、g_max(ろ波信号のg_opt)は以下として得られる。
【数7】 このようにして、パラメータg_maxは、ろ波信号sw_fについて新しいR
xxを計算する代わりに、ろ波していない信号swから得られる上述の既に使用
可能なRxxおよびExx値を用いて、式8に従って計算できる。
【0024】 フィルタ係数[h0,h1]を[1,−1]と選択し、ラグを正規化する分母
LdenがLden=0に設定された場合、g_maxの計算は以下に還元され
る。
【数8】
【0025】 さらなる単純化は、式(8)の分母において(最適なL_opt、すなわち式
4の最適ラグに代わり)Lden=(Lmm+1)の値を使用し、最大値LをL
max−1に、また最大値探索における最小のLmin値を(Lmin+1)に
制限することによって得られる。この場合、開ループLTP分析からすでに使用
可能なRxx(l)値以外、いかなる余分な相関計算も必要とされない。
【0026】 各フレームについて、最も大きい振幅を有するゲイン値g_maxが記憶され
る。平滑化された値g_f(i)は、g_f(i)=b0・g_max(i)−
a1・g_f(i−1)に従って各フレームで得られるg_max値をろ波する
ことによって得られる。一部の実施形態では、フィルタ係数b0およびa1が、
時間変化となり得、また、状態飽和問題を避けるために状態および入力依存性と
なり得る。例えば、b0およびa1は、個々の時間の関数g_max(i)およ
びg_f(i−1)として表現できる。すなわち、b0=f(t,g_max
(i),g_f(i−1))およびa1=f(t,g_max(i),g_f
(i−1))。
【0027】 信号g_f(i)はCAD関連性分析の一次作成物である。g_f(i)の状
態および履歴を分析することによって、VAD適応は援助が得られ、ハングオー
バ論理回路ブロックは動作指示が提供される。
【0028】 図2は、図1の上述した複合信号活動検出器CADの例示的実施形態を例示し
ている。前述の加重信号sw(n)を作成するために、前処理部21が入力信号
を前処理する。信号sw(n)は、例えば開ループ長時間予測(LTP)相関分
析器といった従来の相関分析器23に適用される。相関分析器23の出力22は
、24の適応コードブック探索への入力として従来通り供給される。上述のよう
に、従来の相関分析器23において使用されるRxxおよびExx値は、本発明
に従って、g_f(i)の計算に使用されるために使用可能である。
【0029】 RxxおよびExx値は、25で、上述の通りg_max値を計算する最大正
規化ゲイン計算器20に供給される。個々のフレームについて最も大きい振幅(
最大振幅)g_max値が計算器20により選択され、バッファ26に記憶され
る。バッファされた値はその後、上述のようよ平滑化フィルタ27に適用される
。平滑化フィルタ27の出力はg_f(i)である。
【0030】 信号g_f(i)はパラメータジェネレータ28に入力される。パラメータジ
ェネレータ28は、入力信号g_f(i)に応答して、信号関連性パラメータと
してVADに供給される(図1参照)1組の出力complex_highおよ
びcomplex_lowを作成する。パラメータジェネレータ28はまた、カ
ウンタ201を制御するカウンタコントローラ29に入力されるcomplex
_timer出力も作成する。カウンタ201の出力complex_hang
_countは、信号関連性パラメータとしてVADに供給され、また、ハング
オーバ論理回路に供給される複合信号フラグである出力VAD_fail_lo
ngを有する比較器203にも入力される(図1参照)。信号g_f(i)はま
た、ANDゲート207の入力に結合されている出力208を有する別の比較器
205にも供給される。
【0031】 図2の複合信号活動検出器は、VADからの音声/雑音指標(図1参照)、す
なわち信号sp_vad_prim(例えば、雑音の場合=0、音声の場合=1
)も受信する。この信号は、出力が比較器204に結合されているバッファ20
2に入力される。比較器204の出力206はANDゲート207の他方の入力
と結合されている。ANDゲート207の出力は、図1のハングオーバ論理回路
に入力される複合信号フラグVAD_fail_shortである。
【0032】 図13は、図2の構成の例示的な代替例を図示しており、この場合、上述の式
5のg_opt値は、sw(n)のハイパスフィルタ処理されたもの、すなわち
高域フィルタ131からの出力sw_f(n)から相関分析器23によって計算
される。各フレームの最も大きい振幅g_opt値はその後、g_maxに代わ
り図2の26においてバッファされる。相関分析器23はまた、図2と同様に信
号sw_(n)から従来の出力22も作成する。
【0033】 図3は、図1のVADの例示的実施形態の関係する部分を図示している。図2
に関して上述の通り、VADは、CADから信号関連性パラメータcomple
x_high、complex_lowおよびcomplex_hang_co
untを受信する。complex_highおよびcomplex_lowは
、各自のバッファ30および31に入力され、それらの出力はそれぞれ比較器3
2および33に結合されている。比較器32および33の出力は、カウンタコン
トローラ35にcomplex_warning信号を出力するORゲート34
のそれぞれの入力に結合される。カウンタコントローラ35はcomplex_
warning信号に応答してカウンタ36を制御する。
【0034】 音声入力信号は雑音推定器38の入力に結合され、また、音声/雑音決定器3
9の入力にも結合される。音声/雑音決定器39は、雑音推定器38から暗騒音
の推定値303も従来通りに受信する。音声/雑音決定器は、入力音声信号およ
び303の雑音推定値情報に従来通り応答し、音声/雑音指標sp_vad_p
rimを作成し、これは図1のCADおよびハングオーバ論理回路に供給される
【0035】 信号complex_hang_countは、出力が雑音推定器38のDO
WN入力に結合されている比較器37に入力される。DOWN入力がアクティブ
になると、雑音推定器はその雑音推定値を下方に更新するか、またはそれを不変
のままにしておくことだけが可能になり、すなわち、雑音のあらゆる新しい推定
値は、以前の推定値よりも少ない雑音、または同一の雑音を指示しなければなら
ない。他の実施形態では、DOWN入力がアクティブになることにより、雑音推
定器はその推定値を上方へ更新し、より多くの雑音を指示するようにできるが、
更新の速度(強さ)を著しく低減させなければならない。
【0036】 雑音推定器38はまた、カウンタ36によって作成された出力信号すなわちs
tat_countと結合されたDELAY入力も有する。従来のVADの雑音
推定器は一般に、例えば、入力信号が非定常、ピッチドまたはトーン信号である
という指標を受信した後に、遅延期間を実施する。この遅延期間中には、雑音推
定値はより高い値に更新できない。これは、雑音または音声の定常信号に隠れた
非雑音信号に対する誤った応答を防止するために役立つ。遅延期間が満了すると
、たとえしばらく音声が指示されていても、雑音推定器はその雑音推定値を上方
へ更新することができる。これは、雑音レベルが突然増大した場合にVADアル
ゴリズム全体が活動指標にロックされることを防ぐ。
【0037】 DELAY入力は、本発明によればstat_countによって駆動され、
信号が過度に関連性があるとみなされ雑音推定値の「迅速な」増加を可能にでき
ないような場合、雑音推定器の前述の遅延期間に下限を設定する(すなわち、従
来別様に必要とされるよりも長い遅延を要求する)。stat_count信号
は、極めて高い関連性がCADによってやや長時間(例えば2秒)検出された場
合、かなり長時間(例えば5秒)雑音推定値の増加を遅延し得る。1実施形態に
おいて、stat_countは、より高い関連性がCADによって指示された
場合、雑音推定値の更新の速度(強さ)を低減させるために使用される。
【0038】 音声/雑音決定器39は出力301を有し、これはカウンタコントローラ35
の入力と結合され、また、雑音推定器38とも結合されており、後者の結合は従
来通りである。音声/雑音決定器が、音声入力信号のいずれかのフレームが例え
ば、ピッチド信号、トーン信号または非定常信号であると決定すると、出力30
1はそれをカウンタコントローラ35に指示し、後者は代わってカウンタ36の
出力stat_countを所定値に設定する。出力301が定常信号を指示し
た場合、コントローラ35はカウンタ36を減分できる。
【0039】 図4は、図1のハングオーバ論理回路の例示的実施形態を例示している。図4
において、複合信号フラグVAD_fail_shortおよびVAD_fai
l_longは、別のORゲート43の入力を駆動する出力を有するORゲート
41に入力される。VADからの音声/雑音指標sp_vad_primは、従
来のVADハングオーバ論理回路45に入力される。VADハングオーバ論理回
路の出力sp_vadはORゲート43の第2の入力に結合される。複合信号フ
ラグVAD_fail_shortまたはVAD_fail_longのどちら
か一方がアクティブの場合、ORゲート41の出力はORゲート43に入力信号
が関連性があることを指示させる。
【0040】 複合信号フラグのどちらもアクティブでなければ、VADハングオーバ論理回
路45の音声/雑音決定すなわち信号sp_vadは、関連性の有無の指標を構
成するであろう。sp_vadがアクティブであり、従って音声を指示する場合
、ORゲート43の出力は信号が関連性があることを指示する。他方、sp_v
adがイナクティブであり、雑音を指示した場合、ORゲート43の出力は信号
が関連性がないことを指示する。ORゲート43からの関連性の有無の指標は、
例えばDTXシステムのDTX制御部に、またはVRシステムのビットレート制
御部に供給することができる。
【0041】 図5は、信号complex_high、complex_lowおよびco
mplex_timerを作成するために図2のパラメータジェネレータ28に
より実行され得る例示的動作を例示している。図5(および図6〜11における
)の指数iは、音声入力信号の現フレームを示す。図5に示すように、上記の信
号の各々は、信号g_f(i)が各自の閾値、すなわち51〜52でのcomp
lex_highのTH、54〜55でのcomplex_lowのTH
たは57〜58でのcomplex_timerのTHを超えていなければ、
値0を有する。g_f(i)が51で閾値THを超えた場合、complex
_highは53で1に設定され、そして、g_f(i)が54で閾値TH
超えた場合、complex_lowは56で1に設定される。g_f(i)が
57で閾値THを超えた場合、complex_timerが59で1だけ増
分される。図5における例示的閾値は、TH=0.6、TH=0.5および
TH=0.7を含む。図5から、complex_timerはg_f(i)
がTHより大きい連続するフレームの数を表していることがわかる。
【0042】 図6は、図2のカウンタコントローラ29およびカウンタ201により実行さ
れ得る例示的動作を例示している。61でcomplex_timerが閾値T
ctを超えている場合、カウンタコントローラ29は62でカウンタ201の
出力complex_hang_countを値Hに設定する。61でcomp
lex_timerが閾値THctを超えていないが、63で0より大きい場合
、カウンタコントローラ29は64でカウンタ201の出力complex_h
ang_countを減分する。図6の例示的値は、THct=100(1実施
形態において2秒に対応する)、およびH=250(1実施形態において5秒に
対応する)を含む。
【0043】 図7は、図2の比較器203により実行され得る例示的動作を例示している。
complex_hang_countが71でTHhcより大きい場合、VA
D_fail_longは72で1に設定される。そうでなければ、VAD_f
ail_longは73で0に設定される。1実施形態において、THhc=0
である。
【0044】 図8は、図2のバッファ202、比較器204および205、およびANDゲ
ート207により実行され得る例示的動作を例示している。図8に示す通り、s
p_vad_primの現在の第(i)値の直前の最後のsp_vad_pri
mのp値が81ですべて0に等しく、また、g_f(i)が82で閾値THfs を超えている場合、VAD_fail_shortは83で1に設定される。そ
うでなければ、VAD_fail_shortは84で0に設定される。図8に
おける例示的値は、THfs=0.55、およびp=10を含む。
【0045】 図9は、図3のバッファ30および31、比較器32および33、およびOR
ゲート34により実行され得る例示的動作を例示している。complex_h
ighの現在の第(i)値の直前の最後のcomplex_highのm値がす
べて91で1に等しい場合、または、complex_lowの現在の第(i)
値の直前の最後のcomplex_lowのn値がすべて92で1に等しい場合
、complex_warningは93で1に設定される。そうでなければ、
complex_warningは94で0に設定される。図9における例示値
はm=8およびn=15を含む。
【0046】 図10は、図3のカウンタコントローラ35およびカウンタ36により実行さ
れ得る例示的動作を例示している。音声信号が100で定常であると指示された
場合(図3の301参照)、stat_countは104で減分される。さら
に、101でcomplex_warning=1であり、102でstat_
countが値MIN未満である場合、stat_countは103でMIN
に設定される。100で音声信号が定常ではない場合、stat_countは
105でAに設定される。MINおよびAの例示値はそれぞれ5および20であ
り、これらは1実施形態において、雑音推定器38(図3)の遅延値をそれぞれ
100msおよび400msの下限にさせる。
【0047】 図11は、図3の比較器37および雑音推定器38により実行され得る例示的
動作を例示している。complex_hang_countが111で閾値T
hcを超えた場合、112で比較器37は雑音推定器38のDOWN入力をア
クティブに駆動し、その結果、雑音推定器38はその雑音推定値を下方に更新す
る(または、それらを不変のままにしておく)ことだけが可能になる。111で
complex_hang_countが閾値THhc1を超えていない場合、
雑音推定器38のDOWN入力はイナクティブであり、従って、雑音推定器38
は113でその雑音推定値の上方または下方の更新を行うことができる。1例で
は、THhc1=0である。
【0048】 上述のように、CADによって作成される複合信号フラグは、入力音声信号が
聴取者にとって知覚的関連性のある情報を含む複合信号であるとCADが判定し
た場合に、VADによる「雑音」の分類を選択的に無効にできるようにする。V
AD_fail_shortフラグは、所定数の連続するフレームがVADによ
り雑音として分類された後に、g_f(i)が所定値を超えていると判定された
時に、ハングオーバ論理回路の出力に「関連性のある」の指標をトリガする。
【0049】 また、VAD_fail_longフラグは、ハングオーバ論理回路の出力に
「関連性のある」の指標をトリガすることができ、所定数の連続するフレームに
ついてg_f(i)が所定値を超えた後に、相対的に長い維持期間この指標を維
持することができる。この維持期間は、g_f(i)が前述の所定値を超えてい
るが、連続するフレームの個別のシーケンスの各々は前述の所定数より少ないフ
レームより構成される、連続するフレームの複数の個別のシーケンスを包含し得
る。
【0050】 1実施形態において、信号関連性パラメータcomplex_hang_co
untは、雑音推定器38のDOWN入力を、複合信号フラグVAD_fail
_longと同じ条件下でアクティブにさせることができる。信号関連性パラメ
ータcomplex_highおよびcomplex_lowは、g_f(i)
が、第1の数の連続するフレームに関する所定の閾値を超えているか、または第
2の数の連続するフレームに関する所定の閾値を超えている場合、たとえ複数の
連続するフレームが定常であると(音声/雑音決定器39によって)判定されて
も、雑音推定器38のDELAY入力が(必要に応じて)下限値まで持ち上げら
れ得るように動作可能である。
【0051】 図12は、図1〜11の音声符号化器の実施形態により実行され得る例示的動
作を例示している。121において、現フレームについて最も大きい(最大)振
幅を有する正規化ゲインが計算される。122で、ゲインは、関連性パラメータ
および複合信号フラグを作成するために分析される。123で、関連性パラメー
タはVADでの暗騒音推定のために使用される。124で、複合信号フラグはハ
ングオーバ論理回路の関連性決定において使用される。125で音声信号が知覚
的関連性のある情報を含んでいないと決定された場合、126で、例えばVRシ
ステムではビットレートが低減され、または例えばDTXシステムではコンフォ
ートノイズパラメータを符号化することができる。
【0052】 以上の説明から、図1〜13の実施形態が、従来の音声符号化装置において、
ソフトウェア、ハードウェアまたは両者の適切な変更態様によって容易に実施可
能であることは、当業者にとって明白であろう。
【0053】 本発明の例示的実施形態を詳細に説明したが、それは、多様な実施形態におい
て実施し得る本発明の範囲を限定するものではない。
【図面の簡単な説明】
【図1】 本発明に従った例示的な音声符号化装置の関係する部分を略示す
る。
【図2】 図1の複合信号活動検出器の例示的実施形態を例示する。
【図3】 図1の音声活動検出器の例示的実施形態を例示する。
【図4】 図1のハングオーバ論理回路の例示的実施形態を例示する。
【図5】 図2のパラメータジェネレータの例示的動作を例示する。
【図6】 図2のカウンタコントローラの例示的動作を例示する。
【図7】 図2の一部の例示的動作を例示する。
【図8】 図2の別の部分の例示的動作を例示する。
【図9】 図3の一部の例示的動作を例示する。
【図10】 図3のカウンタコントローラの例示的動作を例示する。
【図11】 図3のさらに別の部分の例示的動作を例示する。
【図12】 図1から11の実施形態によって実行され得る例示的動作を例
示する。
【図13】 図2の複合信号活動検出器の代替実施形態を例示する。
【手続補正書】特許協力条約第34条補正の翻訳文提出書
【提出日】平成13年3月2日(2001.3.2)
【手続補正1】
【補正対象書類名】明細書
【補正対象項目名】特許請求の範囲
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【手続補正2】
【補正対象書類名】図面
【補正対象項目名】図1
【補正方法】変更
【補正の内容】
【図1】
───────────────────────────────────────────────────── フロントページの続き (81)指定国 EP(AT,BE,CH,CY, DE,DK,ES,FI,FR,GB,GR,IE,I T,LU,MC,NL,PT,SE),OA(BF,BJ ,CF,CG,CI,CM,GA,GN,GW,ML, MR,NE,SN,TD,TG),AP(GH,GM,K E,LS,MW,SD,SL,SZ,TZ,UG,ZW ),EA(AM,AZ,BY,KG,KZ,MD,RU, TJ,TM),AE,AL,AM,AT,AU,AZ, BA,BB,BG,BR,BY,CA,CH,CN,C R,CU,CZ,DE,DK,DM,EE,ES,FI ,GB,GD,GE,GH,GM,HR,HU,ID, IL,IN,IS,JP,KE,KG,KP,KR,K Z,LC,LK,LR,LS,LT,LU,LV,MA ,MD,MG,MK,MN,MW,MX,NO,NZ, PL,PT,RO,RU,SD,SE,SG,SI,S K,SL,TJ,TM,TR,TT,TZ,UA,UG ,UZ,VN,YU,ZA,ZW (72)発明者 ウヴリデン, アンデルス スウェーデン国 エス−977 53 ルレオ, フォルスカーヴェーゲン 27 (72)発明者 ヨハンソン, インゲマール スウェーデン国 エス−976 32 ルレオ, レグンヴェーゲン 89 Fターム(参考) 5D045 DA02

Claims (20)

    【特許請求の範囲】
  1. 【請求項1】 音声信号の符号化に際して音声信号中の知覚的関連性のある
    非音声情報を保存する方法であって、 音声信号が、音声または雑音情報を含むと考えられるか否かの第1の決定を行
    う過程と、 音声信号が、聴取者にとって知覚的関連性のある非音声情報を含むか否かの第
    2の決定を行う過程と、 前記第2の決定に応答して前記第1の決定を選択的に無効にする過程とを含む
    方法。
  2. 【請求項2】 前記第2の決定を行う過程が、所定値を、音声信号が分割さ
    れる個々のフレームに関係する相関値と比較することを含む、請求項1記載の方
    法。
  3. 【請求項3】 前記選択的に無効にする過程が、所定値を超える相関値に応
    答して前記第1の決定を無効にすることを含む、請求項2記載の方法。
  4. 【請求項4】 前記選択的に無効にする過程が、所与の期間において所定数
    の相関値が所定値を超えることに応答して無効にすることを含む、請求項2記載
    の方法。
  5. 【請求項5】 前記選択的に無効にする過程が、所定数の連続する相関値が
    所定値を超えることに応答して無効にすることを含む、請求項4記載の方法。
  6. 【請求項6】 前記各フレームについて、音声信号のハイパスフィルタ処理
    されたもののうちで最も高い正規化相関値を求めることを含み、前記最も高い正
    規化相関値は前記最初に記載した相関値にそれぞれ対応するものである、請求項
    2記載の方法。
  7. 【請求項7】 前記求める過程が、フレームの各々について、最も大きい振
    幅の正規化相関値を求めることを含む、請求項6記載の方法。
  8. 【請求項8】 前記選択的に無効にする過程が、知覚的関連性のある非音声
    情報に関する第2の決定に応答して雑音の第1の決定を無効にすることを含む、
    請求項1記載の方法。
  9. 【請求項9】 音声信号における知覚的関連性のある情報を保存する方法で
    あって、 音声信号が分割される複数のフレームの各々について、音声信号のハイパスフ
    ィルタ処理されたもののうちで最も高い正規化相関値を求める過程と、 前記正規化相関値の第1のシーケンスを作成する過程と、 第1のシーケンスの正規化相関値をそれぞれ表現するために代表値の第2のシ
    ーケンスを決定する過程と、 音声信号が知覚的関連性のある情報を含んでいるか否かの指標を得るために、
    代表値を閾値と比較する過程とよりなる方法。
  10. 【請求項10】 前記求める過程が、音声信号のハイパスフィルタ処理され
    たものを作成することなく相関分析を音声信号に適用することを含む、請求項9
    記載の方法。
  11. 【請求項11】 前記求める過程が、音声信号をハイパスフィルタ処理した
    後、ハイパスフィルタ処理された音声信号に相関分析を適用することを含む、請
    求項9記載の方法。
  12. 【請求項12】 前記求める過程が、フレームの各々について、最も大きい
    振幅の正規化相関値を求めることを含む、請求項9記載の方法。
  13. 【請求項13】 音声信号に含まれる知覚的に相対的非音声情報を保存する
    ために音声信号符号化器において使用する装置であって、 音声信号を受信し、音声信号が音声または雑音情報を含むと考えられるか否か
    の第1の決定を行う選別器と、 音声信号を受信し、音声信号が聴取者にとって知覚的関連性のある非音声情報
    を含むか否かの第2の決定を行う検出器と、 前記選別器および前記検出器と結合された論理回路であり、前記論理回路は音
    声信号が知覚的関連性のある情報を含むか否かを指示するための出力を備えてお
    り、前記論理回路は前記第1の決定を指示する情報を前記出力に選択的に供給す
    るように動作可能であるとともに、前記第1の決定を指示する情報を前記出力に
    おいて選択的に無効にするために前記第2の決定に応答するものである、前記論
    理回路とよりなる装置。
  14. 【請求項14】 前記検出器が、所定値を、音声信号が分割される個々のフ
    レームに関係する相関値と比較するように動作可能である、請求項13記載の装
    置。
  15. 【請求項15】 前記論理回路が、所定値を超える相関値に応答して前記第
    1の決定を指示する前記情報を無効にするように動作可能である、請求項14記
    載の装置。
  16. 【請求項16】 前記論理回路が、所与の期間において所定数の相関値が所
    定値を超えることに応答して無効にするように動作可能である、請求項14記載
    の装置。
  17. 【請求項17】 前記論理回路が、時間的に連続するフレームに関係する所
    定数の連続する相関値が所定値を超えることに応答して前記第1の決定を指示す
    る前記情報を無効にするように動作可能である、請求項16記載の装置。
  18. 【請求項18】 前記検出器が、前記各フレーム内で、音声信号のハイパス
    フィルタ処理されたもののうちで最も高い正規化相関値を求めるように動作可能
    であり、前記最も高い正規化相関値は前記初述の相関値にそれぞれ対応するもの
    である、請求項14記載の装置。
  19. 【請求項19】 前記最も高い正規化相関値の各々が、関係するフレーム内
    の最も大きい振幅の正規化相関値を表現している請求項18記載の装置。
  20. 【請求項20】 前記論理回路が、知覚的関連性のある非音声情報を指示す
    る前記第2の決定に応答して、雑音の決定を指示する情報を無効にするように動
    作可能である、請求項13記載の装置。
JP2000584462A 1998-11-23 1999-11-12 音声信号の改善された音声/雑音選別のための複合信号活動検出 Expired - Lifetime JP4025018B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US10955698P 1998-11-23 1998-11-23
US60/109,556 1998-11-23
US09/434,787 US6424938B1 (en) 1998-11-23 1999-11-05 Complex signal activity detection for improved speech/noise classification of an audio signal
US09/434,787 1999-11-05
PCT/SE1999/002073 WO2000031720A2 (en) 1998-11-23 1999-11-12 Complex signal activity detection for improved speech/noise classification of an audio signal

Publications (3)

Publication Number Publication Date
JP2002540441A true JP2002540441A (ja) 2002-11-26
JP2002540441A5 JP2002540441A5 (ja) 2007-08-30
JP4025018B2 JP4025018B2 (ja) 2007-12-19

Family

ID=26807081

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2000584462A Expired - Lifetime JP4025018B2 (ja) 1998-11-23 1999-11-12 音声信号の改善された音声/雑音選別のための複合信号活動検出

Country Status (15)

Country Link
US (1) US6424938B1 (ja)
EP (1) EP1224659B1 (ja)
JP (1) JP4025018B2 (ja)
KR (1) KR100667008B1 (ja)
CN (2) CN1828722B (ja)
AR (1) AR030386A1 (ja)
AU (1) AU763409B2 (ja)
BR (1) BR9915576B1 (ja)
CA (1) CA2348913C (ja)
DE (1) DE69925168T2 (ja)
HK (1) HK1097080A1 (ja)
MY (1) MY124630A (ja)
RU (1) RU2251750C2 (ja)
WO (1) WO2000031720A2 (ja)
ZA (1) ZA200103150B (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508744A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声区間検出器及び方法

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7072832B1 (en) 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal
US6633841B1 (en) * 1999-07-29 2003-10-14 Mindspeed Technologies, Inc. Voice activity detection speech coding to accommodate music signals
US6694012B1 (en) * 1999-08-30 2004-02-17 Lucent Technologies Inc. System and method to provide control of music on hold to the hold party
US20030205124A1 (en) * 2002-05-01 2003-11-06 Foote Jonathan T. Method and system for retrieving and sequencing music by rhythmic similarity
US20040064314A1 (en) * 2002-09-27 2004-04-01 Aubert Nicolas De Saint Methods and apparatus for speech end-point detection
EP1569200A1 (en) * 2004-02-26 2005-08-31 Sony International (Europe) GmbH Identification of the presence of speech in digital audio data
US7983906B2 (en) * 2005-03-24 2011-07-19 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
US8874437B2 (en) * 2005-03-28 2014-10-28 Tellabs Operations, Inc. Method and apparatus for modifying an encoded signal for voice quality enhancement
WO2006136179A1 (en) * 2005-06-20 2006-12-28 Telecom Italia S.P.A. Method and apparatus for transmitting speech data to a remote device in a distributed speech recognition system
KR100785471B1 (ko) * 2006-01-06 2007-12-13 와이더댄 주식회사 통신망을 통해 가입자 단말기로 전송되는 오디오 신호의출력 품질 개선을 위한 오디오 신호의 처리 방법 및 상기방법을 채용한 오디오 신호 처리 장치
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
US9966085B2 (en) * 2006-12-30 2018-05-08 Google Technology Holdings LLC Method and noise suppression circuit incorporating a plurality of noise suppression techniques
ES2533358T3 (es) 2007-06-22 2015-04-09 Voiceage Corporation Procedimiento y dispositivo para estimar la tonalidad de una señal de sonido
CN101889432B (zh) * 2007-12-07 2013-12-11 艾格瑞系统有限公司 处于保持时的音乐的终端用户控制
US20090154718A1 (en) * 2007-12-14 2009-06-18 Page Steven R Method and apparatus for suppressor backfill
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
AU2009220321B2 (en) * 2008-03-03 2011-09-22 Intellectual Discovery Co., Ltd. Method and apparatus for processing audio signal
EP2259254B1 (en) * 2008-03-04 2014-04-30 LG Electronics Inc. Method and apparatus for processing an audio signal
MY154452A (en) 2008-07-11 2015-06-15 Fraunhofer Ges Forschung An apparatus and a method for decoding an encoded audio signal
CN102150201B (zh) 2008-07-11 2013-04-17 弗劳恩霍夫应用研究促进协会 提供时间扭曲激活信号以及使用该时间扭曲激活信号对音频信号编码
KR101251045B1 (ko) * 2009-07-28 2013-04-04 한국전자통신연구원 오디오 판별 장치 및 그 방법
JP5754899B2 (ja) * 2009-10-07 2015-07-29 ソニー株式会社 復号装置および方法、並びにプログラム
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
JP5712220B2 (ja) 2009-10-19 2015-05-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声活動検出のための方法および背景推定器
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
JP5609737B2 (ja) * 2010-04-13 2014-10-22 ソニー株式会社 信号処理装置および方法、符号化装置および方法、復号装置および方法、並びにプログラム
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
EP3726530B1 (en) 2010-12-24 2024-05-22 Huawei Technologies Co., Ltd. Method and apparatus for adaptively detecting a voice activity in an input audio signal
EP2477188A1 (en) 2011-01-18 2012-07-18 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Encoding and decoding of slot positions of events in an audio signal frame
WO2012127278A1 (en) * 2011-03-18 2012-09-27 Nokia Corporation Apparatus for audio signal processing
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US9208798B2 (en) 2012-04-09 2015-12-08 Board Of Regents, The University Of Texas System Dynamic control of voice codec data rate
JP6127143B2 (ja) * 2012-08-31 2017-05-10 テレフオンアクチーボラゲット エルエム エリクソン(パブル) 音声アクティビティ検出のための方法及び装置
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
CN111145767B (zh) 2012-12-21 2023-07-25 弗劳恩霍夫应用研究促进协会 解码器及用于产生和处理编码频比特流的系统
BR112015014212B1 (pt) 2012-12-21 2021-10-19 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Geração de um ruído de conforto com alta resolução espectro-temporal em transmissão descontínua de sinais de audio
KR101788484B1 (ko) 2013-06-21 2017-10-19 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. Tcx ltp를 이용하여 붕괴되거나 붕괴되지 않은 수신된 프레임들의 재구성을 갖는 오디오 디코딩
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
BR112016014104B1 (pt) 2013-12-19 2020-12-29 Telefonaktiebolaget Lm Ericsson (Publ) método de estimativa de ruído de fundo, estimador de ruído de fundo, detector de atividade de som, codec, dispositivo sem fio, nó de rede, meio de armazenamento legível por computador
CN106797512B (zh) 2014-08-28 2019-10-25 美商楼氏电子有限公司 多源噪声抑制的方法、系统和非瞬时计算机可读存储介质
KR102299330B1 (ko) * 2014-11-26 2021-09-08 삼성전자주식회사 음성 인식 방법 및 그 전자 장치
US10978096B2 (en) * 2017-04-25 2021-04-13 Qualcomm Incorporated Optimized uplink operation for voice over long-term evolution (VoLte) and voice over new radio (VoNR) listen or silent periods
CN113345446B (zh) * 2021-06-01 2024-02-27 广州虎牙科技有限公司 音频处理方法、装置、电子设备和计算机可读存储介质

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS58143394A (ja) * 1982-02-19 1983-08-25 株式会社日立製作所 音声区間の検出・分類方式
US5276765A (en) * 1988-03-11 1994-01-04 British Telecommunications Public Limited Company Voice activity detection
BR9206143A (pt) * 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US5659622A (en) * 1995-11-13 1997-08-19 Motorola, Inc. Method and apparatus for suppressing noise in a communication system
US5930749A (en) * 1996-02-02 1999-07-27 International Business Machines Corporation Monitoring, identification, and selection of audio signal poles with characteristic behaviors, for separation and synthesis of signal contributions
US6570991B1 (en) * 1996-12-18 2003-05-27 Interval Research Corporation Multi-feature speech/music discrimination system
US6097772A (en) * 1997-11-24 2000-08-01 Ericsson Inc. System and method for detecting speech transmissions in the presence of control signaling
US6173257B1 (en) * 1998-08-24 2001-01-09 Conexant Systems, Inc Completed fixed codebook for speech encoder
US6240386B1 (en) * 1998-08-24 2001-05-29 Conexant Systems, Inc. Speech codec employing noise classification for noise compensation
US6104992A (en) * 1998-08-24 2000-08-15 Conexant Systems, Inc. Adaptive gain reduction to produce fixed codebook target signal
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
US6260010B1 (en) * 1998-08-24 2001-07-10 Conexant Systems, Inc. Speech encoder using gain normalization that combines open and closed loop gains
US6424938B1 (en) * 1998-11-23 2002-07-23 Telefonaktiebolaget L M Ericsson Complex signal activity detection for improved speech/noise classification of an audio signal

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013508744A (ja) * 2009-10-19 2013-03-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声区間検出器及び方法
US9773511B2 (en) 2009-10-19 2017-09-26 Telefonaktiebolaget Lm Ericsson (Publ) Detector and method for voice activity detection
US9990938B2 (en) 2009-10-19 2018-06-05 Telefonaktiebolaget Lm Ericsson (Publ) Detector and method for voice activity detection
US11361784B2 (en) 2009-10-19 2022-06-14 Telefonaktiebolaget Lm Ericsson (Publ) Detector and method for voice activity detection

Also Published As

Publication number Publication date
EP1224659B1 (en) 2005-05-04
WO2000031720A2 (en) 2000-06-02
BR9915576B1 (pt) 2013-04-16
EP1224659A2 (en) 2002-07-24
DE69925168D1 (de) 2005-06-09
US6424938B1 (en) 2002-07-23
HK1097080A1 (en) 2007-06-15
CA2348913C (en) 2009-09-15
KR20010078401A (ko) 2001-08-20
CN1828722A (zh) 2006-09-06
CN1419687A (zh) 2003-05-21
CA2348913A1 (en) 2000-06-02
KR100667008B1 (ko) 2007-01-10
RU2251750C2 (ru) 2005-05-10
AR030386A1 (es) 2003-08-20
MY124630A (en) 2006-06-30
DE69925168T2 (de) 2006-02-16
ZA200103150B (en) 2002-06-26
JP4025018B2 (ja) 2007-12-19
WO2000031720A3 (en) 2002-03-21
AU1593800A (en) 2000-06-13
CN1257486C (zh) 2006-05-24
CN1828722B (zh) 2010-05-26
AU763409B2 (en) 2003-07-24
BR9915576A (pt) 2001-08-14

Similar Documents

Publication Publication Date Title
JP4025018B2 (ja) 音声信号の改善された音声/雑音選別のための複合信号活動検出
JP4659216B2 (ja) 忠実度改善のためのコンフォートノイズ変動特性に基づく音声符号化
KR101452014B1 (ko) 향상된 음성 액티비티 검출기
KR100455225B1 (ko) 보코더에 의해 인코드되는 다수의 프레임들에 잔존 프레임들을 추가하는 방법 및 장치
US6615169B1 (en) High frequency enhancement layer coding in wideband speech codec
JP3996848B2 (ja) 音声通信中に快適ノイズを発生するための方法およびシステム
US20150187364A1 (en) Voice detector and a method for suppressing sub-bands in a voice detector
JP4438127B2 (ja) 音声符号化装置及び方法、音声復号装置及び方法、並びに記録媒体
EP1312075B1 (en) Method for noise robust classification in speech coding
JPH09152894A (ja) 有音無音判別器
US6424942B1 (en) Methods and arrangements in a telecommunications system
US20100106490A1 (en) Method and Speech Encoder with Length Adjustment of DTX Hangover Period
JP2002524760A (ja) スピーチコーディングのための適用基準
JP4309060B2 (ja) 背景雑音の再生成を伴う音声符号化
RU2237296C2 (ru) Кодирование речи с функцией изменения комфортного шума для повышения точности воспроизведения
JP2541484B2 (ja) 音声符号化装置
TW479221B (en) Complex signal activity detection for improved speech/noise classification of an audio signal
JP4230550B2 (ja) 音声符号化方法及び装置、並びに音声復号化方法及び装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20040709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20070116

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20070411

A602 Written permission of extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A602

Effective date: 20070425

A524 Written submission of copy of amendment under article 19 pct

Free format text: JAPANESE INTERMEDIATE CODE: A524

Effective date: 20070713

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20070904

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20071004

R150 Certificate of patent or registration of utility model

Ref document number: 4025018

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20101012

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111012

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121012

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131012

Year of fee payment: 6

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term