ES2548010T3 - Procedimiento y dispositivo para suavizar ruido de fondo estacionario - Google Patents
Procedimiento y dispositivo para suavizar ruido de fondo estacionario Download PDFInfo
- Publication number
- ES2548010T3 ES2548010T3 ES08712799.9T ES08712799T ES2548010T3 ES 2548010 T3 ES2548010 T3 ES 2548010T3 ES 08712799 T ES08712799 T ES 08712799T ES 2548010 T3 ES2548010 T3 ES 2548010T3
- Authority
- ES
- Spain
- Prior art keywords
- signal
- lpc parameters
- excitation signal
- background noise
- smoothing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000009499 grossing Methods 0.000 title abstract description 10
- 238000000034 method Methods 0.000 title abstract description 4
- 230000005284 excitation Effects 0.000 abstract description 21
- 230000015572 biosynthetic process Effects 0.000 abstract description 3
- 238000003786 synthesis reaction Methods 0.000 abstract description 3
- 230000003595 spectral effect Effects 0.000 abstract description 2
- 230000002194 synthesizing effect Effects 0.000 abstract 1
- 230000004048 modification Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 230000007704 transition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/26—Pre-filtering or post-filtering
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Un procedimiento para suavizar ruido de fondo en una sesión de voz de telecomunicaciones, que comprende recibir y descodificar (S10) una señal representativa de una sesión de voz, comprendiendo dicha señal tanto un componente de voz como un componente de ruido de fondo; determinar (S20) parámetros LPC para dicha señal recibida; determinar (S30) una señal de excitación para dicha señal recibida; modificar (S35) dicha señal de excitación determinada reduciendo las fluctuaciones de potencia y espectrales de la señal de excitación; sintetizar y emitir (S40) una señal de salida en base a dichos parámetros LPC y a dicha señal de excitación, caracterizado por: modificar (S25) dicho conjunto determinado de parámetros LPC proporcionando un conjunto filtrado en paso bajo de parámetros LPC, y determinar una combinación ponderada de dicho conjunto filtrado en paso bajo y dicho conjunto determinado de parámetros LPC, y llevar a cabo dicha etapa de síntesis y emisión en base a dicho conjunto modificado de parámetros LPC, para proporcionar una señal de salida suavizada.
Description
5
10
15
20
25
30
35
40
45
E08712799
22-09-2015
que la señal e' tiene una potencia menor que la señal de excitación e. Este efecto, a su vez, puede provocar discontinuidades no deseables en la señal de salida sintetizada en las transiciones entre inactividad y voz activa. Para resolver este problema se ha considerado que e y r sean generalmente secuencias aleatorias estadísticamente independientes. Por consiguiente, la potencia de la señal de excitación modificada depende del factor α y de las potencias de la señal de excitación e y de la señal de ruido r, como sigue:
Por lo tanto, para asegurar que la señal de excitación modificada tiene una potencia adecuada, ésta tiene que ser escalada adicionalmente mediante un factor γ:
Con la hipótesis simplificada (ignorando el suavizado de potencia de la señal de ruido que se ha descrito anteriormente) de que la potencia de la señal de ruido y la potencia deseada de la señal de excitación modificada son idénticas a la potencia de la señal de excitación P{e}, se encuentra que el factor γ se tiene que escoger como sigue:
Una aproximación adecuada es escalar solamente la señal de excitación con un factor γ pero no la señal de ruido:
La operación de mezcla de ruido descrita se realiza preferentemente una vez para cada trama, pero podría asimismo realizarse una vez para cada subtrama.
En el curso de minuciosas investigaciones, se ha encontrado que es preferible que la compensación de inclinación (blanqueado) descrita y la modificación del ruido descrita de la señal de excitación se realicen en combinación. En ese caso, la mejor calidad de la señal de ruido de fondo sintetizada se puede conseguir cuando la modificación del ruido trabaja con la señal de excitación compensada en inclinación en lugar de con la señal de excitación original del descodificador de voz.
Para hacer el trabajo del procedimiento de manera aún más óptima puede ser necesario garantizar que ni el suavizado de los parámetros LPC ni las modificaciones de la excitación afecten a la señal de voz activa. De acuerdo con una realización básica y haciendo referencia a la figura 4, esto es posible si la operación de suavizado se activa en respuesta a una VAD que indica inactividad de voz S50.
Otra realización preferida de la invención es su aplicación en un códec de voz escalable. Se puede conseguir un rendimiento global mejorado adicionalmente mediante las etapas de adaptar la operación de suavizado descrita del ruido de fondo estacionario a la tasa de bits a la que se descodifica la señal. Preferentemente, el suavizado se realiza solamente en la descodificación de las capas inferiores de tasa reducida mientras que se desconecta (o se reduce) cuando se descodifica a tasas de bits superiores. La razón es que las capas superiores no acusan normalmente tanta turbulencia y una operación de suavizado podría incluso afectar a la fidelidad con la que el descodificador resintetiza la señal de voz a una tasa de bits superior.
Haciendo referencia a la figura 5, se describirá un dispositivo 1 en un descodificador que habilita el procedimiento según la presente invención.
El dispositivo 1 comprende una unidad general de entrada/salida E/S 10 para recibir señales de entrada y transmitir señales de salida desde el dispositivo. La unidad comprende preferentemente cualquier funcionalidad necesaria para recibir y descodificar señales para el dispositivo. Además, el dispositivo 1 comprende una unidad 20 de parámetros LPC para descodificar y determinar parámetros LPC para la señal recibida y descodificada, y una unidad de excitación 30 para descodificar y determinar una señal de excitación para la señal de entrada recibida. Además, el dispositivo 1 comprende una unidad de modificación 35 para modificar la señal de excitación determinada reduciendo las fluctuaciones de potencia y espectrales de la señal de excitación. Finalmente, el dispositivo 1 comprende un filtro o unidad de síntesis LPC 40 para proporcionar una señal de salida de voz sintetizada suavizada en base, por lo menos, a los parámetros LPC determinados y a la señal de excitación determinada modificada.
De acuerdo con otra realización, también haciendo referencia a la figura 5, el dispositivo comprende una unidad de suavizado 25 para suavizar los parámetros LPC determinados procedentes de la unidad 20 de parámetros LPC. Además, la unidad 40 de síntesis de LPC está adaptada para determinar la señal de voz sintetizada en base, por lo menos, a los parámetros LPC suavizados y a la señal de excitación modificada.
8
Claims (1)
-
imagen1 imagen2
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US89299407P | 2007-03-05 | 2007-03-05 | |
US892994P | 2007-03-05 | ||
PCT/SE2008/050169 WO2008108719A1 (en) | 2007-03-05 | 2008-02-13 | Method and arrangement for smoothing of stationary background noise |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2548010T3 true ES2548010T3 (es) | 2015-10-13 |
Family
ID=39738501
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES08712799.9T Active ES2548010T3 (es) | 2007-03-05 | 2008-02-13 | Procedimiento y dispositivo para suavizar ruido de fondo estacionario |
ES15175006T Active ES2778076T3 (es) | 2007-03-05 | 2008-02-13 | Método y disposición para suavizar ruido estacionario de fondo |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES15175006T Active ES2778076T3 (es) | 2007-03-05 | 2008-02-13 | Método y disposición para suavizar ruido estacionario de fondo |
Country Status (10)
Country | Link |
---|---|
US (1) | US8457953B2 (es) |
EP (3) | EP3629328A1 (es) |
JP (1) | JP5340965B2 (es) |
KR (1) | KR101462293B1 (es) |
CN (1) | CN101632119B (es) |
AU (1) | AU2008221657B2 (es) |
ES (2) | ES2548010T3 (es) |
PL (2) | PL2132731T3 (es) |
PT (1) | PT2945158T (es) |
WO (1) | WO2008108719A1 (es) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8386266B2 (en) | 2010-07-01 | 2013-02-26 | Polycom, Inc. | Full-band scalable audio codec |
EP2502155A4 (en) | 2010-11-12 | 2013-12-04 | Polycom Inc | HIERARCHICAL AUDIO CODING IN A MULTIPOINT ENVIRONMENT |
SI2774145T1 (sl) * | 2011-11-03 | 2020-10-30 | Voiceage Evs Llc | Izboljšane negovorne vsebine v celp dekoderju z nizko frekvenco |
CN110010141B (zh) * | 2013-02-22 | 2023-12-26 | 瑞典爱立信有限公司 | 用于音频编码中的dtx拖尾的方法和装置 |
CN104517611B (zh) | 2013-09-26 | 2016-05-25 | 华为技术有限公司 | 一种高频激励信号预测方法及装置 |
US9697843B2 (en) * | 2014-04-30 | 2017-07-04 | Qualcomm Incorporated | High band excitation signal generation |
CN106486129B (zh) | 2014-06-27 | 2019-10-25 | 华为技术有限公司 | 一种音频编码方法和装置 |
CN106531175B (zh) * | 2016-11-13 | 2019-09-03 | 南京汉隆科技有限公司 | 一种网络话机柔和噪声产生的方法 |
KR102198598B1 (ko) * | 2019-01-11 | 2021-01-05 | 네이버 주식회사 | 합성 음성 신호 생성 방법, 뉴럴 보코더 및 뉴럴 보코더의 훈련 방법 |
Family Cites Families (35)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4667340A (en) * | 1983-04-13 | 1987-05-19 | Texas Instruments Incorporated | Voice messaging system with pitch-congruent baseband coding |
US5233660A (en) * | 1991-09-10 | 1993-08-03 | At&T Bell Laboratories | Method and apparatus for low-delay celp speech coding and decoding |
SE470577B (sv) | 1993-01-29 | 1994-09-19 | Ericsson Telefon Ab L M | Förfarande och anordning för kodning och/eller avkodning av bakgrundsljud |
SE501305C2 (sv) | 1993-05-26 | 1995-01-09 | Ericsson Telefon Ab L M | Förfarande och anordning för diskriminering mellan stationära och icke stationära signaler |
JP2906968B2 (ja) * | 1993-12-10 | 1999-06-21 | 日本電気株式会社 | マルチパルス符号化方法とその装置並びに分析器及び合成器 |
US5657422A (en) | 1994-01-28 | 1997-08-12 | Lucent Technologies Inc. | Voice activity detection driven noise remediator |
US5487087A (en) | 1994-05-17 | 1996-01-23 | Texas Instruments Incorporated | Signal quantizer with reduced output fluctuation |
JP3557662B2 (ja) * | 1994-08-30 | 2004-08-25 | ソニー株式会社 | 音声符号化方法及び音声復号化方法、並びに音声符号化装置及び音声復号化装置 |
US5781880A (en) * | 1994-11-21 | 1998-07-14 | Rockwell International Corporation | Pitch lag estimation using frequency-domain lowpass filtering of the linear predictive coding (LPC) residual |
US5727125A (en) * | 1994-12-05 | 1998-03-10 | Motorola, Inc. | Method and apparatus for synthesis of speech excitation waveforms |
CN1155139A (zh) * | 1995-06-30 | 1997-07-23 | 索尼公司 | 降低语音信号噪声的方法 |
US5774837A (en) * | 1995-09-13 | 1998-06-30 | Voxware, Inc. | Speech coding system and method using voicing probability determination |
US6064962A (en) * | 1995-09-14 | 2000-05-16 | Kabushiki Kaisha Toshiba | Formant emphasis method and formant emphasis filter device |
JP3607774B2 (ja) * | 1996-04-12 | 2005-01-05 | オリンパス株式会社 | 音声符号化装置 |
GB2312360B (en) | 1996-04-12 | 2001-01-24 | Olympus Optical Co | Voice signal coding apparatus |
JP3270922B2 (ja) * | 1996-09-09 | 2002-04-02 | 富士通株式会社 | 符号化,復号化方法及び符号化,復号化装置 |
JPH1091194A (ja) * | 1996-09-18 | 1998-04-10 | Sony Corp | 音声復号化方法及び装置 |
US6269331B1 (en) * | 1996-11-14 | 2001-07-31 | Nokia Mobile Phones Limited | Transmission of comfort noise parameters during discontinuous transmission |
US5960389A (en) * | 1996-11-15 | 1999-09-28 | Nokia Mobile Phones Limited | Methods for generating comfort noise during discontinuous transmission |
TW326070B (en) | 1996-12-19 | 1998-02-01 | Holtek Microelectronics Inc | The estimation method of the impulse gain for coding vocoder |
US6026356A (en) * | 1997-07-03 | 2000-02-15 | Nortel Networks Corporation | Methods and devices for noise conditioning signals representative of audio information in compressed and digitized form |
JP3223966B2 (ja) * | 1997-07-25 | 2001-10-29 | 日本電気株式会社 | 音声符号化/復号化装置 |
US6163608A (en) * | 1998-01-09 | 2000-12-19 | Ericsson Inc. | Methods and apparatus for providing comfort noise in communications systems |
GB9811019D0 (en) * | 1998-05-21 | 1998-07-22 | Univ Surrey | Speech coders |
US6240386B1 (en) * | 1998-08-24 | 2001-05-29 | Conexant Systems, Inc. | Speech codec employing noise classification for noise compensation |
US6275798B1 (en) | 1998-09-16 | 2001-08-14 | Telefonaktiebolaget L M Ericsson | Speech coding with improved background noise reproduction |
JP3417362B2 (ja) * | 1999-09-10 | 2003-06-16 | 日本電気株式会社 | 音声信号復号方法及び音声信号符号化復号方法 |
JP3478209B2 (ja) | 1999-11-01 | 2003-12-15 | 日本電気株式会社 | 音声信号復号方法及び装置と音声信号符号化復号方法及び装置と記録媒体 |
JP2001142499A (ja) * | 1999-11-10 | 2001-05-25 | Nec Corp | 音声符号化装置ならびに音声復号化装置 |
KR100743534B1 (ko) * | 2000-01-07 | 2007-07-27 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 디지털 정보를 전송하는 전송장치 및 전송방법 |
US7010480B2 (en) * | 2000-09-15 | 2006-03-07 | Mindspeed Technologies, Inc. | Controlling a weighting filter based on the spectral content of a speech signal |
US6691085B1 (en) * | 2000-10-18 | 2004-02-10 | Nokia Mobile Phones Ltd. | Method and system for estimating artificial high band signal in speech codec using voice activity information |
JP3558031B2 (ja) * | 2000-11-06 | 2004-08-25 | 日本電気株式会社 | 音声復号化装置 |
WO2002045078A1 (en) * | 2000-11-30 | 2002-06-06 | Matsushita Electric Industrial Co., Ltd. | Audio decoder and audio decoding method |
TW564400B (en) * | 2001-12-25 | 2003-12-01 | Univ Nat Cheng Kung | Speech coding/decoding method and speech coder/decoder |
-
2008
- 2008-02-13 ES ES08712799.9T patent/ES2548010T3/es active Active
- 2008-02-13 KR KR1020097020591A patent/KR101462293B1/ko active IP Right Grant
- 2008-02-13 JP JP2009552636A patent/JP5340965B2/ja active Active
- 2008-02-13 WO PCT/SE2008/050169 patent/WO2008108719A1/en active Application Filing
- 2008-02-13 US US12/530,333 patent/US8457953B2/en active Active
- 2008-02-13 EP EP19209643.6A patent/EP3629328A1/en not_active Withdrawn
- 2008-02-13 PL PL08712799T patent/PL2132731T3/pl unknown
- 2008-02-13 CN CN2008800072341A patent/CN101632119B/zh active Active
- 2008-02-13 PT PT151750064T patent/PT2945158T/pt unknown
- 2008-02-13 AU AU2008221657A patent/AU2008221657B2/en active Active
- 2008-02-13 ES ES15175006T patent/ES2778076T3/es active Active
- 2008-02-13 PL PL15175006T patent/PL2945158T3/pl unknown
- 2008-02-13 EP EP08712799.9A patent/EP2132731B1/en active Active
- 2008-02-13 EP EP15175006.4A patent/EP2945158B1/en active Active
Also Published As
Publication number | Publication date |
---|---|
AU2008221657A1 (en) | 2008-09-12 |
JP5340965B2 (ja) | 2013-11-13 |
PL2132731T3 (pl) | 2015-12-31 |
PL2945158T3 (pl) | 2020-07-13 |
US20100114567A1 (en) | 2010-05-06 |
PT2945158T (pt) | 2020-02-18 |
JP2010520512A (ja) | 2010-06-10 |
EP2132731B1 (en) | 2015-07-22 |
KR101462293B1 (ko) | 2014-11-14 |
EP2132731A1 (en) | 2009-12-16 |
KR20090129450A (ko) | 2009-12-16 |
WO2008108719A1 (en) | 2008-09-12 |
EP2945158B1 (en) | 2019-12-25 |
EP3629328A1 (en) | 2020-04-01 |
CN101632119B (zh) | 2012-08-15 |
EP2132731A4 (en) | 2014-04-16 |
US8457953B2 (en) | 2013-06-04 |
AU2008221657B2 (en) | 2010-12-02 |
CN101632119A (zh) | 2010-01-20 |
ES2778076T3 (es) | 2020-08-07 |
EP2945158A1 (en) | 2015-11-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2548010T3 (es) | Procedimiento y dispositivo para suavizar ruido de fondo estacionario | |
ES2391292T3 (es) | Sistemas, procedimientos y aparato para la generación de una señal de excitación de banda alta | |
ES2351935T3 (es) | Procedimiento y aparato para la cuantificación vectorial de una representación de envolvente espectral. | |
JP5405456B2 (ja) | ピッチ調整コーディング及び非ピッチ調整コーディングを使用する信号符号化 | |
ES2629727T3 (es) | Sistema y método para la transmisión adaptativa de parámetros de ruido de confort durante la transmisión de habla discontinua | |
CN1489762A (zh) | 语音解码中语音帧差错隐蔽的方法和系统 | |
KR102229487B1 (ko) | 리던던트 프레임 정보를 통신하는 시스템들 및 방법들 | |
JP4969454B2 (ja) | スケーラブル符号化装置およびスケーラブル符号化方法 | |
CA2896811C (en) | Systems and methods of performing gain control | |
ES2610783T3 (es) | Método y aparato para procesar datos de audio | |
CA2929564C (en) | High-band signal modeling | |
KR101548846B1 (ko) | 워터마킹된 신호의 적응적 인코딩 및 디코딩을 위한 디바이스 | |
ES2807258T3 (es) | Escalado para circuitería de forma de ganancia | |
BRPI0418665B1 (pt) | método e decodificador para sintetizar um sinal de áudio mono baseado no sinal de áudio codificado de múltiplos canais disponíveis, terminal móvel e sistema de codificação | |
ES2774334T3 (es) | Estimación de forma de ganancia para mejorar el rastreo de características temporales de banda alta | |
CN1692408A (zh) | 码分多址无线系统的可变比特率宽带语音编码中的有效带内半空白-突发序列信令及半速率最大操作的方法和装置 | |
CN1486554A (zh) | 可变速率接收机中速率误差检测的改进方法和设备 | |
WO2014123579A1 (en) | Systems and methods of performing filtering for gain determination | |
JP2016541032A5 (es) | ||
ES2758501T3 (es) | Sistemas y procedimientos para controlar una velocidad de codificación promedio | |
EP2798631B1 (en) | Adaptively encoding pitch lag for voiced speech | |
JP2014510299A (ja) | ウォーターマーク入り信号を符号化し復号するためのデバイス | |
WO2006008932A1 (ja) | 音声符号化装置および音声符号化方法 | |
JP4764956B1 (ja) | 音声符号化装置及び音声符号化方法 | |
JP2004004946A (ja) | 音声復号装置 |