ES2836194T3 - Dispositivo y procedimiento para la extensión de ancho de banda para señales acústicas - Google Patents

Dispositivo y procedimiento para la extensión de ancho de banda para señales acústicas Download PDF

Info

Publication number
ES2836194T3
ES2836194T3 ES14811296T ES14811296T ES2836194T3 ES 2836194 T3 ES2836194 T3 ES 2836194T3 ES 14811296 T ES14811296 T ES 14811296T ES 14811296 T ES14811296 T ES 14811296T ES 2836194 T3 ES2836194 T3 ES 2836194T3
Authority
ES
Spain
Prior art keywords
frequency
spectrum
harmonic
section
spectral peak
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14811296T
Other languages
English (en)
Inventor
Srikanth Nagisetty
Zongxian Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Original Assignee
Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV filed Critical Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Application granted granted Critical
Publication of ES2836194T3 publication Critical patent/ES2836194T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • G10L21/0388Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • G10L19/035Scalar quantisation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/038Speech enhancement, e.g. noise reduction or echo cancellation using band spreading techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un aparato de decodificación de señal de audio que comprende: una sección de demultiplexación (401) que demultiplexa los parámetros de codificación, la información de índice que identifica la porción más correlacionada del espectro de baja frecuencia para una o más subbandas de alta frecuencia, y la información del factor de escala de la información codificada; una sección de replicación de espectro (405) que replica un espectro de subbanda de alta frecuencia en base a la información de índice usando un espectro de baja frecuencia sintetizado, obteniéndose el espectro de baja frecuencia sintetizado decodificando los parámetros de codificación; y una sección de ajuste de envolvente de espectro (406) que ajusta una amplitud del espectro de subbanda de alta frecuencia replicado usando la información del factor de escala, una sección de estimación de frecuencia armónica (407) que estima una frecuencia de un componente armónico en el espectro sintetizado de baja frecuencia; una sección de ajuste de frecuencia armónica (408) que ajusta una frecuencia de un componente armónico en el espectro de subbanda de alta frecuencia usando la frecuencia armónica estimada; y una sección de salida que genera una señal de salida utilizando el espectro de baja frecuencia sintetizado y el espectro de subbanda de alta frecuencia. donde la sección de estimación de frecuencia armónica (407) comprende: una sección de división que divide una porción preseleccionada del espectro de baja frecuencia sintetizado en varios bloques; una sección de identificación de pico espectral que identifica una frecuencia de un pico espectral que tiene una amplitud máxima en cada uno de los diversos bloques; una sección de cálculo de separación que calcula los valores de separación entre cada una de las frecuencias de pico espectrales identificadas; y una sección de cálculo de frecuencia armónica que calcula la frecuencia armónica utilizando los valores de separación entre las frecuencias de pico espectral identificadas.

Description

DESCRIPCIÓN
Dispositivo y procedimiento para la extensión de ancho de banda para señales acústicas
Campo Técnico
[0001] La presente invención se refiere al procesamiento de una señal de audio, y de manera particular, se refiere al procesamiento de codificación y decodificación de una señal de audio para la extensión de ancho de banda de una señal de audio.
Técnica Anterior
[0002] En las comunicaciones, para utilizar de la manera más eficaz los recursos de red, los códecs de audio son adoptados para comprimir las señales de audio a bajas velocidades de bits con un intervalo aceptable de calidad subjetiva. En consecuencia, existe la necesidad de incrementar la eficacia de la compresión para superar las restricciones de la velocidad de bits cuando se codifica una señal de audio.
[0003] La extensión de ancho de banda (BWE) es una técnica ampliamente utilizada en la codificación de una señal de audio para comprimir de manera eficaz las señales de audio de ancho de banda (WB) o súper-ancho de banda (SWB) a una baja velocidad de bits. En la codificación, el término BWE representa paramétricamente una señal de banda de alta frecuencia que utiliza la señal decodificada de banda de baja frecuencia. Es decir, la BWE busca e identifica una porción similar a una subbanda de la señal de la banda de alta frecuencia de la señal de banda de baja frecuencia de la señal de audio, y codifica los parámetros que identifican la porción similar y transmiten los parámetros, mientras la BWE permite que la señal de banda de alta frecuencia sea sintetizada de nuevo utilizando la señal de banda de baja frecuencia en el lado de recepción de señal. Es posible reducir la cantidad de la información de parámetro que se va a transmitir, al utilizar una porción similar de la señal de banda de baja frecuencia, en lugar de codificar directamente la señal de la banda de alta frecuencia, de esta manera se incrementa la eficacia de la compresión.
[0004] Uno de los códecs de audio/habla que utiliza la funcionalidad BWE es el códec G.718-SWB, cuyas aplicaciones objetivas son los dispositivos VoIP, los equipos de vídeo-conferencia, los equipos de tele-conferencia y los teléfonos móviles.
[0005] La configuración del códec G.718-SWB [1] se ilustra en las Figuras 1 y 2 (véase, por ejemplo, la bibliografía sin patente (de aquí en adelante, referida como “NPL”) 1).
[0006] En el lado del aparato de codificación ilustrado en la Figura 1, la señal de audio (de aquí en adelante, referida como la señal de entrada) muestreada a 32 kHz, primero es muestreada hacia abajo a 16 kHz (101). La señal muestreada hacia abajo se codifica por la sección de codificación de núcleo G.718 (102). La extensión de ancho de banda SWB se realiza en el dominio MDCT. La señal de entrada de 32 kHz se transforma al dominio MDCT (103) y se procesa a través de una sección de estimación de tonalidad (104). En función de la tonalidad estimada de la señal de entrada (105), se utiliza el modo genérico (106) o el modo sinusoidal (108) para la codificación de la primera capa de la SWB. Las capas más altas SWB se codifican utilizando sinusoidales adicionales (107 y 109).
[0007] El modo genérico se utiliza cuando la señal de cuadro de entrada no se considera que es tonal. En el modo genérico, los coeficientes MDCT (espectro) de la señal WB codificada por la sección de codificación de núcleo G.718 se utilizan para codificar los coeficientes SWB MDCT (espectro). La banda de frecuencia SWB (7-14 kHz) se divide en varias subbandas, y la porción más correlacionada se busca para cada subbanda de los coeficientes codificados y normalizados WB MDCT. A continuación, se calcula la ganancia de la porción más correlacionada en términos de la escala, de manera que el nivel de amplitud de la subbanda SWB se reproduzca para obtener la representación paramétrica del componente de alta frecuencia de la señal SWB.
[0008] La codificación de modo sinusoidal se usa en cuadros que son clasificados como tonales. En el modo sinusoidal, la señal SWB se genera agregando un conjunto finito de componentes sinusoidales al espectro SWB.
[0009] En el lado del aparato de decodificación ilustrado en la Figura 2, el códec de núcleo G.718 decodifica la señal WB a una velocidad de muestreo de 16 kHz (201). La señal WB se procesa posteriormente (202) y, a continuación, se muestrea hacia arriba (203) a una velocidad de muestreo de 32 kHz. Los componentes de frecuencia SWB son reconstruidos por la extensión de ancho de banda SWB. La extensión de ancho de banda SWB se realiza principalmente en el dominio MDCT. El modo genérico (204) y el modo sinusoidal (205) se utilizan para la decodificación de la primera capa de la SWB. Las capas más altas SWB se decodifican utilizando el modo adicional sinusoidal (206 y 207). Los coeficientes reconstruidos SWB MDCT se transforman en un dominio de tiempo (208) seguido por el procesamiento posterior (209), después, se añaden a la señal WB decodificada por la sección de decodificación de núcleo G.718 para reconstruir la señal de salida SWB en el dominio de tiempo.
Lista de citas
Bibliografía distinta de la de patentes
[0010] NPL 1: Recomendación ITU-T G.718 Enmienda 2, Nuevo Anexo B en la extensión escalable de súper ancho de banda para ITU-T G.718 y las restricciones al código-C de punto fijo de cuerpo principal y la descripción de texto, marzo del 2010.
[0011] El documento EP 1351 401 A1 describe que un dispositivo de decodificación es un dispositivo de decodificación que genera datos espectrales de frecuencia a partir de un flujo de datos de audio codificado introducido, e incluye: una unidad de decodificación central para decodificar el flujo de datos codificados introducidos y generar datos espectrales de frecuencia más baja que representan una señal de audio; y una unidad de decodificación extendida para generar, en base a los datos espectrales de frecuencia más baja, datos espectrales de frecuencia extendida que indican una estructura armónica, que es lo mismo que una extensión a lo largo del eje de frecuencia de la estructura armónica indicada por los datos espectrales de frecuencia más baja, en una región de frecuencia que no está representada por el flujo de datos codificados.
[0012] El documento EP 2221 808 A1 describe un aparato de codificación de espectro capaz de realizar la codificación a una tasa de bits baja y con alta calidad. Este aparato está provisto de una sección que realiza la transformación de frecuencia de una primera señal y calcula un primer espectro, una sección que convierte la frecuencia de una segunda señal y calcula un segundo espectro, una sección que estima la forma del segundo espectro en una banda de FL ¡k<FH usando un filtro que tiene el primer espectro en una banda de 0 ¡k- FL como estado interno y una sección que codifica un esquema del segundo espectro determinado en base a un coeficiente que indica la característica del filtro en este momento.
[0013] El documento US 2010/063806 A1 describe una codificación de audio de baja tasa de bits, como el algoritmo BWE, que a menudo encuentra un objetivo conflictivo de lograr una resolución de tiempo alta y una resolución de alta frecuencia al mismo tiempo. Para lograr la mejor calidad posible, la señal de entrada se puede clasificar primero en señal rápida y señal lenta. Esta invención se centra en clasificar la señal en señal rápida y señal lenta, basándose en al menos uno de los siguientes parámetros o una combinación de los siguientes parámetros: nitidez espectral, nitidez temporal, correlación de tono (ganancia de tono) y/o variación de envolvente espectral. Resumen de la Invención
Problema Técnico
[0014] Como puede observarse en la configuración G.718-SWB, la extensión de ancho de banda SWB de la señal de entrada se realiza ya sea mediante el modo sinusoidal o el modo genérico.
[0015] Para el mecanismo genérico de codificación, por ejemplo, los componentes de alta frecuencia se generan (obtienen) buscando la porción más correlacionada a partir del espectro WB. Este tipo de procedimiento usualmente experimenta problemas de rendimiento para las señales con armónicos. Este procedimiento no mantiene en lo absoluto la relación armónica entre los componentes armónicos de banda de baja frecuencia (los componentes tonales) y los componentes duplicados tonales de banda de alta frecuencia, que se vuelve la causa de los espectros ambiguos que degradan la calidad auditiva.
[0016] Por lo tanto, con el propósito de suprimir el ruido percibido (o artefactos), que se genera debido a los espectros ambiguos o debido a la perturbación en el espectro duplicado de la señal de banda de alta frecuencia (el espectro de alta frecuencia), es deseable mantener la relación armónica entre el espectro de señal de banda de baja frecuencia (espectro de baja frecuencia) y el espectro de alta frecuencia.
[0017] Con el propósito de resolver este problema, la configuración G.718-SWB se equipa con el modo sinusoidal. El modo sinusoidal codifica los componentes tonales importantes utilizando una onda sinusoidal, y de esta manera también puede mantenerse la estructura armónica. Sin embargo, la calidad resultante de sonido no es suficientemente buena solo mediante la codificación simplemente del componente SWB con señales artificiales tonales.
Solución al problema
[0018] Un objeto de la presente invención es mejorar el rendimiento de la codificación de una señal con los armónicos, lo cual provoca los problemas de rendimiento en el modo genérico descrito con anterioridad, y proporcionar un procedimiento eficaz para el mantenimiento de la estructura armónica del componente tonal entre el espectro de baja frecuencia y el espectro duplicado de alta frecuencia, mientras se mantiene la estructura fina de los espectros. En primer lugar, la relación entre el componente tonal de espectro de baja frecuencia y el componente tonal de espectro de alta frecuencia se obtiene al estimar un valor de frecuencia armónica del espectro WB. A continuación, se decodifica el espectro de baja frecuencia codificado en el lado del aparato de codificación, y, según la información de índice, una porción que es la más correlacionada con una subbanda del espectro de alta frecuencia se copia en la banda de alta frecuencia siendo ajustada en los niveles de energía, con lo cual, se duplica el espectro de alta frecuencia. La frecuencia del componente tonal en el espectro duplicado de alta frecuencia se identifica o ajusta en función de un valor estimado de frecuencia armónica.
[0019] La relación armónica entre los componentes tonales de espectro de baja frecuencia y los componentes tonales de espectro duplicado de alta frecuencia solo se puede mantener cuando es precisa la estimación de una frecuencia armónica. Por lo tanto, con el propósito de mejorar la precisión de la estimación, la corrección de los picos espectrales que constituyen los componentes tonales se realiza antes de estimar la frecuencia armónica. La invención se define por el objeto de estudio de las reivindicaciones independientes.
Efectos ventajosos de la invención
[0020] Según la presente invención, es posible duplicar exactamente el componente tonal en el espectro de alta frecuencia reconstruido por la extensión de ancho de banda para una señal de entrada con la estructura armónica, y obtener de manera eficaz una buena calidad de sonido a una baja velocidad de bits.
Breve descripción de las figuras
[0021]
La Figura 1 ilustra la configuración de un aparato de codificación G.718-SWB;
La Figura 2 ilustra la configuración de un aparato de decodificación G.718-SWB;
La Figura 3 es un diagrama de bloque que ilustra la configuración de un aparato de codificación según la Realización 1 de la presente invención;
La Figura 4 es un diagrama de bloque que ilustra la configuración de un aparato de decodificación según la Realización 1 de la presente invención;
La Figura 5 es un diagrama que ilustra un procedimiento para la corrección de la detección de pico espectral; La Figura 6 es un diagrama que ilustra un ejemplo de un procedimiento de ajuste de frecuencia armónica;
La Figura 7 es un diagrama que ilustra otro ejemplo de un procedimiento de ajuste de frecuencia armónica; La Figura 8 es un diagrama de bloques que ilustra la configuración de un aparato de codificación según la Realización 2 de la presente invención;
La Figura 9 es un diagrama de bloques que ilustra la configuración de un aparato de decodificación según la Realización 2 de la presente invención;
La Figura 10 es un diagrama de bloques que ilustra la configuración de un aparato de codificación según la Realización 3 de la presente invención;
La Figura 11 es un diagrama de bloques que ilustra la configuración de un aparato de decodificación según la Realización 3 de la presente invención;
La Figura 12 es un diagrama de bloques que ilustra la configuración de un aparato de decodificación según la Realización 4 de la presente invención;
La Figura 13 es un diagrama que ilustra un ejemplo de un procedimiento de ajuste de frecuencia armónica para un espectro sintetizado de baja frecuencia; y
La Figura 14 es un diagrama que ilustra un ejemplo de una estrategia para la inyección de los armónicos que faltan en el espectro sintetizado de baja frecuencia.
Descripción de las realizaciones
[0022] El principio fundamental de la presente invención se describe en esta sección utilizando las Figuras 3­ 14. Aquellas personas expertas en la técnica serán capaces de modificar o adaptar la presente invención sin desviarse del espíritu de la invención.
(Realización 1)
[0023] La configuración de un códec según la presente invención se ilustra en las Figuras 3 y 4.
[0024] En un lado de aparato de codificación ilustrado en la Figura 3, una señal de entrada muestreada es en primer lugar muestreada hacia abajo o descendente (301). La señal de banda de baja frecuencia muestreada hacia abajo (señal de baja frecuencia) es codificada por una sección de codificación de núcleo (302). Los parámetros de codificación de núcleo son enviados a un multiplexor (307) para formar un flujo de bits. La señal de entrada se transforma en una señal de dominio de frecuencia utilizando una sección de transformación de frecuencia de tiempo (T/F) (303), y su señal de banda de alta frecuencia (señal de alta frecuencia) se divide en una pluralidad de subbandas. La sección de codificación podría ser un códec existente de voz o audio de banda estrecha o banda ancha, y un ejemplo es G.718. La sección de codificación de núcleo (302) no solo realiza la codificación sino también tiene una sección de decodificación local y una sección de transformación de tiempo-frecuencia para realizar la decodificación local y la transformación de frecuencia de tiempo de la señal decodificada (señal sintetizada) para suministrar la señal sintetizada de baja frecuencia a una sección de normalización de energía (304). La señal sintetizada de baja frecuencia del dominio de frecuencia normalizada se utiliza para la extensión de ancho de banda del siguiente modo. En primer lugar, una sección de búsqueda de similitud (305) identifica una porción que es la más correlacionada con cada subbanda de la señal de alta frecuencia de la señal de entrada, utilizando la señal sintetizada normalizada de baja frecuencia, y envía la información de índice como los resultados de búsqueda a una sección de multiplexación (307). A continuación, se estima la información de los factores de escala entre la porción más correlacionada y cada subbanda de la señal de alta frecuencia de la señal de entrada (306), y se envía la información de factor de escala codificada a la sección de multiplexación (307).
[0025] Finalmente, la sección de multiplexación (307) integra los parámetros de codificación de núcleo, la información de índice y la información de factor de escala en un flujo de bits.
[0026] En un aparato de decodificación ilustrado en la Figura 4, una sección de demultiplexación (401) desempaqueta el flujo de bits para obtener los parámetros de codificación de núcleo, la información de índice y la información de factor de escala.
[0027] Una sección de decodificación de núcleo reconstruye las señales sintetizadas de baja frecuencia utilizando los parámetros de codificación de núcleo (402). La señal sintetizada de baja frecuencia se muestrea hacia arriba (403), y se utiliza para la extensión de ancho de banda (410).
[0028] Esta extensión de ancho de banda se realiza del siguiente modo. Es decir, la señal sintetizada de baja frecuencia es normalizada de energía (404), y una señal de baja frecuencia identificada según la información de índice que identifica una porción que es la más correlacionada con cada subbanda de la señal de alta frecuencia de la señal de entrada derivada en el lado de aparato de codificación se copia en la banda de alta frecuencia (405), y el nivel de energía se ajusta según la información de factor de escala para conseguir el mismo nivel del nivel de energía de la señal de alta frecuencia de la señal de entrada (406).
[0029] Además, una frecuencia armónica se estima a partir del espectro sintetizado de baja frecuencia (407). La frecuencia armónica estimada se utiliza para ajustar la frecuencia del componente tonal en el espectro de señal de alta frecuencia (408).
[0030] La señal reconstruida de alta frecuencia se transforma de un dominio de frecuencia a un dominio de tiempo (409), y se añade a la señal sintetizada muestreada hacia arriba de baja frecuencia para generar una señal de salida en el dominio de tiempo.
[0031] El procesamiento de detalle de un esquema de estimación de frecuencia armónica se describirá del siguiente modo:
1) A partir del espectro sintetizado de la señal de baja frecuencia (LF), se selecciona una porción para estimar una frecuencia armónica. La porción seleccionada debe tener la estructura armónica clara, de modo que sea fiable la frecuencia armónica estimada a partir de la porción seleccionada. Usualmente, para cada armónico, una estructura armónica clara se observa de 1-2 kHz hasta alrededor de una frecuencia de corte.
2) La porción seleccionada se divide en una pluralidad de bloques con un ancho casi a la frecuencia de paso de la voz humana (alrededor de 100-400 Hz).
3) Los picos espectrales, que son el espectro cuya amplitud es la máxima dentro de cada bloque, y las frecuencias de pico espectral, que son las frecuencias de estos picos espectrales, se buscan.
4) El procesamiento posterior se realiza en los picos espectrales identificados con el propósito de evitar errores o mejorar la precisión en la estimación de la frecuencia armónica.
[0032] El espectro ilustrado en la Figura 5 se utiliza para describir un ejemplo del procesamiento posterior.
[0033] En función del espectro sintetizado de la señal de baja frecuencia, se calculan los picos espectrales y las frecuencias de pico espectral. Sin embargo, un pico espectral con una amplitud pequeña y una separación extremadamente corta de la frecuencia del pico espectral con respecto a un pico espectral adyacente se descarta, lo cual evita errores de estimación en el cálculo del valor de frecuencia armónica.
1) Se calcula la separación entre las frecuencias identificadas de pico espectral.
2) Una frecuencia armónica se estima en función de la separación entre las frecuencias identificadas de pico espectral. Uno de los procedimientos para la estimación de la frecuencia armónica se presenta del siguiente modo:
[1]
Figure imgf000006_0001
donde
EstArmónico es la frecuencia armónica calculada;
Spacingpico es la separación de frecuencia entre las posiciones de pico detectado;
N es el número de las posiciones de pico detectado;
Pospco es la posición del pico detectado;
[0034] La estimación de la frecuencia armónica también se realiza según un procedimiento descrito del siguiente modo:
1) En el espectro sintetizado de la señal de baja frecuencia (LF), con el propósito de estimar una frecuencia armónica, se selecciona una porción que tiene una estructura armónica clara, de modo que la frecuencia armónica estimada es fiable. Usualmente, para cada armónico, una estructura armónica clara puede ser observada de 1­ 2 kHz hasta alrededor de una frecuencia de corte.
2) Un espectro y su frecuencia que tiene la amplitud máxima (valor absoluto) se identifican dentro de la porción seleccionada de la señal sintetizada de baja frecuencia mencionada con anterioridad (espectro).
3) Un conjunto de picos espectrales que tiene una separación de frecuencia sustancialmente igual de la frecuencia de espectro del espectro con la amplitud máxima y en la cual el valor absoluto de la amplitud excede un umbral predeterminado se identifica. Como el umbral predeterminado, es posible aplicar, por ejemplo, un valor dos veces la desviación estándar de las amplitudes espectrales contenidas en la porción seleccionada mencionada con anterioridad.
4) Se calcula la separación entre las frecuencias de pico espectral mencionadas con anterioridad.
5) La frecuencia armónica se estima en función de la separación entre las frecuencias de pico espectral mencionadas con anterioridad. También en este caso, el procedimiento en la Ecuación (1) se puede utilizar para estimar la frecuencia armónica.
[0035] Existe el caso donde el componente armónico en el espectro sintetizado de la señal de baja frecuencia no se codificará bien, a una muy baja velocidad de bits. En este caso, existe la posibilidad de que algunos de los picos espectrales identificados no pudieran corresponder con los componentes armónicos de las señales de entrada en lo absoluto. Por lo tanto, en el cálculo de la frecuencia armónica, la separación entre las frecuencias de pico espectral que son en gran medida diferentes del valor promedio tiene que ser excluida del objetivo de cálculo.
[0036] Asimismo, existe el caso donde no todos los componentes armónicos se pueden codificar (significa que algunos de los componentes de armónico están faltando en el espectro sintetizado de la señal de baja frecuencia) debido a la amplitud relativamente baja del pico espectral, las restricciones de la velocidad de bits para la codificación, o similares. En estos casos, se considera que la separación entre las frecuencias de pico espectral extraídas en la porción armónica que falta sea el doble o unas cuantas veces la separación entre las frecuencias de pico espectral extraídas en la porción lo cual mantiene una buena estructura armónica. En este caso, el valor promedio de los valores extraídos de la separación entre las frecuencias de pico espectral donde los valores son incluidos en el intervalo predeterminado que incluye la separación máxima entre las frecuencias de pico espectral se define como el valor estimado de frecuencia armónica. De esta manera, es posible duplicar adecuadamente el espectro de alta frecuencia. El procedimiento específico comprende las siguientes etapas:
1) Se identifican los valores mínimo y máximo de la separación entre las frecuencias de pico espectral;
[2]
Spac¡ngPico(n)=Pospico(n+1 )-Pospíco (n), ne [1,/V-1]
Spacingmin = m\n({SpacingP<co (/?)});
Spacingmáx = máx{{SpacingPiCo (/?)});................................(Ecuación 2)
donde;
Spacingpico es la separación de frecuencia entre las posiciones de pico detectado;
Spacingmín es la separación mínima de frecuencia entre las posiciones de pico detectado;
Spacingmáx es la separación máxima de frecuencia entre las posiciones de pico detectado;
N es el número de las posiciones de pico detectado;
Pospico es la posición del pico detectado;
2) Cada separación entre las frecuencias de pico espectral se identifica en el intervalo de:
[3]
[k'Spacmgmín, Spac¡ngmáx\k e [1,2]
3) El valor promedio de los valores identificados de separación entre las frecuencias de pico espectral en el intervalo anterior se define como el valor de la frecuencia armónica estimada.
[0037] A continuación, se describirá más adelante un ejemplo de los esquemas de ajuste de frecuencia armónica.
1) El último pico espectral codificado y su frecuencia de pico espectral se identifican en el espectro sintetizado de la señal de baja frecuencia (LF).
2) El pico espectral y la frecuencia de pico espectral se identifican dentro del espectro de alta frecuencia duplicado por la extensión de ancho de banda.
3) Utilizando la frecuencia de pico espectral más alta como una referencia, entre los picos espectrales del espectro sintetizado de la señal de baja frecuencia, se ajustan las frecuencias de pico espectral, de modo que los valores de la separación entre las frecuencias de pico espectral sean iguales al valor estimado de la separación entre las frecuencias armónicas. Este procesamiento se ilustra en la Figura 6. Como se ilustra en la Figura 6, en primer lugar, la frecuencia de pico espectral más alta en el espectro sintetizado de la señal de baja frecuencia y los picos espectrales en el espectro replicado de alta frecuencia se identifican. A continuación, la frecuencia de pico espectral más baja en el espectro replicado de alta frecuencia se desplaza hacia la frecuencia que tiene una separación de EstArmónico de la frecuencia de pico espectral más alta del espectro sintetizado de la señal de baja frecuencia. La segunda frecuencia de pico espectral más bajo en el espectro replicado de alta frecuencia se desplaza hacia la frecuencia que tiene una separación de EstArmónico de la frecuencia desplazada de pico espectral más bajo. El procesamiento se repite hasta que este ajuste sea completado para cada frecuencia de pico espectral del pico espectral en el espectro replicado de alta frecuencia.
[0038] Los esquemas de ajuste de frecuencia armónica como se describen más adelante también son posibles.
1) El espectro sintetizado de la señal de baja frecuencia (LF) que tiene la frecuencia de pico espectral más alta se identifica.
2) Se identifican el pico espectral y la frecuencia de pico espectral dentro del espectro de alta frecuencia (HF) extendido en términos del ancho de banda por la extensión de ancho de banda.
3) Utilizando la frecuencia de pico espectral más alta del espectro sintetizado de la señal de baja frecuencia como una referencia, se calculan las posibles frecuencias de pico espectral en el espectro HR. Cada pico espectral en el espectro de alta frecuencia duplicado por la extensión de ancho de banda se desplaza hacia una frecuencia que es la más cercana a cada frecuencia de pico espectral, entre las frecuencias calculadas de pico espectral. Este procesamiento se ilustra en la Figura 7. Como se ilustra en la Figura 7, en primer lugar, se extraen el espectro sintetizado de baja frecuencia que tiene la frecuencia de pico espectral más alta y los picos espectrales en el espectro replicado de alta frecuencia. A continuación, se calcula la frecuencia posible de pico espectral en el espectro replicado de alta frecuencia. La frecuencia que tiene una separación de EstArmónico de la frecuencia de pico espectral más alta del espectro sintetizado de la señal de baja frecuencia se define como la frecuencia de pico espectral que podría ser la primera frecuencia de pico espectral en el espectro replicado de alta frecuencia. A continuación, la frecuencia que tiene una separación de EstArmónico de la frecuencia de pico espectral mencionada con anterioridad que podría ser la primera frecuencia de pico espectral se define como la frecuencia de pico espectral que podría ser la segunda frecuencia de pico espectral. El procesamiento se repite con la condición de que el cálculo sea posible en el espectro de alta frecuencia.
[0039] Posteriormente, el pico espectral extraído en el espectro replicado de alta frecuencia se desplaza hacia una frecuencia que es la más cercana a la frecuencia de pico espectral, entre las posibles frecuencias de pico espectral calculadas como se describe con anterioridad.
[0040] También existe un caso donde el valor estimado armónico EstArmónico no corresponde con un recipiente de frecuencia de entero. En este caso, la frecuencia de pico espectral se selecciona para que sea un recipiente de frecuencia que es la más cercana a la frecuencia derivada basada en EstArmónico.
[0041] También podría existir un procedimiento de estimación de una frecuencia armónica en el cual se utiliza el espectro previo de cuadro para estimar la frecuencia armónica, y un procedimiento de ajuste de las frecuencias de los componentes tonales en el cual se toma en consideración el espectro previo de cuadro, de modo que la transición entre cuadros sea suave cuando se ajusta el componente tonal. También es posible ajustar la amplitud, de manera que, incluso cuando las frecuencias de los componentes tonales se desplazan, se mantiene el nivel de energía del espectro original. Todas estas variaciones menores están dentro del alcance de la presente invención.
[0042] Todas las descripciones anteriores son dadas como ejemplos, y las ideas de la presente invención no son limitadas por los ejemplos dados. Aquellas personas expertas en la técnica serán capaces de modificar y adaptar la presente invención sin desviarse del espíritu de la invención.
[Efecto]
[0043] El procedimiento de extensión de ancho de banda según la presente invención duplica el espectro de alta frecuencia utilizando el espectro sintetizado de la señal de baja frecuencia que es la más correlacionada con el espectro de alta frecuencia, y desplaza los picos espectrales hacia las frecuencias armónicas estimadas. De esta manera, es posible mantener ambas de la estructura fina del espectro y la estructura armónica entre los picos espectrales de banda de baja frecuencia y los picos espectrales replicados de banda de alta frecuencia.
(Realización 2)
[0044] La Realización 2 de la presente invención se ilustra en las Figuras 8 y 9.
[0045] El aparato de codificación según la Realización 2 es sustancialmente el mismo que el aparato de la Realización 1, excepto las secciones de estimación de frecuencia armónica (708 y 709) y una sección de comparación de frecuencia armónica (710).
[0046] La frecuencia armónica se estima por separado del espectro sintetizado de baja frecuencia (708) y el espectro de alta frecuencia (709) de la señal de entrada, y la información de aviso se transmite en función del resultado de la comparación entre los valores estimados de aquellos (710). Como uno de los ejemplos, la información de aviso puede ser derivada como en la siguiente ecuación:
[4]
Si
EstArmónico_lF€[EstArmónicoJiF~Thr6ShOld!EstAjmónico_Hf+ ThfQShO\(Í]
Flag = 1
De otro modo
Flag = 0......................................................................... (Ecuación 3)
donde
EstArmómco_LF es la frecuencia armónica estimada del espectro sintetizado de baja frecuencia;
EstArmóníco_hf es la frecuencia armónica estimada del espectro original de alta frecuencia;
Threshold es un umbral predeterminado para la diferencia entre EstArmónco_LF y
Flag es la señal de aviso que indica si se debe aplicar el ajuste armónico.
[0047] Es decir, la frecuencia armónica estimada a partir del espectro sintetizado de la señal de baja frecuencia (el espectro sintetizado de baja frecuencia) EstArmónco_LF se compara con la frecuencia armónica estimada a partir del espectro de alta frecuencia de la señal de entrada EstArmónco_HF. Cuando la diferencia entre los dos valores es suficientemente pequeña, se considera que la estimación del espectro sintetizado de baja frecuencia es suficientemente precisa, y un aviso (Flag=1) significa que podría utilizarse para que se establezca el ajuste de frecuencia armónica. Por otro lado, cuando la diferencia entre los dos valores no es pequeña, se considera que el valor estimado del espectro sintetizado de baja frecuencia no es preciso, y un aviso (Flag=0) significa que no debe utilizarse para que se establezca el ajuste de frecuencia armónica.
[0048] En el lado del aparato de decodificación ilustrado en la Figura 9, el valor de la información de aviso determina si el ajuste de frecuencia armónica (810) se aplica o no al espectro replicado de alta frecuencia. Es decir, en el caso de Flag=1, el aparato de decodificación realiza el ajuste de frecuencia armónica, mientras en el caso de Flag=0, no realiza el ajuste de frecuencia armónica.
[Efecto]
[0049] Para varias señales de entrada, existe el caso donde la frecuencia armónica estimada a partir del espectro sintetizado de baja frecuencia es diferente de la frecuencia armónica del espectro de alta frecuencia de la señal de entrada. Sobre todo a una baja velocidad de bits, la estructura armónica del espectro de baja frecuencia no se mantiene bien. Al enviar la información de aviso, es posible evitar el ajuste del componente tonal utilizando un valor erróneamente estimado de la frecuencia armónica.
(Realización 3)
[0050] La Realización 3 de la presente invención se ilustra en las Figuras 10 y 11.
[0051] El aparato de codificación según la Realización 3 es sustancialmente el mismo que el aparato de la Realización 2, excepto el dispositivo diferencial (910).
[0052] La frecuencia armónica se estima por separado del espectro sintetizado de baja frecuencia (908) y el espectro de alta frecuencia (909) de la señal de entrada. La diferencia entre las dos frecuencias armónicas estimadas (Diff) se calcula (910), y se transmite al lado del aparato de decodificación.
[0053] En el lado del aparato de decodificación ilustrado en la Figura 11, el valor de diferencia (Diff) se añade al valor estimado de la frecuencia armónica del espectro sintetizado de baja frecuencia (1010), y el valor recientemente calculado de la frecuencia armónica se utiliza para el ajuste de frecuencia armónica en el espectro replicado de alta frecuencia.
[0054] En lugar del valor de diferencia, la frecuencia armónica estimada a partir del espectro de alta frecuencia de la señal de entrada también podría ser directamente transmitida a la sección de decodificación. Entonces, el valor recibido de frecuencia armónica del espectro de alta frecuencia de la señal de entrada se utiliza para realizar el ajuste de frecuencia armónica. De esta manera, es innecesario estimar la frecuencia armónica del espectro sintetizado de baja frecuencia en el lado del aparato de decodificación.
[Efecto]
[0055] Existe el caso donde, para varias señales, la frecuencia armónica estimada a partir del espectro sintetizado de baja frecuencia es diferente de la frecuencia armónica del espectro de alta frecuencia de la señal de entrada. Por lo tanto, al enviar el valor de diferencia, o el valor de frecuencia armónica derivado del espectro de alta frecuencia de la señal de entrada, es posible ajustar el componente tonal del espectro de alta frecuencia replicado a través de la extensión de ancho de banda por el aparato de decodificación en el lado de recepción de manera más precisa.
(Realización 4)
[0056] La Realización 4 de la presente invención se ilustra en la Figura 12.
[0057] El aparato de codificación según la Realización 4 es el mismo que cualquier otro de los aparatos convencionales de codificación, o es el mismo que el aparato de codificación en la Realización 1,2 o 3.
[0058] En el lado del aparato de decodificación ilustrado en la Figura 12, la frecuencia armónica se estima a partir del espectro sintetizado de baja frecuencia (1103). El valor estimado de esta frecuencia armónica se utiliza para la inyección armónica (1104) en el espectro de baja frecuencia.
[0059] Especialmente, cuando la velocidad disponible de bits es baja, existe el caso donde algunos de los componentes de armónico del espectro de baja frecuencia son difícilmente codificados, o no son codificados en lo absoluto. En este caso, el valor de la frecuencia armónica estimada se puede utilizar para inyectar los componentes armónicos que faltan.
[0060] Esto se ilustrará en la Figura 13. Puede observarse a partir de la Figura 13, que existe un componente armónico que falta en el espectro sintetizado de baja frecuencia (LF). Su frecuencia puede ser derivada utilizando el valor de la frecuencia armónica estimada. Además, en cuanto a su amplitud, por ejemplo, es posible utilizar el valor promedio de las amplitudes de otros picos existentes espectrales o el valor promedio de las amplitudes de los picos existentes espectrales vecinos al componente armónico que falta en el eje de frecuencia. El componente armónico generado según la frecuencia y la amplitud se inyecta para la restauración del componente armónico que falta.
[0061] Otro procedimiento para la inyección del componente armónico que falta se describirá del siguiente modo:
1. La frecuencia armónica se estima utilizando el espectro codificado LF (1103).
1.1 La frecuencia armónica se estima utilizando la separación entre las frecuencias de pico espectral identificadas en el espectro codificado de baja frecuencia.
1.2 Los valores de separación entre las frecuencias de pico espectral, que se derivan de la porción armónica que falta, se convierten en el doble o en unas cuantas veces de los valores de la separación entre las frecuencias de pico espectral, que se derivan de una porción que tiene una buena estructura armónica. Estos valores de la separación entre las frecuencias de pico espectral se agrupan en diferentes categorías, y el valor promedio de la separación entre las frecuencias de pico espectral se estima para cada una de las categorías. El detalle de las mismas se describirá del siguiente modo:
a. Se identifican el valor mínimo y el valor máximo del valor de la separación entre las frecuencias de pico espectral.
[5]
Spacingpico (n)=Posp,co(n+i)-PosPKo (n), n e [1,/V-1]
Spatingmin = min({SpacingP¡co (/?)});
Spacingmáx = rr\áx({Spac¡ngP¡co (o)});......................... (Ecuación 4) donde;
Spacingpico es la separación de frecuencia entre las posiciones de pico detectado;
Spacingmín es la separación mínima de frecuencia entre las posiciones de pico detectado;
Spacingmáx es la separación máxima de frecuencia entre las posiciones de pico detectado;
N es el número de las posiciones de pico detectado;
Pospico es la posición del pico detectado;
b. Cada valor de separación se identifica en el intervalo de:
[6]
n = [Spatingmin,k* Spatingmin)
í 2 - \k*Spatingmin, Spacingmáx ]1 < k < 2
c. Los valores promedio de los valores de separación identificados en los intervalos anteriores se calculan como los valores de las frecuencias armónicas estimadas.
[7]
_£Spacing
E<¡t pico («)
Armónico ¿|T| .■Spacingpíco (n) e r,
JV.
£Spacingp¡C0 (n)
Est ArmÁrr , Spacing (n) e r2
N ,
(Ecuación 5)
donde
EstArmónicoLF1, EstArmónicoLF2 son las frecuencias armónicas estimadas
Ni es el número de las posiciones de pico detectado que pertenece a ri
N2 es el número de las posiciones de pico detectado que pertenece a r2
2. Utilizando los valores de la frecuencia armónica estimada, se inyectan los componentes armónicos que faltan.
2.1 El espectro seleccionado LF se divide en varias regiones.
2.2 Los armónicos que faltan se identifican utilizando la información de región y las frecuencias estimadas.
[0062] Por ejemplo, suponiendo que el espectro seleccionado LF se divida entre regiones r-i, r2 y r3.
[0063] En función de la información de región, los armónicos se identifican y se inyectan.
[0064] Debido a las características de señal para los armónicos, la separación espectral entre los armónicos es EstArmónicoLF- en las regiones ri y r2, y es EstAmóncxLF2 en la región r3. Esta información se puede utilizar para la extensión del espectro LF. Esto se ilustra adicionalmente en la Figura 14. Puede observarse a partir de la Figura 14, que existe un componente armónico que falta en el dominio r2 del espectro LF. Esta frecuencia se puede derivar utilizando el valor de la frecuencia armónica estimada EstArmónicoLFi.
[0065] De forma similar, EstAmóncxLF2 se utiliza para el rastreo y la inyección del armónico que falta en la región r3.
[0066] Además, en cuanto a su amplitud, es posible utilizar el valor promedio de las amplitudes de todos los componentes armónicos que no faltan o el valor promedio de las amplitudes de los componentes de armónico que preceden y siguen al componente armónico que falta. De manera alternativa, en cuanto a la amplitud, podría utilizarse un pico espectral con la amplitud mínima en el espectro WB. El componente armónico generado utilizando la frecuencia y la amplitud se inyecta en el espectro LF para la restauración del componente armónico que falta.
[Efecto]
[0067] Existe el caso donde el espectro sintetizado de baja frecuencia no se mantendrá para varias señales. Sobre todo a una baja velocidad de bits, existe la posibilidad de que pudieran estar faltando varios componentes armónicos. Al inyectar los componentes armónicos que faltan en el espectro LF, es posible no solo extender el LF, sino también mejorar las características armónicas de los armónicos reconstruidos. Esto puede suprimir la influencia auditiva debido a los armónicos que faltan para mejorar adicionalmente la calidad del sonido.
Aplicabilidad Industrial
[0068] El aparato de codificación, el aparato de decodificación y los procedimientos de codificación y decodificación según la presente invención son aplicables a un aparato de terminal de comunicación inalámbrica, un aparato de estación de base en un sistema de comunicación móvil, un aparato de terminal de tele-conferencia, un aparato de terminal de videoconferencia y un protocolo de voz a través de Internet.

Claims (8)

REIVINDICACIONES
1. Un aparato de decodificación de señal de audio que comprende:
una sección de demultiplexación (401) que demultiplexa los parámetros de codificación, la información de índice que identifica la porción más correlacionada del espectro de baja frecuencia para una o más subbandas de alta frecuencia, y la información del factor de escala de la información codificada;
una sección de replicación de espectro (405) que replica un espectro de subbanda de alta frecuencia en base a la información de índice usando un espectro de baja frecuencia sintetizado, obteniéndose el espectro de baja frecuencia sintetizado decodificando los parámetros de codificación; y
una sección de ajuste de envolvente de espectro (406) que ajusta una amplitud del espectro de subbanda de alta frecuencia replicado usando la información del factor de escala,
una sección de estimación de frecuencia armónica (407) que estima una frecuencia de un componente armónico en el espectro sintetizado de baja frecuencia;
una sección de ajuste de frecuencia armónica (408) que ajusta una frecuencia de un componente armónico en el espectro de subbanda de alta frecuencia usando la frecuencia armónica estimada; y
una sección de salida que genera una señal de salida utilizando el espectro de baja frecuencia sintetizado y el espectro de subbanda de alta frecuencia.
donde la sección de estimación de frecuencia armónica (407) comprende:
una sección de división que divide una porción preseleccionada del espectro de baja frecuencia sintetizado en varios bloques;
una sección de identificación de pico espectral que identifica una frecuencia de un pico espectral que tiene una amplitud máxima en cada uno de los diversos bloques;
una sección de cálculo de separación que calcula los valores de separación entre cada una de las frecuencias de pico espectrales identificadas; y
una sección de cálculo de frecuencia armónica que calcula la frecuencia armónica utilizando los valores de separación entre las frecuencias de pico espectral identificadas.
2. El aparato de decodificación de señal de audio según la reivindicación 1,
en el que la sección de cálculo de frecuencia armónica calcula la frecuencia armónica usando un valor promedio de los valores de separación entre las frecuencias de pico espectral identificadas en un intervalo de valor de separación.
3. El aparato de decodificación de señal de audio según la reivindicación 2,
en el que un valor de separación entre las frecuencias de pico espectrales que es muy diferente del valor promedio se excluye al calcular el valor promedio de los valores de separación entre las frecuencias de pico espectral identificadas.
4. El aparato de decodificación de señal de audio según la reivindicación 1,
en el que la sección de ajuste de frecuencia armónica (408) comprende:
una segunda sección de ajuste que utiliza, como referencia, la frecuencia más alta de los picos espectrales en el espectro sintetizado de baja frecuencia para ajustar las frecuencias de pico espectrales en el espectro de subbanda de alta frecuencia de modo que la separación entre las frecuencias de pico espectral en el espectro de subbanda de alta frecuencia después del ajuste es igual a la frecuencia armónica estimada.
5. Un procedimiento de decodificación de señal de audio que comprende:
demultiplexación de parámetros de codificación, información de índice que identifica la porción más correlacionada del espectro de baja frecuencia para una o más subbandas de alta frecuencia, e información de factor de escala de información codificada;
replicación de un espectro de subbanda de alta frecuencia en base a la información del índice usando un espectro de baja frecuencia sintetizado, obteniéndose el espectro de baja frecuencia sintetizado decodificando los parámetros de codificación; y
ajuste de una amplitud del espectro de subbanda de alta frecuencia replicado utilizando la información del factor de escala,
estimación de una frecuencia de un componente armónico en el espectro de baja frecuencia sintetizado; ajuste de una frecuencia de un componente armónico en el espectro de subbanda de alta frecuencia usando el espectro de frecuencia armónico estimado; y
generación de una señal de salida utilizando el espectro de baja frecuencia sintetizado y el espectro de subbanda de alta frecuencia,
donde la estimación de una frecuencia de un componente armónico en el espectro sintetizado de baja frecuencia comprende:
división de una porción preseleccionada del espectro sintetizado de baja frecuencia en varios bloques; identificación de una frecuencia de un pico espectral que tiene una amplitud máxima en cada uno de los diversos bloques;
cálculo de los valores de separación entre cada una de las frecuencias de pico espectral identificadas; y cálculo de la frecuencia armónica utilizando la separación entre las frecuencias de pico espectral identificadas.
6. El procedimiento de decodificación de señal de audio según la reivindicación 5,
en el que la etapa de cálculo de la frecuencia armónica se realiza usando un valor promedio de los valores de separación entre las frecuencias de pico espectral identificadas en un intervalo de valores de separación.
7. El procedimiento de decodificación de señal de audio según la reivindicación 6,
en el que un valor de separación entre las frecuencias de pico espectral que es muy diferente del valor promedio se excluye cuando se calcula el valor promedio de los valores de separación entre las frecuencias de pico espectral identificadas.
8. El procedimiento de decodificación de señal de audio según la reivindicación 5,
en el que la etapa de ajuste de la frecuencia de un componente armónico en el espectro de subbanda de alta frecuencia se realiza utilizando, como referencia, la frecuencia más alta de los picos espectrales en el espectro sintetizado de baja frecuencia para ajustar frecuencias de pico espectrales en el espectro de subbanda de alta frecuencia de modo que la separación entre las frecuencias de pico espectral en el espectro de subbanda de alta frecuencia después del ajuste sea igual a la frecuencia armónica estimada.
ES14811296T 2013-06-11 2014-06-10 Dispositivo y procedimiento para la extensión de ancho de banda para señales acústicas Active ES2836194T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013122985 2013-06-11
PCT/JP2014/003103 WO2014199632A1 (ja) 2013-06-11 2014-06-10 音響信号の帯域幅拡張を行う装置及び方法

Publications (1)

Publication Number Publication Date
ES2836194T3 true ES2836194T3 (es) 2021-06-24

Family

ID=52021944

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14811296T Active ES2836194T3 (es) 2013-06-11 2014-06-10 Dispositivo y procedimiento para la extensión de ancho de banda para señales acústicas

Country Status (11)

Country Link
US (4) US9489959B2 (es)
EP (2) EP3731226A1 (es)
JP (4) JP6407150B2 (es)
KR (1) KR102158896B1 (es)
CN (2) CN111477245B (es)
BR (2) BR122020016403B1 (es)
ES (1) ES2836194T3 (es)
MX (1) MX353240B (es)
PT (1) PT3010018T (es)
RU (2) RU2658892C2 (es)
WO (1) WO2014199632A1 (es)

Families Citing this family (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103516440B (zh) * 2012-06-29 2015-07-08 华为技术有限公司 语音频信号处理方法和编码装置
CN106847297B (zh) 2013-01-29 2020-07-07 华为技术有限公司 高频带信号的预测方法、编/解码设备
RU2658892C2 (ru) * 2013-06-11 2018-06-25 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для расширения диапазона частот для акустических сигналов
CN111710342B (zh) * 2014-03-31 2024-04-16 弗朗霍弗应用研究促进协会 编码装置、解码装置、编码方法、解码方法及程序
US9697843B2 (en) * 2014-04-30 2017-07-04 Qualcomm Incorporated High band excitation signal generation
EP2980794A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoder and decoder using a frequency domain processor and a time domain processor
EP2980795A1 (en) 2014-07-28 2016-02-03 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Audio encoding and decoding using a frequency domain processor, a time domain processor and a cross processor for initialization of the time domain processor
TWI758146B (zh) 2015-03-13 2022-03-11 瑞典商杜比國際公司 解碼具有增強頻譜帶複製元資料在至少一填充元素中的音訊位元流
CN105280189B (zh) * 2015-09-16 2019-01-08 深圳广晟信源技术有限公司 带宽扩展编码和解码中高频生成的方法和装置
EP3182411A1 (en) * 2015-12-14 2017-06-21 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an encoded audio signal
US10346126B2 (en) 2016-09-19 2019-07-09 Qualcomm Incorporated User preference selection for audio encoding
JP6769299B2 (ja) * 2016-12-27 2020-10-14 富士通株式会社 オーディオ符号化装置およびオーディオ符号化方法
EP3396670B1 (en) * 2017-04-28 2020-11-25 Nxp B.V. Speech signal processing
EP3435376B1 (en) 2017-07-28 2020-01-22 Fujitsu Limited Audio encoding apparatus and audio encoding method
CN111386568B (zh) * 2017-10-27 2023-10-13 弗劳恩霍夫应用研究促进协会 使用神经网络处理器生成带宽增强的音频信号的装置、方法或计算机可读存储介质
CN108630212B (zh) * 2018-04-03 2021-05-07 湖南商学院 非盲带宽扩展中高频激励信号的感知重建方法与装置
CN110660409A (zh) * 2018-06-29 2020-01-07 华为技术有限公司 一种扩频的方法及装置
WO2020041497A1 (en) * 2018-08-21 2020-02-27 2Hz, Inc. Speech enhancement and noise suppression systems and methods
CN109243485B (zh) * 2018-09-13 2021-08-13 广州酷狗计算机科技有限公司 恢复高频信号的方法和装置
JP6693551B1 (ja) * 2018-11-30 2020-05-13 株式会社ソシオネクスト 信号処理装置および信号処理方法
CN113192517B (zh) 2020-01-13 2024-04-26 华为技术有限公司 一种音频编解码方法和音频编解码设备
CN113808596A (zh) * 2020-05-30 2021-12-17 华为技术有限公司 一种音频编码方法和音频编码装置
CN113963703A (zh) * 2020-07-03 2022-01-21 华为技术有限公司 一种音频编码的方法和编解码设备
CN113362837B (zh) * 2021-07-28 2024-05-14 腾讯音乐娱乐科技(深圳)有限公司 一种音频信号处理方法、设备及存储介质
CN114550732B (zh) * 2022-04-15 2022-07-08 腾讯科技(深圳)有限公司 一种高频音频信号的编解码方法和相关装置

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3246715B2 (ja) * 1996-07-01 2002-01-15 松下電器産業株式会社 オーディオ信号圧縮方法,およびオーディオ信号圧縮装置
MXPA03002115A (es) * 2001-07-13 2003-08-26 Matsushita Electric Ind Co Ltd DISPOSITIVO DE DECODIFICACION Y CODIFICACION DE SEnAL DE AUDIO.
JP2003108197A (ja) 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
EP2071565B1 (en) * 2003-09-16 2011-05-04 Panasonic Corporation Coding apparatus and decoding apparatus
BRPI0415464B1 (pt) 2003-10-23 2019-04-24 Panasonic Intellectual Property Management Co., Ltd. Aparelho e método de codificação de espectro.
JP4741476B2 (ja) * 2004-04-23 2011-08-03 パナソニック株式会社 符号化装置
CN101656076B (zh) * 2004-05-14 2013-01-23 松下电器产业株式会社 音频编码装置、音频编码方法以及通信终端和基站装置
ES2476992T3 (es) * 2004-11-05 2014-07-15 Panasonic Corporation Codificador, descodificador, método de codificación y método de descodificaci�n
JP4899359B2 (ja) * 2005-07-11 2012-03-21 ソニー株式会社 信号符号化装置及び方法、信号復号装置及び方法、並びにプログラム及び記録媒体
US20070299655A1 (en) * 2006-06-22 2007-12-27 Nokia Corporation Method, Apparatus and Computer Program Product for Providing Low Frequency Expansion of Speech
CN101548318B (zh) * 2006-12-15 2012-07-18 松下电器产业株式会社 编码装置、解码装置以及其方法
WO2009059633A1 (en) * 2007-11-06 2009-05-14 Nokia Corporation An encoder
CN101471072B (zh) * 2007-12-27 2012-01-25 华为技术有限公司 高频重建方法、编码装置和解码装置
US8515747B2 (en) * 2008-09-06 2013-08-20 Huawei Technologies Co., Ltd. Spectrum harmonic/noise sharpness control
WO2010028292A1 (en) * 2008-09-06 2010-03-11 Huawei Technologies Co., Ltd. Adaptive frequency prediction
US8532998B2 (en) * 2008-09-06 2013-09-10 Huawei Technologies Co., Ltd. Selective bandwidth extension for encoding/decoding audio/speech signal
US9037474B2 (en) * 2008-09-06 2015-05-19 Huawei Technologies Co., Ltd. Method for classifying audio signal into fast signal or slow signal
WO2010036061A2 (en) 2008-09-25 2010-04-01 Lg Electronics Inc. An apparatus for processing an audio signal and method thereof
CN101751926B (zh) 2008-12-10 2012-07-04 华为技术有限公司 信号编码、解码方法及装置、编解码系统
EP2380172B1 (en) * 2009-01-16 2013-07-24 Dolby International AB Cross product enhanced harmonic transposition
JP5511785B2 (ja) * 2009-02-26 2014-06-04 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
CN101521014B (zh) * 2009-04-08 2011-09-14 武汉大学 音频带宽扩展编解码装置
CO6440537A2 (es) * 2009-04-09 2012-05-15 Fraunhofer Ges Forschung Aparato y metodo para generar una señal de audio de sintesis y para codificar una señal de audio
WO2011048820A1 (ja) 2009-10-23 2011-04-28 パナソニック株式会社 符号化装置、復号装置およびこれらの方法
US20130030796A1 (en) * 2010-01-14 2013-01-31 Panasonic Corporation Audio encoding apparatus and audio encoding method
CN102473417B (zh) * 2010-06-09 2015-04-08 松下电器(美国)知识产权公司 频带扩展方法、频带扩展装置、集成电路及音频解码装置
ES2942867T3 (es) * 2010-07-19 2023-06-07 Dolby Int Ab Procesamiento de señales de audio durante la reconstrucción de alta frecuencia
US20120029926A1 (en) 2010-07-30 2012-02-02 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for dependent-mode coding of audio signals
JP5707842B2 (ja) * 2010-10-15 2015-04-30 ソニー株式会社 符号化装置および方法、復号装置および方法、並びにプログラム
DK3998607T3 (da) * 2011-02-18 2024-04-15 Ntt Docomo Inc Taleafkoder
CN102800317B (zh) * 2011-05-25 2014-09-17 华为技术有限公司 信号分类方法及设备、编解码方法及设备
CN102208188B (zh) 2011-07-13 2013-04-17 华为技术有限公司 音频信号编解码方法和设备
CN103718240B (zh) * 2011-09-09 2017-02-15 松下电器(美国)知识产权公司 编码装置、解码装置、编码方法和解码方法
JP2013122985A (ja) 2011-12-12 2013-06-20 Toshiba Corp 半導体記憶装置
RU2658892C2 (ru) * 2013-06-11 2018-06-25 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство и способ для расширения диапазона частот для акустических сигналов

Also Published As

Publication number Publication date
BR122020016403B1 (pt) 2022-09-06
CN111477245A (zh) 2020-07-31
RU2018121035A (ru) 2019-03-05
CN105408957B (zh) 2020-02-21
JPWO2014199632A1 (ja) 2017-02-23
US9489959B2 (en) 2016-11-08
CN105408957A (zh) 2016-03-16
RU2018121035A3 (es) 2019-03-05
RU2688247C2 (ru) 2019-05-21
US20170025130A1 (en) 2017-01-26
WO2014199632A1 (ja) 2014-12-18
US20170323649A1 (en) 2017-11-09
RU2015151169A3 (es) 2018-03-02
JP2021002069A (ja) 2021-01-07
JP6407150B2 (ja) 2018-10-17
MX2015016109A (es) 2016-10-26
JP2019008317A (ja) 2019-01-17
JP7330934B2 (ja) 2023-08-22
EP3010018A4 (en) 2016-06-15
US10157622B2 (en) 2018-12-18
US20160111103A1 (en) 2016-04-21
EP3010018B1 (en) 2020-08-12
RU2015151169A (ru) 2017-06-05
KR102158896B1 (ko) 2020-09-22
US10522161B2 (en) 2019-12-31
CN111477245B (zh) 2024-06-11
BR112015029574A2 (pt) 2017-07-25
MX353240B (es) 2018-01-05
EP3731226A1 (en) 2020-10-28
US9747908B2 (en) 2017-08-29
JP2019008316A (ja) 2019-01-17
RU2658892C2 (ru) 2018-06-25
BR112015029574B1 (pt) 2021-12-21
EP3010018A1 (en) 2016-04-20
US20190122679A1 (en) 2019-04-25
KR20160018497A (ko) 2016-02-17
JP6773737B2 (ja) 2020-10-21
PT3010018T (pt) 2020-11-13

Similar Documents

Publication Publication Date Title
ES2836194T3 (es) Dispositivo y procedimiento para la extensión de ancho de banda para señales acústicas
ES2959641T3 (es) Aparato y método para decodificar o codificar una señal de audio utilizando valores de información para una banda de reconstrucción
ES2706148T3 (es) Dispositivo de codificación de audio vocal, dispositivo de decodificación de audio vocal, procedimiento de codificación de audio vocal, y procedimiento de decodificación de audio vocal
ES2625895T3 (es) Método y dispositivo para la ocultación eficiente del borrado de tramas en códecs de voz basados en la predicción lineal
JP5249426B2 (ja) 信号符号化及び復号化方法及び装置、並びに符号化及び復号化システム
US20110251846A1 (en) Transient Signal Encoding Method and Device, Decoding Method and Device, and Processing System
ES2927563T3 (es) Métodos y dispositivos de codificación y descodificación de señal
ES2703873T3 (es) Codificación/descodificación de la transformada de señales armónicas de audio
US20240161755A1 (en) Inter-Channel Phase Difference Parameter Extraction Method and Apparatus
JPWO2012169133A1 (ja) 音声符号化装置、音声復号装置、音声符号化方法及び音声復号方法
KR101942411B1 (ko) 손실 프레임을 처리하는 방법 및 장치
KR101786863B1 (ko) 고 주파수 복원 알고리즘들을 위한 주파수 대역 테이블 설계
JP2013019968A (ja) 周波数帯コピー方法、装置及びオーディオ復号化方法、システム
Chaudhari et al. A New Algorithm for Voice Signal Compression (VSC) & Analysis Suitable for Limited Storage Devices Using Matlab
BRPI0500044B1 (pt) tampa de rosca para garrafas com indicador de violação