ES2812553T3 - Método, dispositivo y sistema de transmisión de datos multimedia - Google Patents

Método, dispositivo y sistema de transmisión de datos multimedia Download PDF

Info

Publication number
ES2812553T3
ES2812553T3 ES13885513T ES13885513T ES2812553T3 ES 2812553 T3 ES2812553 T3 ES 2812553T3 ES 13885513 T ES13885513 T ES 13885513T ES 13885513 T ES13885513 T ES 13885513T ES 2812553 T3 ES2812553 T3 ES 2812553T3
Authority
ES
Spain
Prior art keywords
frame
silence
comfort noise
parameter
frames
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES13885513T
Other languages
English (en)
Inventor
Zhe Wang
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2812553T3 publication Critical patent/ES2812553T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/167Audio streaming, i.e. formatting and decoding of an encoded audio signal representation into a data stream for transmission or storage purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Noise Elimination (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Soundproofing, Sound Blocking, And Sound Damping (AREA)
  • Diaphragms For Electromechanical Transducers (AREA)

Abstract

Un método de codificación de señales de audio que comprende: en un caso en el cual una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, predecir (210) un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama de descriptor de silencio, SID, y determinar una señal de silencio real, en donde la trama actualmente ingresada es una trama de silencio; determinar (220) un grado de desviación entre el ruido de confort y la señal de silencio real; determinar (230) una manera de codificación de la trama actualmente ingresada según el grado de desviación, en donde la manera de codificación de la trama actualmente ingresada es una manera de codificación de tramas de mantenimiento; y codificar (240) la trama actualmente ingresada según la manera de codificación de la trama actualmente ingresada.

Description

DESCRIPCIÓN
Método, dispositivo y sistema de transmisión de datos multimedia
Campo técnico
La presente invención se refiere al campo del procesamiento de señales y, en particular, a un método y dispositivo de codificación de señales.
Antecedentes
Un sistema de transmisión discontinua (Discontinuous Transmission, DTX) es un sistema de comunicación por voz ampliamente aplicado, donde en un período de silencio de la comunicación por voz, una manera de codificar y transmitir, de manera discontinua, una trama de voz puede usarse para reducir la ocupación del ancho de banda del canal y, mientras tanto, la calidad de la llamada subjetiva adecuada puede aún asegurarse.
Las señales de voz pueden, normalmente, clasificarse en dos tipos, a saber, una señal de voz activa y una señal de silencio. La señal de voz activa se refiere a una señal que incluye una voz de llamada, y la señal de silencio se refiere a una señal que no incluye una voz de llamada. En el sistema DTX, la señal de voz activa se transmite mediante el uso de un método de transmisión continua y la señal de silencio se transmite mediante el uso de un método de transmisión discontinua. La transmisión discontinua de la señal de silencio se implementa de la siguiente manera: un codificador codifica y envía, de manera intermitente, una trama de codificación especial, a saber, una trama de descriptor de silencio (Silence Descriptor, SID), donde, en el sistema DTX, ninguna otra trama de señal se codifica entre dos tramas SID adyacentes. Un decodificador genera, de manera discrecional, según las tramas SID recibidas de forma discontinua, un ruido que permite la escucha subjetiva agradable de un usuario. El ruido de confort (Comfort Noise, CN) no pretende restablecer, de manera precisa, una señal de silencio original, sino que pretende satisfacer un requisito de un usuario de decodificador con respecto a la calidad de escucha subjetiva y permitir que el usuario no se sienta incómodo.
Con el fin de obtener una mejor calidad de escucha subjetiva en el decodificador, la calidad de transición de una banda de voz activa a una banda CN es crucial. Para obtener una transición más suave, un método eficaz es que: durante la transición de una banda de voz activa a una banda de silencio, el codificador no transita a un estado de transmisión discontinua inmediatamente, sino que, además, se retrasa durante un período. En el presente período, algunas tramas de silencio al comienzo de la banda de silencio aún se consideran tramas de voz activa y se codifican y envían, de manera continua, es decir, un intervalo de mantenimiento de transmisión continua se establece. La ventaja de la presente medida reside en que: el decodificador puede usar totalmente una señal de silencio dentro del intervalo de mantenimiento para calcular mejor y extraer una característica de la señal de silencio para generar un mejor CN.
Sin embargo, en la técnica anterior, un mecanismo de mantenimiento no se controla de manera eficaz. Una condición para activar el mecanismo de mantenimiento es relativamente simple, es decir, si activar el mecanismo de mantenimiento se determina simplemente mediante la comprobación de si hay suficientes tramas de voz activa que se codificarán y enviarán de manera continua al final de una actividad de voz; después de que el mecanismo de mantenimiento se activa, un intervalo de mantenimiento en una longitud fija puede ejecutarse de manera obligatoria. Sin embargo, no es necesario que un intervalo de mantenimiento en una longitud fija deba ejecutarse cuando hay suficientes tramas de voz activa que se codificarán y enviarán de manera continua, por ejemplo, cuando un ruido de fondo de un entorno de comunicación es estable, incluso si no se establece intervalo de mantenimiento alguno o si un intervalo de mantenimiento corto se establece, el decodificador puede obtener un CN que tenga mejor calidad. Por lo tanto, el presente modo de controlar, de forma simple, el mecanismo de mantenimiento provoca una pérdida de ancho de banda de comunicación.
El documento WO 2008/121035 A1 se refiere a un codificador de voz que comprende: un detector de actividad de voz (VAD, por sus siglas en inglés) configurado para recibir tramas de voz y para generar una decisión de voz (VAD_indicador), un codificador de voz/SID configurado para recibir dichas tramas de voz y para generar una señal que identifica tramas de voz según la decisión del codificador (SP) que, a su vez, se basa en la decisión de voz (VAD_indicador) y un período de mantenimiento de DTX y un sincronizador SID configurado para transmitir una señal (TipoTx) que comprende tramas de voz, tramas SID y tramas No_datos.
El documento WO 2011/049514 A1 se refiere a un método y a un estimador de fondo en el detector de actividad de voz para actualizar un cálculo de ruido de fondo para una señal de entrada. La señal de entrada para una trama actual se recibe y se determina si la trama actual de la señal de entrada no comprende ruido. Además, una determinación adicional se lleva a cabo sobre si la trama actual de la entrada de no ruido comprende ruido mediante el análisis de las características al menos relacionadas con el nivel de correlación y energía de la señal de entrada, y el cálculo de ruido de fondo se actualiza si se determina que la trama actual comprende ruido.
El documento US2002/120440 A1 se refiere a un método y a un aparato para detectar y transmitir señales de voz en un sistema de red de voz por paquete. El método y aparato hacen uso de una unidad de detección de actividad de voz (VAD) en un transmisor para determinar si una señal de entrada contiene información de audio activo o información de audio pasivo, donde la señal de entrada incluye múltiples tramas. Para una o más tramas de la señal de entrada que contiene información de audio activo, el VAD computa un período de mantenimiento. Dicho cómputo incluye determinar si el período de mantenimiento tiene una duración fija o una duración variable según las características de la información de audio activo contenida en la única o más tramas. Cuando el VAD detecta una trama que contiene información de audio pasivo subsiguiente a la única o más tramas que contienen información de audio activo, la señal de entrada se suprime después del vencimiento del período de mantenimiento computado a partir de la detección de la información de audio pasivo.
Compendio
La presente invención provee un método y dispositivo de codificación de señales de audio según las reivindicaciones 1 y 13, los cuales pueden ahorrar ancho de banda de comunicación.
Según un primer aspecto, se provee un método de codificación de señales de audio, que incluye: en un caso en el cual una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, predecir un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama de descriptor de silencio SID, y determinar una señal de silencio real, donde la trama actualmente ingresada es una trama de silencio; determinar un grado de desviación entre el ruido de confort y la señal de silencio real; determinar una manera de codificación de la trama actualmente ingresada según el grado de desviación, donde la manera de codificación de la trama actualmente ingresada es una manera de codificación de tramas de mantenimiento; y codificar la trama actualmente ingresada según la manera de codificación de la trama actualmente ingresada. Posibles maneras de implementación se definen por las reivindicaciones dependientes.
En la presente invención, en un caso en el cual una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID se predice, un grado de desviación entre el ruido de confort y una señal de silencio real se determina, y se determina, según el grado de desviación, que una manera de codificación de la trama actualmente ingresada es una manera de codificación de tramas de mantenimiento, en lugar de que la trama actualmente ingresada se codifique en una trama de mantenimiento simplemente según una cantidad, obtenida a través de una compilación de las estadísticas, de tramas de voz activa y, de esta manera, se ahorra ancho de banda de comunicación.
Breve descripción de los dibujos
Con el fin de describir las soluciones técnicas de la presente invención de forma más clara, a continuación se introducen los dibujos anexos.
La Figura 1 es un diagrama de bloques esquemático de un sistema de comunicación por voz según una realización de la presente invención;
la Figura 2 es un diagrama de flujo esquemático de un método de codificación de señales según una realización de la presente invención;
la Figura 3a es un diagrama de flujo esquemático de un proceso de un método de codificación de señales según una realización de la presente invención;
la Figura 3b es un diagrama de flujo esquemático de un proceso de un método de codificación de señales que no es parte de la invención;
la Figura 4 es un diagrama de flujo esquemático de un método de procesamiento de señales que no es parte de la invención;
la Figura 5 es un diagrama de flujo esquemático de un método de procesamiento de señales que no es parte de la invención;
la Figura 6 es un diagrama de flujo esquemático de un método de procesamiento de señales que no es parte de la invención;
la Figura 7 es un diagrama de bloques esquemático de un dispositivo de codificación de señales según una realización de la presente invención;
la Figura 8 es un diagrama de bloques esquemático de un dispositivo de procesamiento de señales que no es parte de la invención;
la Figura 9 es un diagrama de bloques esquemático de un dispositivo de procesamiento de señales que no es parte de la invención;
la Figura 10 es un diagrama de bloques esquemático de un dispositivo de procesamiento de señales que no es parte de la invención;
la Figura 11 es un diagrama de bloques esquemático de un dispositivo de codificación de señales que no es parte de la invención;
la Figura 12 es un diagrama de bloques esquemático de un dispositivo de procesamiento de señales que no es parte de la invención;
la Figura 13 es un diagrama de bloques esquemático de un dispositivo de procesamiento de señales que no es parte de la invención; y
la Figura 14 es un diagrama de bloques esquemático de un dispositivo de procesamiento de señales que no es parte de la invención.
Descripción de las realizaciones
A continuación se describen, de forma clara y completa, las soluciones técnicas de la presente invención con referencia a los dibujos anexos que muestran realizaciones de la presente invención y ejemplos que no son parte de la presente invención. De manera aparente, las realizaciones descritas son algunas pero no todas las realizaciones de la presente invención.
La Figura 1 es un diagrama de bloques esquemático de un sistema de comunicación por voz según una realización de la presente invención.
Un sistema 100 en la Figura 1 puede ser un sistema DTX. El sistema 100 puede incluir un codificador 110 y un decodificador 120.
El codificador 110 puede truncar una señal de voz de dominio del tiempo de entrada en una trama de voz, codificar la trama de voz y enviar la trama de voz codificada al decodificador 120. El decodificador 120 puede recibir la trama de voz codificada del codificador 110, decodificar la trama de voz codificada y emitir la señal de voz de dominio del tiempo decodificada.
El codificador 110 puede además incluir un detector 110a de actividad de voz ( Voice Activity Detector, VAD). El VAD 110a puede detectar si una trama de voz actualmente ingresada es una trama de voz activa o una trama de silencio. La trama de voz activa puede representar una trama que incluye una señal voz de llamada y la trama de silencio puede representar una trama que no incluye una señal de voz de llamada. En la presente memoria, la trama de silencio puede incluir una trama silenciosa cuya energía es menor que un umbral de silencio, o puede también incluir una trama de ruido de fondo. El codificador 110 puede tener dos estados de funcionamiento, es decir, un estado de transmisión continua y un estado de transmisión discontinua. Cuando el codificador 110 funciona en el estado de transmisión continua, el codificador 110 puede codificar cada trama de voz de entrada y enviar la trama codificada. Cuando el codificador 110 funciona en el estado de transmisión discontinua, el codificador 110 puede no codificar una trama de voz de entrada, o puede codificar la trama de voz en una trama SID. En general, solo cuando la trama de voz de entrada es una trama de silencio, el codificador 110 funciona en el estado de transmisión discontinua.
Cuando una trama de silencio actualmente ingresada es la primera trama después del final de una banda de voz activa, donde la banda de voz activa incluye un intervalo de mantenimiento que puede existir, el codificador 110 puede codificar la trama de silencio en una trama SID, donde SID_PRIMERO puede usarse para representar la trama SID. Cuando la trama de silencio actualmente ingresada es la nésima trama después de una trama SID previa, donde n es un entero positivo, y no hay una trama de voz activa entre la trama de silencio actualmente ingresada y la trama SID previa, el codificador 110 puede codificar la trama de silencio en una trama SID, donde SID_ACTUALIZAR puede usarse para representar la trama SID.
La trama SID puede incluir cierta información que describa una característica de una señal de silencio. El decodificador puede generar un ruido de confort según la información de características. Por ejemplo, la trama SID puede incluir información de energía e información espectral de la señal de silencio. Además, por ejemplo, la información de energía de la señal de silencio puede incluir energía de una señal de excitación en un modelo de predicción lineal con excitación por código (Code Excited Linear Prediction, CELP), o energía de dominio del tiempo de la señal de silencio. La información espectral puede incluir un coeficiente de frecuencia espectral de línea (Line Spectral Frequency, LSF), un coeficiente de par de espectro de línea (Line Spectrum Pair, LSP), un coeficiente de frecuencia espectral de inmitancia (Immittance Spectral Frequency, ISF), un coeficiente de par espectral de inmitancia (Immittance Spectral Pair, ISP), un coeficiente de codificación predictiva lineal (Linear Predictive Coding, LPC), un coeficiente de transformada rápida de Fourier (Fast Fourier Transform, FFT), o un coeficiente de transformada del coseno discreta modificada (Modified Discrete Cosine Transform, MDCT), o similares.
La trama de voz codificada puede incluir tres tipos: una trama de voz codificada, una trama SID y una trama NO_DATOS. La trama de voz codificada es una trama que se codifica por el codificador 110 en un estado de transmisión continua, y la trama NO DATOS puede representar una trama que no tiene bits codificados, es decir, una trama que no existe físicamente como, por ejemplo, una trama de silencio que no se codifica y que se encuentra entre tramas SID.
El decodificador 120 puede recibir una trama de voz codificada del codificador 110 y decodificar la trama de voz codificada. Cuando la trama de voz codificada se recibe, el decodificador puede decodificar directamente la trama y emitir una trama de voz de dominio del tiempo. Cuando una trama SID se recibe, el decodificador puede decodificar la trama SID, y obtener información de longitud de mantenimiento, información de energía e información espectral en la trama SID. De manera específica, cuando la trama SID es SID_ACTUALIZAR, el decodificador puede obtener información de energía e información espectral de una señal de silencio, es decir, obtener un parámetro CN, según la información en la trama SID actual, o según la información en la trama SID actual y con referencia a otra información, para generar una trama CN de dominio del tiempo según el parámetro CN. Cuando la trama SID es SID_PRIMERO, el decodificador obtiene, según la información de longitud de mantenimiento en la trama SID, información de estadísticas de energía y espectros en m tramas que preceden a la trama, y obtiene un parámetro CN con referencia a información que se obtiene a través de la decodificación y se encuentra en la trama SID, para generar una trama CN de dominio del tiempo, donde m es un entero positivo. Cuando una trama NO DATOS se ingresa en el decodificador, el decodificador obtiene un parámetro CN según una trama SID recientemente recibida y con referencia a otra información, para generar una trama CN de dominio del tiempo.
La Figura 2 es un diagrama de flujo esquemático de un método de codificación de señales según una realización de la presente invención. El método en la Figura 2 se ejecuta por un codificador, por ejemplo, puede ejecutarse por el codificador 110 en la Figura 1.
210: En un caso en el cual una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, predecir un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID, y determinar una señal de silencio real, donde la trama actualmente ingresada es una trama de silencio.
En la presente realización de la presente invención, la señal de silencio real puede referirse a una señal de silencio real ingresada en el codificador.
220: Determinar un grado de desviación entre el ruido de confort y la señal de silencio real.
230: Determinar una manera de codificación de la trama actualmente ingresada según el grado de desviación, donde la manera de codificación de la trama actualmente ingresada incluye una manera de codificación de tramas de mantenimiento o una manera de codificación de tramas SID.
De manera específica, la manera de codificación de tramas de mantenimiento puede referirse a una manera de codificación continua. El codificador puede codificar una trama de silencio en un intervalo de mantenimiento en la manera de codificación continua, y puede hacerse referencia a una trama obtenida a través de la codificación como una trama de mantenimiento.
240: Codificar la trama actualmente ingresada según la manera de codificación de la trama actualmente ingresada.
En la etapa 210, el codificador puede determinar, según diferentes factores, codificar la trama previa de la trama actualmente ingresada en la manera de codificación continua, por ejemplo, si un VAD en el codificador determina que la trama previa se encuentra en una banda de voz activa o el codificador determina que la trama previa se encuentra en un intervalo de mantenimiento, el codificador puede codificar la trama previa en la manera de codificación continua.
Después de que una señal de voz de entrada entra en una banda de silencio, el codificador puede determinar, según una situación real, si funcionar en un estado de transmisión continua o en un estado de transmisión discontinua. Por lo tanto, para la trama actualmente ingresada usada como la trama de silencio, el codificador necesita determinar cómo codificar la trama actualmente ingresada.
La trama actualmente ingresada puede ser la primera trama de silencio después de que la señal de voz de entrada entra en la banda de silencio, o puede también ser la nésima trama después de que la señal de voz de entrada entra en la banda de silencio, donde n es un entero positivo mayor que 1.
Si la trama actualmente ingresada es la primera trama de silencio, en la etapa 230, que el codificador determina una manera de codificación de la trama actualmente ingresada es: determinar si un intervalo de mantenimiento necesita establecerse, donde si un intervalo de mantenimiento necesita establecerse, el codificador puede codificar la trama actualmente ingresada en una trama de mantenimiento, y si ningún intervalo de mantenimiento necesita establecerse, el codificador puede codificar la trama actualmente ingresada en una trama SID.
Si la trama actualmente ingresada es la nésima trama de silencio y el codificador puede determinar que la trama actualmente ingresada se encuentra en un intervalo de mantenimiento, es decir, las tramas de silencio que preceden a la trama actualmente ingresada se codifican de manera continua, en la etapa 230, que el codificador determina una manera de codificación de la trama actualmente ingresada es: determinar si finalizar el intervalo de mantenimiento, donde si el intervalo de mantenimiento necesita finalizarse, el codificador puede codificar la trama actualmente ingresada en una trama SID, y si el intervalo de mantenimiento necesita prolongarse, el codificador puede codificar la trama actualmente ingresada en una trama de mantenimiento.
Si la trama actualmente ingresada es la nésima trama de silencio y no hay un mecanismo de mantenimiento alguno, en la etapa 230, el codificador necesita determinar la manera de codificación de la trama actualmente ingresada, de modo que el decodificador puede obtener una mejor señal de ruido de confort después de decodificar la trama actualmente ingresada codificada.
Como puede verse, la presente realización de la presente invención no solo puede aplicarse en un escenario de activación de un mecanismo de mantenimiento, sino que también puede aplicarse en un escenario de ejecución del mecanismo de mantenimiento, y también puede aplicarse en un escenario en el cual no hay un mecanismo de mantenimiento alguno. De manera específica, en la presente realización de la presente invención, si activar el mecanismo de mantenimiento puede determinarse, y si finalizar el mecanismo de mantenimiento con antelación puede también determinarse. De manera alternativa, para un escenario en el cual no hay un mecanismo de mantenimiento, en la presente realización de la presente invención, una manera de codificación de una trama de silencio puede determinarse, para lograr mejores efectos de codificación y efectos de decodificación.
De manera específica, puede suponerse que el codificador codifica la trama actualmente ingresada en una trama SID, si el decodificador recibe la trama SID, el decodificador genera el ruido de confort según la trama SID y el codificador puede predecir el ruido de confort. Luego, el codificador puede calcular un grado de desviación entre el ruido de confort y una señal de silencio real que se ingresa en el codificador. El grado de desviación en la presente memoria puede comprenderse como un grado de similitud. Si el ruido de confort pronosticado es suficientemente cercano a la señal de silencio real, el codificador puede considerar que ningún intervalo de mantenimiento necesita establecerse o que un intervalo de mantenimiento no necesita prolongarse.
En la técnica anterior, si ejecutar un intervalo de mantenimiento en una longitud fija se determina simplemente mediante la compilación de estadísticas sobre una cantidad de tramas de voz activa. Es decir, si hay suficientes tramas de voz activa que se codificarán de manera continua, un intervalo de mantenimiento en una longitud fija se establece. Independientemente de si la trama actualmente ingresada es la primera trama de silencio, o la nésima trama de silencio que se encuentra en el intervalo de mantenimiento, la trama actualmente ingresada se codifica en la trama de mantenimiento. Sin embargo, las tramas de mantenimiento innecesarias pueden provocar una pérdida de ancho de banda de comunicación. Sin embargo, en la presente realización de la presente invención, la manera de codificación de la trama actualmente ingresada se determina según el grado de desviación entre el ruido de confort pronosticado y la señal de silencio real, en lugar de que la trama actualmente ingresada se codifique en la trama de mantenimiento simplemente según una cantidad de tramas de voz activa y, de esta manera, se ahorra ancho de banda de comunicación.
En la presente realización de la presente invención, en un caso en el cual una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID se predice, un grado de desviación entre el ruido de confort y una señal de silencio real se determina, y se determina, según el grado de desviación, que una manera de codificación de la trama actualmente ingresada es una manera de codificación de tramas de mantenimiento o una manera de codificación de tramas SID, en lugar de que la trama actualmente ingresada se codifique en una trama de mantenimiento simplemente según una cantidad, obtenida a través de una compilación de las estadísticas, de tramas de voz activa y, de esta manera, se ahorra ancho de banda de comunicación.
De manera opcional, como una realización, en la etapa 210, el codificador puede predecir el ruido de confort en una primera manera de predicción, donde la primera manera de predicción es la misma que una manera en la cual el decodificador genera el ruido de confort.
De manera específica, el codificador y el decodificador pueden determinar el ruido de confort en una misma manera; o, el codificador y el decodificador pueden determinar el ruido de confort de diferentes maneras, lo cual no se encuentra limitado en la presente realización de la presente invención.
De manera opcional, como una realización, en la etapa 210, el codificador puede predecir un parámetro de características del ruido de confort y determinar un parámetro de características de la señal de silencio real, donde el parámetro de características del ruido de confort se encuentra en una correspondencia uno a uno con respecto al parámetro de características de la señal de silencio real. En la etapa 220, el codificador puede determinar una distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real.
De manera específica, el codificador puede comparar el parámetro de características del ruido de confort con el parámetro de características de la señal de silencio real, para obtener la distancia entre los parámetros de características, para determinar el grado de desviación entre el ruido de confort y la señal de silencio real. El parámetro de características del ruido de confort debe encontrarse en una correspondencia uno a uno con respecto al parámetro de características de la señal de silencio real. Es decir, un tipo del parámetro de características del ruido de confort es igual a un tipo del parámetro de características de la señal de silencio real. Por ejemplo, el codificador puede comparar un parámetro de energía del ruido de confort con un parámetro de energía de la señal de silencio real, o puede también comparar un parámetro espectral del ruido de confort con un parámetro espectral de la señal de silencio real.
En la presente realización de la presente invención, cuando los parámetros de características son escalares, la distancia entre los parámetros de características puede referirse a un valor absoluto de una diferencia entre los parámetros de características, es decir, una distancia escalar. Cuando los parámetros de características son vectores, la distancia entre los parámetros de características puede referirse a la suma de distancias escalares de elementos correspondientes entre los parámetros de características.
De manera opcional, como otra realización, en la etapa 230, el codificador puede determinar, en un caso en el cual la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es menor que un umbral correspondiente en un conjunto de umbrales, que la manera de codificación de la trama actualmente ingresada es la manera de codificación de la trama SID, donde la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real se encuentra en una correspondencia uno a uno con respecto al umbral en el conjunto de umbrales. El codificador puede también determinar, en un caso en el cual la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es mayor que o igual al umbral correspondiente en el conjunto de umbrales, que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas de mantenimiento.
De manera específica, el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real pueden incluir, cada uno, al menos un parámetro; por lo tanto, la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real puede también incluir una distancia entre al menos un tipo de parámetros. El conjunto de umbrales puede también incluir al menos un umbral. Una distancia entre cada tipo de parámetros puede corresponder a un umbral. Cuando se determina la manera de codificación de la trama actualmente ingresada, el codificador puede comparar, de manera separada, la distancia entre al menos un tipo de parámetros con un umbral correspondiente en el conjunto de umbrales. El al menos un umbral en el conjunto de umbrales puede prestablecerse, o puede también determinarse por el codificador según parámetros de características de múltiples tramas de silencio que preceden a la trama actualmente ingresada.
Si la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es menor que el umbral correspondiente en el conjunto de umbrales, el codificador puede considerar que el ruido de confort es suficientemente cercano a la señal de silencio real y, por lo tanto, puede codificar la trama actualmente ingresada en una trama SID. Si la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es mayor que o igual al umbral correspondiente en el conjunto de umbrales, el codificador puede considerar que una desviación entre el ruido de confort y la señal de silencio real es relativamente grande y, por lo tanto, puede codificar la trama actualmente ingresada en una trama de mantenimiento.
De manera opcional, como otra realización, el parámetro de características del ruido de confort puede usarse para representar al menos una de la siguiente información: información de energía e información espectral.
De manera opcional, como otra realización, la información de energía puede incluir energía de excitación CELP. La información espectral puede incluir al menos uno de los siguientes: un coeficiente de filtro predictivo lineal, un coeficiente FFT y un coeficiente MDCT. El coeficiente de filtro predictivo lineal puede incluir al menos uno de los siguientes: un coeficiente LSF, un coeficiente LSP, un coeficiente ISF, un coeficiente ISP, un coeficiente de reflexión y un coeficiente LPC.
De manera opcional, como otra realización, en la etapa 210, el codificador puede determinar que un parámetro de características de la trama actualmente ingresada es el parámetro de características de la señal de silencio real. De manera alternativa, el codificador puede compilar las estadísticas sobre parámetros de características de M tramas de silencio, para determinar el parámetro de características de la señal de silencio real.
De manera opcional, como otra realización, las M tramas de silencio pueden incluir la trama actualmente ingresada y (M-1) tramas de silencio que preceden a la trama actualmente ingresada, donde M es un entero positivo.
Por ejemplo, si la trama actualmente ingresada es la primera trama de silencio, el parámetro de características de la señal de silencio real puede ser el parámetro de características de la trama actualmente ingresada; si la trama actualmente ingresada es la nésima trama de silencio, el parámetro de características de la señal real puede obtenerse por el codificador mediante compilación de las estadísticas sobre parámetros de características de las M tramas de silencio, incluida la trama actualmente ingresada. Las M tramas de silencio pueden ser continuas, o pueden también ser discontinuas, lo cual no se encuentra limitado en la presente realización de la presente invención.
De manera opcional, como otra realización, en la etapa 210, el codificador puede predecir el parámetro de características del ruido de confort según un parámetro de ruido de confort de la trama previa de la trama actualmente ingresada y un parámetro de características de la trama actualmente ingresada. De manera alternativa, el codificador puede predecir el parámetro de características del ruido de confort según los parámetros de características de L tramas de mantenimiento que preceden a la trama actualmente ingresada y el parámetro de características de la trama actualmente ingresada, donde L es un entero positivo.
Por ejemplo, si la trama actualmente ingresada es la primera trama de silencio, el codificador puede predecir el parámetro de características del ruido de confort según el parámetro de ruido de confort de la trama previa y el parámetro de características de la trama actualmente ingresada. Cuando se codifica cada trama, el codificador puede guardar un parámetro de ruido de confort de cada trama en el codificador. Normalmente, solo cuando una trama ingresada es una trama de silencio, el parámetro de ruido de confort guardado puede cambiar con respecto al de una trama previa, dado que el codificador puede actualizar el parámetro de ruido de confort guardado según un parámetro de características de la trama de silencio actualmente ingresada, y normalmente no actualiza el parámetro de ruido de confort cuando la trama actualmente ingresada es una trama de voz activa. Por lo tanto, el codificador puede adquirir un parámetro de ruido de confort, almacenado en el codificador, de la trama previa. Por ejemplo, el parámetro de ruido de confort puede incluir un parámetro de energía y un parámetro espectral de una señal de silencio.
Además, si la trama actualmente ingresada se encuentra actualmente en un intervalo de mantenimiento, el codificador puede compilar estadísticas sobre parámetros de las L tramas de mantenimiento que preceden a la trama actualmente ingresada, y obtener el parámetro de características del ruido de confort según un resultado obtenido a través de la compilación de estadísticas y el parámetro de características de la trama actualmente ingresada.
De manera opcional, como otra realización, el parámetro de características del ruido de confort puede incluir energía de excitación CELP del ruido de confort y un coeficiente LSF del ruido de confort, y el parámetro de características de la señal de silencio real puede incluir energía de excitación CELP de la señal de silencio real y un coeficiente LSF de la señal de silencio real. En la etapa 220, el codificador puede determinar una distancia De entre la energía de excitación CELP del ruido de confort y la energía de excitación CELP de la señal de silencio real, y determinar una distancia Dlsf entre el coeficiente LSF del ruido de confort y el coeficiente LSF de la señal de silencio real.
Debe notarse que la distancia De y la distancia Dlsf pueden incluir una variación, o pueden también incluir un grupo de variaciones. Por ejemplo, la distancia Dlsf puede incluir dos variaciones, donde una variación puede ser una distancia promedio entre coeficientes LSF, es decir, un valor promedio de distancias entre coeficientes LSF, y la otra puede ser una distancia máxima entre coeficientes LSF, es decir, una distancia entre un par de coeficientes LSF que tienen la distancia máxima.
De manera opcional, como otra realización, en la etapa 230, en un caso en el cual la distancia De es menor que un primer umbral y la distancia Dlsf es menor que un segundo umbral, el codificador puede determinar que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas SID. En un caso en el cual la distancia De es mayor que o igual al primer umbral o la distancia Dlsf es mayor que o igual al segundo umbral, el codificador puede determinar que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas de mantenimiento. El primer umbral y el segundo umbral pertenecen, ambos, al conjunto de umbrales.
De manera opcional, como otra realización, cuando De o Dlsf incluyen un grupo de variaciones, el codificador compara cada variación en el grupo de variaciones con un umbral correspondiente, para determinar una manera de codificar de la trama actualmente ingresada.
De manera específica, el codificador puede determinar la manera de codificación de la trama actualmente ingresada según la distancia De y la distancia Dlsf. Si la distancia De < el primer umbral y la distancia Dlsf < el segundo umbral, ello puede indicar que la energía de excitación CELP y el coeficiente LSF del ruido de confort pronosticado son ligeramente diferentes de la energía de excitación CELP y del coeficiente LSF de la señal de silencio real, y el codificador puede considerar que el ruido de confort es suficientemente cercano a la señal de silencio real, y puede codificar la trama actualmente ingresada en una trama SID; de lo contrario, el codificador puede codificar la trama actualmente ingresada en una trama de mantenimiento.
De manera opcional, como otra realización, en la etapa 230, el codificador puede adquirir el primer umbral prestablecido y el segundo umbral prestablecido. De manera alternativa, el codificador puede determinar el primer umbral según la energía de excitación CELP de N tramas de silencio que preceden a la trama actualmente ingresada, y determinar el segundo umbral según los coeficientes LSF de las N tramas de silencio, donde N es un entero positivo.
De manera específica, tanto el primer umbral como el segundo umbral pueden ser valores fijos prestablecidos. De manera alternativa, tanto el primer umbral como el segundo umbral pueden ser variaciones autoadaptativas. Por ejemplo, el primer umbral puede obtenerse por el codificador mediante la compilación de estadísticas sobre la energía de excitación CELP de las N tramas de silencio que preceden a la trama actualmente ingresada, y el segundo umbral puede obtenerse por el codificador mediante la compilación de estadísticas sobre los coeficientes LSF de las N tramas de silencio que preceden a la trama actualmente ingresada, donde las N tramas de silencio pueden ser continuas, o pueden también ser discontinuas.
A continuación se describe un proceso específico de la Figura 2 en detalle mediante el uso de ejemplos específicos. En los ejemplos de la Figura 3a y Figura 3b, dos escenarios en los cuales la presente realización de la presente invención puede aplicarse se usan en aras de la descripción. Debe comprenderse que dichos ejemplos solo pretenden ayudar a una persona con experiencia en la técnica a comprender mejor la presente realización de la presente invención, en lugar de que limitar el alcance de la presente realización de la presente invención.
La Figura 3a es un diagrama de flujo esquemático de un proceso de un método de codificación de señales según una realización de la presente invención. En la Figura 3a, se supone que una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, y un VAD en un codificador determina que la trama actualmente ingresada es la primera trama de silencio después de que una señal de voz de entrada entra en una banda de silencio; luego, el codificador necesita determinar si establecer un intervalo de mantenimiento, es decir, necesita determinar si codificar la trama actualmente ingresada en una trama de mantenimiento o una trama SID. A continuación se describe el proceso en detalle.
301 a: Determinar la energía de excitación CELP y un coeficiente LSF de una señal de silencio real.
De manera específica, el codificador puede usar la energía e de excitación CELP de la trama actualmente ingresada como energía eSI de excitación CELP de la señal de silencio real, y puede usar un coeficiente LSF lsf(i) de la trama actualmente ingresada como un coeficiente LSF lsfSI(i) de la trama actualmente ingresada, donde i = 0, 1, ..., K-1, y K es un orden de filtro. El codificador puede determinar la energía de excitación CELP y el coeficiente LSF de la trama actualmente ingresada con referencia a la técnica anterior.
302a: Predecir la energía de excitación CELP y un coeficiente LSF de un ruido de confort que se genera por un decodificador según una trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID.
Puede suponerse que el codificador codifica la trama actualmente ingresada en una trama SID, el decodificador genera el ruido de confort según la trama SID. El codificador puede predecir la energía eCN de excitación CELP y un coeficiente LSF lsfCN(i) del ruido de confort, donde i = 0, 1, ..., K-1, y K es un orden de filtro. El codificador puede determinar, de forma separada, la energía de excitación CELP y el coeficiente LSF del ruido de confort según un parámetro de ruido de confort, almacenado en el codificador, de una trama previa y la energía de excitación CELP y el coeficiente LSF de la trama actualmente ingresada.
Por ejemplo, el codificador puede predecir la energía eCN de excitación CELP del ruido de confort según la siguiente ecuación (1):
Figure imgf000009_0001
donde eCM-1] puede representar la energía de excitación CELP de la trama previa, y e puede representar la energía de excitación CELP de la trama actualmente ingresada.
El codificador puede predecir el coeficiente LSF lsfCN(i) del ruido de confort según la siguiente ecuación (2), donde i = 0, 1, ..., K-1, y K es un orden de filtro:
lsfCN(i) = 0,4 * Is/CN' "(i) 0,6*lsf(í) (2)
donde /s/CM'1](/) puede representar un coeficiente LSF de la trama previa, y lsf(i) puede representar el iésimo coeficiente LSF de la trama actualmente ingresada.
303a: Determinar una distancia De entre la energía de excitación CELP del ruido de confort y la energía de excitación CELP de la señal de silencio real, y determinar una distancia Dlsf entre el coeficiente LSF del ruido de confort y el coeficiente LSF de la señal de silencio real.
De manera específica, el codificador puede determinar la distancia De entre la energía de excitación CELP del ruido de confort y la energía de excitación CELP de la señal de silencio real según la siguiente ecuación (3):
Figure imgf000009_0002
El codificador puede determinar la distancia Dlsf entre el coeficiente LSF del ruido de confort y el coeficiente LSF de la señal de silencio real según la siguiente ecuación (4):
304a: Determinar si la distancia De es menor que un primer umbral, y si la distancia Dlsf es menor que un segundo umbral.
De manera específica, tanto el primer umbral como el segundo umbral pueden ser valores fijos prestablecidos.
De manera alternativa, tanto el primer umbral como el segundo umbral pueden ser variaciones autoadaptativas. El codificador puede determinar el primer umbral según la energía de excitación CELP de N tramas de silencio que preceden a la trama actualmente ingresada, por ejemplo, el codificador puede determinar el primer umbral thr1 según la siguiente ecuación (5):
JV-1 1 A'-l
XOog^-log 2-^ Z ^ 1)
íhr\ = ^ ------ (5)
N
El codificador puede determinar el segundo umbral según los coeficientes LSF de N tramas de silencio, por ejemplo, el codificador puede determinar el segundo umbral thr2 según la siguiente ecuación (6):
Figure imgf000010_0001
En la ecuación (5) y ecuación (6), [x] puede representar la xésima trama, y x puede ser n, m, o p. Por ejemplo, e[m] puede representar la energía de excitación CELP de la mésima trama. lsf[n](i) puede representar el iésimo coeficiente LSF de la nésima trama, y lsf[p](i) puede representar el iésimo coeficiente LSF de la pésima trama.
305a: Si la distancia De es menor que el primer umbral y la distancia Dlsf es menor que el segundo umbral, determinar no establecer un intervalo de mantenimiento y codificar la trama actualmente ingresada en una trama SID.
Si la distancia De es menor que el primer umbral y la distancia Dlsf es menor que el segundo umbral, el codificador puede considerar que el ruido de confort que puede generarse por el decodificador es suficientemente cercano a la señal de silencio real, puede no establecerse intervalo de mantenimiento alguno, y la trama actualmente ingresada se codifica en la trama SID.
306a: Si la distancia De es mayor que o igual al primer umbral o la distancia Dlsf es mayor que o igual al segundo umbral, determinar establecer un intervalo de mantenimiento y codificar la trama actualmente ingresada en una trama de mantenimiento.
En la presente realización de la presente invención, se determina, según un grado de desviación entre un ruido de confort que se genera por un decodificador según una trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID y una señal de silencio real, que una manera de codificación de la trama actualmente ingresada es una manera de codificación de tramas de mantenimiento o una manera de codificación de tramas SID, en lugar de que la trama actualmente ingresada se codifique en una trama de mantenimiento simplemente según una cantidad, obtenida a través de una compilación de las estadísticas, de tramas de voz activa y, de esta manera, se ahorra ancho de banda de comunicación.
La Figura 3b es un diagrama de flujo esquemático de un proceso de un método de codificación de señales según otra realización de la presente invención. En la Figura 3b, se supone que una trama actualmente ingresada ya se encuentra en un intervalo de mantenimiento. Un codificador necesita determinar si finalizar el intervalo de mantenimiento, es decir, el codificador necesita determinar si continuar codificando la trama actualmente ingresada en una trama de mantenimiento o si codificar la trama actualmente ingresada en una trama SID. A continuación se describe el proceso en detalle.
301b: Determinar la energía de excitación CELP y un coeficiente LSF de una señal de silencio real.
De manera opcional, similar a la etapa 301a, el codificador puede usar la energía de excitación CELP y un coeficiente LSF de la trama actualmente ingresada como la energía de excitación CELP y el coeficiente LSF de la señal de silencio real.
De manera opcional, el codificador puede compilar estadísticas sobre energía de excitación CELP de M tramas de silencio que incluyen la trama actualmente ingresada, para obtener la energía de excitación CELP de la señal de silencio real, donde M < una cantidad de tramas de mantenimiento, que preceden a la trama actualmente ingresada, dentro del intervalo de mantenimiento.
Por ejemplo, el codificador puede determinar la energía eSl de excitación CELP de la señal de silencio real según la ecuación (7):
Figure imgf000011_0001
Para otro ejemplo, el codificador puede predecir un coeficiente LSF lsfSI(i) de la señal de silencio real según la siguiente ecuación (8), donde i = 0, 1, ..., K-1, y K es un orden de filtro:
l
Figure imgf000011_0004
En la ecuación (7) y ecuación (8) anteriores, w(j) puede representar un coeficiente de ponderación, e[j] puede representar la energía de excitación CELP de la jésima trama de silencio que precede a la trama actualmente ingresada.
302b: Predecir la energía de excitación CELP y un coeficiente LSF de un ruido de confort que se genera por un decodificador según una trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID.
De manera específica, el codificador puede, de manera separada, determinar la energía eCN de excitación CELP y un coeficiente LSF lsfCN(i) del ruido de confort según la energía de excitación CELP y los coeficientes LSF de L tramas de mantenimiento que preceden a la trama actualmente ingresada, donde i = 0, 1, ..., K-1, y K es un orden de filtro. Por ejemplo, el codificador puede determinar la energía eCN de excitación CELP del ruido de confort según la siguiente ecuación (9):
Figure imgf000011_0002
donde eHO-'i puede representar la energía de excitación de la jésima trama de mantenimiento que precede a la trama actualmente ingresada.
A modo de otro ejemplo, el codificador puede determinar el coeficiente LSF lsfCN(i) del ruido de confort según la siguiente ecuación (10), donde i = 0, 1, ..., K-1, y K es un orden de filtro:
Figure imgf000011_0003
donde lsfHO(¡)[~j puede representar el iésimo coeficiente LSF de la iésima trama de mantenimiento que precede a la trama actualmente ingresada.
En la ecuación (9) y ecuación (10), w(j) puede representar un coeficiente de ponderación.
303b: Determinar una distancia De entre la energía de excitación CELP del ruido de confort y la energía de excitación CELP de la señal de silencio real, y determinar una distancia Dlsf entre el coeficiente LSF del ruido de confort y el coeficiente LSF de la señal de silencio real.
Por ejemplo, el codificador puede determinar la distancia De entre la energía de excitación CELP del ruido de confort y la energía de excitación CELP de la señal de silencio real según la siguiente ecuación (3). El codificador puede determinar la distancia Dlsf entre el coeficiente LSF del ruido de confort y el coeficiente LSF de la señal de silencio real según la ecuación (4).
304b: Determinar si la distancia De es menor que un primer umbral, y si la distancia Dlsf es menor que un segundo umbral.
De manera específica, tanto el primer umbral como el segundo umbral pueden ser valores fijos prestablecidos.
De manera alternativa, tanto el primer umbral como el segundo umbral pueden ser variaciones autoadaptativas. Por ejemplo, el codificador puede determinar el primer umbral thr1 según la ecuación (5) y puede determinar el segundo umbral thr2 según la ecuación (6).
305b: Si la distancia De es menor que el primer umbral y la distancia Dlsf es menor que el segundo umbral, determinar finalizar el intervalo de mantenimiento y codificar la trama actualmente ingresada en una trama SID.
306b: Si la distancia De es mayor que o igual al primer umbral o la distancia Dlsf es mayor que o igual al segundo umbral, determinar continuar prolongando el intervalo de mantenimiento y codificar la trama actualmente ingresada en una trama de mantenimiento.
En la presente realización de la presente invención, se determina, según un grado de desviación entre un ruido de confort que se genera por un decodificador según una trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID y una señal de silencio real, que una manera de codificación de la trama actualmente ingresada es una manera de codificación de tramas de mantenimiento o una manera de codificación de tramas SID, en lugar de que la trama actualmente ingresada se codifique en una trama de mantenimiento simplemente según una cantidad, obtenida a través de una compilación de las estadísticas, de tramas de voz activa y, de esta manera, se ahorra ancho de banda de comunicación.
Como puede verse a partir de lo descrito más arriba, después de entrar en un estado de transmisión discontinua, un codificador puede codificar, de manera intermitente, una trama SID. La trama SID incluye, en general, cierta información que describe energía y un espectro de una señal de silencio. Después de recibir la trama SID del codificador, un decodificador puede generar un ruido de confort según la información en la trama SID. Actualmente, dado que la trama SID se codifica y envía una vez cada varias tramas, cuando se codifica la trama SID, el codificador normalmente obtiene información de la trama SID mediante compilación de estadísticas sobre una trama de silencio actualmente ingresada y varias tramas de silencio que preceden a la trama de silencio actualmente ingresada. Por ejemplo, dentro de un intervalo de silencio continuo, la información de una trama SID actualmente codificada se obtiene normalmente mediante compilación de estadísticas sobre la trama SID actual y múltiples tramas de silencio entre la trama SID actual y una trama SID previa. A modo de otro ejemplo, la información de codificación de la primera trama SID después de una banda de voz activa se obtiene, normalmente, por el codificador mediante la compilación de estadísticas sobre una trama de silencio actualmente ingresada y varias tramas de mantenimiento adyacentes al final de la banda de voz activa, es decir, obtenida mediante la compilación de estadísticas sobre tramas de silencio dentro de un intervalo de mantenimiento. En aras de la conveniencia de la descripción, se hace referencia a múltiples tramas de silencio usadas para compilar estadísticas sobre un parámetro de codificación de trama SID como un intervalo de análisis. De manera específica, cuando una trama SID se codifica, un parámetro de la trama SID se obtiene mediante la obtención de un valor promedio o un valor medio de parámetros de múltiples tramas de silencio dentro del intervalo de análisis. Sin embargo, un espectro de ruido de fondo real puede incluir varios componentes espectrales transitorios inesperados. Una vez que el intervalo de análisis incluya dichos componentes espectrales, los componentes pueden añadirse en la trama SID en un método para obtener un valor promedio, y un espectro de silencio que incluye dichos componentes espectrales puede incluirse codificarse de manera incorrecta en la trama SID en un método para obtener un valor medio y, de esta manera, hacer que la calidad de un ruido de confort que se genera por el decodificador según la trama SID se reduzca.
La Figura 4 es un diagrama de flujo esquemático de un método de procesamiento de señales según una realización de la presente invención. El método en la Figura 4 se ejecuta por un codificador o un decodificador, por ejemplo, puede ejecutarse por el codificador 110 o el decodificador 120 en la Figura 1.
410: Determinar una distancia espectral ponderada grupal (distancia espectral ponderada grupal) de cada trama de silencio en P tramas de silencio, donde la distancia espectral ponderada grupal de cada trama de silencio en las P tramas de silencio es la suma de distancias espectrales ponderadas entre cada trama de silencio en las P tramas de silencio y las otras (P-1) tramas de silencio, donde P es un entero positivo.
Por ejemplo, el codificador o decodificador puede almacenar parámetros de múltiples tramas de silencio que preceden a una trama de silencio actualmente ingresada en una memoria intermedia. Una longitud de la memoria intermedia puede ser fija o variable. Las P tramas de silencio pueden seleccionarse por el codificador o decodificador de la memoria intermedia.
420: Determinar un primer parámetro espectral según la distancia espectral ponderada grupal de cada trama de silencio en las P tramas de silencio, donde el primer parámetro espectral se usa para generar un ruido de confort.
En la presente realización de la presente invención, un primer parámetro espectral usado para generar un ruido de confort se determina según una distancia espectral ponderada grupal de cada trama de silencio en P tramas de silencio, en lugar de que un parámetro espectral usado para generar el ruido de confort se obtenga simplemente mediante obtención de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, mejorar la calidad del ruido de confort.
De manera opcional, como una realización, en la etapa 410, la distancia espectral ponderada grupal de cada trama de silencio puede determinarse según un parámetro espectral de cada trama de silencio en las P tramas de silencio. Por ejemplo, una distancia espectral ponderada grupal swdx] de la xésima trama en las P tramas de silencio puede determinarse según la siguiente ecuación (11):
swdlx|= X X w(i)[Uw(¡)-U ul(¡)]
j=0,j*x i=0 (11)
donde U[x](i) puede representar el iésimo parámetro espectral de la xésima trama, U[j](i) puede representar el iésimo parámetro espectral de la jésima trama, w(i) puede ser un coeficiente de ponderación, y K es una cantidad de coeficientes de un parámetro espectral.
Por ejemplo, el parámetro espectral de cada trama de silencio puede incluir un coeficiente LSF, un coeficiente LSP, un coeficiente ISF, un coeficiente ISP, un coeficiente LPC, un coeficiente de reflexión, un coeficiente FFT, o un coeficiente MDCT o similares. Por lo tanto, en la etapa 420, el primer parámetro espectral puede incluir un coeficiente LSF, un coeficiente LSP, un coeficiente ISF, un coeficiente ISP, un coeficiente LPC, un coeficiente de reflexión, un coeficiente FFT, o un coeficiente MDCT o similares.
A continuación se describe un proceso de la etapa 420 mediante el uso de un ejemplo en el cual el parámetro espectral es el coeficiente LSF. Por ejemplo, la suma de distancias espectrales ponderadas entre el coeficiente LSF de cada trama de silencio y coeficientes LSF de las otras (P-1) tramas de silencio, es decir, una distancia espectral ponderada grupal swd del coeficiente LSF de cada trama de silencio, puede determinarse, por ejemplo, una distancia espectral ponderada grupal swd'[x] de un coeficiente LSF de la xésima trama en las P tramas de silencio puede determinarse según la siguiente ecuación (12), donde x = 0, 1,2, ..., P-1:
Figure imgf000013_0001
donde w'(i) es un coeficiente de ponderación, y K' es un orden de filtro.
De manera opcional, como una realización, cada trama de silencio puede corresponder a un grupo de coeficientes de ponderación, donde en el único grupo de coeficientes de ponderación, un coeficiente de ponderación correspondiente a un primer grupo de subbandas es mayor que un coeficiente de ponderación correspondiente a un segundo grupo de subbandas, y la importancia perceptual del primer grupo de subbandas es mayor que la importancia perceptual del segundo grupo de subbandas.
Las subbandas pueden obtenerse mediante división de un coeficiente espectral; para un proceso específico, puede hacerse referencia a la técnica anterior. La importancia perceptual de las subbandas puede determinarse según la técnica anterior. Normalmente, la importancia perceptual de una subbanda de baja frecuencia es más alta que la importancia perceptual de una subbanda de alta frecuencia; por lo tanto, en una realización simplificada, un coeficiente de ponderación de una subbanda de baja frecuencia puede ser mayor que un coeficiente de ponderación de una subbanda de alta frecuencia.
Por ejemplo, en la ecuación (12), w'(i) es un coeficiente de ponderación, donde i = 0, 1, ..., K'-1. Cada trama de silencio corresponde a un grupo de coeficientes de ponderación, es decir, w'(0) a w'(K'-1). En el grupo de coeficientes de ponderación, un coeficiente de ponderación de un coeficiente LSF de una subbanda de baja frecuencia es mayor que un coeficiente de ponderación de un coeficiente LSF de una subbanda de alta frecuencia. Dado que la energía de un ruido de fondo se concentra, en su mayoría, en una banda de baja frecuencia, la calidad del ruido de confort generado por el decodificador se determina principalmente por la calidad de una señal de banda de baja frecuencia, y la influencia impuesta por una distancia espectral de un coeficiente LSF de una banda de alta frecuencia sobre una distancia espectral ponderada final se reducirá de manera apropiada.
De manera opcional, como otra realización, en la etapa 420, una primera trama de silencio puede seleccionarse de las P tramas de silencio, de modo que una distancia espectral ponderada grupal de la primera trama de silencio en las P tramas de silencio es la más pequeña, y puede determinarse que un parámetro espectral de la primera trama de silencio es el primer parámetro espectral.
De manera específica, que la distancia espectral ponderada grupal sea la más pequeña puede indicar que el parámetro espectral de la primera trama de silencio puede representar mejor la generalidad entre parámetros espectrales de las P tramas de silencio. Por lo tanto, el parámetro espectral de la primera trama de silencio puede codificarse en una trama SID. Por ejemplo, para la distancia espectral ponderada grupal del coeficiente LSF de cada trama de silencio, la distancia espectral ponderada grupal del coeficiente LSF de la primera trama de silencio es la más pequeña; luego, puede indicar que un espectro LSF de la primera trama de silencio es un espectro LSF que puede representar mejor la generalidad entre espectros LSF de las P tramas de silencio.
De manera opcional, como otra realización, en la etapa 420, al menos una trama de silencio puede seleccionarse de las P tramas de silencio, de modo que una distancia espectral ponderada grupal de la al menos una trama de silencio en las P tramas de silencio es menor que un tercer umbral, y el primer parámetro espectral puede determinarse según un parámetro espectral de la al menos una trama de silencio.
Por ejemplo, en una realización, puede determinarse que un valor promedio del parámetro espectral de la al menos una trama de silencio es el primer parámetro espectral. En otra realización, puede determinarse que un valor medio del parámetro espectral de la al menos una trama de silencio es el primer parámetro espectral. En otra realización, el primer parámetro espectral puede también determinarse según el parámetro espectral de la al menos una trama de silencio mediante el uso de otro método en la presente realización de la presente invención.
A continuación se provee una descripción aún mediante el uso de un ejemplo en el cual el parámetro espectral es el coeficiente LSF; luego, el primer parámetro espectral puede ser un primer coeficiente LSF. Por ejemplo, la distancia espectral ponderada grupal del coeficiente LSF de cada trama de silencio en las P tramas de silencio puede obtenerse según la ecuación (12). Al menos una trama de silencio cuya distancia espectral ponderada grupal de un coeficiente LSF es menor que el tercer umbral se selecciona de las P tramas de silencio. Luego, un valor promedio de un coeficiente LSF de la al menos una trama de silencio puede usarse como un primer coeficiente LSF. Por ejemplo, un primer coeficiente LSF lsfSID(i) puede determinarse según la siguiente ecuación (13), donde i = 0, 1, ..., K'-1, y K' es un orden de filtro:
Figure imgf000014_0001
donde {A} puede representar una trama de silencio en las P tramas de silencio excepto que la al menos una trama de silencio, y lsfj](i) pueden representar el iésimo coeficiente LSF de la jésima trama.
Además, el tercer umbral puede prestablecerse.
De manera opcional, como otra realización, cuando el método en la Figura 4 se ejecuta por el codificador, las P tramas de silencio pueden incluir una trama de silencio actualmente ingresada y (P-1) tramas de silencio que preceden a la trama de silencio actualmente ingresada.
Cuando el método en la Figura 4 se ejecuta por el decodificador, las P tramas de silencio pueden ser P tramas de mantenimiento.
De manera opcional, como otra realización, cuando el método en la Figura 4 se ejecuta por el codificador, el codificador puede codificar la trama de silencio actualmente ingresada en una trama SID, donde la trama SID incluye el primer parámetro espectral.
En la presente realización de la presente invención, un codificador puede codificar una trama actualmente ingresada en una trama SID, de modo que la trama SID incluye un primer parámetro espectral, en lugar de que un parámetro espectral de la trama SID se obtenga simplemente mediante obtención de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, se mejora la calidad de un ruido de confort que se genera por un decodificador según la trama SID.
La Figura 5 es un diagrama de flujo esquemático de un método de procesamiento de señales según otra realización de la presente invención. El método en la Figura 5 se ejecuta por un codificador o un decodificador, por ejemplo, puede ejecutarse por el codificador 110 o el decodificador 120 en la Figura 1.
510: Dividir una banda de frecuencia de una señal de entrada en R subbandas, donde R es un entero positivo.
520: Determinar, en cada subbanda de las R subbandas, una distancia espectral grupal de subbanda de cada trama de silencio en S tramas de silencio, donde la distancia espectral grupal de subbanda de cada trama de silencio en las S tramas de silencio es la suma de distancias espectrales entre cada trama de silencio en las S tramas de silencio en cada subbanda y las otras (S-1) tramas de silencio, y S es un entero positivo.
530: Determinar, en cada subbanda según la distancia espectral grupal de subbanda de cada trama de silencio en las S tramas de silencio, un primer parámetro espectral de cada subbanda, donde el primer parámetro espectral de cada subbanda se usa para generar un ruido de confort.
En la presente realización de la presente invención, un primer parámetro espectral que es de cada subbanda y se usa para generar un ruido de confort se determina en cada subbanda de R subbandas según una distancia espectral grupal de subbanda de cada trama de silencio en S tramas de silencio, en lugar de que un parámetro espectral usado para generar el ruido de confort se obtenga simplemente mediante el uso de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, mejorar la calidad del ruido de confort.
En la etapa 530, para cada subbanda, la distancia espectral grupal de subbanda de cada trama de silencio en cada subbanda puede determinarse según un parámetro espectral de cada trama de silencio en las S tramas de silencio. De manera opcional, como una realización, una distancia espectral grupal de subbanda ssdk[y] de la yésima trama de silencio en la késima subbanda puede determinarse según la siguiente ecuación (14), donde k = 1, 2 ..., R, e y = 0, 1, ..., S-1:
Figure imgf000015_0001
donde L(k) puede representar una cantidad de coeficientes de parámetros espectrales incluidos en la késima subbanda, Uk[y](i) puede representar el iésimo coeficiente de un parámetro espectral de la yésima trama de silencio en la késima subbanda, y Uk[j](i) puede representar el iésimo coeficiente de un parámetro espectral de la jésima trama de silencio en la késima subbanda.
Por ejemplo, el parámetro espectral de cada trama de silencio puede incluir un coeficiente LSF, un coeficiente LSP, un coeficiente ISF, un coeficiente ISP, un coeficiente LPC, un coeficiente de reflexión, un coeficiente FFT, o un coeficiente MDCT o similares.
A continuación se provee una descripción mediante el uso de un ejemplo en el cual el parámetro espectral es el coeficiente LSF. Por ejemplo, la distancia espectral grupal de subbanda del coeficiente LSF de cada trama de silencio puede determinarse. Cada subbanda puede incluir un coeficiente LSF, o puede también incluir múltiples coeficientes LSF. Por ejemplo, una distancia espectral grupal de subbanda ssdk[y] de un coeficiente LSF de la yésima trama de silencio en la késima subbanda puede determinarse según la siguiente ecuación (15), donde k = 1, 2, ..., R, e y = 0, 1, ..., S-1:
Figure imgf000015_0002
donde L(k) puede representar una cantidad de coeficientes LSF incluidos en la késima subbanda, lsfk[y](i) puede representar el iésimo coeficiente LSF de la yésima trama de silencio en la késima subbanda, e isfk[j](i) puede representar el iésimo coeficiente LSF de la jésima trama de silencio en la késima subbanda.
Por consiguiente, el primer parámetro espectral de cada subbanda puede incluir un coeficiente LSF, un coeficiente LSP, un coeficiente ISF, un coeficiente ISP, un coeficiente LPC, un coeficiente de reflexión, un coeficiente FFT, o un coeficiente MDCT o similares.
De manera opcional, como otra realización, en la etapa 530, una primera trama de silencio puede seleccionarse en cada subbanda de las S tramas de silencio, de modo que una distancia espectral grupal de subbanda de la primera trama de silencio en las S tramas de silencio en cada subbanda es la más pequeña. Luego, un parámetro espectral de la primera trama de silencio en cada subbanda puede usarse como el primer parámetro espectral de cada subbanda.
De manera específica, el codificador puede determinar la primera trama de silencio en cada subbanda, y usar el parámetro espectral de la primera trama de silencio como el primer parámetro espectral de la subbanda.
A continuación se provee una descripción aún mediante el uso de un ejemplo en el cual el parámetro espectral es el coeficiente LSF. Por consiguiente, el primer parámetro espectral de cada subbanda es un primer coeficiente LSF de cada subbanda. Por ejemplo, una distancia espectral grupal de subbanda de un coeficiente LSF de cada trama de silencio en cada subbanda puede determinarse según la ecuación (15). Para cada subbanda, un coeficiente LSF de una trama que tiene la distancia espectral grupal de subbanda más pequeña puede seleccionarse como el primer coeficiente LSF de la subbanda.
De manera opcional, como otra realización, en la etapa 530, al menos una trama de silencio puede seleccionarse en cada subbanda de las S tramas de silencio, de modo que una distancia espectral grupal de subbanda de la al menos una trama de silencio es menor que un cuarto umbral. Luego, el primer parámetro espectral de cada subbanda puede determinarse en cada subbanda según un parámetro espectral de al menos una trama de silencio.
Por ejemplo, en una realización, puede determinarse que un valor promedio del parámetro espectral de la al menos una trama de silencio en las S tramas de silencio en cada subbanda es el primer parámetro espectral de cada subbanda. En otra realización, puede determinarse que un valor medio del parámetro espectral de al menos una trama de silencio en las S tramas de silencio en cada subbanda es el primer parámetro espectral de cada subbanda. En otra realización, el primer parámetro espectral de cada subbanda puede también determinarse según el parámetro espectral de la al menos una trama de silencio mediante el uso de otro método en la presente invención.
Mediante el uso de un coeficiente LSF como un ejemplo, una distancia espectral grupal de subbanda de un coeficiente LSF de cada trama de silencio en cada subbanda puede determinarse según la ecuación (15). Para cada subbanda, al menos una trama de silencio cuya distancia espectral grupal de subbanda es menor que el cuarto umbral puede seleccionarse, y se determina que un valor promedio de un coeficiente LSF de la al menos una trama de silencio es un primer coeficiente LSF de la subbanda. El cuarto umbral puede prestablecerse.
De manera opcional, como otra realización, cuando el método en la Figura 5 se ejecuta por el codificador, las S tramas de silencio pueden incluir una trama de silencio actualmente ingresada y (S-1) tramas de silencio que preceden a la trama de silencio actualmente ingresada.
Cuando el método en la Figura 5 se ejecuta por el decodificador, las S tramas de silencio pueden ser S tramas de mantenimiento.
De manera opcional, como otra realización, cuando el método en la Figura 5 se ejecuta por el codificador, el codificador puede codificar la trama de silencio actualmente ingresada en una trama SID, donde la trama SID incluye el primer parámetro espectral de cada subbanda.
En la presente realización de la presente invención, cuando se codifica una trama SID, un codificador puede permitir que la trama SID incluya un primer parámetro espectral de cada subbanda, en lugar de que un parámetro espectral de la trama SID se obtenga simplemente mediante obtención de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, se mejora la calidad de un ruido de confort que se genera por un decodificador según la trama SID.
La Figura 6 es un diagrama de flujo esquemático de un método de procesamiento de señales según otra realización de la presente invención. El método en la Figura 6 se ejecuta por un codificador o un decodificador, por ejemplo, puede ejecutarse por el codificador 110 o el decodificador 120 en la Figura 1.
610: Determinar un primer parámetro de cada trama de silencio en T tramas de silencio, donde el primer parámetro se usa para representar entropía espectral, y T es un entero positivo.
Por ejemplo, cuando la entropía espectral de la trama de silencio puede determinarse de forma directa, el primer parámetro puede ser la entropía espectral. En algunos casos, la entropía espectral que se ajusta a una definición estricta puede no determinarse de manera directa y, en el presente caso, el primer parámetro puede ser otro parámetro que puede representar la entropía espectral, por ejemplo, un parámetro que puede reflejar la potencia estructural de un espectro, o similares.
Por ejemplo, el primer parámetro de cada trama de silencio puede determinarse según un coeficiente LSF de cada trama de silencio. Por ejemplo, un primer parámetro de la zésima trama de silencio puede determinarse según la siguiente ecuación (16), donde z = 1,2, ..., T:
Figure imgf000017_0001
donde K es un orden de filtro.
En la presente memoria, C es un parámetro que puede reflejar la potencia estructural de un espectro y no necesita ajustarse estrictamente a una definición de entropía espectral, donde una C más grande puede indicar entropía espectral más pequeña.
620: Determinar un primer parámetro espectral según el primer parámetro de cada trama de silencio en las T tramas de silencio, donde el primer parámetro espectral se usa para generar un ruido de confort.
En la presente realización de la presente invención, un primer parámetro espectral usado para generar un ruido de confort se determina según un primer parámetro que se usa para representar entropía espectral y de T tramas de silencio, en lugar de que un parámetro espectral usado para generar el ruido de confort se obtenga simplemente mediante obtención de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, se mejora la calidad del ruido de confort.
De manera opcional, como una realización, en un caso en el cual se determina que las T tramas de silencio pueden clasificarse en un primer grupo de tramas de silencio y un segundo grupo de tramas de silencio según un criterio de agrupación, el primer parámetro espectral puede determinarse según un parámetro espectral del primer grupo de tramas de silencio, donde la entropía espectral representada por primeros parámetros del primer grupo de tramas de silencio es mayor que la entropía espectral representada por primeros parámetros del segundo grupo de tramas de silencio; y en un caso en el cual se determina que las T tramas de silencio no pueden clasificarse en el primer grupo de tramas de silencio y el segundo grupo de tramas de silencio según el criterio de agrupación, la promediación ponderada puede llevarse a cabo en parámetros espectrales de las T tramas de silencio, para determinar el primer parámetro espectral, donde la entropía espectral representada por los primeros parámetros del primer grupo de tramas de silencio es mayor que la entropía espectral representada por los primeros parámetros del segundo grupo de tramas de silencio.
En general, un espectro de ruido común tiene potencia estructural relativamente pobre, mientras que un espectro de señales de no ruido, o un espectro de ruido que incluye un componente transitorio tiene una potencia estructural relativamente fuerte. La potencia estructural de un espectro corresponde directamente a un tamaño de entropía espectral. De manera relativa, la entropía espectral de un ruido común puede ser relativamente grande, mientras que la entropía espectral de una señal de no ruido, o un ruido que incluye un componente transitorio, puede ser relativamente pequeña. Por lo tanto, en el caso en el cual las T tramas de silencio pueden clasificarse en el primer grupo de tramas de silencio y el segundo grupo de tramas de silencio, el codificador puede seleccionar, según la entropía espectral de la trama de silencio, un parámetro espectral del primer grupo de tramas de silencio que no incluye el componente transitorio, para determinar el primer parámetro espectral.
Por ejemplo, en una realización, puede determinarse que un valor promedio del parámetro espectral del primer grupo de tramas de silencio es el primer parámetro espectral. En otra realización, puede determinarse que un valor medio del parámetro espectral del primer grupo de tramas de silencio es el primer parámetro espectral. En otra realización, el primer parámetro espectral puede también determinarse según el parámetro espectral del primer grupo de tramas de silencio mediante el uso de otro método en la presente invención.
Si las T tramas de silencio no pueden clasificarse en el primer grupo de tramas de silencio y el segundo grupo de tramas de silencio, la promediación ponderada puede llevarse a cabo en los parámetros espectrales de las T tramas de silencio para obtener el primer parámetro espectral. De manera opcional, como otra realización, el criterio de agrupación puede incluir: una distancia entre un primer parámetro de cada trama de silencio en el primer grupo de tramas de silencio y un primer valor promedio es menor que o igual a una distancia entre el primer parámetro de cada trama de silencio en el primer grupo de tramas de silencio y un segundo valor promedio; una distancia entre un primer parámetro de cada trama de silencio en el segundo grupo de tramas de silencio y el segundo valor promedio es menor que o igual a una distancia entre el primer parámetro de cada trama de silencio en el segundo grupo de tramas de silencio y el primer valor promedio; una distancia entre el primer valor promedio y el segundo valor promedio es mayor que una distancia promedio entre los primeros parámetros del primer grupo de tramas de silencio y el primer valor promedio; y la distancia entre el primer valor promedio y el segundo valor promedio es mayor que una distancia promedio entre los primeros parámetros del segundo grupo de tramas de silencio y el segundo valor promedio, donde el primer valor promedio es un valor promedio de los primeros parámetros del primer grupo de tramas de silencio, y el segundo valor promedio es un valor promedio de los primeros parámetros del segundo grupo de tramas de silencio.
De manera opcional, como otra realización, el codificador puede llevar a cabo la promediación ponderada en parámetros espectrales de las T tramas de silencio, para determinar el primer parámetro espectral, donde para la iésima trama de silencio y la jésima trama de silencio, las cuales son diferentes, en las T tramas de silencio, un coeficiente de ponderación correspondiente a la iésima trama de silencio es mayor que o igual a un coeficiente de ponderación correspondiente a la jésima trama de silencio; cuando el primer parámetro se correlaciona de forma positiva con la entropía espectral, un primer parámetro de la iésima trama de silencio es mayor que un primer parámetro de la jésima trama de silencio; cuando el primer parámetro se correlaciona de forma negativa con la entropía espectral, el primer parámetro de la iésima trama de silencio es menor que el primer parámetro de la jésima trama de silencio, donde i y j son, ambos, enteros positivos, y 1<i<T, y 1<j<T.
De manera específica, el codificador puede llevar a cabo la promediación ponderada en los parámetros espectrales de las T tramas de silencio, para obtener el primer parámetro espectral. Según se describe más arriba, la entropía espectral de un ruido común puede ser relativamente grande, mientras que la entropía espectral de una señal de no ruido, o un ruido que incluye un componente transitorio, puede ser relativamente pequeña. Por lo tanto, en las T tramas de silencio, un coeficiente de ponderación correspondiente a una trama de silencio que tiene entropía espectral relativamente grande puede ser mayor que o igual a un coeficiente de ponderación correspondiente a una trama de silencio que tiene entropía espectral relativamente pequeña.
De manera opcional, como otra realización, cuando el método en la Figura 6 se ejecuta por el codificador, las T tramas de silencio pueden incluir una trama de silencio actualmente ingresada y (T-1) tramas de silencio que preceden a la trama de silencio actualmente ingresada.
Cuando el método en la Figura 6 se ejecuta por el decodificador, las T tramas de silencio pueden ser T tramas de mantenimiento.
De manera opcional, como otra realización, cuando el método en la Figura 6 se ejecuta por el codificador, el codificador puede codificar la trama de silencio actualmente ingresada en una trama SID, donde la trama SID incluye el primer parámetro espectral.
En la presente realización de la presente invención, cuando se codifica una trama SID, un codificador puede permitir que la trama SID incluya un primer parámetro espectral de cada subbanda, en lugar de que un parámetro espectral de la trama SID se obtenga simplemente mediante obtención de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, se mejora la calidad de un ruido de confort que se genera por un decodificador según la trama SID.
La Figura 7 es un diagrama de bloques esquemático de un dispositivo de codificación de señales según una realización de la presente invención. Un ejemplo de un dispositivo 700 en la Figura 7 es un codificador, por ejemplo, el codificador 110 que se muestra en la Figura 1. El dispositivo 700 incluye una primera unidad 710 de determinación, una segunda unidad 720 de determinación, una tercera unidad 730 de determinación y una unidad 740 de codificación.
La primera unidad 710 de determinación predice, en un caso en el cual una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID, y determina una señal de silencio real, donde la trama actualmente ingresada es una trama de silencio. La segunda unidad 720 de determinación determina un grado de desviación entre el ruido de confort determinado por la primera unidad 710 de determinación y la señal de silencio real determinada por la primera unidad 710 de determinación. La tercera unidad 730 de determinación determina una manera de codificación de la trama actualmente ingresada según el grado de desviación determinado por la segunda unidad de determinación, donde la manera de codificación de la trama actualmente ingresada incluye una manera de codificación de tramas de mantenimiento o una manera de codificación de tramas SID. La unidad 740 de codificación codifica la trama actualmente ingresada según la manera de codificación de la trama actualmente ingresada determinada por la tercera unidad 730 de determinación.
En la presente realización de la presente invención, en un caso en el cual una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID se predice, un grado de desviación entre el ruido de confort y una señal de silencio real se determina, y se determina, según el grado de desviación, que una manera de codificación de la trama actualmente ingresada es una manera de codificación de tramas de mantenimiento o una manera de codificación de tramas SID, en lugar de que la trama actualmente ingresada se codifique en una trama de mantenimiento simplemente según una cantidad, obtenida a través de una compilación de las estadísticas, de tramas de voz activa y, de esta manera, se ahorra ancho de banda de comunicación.
De manera opcional, como una realización, la primera unidad 710 de determinación puede predecir un parámetro de características del ruido de confort y determinar un parámetro de características de la señal de silencio real, donde el parámetro de características del ruido de confort se encuentra en una correspondencia uno a uno con respecto al parámetro de características de la señal de silencio real. La segunda unidad 720 de determinación puede determinar una distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real.
De manera opcional, como otra realización, la tercera unidad 730 de determinación puede determinar, en un caso en el cual la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es menor que un umbral correspondiente en un conjunto de umbrales, que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas SID, donde la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real se encuentra en una correspondencia uno a uno con respecto al umbral en el conjunto de umbrales. La tercera unidad 730 de determinación puede determinar, en un caso en el cual la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es mayor que o igual al umbral correspondiente en el conjunto de umbrales, que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas de mantenimiento.
De manera opcional, como otra realización, el parámetro de características del ruido de confort puede usarse para representar al menos una de la siguiente información: información de energía e información espectral.
De manera opcional, como otra realización, la información de energía puede incluir energía de excitación CELP. La información espectral puede incluir al menos uno de los siguientes: un coeficiente de filtro predictivo lineal, un coeficiente FFT y un coeficiente MDCT.
El coeficiente de filtro predictivo lineal puede incluir al menos uno de los siguientes: un coeficiente LSF, un coeficiente LSP, un coeficiente ISF, un coeficiente ISP, un coeficiente de reflexión y un coeficiente LPC.
De manera opcional, como otra realización, la primera unidad 710 de determinación puede predecir el parámetro de características del ruido de confort según un parámetro de ruido de confort de la trama previa de la trama actualmente ingresada y un parámetro de características de la trama actualmente ingresada. De manera alternativa, la primera unidad 710 de determinación puede predecir el parámetro de características del ruido de confort según los parámetros de características de L tramas de mantenimiento que preceden a la trama actualmente ingresada y el parámetro de características de la trama actualmente ingresada, donde L es un entero positivo.
De manera opcional, como otra realización, la primera unidad 710 de determinación puede determinar que el parámetro de características de la trama actualmente ingresada es el parámetro de características de la señal de silencio real. De manera alternativa, la primera unidad 710 de determinación puede compilar estadísticas sobre parámetros de características de M tramas de silencio, para determinar el parámetro de características de la señal de silencio real.
De manera opcional, como otra realización, las M tramas de silencio pueden incluir la trama actualmente ingresada y (M-1) tramas de silencio que preceden a la trama actualmente ingresada, donde M es un entero positivo.
De manera opcional, como otra realización, el parámetro de características del ruido de confort puede incluir energía de excitación de predicción lineal con excitación por código CELP del ruido de confort y un coeficiente de frecuencia espectral de línea LSF del ruido de confort, y el parámetro de características de la señal de silencio real puede incluir energía de excitación CELP de la señal de silencio real y un coeficiente LSF de la señal de silencio real. La segunda unidad 720 de determinación puede determinar una distancia De entre la energía de excitación CELP del ruido de confort y la energía de excitación CELP de la señal de silencio real, y determinar una distancia Dlsf entre el coeficiente LSF del ruido de confort y el coeficiente LSF de la señal de silencio real.
De manera opcional, como otra realización, en un caso en el cual la distancia De es menor que un primer umbral y la distancia Dlsf es menor que un segundo umbral, la tercera unidad 730 de determinación puede determinar que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas SID. En un caso en el cual la distancia De es mayor que o igual al primer umbral o la distancia Dlsf es mayor que o igual al segundo umbral, la tercera unidad 730 de determinación puede determinar que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas de mantenimiento.
De manera opcional, como otra realización, el dispositivo 700 puede además incluir una cuarta unidad 750 de determinación. La cuarta unidad 750 de determinación puede adquirir el primer umbral prestablecido y el segundo umbral prestablecido. De manera alternativa, la cuarta unidad 750 de determinación puede determinar el primer umbral según la energía de excitación CELP de N tramas de silencio que preceden a la trama actualmente ingresada, y determinar el segundo umbral según los coeficientes LSF de las N tramas de silencio, donde N es un entero positivo.
De manera opcional, como otra realización, la primera unidad 710 de determinación puede predecir el ruido de confort en una primera manera de predicción, donde la primera manera de predicción es la misma que una manera en la cual el decodificador genera el ruido de confort.
Para otras funciones y operaciones del dispositivo 700, puede hacerse referencia a los procesos de las realizaciones del método en la Figura 1 a la Figura 3b en lo anterior; para evitar la repetición, no se proveen detalles adicionales en la presente memoria nuevamente.
La Figura 8 es un diagrama de bloques esquemático de un dispositivo de procesamiento de señales según otra realización de la presente invención. Un ejemplo de un dispositivo 800 en la Figura 8 es un codificador o un decodificador, por ejemplo, el codificador 110 o el decodificador 120 que se muestran en la Figura 1. El dispositivo 800 incluye una primera unidad 810 de determinación y una segunda unidad 820 de determinación.
La primera unidad 810 de determinación determina una distancia espectral ponderada grupal de cada trama de silencio en P tramas de silencio, donde la distancia espectral ponderada grupal de cada trama de silencio en las P tramas de silencio es la suma de distancias espectrales ponderadas entre cada trama de silencio en las P tramas de silencio y las otras (P-1) tramas de silencio, donde P es un entero positivo. La segunda unidad 820 de determinación determina un primer parámetro espectral según la distancia espectral ponderada grupal, determinada por la primera unidad 810 de determinación, de cada trama de silencio en las P tramas de silencio, donde el primer parámetro espectral se usa para generar un ruido de confort.
En la presente realización de la presente invención, un primer parámetro espectral usado para generar un ruido de confort se determina según una distancia espectral ponderada grupal de cada trama de silencio en P tramas de silencio, en lugar de que un parámetro espectral usado para generar el ruido de confort se obtenga simplemente mediante obtención de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, se mejora la calidad del ruido de confort.
De manera opcional, como una realización, cada trama de silencio puede corresponder a un grupo de coeficientes de ponderación, donde en el único grupo de coeficientes de ponderación, un coeficiente de ponderación correspondiente a un primer grupo de subbandas es mayor que un coeficiente de ponderación correspondiente a un segundo grupo de subbandas, y la importancia perceptual del primer grupo de subbandas es mayor que la importancia perceptual del segundo grupo de subbandas.
De manera opcional, como otra realización, la segunda unidad 820 de determinación puede seleccionar una primera trama de silencio de las P tramas de silencio, de modo que una distancia espectral ponderada grupal de la primera trama de silencio en las P tramas de silencio es la más pequeña, y puede determinar que un parámetro espectral de la primera trama de silencio es el primer parámetro espectral.
De manera opcional, como otra realización, la segunda unidad 820 de determinación puede seleccionar al menos una trama de silencio de las P tramas de silencio, de modo que una distancia espectral ponderada grupal de la al menos una trama de silencio en las P tramas de silencio es menor que un tercer umbral, y determinar el primer parámetro espectral según un parámetro espectral de la al menos una trama de silencio.
De manera opcional, como otra realización, cuando el dispositivo 800 es el codificador, el dispositivo 800 puede además incluir una unidad 830 de codificación.
Las P tramas de silencio pueden incluir una trama de silencio actualmente ingresada y (P-1) tramas de silencio que preceden a la trama de silencio actualmente ingresada. La unidad 830 de codificación puede codificar la trama de silencio actualmente ingresada en una trama SID, donde la trama SID incluye el primer parámetro espectral determinado por la segunda unidad 820 de determinación.
Para otras funciones y operaciones del dispositivo 800, puede hacerse referencia al proceso de la realización del método en la Figura 4 en lo anterior; para evitar la repetición, no se proveen detalles adicionales en la presente memoria nuevamente.
La Figura 9 es un diagrama de bloques esquemático de un dispositivo de procesamiento de señales según otra realización de la presente invención. Un ejemplo de un dispositivo 900 en la Figura 9 es un codificador o un decodificador, por ejemplo, el codificador 110 o el decodificador 120 que se muestran en la Figura 1. El dispositivo 900 incluye una unidad 910 de división, una primera unidad 920 de determinación y una segunda unidad 930 de determinación.
La unidad 910 de división divide una banda de frecuencia de una señal de entrada en R subbandas, donde R es un entero positivo. La primera unidad 920 de determinación determina, en cada subbanda de las R subbandas obtenidas después de que la unidad 910 de división lleva a cabo la división, una distancia espectral grupal de subbanda de cada trama de silencio en S tramas de silencio, donde la distancia espectral grupal de subbanda de cada trama de silencio en las S tramas de silencio es la suma de distancias espectrales entre cada trama de silencio en las S tramas de silencio en cada subbanda y las otras (S-1) tramas de silencio, y S es un entero positivo. La segunda unidad 930 de determinación determina, en cada subbanda, un primer parámetro espectral de cada subbanda según una distancia espectral, determinada por la primera unidad 920 de determinación, de cada trama de silencio en las S tramas de silencio, donde el primer parámetro espectral de cada subbanda se usa para generar un ruido de confort.
En la presente realización de la presente invención, un parámetro espectral que es de cada subbanda y se usa para generar un ruido de confort se determina en cada subbanda de R subbandas según una distancia espectral de cada trama de silencio en S tramas de silencio, en lugar de que el parámetro espectral usado para generar el ruido de confort se obtenga simplemente mediante obtención de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, se mejora la calidad del ruido de confort.
De manera opcional, como una realización, la segunda unidad 930 de determinación puede seleccionar, en cada subbanda, una primera trama de silencio de las S tramas de silencio, de modo que una distancia espectral grupal de subbanda de la primera trama de silencio en las S tramas de silencio en cada subbanda es la más pequeña, y determinar, en cada subbanda, que un parámetro espectral de la primera trama de silencio es el primer parámetro espectral de cada subbanda.
De manera opcional, como otra realización, la segunda unidad 930 de determinación puede seleccionar, en cada subbanda, al menos una trama de silencio de las S tramas de silencio, de modo que una distancia espectral grupal de subbanda de la al menos una trama de silencio es menor que un cuarto umbral, y determinar, en cada subbanda, el primer parámetro espectral de cada subbanda según un parámetro espectral de la al menos una trama de silencio.
De manera opcional, como otra realización, cuando el dispositivo 900 es el codificador, el dispositivo 900 puede además incluir una unidad 940 de codificación.
Las S tramas de silencio pueden incluir una trama de silencio actualmente ingresada y (S-1) tramas de silencio que preceden a la trama de silencio actualmente ingresada. La unidad 940 de codificación puede codificar la trama de silencio actualmente ingresada en una trama SID, donde la trama SID incluye el primer parámetro espectral de cada subbanda.
Para otras funciones y operaciones del dispositivo 900, puede hacerse referencia al proceso de la realización del método en la Figura 5 en lo anterior; para evitar la repetición, no se proveen detalles adicionales en la presente memoria nuevamente.
La Figura 10 es un diagrama de bloques esquemático de un dispositivo de procesamiento de señales según otra realización de la presente invención. Un ejemplo de un dispositivo 1000 en la Figura 10 es un codificador o un decodificador, por ejemplo, el codificador 110 o el decodificador 120 que se muestran en la Figura 1. El dispositivo 1000 incluye una primera unidad 1010 de determinación y una segunda unidad 1020 de determinación.
La primera unidad 1010 de determinación determina un primer parámetro de cada trama de silencio en T tramas de silencio, donde el primer parámetro se usa para representar entropía espectral, y T es un entero positivo. La segunda unidad 1020 de determinación determina un primer parámetro espectral según el primer parámetro, determinado por la primera unidad 1010 de determinación, de cada trama de silencio en las T tramas de silencio, donde el primer parámetro espectral se usa para generar un ruido de confort.
En la presente realización de la presente invención, un primer parámetro espectral usado para generar un ruido de confort se determina según un primer parámetro que se usa para representar entropía espectral y de T tramas de silencio, en lugar de que un parámetro espectral usado para generar el ruido de confort se obtenga simplemente mediante obtención de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, se mejora la calidad del ruido de confort.
De manera opcional, como una realización, la segunda unidad 1020 de determinación puede determinar, en un caso en el cual se determina que las T tramas de silencio pueden clasificarse en un primer grupo de tramas de silencio y un segundo grupo de tramas de silencio según un criterio de agrupación, el primer parámetro espectral según un parámetro espectral del primer grupo de tramas de silencio, donde la entropía espectral representada por primeros parámetros del primer grupo de tramas de silencio es mayor que la entropía espectral representada por primeros parámetros del segundo grupo de tramas de silencio; y en un caso en el cual se determina que las T tramas de silencio no pueden clasificarse en el primer grupo de tramas de silencio y el segundo grupo de tramas de silencio según el criterio de agrupación, llevar a cabo la promediación ponderada en parámetros espectrales de las T tramas de silencio, para determinar el primer parámetro espectral, donde la entropía espectral representada por los primeros parámetros del primer grupo de tramas de silencio es mayor que la entropía espectral representada por los primeros parámetros del segundo grupo de tramas de silencio.
De manera opcional, como otra realización, el criterio de agrupación puede incluir: una distancia entre un primer parámetro de cada trama de silencio en el primer grupo de tramas de silencio y un primer valor promedio es menor que o igual a una distancia entre el primer parámetro de cada trama de silencio en el primer grupo de tramas de silencio y un segundo valor promedio; una distancia entre un primer parámetro de cada trama de silencio en el segundo grupo de tramas de silencio y el segundo valor promedio es menor que o igual a una distancia entre el primer parámetro de cada trama de silencio en el segundo grupo de tramas de silencio y el primer valor promedio; una distancia entre el primer valor promedio y el segundo valor promedio es mayor que una distancia promedio entre los primeros parámetros del primer grupo de tramas de silencio y el primer valor promedio; y la distancia entre el primer valor promedio y el segundo valor promedio es mayor que una distancia promedio entre los primeros parámetros del segundo grupo de tramas de silencio y el segundo valor promedio, donde el primer valor promedio es un valor promedio de los primeros parámetros del primer grupo de tramas de silencio, y el segundo valor promedio es un valor promedio de los primeros parámetros del segundo grupo de tramas de silencio.
De manera opcional, como otra realización, la segunda unidad 1020 de determinación puede llevar a cabo la promediación ponderada en parámetros espectrales de las T tramas de silencio, para determinar el primer parámetro espectral, donde para la iésima trama de silencio y la jésima trama de silencio, las cuales son diferentes, en las T tramas de silencio, un coeficiente de ponderación correspondiente a la iés¡ma trama de silencio es mayor que o igual a un coeficiente de ponderación correspondiente a la jésima trama de silencio; cuando el primer parámetro se correlaciona de forma positiva con la entropía espectral, un primer parámetro de la iésima trama de silencio es mayor que un primer parámetro de la jésima trama de silencio; cuando el primer parámetro se correlaciona de forma negativa con la entropía espectral, el primer parámetro de la iésima trama de silencio es menor que el primer parámetro de la jésima trama de silencio, donde i y j son, ambos, enteros positivos, y 1<i<T y 1<j<T.
De manera opcional, como otra realización, cuando el dispositivo 1000 es el codificador, el dispositivo 1000 puede además incluir una unidad 1030 de codificación.
Las T tramas de silencio pueden incluir una trama de silencio actualmente ingresada y (T-1) tramas de silencio que preceden a la trama de silencio actualmente ingresada. La unidad 1030 de codificación puede codificar la trama de silencio actualmente ingresada en una trama SID, donde la trama SID incluye el primer parámetro espectral.
Para otras funciones y operaciones del dispositivo 1000, puede hacerse referencia al proceso de la realización del método en la Figura 6 en lo anterior; para evitar la repetición, no se proveen detalles adicionales en la presente memoria nuevamente.
La Figura 11 es un diagrama de bloques esquemático de un dispositivo de codificación de señales según otra realización de la presente invención. Un ejemplo de un dispositivo 1100 en la Figura 11 es un codificador. El dispositivo 1100 incluye una memoria 1110 y un procesador 1120.
La memoria 1110 puede incluir una memoria de acceso aleatorio, una memoria flash, una memoria de solo lectura, una memoria de solo lectura programable, una memoria permanente, o un registro. El procesador 1120 puede ser una unidad central de procesamiento (Central Processing Unit, CPU).
La memoria 1110 se configura para almacenar una instrucción ejecutable. El procesador 1120 puede ejecutar la instrucción ejecutable almacenada en la memoria 1110, para: en un caso en el cual una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, predecir un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID, y determinar una señal de silencio real, donde la trama actualmente ingresada es una trama de silencio; determinar un grado de desviación entre el ruido de confort y la señal de silencio real; determinar una manera de codificación de la trama actualmente ingresada según el grado de desviación, donde la manera de codificación de la trama actualmente ingresada es una manera de codificación de tramas de mantenimiento o una manera de codificación de tramas SID; y codificar la trama actualmente ingresada según la manera de codificación de la trama actualmente ingresada.
En la presente realización de la presente invención, en un caso en el cual una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID se pronostica, un grado de desviación entre el ruido de confort y una señal de silencio real se determina, y se determina, según el grado de desviación, que una manera de codificación de la trama actualmente ingresada es una manera de codificación de tramas de mantenimiento o una manera de codificación de tramas SID, en lugar de que la trama actualmente ingresada se codifique en una trama de mantenimiento simplemente según una cantidad, obtenida a través de una compilación de las estadísticas, de tramas de voz activa y, de esta manera, se ahorra ancho de banda de comunicación.
De manera opcional, como una realización, el procesador 1120 puede predecir un parámetro de características del ruido de confort y determinar un parámetro de características de la señal de silencio real, donde el parámetro de características del ruido de confort se encuentra en una correspondencia uno a uno con respecto al parámetro de características de la señal de silencio real. El procesador 1120 puede determinar una distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real.
De manera opcional, como otra realización, el procesador 1120 puede determinar, en un caso en el cual la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es menor que un umbral correspondiente en un conjunto de umbrales, que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas SID, donde la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real se encuentra en una correspondencia uno a uno con respecto al umbral en el conjunto de umbrales. El procesador 1120 puede determinar, en un caso en el cual la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es mayor que o igual al umbral correspondiente en el conjunto de umbrales, que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas de mantenimiento.
De manera opcional, como otra realización, el parámetro de características del ruido de confort puede usarse para representar al menos una de la siguiente información: información de energía e información espectral.
De manera opcional, como otra realización, la información de energía puede incluir energía de excitación CELP. La información espectral puede incluir al menos uno de los siguientes: un coeficiente de filtro predictivo lineal, un coeficiente FFT y un coeficiente MDCT. El coeficiente de filtro predictivo lineal puede incluir al menos uno de los siguientes: un coeficiente LSF, un coeficiente LSP, un coeficiente ISF, un coeficiente ISP, un coeficiente de reflexión y un coeficiente LPC.
De manera opcional, como otra realización, el procesador 1120 puede predecir el parámetro de características del ruido de confort según un parámetro de ruido de confort de la trama previa de la trama actualmente ingresada y un parámetro de características de la trama actualmente ingresada. De manera alternativa, el procesador 1120 puede predecir el parámetro de características del ruido de confort según los parámetros de características de L tramas de mantenimiento que preceden a la trama actualmente ingresada y el parámetro de características de la trama actualmente ingresada, donde L es un entero positivo.
De manera opcional, como otra realización, el procesador 1120 puede determinar que el parámetro de características de la trama actualmente ingresada es el parámetro de la señal de silencio real. De manera alternativa, el procesador 1120 puede compilar estadísticas sobre parámetros de características de M tramas de silencio, para determinar el parámetro de la señal de silencio real.
De manera opcional, como otra realización, las M tramas de silencio pueden incluir la trama actualmente ingresada y (M-1) tramas de silencio que preceden a la trama actualmente ingresada, donde M es un entero positivo.
De manera opcional, como otra realización, el parámetro de características del ruido de confort puede incluir energía de excitación de predicción lineal con excitación por código CELP del ruido de confort y un coeficiente de frecuencia espectral de línea LSF del ruido de confort, y el parámetro de características de la señal de silencio real puede incluir energía de excitación CELP de la señal de silencio real y un coeficiente LSF de la señal de silencio real. El procesador 1120 puede determinar una distancia De entre la energía de excitación CELP del ruido de confort y la energía de excitación CELP de la señal de silencio real, y determinar una distancia Dlsf entre el coeficiente LSF del ruido de confort y el coeficiente LSF de la señal de silencio real.
De manera opcional, como otra realización, en un caso en el cual la distancia De es menor que un primer umbral y la distancia Dlsf es menor que un segundo umbral, el procesador 1120 puede determinar que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas SID. En un caso en el cual la distancia De es mayor que o igual al primer umbral o la distancia Dlsf es mayor que o igual al segundo umbral, el procesador 1120 puede determinar que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas de mantenimiento.
De manera opcional, como otra realización, el procesador 1120 puede además adquirir el primer umbral prestablecido y el segundo umbral prestablecido. De manera alternativa, el procesador 1120 puede además determinar el primer umbral según la energía de excitación CELP de N tramas de silencio que preceden a la trama actualmente ingresada, y determinar el segundo umbral según los coeficientes LSF de las N tramas de silencio, donde N es un entero positivo.
De manera opcional, como otra realización, el procesador 1120 puede predecir el ruido de confort en una primera manera de predicción, donde la primera manera de predicción es la misma que una manera en la cual el decodificador genera el ruido de confort.
Para otras funciones y operaciones del dispositivo 1100, puede hacerse referencia a los procesos de las realizaciones del método en la Figura 1 a la Figura 3b en lo anterior; para evitar la repetición, no se proveen detalles adicionales en la presente memoria nuevamente.
La Figura 12 es un diagrama de bloques esquemático de un dispositivo de codificación de señales según otra realización de la presente invención. Un ejemplo de un dispositivo 1200 en la Figura 12 es un codificador o un decodificador, por ejemplo, el codificador 110 o el decodificador 120 que se muestran en la Figura 1. El dispositivo 1200 incluye una memoria 1210 y un procesador 1220.
La memoria 1210 puede incluir una memoria de acceso aleatorio, una memoria flash, una memoria de solo lectura, una memoria de solo lectura programable, una memoria permanente, o un registro. El procesador 1220 puede ser una CPU.
La memoria 1210 se configura para almacenar una instrucción ejecutable. El procesador 1220 puede ejecutar la instrucción ejecutable almacenada en la memoria 1210, para: determinar una distancia espectral ponderada grupal de cada trama de silencio en P tramas de silencio, donde la distancia espectral ponderada grupal de cada trama de silencio en las P tramas de silencio es la suma de distancias espectrales ponderadas entre cada trama de silencio en las P tramas de silencio y las otras (P-1) tramas de silencio, donde P es un entero positivo; y determinar un primer parámetro espectral según la distancia espectral ponderada grupal de cada trama de silencio en las P tramas de silencio, donde el primer parámetro espectral se usa para generar un ruido de confort.
En la presente realización de la presente invención, un primer parámetro espectral usado para generar un ruido de confort se determina según una distancia espectral ponderada grupal de cada trama de silencio en P tramas de silencio, en lugar de que un parámetro espectral usado para generar el ruido de confort se obtenga simplemente mediante obtención de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, se mejora la calidad del ruido de confort.
De manera opcional, como una realización, cada trama de silencio puede corresponder a un grupo de coeficientes de ponderación, donde en el único grupo de coeficientes de ponderación, un coeficiente de ponderación correspondiente a un primer grupo de subbandas es mayor que un coeficiente de ponderación correspondiente a un segundo grupo de subbandas, y la importancia perceptual del primer grupo de subbandas es mayor que la importancia perceptual del segundo grupo de subbandas.
De manera opcional, como otra realización, el procesador 1220 puede seleccionar una primera trama de silencio de las P tramas de silencio, de modo que una distancia espectral ponderada grupal de la primera trama de silencio en las P tramas de silencio es la más pequeña, y determinar que un parámetro espectral de la primera trama de silencio es el primer parámetro espectral.
De manera opcional, como otra realización, el procesador 1220 puede seleccionar al menos una trama de silencio de las P tramas de silencio, de modo que una distancia espectral ponderada grupal de la al menos una trama de silencio en las P tramas de silencio es menor que un tercer umbral, y determinar el primer parámetro espectral según un parámetro espectral de la al menos una trama de silencio.
De manera opcional, como otra realización, cuando el dispositivo 1200 es el codificador, las P tramas de silencio pueden incluir una trama de silencio actualmente ingresada y (P-1) tramas de silencio que preceden a la trama de silencio actualmente ingresada. El procesador 1220 puede codificar la trama de silencio actualmente ingresada en una trama SID, donde la trama SID incluye el primer parámetro espectral.
Para otras funciones y operaciones del dispositivo 1200, puede hacerse referencia al proceso de la realización del método en la Figura 4 en lo anterior; para evitar la repetición, no se proveen detalles adicionales en la presente memoria nuevamente.
La Figura 13 es un diagrama de bloques esquemático de un dispositivo de procesamiento de señales según otra realización de la presente invención. Un ejemplo de un dispositivo 1300 en la Figura 13 es un codificador o un decodificador, por ejemplo, el codificador 110 o el decodificador 120 que se muestran en la Figura 1. El dispositivo 1300 incluye una memoria 1310 y un procesador 1320.
La memoria 1310 puede incluir una memoria de acceso aleatorio, una memoria flash, una memoria de solo lectura, una memoria de solo lectura programable, una memoria permanente, o un registro. El procesador 1320 puede ser una CPU.
La memoria 1310 se configura para almacenar una instrucción ejecutable. El procesador 1320 puede ejecutar la instrucción ejecutable almacenada en la memoria 1310, para: dividir una banda de frecuencia de una señal de entrada en R subbandas, donde R es un entero positivo; determinar, en cada subbanda de las R subbandas, una distancia espectral grupal de subbanda de cada trama de silencio en S tramas de silencio, donde la distancia espectral grupal de subbanda de cada trama de silencio en las S tramas de silencio es la suma de distancias espectrales entre cada trama de silencio en las S tramas de silencio en cada subbanda y las otras (S-1) tramas de silencio, y S es un entero positivo; y determinar, en cada subbanda, un primer parámetro espectral de cada subbanda según la distancia espectral grupal de subbanda de cada trama de silencio en las S tramas de silencio, donde el primer parámetro espectral de cada subbanda se usa para generar un ruido de confort.
En la presente realización de la presente invención, un parámetro espectral que es de cada subbanda y usado para generar un ruido de confort se determina en cada subbanda de R subbandas según una distancia espectral de cada trama de silencio en S tramas de silencio, en lugar de que el parámetro espectral usado para generar el ruido de confort se obtenga simplemente mediante obtención de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, se mejora la calidad del ruido de confort.
De manera opcional, como una realización, el procesador 1320 puede seleccionar, en cada subbanda, una primera trama de silencio de las S tramas de silencio, de modo que una distancia espectral grupal de subbanda de la primera trama de silencio en las S tramas de silencio en cada subbanda es la más pequeña, y determinar, en cada subbanda, que un parámetro espectral de la primera trama de silencio es el primer parámetro espectral de cada subbanda.
De manera opcional, como otra realización, el procesador 1320 puede seleccionar, en cada subbanda, al menos una trama de silencio de las S tramas de silencio, de modo que una distancia espectral grupal de subbanda de la al menos una trama de silencio es menor que un cuarto umbral, y determinar, en cada subbanda, el primer parámetro espectral de cada subbanda según un parámetro espectral de la al menos una trama de silencio.
De manera opcional, como otra realización, cuando el dispositivo 1300 es el codificador, las S tramas de silencio pueden incluir una trama de silencio actualmente ingresada y (S-1) tramas de silencio que preceden a la trama de silencio actualmente ingresada. El procesador 1320 puede codificar la trama de silencio actualmente ingresada en una trama SID, donde la trama SID incluye el primer parámetro espectral de cada subbanda.
Para otras funciones y operaciones del dispositivo 1300, puede hacerse referencia al proceso de la realización del método en la Figura 5 en lo anterior; para evitar la repetición, no se proveen detalles adicionales en la presente memoria nuevamente.
La Figura 14 es un diagrama de bloques esquemático de un dispositivo de procesamiento de señales según otra realización de la presente invención. Un ejemplo de un dispositivo 1400 en la Figura 14 es un codificador o un decodificador, por ejemplo, el codificador 110 o el decodificador 120 que se muestran en la Figura 1. El dispositivo 1400 incluye una memoria 1410 y un procesador 1420.
La memoria 1410 puede incluir una memoria de acceso aleatorio, una memoria flash, una memoria de solo lectura, una memoria de solo lectura programable, una memoria permanente, o un registro. El procesador 1420 puede ser una CPU.
La memoria 1410 se configura para almacenar una instrucción ejecutable. El procesador 1420 puede ejecutar la instrucción ejecutable almacenada en la memoria 1410, para: determinar un primer parámetro de cada trama de silencio en T tramas de silencio, donde el primer parámetro se usa para representar entropía espectral, y T es un entero positivo; y determinar un primer parámetro espectral según el primer parámetro de cada trama de silencio en las T tramas de silencio, donde el primer parámetro espectral se usa para generar un ruido de confort.
En la presente realización de la presente invención, un primer parámetro espectral usado para generar un ruido de confort se determina según un primer parámetro que se usa para representar entropía espectral y de T tramas de silencio, en lugar de que un parámetro espectral usado para generar el ruido de confort se obtenga simplemente mediante obtención de un valor promedio o un valor medio de parámetros espectrales de múltiples tramas de silencio y, de esta manera, se mejora la calidad del ruido de confort.
De manera opcional, como una realización, el procesador 1420 puede determinar, en un caso en el cual se determina que las T tramas de silencio pueden clasificarse en un primer grupo de tramas de silencio y un segundo grupo de tramas de silencio según un criterio de agrupación, el primer parámetro espectral según un parámetro espectral del primer grupo de tramas de silencio, donde la entropía espectral representada por primeros parámetros del primer grupo de tramas de silencio es mayor que la entropía espectral representada por primeros parámetros del segundo grupo de tramas de silencio; y en un caso en el cual se determina que las T tramas de silencio no pueden clasificarse en el primer grupo de tramas de silencio y el segundo grupo de tramas de silencio según el criterio de agrupación, llevar a cabo la promediación ponderada en parámetros espectrales de las T tramas de silencio, para determinar el primer parámetro espectral, donde la entropía espectral representada por los primeros parámetros del primer grupo de tramas de silencio es mayor que la entropía espectral representada por los primeros parámetros del segundo grupo de tramas de silencio.
De manera opcional, como otra realización, el criterio de agrupación puede incluir: una distancia entre un primer parámetro de cada trama de silencio en el primer grupo de tramas de silencio y un primer valor promedio es menor que o igual a una distancia entre el primer parámetro de cada trama de silencio en el primer grupo de tramas de silencio y un segundo valor promedio; una distancia entre un primer parámetro de cada trama de silencio en el segundo grupo de tramas de silencio y el segundo valor promedio es menor que o igual a una distancia entre el primer parámetro de cada trama de silencio en el segundo grupo de tramas de silencio y el primer valor promedio; una distancia entre el primer valor promedio y el segundo valor promedio es mayor que una distancia promedio entre los primeros parámetros del primer grupo de tramas de silencio y el primer valor promedio; y la distancia entre el primer valor promedio y el segundo valor promedio es mayor que una distancia promedio entre los primeros parámetros del segundo grupo de tramas de silencio y el segundo valor promedio, donde el primer valor promedio es un valor promedio de los primeros parámetros del primer grupo de tramas de silencio, y el segundo valor promedio es un valor promedio de los primeros parámetros del segundo grupo de tramas de silencio.
De manera opcional, como otra realización, el procesador 1420 puede llevar a cabo la promediación ponderada en parámetros espectrales de las T tramas de silencio, para determinar el primer parámetro espectral, donde para la iésima trama de silencio y la jésima trama de silencio, las cuales son diferentes, en las T tramas de silencio, un coeficiente de ponderación correspondiente a la iésima trama de silencio es mayor que o igual a un coeficiente de ponderación correspondiente a la jésima trama de silencio; cuando el primer parámetro se correlaciona de forma positiva con la entropía espectral, un primer parámetro de la iésima trama de silencio es mayor que un primer parámetro de la jésima trama de silencio; y cuando el primer parámetro se correlaciona de forma negativa con la entropía espectral, el primer parámetro de la iésima trama de silencio es menor que el primer parámetro de la jésima trama de silencio, donde i y j son, ambos, enteros positivos, y 1<i<T, y 1<j<T.
De manera opcional, como otra realización, cuando el dispositivo 1400 es el codificador, las T tramas de silencio pueden incluir una trama de silencio actualmente ingresada y (T-1) tramas de silencio que preceden a la trama de silencio actualmente ingresada. El procesador 1420 puede codificar la trama de silencio actualmente ingresada en una trama SID, donde la trama SID incluye el primer parámetro espectral.
Para otras funciones y operaciones del dispositivo 1400, puede hacerse referencia al proceso de la realización del método en la Figura 6 en lo anterior; para evitar la repetición, no se proveen detalles adicionales en la presente memoria nuevamente.
Una persona con conocimientos ordinarios en la técnica puede ser consciente de que, en combinación con los ejemplos descritos en las realizaciones descritas en esta memoria descriptiva, las etapas de algoritmos y unidades se pueden implementar mediante hardware electrónico o una combinación de un software y hardware electrónico. Si las funciones se llevan a cabo por hardware o software depende de las aplicaciones particulares y de las condiciones de limitaciones de diseño de las soluciones técnicas. Una persona con experiencia en la técnica puede usar diferentes métodos para implementar las funciones descritas para cada aplicación particular.
Una persona con experiencia en la técnica puede comprender claramente que, en aras de una descripción conveniente y breve, para un proceso de trabajo detallado del sistema, aparato y unidad anteriores, puede hacerse referencia a un proceso correspondiente en las realizaciones de método anteriores, y que los detalles no se describen nuevamente en la presente memoria.
En las diversas realizaciones provistas en la presente aplicación, se ha de comprender que el sistema, aparato y método descritos se pueden implementar de otras maneras. Por ejemplo, la realización del aparato descrita es meramente a modo de ejemplo. Por ejemplo, la división de unidad es meramente una división de función lógica y en la implementación real la división puede ser otra. Por ejemplo, se pueden combinar o integrar en otro sistema múltiples unidades o componentes, o algunas características se pueden ignorar o no llevar a cabo. Además, los acoplamientos mutuos representados o descritos o los acoplamientos directos o conexiones de comunicaciones se pueden implementar mediante el uso de algunas interfaces. Los acoplamientos indirectos o conexiones de comunicación entre los aparatos o unidades se pueden implementar de forma electrónica, mecánica u otras.
Las unidades descritas como partes separadas pueden o pueden no estar físicamente separadas, y las partes representadas como unidades pueden o pueden no ser unidades físicas, pueden estar ubicadas en una posición o pueden distribuirse en múltiples unidades de red. Algunas o todas las unidades se pueden seleccionar según las necesidades reales para lograr los objetivos de las soluciones de las realizaciones.
Además, las unidades funcionales en las realizaciones de la presente invención pueden estar integradas en una unidad de procesamiento, o cada una de las unidades puede existir sola físicamente, o dos o más unidades se integran en una unidad.
Cuando las funciones se implementan en la forma de una unidad funcional de software y se venden o usan como un producto independiente, las funciones se pueden almacenar en un medio de almacenamiento legible por ordenador. Según dicho entendimiento, las soluciones técnicas de la presente invención esencialmente, o la parte que contribuye a la técnica anterior, o algunas de las soluciones técnicas, se pueden implementar en una forma de un producto de software. El producto de software se almacena en un medio de almacenamiento, e incluye diversas instrucciones para indicar a un dispositivo de ordenador (que puede ser un ordenador personal, un servidor o un dispositivo de red) que lleve a cabo alguna o todas las etapas de los métodos descritos en las realizaciones de la presente invención. El medio de almacenamiento anterior incluye: cualquier medio que pueda almacenar un código de programa como, por ejemplo, una memoria USB, un disco duro extraíble, una memoria de solo lectura (Read-Only Memory, ROM), una memoria de acceso aleatorio (Random Access Memory, RAM), un disco magnético, o un disco óptico.

Claims (21)

REIVINDICACIONES
1. Un método de codificación de señales de audio que comprende:
en un caso en el cual una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, predecir (210) un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama de descriptor de silencio, SID, y determinar una señal de silencio real, en donde la trama actualmente ingresada es una trama de silencio;
determinar (220) un grado de desviación entre el ruido de confort y la señal de silencio real;
determinar (230) una manera de codificación de la trama actualmente ingresada según el grado de desviación, en donde la manera de codificación de la trama actualmente ingresada es una manera de codificación de tramas de mantenimiento; y
codificar (240) la trama actualmente ingresada según la manera de codificación de la trama actualmente ingresada.
2. El método según la reivindicación 1, en donde la etapa de predecir (210) un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID, y determinar una señal de silencio real comprende:
predecir un parámetro de características del ruido de confort y determinar un parámetro de características de la señal de silencio real, en donde el parámetro de características del ruido de confort se encuentra en una correspondencia uno a uno con respecto al parámetro de características de la señal de silencio real; y
la determinación de un grado de desviación entre el ruido de confort y la señal de silencio real comprende:
determinar una distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real.
3. El método según la reivindicación 2, en donde la etapa de determinar (230) una manera de codificación de la trama actualmente ingresada según el grado de desviación comprende:
determinar, en un caso en el cual la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es mayor que o igual al umbral correspondiente en el conjunto de umbrales, que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas de mantenimiento.
4. El método según la reivindicación 2 o 3, en donde el parámetro de características del ruido de confort se usa para representar al menos una de la siguiente información: información de energía e información espectral.
5. El método según la reivindicación 4, en donde la información de energía comprende energía de excitación de predicción lineal con excitación por código, CELP;
la información espectral comprende al menos uno de los siguientes: un coeficiente de filtro predictivo lineal, un coeficiente de transformada rápida de Fourier, FFT, y un coeficiente de transformada del coseno discreta modificada, MDCT; y
el coeficiente de filtro predictivo lineal comprende al menos uno de los siguientes: un coeficiente de frecuencia espectral de línea, LSF, un coeficiente de par de espectro de línea, LSP, un coeficiente de frecuencia espectral de inmitancia, ISF, un coeficiente de par espectral de inmitancia, ISP, un coeficiente de reflexión y un coeficiente de codificación predictiva lineal, LPC.
6. El método según una cualquiera de las reivindicaciones 2 a 5, en donde la etapa de predecir un parámetro de características del ruido de confort comprende:
predecir el parámetro de características del ruido de confort según un parámetro de ruido de confort de la trama previa de la trama actualmente ingresada y un parámetro de características de la trama actualmente ingresada; o
predecir el parámetro de características del ruido de confort según parámetros de características de L tramas de mantenimiento que preceden a la trama actualmente ingresada y un parámetro de características de la trama actualmente ingresada, en donde L es un entero positivo.
7. El método según una cualquiera de las reivindicaciones 2 a 6, en donde la etapa de determinar un parámetro de características de la señal de silencio real comprende:
usar el parámetro de características de la trama actualmente ingresada como el parámetro de características de la señal de silencio real; o compilar estadísticas sobre parámetros de características de M tramas de silencio, para determinar el parámetro de características de la señal de silencio real.
8. El método según la reivindicación 7, en donde las M tramas de silencio comprenden la trama actualmente ingresada y (M-1) tramas de silencio que preceden a la trama actualmente ingresada, en donde M es un entero positivo.
9. El método según la reivindicación 3, en donde el parámetro de características del ruido de confort comprende energía de excitación de predicción lineal con excitación por código, CELP, del ruido de confort y un coeficiente de frecuencia espectral de línea, LSF, del ruido de confort, y el parámetro de características de la señal de silencio real comprende energía de excitación CELP de la señal de silencio real y un coeficiente LSF de la señal de silencio real; y
la etapa de determinar una distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real comprende:
determinar una distancia De entre la energía de excitación CELP del ruido de confort y la energía de excitación CELP de la señal de silencio real, y determinar una distancia Dlsf entre el coeficiente LSF del ruido de confort y el coeficiente LSF de la señal de silencio real.
10. El método según la reivindicación 9, en donde la etapa de determinar, en un caso en el cual la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es menor que un umbral correspondiente en un conjunto de umbrales, que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas SID comprende:
en un caso en el cual la distancia De es menor que un primer umbral y la distancia Dlsf es menor que un segundo umbral, determinar que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas SID; y
la etapa de determinar, en un caso en el cual la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es mayor que o igual al umbral correspondiente en el conjunto de umbrales, que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas de mantenimiento comprende:
en un caso en el cual la distancia De es mayor que o igual al primer umbral o la distancia Dlsf es mayor que o igual al segundo umbral, determinar que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas de mantenimiento.
11. El método según la reivindicación 10, que además comprende:
adquirir el primer umbral prestablecido y el segundo umbral prestablecido; o
determinar el primer umbral según la energía de excitación CELP de N tramas de silencio que preceden a la trama actualmente ingresada, y determinar el segundo umbral según los coeficientes LSF de las N tramas de silencio, en donde N es un entero positivo.
12. El método según una cualquiera de las reivindicaciones 1 a 11, en donde la predicción de un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama SID comprende:
predecir el ruido de confort en una primera manera de predicción, en donde la primera manera de predicción es la misma que una manera en la cual el decodificador genera el ruido de confort.
13. Un dispositivo de codificación de señales de audio que comprende:
una primera unidad (710) de determinación, configurada para: en un caso en el cual una manera de codificación de una trama previa de una trama actualmente ingresada es una manera de codificación continua, predecir un ruido de confort que se genera por un decodificador según la trama actualmente ingresada en un caso en el cual la trama actualmente ingresada se codifica en una trama de descriptor de silencio, SID, y determinar una señal de silencio real, en donde la trama actualmente ingresada es una trama de silencio;
una segunda unidad (720) de determinación, configurada para determinar un grado de desviación entre el ruido de confort determinado por la primera unidad de determinación y la señal de silencio real determinada por la primera unidad de determinación;
una tercera unidad (730) de determinación, configurada para determinar una manera de codificación de la trama actualmente ingresada según el grado de desviación determinado por la segunda unidad de determinación, en donde la manera de codificación de la trama actualmente ingresada es una manera de codificación de tramas de mantenimiento; y
una unidad (740) de codificación, configurada para codificar la trama actualmente ingresada según la manera de codificación de la trama actualmente ingresada determinada por la tercera unidad de determinación.
14. El dispositivo según la reivindicación 13, en donde la primera unidad (710) de determinación se configura, específicamente, para predecir un parámetro de características del ruido de confort y determinar un parámetro de características de la señal de silencio real, en donde el parámetro de características del ruido de confort se encuentra en una correspondencia uno a uno con respecto al parámetro de características de la señal de silencio real; y
la segunda unidad (720) de determinación se configura, de manera específica, para determinar una distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real.
15. El dispositivo según la reivindicación 14, en donde la tercera unidad (730) de determinación se configura, específicamente, para: en un caso en el cual la distancia entre el parámetro de características del ruido de confort y el parámetro de características de la señal de silencio real es mayor que o igual al umbral correspondiente en el conjunto de umbrales, determinar que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas de mantenimiento.
16. El dispositivo según la reivindicación 14 o 15, en donde la primera unidad (710) de determinación se configura, específicamente, para: predecir el parámetro de características del ruido de confort según un parámetro de ruido de confort de la trama previa de la trama actualmente ingresada y un parámetro de características de la trama actualmente ingresada; o predecir el parámetro de características del ruido de confort según los parámetros de características de L tramas de mantenimiento que preceden a la trama actualmente ingresada y un parámetro de características de la trama actualmente ingresada, en donde L es un entero positivo.
17. El dispositivo según una cualquiera de las reivindicaciones 14 a 16, en donde la primera unidad (710) de determinación se configura, específicamente, para: determinar que el parámetro de características de la trama actualmente ingresada es el parámetro de características de la señal de silencio real; o compilar estadísticas sobre parámetros de características de M tramas de silencio, para determinar el parámetro de características de la señal de silencio real.
18. El dispositivo según la reivindicación 15, en donde el parámetro de características del ruido de confort comprende energía de excitación de predicción lineal con excitación por código, CELP, del ruido de confort y un coeficiente de frecuencia espectral de línea, LSF, del ruido de confort, y el parámetro de características de la señal de silencio real comprende energía de excitación CELP de la señal de silencio real y un coeficiente LSF de la señal de silencio real; y
la segunda unidad (720) de determinación se configura, específicamente, para determinar una distancia De entre la energía de excitación CELP del ruido de confort y la energía de excitación CELP de la señal de silencio real, y determinar una distancia Dlsf entre el coeficiente LSF del ruido de confort y el coeficiente LSF de la señal de silencio real.
19. El dispositivo según la reivindicación 18, en donde la tercera unidad (730) de determinación se configura, específicamente, para: en un caso en el cual la distancia De es menor que un primer umbral y la distancia Dlsf es menor que un segundo umbral, determinar que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas SID; y
la tercera unidad (730) de determinación se configura, específicamente, para: en un caso en el cual la distancia De es mayor que o igual al primer umbral o la distancia Dlsf es mayor que o igual al segundo umbral, determinar que la manera de codificación de la trama actualmente ingresada es la manera de codificación de tramas de mantenimiento.
20. El dispositivo según la reivindicación 19, que además comprende:
una cuarta unidad (750) de determinación, configurada para: adquirir el primer umbral prestablecido y el segundo umbral prestablecido; o determinar el primer umbral según la energía de excitación CELP de N tramas de silencio que preceden a la trama actualmente ingresada, y determinar el segundo umbral según los coeficientes LSF de las N tramas de silencio, en donde N es un entero positivo.
21. El dispositivo según una cualquiera de las reivindicaciones 13 a 20, en donde la primera unidad (710) de determinación se configura, específicamente, para predecir el ruido de confort en una primera manera de predicción, en donde la primera manera de predicción es la misma que una manera en la cual el decodificador genera el ruido de confort.
ES13885513T 2013-05-30 2013-09-25 Método, dispositivo y sistema de transmisión de datos multimedia Active ES2812553T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201310209760.9A CN104217723B (zh) 2013-05-30 2013-05-30 信号编码方法及设备
PCT/CN2013/084141 WO2014190641A1 (zh) 2013-05-30 2013-09-25 一种媒体数据的传输方法、装置和系统

Publications (1)

Publication Number Publication Date
ES2812553T3 true ES2812553T3 (es) 2021-03-17

Family

ID=51987922

Family Applications (2)

Application Number Title Priority Date Filing Date
ES13885513T Active ES2812553T3 (es) 2013-05-30 2013-09-25 Método, dispositivo y sistema de transmisión de datos multimedia
ES20169609T Active ES2951107T3 (es) 2013-05-30 2013-09-25 Método y dispositivo de generación de ruido de confort

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES20169609T Active ES2951107T3 (es) 2013-05-30 2013-09-25 Método y dispositivo de generación de ruido de confort

Country Status (17)

Country Link
US (2) US9886960B2 (es)
EP (3) EP4235661A3 (es)
JP (3) JP6291038B2 (es)
KR (2) KR20170110737A (es)
CN (3) CN105225668B (es)
AU (2) AU2013391207B2 (es)
BR (1) BR112015029310B1 (es)
CA (2) CA2911439C (es)
ES (2) ES2812553T3 (es)
HK (1) HK1203685A1 (es)
MX (1) MX355032B (es)
MY (1) MY161735A (es)
PH (2) PH12015502663B1 (es)
RU (2) RU2638752C2 (es)
SG (3) SG11201509143PA (es)
WO (1) WO2014190641A1 (es)
ZA (1) ZA201706413B (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105225668B (zh) * 2013-05-30 2017-05-10 华为技术有限公司 信号编码方法及设备
US10049684B2 (en) * 2015-04-05 2018-08-14 Qualcomm Incorporated Audio bandwidth selection
CN107731223B (zh) * 2017-11-22 2022-07-26 腾讯科技(深圳)有限公司 语音活性检测方法、相关装置和设备
CN110660402B (zh) 2018-06-29 2022-03-29 华为技术有限公司 立体声信号编码过程中确定加权系数的方法和装置
CN111918196B (zh) * 2019-05-08 2022-04-19 腾讯科技(深圳)有限公司 一种音频采集器录音异常的诊断方法、装置、设备及存储介质
US11460927B2 (en) * 2020-03-19 2022-10-04 DTEN, Inc. Auto-framing through speech and video localizations
CN114495951A (zh) * 2020-11-11 2022-05-13 华为技术有限公司 音频编解码方法和装置

Family Cites Families (46)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2541484B2 (ja) * 1992-11-27 1996-10-09 日本電気株式会社 音声符号化装置
CA2110090C (en) 1992-11-27 1998-09-15 Toshihiro Hayata Voice encoder
FR2739995B1 (fr) 1995-10-13 1997-12-12 Massaloux Dominique Procede et dispositif de creation d'un bruit de confort dans un systeme de transmission numerique de parole
US6269331B1 (en) * 1996-11-14 2001-07-31 Nokia Mobile Phones Limited Transmission of comfort noise parameters during discontinuous transmission
JP3464371B2 (ja) * 1996-11-15 2003-11-10 ノキア モービル フォーンズ リミテッド 不連続伝送中に快適雑音を発生させる改善された方法
US5960389A (en) * 1996-11-15 1999-09-28 Nokia Mobile Phones Limited Methods for generating comfort noise during discontinuous transmission
US7124079B1 (en) * 1998-11-23 2006-10-17 Telefonaktiebolaget Lm Ericsson (Publ) Speech coding with comfort noise variability feature for increased fidelity
US6381568B1 (en) * 1999-05-05 2002-04-30 The United States Of America As Represented By The National Security Agency Method of transmitting speech using discontinuous transmission and comfort noise
US6662155B2 (en) * 2000-11-27 2003-12-09 Nokia Corporation Method and system for comfort noise generation in speech communication
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
US20030120484A1 (en) * 2001-06-12 2003-06-26 David Wong Method and system for generating colored comfort noise in the absence of silence insertion description packets
JP4518714B2 (ja) * 2001-08-31 2010-08-04 富士通株式会社 音声符号変換方法
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
US7454010B1 (en) * 2004-11-03 2008-11-18 Acoustic Technologies, Inc. Noise reduction and comfort noise gain control using bark band weiner filter and linear attenuation
US20060149536A1 (en) * 2004-12-30 2006-07-06 Dunling Li SID frame update using SID prediction error
US7983906B2 (en) * 2005-03-24 2011-07-19 Mindspeed Technologies, Inc. Adaptive voice mode extension for a voice activity detector
JP2008546341A (ja) * 2005-06-18 2008-12-18 ノキア コーポレイション 非連続音声送信の際の擬似背景ノイズパラメータ適応送信のためのシステム及び方法
US7610197B2 (en) * 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US20070294087A1 (en) * 2006-05-05 2007-12-20 Nokia Corporation Synthesizing comfort noise
TWI467979B (zh) * 2006-07-31 2015-01-01 Qualcomm Inc 用於信號改變偵測之系統、方法及裝置
US8725499B2 (en) 2006-07-31 2014-05-13 Qualcomm Incorporated Systems, methods, and apparatus for signal change detection
RU2319222C1 (ru) * 2006-08-30 2008-03-10 Валерий Юрьевич Тарасов Способ кодирования и декодирования речевого сигнала методом линейного предсказания
US8380494B2 (en) * 2007-01-24 2013-02-19 P.E.S. Institute Of Technology Speech detection using order statistics
WO2008121035A1 (en) * 2007-03-29 2008-10-09 Telefonaktiebolaget Lm Ericsson (Publ) Method and speech encoder with length adjustment of dtx hangover period
CN101303855B (zh) * 2007-05-11 2011-06-22 华为技术有限公司 一种舒适噪声参数产生方法和装置
CN101320563B (zh) 2007-06-05 2012-06-27 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
CN101335003B (zh) 2007-09-28 2010-07-07 华为技术有限公司 噪声生成装置、及方法
CN101430880A (zh) * 2007-11-07 2009-05-13 华为技术有限公司 一种背景噪声的编解码方法和装置
DE102008009719A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN101483042B (zh) * 2008-03-20 2011-03-30 华为技术有限公司 一种噪声生成方法以及噪声生成装置
CN101335000B (zh) 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
JP4950930B2 (ja) * 2008-04-03 2012-06-13 株式会社東芝 音声/非音声を判定する装置、方法およびプログラム
CN102044243B (zh) * 2009-10-15 2012-08-29 华为技术有限公司 语音激活检测方法与装置、编码器
JP5712220B2 (ja) * 2009-10-19 2015-05-07 テレフオンアクチーボラゲット エル エム エリクソン(パブル) 音声活動検出のための方法および背景推定器
US20110228946A1 (en) * 2010-03-22 2011-09-22 Dsp Group Ltd. Comfort noise generation method and system
CN102741918B (zh) 2010-12-24 2014-11-19 华为技术有限公司 用于话音活动检测的方法和设备
CA2827335C (en) 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
SG192745A1 (en) * 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Noise generation in audio codecs
JP5732976B2 (ja) * 2011-03-31 2015-06-10 沖電気工業株式会社 音声区間判定装置、音声区間判定方法、及びプログラム
CN102903364B (zh) * 2011-07-29 2017-04-12 中兴通讯股份有限公司 一种进行语音自适应非连续传输的方法及装置
CN103137133B (zh) * 2011-11-29 2017-06-06 南京中兴软件有限责任公司 非激活音信号参数估计方法及舒适噪声产生方法及系统
CN103187065B (zh) * 2011-12-30 2015-12-16 华为技术有限公司 音频数据的处理方法、装置和系统
US9443526B2 (en) * 2012-09-11 2016-09-13 Telefonaktiebolaget Lm Ericsson (Publ) Generation of comfort noise
PL3550562T3 (pl) * 2013-02-22 2021-05-31 Telefonaktiebolaget Lm Ericsson (Publ) Sposoby i urządzenia dla zawieszenia DTX w kodowaniu audio
CN105225668B (zh) * 2013-05-30 2017-05-10 华为技术有限公司 信号编码方法及设备
CN104978970B (zh) * 2014-04-08 2019-02-12 华为技术有限公司 一种噪声信号的处理和生成方法、编解码器和编解码系统

Also Published As

Publication number Publication date
EP3745396A1 (en) 2020-12-02
CN104217723A (zh) 2014-12-17
RU2665236C1 (ru) 2018-08-28
SG10201810567PA (en) 2019-01-30
KR102099752B1 (ko) 2020-04-10
CN106169297A (zh) 2016-11-30
SG11201509143PA (en) 2015-12-30
CN105225668A (zh) 2016-01-06
CA3016741A1 (en) 2014-12-04
RU2015155951A (ru) 2017-06-30
KR20160003192A (ko) 2016-01-08
JP2018092182A (ja) 2018-06-14
ES2951107T3 (es) 2023-10-18
JP2016526188A (ja) 2016-09-01
JP6680816B2 (ja) 2020-04-15
EP3007169A1 (en) 2016-04-13
US20160078873A1 (en) 2016-03-17
HK1203685A1 (en) 2015-10-30
PH12015502663A1 (en) 2016-03-07
EP3007169B1 (en) 2020-06-24
US10692509B2 (en) 2020-06-23
MX2015016375A (es) 2016-04-13
CA3016741C (en) 2020-10-27
WO2014190641A1 (zh) 2014-12-04
KR20170110737A (ko) 2017-10-11
AU2013391207A1 (en) 2015-11-26
CN106169297B (zh) 2019-04-19
EP4235661A2 (en) 2023-08-30
AU2017204235B2 (en) 2018-07-26
PH12018501871A1 (en) 2019-06-10
CA2911439A1 (en) 2014-12-04
AU2013391207B2 (en) 2017-03-23
BR112015029310B1 (pt) 2021-11-30
CN104217723B (zh) 2016-11-09
US9886960B2 (en) 2018-02-06
AU2017204235A1 (en) 2017-07-13
ZA201706413B (en) 2019-04-24
PH12015502663B1 (en) 2016-03-07
JP6291038B2 (ja) 2018-03-14
JP6517276B2 (ja) 2019-05-22
MX355032B (es) 2018-04-02
EP3007169A4 (en) 2017-06-14
RU2638752C2 (ru) 2017-12-15
EP3745396B1 (en) 2023-04-19
JP2017199025A (ja) 2017-11-02
EP4235661A3 (en) 2023-11-15
CN105225668B (zh) 2017-05-10
CA2911439C (en) 2018-11-06
US20180122389A1 (en) 2018-05-03
SG10201607798VA (en) 2016-11-29
BR112015029310A2 (pt) 2017-07-25
MY161735A (en) 2017-05-15

Similar Documents

Publication Publication Date Title
ES2812553T3 (es) Método, dispositivo y sistema de transmisión de datos multimedia
ES2733099T3 (es) Sistemas, procedimientos y aparatos para la detección de cambio de señal
US8600765B2 (en) Signal classification method and device, and encoding and decoding methods and devices
ES2664185T3 (es) Codificador de audio, decodificador de audio, método para proporcionar una información de audio codificada, método para proporcionar una información de audio decodificada, programa informático y representación codificada utilizando una ampliación de ancho de banda adaptada a la señal
ES2661924T3 (es) Método y dispositivo para detectar la actividad vocal
JP6849619B2 (ja) 低ビットレートで背景ノイズをモデル化するためのコンフォートノイズ付加
ES2850224T3 (es) Método para estimar ruido en una señal de audio, estimador de ruido, codificador de audio, decodificador de audio, y sistema para transmitir señales de audio