ES2844223T3 - Métodos y aparatos para retención DTX en codificación de audio - Google Patents

Métodos y aparatos para retención DTX en codificación de audio Download PDF

Info

Publication number
ES2844223T3
ES2844223T3 ES19173460T ES19173460T ES2844223T3 ES 2844223 T3 ES2844223 T3 ES 2844223T3 ES 19173460 T ES19173460 T ES 19173460T ES 19173460 T ES19173460 T ES 19173460T ES 2844223 T3 ES2844223 T3 ES 2844223T3
Authority
ES
Spain
Prior art keywords
frames
sid
hold
audio
dtx
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19173460T
Other languages
English (en)
Inventor
Stefan Bruhn
Martin Sehlstedt
Toftgård Tomas Jansson
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Telefonaktiebolaget LM Ericsson AB
Original Assignee
Telefonaktiebolaget LM Ericsson AB
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Telefonaktiebolaget LM Ericsson AB filed Critical Telefonaktiebolaget LM Ericsson AB
Application granted granted Critical
Publication of ES2844223T3 publication Critical patent/ES2844223T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/012Comfort noise or silence coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Telephonic Communication Services (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Data Exchanges In Wide-Area Networks (AREA)
  • Transmission Systems Not Characterized By The Medium Used For Transmission (AREA)

Abstract

Un método de codificación de audio, en el que se aplica un esquema de transmisión discontinua, DTX, que comprende la transmisión de tramas de descriptor de inserción de silencio, SID, durante los períodos de señal inactiva, comprendiendo el método: - determinar (703a) un número N de tramas de retención, en el que el número N de tramas de retención es variable; - transmitir (704a) las N tramas de retención a un decodificador de audio; - transmitir (705a) una trama SID al decodificador de audio después de transmitir las N tramas de retención, donde la trama SID comprende información que indica el número determinado N de tramas de retención.

Description

DESCRIPCIÓN
Métodos y aparatos para retención DTX en codificación de audio
Campo técnico
La solución descrita en el presente documento se refiere en general a la codificación de audio y, en particular, a las tramas de retención asociadas con la transmisión discontinua (DTX) en la codificación de audio.
Antecedentes
Estándares actuales de codificación de audio o conversación como 3GPP AMR (3GPP TS 26.071) y AMR-WB (3GPP TS 26.171), así como varios estándares de codificación de conversación ITU-T (por ejemplo, recomendación ITU-T G.729, recomendación ITU-T G.718) incluyen un esquema de transmisión discontinua (DTX) que suspende la transmisión de conversación durante la inactividad de conversación y, en su lugar, transmite tramas de descriptor de inserción de silencio (SID) a una tasa de bits y una tasa de transmisión de tramas significativamente reducidas en comparación con las usadas para conversación activa codificada. El propósito de DTX es aumentar la eficiencia de transmisión, lo que a su vez reduce el costo de la comunicación por conversación y/o aumenta el número de conexiones telefónicas posibles simultáneamente en un sistema de comunicación dado.
Los actuales sistemas de comunicación del estado de la técnica con DTX transmiten tramas de codificación de conversación regulares durante los segmentos de conversación activos. Durante segmentos inactivos, por ejemplo, pausas de conversación, estos sistemas más bien transmiten tramas SID a partir de las cuales el receptor genera el llamado ruido de confort como una señal de sustitución de la señal de inactividad. Para lograr la mejor eficiencia DTX posible, es deseable que las tramas de codificación de conversación solo se transmitan durante la conversación activa y no en segmentos inactivos, por ejemplo, durante las pausas de conversación.
Para hacer esta distinción entre conversación e inactividad, se usa un detector de actividad de voz (VAD) en el lado de codificación o envío. Durante las tramas correspondientes a los segmentos de conversación activos, se activa una marca VAD. Este concepto adolece en la práctica, y especialmente en situaciones de conversación con ruido de fondo, de errores de clasificación VAD. Es decir, los períodos de inactividad se clasifican como períodos de conversación activa y/o viceversa. Uno de los principales problemas de los VAD es la detección de los puntos finales de conversación, es decir, el punto preciso en el tiempo en el que la señal cambia de conversación activa a inactividad. La razón principal de este problema es que muchos desplazamientos de conversación están decayendo lentamente antes de que la conversación se detenga realmente, de modo que el final de los arranques de habla puede muy bien estar cubierto por ruido de fondo. La consecuencia de este problema puede ser que tales desplazamientos de conversación se clasifiquen como inactividad, lo que puede dar como resultado que las tramas de señal correspondientes no se codifiquen, transmitan y reconstruyan como conversación activa, sino como una señal de silencio para la que se generan tramas de ruido de confort. Esto significa que los desplazamientos de conversación (final de los períodos de conversación) pueden percibirse como recortadas, lo que lleva a una calidad significativamente reducida e incluso a la inteligibilidad de conversación reconstruida. En otras palabras, esto puede conducir a una mala experiencia de usuario.
Los códecs del estado de la técnica actual como AMR y AMR-WB resuelven este problema simplemente retrasando el inicio de la operación DTX con síntesis de ruido de confort varias tramas después del desplazamiento detectado por VAD. Esto se hace con una lógica de control DTX en el codificador, que extiende o agrega un período de tiempo durante el cual una señal de entrada se codifica como conversación activa aunque la marca VAD indique inactividad. Este período se denomina período de retención y en el caso de AMR y AMR-Wb , el período de retención tiene una duración de 7 tramas.
El período de retención no solo se usa como un medio para evitar el recorte del final (o desplazamiento) de conversación, sino también para el análisis de parámetros de la trama SID. En el caso de AMR y AMR-WB, los primeros parámetros de la trama SID después de un arranque de habla (suficientemente larga) no se transmiten, sino que el decodificador los calcula a partir de los parámetros de la trama de conversación recibidos y almacenados durante el período de retención (3GPP TS 26.092; 3GPP TS 26.192). El propósito de realizar el cálculo de parámetro de trama SID basándose en los parámetros de la trama de conversación recibidos durante el período de retención es ahorrar recursos de transmisión que, de lo contrario, deberían haberse gastado en la transmisión de la trama SID y minimizar el efecto de posibles errores de transmisión en los primeros parámetros de la trama SID. El principal problema con el período de retención en las soluciones del estado de la técnica descritas es que compromete la eficiencia del esquema DTX. Las tramas de retención se codifican como conversación activa a pesar de que probablemente sean tramas de inactividad. Si la conversación comprende frecuentes arranques de habla separados entre períodos de inactividad, entonces se codifica un número significativo de tramas con una alta tasa de bits, por lo tanto, como tramas de conversación, en lugar de como tramas de ruido de confort.
Surge un problema relacionado si el período de retención se acorta para mejorar la eficiencia del esquema DTX. Cuanto más corto sea el período de retención, más probable es que no represente correctamente la señal de ruido de inactividad. Esto puede dar lugar a degradaciones audibles de la síntesis del ruido de confort inmediatamente al final de los arranques de habla.
En AMR y AMR WB, el codificador y el decodificador realizan un seguimiento de las tramas de retención DTX usando una máquina de estado que debe estar sincronizada en el codificador y el decodificador. El documento US 2010/106490 divulga el ajuste de la duración del período de retención basándose en los valores de energía de las tramas de conversación dentro del período de retención DTX.
Sumario
Sería deseable, en el lado del decodificador de audio, generar ruido de confort, que es representativo del ruido de fondo en el lado del codificador de audio. Además, es deseable hacer esto de una manera eficiente, usando solo un mínimo de recursos. Por tanto, un objetivo de la solución sugerida en el presente documento es permitir la generación de ruido de confort que sea representativo del ruido de fondo en el lado del codificador, y hacerlo usando una cantidad limitada de recursos.
La solución sugerida en el presente documento aumenta la eficiencia de las transmisiones de conversación con DTX sin comprometer la calidad de la síntesis de ruido de confort al final de los arranques de habla.
De acuerdo con un primer aspecto, se proporciona un método de codificación de audio. Se aplica un esquema DTX que comprende la transmisión de tramas SID durante los períodos de señal inactiva. El método comprende determinar un número N de tramas de retención, en el que el número N de tramas de retención es variable. El método comprende además transmitir las N tramas de retención a un decodificador de audio. El método comprende además transmitir una trama SID al decodificador de audio después de transmitir las N tramas de retención, donde la trama SID comprende información que indica el número determinado N de tramas de retención.
El número N de tramas de retención es dinámicamente variable basándose en las propiedades de una señal de audio de entrada. La trama SID comprende además parámetros SID. El método permite al decodificador generar ruido de confort basándose en las N tramas de retención.
De acuerdo con un segundo aspecto, se proporciona un codificador de audio. El codificador de audio puede funcionar para aplicar un esquema DTX que comprende la transmisión de tramas SID durante períodos de señal inactiva. El codificador de audio comprende medios de procesamiento, por ejemplo, en forma de un procesador y una memoria, donde dicha memoria contiene instrucciones ejecutables por dicho procesador. Los medios de procesamiento son operativos para determinar un número N de tramas de retención, en los que el número N de tramas de retención es variable. Los medios de procesamiento son además operativos para transmitir las N tramas de retención a un decodificador de audio, y además para transmitir una trama SID después de transmitir las N tramas de retención, donde la trama SID comprende información que indica el número determinado N de tramas de retención.
De acuerdo con un tercer aspecto, se proporciona un programa informático, que comprende un código de programa informático, que cuando se ejecuta en un codificador de audio hace que el codificador de audio realice el método de acuerdo con el primer aspecto.
De acuerdo con un cuarto aspecto, se proporciona un producto de programa informático, que comprende el programa informático de acuerdo con el tercer aspecto.
De acuerdo con un quinto aspecto, se proporciona un equipo de usuario que comprende un codificador de audio de acuerdo con el primer aspecto.
Breve descripción de los dibujos
Los objetos, características y ventajas anteriores y otros de la solución divulgada en el presente documento serán evidentes a partir de la siguiente descripción más particular de las realizaciones ilustradas en los dibujos adjuntos. Los dibujos no están necesariamente a escala, sino que se hace hincapié en ilustrar los principios de la solución divulgada en el presente documento.
La figura 1 es un diagrama de bloques del codificador. El codificador comprende un VAD y un codificador de retención.
La figura 2 es un diagrama de bloques del decodificador que funciona en DTX.
La figura 3 es un diagrama de bloques del VAD y la lógica de determinación de retención.
La figura 4 es un diagrama de bloques del codificador de retención.
La figura 5 es un diagrama de flujo para el codificador de retención.
Las figuras 6a y 6b son diagramas de flujo para el decodificador de retención.
Las figuras 7a y 7b son diagramas de flujo que ilustran realizaciones de ejemplos de un método realizado por un nodo de transmisión o codificación, de acuerdo con la solución sugerida en el presente documento.
La figura 8 es un diagrama de flujo que ilustra una realización de ejemplo de un método realizado por un nodo de recepción o decodificación, de acuerdo con la solución sugerida en el presente documento.
Las figuras 9-10 son diagramas de bloques que ilustran realizaciones de ejemplo de un nodo de transmisión, de acuerdo con la solución sugerida en el presente documento.
Las figuras 11-12 son diagramas de bloques que ilustran realizaciones de ejemplos de un nodo de recepción, de acuerdo con la solución sugerida en el presente documento.
Descripción detallada
Como se mencionó anteriormente: en los sistemas de comunicación que utilizan transmisión discontinua (DTX), la eficiencia de transmisión se reduce cuando se usan técnicas de retención para evitar la degradación de la calidad debido a decisiones incorrectas del detector de actividad de voz (VAD).
En los denominados segmentos de señal inactiva, por ejemplo, la conversación hace una pausa, se genera ruido de confort, en el lado del decodificador, usando información transmitida en las tramas de descriptor de inserción de silencio (SID). Si el período de retención también se usa para el análisis de parámetros SID, la duración del mismo preferiblemente no es tan larga como se requiere para cubrir decisiones incorrectas de VAD, sino un poco más para capturar las características de la señal de fondo. Generalmente, la probabilidad de que se genere un ruido de confort adecuado aumentará con períodos de retención más largos. Por otro lado, los períodos de retención largos disminuyen la eficiencia del sistema de comunicación utilizando DTX, ya que las tramas de señal inactiva se transmitirán como tramas de señal de conversación a una tasa de bit y tasa de transmisión de tramas más altas. En los sistemas de comunicación que usan estas técnicas, existe en consecuencia un compromiso entre la eficiencia de transmisión y la probabilidad de un ruido de confort representativo.
Un período de retención después de un desplazamiento de conversación puede ser adaptativo. Para el codificador, esto significa que tras una decisión de VAD que cambia de 1 (= conversación activa) a 0 (inactividad), se agrega un período de retención adaptativa. La información que especifica las tramas que pertenecen al período de retención puede transmitirse con la primera trama SID después del período de retención. En la figura 1, se muestra un diagrama de bloques esquemático de dicho codificador.
El decodificador puede recibir, por ejemplo, con la primera trama SID, la indicación de cuál de las tramas de conversación activa recibidas previamente pertenecen al período de retención. La información de conversación codificada de las tramas que pertenecen al período de retención puede usarse posteriormente para el cálculo del parámetro SID del lado del descodificador. En la figura 2, se muestra un diagrama de bloques esquemático del decodificador.
En la siguiente descripción, con fines explicativos y no limitativos, se establecen detalles específicos tales como arquitecturas, interfaces, técnicas, etc. particulares para proporcionar una comprensión completa del concepto descrito en el presente documento. Sin embargo, resultará evidente para los expertos en la técnica que el concepto descrito se puede practicar en otras realizaciones que se aparten de estos detalles específicos. Es decir, los expertos en la técnica podrán idear diversas disposiciones que, aunque no se describen o muestran explícitamente en el presente documento, incorporan los principios del concepto descrito y se incluyen dentro de su alcance. En algunos casos, se omiten descripciones detalladas de dispositivos, circuitos y métodos bien conocidos para no oscurecer la descripción de acuerdo con el presente concepto con detalles innecesarios. Todas las declaraciones en el presente documento que recitan principios, aspectos y realizaciones del concepto descrito, así como los ejemplos específicos del mismo, pretenden abarcar sus equivalentes tanto estructurales como funcionales. Además, se pretende que dichos equivalentes incluyan tanto los equivalentes conocidos actualmente como los equivalentes desarrollados en el futuro, por ejemplo, cualquier elemento desarrollado que realice la misma función, independientemente de la estructura.
Así, por ejemplo, los expertos en la técnica apreciarán que los diagramas de bloques del presente documento pueden representar vistas conceptuales de circuitería ilustrativa u otras unidades funcionales que incorporan los principios de la solución. De manera similar, se apreciará que cualquier diagrama de flujo, diagrama de transición de estado, pseudocódigo y similares representan varios procesos que pueden estar sustancialmente representados en un medio legible por computadora y, por lo tanto, ejecutados por una computadora o procesador, ya sea o no dicha computadora o procesador se muestra explícitamente.
Las funciones de los diversos elementos, incluidos los bloques funcionales, incluidos, entre otros, los etiquetados o descritos como por ejemplo, "computadora", "procesador" o "controlador", puede proporcionarse mediante el uso de hardware tal como hardware de circuito y/o hardware capaz de ejecutar software en forma de instrucciones codificadas almacenadas en un medio legible por computadora. Por tanto, tales funciones y bloques funcionales ilustrados deben entenderse como implementados por hardware y/o implementados por computadora y, por lo tanto, implementados por máquina.
En términos de implementación de hardware, los bloques funcionales pueden incluir o abarcar, sin limitación, hardware de procesador de señal digital (DSP), procesador de conjunto de instrucciones reducido, circuitería de hardware (por ejemplo, digital o analógica) que incluyen, entre otros, circuito o circuitos integrados de aplicación específica (ASIC) y (cuando corresponda) máquinas de estado capaces de realizar tales funciones.
En las realizaciones de ejemplo de la solución sugerida en el presente documento, la duración de un período de retención, es decir, el número de tramas de retención, puede ser variable y adaptable. Se puede generar un período de retención adaptativo, por ejemplo, en respuesta a la decisión de VAD y otro indicador. En la figura 3 se muestra un diagrama de bloques esquemático del VAD. La decisión de VAD inmediata puede ser una marca correspondiente a la clasificación de conversación/inactividad inmediata del VAD. Siempre que el VAD clasifica una trama de señal como conversación activa, esta marca puede elevarse y, de lo contrario, puede reducirse. Se puede introducir una marca de retención para controlar la duración del período de retención adicional después de que se haya bajado la marca VAD inmediata. Esto se hace preferiblemente de modo que se garantice que la señal de las tramas de retención comprenda principalmente una parte representativa del ruido de fondo y que las porciones de conversación potencialmente restantes sean insignificantes. Esto se hace con el propósito de permitir una estimación confiable del parámetro SID en un lado de decodificación, estimación que es representativa de la señal de ruido de inactividad y que no se ve afectada por las porciones de conversación potencialmente restantes. Una medida útil sobre la que basar la marca de retención es la relación señal/ruido estimada (SNR), que compara el nivel estimado de conversación restante con el nivel de ruido de inactividad estimado. Por ejemplo, cuando esta estimación de SNR está por encima de un cierto umbral, la marca de retención puede elevarse y cuando cae por debajo de dicho umbral puede terminar el período de retención. Debe observarse que la lógica de determinación de retención puede generar una marca VAD final que podría ser diferente de la marca VAD inmediata en su entrada.
Por ejemplo, la duración del período de retención puede adaptarse en respuesta a la SNR estimada. Esto supone que la s Nr disminuye al final de un arranque de habla. La adaptación tiene en cuenta que el grado de disminución de la SNR puede variar de un arranque de habla a otro. El resultado es que la duración del período de retención en tramas es un parámetro variable. De acuerdo con una realización de ejemplo, esta duración de retención, es decir, el indicador de retención, se codifica y se transmite al decodificador. En la figura 4 se presenta un diagrama de bloques esquemático de un codificador de retención. Además de las marcas de retención y VAD, el codificador de retención de ejemplo usa una primera marca SID. La primera marca SID puede indicar si la trama actual es la primera SID que sigue a la codificación de señal activa. Cabe señalar que las marcas no necesariamente tienen que ser variables específicas señaladas explícitamente, pero podrían estar implícitas, por ejemplo, derivables de otras variables de estado de codificador. La duración codificada del período de retención puede transmitirse como parte de la información comprendida en la primera trama SID transmitida después del final de la transmisión de tramas de conversación activas. La figura 5 muestra un diagrama de flujo genérico para el codificador de indicador de retención.
De acuerdo con una realización de ejemplo de la solución sugerida en el presente documento, la duración del período de retención después de la marca VAD inmediata descendente se adapta de tal manera que el conjunto de tramas a considerar para la estimación del parámetro SID es una variable. Es decir, el número de tramas de retención puede ser fijo o variable, pero el conjunto de tramas a considerar para determinar los parámetros SID para la generación de ruido de confort no es necesariamente igual al número de tramas de retención. En este enfoque, se supone que hay una medida que indica la idoneidad de cada trama del período de retención que sigue a la marca VAD inmediata descendente para la estimación del parámetro SID. Por ejemplo, las tramas para las que esta medida está por encima de un cierto umbral pueden considerarse representativas del ruido de fondo y, por tanto, adecuadas para la estimación del parámetro SID. La medida puede, como antes, basarse en estimaciones de SNR. Entonces, de acuerdo con esta realización, la primera trama SID después del final de la transmisión de tramas de conversación activa puede contener información sobre el conjunto específico de tramas que se usará para la estimación de parámetros SID.
Como ejemplo, el conjunto puede comprender las n tramas que preceden a la primera trama SID. La codificación de qué tramas usar para la estimación de parámetros SID se puede realizar entonces con una palabra de código de N bits máximos, donde cada bit representa una trama respectiva que precede a la primera trama SID. Si se establece un bit en la palabra de código (= 1), la trama representada por el bit se usará para la estimación del parámetro SID; de lo contrario, no.
La medida de SNR que se usa en las realizaciones anteriores es solo un ejemplo. Además, son posibles medidas más avanzadas. En general, una medida adecuada debe ser un buen indicador de si la trama correspondiente contiene ruido que sea bien representativo de la señal de ruido de inactividad. Una de estas medidas más avanzadas puede, por ejemplo, comparar la potencia o las propiedades espectrales de la trama actual con las propiedades correspondientes de las tramas recientes o de otras tramas recientes que se han identificado que contienen ruido.
Podría aparecer como una posibilidad en el flujo de bits normal de tramas codificadas incluir un bit para señalizar si la trama codificada es una trama de retención o no. Sin embargo, esto se considera menos ventajoso, ya que significaría que un bit en cada trama de conversación tendría que reservarse para información que solo se usa después del final de una ráfaga de conversación.
Si bien los párrafos anteriores explican la retención específica de DTX, también es común que el VAD ya agregue algo de retención para evitar recortes en el desplazamiento de conversación. Entonces sería posible permitir que la retención específica de VAD y la retención DTX se superpusieran. Por ejemplo, el análisis de la señal puede contribuir a la terminación temprana de la retención si hay una cantidad suficiente de tramas para generar un ruido de confort estable, independientemente de si las últimas tramas son de retención VAD o retención DTX.
En la figura 6a, un diagrama de flujo esquemático muestra un decodificador de indicador de retención del lado del decodificador de ejemplo. En el ejemplo de 6a, se puede indicar en cada trama si es una trama de retención o no, y luego se almacenan las tramas de retención. A partir del indicador de retención decodificado, se puede determinar cuál de las tramas de retención almacenadas debe usarse como base para el ruido de confort. Alternativamente, la decisión en 601a, de si una trama es una trama de retención o no, no se toma hasta que el indicador de retención se decodifica en 602a. Para que la decisión se tome después de la decodificación 602a, es necesario almacenar en una memoria intermedia un conjunto de las tramas recibidas más recientemente, por ejemplo, de la duración N_max (número máximo de tramas de retención). En el último caso, las tramas de retención pueden identificarse en el conjunto de tramas que está almacenado actualmente en la memoria intermedia, basándose en el indicador de retención decodificado, y por tanto pueden almacenarse parámetros de al menos parte de las tramas de retención. Esto es quizás más claro en la figura 6b, que muestra el almacenamiento 601b de las últimas tramas N_max. Cuando el indicador de retención se decodifica en 602b, las tramas de retención están presentes entre las tramas almacenadas, y los parámetros de ruido de confort pueden determinarse 603b basándose en las tramas de retención indicadas por el indicador de retención. Entonces, se puede generar 604b ruido de confort basándose en los parámetros. Como en el codificador, la primera marca SID puede indicar si la trama actual es la primera SID después de la codificación de la señal activa. La primera marca SID no tiene que almacenarse necesariamente en una variable, pero puede derivarse de otras variables de estado del decodificador.
Los parámetros SID típicos son parámetros de ganancia y parámetros espectrales predictivos lineales como parámetros de frecuencia espectral de línea (LSF). En una realización de ejemplo, el decodificador puede tomar estos parámetros de las 5 tramas precedentes y calcular promedios de los mismos. Estos parámetros promediados se pueden usar posteriormente en la síntesis de ruido de confort del sistema DTX. Alternativamente, los parámetros SID usados para la síntesis de ruido de confort pueden determinarse a partir de un conjunto específico de tramas de retención indicadas. El conjunto específico se puede derivar en el lado del decodificador usando por ejemplo, el parámetro de duración de retención recibido y los parámetros de tramas recibidas anteriormente que se han almacenado en una memoria.
Aunque los parámetros derivados de un conjunto de tramas de retención se denominan principalmente parámetros SID en este documento, también sería posible usar otros parámetros, denotados de manera diferente, pero con el mismo propósito, a saber, ser una base para la generación de ruido de confort.
El decodificador puede obtener, por ejemplo, del indicador de retención en la primera trama SID después de una secuencia de tramas de conversación activa, información sobre el conjunto específico de tramas precedentes que se usarán para el cálculo del parámetro SID. Entonces, los parámetros SID pueden calcularse usando, por ejemplo, la ganancia y los parámetros espectrales de las tramas que se identifican por el código recibido. Suponiendo que se usa una palabra de código de n = 8 bits como indicador de retención y esta palabra de código contiene la secuencia de bits "0 10111 1 1", se usan las 5 tramas directamente precedentes y la 7a trama anterior. La ganancia y los parámetros espectrales de estas tramas pueden promediarse y usarse posteriormente en la síntesis de ruido de confort del sistema DTX.
En los siguientes párrafos, se describirán con más detalle diferentes aspectos de la solución divulgada en el presente documento con referencias a ciertas realizaciones y a los dibujos adjuntos. Con fines de explicación y no de limitación, se establecen detalles específicos, tales como escenarios y técnicas particulares, con el fin de proporcionar una comprensión completa de las diferentes realizaciones. Sin embargo, otras realizaciones pueden apartarse de estos detalles específicos.
Método de ejemplo realizado por un nodo de transmisión/codificación, figura 7
Un método de ejemplo realizado por un nodo de transmisión o un nodo de codificación se describirá a continuación con referencia a la figura 7a. El nodo de transmisión puede funcionar para codificar audio, como conversación, y para comunicarse con otros nodos o entidades, por ejemplo, en una red de comunicaciones. El nodo de transmisión puede funcionar además para aplicar un esquema DTX que comprende la transmisión de tramas SID durante la inactividad de conversación. El nodo de transmisión puede ser, por ejemplo, un teléfono celular, una tableta, una computadora o cualquier otro dispositivo capaz de comunicación por cable y/o inalámbrica y de codificación de audio.
La figura 7a ilustra el método que comprende determinar 703a, de entre un número N de tramas de retención, un conjunto Y de tramas que es representativo del ruido de fondo. El método comprende además transmitir 704a las N tramas de retención, que comprenden dicho conjunto Y de tramas, a un nodo de recepción. El método comprende además transmitir 705a una primera trama SID al nodo de recepción en asociación con la transmisión de las N tramas de retención, donde la trama SID comprende información que indica el conjunto Y determinado de tramas de retención al nodo de recepción. El método anterior permite al nodo de recepción generar ruido de confort basándose en el conjunto Y de tramas de retención.
El orden de las acciones en la figura 7a y b es solo de ejemplo. Por ejemplo, el conjunto Y podría determinarse después de que se hayan transmitido las N tramas de retención.
Las tramas comprendidas en el conjunto Y de tramas de retención deben ser representativas del ruido de fondo. Por lo tanto, del número N de tramas de retención, los que son más adecuados para determinar o calcular parámetros para la generación de ruido de confort, por ejemplo, deben identificarse los denominados parámetros SID. Las tramas del conjunto Y podrían determinarse o identificarse, por ejemplo, basándose en un nivel de SNR de la señal comprendida en cada trama, y cuando este nivel de SNR cumple un cierto criterio, se determina que la trama es adecuada para su uso como base para el cálculo de, por ejemplo, parámetros SID. Algunas de las N tramas de retención pueden ser menos representativas del ruido de fondo. Por ejemplo, algunas de las tramas de retención pueden comprender, al menos parcialmente, conversación o ruido transitorio, lo que las hace inadecuadas como base para derivar parámetros relacionados con la generación de ruido de confort. Por ejemplo, las tramas de conversación generalmente tienen estructuras formantes, que no se ven en el ruido de fondo; y las tramas de ruido transitorio pueden tener una energía más alta que el ruido de fondo promedio. Tales tramas de retención, que no representan el ruido de fondo, no deben incluirse en el conjunto Y.
El conjunto Y de tramas puede indicarse de diferentes formas en la primera trama SID, que se describirá con más detalle a continuación. Por "primera trama SID" se entiende la primera trama SID en un período DTX, que típicamente indica el inicio del período DTX. Por período DTX se entiende aquí un período de inactividad de conversación, durante el cual se envían tramas codificadas desde el nodo de transmisión al nodo de recepción a una tasa de bits y/o tasa de tramas más bajas que durante los períodos sin DTX. Por período DTX se entiende aquí el período entre ráfagas de conversación activas, período que se reemplaza por ruido de confort. Estos períodos comienzan con el primer SID para marcar la transición al ruido de confort. Esto es seguido generalmente por períodos de una serie de tramas "NO_DATA", que como su nombre indica no contienen ningún dato, y tramas SID (o SID_UPDATE). Las tramas SID se transmiten con mayor frecuencia a intervalos regulares, denominados "intervalo SID", hasta que el siguiente enunciado desencadena una transición de regreso a la codificación de conversación activa. Es decir, con un intervalo SID de 8, el período DTX se codificaría como: primer SID seguido de 7 tramas NO_DATA antes del SID_UPDATE. Esta secuencia con 7 tramas NO_DATA seguidas de una actualización de SID se repite hasta que se produce la transición a conversación activa.
Una ventaja del método descrito antes es, como se describió anteriormente, que permite a un nodo de recepción derivar parámetros para el ruido de confort a partir de tramas que se determina que son adecuadas para este propósito. Esto mejora la calidad del ruido de confort generado y, por lo tanto, mejora la experiencia del usuario. El conjunto Y se indica además al nodo de recepción de una manera muy eficiente en cuanto a recursos, utilizando la primera trama SID para este propósito. Es una ventaja determinar las tramas de retención adecuadas en el nodo de transmisión, ya que en este nodo, los datos de la señal de audio real son accesibles, mientras que en el nodo de recepción, solo está disponible una versión cuantificada de los datos.
La información que indica el conjunto Y puede comprender un número, lo que implica varias tramas de retención en secuencia; una palabra de código o mapa de bits que indica las posiciones de las tramas que pertenecen al conjunto Y, entre las N tramas de retención; una palabra de código o mapa de bits que indica algunas de las N tramas de retención que están comprendidas en el conjunto Y, y/o una palabra de código o mapa de bits que indica cuál de las N tramas de retención no están incluidas en el conjunto Y.
Por ejemplo, la trama SID podría comprender un número, por ejemplo, 5, que debe ser interpretado por el nodo de recepción, por ejemplo, como que las últimas cinco tramas de retención deben usarse para determinar los parámetros para la generación de ruido de confort. Alternativamente, el número podría interpretarse como algún otro grupo de cinco tramas entre las N tramas de retención, como las últimas cinco menos una. El número N de tramas de retención podría ser, por ejemplo, 6, 7, 8 o 9. En un caso especial, el número N de tramas de retención podría ser igual al número indicado en la trama SID, es decir, los parámetros deben determinarse basándose en todas las tramas de retención.
Alternativamente o además, la trama SID podría comprender una palabra de código o mapa de bits/máscara de bits que indique las posiciones de las tramas que pertenecen al conjunto Y. Tal palabra de código podría configurarse de diferentes formas. Podría usarse un sistema de códigos, donde tanto el nodo de transmisión como el nodo de recepción tienen conocimiento del significado de los códigos, por ejemplo, ambos lados tienen acceso a un libro de códigos que especifica, por ejemplo, que la palabra de código "01" se mapea a tramas de retención, en la trama k; k-1, k-2, k-4 y k-6 entre las N tramas de retención. Alternativamente, se podría usar un mapa de bits/máscara de bits. Tal mapa de bits podría cubrir todas las N posiciones de las N tramas de retención o un subconjunto de las N posiciones. El nodo de recepción debe, en algún momento, haber sido informado previamente del carácter del mapa de bits/máscara de bits. Por ejemplo, si N = 8, un mapa de bits/máscara de bits de ejemplo como "11011000" podría estar incluido en la trama SID, lo que indica que las tramas anteriores 4, 5, 7 y 8 deben usarse para determinar los parámetros para el ruido de confort. Alternativamente, el mapa de bits/máscara de bits "11011" podría estar comprendido en la primera trama SID, con el mismo significado que el ejemplo anterior. Alternativamente, se podrían indicar las posiciones de las tramas de retención que no están comprendidas en el conjunto Y. En analogía con el ejemplo anterior, un mapa de bits/máscara de bits correspondiente podría ser "00100111" o "00100", o "100111".
Todas estas son realizaciones diferentes de información que podrían incluirse en la primera trama SID para indicar cuál de las tramas de retención se debe usar. Generalmente, cuantos menos bits se necesiten para indicar el conjunto Y, mejor.
El concepto explicado antes de transmitir, en la primera trama SID, una identificación del conjunto de tramas de retención para basar la generación de ruido de confort, puede combinarse con la transmisión de parámetros SID como parte de la primera trama SID. Es decir, la primera trama SID puede comprender además parámetros SID. Estos parámetros SID darán una indicación de cómo se ve la señal en la trama actual. Esta información podría, por ejemplo, ponderarse más que la información de tramas de retención anteriores. Por supuesto, las tramas de retención ya podrían ponderarse de manera diferente sin considerar los parámetros de señal de la trama SID, pero de todos modos la decisión de no ir a DTX en la trama anterior debe indicar que no estamos lo suficientemente seguros de que esta trama represente inactividad/solo ruido de fondo.
El número N de tramas de retención puede ser dinámicamente variable, como se describió anteriormente. El número N podría determinarse basándose en las propiedades de una señal de audio de entrada. Por ejemplo, el número N podría depender del sonido de conversación que renuncia al período DTX y/o del carácter del ruido de fondo. Mediante el uso de un número dinámico de tramas de retención, el número de tramas de retención que necesitan transmitirse a un nodo de recepción podría mantenerse al mínimo y, por lo tanto, podrían ahorrarse recursos, en comparación con tener un número estático de tramas de retención.
Algunas acciones, que pueden preceder al método ilustrado en la figura 7a, se ilustran en la figura 7b. En la figura 7b, se determina en una acción 701b si una trama de un flujo de audio, por ejemplo, un segmento de una señal de audio, cuya señal comprende al menos parcialmente conversación, comprende conversación activa o no. Esto a menudo se denomina detección de actividad de voz, VAD. Cuando se determina que una o más tramas no comprenden conversación activa, se transmitirán varias tramas de retención, por ejemplo, para reducir la probabilidad de cortar un sonido de conversación, como se describió anteriormente. Cuando se aplica un número dinámico de tramas de retención, se puede analizar la señal comprendida en las primeras tramas que se determina que no comprende la conversación activa, y se puede determinar un número adecuado de tramas de retención en una acción 702b. Posiblemente, también se pueden tener en cuenta las propiedades de las últimas tramas que se determina que comprenden conversación activa al determinar un número apropiado N de tramas de retención, por ejemplo, para determinar una SNR o una disminución de energía de trama entre tramas adyacentes.
Es decir, se puede determinar un número, N, de tramas de retención basándose en una propiedad de la señal comprendida en las tramas antes y/o después de una decisión de inactividad de conversación. Además, o alternativamente, las propiedades de las tramas de señal anteriores que se determinó que comprenden solo ruido de fondo podrían tenerse en cuenta al determinar N.
Como se mencionó anteriormente, la determinación de una serie de tramas de retención podría basarse en una característica de una disminución de SNR o energía dentro y/o entre tramas de señal. El número N de tramas de retención puede ser estático, semiestático o dinámico, y puede ser diferente para diferentes desplazamientos de conversación.
Las tramas de retención transmitidas al nodo de recepción, por ejemplo, en la acción 704b, pueden codificarse de acuerdo con la codificación de tramas que comprenden conversación activa, como se describió anteriormente. Cuando el número N de tramas de retención es dinámico, el número N también podría indicarse al nodo de recepción, por ejemplo, en la primera trama SID.
Método de ejemplo realizado por un nodo de decodificación, figura 8
Un método de ejemplo realizado por un nodo de recepción o un nodo de decodificación se describirá a continuación con referencia a la figura 8. El nodo de decodificación puede funcionar para decodificar audio, como conversación, y para comunicarse con otros nodos o entidades, por ejemplo, en una red de comunicaciones. El nodo de decodificación se puede funcionar además para aplicar un esquema DTX que comprende la recepción de tramas SID y la generación de ruido de confort durante la inactividad de conversación. El nodo de decodificación puede ser, por ejemplo, un teléfono celular, una tableta, una computadora o cualquier otro dispositivo capaz de comunicación por cable y/o inalámbrica y de decodificación de audio.
El método de ejemplo ilustrado en la figura 8 comprende recibir 801 N tramas de retención desde un nodo de transmisión. Además, se recibe una primera trama SID 802 en asociación con las N tramas de retención. Un conjunto Y de tramas de retención, de entre el número N de tramas de retención, se determina 803, basándose en información en la trama SID recibida. Además, el ruido de confort se genera 805, al menos parcialmente, basándose en el conjunto Y de tramas de retención.
La trama SID podría recibirse después de que se haya recibido la última de las N tramas de retención, lo que indica el inicio de un período DTX. Sin embargo, la trama SID también podría recibirse antes de las tramas de retención, o entre dos tramas de retención, si esto estuviera permitido y regulado en el protocolo de transmisión para el esquema DTX.
El número N de tramas de retención podría indicarse en la primera trama SID, sin embargo, esto es opcional. El número N podría establecerse alternativamente en un valor predeterminado, por ejemplo, 7, lo que implica que las 7 últimas tramas recibidas, sin contar la trama SID, antes de un período de DTX serían tramas de retención. Además, cuando se aplica un número dinámico de tramas de retención, existen otras formas de señalizar el número N de tramas de retención. Por ejemplo, el número podría indicarse implícitamente a través de propiedades de la señal de audio, por ejemplo, una medida SNR a largo plazo. Tal medida podría generarse basándose en la señal de audio decodificada y, por lo tanto, podría estar disponible en el decodificador.
La trama SID comprende, como se describió anteriormente, información que indica un conjunto Y de tramas, de entre las N tramas de retención, seleccionadas por el nodo de transmisión como representativas del ruido de fondo. Por tanto, es posible que el nodo de recepción determine el conjunto Y de tramas basándose en la primera trama SID. Es decir, basándose en la información comprendida en la primera trama SID que indica el conjunto Y. La información podría ser explícita o implícita, y se ejemplificó antes al describir el método realizado por un nodo de transmisión.
El nodo de recepción ha de generar ruido de confort durante períodos de DTX silenciosos, es decir, durante períodos en los que no se reciben tramas de conversación desde un nodo de transmisión. El ruido de confort debe imitar preferiblemente el ruido de fondo en el nodo de transmisión. Para generar un ruido de confort lo más auténtico posible, el nodo de recepción debe estimar el ruido de fondo basándose en las tramas de retención que son más representativas del ruido de fondo. Alternativamente o además, el nodo de recepción podría recibir una estimación del ruido de fondo del nodo de transmisión, por ejemplo, en forma de parámetros SID. Las tramas SID se codifican a una tasa de bits significativamente más baja que las tramas de señal activa. Por tanto, las características del ruido de fondo se capturan mejor, en el lado del codificador, durante la retención (de las tramas de retención) que en el SID. Sin embargo, la inclusión de parámetros SID en la primera trama SID puede ser ventajosa para tener una transición suave de las tramas de retención a la generación de ruido de confort.
El nodo de recepción estima o deriva parámetros para la generación de ruido de confort, basándose en el conjunto Y de tramas. Los parámetros están asociados con el ruido de fondo en el lado del nodo de transmisión. Al hacerlo, el ruido de confort generado basándose en dichos parámetros reflejará el ruido de fondo en el lado del nodo de transmisión de una buena manera, y así logrará una experiencia de usuario buena/deseada. La selección del conjunto Y en el lado del transmisor es ventajosa, ya que en ese lado, se puede acceder a la información de audio completa, en lugar de la versión reducida y cuantificada que está disponible en el lado del nodo de recepción.
Como se describió anteriormente, la información que indica el conjunto Y puede comprender uno o más de: un número, que implica un número de tramas de retención en secuencia; una palabra de código o mapa de bits que indica las posiciones de las tramas que pertenecen al conjunto Y, entre las N tramas de retención; una palabra de código o mapa de bits que indica cuál de las N tramas de retención están al menos comprendidas en el conjunto Y; y una palabra de código o mapa de bits que indica cuál de las N tramas de retención no está comprendida en el conjunto Y.
Además, la primera trama SID puede comprender además parámetros SID. El número N de tramas de retención puede variar dinámicamente basándose en las propiedades de una señal de audio de entrada, como se describió anteriormente.
Nodo de transmisión de ejemplo, figura 9
Las realizaciones descritas en el presente documento también se refieren a un nodo de transmisión o nodo de codificación. El nodo de transmisión está asociado con las mismas características técnicas, objetos y ventajas que el método descrito antes e ilustrado, por ejemplo, en las figuras 7a y 7b. El nodo de transmisión se describirá brevemente para evitar repeticiones innecesarias. El nodo de transmisión podría ser, por ejemplo, un dispositivo o UE, como un teléfono inteligente, una tableta, una computadora o cualquier otro dispositivo capaz de comunicación por cable y/o inalámbrica y de codificación de conversación.
A continuación, se describirá un nodo 900 de transmisión de ejemplo, adaptado para permitir la ejecución de un método descrito antes adaptado para realizar al menos una realización del método en un nodo de transmisión descrito anteriormente, con referencia a la figura 9.
El nodo de transmisión puede funcionar para codificar audio, como conversación, y puede funcionar para comunicarse con otros nodos o entidades, por ejemplo, en una red de comunicaciones. El nodo de transmisión puede funcionar además para aplicar un esquema DTX que comprende la transmisión de tramas SID durante la inactividad de conversación. El nodo de transmisión puede funcionar para comunicarse, por ejemplo, en un sistema de comunicación inalámbrica, como GSM, UMTS, E-UTRAN o CDMA 2000, y/o en un sistema de comunicación por cable.
La parte del nodo de transmisión que se relaciona principalmente con la solución sugerida en el presente documento se ilustra como una disposición 901 rodeada por una línea intermitente/discontinua. La disposición y posiblemente otras partes del nodo de transmisión están adaptadas para permitir la ejecución de uno o más de los métodos o procedimientos descritos antes e ilustrados, por ejemplo, en las figuras 7a y 7b.
El nodo de transmisión ilustrado en la figura 9 comprende medios de procesamiento, en este ejemplo en forma de un procesador 903 y una memoria 904, donde dicha memoria contiene instrucciones 905 ejecutables por dicho procesador. Los medios de procesamiento son operativos para determinar, de entre un número N de tramas de retención, un conjunto Y de tramas que es representativo del ruido de fondo. Los medios de procesamiento son operativos además para transmitir las N tramas de retención, que comprenden al menos dicho conjunto Y de tramas, a un nodo de recepción; y para transmitir una primera trama SID al nodo de recepción en asociación con la transmisión de las N tramas de retención, donde la trama SID comprende información que indica el conjunto Y determinado de tramas de retención al nodo de recepción.
El nodo de transmisión permite que un nodo de recepción genere ruido de confort basándose en el conjunto Y de tramas de retención, lo que permite la generación de ruido de confort de alta calidad.
La información que indica el conjunto Y podría configurarse de diferentes formas, y la primera trama SID podría comprender además parámetros SID; y el número N de tramas de retención podría ser variable o fijo, como se describió anteriormente.
El nodo 900 de transmisión se ilustra para comunicarse con otras entidades a través de una unidad 902 de comunicación, que puede considerarse que comprende medios convencionales para comunicación inalámbrica y/o por cable de acuerdo con un estándar de comunicación dentro del cual el nodo de transmisión puede funcionar. La disposición y/o el nodo de transmisión pueden comprender además otras unidades funcionales 909, para proporcionar, por ejemplo, funciones regulares del nodo de transmisión, como por ejemplo, procesamiento de señales en asociación con codificación de conversación.
La disposición 901 puede implementarse alternativamente y/o describirse esquemáticamente como se ilustra en la figura 10. La disposición 1001 comprende una unidad 1004 de determinación, para determinar, un conjunto Y de tramas, de un número N de tramas de retención, que son representativas del ruido de fondo. La disposición 1001 comprende además una unidad de transmisión para transmitir las N tramas de retención, que comprende, al menos, dicho conjunto Y de tramas, a un nodo de recepción; y además para transmitir una primera trama SID al nodo de recepción en asociación con la transmisión de las N tramas de retención, donde la trama SID comprende información que indica el conjunto Y determinado de tramas de retención al nodo de recepción.
La disposición 1001 puede comprender una unidad VAD, para determinar si una trama de señal comprende conversación activa o no. Alternativamente, dicha unidad VAD puede ser parte de las otras unidades funcionales 1008.
La disposición 1001 y otras partes del nodo de transmisión podrían implementarse, por ejemplo, por uno o más de: un procesador o un microprocesador y software y almacenamiento adecuados, por lo tanto, un dispositivo lógico programable (PLD) u otro componente o componentes electrónicos/circuito o circuitos de procesamiento configurados para realizar las acciones mencionadas antes.
Nodo de recepción/decodificación de ejemplo, figura 11
Las realizaciones descritas en el presente documento también se refieren a un nodo de recepción o nodo de decodificación. El nodo de recepción está asociado con las mismas características técnicas, objetos y ventajas que el método descrito antes e ilustrado, por ejemplo, en la figura 8. El nodo de recepción se describirá brevemente para evitar repeticiones innecesarias. El nodo de recepción podría ser, por ejemplo, un dispositivo o UE, como un teléfono inteligente, una tableta, una computadora o cualquier otro dispositivo capaz de comunicación por cable y/o inalámbrica y de codificación de audio.
A continuación, se describirá un nodo 1100 de recepción de ejemplo, adaptado para permitir la ejecución de un método descrito antes adaptado para realizar al menos una realización del método en un nodo de recepción descrito antes, con referencia a la figura 11.
El nodo de recepción puede funcionar para decodificar audio, como conversación, y puede funcionar para comunicarse con otros nodos o entidades, por ejemplo, en una red de comunicaciones. El nodo de transmisión puede funcionar además para aplicar un esquema DTX que comprende la recepción de tramas SID durante la inactividad de conversación. El nodo de recepción puede funcionar para comunicarse en un sistema de comunicación inalámbrica, como GSM, UMTS, E-UTRAN o CDMA 2000, y/o en un sistema de comunicación por cable.
La parte del nodo de recepción que está relacionada principalmente con la solución sugerida en el presente documento se ilustra como una disposición 1101 rodeada por una línea intermitente/discontinua. La disposición y posiblemente otras partes del nodo de recepción están adaptadas para permitir la ejecución de uno o más de los métodos o procedimientos descritos antes e ilustrados, por ejemplo, en la figura 8.
El nodo de recepción ilustrado en la figura 11 comprende medios de procesamiento, en este ejemplo en forma de un procesador 1103 y una memoria 1104 y en el que dicha memoria contiene instrucciones 1105 ejecutables por dicho procesador. Los medios de procesamiento son operativos para recibir N tramas de retención desde un nodo de transmisión; y además para recibir una primera trama SID en asociación con las N tramas de retención. Los medios de procesamiento son además operativos para determinar, basándose en la información en la trama SID recibida, un conjunto Y de tramas de retención, de entre el número N de tramas de retención; y generar ruido de confort basándose al menos parcialmente en el conjunto Y de tramas de retención.
De este modo, el nodo de recepción está habilitado para generar ruido de confort basándose en el conjunto Y de tramas de retención y, por lo tanto, está habilitado para generar ruido de confort de alta calidad.
La información que indica el conjunto Y podría configurarse de diferentes formas, y la primera trama SID podría comprender además parámetros SID; y el número N de tramas de retención podría ser variable o fijo, como se describió anteriormente.
El nodo 1100 de recepción se ilustra para comunicarse con otras entidades a través de una unidad 1102 de comunicación, que puede considerarse que comprende medios convencionales para comunicación inalámbrica y/o por cable de acuerdo con un estándar de comunicación dentro del cual el nodo de recepción puede funcionar. La disposición y/o el nodo de recepción pueden comprender además una o más unidades de almacenamiento, 1106. La disposición y/o el nodo de recepción pueden comprender además otras unidades funcionales 1107, para proporcionar por ejemplo, funciones regulares del nodo de recepción, como por ejemplo, procesamiento de señales en asociación con decodificación de conversación.
La disposición 1101 y otras partes del nodo de recepción o decodificación podrían implementarse, por ejemplo, por uno o más de: un procesador o un microprocesador y software y almacenamiento adecuados, por lo tanto, un dispositivo lógico programable (PLD) u otro componente o componentes electrónicos/circuito o circuitos de procesamiento configurados para realizar las acciones mencionadas antes.
La disposición 1101 puede implementarse alternativamente y/o describirse esquemáticamente como se ilustra en la figura 12. La disposición 1201 comprende una unidad 1203 de recepción para recibir N tramas de retención desde un nodo de transmisión; y además para recibir una primera trama SID en asociación con las N tramas de retención. La disposición comprende además una unidad 1204 de determinación para determinar, basándose en la información en la primera trama SID recibida, un conjunto Y de tramas de retención, de entre el número N de tramas de retención; y además un generador 1205 de ruido para generar ruido de confort basándose en el conjunto Y de tramas de retención.
La disposición 1201 puede comprender además una unidad de estimación para estimar parámetros para la generación de ruido de confort, como por ejemplo, parámetros SID. Entonces, el generador de ruido puede generar ruido de confort basándose en los parámetros estimados de generación de ruido.
Se supone que la disposición 1201 y/o alguna otra parte del nodo de decodificación 1200 comprenden unidades funcionales o circuitos adaptados para realizar la decodificación de audio.
La disposición 1201 y otras partes del nodo de recepción o decodificación podrían implementarse, por ejemplo, por uno o más de: un procesador o un microprocesador y software y almacenamiento adecuados, por lo tanto, un dispositivo lógico programable (PLD) u otro componente o componentes electrónicos/circuito o circuitos de procesamiento configurados para realizar las acciones mencionadas antes.
Ha de entenderse que la elección de unidades o módulos que interactúan, así como la denominación de las unidades son solo para fines de ejemplo, y los nodos de cliente y servidor adecuados para ejecutar cualquiera de los métodos descritos antes pueden configurarse en una pluralidad de formas alternativas para poder ejecutar las acciones de proceso sugeridas. También debe tenerse en cuenta que las unidades o módulos descritos en esta divulgación deben considerarse entidades lógicas y no necesariamente como entidades físicas separadas.
Mediante el uso de la solución sugerida en el presente documento, la eficiencia de las transmisiones de conversación con DTX puede aumentarse sin comprometer la calidad de la síntesis de ruido de confort al final de los arranques de habla.
ABREVIATURAS AMR Tasa múltiple adaptable
DTX Transmisión discontinua
ITU-T Sector de estandarización de telecomunicaciones de la unión internacional de telecomunicaciones LSF Frecuencia espectral lineal
VAD Detector de actividad de voz
3GPP Proyecto de asociación de tercera generación
SID Descriptor de inserción de silencio
SNR Relación señal-ruido
WB Banda ancha

Claims (11)

REIVINDICACIONES
1. - Un método de codificación de audio, en el que se aplica un esquema de transmisión discontinua, DTX, que comprende la transmisión de tramas de descriptor de inserción de silencio, SID, durante los períodos de señal inactiva, comprendiendo el método:
- determinar (703a) un número N de tramas de retención, en el que el número N de tramas de retención es variable; - transmitir (704a) las N tramas de retención a un decodificador de audio;
- transmitir (705a) una trama SID al decodificador de audio después de transmitir las N tramas de retención, donde la trama SID comprende información que indica el número determinado N de tramas de retención.
2. - El método de acuerdo con la reivindicación 1, en el que el número N de tramas de retención es dinámicamente variable basándose en las propiedades de una señal de audio de entrada.
3. - El método de acuerdo con la reivindicación 1 o 2, en el que la trama SID comprende además parámetros SID.
4. - Un codificador (900, 1000) de audio, que funciona para aplicar un esquema de transmisión discontinua, DTX, que comprende la transmisión de las tramas de descriptor de inserción de silencio, SID, durante períodos de señal inactiva, comprendiendo el codificador de audio medios de procesamiento operativos para:
- determinar un número N de tramas de retención, en el que el número N de tramas de retención es variable;
- transmitir las N tramas de retención a un decodificador de audio; y para
- transmitir una trama SID al decodificador de audio después de transmitir las N tramas de retención, donde la trama SID comprende información que indica el número determinado N de tramas de retención.
5. - El codificador de audio de acuerdo con la reivindicación 4, en el que los medios de procesamiento comprenden un procesador (903) y una memoria (904) y en el que dicha memoria contiene instrucciones (905) ejecutables por dicho procesador.
6. - El codificador de audio de acuerdo con la reivindicación 4 o 5, en el que el número N de tramas de retención es dinámicamente variable basándose en las propiedades de una señal de audio de entrada.
7. - El codificador de audio de acuerdo con cualquiera de las reivindicaciones 4 a 6, en el que la trama SID comprende además parámetros SID.
8. - Un programa informático (905, 1105), que comprende un código de programa informático, que cuando se ejecuta en un codificador de audio hace que el codificador de audio realice el método de acuerdo con cualquiera de las reivindicaciones 1 a 3.
9. - Un producto de programa informático que comprende un programa informático (905, 1105) de acuerdo con la reivindicación 8.
10. - Un equipo de usuario que comprende un codificador de audio de acuerdo con cualquiera de las reivindicaciones 4 a 7.
11. - El equipo de usuario de acuerdo con la reivindicación 10, en el que el equipo de usuario es uno de un teléfono inteligente, una tableta o una computadora.
ES19173460T 2013-02-22 2013-12-12 Métodos y aparatos para retención DTX en codificación de audio Active ES2844223T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201361768028P 2013-02-22 2013-02-22

Publications (1)

Publication Number Publication Date
ES2844223T3 true ES2844223T3 (es) 2021-07-21

Family

ID=49943486

Family Applications (3)

Application Number Title Priority Date Filing Date
ES16173655T Active ES2748144T3 (es) 2013-02-22 2013-12-12 Métodos y aparatos para retención DTX en codificación de audio
ES19173460T Active ES2844223T3 (es) 2013-02-22 2013-12-12 Métodos y aparatos para retención DTX en codificación de audio
ES13818850.3T Active ES2586635T3 (es) 2013-02-22 2013-12-12 Métodos y aparatos para Hangover de DTX en codificación de audio

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES16173655T Active ES2748144T3 (es) 2013-02-22 2013-12-12 Métodos y aparatos para retención DTX en codificación de audio

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES13818850.3T Active ES2586635T3 (es) 2013-02-22 2013-12-12 Métodos y aparatos para Hangover de DTX en codificación de audio

Country Status (9)

Country Link
US (3) US10319386B2 (es)
EP (3) EP3550562B1 (es)
CN (2) CN110010141B (es)
BR (1) BR112015019988B1 (es)
DK (1) DK3550562T3 (es)
ES (3) ES2748144T3 (es)
PL (2) PL2959480T3 (es)
TR (1) TR201909562T4 (es)
WO (1) WO2014129949A1 (es)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106169297B (zh) * 2013-05-30 2019-04-19 华为技术有限公司 信号编码方法及设备
US9775110B2 (en) * 2014-05-30 2017-09-26 Apple Inc. Power save for volte during silence periods
KR101904423B1 (ko) * 2014-09-03 2018-11-28 삼성전자주식회사 오디오 신호를 학습하고 인식하는 방법 및 장치
US10805191B2 (en) 2018-12-14 2020-10-13 At&T Intellectual Property I, L.P. Systems and methods for analyzing performance silence packets
GB2595891A (en) * 2020-06-10 2021-12-15 Nokia Technologies Oy Adapting multi-source inputs for constant rate encoding

Family Cites Families (25)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
SE507370C2 (sv) 1996-09-13 1998-05-18 Ericsson Telefon Ab L M Metod och anordning för att alstra komfortbrus i linjärprediktiv talavkodare
SE520723C2 (sv) * 1998-09-01 2003-08-19 Abb Ab Förfarande samt anordning för utförande av på magnetism baserade mätningar
US6889187B2 (en) * 2000-12-28 2005-05-03 Nortel Networks Limited Method and apparatus for improved voice activity detection in a packet voice network
US6631139B2 (en) * 2001-01-31 2003-10-07 Qualcomm Incorporated Method and apparatus for interoperability between voice transmission systems during speech inactivity
US7406096B2 (en) * 2002-12-06 2008-07-29 Qualcomm Incorporated Tandem-free intersystem voice communication
CN1617605A (zh) * 2003-11-12 2005-05-18 皇家飞利浦电子股份有限公司 一种在语音信道传输非语音数据的方法及装置
WO2006104555A2 (en) * 2005-03-24 2006-10-05 Mindspeed Technologies, Inc. Adaptive noise state update for a voice activity detector
US7231348B1 (en) * 2005-03-24 2007-06-12 Mindspeed Technologies, Inc. Tone detection algorithm for a voice activity detector
WO2006136901A2 (en) 2005-06-18 2006-12-28 Nokia Corporation System and method for adaptive transmission of comfort noise parameters during discontinuous speech transmission
US7610197B2 (en) 2005-08-31 2009-10-27 Motorola, Inc. Method and apparatus for comfort noise generation in speech communication systems
US8204740B2 (en) * 2006-02-06 2012-06-19 Telefonaktiebolaget Lm Ericsson (Publ) Variable frame offset coding
US8260609B2 (en) * 2006-07-31 2012-09-04 Qualcomm Incorporated Systems, methods, and apparatus for wideband encoding and decoding of inactive frames
US8214202B2 (en) * 2006-09-13 2012-07-03 Telefonaktiebolaget L M Ericsson (Publ) Methods and arrangements for a speech/audio sender and receiver
US8620645B2 (en) * 2007-03-02 2013-12-31 Telefonaktiebolaget L M Ericsson (Publ) Non-causal postfilter
EP3629328A1 (en) * 2007-03-05 2020-04-01 Telefonaktiebolaget LM Ericsson (publ) Method and arrangement for smoothing of stationary background noise
JP2010525376A (ja) * 2007-03-29 2010-07-22 テレフオンアクチーボラゲット エル エム エリクソン(パブル) Dtxハングオーバ期間の長さを調整する方法及び音声符号化装置
CN102760441B (zh) * 2007-06-05 2014-03-12 华为技术有限公司 一种背景噪声编码/解码装置、方法和通信设备
WO2009002232A1 (en) * 2007-06-25 2008-12-31 Telefonaktiebolaget Lm Ericsson (Publ) Continued telecommunication with weak links
US8090588B2 (en) * 2007-08-31 2012-01-03 Nokia Corporation System and method for providing AMR-WB DTX synchronization
CN101430880A (zh) * 2007-11-07 2009-05-13 华为技术有限公司 一种背景噪声的编解码方法和装置
DE102008009718A1 (de) * 2008-02-19 2009-08-20 Siemens Enterprise Communications Gmbh & Co. Kg Verfahren und Mittel zur Enkodierung von Hintergrundrauschinformationen
CN101335000B (zh) * 2008-03-26 2010-04-21 华为技术有限公司 编码的方法及装置
ES2406422T3 (es) * 2008-06-24 2013-06-06 Telefonaktiebolaget L M Ericsson (Publ) Esquema multimodo para codificación mejorada de audio
US9449614B2 (en) * 2009-08-14 2016-09-20 Skype Controlling multi-party communications
JP5793636B2 (ja) * 2012-09-11 2015-10-14 テレフオンアクチーボラゲット エル エム エリクソン(パブル) コンフォート・ノイズの生成

Also Published As

Publication number Publication date
US20160005409A1 (en) 2016-01-07
PL3550562T3 (pl) 2021-05-31
BR112015019988A2 (pt) 2017-07-18
EP3086319B1 (en) 2019-06-12
CN105009208B (zh) 2019-01-18
EP3550562B1 (en) 2020-10-28
EP2959480B1 (en) 2016-06-15
DK3550562T3 (da) 2020-11-23
EP2959480A1 (en) 2015-12-30
BR112015019988B1 (pt) 2021-01-05
EP3550562A1 (en) 2019-10-09
US20190267014A1 (en) 2019-08-29
US11475903B2 (en) 2022-10-18
US20230080183A1 (en) 2023-03-16
EP3086319A1 (en) 2016-10-26
ES2748144T3 (es) 2020-03-13
CN110010141A (zh) 2019-07-12
WO2014129949A1 (en) 2014-08-28
CN110010141B (zh) 2023-12-26
PL2959480T3 (pl) 2016-12-30
ES2586635T3 (es) 2016-10-17
TR201909562T4 (tr) 2019-07-22
US10319386B2 (en) 2019-06-11
CN105009208A (zh) 2015-10-28

Similar Documents

Publication Publication Date Title
US11475903B2 (en) Methods and apparatuses for DTX hangover in audio coding
ES2703437T3 (es) Selección de un procedimiento de ocultación de pérdida de paquetes
US10121486B2 (en) Audio signal classification and coding
ES2826374T3 (es) Codificador, decodificador y método para codificar y decodificar contenido de audio que utiliza parámetros para potenciar una ocultación
ES2401171T3 (es) Procedimiento, aparato y producto de programa de ordenador para reconstruir una trama de voz borrada
KR101967572B1 (ko) 인코더 선택
TWI459840B (zh) 在一無線通訊裝置中之無線電鏈接同步
US9275644B2 (en) Devices for redundant frame coding and decoding
ES2642574T3 (es) Generación de ruido de confort
BR112013020324B1 (pt) Aparelho e método para supressão de erro em fala unificada de baixo atraso e codificação de áudio
ES2956797T3 (es) Determinación de parámetros de ruido de confort adaptable
ES2941782T3 (es) Estimación de ruido de fondo en señales de audio
BR112015019040B1 (pt) Sistemas e métodos de realizar filtragem para determinação de ganho
KR101408625B1 (ko) Dtx 행오버 주기의 길이를 조정하는 방법 및 음성 인코더
ES2707955T3 (es) Detección de inversión de códecs
KR20190052122A (ko) 다중 채널 오디오 신호 처리 방법, 장치 및 시스템
US7434117B1 (en) Method and apparatus of determining bad frame indication for speech service in a wireless communication system
JP5495284B2 (ja) 移動通信システム及び受信フォーマット復号方法並びに携帯端末
CN103026409A (zh) 语音帧的译码方法及装置
KR100962377B1 (ko) 음성 채널을 이용한 데이터 전송 방법 및 장치