ES2928215T3 - Método de codificación de señal multicanal y codificador - Google Patents

Método de codificación de señal multicanal y codificador Download PDF

Info

Publication number
ES2928215T3
ES2928215T3 ES17838307T ES17838307T ES2928215T3 ES 2928215 T3 ES2928215 T3 ES 2928215T3 ES 17838307 T ES17838307 T ES 17838307T ES 17838307 T ES17838307 T ES 17838307T ES 2928215 T3 ES2928215 T3 ES 2928215T3
Authority
ES
Spain
Prior art keywords
value
signal
peak
cross
itd
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17838307T
Other languages
English (en)
Inventor
Haiting Li
Zexin Liu
Xingtao Zhang
Lei Miao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2928215T3 publication Critical patent/ES2928215T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0204Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using subband decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2420/00Techniques used stereophonic systems covered by H04S but not provided for in its groups
    • H04S2420/03Application of parametric coding in stereophonic audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Mathematical Physics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Error Detection And Correction (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)

Abstract

Se describen un método para codificar una señal multicanal y un codificador. El método de codificación incluye: obtener una señal multicanal de un cuadro actual (510); determinar un valor ITD inicial del cuadro actual (520); controlar, en base a la información característica de la señal multicanal, una cantidad de tramas objetivo que pueden aparecer continuamente, donde la información característica incluye al menos uno de los parámetros de relación señal/ruido de la señal multicanal y un la característica máxima de los coeficientes de correlación cruzada de la señal multicanal, y un valor ITD de un cuadro anterior del cuadro objetivo se reutiliza como un valor ITD del cuadro objetivo (530); determinar un valor ITD del cuadro actual en base al valor ITD inicial del cuadro actual y la cantidad de cuadros objetivo que pueden aparecer continuamente (540); y codificar la señal multicanal en base al valor ITD del cuadro actual (550). Según el método, se puede mejorar la calidad de codificación de una señal multicanal. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método de codificación de señal multicanal y codificador
Campo técnico
Esta solicitud se refiere al campo de la codificación de señales de audio y, más específicamente, a un método para codificar una señal multicanal y un codificador.
Antecedentes
A medida que mejora la calidad de vida, las personas imponen requisitos cada vez mayores de audio de alta calidad. En comparación con una señal mono, el estéreo tiene un sentido de dirección y un sentido de distribución para varias fuentes acústicas, puede mejorar la claridad, la inteligibilidad y la experiencia inmersiva del sonido y, por lo tanto, es muy favorecido por las personas.
Las tecnologías de procesamiento estéreo incluyen principalmente la codificación central/lateral (MS), la codificación estéreo de intensidad (IS) y la codificación estéreo paramétrica (PS).
En la codificación MS, la conversión central/lateral se realiza en dos señales en función de la coherencia entre canales, y la energía de los canales se centra principalmente en un canal central, de modo que se elimina la redundancia entre canales. En la tecnología de codificación MS, la reducción de la velocidad de codificación depende de la coherencia entre las señales de entrada. Cuando la coherencia entre una señal del canal izquierdo y una señal del canal derecho es deficiente, la señal del canal izquierdo y la señal del canal derecho deben transmitirse por separado.
En la codificación IS, las componentes de alta frecuencia de una señal del canal izquierdo y una señal del canal derecho se simplifican en función de la característica de que el sistema auditivo humano es insensible a una diferencia de fase entre las componentes de alta frecuencia (por ejemplo, componentes por encima de 2 KHz) de los canales. Sin embargo, la tecnología de codificación IS solo es efectiva para componentes de alta frecuencia. Si la tecnología de codificación IS se extiende a una frecuencia baja, se genera un ruido artificial fuerte.
La codificación PS es un esquema de codificación basado en un modelo auditivo binaural. Como se muestra en la FIG. 1 (en la FIG. 1, xL es una señal en el dominio temporal del canal izquierdo y xR es una señal en el dominio temporal del canal derecho), en un proceso de codificación PS, un lado del codificador convierte una señal estéreo en una señal mono y unos parámetros espaciales (o parámetros de conciencia espacial) que describen un campo sonoro espacial. Como se muestra en la FIG. 2, después de obtener la señal mono y los parámetros espaciales, un lado del descodificador restaura una señal estéreo con referencia a los parámetros espaciales. En comparación con la codificación MS, la codificación PS tiene una relación de compresión más alta. Por lo tanto, en la codificación PS, se puede obtener una mayor ganancia de codificación mientras se mantiene una calidad de sonido relativamente buena. Además, la codificación PS se puede realizar en todo el ancho de banda de audio y puede restaurar un efecto de conciencia espacial de estéreo.
En la codificación PS, los parámetros espaciales incluyen la coherencia entre canales (IC), una diferencia de nivel entre canales (ILD), una diferencia de tiempo entre canales (ITD) y una diferencia de fase entre canales (IPD). La IC describe la correlación o coherencia cruzada entre canales. Este parámetro determina la conciencia de un rango de campo de sonido y puede mejorar la sensación de espacio y la estabilidad del sonido de una señal de audio. La ILD se utiliza para distinguir un ángulo de acimut horizontal de una fuente acústica estéreo y describe una diferencia de energía entre canales. Este parámetro afecta las componentes de frecuencia de un espectro completo. La ITD y la IPD son parámetros espaciales que representan el acimut horizontal de una fuente acústica y describen las diferencias de tiempo y de fase entre canales. La ILD, la ITD y la IPD pueden determinar la conciencia de un oído humano sobre la ubicación de una fuente acústica, se pueden usar para determinar de manera efectiva la ubicación de un campo de sonido y desempeñan un papel importante en la restauración de una señal estéreo.
En un proceso de grabación estéreo, debido al impacto de factores como el ruido de fondo, la reverberación y la participación de múltiples intervinientes, una ITD calculada según un esquema de codificación PS existente siempre es inestable (el valor de ITD varía mucho). Una señal mezclada a la baja calculada con base en tal ITD es discontinua. Como resultado, la calidad del estéreo obtenido en el lado del descodificador es deficiente. Por ejemplo, una imagen acústica del estéreo que se reproduce en el lado del descodificador oscila con frecuencia e incluso se produce una paralización auditiva.
El documento US 2009/0119111 A1 divulga un método de codificación estéreo, para una trama actual; se obtiene un valor máximo de una función de correlación cruzada, cuando el valor máximo es mayor o igual a un umbral preestablecido; el valor máximo que maximiza el valor de la función de correlación cruzada se determina como la diferencia temporal de retardo para la trama actual. Si no, la diferencia de tiempo de retardo determinada en la trama anterior se determina como la diferencia de tiempo de retardo de la trama actual.
El documento AU 2011357816 B2 da a conocer un método para determinar la diferencia de tiempo entre canales de una señal de audio multicanal que tiene al menos dos canales. Se determina un conjunto de máximos locales de una función de correlación cruzada que involucra al menos dos canales diferentes de la señal de audio multicanal para retardos positivos y negativos, donde cada máximo local está asociado con un retardo correspondiente. A partir del conjunto de máximos locales, se selecciona un máximo local para retardos positivos como el denominado candidato de correlación entre canales de retardos positivos y se selecciona un máximo local para retardos negativos como el denominado candidato de correlación entre canales de retardo negativo. Cuando el valor absoluto de una diferencia en amplitud entre los candidatos de correlación entre canales es menor que un primer umbral, se evalúa si existe un canal dominante en energía. Cuando hay un canal dominante en energía, se identifica el signo de la diferencia de tiempo entre canales y se extrae un valor actual de la diferencia de tiempo entre canales en función del retardo correspondiente al candidato de correlación entre canales de retardo positivo o el retardo correspondiente al candidato de correlación entre canales de retardo negativo.
El documento WO 2013/029225 divulga un codificador multicanal paramétrico para codificar una señal multicanal que comprende una señal de primer canal y una señal de segundo canal, el codificador multicanal paramétrico que comprende un estimador para estimar una diferencia de tiempo interaural entre la señal del primer canal y la señal del segundo canal para obtener una estimación de la diferencia de tiempo interaural, estando configurado el estimador, además, para determinar un indicador de falta de nitidez, indicando el indicador de falta de nitidez un grado de falta de fiabilidad de la estimación de la diferencia de tiempo interaural; un generador de señales de mezcla a la baja para generar una señal de mezcla a la baja a partir de la señal del primer canal y la señal del segundo canal; y un multiplexor para multiplexar la señal de mezcla a la baja, la diferencia de tiempo interaural y el parámetro de falta de nitidez para obtener una señal codificada.
El documento US20160198279A1 describe un método y un dispositivo para determinar una diferencia de tiempo entre canales de una señal de audio multicanal que tiene al menos dos canales. Se realiza una determinación en varias instancias temporales consecutivas, basándose la correlación entre canales en una función de correlación cruzada que implica al menos dos canales diferentes de la señal de audio multicanal. Cada valor de la correlación entre canales está asociado con un valor correspondiente de la diferencia de tiempo entre canales. Un umbral de correlación entre canales adaptativo se determina de forma adaptativa basándose en el aplanamiento adaptativo de la correlación entre canales en el tiempo. A continuación, se evalúa un valor actual de la correlación entre canales en relación con el umbral de correlación entre canales adaptativo para determinar si el valor actual correspondiente de la diferencia de tiempo entre canales es relevante. En función del resultado de esta evaluación, se determina un valor actualizado de la diferencia de tiempo entre canales.
Compendio
Esta solicitud proporciona un método según la reivindicación 1 para codificar una señal de audio multicanal y un codificador según la reivindicación 7, para mejorar la estabilidad de una ITD en la codificación PS y mejorar la calidad de codificación de una señal multicanal.
La presente invención se define en las reivindicaciones independientes.
Según un primer aspecto, se proporciona un método para codificar una señal multicanal que incluye: obtener una señal multicanal de una trama actual; determinar un valor de ITD inicial de la trama actual; controlar, en función de la información característica de la señal multicanal, una cantidad de tramas diana que se permite que aparezcan consecutivamente, donde la información característica incluye al menos uno de los parámetros de relación señal-ruido de la señal multicanal y un la característica pico de los coeficientes de correlación cruzada de la señal multicanal, y un valor de ITD de una trama anterior a la trama diana se reutiliza como un valor de ITD de la trama diana; determinar un valor de ITD de la trama actual en función del valor de ITD inicial de la trama actual y la cantidad de tramas diana que se permite que aparezcan consecutivamente; y codificar la señal multicanal en función del valor de ITD de la trama actual.
Con referencia al primer aspecto, en algunas implementaciones del primer aspecto, antes de controlar, en función de la información característica de la señal multicanal, una cantidad de tramas diana que se permite que aparezcan consecutivamente, el método incluye, además: determinar la característica pico de los coeficientes de correlación cruzada de la señal multicanal basada en la amplitud de un valor pico de los coeficientes de correlación cruzada de la señal multicanal y un índice de una posición pico de los coeficientes de correlación cruzada de la señal multicanal.
Con referencia al primer aspecto, en algunas implementaciones del primer aspecto, la determinación de la característica pico de los coeficientes de correlación cruzada de la señal multicanal en función de la amplitud de un valor pico de los coeficientes de correlación cruzada de la señal multicanal y un índice de una posición pico de los coeficientes de correlación cruzada de la señal multicanal incluye: determinar un parámetro de confianza de la amplitud pico en función de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal, donde la confianza de la amplitud pico el parámetro representa un nivel de confianza de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal; determinar un parámetro de fluctuación de posición pico en función de un valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal, y un valor de ITD de una trama anterior de la trama actual, donde el parámetro de fluctuación de posición pico representa una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de ITD de la trama anterior a la trama actual; y determinar la característica pico de los coeficientes de correlación cruzada de la señal multicanal en función del parámetro de confianza de la amplitud pico y el parámetro de fluctuación de posición pico.
Con referencia al primer aspecto, en algunas implementaciones del primer aspecto, la determinación de un parámetro de confianza de la amplitud pico en función de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal incluye: determinar, como el parámetro de confianza de la amplitud pico, una relación de una diferencia entre un valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal y un valor de amplitud de un segundo valor más grande de los coeficientes de correlación cruzada de la señal multicanal con respecto al valor de amplitud del valor pico.
Con referencia al primer aspecto, en algunas implementaciones del primer aspecto, la determinación de un parámetro de fluctuación de posición pico en función de un valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal, y un valor de ITD de una trama anterior a la trama actual incluye: determinar, como parámetro de fluctuación de la posición pico, un valor absoluto de una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de ITD de la trama anterior a la trama actual.
Con referencia al primer aspecto, el control, en función de la información característica de la señal multicanal, una cantidad de tramas diana que se permiten que aparezcan consecutivamente incluye: el control, en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, de la cantidad de tramas diana que se permite que aparezcan consecutivamente; y cuando la característica pico de los coeficientes de correlación cruzada de la señal multicanal satisface una condición preestablecida, reducir, ajustando al menos uno de un recuento de tramas diana y un umbral del recuento de tramas diana, la cantidad de tramas diana que se permite que aparezcan consecutivamente, donde el recuento de tramas diana se utiliza para representar una cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Con referencia al primer aspecto, en algunas implementaciones del primer aspecto, la reducción, mediante el ajuste de al menos uno de un recuento de tramas diana y un umbral del recuento de tramas diana, de la cantidad de tramas diana que se permite que aparezcan consecutivamente incluye: reducir, aumentando el recuento de tramas diana, la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Con referencia al primer aspecto, en algunas implementaciones del primer aspecto, la reducción, mediante el ajuste de al menos uno de un recuento de tramas diana y un umbral del recuento de tramas diana, la cantidad de tramas diana que se permite que aparezcan consecutivamente incluye: reducir, disminuyendo el umbral del recuento de tramas diana, la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Con referencia al primer aspecto, el control, en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, de la cantidad de tramas diana que se permite que aparezcan consecutivamente incluye: solo cuando el parámetro de relación señal-ruido de la señal multicanal no satisface una condición preestablecida de relación señal-ruido, controlar, en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente; y el método incluye además: cuando una relación señal-ruido de la señal multicanal satisface la condición de relación señal-ruido, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como valor de ITD de la trama actual.
Con referencia al primer aspecto, en algunas implementaciones del primer aspecto, el control, en función de la información característica de la señal multicanal, una cantidad de tramas diana que se permite que aparezcan consecutivamente incluye: determinar si la relación señal-ruido el parámetro de relación de la señal multicanal satisface una condición preestablecida de relación señal-ruido; y cuando el parámetro de relación señal-ruido de la señal multicanal no satisface la condición de relación señal-ruido, controlar, en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente; o cuando una relación señal-ruido de la señal multicanal satisface la condición de relación señalruido, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual.
Con referencia al primer aspecto, en algunas implementaciones del primer aspecto, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual incluye: aumentar el recuento de tramas diana, de modo que un valor del recuento de tramas diana es mayor o igual que el umbral del recuento de tramas diana, donde el recuento de tramas diana se utiliza para representar la cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Con referencia al primer aspecto, la determinación de un valor de ITD de la trama actual en función del valor inicial de ITD de la trama actual y la cantidad de tramas diana que se permite que aparezcan consecutivamente incluye: determinar el valor de ITD de la trama actual en función del valor inicial de ITD de la trama actual, el recuento de tramas diana y el umbral del recuento de tramas diana, donde el recuento de tramas diana se utiliza para representar la cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Con referencia al primer aspecto, en algunas implementaciones del primer aspecto, el parámetro de relación señalruido es una relación señal-ruido segmentaria modificada de la señal multicanal.
Según un segundo aspecto, se proporciona un codificador que incluye unidades configuradas para realizar el método del primer aspecto.
Según un tercer aspecto, que no forma parte de la invención, se proporciona un codificador que incluye una memoria y un procesador. La memoria está configurada para almacenar un programa y el procesador está configurado para ejecutar el programa. Cuando se ejecuta el programa, el procesador realiza el método en el primer aspecto.
Según un cuarto aspecto, que no forma parte de la invención, se proporciona un medio legible por ordenador. El medio legible por ordenador almacena el código del programa para ser ejecutado por un codificador. El código del programa incluye una instrucción utilizada para realizar el método en el primer aspecto.
Según esta solicitud, se puede reducir el impacto de los factores ambientales, como el ruido de fondo, la reverberación y la participación de múltiples intervinientes, sobre la precisión y la estabilidad del resultado de un cálculo de un valor de ITD; y cuando hay ruido de fondo, reverberación o participación de múltiples intervinientes, o no es evidente una característica armónica de la señal, se mejora la estabilidad de un valor de ITD en la codificación PS y se reduce al máximo las transiciones innecesarias del valor de ITD, evitando, así, la discontinuidad entre tramas de una señal mezclada a la baja y la inestabilidad de una imagen acústica de una señal descodificada. Además, según realizaciones de esta solicitud, la información de fase de una señal estéreo se puede retener mejor y se mejora la calidad acústica.
Breve descripción de los dibujos
La FIG. 1 es un diagrama de flujo de la codificación de PS en la técnica anterior;
La FIG. 2 es un diagrama de flujo de la descodificación de PS en la técnica anterior;
La FIG. 3 es un diagrama esquemático de flujo de un método de extracción de parámetros de ITD en función del dominio del tiempo en la técnica anterior;
La FIG. 4 es un diagrama esquemático de flujo de un método de extracción de parámetros de ITD en función del dominio de la frecuencia en la técnica anterior;
La FIG. 5 es un diagrama esquemático de flujo de un método para codificar una señal multicanal según una realización de esta solicitud;
La FIG. 6 es un diagrama esquemático de flujo de un método para codificar una señal multicanal según una realización de esta solicitud;
La FIG. 7 es un diagrama estructural esquemático de un codificador según una realización de esta solicitud; y
La FIG. 8 es un diagrama estructural esquemático de un codificador según un ejemplo que no comprende todas las características necesarias para implementar esta aplicación.
Descripción de realizaciones
Cabe señalar que una señal estéreo también puede denominarse señal multicanal. Lo anterior describe brevemente las funciones y significados de una ILD, una ITD y una IPD de la señal multicanal. Para facilitar la comprensión, a continuación se describen la ILD, la ITD y la IPD de manera más detallada usando un ejemplo en el que una señal captada por un primer micrófono es una señal de primer canal y una señal captada por un segundo micrófono es una señal de segundo canal.
La ILD describe una diferencia de energía entre la señal del primer canal y la señal del segundo canal. Por ejemplo, si la ILD es mayor que 0, la energía de la señal del primer canal es mayor que la energía de la señal del segundo canal; si la ILD es igual a 0, la energía de la señal del primer canal es igual a la energía de la señal del segundo canal; o si la ILD es menor que 0, la energía de la señal del primer canal es menor que la energía de la señal del segundo canal. Para otro ejemplo, si la ILD es menor que 0, la energía de la señal del primer canal es mayor que la energía de la señal del segundo canal; si la ILD es igual a 0, la energía de la señal del primer canal es igual a la energía de la señal del segundo canal; o si la ILD es mayor que 0, la energía de la señal del primer canal es menor que la energía de la señal del segundo canal. Debe entenderse que los valores anteriores son meramente ejemplos, y una relación entre un valor de ILD y la diferencia de energía entre la señal del primer canal y la señal del segundo canal puede definirse en función de la experiencia o dependiendo de un requisito real.
La ITD describe una diferencia de tiempo entre la señal del primer canal y la señal del segundo canal, es decir, una diferencia entre un tiempo en el que el sonido generado por una fuente acústica llega al primer micrófono y un tiempo en el que el sonido generado por la fuente acústica llega al segundo micrófono. Por ejemplo, si la ITD es mayor que 0, el tiempo de llegada del sonido generado por la fuente acústica al primer micrófono es anterior al tiempo de llegada al segundo micrófono del sonido generado por la fuente acústica; si la ITD es igual a 0, el sonido generado por la fuente acústica llega simultáneamente al primer micrófono y al segundo micrófono; o si la ITD es inferior a 0, el momento en que el sonido generado por la fuente acústica llega al primer micrófono es posterior al momento en que el sonido generado por la fuente acústica llega al segundo micrófono. Para otro ejemplo, si la ITD es menor que 0, el momento en que el sonido generado por la fuente acústica llega al primer micrófono es anterior al momento en que el sonido generado por la fuente acústica llega al segundo micrófono; si la ITD es igual a 0, el sonido generado por la fuente acústica llega simultáneamente al primer micrófono y al segundo micrófono; o si la ITD es mayor que 0, el tiempo de llegada del sonido generado por la fuente acústica al primer micrófono es posterior al tiempo de llegada al segundo micrófono del sonido generado por la fuente acústica. Debe entenderse que los valores anteriores son meramente ejemplos, y una relación entre un valor de ITD y la diferencia de tiempo entre la señal del primer canal y la señal del segundo canal puede definirse en función de la experiencia o dependiendo de un requisito real.
La IPD describe una diferencia de fase entre la señal del primer canal y la señal del segundo canal. Este parámetro generalmente se usa junto con la ITD y se usa para restaurar la información de fase de una señal multicanal en el lado del descodificador.
Puede aprenderse de lo anterior que una forma de cálculo del valor de ITD existente provoca la discontinuidad de un valor de ITD. Para facilitar la comprensión, con referencia a la FIG. 3 y la FIG. 4, lo siguiente describe en detalle la forma de cálculo del valor de ITD existente y sus desventajas usando un ejemplo en donde una señal multicanal incluye una señal del canal izquierdo y una señal del canal derecho.
En la técnica anterior, se calcula un valor de ITD en función de un coeficiente de correlación cruzada de una señal multicanal en la mayoría de los casos. Puede haber una pluralidad de formas de cálculo específicas. Por ejemplo, el valor de ITD puede calcularse en el dominio del tiempo, o el valor de ITD puede calcularse en el dominio de la frecuencia.
La FIG. 3 es un diagrama esquemático de flujo de un método de cálculo del valor de ITD en función del dominio del tiempo. El método de la FIG. 3 incluye las siguientes etapas.
310: Calcular un valor de ITD en función de una señal en el dominio del tiempo del canal izquierdo y una señal en el dominio del tiempo del canal derecho.
Específicamente, el valor de ITD puede calcularse en función de la señal de dominio de tiempo del canal izquierdo y la señal de dominio de tiempo del canal derecho usando una función de correlación cruzada del dominio del tiempo. Por ejemplo, el cálculo se realiza dentro de un intervalo de 0<i<Tmáx:
Longitud—1—i
c n ( i ) = Z x « ( j ) ' x L ( j i )
j =0 (!)
Longitud—! —i
c p ( i ) = Z X L ( j ) X « ( j i )
j=0 (2)
Si
Figure imgf000006_0001
T1 es un número opuesto de un valor de índice correspondiente a máx(Cn(i)); si no, T1 es un valor de índice correspondiente a máx(Cp(i)), donde i es un valor índice de la función de correlación cruzada, x l es la señal en el dominio temporal del canal izquierdo, x r es la señal en el dominio temporal del canal derecho, Tmáx corresponde a un valor máximo de ITD en el caso de diferentes frecuencias de muestreo, y Longitud es la longitud de trama.
320: Realizar el procesamiento de cuantificación en el valor de ITD.
La FIG. 4 es un diagrama esquemático de flujo de un método de cálculo del valor de ITD en función del dominio de la frecuencia. El método de la FIG. 4 incluye las siguientes etapas.
410: Realizar la transformación tiempo-frecuencia en una señal de dominio de tiempo del canal izquierdo y una señal de dominio de tiempo del canal derecho, para obtener una señal de dominio frecuencial del canal izquierdo y una señal de dominio frecuencial del canal derecho.
Específicamente, en la transformación tiempo-frecuencia, una señal de dominio de tiempo puede transformarse en una señal de dominio frecuencial utilizando una tecnología como la transformada de Fourier discreta (DFT) o la transformada de coseno discreta modificada (MDCT).
Por ejemplo, la DFT se puede realizar en la señal de dominio de tiempo del canal izquierdo y la señal de dominio de tiempo del canal derecho introducidas usando la siguiente fórmula (3):
Longitud-1 _ .2pnk
X (k) = X x ( n ) ' 0< k < L
n=0 (3)
donde n es un valor de índice de una muestra de una señal de dominio de tiempo, k es un valor de índice de una gama de frecuencias de una señal de dominio frecuencial, L es una longitud de transformación tiempo-frecuencia y x(n) es la señal en el dominio del tiempo del canal izquierdo o la señal en el dominio del tiempo del canal derecho.
420: Extraer un valor de ITD en función de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho.
Específicamente, L gamas de frecuencia de cada una de las señales de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho pueden dividirse en N subbandas. Un intervalo de valores de gamas de frecuencia incluidos en una subbanda b-ésima en las N subbandas se puede definir como Ab-i < k < Ab -1. En un intervalo de búsqueda de -Tmáx < j < Tmáx, se puede calcular un valor de la amplitud usando la siguiente fórmula:
Figure imgf000007_0001
Entonces, un valor de ITD de la subbanda b-ésima puede ser
T ( k ) = arg máx
V ' -Tmáx < j<Tm áx (
V m ag
V ( j
' )
' ) ,
es decir, un valor índice de una muestra correspondiente a un valor máximo calculado según la fórmula (4).
430: Realizar el procesamiento de cuantificación en el valor de ITD.
En la técnica anterior, si un valor pico de un coeficiente de correlación cruzada de una señal multicanal en una trama actual es relativamente pequeño, un valor de ITD obtenido a través del cálculo puede considerarse inexacto. En este caso, el valor de ITD de la trama actual se pone a cero.
Debido al impacto de factores como el ruido de fondo, la reverberación y la participación de múltiples intervinientes, un valor de ITD calculado según un esquema de codificación de PS existente se pone a cero con frecuencia y, en consecuencia, el valor de ITD varía mucho. Una señal mezclada a la baja calculada en función de tal valor de ITD está sujeta a discontinuidad entre tramas, y una imagen acústica de una señal multicanal descodificada es inestable. En consecuencia, se produce una mala calidad acústica de la señal multicanal.
Para resolver el problema de que el valor de ITD varía mucho, una forma de procesamiento factible es la siguiente: cuando el valor de ITD, obtenido a través del cálculo, de la trama actual se considera inexacto, un valor de ITD de una trama anterior a la trama actual (una trama anterior a una trama es específicamente una trama anterior adyacente a la trama) se puede reutilizar para la trama actual, es decir, el valor de ITD de la trama anterior a la trama actual se utiliza como el valor de ITD de la trama actual. En esta manera de procesamiento, puede resolverse bien el problema de que el valor de ITD varíe mucho. Sin embargo, esta forma de procesamiento puede causar el siguiente problema: cuando la calidad de la señal multicanal es relativamente buena, los valores de ITD relativamente precisos, obtenidos a través del cálculo, de muchas tramas actuales también pueden descartarse incorrectamente, y se reutilizan los valores de ITD de tramas anteriores a las tramas actuales. En consecuencia, se pierde la información de fase de la señal multicanal.
Para evitar el problema de que el valor de ITD varíe mucho y retener mejor la información de fase de la señal multicanal, con referencia a la FIG. 5, lo siguiente describe en detalle un método para codificar una señal multicanal según una realización de esta solicitud. Cabe señalar que, para facilitar la descripción, una trama cuyo valor de ITD reutiliza un valor de ITD de una trama anterior se denomina trama diana a continuación.
El método de la FIG. 5 incluye las siguientes etapas.
510: Obtener una señal multicanal de una trama actual.
520: Determinar un valor inicial de ITD de la trama actual.
Por ejemplo, el valor inicial de ITD de la trama actual se puede calcular de la manera basada en el dominio temporal que se muestra en la FIG. 3. Como otro ejemplo, el valor inicial de ITD de la trama actual se puede calcular de la manera basada en el dominio frecuencial que se muestra en la FIG. 4.
530: Controlar (o ajustar), en función de la información característica de la señal multicanal, una cantidad de tramas diana que se permite que aparezcan consecutivamente, donde la información característica incluye al menos uno de los parámetros de relación señal-ruido de la señal multicanal y de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, y un valor de ITD de una trama anterior a la trama diana se reutiliza como un valor de ITD de la trama diana.
Debe entenderse que, en esta realización de esta aplicación, primero se calcula el valor inicial de ITD de la trama actual y luego se calcula un valor de ITD de la trama actual (o denominado valor real de ITD de la trama actual, o como valor final de ITD de la trama actual) se determina en función del valor inicial de ITD de la trama actual. El valor inicial de ITD de la trama actual y el valor de ITD de la trama actual pueden ser el mismo valor de ITD o pueden ser valores de ITD diferentes. Esto depende de una regla de cálculo específica. Por ejemplo, si el valor inicial de ITD es exacto, el valor inicial de ITD puede usarse como el valor de ITD de la trama actual. Como otro ejemplo, si el valor inicial de ITD es inexacto, se puede descartar el valor inicial de ITD de la trama actual y se usa un valor de ITD de una trama anterior a la trama actual como el valor de ITD de la trama actual.
Debe entenderse que la característica pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual puede ser una característica diferencial entre un valor de la amplitud (o denominado magnitud) de un valor pico (o denominado valor máximo) de los coeficientes de correlación cruzada de la señal multicanal de la trama actual y un valor de la amplitud de un segundo valor más grande de los coeficientes de correlación cruzada de la señal multicanal; o puede ser una característica diferencial entre un valor de la amplitud de un valor pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual y un umbral; o puede ser una característica diferencial entre un valor de ITD correspondiente a un índice de una posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual y un valor de ITD de N tramas anteriores; o puede ser una característica diferencial (o denominada característica de fluctuación) entre un índice de una posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual y un índice de una posición pico de un coeficiente de correlación cruzada de una señal multicanal de N tramas anteriores, donde N es un número entero positivo mayor o igual a 1; o puede ser una combinación de las características anteriores. El índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual puede representar qué valor de los coeficientes de correlación cruzada de la señal multicanal en la trama actual es el valor pico. Asimismo, un índice de una posición pico de un coeficiente de correlación cruzada de una señal multicanal de la trama anterior puede representar qué valor de los coeficientes de correlación cruzada de la señal multicanal en la trama anterior es el valor pico. Por ejemplo, que el índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual sea 5 indica que un quinto valor de los coeficientes de correlación cruzada de la señal multicanal en la trama actual es el valor pico. Como otro ejemplo, que el índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama anterior sea 4 indica que un cuarto valor de los coeficientes de correlación cruzada de la señal multicanal en la trama anterior es el valor pico.
El control de una cantidad de tramas diana que se permite que aparezcan consecutivamente en la etapa 530 puede implementarse estableciendo un recuento de tramas diana y/o un umbral del recuento de tramas diana. Por ejemplo, el objetivo de controlar una cantidad de tramas diana que se permite que aparezcan consecutivamente puede lograrse cambiando a la fuerza el recuento de tramas diana; o el objetivo de controlar una cantidad de tramas diana que se permite que aparezcan consecutivamente puede lograrse cambiando a la fuerza el umbral del recuento de tramas diana; o ciertamente, el objetivo de controlar una cantidad de tramas diana que se permite que aparezcan consecutivamente puede lograrse cambiando a la fuerza tanto el recuento de tramas diana como el umbral del recuento de tramas diana. El recuento de tramas diana puede usarse para indicar una cantidad de tramas diana que han aparecido consecutivamente en ese momento, y el umbral del recuento de tramas diana puede usarse para indicar la cantidad de tramas diana que se permite que aparezcan consecutivamente.
540: Determinar un valor de ITD de la trama actual en función del valor inicial de ITD de la trama actual y la cantidad de tramas diana que se permite que aparezcan consecutivamente.
550: Codificar la señal multicanal en función del valor de ITD de la trama actual.
Por ejemplo, se pueden realizar operaciones, tales como la codificación de audio mono, la codificación de parámetros espaciales y la multiplexación de flujo de bits, que se muestran en la FIG. 1. Para un esquema de codificación específico, consulte el estado de la técnica.
Según esta realización de esta solicitud, se puede reducir el impacto de los factores ambientales, tales como el ruido de fondo, la reverberación y la participación de múltiples intervinientes, sobre la precisión y la estabilidad de un resultado de cálculo de un valor de ITD; y cuando hay ruido de fondo, reverberación o participación de múltiples intervinientes, o una característica armónica de la señal no es evidente, se mejora la estabilidad de un valor de ITD en la codificación PS y se reducen al máximo las transiciones innecesarias del valor de ITD, evitando, así, la discontinuidad entre tramas de una señal mezclada a la baja y la inestabilidad de una imagen acústica de una señal descodificada. Además, según esta realización de esta solicitud, la información de fase de una señal estéreo se puede retener mejor y se mejora la calidad acústica.
Cabe señalar que la señal multicanal que aparece a continuación es la señal multicanal de la trama actual, a no ser que se especifique de otro modo que la señal multicanal es la señal multicanal de la trama anterior o las N tramas anteriores.
Antes de la etapa 530, el método de la FIG. 5 puede incluir, además: determinar la característica pico de los coeficientes de correlación cruzada de la señal multicanal en función de la amplitud de un valor pico de los coeficientes de correlación cruzada de la señal multicanal.
Específicamente, un parámetro de confianza de la amplitud pico puede determinarse en función de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal, donde el parámetro de confianza de la amplitud pico puede usarse para representar un nivel de confianza de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal. Además, la etapa 530 incluye: cuando el parámetro de confianza de la amplitud pico satisface una condición preestablecida, reducir la cantidad de tramas diana que se permite que aparezcan consecutivamente; o la etapa 530 puede incluir: cuando el parámetro de confianza de la amplitud pico no satisface una condición preestablecida, mantener sin cambios la cantidad de tramas diana que se permite que aparezcan consecutivamente. Por ejemplo, que el parámetro de confianza de la amplitud pico satisfaga una condición preestablecida puede ser que un valor del parámetro de confianza de la amplitud pico sea mayor que un umbral, o puede ser que un valor del parámetro de confianza de la amplitud pico se encuentre dentro de un intervalo preestablecido.
En esta realización de esta solicitud, el parámetro de confianza de la amplitud pico se puede definir de varias maneras.
Por ejemplo, el parámetro de confianza de la amplitud pico puede ser una diferencia entre el valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de amplitud del segundo valor más grande de los coeficientes de correlación cruzada de la señal multicanal. Específicamente, una mayor diferencia indica un mayor nivel de confianza de la amplitud del valor pico.
Como otro ejemplo, el parámetro de confianza de la amplitud pico puede ser una relación de una diferencia entre el valor de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de la amplitud del segundo valor más grande de los coeficientes de correlación cruzada de la señal multicanal con respecto al valor de la amplitud del valor pico. Específicamente, una relación más grande indica un nivel de confianza más alto de la amplitud del valor pico.
Como otro ejemplo, el parámetro de confianza de la amplitud pico puede ser una diferencia entre el valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal y un valor de amplitud diana. Específicamente, un mayor valor absoluto de la diferencia indica un mayor nivel de confianza de la amplitud del valor pico. El valor de amplitud diana se puede seleccionar en función de la experiencia o según un caso real, por ejemplo, puede ser un valor fijo o puede ser un valor de amplitud de un coeficiente de correlación cruzada de una ubicación preestablecida (la ubicación se puede representar utilizando un índice del coeficiente de correlación cruzada) en la trama actual.
Como otro ejemplo, el parámetro de confianza de la amplitud pico puede ser una relación de una diferencia entre el valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal y un valor de amplitud diana al valor de amplitud del valor pico. Específicamente, una relación más grande indica un nivel de confianza más alto de la amplitud del valor pico. El valor de amplitud diana puede seleccionarse en función de la experiencia o dependiendo de un caso real, por ejemplo, puede ser un valor fijo, o puede ser un valor de amplitud de un coeficiente de correlación cruzada de una ubicación preestablecida en la trama actual.
Opcionalmente, en algunas realizaciones, antes de la etapa 530, el método de la FIG. 5 puede incluir, además: determinar la característica pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual en función de un índice de una posición pico de los coeficientes de correlación cruzada de la señal multicanal.
Por ejemplo, un parámetro de fluctuación de posición pico puede determinarse en función de un valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal y un valor de ITD de N tramas anteriores a la trama actual, donde el parámetro de fluctuación de la posición pico puede usarse para representar una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de ITD de la trama anterior a la trama actual, y N es un número entero positivo mayor o igual a 1.
Como otro ejemplo, se puede determinar un parámetro de fluctuación de la posición pico en función del índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal y un índice de la posición pico de un coeficiente de correlación cruzada de una señal multicanal de N tramas anteriores a la trama actual, donde el parámetro de fluctuación de la posición pico puede usarse para representar una diferencia entre el índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal y el índice de la posición pico de la correlación cruzada coeficientes de la señal multicanal de las N tramas anteriores a la trama actual.
Además, la etapa 530 puede incluir: cuando el parámetro de fluctuación de la posición pico satisface una condición preestablecida, reducir la cantidad de tramas diana que se permite que aparezcan consecutivamente; o cuando el parámetro de fluctuación de la posición pico no satisface una condición preestablecida, mantener sin cambios la cantidad de tramas diana que se permite que aparezcan consecutivamente. Por ejemplo, que el parámetro de fluctuación de posición pico satisfaga una condición preestablecida puede ser que un valor del parámetro de fluctuación de posición pico sea mayor que un umbral, o puede ser que un valor del parámetro de fluctuación de posición pico se encuentre dentro de un rango preestablecido. Por ejemplo, cuando el parámetro de fluctuación de la posición pico se determina en función del valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de ITD de la trama anterior a la trama actual, el parámetro de fluctuación de posición pico satisfaga una condición preestablecida puede ser que un valor del parámetro de fluctuación de posición pico sea mayor que un umbral, donde el umbral puede establecerse en 4, 5, 6 u otro valor empírico; o puede ser que un valor del parámetro de fluctuación de la posición pico se encuentre dentro de un rango preestablecido, donde el intervalo preestablecido puede establecerse en [6, 128] u otro valor empírico. Específicamente, el umbral o el rango de valores puede establecerse dependiendo de diferentes métodos de cálculo de parámetros, diferentes requisitos, diferentes escenarios de aplicación y similares.
En esta realización de esta solicitud, el parámetro de fluctuación de la posición pico se puede definir de varias maneras.
Por ejemplo, el parámetro de fluctuación de la posición pico puede ser un valor absoluto de una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual y un valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama anterior a la trama actual.
Como otro ejemplo, el parámetro de fluctuación de la posición pico puede ser un valor absoluto de la diferencia entre el valor de iTd correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual y el valor de ITD de la trama anterior a la trama actual.
Como otro ejemplo, el parámetro de fluctuación de la posición pico puede ser una variación de una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual y el valor de ITD de las N tramas anteriores, donde N es un número entero mayor o igual que 2.
Opcionalmente, en algunas realizaciones, antes de la etapa 530, el método de la FIG. 5 puede incluir, además: determinar la característica pico de los coeficientes de correlación cruzada de la señal multicanal en función de la amplitud de un valor pico de los coeficientes de correlación cruzada de la señal multicanal y un índice de una posición pico de los coeficientes de correlación cruzada de la señal multicanal.
Específicamente, se puede determinar un parámetro de confianza de la amplitud pico en función de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal; se determina un parámetro de fluctuación de posición pico en función de un valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal y un valor de ITD de una trama anterior; y la característica pico de los coeficientes de correlación cruzada de la señal multicanal se determina en función del parámetro de confianza de la amplitud pico y el parámetro de fluctuación de la posición pico. Para conocer una manera de definir el parámetro de confianza de la amplitud pico y el parámetro de fluctuación de la posición pico, remitirse la realización anterior. Los detalles no se describen aquí de nuevo.
Además, en esta realización, la etapa 530 puede incluir: si tanto el parámetro de confianza de la amplitud pico como el parámetro de fluctuación de la posición pico satisfacen una condición preestablecida, controlar la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Por ejemplo, cuando el parámetro de confianza de amplitud pico es mayor que un umbral de confianza de la amplitud pico preestablecido, y el parámetro de fluctuación de la posición pico es mayor que un umbral de fluctuación de la posición pico preestablecido, se reduce la cantidad de tramas diana que se permite que aparezcan consecutivamente. Específicamente, por ejemplo, cuando el parámetro de confianza de la amplitud pico es una relación de una diferencia entre el valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de amplitud del segundo valor más grande de los coeficientes de correlación cruzada de la señal multicanal con respecto al valor de amplitud del valor pico, el umbral de confianza de la amplitud pico se puede establecer en 0,1, 0,2, 0,3 u otro valor empírico. Cuando el parámetro de fluctuación de la posición pico es un valor absoluto de una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual y un valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama anterior a la trama actual, el umbral de fluctuación de la posición pico se puede establecer en 4, 5, 6 u otro valor empírico. Específicamente, el umbral o un rango de valores puede establecerse dependiendo de diferentes métodos de cálculo de parámetros, diferentes requisitos, diferentes escenarios de aplicación y similares.
Como otro ejemplo, cuando un valor del parámetro de confianza de la amplitud pico está entre dos umbrales, y el parámetro de fluctuación de la posición pico es mayor que un umbral de fluctuación de la posición pico preestablecido, se reduce la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Como otro ejemplo, cuando un valor del parámetro de confianza de la amplitud pico es mayor que un umbral de confianza de la amplitud pico preestablecido, y el parámetro de fluctuación de la posición pico está entre dos umbrales, se reduce la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Cabe señalar que, en algunas realizaciones, el parámetro de confianza de la amplitud pico y/o el parámetro de fluctuación de la posición pico descritos anteriormente pueden denominarse parámetro o parámetros que representan un grado de estabilidad de la posición pico de los coeficientes de correlación cruzada de la señal multicanal. En este caso, la etapa 530 puede incluir: si el grado de estabilidad de la posición pico de los coeficientes de correlación cruzada de la señal multicanal satisface una condición preestablecida, reducir la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Cabe señalar que una manera definitoria de que el parámetro que representa el grado de estabilidad de la posición pico de los coeficientes de correlación cruzada de la señal multicanal satisfaga la condición preestablecida no está específicamente limitada en esta realización de esta solicitud.
Opcionalmente, que el grado de estabilidad de la posición pico de los coeficientes de correlación cruzada de la señal multicanal satisface la condición preestablecida puede ser: un valor de uno o más de los parámetros que representan el grado de estabilidad de la posición pico de la correlación cruzada los coeficientes de la señal multicanal se encuentra dentro de un rango de valores preestablecidos, o un valor de uno o más de los parámetros que representan el grado de estabilidad de la posición pico de los coeficientes de correlación cruzada de la señal multicanal está más allá de un rango de valores preestablecidos. Por ejemplo, cuando el grado de estabilidad de la posición pico de los coeficientes de correlación cruzada de la señal multicanal está representado por el parámetro de fluctuación de la posición pico, y un método para calcular el parámetro de fluctuación de la posición pico se basa en el valor absoluto de la diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual y el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama anterior a la trama actual, el rango de valores preestablecidos se puede configurar de la siguiente manera: el parámetro de fluctuación de la posición pico es mayor que 5 u otro valor empírico. Como otro ejemplo, cuando el grado de estabilidad de la posición pico de los coeficientes de correlación cruzada de la señal multicanal está representado por el parámetro de fluctuación de la posición pico y el parámetro de confianza de la amplitud pico, se basa un método para calcular el parámetro de fluctuación de la posición pico sobre el valor absoluto de la diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual y el valor de ITD correspondiente al índice de la posición pico de la correlación cruzada coeficientes de la señal multicanal de la trama anterior a la trama actual, y el parámetro de confianza de la amplitud pico es la relación de la diferencia entre el valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de amplitud del segundo valor más grande de los coeficientes de correlación cruzada de la señal multicanal con respecto al valor de amplitud del valor pico, el rango de valor preestablecido se puede configurar de la siguiente manera: el parámetro de fluctuación de la posición pico es mayor que 5, y el parámetro de confianza de la amplitud pico es mayor que 0,2; o puede establecerse en otro rango de valores empíricos. Específicamente, el rango de valores puede establecerse dependiendo de diferentes métodos de cálculo de parámetros, diferentes requisitos, diferentes escenarios de aplicación y similares.
A continuación, se describe en detalle cómo controlar, en función del parámetro de relación señal-ruido de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente.
El parámetro de relación señal-ruido de la señal multicanal puede usarse para representar una relación señal-ruido de la señal multicanal.
Debe entenderse que el parámetro de relación señal-ruido de la señal multicanal puede estar representado por uno o más parámetros. Una manera específica de seleccionar un parámetro no está limitada en esta realización de esta solicitud. Por ejemplo, el parámetro de la relación señal-ruido de la señal multicanal se puede representar mediante al menos una relación señal-ruido de subbanda, una relación señal-ruido de subbanda modificada, una relación señalruido segmentaria, una relación señal-ruido segmentaria modificada, una relación señal-ruido de banda completa, una relación señal-ruido de banda completa modificada y otro parámetro que puede representar una función de relación señal-ruido de la señal multicanal.
Debe entenderse además que una manera de determinar el parámetro de relación señal-ruido de la señal multicanal no está específicamente limitada en esta realización de esta solicitud. Por ejemplo, el parámetro de relación señalruido de la señal multicanal puede calcularse utilizando la señal multicanal completa. Como otro ejemplo, el parámetro de relación señal-ruido de la señal multicanal se puede calcular usando algunas señales de la señal multicanal, es decir, la relación señal-ruido de la señal multicanal se representa mediante el uso de relaciones señal-ruido de algunas señales. Como otro ejemplo, una señal de cualquier canal se puede seleccionar de forma adaptativa de la señal multicanal para realizar el cálculo, es decir, la relación señal-ruido de la señal multicanal se representa utilizando una relación señal-ruido de la señal del canal. Como otro ejemplo, el promedio ponderado se puede realizar primero en los datos que representan la señal multicanal, para formar una señal nueva, y luego la relación señal-ruido de la señal multicanal se representa utilizando una relación señal-ruido de la señal nueva.
A continuación se describe, utilizando un ejemplo en donde la señal multicanal incluye una señal del canal izquierdo y una señal del canal derecho, una manera de calcular la relación señal-ruido de la señal multicanal.
Por ejemplo, la transformación tiempo-frecuencia se puede realizar primero en una señal de dominio de tiempo del canal izquierdo y una señal de dominio de tiempo del canal derecho, para obtener una señal de dominio frecuencial del canal izquierdo y una señal de dominio frecuencial del canal derecho; el promedio ponderado se realiza en un espectro de amplitud de la señal de dominio frecuencial del canal izquierdo y un espectro de amplitud de la señal de dominio frecuencial del canal derecho, para obtener un espectro de amplitud promedio de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho; y luego se calcula una relación señal-ruido segmentaria modificada en función del espectro de amplitud promedio, y se usa como un parámetro que representa la característica de relación señal-ruido de la señal multicanal.
Como otro ejemplo, la transformación tiempo-frecuencia se puede realizar primero en una señal de dominio de tiempo del canal izquierdo, para obtener una señal de dominio frecuencial del canal izquierdo, y luego se calcula una relación señal-ruido segmentaria modificada de la señal de dominio frecuencial del canal izquierdo en función de un espectro de amplitud de la señal de dominio frecuencial del canal izquierdo. Del mismo modo, la transformación tiempofrecuencia se puede realizar primero en una señal de dominio de tiempo del canal derecho, para obtener una señal de dominio frecuencial del canal derecho, y luego se calcula una relación señal-ruido segmentaria modificada del dominio frecuencial del canal derecho basada en un espectro de amplitud de la señal de dominio frecuencial del canal derecho. A continuación, se calcula un valor promedio de las relaciones señal-ruido segmentarias modificadas de la señal en el dominio frecuencial del canal izquierdo y la señal en el dominio frecuencial del canal derecho en función de la relación señal-ruido segmentaria modificada de dominio frecuencial del canal izquierdo y de la relación señalruido segmentaria modificada de la señal de dominio frecuencial del canal derecho, y se utiliza como parámetro que representa la característica de relación señal-ruido de la señal multicanal.
El control, en función del parámetro de relación señal-ruido de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente puede incluir: cuando el parámetro de relación señal-ruido de la señal multicanal satisface una condición preestablecida, que reduce la cantidad de tramas diana que se permite que aparezcan consecutivamente; o cuando el parámetro de relación señal-ruido de la señal multicanal no satisface una condición preestablecida, mantener sin cambios la cantidad de tramas diana que se permite que aparezcan consecutivamente. Por ejemplo, cuando un valor del parámetro de relación señal-ruido de la señal multicanal es mayor que un umbral preestablecido, se reduce la cantidad de tramas diana que se permite que aparezcan consecutivamente. Como otro ejemplo, cuando un valor del parámetro de relación señal-ruido de la señal multicanal se encuentra dentro de un rango de valores preestablecidos, se reduce la cantidad de tramas diana que se permite que aparezcan consecutivamente. Como otro ejemplo, cuando un valor del parámetro de relación señal-ruido de la señal multicanal está más allá de un rango de valores preestablecidos, se reduce la cantidad de tramas diana que se permite que aparezcan consecutivamente. Por ejemplo, cuando el parámetro de relación señal-ruido de la señal multicanal es la relación señal-ruido segmentaria, el umbral preestablecido puede ser 6000 u otro valor empírico, y el rango de valores preestablecidos puede ser superior a 6000 y menos de 3000000, u otro rango de valores empíricos. Específicamente, el umbral o el rango de valores puede establecerse dependiendo de diferentes métodos de cálculo de parámetros, diferentes requisitos, diferentes escenarios de aplicación y similares.
Lo anterior describe principalmente cómo controlar, en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal o del parámetro de relación señal-ruido de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente. A continuación, se describe en detalle cómo controlar, en función del parámetro de relación señal-ruido de la señal multicanal y la característica pico de los coeficientes de correlación cruzada de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Específicamente, cuando el parámetro de relación señal-ruido de la señal multicanal satisface la condición preestablecida, y el parámetro de confianza de la amplitud pico y/o el parámetro de fluctuación de la posición pico de los coeficientes de correlación cruzada de la señal multicanal satisfacen la condición preestablecida, puede reducirse la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Por ejemplo, cuando el valor del parámetro de relación señal-ruido de la señal multicanal es mayor que un primer umbral y menor o igual que un segundo umbral, el parámetro de confianza de la amplitud pico es mayor que un tercer umbral, y el parámetro de fluctuación de la posición pico es superior a un cuarto umbral, se reduce la cantidad de tramas diana que se permite que aparezcan consecutivamente. Por ejemplo, cuando el parámetro de relación señalruido de la señal multicanal es la relación señal-ruido segmentaria, el primer umbral puede ser 5000, 6000, 7000 u otro valor empírico; y el segundo umbral puede ser 2900000, 3000000, 3100000 u otro valor empírico. Cuando el parámetro de confianza de la amplitud pico es la relación de la diferencia entre el valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de amplitud del segundo valor más grande de los coeficientes de correlación cruzada de la señal multicanal señal con respecto al valor de amplitud del valor pico, el tercer umbral se puede establecer en 0,1, 0,2, 0,3 u otro valor empírico. Cuando el parámetro de fluctuación de la posición pico es el valor absoluto de la diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama actual y el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal de la trama anterior a la trama actual, el cuarto umbral se puede establecer en 4, 5, 6 u otro valor empírico. Específicamente, los umbrales pueden establecerse dependiendo de diferentes métodos de cálculo de parámetros, diferentes requisitos, diferentes escenarios de aplicación y similares.
Como otro ejemplo, cuando el valor del parámetro de relación señal-ruido de la señal multicanal es mayor o igual a un primer umbral y menor o igual a un segundo umbral, y el parámetro de confianza de la amplitud pico es menor que un quinto umbral, se reduce la cantidad de tramas diana que se permite que aparezcan consecutivamente. Por ejemplo, cuando el parámetro de relación señal-ruido de la señal multicanal es la relación señal-ruido segmentaria, el primer umbral puede ser 5000, 6000, 7000 u otro valor empírico; y el segundo umbral puede ser 2900000, 3000000, 3100000 u otro valor empírico. Cuando el parámetro de confianza de la amplitud pico es la relación de la diferencia entre el valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de amplitud del segundo valor más grande de los coeficientes de correlación cruzada de la señal multicanal señal con respecto al valor de amplitud del valor pico, el quinto umbral se puede establecer en 0,3, 0,4, 0,5 u otro valor empírico. Específicamente, los umbrales pueden establecerse dependiendo de diferentes métodos de cálculo de parámetros, diferentes requisitos, diferentes escenarios de aplicación y similares.
Debe entenderse que hay muchas formas de reducir la cantidad de tramas diana que se permite que aparezcan consecutivamente. En algunas realizaciones, puede preconfigurarse un valor utilizado para indicar la cantidad de tramas diana que se permite que aparezcan consecutivamente, y el objetivo de reducir la cantidad de tramas diana que se permite que aparezcan consecutivamente puede lograrse disminuyendo el valor.
En algunas otras realizaciones, el recuento de tramas diana y el umbral del recuento de tramas diana pueden estar preconfigurados. El recuento de tramas diana puede usarse para indicar la cantidad de tramas diana que han aparecido consecutivamente en ese momento, y el umbral del recuento de tramas diana puede usarse para indicar la cantidad de tramas diana que se permite que aparezcan consecutivamente. Específicamente, la cantidad de tramas diana que se permite que aparezcan consecutivamente se reduce ajustando al menos uno de entre el recuento de tramas diana y el umbral del recuento de tramas diana. Por ejemplo, la cantidad de tramas diana que se permite que aparezcan consecutivamente puede reducirse aumentando (o lo que se denomina aumentando a la fuerza) el recuento de tramas diana. Como otro ejemplo, la cantidad de tramas diana que se permite que aparezcan consecutivamente puede reducirse disminuyendo el umbral del recuento de tramas diana. Como otro ejemplo, la cantidad de tramas diana que se permite que aparezcan consecutivamente puede reducirse aumentando el recuento de tramas diana y disminuyendo el umbral del recuento de tramas diana.
Lo anterior describe una manera de controlar, en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente. En algunas realizaciones, antes de que se controle la cantidad de tramas diana que se permite que aparezcan consecutivamente en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, si el parámetro de relación señal-ruido de la señal multicanal primero se puede determinar si satisface una condición preestablecida de relación señal-ruido.
Si el parámetro de relación señal-ruido de la señal multicanal no satisface la condición de relación señal-ruido preestablecida, la cantidad de tramas diana que se permite que aparezcan consecutivamente se controla en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal; o si la relación señal-ruido de la señal multicanal satisface la condición de relación señal-ruido, el valor de ITD de la trama anterior a la trama actual puede dejar de reutilizarse directamente como el valor de ITD de la trama actual.
Alternativamente, si el parámetro de relación señal-ruido de la señal multicanal satisface la condición de relación señalruido preestablecida, la cantidad de tramas diana que se permite que aparezcan consecutivamente se controla en función de la característica pico de los coeficientes de correlación cruzada. de la señal multicanal; o si la relación señal-ruido de la señal multicanal no satisface la condición de relación señal-ruido, el valor de ITD de la trama anterior a la trama actual puede dejar de ser reutilizado directamente como el valor de ITD de la trama actual.
A continuación, se describe en detalle una forma de determinar si la relación señal-ruido de la señal multicanal satisface la condición de relación señal-ruido y cómo dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual.
En primer lugar, el parámetro de relación señal-ruido de la señal multicanal puede representarse mediante uno o más parámetros. Una manera específica de seleccionar un parámetro no está limitada en esta realización de esta solicitud. Por ejemplo, el parámetro de la relación señal-ruido de la señal multicanal se puede representar mediante al menos una relación señal-ruido de subbanda, una relación señal-ruido de subbanda modificada, una relación señal-ruido segmentaria, una relación señal-ruido segmentaria modificada, una relación señal-ruido de banda completa, una relación señal-ruido de banda completa modificada y otro parámetro que puede representar una función de relación señal-ruido de la señal multicanal.
En segundo lugar, una forma de determinar el parámetro de relación señal-ruido de la señal multicanal no está específicamente limitada en esta realización de esta solicitud. Por ejemplo, el parámetro de relación señal-ruido de la señal multicanal puede calcularse utilizando la señal multicanal completa. Como otro ejemplo, el parámetro de relación señal-ruido de la señal multicanal se puede calcular usando algunas señales de la señal multicanal, es decir, la relación señal-ruido de la señal multicanal se representa mediante el uso de relaciones señal-ruido de algunas señales. Como otro ejemplo, se puede seleccionar de forma adaptativa una señal de cualquier canal de la señal multicanal para realizar el cálculo, es decir, la relación señal-ruido de la señal multicanal se representa utilizando una relación señalruido de la señal del canal. Como otro ejemplo, el promedio ponderado se puede realizar primero en los datos que representan la señal multicanal, para formar una nueva señal, y luego la relación señal-ruido de la señal multicanal se representa utilizando una relación señal-ruido de la señal nueva.
A continuación se describe, utilizando un ejemplo en el que la señal multicanal incluye una señal del canal izquierdo y una señal del canal derecho, una manera de calcular la relación señal-ruido de la señal multicanal.
Por ejemplo, la transformación tiempo-frecuencia se puede realizar primero en una señal de dominio de tiempo del canal izquierdo y una señal de dominio de tiempo del canal derecho, para obtener una señal de dominio frecuencial del canal izquierdo y una señal de dominio frecuencial del canal derecho; el promedio ponderado se realiza en un espectro de amplitud de la señal de dominio frecuencial del canal izquierdo y un espectro de amplitud de la señal de dominio frecuencial del canal derecho, para obtener un espectro de amplitud promedio de la señal de dominio frecuencial del canal izquierdo y de la señal de dominio frecuencial del canal derecho; y luego se calcula una relación señal-ruido segmentaria modificada en función del espectro de amplitud promedio, y se usa como un parámetro que representa la característica de relación señal-ruido de la señal multicanal.
Como otro ejemplo, la transformación tiempo-frecuencia se puede realizar primero en una señal de dominio de tiempo del canal izquierdo, para obtener una señal de dominio frecuencial del canal izquierdo, y luego se calcula una relación señal-ruido segmentaria modificada de la frecuencia del canal izquierdo en función de un espectro de amplitud de la señal de dominio frecuencial del canal izquierdo. Del mismo modo, la transformación tiempo-frecuencia se puede realizar primero en una señal de dominio de tiempo del canal derecho, para obtener una señal de dominio frecuencial del canal derecho, y luego se una relación señal-ruido segmentaria modificada del dominio frecuencial del canal derecho en función de un espectro de amplitud de la señal de dominio frecuencial del canal derecho. A continuación, se calcula un valor promedio de las relaciones señal-ruido segmentarias modificadas de la señal en el dominio de la frecuencia del canal izquierdo y la señal en el dominio de la frecuencia del canal derecho en función de la relación señal-ruido segmentaria modificada de la señal de dominio frecuencial del canal izquierdo y de la relación señal-ruido segmentaria modificada de la señal de dominio frecuencial del canal derecho, y se utiliza como parámetro que representa la característica de relación señal-ruido de la señal multicanal.
Cuando la relación señal-ruido de la señal multicanal satisface la condición de relación señal-ruido, el valor de ITD de la trama anterior a la trama actual deja de ser reutilizado ya que el valor de ITD de la trama actual puede incluir: cuando el valor del parámetro de relación señal-ruido de la señal multicanal es mayor que el umbral preestablecido, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual; como otro ejemplo, cuando el valor del parámetro de relación señal-ruido de la señal multicanal se encuentra dentro del rango de valores preestablecidos, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual; como otro ejemplo, cuando el valor del parámetro de relación señal-ruido de la señal multicanal está más allá del rango de valores preestablecidos, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual.
Además, en algunas realizaciones, detener la reutilización del valor de ITD de la trama anterior a la trama actual puede incluir: aumentar (o lo que se denomina aumentar a la fuerza) el recuento de tramas diana, de modo que un valor del recuento de tramas diana sea mayor que o igual al umbral del recuento de tramas diana. En algunas otras realizaciones, detener la reutilización del valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual puede incluir: poner un bit de indicador de detención, de modo que algunos valores del bit de indicador de detención representen el cese de la reutilización del valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual. Por ejemplo, si el bit indicador de detención está puesto a 1, el valor de ITD de la trama anterior a la trama actual deja de ser reutilizado como el valor de ITD de la trama actual; o si el bit indicador de detención está puesto a 0, el valor de ITD de la trama anterior a la trama actual puede reutilizarse como el valor de ITD de la trama actual.
Con referencia a ejemplos específicos, lo siguiente describe en detalle una manera de detener la reutilización del valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual.
Por ejemplo, cuando el valor del parámetro de relación señal-ruido de la señal multicanal es inferior a un umbral, el valor del recuento de tramas diana se modifica a la fuerza, de modo que un valor modificado es mayor o igual que el umbral del recuento de tramas diana.
Como otro ejemplo, cuando el valor del parámetro de relación señal-ruido de la señal multicanal es mayor que un umbral, el valor del recuento de tramas diana se modifica a la fuerza, de modo que un valor modificado es mayor o igual a el umbral del recuento de tramas diana.
Como otro ejemplo, independientemente de si el valor del parámetro de relación señal-ruido de la señal multicanal es inferior a un umbral o superior a otro umbral, el valor del recuento de tramas diana se modifica a la fuerza, de modo que un el valor modificado es mayor o igual que el umbral del recuento de tramas diana.
Como otro ejemplo, cuando el valor del parámetro de relación señal-ruido de la señal multicanal es menor que un umbral o mayor que otro umbral, el bit de indicador de detención se pone a 1.
Cabe señalar que puede haber una pluralidad de formas de determinar el valor de ITD de la trama actual en la etapa 540. Esto no está específicamente limitado en esta realización de esta solicitud.
Opcionalmente, en algunas realizaciones, el valor de ITD de la trama actual puede determinarse en función de una consideración integral de factores tales como la precisión del valor inicial de ITD de la trama actual y la cantidad de tramas diana que se permite que aparezcan consecutivamente (la cantidad de tramas diana que se permite que aparezcan consecutivamente puede ser una cantidad obtenida después de realizar el control o ajuste en función de la etapa 530).
Opcionalmente, en algunas otras realizaciones, el valor de ITD de la trama actual se puede determinar en función de una consideración integral de factores tales como la precisión del valor inicial de ITD de la trama actual, la cantidad de tramas diana que se permite que aparezcan consecutivamente (la cantidad de tramas diana que se permite que aparezcan consecutivamente puede ser una cantidad obtenida después de realizar el ajuste en función de la etapa 530), y si la trama actual es una trama de voz continua. Por ejemplo, si un nivel de confianza del valor inicial de ITD de la trama actual es alto, el valor inicial de ITD de la trama actual puede usarse directamente como el valor de ITD de la trama actual. Como otro ejemplo, cuando el nivel de confianza del valor inicial de ITD de la trama actual es bajo y la trama actual satisface condición para reutilizar el valor de ITD de la trama anterior a la trama actual, se puede reutilizar para la trama actual el valor de ITD de la trama anterior a la trama actual.
Debe entenderse que puede haber una pluralidad de formas de calcular el nivel de confianza del valor inicial de ITD de la trama actual. Esto no está limitado específicamente en esta realización de esta solicitud.
Por ejemplo, si un valor, del coeficiente de correlación cruzada, que corresponde al valor inicial de ITD y que se encuentra entre los valores de los coeficientes de correlación cruzada de la señal multicanal es mayor que un umbral preestablecido, se puede considerar que el nivel de confianza del valor inicial de ITD es alto.
Como otro ejemplo, si una diferencia entre un valor, del coeficiente de correlación cruzada, que corresponde al valor inicial de ITD y que se encuentra entre los valores de los coeficientes de correlación cruzada de la señal multicanal, y un segundo valor más grande de la cruz coeficientes de correlación de la señal multicanal es mayor que un umbral preestablecido, se puede considerar que el nivel de confianza del valor inicial de ITD es alto.
Como otro ejemplo, si el valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal es mayor que un umbral preestablecido, se puede considerar que el nivel de confianza del valor inicial de ITD es alto.
Debe entenderse que puede haber una pluralidad de maneras de determinar si la trama actual satisface la condición para reutilizar el valor de ITD de la trama anterior a la trama actual.
Opcionalmente, en algunas realizaciones, que la trama actual satisfaga la condición para reutilizar el valor de ITD de la trama anterior a la trama actual puede deberse a que el recuento de tramas diana sea menor que el umbral del recuento de tramas diana.
Opcionalmente, en algunas realizaciones, que la trama actual satisfaga la condición para reutilizar el valor de ITD de la trama anterior a la trama actual puede deberse a que un resultado de detección de activación por voz de la trama actual indica que la trama actual y las N tramas anteriores (N es un número entero positivo mayor que 1) a la trama actual forman tramas de voz continua. En este caso, si el valor de ITD de la trama anterior a la trama actual no es igual a un primer valor preestablecido (si un valor de ITD de una trama es el primer valor preestablecido, se puede considerar que el valor de ITD, obtenido mediante el cálculo, de la trama es puesto a la fuerza en el primer valor preestablecido debido a la imprecisión, donde el primer valor preestablecido puede ser, por ejemplo, 0), el valor de ITD de la trama actual es igual al primer valor preestablecido, y el número de tramas diana es menor que el umbral del recuento de tramas diana. Por ejemplo, cuando tanto un resultado de detección de activación por voz de la trama actual como los resultados de detección de activación por voz de las N tramas anteriores (N es un número entero positivo mayor que 1) a la trama actual indican tramas de voz, si el valor de ITD de la trama anterior a la trama actual no es igual a 0, el valor de ITD de la trama actual es puesta a la fuerza a 0, y el recuento de tramas diana es menor que el umbral del recuento de tramas diana. Entonces, el valor de ITD de la trama anterior a la trama actual se puede usar como el valor de ITD de la trama actual, y el valor del recuento de tramas diana aumenta. Cabe señalar que puede haber una pluralidad de maneras de poner a la fuerza el valor de ITD de la trama actual a 0. Por ejemplo, el valor de ITD de la trama actual se puede cambiar a 0; o puede ponerse un bit indicador, para representar que el valor de ITD de la trama actual se ha puesto a la fuerza a 0; o se pueden combinar las dos maneras anteriores.
A continuación se describen las realizaciones de esta solicitud de manera más detallada con referencia a ejemplos específicos. Cabe señalar que un ejemplo en la FIG. 6 pretende simplemente ayudar a un experto en la materia a comprender las realizaciones de esta aplicación, pero no limitar las realizaciones de esta aplicación a un valor específico o un escenario específico en el ejemplo. Obviamente, un experto en la materia puede realizar diversas modificaciones o variaciones en función del ejemplo que se muestra en la FIG. 6, y tales modificaciones o variaciones también se encuentran dentro del alcance de las realizaciones de esta solicitud.
La FIG. 6 es un diagrama esquemático de flujo de un método para codificar una señal multicanal según una realización de esta solicitud. Debe entenderse que las etapas u operaciones de procesamiento que se muestran en la FIG. 6 son meros ejemplos, y pueden realizarse adicionalmente otras operaciones, o variaciones de las operaciones de la FIG. 6 en esta realización de esta solicitud. Además, las etapas de la FIG. 6 pueden realizarse en una secuencia diferente a la mostrada en la FIG. 6, y puede no ser preciso realizar algunas operaciones en la FIG. 6. La FIG. 6 se describe utilizando un ejemplo en el que una señal multicanal incluye una señal del canal izquierdo y una señal del canal derecho. Debe entenderse además que un parámetro que representa un grado de estabilidad de una posición pico de los coeficientes de correlación cruzada de la señal multicanal en la realización de la FIG. 6 puede ser el parámetro de confianza de la amplitud pico y/o el parámetro de fluctuación de la posición pico descritos anteriormente.
El método de la FIG. 6 incluye las siguientes etapas.
602: Realizar la transformación tiempo-frecuencia en una señal de dominio de tiempo del canal izquierdo y una señal de dominio de tiempo del canal derecho.
Específicamente, una señal en el dominio temporal del canal izquierdo de una subtrama m-ésima de una trama actual puede ser representada por xm,izquierda (n), y una señal en el dominio temporal del canal derecho de la subtrama mésima puede ser representada por xm.derecha (n), donde m = 0, 1,..., NÚM_SUBTR-1, NUM_SUBTRes una cantidad de subtramas incluidas en una trama de audio, n es un valor de índice de una muestra, n = 0, 1,..., N -1, y N es una cantidad de muestras incluidas en la señal en el dominio temporal del canal izquierdo o la señal en el dominio temporal del canal derecho de la subtrama m-ésima. En un ejemplo en el que una señal multicanal tiene una frecuencia de muestreo de 16 KHz y la longitud de una trama de audio es de 20 ms, una señal en el dominio del tiempo del canal izquierdo y una señal en el dominio del tiempo del canal derecho de la trama de audio cada uno incluye 320 muestras. Si la trama de audio se divide en dos subtramas, y una señal en el dominio temporal del canal izquierdo y una señal en el dominio temporal del canal derecho de cada subtrama incluyen 160 muestras cada una, N es igual a 160.
La transformada rápida de Fourier basada en L muestras se realiza por separado en xm,¡zqu¡erda (n) y xm,derecha (n), para obtener una señal de dominio frecuencial del canal izquierdo Xm,izquierda (k) de la subtrama m-ésima y una señal de dominio frecuencial del canal derecho Xm,derecha (k) de la subtrama m-ésima, donde k = 0,1, ..., L -1, y L es una longitud de la transformada rápida de Fourier; por ejemplo, L puede ser 400 u 800.
604 y 605: Calcular una relación señal-ruido segmentaria modificada basada en una señal de dominio frecuencial del canal izquierdo y una señal de dominio frecuencial del canal derecho, y realizar la detección de activación por voz basada en la relación señal-ruido segmentaria modificada.
Específicamente, hay una pluralidad de maneras de calcular la relación señal-ruido segmentaria modificada basada en Xm,izquierda (k) y Xm,derecha (k). A continuación se proporciona una forma de cálculo específica.
Etapa 1: Calcular un espectro de amplitud promedio SPDm(k) de la señal en el dominio frecuencial del canal izquierdo y la señal en el dominio frecuencial del canal derecho de la subtrama m-ésima basado en Xm,izquierda (k) y Xm,derecha (k).
Por ejemplo, SPDm(k) puede calcularse según una fórmula (5):
SPDm (k ) = A * SFDm .zquierda (k ) (l - A) SFDm,derecha (k )
Donde
S P D m izquierda ( k ) = ( r e a l { X m,izquierda ( k ) } f ( Í m a g { X m,izquierda ( k ) } f ¡
y
SPD mderecha ( k ) = ( feal{ X m b re c h a ( k )}f ( Ímag { X mderecha ( k )}f
donde k = 1,..., L / 2 - 1, A es un factor de relación de mezcla de espectros de amplitud del canal izquierdo/derecho preestablecido, y A puede ser normalmente 0,5, 0,4, 0,3 u otro valor empírico.
Etapa 2: Calcular la energía de la subbanda E_bandam(i) basada en el espectro de amplitud promedio SPDm(k) de la señal en el dominio frecuencial del canal izquierdo y la señal en el dominio frecuencial del canal derecho de la subtrama m-ésima, donde i = 0,1,..., NÚM_BANDAS -1, y NÚM_BANDAS es una cantidad de subbandas.
Por ejemplo, E_banda (i) se puede calcular utilizando una fórmula (6):
Figure imgf000017_0001
donde banda_rb es una tabla preestablecida utilizada para la división de subbandas, banda_tb[i] es una gama de frecuencias de límite inferior de una subbanda iésima, y banda_tb[i+1]-1 es una gama de frecuencias de límite superior de la subbanda i-ésima.
Etapa 3: Calcular la relación señal-ruido segmentaria modificada mssnr en función de la energía de subbanda E_banda (i) y una estimación de energía de ruido de subbanda E_banda_n (i).
Por ejemplo, mssnr se puede calcular usando una fórmula (7) y una fórmula (8):
m s n r ( i ) = m á x f E b a n d a ( i )
0 , — ---- ^
v ------- - 1
E _ b a n d a _ n ( i ) y (7)
donde si msnr (i) < G, msnr(i) = msnr(i)2 / G;
NÚM_BANDAS-1
m s s n r = V m s n r ( i )
i =0 (8)
donde msnr(i) es una relación señal-ruido de subbanda modificada, G es un umbral de modificación de relación señalruido de subbanda preestablecido, y G puede ser normalmente 5, 6, 7 u otro valor empírico. Debe entenderse que hay una pluralidad de métodos para calcular la relación señal-ruido segmentaria modificada, y esto es simplemente un ejemplo en este documento.
Etapa 4: actualizar la estimación de energía de ruido de subbanda E_banda_n (i) en función de la relación señal-ruido segmentaria modificada y la energía de subbanda E_banda (i).
Específicamente, la energía de subbanda promedio puede calcularse primero según una fórmula (9):
NÚM_BANDAS-1
1
e n e r g í a = )
N Ú M _ B A N D A S V E _ b a n d a ( i
i=0 (9)
Si un recuento de VAD vad_fm_cnt es menor que una longitud de ruido de trama inicial preestablecida, el recuento de VAD puede incrementarse. La longitud de trama inicial predeterminada del ruido suele ser un valor empírico predeterminado, por ejemplo, puede ser 29, 30, 31 u otro valor empírico.
Si un recuento de VAD vad_fm_cnt es menor que una longitud de trama de ruido establecida inicial preestablecida, y la energía de subbanda promedio es menor que un umbral de energía de ruido umbr_ener, puede actualizarse la estimación de energía de ruido de la subbanda E_banda_n (i), y se pone a 1 un indicador de actualización de energía de ruido. El umbral de energía de ruido suele ser un valor empírico preestablecido, por ejemplo, puede ser 35000000, 40000000, 45000000 u otro valor empírico.
Específicamente, la estimación de energía de ruido de subbanda puede actualizarse usando una fórmula (10):
E _ b a n d a _ n n-1 ( i ) * v a d _ f m _ c n t E _ b a n d a ( i )
E _ b a n d a _ n ( i )
v a d _ f m _ c n t 1 (10)
donde E_banda_nn-1(i) es energía de ruido de subbanda histórica, por ejemplo, puede ser energía de ruido de subbanda antes de la actualización.
De lo contrario, si la relación señal-ruido segmentaria modificada es menor que un umbral de actualización de ruido umbrACTUALiz, la estimación de energía de ruido de la subbanda E_banda_n (i) también se puede actualizar, y un indicador de actualización de energía de ruido se pone a 1. El umbral de actualización de ruido umbrACTUALiz puede ser 4, 5, 6 u otro valor empírico.
Específicamente, la estimación de energía de ruido de subbanda puede actualizarse utilizando una fórmula (11):
E_banda_n (i) = (1 - actualización_fac) E_banda_n n-1 (i) actualización_fac * E_banda (i)
(11)
donde actualización_fac es una tasa de actualización de ruido especificada y puede ser un valor constante entre 0 y 1, por ejemplo, puede ser 0,03, 0,04, 0,05 u otro valor empírico; y E_banda_nn-1(i) si la energía de ruido de subbanda histórica, por ejemplo, puede ser energía de ruido de subbandas antes de la actualización.
Además, para garantizar la eficacia del cálculo de la relación señal-ruido de subbanda, se puede limitar un valor de estimación de energía de ruido de subbanda actualizada, por ejemplo, un valor mínimo de E_banda_n (i) se puede limitar a 1.
Cabe señalar que existen muchos métodos para actualizar E_banda_n (i) en función de la relación señal-ruido segmentaria modificada y E_banda (i). Esto no está limitado específicamente en esta realización de esta solicitud, y esto es simplemente un ejemplo en este documento.
A continuación, la detección de activación por voz se puede realizar para la subtrama m-ésima en función de la relación señal-ruido segmentaria modificada. Específicamente, si la relación señal-ruido segmentaria modificada es mayor que un umbral de detección de activación por voz umbrvAD, la subtrama m-ésima es una trama de voz, y en este caso, se pone a 1 un indicador de detección de activación por voz vad_flag[m] de la subtrama m-ésima; de lo contrario, la subtrama m-ésima es una trama de ruido de fondo, y en este caso, se puede poner a 0 un indicador de detección de activación por voz vad_flag[m] de la subtrama m-ésima. El umbral de detección de activación por voz umbrvAD puede ser 3500, 4000, 4500 u otro valor empírico.
606 a 608: Calcular un coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho en función de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho, y calcular un valor inicial de ITD de una trama actual en función del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho.
Puede haber una pluralidad de maneras de calcular el coeficiente de correlación cruzada Xcorr(t) de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho en función de Xm,izquierda (k) y Xm,derecha (k). A continuación se proporciona una implementación específica.
Primero, un espectro de potencia de correlación cruzada Xcorrm(k) de la señal en el dominio frecuencial del canal izquierdo y la señal en el dominio frecuencial del canal derecho de la subtrama m-ésima se calcula según una fórmula (12):
X c 0 r r m ( k ) = X m,izquierda ( k ) X m,derecha * ( k )
Figure imgf000018_0001
Luego, se realiza un procesamiento de aplanamiento en el espectro de potencia de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho según una fórmula (13), para obtener un espectro de potencia de correlación cruzada aplanada Xcorr_aplanada(k):
Xcorr_aplanada (k ) = fac _ aplanada * Xcorr_aplanada (k )
+ (1 - fac _ aplanada )* Xcorrm (k ) (13)
donde fac_aplanada es un factor de aplanamiento, y el factor de aplanamiento puede ser cualquier número positivo entre 0 y 1, por ejemplo, puede ser 0,4, 0,5, 0,6 u otro valor empírico.
A continuación, Xcorr(t) puede calcularse en función de Xcorr_aplanada(k) y usando una fórmula (14):
Xcorr_aplanada (k ) ^
Xcorr (t ) = IDFT
^|Xcorr_aplanada (k )|^ (14)
donde IDFT(*) indica la transformada inversa de Fourier; un intervalo de valores de un valor de ITD incluido en el cálculo puede ser [-ITD_MÁX, ITD_MÁX]; y la intercepción y el reordenamiento se realizan en Xcorr(t) en función del intervalo de valores del valor de ITD, para obtener un coeficiente de correlación cruzada Xcorr_itd(t), utilizado para determinar el valor inicial de ITD de la trama actual, del canal izquierdo señal en el dominio de la frecuencia y la señal en el dominio de la frecuencia del canal derecho, y en este caso, t = 0, ..., 2 * ITD_MÁX.
Luego, el valor inicial de ITD de la trama actual se puede estimar en función de Xcorr_itd(t) y usando una fórmula (15):
ITD = argmáx (Xcorr_itd (t )) - ITD_MÁX
(15)
610 a 612: determinar un nivel de confianza del valor inicial de ITD de la trama actual. Si el nivel de confianza del valor inicial de ITD es alto, se puede establecer un recuento de tramas diana en un valor inicial preestablecido.
Específicamente, en primer lugar, se puede determinar el nivel de confianza del valor inicial de ITD de la trama actual. Puede haber una pluralidad de modos determinantes específicos. A continuación se proporcionan descripciones mediante el uso de ejemplos.
Por ejemplo, un valor de amplitud, del coeficiente de correlación cruzada, que corresponde al valor inicial de ITD y que se encuentra entre los valores de amplitud del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho puede compararse con un umbral preestablecido. Si el valor de amplitud es mayor que el umbral preestablecido, se puede considerar que el nivel de confianza del valor inicial de ITD de la trama actual es alto.
Como otro ejemplo, los valores del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho pueden clasificarse primero en orden descendente de valores de amplitud. A continuación, se puede seleccionar un coeficiente de correlación cruzada diana en una ubicación preestablecida (la ubicación puede representarse usando un valor de índice del coeficiente de correlación cruzada) a partir de valores ordenados del coeficiente de correlación cruzada. A continuación, un valor de amplitud, del coeficiente de correlación cruzada, que se corresponde con el valor inicial de ITD y que se encuentra entre los valores de amplitud del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho es comparado con un valor de amplitud del coeficiente de correlación cruzada diana. Si una diferencia entre los valores de amplitud es mayor que un umbral preestablecido, se puede considerar que el nivel de confianza del valor inicial de ITD de la trama actual es alto; si una relación entre los valores de amplitud es mayor que un umbral preestablecido, se puede considerar que el nivel de confianza del valor inicial de ITD de la trama actual es alto; o si el valor de amplitud, del coeficiente de correlación cruzada, que se corresponde con el valor inicial de ITD y que se encuentra entre los valores de amplitud del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho es mayor que el valor de amplitud del coeficiente de correlación cruzada diana, se puede considerar que el nivel de confianza del valor inicial de ITD de la trama actual es alto.
Además, después de obtener el coeficiente de correlación cruzada diana, en primer lugar, el coeficiente de correlación cruzada diana puede modificarse adicionalmente. A continuación, el valor de amplitud, del coeficiente de correlación cruzada, que se corresponde con el valor inicial de ITD y que se encuentra entre los valores de amplitud del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho es comparado con un valor de amplitud de un coeficiente de correlación cruzada diana modificada. Si el valor de amplitud, del coeficiente de correlación cruzada, que se corresponde con el valor inicial de ITD y que se encuentra entre los valores de amplitud del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho es mayor que el valor de amplitud del coeficiente de correlación cruzada modificada diana, se puede considerar que el nivel de confianza del valor inicial de ITD de la trama actual es alto.
Si el nivel de confianza del valor inicial de ITD de la trama actual es alto, el valor inicial de ITD puede utilizarse como valor de ITD de la trama actual. Además, puede preestablecerse un bit indicador itd_cal_flag que indica el cálculo exacto del valor de ITD. Si el nivel de confianza del valor inicial de ITD de la trama actual es alto, itd_cal_flag puede ponerse a 1; o si el nivel de confianza del valor inicial de ITD de la trama actual es bajo, itd_cal_flag puede ponerse a 0.
Además, si el nivel de confianza del valor inicial de ITD de la trama actual es alto, el recuento de tramas diana puede ponerse en el valor inicial preestablecido, por ejemplo, el recuento de tramas diana puede ponerse a 0 o 1.
614: Si el nivel de confianza del valor inicial de ITD es bajo, la modificación del valor de ITD se puede realizar en el valor inicial de ITD. Puede haber muchas maneras de modificar un valor de ITD. Por ejemplo, el procesamiento de la resonancia parásita se puede realizar en el valor de ITD, o el valor de ITD se puede modificar en función de la correlación de dos tramas adyacentes. Esto no está limitado específicamente en esta realización de esta solicitud.
616 a 618: Determinar si un valor de ITD de una trama anterior se reutiliza para la trama actual; y si el valor de ITD de la trama anterior se reutiliza para la trama actual, aumentar el valor de un recuento de tramas diana.
620 a 622: Determinar si la relación señal-ruido segmentaria modificada satisface una condición preestablecida de relación señal-ruido; y si la relación señal-ruido segmentaria modificada satisface la condición de relación señal-ruido preestablecida, dejar de reutilizar un valor de ITD de una trama anterior como un valor de ITD de una trama actual. Por ejemplo, se puede modificar un valor de un recuento de tramas diana, de modo que un recuento de tramas diana modificado sea mayor o igual que un umbral del recuento de tramas diana (el umbral puede indicar una cantidad de tramas diana que se permite que aparezcan consecutivamente), para dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual.
Puede haber una pluralidad de maneras de determinar si la relación señal-ruido segmentaria modificada satisface la condición de relación señal-ruido preestablecida. Opcionalmente, en algunas realizaciones, cuando la relación señalruido segmentaria modificada es inferior a un primer umbral o superior a un segundo umbral, se puede considerar que la relación señal-ruido segmentaria modificada satisface la condición relación señal-ruido preestablecida. En este caso, el valor del recuento de tramas diana puede modificarse, de modo que un recuento de tramas diana modificado sea mayor o igual que el umbral del recuento de tramas diana.
Por ejemplo, suponiendo que un umbral de voz de alta relación señal-ruido HIGH_SNR_VOICE_TH está preestablecido en 10000, el primer umbral puede configurarse en ArHIGH_SNR_VOICE_TH, y el segundo umbral se establece en A2*HIGH_SNR_VOICE_TH, donde A1 y A2 son números reales positivos, y A1<A2. Aquí, A1 puede ser 0,5, 0,6, 0,7 u otro valor empírico, y A2 puede ser 290, 300, 310 u otro valor empírico. El umbral del recuento de tramas diana puede ser igual a 9, 10, 11 u otro valor empírico.
624: Si la relación señal-ruido segmentaria modificada no satisface la condición de relación señal-ruido preestablecida, calcular un parámetro que represente el grado de estabilidad de una posición pico del coeficiente de correlación cruzada de la señal del dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho.
En concreto, si la relación señal-ruido segmentaria modificada es superior o igual a un primer umbral e inferior o igual a un segundo umbral, se puede considerar que la relación señal-ruido segmentaria modificada no satisface la condición de la relación señal-ruido preestablecida. En este caso, se calcula el parámetro que representa el grado de estabilidad de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho.
En esta realización, el parámetro que representa el grado de estabilidad de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho puede ser un grupo de parámetros. El grupo de parámetros puede incluir un parámetro de confianza de amplitud pico pico_mag_prob y un parámetro de fluctuación de la posición pico pico_pos_fluc del coeficiente de correlación cruzada.
Específicamente, pico_mag_prob puede calcularse de la siguiente manera:
En primer lugar, los valores del coeficiente de correlación cruzada Xcorr_itd(t) de la señal en el dominio de la frecuencia del canal izquierdo y la señal en el dominio de la frecuencia del canal derecho se clasifican en orden descendente o ascendente de valores de amplitud, y pico_mag_prob se calcula en función de los valores ordenados del coeficiente de correlación cruzada Xcorr_itd(t) de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho usando una fórmula (16):
Figure imgf000020_0001
donde X representa un índice de una posición pico de los valores ordenados del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho, e Y representa un índice de una ubicación preestablecida de los valores ordenados del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho. Por ejemplo, los valores del coeficiente de correlación cruzada Xcorr_itd(t) de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho se clasifican en orden ascendente de los valores de amplitud, una ubicación de X es 2*ITD_MÁX, y una ubicación de Y puede ser 2*ITD_MÁX-1. En este caso, en esta realización de esta solicitud, una relación de una diferencia entre un valor de amplitud de un valor pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho, y una el valor de amplitud de un segundo valor más grande del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho al valor de amplitud del valor pico se utiliza como el parámetro de confianza de la amplitud pico, concretamente, pico_mag_prob , del coeficiente de correlación cruzada. Ciertamente, esta es simplemente una forma de seleccionar pico_mag_prob.
Además, también puede haber una pluralidad de maneras de calcular pico_pos_fluc. Opcionalmente, en algunas realizaciones, pico_pos_fluc puede obtenerse mediante un cálculo basado en un valor de ITD correspondiente a un índice de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho y un valor de ITD de N tramas anteriores de la trama actual, donde N es un número entero mayor o igual a 1. Opcionalmente, en algunas realizaciones, pico_pos_fluc se puede obtener a través del cálculo basado en un índice de la posición pico del coeficiente de correlación cruzada de la señal en el dominio de la frecuencia del canal izquierdo y la señal en el dominio de la frecuencia del canal derecho y un índice de una posición pico de un coeficiente de correlación cruzada de una señal en el dominio de la frecuencia del canal izquierdo y una señal en el dominio de la frecuencia del canal derecho de N tramas anteriores a la trama actual, donde N es un número entero mayor o igual que 1.
Por ejemplo, haciendo referencia a una fórmula (17), pico_pos_fluc puede ser un valor absoluto de una diferencia entre el valor de ITD correspondiente al índice de la posición pico del coeficiente de correlación cruzada de la señal del dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho y el valor de ITD de la trama anterior a la trama actual:
pico_pos_fluc = afe(argmáx(Xcorr(í)) — ITD_MÁX — itd_prev)
(17)
donde itd_prev representa el valor de ITD de la trama anterior a la trama actual, abs(*) representa una operación de obtención del valor absoluto, y argmáx representa una operación de búsqueda de una ubicación de un valor máximo.
626 a 628: determinar si el grado de estabilidad de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho satisface una condición preestablecida; y si el grado de estabilidad satisface la condición preestablecida, aumentar el número de tramas diana.
En otras palabras, cuando el grado de estabilidad de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho satisface la condición preestablecida, se reduce una cantidad de tramos diana que se permite que aparezcan consecutivamente.
Por ejemplo, si pico_mag_prob es mayor que un umbral de confianza de la amplitud pico umbrprob, y pico_pos_fluc es mayor que un umbral de fluctuación de la posición pico umbrfluc, aumenta el recuento de tramas diana. En esta realización de esta aplicación, el umbral de confianza de la amplitud pico umbrprob puede establecerse en 0,1,0,2, 0,3 u otro valor empírico, y el umbral de fluctuación de la posición pico umbrfluc se puede establecer en 4, 5, 6 u otro valor empírico.
Debe entenderse que puede haber una pluralidad de maneras de aumentar el número de tramas diana.
Opcionalmente, en algunas realizaciones, el recuento de tramas diana puede aumentarse directamente en 1.
Opcionalmente, en algunas realizaciones, se puede controlar una cantidad de aumento del recuento de tramas diana en función de la relación señal-ruido segmentaria modificada y/o uno o más de un grupo de parámetros que representan un grado de estabilidad de una posición pico de un coeficiente de correlación cruzada entre diferentes canales.
Por ejemplo, si R1 á mssnr < R2, el recuento de tramas diana aumenta en 1; si R2 á mssnr < R3, el recuento de tramas diana aumenta en 2; o si R3 á mssnr á R4, el recuento de tramas diana aumenta en 3, donde R1 < R2 < R3 < R4.
Como otro ejemplo, si U1<pico_mag_prob<U2 y pico_pos_fluc>umbrfluc, el recuento de tramas diana aumenta en 1; si U2< pico_mag_prob<U3 y pico_pos_fluc>umbrfluc, el recuento de tramas diana aumenta en 2; o si U3ápico_mag_prob y pico_pos_fluc>umbrfluc, el recuento de tramas diana aumenta en 3. Aquí, U1 puede ser el umbral de confianza de la amplitud pico umbrprob, y U1<U2<U3.
630 a 634: determinar si la trama actual satisface una condición para reutilizar el valor de ITD de la trama anterior a la trama actual, y si la trama actual satisface la condición, usar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual y aumentar el número de tramas diana; o de lo contrario, omitir la reutilización del valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual y realizar el procesamiento en una trama siguiente.
Cabe señalar que si la trama actual satisface la condición para reutilizar el valor de ITD de la trama anterior a la trama actual no está específicamente limitado en esta realización de esta solicitud. La condición puede establecerse en función de uno o más factores, como la precisión del valor inicial de ITD, si el recuento de tramas diana alcanza el umbral y si la trama actual es una trama de voz continua.
Por ejemplo, si tanto un resultado de detección de activación por voz de la subtrama m-ésima de la trama actual y un resultado de detección de activación por voz de la trama anterior indican tramas de voz, siempre que el valor de ITD de la trama anterior no sea igual a 0, cuando el valor inicial de ITD de la trama actual sea igual a 0, el nivel de confianza del valor inicial de ITD de la trama actual es bajo (el nivel de confianza del valor inicial de ITD se puede identificar usando un valor de itd_cal_flag, por ejemplo, si itd_cal_flag no es igual a 1, el nivel de confianza del valor inicial de ITD es bajo, y para obtener detalles, remitirse a las descripciones de la etapa 612), y el recuento de tramas diana es menor que el umbral del recuento de tramas diana, el valor de ITD de la trama anterior a la trama actual se puede utilizar como el valor de ITD de la trama actual y el número de tramas diana aumenta.
Además, si tanto un resultado de detección de activación por voz de la trama actual como un resultado de detección de activación por voz de una subtrama m-ésima de la trama anterior a la trama actual indica tramas de voz, un bit indicador del resultado de detección de activación por voz pre_vad de la trama anterior puede actualizarse a un indicador de trama de voz, es decir, pre_vad es igual a 1; de lo contrario, un resultado de detección de activación por voz pre_vad de la trama anterior se actualiza a un indicador de trama de ruido de fondo, es decir, pre_vad es igual a 0.
Lo anterior describe en detalle una manera de calcular la relación señal-ruido segmentaria modificada con referencia a la etapa 604. Sin embargo, esta realización de esta solicitud no se limita a ello. A continuación se proporciona otra implementación de la relación señal-ruido segmentaria modificada.
Opcionalmente, en algunas realizaciones, la relación señal-ruido segmentaria modificada puede calcularse de la siguiente manera.
Etapa 1: Calcular un espectro de amplitud promedio SPDm,¡zqu¡erda (k) de la señal en el dominio frecuencial del canal izquierdo de la subtrama m-ésima y un espectro de amplitud promedio SPDm,derecha (k) de la señal en el dominio frecuencial del canal derecho de la subtrama m-ésima basada en la señal de dominio frecuencial del canal izquierdo Xm,¡zqu¡erda (k) de la subtrama m-ésima y la señal de dominio frecuencia del canal derecho Xm,derecha (k) de la subtrama m-ésima usando las fórmulas (18) y (19):
2
SPD m , izquierda ( k ) = ( r e a l { X m,izquierda ( k ) } f ( Í m a g { X mizquierda ( k )} )
(18)
Figure imgf000022_0001
donde k = 1,..., L / 2 - 1, y L es la longitud de una transformada rápida de Fourier, por ejemplo, L puede ser 400 u 800.
Etapa 2: Calcular los espectros de amplitud promedio SPD¡zquferda(k) y SPDderecha(k) de una señal de dominio frecuencial del canal izquierdo y una señal de dominio frecuencial del canal derecho de la trama actual basado en SPDm, ¡zqu¡erda (k) y SPDm,derecha(k) usando las fórmulas (20) y (21):
1 NUM SUBTR-1
S P D izquierda ( k ) £ SPD m,izquierda
NUM SUBTR m=0 (k ) (20a)
1 NÚM SUBTR-1
S P D derecha ( k ) £ SPD m , derecha ( k )
NÚM SUBTR m=0 (21a)
Alternativamente, las fórmulas pueden ser:
NÚM_SUBTR-1
S P D izquierda ( k ) S P D m,izquierda ( k )
m=0 (20b)
NÚM_SUBTR-1
S P O ^ , , ( k ) = X SPD m, derecha ( k )
m=0 (21b)
donde NÚM_SUBTR representa una cantidad de subtramas incluidas en una trama de audio.
Etapa 3: Calcular un espectro de amplitud promedio SPD(k) de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho de la trama actual basado en SPDizquierda (k) y SPDderecha (k) usando una fórmula (22):
SPD ( k ) = A * SPD, q u e d a ( k ) ( 1 - A) SPDde„ck, ( k )
(22)
donde A es un factor de relación de mezcla de espectro de amplitud del canal izquierdo/derecho preestablecido, y A puede ser 0,4, 0,5, 0,6 u otro valor empírico.
Etapa 4: Calcular la energía de subbanda E_banda(i) en función de SPD(k) usando una fórmula (23), donde i = 0,1,..., NÚM_BANDAS -1 , y NUM_BANDAS representa una cantidad de subbandas:
_____________ 1_____________ banda _ rb[i+1]-1
E_banda(i ) D (k )
banda _ rb [i 1 ]- banda _ rb [i ] k =ban X SP
da _ rb[i] (23)
donde banda_rb representa una tabla preestablecida utilizada para la división de subbandas, la banda_tb[i] representa una gama de frecuencias de límite inferior de una subbanda i-ésima, y la banda_tb[i+1]-1 representa una gama de frecuencias de límite superior de la subbanda i-ésima.
Etapa 5: Calcular la relación señal-ruido segmentaria modificada mssnr basada en E_banda (i) y una estimación de energía de ruido de subbanda E_banda_n (i). Específicamente, mssnr puede calcularse usando la implementación descrita en la fórmula (7) y la fórmula (8). Los detalles no se describen aquí de nuevo.
Etapa 6: Actualizar E_banda_n (i) en función de E_banda (i). Específicamente, E_banda_n (i) puede actualizarse usando la implementación descrita en la fórmula (9) a la fórmula (11). Los detalles no se describen aquí de nuevo.
Opcionalmente, en algunas otras realizaciones, la relación señal-ruido segmentaria modificada puede calcularse de la siguiente manera.
Etapa 1: Calcular un espectro de amplitud promedio SPDm, izquierda (k) de la señal en el dominio frecuencial del canal izquierdo de la subtrama m-ésima y un espectro de amplitud promedio SPDm.derecha(k) de la señal en el dominio frecuencial del canal derecho de la subtrama m-ésima basada en la señal de dominio frecuencial del canal izquierdo Xm,izquierda (k) de la subtrama m-ésima y la señal de dominio frecuencial del canal derecho Xm,derecha (k) de la subtrama m-ésima utilizando las fórmulas (24) y (25):
2
SPD m , izquierda ( k ) = ( r e a l { X m,izquierda ( k ) } f ( i m a g { X mizquierda ( k )} )
(24)
Figure imgf000023_0001
donde k = 1 ,..., L/2 - 1, y L es una longitud de la transformada rápida de Fourier, por ejemplo, L puede ser 400 u 800.
Etapa 2: Calcular un espectro de amplitud promedio SPDm(k) de la señal en el dominio de la frecuencia del canal izquierdo y la señal en el dominio frecuencial del canal derecho de la subtrama m-ésima basado en SPDm,izquierda( k) y SPDm,derecha(k) usando una fórmula (26):
S P D m ( k ) = A * S P D m ,izquierda ( k ) (1 - A ) S P D m ,derecha (k ) (26)
donde A es un factor de relación de mezcla de espectro de amplitud del canal izquierdo/derecho preestablecido, y A puede ser 0,4, 0,5, 0,6 u otro valor empírico.
Etapa 3: Calcular un espectro de amplitud promedio SPD(k) de una señal de dominio frecuencial del canal izquierdo y una señal de dominio frecuencial del canal derecho de la trama actual basado en SPDm(k) usando una fórmula (27).
Una forma de cálculo opcional es la siguiente:
1 NÚM_SUBTR-1
S P D ( k ) m ( k )
N Ú M _ S U B T R m X S P D
=0 (27al
Otra forma de cálculo opcional es la siguiente:
NÚM_SUBTR-1
S P D ( k ) = X S P D m ( k )
m=0 (27b)
Etapa 4: Calcular la energía de la subbanda E_banda(i) en función de SPD(k) usando una fórmula (28), donde i = 0, 1 NÚM_BANDAS -1, y NÚM_BANDAS es una cantidad de subbandas:
1 banda _ rb[i+1]-1
E_bandam (i )
banda _ rb [i + 1 ]- banda _ rb [i] k k= X SPDm (k )
=banda _ rb[i] (28)
donde banda_rb representa una tabla preestablecida utilizada para la división de subbandas, la banda_tb[i] representa una gama de frecuencias de límite inferior de una subbanda i-ésima, y la banda_tb[i+1] -1 representa una gama de frecuencias de límite superior de la subbanda i-ésima.
Etapa 5: Calcular la relación señal-ruido segmentaria modificada mssnr basada en E_bandam(i) y una estimación de energía de ruido de subbanda E_banda(i). Específicamente, mssnr puede calcularse usando la implementación descrita en la fórmula (7) y la fórmula (8). Los detalles no se describen aquí de nuevo.
Etapa 6: Actualizar E_banda_n (i) en función de E_banda (i). Específicamente, E_banda_n (i) puede actualizarse usando la implementación descrita en la fórmula (9) a la fórmula (11). Los detalles no se describen aquí de nuevo.
Opcionalmente, en algunas otras realizaciones, la relación señal-ruido segmentaria modificada puede calcularse de la siguiente manera.
Etapa 1: Calcular un espectro de amplitud promedio SPDm(k) de la señal en el dominio frecuencial del canal izquierdo y la señal en el dominio frecuencial del canal derecho de la subtrama m-ésima basada en la señal de dominio frecuencial del canal izquierdo Xm,izquierda (k) de la subtrama m-ésima y la señal de dominio frecuencial del canal derecho Xm,derecha (k) de la subtrama m-ésima usando una fórmula (29):
S P D m ( k ) = A * S P D m i ^ ( k ) (1 - A ) SPDm,derecha ( k )
donde
SPD m , izquierda ( k ) = ( real{ X m M uierda ( k )}) ( imag {
Figure imgf000024_0001
y
SPD mderecha ( k ) = (real{ X mM a (k )} )"+ (imag{ X m,i mcha (k }})2
donde k = 1, U2 -1; L es una longitud de la transformada rápida de Fourier, por ejemplo, L puede ser 400 u 800; y A es un factor de relación de mezcla de espectro de amplitud del canal izquierdo/derecho preestablecido, y A puede ser 0,4, 0,5, 0,6 u otro valor empírico.
Etapa 2: Calcular la energía de la subbanda E_bandam(i) de la subtrama m-ésima en función de SPDm(k) usando una fórmula (30), donde i = 0, 1 NÚM_BANDAS -1, y Nú M_BANDAS es una cantidad de subbandas:
Figure imgf000025_0001
donde banda_rb representa una tabla preestablecida utilizada para la división de subbandas, la banda_tb[i] representa una gama de frecuencias de límite inferior de una subbanda i-ésima, y la banda_tb[i+1]-1 representa una gama de frecuencias de límite superior de la subbanda i-ésima.
Etapa 3: Calcular la energía de subbanda E_banda(i) de la trama actual en función de la energía de subbanda E_bandam(i) de la subtrama m-ésima usando una fórmula (31):
1 NÚM_SUBTR—1
E_banda(i ) Z E—banda m (i)
NÚM_SUBTR m=0 (31a)
Alternativamente, la fórmula puede ser:
NÚM_SUBTR—1
E_banda (i )= Z E_bandam (i )
m=0 (31b)
Etapa 4: Calcular la relación señal-ruido segmentaria modificada mssnr basada en E_banda(i) y una estimación de energía de ruido de subbanda E_banda_n(i). Específicamente, mssnr puede calcularse usando la implementación descrita en la fórmula (7) y la fórmula (8).
Los detalles no se describen aquí de nuevo.
Etapa 5: actualizar E_banda_n (i) en función de E_banda (i). Específicamente, E_banda_n (i) puede actualizarse usando la implementación descrita en la fórmula (9) a la fórmula (11). Los detalles no se describen aquí de nuevo.
Lo anterior describe en detalle una implementación de la detección de activación por voz con referencia a la etapa 605. Sin embargo, esta realización de esta solicitud no se limita a ello. Lo siguiente proporciona otra implementación de la detección de activación por voz.
Específicamente, si la relación señal-ruido segmentaria modificada es mayor que un umbral de detección de activación por voz umbrvAD, la subtrama actual es una trama de voz, y se pone 1 un indicador de detección de activación por voz vad_flag de la trama actual; de lo contrario, la trama actual es una trama de ruido de fondo, y se pone a 0 un indicador de detección de activación por voz vad_flag de la trama actual. El umbral de detección de activación por voz umbrvAD suele ser un valor empírico, y aquí puede ser 3500, 4000, 4500 o similar.
En consecuencia, la implementación de las etapas 630 a 634 puede modificarse a la siguiente implementación:
Cuando tanto un resultado de detección de activación por voz de la trama actual como un resultado de detección de activación por voz pre_vad de la trama anterior indican tramas de voz, si el valor de ITD de la trama anterior no es igual a 0, el valor inicial de ITD de la trama actual es igual a 0, el nivel de confianza del valor inicial de ITD de la trama actual es bajo (el nivel de confianza del valor inicial de ITD puede identificarse usando un valor de itd_cal_flag, por ejemplo, si itd_cal_flag no es igual a 1, el nivel de confianza del valor inicial de ITD es bajo, y para obtener más detalles, consulte las descripciones de la etapa 612), y el recuento de tramas diana es menor que el umbral del recuento de tramas diana, el valor de ITD de la trama anterior se utiliza como valor de ITD de la trama actual y se aumenta el número de tramas diana.
Si un resultado de detección de activación por voz de la trama actual indica una trama de voz, un resultado de detección de activación por voz anterior a la trama anterior se actualiza a un indicador de trama de voz, es decir, pre_vad es igual a 1; de lo contrario, un resultado de detección de activación por voz pre_vad de la trama anterior se actualiza a un indicador de trama de ruido de fondo, es decir, pre_vad es igual a 0.
Con referencia a las etapas 626 a 628, lo anterior describe en detalle una manera de ajustar o controlar la cantidad de tramas diana que se permite que aparezcan consecutivamente. Sin embargo, esta realización de esta solicitud no se limita a ello. Lo siguiente proporciona otra manera de ajustar o controlar la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Opcionalmente, en algunas realizaciones, primero, se determina si el grado de estabilidad de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho satisface una condición preestablecida; y si el grado de estabilidad satisface la condición preestablecida, se reduce el umbral del recuento de tramas diana. En otras palabras, en esta realización de esta aplicación, se reduce la cantidad de tramas diana que se permite que aparezcan consecutivamente al disminuir el umbral del recuento de tramas diana.
Cabe señalar que puede haber una pluralidad de maneras de determinar si el grado de estabilidad de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho satisface la condición preestablecida. Esto no está limitado específicamente en esta realización de esta solicitud. Por ejemplo, la condición preestablecida puede ser que el parámetro de confianza de amplitud pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho sea mayor que un umbral de confianza de la amplitud pico preestablecido, y que el parámetro de fluctuación de la posición es mayor que un umbral de fluctuación de la posición pico preestablecido, donde el umbral de confianza de la amplitud pico pueda ser 0,1, 0,2, 0,3 u otro valor empírico, y que el umbral de fluctuación de la posición pico pueda ser 4, 5, 6 u otro valor empírico .
Cabe señalar que puede haber una pluralidad de formas de disminuir el umbral del recuento de tramas diana. Esto no está limitado específicamente en esta realización de esta solicitud.
Opcionalmente, en algunas realizaciones, el umbral del recuento de tramas diana puede reducirse directamente en 1.
Opcionalmente, en algunas otras realizaciones, se puede controlar una cantidad de disminución del umbral del recuento de tramas diana en función de la relación señal-ruido segmentaria modificada y uno o más del grupo de parámetros que representan el grado de estabilidad de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho.
Por ejemplo, si R1 < mssnr < R2, el umbral del recuento de tramas diana puede reducirse en 1; si R2 < mssnr< R3, el umbral del recuento de tramas diana puede reducirse en 2; o si R3 < mssnr < R4, el umbral del recuento de tramas diana puede reducirse en 3, donde R1, R2, R3 y R4 satisfacen R1 < R2 < R3 < R4.
Como otro ejemplo, si U1<pico_mag_prob<U2 y pico_pos_fluc>umbrfluc, el umbral del recuento de tramas diana puede reducirse en 1; si U2<pico_mag_prob<U3 y pico_pos_fluc>umbrfluc, el umbral del recuento de tramas diana puede reducirse en 2; o si U3<pico_mag_prob y pico_pos_fluc>umbrfluc, el umbral del recuento de tramas diana puede reducirse en 3, donde U1, U2, y U3 puede satisfacer U1<U2<U3, y U1 puede ser el umbral de confianza de la amplitud pico umbrprob descrito anteriormente.
Con referencia a la etapa 624, lo anterior describe en detalle una manera de calcular el parámetro que representa el grado de estabilidad de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho. En la etapa 624, el parámetro que representa el grado de estabilidad de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho incluye principalmente dos parámetros: el parámetro de confianza de la amplitud pico pico_mag_prob y el parámetro de fluctuación de la posición pico pico_pos_fluc. Sin embargo, esta realización de esta solicitud no se limita a ello.
Opcionalmente, en algunas realizaciones, el parámetro que representa el grado de estabilidad de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho puede incluir solo pico_pos_fluc. En consecuencia, la etapa 626 puede modificarse para: Si pico_pos_fluc es mayor que el umbral de fluctuación de la posición pico umbrfluc, aumentar el recuento de tramas diana.
Opcionalmente, en algunas otras realizaciones, un parámetro que representa un grado de estabilidad de una posición pico de un coeficiente de correlación cruzada entre diferentes canales puede ser un parámetro de estabilidad de la posición pico pico_estable obtenido después de realizar una operación lineal y/o no lineal en pico_mag_prob y pico_pos_fluc.
Por ejemplo, una relación entre pico_estable, pico_mag_prob y pico_pos_fluc puede representarse usando una fórmula (32):
pico_estable = pico_mag_prob/ (pico_pos_fluc)P
(32)
Como otro ejemplo, una relación entre pico_estable, pico_mag_prob y pico_pos_fluc puede representarse usando una fórmula (33):
pico_estable = factor_dif [ pico_pos_fluc] * pico_mag_prob
(33)
donde factor_dif representa una secuencia de factores de diferencia preestablecidos de valores de ITD de tramas adyacentes; factor_dif puede incluir factores de diferencia que son valores de ITD de tramas adyacentes y que se corresponden con todos los valores posibles de pico_pos_fluc; factor_dif puede establecerse en función de la experiencia o puede obtenerse mediante la capacitación basada en datos masivos; y P puede representar un exponente de impacto de fluctuación de la posición pico del coeficiente de correlación cruzada de la señal de dominio frecuencial del canal izquierdo y la señal de dominio frecuencial del canal derecho, y P puede ser un número entero positivo mayor o igual a 1, por ejemplo , P puede ser 1,2, 3 u otro valor empírico.
En consecuencia, la etapa 626 puede modificarse para: Si pico_estable es mayor que un umbral de estabilidad de posición pico preestablecido, aumentar el recuento de tramas diana. Aquí, el umbral de estabilidad de la posición pico preestablecido puede ser un número real positivo mayor o igual que 0, o puede ser otro valor empírico.
Además, en algunas realizaciones, se puede realizar un procesamiento de aplanamiento en pico_estable, para obtener un parámetro de estabilidad de la posición pico aplanada lt_pico_estable, y la determinación subsiguiente se realiza en función de lt_pico_estable.
Específicamente, lt_pico_estable se puede calcular usando una fórmula (34):
lt_pico_estable = (1 - alfa) * lt_pico_estable alfa * pico_estable
(34)
donde alfa representa un factor de aplanamiento a largo plazo y, por lo general, puede ser un número real positivo mayor o igual a 0 y menor o igual a 1, por ejemplo, alfa puede ser 0,4, 0,5, 0,6 u otro valor empírico.
De manera correspondiente, la etapa 626 puede modificarse para: Si lt_pico_estable es mayor que un umbral de estabilidad de la posición pico preestablecido, aumentar el recuento de tramas diana. Aquí, el umbral de estabilidad de la posición pico preestablecido puede ser un número real positivo mayor o igual que 0, o puede ser otro valor empírico.
A continuación, se describen realizaciones de un aparato de esta solicitud. Las realizaciones de un aparato pueden usarse para realizar los métodos anteriores. Por lo tanto, para una parte no descrita en detalle, remitirse a las realizaciones de los métodos anteriores.
La FIG. 7 es un diagrama esquemático de bloques de un codificador según una realización de esta solicitud. El codificador 700 en la FIG. 7 incluye:
una unidad 710 de obtención, configurada para obtener una señal multicanal de una trama actual;
una primera unidad 720 de determinación, configurada para determinar un valor inicial de ITD de la trama actual;
una unidad 730 de control, configurada para controlar, en función de la información característica de la señal multicanal, una cantidad de tramas diana que se permite que aparezcan consecutivamente, donde la información característica incluye al menos uno de los parámetros de relación señal-ruido de la señal multicanal y una característica pico de los coeficientes de correlación cruzada de la señal multicanal, y se reutiliza un valor de ITD de una trama anterior a la trama diana como un valor de ITD de la trama diana;
una segunda 740 unidad de determinación, configurada para determinar un valor de ITD de la trama actual en función del valor inicial de ITD de la trama actual y la cantidad de tramas diana que se permite que aparezcan consecutivamente; y
una unidad 750 de codificación, configurada para codificar la señal multicanal en función del valor de ITD de la trama actual.
Según esta realización de esta solicitud, se puede reducir el impacto de los factores ambientales, tales como el ruido de fondo, la reverberación y la participación de múltiples intervinientes, sobre la precisión y estabilidad de un resultado de cálculo de un valor de ITD; y cuando hay ruido de fondo, reverberación o la participación de múltiples intervinientes, o una característica armónica de la señal no es evidente, se mejora la estabilidad de un valor de ITD en la codificación PS y se reducen al máximo las transiciones innecesarias del valor de ITD, evitando así la discontinuidad entre tramas de una señal mezclada a la baja y la inestabilidad de una imagen acústica de una señal descodificada. Además, según esta realización de esta solicitud, la información de fase de una señal estéreo se puede retener mejor y se mejora la calidad acústica.
Opcionalmente, en algunas realizaciones, el codificador 700 incluye, además: una tercera unidad de determinación, configurada para determinar la característica pico de los coeficientes de correlación cruzada de la señal multicanal en función de la amplitud de un valor pico de los coeficientes de correlación cruzada de la señal multicanal y un índice de una posición pico de los coeficientes de correlación cruzada de la señal multicanal.
Opcionalmente, en algunas realizaciones, la tercera unidad de determinación está configurada específicamente para: determinar un parámetro de confianza de la amplitud pico en función de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal, donde el parámetro de confianza de la amplitud pico representa un nivel de confianza de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal; determinar un parámetro de fluctuación de la posición pico en función de un valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal, y un valor de ITD de una trama anterior a la trama actual, donde el parámetro de fluctuación de la posición pico representa una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de ITD de la trama anterior a la trama actual; y determinar la característica pico de los coeficientes de correlación cruzada de la señal multicanal en función del parámetro de confianza de la amplitud pico y el parámetro de fluctuación de la posición pico.
Opcionalmente, en algunas realizaciones, la tercera unidad de determinación está configurada específicamente para determinar, como parámetro de confianza de la amplitud pico, una relación de una diferencia entre un valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal y un valor de amplitud de un segundo valor más grande de los coeficientes de correlación cruzada de la señal multicanal con el valor de amplitud del valor pico.
Opcionalmente, en algunas realizaciones, la tercera unidad de determinación está configurada específicamente para determinar, como parámetro de fluctuación de la posición pico, un valor absoluto de una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de ITD de la trama anterior a la trama actual.
Opcionalmente, en algunas realizaciones, la unidad 730 de control está configurada específicamente para: controlar, en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente; y cuando la característica pico de los coeficientes de correlación cruzada de la señal multicanal satisface una condición preestablecida, reducir, ajustando al menos uno de un recuento de tramas diana y un umbral del recuento de tramas diana, la cantidad de tramas diana que se permite que aparezcan consecutivamente, donde el recuento de tramas diana se utiliza para representar una cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Opcionalmente, en algunas realizaciones, la unidad 730 de control está configurada específicamente para reducir, aumentando el número de tramas diana, la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Opcionalmente, en algunas realizaciones, la unidad 730 de control está configurada específicamente para reducir, disminuyendo el umbral del recuento de tramas diana, la cantidad de tramas diana que se permite que aparezcan consecutivamente.
En algunas realizaciones, la unidad 730 de control está configurada específicamente para: cuando el parámetro de relación señal-ruido de la señal multicanal no satisface una condición preestablecida de relación señal-ruido, controlar, en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente; y el codificador 700 incluye, además: una unidad de detención, configurada para: cuando una relación señal-ruido de la señal multicanal satisface la condición de relación señal-ruido, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual.
En algunas realizaciones, la unidad 730 de control está configurada específicamente para: determinar si el parámetro de relación señal-ruido de la señal multicanal satisface una condición preestablecida de relación señal-ruido; y cuando el parámetro de relación señal-ruido de la señal multicanal no satisface la condición de relación señal-ruido, controlar, en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente; o cuando una relación señal-ruido de la señal multicanal satisface la condición de relación señal-ruido, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual.
Opcionalmente, en algunas realizaciones, la unidad de detención está configurada específicamente para aumentar el recuento de tramas diana, de modo que un valor del recuento de tramas diana sea mayor o igual que el umbral del recuento de tramas diana, donde el recuento de tramas diana se utiliza para representan la cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que se permite que aparezcan de forma consecutiva.
Opcionalmente, en algunas realizaciones, la segunda unidad 740 de determinación está configurada específicamente para determinar el valor de ITD de la trama actual en función del valor inicial de ITD de la trama actual, el recuento de tramas diana y el umbral del recuento de tramas diana, donde el recuento de tramas diana se utiliza para representar la cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que se permite que aparezcan de forma consecutiva.
Opcionalmente, en algunas realizaciones, el parámetro de relación señal-ruido es una relación señal-ruido segmentaria modificada de la señal multicanal.
La FIG. 8 es un diagrama esquemático de bloques de un codificador según un ejemplo que no comprende todas las características necesarias para implementar esta aplicación. El codificador 800 de la FIG. 8 incluye:
una memoria 810, configurada para almacenar un programa; y
un procesador 820, configurado para ejecutar el programa, en el que cuando se ejecuta el programa, el procesador 820 está configurado para: obtener una señal multicanal de una trama actual; determinar un valor inicial de ITD de la trama actual; controlar, en función de la información característica de la señal multicanal, una cantidad de tramas diana que se permite que aparezcan consecutivamente, donde la información característica incluye al menos uno de los parámetros de relación señal-ruido de la señal multicanal y la característica pico de los coeficientes de correlación cruzada de la señal multicanal, y un valor de ITD de la trama anterior a la trama diana se reutiliza como un valor de ITD de la trama diana; determinar un valor de ITD de la trama actual en función del valor inicial de ITD de la trama actual y la cantidad de tramas diana que se permite que aparezcan consecutivamente; y codificar la señal multicanal en función del valor de ITD de la trama actual.
Según esta realización de esta solicitud, se puede reducir el impacto de los factores ambientales, tales como el ruido de fondo, la reverberación y la participación de múltiples intervinientes, sobre la precisión y estabilidad de un resultado de cálculo de un valor de ITD; y cuando hay ruido de fondo, reverberación o la participación de múltiples intervinientes, o una característica armónica de la señal no es evidente, se mejora la estabilidad de un valor de ITD en la codificación PS y se reducen al máximo las transiciones innecesarias del valor de ITD, evitando, así, la discontinuidad entre tramas de una señal mezclada a la baja y la inestabilidad de una imagen acústica de una señal descodificada. Además, según esta realización de esta solicitud, la información de fase de una señal estéreo se puede retener mejor y se mejora la calidad acústica.
Opcionalmente, en algunas realizaciones, el codificador 800 está configurado, además, para determinar la característica pico de los coeficientes de correlación cruzada de la señal multicanal en función de la amplitud de un valor pico de los coeficientes de correlación cruzada de la señal multicanal y un índice de una posición pico de los coeficientes de correlación cruzada de la señal multicanal.
Opcionalmente, en algunas realizaciones, el codificador 800 está configurado específicamente para: determinar un parámetro de confianza de la amplitud pico en función de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal, donde el parámetro de confianza de la amplitud pico representa un nivel de confianza de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal; determinar un parámetro de fluctuación de posición pico en función de un valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal, y un valor de ITD de una trama anterior a la trama actual, donde el parámetro de fluctuación de la posición pico representa una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal multicanal y el valor de ITD de la trama anterior a la trama actual; y determinar la característica pico de los coeficientes de correlación cruzada de la señal multicanal en función del parámetro de confianza de la amplitud pico y el parámetro de fluctuación de la posición pico.
Opcionalmente, en algunas realizaciones, el codificador 800 está específicamente configurado para determinar, como parámetro de confianza de la amplitud pico, una relación de diferencia entre un valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal multicanal y un valor de amplitud de un segundo valor más grande de los coeficientes de correlación cruzada de la señal multicanal al valor de amplitud del valor pico.
Opcionalmente, en algunas realizaciones, el codificador 800 está específicamente configurado para determinar, como parámetro de fluctuación de la posición pico, un valor absoluto de una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada del multicanal señal y el valor de ITD de la trama anterior a la trama actual.
Opcionalmente, en algunas realizaciones, el codificador 800 está configurado específicamente para: controlar, en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente; y cuando la característica pico de los coeficientes de correlación cruzada de la señal multicanal satisface una condición preestablecida, reducir, ajustando al menos uno de un recuento de tramas diana y un umbral del recuento de tramas diana, la cantidad de tramas diana que se permite que aparezcan consecutivamente, donde el recuento de tramas diana se utiliza para representar una cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Opcionalmente, en algunas realizaciones, el codificador 800 está específicamente configurado para reducir, aumentando el número de tramas diana, la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Opcionalmente, en algunas realizaciones, el codificador 800 está específicamente configurado para reducir, disminuyendo el umbral del recuento de tramas diana, la cantidad de tramas diana que se permite que aparezcan consecutivamente.
Opcionalmente, en algunas realizaciones, el codificador 800 está configurado específicamente para: solo cuando el parámetro de relación señal-ruido de la señal multicanal no satisface una condición preestablecida de relación señalruido, controlar, en función de la información característica de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente; y el codificador 800 está configurado, además, para: cuando una relación señal-ruido de la señal multicanal satisface la condición de relación señal-ruido, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual.
Opcionalmente, en algunas realizaciones, el codificador 800 está configurado específicamente para: determinar si el parámetro de relación señal-ruido de la señal multicanal satisface una condición preestablecida de relación señalruido; y cuando el parámetro de relación señal-ruido de la señal multicanal no satisface la condición de relación señalruido, controlar, en función de la característica pico de los coeficientes de correlación cruzada de la señal multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente; o cuando una relación señal-ruido de la señal multicanal satisface la condición de relación señal-ruido, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual.
Opcionalmente, en algunas realizaciones, el codificador 800 está específicamente configurado para aumentar el recuento de tramas diana, de modo que un valor del recuento de tramas diana sea mayor o igual que el umbral del recuento de tramas diana, donde el recuento de tramas diana se utiliza para representan la cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que se permite que aparezcan de forma consecutiva.
Opcionalmente, en algunas realizaciones, el codificador 800 está configurado específicamente para determinar el valor de ITD de la trama actual en función del valor inicial de ITD de la trama actual, el recuento de tramas diana y el umbral del recuento de tramas diana, donde el recuento de tramas diana se utiliza para representar la cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que se permite que aparezcan de forma consecutiva.
Opcionalmente, en algunas realizaciones, el parámetro de relación señal-ruido es una relación señal-ruido segmentaria modificada de la señal multicanal.
Una persona con un dominio normal de la técnica puede saber que, con referencia a los ejemplos descritos en las realizaciones divulgadas en esta memoria descriptiva, las unidades y las etapas de algoritmo pueden implementarse mediante soporte físico electrónico o una combinación de soporte lógico informático y de soporte físico electrónico. Que las funciones sean realizadas por soporte físico o soporte lógico depende de las aplicaciones particulares y de las condiciones de restricción de diseño de las soluciones técnicas. Una persona experta en la técnica puede utilizar diferentes métodos para implementar las funciones descritas para cada aplicación en particular, pero no debe considerarse que la implementación vaya más allá del alcance de esta solicitud.
Una persona experta en la técnica puede entender claramente que, en aras de la conveniencia y la brevedad de la descripción, para un proceso de trabajo detallado del sistema, el aparato y la unidad anteriores, conviene remitirse a un proceso correspondiente en las realizaciones de los métodos anteriores, y aquí no vuelven a describirse los detalles.
En las varias realizaciones proporcionadas en esta solicitud, debe entenderse que el sistema, el aparato y el método descritos pueden implementarse de otras maneras. Por ejemplo, las realizaciones de aparatos descritas son simplemente ejemplos. Por ejemplo, la división de unidades es simplemente una división de función lógica y puede ser otra división en la implementación real. Por ejemplo, una pluralidad de unidades o componentes pueden combinarse o integrarse en otro sistema, o algunas funciones pueden ignorarse o no ejecutarse. Además, los acoplamientos mutuos o los acoplamientos o las conexiones de comunicación directos mostrados o discutidos pueden implementarse utilizando algunas interfaces. Los acoplamientos o conexiones de comunicación indirectos entre los aparatos o unidades pueden implementarse en formas eléctricas, mecánicas o de otro tipo.
Las unidades descritas como partes separadas pueden o no estar físicamente separadas, y las partes mostradas como unidades pueden o no ser unidades físicas; pueden estar ubicadas en una posición o pueden estar distribuidas en una pluralidad de unidades de red. Algunas o todas las unidades pueden seleccionarse dependiendo de los requisitos reales para lograr los objetivos de las soluciones de las realizaciones.
Además, las unidades funcionales en las realizaciones de esta solicitud pueden integrarse en una unidad de procesamiento, o cada una de las unidades puede existir sola físicamente, o dos o más unidades pueden integrarse en una unidad.
Cuando las funciones se implementan en forma de una unidad funcional de soporte lógico y se venden o utilizan como un producto independiente, las funciones pueden almacenarse en un medio de almacenamiento legible por ordenador. En función de tal interpretación, las soluciones técnicas de esta aplicación esencialmente, o la parte que contribuye a la técnica anterior, o algunas de las soluciones técnicas pueden implementarse en forma de un producto de soporte lógico. El producto de soporte lógico informático se almacena en un medio de almacenamiento e incluye varias instrucciones para indicar a un dispositivo informático (que puede ser un ordenador personal, un servidor, un dispositivo de red o similares) que realice todas o algunas de las etapas de los métodos descritos en las realizaciones de esta solicitud. El medio de almacenamiento incluye cualquier medio que pueda almacenar código de programa, tal como una unidad flash USB, un disco duro extraíble, una memoria de solo lectura (ROM), una memoria de acceso aleatorio (RAM), un disco magnético o un disco óptico.

Claims (12)

REIVINDICACIONES
1. Un método para codificar una señal de audio multicanal, que comprende:
obtener (510) una señal de audio multicanal de una trama actual;
determinar (520) un valor inicial de diferencia de tiempo entre canales, ITD, de la trama actual;
controlar (530), en función de la información característica de la señal de audio multicanal, una cantidad de tramas diana que pueden aparecer consecutivamente, en donde la información característica comprende una relación señalruido de la señal de audio multicanal y una característica pico de los coeficientes de correlación cruzada de la señal de audio multicanal, y en donde una trama cuyo valor de ITD reutiliza un valor de ITD de una trama anterior es denominada trama diana;
determinar (540) un valor final de ITD de la trama actual en función del valor de ITD inicial de la trama actual y la cantidad de tramas diana que pueden aparecer consecutivamente; y
codificar (550) la señal de audio multicanal en función del valor final de ITD de la trama actual;
en donde en el control (530), en función de la información característica de la señal de audio multicanal, una cantidad de tramas diana que se permite que aparezcan consecutivamente comprende:
solo cuando la relación señal-ruido de la señal de audio multicanal no satisface una condición preestablecida de relación señal-ruido, controlar, en función de la característica pico de los coeficientes de correlación cruzada de la señal de audio multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente; y cuando la característica pico de los coeficientes de correlación cruzada de la señal de audio multicanal satisface una condición preestablecida, reducir, ajustando al menos uno de un recuento de tramas diana y un umbral del recuento de tramas diana, la cantidad de tramas diana a las que se permite que aparezcan consecutivamente, en donde el recuento de tramas diana se utiliza para representar una cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana a las que se permite que aparezcan consecutivamente; y
cuando la relación señal-ruido de la señal de audio multicanal satisface la condición de relación señal-ruido, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual;
en donde la determinación de un valor de ITD de la trama actual en función del valor de ITD inicial de la trama actual y la cantidad de tramas diana a las que se permite que aparezcan consecutivamente comprende:
determinar el valor de ITD de la trama actual en función del valor de ITD inicial de la trama actual, el recuento de tramas diana y el umbral del recuento de tramas diana.
2. El método según la reivindicación 1, en donde antes del control (530), en función de la información característica de la señal de audio multicanal, una cantidad de tramas diana a las que se permite que aparezcan consecutivamente, el método comprende, además:
determinar la característica pico de los coeficientes de correlación cruzada de la señal de audio multicanal en función de la amplitud de un valor pico de los coeficientes de correlación cruzada de la señal de audio multicanal y un índice de una posición pico de los coeficientes de correlación cruzada de la señal de audio multicanal.
3. El método según la reivindicación 2, en donde la determinación de la característica pico de los coeficientes de correlación cruzada de la señal de audio multicanal en función de la amplitud de un valor pico de los coeficientes de correlación cruzada de la señal de audio multicanal y un índice de una posición pico de los coeficientes de correlación cruzada de la señal de audio multicanal comprende:
determinar un parámetro de confianza de la amplitud pico en función de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal de audio multicanal, en donde el parámetro de confianza de la amplitud pico representa un nivel de confianza de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal de audio multicanal;
determinar un parámetro de fluctuación de la posición pico en función de un valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal de audio multicanal, y un valor de ITD de una trama anterior a la trama actual, en donde la fluctuación de la posición pico el parámetro representa una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal de audio multicanal y el valor de ITD de la trama anterior a la trama actual; y
determinar la característica pico de los coeficientes de correlación cruzada de la señal de audio multicanal en función del parámetro de confianza de la amplitud pico y el parámetro de fluctuación de posición pico.
4. El método según la reivindicación 3, en donde la determinación de un parámetro de confianza de la amplitud pico en función de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal de audio multicanal comprende:
determinar, como parámetro de confianza de la amplitud pico, una relación de la diferencia entre un valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal de audio multicanal y un valor de amplitud del segundo valor mayor de los coeficientes de correlación cruzada de la señal de audio multicanal con respecto al valor de amplitud del valor pico.
5. El método según la reivindicación 3 o 4, en donde la determinación de un parámetro de fluctuación de la posición pico en función de un valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal de audio multicanal, y un valor de ITD de una trama anterior a la trama actual comprende:
determinar, como parámetro de fluctuación de la posición pico, un valor absoluto de una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal de audio multicanal y el valor de ITD de la trama anterior a la trama actual.
6. El método según una cualquiera de las reivindicaciones 1 a 5, en donde dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual comprende:
aumentar el recuento de tramas diana, de modo que el valor del recuento de tramas diana sea mayor de o igual al umbral del recuento de tramas diana, en donde el recuento de tramas diana se utiliza para representar la cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que se permite que aparezcan consecutivamente.
7. Un codificador (700), que comprende:
una unidad (710) de obtención, configurada para obtener una señal de audio multicanal de la trama actual;
una primera unidad (720) de determinación, configurada para determinar un valor inicial de diferencia de tiempo entre canales, ITD, de la trama actual;
una unidad (730) de control, configurada para controlar, en función de la información característica de la señal de audio multicanal, una cantidad de tramas diana que se permite que aparezcan consecutivamente, en donde la información característica comprende una relación señal-ruido de la señal de audio multicanal y una característica pico de los coeficientes de correlación cruzada de la señal de audio multicanal, y en donde una trama cuyo valor de ITD reutiliza un valor de ITD de una trama anterior se denomina trama diana;
una segunda unidad (740) de determinación, configurada para determinar un valor final de ITD de la trama actual en función en el valor de ITD inicial de la trama actual y la cantidad de tramas diana que se permite que aparezcan consecutivamente; y
una unidad (750) de codificación, configurada para codificar la señal de audio multicanal en función del valor final de ITD de la trama actual;
en donde la unidad (730) de control está configurada, además, para: solo cuando la relación señal-ruido de la señal de audio multicanal no satisface una condición preestablecida de relación señal-ruido, controlar, en función de la característica pico de los coeficientes de correlación cruzada de la señal de audio multicanal, la cantidad de tramas diana que se permite que aparezcan consecutivamente; y cuando la característica pico de los coeficientes de correlación cruzada de la señal de audio multicanal satisface una condición preestablecida, reducir, ajustando al menos uno de un recuento de tramas diana y un umbral del recuento de tramas diana, la cantidad de tramas diana que se permite que aparezcan consecutivamente, en donde el recuento de tramas diana se utiliza para representar una cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que pueden aparecer consecutivamente; y
una unidad de detención, configurada para: cuando una relación señal-ruido de la señal de audio multicanal satisface la condición de relación señal-ruido, dejar de reutilizar el valor de ITD de la trama anterior a la trama actual como el valor de ITD de la trama actual;
en donde la segunda unidad de determinación está configurada específicamente para determinar el valor de ITD de la trama actual en función del valor inicial de ITD de la trama actual, del recuento de tramas diana y del umbral del recuento de tramas diana.
8. El codificador (700) según la reivindicación 7, en donde el codificador comprende, además:
una tercera unidad de determinación, configurada para determinar la característica pico de los coeficientes de correlación cruzada de la señal de audio multicanal en función de la amplitud de un valor pico de los coeficientes de correlación cruzada de la señal de audio multicanal y un índice de una posición pico de los coeficientes de correlación cruzada de la señal de audio multicanal.
9. El codificador (700) según la reivindicación 8, en donde la tercera unidad de determinación está configurada específicamente para: determinar un parámetro de confianza de la amplitud pico en función de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal de audio multicanal, en donde el parámetro de confianza de la amplitud pico representa un nivel de confianza de la amplitud del valor pico de los coeficientes de correlación cruzada de la señal de audio multicanal; determinar un parámetro de fluctuación de la posición pico en función de un valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal de audio multicanal, y un valor de ITD de una trama anterior a la trama actual, en donde la fluctuación de la posición pico el parámetro representa una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal de audio multicanal y el valor de ITD de la trama anterior a la trama actual; y determinar la característica pico de los coeficientes de correlación cruzada de la señal de audio multicanal en función del parámetro de confianza de la amplitud pico y el parámetro de fluctuación de posición pico.
10. El codificador (700) según la reivindicación 9, en donde la tercera unidad de determinación está configurada específicamente para determinar, como parámetro de confianza de la amplitud pico, una relación de una diferencia entre un valor de amplitud del valor pico de los coeficientes de correlación cruzada de la señal de audio multicanal y un valor de amplitud de un segundo valor mayor de los coeficientes de correlación cruzada de la señal de audio multicanal con respecto al valor de amplitud del valor pico.
11. El codificador (700) según la reivindicación 9 o 10, en donde la tercera unidad de determinación está configurada específicamente para determinar, como parámetro de fluctuación de la posición pico, un valor absoluto de una diferencia entre el valor de ITD correspondiente al índice de la posición pico de los coeficientes de correlación cruzada de la señal de audio multicanal y el valor de ITD de la trama anterior a la trama actual.
12. El codificador (700) según una cualquiera de las reivindicaciones 7 a 11, en donde la unidad de detención está configurada específicamente para aumentar el recuento de tramas diana, de modo que un valor del recuento de tramas diana sea mayor de o igual al umbral del recuento de tramas diana, en donde el recuento de tramas diana se utiliza para representar la cantidad de tramas diana que han aparecido actualmente de forma consecutiva, y el umbral del recuento de tramas diana se utiliza para indicar la cantidad de tramas diana que se permite que aparezcan de forma consecutiva.
ES17838307T 2016-08-10 2017-02-22 Método de codificación de señal multicanal y codificador Active ES2928215T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201610652507.4A CN107742521B (zh) 2016-08-10 2016-08-10 多声道信号的编码方法和编码器
PCT/CN2017/074425 WO2018028171A1 (zh) 2016-08-10 2017-02-22 多声道信号的编码方法和编码器

Publications (1)

Publication Number Publication Date
ES2928215T3 true ES2928215T3 (es) 2022-11-16

Family

ID=61161755

Family Applications (1)

Application Number Title Priority Date Filing Date
ES17838307T Active ES2928215T3 (es) 2016-08-10 2017-02-22 Método de codificación de señal multicanal y codificador

Country Status (11)

Country Link
US (4) US10643625B2 (es)
EP (2) EP3486904B1 (es)
JP (3) JP6841900B2 (es)
KR (4) KR102281668B1 (es)
CN (1) CN107742521B (es)
AU (1) AU2017310760B2 (es)
BR (1) BR112019002364A2 (es)
CA (1) CA3033458C (es)
ES (1) ES2928215T3 (es)
RU (1) RU2718231C1 (es)
WO (1) WO2018028171A1 (es)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11575987B2 (en) * 2017-05-30 2023-02-07 Northeastern University Underwater ultrasonic communication system and method
RU2762302C1 (ru) * 2018-04-05 2021-12-17 Фраунхофер-Гезелльшафт Цур Фердерунг Дер Ангевандтен Форшунг Е.Ф. Устройство, способ или компьютерная программа для оценки разности во времени между каналами
CN110556116B (zh) 2018-05-31 2021-10-22 华为技术有限公司 计算下混信号和残差信号的方法和装置
SG11202007627RA (en) 2018-10-08 2020-09-29 Dolby Laboratories Licensing Corp Transforming audio signals captured in different formats into a reduced number of formats for simplifying encoding and decoding operations
CN110058836B (zh) * 2019-03-18 2020-11-06 维沃移动通信有限公司 一种音频信号的输出方法及终端设备
KR20210072388A (ko) 2019-12-09 2021-06-17 삼성전자주식회사 오디오 출력 장치 및 오디오 출력 장치의 제어 방법
KR20230049660A (ko) * 2020-07-30 2023-04-13 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 오디오 신호를 인코딩하거나 인코딩된 오디오 장면을 디코딩하기 위한 장치, 방법 및 컴퓨터 프로그램
AU2021451130A1 (en) 2021-06-15 2023-11-16 Telefonaktiebolaget Lm Ericsson (Publ) Improved stability of inter-channel time difference (itd) estimator for coincident stereo capture
CN113855235B (zh) * 2021-08-02 2024-06-14 应葵 用于肝脏部位的微波热消融手术中磁共振导航方法及装置

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5742734A (en) 1994-08-10 1998-04-21 Qualcomm Incorporated Encoding rate selection in a variable rate vocoder
JP4322207B2 (ja) * 2002-07-12 2009-08-26 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ オーディオ符号化方法
JP2006500816A (ja) * 2002-09-20 2006-01-05 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 伝送ネットワークにおける資源予約
KR101049751B1 (ko) * 2003-02-11 2011-07-19 코닌클리케 필립스 일렉트로닉스 엔.브이. 오디오 코딩
SE527670C2 (sv) 2003-12-19 2006-05-09 Ericsson Telefon Ab L M Naturtrogenhetsoptimerad kodning med variabel ramlängd
US20080260048A1 (en) * 2004-02-16 2008-10-23 Koninklijke Philips Electronics, N.V. Transcoder and Method of Transcoding Therefore
US8112286B2 (en) * 2005-10-31 2012-02-07 Panasonic Corporation Stereo encoding device, and stereo signal predicting method
US9253009B2 (en) * 2007-01-05 2016-02-02 Qualcomm Incorporated High performance station
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
US20100290629A1 (en) * 2007-12-21 2010-11-18 Panasonic Corporation Stereo signal converter, stereo signal inverter, and method therefor
EP2144230A1 (en) 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
CN102157151B (zh) 2010-02-11 2012-10-03 华为技术有限公司 一种多声道信号编码方法、解码方法、装置和系统
WO2011097903A1 (zh) 2010-02-11 2011-08-18 华为技术有限公司 多声道信号编码、解码方法、装置及编解码系统
US9424852B2 (en) * 2011-02-02 2016-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
CN103339670B (zh) * 2011-02-03 2015-09-09 瑞典爱立信有限公司 确定多通道音频信号的通道间时间差
WO2013029225A1 (en) * 2011-08-29 2013-03-07 Huawei Technologies Co., Ltd. Parametric multichannel encoder and decoder
WO2013060223A1 (zh) 2011-10-24 2013-05-02 中兴通讯股份有限公司 语音频信号的丢帧补偿方法和装置
ES2555136T3 (es) * 2012-02-17 2015-12-29 Huawei Technologies Co., Ltd. Codificador paramétrico para codificar una señal de audio multicanal
KR101662681B1 (ko) 2012-04-05 2016-10-05 후아웨이 테크놀러지 컴퍼니 리미티드 멀티채널 오디오 인코더 및 멀티채널 오디오 신호 인코딩 방법
CN103854649B (zh) * 2012-11-29 2018-08-28 中兴通讯股份有限公司 一种变换域的丢帧补偿方法及装置
EP2976768A4 (en) * 2013-03-20 2016-11-09 Nokia Technologies Oy AUDIO SIGNAL ENCODER COMPRISING A MULTI-CHANNEL PARAMETER SELECTOR
CN103280222B (zh) 2013-06-03 2014-08-06 腾讯科技(深圳)有限公司 音频编码、解码方法及其系统
US10342976B2 (en) * 2015-07-10 2019-07-09 Advanced Bionics Ag Systems and methods for facilitating interaural time difference perception by a binaural cochlear implant patient
CA2997334A1 (en) * 2015-09-25 2017-03-30 Voiceage Corporation Method and system for encoding left and right channels of a stereo sound signal selecting between two and four sub-frames models depending on the bit budget
FR3045915A1 (fr) * 2015-12-16 2017-06-23 Orange Traitement de reduction de canaux adaptatif pour le codage d'un signal audio multicanal
ES2877061T3 (es) * 2016-03-09 2021-11-16 Ericsson Telefon Ab L M Un método y aparato para aumentar la estabilidad de un parámetro de diferencia de tiempo entre canales

Also Published As

Publication number Publication date
EP3486904A4 (en) 2019-06-19
US20240029746A1 (en) 2024-01-25
CN107742521B (zh) 2021-08-13
AU2017310760A1 (en) 2019-02-28
US10643625B2 (en) 2020-05-05
JP2023055951A (ja) 2023-04-18
KR102464300B1 (ko) 2022-11-04
BR112019002364A2 (pt) 2019-06-18
CA3033458C (en) 2020-12-15
JP2021092805A (ja) 2021-06-17
JP6841900B2 (ja) 2021-03-10
KR102281668B1 (ko) 2021-07-23
US20190189134A1 (en) 2019-06-20
EP3486904A1 (en) 2019-05-22
KR20240000651A (ko) 2024-01-02
EP3486904B1 (en) 2022-07-27
CA3033458A1 (en) 2018-02-15
CN107742521A (zh) 2018-02-27
US20220084531A1 (en) 2022-03-17
US11217257B2 (en) 2022-01-04
US11756557B2 (en) 2023-09-12
EP4131260A1 (en) 2023-02-08
JP7273080B2 (ja) 2023-05-12
KR102617415B1 (ko) 2023-12-21
US20200211575A1 (en) 2020-07-02
KR20210093384A (ko) 2021-07-27
WO2018028171A1 (zh) 2018-02-15
KR20190030735A (ko) 2019-03-22
RU2718231C1 (ru) 2020-03-31
JP2019527855A (ja) 2019-10-03
KR20220151043A (ko) 2022-11-11
AU2017310760B2 (en) 2020-01-30

Similar Documents

Publication Publication Date Title
ES2928215T3 (es) Método de codificación de señal multicanal y codificador
ES2928335T3 (es) Método para codificar señales multicanal y codificador
BR122023025915A2 (pt) Método para codificar um sinal multicanal, codificador, e meio de armazenamento legível por computador
BR122023026024A2 (pt) Método de codificação de sinal de canal múltiplo, codificador, e meio de armazenamento legível por computador