ES2893758T3 - Método y dispositivo de estimación de retardo de tiempo - Google Patents

Método y dispositivo de estimación de retardo de tiempo Download PDF

Info

Publication number
ES2893758T3
ES2893758T3 ES18825242T ES18825242T ES2893758T3 ES 2893758 T3 ES2893758 T3 ES 2893758T3 ES 18825242 T ES18825242 T ES 18825242T ES 18825242 T ES18825242 T ES 18825242T ES 2893758 T3 ES2893758 T3 ES 2893758T3
Authority
ES
Spain
Prior art keywords
current frame
time difference
value
win
estimate
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18825242T
Other languages
English (en)
Inventor
Eyal Shlomot
Haiting Li
Lei Miao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2893758T3 publication Critical patent/ES2893758T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S1/00Two-channel systems
    • H04S1/007Two-channel systems in which the audio signals are in digital form
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/008Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/03Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S2400/00Details of stereophonic systems covered by H04S but not provided for in its groups
    • H04S2400/05Generation or adaptation of centre channel in multi-channel audio systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Image Analysis (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Maintenance And Management Of Digital Transmission (AREA)
  • Measurement Of Resistance Or Impedance (AREA)
  • Stereophonic System (AREA)

Abstract

Un método de estimación de retardo que se realiza mediante un dispositivo de codificación de audio, en donde el método comprende: determinar un coeficiente de correlación cruzada de una señal de audio multicanal de una trama actual; determinar un valor de estimación de la trayectoria de retardo de la trama actual en base a la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de al menos una trama pasada; determinar una función de ventana adaptativa de la trama actual; realizar la ponderación del coeficiente de correlación cruzada en base al valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, para obtener un coeficiente de correlación cruzada ponderado; y determinar una diferencia de tiempo entre canales de la trama actual en base al coeficiente de correlación cruzada ponderado.

Description

DESCRIPCIÓN
Método y dispositivo de estimación de retardo de tiempo
Campo técnico
Esta solicitud se refiere al campo del procesamiento de audio y, en particular, a un método y aparato de estimación de retardo.
Antecedentes
En comparación con una señal mono, gracias a la direccionalidad y la amplitud, las personas prefieren una señal multicanal (tal como una señal estéreo). La señal multicanal incluye al menos dos señales mono. Por ejemplo, la señal estéreo incluye dos señales mono, a saber, una señal de canal izquierdo y una señal de canal derecho. El cifrado de la señal estéreo puede realizar un procesamiento de mezcla descendente en el dominio de tiempo en la señal de canal izquierdo y la señal de canal derecho de la señal estéreo para obtener dos señales, y luego cifrar las dos señales obtenidas. Las dos señales son una señal de canal principal y una señal de canal secundario. La señal del canal principal se usa para representar información sobre la correlación entre las dos señales mono de la señal estéreo. La señal de canal secundario se usa para representar información sobre una diferencia entre las dos señales mono de la señal estéreo.
Un menor retardo entre las dos señales mono indica una señal de canal primario más fuerte, una mayor eficiencia de codificación de la señal estéreo y una mejor calidad de cifrado y descifrado. Por el contrario, un mayor retardo entre las dos señales mono indica una señal de canal secundario más fuerte, menor eficiencia de codificación de la señal estéreo y peor calidad de cifrado y descifrado. Para garantizar un mejor efecto de una señal estéreo obtenida mediante cifrado y descifrado, es necesario estimar el retardo entre las dos señales mono de la señal estéreo, es decir, una diferencia de tiempo entre canales (ITD, diferencia de tiempo entre canales). Las dos señales mono se alinean mediante un procesamiento de alineación de retardo que se realiza en base a la diferencia de tiempo entre canales estimada, y esto mejora la señal de canal primario.
Un método típico de estimación de retardo en el dominio de tiempo incluye: realizar un procesamiento de suavizado en un coeficiente de correlación cruzada de una señal estéreo de una trama actual que se basa en un coeficiente de correlación cruzada de al menos una trama pasada, para obtener un coeficiente de correlación cruzada suavizado, buscar el coeficiente de correlación cruzada suavizado para un valor máximo, y determinar un valor de índice correspondiente al valor máximo como una diferencia de tiempo entre canales de la trama actual. Un factor de suavizado de la trama actual es un valor obtenido mediante un ajuste adaptativo que se basa la energía de una señal de entrada u otra característica. El coeficiente de correlación cruzada se usa para indicar un grado de correlación cruzada entre dos señales mono después de que se ajustan los retardos correspondientes a diferentes diferencias de tiempo entre canales. El coeficiente de correlación cruzada también puede denominarse función de correlación cruzada.
Se usa un estándar uniforme (el factor de suavizado de la trama actual) para un dispositivo de codificación de audio, para suavizar todos los valores de correlación cruzada de la trama actual. Esto puede hacer que algunos valores de correlación cruzada se suavicen excesivamente y/o que otros valores de correlación cruzada no se suavicen lo suficiente.
El documento US2017/0061972 A1 describe un método para determinar una diferencia de tiempo entre canales de una señal de audio multicanal que tiene al menos dos canales. Se realiza una determinación en una serie de instancias de tiempo consecutivas, la correlación entre canales se basa en una función de correlación cruzada que implica al menos dos canales diferentes de la señal de audio multicanal. Cada valor de la correlación entre canales se asocia con un valor correspondiente de la diferencia de tiempo entre canales. Un umbral de correlación entre canales adaptativo se determina de forma adaptativa en base al suavizado adaptativo de la correlación entre canales en el tiempo. A continuación, se evalúa un valor actual de la correlación entre canales con respecto al umbral de correlación adaptativa entre canales para determinar si el valor actual correspondiente de la diferencia de tiempo entre canales es relevante. En base al resultado de esta evaluación, se determina un valor actualizado de la diferencia de tiempo entre canales.
El documento CN 103366748 A1 describe un método de codificación estéreo, que comprende las etapas de: transformar una señal de canal izquierdo y una señal de canal derecho estéreo en un dominio de tiempo en un dominio de frecuencia para formar una señal de canal izquierdo y una señal de canal derecho en el dominio de frecuencia; realizar una mezcla descendente en la señal de canal izquierdo y la señal de canal derecho en el dominio de la frecuencia para generar una señal de mezcla descendente de un solo canal, y transmitir bits de la señal de mezcla descendente codificada y cuantificada; extraer parámetros espaciales de la señal de canal izquierdo y la señal de canal derecho en el dominio de la frecuencia; estimar un retardo de grupo y una fase de grupo entre los canales izquierdo y derecho del estéreo mediante el uso de la señal de canal izquierdo y la señal de canal derecho en el dominio de la frecuencia; y codificar cuantitativamente el retardo de grupo, la fase de grupo y los parámetros espaciales para lograr un alto rendimiento de codificación estéreo con una tasa de código baja.
Resumen
Las modalidades de esta solicitud proporcionan un método y un aparato de estimación de retardo, para resolver el problema de que una diferencia de tiempo entre canales que se estima mediante un dispositivo de codificación de audio es inexacta debido a un suavizado excesivo o un suavizado insuficiente que se realiza mediante el dispositivo de codificación de audio en un valor de correlación cruzada de un coeficiente de correlación cruzada de una trama actual.
La presente invención se define mediante las reivindicaciones independientes. Las características adicionales de la invención se presentan en las reivindicaciones dependientes. A continuación, las partes de la descripción y los dibujos que se refieren a las modalidades que no están cubiertas por las reivindicaciones no se presentan como modalidades de la invención, sino como ejemplos útiles para comprender la invención.
Breve descripción de los dibujos
La FIGURA 1 es un diagrama estructural esquemático de un sistema de cifrado y descifrado de señal estéreo de acuerdo con una modalidad de esta solicitud;
La FIGURA 2 es un diagrama estructural esquemático de un sistema de cifrado y descifrado de señales estéreo de acuerdo con otra modalidad de ejemplo de esta solicitud;
La FIGURA 3 es un diagrama estructural esquemático de un sistema de cifrado y descifrado de señales estéreo de acuerdo con otra modalidad de ejemplo de esta solicitud;
La FIGURA 4 es un diagrama esquemático de una diferencia de tiempo entre canales de acuerdo con una modalidad de ejemplo de esta solicitud;
La FIGURA 5 es un diagrama de flujo de un método de estimación de retardo de acuerdo con una modalidad de ejemplo de esta solicitud;
La FIGURA 6 es un diagrama esquemático de una función de ventana adaptativa de acuerdo con una modalidad de ejemplo de esta solicitud;
La FIGURA 7 es un diagrama esquemático de una relación entre un parámetro de ancho de coseno elevado e información de desviación de la estimación de la diferencia de tiempo entre canales de acuerdo con una modalidad de ejemplo de esta solicitud;
La FIGURA 8 es un diagrama esquemático de una relación entre una polarización de la altura de coseno elevado e información de desviación de la estimación de la diferencia de tiempo entre canales de acuerdo con una modalidad de ejemplo de esta solicitud;
La FIGURA 9 es un diagrama esquemático de una memoria intermedia de acuerdo con una modalidad de ejemplo de esta solicitud.
La FIGURA 10 es un diagrama esquemático de la actualización de la memoria intermedia de acuerdo con una modalidad de ejemplo de esta solicitud;
La FIGURA 11 es un diagrama estructural esquemático de un dispositivo de codificación de audio de acuerdo con una modalidad de ejemplo de esta solicitud; y
La FIGURA 12 es un diagrama de bloques de un aparato de estimación de retardo de acuerdo con una modalidad de esta solicitud.
Descripción de las modalidades
Las palabras "primero", "segundo" y palabras similares mencionadas en esta especificación no significan ningún orden, cantidad o importancia, pero se usan para distinguir entre diferentes componentes. De igual manera, "uno", "un/una" o similar tampoco pretende indicar una limitación de cantidad, sino que pretende indicar que existe al menos uno. "Conexión", "enlace" o similar no se limita a una conexión física o mecánica, sino que puede incluir una conexión eléctrica, sin importar si es una conexión directa o indirecta.
En esta especificación, "una pluralidad de" se refiere a dos o más de dos. El término "y/o" describe solo una relación de asociación para describir objetos asociados y representa que pueden existir tres relaciones. Por ejemplo, A y/o B pueden representar los siguientes tres casos: solo existe A, existen A y B, y solo existe B. Además, el carácter "/" generalmente indica una relación "o" entre los objetos asociados.
La FIGURA 1 es un diagrama estructural esquemático de un sistema de cifrado y descifrado estéreo en el dominio de tiempo de acuerdo con una modalidad de ejemplo de esta solicitud. El sistema de cifrado y descifrado estéreo incluye un componente de cifrado 110 y un componente de descifrado 120.
El componente de cifrado 110 se configura para cifrar una señal estéreo en el dominio de tiempo. Opcionalmente, el componente de cifrado 110 puede implementarse mediante el uso de software, puede implementarse mediante el uso de hardware o puede implementarse en forma de una combinación de software y hardware. Esto no se limita en esta modalidad.
El cifrado de una señal estéreo en el dominio de tiempo por el componente de cifrado 110 incluye las siguientes etapas:
(1) Realizar un preprocesamiento en el dominio de tiempo en una señal estéreo obtenida para obtener una señal de canal izquierdo preprocesada y una señal de canal derecho preprocesada.
La señal estéreo se recopila por un componente de recopilación y se envía al componente de cifrado 110. Opcionalmente, el componente de recopilación y el componente de cifrado 110 pueden disponerse en un mismo dispositivo o en diferentes dispositivos.
La señal de canal izquierdo preprocesada y la señal de canal derecho preprocesada son dos señales de la señal estéreo preprocesada.
Opcionalmente, el preprocesamiento incluye al menos uno de los siguientes: procesamiento de filtrado de alto paso, procesamiento de preacentuación, conversión de frecuencia de muestreo y conversión de canal. Esto no se limita en esta modalidad.
(2) Realizar una estimación de retardo que se basa en la señal de canal izquierdo preprocesada y la señal de canal derecho preprocesada para obtener una diferencia de tiempo entre canales entre la señal de canal izquierdo preprocesada y la señal de canal derecho preprocesada.
(3) Realizar el procesamiento de alineación de retardo en la señal de canal izquierdo preprocesada y la señal de canal derecho preprocesada que se basa en la diferencia de tiempo entre canales, para obtener una señal de canal izquierdo obtenida después del procesamiento de alineación de retardo y una señal de canal derecho obtenida después del procesamiento de alineación de retardo.
(4) Cifrar la diferencia de tiempo entre canales para obtener un índice de cifrado de la diferencia de tiempo entre canales.
(5) Calcular un parámetro estéreo que se usó para el procesamiento de mezcla descendente en el dominio de tiempo y cifrado el parámetro estéreo que se usó para el procesamiento de mezcla descendente en el dominio de tiempo para obtener un índice de cifrado del parámetro estéreo que se usó para el procesamiento de mezcla descendente en el dominio de tiempo.
El parámetro estéreo que se usó para el procesamiento de mezcla descendente en el dominio de tiempo se usa para realizar el procesamiento de mezcla descendente en el dominio de tiempo en la señal de canal izquierdo obtenida después del procesamiento de alineación de retardo y la señal de canal derecho obtenida después del procesamiento de alineación de retardo.
(6) Realizar, en base al parámetro estéreo que se usó para el procesamiento de mezcla descendente en el dominio de tiempo, el procesamiento de mezcla descendente en el dominio de tiempo en la señal de canal izquierdo y la señal de canal derecho que se obtienen después del procesamiento de alineación de retardo, para obtener una señal de canal primario y una señal de canal secundario.
El procesamiento de mezcla descendente en el dominio de tiempo se usa para obtener la señal de canal primario y la señal de canal secundario.
Después de que se procesan la señal de canal izquierdo y la señal de canal derecho que se obtienen después del procesamiento de alineación de retardo mediante el uso de una tecnología de mezcla descendente en el dominio de tiempo, se obtienen la señal de canal primario (canal primario, o la denominada señal del canal medio (canal medio)), y el canal secundario (canal secundario o la denominada señal de canal lateral (canal lateral)).
La señal de canal primario se usa para representar información acerca de la correlación entre canales, y la señal de canal secundario se usa para representar información acerca de una diferencia entre canales. Cuando la señal de canal izquierdo y la señal de canal derecho que se obtienen después del procesamiento de alineación de retardo se alinean en el dominio de tiempo, la señal de canal secundario es la más débil y, en este caso, la señal estéreo tiene un mejor efecto.
Se hace referencia a una señal de canal izquierdo preprocesada L y una señal de canal derecho preprocesada R en una nésima trama mostrada en la FIGURA 4. La señal de canal izquierdo preprocesada L se encuentra antes de la señal de canal derecho preprocesada R. En otras palabras, en comparación con la señal de canal derecho preprocesada R, la señal de canal izquierdo preprocesada L tiene un retardo, y hay una diferencia de tiempo entre canales 21 entre la señal de canal izquierdo preprocesada L y la señal de canal derecho preprocesada R. En este caso, la señal de canal secundario se mejora, la señal de canal primario se debilita y la señal estéreo tiene relativamente poco efecto.
(7) Cifrar por separado la señal de canal primario y la señal de canal secundario para obtener un primer flujo de bits cifrados mono correspondiente a la señal de canal primario y un segundo flujo de bits cifrados mono correspondiente a la señal de canal secundario.
(8) Escriba el índice de descifrado de la diferencia de tiempo entre canales, el índice de descifrado del parámetro estéreo, el primer flujo de bits cifrado en mono y el segundo flujo de bits cifrado en mono en un flujo de bits cifrado en estéreo.
El componente de descifrado 120 se configura para descifrar el flujo de bits cifrado en estéreo generado por el componente de cifrado 110 para obtener la señal estéreo.
Opcionalmente, el componente de cifrado 110 se conecta al componente de descifrado 120 de forma cableada o inalámbrica, y el componente de descifrado 120 obtiene, a través de la conexión, el flujo de bits cifrado en estéreo generado por el componente de cifrado 110. Alternativamente, el componente de cifrado 110 almacena el flujo de bits cifrado en estéreo generado en una memoria, y el componente de descifrado 120 lee el flujo de bits cifrado en estéreo en la memoria.
Opcionalmente, el componente de descifrado 120 puede implementarse mediante el uso de software, puede implementarse mediante el uso de hardware o puede implementarse en forma de una combinación de software y hardware. Esto no se limita en esta modalidad.
El descifrado del flujo de bits cifrado en estéreo para obtener la señal estéreo mediante el componente 120 de descifrado incluye las siguientes etapas:
(1) Descifrar el primer flujo de bits cifrado en mono y el segundo flujo de bits cifrado en mono en el flujo de bits cifrado en estéreo para obtener la señal de canal primario y la señal de canal secundario.
(2) Obtener, en basa al flujo de bits cifrado en estéreo, un índice de descifrado de un parámetro estéreo que se usa para el procesamiento de mezcla ascendente en el dominio de tiempo y realizar el procesamiento de mezcla ascendente en el dominio de tiempo en la señal de canal primario y la señal de canal secundario para obtener una señal de canal izquierdo obtenida después del procesamiento de mezcla ascendente de dominio de tiempo y una señal de canal derecho obtenida después del procesamiento de mezcla ascendente de dominio de tiempo. (3) Obtener el índice de descifrado de la diferencia de tiempo entre canales en base al flujo de bits cifrado en estéreo y realizar el ajuste de retardo en la señal de canal izquierdo obtenida después del procesamiento de mezcla ascendente en el dominio de tiempo y la señal de canal derecho obtenida después del procesamiento de mezcla ascendente en el dominio de tiempo para obtener la señal estéreo.
Opcionalmente, el componente de cifrado 110 y el componente de descifrado 120 pueden disponerse en un mismo dispositivo, o pueden disponerse en diferentes dispositivos. El dispositivo puede ser una terminal móvil que tiene una función de procesamiento de señales de audio, como un teléfono móvil, una tableta, una computadora portátil, una computadora de escritorio, una bocina bluetooth, una grabadora de lápiz o un dispositivo portátil; o puede ser un elemento de red que tiene una capacidad de procesamiento de señales de audio en una red central o una red de radio. Esto no se limita en esta modalidad.
Por ejemplo, con referencia a la FIGURA 2, un ejemplo en el que el componente de cifrado 110 se dispone en una terminal móvil 130, y el componente de descifrado 120 se dispone en una terminal móvil 140. El terminal móvil 130 y el terminal móvil 140 son dispositivos electrónicos independientes con capacidad de procesamiento de señales de audio, y el terminal móvil 130 y el terminal móvil 140 se conectan entre sí mediante el uso de una red inalámbrica o cableada que se usa en esta modalidad para la descripción.
Opcionalmente, el terminal móvil 130 incluye un componente 131 de recopilación, el componente 110 de cifrado y un componente de cifrado de canal 132. El componente de recopilación 131 se conecta al componente de cifrado 110, y el componente de cifrado 110 se conecta al componente de cifrado 132 de canal.
Opcionalmente, el terminal móvil 140 incluye un componente de reproducción de audio 141, el componente de descifrado 120 y un componente de descifrado de canal 142. El componente de reproducción de audio 141 se conecta al componente de descifrado 110, y el componente de descifrado 110 se conecta al componente de cifrado de canal 132.
Después de recopilar la señal estéreo mediante el uso del componente de recopilación 131, el terminal móvil 130 cifra la señal estéreo mediante el uso del componente de cifrado 110 para obtener el flujo de bits cifrado en estéreo. Entonces, el terminal móvil 130 cifra el flujo de bits cifrado en estéreo mediante el uso del componente de cifrado de canal 132 para obtener una señal de transmisión.
El terminal móvil 130 envía la señal de transmisión al terminal móvil 140 mediante el uso de la red inalámbrica o cableada.
Después de recibir la señal de transmisión, el terminal móvil 140 descifra la señal de transmisión mediante el uso del componente de descifrado de canal 142 para obtener el flujo de bits cifrado en estéreo, descifra el flujo de bits cifrado en estéreo mediante el uso del componente de descifrado 110 para obtener la señal estéreo y reproduce la señal estéreo mediante el uso del componente de reproducción de audio 141.
Por ejemplo, con referencia a la FIGURA 3, esta modalidad se describe mediante el uso de un ejemplo en el que el componente de cifrado 110 y el componente de descifrado 120 se disponen en un mismo elemento de red 150 que tiene una capacidad de procesamiento de señales de audio en una red central o una red de radio.
Opcionalmente, el elemento de red 150 incluye un componente de descifrado de canal 151, el componente de descifrado 120, el componente de cifrado 110 y un componente de cifrado de canal 152. El componente de descifrado de canal 151 se conecta al componente de descifrado 120, el componente de descifrado 120 se conecta al componente de cifrado 110, y el componente de cifrado 110 se conecta al componente de cifrado de canal 152. Después de recibir una señal de transmisión enviada por otro dispositivo, el componente de descifrado de canal 151 descifra la señal de transmisión para obtener un primer flujo de bits cifrado en estéreo, descifra el flujo de bits cifrado en estéreo mediante el uso del componente de descifrado 120 para obtener una señal estéreo, cifra la señal estéreo mediante el uso del componente de cifrado 110 para obtener un segundo flujo de bits cifrado en estéreo, y cifra el segundo flujo de bits cifrado en estéreo mediante el uso del componente de cifrado de canal 152 para obtener una señal de transmisión.
El otro dispositivo puede ser una terminal móvil que tenga una capacidad de procesamiento de señales de audio, o puede ser otro elemento de red que tenga una capacidad de procesamiento de señales de audio. Esto no se limita en esta modalidad.
Opcionalmente, el componente de cifrado 110 y el componente de descifrado 120 en el elemento de red pueden transcodificar un flujo de bits cifrado en estéreo enviado por el terminal móvil.
Opcionalmente, en esta modalidad, un dispositivo en el que se instala el componente de cifrado 110 se denomina dispositivo de codificación de audio. En la implementación real, el dispositivo de codificación de audio también puede tener una función de decodificación de audio. Esto no se limita en esta modalidad.
Opcionalmente, en esta modalidad, solo se usa la señal estéreo como ejemplo para la descripción. En esta solicitud, el dispositivo de codificación de audio puede procesar además una señal multicanal, donde la señal multicanal incluye al menos dos señales de canal.
Más abajo se describen varios sustantivos en las modalidades de esta solicitud.
Una señal multicanal de una trama actual es una trama de señales multicanal que se usa para estimar una diferencia de tiempo entre canales actual. La señal multicanal de la trama actual incluye al menos dos señales de canal. Las señales de canal de diferentes canales pueden recopilarse mediante el uso de diferentes componentes de recopilación de audio en el dispositivo de codificación de audio, o las señales de canal de diferentes canales pueden recopilarse mediante diferentes componentes de recopilación de audio en otro dispositivo. Las señales de canal de diferentes canales se transmiten desde una misma fuente de sonido.
Por ejemplo, la señal multicanal de la trama actual incluye una señal de canal izquierdo L y una señal de canal derecho R. La señal de canal izquierdo L se recopila mediante el uso de un componente de recopilación de audio del canal izquierdo, la señal de canal derecho R se recopila mediante el uso de un componente de recopilación de audio del canal derecho, y la señal de canal izquierdo L y la señal de canal derecho R provienen de una misma fuente de sonido.
Con referencia a la FIGURA 4, un dispositivo de codificación de audio estima una diferencia de tiempo entre canales de una señal multicanal de una nésima trama, y la nésima trama es la trama actual.
Una trama anterior de la trama actual es una primera trama que se encuentra antes de la trama actual, por ejemplo, si la trama actual es la nésima trama, la trama anterior de la trama actual es una (n - 1) ésima trama.
Opcionalmente, la trama anterior de la trama actual también puede denominarse brevemente trama anterior.
Una trama pasada se ubica antes de la trama actual en el dominio de tiempo, y la trama pasada incluye la trama anterior de la trama actual, las primeras dos tramas de la trama actual, las primeras tres tramas de la trama actual y similares. Con referencia a la FIGURA 4, si la trama actual es la nésima trama, la trama pasada incluye: la (n - 1)ésima trama, la (n - 2) ésima trama, ..., y la primera trama.
Opcionalmente, en esta solicitud, al menos una trama pasada pueden ser M tramas ubicadas antes de la trama actual, por ejemplo, ocho tramas ubicadas antes de la trama actual.
Una siguiente trama es una primera trama después de la trama actual. Con referencia a la FIGURA 4, si la trama actual es la nésima trama, la trama siguiente es una (n 1) ésima trama.
La longitud de una trama es la duración de una trama de señales multicanal. Opcionalmente, la longitud de la trama se representa mediante una cantidad de puntos de muestreo, por ejemplo, una longitud de trama N = 320 puntos de muestreo.
Se usa un coeficiente de correlación cruzada para representar un grado de correlación cruzada entre señales de canal de diferentes canales en la señal multicanal de la trama actual bajo diferentes diferencias de tiempo entre canales. El grado de correlación cruzada se representa mediante el uso de un valor de correlación cruzada. Para cualquier señal de dos canales en la señal multicanal de la trama actual, bajo una diferencia de tiempo entre canales, si las señales de dos canales obtenidas después del ajuste de retardo se realiza en base a la diferencia de tiempo entre canales son más similares, el grado de la correlación cruzada es más fuerte y el valor de correlación cruzada es mayor, o si una diferencia entre dos señales de canal obtenidas después de realizar el ajuste de retardo en base a la diferencia de tiempo entre canales es mayor, el grado de correlación cruzada es más débil y el valor de correlación es menor.
Un valor de índice del coeficiente de correlación cruzada corresponde a una diferencia de tiempo entre canales, y un valor de correlación cruzada correspondiente a cada valor de índice del coeficiente de correlación cruzada representa un grado de correlación cruzada entre dos señales mono que se obtienen después del ajuste de retardo y que corresponden a cada diferencia de tiempo entre canales.
Opcionalmente, el coeficiente de correlación cruzada (coeficientes de correlación cruzada) también puede referirse a un grupo de valores de correlación cruzada o una función de correlación cruzada. Esto no se limita en esta solicitud. Con referencia a la FIGURA 4, cuando se calcula un coeficiente de correlación cruzada de una señal de canal de una nésima trama, los valores de correlación cruzada entre la señal de canal izquierdo L y la señal de canal derecho R se calculan por separado bajo diferentes diferencias de tiempo entre canales.
Por ejemplo, cuando el valor del índice del coeficiente de correlación cruzada es 0, la diferencia de tiempo entre canales es -N/2 puntos de muestreo, y la diferencia de tiempo entre canales se usa para alinear la señal de canal izquierdo L y la señal de canal derecho R para obtener el valor de correlación cruzada k0;
cuando el valor de índice del coeficiente de correlación cruzada es 1, la diferencia de tiempo entre canales es (-N/2 1) puntos de muestreo, y la diferencia de tiempo entre canales se usa para alinear la señal de canal izquierdo L y la señal de canal derecho R para obtener el valor de correlación cruzada k1;
cuando el valor del índice del coeficiente de correlación cruzada es 2, la diferencia de tiempo entre canales es (-N/2 2) puntos de muestreo, y la diferencia de tiempo de entre canales se usa para alinear la señal de canal izquierdo L y la señal de canal derecho R para obtener el valor de correlación cruzada k2;
cuando el valor de índice del coeficiente de correlación cruzada es 3, la diferencia de tiempo entre canales es (-N/2 3) puntos de muestreo, y la diferencia de tiempo entre canales se usa para alinear la señal de canal izquierdo L y la señal de canal derecho R para obtener el valor de correlación cruzada k3; ..., y
cuando el valor del índice del coeficiente de correlación cruzada es N, la diferencia de tiempo entre canales es N/2 puntos de muestreo, y la diferencia de tiempo entre canales se usa para alinear la señal de canal izquierdo L y la señal de canal derecho R para obtener el valor de correlación cruzada kN.
Se busca un valor máximo de k0 a kN, por ejemplo, k3 es el máximo. En este caso, indica que cuando la diferencia de tiempo entre canales es (-N/2 3) puntos de muestreo, la señal de canal izquierdo L y la señal de canal derecho son más similares, en otras palabras, la diferencia de tiempo entre canales es la más cercana a una diferencia de tiempo real entre canales.
Se debe señalar que esta modalidad solo se usa para describir un principio según el cual el dispositivo de codificación de audio determina la diferencia de tiempo entre canales mediante el uso del coeficiente de correlación cruzada. En la implementación real, la diferencia de tiempo entre canales puede no determinarse mediante el uso del método anterior.
La FIGURA 5 es un diagrama de flujo de un método de estimación de retardo de acuerdo con una modalidad de ejemplo de esta solicitud.
El método incluye las varias etapas siguientes.
Etapa 301: determinar un coeficiente de correlación cruzada de una señal multicanal de una trama actual.
Etapa 302: Determinar un valor de estimación de la trayectoria de retardo de la trama actual en base a la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de al menos una trama pasada.
Opcionalmente, la al menos una trama pasada es consecutiva en el tiempo, y una última trama en la al menos una trama pasada y la trama actual son consecutivas en el tiempo. En otras palabras, la última trama pasada en al menos una trama pasada es una trama anterior de la trama actual. Alternativamente, la al menos una trama pasada se separa por una cantidad predeterminada de tramas en el tiempo, y una última trama pasada en la al menos una trama pasada se separa por una cantidad predeterminada de tramas desde la trama actual. Alternativamente, la al menos una trama pasada no es consecutiva en el tiempo, una cantidad de tramas separadas entre el al menos una trama pasada no es fija, y una cantidad de tramas entre una última trama pasada en al menos una trama pasada y la trama actual no es fija. Un valor de la cantidad predeterminada de tramas no se limita en esta modalidad, por ejemplo, dos tramas.
En esta modalidad, la cantidad de tramas pasadas no se limita. Por ejemplo, la cantidad de tramas anteriores es 8, 12 y 25.
El valor de estimación de la trayectoria de retardo se usa para representar un valor predicho de una diferencia de tiempo entre canales de la trama actual. En esta modalidad, se simula una trayectoria de retardo en base a la información de diferencia de tiempo entre canales de la al menos una trama pasada, y el valor de estimación de la trayectoria de retardo de la trama actual se calcula en base a la trayectoria de retardo.
Opcionalmente, la información de diferencia de tiempo entre canales de la al menos una trama pasada es una diferencia de tiempo entre canales de la al menos una trama pasada, o un valor suavizado de diferencia de tiempo entre canales de la al menos una trama pasada.
Se determina un valor suavizado de diferencia de tiempo entre canales de cada trama pasada en base a un valor de estimación de la trayectoria de retardo de la trama y una diferencia de tiempo entre canales de la trama.
Etapa 303: Determinar una función de ventana adaptativa de la trama actual.
Opcionalmente, la función de ventana adaptativa es una función de ventana de tipo coseno elevado. La función de ventana adaptativa tiene la función de agrandar relativamente una parte media y suprimir una parte de borde.
Opcionalmente, las funciones de ventana adaptativa correspondientes a tramas de señales de canal son diferentes. La función de ventana adaptativa se representa mediante las siguientes fórmulas:
cuando 0 < k < TRUNC (A * L_NCSHIFT_DS/2) - 2 * win_width -1, loc_weight_win(k) = win_bias;
cuando TRUNC (A * L_NCSHIFT_DS/2) - 2 * win_width < k < TRUNC (A * L_NCSHIFT_DS/2) 2 * win_width - 1,
loc_weight_win(k) = 0,5 * (1 win_bias) 0,5 * (1 - win_bias) * cos (n * (k -TRUNC (A * L_NCSHIFT_DS/2))/ (2 * win_width)); y
cuando TRUNC (A * L_NCSHIFT_DS/2) 2 * win_width < k < A *
L NCSHIFT DS,
loc_weight_win(k) = win_bias.
loc_weight_win(k) se usa para representar la función de ventana adaptativa, donde k = 0, 1, ..., A * L_NCSHIFT_DS; A es una constante preestablecida mayor o igual que 4, por ejemplo, A = 4; TRUNC indica redondear un valor, por ejemplo, redondear un valor de A * L_NCSHIFT_DS/2 en la fórmula de la función de ventana adaptativa; L_NCSHIFT_DS es un valor máximo de un valor absoluto de una diferencia de tiempo entre canales; win_width se usa para representar un parámetro de ancho de coseno elevado de la función de ventana adaptativa; y win_bias se usa para representar una polarización de la altura de coseno elevado de la función de ventana adaptativa.
Opcionalmente, el valor máximo del valor absoluto de la diferencia de tiempo entre canales es un número positivo preestablecido y, por lo general, es un número entero positivo mayor que cero y menor o igual que una longitud de trama, por ejemplo, 40, 60 u 80.
Opcionalmente, un valor máximo de la diferencia de tiempo entre canales o un valor mínimo de la diferencia de tiempo entre canales es un número entero positivo preestablecido, y el valor máximo del valor absoluto de la diferencia de tiempo entre canales se obtiene tomando un valor absoluto. El valor del valor máximo de la diferencia de tiempo entre canales, o el valor máximo del valor absoluto de la diferencia de tiempo entre canales, se obtiene tomando un valor absoluto del valor mínimo de la diferencia de tiempo entre canales.
Por ejemplo, el valor máximo de la diferencia de tiempo entre canales es 40, el valor mínimo de la diferencia de tiempo entre canales es -40 y el valor máximo del valor absoluto de la diferencia de tiempo entre canales es 40, que se obtiene tomando un valor absoluto del valor máximo de la diferencia de tiempo entre canales y también se obtiene tomando un valor absoluto del valor mínimo de la diferencia de tiempo entre canales.
Para otro ejemplo, el valor máximo de la diferencia de tiempo entre canales es 40, el valor mínimo de la diferencia de tiempo entre canales es -20 y el valor máximo del valor absoluto de la diferencia de tiempo entre canales es 40, que se obtiene tomando un valor absoluto del valor máximo de la diferencia de tiempo entre canales.
Para otro ejemplo, el valor máximo de la diferencia de tiempo entre canales es 40, el valor mínimo de la diferencia de tiempo entre canales es -60 y el valor máximo del valor absoluto de la diferencia de tiempo entre canales es 60, que se obtiene tomando un valor absoluto del valor mínimo de la diferencia de tiempo entre canales.
Puede aprenderse de la fórmula de la función de ventana adaptativa que la función de ventana adaptativa es una ventana de tipo coseno elevado con una altura fija en ambos lados y una convexidad en el medio. La función de ventana adaptativa incluye una ventana de peso constante y una ventana de coseno elevado con una polarización de la altura. El peso de la ventana de peso constante se determina en base a la polarización de la altura. La función de ventana adaptativa está determinada principalmente por dos parámetros: el parámetro de ancho de coseno elevado y la polarización de la altura de coseno elevado.
Se hace referencia a un diagrama esquemático de una función de ventana adaptativa mostrada en la FIGURA 6. En comparación con una ventana ancha 402, una ventana estrecha 401 significa que el ancho de ventana de una ventana de coseno elevado en la función de ventana adaptativa es relativamente pequeño, y una diferencia entre un valor de estimación de la trayectoria de retardo correspondiente a la ventana estrecha 401 y una diferencia de tiempo entre canales real es relativamente pequeña. En comparación con la ventana estrecha 401, la ventana ancha 402 significa que el ancho de la ventana de coseno elevado en la función de ventana adaptativa es relativamente grande, y una diferencia entre un valor de estimación de la trayectoria de retardo correspondiente a la ventana ancha 402 y la diferencia de tiempo entre canales real es relativamente grande. En otras palabras, el ancho de la ventana de coseno elevado en la función de ventana adaptativa se correlaciona positivamente con la diferencia entre el valor de estimación de la trayectoria de retardo y la diferencia de tiempo real entre canales.
El parámetro de ancho de coseno elevado y la polarización de la altura de coseno elevado de la función de ventana adaptativa se relacionan con la información de desviación de la estimación de la diferencia de tiempo entre canales de una señal multicanal de cada trama. La información de desviación de la estimación de la diferencia de tiempo entre canales se usa para representar una desviación entre un valor predicho de una diferencia de tiempo entre canales y un valor real.
Se hace referencia a un diagrama esquemático de una relación entre un parámetro de ancho de coseno elevado y la información de desviación de la estimación de la diferencia de tiempo entre canales mostrada en la FIGURA 7. Si un valor límite superior del parámetro de ancho de coseno elevado es 0,25, un valor de la información de desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite superior del parámetro de ancho de coseno elevado es 3,0. En este caso, el valor de la información de desviación de la estimación de la diferencia de tiempo entre canales es relativamente grande, y el ancho de ventana de una ventana de coseno elevado en una función de ventana adaptativa es relativamente grande (consulte la ventana ancha 402 en la FIGURA 6). Si un valor límite inferior del parámetro de ancho de coseno elevado de la función de ventana adaptativa es 0,04, un valor de la información de desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior del parámetro de ancho de coseno elevado es 1,0. En este caso, el valor de la información de desviación de la estimación de la diferencia de tiempo entre canales es relativamente pequeño, y el ancho de ventana de la ventana de coseno elevado en la función de ventana adaptativa es relativamente pequeño (consulte la ventana estrecha 401 en la FIGURA 6).
Se hace referencia a un diagrama esquemático de una relación entre una polarización de la altura de coseno elevado y la información de desviación de la estimación de la diferencia de tiempo entre canales mostrada en la FIGURA 8. Si un valor límite superior de la polarización de la altura de coseno elevado es 0,7, un valor de la información de la desviación de la estimación de la diferencia de tiempo entre canales interno correspondiente al valor límite superior de la polarización de la altura de coseno elevado es 3,0. En este caso, la desviación de la estimación de la diferencia de tiempo entre canales suavizada es relativamente grande, y la desviación de altura de una ventana de coseno elevado en una función de ventana adaptativa es relativamente grande (consulte la ventana ancha 402 en la FIGURA 6). Si un valor límite inferior de la polarización de la altura de coseno elevado es 0,4, un valor de la información de la desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior de la polarización de la altura de coseno elevado es 1,0. En este caso, el valor de la información de desviación de la estimación de la diferencia de tiempo entre canales es relativamente pequeño, y la polarización de la altura de la ventana de coseno elevado en la función de ventana adaptativa es relativamente pequeño (consulte la ventana estrecha 401 en la FIGURA 6).
Etapa 304: Realizar la ponderación del coeficiente de correlación cruzada en base al valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, para obtener un coeficiente de correlación cruzada ponderado.
El coeficiente de correlación cruzada ponderado puede obtenerse mediante cálculo mediante el uso de la siguiente fórmula de cálculo:
c_weight(x) = c(x) * loc_weight_win (x - TRUNC (reg_prv_corr) TRUNC (A *
L_NCSHIFT_DS/2) - L_NCSHIFT_DS).
c_weight (x) es el coeficiente de correlación cruzada ponderado; c (x) es el coeficiente de correlación cruzada; loc_weight_win es la función de ventana adaptativa de la trama actual; TRUNC indica redondear un valor, por ejemplo, redondear reg_prv_corr en la fórmula del coeficiente de correlación cruzada ponderado y redondear un valor de A * L_NCSHIFT_DS/2; reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual; y x es un número entero mayor o igual que cero y menor o igual que 2 * L_NCSHIFT_DS.
La función de ventana adaptativa es la ventana de tipo coseno elevado y tiene la función de agrandar relativamente una parte media y suprimir una parte de borde. Por lo tanto, cuando la ponderación se realiza sobre el coeficiente de correlación cruzada en base al valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, si un valor de índice está más cerca del valor de estimación de la trayectoria de retardo, un coeficiente de ponderación de un valor de correlación cruzada correspondiente es mayor, y si el valor del índice está más lejos del valor de estimación de la trayectoria de retardo, el coeficiente de ponderación del valor de correlación cruzada correspondiente es menor. El parámetro de ancho de coseno elevado y la polarización de la altura de coseno elevado de la función de ventana adaptativa suprimen de forma adaptativa el valor de correlación cruzada correspondiente al valor de índice, lejos del valor de estimación de la trayectoria de retardo, en el coeficiente de correlación cruzada.
Etapa 305: Determinar una diferencia de tiempo entre canales de la trama actual en base al coeficiente de correlación cruzada ponderado.
La determinación de una diferencia de tiempo entre canales de la trama actual en base al coeficiente de correlación cruzada ponderado incluye: buscar un valor máximo del valor de correlación cruzada en el coeficiente de correlación cruzada ponderado; y determinar la diferencia de tiempo entre canales de la trama actual en base a un valor de índice correspondiente al valor máximo.
Opcionalmente, la búsqueda de un valor máximo del valor de correlación cruzada en el coeficiente de correlación cruzada ponderado incluye: comparar un segundo valor de correlación cruzada con un primer valor de correlación cruzada en el coeficiente de correlación cruzada para obtener un valor máximo en el primer valor de correlación cruzada y el segundo valor de correlación cruzada; comparar un tercer valor de correlación cruzada con el valor máximo para obtener un valor máximo en el tercer valor de correlación cruzada y el valor máximo; y en orden cíclico, comparar un iésimo valor de correlación cruzada con un valor máximo obtenido mediante comparación previa para obtener un valor máximo en el iésimo valor de correlación cruzada y el valor máximo obtenido mediante comparación previa. Se asume que i = i 1, y la etapa de comparar un iésimo valor de correlación cruzada con un valor máximo obtenido a través de la comparación previa se realiza continuamente hasta que se comparan todos los valores de correlación cruzada, para obtener un valor máximo en los valores de correlación, donde i es un número entero mayor que 2.
Opcionalmente, la determinación de la diferencia de tiempo entre canales de la trama actual en base a un valor de índice correspondiente al valor máximo incluye: usar una suma del valor de índice correspondiente al valor máximo y el valor mínimo de la diferencia de tiempo entre canales como la diferencia de tiempo entre canales de la trama actual.
El coeficiente de correlación cruzada puede reflejar un grado de correlación cruzada entre dos señales de canal obtenidas después de que se ajusta un retardo en base a diferentes diferencias de tiempo entre canales, y existe una correspondencia entre un valor de índice del coeficiente de correlación cruzada y una diferencia de tiempo entre canales. Por lo tanto, un dispositivo de codificación de audio puede determinar la diferencia de tiempo entre canales de la trama actual en base a un valor de índice correspondiente a un valor máximo del coeficiente de correlación cruzada (con un grado más alto de correlación cruzada).
En conclusión, de acuerdo con el método de estimación de retardo que se proporciona en esta modalidad, la diferencia de tiempo entre canales de la trama actual se predice en base al valor de estimación de la trayectoria de retardo de la trama actual, y la ponderación se realiza en el coeficiente de correlación cruzada en base al valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual. La función de ventana adaptativa es la ventana de tipo coseno elevado, y tiene la función de agrandar relativamente la parte media y suprimir la parte del borde. Por lo tanto, cuando la ponderación se realiza sobre el coeficiente de correlación cruzada en base al valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, si un valor de índice está más cerca del valor de estimación de la trayectoria de retardo, se aplica un coeficiente de ponderación mayor, lo que evita el problema de que un primer coeficiente de correlación cruzada se suavice excesivamente, y si el valor del índice está más lejos del valor de estimación de la trayectoria de retardo, el coeficiente de ponderación es menor, lo que evita el problema de que un segundo coeficiente de correlación cruzada no se suavice suficientemente. De esta forma, la función de ventana adaptativa suprime de forma adaptativa un valor de correlación cruzada correspondiente al valor de índice, lejos del valor de estimación de la trayectoria de retardo, en el coeficiente de correlación cruzada, lo que de esta manera mejora la precisión de la determinación de la diferencia de tiempo entre canales en el coeficiente de correlación cruzada ponderado. El primer coeficiente de correlación cruzada es un valor de correlación cruzada correspondiente a un valor de índice, cerca del valor de estimación de la trayectoria de retardo, en el coeficiente de correlación cruzada, y el segundo coeficiente de correlación cruzada es un valor de correlación cruzada correspondiente a un valor de índice, lejos del valor de estimación de la trayectoria de retardo, en el coeficiente de correlación cruzada.
Las etapas 301 a 303 en la modalidad mostrada en la FIGURA 5 se describen en detalle a continuación.
Primero, se describe que el coeficiente de correlación cruzada de la señal multicanal de la trama actual se determina en la etapa 301.
(1) El dispositivo de codificación de audio determina el coeficiente de correlación cruzada en base a una señal en el dominio de tiempo entre canales izquierdo y una señal en el dominio de tiempo entre canales derecho de la trama actual.
Por lo general, es necesario preestablecer un valor máximo Tmáx de la diferencia de tiempo entre canales y un valor mínimo Tmin de la diferencia de tiempo entre canales, para determinar un intervalo de cálculo del coeficiente de correlación cruzada. Tanto el valor máximo Tmáx de la diferencia de tiempo entre canales como el valor mínimo Tmin de la diferencia de tiempo entre canales son números reales y Tmáx > Tmin. Los valores de Tmáx y Tmin están relacionados con la longitud de una trama, o los valores de Tmáx y Tmin están relacionados con una frecuencia de muestreo actual.
Opcionalmente, para determinar el valor máximo Tmáx de la diferencia de tiempo entre canales y el valor mínimo Tmin de la diferencia de tiempo entre canales, se preestablece un valor máximo L_NCSHIFT_DS de un valor absoluto de la diferencia de tiempo entre canales. Por ejemplo, el valor máximo Tmáx de la diferencia de tiempo entre canales = L_NCSHIFT_DS, y el valor mínimo Tmin de la diferencia de tiempo entre canales = -L_NCSHIFT_DS.
Los valores de Tmáx y Tmin no se limitan en esta solicitud. Por ejemplo, si el valor máximo L_NCSHIFT_DS del valor absoluto de la diferencia de tiempo entre canales es 40, Tmáx = 40 y Tmin = -40.
En una implementación, se usa un valor de índice del coeficiente de correlación cruzada para indicar una diferencia entre la diferencia de tiempo entre canales y el valor mínimo de la diferencia de tiempo entre canales. En este caso, la determinación del coeficiente de correlación cruzada en base a la señal del dominio de tiempo entre canales izquierdo y la señal del dominio de tiempo entre canales derecho de la trama actual se representa mediante el uso de las siguientes fórmulas:
En un caso de Tmin < 0 y 0 < Tmáx,
cuando Tmin < i ¿ 0,
Figure imgf000011_0001
donde k = i - Tmin; y
cuando 0 <i < Tmáx,
Figure imgf000011_0002
donde k = i - Tmin
En un caso de Tmin < 0 y Tmáx < 0,
cuando Tmin < i <Tmáx,
i N -l+ i
c ( k ) - — r X ^ ( j ) - ^ ( j - i )
N 1 ^
donde k = i - Tmin.
En un caso de Tmin ^ 0 y Tmáx ^ 0,
cuando Tmin < i < Tmáx,
Figure imgf000011_0003
donde k = i - Tmin
N es una longitud de trama, xl (j) es la señal de dominio de tiempo entre canales izquierdo de la trama actual, xr (j) es la señal de dominio de tiempo entre canales derecho de la trama actual, c(k) es el coeficiente de correlación cruzada de la trama actual, k es el valor de índice del coeficiente de correlación cruzada, k es un número entero no menor que 0, y un intervalo de valores de k es [0, Tmáx - Tmin].
Se supone que Tmáx = 40 y Tmin = -40. En este caso, el dispositivo de codificación de audio determina el coeficiente de correlación cruzada de la trama actual mediante el uso de la forma de cálculo correspondiente al caso de que Tmin < 0 y 0 < Tmáx. En este caso, el intervalo de valores de k es [0, 80].
En otra implementación, el valor de índice del coeficiente de correlación cruzada se usa para indicar la diferencia de tiempo entre canales. En este caso, la determinación, mediante el dispositivo de codificación de audio, del coeficiente de correlación cruzada en base al valor máximo de la diferencia de tiempo entre canales y el valor mínimo de la diferencia de tiempo entre canales se representa mediante las siguientes fórmulas:
En un caso de Tmin < 0 y 0 <Tmáx;
cuando Tmin < i < 0,
Figure imgf000012_0001
y
cuando 0 < i < Tmáx,
Figure imgf000012_0002
En un caso de Tmin < 0 y Tmáx < 0;
cuando Tmin< i < Tmáx,
Figure imgf000012_0003
En un caso de Tmin > 0 y Tmáx > 0,
cuando Tmin< i < Tmáx,
Figure imgf000012_0004
N es una longitud de trama, XL(j) es la señal de dominio de tiempo entre canales izquierdo de la trama actual, XR(j) es la señal de dominio de tiempo entre canales derecho de la trama actual, c(i) es el coeficiente de correlación cruzada de la trama actual, i es el valor de índice del coeficiente de correlación cruzada, y un intervalo de valores de i es [Tmin Tmáx].
Se supone que Tmáx = 40 y Tmin = -40. En este caso, el dispositivo de codificación de audio determina el coeficiente de correlación cruzada de la trama actual mediante el uso de la fórmula de cálculo correspondiente a Tmin < 0 y 0 < Tmáx. En este caso, el intervalo de valores de i es [-40, 40].
En segundo lugar, se describe la determinación de un valor de estimación de la trayectoria de retardo de la trama actual en la etapa 302.
En una primera implementación, la estimación de la trayectoria de retardo se realiza en base a la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada mediante el uso de un método de regresión lineal, para determinar el valor de estimación de la trayectoria de retardo de la trama actual.
Esta implementación se implementa mediante las siguientes etapas:
(1) Generar M pares de datos en base a la información de diferencia de tiempo entre canales de la al menos una trama pasada y un número de secuencia correspondiente, donde M es un número entero positivo.
Una memoria intermedia almacena información de diferencia de tiempo entre canales de M tramas pasadas.
Opcionalmente, la información de diferencia de tiempo entre canales es una diferencia de tiempo entre canales.
Alternativamente, la información de diferencia de tiempo entre canales es un valor suavizado de diferencia de tiempo entre canales.
Opcionalmente, las diferencias de tiempo entre canales que son de las M tramas pasadas y que se almacenan en la memoria intermedia siguen un principio de primero en entrar, primero en salir. Para ser específico, una ubicación de memoria intermedia de una diferencia de tiempo entre canales que se almacena primero en la memoria intermedia y que es de una trama anterior está en el frente, y en la parte de atrás está una ubicación de memoria intermedia de una diferencia de tiempo entre canales que después se almacena en la memoria intermedia y que es de una trama pasada.
Además, para la diferencia de tiempo entre canales que se almacena en la memoria intermedia más tarde y que es de la trama pasada, la diferencia de tiempo entre canales que se almacena primero en la memoria intermedia y que es de la trama pasada se mueva primero fuera de la memoria intermedia.
Opcionalmente, en esta modalidad, cada par de datos se genera mediante el uso de información de diferencia de tiempo entre canales de cada trama pasada y un número de secuencia correspondiente.
Un número de secuencia se denomina ubicación de cada trama pasada en la memoria intermedia. Por ejemplo, si se almacenan ocho tramas anteriores en la memoria intermedia, los números de secuencia son 0, 1, 2, 3, 4, 5, 6 y 7, respectivamente.
Por ejemplo, los M pares de datos generados son: {(x0, yci), (x1, y1), (x2, y2) ... (xr, yr), ..., y (xm-1, yM-1)}. (xr, yr) es un par de datos (r 1)ésimo, y xr se usa para indicar un número de secuencia del par de datos (r 1)ésimo, es decir, xr = r; y yr se usa para indicar una diferencia de tiempo entre canales que es de una trama pasada y que corresponde al (r 1)ésimo par de datos, donde r = 0, 1, ..., y (M -1).
La FIGURA 9 es un diagrama esquemático de ocho tramas pasadas almacenadas en la memoria intermedia. Una ubicación correspondiente a cada número de secuencia almacena una diferencia de tiempo entre canales de una trama pasada. En este caso, ocho pares de datos son: {(X0, y0), (X1, y1), (X2, y2) ... (xr, yr), ..., y (X7, y r = 0, 1,2, 3, 4, 5, 6 y 7.
(2) Calcular un primer parámetro de regresión lineal y un segundo parámetro de regresión lineal en base a los M pares de datos.
En esta modalidad, se supone que yr en los pares de datos es una función lineal que es aproximadamente xr y que tiene un error de medición de £r. La función lineal es la siguiente:
yr = a p * xr £r.
a es el primer parámetro de regresión lineal, p es el segundo parámetro de regresión lineal y £r es el error de medición.
La función lineal debe cumplir la siguiente condición: una distancia entre el valor observado yr (información de diferencia de tiempo entre canales realmente almacenada en la memoria intermedia) correspondiente al punto de observación xr y un valor de estimación a p * xr calculado en base a la función lineal es el menor, para ser específicos, se cumple la minimización de una función de costo Q (a, p).
La función de costo Q (a, p) es la siguiente:
Figure imgf000013_0001
Para cumplir con la condición anterior, el primer parámetro de regresión lineal y el segundo parámetro de regresión lineal en la función lineal deben cumplir con lo siguiente:
Figure imgf000013_0002
Figure imgf000014_0001
Xr se usa para indicar el número de secuencia del (r 1) ésimo par de datos en los M pares de datos, y yr es información de diferencia de tiempo entre canales del (r 1) ésimo par de datos.
(3) Obtener el valor de estimación de la trayectoria de retardo de la trama actual en base al primer parámetro de regresión lineal y el segundo parámetro de regresión lineal.
Se calcula un valor de estimación correspondiente a un número de secuencia de un par de datos (M 1 )ésimo en base al primer parámetro de regresión lineal y el segundo parámetro de regresión lineal, y el valor de estimación se determina como el valor de estimación de la trayectoria de retardo de la trama actual. Una fórmula es la siguiente:
reg_prv_corr = a p * M,
donde reg_prv_corr representa el valor de estimación de la trayectoria de retardo de la trama actual, M es el número de secuencia del (M 1)ésimo par de datos y a p * M es el valor de estimación del (M 1)ésimo par de datos.
Por ejemplo, M = 8. Después de determinar a y p en base a los ocho pares de datos generados, se estima una diferencia de tiempo entre canales en un noveno par de datos en base a a y p, y la diferencia de tiempo entre canales en el noveno par de datos se determina como el retardo rastrear el valor de estimación de la trama actual, es decir, reg_prv_corr = a p * 8.
Opcionalmente, en esta modalidad, solo se usa como ejemplo para la descripción una manera de generar un par de datos mediante el uso de un número de secuencia y una diferencia de tiempo entre canales. En la implementación real, el par de datos puede generarse alternativamente de otra manera. Esto no se limita en esta modalidad.
En una segunda implementación, la estimación de la trayectoria de retardo se realiza en base a la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada mediante el uso de un método de regresión lineal ponderada, para determinar el valor de estimación de la trayectoria de retardo de la trama actual.
Esta implementación se implementa mediante las siguientes etapas:
(1) Generar M pares de datos en base a la información de diferencia de tiempo entre canales de la al menos una trama pasada y un número de secuencia correspondiente, donde M es un número entero positivo.
Esta etapa es la misma que la descripción que se refiere en la etapa (1) en la primera implementación, y los detalles no se describen en la presente descripción en esta modalidad.
(2) Calcular un primer parámetro de regresión lineal y un segundo parámetro de regresión lineal en base a los M pares de datos y los coeficientes de ponderación de las M tramas anteriores.
Opcionalmente, la memoria intermedia almacena no solo la información de diferencia de tiempo entre canales de las M tramas pasadas, sino que también almacena los coeficientes de ponderación de las M tramas pasadas. Se usa un coeficiente de ponderación para calcular un valor de estimación de la trayectoria de retardo de una trama pasada correspondiente.
Opcionalmente, se obtiene un coeficiente de ponderación de cada trama pasada mediante el cálculo en base a una desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama pasada. Alternativamente, se obtiene un coeficiente de ponderación de cada trama pasada mediante cálculo en base a una desviación de la estimación de la diferencia de tiempo entre canales de la trama pasada.
En esta modalidad, se supone que yr en los pares de datos es una función lineal que es aproximadamente xry que tiene un error de medición de £,-. La función lineal es la siguiente:
Figure imgf000015_0001
a es el primer parámetro de regresión lineal, p es el segundo parámetro de regresión lineal y £r es el error de medición.
La función lineal debe cumplir la siguiente condición: Una distancia de ponderación entre el valor observado yr (información de diferencia de tiempo entre canales realmente almacenada en la memoria intermedia) correspondiente al punto de observación Xr y un valor de estimación a p * Xr que se calcula en base a la función lineal es la menor, para ser específicos, se cumple la minimización de una función de costo Q (a, p).
La función de costo Q (a, p) es la siguiente:
Figure imgf000015_0002
Wr es un coeficiente de ponderación de una trama pasada correspondiente a un résimo par de datos.
Para cumplir con la condición anterior, el primer parámetro de regresión lineal y el segundo parámetro de regresión lineal en la función lineal deben cumplir con lo siguiente:
Figure imgf000015_0003
A M - 1
W = T j Wr
r=0
a M - 1
X 2 = £ w r * x / ;
r=0
y
Figure imgf000016_0001
Xr se usa para indicar un número de secuencia de la (r 1) ésimo par de datos en los pares de datos M, yr es la información de diferencia de tiempo entre canales en el (r 1) ésimo par de datos, wr es un coeficiente de ponderación correspondiente a la información de diferencia de tiempo entre canales en el (r 1) ésimo par de datos en al menos una trama pasada.
(3) Obtener el valor de estimación de la trayectoria de retardo de la trama actual en base al primer parámetro de regresión lineal y el segundo parámetro de regresión lineal.
Esta etapa es la misma que la descripción que se refiere en la etapa (3) en la primera implementación, y los detalles no se describen en la presente descripción en esta modalidad.
Opcionalmente, en esta modalidad, solo se usa como ejemplo para la descripción una manera de generar un par de datos mediante el uso de un número de secuencia y una diferencia de tiempo entre canales. En la implementación real, el par de datos puede generarse alternativamente de otra manera. Esto no se limita en esta modalidad.
Se debe señalar que, en esta modalidad, la descripción se proporciona mediante el uso de un ejemplo en el que un valor de estimación de la trayectoria de retardo se calcula solo mediante el uso del método de regresión lineal o de la manera de regresión lineal ponderada. En la implementación real, el valor de estimación de la trayectoria de retardo puede calcularse alternativamente de otra manera. Esto no se limita en esta modalidad. Por ejemplo, el valor de estimación de la trayectoria de retardo se calcula mediante el uso de un método B-spline (B-spline), o el valor de estimación de la trayectoria de retardo se calcula mediante el uso de un método spline cúbico, o el valor de estimación de la trayectoria de retardo se calcula mediante el uso de un método de spline cuadrático.
En tercer lugar, se describe la determinación de una función de ventana adaptativa de la trama actual en la etapa 303.
En esta modalidad, se proporcionan dos formas de calcular la función de ventana adaptativa de la trama actual. De una primera manera, la función de ventana adaptativa de la trama actual se determina en base a una desviación de la estimación de la diferencia de tiempo entre canales suavizada de una trama anterior. En este caso, la información de desviación de la estimación de la diferencia de tiempo entre canales es la desviación de la estimación de la diferencia de tiempo entre canales suavizada, y el parámetro de ancho de coseno elevado y la polarización de la altura de coseno elevado de la función de ventana adaptativa se relacionan con la desviación de la estimación de la diferencia de tiempo entre canales suavizada. De una segunda manera, la función de ventana adaptativa de la trama actual se determina en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual. En este caso, la información de la desviación de la estimación de la diferencia de tiempo entre canales es la desviación de la estimación de la diferencia de tiempo entre canales, y el parámetro de ancho de coseno elevado y la polarización de la altura de coseno elevado de la función de ventana adaptativa se relacionan con la desviación de la estimación de la diferencia de tiempo entre canales.
Los dos modales se describen a continuación por separado.
Esta primera forma se implementa mediante las siguientes etapas:
(1) Calcular un primer parámetro de ancho de coseno elevado en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual.
Debido a que la precisión del cálculo de la función de ventana adaptativa de la trama actual mediante el uso de una señal multicanal cerca de la trama actual es relativamente alta, en esta modalidad, la descripción se proporciona mediante el uso de un ejemplo en el que se determina la función de ventana adaptativa de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual.
Opcionalmente, la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual se almacena en la memoria intermedia.
Esta etapa se representa mediante las siguientes fórmulas:
win_width1 = TRUNC (width_par1 * (A * L_NCSHIFT_DS 1)), y
width_par1 = a_width1 * smooth_dist_reg b_width1,
donde
a_width1 = (xh_width1 -xl_width1)/ (yh_dist1 - yl_dist1),
b_width1 = xh_width1 -a_width1 * yh_dist1,
win_width1 es el primer parámetro de ancho de coseno elevado, TRUNC indica redondeo de un valor, L_NCSHIFT_DS es el valor máximo del valor absoluto de la diferencia de tiempo entre canales, A es una constante preestablecida y A es mayor o igual que 4.
xh_width1 es un valor límite superior del primer parámetro de ancho de coseno elevado, por ejemplo, 0,25 en la FIGURA 7; xl_width1 es un valor límite inferior del primer parámetro de ancho de coseno elevado, por ejemplo, 0,04 en la FIGURA 7; yh_dist1 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del primer parámetro de ancho de coseno elevado, por ejemplo, 3,0 correspondiente a 0,25 en la FIGURA 7; yl_dist1 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del primer parámetro de ancho de coseno elevado, por ejemplo, 1,0 correspondiente a 0,04 en la FIGURA 7.
smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, y xh_width1, xl_width1, yh_dist1 y yl_dist1 son todos números positivos.
Opcionalmente, en la fórmula anterior, b_width1 = xh-width1 - a_width1 * yh_dist1 puede reemplazarse con b_width1 = xl_width1 -a_width1 * yl_dist1.
Opcionalmente, en esta etapa, width_par1 = min (width_par1, xh_width1) y width_par1 = máx (width_par1, xl_width1), donde min representa tomar un valor mínimo y máx representa tomar un valor máximo. Para ser específico, cuando width_par1 obtenido a través del cálculo es mayor que xh_width1, width_par1 se establece en xh_width1; o cuando width_par1 obtenido mediante el cálculo es menor que xl_width1, width_par1 se establece en xl_width1.
En esta modalidad, cuando width_par1 es mayor que el valor límite superior del primer parámetro de ancho de coseno elevado, width_par1 se limita para ser el valor límite superior del primer parámetro de ancho de coseno elevado; o cuando width_par1 es menor que el valor límite inferior del primer parámetro de ancho de coseno elevado, width_par1 se limita al valor límite inferior del primer parámetro de ancho de coseno elevado, para garantizar que un valor de width_par1 no exceda un intervalo de valores normales del parámetro de ancho de coseno elevado, de esta manera se garantiza la precisión de una función de ventana adaptativa calculada.2 (2) Calcular una primera polarización de la altura de coseno elevado en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual.
Esta etapa se representa mediante la siguiente fórmula:
win_bias1 = a_bias1 * smooth_dist_reg b_bias1,
donde
a_bias1 = (xh_bias1 - xl_bias1) / (yh_dist2 - yl_dist2),
y
b_bias 1 = xh_bias1 - a_bias1 * yh_dist2.
win_bias1 es la primera polarización de la altura de coseno elevado; xh_biasl es un valor límite superior de la primera polarización de la altura de coseno elevado, por ejemplo, 0,7 en la FIGURA 8; xl_bias1 es un valor límite inferior de la primera polarización de la altura de coseno elevado, por ejemplo, 0,4 en la FIGURA 8; yh_dist2 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la primera polarización de la altura de coseno elevado, por ejemplo, 3,0 correspondiente a 0,7 en la FIGURA 8; yl_dist2 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la primera polarización de la altura de coseno elevado, por ejemplo, 1,0 correspondiente a 0,4 en la FIGURA 8; smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; y yh_dist2, yl_dist2, xh_bias1 y xl_bias1 son todos números positivos.
Opcionalmente, en la fórmula anterior, b_bias1 = xh_biasl - a_bias1 * yh_dist2 puede reemplazarse con b_bias1 = xl_bias1 - a_bias1 * yl_dist2.
Opcionalmente, en esta modalidad, win_bias1 = min (win_bias1, xh_bias1) y win_biasl = máx (win_biasl, xl_bias1). Para ser específicos, cuando win_biasl obtenido a través del cálculo es mayor que xh_bias1, win_bias1 se establece en xh_bias1; o cuando win_biasl obtenido a través del cálculo es menor que xl_bias1, win_bias1 se establece en xl_bias1.
Opcionalmente, yh_dist2 = yh_dist1 y yl_dist2 = yl_distl.
(3) Determinar la función de ventana adaptativa de la trama actual en base al primer parámetro de ancho de coseno elevado y la primera polarización de la altura de coseno elevado.
El primer parámetro de ancho de coseno elevado y la primera polarización de la altura de coseno elevado se llevan a la función de ventana adaptativa en la etapa 303 para obtener las siguientes fórmulas de cálculo:
cuando 0 < k < TRUNC (A * L_NCSHIFT_DS/2) - 2 * win_widthl -1,
loc_weight_win(k) = win_bias1;
cuando TRUNC (A * L_NCSHIFT_DS/2) - 2 * win_width1 < k < TRUNC (A
* L_NCSHIFT_DS/2) 2 * win_width1 - 1,
loc_weight_win(k) = 0,5 * (1 win_bias1) 0,5 * (1 - win_bias1) * cos (n * (k -TRUNC (A * L_NCSHIFT_DS/2))/ (2 * win_width1)); y
cuando TRUNC (A * L_NCSHIFT_DS/2) 2 * win_widthl < k < A *
L NCSHIFT DS,
loc_weight_win(k) = win_bias1.
loc_weight_win(k) se usa para representar la función de ventana adaptativa, donde k = 0, 1, ..., A * L_NCSHIFT_DS; A es la constante preestablecida mayor o igual que 4, por ejemplo, A = 4, L_NCSHIFT_DS es el valor máximo del valor absoluto de la diferencia de tiempo entre canales; win_width1 es el primer parámetro de ancho de coseno elevado; y win_bias1 es la primera polarización de la altura de coseno elevado.
En esta modalidad, la función de ventana adaptativa de la trama actual se calcula mediante el uso de la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior, de modo que una forma de la función de ventana adaptativa se ajusta en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada, de esta manera se evita el problema de que una función de ventana adaptativa generada es inexacta debido a un error de la estimación de la trayectoria de retardo de la trama actual, y mejora la precisión de la generación de una función de ventana adaptativa.
Opcionalmente, después de que se determina la diferencia de tiempo entre canales de la trama actual en base a la función de ventana adaptativa determinada de la primera manera, la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual puede determinarse además en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama anterior de la trama actual, el valor de estimación de la trayectoria de retardo de la trama actual y la diferencia de tiempo entre canales de la trama actual.
Opcionalmente, la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual en la memoria intermedia se actualiza en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual.
Opcionalmente, después de que la diferencia de tiempo entre canales de la trama actual se determina cada vez, la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual en la memoria intermedia se actualiza en base a desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual.
Opcionalmente, la actualización de la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual en la memoria intermedia en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual incluye: reemplazar la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual en la memoria intermedia con la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual.
La desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual se obtiene a través de cálculo mediante el uso de las siguientes fórmulas de cálculo:
smooth_dist_reg_update = (1 - y) * smooth_dist_reg y * dist_reg',
y
dist_reg' = |reg_prv_corr - cur_itd|.
smooth_dist_reg_update es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual; y es un primer factor de suavizado y 0 < y <1, por ejemplo, y = 0,02; smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual; y cur_itd es la diferencia de tiempo entre canales de la trama actual.
En esta modalidad, después de que se determina la diferencia de tiempo entre canales de la trama actual, se calcula la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual. Cuando va a determinarse una diferencia de tiempo entre canales de una trama siguiente, puede determinarse una función de ventana adaptativa de la trama siguiente mediante el uso de la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual, de esta manera se garantiza la precisión de la determinación de la diferencia de tiempo entre canales de la siguiente trama.
Opcionalmente, después de que se determina la diferencia de tiempo entre canales de la trama actual en base a la función de ventana adaptativa que se determinó en la primera manera anterior, la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada puede actualizarse más.
En una manera de actualización, la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada se actualiza en base a la diferencia de tiempo entre canales de la trama actual.
En otra manera de actualización, la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada se actualiza en base a un valor suavizado de diferencia de tiempo entre canales de la trama actual.
Opcionalmente, el valor suavizado de diferencia de tiempo entre canales de la trama actual se determina en base al valor de estimación de la trayectoria de retardo de la trama actual y la diferencia de tiempo entre canales de la trama actual.
Por ejemplo, en base al valor de estimación de la trayectoria de retardo de la trama actual y la diferencia de tiempo entre canales de la trama actual, el valor suavizado de diferencia de tiempo entre canales de la trama actual puede determinarse mediante el uso de la siguiente fórmula:
cur_itd_smooth = (9 * reg_prv_corr (1 - 9 ) * cur_itd.
cur_itd_smooth es el valor suavizado de diferencia de tiempo entre canales de la trama actual, 9 es un segundo factor de suavizado, reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual y cur_itd es la diferencia de tiempo entre canales de la trama actual. 9 es una constante mayor o igual que 0 y menor o igual que 1.
La actualización de la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada incluye: añadir la diferencia de tiempo entre canales de la trama actual o el valor suavizado de diferencia de tiempo entre canales de la trama actual a la memoria intermedia.
Opcionalmente, por ejemplo, se actualiza el valor suavizado de diferencia de tiempo entre canales en la memoria intermedia. La memoria intermedia almacena valores suavizados de diferencia de tiempo entre canales correspondientes a una cantidad fija de tramas pasadas, por ejemplo, la memoria intermedia almacena valores suavizados de diferencia de tiempo entre canales de ocho tramas pasadas. Si el valor suavizado de diferencia de tiempo entre canales de la trama actual se agrega a la memoria intermedia, se elimina un valor suavizado de diferencia de tiempo entre canales de una trama pasada que se encuentra originalmente en un primer bit (un encabezado de una cola) en la memoria intermedia. De manera correspondiente, un valor suavizado de diferencia de tiempo entre canales de una trama pasada que se encuentra originalmente en un segundo bit se actualiza al primer bit. Por analogía, el valor suavizado de diferencia de tiempo entre canales de la trama actual se encuentra en un último bit (un final de la cola) en la memoria intermedia.
Se hace referencia a un proceso de actualización de la memoria intermedia que se muestra en la FIGURA 10. Se supone que la memoria intermedia almacena valores suavizados de diferencia de tiempo entre canales de ocho tramas pasadas. Antes de que se agregue a la memoria intermedia un valor suavizado de diferencia de tiempo entre canales 601 de la trama actual (es decir, las ocho tramas anteriores correspondientes a la trama actual), un valor suavizado de diferencia de tiempo entre canales de una (i - 8)ésima trama se almacena en la memoria intermedia en un primer bit, y un valor suavizado de diferencia de tiempo entre canales de una (i - 7)ésima trama se almacena en la memoria intermedia en un segundo bit, ..., y un valor suavizado de diferencia de tiempo entre canales de una (i -1)ésima trama se almacena en la memoria intermedia en un octavo bit.
Si el valor suavizado de diferencia de tiempo entre canales 601 de la trama actual se agrega a la memoria intermedia, el primer bit (que se representa por una trama discontinua en la figura) se elimina, un número de secuencia del segundo bit se convierte en un número de secuencia del primer bit, un número de secuencia del tercer bit se convierte en el número de secuencia del segundo bit, ..., y un número de secuencia del octavo bit se convierte en un número de secuencia de un séptimo bit. El valor 601 suavizado de diferencia de tiempo entre canales interno de la trama actual (una iésima trama) se ubica en el octavo bit, para obtener ocho tramas pasadas correspondientes a una trama siguiente.
Opcionalmente, después de agregar a la memoria intermedia el valor suavizado de diferencia de tiempo entre canales de la trama actual, el valor suavizado de diferencia de tiempo entre canales almacenado en el primer bit no puede eliminarse, en su lugar, los valores suavizados de diferencia de tiempo entre canales en el segundo bit al noveno bit se usan directamente para calcular una diferencia de tiempo entre canales de una trama siguiente. Alternativamente, los valores suavizados de diferencia de tiempo entre canales en el primer bit a un noveno bit se usan para calcular una diferencia de tiempo entre canales de una trama siguiente. En este caso, la cantidad de tramas anteriores correspondientes a cada trama actual es variable. En esta modalidad no se limita una forma de actualización de la memoria intermedia.
En esta modalidad, después de que se determina la diferencia de tiempo entre canales de la trama actual, se calcula el valor suavizado de diferencia de tiempo entre canales de la trama actual. Cuando se va a determinar un valor de estimación de la trayectoria de retardo de la siguiente trama, el valor de estimación de la trayectoria de retardo de la siguiente trama puede determinarse mediante el uso del valor suavizado de diferencia de tiempo entre canales de la trama actual. Esto asegura la precisión de la determinación del valor de estimación de la trayectoria de retardo de la siguiente trama.
Opcionalmente, si el valor de estimación de la trayectoria de retardo de la trama actual se determina en base a la segunda implementación anterior de determinación del valor de estimación de la trayectoria de retardo de la trama actual, después de que se actualice el valor suavizado de la diferencia de tiempo entre canales almacenado en la memoria intermedia de la al menos una trama pasada, un coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada puede actualizarse más. El coeficiente de ponderación de la al menos una trama anterior es un coeficiente de ponderación en el método de regresión lineal ponderada.
En la primera manera de determinar la función de ventana adaptativa, la actualización del coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada incluye: calcular un primer coeficiente de ponderación de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual; y actualizar un primer coeficiente de ponderación almacenado temporalmente de la al menos una trama pasada en base al primer coeficiente de ponderación de la trama actual. En esta modalidad, para obtener descripciones relacionadas de la actualización de la memoria intermedia, consulte la FIGURA 10. Los detalles no se describen de nuevo en esta modalidad en la presente descripción.
El primer coeficiente de ponderación de la trama actual se obtiene a través de cálculo mediante el uso de las siguientes fórmulas de cálculo:
wgt_par1 = a_wgt1 * smooth_dist_reg_update b_wgt1,
a_wgt1 = (xl_wgt1 -xh_wgt1)/(yh_dist1'-yl_dist1'),
y
b_wgt1 = xl_wgt1 - a_wgt1 * yh_dist1'.
wgt_par1 es el primer coeficiente de ponderación de la trama actual, smooth_dist_reg_update es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual, xh_wgt es un valor límite superior del primer coeficiente de ponderación, xl_wgt es un valor límite inferior del primer coeficiente de ponderación, yh_dist1' es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del primer coeficiente de ponderación, yl_dist1' es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del primer coeficiente de ponderación, y yh_dist1', yl_dist1', xh_wgt1 y xl_wgt1 son todos números positivos.
Opcionalmente, wgt_par1 = min (wgt_par1, xh_wgt1) y wgt_par1 = máx (wgt_par1, xl_wgt1).
Opcionalmente, en esta modalidad, los valores de yh_dist1', yl_dist1', xh_wgt1 y xl_wgt1 no se limitan. Por ejemplo, xl_wgt1 = 0,05, xh_wgt1 = 1,0, yl_dist1' = 2,0 y yh_dist1' = 1,0.
Opcionalmente, en la fórmula anterior, b_wgt1 = xl_wgt1 - a_wgt1 * yh_dist1' puede reemplazarse con b_wgt1 =xh_wgt1 - a_wgt1 * yl_dist1'.
En esta modalidad, xh_wgt1 > xl_wgtl y yh_dist1' < yl_dist1'.
En esta modalidad, cuando wgt_par1 es mayor que el valor límite superior del primer coeficiente de ponderación, wgt_par1 se limita a ser el valor límite superior del primer coeficiente de ponderación; o cuando wgt_par1 es menor que el valor límite inferior del primer coeficiente de ponderación, wgt_par1 se limita al valor límite inferior del primer coeficiente de ponderación, para garantizar que un valor de wgt_par1 no exceda un intervalo de valores normales del primera coeficiente de ponderación, de esta manera se garantiza la precisión del valor de estimación de la trayectoria de retardo calculado de la trama actual.
Además, después de que se determina la diferencia de tiempo entre canales de la trama actual, se calcula el primer coeficiente de ponderación de la trama actual. Cuando va a determinarse el valor de estimación de la trayectoria de retardo de la siguiente trama, el valor de estimación de la trayectoria de retardo de la siguiente trama puede determinarse mediante el uso del primer coeficiente de ponderación de la trama actual, de esta manera se garantiza la precisión de la determinación del valor de estimación de la trayectoria de retardo de la trama actual de la siguiente trama.
En la segunda manera, se determina un valor inicial de la diferencia de tiempo entre canales de la trama actual en base al coeficiente de correlación cruzada; la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual se calcula en base al valor de estimación de la trayectoria de retardo de la trama actual y el valor inicial de la diferencia de tiempo entre canales de la trama actual; y la función de ventana adaptativa de la trama actual se determina en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual.
Opcionalmente, el valor inicial de la diferencia de tiempo entre canales de la trama actual es un valor máximo que es de un valor de correlación cruzada en el coeficiente de correlación cruzada y que se determina en base al coeficiente de correlación cruzada de la trama actual, y una diferencia de tiempo entre canales determinada en base a un valor de índice correspondiente al valor máximo.
Opcionalmente, la determinación de la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual en base al valor de estimación de la trayectoria de retardo de la trama actual y el valor inicial de la diferencia de tiempo entre canales de la trama actual se representa mediante el uso de la siguiente fórmula:
dist_reg = |reg_prv_corr - cur_itd_init|.
dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual, reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual y cur_itd_init es el valor inicial de la diferencia de tiempo entre canales de la trama actual.
En base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual, la determinación de la función de ventana adaptativa de la trama actual se implementa mediante el uso de las siguientes etapas.
(1) Calcular un segundo parámetro de ancho de coseno elevado en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual.
Esta etapa puede representarse mediante las siguientes fórmulas:
win_width2 = TRUNC (width_par2 * (A * L_NCSHIFT_DS 1)),
y
width_par2 = a_width2 * dist_reg b_width2,
donde
a_width2 = (xh_width2 - xl_width2)/ (yh_dist3 - yl_dist3),
y
b_width2 = xh_width2 - a_width2 * yh_dist3.
win_width2 es el segundo parámetro de ancho de coseno elevado, TRUNC indica redondeo de un valor, L_NCSHIFT_DS es un valor máximo de un valor absoluto de una diferencia de tiempo entre canales, A es una constante preestablecida, A es mayor o igual que 4, A * L_NCSHIFT_DS 1 es un número entero positivo mayor que cero, xh_width2 es un valor límite superior del segundo parámetro de ancho de coseno elevado, xl_width2 es un valor límite inferior del segundo parámetro de ancho de coseno elevado, yh_dist3 es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite superior del segundo parámetro de ancho de coseno elevado, yl_dist3 es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior del segundo parámetro de ancho de coseno elevado, dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales, xh_width2, xl_width2, yh_dist3 y yl_dist3 son todos números positivos.
Opcionalmente, en esta etapa, b_width2 = xh_width2 - a_width2 * yh_dist3 puede reemplazarse con b_width2 = xl_width2 - a_width2 * yl_dist3.
Opcionalmente, en esta etapa, width_par2 = min (width_par2, xh_width2) y width_par2 = máx (width_par2, xl_width2), donde min representa tomar un valor mínimo y máx representa tomar un valor máximo. Para ser específico, cuando width_par2 obtenido a través del cálculo es mayor que xh_width2, width_par2 se establece en xh_width2 ; o cuando width_par2 obtenido a través del cálculo es menor que xl_width2, width_par2 se establece en xl_width2.
En esta modalidad, cuando width_par2 es mayor que el valor límite superior del segundo parámetro de ancho de coseno elevado, width_par2 se limita a ser el valor límite superior del segundo parámetro de ancho de coseno elevado; o cuando width_par2 es menor que el valor límite inferior del segundo parámetro de ancho de coseno elevado, width_par2 se limita al valor límite inferior del segundo parámetro de ancho de cosinc elevado, para garantizar que un valor de width_par2 no exceda un intervalo de valores normales del parámetro de ancho de coseno elevado, de esta manera se garantiza la precisión de una función de ventana adaptativa calculada.
(2) Calcular una segunda polarización de la altura de coseno elevado en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual.
Esta etapa puede representarse mediante la siguiente fórmula:
win_bias2 = a_bias2 * dist_reg b_bias2 ,
donde
a_bias2 = (xh_bias2 - xl_bias2) / (yh_dist4 - yl_dist4),
y
b_bias2 = xh_bias2 - a_bias2 * yh_dist4.
win_bias2 es la segunda polarización de la altura de coseno elevado, xh_bias2 es un valor límite superior de la segunda polarización de la altura de coseno elevado, xl_bias2 es un valor límite inferior de la segunda polarización de la altura de coseno elevado, yh_dist4 es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite superior de la segunda polarización de la altura de coseno elevado, yl_dist4 es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior de la segunda polarización de la altura de coseno elevado, dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales y yh_dist4, yl_dist4, xh_bias2 y xl_bias2 son todos números positivos.
Opcionalmente, en esta etapa, b_bias2 = xh_bias2 - a_bias2 * yh_dist4 puede reemplazarse con b_bias2 = xl_bias2 - a_bias2 * yl_dist4.
Opcionalmente, en esta modalidad, win_bias2 = min (win_bias2, xh_bias2) y win_bias2 = máx (win_bias2, xl_bias2). Para ser específicos, cuando win_bias2 obtenido a través del cálculo es mayor que xh_bias2, win_bias2 se establece en xh_bias2 ; o cuando win_bias2 obtenido a través del cálculo es menor que xl_bias2, win_bias2 se establece en xl_bias2.
Opcionalmente, yh_dist4 = yh_dist3 y yl_dist4 = yl_dist3.
(3) El dispositivo de codificación de audio determina la función de ventana adaptativa de la trama actual en base al segundo parámetro de ancho de coseno elevado y la segunda polarización de la altura de coseno elevado.
El dispositivo de codificación de audio trae el segundo parámetro de ancho de coseno elevado y la segunda polarización de la altura de coseno elevado a la función de ventana adaptativa en la etapa 303 para obtener las siguientes fórmulas de cálculo:
cuando 0 < k < TRUNC (A * L_NCSHIFT_DS/2) - 2 * win_width2 -1,
loc_weight_win(k) = win_bias2;
cuando TRUNC (A * L_NCSHIFT_DS/2) - 2 * win_width2 < k < TRUNC (A * L_NCSHIFT_DS/2) 2 * win_width2 - 1,
loc_weight_win(k) = 0,5 * (1 win_bias2) 0,5 * (1 - win_bias2) * cos (n-TRUNC (A * L_NCSHIFT_DS/2))/ (2 * win_width2)); y
cuando TRUNC (A * L_NCSHIFT_DS/2) 2 * win_width2 < k < A *
L NCSHIFT DS,
loc_weight_win(k) = win_bias2.
loc_weight_win(k) se usa para representar la función de ventana adaptativa, donde k = 0, 1, ..., A * L_NCSHIFT_DS; A es la constante preestablecida mayor o igual que 4, por ejemplo, A = 4, L_NCSHIFT_DS es el valor máximo del valor absoluto de la diferencia de tiempo entre canales; win_width2 es el segundo parámetro de ancho de coseno elevado; y win_bias2 es la segunda polarización de la altura de coseno elevado.
En esta modalidad, la función de ventana adaptativa de la trama actual se determina en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual, y cuando la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior no necesita ser almacenada en la memoria intermedia, puede determinarse la función de ventana adaptativa de la trama actual, de esta manera se ahorra un recurso de almacenamiento.
Opcionalmente, después de que se determina la diferencia de tiempo entre canales de la trama actual en base a la función de ventana adaptativa determinada en la segunda manera anterior, la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada puede actualizarse más. Para obtener descripciones relacionadas, consulte la primera manera de determinar la función de ventana adaptativa. Los detalles no se describen de nuevo en esta modalidad en la presente descripción.
Opcionalmente, si el valor de estimación de la trayectoria de retardo de la trama actual se determina en base a la segunda implementación de determinación del valor de estimación de la trayectoria de retardo de la trama actual, después de que se actualice el valor suavizado de la diferencia de tiempo entre canales almacenado en la memoria intermedia de la al menos una trama pasada, un coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada puede actualizarse más.
En la segunda manera de determinar la función de ventana adaptativa, el coeficiente de ponderación de la al menos una trama pasada es un segundo coeficiente de ponderación de la al menos una trama pasada.
Actualizar el coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada incluye: calcular un segundo coeficiente de ponderación de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual; y actualizar un segundo coeficiente de ponderación almacenado temporalmente de la al menos una trama pasada en base al segundo coeficiente de ponderación de la trama actual.
El cálculo del segundo coeficiente de ponderación de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual se representa mediante el uso de las siguientes fórmulas:
wgt_par2 = a_wgt2 * dist_reg b_wgt2,
a_wgt2 = (xl_wgt2 - xh_wgt2)/ (yh_dist2' - yl_dist2 '),
y
b_wgt2 = xl_wgt2 - a_wgt2 * yh_dist2 '.
wgt_par2 es el segundo coeficiente de ponderación de la trama actual, dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual, xh_wgt2 es un valor límite superior del segundo coeficiente de ponderación, xl_wgt2 es un valor límite inferior del segundo coeficiente de ponderación, yh_dist2' es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite superior del segundo coeficiente de ponderación, yl_dist2' es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior del segundo coeficiente de ponderación, y yh_dist2', yl_dist2', xh_wgt2 y xl_wgt2 son todos números positivos.
Opcionalmente, wgt_par2 = min (wgt_par2, xh_wgt2) y wgt_par2 = máx (wgt_par2, xl_wgt2).
Opcionalmente, en esta modalidad, los valores de yh_dist2', yl_dist2', xh_wgt2 y xl_wgt2 no se limitan. Por ejemplo, xl_wgt2 = 0,05, xh_wgt2 = 1,0, yl_dist2'= 2,0 y yh_dist2' = 1,0.
Opcionalmente, en la fórmula anterior, b_wgt2 = xl_wgt2 - a_wgt2 * yh_dist2' puede reemplazarse con b_wgt2 = xh_wgt2 - a_wgt2 * yl_dist2'.
En esta modalidad, xh_wgt2 > x2_wgt1 y yh_dist2' < yl_dist2'.
En esta modalidad, cuando wgt_par2 es mayor que el valor límite superior del segundo coeficiente de ponderación, wgt_par2 se limita a ser el valor límite superior del segundo coeficiente de ponderación; o cuando wgt_par2 es menor que el valor límite inferior del segundo coeficiente de ponderación, wgt_par2 se limita al valor límite inferior del segundo coeficiente de ponderación, para garantizar que un valor de wgt_par2 no exceda un intervalo de valores normales del segundo coeficiente de ponderación, de esta manera se garantiza la precisión del valor de estimación de la trayectoria de retardo calculado de la trama actual.
Además, después de que se determina la diferencia de tiempo entre canales de la trama actual, se calcula el segundo coeficiente de ponderación de la trama actual. Cuando va a determinarse el valor de estimación de la trayectoria de retardo de la siguiente trama, el valor de estimación de la trayectoria de retardo de la siguiente trama puede determinarse mediante el uso del segundo coeficiente de ponderación de la trama actual, de esta manera se garantiza la precisión de la determinación del valor de estimación de la trayectoria de retardo de la trama actual de la siguiente trama.
Opcionalmente, en las modalidades anteriores, la memoria intermedia se actualiza independientemente de si la señal multicanal de la trama actual es una señal válida. Por ejemplo, la información de diferencia de tiempo entre canales de la al menos una trama pasada y/o el coeficiente de ponderación de la al menos una trama pasada en la memoria intermedia se actualiza/se actualizan.
Opcionalmente, la memoria intermedia se actualiza solo cuando la señal multicanal de la trama actual es una señal válida. De esta forma, se mejora la validez de los datos en la memoria intermedia.
La señal válida es una señal cuya energía es superior a la energía preestablecida y/o pertenece al tipo preestablecido, por ejemplo, la señal válida es una señal de voz o la señal válida es una señal periódica.
En esta modalidad, se usa un algoritmo de detección de actividad de voz (detección de actividad de voz, VAD) para detectar si la señal multicanal de la trama actual es una trama activa. Si la señal multicanal de la trama actual es una trama activa, indica que la señal multicanal de la trama actual es la señal válida. Si la señal multicanal de la trama actual no es una trama activa, indica que la señal multicanal de la trama actual no es la señal válida.
De alguna manera, se determina, en base a un resultado de detección de activación por voz de la trama anterior de la trama actual, si actualizar la memoria intermedia.
Cuando el resultado de la detección de activación por voz de la trama anterior de la trama actual es la trama activa, indica que es muy posible que la trama actual sea la trama activa. En este caso, la memoria intermedia se actualiza. Cuando el resultado de la detección de activación por voz de la trama anterior de la trama actual no es la trama activa, indica que es muy posible que la trama actual no sea la trama activa. En este caso, la memoria intermedia no se actualiza.
Opcionalmente, el resultado de la detección de activación por voz de la trama anterior de la trama actual se determina en base a un resultado de detección de activación por voz de una señal de canal primario de la trama anterior de la trama actual y un resultado de detección de activación por voz de una señal de canal secundario de la trama anterior de la trama actual.
Si tanto el resultado de la detección de activación por voz de la señal de canal primario de la trama anterior de la trama actual como el resultado de la detección de activación por voz de la señal de canal secundario de la trama anterior de la trama actual son tramas activas, el resultado de la detección de activación por voz de la trama anterior de la trama actual es la trama activa. Si el resultado de la detección de activación por voz de la señal de canal primario de la trama anterior de la trama actual y/o el resultado de la detección de activación por voz de la señal de canal secundario de la trama anterior de la trama actual no es/no son tramas activas/una trama activa, el resultado de la detección de activación por voz de la trama anterior de la trama actual no es la trama activa.
De otra manera, se determina, en base a un resultado de detección de activación por voz de la trama actual, si actualizar la memoria intermedia.
Cuando el resultado de la detección de activación por voz de la trama actual es una trama activa, indica que es muy posible que la trama actual sea la trama activa. En este caso, el dispositivo de codificación de audio actualiza la memoria intermedia. Cuando el resultado de la detección de activación por voz de la trama actual no es una trama activa, indica que existe una gran posibilidad de que la trama actual no sea la trama activa. En este caso, el dispositivo de codificación de audio no actualiza la memoria intermedia.
Opcionalmente, el resultado de detección de activación por voz de la trama actual se determina en base a los resultados de detección de activación por voz de una pluralidad de señales de canal de la trama actual.
Si los resultados de detección de activación por voz de la pluralidad de señales de canal de la trama actual son todas tramas activas, el resultado de detección de activación por voz de la trama actual es la trama activa. Si un resultado de detección de activación de voz de al menos un canal de señal de canal de la pluralidad de señales de canal de la trama actual no es la trama activa, el resultado de detección de activación de voz de la trama actual no es la trama activa.
Se debe señalar que, en esta modalidad, la descripción se proporciona mediante el uso de un ejemplo en el que la memoria intermedia se actualiza mediante el uso de solo un criterio sobre si la trama actual es la trama activa. En la implementación real, la memoria intermedia puede actualizarse alternativamente en base a al menos uno de no sonoro o sonoro, período o no periódico, transitorio o no transitorio, y de voz o sin voz de la trama actual.
Por ejemplo, si tanto la señal de canal primario como la señal de canal secundario de la trama anterior de la trama actual son sonoras, indica que hay una gran probabilidad de que la trama actual sea sonora. En este caso, la memoria intermedia se actualiza. Si al menos una de la señal de canal primario y la señal de canal secundario de la trama anterior de la trama actual es no sonora, existe una gran probabilidad de que la trama actual sea no sonora. En este caso, la memoria intermedia no se actualiza.
Opcionalmente, en base a las modalidades anteriores, puede determinarse además un parámetro adaptativo de un modelo de función de ventana preestablecido en base a un parámetro de codificación de la trama anterior de la trama actual. De esta forma, el parámetro adaptativo en el modelo de función de ventana preestablecido de la trama actual se ajusta de forma adaptativa y se mejora la precisión de la determinación de la función de ventana adaptativa.
El parámetro de codificación se usa para indicar un tipo de señal multicanal de la trama anterior de la trama actual, o el parámetro de codificación se usa para indicar un tipo de señal multicanal de la trama anterior de la trama actual en el que el procesamiento de mezcla descendente en el dominio de tiempo se realiza, por ejemplo, una trama activa o una trama inactiva, no sonora o sonora, periódica o no periódica, transitoria o no transitoria, o de voz o de música. El parámetro adaptativo incluye al menos uno de un valor límite superior de un parámetro de ancho de coseno elevado, un valor límite inferior del parámetro de ancho de coseno elevado, un valor límite superior de una polarización de la altura de coseno elevado, un valor límite inferior de la polarización de la altura de coseno elevado, una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado, una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado, una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite superior de la polarización de la altura de coseno elevado, y una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la polarización de la altura de coseno elevado.
Opcionalmente, cuando el dispositivo de codificación de audio determina la función de ventana adaptativa en la primera manera de determinar la función de ventana adaptativa, el valor límite superior del parámetro de ancho de coseno elevado es el valor límite superior del primer parámetro de ancho de coseno elevado, el valor límite inferior del parámetro de ancho de coseno elevado es el valor límite inferior del primer parámetro de ancho de coseno elevado, el valor límite superior de la polarización de la altura de coseno elevado es el valor límite superior de la primera polarización de la altura de coseno elevado, y el valor límite inferior de la polarización de la altura de coseno elevado es el valor límite inferior de la primera polarización de la altura de coseno elevado. Por consiguiente, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del primer parámetro de ancho de coseno elevado, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del primer parámetro de ancho de coseno elevado, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la polarización de la altura de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la primera polarización de la altura de coseno elevado, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente a la valor límite inferior de la polarización de la altura de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la primera polarización de la altura de coseno elevado.
Opcionalmente, cuando el dispositivo de codificación de audio determina la función de ventana adaptativa en la segunda manera de determinar la función de ventana adaptativa, el valor límite superior del parámetro de ancho de coseno elevado es el valor límite superior del segundo parámetro de ancho de coseno elevado, el valor límite inferior del parámetro de ancho de coseno elevado es el valor límite inferior del segundo parámetro de ancho de coseno elevado, el valor límite superior de la polarización de la altura de coseno elevado es el valor límite superior de la segunda polarización de la altura de coseno elevado, y el valor límite inferior de la polarización de la altura de coseno elevado es el valor límite inferior de la segunda polarización de la altura de coseno elevado. Por consiguiente, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del segundo parámetro de ancho de coseno elevado, el valor intermedio suavizado de la desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior del parámetro de ancho de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del segundo parámetro de ancho de coseno elevado, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la polarización de la altura de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la segunda polarización de la altura de coseno elevado, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente a la valor límite inferior de la polarización de la altura de coseno es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la segunda polarización de la altura de coseno elevado.
Opcionalmente, en esta modalidad, la descripción se proporciona mediante el uso de un ejemplo en el que la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado es igual que la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la polarización de la altura de coseno elevado, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado es igual que la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la polarización de la altura de coseno elevado.
Opcionalmente, en esta modalidad, la descripción se proporciona mediante el uso de un ejemplo en el que el parámetro de codificación de la trama anterior de la trama actual se usa para indicar si el canal principal de la trama anterior de la trama actual es sonoro o no sonoro y si la señal de canal secundario de la trama anterior de la trama actual es sonora o no sonora.
(1) Determinar el valor límite superior del parámetro de ancho de coseno elevado y el valor límite inferior del parámetro de ancho de coseno elevado en el parámetro adaptativo en base al parámetro de codificación de la trama anterior de la trama actual.
Si la señal de canal primario de la trama anterior de la trama actual es sonora o no sonora y si la señal de canal secundario de la trama anterior de la trama actual es sonora o no sonora se determinan en base al parámetro de codificación. Si tanto la señal de canal primario como la señal de canal secundario son no sonoras, el valor límite superior del parámetro de ancho de coseno elevado se establece en un primer parámetro no sonoro y el valor límite inferior del parámetro de ancho de coseno elevado se establece en un segundo parámetro no sonoro, es decir, xh_width = xh_width_uv y xl_width = xl_width_uv.
Si tanto la señal de canal primario como la señal de canal secundario son sonoras, el valor límite superior del parámetro de ancho de coseno elevado se establece en un primer parámetro sonoro, y el valor límite inferior del parámetro de ancho de coseno elevado se establece en un segundo parámetro sonoro, es decir, xh_width = xh_width_v y xl_width = xl_width_v.
Si la señal de canal primario es sonora y la señal de canal secundario es no sonora, el valor límite superior del parámetro de ancho de coseno elevado se establece en un tercer parámetro sonoro, y el valor límite inferior del parámetro de ancho de coseno elevado se establece en un cuarto parámetro sonoro, es decir, xh_width = xh_width_v2 y xl_width = xl_width_v2.
Si la señal de canal primario es no sonora y la señal de canal secundario es sonora, el valor límite superior del parámetro de ancho de coseno elevado se establece en un tercer parámetro no sonoro y el valor límite inferior del parámetro de ancho de coseno elevado se establece en un cuarto parámetro no sonoro, es decir, xh_width = xh_width_uv2 y xl_width = xl_width_uv2.
El primer parámetro no sonoro xh_width_uv, el segundo parámetro no sonoro xl_width_uv, el tercer parámetro no sonoro xh_width_uv2, el cuarto parámetro no sonoro xl_width_uv2, el primer parámetro sonoro xh_width_v, el segundo parámetro sonoro xl_width_v, el tercer parámetro sonoro xh_width_vicing, el cuarto parámetro sonoro xh_width_vicing números positivos, donde xh_width_v < xh_width_v2 < xh_width_uv2 < xh_width_uv, and xl_width_uv < xl_width_uv2 < xl_width_v2 < xl_width_v.
Los valores de xh_width_v, xh_width_v2, xh_width_uv2, xh_width_uv, xl_width_uv, xl_width_uv2, xl_width_v2 y xl_width_v no se limitan en esta modalidad. Por ejemplo, xh_width_v = 0,2, xh_width_v2 = 0,25, xh_width_uv2 = 0,35, xh_width_uv = 0,3, xl_width_uv = 0,03, xl_width_uv2 = 0,02, xl_width_v2 = 0,04 y xl_width_v = 0,05.
Opcionalmente, al menos un parámetro del primer parámetro no sonoro, el segundo parámetro no sonoro, el tercer parámetro no sonoro, el cuarto parámetro no sonoro, el primer parámetro sonoro, el segundo parámetro sonoro, el tercer parámetro sonoro y el cuarto parámetro sonoro se ajusta mediante el uso del parámetro de codificación de la trama anterior de la trama actual.
Por ejemplo, que el dispositivo de codificación de audio ajusta al menos un parámetro del primer parámetro no sonoro, el segundo parámetro no sonoro, el tercer parámetro no sonoro, el cuarto parámetro no sonoro, el primer parámetro sonoro, el segundo parámetro sonoro, el tercer parámetro sonoro, y el cuarto parámetro sonoro en base al parámetro de codificación de una señal de canal de la trama anterior de la trama actual se representa mediante el uso de las siguientes fórmulas:
xh_width_uv = fach_uv * xh_width_init; xl_width_uv = facl_uv *
xl_width_init;
xh_width_v = fach_v * xh_width_init; xl_width_v = facl_v * xl_width_init;
xh_width_v2 = fach_v2 * xh_width_init; xl_width_v2 = facl_v2 *
xl_width_init; y
xh_width_uv2 = fach_uv2 * xh_width_init; y xl_width_uv2 = facl_uv2 *
xl width init.
fach_uv, fach_v, fach_v2, fach_uv2, xh_width_init y xl_width_init son números positivos determinados en base al parámetro de codificación.
En esta modalidad, los valores de fach_uv, fach_v, fach_v2, fach_uv2, xh_width_init y xl_width_init no se limitan. Por ejemplo, fach_uv = 1,4, fach_v = 0,8, fach_v2 = 1,0, fach_uv2 = 1,2, xh_width_init = 0,25 y xl_width_init = 0,04. (2) Determinar el valor límite superior de la polarización de la altura de coseno elevado y el valor límite inferior de la polarización de la altura de coseno elevado en el parámetro adaptativo en base al parámetro de codificación de la trama anterior de la trama actual.
Si la señal de canal primario de la trama anterior de la trama actual es sonora o no sonora y si la señal de canal secundario de la trama anterior de la trama actual es sonora o no sonora se determinan en base al parámetro de codificación. Si tanto la señal de canal primario como la señal de canal secundario son no sonoras, el valor límite superior de la polarización de la altura de coseno elevado se establece en un quinto parámetro no sonoro, y el valor límite inferior de la polarización de la altura de coseno elevado se establece en un sexto parámetro no sonoro, es decir, xh_bias = xh_bias_uv y xl_bias = xl_bias_uv.
Si tanto la señal de canal primario como la señal de canal secundario, el valor límite superior de la polarización de la altura de coseno elevado se establece en un quinto parámetro sonoro, y el valor límite inferior de la polarización de la altura de coseno elevado se establece en un sexto parámetro sonoro, es decir, xh_bias = xh_bias_v y xl_bias = xl_bias_v.
Si la señal de canal primario es sonora, y la señal de canal secundario es no sonora, el valor límite superior de la polarización de la altura de coseno elevado se establece en un séptimo parámetro sonoro, y el valor límite inferior de la polarización de la altura de coseno elevado se establece en un octavo parámetro sonoro, es decir, xh_bias = xh_bias_v2 y xl_bias = xl_bias_v2.
Si la señal de canal primario es sonora y la señal de canal secundario es sonora, el valor límite superior de la polarización de la altura de coseno elevado se establece en un séptimo parámetro no sonoro, y el valor límite inferior de la polarización de la altura de coseno elevado se establece en un octavo parámetro no sonoro, es decir, xh_bias = xh_bias_uv2 y xl_bias = xl_bias_uv2.
El quinto parámetro no sonoro xh_bias_uv, el sexto parámetro no sonoro xl_bias_uv, el séptimo parámetro no sonoro xh_bias_uv2, el octavo parámetro no sonoro xl_bias_uv2 , el quinto parámetro sonoro xh_bias_v, el sexto parámetro sonoro xl_bias_v, el séptimo parámetro sonoro xh_bias_v2 y el octavo parámetro sonoro xh_bias_v2 son todos números positivos, donde xh_bias_v < xh_bias_v2 < xh_bias_uv2 < xh_bias_uv, xl_bias_v < xl_bias_v2 < xl_bias_uv2 < xl_bias_uv, xh_bias es el valor límite superior de la polarización de la altura de coseno elevado y xl_bias es el valor límite inferior de la polarización de la altura de coseno elevado.
En esta modalidad, los valores de xh_bias_v, xh_bias_v2, xh_bias_uv2, xh_bias_uv, xl_bias_v, xl_bias_v2, xl_bias_uv2 y xl_bias_uv no se limitan. Por ejemplo, xh_bias_v = 0,8, xl_bias_v = 0,5, xh_bias_v2 = 0,7, xl_bias_v2 = 0,4, xh_bias_uv = 0,6, xl_bias_uv = 0,3, xh_bias_uv2 = 0,5 y xl_bias_uv2 = 0,2.
Opcionalmente, al menos uno del quinto parámetro no sonoro, el sexto parámetro no sonoro, el séptimo parámetro no sonoro, el octavo parámetro no sonoro, el quinto parámetro sonoro, el sexto parámetro sonoro, el séptimo parámetro sonoro y el octavo parámetro sonoro se ajusta en base al parámetro de codificación de una señal de canal de la trama anterior de la trama actual.
Por ejemplo, la siguiente fórmula se usa para la representación:
xh_bias_uv = fach_uv' * xh_bias_init; xl_bias_uv = facl_uv' * xl_bias_init;
xh_bias_v = fach_v' * xh_bias_init; xl_bias_v = facl_v' * xl_bias_init;
xh_bias_v2 = fach_v2 ' * xh_bias_init; xl_bias_v2 = facl_v2' * xl_bias_init;
xh_bias_uv2 = fach_uv2 ' * xh_bias_init; y xl_bias_uv2 = facl_uv2 ' *
xl_bias_init.
fach_uv', fach_v', fach_v2 ', fach_uv2 ', xh_bias_init y xl_bias_init son números positivos determinados en base al parámetro de codificación.
En esta modalidad, los valores de fach_uv', fach_v', fach_v2', fach_uv2', xh_bias_init y xl_bias_init no se limitan. Por ejemplo, fach_v' = 1,15, fach_v2' = 1,0, fach_uv2'= 0,85, fach_uv' = 0,7, xh_bias_init = 0,7 y xl_bias_init = 0,4.
(3) Determinar, en base al parámetro de codificación de la trama anterior de la trama actual, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado, y la estimación de la desviación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado en el parámetro adaptativo.
Las señales de canal primario no sonoras y sonoras de la trama anterior de la trama actual y las señales de canal secundario no sonoras y sonoras de la trama anterior de la trama actual se determinan en base al parámetro de codificación. Si tanto la señal de canal primario como la señal de canal secundario son no sonoras, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado se establece en un noveno parámetro no sonoro, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado se establece en un décimo parámetro no sonoro, es decir, yh_dist = yh_dist_uv y yl_dist = yl_dist_uv.
Si tanto la señal de canal primario como la señal de canal secundario son sonoras, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado se establece en un noveno parámetro de voz, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado se establece en un décimo parámetro sonoro, es decir, yh_dist = yh_dist_v, y yl_dist = yl_dist_v.
Si la señal de canal primario es sonora, y la señal de canal secundario es no sonora, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado se establece en un undécimo parámetro sonoro, y la desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior del parámetro de ancho de coseno elevado se establece en un duodécimo parámetro sonoro, es decir, yh_dist = yh_dist_v2, y yl_dist = yl_dist_v2.
Si la señal de canal primario es no sonora, y la señal de canal secundario es sonora, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado se establece en un undécimo parámetro no sonoro, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado se establece en un duodécimo parámetro no sonoro, es decir, yh_dist = yh_dist_uv2 y yl_dist = yl_dist_uv2.
El noveno parámetro no sonoro yh_dist_uv, el décimo parámetro no sonoro yl_dist_uv, el undécimo parámetro no sonoro yh_dist_uv2, el duodécimo parámetro no sonoro yl_dist_uv2, el noveno parámetro sonoro yh_dist_v, el décimo parámetro sonoro yl_dist_ v, el duodécimo parámetro sonoro yl_dist_v2 , el undécimo parámetro sonoro yl_dist_v2 son todos números positivos, donde yh_dist_v < yh_dist_v2 < yh_dist_uv2 < yh_dist_uv, y yl_dist_uv < yl_dist_uv2 < yl_dist_v2 < yl_dist_v.
En esta modalidad, los valores de yh_dist_v, yh_dist_v2, yh_dist_uv2, yh_dist_uv, yl_dist_uv, yl_dist_uv2, yl_dist_v2 y yl_dist_v no se limitan.
Opcionalmente, al menos un parámetro del noveno parámetro no sonoro, el décimo parámetro no sonoro, el undécimo parámetro no sonoro, el duodécimo parámetro no sonoro, el noveno parámetro sonoro, el décimo parámetro sonoro, el undécimo parámetro sonoro y el duodécimo parámetro sonoro se ajusta mediante el uso del parámetro de codificación de la trama anterior de la trama actual.
Por ejemplo, la siguiente fórmula se usa para la representación:
yh_dist_uv = fach_uv" * yh_dist_init; yl_dist_uv = facl_uv" * yl_dist_init;
yh_dist_v = fach_v" * yh_dist_init; yl_dist_v = facl_v" * yl_dist_init;
yh_dist_v2 = fach_v2" * yh_dist_init; yl_dist_v2 = facl_v2" * yl_dist_init;
yh_dist_uv2 = fach_uv2" * yh_dist_init; y yl_dist_uv2 = facl_uv2" * yl_dist_init.
fach_uv", fach_v", fach_v2", fach_uv2", yh_dist_init y yl_dist_init son números positivos determinados en base al parámetro de codificación, y los valores de los parámetros no se limitan en esta modalidad.
En esta modalidad, el parámetro adaptativo en el modelo de función de ventana preestablecido se ajusta en base al parámetro de codificación de la trama anterior de la trama actual, de modo que una función de ventana adaptativa apropiada se determina adaptativamente en base al parámetro de codificación de la trama anterior de la trama actual, de esta mamera se mejora la precisión de la generación de una función de ventana adaptativa y se mejora la precisión de la estimación de una diferencia de tiempo entre canales.
Opcionalmente, en base a las modalidades anteriores, antes de la etapa 301, se realiza el preprocesamiento en el dominio de tiempo en la señal multicanal.
Opcionalmente, la señal multicanal de la trama actual en esta modalidad de esta solicitud es una señal multicanal de entrada al dispositivo de codificación de audio, o una señal multicanal obtenida mediante preprocesamiento después de que la señal multicanal se introduce en dispositivo de codificación de audio.
Opcionalmente, la entrada de señal multicanal al dispositivo de codificación de audio puede recopilarse por un componente de recopilación en el dispositivo de codificación de audio, o puede recopilarse por un dispositivo de recopilación independiente del dispositivo de codificación de audio, y se envía al dispositivo de codificación de audio. Opcionalmente, la entrada de señal multicanal al dispositivo de codificación de audio es una señal multicanal obtenida después de la conversión de analógico a digital (analógico a digital, A/D). Opcionalmente, la señal multicanal es una señal de modulación de código de pulso (modulación de código de pulso, MCP).
Una frecuencia de muestreo de la señal multicanal puede ser de 8 kHz, 16 kHz, 32 kHz, 44,1 kHz, 48 kHz o similares. Esto no se limita en esta modalidad.
Por ejemplo, la frecuencia de muestreo de la señal multicanal es de 16 kHz. En este caso, la duración de una trama de señales multicanal es de 20 ms, y la longitud de la trama se indica como N, donde N = 320, en otras palabras, la longitud de la trama es de 320 puntos de muestreo. La señal multicanal de la trama actual incluye una señal de canal izquierdo y una señal de canal derecho, la señal de canal izquierdo se denota como xi_(n) y la señal de canal derecho se denota como xR(n), donde n es un número de secuencia de punto de muestreo, y n = 0, 1,2, ... y (N -1). Opcionalmente, si el procesamiento de filtrado de alto paso se realiza en la trama actual, una señal de canal izquierdo procesada se denota como xl_h p(n), y una señal de canal derecho procesada se denota como xR_HP(n), donde n es un muestreo número de secuencia de puntos, y n = 0, 1, 2, ... y (N -1).
La FIGURA 11 es un diagrama estructural esquemático de un dispositivo de codificación de audio de acuerdo con una modalidad de ejemplo de esta solicitud. En esta modalidad de esta solicitud, el dispositivo de codificación de audio puede ser un dispositivo electrónico que tiene una función de procesamiento de señal de audio y recopilación de audio, tal como un teléfono móvil, una tableta, una computadora portátil, una computadora de escritorio, un altavoz bluetooth, una grabadora de lápiz y un dispositivo portátil, o puede ser un elemento de red que tiene una capacidad de procesamiento de señales de audio en una red central y una red de radio. Esto no se limita en esta modalidad.
El dispositivo de codificación de audio incluye un procesador 701, una memoria 702 y un bus 703.
El procesador 701 incluye uno o más núcleos de procesamiento, y el procesador 701 ejecuta un programa de software y un módulo para realizar diversas aplicaciones de función e información de proceso.
La memoria 702 se conecta al procesador 701 mediante el uso del bus 703. La memoria 702 almacena una instrucción necesaria para el dispositivo de codificación de audio.
El procesador 701 se configura para ejecutar la instrucción en la memoria 702 para implementar el método de estimación de retardo proporcionado en las modalidades del método de esta solicitud.
Además, la memoria 702 puede implementarse mediante cualquier tipo de dispositivo de almacenamiento volátil o no volátil o una combinación de los mismos, como una memoria estática de acceso aleatorio (SRAM), una memoria de solo lectura programable y borrable eléctricamente (EEPROM), una memoria de solo lectura borrable y programable (EPROM), una memoria de solo lectura programable (PROM), una memoria de solo lectura (ROM), una memoria magnética, una memoria flash, un disco magnético o un disco óptico.
La memoria 702 se configura además para almacenar temporalmente información de diferencia de tiempo entre canales de al menos una trama pasada y/o un coeficiente de ponderación de la al menos una trama pasada.
Opcionalmente, el dispositivo de codificación de audio incluye un componente de recopilación y el componente de recopilación se configura para recopilar una señal multicanal.
Opcionalmente, el componente de recopilación incluye al menos un micrófono. Cada micrófono se configura para recopilar un canal de señal de canal.
Opcionalmente, el dispositivo de codificación de audio incluye un componente de recepción y el componente de recepción se configura para recibir una señal multicanal enviada por otro dispositivo.
Opcionalmente, el dispositivo de codificación de audio tiene además una función de decodificación.
Puede entenderse que la FIGURA 11 muestra simplemente un diseño simplificado del dispositivo de codificación de audio. En otra modalidad, el dispositivo de codificación de audio puede incluir cualquier cantidad de transmisores, receptores, procesadores, controladores, memorias, unidades de comunicaciones, unidades de visualización, unidades de reproducción y similares. Esto no se limita en esta modalidad.
Opcionalmente, esta solicitud proporciona un medio de almacenamiento legible por computadora. El medio de almacenamiento legible por computadora almacena una instrucción. Cuando la instrucción se ejecuta en el dispositivo de codificación de audio, el dispositivo de codificación de audio se habilita para realizar el método de estimación de retardo proporcionado en las modalidades anteriores.
La FIGURA 12 es un diagrama de bloques de un aparato de estimación de retardo de acuerdo con una modalidad de esta solicitud. El aparato de estimación de retardo puede implementarse como todo o como parte del dispositivo de codificación de audio mostrado en la FIGURA 11 mediante el uso de software, hardware o una combinación de estos. El aparato de estimación de retardo puede incluir una unidad de determinación de coeficiente de correlación cruzada 810, una unidad de estimación de la trayectoria de retardo 820, una unidad de determinación de función adaptativa 830, una unidad de ponderación 840 y una unidad de determinación de diferencia de tiempo entre canales 850.
La unidad de determinación del coeficiente de correlación cruzada 810 se configura para determinar un coeficiente de correlación cruzada de una señal multicanal de una trama actual.
La unidad de estimación de la trayectoria de retardo 820 se configura para determinar un valor de estimación de la trayectoria de retardo de la trama actual en base a la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de al menos una trama pasada.
La unidad de determinación de función adaptativa 830 se configura para determinar una función de ventana adaptativa de la trama actual.
La unidad de ponderación 840 se configura para realizar la ponderación del coeficiente de correlación cruzada en base al valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, para obtener un coeficiente de correlación cruzada ponderado.
La unidad de determinación de diferencia de tiempo entre canales 850 se configura para determinar una diferencia de tiempo entre canales de la trama actual en base al coeficiente de correlación cruzada ponderado.
Opcionalmente, la unidad de determinación de función adaptativa 830 se configura además para:
calcular un primer parámetro de ancho de coseno elevado en base a una desviación de la estimación de la diferencia de tiempo entre canales suavizada de una trama anterior de la trama actual;
calcular una primera polarización de la altura de coseno elevado en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; y
determinar la función de ventana adaptativa de la trama actual en base al primer parámetro de ancho de coseno elevado y la primera polarización de la altura de coseno elevado.
Opcionalmente, el aparato incluye, además: una unidad de determinación de desviación de la estimación de la diferencia de tiempo entre canales suavizada 860.
La unidad 860 de determinación de la desviación de la estimación de la diferencia de tiempo entre canales suavizada se configura para calcular una desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, la valor de estimación de la trayectoria de retardo de la trama actual, y la diferencia de tiempo entre canales de la trama actual.
Opcionalmente, la unidad de determinación de función adaptativa 830 se configura además para:
determinar un valor inicial de la diferencia de tiempo entre canales de la trama actual en base al coeficiente de correlación cruzada;
calcular una desviación de la estimación de la diferencia de tiempo entre canales de la trama actual en base al valor de estimación de la trayectoria de retardo de la trama actual y el valor inicial de la diferencia de tiempo entre canales de la trama actual; y
determinar la función de ventana adaptativa de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual.
Opcionalmente, la unidad de determinación de función adaptativa 830 se configura además para:
calcular un segundo parámetro de ancho de coseno elevado en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual;
calcular una segunda polarización de la altura de coseno elevado en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual; y
determinar la función de ventana adaptativa de la trama actual en base al segundo parámetro de ancho de coseno elevado y la segunda polarización de la altura de coseno elevado.
Opcionalmente, el aparato incluye además una unidad de determinación de parámetros adaptativos 870.
La unidad de determinación de parámetros adaptativos 870 se configura para determinar un parámetro adaptativo de la función de ventana adaptativa de la trama actual en base a un parámetro de codificación de la trama anterior de la trama actual.
Opcionalmente, la unidad de estimación de la trayectoria de retardo 820 se configura además para:
realizar una estimación de la trayectoria de retardo en base a la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada mediante el uso de un método de regresión lineal, para determinar el valor de estimación de la trayectoria de retardo de la trama actual.
Opcionalmente, la unidad de estimación de la trayectoria de retardo 820 se configura además para:
realizar una estimación de la trayectoria de retardo en base a la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada mediante el uso de un método de regresión lineal ponderada, para determinar el valor de estimación de la trayectoria de retardo de la trama actual.
Opcionalmente, el aparato incluye además una unidad de actualización 880.
La unidad de actualización 880 se configura para actualizar la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada.
Opcionalmente, la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada es un valor suavizado de diferencia de tiempo entre canales de la al menos una trama pasada, y la unidad de actualización 880 se configura para:
determinar un valor suavizado de diferencia de tiempo entre canales de la trama actual en base al valor de estimación de la trayectoria de retardo de la trama actual y la diferencia de tiempo entre canales de la trama actual; y
actualizar un valor suavizado de diferencia de tiempo entre canales almacenado en la memoria intermedia de la al menos una trama pasada en base al valor suavizado de diferencia de tiempo entre canales de la trama actual. Opcionalmente, la unidad de actualización 880 se configura además para:
determinar, en base a un resultado de detección de activación por voz de la trama anterior de la trama actual o un resultado de detección de activación por voz de la trama actual, si actualizar la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada.
Opcionalmente, la unidad de actualización 880 se configura además para:
actualizar un coeficiente de ponderación almacenado en la memoria intermedia de al menos una trama pasada, donde el coeficiente de ponderación del al menos una trama pasada es un coeficiente en el método de regresión lineal ponderada.
Opcionalmente, cuando la función de ventana adaptativa de la trama actual se determina en base a una diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, la unidad de actualización 880 se configura además para:
calcular un primer coeficiente de ponderación de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual; y
actualizar un primer coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada en base al primer coeficiente de ponderación de la trama actual.
Opcionalmente, cuando la función de ventana adaptativa de la trama actual se determina en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual, la unidad de actualización 880 se configura además para:
calcular un segundo coeficiente de ponderación de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual; y
actualizar un segundo coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada en base al segundo coeficiente de ponderación de la trama actual.
Opcionalmente, la unidad de actualización 880 se configura además para:
cuando el resultado de detección de activación por voz de la trama anterior de la trama actual es una trama activa o el resultado de detección de activación por voz de la trama actual es una trama activa, actualice el coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada.
Para obtener detalles relacionados, consulte las modalidades del método anteriores.
Opcionalmente, las unidades anteriores pueden implementarse por un procesador en el dispositivo de codificación de audio al ejecutar una instrucción en una memoria.
Un experto en la técnica puede entender claramente que, para una fácil y breve descripción, para un proceso de trabajo detallado del aparato y unidades anteriores, la referencia a un proceso correspondiente en las modalidades del método anterior, y los detalles no se describen de nuevo en la presente descripción.
En las modalidades proporcionadas en la presente solicitud, debe entenderse que el aparato y el método descritos pueden implementarse de otras maneras. Por ejemplo, las modalidades del aparato descritas son simplemente ejemplos. Por ejemplo, la división de unidades es simplemente una división de función lógica y puede ser otra división en la implementación real. Por ejemplo, una pluralidad de unidades o componentes pueden combinarse o integrarse en otro sistema, o algunas características pueden ignorarse o no ejecutarse.

Claims (1)

  1. REIVINDICACIONES
    1. Un método de estimación de retardo que se realiza mediante un dispositivo de codificación de audio, en donde el método comprende:
    determinar un coeficiente de correlación cruzada de una señal de audio multicanal de una trama actual; determinar un valor de estimación de la trayectoria de retardo de la trama actual en base a la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de al menos una trama pasada;
    determinar una función de ventana adaptativa de la trama actual;
    realizar la ponderación del coeficiente de correlación cruzada en base al valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, para obtener un coeficiente de correlación cruzada ponderado; y
    determinar una diferencia de tiempo entre canales de la trama actual en base al coeficiente de correlación cruzada ponderado.
    2. El método de acuerdo con la reivindicación 1, en donde la determinación de una función de ventana adaptativa de la trama actual comprende:
    calcular un primer parámetro de ancho de coseno elevado en base a una desviación de la estimación de la diferencia de tiempo entre canales suavizada de una trama anterior de la trama actual;
    calcular una primera polarización de la altura de coseno elevado en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; y determinar la función de ventana adaptativa de la trama actual en base al primer parámetro de ancho de coseno elevado y la primera polarización de la altura de coseno elevado.
    3. El método de acuerdo con la reivindicación 2, en donde el primer parámetro de ancho de coseno elevado se obtiene a través de cálculo mediante el uso de las siguientes fórmulas de cálculo:
    win_width1 = TRUNC (width_par1 * (A * L_NCSHIFT_DS 1)),
    " width_par1 = a_width1 * smooth_dist_reg b_width1:
    en donde
    a_width1 = (xh_width1 -xl_width1)/(yh_dist1 -yl_dist1),
    b_width1 = xh_width1 -a_width1 * yh_dist1,
    en donde win_width1 es el primer parámetro de ancho de coseno elevado, TRUNC indica redondeo de un valor, L_NCSHIFT_DS es un valor máximo de un valor absoluto de una diferencia de tiempo entre canales, A es una constante preestablecida, A es mayor o igual que 4, xh_width1 es un valor límite superior del primer parámetro de ancho de coseno elevado, xl_width1 es un valor límite inferior del primer parámetro de ancho de coseno elevado, yh_dist1 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del primer parámetro de ancho de coseno elevado, yl_dist1 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del primer parámetro de ancho de coseno elevado, smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, y xh_width1, xl_width1, yh_dist1 y yl_dist1 son todos números positivos.
    4. El método de acuerdo con la reivindicación 3, en donde:
    width_par1 = min (width_par1, xh_width1),
    y
    width_par1 = máx (width_par1, xl_width1),
    donde min representa tomar un valor mínimo y máx representa tomar un valor máximo.
    5. El método de acuerdo con la reivindicación 3 o 4, en donde la primera polarización de la altura de coseno elevado se obtiene a través de cálculo mediante el uso de la siguiente fórmula de cálculo:
    win_bias1 = a_bias1 * smooth_dist_reg b_bias1,
    en donde
    a_bias1 = (xh_biasl - xl_biasl)/ (yh_dist2 - yl_dist2),
    b_biasl = xh_biasl - a_biasl * yh_dist2,
    en donde win_bias1 es la primera polarización de la altura de coseno elevado, xh_bias1 es un valor límite superior de la primera polarización de la altura de coseno elevado, xl_bias1 es un valor límite inferior de la primera polarización de la altura de coseno elevado, yh_dist2 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la primera polarización de la altura de coseno elevado, yl_dist2 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la primera polarización de la altura de coseno elevado, smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual y yh_dist2 , yl_dist2 , xh_bias1 y xl_bias1 son todos números positivos.
    El método de acuerdo con la reivindicación 5, en donde
    win_bias1 = min (win_bias1, xh_bias1),
    y
    win_bias1 = máx (win_bias1, xl_bias1),
    donde min representa tomar un valor mínimo y máx representa tomar un valor máximo.
    El método de acuerdo con cualquiera de las reivindicaciones 1 a 6, en donde la función de ventana adaptativa se representa mediante el uso de las siguientes fórmulas:
    cuando 0 < k < TRUNC (A * L_NCSHIFT_DS/2) - 2 * win_widthl -1,
    loc_weight_win(k) = win_biasl;
    cuando TRUNC (A * L_NCSHIFT_DS/2) - 2 * win_widthl < k < TRUNC (A *
    L NCSHIFT DS/2) 2 * win_widthl -1,
    loc_weight_win(k) = 0,5 * (1 win_biasl) 0,5 * (1 - win_biasl) * cos (n * (k
    TRUNC (A * L_NCSHIFT_DS/2))/ (2 * win_widthl)); y
    cuando TRUNC (A * L_NCSHIFT_DS/2) 2 * win_widthl < k < A *
    LNCSHIFTDS,
    loc_weight_win(k) = win_biasl;
    en donde el loc weight win(k) se usa para representar la función de ventana adaptativa, en donde k = 0, 1, ..., A* L_NCSHIFT_DS; A es la constante preestablecida y es mayor o igual que 4; L _NCSHIFT_DS es el valor máximo del valor absoluto de una diferencia de tiempo entre canales; win_width1 es el primer parámetro de ancho de coseno elevado; y win_bias1 es la primera polarización de la altura de coseno elevado.
    El método de acuerdo con cualquiera de las reivindicaciones 2 a 7, después de determinar una diferencia de tiempo entre canales de la trama actual en base al coeficiente de correlación cruzada ponderado, que comprende, además:
    calcular una desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, el valor de estimación de la trayectoria de retardo de la trama actual y la diferencia tiempo entre canales de la trama actual; y
    la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual se obtiene a través de cálculo mediante el uso de las siguientes fórmulas de cálculo:
    smooth_dist_reg_update = (1 - y) * smooth_dist_reg y * dist_reg',
    y
    dist_reg' = |reg_prv_corr - cur_itd|,
    en donde smooth_dist_reg_update es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual; y es un primer factor de suavizado y 0 < y <1; smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual; y cur_itd es la diferencia de tiempo entre canales de la trama actual.
    9. El método de acuerdo con la reivindicación 1, en donde la determinación de una función de ventana adaptativa de la trama actual comprende:
    determinar un valor inicial de la diferencia de tiempo entre canales de la trama actual en base al coeficiente de correlación cruzada;
    calcular una desviación de la estimación de la diferencia de tiempo entre canales de la trama actual en base al valor de estimación de la trayectoria de retardo de la trama actual y el valor inicial de la diferencia de tiempo entre canales de la trama actual; y
    determinar la función de ventana adaptativa de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual; y
    la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual se obtiene a través de cálculo mediante el uso de la siguiente fórmula de cálculo:
    dist_reg = |reg_prv_corr - cur_itd_init|,
    donde dist reg es la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual, reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual, y cur_itd_init es el valor inicial de la diferencia de tiempo entre canales de la trama actual.
    10. El método de acuerdo con la reivindicación 9, en donde la determinación de la función de ventana adaptativa de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual comprende:
    calcular un segundo parámetro de ancho de coseno elevado en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual;
    calcular una segunda polarización de la altura de coseno elevado en base a la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual; y
    determinar la función de ventana adaptativa de la trama actual en base al segundo parámetro de ancho de coseno elevado y la segunda polarización de la altura de coseno elevado.
    11. El método de acuerdo con cualquiera de las reivindicaciones 1 a 10, en donde el coeficiente de correlación cruzada ponderado se obtiene a través de cálculo mediante el uso de la siguiente fórmula de cálculo:
    c_weight(x) = c(x) * loc_weight_win (x - TRUNC (reg_prv_corr) TRUNC (A *
    L NCSHIFT DS/2) - L NCSHIFT DS),
    en donde c_weight(x) es el coeficiente de correlación cruzada ponderado; c(x) es el coeficiente de correlación cruzada; loc_weight_win es la función de ventana adaptativa de la trama actual; TRUNC indica redondeo de un valor; reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual; x es un número entero mayor o igual que cero y menor o igual que 2 * L_NCSHIFT_DS; A es la constante preestablecida y es mayor o igual que 4; y L _NCSHIFT_DS es el valor máximo del valor absoluto de una diferencia de tiempo entre canales.
    12. Un aparato de estimación de retardo, en donde el aparato comprende:
    una unidad de determinación del coeficiente de correlación cruzada, que se configura para determinar un coeficiente de correlación cruzada de una señal de audio multicanal de una trama actual;
    una unidad de estimación de la trayectoria de retardo, que se configura para determinar un valor de estimación de la trayectoria de retardo de la trama actual en base a la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de al menos una trama pasada;
    una unidad de determinación de función adaptativa, que se configura para determinar una función de ventana adaptativa de la trama actual;
    una unidad de ponderación, que se configura para realizar la ponderación del coeficiente de correlación cruzada en base al valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, para obtener un coeficiente de correlación cruzada ponderado; y una unidad de determinación de la diferencia de tiempo entre canales, que se configura para determinar una diferencia de tiempo entre canales de la trama actual en base al coeficiente de correlación cruzada ponderado.
    13. El aparato de acuerdo con la reivindicación 12, en donde la unidad de determinación de función adaptativa se configura para:
    calcular un primer parámetro de ancho de coseno elevado en base a una desviación de la estimación de la diferencia de tiempo entre canales suavizada de una trama anterior de la trama actual;
    calcular una primera polarización de la altura de coseno elevado en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; y determinar la función de ventana adaptativa de la trama actual en base al primer parámetro de ancho de coseno elevado y la primera polarización de la altura de coseno elevado.
    14. Aparato de acuerdo con la reivindicación 13, en donde el primer parámetro de ancho de coseno elevado se obtiene a través de cálculo mediante el uso de las siguientes fórmulas de cálculo:
    win_width1 = TRUNC (width_par1 * (A * L_NCSHIFT_DS 1)),
    y
    width_par1 = a_width1 * smooth_dist_reg b_width1;
    en donde
    a_width1 = (xh_width1 -xl_width1)/ (yh_dist1 -y l dist1),
    b_width1 = xh_width1 -a_width1 * yh_dist1,
    win_width1 es el primer parámetro de ancho de coseno elevado, TRUNC indica redondeo de un valor, L_NCSHIFT_DS es un valor máximo de un valor absoluto de una diferencia de tiempo entre canales, A es una constante preestablecida, A es mayor o igual que 4, xh_width1 es un valor límite superior del primer parámetro de ancho de coseno elevado, xl_width1 es un valor límite inferior del primer parámetro de ancho de coseno elevado, yh_dist1 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del primer parámetro de ancho de coseno elevado, yl_dist1 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del primer parámetro de ancho de coseno elevado, smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, y xh width1, xl_width1, yh_dist1 y yl_dist1 son todos números positivos.
    15. El aparato de acuerdo con la reivindicación 14, en donde el aparato comprende, además:
    width_par1 = min (width_par1, xh_width1),
    y
    width_par1 = máx (width_par1, xl_width1),
    en donde min representa tomar un valor mínimo y máx representa tomar un valor máximo.
    16. Aparato de acuerdo con la reivindicación 14 o 15, en donde la primera polarización de la altura de coseno elevado se obtiene a través de cálculo mediante el uso de la siguiente fórmula de cálculo:
    win_bias1 = a_bias1 * smooth_dist_reg b_bias1,
    en donde
    a_bias1 = (xh_biasl - xl_bias1) / (yh_dist2 - yl_dist2),
    b_bias1 = xh_bias1 - a_bias1 * yh_dist2 ,
    win_bias1 es la primera polarización de la altura de coseno elevado, xh_bias1 es un valor límite superior de la primera polarización de la altura de coseno elevado, xl_bias1 es un valor límite inferior de la primera polarización de la altura de coseno elevado, yh_dist2 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la primera polarización de la altura de coseno elevado, yl_dist2 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la primera polarización de la altura de coseno elevado, smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, y yh_dist2, yl_dist2 , xh_bias1 y xl_bias1 son todos números positivos.
    17. El aparato de acuerdo con la reivindicación 16, en donde:
    win_bias1 = min (win_bias1, xh_bias1),
    y
    win_bias1 = máx (win_bias1, xl_bias1),
    donde min representa tomar un valor mínimo y máx representa tomar un valor máximo.
    18. El aparato de acuerdo con cualquiera de las reivindicaciones 12 a 17, en donde la función de ventana adaptativa se representa mediante el uso de las siguientes fórmulas:
    cuando 0 < k < TRUNC (A * L_NCSHIFT_DS/2) - 2 * win_widthl -1,
    loc_weight_win(k) = win_bias1;
    cuando TRUNC (A * L_NCSHIFT_DS/2) - 2 * win_widthl < k <TRUNC (A * L NCSHIFT DS/2) 2 * win_widthl -1,
    loc_weight_win(k) = 0,5 * (1 win_biasl) 0,5 * (1 - win_biasl) * cos (n * (k -TRUNC (A * L_NCSHIFT_DS/2))/ (2 * win_widthl)); y
    cuando TRUNC (A * L_NCSHIFT_DS/2) 2 * win_widthl < k < A *
    LNCSHIFTDS,
    loc_weight_win(k) = win_biasl;
    en donde
    loc_weight_win(k) se usa para representar la función de ventana adaptativa, en donde k = 0, 1, ..., A * L_NCSHIFT_DS; A es la constante preestablecida y es mayor o igual que 4; L_NCSHIFT_DS es el valor máximo del valor absoluto de una diferencia de tiempo entre canales; win_width1 es el primer parámetro de ancho de coseno elevado; y win_bias1 es la primera polarización de la altura de coseno elevado.
    19. El aparato de acuerdo con cualquiera de las reivindicaciones 13 a la 18, en donde el aparato comprende, además:
    una unidad de determinación de la desviación de la estimación de la diferencia de tiempo entre canales suavizada, que se configura para calcular una desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual en base a la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, el valor de estimación de la trayectoria de retardo de la trama actual y la diferencia de tiempo entre canales de la trama actual; y
    la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual se obtiene a través de cálculo mediante el uso de las siguientes fórmulas de cálculo:
    smooth_dist_reg_update = (1 - y) * smooth_dist_reg y * dist_reg',
    y
    dist_reg' = |reg_prv_corr - cur_itd|,
    en donde
    smooth_dist_reg_update es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual; y es un primer factor de suavizado y 0 < y <1; smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual; y cur_itd es la diferencia de tiempo entre canales de la trama actual.
    20. El aparato de acuerdo con cualquiera de las reivindicaciones 12 a 19, en donde el coeficiente de correlación cruzada ponderado se obtiene a través de cálculo mediante el uso de la siguiente fórmula de cálculo:
    c_weight(x) = c(x) * loc_weight_win (x - TRUNC (reg_prv_corr) TRUNC (A *
    L NCSHIFT DS/2) - L NCSHIFT DS),
    donde c_weight(x) es el coeficiente de correlación cruzada ponderado; c(x) es el coeficiente de correlación cruzada; loc_weight_win es la función de ventana adaptativa de la trama actual; TRUNC indica redondeo de un valor; reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual; x es un número entero mayor o igual que cero y menor o igual que 2 * L_NCSHIFT_DS; A es la constante preestablecida y es mayor o igual que 4; y L _NCSHIFT_DS es el valor máximo del valor absoluto de una diferencia de tiempo entre canales.
    21. El aparato de acuerdo con cualquiera de las reivindicaciones 12 a 20, en donde la unidad de estimación de la trayectoria de retardo se configura para:
    realizar una estimación de la trayectoria de retardo en base a la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada mediante el uso de un método de regresión lineal, para determinar el valor de estimación de la trayectoria de retardo de la trama actual.
    22. El aparato de acuerdo con cualquiera de las reivindicaciones 12 a 20, en donde la unidad de estimación de la trayectoria de retardo se configura para:
    realizar una estimación de la trayectoria de retardo en base a la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada mediante el uso de un método de regresión lineal ponderada, para determinar el valor de estimación de la trayectoria de retardo de la trama actual.
ES18825242T 2017-06-29 2018-06-11 Método y dispositivo de estimación de retardo de tiempo Active ES2893758T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710515887.1A CN109215667B (zh) 2017-06-29 2017-06-29 时延估计方法及装置
PCT/CN2018/090631 WO2019001252A1 (zh) 2017-06-29 2018-06-11 时延估计方法及装置

Publications (1)

Publication Number Publication Date
ES2893758T3 true ES2893758T3 (es) 2022-02-10

Family

ID=64740977

Family Applications (2)

Application Number Title Priority Date Filing Date
ES18825242T Active ES2893758T3 (es) 2017-06-29 2018-06-11 Método y dispositivo de estimación de retardo de tiempo
ES21191953T Active ES2944908T3 (es) 2017-06-29 2018-06-11 Método y dispositivo de estimación de retardo de tiempo

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES21191953T Active ES2944908T3 (es) 2017-06-29 2018-06-11 Método y dispositivo de estimación de retardo de tiempo

Country Status (13)

Country Link
US (2) US11304019B2 (es)
EP (3) EP4235655A3 (es)
JP (3) JP7055824B2 (es)
KR (5) KR102428951B1 (es)
CN (1) CN109215667B (es)
AU (3) AU2018295168B2 (es)
BR (1) BR112019027938A2 (es)
CA (1) CA3068655C (es)
ES (2) ES2893758T3 (es)
RU (1) RU2759716C2 (es)
SG (1) SG11201913584TA (es)
TW (1) TWI666630B (es)
WO (1) WO2019001252A1 (es)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109215667B (zh) * 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置
CN109862503B (zh) * 2019-01-30 2021-02-23 北京雷石天地电子技术有限公司 一种扬声器延时自动调整的方法与设备
EP3751238A4 (en) * 2019-03-15 2021-09-15 Shenzhen Goodix Technology Co., Ltd. CORRECTION CIRCUIT AND ASSOCIATED SIGNAL PROCESSING CIRCUIT, AND CHIP
KR20210154807A (ko) * 2019-04-18 2021-12-21 돌비 레버러토리즈 라이쎈싱 코오포레이션 다이얼로그 검출기
CN110349592B (zh) * 2019-07-17 2021-09-28 百度在线网络技术(北京)有限公司 用于输出信息的方法和装置
CN110895321B (zh) * 2019-12-06 2021-12-10 南京南瑞继保电气有限公司 一种基于录波文件基准通道的二次设备时标对齐方法
KR20220002859U (ko) 2021-05-27 2022-12-06 성기봉 열 순환 마호타일 판넬
CN113382081B (zh) * 2021-06-28 2023-04-07 阿波罗智联(北京)科技有限公司 时延估计调整方法、装置、设备以及存储介质
CN114001758B (zh) * 2021-11-05 2024-04-19 江西洪都航空工业集团有限责任公司 一种捷联导引头捷联解耦准确确定时间延迟的方法

Family Cites Families (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050065786A1 (en) * 2003-09-23 2005-03-24 Jacek Stachurski Hybrid speech coding and system
US7006636B2 (en) * 2002-05-24 2006-02-28 Agere Systems Inc. Coherence-based audio coding and synthesis
AU2002343151A1 (en) * 2001-11-23 2003-06-10 Koninklijke Philips Electronics N.V. Perceptual noise substitution
KR101016982B1 (ko) * 2002-04-22 2011-02-28 코닌클리케 필립스 일렉트로닉스 엔.브이. 디코딩 장치
SE0400998D0 (sv) * 2004-04-16 2004-04-16 Cooding Technologies Sweden Ab Method for representing multi-channel audio signals
DE602005017660D1 (de) 2004-12-28 2009-12-24 Panasonic Corp Audiokodierungsvorrichtung und audiokodierungsmethode
US7573912B2 (en) * 2005-02-22 2009-08-11 Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. Near-transparent or transparent multi-channel encoder/decoder scheme
US8112286B2 (en) 2005-10-31 2012-02-07 Panasonic Corporation Stereo encoding device, and stereo signal predicting method
GB2453117B (en) * 2007-09-25 2012-05-23 Motorola Mobility Inc Apparatus and method for encoding a multi channel audio signal
KR101038574B1 (ko) * 2009-01-16 2011-06-02 전자부품연구원 3차원 오디오 음상 정위 방법과 장치 및 이와 같은 방법을 구현하는 프로그램이 기록되는 기록매체
EP2395504B1 (en) 2009-02-13 2013-09-18 Huawei Technologies Co., Ltd. Stereo encoding method and apparatus
JP4977157B2 (ja) * 2009-03-06 2012-07-18 株式会社エヌ・ティ・ティ・ドコモ 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム
CN101533641B (zh) * 2009-04-20 2011-07-20 华为技术有限公司 对多声道信号的声道延迟参数进行修正的方法和装置
KR20110049068A (ko) * 2009-11-04 2011-05-12 삼성전자주식회사 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법
CN103366748A (zh) * 2010-02-12 2013-10-23 华为技术有限公司 立体声编码的方法、装置
CN102157152B (zh) * 2010-02-12 2014-04-30 华为技术有限公司 立体声编码的方法、装置
CN102074236B (zh) 2010-11-29 2012-06-06 清华大学 一种分布式麦克风的说话人聚类方法
US9424852B2 (en) * 2011-02-02 2016-08-23 Telefonaktiebolaget Lm Ericsson (Publ) Determining the inter-channel time difference of a multi-channel audio signal
CN103700372B (zh) * 2013-12-30 2016-10-05 北京大学 一种基于正交解相关技术的参数立体声编码、解码方法
KR102474541B1 (ko) * 2014-10-24 2022-12-06 돌비 인터네셔널 에이비 오디오 신호들의 인코딩 및 디코딩
CN106033671B (zh) * 2015-03-09 2020-11-06 华为技术有限公司 确定声道间时间差参数的方法和装置
CN106033672B (zh) * 2015-03-09 2021-04-09 华为技术有限公司 确定声道间时间差参数的方法和装置
AU2017229323B2 (en) * 2016-03-09 2020-01-16 Telefonaktiebolaget Lm Ericsson (Publ) A method and apparatus for increasing stability of an inter-channel time difference parameter
CN106209491B (zh) * 2016-06-16 2019-07-02 苏州科达科技股份有限公司 一种时延检测方法及装置
CN106814350B (zh) * 2017-01-20 2019-10-18 中国科学院电子学研究所 基于压缩感知的外辐射源雷达参考信号信杂比估计方法
CN109215667B (zh) * 2017-06-29 2020-12-22 华为技术有限公司 时延估计方法及装置

Also Published As

Publication number Publication date
EP4235655A3 (en) 2023-09-13
AU2022203996A1 (en) 2022-06-30
EP3633674A1 (en) 2020-04-08
EP3989220B1 (en) 2023-03-29
RU2759716C2 (ru) 2021-11-17
JP7055824B2 (ja) 2022-04-18
KR102533648B1 (ko) 2023-05-18
AU2023286019A1 (en) 2024-01-25
CA3068655C (en) 2022-06-14
TW201905900A (zh) 2019-02-01
ES2944908T3 (es) 2023-06-27
TWI666630B (zh) 2019-07-21
CN109215667A (zh) 2019-01-15
US20220191635A1 (en) 2022-06-16
CN109215667B (zh) 2020-12-22
WO2019001252A1 (zh) 2019-01-03
CA3068655A1 (en) 2019-01-03
KR20200017518A (ko) 2020-02-18
KR20210113417A (ko) 2021-09-15
JP2020525852A (ja) 2020-08-27
US11304019B2 (en) 2022-04-12
EP3633674A4 (en) 2020-04-15
KR20240042232A (ko) 2024-04-01
EP3633674B1 (en) 2021-09-15
US11950079B2 (en) 2024-04-02
EP4235655A2 (en) 2023-08-30
AU2022203996B2 (en) 2023-10-19
JP2022093369A (ja) 2022-06-23
AU2018295168B2 (en) 2022-03-10
KR20220110875A (ko) 2022-08-09
RU2020102185A3 (es) 2021-09-09
SG11201913584TA (en) 2020-01-30
EP3989220A1 (en) 2022-04-27
KR20230074603A (ko) 2023-05-30
BR112019027938A2 (pt) 2020-08-18
JP2024036349A (ja) 2024-03-15
US20200137504A1 (en) 2020-04-30
KR102428951B1 (ko) 2022-08-03
JP7419425B2 (ja) 2024-01-22
KR102651379B1 (ko) 2024-03-26
AU2018295168A1 (en) 2020-01-23
KR102299938B1 (ko) 2021-09-09
RU2020102185A (ru) 2021-07-29

Similar Documents

Publication Publication Date Title
ES2893758T3 (es) Método y dispositivo de estimación de retardo de tiempo
ES2928335T3 (es) Método para codificar señales multicanal y codificador
JP2023055951A (ja) マルチチャネル信号を符号化する方法及びエンコーダ
US11915709B2 (en) Inter-channel phase difference parameter extraction method and apparatus
US8041041B1 (en) Method and system for providing stereo-channel based multi-channel audio coding
BR112021007807A2 (pt) analisador, avaliador de similaridade, codificador e decodificador de áudio, conversor de formato, renderizador, métodos e representação de áudio
JP7110401B2 (ja) ステレオ信号符号化方法およびステレオ信号符号化装置
ES2624668T3 (es) Codificación y descodificación de objetos de audio
KR100932790B1 (ko) 음원 간 상호상관을 이용한 멀티트랙 다운믹싱 장치 및 그방법