ES3036065T3 - Time delay estimation method and device - Google Patents
Time delay estimation method and deviceInfo
- Publication number
- ES3036065T3 ES3036065T3 ES23162751T ES23162751T ES3036065T3 ES 3036065 T3 ES3036065 T3 ES 3036065T3 ES 23162751 T ES23162751 T ES 23162751T ES 23162751 T ES23162751 T ES 23162751T ES 3036065 T3 ES3036065 T3 ES 3036065T3
- Authority
- ES
- Spain
- Prior art keywords
- time difference
- current frame
- value
- inter
- raised cosine
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/008—Multichannel audio signal coding or decoding using interchannel correlation to reduce redundancy, e.g. joint-stereo, intensity-coding or matrixing
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S1/00—Two-channel systems
- H04S1/007—Two-channel systems in which the audio signals are in digital form
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/06—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S5/00—Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/03—Aspects of down-mixing multi-channel audio to configurations with lower numbers of playback channels, e.g. 7.1 -> 5.1
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04S—STEREOPHONIC SYSTEMS
- H04S2400/00—Details of stereophonic systems covered by H04S but not provided for in its groups
- H04S2400/05—Generation or adaptation of centre channel in multi-channel audio systems
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
- Compression Or Coding Systems Of Tv Signals (AREA)
- Stereophonic System (AREA)
- Maintenance And Management Of Digital Transmission (AREA)
- Measurement Of Resistance Or Impedance (AREA)
- Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
- Image Analysis (AREA)
Abstract
Esta solicitud divulga un método y un aparato de estimación de retardo, perteneciente al campo del procesamiento de audio. El método incluye: determinar el coeficiente de correlación cruzada de una señal multicanal de un fotograma actual; determinar el valor de estimación de la pista de retardo del fotograma actual basándose en la información almacenada en búfer de la diferencia de tiempo entre canales de al menos un fotograma anterior; determinar la función de ventana adaptativa del fotograma actual; ponderar el coeficiente de correlación cruzada basándose en el valor de estimación de la pista de retardo del fotograma actual y la función de ventana adaptativa del fotograma actual para obtener un coeficiente de correlación cruzada ponderado; y determinar la diferencia de tiempo entre canales del fotograma actual basándose en el coeficiente de correlación cruzada ponderado para resolver el problema de suavizado excesivo o insuficiente del coeficiente de correlación cruzada, mejorando así la precisión de la estimación de la diferencia de tiempo entre canales. (Traducción automática con Google Translate, sin valor legal)
Description
DESCRIPCIÓN
Método y dispositivo de estimación de tiempo de retardo
La presente solicitud reivindica prioridad sobre la solicitud de patente china n.° 201710515887.1, presentada ante la Administración Nacional China de Propiedad Intelectual el 29 de junio de 2017 y titulada “ DELAY ESTIMATION METHOD AND APPARATUS” .
Campo técnico
Esta solicitud se refiere al campo del procesamiento de audio y, en particular, a un método y aparato de estimación de retardo.
Antecedentes
En comparación con una señal mono, gracias a la direccionalidad y la amplitud, las personas prefieren una señal multicanal (tal como una señal estéreo). La señal multicanal incluye al menos dos señales mono. Por ejemplo, la señal estéreo incluye dos señales mono, a saber, una señal de canal izquierdo y una señal de canal derecho. El cifrado de la señal estéreo puede realizar un procesamiento de mezcla descendente en el dominio de tiempo en la señal de canal izquierdo y la señal de canal derecho de la señal estéreo para obtener dos señales, y después cifrar las dos señales obtenidas. Las dos señales son una señal de canal principal y una señal de canal secundario. La señal del canal principal se utiliza para representar información sobre la correlación entre las dos señales mono de la señal estéreo. La señal de canal secundario se utiliza para representar información sobre una diferencia entre las dos señales mono de la señal estéreo.
Un menor retardo entre las dos señales mono indica una señal de canal primario más fuerte, una mayor eficiencia de codificación de la señal estéreo y una mejor calidad de cifrado y descifrado. Por el contrario, un mayor retardo entre las dos señales mono indica una señal de canal secundario más fuerte, menor eficiencia de codificación de la señal estéreo y peor calidad de cifrado y descifrado. Para garantizar un mejor efecto de una señal estéreo obtenida mediante cifrado y descifrado, es necesario estimar el retardo entre las dos señales mono de la señal estéreo, es decir, una diferencia de tiempo entre canales (ITD, diferencia de tiempo entre canales). Las dos señales mono se alinean mediante un procesamiento de alineación de retardo que se realiza basándose en la diferencia de tiempo entre canales estimada, y esto mejora la señal de canal primario.
Un método típico de estimación de retardo en el dominio de tiempo incluye: realizar un procesamiento de suavizado en un coeficiente de correlación cruzada de una señal estéreo de una trama actual que se basa en un coeficiente de correlación cruzada de al menos una trama pasada, para obtener un coeficiente de correlación cruzada suavizado, buscar el coeficiente de correlación cruzada suavizado para un valor máximo, y determinar un valor de índice correspondiente al valor máximo como una diferencia de tiempo entre canales de la trama actual. Un factor de suavizado de la trama actual es un valor obtenido mediante un ajuste adaptativo que se basa la energía de una señal de entrada u otra característica. El coeficiente de correlación cruzada se utiliza para indicar un grado de correlación cruzada entre dos señales mono después de que se ajustan los retardos correspondientes a diferentes diferencias de tiempo entre canales. El coeficiente de correlación cruzada también puede denominarse función de correlación cruzada.
Se utiliza un estándar uniforme (el factor de suavizado de la trama actual) para un dispositivo de codificación de audio, para suavizar todos los valores de correlación cruzada de la trama actual. Esto puede hacer que algunos valores de correlación cruzada se suavicen excesivamente y/o que otros valores de correlación cruzada no se suavicen lo suficiente.
El documento US20170061972A1 describe un método para determinar una diferencia de tiempo entre canales de una señal de audio multicanal que tiene al menos dos canales. Se realiza una determinación en una serie de instancias de tiempo consecutivas, la correlación entre canales se basa en una función de correlación cruzada que implica al menos dos canales diferentes de la señal de audio multicanal. Cada valor de la correlación entre canales se asocia con un valor correspondiente de la diferencia de tiempo entre canales. Un umbral de correlación entre canales adaptativo se determina de forma adaptativa basándose en el suavizado adaptativo de la correlación entre canales en el tiempo. A continuación, se evalúa un valor actual de la correlación entre canales con respecto al umbral de correlación adaptativa entre canales para determinar si el valor actual correspondiente de la diferencia de tiempo entre canales es relevante. Basándose en el resultado de esta evaluación, se determina un valor actualizado de la diferencia de tiempo entre canales.
El documento CN103366748A describe un método para la codificación estéreo que incluye: convertir al dominio de frecuencia una señal estéreo de canal izquierdo y una señal de canal derecho en el dominio de tiempo para formar una señal de canal izquierdo y una señal de canal derecho en el dominio de frecuencia; hacer una mezcla descendente de la señal de canal izquierdo y la señal de canal derecho en el dominio de frecuencia para generar una señal de mezcla descendente monocanal y transmitir bits de señal de mezcla descendente cuantificados y codificados; extraer parámetros espaciales de la señal de canal izquierdo y la señal de canal derecho en el dominio de frecuencia; estimar el retardo de grupo y la fase de grupo entre el canal izquierdo estéreo y el canal derecho utilizando la señal de canal izquierdo y la señal de canal derecho en el dominio de frecuencia; cuantificar y codificar el retardo de grupo, la fase de grupo y los parámetros espaciales para obtener una capacidad de codificación estéreo de alta calidad a una velocidad de codificación baja.
Resumen
Las realizaciones de esta solicitud proporcionan un método y un aparato de estimación de retardo, para resolver el problema de que una diferencia de tiempo entre canales que se estima mediante un dispositivo de codificación de audio es inexacta debido a un suavizado excesivo o un suavizado insuficiente que se realiza mediante el dispositivo de codificación de audio en un valor de correlación cruzada de un coeficiente de correlación cruzada de una trama actual.
La presente invención se define mediante las reivindicaciones independientes. Las características adicionales de la invención se presentan en las reivindicaciones dependientes. A continuación, las partes de la descripción y los dibujos que se refieren a las realizaciones que no cubren las reivindicaciones no se presentan como realizaciones de la invención, sino como ejemplos útiles para comprender la invención.
Breve descripción de los dibujos
La figura 1 es un diagrama estructural esquemático de un sistema de cifrado y descifrado de señal estéreo según una realización de esta solicitud;
la figura 2 es un diagrama estructural esquemático de un sistema de cifrado y descifrado de señales estéreo según otra realización de ejemplo de esta solicitud;
la figura 3 es un diagrama estructural esquemático de un sistema de cifrado y descifrado de señales estéreo según con otra realización de ejemplo de esta solicitud;
la figura 4 es un diagrama esquemático de una diferencia de tiempo entre canales según una realización de ejemplo de esta solicitud;
la figura 5 es un diagrama de flujo de un método de estimación de retardo según una realización de ejemplo de esta solicitud;
la figura 6 es un diagrama esquemático de una función de ventana adaptativa según una realización de ejemplo de esta solicitud;
la figura 7 es un diagrama esquemático de una relación entre un parámetro de ancho de coseno elevado e información de desviación de la estimación de la diferencia de tiempo entre canales según una realización de ejemplo de esta solicitud;
la figura 8 es un diagrama esquemático de una relación entre una polarización de la altura de coseno elevado e información de desviación de la estimación de la diferencia de tiempo entre canales según una realización de ejemplo de esta solicitud;
la figura 9 es un diagrama esquemático de una memoria intermedia según una realización de ejemplo de esta solicitud. la figura 10 es un diagrama esquemático de la actualización de la memoria intermedia según una realización de ejemplo de esta solicitud;
la figura 11 es un diagrama estructural esquemático de un dispositivo de codificación de audio según una realización de ejemplo de esta solicitud; y
la figura 12 es un diagrama en bloque de un aparato de estimación de retardo según una realización de esta solicitud.
Descripción de las realizaciones
Las palabras “ primero” , “ segundo” y palabras similares mencionadas en esta especificación no significan ningún orden, cantidad o importancia, pero se utilizan para distinguir entre diferentes componentes. De igual manera, “ uno” , “ un/una” o similar tampoco pretende indicar una limitación de cantidad, sino que pretende indicar que existe al menos uno. “ Conexión” , “ enlace” o similar no se limita a una conexión física o mecánica, sino que puede incluir una conexión eléctrica, sin importar si es una conexión directa o indirecta.
En esta especificación, “ una pluralidad de” se refiere a dos o más de dos. El término “y/o” describe una relación de asociación para describir objetos asociados y representa que pueden existir tres relaciones. Por ejemplo, A y/o B pueden representar los tres casos siguientes: Solo existe A, existen tanto A como B, y sólo existe B. Además, el carácter “ /” indica generalmente una relación “ o” entre los objetos asociados.
la figura 1 es un diagrama estructural esquemático de un sistema de cifrado y descifrado estéreo en el dominio de tiempo según una realización de ejemplo de esta solicitud. El sistema de cifrado y descifrado estéreo incluye un componente 110 de cifrado y un componente 120 de descifrado.
El componente 110 de cifrado se configura para cifrar una señal estéreo en el dominio de tiempo. Opcionalmente, el componente 110 de cifrado puede implementarse mediante el uso de software, puede implementarse mediante el uso de hardware o puede implementarse en forma de una combinación de software y hardware. Esto no se limita en esta realización.
El cifrado de una señal estéreo en el dominio de tiempo por el componente 110 de cifrado incluye los siguientes pasos: (1) Realizar un preprocesamiento en el dominio de tiempo en una señal estéreo obtenida para obtener una señal de canal izquierdo preprocesada y una señal de canal derecho preprocesada.
La señal estéreo se recopila por un componente de recopilación y se envía al componente 110 de cifrado. Opcionalmente, el componente de recopilación y el componente 110 de cifrado pueden disponerse en un mismo dispositivo o en diferentes dispositivos.
La señal de canal izquierdo preprocesada y la señal de canal derecho preprocesada son dos señales de la señal estéreo preprocesada.
Opcionalmente, el preprocesamiento incluye al menos uno de los siguientes: procesamiento de filtrado de alto paso, procesamiento de preacentuación, conversión de frecuencia de muestreo y conversión de canal. Esto no se limita en esta realización.
(2) Realizar una estimación de retardo que se basa en la señal de canal izquierdo preprocesada y la señal de canal derecho preprocesada para obtener una diferencia de tiempo entre canales entre la señal de canal izquierdo preprocesada y la señal de canal derecho preprocesada.
(3) Realizar el procesamiento de alineación de retardo en la señal de canal izquierdo preprocesada y la señal de canal derecho preprocesada que se basa en la diferencia de tiempo entre canales, para obtener una señal de canal izquierdo obtenida después del procesamiento de alineación de retardo y una señal de canal derecho obtenida después del procesamiento de alineación de retardo.
(4) Cifrar la diferencia de tiempo entre canales para obtener un índice de cifrado de la diferencia de tiempo entre canales.
(5) Calcular un parámetro estéreo que se usó para el procesamiento de mezcla descendente en el dominio de tiempo y cifrado el parámetro estéreo que se usó para el procesamiento de mezcla descendente en el dominio de tiempo para obtener un índice de cifrado del parámetro estéreo que se usó para el procesamiento de mezcla descendente en el dominio de tiempo.
El parámetro estéreo que se usó para el procesamiento de mezcla descendente en el dominio de tiempo se utiliza para realizar el procesamiento de mezcla descendente en el dominio de tiempo en la señal de canal izquierdo obtenida después del procesamiento de alineación de retardo y la señal de canal derecho obtenida después del procesamiento de alineación de retardo.
(6) Realizar, basándose en el parámetro estéreo que se usó para el procesamiento de mezcla descendente en el dominio de tiempo, el procesamiento de mezcla descendente en el dominio de tiempo en la señal de canal izquierdo y la señal de canal derecho que se obtienen después del procesamiento de alineación de retardo, para obtener una señal de canal primario y una señal de canal secundario.
El procesamiento de mezcla descendente en el dominio de tiempo se utiliza para obtener la señal de canal primario y la señal de canal secundario.
Después de que se procesan la señal de canal izquierdo y la señal de canal derecho que se obtienen después del procesamiento de alineación de retardo mediante el uso de una tecnología de mezcla descendente en el dominio de tiempo, se obtienen la señal de canal primario (canal primario, o la denominada señal del canal medio (canal medio)), y el canal secundario (canal secundario o la denominada señal de canal lateral (canal lateral)).
La señal de canal primario se utiliza para representar información acerca de la correlación entre canales, y la señal de canal secundario se utiliza para representar información acerca de una diferencia entre canales. Cuando la señal de canal izquierdo y la señal de canal derecho que se obtienen después del procesamiento de alineación de retardo se alinean en el dominio de tiempo, la señal de canal secundario es la más débil y, en este caso, la señal estéreo tiene un mejor efecto.
Se hace referencia a una señal de canal izquierdo preprocesada L y una señal de canal derecho preprocesada R en una nésima trama mostrada en la figura 4. La señal de canal izquierdo preprocesada L se encuentra antes de la señal de canal derecho preprocesada R. En otras palabras, en comparación con la señal de canal derecho preprocesada R, la señal de canal izquierdo preprocesada L tiene un retardo, y hay una diferencia de tiempo entre canales 21 entre la señal de canal izquierdo preprocesada L y la señal de canal derecho preprocesada R. En este caso, la señal de canal secundario se mejora, la señal de canal primario se debilita y la señal estéreo tiene relativamente poco efecto.
(7) Cifrar por separado la señal de canal primario y la señal de canal secundario para obtener un primer flujo de bits cifrados mono correspondiente a la señal de canal primario y un segundo flujo de bits cifrados mono correspondiente a la señal de canal secundario.
(8) Escribir el índice de cifrado de la diferencia de tiempo entre canales, el índice de cifrado del parámetro estéreo, el primer flujo de bits cifrado en mono y el segundo flujo de bits cifrado en mono en un flujo de bits cifrado en estéreo.
El componente 120 de descifrado se configura para descifrar el flujo de bits cifrado en estéreo generado por el componente 110 de cifrado para obtener la señal estéreo.
Opcionalmente, el componente 110 de cifrado se conecta al componente 120 de decodificación de forma cableada o inalámbrica, y el componente 120 de decodificación obtiene, a través de la conexión, el flujo de bits cifrado en estéreo generado por el componente 110 de cifrado. Alternativamente, el componente 110 de cifrado almacena el flujo de bits cifrado en estéreo generado en una memoria, y el componente 120 de descifrado lee el flujo de bits cifrado en estéreo en la memoria.
Opcionalmente, el componente 120 de descifrado puede implementarse mediante el uso de software, puede implementarse mediante el uso de hardware o puede implementarse en forma de una combinación de software y hardware. Esto no se limita en esta realización.
El descifrado del flujo de bits cifrado en estéreo para obtener la señal estéreo mediante el componente 120 de descifrado incluye los siguientes pasos:
(1) Decodificar el primer flujo de bits cifrado en mono y el segundo flujo de bits cifrado en mono en el flujo de bits cifrado en estéreo para obtener la señal de canal primario y la señal de canal secundario.
(2) Obtener, basándose en el flujo de bits cifrado en estéreo, un índice de descifrado de un parámetro estéreo que se utiliza para el procesamiento de mezcla ascendente en el dominio de tiempo y realizar el procesamiento de mezcla ascendente en el dominio de tiempo en la señal de canal primario y la señal de canal secundario para obtener una señal de canal izquierdo obtenida después del procesamiento de mezcla ascendente de dominio de tiempo y una señal de canal derecho obtenida después del procesamiento de mezcla ascendente de dominio de tiempo.
(3) Obtener el índice de cifrado de la diferencia de tiempo entre canales basándose en el flujo de bits cifrado en estéreo y realizar el ajuste de retardo en la señal de canal izquierdo obtenida después del procesamiento de mezcla ascendente en el dominio de tiempo y la señal de canal derecho obtenida después del procesamiento de mezcla ascendente en el dominio de tiempo para obtener la señal estéreo.
Opcionalmente, el componente 110 de cifrado y el componente 120 de descifrado pueden disponerse en un mismo dispositivo, o pueden disponerse en diferentes dispositivos. El dispositivo puede ser una terminal móvil que tiene una función de procesamiento de señales de audio, como un teléfono móvil, una tableta, un ordenador portátil, un ordenador de sobremesa, un altavoz bluetooth, una grabadora de lápiz o un dispositivo utilizable; o puede ser un elemento de red que tenga capacidad de procesamiento de señales de audio en una red central o una red de radio. Esto no se limita en esta realización.
Por ejemplo, con referencia a la figura 2, un ejemplo en el que el componente 110 de cifrado se dispone en una terminal móvil 130, y el componente 120 de descifrado se dispone en una terminal móvil 140. El terminal móvil 130 y el terminal móvil 140 son dispositivos electrónicos independientes con capacidad de procesamiento de señales de audio, y el terminal móvil 130 y el terminal móvil 140 se conectan entre sí mediante el uso de una red inalámbrica o cableada que se utiliza en esta realización para la descripción.
Opcionalmente, el terminal móvil 130 incluye un componente 131 de recopilación, el componente 110 de cifrado y un componente 132 de cifrado de canal. El componente 131 de recopilación se conecta al componente 110 de cifrado, y el componente 110 de cifrado se conecta al componente 132 de cifrado de canal.
Opcionalmente, el terminal móvil 140 incluye un componente 141 de reproducción de audio, el componente 120 de descifrado y un componente 142 de descifrado de canal. El componente 141 de reproducción de audio se conecta al componente 110 de descifrado, y el componente 110 de descifrado se conecta al componente 132 de cifrado de canal.
Después de recopilar la señal estéreo mediante el uso del componente 131 de recopilación, el terminal móvil 130 cifra la señal estéreo mediante el uso del componente 110 de cifrado para obtener el flujo de bits cifrado en estéreo. Entonces, el terminal móvil 130 cifra el flujo de bits cifrado en estéreo mediante el uso del componente 132 de cifrado de canal para obtener una señal de transmisión.
El terminal móvil 130 envía la señal de transmisión al terminal móvil 140 mediante el uso de la red inalámbrica o cableada.
Después de recibir la señal de transmisión, el terminal móvil 140 decodifica la señal de transmisión mediante el uso del componente 142 de decodificación de canal para obtener el flujo de bits cifrado en estéreo, decodifica el flujo de bits cifrado en estéreo mediante el uso del componente 110 de decodificación para obtener la señal estéreo y reproduce la señal estéreo mediante el uso del componente 141 de reproducción de audio.
Por ejemplo, con referencia a la figura 3, esta realización se describe mediante el uso de un ejemplo en el que el componente 110 de cifrado y el componente 120 de descifrado se disponen en un mismo elemento 150 de red que tiene una capacidad de procesamiento de señales de audio en una red central o una red de radio.
Opcionalmente, el elemento 150 de red incluye un componente 151 de descifrado de canal, el componente 120 de descifrado, el componente 110 de cifrado y un componente 152 de cifrado de canal. El componente 151 de descifrado de canal se conecta al componente 120 de descifrado, el componente 120 de descifrado se conecta al componente 110 de cifrado, y el componente 110 de cifrado se conecta al componente 152 de cifrado de canal.
Después de recibir una señal de transmisión enviada por otro dispositivo, el componente 151 de descifrado de canal descifra la señal de transmisión para obtener un primer flujo de bits cifrado en estéreo, descifra el flujo de bits cifrado en estéreo mediante el uso del componente 120 de descifrado para obtener una señal estéreo, cifra la señal estéreo mediante el uso del componente 110 de cifrado para obtener un segundo flujo de bits cifrado en estéreo, y cifra el segundo flujo de bits cifrado en estéreo mediante el uso del componente 152 de cifrado de canal para obtener una señal de transmisión.
El otro dispositivo puede ser una terminal móvil que tenga una capacidad de procesamiento de señales de audio, o puede ser otro elemento de red que tenga una capacidad de procesamiento de señales de audio. Esto no se limita en esta realización.
Opcionalmente, el componente 110 de cifrado y el componente 120 de descifrado en el elemento de red pueden transcodificar un flujo de bits cifrado en estéreo enviado por el terminal móvil.
Opcionalmente, en esta realización, un dispositivo en el que se instala el componente 110 de cifrado se denomina dispositivo de codificación de audio. En la implementación real, el dispositivo de codificación de audio también puede tener una función de decodificación de audio. Esto no se limita en esta realización.
Opcionalmente, en esta realización, solo se utiliza la señal estéreo como ejemplo para la descripción. En esta solicitud, el dispositivo de codificación de audio puede procesar además una señal multicanal, donde la señal multicanal incluye al menos dos señales de canal.
Más abajo se describen varios sustantivos en las realizaciones de esta solicitud.
Una señal multicanal de una trama actual es una trama de señales multicanal que se utiliza para estimar una diferencia de tiempo entre canales actual. La señal multicanal de la trama actual incluye al menos dos señales de canal. Las señales de canal de diferentes canales pueden recopilarse mediante el uso de diferentes componentes de recopilación de audio en el dispositivo de codificación de audio, o las señales de canal de diferentes canales pueden recopilarse mediante diferentes componentes de recopilación de audio en otro dispositivo. Las señales de canal de diferentes canales se transmiten desde una misma fuente de sonido.
Por ejemplo, la señal multicanal de la trama actual incluye una señal de canal izquierdo L y una señal de canal derecho R. La señal de canal izquierdo L se recopila mediante el uso de un componente de recopilación de audio del canal izquierdo, la señal de canal derecho R se recopila mediante el uso de un componente de recopilación de audio del canal derecho, y la señal de canal izquierdo L y la señal de canal derecho R provienen de una misma fuente de sonido.
Con referencia a la figura 4, un dispositivo de codificación de audio estima una diferencia de tiempo entre canales de una señal multicanal de una nésima trama, y la nésima trama es la trama actual.
Una trama anterior de la trama actual es una primera trama que se encuentra antes de la trama actual, por ejemplo, si la trama actual es la nésima trama, la trama anterior de la trama actual es una (n - l ) ésima trama.
Opcionalmente, la trama anterior de la trama actual también puede denominarse brevemente trama anterior.
Una trama pasada se ubica antes de la trama actual en el dominio de tiempo, y la trama pasada incluye la trama anterior de la trama actual, las primeras dos tramas de la trama actual, las primeras tres tramas de la trama actual y similares. Con referencia a la figura 4, si la trama actual es la nésima trama, la trama pasada incluye: la (n - l ) ésima trama, la (n - 2)ésima trama, ..., y la primera trama.
Opcionalmente, en esta solicitud, al menos una trama pasada pueden ser M tramas ubicadas antes de la trama actual, por ejemplo, ocho tramas ubicadas antes de la trama actual.
Una siguiente trama es una primera trama después de la trama actual. Con referencia a la figura 4, si la trama actual es la nésima trama, la trama siguiente es una (n l ) ésima trama.
La longitud de una trama es la duración de una trama de señales multicanal. Opcionalmente, la longitud de la trama se representa mediante una cantidad de puntos de muestreo, por ejemplo, una longitud de trama N = 320 puntos de muestreo.
Se utiliza un coeficiente de correlación cruzada para representar un grado de correlación cruzada entre señales de canal de diferentes canales en la señal multicanal de la trama actual bajo diferentes diferencias de tiempo entre canales. El grado de correlación cruzada se representa mediante el uso de un valor de correlación cruzada. Para cualquier señal de dos canales en la señal multicanal de la trama actual, bajo una diferencia de tiempo entre canales, si las señales de dos canales obtenidas después del ajuste de retardo se realiza basándose en la diferencia de tiempo entre canales son más similares, el grado de la correlación cruzada es más fuerte y el valor de correlación cruzada es mayor, o si una diferencia entre dos señales de canal obtenidas después de realizar el ajuste de retardo basándose en la diferencia de tiempo entre canales es mayor, el grado de correlación cruzada es más débil y el valor de correlación es menor.
Un valor de índice del coeficiente de correlación cruzada corresponde a una diferencia de tiempo entre canales, y un valor de correlación cruzada correspondiente a cada valor de índice del coeficiente de correlación cruzada representa un grado de correlación cruzada entre dos señales mono que se obtienen después del ajuste de retardo y que corresponden a cada diferencia de tiempo entre canales.
Opcionalmente, el coeficiente de correlación cruzada (coeficientes de correlación cruzada) también puede referirse a un grupo de valores de correlación cruzada o una función de correlación cruzada. Esto no está limitado en esta solicitud.
Con referencia a la figura 4, cuando se calcula un coeficiente de correlación cruzada de una señal de canal de una nésima trama, los valores de correlación cruzada entre la señal de canal izquierdo L y la señal de canal derecho R se calculan por separado bajo diferentes diferencias de tiempo entre canales.
Por ejemplo, cuando el valor del índice del coeficiente de correlación cruzada es 0, la diferencia de tiempo entre canales es -N/2 puntos de muestreo, y la diferencia de tiempo entre canales se utiliza para alinear la señal de canal izquierdo L y la señal de canal derecho R para obtener el valor de correlación cruzada k0;
cuando el valor de índice del coeficiente de correlación cruzada es 1, la diferencia de tiempo entre canales es (-N/2 1) puntos de muestreo, y la diferencia de tiempo entre canales se utiliza para alinear la señal de canal izquierdo L y la señal de canal derecho R para obtener el valor de correlación cruzada k1;
cuando el valor de índice del coeficiente de correlación cruzada es 2, la diferencia de tiempo entre canales es (-N/2 2) puntos de muestreo, y la diferencia de tiempo entre canales se utiliza para alinear la señal de canal izquierdo L y la señal de canal derecho R para obtener el valor de correlación cruzada k2;
cuando el valor de índice del coeficiente de correlación cruzada es 3, la diferencia de tiempo entre canales es (-N/2 3) puntos de muestreo, y la diferencia de tiempo entre canales se utiliza para alinear la señal de canal izquierdo L y la señal de canal derecho R para obtener el valor de correlación cruzada k3; ..., y
cuando el valor del índice del coeficiente de correlación cruzada es N, la diferencia de tiempo entre canales es N/2 puntos de muestreo, y la diferencia de tiempo entre canales se utiliza para alinear la señal de canal izquierdo L y la señal de canal derecho R para obtener el valor de correlación cruzada kN.
Se busca un valor máximo de k0 a kN, por ejemplo, k3 es el máximo. En este caso, indica que cuando la diferencia de tiempo entre canales es (-N/2 3) puntos de muestreo, la señal de canal izquierdo L y la señal de canal derecho son más similares, en otras palabras, la diferencia de tiempo entre canales es la más cercana a una diferencia de tiempo real entre canales.
Se debe señalar que esta realización solo se utiliza para describir un principio según el cual el dispositivo de codificación de audio determina la diferencia de tiempo entre canales mediante el uso del coeficiente de correlación cruzada. En la implementación real, la diferencia de tiempo entre canales puede no determinarse mediante el uso del método anterior.
La figura 5 es un diagrama de flujo de un método de estimación de retardo según una realización de ejemplo de esta solicitud. El método incluye los varios pasos siguientes.
Paso 301: Determinar un coeficiente de correlación cruzada de una señal multicanal de una trama actual.
Paso 302: Determinar un valor de estimación de la trayectoria de retardo de la trama actual basándose en la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de al menos una trama pasada.
Opcionalmente, la al menos una trama pasada es consecutiva en el tiempo, y una última trama en la al menos una trama pasada y la trama actual son consecutivas en el tiempo. En otras palabras, la última trama pasada en al menos una trama pasada es una trama anterior de la trama actual. Alternativamente, la al menos una trama pasada se separa por una cantidad predeterminada de tramas en el tiempo, y una última trama pasada en la al menos una trama pasada se separa por una cantidad predeterminada de tramas desde la trama actual. Alternativamente, la al menos una trama pasada no es consecutiva en el tiempo, una cantidad de tramas separadas entre el al menos una trama pasada no es fija, y una cantidad de tramas entre una última trama pasada en al menos una trama pasada y la trama actual no es fija. Un valor de la cantidad predeterminada de tramas no se limita en esta realización, por ejemplo, dos tramas.
En esta realización, la cantidad de tramas pasadas no se limita. Por ejemplo, la cantidad de tramas anteriores es 8, 12 y 25.
El valor de estimación de la trayectoria de retardo se utiliza para representar un valor predicho de una diferencia de tiempo entre canales de la trama actual. En esta realización, se simula una trayectoria de retardo basándose en la información de diferencia de tiempo entre canales de la al menos una trama pasada, y el valor de estimación de la trayectoria de retardo de la trama actual se calcula basándose en la trayectoria de retardo.
Opcionalmente, la información de diferencia de tiempo entre canales de la al menos una trama pasada es una diferencia de tiempo entre canales de la al menos una trama pasada, o un valor suavizado de diferencia de tiempo entre canales de la al menos una trama pasada.
Se determina un valor suavizado de diferencia de tiempo entre canales de cada trama pasada basándose en un valor de estimación de la trayectoria de retardo de la trama y una diferencia de tiempo entre canales de la trama.
Paso 303: Determinar una función de ventana adaptativa de la trama actual.
Opcionalmente, la función de ventana adaptativa es una función de ventana de tipo coseno elevado. La función de ventana adaptativa tiene la función de agrandar relativamente una parte media y suprimir una parte de borde.
Opcionalmente, las funciones de ventana adaptativa correspondientes a tramas de señales de canal son diferentes.
La función de ventana adaptativa se representa mediante las siguientes fórmulas:
cuando
0 < k < TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_widlh - 1
loc_weight_\vin(k) = w inbias
cuando TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width < k < TRUNC(A * L_NCSHIFT_DS/2) 2 * win_width -1,
loc_weight_win(k) = 0,5 * (1 win_bias) 0,5 * (1 - win_bias) * cos(n *(k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width));
y
cuando
TRUNC(A * L NCSHIFT DS/2) 2 * vvin widlh < k < A * L NCSIIIFT DS
loe weight \vin(k) = win bias
loc_weight_win (k) se utiliza para representar la función de ventana adaptativa, donde k = 0, 1, ..., A * L_NCSHIFT_DS; A es una constante preestablecida mayor o igual a 4, por ejemplo, A = 4; TRUNC indica el redondeo de un valor, por ejemplo, el redondeo de valor de A * L_NCSHIFT_DS/2 en la fórmula de la función de ventana adaptativa; L_NCSHIFT_DS es un valor máximo de un valor absoluto de una diferencia de tiempo entre canales; win_width se utiliza para representar un parámetro de ancho de coseno elevado de la función de ventana adaptativa; y win_bias se utiliza para representar una polarización de la altura de coseno elevado de la función de ventana adaptativa.
Opcionalmente, el valor máximo del valor absoluto de la diferencia de tiempo entre canales es un número positivo preestablecido y, por lo general, es un número entero positivo mayor que cero y menor o igual que una longitud de trama, por ejemplo, 40, 60 u 80.
Opcionalmente, un valor máximo de la diferencia de tiempo entre canales o un valor mínimo de la diferencia de tiempo entre canales es un número entero positivo preestablecido, y el valor máximo del valor absoluto de la diferencia de tiempo entre canales se obtiene tomando un valor absoluto. El valor del valor máximo de la diferencia de tiempo entre canales, o el valor máximo del valor absoluto de la diferencia de tiempo entre canales, se obtiene tomando un valor absoluto del valor mínimo de la diferencia de tiempo entre canales.
Por ejemplo, el valor máximo de la diferencia de tiempo entre canales es 40, el valor mínimo de la diferencia de tiempo entre canales es -40 y el valor máximo del valor absoluto de la diferencia de tiempo entre canales es 40, que se obtiene tomando un valor absoluto del valor máximo de la diferencia de tiempo entre canales y también se obtiene tomando un valor absoluto del valor mínimo de la diferencia de tiempo entre canales.
Para otro ejemplo, el valor máximo de la diferencia de tiempo entre canales es 40, el valor mínimo de la diferencia de tiempo entre canales es -20 y el valor máximo del valor absoluto de la diferencia de tiempo entre canales es 40, que se obtiene tomando un valor absoluto del valor máximo de la diferencia de tiempo entre canales.
Para otro ejemplo, el valor máximo de la diferencia de tiempo entre canales es 40, el valor mínimo de la diferencia de tiempo entre canales es -60 y el valor máximo del valor absoluto de la diferencia de tiempo entre canales es 60, que se obtiene tomando un valor absoluto del valor mínimo de la diferencia de tiempo entre canales.
Puede aprenderse de la fórmula de la función de ventana adaptativa que la función de ventana adaptativa es una ventana de tipo coseno elevado con una altura fija en ambos lados y una convexidad en el medio. La función de ventana adaptativa incluye una ventana de peso constante y una ventana de coseno elevado con una polarización de la altura. El peso de la ventana de peso constante se determina basándose en la polarización de la altura. La función de ventana adaptativa está determinada principalmente por dos parámetros: el parámetro de ancho de coseno elevado y la polarización de la altura de coseno elevado.
Se hace referencia a un diagrama esquemático de una función de ventana adaptativa mostrada en la figura 6. En comparación con una ventana ancha 402, una ventana estrecha 401 significa que el ancho de ventana de una ventana de coseno elevado en la función de ventana adaptativa es relativamente pequeño, y una diferencia entre un valor de estimación de la trayectoria de retardo correspondiente a la ventana estrecha 401 y una diferencia de tiempo entre canales real es relativamente pequeña. En comparación con la ventana estrecha 401, la ventana ancha 402 significa que el ancho de la ventana de coseno elevado en la función de ventana adaptativa es relativamente grande, y una diferencia entre un valor de estimación de la trayectoria de retardo correspondiente a la ventana ancha 402 y la diferencia de tiempo entre canales real es relativamente grande. En otras palabras, el ancho de la ventana de coseno elevado en la función de ventana adaptativa se correlaciona positivamente con la diferencia entre el valor de estimación de la trayectoria de retardo y la diferencia de tiempo real entre canales.
El parámetro de ancho de coseno elevado y la polarización de la altura de coseno elevado de la función de ventana adaptativa se relacionan con la información de desviación de la estimación de la diferencia de tiempo entre canales de una señal multicanal de cada trama. La información de desviación de la estimación de la diferencia de tiempo entre canales se utiliza para representar una desviación entre un valor predicho de una diferencia de tiempo entre canales y un valor real.
Se hace referencia a un diagrama esquemático de una relación entre un parámetro de ancho de coseno elevado y la información de desviación de la estimación de la diferencia de tiempo entre canales mostrada en la figura 7. Si un valor límite superior del parámetro de ancho de coseno elevado es 0,25, un valor de la información de desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite superior del parámetro de ancho de coseno elevado es 3,0. En este caso, el valor de la información de desviación de la estimación de la diferencia de tiempo entre canales es relativamente grande, y el ancho de ventana de una ventana de coseno elevado en una función de ventana adaptativa es relativamente grande (consulte la ventana ancha 402 en la figura 6). Si un valor límite inferior del parámetro de ancho de coseno elevado de la función de ventana adaptativa es 0,04, un valor de la información de desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior del parámetro de ancho de coseno elevado es 1,0. En este caso, el valor de la información de desviación de la estimación de la diferencia de tiempo entre canales es relativamente pequeño, y el ancho de ventana de la ventana de coseno elevado en la función de ventana adaptativa es relativamente pequeño (consulte la ventana estrecha 401 en la figura 6).
Se hace referencia a un diagrama esquemático de una relación entre una polarización de la altura de coseno elevado y la información de desviación de la estimación de la diferencia de tiempo entre canales mostrada en la figura 8. Si un valor límite superior de la polarización de la altura de coseno elevado es 0,7, un valor de la información de la desviación de la estimación de la diferencia de tiempo entre canales interno correspondiente al valor límite superior de la polarización de la altura de coseno elevado es 3,0. En este caso, la desviación de la estimación de la diferencia de tiempo entre canales suavizada es relativamente grande, y la desviación de altura de una ventana de coseno elevado en una función de ventana adaptativa es relativamente grande (consulte la ventana ancha 402 en la figura 6). Si un valor límite inferior de la polarización de la altura de coseno elevado es 0,4, un valor de la información de la desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior de la polarización de la altura de coseno elevado es 1,0. En este caso, el valor de la información de desviación de la estimación de la diferencia de tiempo entre canales es relativamente pequeño, y la polarización de la altura de la ventana de coseno elevado en la función de ventana adaptativa es relativamente pequeño (consulte la ventana estrecha 401 en la figura 6).
Paso 304: Realizar una ponderación del coeficiente de correlación cruzada basándose en el valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, para obtener un coeficiente de correlación cruzada ponderado.
El coeficiente de correlación cruzada ponderado puede obtenerse mediante cálculo mediante el uso de la siguiente fórmula de cálculo:
c_weight(x) = c(x) * loc_weight_win(x - TRUNC(reg_prv_corr) TRUNC(A * L_NCSHIFT_DS/2) - L_NCSHIFT_DS).
c_weight (x) es el coeficiente de correlación cruzada ponderado; c (x) es el coeficiente de correlación cruzada; loc_weight_win es la función de ventana adaptativa de la trama actual; TRUNC indica el redondeo de un valor, por ejemplo, el redondeo de reg_prv_corr en la fórmula del coeficiente de correlación cruzada ponderado y el redondeo de un valor de A* L_NCSHIFT_DS/2; reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual; y x es una integral mayor o igual que cero y menor o igual que 2 * L_NCSHIFT_DS.
La función de ventana adaptativa es la ventana de tipo coseno elevado y tiene la función de agrandar relativamente una parte media y suprimir una parte de borde. Por lo tanto, cuando la ponderación se realiza sobre el coeficiente de correlación cruzada basándose en el valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, si un valor de índice está más cerca del valor de estimación de la trayectoria de retardo, un coeficiente de ponderación de un valor de correlación cruzada correspondiente es mayor, y si el valor del índice está más lejos del valor de estimación de la trayectoria de retardo, el coeficiente de ponderación del valor de correlación cruzada correspondiente es menor. El parámetro de ancho de coseno elevado y la polarización de la altura de coseno elevado de la función de ventana adaptativa suprimen de forma adaptativa el valor de correlación cruzada correspondiente al valor de índice, lejos del valor de estimación de la trayectoria de retardo, en el coeficiente de correlación cruzada.
Paso 305: Determinar una diferencia de tiempo entre canales de la trama actual basándose en el coeficiente de correlación cruzada ponderado.
La determinación de una diferencia de tiempo entre canales de la trama actual en función del coeficiente de correlación cruzada ponderado incluye: buscar un valor máximo del valor de correlación cruzada en el coeficiente de correlación cruzada ponderado; y determinar la diferencia de tiempo entre canales de la trama actual en función de un valor de índice correspondiente al valor máximo.
Opcionalmente, la búsqueda de un valor máximo del valor de correlación cruzada en el coeficiente de correlación cruzada ponderado incluye: comparar un segundo valor de correlación cruzada con un primer valor de correlación cruzada en el coeficiente de correlación cruzada para obtener un valor máximo en el primer valor de correlación cruzada y el segundo valor de correlación cruzada; comparar un tercer valor de correlación cruzada con el valor máximo para obtener un valor máximo en el tercer valor de correlación cruzada y el valor máximo; y en un orden cíclico, comparar un iésimo valor de correlación cruzada con un valor máximo obtenido a través de una comparación previa para obtener un valor máximo en el iésimo valor de correlación cruzada y el valor máximo obtenido a través de la comparación previa. Se asume que i = i 1, y el paso de comparar un iésimo valor de correlación cruzada con un valor máximo obtenido a través de la comparación previa se realiza continuamente hasta que se comparan todos los valores de correlación cruzada, para obtener un valor máximo en los valores de correlación, donde i es un número entero mayor que 2.
Opcionalmente, la determinación de la diferencia de tiempo entre canales de la trama actual basándose en un valor de índice correspondiente al valor máximo incluye: utilizar una suma del valor de índice correspondiente al valor máximo y el valor mínimo de la diferencia de tiempo entre canales como la diferencia de tiempo entre canales de la trama actual.
El coeficiente de correlación cruzada puede reflejar un grado de correlación cruzada entre dos señales de canal obtenidas después de que se ajusta un retardo basándose en diferentes diferencias de tiempo entre canales, y existe una correspondencia entre un valor de índice del coeficiente de correlación cruzada y una diferencia de tiempo entre canales. Por lo tanto, un dispositivo de codificación de audio puede determinar la diferencia de tiempo entre canales de la trama actual basándose en un valor de índice correspondiente a un valor máximo del coeficiente de correlación cruzada (con un grado más alto de correlación cruzada).
En conclusión, según el método de estimación de retardo que se proporciona en esta realización, la diferencia de tiempo entre canales de la trama actual se predice basándose en el valor de estimación de la trayectoria de retardo de la trama actual, y la ponderación se realiza en el coeficiente de correlación cruzada basándose en el valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual. La función de ventana adaptativa es la ventana de tipo coseno elevado, y tiene la función de agrandar relativamente la parte media y suprimir la parte del borde. Por lo tanto, cuando la ponderación se realiza sobre el coeficiente de correlación cruzada basándose en el valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, si un valor de índice está más cerca del valor de estimación de la trayectoria de retardo, se aplica un coeficiente de ponderación mayor, lo que evita el problema de que un primer coeficiente de correlación cruzada se suavice excesivamente, y si el valor del índice está más lejos del valor de estimación de la trayectoria de retardo, el coeficiente de ponderación es menor, lo que evita el problema de que un segundo coeficiente de correlación cruzada no se suavice suficientemente. De esta forma, la función de ventana adaptativa suprime de forma adaptativa un valor de correlación cruzada correspondiente al valor de índice, lejos del valor de estimación de la trayectoria de retardo, en el coeficiente de correlación cruzada, lo que de este modo mejora la precisión de la determinación de la diferencia de tiempo entre canales en el coeficiente de correlación cruzada ponderado. El primer coeficiente de correlación cruzada es un valor de correlación cruzada correspondiente a un valor de índice, cerca del valor de estimación de la trayectoria de retardo, en el coeficiente de correlación cruzada, y el segundo coeficiente de correlación cruzada es un valor de correlación cruzada correspondiente a un valor de índice, lejos del valor de estimación de la trayectoria de retardo, en el coeficiente de correlación cruzada.
Los pasos 301 a 303 en la realización mostrada en la figura 5 se describen en detalle a continuación.
Primero, se describe que el coeficiente de correlación cruzada de la señal multicanal de la trama actual se determina en el paso 301.
(1) El dispositivo de codificación de audio determina el coeficiente de correlación cruzada basándose en una señal en el dominio de tiempo de canal izquierdo y una señal en el dominio de tiempo de canal derecho de la trama actual.
Por lo general, es necesario preestablecer un valor máximo Tmáx. de la diferencia de tiempo entre canales y un valor mínimo Tmín. de la diferencia de tiempo entre canales, para determinar un intervalo de cálculo del coeficiente de correlación cruzada. Tanto el valor máximo Tmáx. de la diferencia de tiempo entre canales como el valor mínimo Tmín. de la diferencia de tiempo entre canales son números reales y Tmáx. > Tmín. Los valores de Tmáx. y Tmín. están relacionados con la longitud de una trama, o los valores de Tmáx. y Tmín. están relacionados con una frecuencia de muestreo actual.
Opcionalmente, para determinar el valor máximo Tmáx. de la diferencia de tiempo entre canales y el valor mínimo Tmín. de la diferencia de tiempo entre canales, se preestablece un valor máximo L_NCSHIFT_DS de un valor absoluto de la diferencia de tiempo entre canales. Por ejemplo, el valor máximo Tmáx. de la diferencia de tiempo entre canales = L_NCSHIFT_DS, y el valor mínimo Tmín. de la diferencia de tiempo entre canales = -L_NCSHIFT_D<s>.
Los valores de Tmáx. y Tmín. no se limitan en esta solicitud. Por ejemplo, si el valor máximo L_NCSHIFT_DS del valor absoluto de la diferencia de tiempo entre canales es 40, Tmáx. = 4o y Tmín. = -40.
En una implementación, se utiliza un valor de índice del coeficiente de correlación cruzada para indicar una diferencia entre la diferencia de tiempo entre canales y el valor mínimo de la diferencia de tiempo entre canales. En este caso, la determinación del coeficiente de correlación cruzada basándose en la señal del dominio de tiempo entre canales izquierdo y la señal del dominio de tiempo entre canales derecho de la trama actual se representa mediante el uso de las siguientes fórmulas:
En un caso de T min < 0 y 0 <Tmáx,
cuando Tmin < i < 0,
^ N-l+i
c(k) = ——r VxR(j) -5t (j - i ) , donde k = i - Tmin; y
N+i t í
cuando 0 < i < Tmáx,
^ N -l-i
c(k) = yX R(j)-xL( j<+>i ) , donde k<=>i<->Tmi„.
N i t í
En un caso de Tmin < 0 y Tmáx < 0,
CUando Tmin < Í < Tmáx,
, donde k = i - Tmm.
En un caso de Tmin > 0 y Tmáx > 0,
CUando Tmin < Í < Tmáx,
j N -l-i
c(k) = -------y i,, (j) '- í,( j+ i). donde k = i - Tnil„.
N+i t í
N es una longitud de trama, XL(j) es la señal de dominio temporal de canal izquierdo de la trama actual, xr(j) es la señal de dominio temporal de canal derecho de la trama actual, c(k) es el coeficiente de correlación cruzada de la trama actual, k es el valor índice del coeficiente de correlación cruzada, k es un número entero no inferior a 0, y un rango de valores de k es [0, Tmáx. - Tmm.].
Se supone que Tmáx. = 40 y Tmín. = -40. En este caso, el dispositivo de codificación de audio determina el coeficiente de correlación cruzada de la trama actual mediante el uso de la forma de cálculo correspondiente al caso de que Tmín. < 0 y 0 < Tmáx. En este caso, el intervalo de valores de k es [0, 80].
En otra implementación, el valor de índice del coeficiente de correlación cruzada se utiliza para indicar la diferencia de tiempo entre canales. En este caso, la determinación, mediante el dispositivo de codificación de audio, del coeficiente de correlación cruzada basándose en el valor máximo de la diferencia de tiempo entre canales y el valor mínimo de la diferencia de tiempo entre canales se representa mediante las siguientes fórmulas:
En un caso de Tmin 5: 0 y 0 <'T max,
cuando Tmin < i < 0,
cuando 0 < i < Tmax,
En un caso de Tmin < 0 y Tmax < 0,
cuando T min 5: í 5: Tnrax,
En un caso de Tmin > 0 y Tmax > 0,
cuando T min Ü+ í ^ Tnrax,
j N -l-i
<c ( i ) = —>N<T>i<E>pí<( j ) '* L ( j i) ■>
N es una longitud de trama, XL(j) es la señal de dominio temporal de canal izquierdo de la trama actual, xR(j) es la señal de dominio temporal de canal derecho de la trama actual, c(i) es el coeficiente de correlación cruzada de la trama actual, i es el valor índice del coeficiente de correlación cruzada, y un rango de valores de i es [Tmín., Tmáx.].
Se supone que Tmáx. = 40 y Tmín. = -40. En este caso, el dispositivo de codificación de audio determina el coeficiente de correlación cruzada de la trama actual mediante el uso de la fórmula de cálculo correspondiente a Tmín. ^ 0 y 0 < Tmáx. En este caso, el rango de valores de i es [-40, 40].
En segundo lugar, se describe la determinación de un valor de estimación de la trayectoria de retardo de la trama actual en el paso 302.
En una primera implementación, la estimación de la trayectoria de retardo se realiza basándose en la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada mediante el uso de un método de regresión lineal, para determinar el valor de estimación de la trayectoria de retardo de la trama actual.
Esta implementación se implementa mediante los siguientes pasos:
(1) Generar M pares de datos basándose en la información de diferencia de tiempo entre canales de la al menos una trama pasada y un número de secuencia correspondiente, donde M es un número entero positivo.
Una memoria intermedia almacena información de diferencia de tiempo entre canales de M tramas pasadas.
Opcionalmente, la información de diferencia de tiempo entre canales es una diferencia de tiempo entre canales. Alternativamente, la información de diferencia de tiempo entre canales es un valor suavizado de diferencia de tiempo entre canales.
Opcionalmente, las diferencias de tiempo entre canales que son de las M tramas pasadas y que se almacenan en la memoria intermedia siguen un principio de primero en entrar, primero en salir. Para ser específico, una ubicación de memoria intermedia de una diferencia de tiempo entre canales que se almacena primero en la memoria intermedia y que es de una trama anterior está en el frente, y en la parte de atrás está una ubicación de memoria intermedia de una diferencia de tiempo entre canales que después se almacena en la memoria intermedia y que es de una trama pasada.
Además, para la diferencia de tiempo entre canales que se almacena en la memoria intermedia más tarde y que es de la trama pasada, la diferencia de tiempo entre canales que se almacena primero en la memoria intermedia y que es de la trama pasada se mueva primero fuera de la memoria intermedia.
Opcionalmente, en esta realización, cada par de datos se genera mediante el uso de información de diferencia de tiempo entre canales de cada trama pasada y un número de secuencia correspondiente.
Un número de secuencia se denomina ubicación de cada trama pasada en la memoria intermedia. Por ejemplo, si se almacenan ocho tramas anteriores en la memoria intermedia, los números de secuencia son 0, 1, 2, 3, 4, 5, 6 y 7, respectivamente.
Por ejemplo, los M pares de datos generados son: {(xo, yo), (xi, y-i), (X2, y2)... (xr, yr),..., y (<xm>-<i>, yM-i)}. (xr, yr) es un (r 1)ésim° par de datos, y xr se utiliza para indicar un número de secuencia del (r l ) ésimo par de datos, es decir, xr = r; e yr se utiliza para indicar una diferencia de tiempo entre canales que corresponde a una trama pasada y que corresponde al (r 1)®5™ par de datos, donde r = 0, 1,... y (M - 1).
La figura 9 es un diagrama esquemático de ocho tramas pasadas almacenadas en la memoria intermedia. Una ubicación correspondiente a cada número de secuencia almacena una diferencia de tiempo entre canales de una trama pasada. En este caso, los ocho pares de datos son: {(xo, yo), (x1, y1), (x2, y2)... (xr, yr), ..., y (x7, yz)}. En este caso, r = 0, 1, 2, 3, 4, 5, 6 y 7.
(2) Calcular un primer parámetro de regresión lineal y un segundo parámetro de regresión lineal basándose en los M pares de datos.
En esta realización, se supone que yr en los pares de datos es una función lineal que es aproximadamente xr y que tiene un error de medición de er. La función lineal es la siguiente:
y r “a+ |i * Xr Er.
a es el primer parámetro de regresión lineal, p es el segundo parámetro de regresión lineal y £r es el error de medición. La función lineal debe cumplir la siguiente condición: Una distancia entre el valor observado yr (información de diferencia de tiempo entre canales realmente almacenada en la memoria intermedia) correspondiente al punto de observación xr y un valor de estimación a p * xr calculado basándose en la función lineal es el menor, para ser específicos, se cumple la minimización de una función de costo Q (a, p).
La función de costo Q (a, p) es la siguiente:
MI MI
Q( « ,p ) = Y u S ,= Z ( - E - « -P• * r )
r=0 r=0
Para cumplir con la condición anterior, el primer parámetro de regresión lineal y el segundo parámetro de regresión lineal en la función lineal deben cumplir con lo siguiente:
Xr se utiliza para indicar el número de secuencia del (r i ) ésimo par de datos en los M pares de datos, y yr es información de diferencia de tiempo entre canales del (r 1)ésimo par de datos.
(3) Obtener el valor de estimación de la trayectoria de retardo de la trama actual basándose en el primer parámetro de regresión lineal y el segundo parámetro de regresión lineal.
Se calcula un valor de estimación correspondiente a un número de secuencia de un (M 1)ésimo par de datos basándose en el primer parámetro de regresión lineal y el segundo parámetro de regresión lineal, y el valor de estimación se determina como el valor de estimación de la trayectoria de retardo de la trama actual. Una fórmula es la siguiente:
r e g p n c o r r -ap * M.
donde
reg_prv_corr representa el valor de estimación de la trayectoria de retardo de la trama actual, M es el número de secuencia del (M i ) ésimo par de datos y a p * M es el valor de estimación del (M i ) ésimo par de datos.
Por ejemplo, M = 8. Después de determinar a y p basándose en los ocho pares de datos generados, se estima una diferencia de tiempo entre canales en un noveno par de datos basándose en a y p, y la diferencia de tiempo entre canales en el noveno par de datos se determina como el retardo rastrear el valor de estimación de la trama actual, es decir, reg_prv_corr = a p * 8.
Opcionalmente, en esta realización, solo se utiliza como ejemplo para la descripción una manera de generar un par de datos mediante el uso de un número de secuencia y una diferencia de tiempo entre canales. En la implementación real, el par de datos puede generarse alternativamente de otra manera. Esto no se limita en esta realización.
En una segunda implementación, la estimación de la trayectoria de retardo se realiza basándose en la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada mediante el uso de un método de regresión lineal ponderada, para determinar el valor de estimación de la trayectoria de retardo de la trama actual.
Esta implementación se implementa mediante los siguientes pasos:
(1) Generar M pares de datos basándose en la información de diferencia de tiempo entre canales de la al menos una trama pasada y un número de secuencia correspondiente, donde M es un número entero positivo.
Este paso es el mismo que la descripción que se refiere en el paso (1) en la primera implementación, y los detalles no se describen en la presente memoria en esta realización.
(2) Calcular un primer parámetro de regresión lineal y un segundo parámetro de regresión lineal basándose en los M pares de datos y los coeficientes de ponderación de las M tramas anteriores.
Opcionalmente, la memoria intermedia almacena no solo la información de diferencia de tiempo entre canales de las M tramas pasadas, sino que también almacena los coeficientes de ponderación de las M tramas pasadas. se utiliza un coeficiente de ponderación para calcular un valor de estimación de la trayectoria de retardo de una trama pasada correspondiente.
Opcionalmente, se obtiene un coeficiente de ponderación de cada trama pasada mediante el cálculo basándose en una desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama pasada. Alternativamente, se obtiene un coeficiente de ponderación de cada trama pasada mediante cálculo basándose en una desviación de la estimación de la diferencia de tiempo entre canales de la trama pasada.
En esta realización, se supone que yr en los pares de datos es una función lineal que es aproximadamente xr y que tiene un error de medición de er. La función lineal es la siguiente:
>'r - a | i * X| Er.
a es el primer parámetro de regresión lineal, p es el segundo parámetro de regresión lineal y £r es el error de medición. La función lineal debe cumplir la siguiente condición: Una distancia de ponderación entre el valor observado yr (información de diferencia de tiempo entre canales realmente almacenada en la memoria intermedia) correspondiente al punto de observación Xr y un valor de estimación a p * Xr calculado basándose en la función lineal es el menor, para ser específicos, se cumple la minimización de una función de costo Q (a, p).
La función de costo Q (a, p) es la siguiente:
Wr es un coeficiente de ponderación de una trama pasada correspondiente a un résimo par de datos.
Para cumplir con la condición anterior, el primer parámetro de regresión lineal y el segundo parámetro de regresión lineal en la función lineal deben cumplir con lo siguiente:
Xr se utiliza para indicar un número de secuencia de la (r i ) ésimo par de datos en los pares de datos M, yr es la información de diferencia de tiempo entre canales en el (r 1)ésimo par de datos, wr es un coeficiente de ponderación correspondiente a la información de diferencia de tiempo entre canales en el (r 1)ésimo par de datos en al menos una trama pasada.
(3) Obtener el valor de estimación de la trayectoria de retardo de la trama actual basándose en el primer parámetro de regresión lineal y el segundo parámetro de regresión lineal.
Este paso es el mismo que la descripción que se refiere en el paso (3) en la primera implementación, y los detalles no se describen en la presente memoria en esta realización.
Opcionalmente, en esta realización, solo se utiliza como ejemplo para la descripción una manera de generar un par de datos mediante el uso de un número de secuencia y una diferencia de tiempo entre canales. En la implementación real, el par de datos puede generarse alternativamente de otra manera. Esto no se limita en esta realización.
Se debe señalar que en esta realización, la descripción se proporciona mediante el uso de un ejemplo en el que un valor de estimación de la trayectoria de retardo se calcula solo mediante el uso del método de regresión lineal o de la manera de regresión lineal ponderada. En la implementación real, el valor de estimación de la trayectoria de retardo puede calcularse alternativamente de otra manera. Esto no se limita en esta realización. Por ejemplo, el valor de estimación de la trayectoria de retardo se calcula mediante el uso de un método B-spline (B-spline), o el valor de estimación de la trayectoria de retardo se calcula mediante el uso de un método spline cúbico, o el valor de estimación de la trayectoria de retardo se calcula mediante el uso de un método de spline cuadrático.
En tercer lugar, se describe la determinación de una función de ventana adaptativa de la trama actual en el paso 303.
En esta realización, se proporcionan dos formas de calcular la función de ventana adaptativa de la trama actual. De una primera manera, la función de ventana adaptativa de la trama actual se determina basándose en una desviación de la estimación de la diferencia de tiempo entre canales suavizada de una trama anterior. En este caso, la información de desviación de la estimación de la diferencia de tiempo entre canales es la desviación de la estimación de la diferencia de tiempo entre canales suavizada, y el parámetro de ancho de coseno elevado y la polarización de la altura de coseno elevado de la función de ventana adaptativa se relacionan con la desviación de la estimación de la diferencia de tiempo entre canales suavizada. De una segunda manera, la función de ventana adaptativa de la trama actual se determina basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual. En este caso, la información de la desviación de la estimación de la diferencia de tiempo entre canales es la desviación de la estimación de la diferencia de tiempo entre canales, y el parámetro de ancho de coseno elevado y la polarización de la altura de coseno elevado de la función de ventana adaptativa se relacionan con la desviación de la estimación de la diferencia de tiempo entre canales.
Los dos modales se describen a continuación por separado.
Esta primera forma se implementa mediante los siguientes pasos:
(1) Calcular un primer parámetro de ancho de coseno elevado basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual.
Debido a que la precisión del cálculo de la función de ventana adaptativa de la trama actual mediante el uso de una señal multicanal cerca de la trama actual es relativamente alta, en esta realización, la descripción se proporciona mediante el uso de un ejemplo en el que se determina la función de ventana adaptativa de la trama actual basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual.
Opcionalmente, la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual se almacena en la memoria intermedia.
Este paso se representa mediante las siguientes fórmulas:
vvin_widthl = TRUNC(width_parl * (A* L_NCSHIFT_DS 1)).
y
vvidüi_parl = a_widtlil * smoolli_dist_reg b_widthl.
donde
aw id th l = (.\h_widthl - .\l_widtlil)/(yh_disll - y l disll),
b widüil = xh widlhl - aw idth l * > h distl
win_width1 es el primer parámetro de ancho de coseno elevado, TRUNC indica redondeo de un valor, L_NCSHIFT_DS es el valor máximo del valor absoluto de la diferencia de tiempo entre canales, A es una constante preestablecida y A es mayor o igual que 4.
xh_width1 es un valor límite superior del primer parámetro de ancho de coseno elevado, por ejemplo, 0,25 en la figura 7; x1_width1 es un valor límite inferior del primer parámetro de ancho de coseno elevado, por ejemplo, 0,04 en la figura 7; yh_dist1 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del primer parámetro de ancho de coseno elevado, por ejemplo, 3,0 correspondiente a 0,25 en la figura 7; yl_dist1 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del primer parámetro de ancho de coseno elevado, por ejemplo, 1,0 correspondiente a 0,04 en la figura 7.
smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, y xh_width1, xl_width1, yh_dist1 y1_dist1 son todos números positivos.
Opcionalmente, en la fórmula anterior, b_width1 = xh_width1 - a_width1 * yh_dist1 puede reemplazarse con b_width1 = x1_width1 - a_width1 * yl_dist1.
Opcionalmente, en este paso, width_par1 = min(width_par1, xh_width1) y width_par1 = max(width_par1, xl_width1), donde min representa tomar un valor mínimo y max representa tomar un valor máximo. Para ser específicos, cuando width_par1 obtenido a través de cálculo es mayor que xh_width1, width_par1 se establece en xh_width1; o cuando width_par1 obtenido a través de cálculo es inferior a xl_width1, width_par1 se establece en xl_width1.
En esta realización, cuando width_par1 es mayor que el valor límite superior del primer parámetro de ancho de coseno elevado, width_par1 se limita a ser el valor límite superior del primer parámetro de ancho de coseno elevado; o cuando width_par1 es menor que el valor límite inferior del primer parámetro de ancho de coseno elevado, width_par1 se limita al valor límite inferior del primer parámetro de ancho de coseno elevado, para garantizar que un valor de width_par1 no exceda un rango de valores normales del parámetro de ancho de coseno elevado, de este modo se garantiza la precisión de una función de ventana adaptativa calculada.
(2) Calcular una primera polarización de la altura de coseno elevado basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual.
Este paso se representa mediante la siguiente fórmula:
win biasl = a biasl * smooth disi reg b biasl
donde
a biasl = (xh biasl - xl_biasl)/(yh_dist2 -yl_dist2).
y
b biasl = xli biasl - a biasl * yh disL2
win_bias1 es la primera polarización de la altura de coseno elevado; xh_bias1 es un valor límite superior de la primera polarización de la altura de coseno elevado, por ejemplo, 0,7 en la figura 8; xl_bias1 es un valor límite inferior de la primera polarización de la altura de coseno elevado, por ejemplo, 0,4 en la figura 8; yh_dist2 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la primera polarización de la altura de coseno elevado, por ejemplo, 3,0 correspondiente a 0,7 en la figura 8; yl_dist2 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la primera polarización de la altura de coseno elevado, por ejemplo, 1,0 correspondiente a 0,4 en la figura 8; smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; y yh_dist2, yl_dist2, xh_bias1 y x1_bias1 son todos números positivos.
Opcionalmente, en la fórmula anterior, b_bias1 = xh_bias1 - a_bias1 * yh_dist2 puede reemplazarse con b_bias1 = xl_bias1 - a_bias1 * yl_dist2.
Opcionalmente, en esta realización, win_bias1 = min(win_bias1, xh_bias1) y win_bias1 = max(win_bias1, xl_bias1). Para ser específicos, cuando win_bias1 obtenido a través de cálculo es mayor que xh_bias1, win_bias1 se establece en xh_bias1; o cuando win_bias1 obtenido a través de cálculo es inferior a xl_bias1, win_bias1 se establece en xl_bias1.
Opcionalmente, yh_dist2 = yh_dist1 y yl_dist2 = yl_dist1.
(3) Determinar la función de ventana adaptativa de la trama actual basándose en el primer parámetro de ancho de coseno elevado y la primera polarización de la altura de coseno elevado.
El primer parámetro de ancho de coseno elevado y la primera polarización de la altura de coseno elevado se llevan a la función de ventana adaptativa en el paso 303 para obtener las siguientes fórmulas de cálculo:
Cuando
0 < k < TRUNCfA * L NCSH1FT DS/2) - 2 * winwidllil - 1..
loe weight win(k) = win biasl
cuando TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 < k < TRUNC(A * L_NCSHIFT_DS/2) 2 * win_width1 - 1,
loc_weight_win(k) = 0,5 * (1 win_bias1) 0,5 * (1 - win_bias1) * cos(n * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1));
y
cuando
TRUNC(A* L NCSH1FT DS/2) 2 * win widllil < k < A * L NCSHIFT DS,
loe weight \vin(k) = win biasl
loc_weight_win (k) se utiliza para representar la función de ventana adaptativa, donde k = 0, 1, ..., A * L_NCSHIFT_DS; A es la constante preestablecida mayor o igual a 4, por ejemplo, A = 4, L_NCSHIFT_DS es el valor máximo del valor absoluto de la diferencia de tiempo entre canales; win_width1 es el primer parámetro de ancho de coseno elevado; y win_bias1 es la primera polarización de la altura de coseno elevado.
En esta realización, la función de ventana adaptativa de la trama actual se calcula mediante el uso de la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior, de modo que una forma de la función de ventana adaptativa se ajusta basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada, de este modo se evita el problema de que una función de ventana adaptativa generada es inexacta debido a un error de la estimación de la trayectoria de retardo de la trama actual, y mejora la precisión de la generación de una función de ventana adaptativa.
Opcionalmente, después de que se determina la diferencia de tiempo entre canales de la trama actual basándose en la función de ventana adaptativa determinada de la primera manera, la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual puede determinarse además basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama anterior de la trama actual, el valor de estimación de la trayectoria de retardo de la trama actual y la diferencia de tiempo entre canales de la trama actual.
Opcionalmente, la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual en la memoria intermedia se actualiza basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual.
Opcionalmente, después de que la diferencia de tiempo entre canales de la trama actual se determina cada vez, la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual en la memoria intermedia se actualiza basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual.
Opcionalmente, la actualización de la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual en la memoria intermedia basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual incluye: reemplazar la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual en la memoria intermedia con la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual.
La desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual se obtiene a través de cálculo mediante el uso de las siguientes fórmulas de cálculo:
sm oolhdislregupdate = (1 - y) * smooUidislreg y * disl_reg'.
y
disl_reg' = |reg_prv_corr cur_ild|
smooth_dist_reg_update es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual;<y>es un primer factor de suavizado, y 0 <<y>< 1, por ejemplo,y= 0,02; smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual; y cur_itd es la diferencia de tiempo entre canales de la trama actual.
En esta realización, después de que se determina la diferencia de tiempo entre canales de la trama actual, se calcula la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual. Cuando va a determinarse una diferencia de tiempo entre canales de una trama siguiente, puede determinarse una función de ventana adaptativa de la trama siguiente mediante el uso de la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual, de este modo se garantiza la precisión de la determinación de la diferencia de tiempo entre canales de la siguiente trama.
Opcionalmente, después de que se determina la diferencia de tiempo entre canales de la trama actual basándose en la función de ventana adaptativa que se determinó en la primera manera anterior, la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada puede actualizarse más.
En una manera de actualización, la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada se actualiza basándose en la diferencia de tiempo entre canales de la trama actual.
En otra manera de actualización, la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada se actualiza basándose en un valor suavizado de diferencia de tiempo entre canales de la trama actual.
Opcionalmente, el valor suavizado de diferencia de tiempo entre canales de la trama actual se determina basándose en el valor de estimación de la trayectoria de retardo de la trama actual y la diferencia de tiempo entre canales de la trama actual.
Por ejemplo, basándose en el valor de estimación de la trayectoria de retardo de la trama actual y la diferencia de tiempo entre canales de la trama actual, el valor suavizado de diferencia de tiempo entre canales de la trama actual puede determinarse mediante el uso de la siguiente fórmula:
cur ild smooth = <p * reg prv corr (1 - tp) * cur ild
cur_itd_smooth es el valor suavizado de diferencia de tiempo entre canales de la trama actual, 9 es un segundo factor de suavizado, reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual y cur_itd es la diferencia de tiempo entre canales de la trama actual. 9 es una constante mayor o igual que 0 y menor o igual que 1.
La actualización de la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada incluye: añadir la diferencia de tiempo entre canales de la trama actual o el valor suavizado de diferencia de tiempo entre canales de la trama actual a la memoria intermedia.
Opcionalmente, por ejemplo, se actualiza el valor suavizado de diferencia de tiempo entre canales en la memoria intermedia. La memoria intermedia almacena valores suavizados de diferencia de tiempo entre canales correspondientes a una cantidad fija de tramas pasadas, por ejemplo, la memoria intermedia almacena valores suavizados de diferencia de tiempo entre canales de ocho tramas pasadas. Si el valor suavizado de diferencia de tiempo entre canales de la trama actual se agrega a la memoria intermedia, se elimina un valor suavizado de diferencia de tiempo entre canales de una trama pasada que se encuentra originalmente en un primer bit (un encabezado de una cola) en la memoria intermedia. De manera correspondiente, un valor suavizado de diferencia de tiempo entre canales de una trama pasada que se encuentra originalmente en un segundo bit se actualiza al primer bit. Por analogía, el valor suavizado de diferencia de tiempo entre canales de la trama actual se encuentra en un último bit (un final de la cola) en la memoria intermedia.
Se hace referencia a un proceso de actualización de la memoria intermedia que se muestra en la figura 10. Se supone que la memoria intermedia almacena valores suavizados de diferencia de tiempo entre canales de ocho tramas pasadas. Antes de que se agregue a la memoria intermedia un valor suavizado de diferencia de tiempo entre canales 601 de la trama actual (es decir, las ocho tramas anteriores correspondientes a la trama actual), un valor suavizado de diferencia de tiempo entre canales de una (i - 8)ésima trama se almacena en la memoria intermedia en un primer bit, y un valor suavizado de diferencia de tiempo entre canales de una (i - 7)ésima trama se almacena en la memoria intermedia en un segundo bit, ..., y un valor suavizado de diferencia de tiempo entre canales de una (i - l ) ésimatrama se almacena en la memoria intermedia en un octavo bit.
Si el valor suavizado de diferencia de tiempo entre canales 601 de la trama actual se agrega a la memoria intermedia, el primer bit (que se representa por una trama discontinua en la figura) se elimina, un número de secuencia del segundo bit se convierte en un número de secuencia del primer bit, un número de secuencia del tercer bit se convierte en el número de secuencia del segundo bit, ..., y un número de secuencia del octavo bit se convierte en un número de secuencia de un séptimo bit. El valor 601 suavizado de diferencia de tiempo entre canales interno de la trama actual (una iésima trama) se ubica en el octavo bit, para obtener ocho tramas pasadas correspondientes a una trama siguiente.
Opcionalmente, después de agregar a la memoria intermedia el valor suavizado de diferencia de tiempo entre canales de la trama actual, el valor suavizado de diferencia de tiempo entre canales almacenado en el primer bit no puede eliminarse, en su lugar, los valores suavizados de diferencia de tiempo entre canales en el segundo bit al noveno bit se utilizan directamente para calcular una diferencia de tiempo entre canales de una trama siguiente. Alternativamente, los valores suavizados de diferencia de tiempo entre canales en el primer bit a un noveno bit se utilizan para calcular una diferencia de tiempo entre canales de una trama siguiente. En este caso, la cantidad de tramas anteriores correspondientes a cada trama actual es variable. En esta realización no se limita una forma de actualización de la memoria intermedia.
En esta realización, después de que se determina la diferencia de tiempo entre canales de la trama actual, se calcula el valor suavizado de diferencia de tiempo entre canales de la trama actual. Cuando se va a determinar un valor de estimación de la trayectoria de retardo de la siguiente trama, el valor de estimación de la trayectoria de retardo de la siguiente trama puede determinarse mediante el uso del valor suavizado de diferencia de tiempo entre canales de la trama actual. Esto asegura la precisión de la determinación del valor de estimación de la trayectoria de retardo de la siguiente trama.
Opcionalmente, si el valor de estimación de la trayectoria de retardo de la trama actual se determina basándose en la segunda implementación anterior de determinación del valor de estimación de la trayectoria de retardo de la trama actual, después de que se actualice el valor suavizado de la diferencia de tiempo entre canales almacenado en la memoria intermedia de la al menos una trama pasada, un coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada puede actualizarse más. El coeficiente de ponderación de la al menos una trama anterior es un coeficiente de ponderación en el método de regresión lineal ponderada.
En la primera manera de determinar la función de ventana adaptativa, la actualización del coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada incluye: calcular un primer coeficiente de ponderación de la trama actual basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual; y actualizar un primer coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada basándose en el primer coeficiente de ponderación de la trama actual.
En esta realización, para obtener descripciones relacionadas de la actualización de la memoria intermedia, consulte la figura 10. Los detalles no se describen de nuevo en esta realización en la presente memoria.
El primer coeficiente de ponderación de la trama actual se obtiene a través de cálculo mediante el uso de las siguientes fórmulas de cálculo:
w glparl = a w g ll * sinoolhdistregupdate bw gll.
a_vvgtl = (.\l_\vgll -xh_wgtl)/(yh_disü'->'l_disir).
y
b wgll = x lw g ll - a wgll * yh disU1
wgt_par1 es el primer coeficiente de ponderación de la trama actual, smooth_dist_reg_update es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual, xh_wgt es un valor límite superior del primer coeficiente de ponderación, xl_wgt es un valor límite inferior del primer coeficiente de ponderación, yh_dist1' es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del primer coeficiente de ponderación, yl_dist1' es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del primer coeficiente de ponderación, y yh_dist1', yl_dist1', xh_wgt1 y xl_wgt1 son todos números positivos.
Opcionalmente, wgt_par1 = mín. (wgt_par1, xh_wgt1) y wgt_par1 = max(wgt_par1, xl_wgt1).
Opcionalmente, en esta realización, los valores de yh_dist1', yl_dist1', xh_wgt1 y xl_wgt1 no se limitan. Por ejemplo, xl_wgt1 = 0,05, xh_wgt1 = 1,0, yl_dist1' = 2,0 y yh_dist1' = 1,0.
Opcionalmente, en la fórmula anterior, b_wgt1 = xl_wgt1 - a_wgt1 * yh_dist1' puede reemplazarse con b_wgt1 = xh_wgt1 - a_wgt1 * yl_dist1'.
En esta realización, xh_wgt1 > xl_wgt1 y yh_dist1' < yl_dist1'.
En esta realización, cuando wgt_par1 es mayor que el valor límite superior del primer coeficiente de ponderación, wgt_par1 se limita a ser el valor límite superior del primer coeficiente de ponderación; o cuando wgt_par1 es menor que el valor límite inferior del primer coeficiente de ponderación, wgt_par1 se limita al valor límite inferior del primer coeficiente de ponderación, para garantizar que un valor de wgt_par1 no exceda un intervalo de valores normales del primer coeficiente de ponderación, de este modo se garantiza la precisión del valor de estimación de la trayectoria de retardo calculado de la trama actual.
Además, después de que se determina la diferencia de tiempo entre canales de la trama actual, se calcula el primer coeficiente de ponderación de la trama actual. Cuando va a determinarse el valor de estimación de la trayectoria de retardo de la siguiente trama, el valor de estimación de la trayectoria de retardo de la siguiente trama puede determinarse mediante el uso del primer coeficiente de ponderación de la trama actual, de este modo se garantiza la precisión de la determinación del valor de estimación de la trayectoria de retardo de la trama actual de la siguiente trama.
En la segunda manera, se determina un valor inicial de la diferencia de tiempo entre canales de la trama actual basándose en el coeficiente de correlación cruzada; se calcula una desviación de la estimación de la diferencia de tiempo entre canales de la trama actual basándose en el valor de estimación de la trayectoria de retardo de la trama actual y el valor inicial de la diferencia de tiempo entre canales de la trama actual; se determina la función de ventana adaptativa de la trama actual basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual.
Opcionalmente, el valor inicial de la diferencia de tiempo entre canales de la trama actual es un valor máximo que es de un valor de correlación cruzada en el coeficiente de correlación cruzada y que se determina basándose en el coeficiente de correlación cruzada de la trama actual, y una diferencia de tiempo entre canales determinada basándose en un valor de índice correspondiente al valor máximo.
Opcionalmente, la determinación de la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual basándose en el valor de estimación de la trayectoria de retardo de la trama actual y el valor inicial de la diferencia de tiempo entre canales de la trama actual se representa mediante el uso de la siguiente fórmula:
dist_reg = |reg_prv_corr - cur_ild_iml|.
dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual, reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual y c u r jtd jn it es el valor inicial de la diferencia de tiempo entre canales de la trama actual.
Basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual, la determinación de la función de ventana adaptativa de la trama actual se implementa mediante el uso de los siguientes pasos.
(1) Calcular un segundo parámetro de ancho de coseno elevado basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual.
Este paso puede representarse mediante las siguientes fórmulas:
vvin_widüi2 = TRUNC(widlli_par2 * (A* L_NCSHIFT_DS 1)).
y
\vidth_par2 = a_\vidtM * disl_reg b_\vidtli2
donde
a widlh2 = ixh \vidih2 - xl_width2)/(y h_disl3 - yl_disl3).
y
b widlh2 = xh_widlh2 - a widlh2 * yh_disl3
win_width2 es el segundo parámetro de ancho de coseno elevado, TRUNC indica redondeo de un valor, L_NCSHIFT_DS es un valor máximo de un valor absoluto de una diferencia de tiempo entre canales, A es una constante preestablecida, A es mayor o igual que 4, A * L_NCSHIFT_DS 1 es un número entero positivo mayor que cero, xh_width2 es un valor límite superior del segundo parámetro de ancho de coseno elevado, xl_width2 es un valor límite inferior del segundo parámetro de ancho de coseno elevado, yh_dist3 es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite superior del segundo parámetro de ancho de coseno elevado, yldist3 es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior del segundo parámetro de ancho de coseno elevado, dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales, xh_width2, xl_width2, yh_dist3 y yl_dist3 son todos números positivos.
Opcionalmente, en este paso, b_width2 = xh_width2 - a_width2 * yh_dist3 puede reemplazarse con b_width2 = xl_width2 - a_width2 * yl_dist3.
Opcionalmente, en este paso, width_par2 = min(width_par2, xh_width2) y width_par2 = max(width_par2, xl_width2), donde min representa tomar un valor mínimo y max representa tomar un valor máximo. Para ser específicos, cuando width_par2 obtenido a través de cálculo es mayor que xh_width2, width_par2 se establece en xh_width2; o cuando width_par2 obtenido a través de cálculo es inferior a xl_width2, width_par2 se establece en xl_width2.
En esta realización, cuando width_par2 es mayor que el valor límite superior del segundo parámetro de ancho de coseno elevado, width_par2 se limita a ser el valor límite superior del segundo parámetro de ancho de coseno elevado; o cuando width_par2 es menor que el valor límite inferior del segundo parámetro de ancho de coseno elevado, width_par2 se limita al valor límite inferior del segundo parámetro de ancho de coseno elevado, para garantizar que un valor de width_par2 no exceda un rango de valores normales del parámetro de ancho de coseno elevado, de este modo se garantiza la precisión de una función de ventana adaptativa calculada.
(2) Calcular una segunda polarización de la altura de coseno elevado basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual.
Este paso puede representarse mediante la siguiente fórmula:
vvin_bias2 = a_bias2 * dist_reg b_bias2
donde
a_bias2 = (.\h_bias2 - xl_bias2)/(yli_disl4 - yl_disl4).
y
b_bias2 = xli_bias2 - a_bias2 * > h_disL4
win_bias2 es la segunda polarización de la altura de coseno elevado, xh_bias2 es un valor límite superior de la segunda polarización de la altura de coseno elevado, xl_bias2 es un valor límite inferior de la segunda polarización de la altura de coseno elevado, yh_dist4 es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite superior de la segunda polarización de la altura de coseno elevado, yl_dist4 es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior de la segunda polarización de la altura de coseno elevado, dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales y yh_dist4, yl_dist4, xh_bias2 y xl_bias2 son todos números positivos.
Opcionalmente, en este paso, b_bias2 = xh_bias2 - a_bias2 * yh_dist4 puede reemplazarse con b_bias2 = xl_bias2 -a_bias2 * yl_dist4.
Opcionalmente, en esta realización, win_bias2 = min(win_bias2, xh_bias2) y win_bias2 = max(win_bias2, xl_bias2). Para ser específicos, cuando win_bias2 obtenido a través de cálculo es mayor que xh_bias2, win_bias2 se establece en xh_bias2; o cuando win_bias2 obtenido a través de cálculo es inferior a xl_bias2, win_bias2 se establece en xl_bias2.
Opcionalmente, yh_dist4 = yh_dist3 y yl_dist4 = yl_dist3.
(3) El dispositivo de codificación de audio determina la función de ventana adaptativa de la trama actual basándose en el segundo parámetro de ancho de coseno elevado y la segunda polarización de la altura de coseno elevado.
El dispositivo de codificación de audio trae el segundo parámetro de ancho de coseno elevado y la segunda polarización de la altura de coseno elevado a la función de ventana adaptativa en el paso 303 para obtener las siguientes fórmulas de cálculo:
cuando 0 < k < TRUNC(A * L_NCSHIFT_DS/2) - 2 * win width2 - 1
loc_weight_win(k) = win_bias2;
cuando TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width2 < k < TRUNC(A * L_NCSHIFT_DS/2) 2 * win_width2 - 1,
loc_weight_win(k) = 0,5 * (1 win_bias2) 0,5 * (1 - win_bias2) * cos(n * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width2));
y
cuando
TRUNC(A * L_N C SH1FT_D S/2) 2 * winwidlh2 < k < A * L_NCSHIFT_DS,
loc_weight_\vin(k) = win_bias2
loc_weight_win (k) se utiliza para representar la función de ventana adaptativa, donde k = 0, 1, ..., A * L_NCSHIFT_DS; A es la constante preestablecida mayor o igual a 4, por ejemplo, A = 4, L_NCSHIFT_DS es el valor máximo del valor absoluto de la diferencia de tiempo entre canales; win_width2 es el segundo parámetro de ancho de coseno elevado; y win_bias2 es la segunda polarización de la altura de coseno elevado.
En esta realización, la función de ventana adaptativa de la trama actual se determina basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual, y cuando la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior no necesita ser almacenada en la memoria intermedia, puede determinarse la función de ventana adaptativa de la trama actual, de este modo se ahorra un recurso de almacenamiento.
Opcionalmente, después de que se determina la diferencia de tiempo entre canales de la trama actual basándose en la función de ventana adaptativa determinada en la segunda manera anterior, la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada puede actualizarse más. Para obtener descripciones relacionadas, consulte la primera manera de determinar la función de ventana adaptativa. Los detalles no se describen de nuevo en esta realización en la presente memoria.
Opcionalmente, si el valor de estimación de la trayectoria de retardo de la trama actual se determina basándose en la segunda implementación de determinación del valor de estimación de la trayectoria de retardo de la trama actual, después de que se actualice el valor suavizado de la diferencia de tiempo entre canales almacenado en la memoria intermedia de la al menos una trama pasada, un coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada puede actualizarse más.
En la segunda manera de determinar la función de ventana adaptativa, el coeficiente de ponderación de la al menos una trama pasada es un segundo coeficiente de ponderación de la al menos una trama pasada.
La actualización del coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada incluye: calcular un segundo coeficiente de ponderación de la trama actual basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual; y actualizar un segundo coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada basándose en el segundo coeficiente de ponderación de la trama actual.
El cálculo del segundo coeficiente de ponderación de la trama actual basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual se representa mediante el uso de las siguientes fórmulas:
\vgt_par2 = a_wgt2 * d islreg b_vvgt2,
a_wgl2 = (xl_wgl2 - xh_wgt2)/(yh_dist2' - yl dist2')
y
b_\vgt2 = .\l_wgl2 - a_wgl2 * yh_disl2'.
wgt_par2 es el segundo coeficiente de ponderación de la trama actual, dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual, xh_wgt2 es un valor límite superior del segundo coeficiente de ponderación, xl_wgt2 es un valor límite inferior del segundo coeficiente de ponderación, yh_dist2' es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite superior del segundo coeficiente de ponderación, yl_dist2' es una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior del segundo coeficiente de ponderación, y yh_dist2', yl_dist2', xh_wgt2 y xl_wgt2 son todos números positivos.
Opcionalmente, wgt_par2 = min(wgt_par2, xh_wgt2) y wgt_par2 = máx(wgt_par2, xl_wgt2).
Opcionalmente, en esta realización, los valores de yh_dist2', yl_dist2', xh_wgt2 y xl_wgt2 no se limitan. Por ejemplo, xl_wgt2 = 0,05, xh_wgt2 = 1,0, yl_dist2'= 2,0 y yh_dist2' = 1,0.
Opcionalmente, en la fórmula anterior, b_wgt2 = xl_wgt2 - a_wgt2 * yh_dist2' puede reemplazarse con b_wgt2 = xh_wgt2 - a_wgt2 * yl_dist2'.
En esta realización, xh_wgt2 > x2_wet1, y yh_dist2' < yl_dist2'.
En esta realización, cuando wgt_par2 es mayor que el valor límite superior del segundo coeficiente de ponderación, wgt_par2 se limita a ser el valor límite superior del segundo coeficiente de ponderación; o cuando wgt_par2 es menor que el valor límite inferior del segundo coeficiente de ponderación, wgt_par2 se limita al valor límite inferior del segundo coeficiente de ponderación, para garantizar que un valor de wgt_par2 no exceda un intervalo de valores normales del segundo coeficiente de ponderación, de este modo se garantiza la precisión del valor de estimación de la trayectoria de retardo calculado de la trama actual.
Además, después de que se determina la diferencia de tiempo entre canales de la trama actual, se calcula el segundo coeficiente de ponderación de la trama actual. Cuando va a determinarse el valor de estimación de la trayectoria de retardo de la siguiente trama, el valor de estimación de la trayectoria de retardo de la siguiente trama puede determinarse mediante el uso del segundo coeficiente de ponderación de la trama actual, de este modo se garantiza la precisión de la determinación del valor de estimación de la trayectoria de retardo de la trama actual de la siguiente trama.
Opcionalmente, en las realizaciones anteriores, la memoria intermedia se actualiza independientemente de si la señal multicanal de la trama actual es una señal válida. Por ejemplo, la información de diferencia de tiempo entre canales de la al menos una trama pasada y/o el coeficiente de ponderación de la al menos una trama pasada en la memoria intermedia se actualiza/se actualizan.
Opcionalmente, la memoria intermedia se actualiza solo cuando la señal multicanal de la trama actual es una señal válida. De esta forma, se mejora la validez de los datos en la memoria intermedia.
La señal válida es una señal cuya energía es superior a la energía preestablecida y/o pertenece al tipo preestablecido, por ejemplo, la señal válida es una señal de voz o la señal válida es una señal periódica.
En esta realización, se utiliza un algoritmo de detección de actividad de voz (detección de actividad de voz, VAD) para detectar si la señal multicanal de la trama actual es una trama activa. Si la señal multicanal de la trama actual es una trama activa, indica que la señal multicanal de la trama actual es la señal válida. Si la señal multicanal de la trama actual no es una trama activa, indica que la señal multicanal de la trama actual no es la señal válida.
De alguna manera, se determina, basándose en un resultado de detección de activación por voz de la trama anterior de la trama actual, si actualizar la memoria intermedia.
Cuando el resultado de la detección de activación por voz de la trama anterior de la trama actual es la trama activa, indica que es muy posible que la trama actual sea la trama activa. En este caso, la memoria intermedia se actualiza. Cuando el resultado de la detección de activación por voz de la trama anterior de la trama actual no es la trama activa, indica que es muy posible que la trama actual no sea la trama activa. En este caso, la memoria intermedia no se actualiza.
Opcionalmente, el resultado de la detección de activación por voz de la trama anterior de la trama actual se determina basándose en un resultado de detección de activación por voz de una señal de canal primario de la trama anterior de la trama actual y un resultado de detección de activación por voz de una señal de canal secundario de la trama anterior de la trama actual.
Si tanto el resultado de la detección de activación por voz de la señal de canal primario de la trama anterior de la trama actual como el resultado de la detección de activación por voz de la señal de canal secundario de la trama anterior de la trama actual son tramas activas, el resultado de la detección de activación por voz de la trama anterior de la trama actual es la trama activa. Si el resultado de la detección de activación por voz de la señal de canal primario de la trama anterior de la trama actual y/o el resultado de la detección de activación por voz de la señal de canal secundario de la trama anterior de la trama actual no es/no son tramas activas/una trama activa, el resultado de la detección de activación por voz de la trama anterior de la trama actual no es la trama activa.
De otra manera, se determina, basándose en un resultado de detección de activación por voz de la trama actual, si actualizar la memoria intermedia.
Cuando el resultado de la detección de activación por voz de la trama actual es una trama activa, indica que es muy posible que la trama actual sea la trama activa. En este caso, el dispositivo de codificación de audio actualiza la memoria intermedia. Cuando el resultado de la detección de activación por voz de la trama actual no es una trama activa, indica que existe una gran posibilidad de que la trama actual no sea la trama activa. En este caso, el dispositivo de codificación de audio no actualiza la memoria intermedia.
Opcionalmente, el resultado de detección de activación por voz de la trama actual se determina basándose en los resultados de detección de activación por voz de una pluralidad de señales de canal de la trama actual.
Si los resultados de detección de activación por voz de la pluralidad de señales de canal de la trama actual son todas tramas activas, el resultado de detección de activación por voz de la trama actual es la trama activa. Si un resultado de detección de activación de voz de al menos un canal de señal de canal de la pluralidad de señales de canal de la trama actual no es la trama activa, el resultado de detección de activación de voz de la trama actual no es la trama activa.
Se debe señalar que, en esta realización, la descripción se proporciona mediante el uso de un ejemplo en el que la memoria intermedia se actualiza mediante el uso de solo un criterio sobre si la trama actual es la trama activa. En la implementación real, la memoria intermedia puede actualizarse alternativamente basándose en al menos uno de no sonoro o sonoro, período o no periódico, transitorio o no transitorio, y de voz o sin voz de la trama actual.
Por ejemplo, si tanto la señal de canal primario como la señal de canal secundario de la trama anterior de la trama actual son sonoras, indica que hay una gran probabilidad de que la trama actual sea sonora. En este caso, la memoria intermedia se actualiza. Si al menos una de la señal de canal primario y la señal de canal secundario de la trama anterior de la trama actual es no sonora, existe una gran probabilidad de que la trama actual sea no sonora. En este caso, la memoria intermedia no se actualiza.
Opcionalmente, basándose en las realizaciones anteriores, puede determinarse además un parámetro adaptativo de un modelo de función de ventana preestablecido basándose en un parámetro de codificación de la trama anterior de la trama actual. De esta forma, el parámetro adaptativo en el modelo de función de ventana preestablecido de la trama actual se ajusta de forma adaptativa y se mejora la precisión de la determinación de la función de ventana adaptativa.
El parámetro de codificación se utiliza para indicar un tipo de señal multicanal de la trama anterior de la trama actual, o el parámetro de codificación se utiliza para indicar un tipo de señal multicanal de la trama anterior de la trama actual en el que el procesamiento de mezcla descendente en el dominio de tiempo se realiza, por ejemplo, una trama activa o una trama inactiva, no sonora o sonora, periódica o no periódica, transitoria o no transitoria, o de voz o de música.
El parámetro adaptativo incluye al menos uno de un valor límite superior de un parámetro de ancho de coseno elevado, un valor límite inferior del parámetro de ancho de coseno elevado, un valor límite superior de una polarización de la altura de coseno elevado, un valor límite inferior de la polarización de la altura de coseno elevado, una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado, una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado, una desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite superior de la polarización de la altura de coseno elevado, y una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la polarización de la altura de coseno elevado.
Opcionalmente, cuando el dispositivo de codificación de audio determina la función de ventana adaptativa en la primera manera de determinar la función de ventana adaptativa, el valor límite superior del parámetro de ancho de coseno elevado es el valor límite superior del primer parámetro de ancho de coseno elevado, el valor límite inferior del parámetro de ancho de coseno elevado es el valor límite inferior del primer parámetro de ancho de coseno elevado, el valor límite superior de la polarización de la altura de coseno elevado es el valor límite superior de la primera polarización de la altura de coseno elevado, y el valor límite inferior de la polarización de la altura de coseno elevado es el valor límite inferior de la primera polarización de la altura de coseno elevado. Por consiguiente, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del primer parámetro de ancho de coseno elevado, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del primer parámetro de ancho de coseno elevado, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la polarización de la altura de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la primera polarización de la altura de coseno elevado, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente a la valor límite inferior de la polarización de la altura de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la primera polarización de la altura de coseno elevado.
Opcionalmente, cuando el dispositivo de codificación de audio determina la función de ventana adaptativa en la segunda manera de determinar la función de ventana adaptativa, el valor límite superior del parámetro de ancho de coseno elevado es el valor límite superior del segundo parámetro de ancho de coseno elevado, el valor límite inferior del parámetro de ancho de coseno elevado es el valor límite inferior del segundo parámetro de ancho de coseno elevado, el valor límite superior de la polarización de la altura de coseno elevado es el valor límite superior de la segunda polarización de la altura de coseno elevado, y el valor límite inferior de la polarización de la altura de coseno elevado es el valor límite inferior de la segunda polarización de la altura de coseno elevado. Por consiguiente, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del segundo parámetro de ancho de coseno elevado, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del segundo parámetro de ancho de coseno elevado, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la polarización de la altura de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la segunda polarización de la altura de coseno elevado, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente a la valor límite inferior de la polarización de la altura de coseno elevado es la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la segunda polarización de la altura de coseno elevado.
Opcionalmente, en esta realización, la descripción se proporciona mediante el uso de un ejemplo en el que la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado es igual que la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la polarización de la altura de coseno elevado, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado es igual que la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la polarización de la altura de coseno elevado.
Opcionalmente, en esta realización, la descripción se proporciona mediante el uso de un ejemplo en el que el parámetro de codificación de la trama anterior de la trama actual se utiliza para indicar si el canal principal de la trama anterior de la trama actual es sonoro o no sonoro y si la señal de canal secundario de la trama anterior de la trama actual es sonora o no sonora.
(1) Determinar el valor límite superior del parámetro de ancho de coseno elevado y el valor límite inferior del parámetro de ancho de coseno elevado en el parámetro adaptativo basándose en el parámetro de codificación de la trama anterior de la trama actual.
Si la señal de canal primario de la trama anterior de la trama actual es sonora o no sonora y si la señal de canal secundario de la trama anterior de la trama actual es sonora o no sonora se determinan basándose en el parámetro de codificación. Si tanto la señal de canal primario como la señal de canal secundario son no sonoras, el valor límite superior del parámetro de ancho de coseno elevado se establece en un primer parámetro no sonoro y el valor límite inferior del parámetro de ancho de coseno elevado se establece en un segundo parámetro no sonoro, es decir, xh_width = xh_width_uv y xl_width = xl_width_uv.
Si tanto la señal de canal primario como la señal de canal secundario son sonoras, el valor límite superior del parámetro de ancho de coseno elevado se establece en un primer parámetro sonoro, y el valor límite inferior del parámetro de ancho de coseno elevado se establece en un segundo parámetro sonoro, es decir, xh_width = xh_width_v y xl_width = xl_width_v.
Si la señal de canal primario es sonora y la señal de canal secundario es no sonora, el valor límite superior del parámetro de ancho de coseno elevado se establece en un tercer parámetro sonoro, y el valor límite inferior del parámetro de ancho de coseno elevado se establece en un cuarto parámetro sonoro, es decir, xh_width = xh_width_v2, y xl_width = xl_width v2.
Si la señal de canal primario es no sonora y la señal de canal secundario es sonora, el valor límite superior del parámetro de ancho de coseno elevado se establece en un tercer parámetro no sonoro y el valor límite inferior del parámetro de ancho de coseno elevado se establece en un cuarto parámetro no sonoro, es decir, xh_width = xh_width_uv2 y xl_width = xl_width_uv2.
El primer parámetro no sonoro xh_width_uv, el segundo parámetro no sonoro xl_width_uv, el tercer parámetro no sonoro xh_width_uv2, el cuarto parámetro no sonoro xl_width_uv2, el primer parámetro sonoro xh_width_v, el segundo parámetro sonoro xl_width_v, el tercer parámetro sonoro xh_width_vicing, el cuarto parámetro sonoro xh_width_vicing números positivos, donde xh_width_v < xh_width_v2 < xh_width_uv2 < xh_width_uv, and xl_width_uv < xl_width_uv2 < xl_width_v2 < xl_width_v.
Los valores de xh_width_v, xh_width_v2, xh_width_uv2, xh_width_uv, xl_width_uv, xl_width_uv2, xl_width_v2 y xl_width_v no se limitan en esta realización. Por ejemplo, xh_width_v = 0,2, xh_width_v2 = 0,25, xh_width_uv2 = 0,35, xh_width_uv = 0,3, xl_width_uv = 0,03, xl_width_uv2 = 0,02, xl_width_v2 = 0,04 y xl_width_v = 0,05.
Opcionalmente, al menos un parámetro del primer parámetro no sonoro, el segundo parámetro no sonoro, el tercer parámetro no sonoro, el cuarto parámetro no sonoro, el primer parámetro sonoro, el segundo parámetro sonoro, el tercer parámetro sonoro y el cuarto parámetro sonoro se ajusta mediante el uso del parámetro de codificación de la trama anterior de la trama actual.
Por ejemplo, que el dispositivo de codificación de audio ajusta al menos un parámetro del primer parámetro no sonoro, el segundo parámetro no sonoro, el tercer parámetro no sonoro, el cuarto parámetro no sonoro, el primer parámetro sonoro, el segundo parámetro sonoro, el tercer parámetro sonoro, y el cuarto parámetro sonoro basándose en el parámetro de codificación de una señal de canal de la trama anterior de la trama actual se representa mediante el uso de las siguientes fórmulas:
xh vvidth uv = fach uv * xh vvidth init: xl widlhuv = fací uv * xl vvidlli iiiit;
xh widlh v= fach v * xh widlh init: .xl widlh v = fací v*xl width init:
xh_vvidth_v2 = fach_v2 * xhw idlhinit; \l_\vidlh_v2 = facl_v2 * xlvvidlhinil:
y
xh vvidth uv2=fach uv2 * xh width init: and xl width u\ 2 = fací liv2 * xl width init.
fach_uv, fach_v, fach_v2, fach_uv2, xh_width_init y xl_width_init son números positivos determinados basándose en el parámetro de codificación.
En esta realización, los valores de fach_uv, fach_v, fach_v2, fach_uv2, xh_width_init y xl_width_init no se limitan. Por ejemplo, fach_uv = 1,4, fach_v = 0,8, fach_v2 = 1,0, fach_uv2 = 1,2, xh_width_init = 0,25 y xl_width_init = 0,04.
(2) Determinar el valor límite superior de la polarización de la altura de coseno elevado y el valor límite inferior de la polarización de la altura de coseno elevado en el parámetro adaptativo basándose en el parámetro de codificación de la trama anterior de la trama actual.
Si la señal de canal primario de la trama anterior de la trama actual es sonora o no sonora y si la señal de canal secundario de la trama anterior de la trama actual es sonora o no sonora se determinan basándose en el parámetro de codificación. Si tanto la señal de canal primario como la señal de canal secundario son no sonoras, el valor límite superior de la polarización de la altura de coseno elevado se establece en un quinto parámetro no sonoro, y el valor límite inferior de la polarización de la altura de coseno elevado se establece en un sexto parámetro no sonoro, es decir, xh_bias = xh_bias_uv y xl_bias = xl_bias_uv.
Si tanto la señal de canal primario como la señal de canal secundario, el valor límite superior de la polarización de la altura de coseno elevado se establece en un quinto parámetro sonoro, y el valor límite inferior de la polarización de la altura de coseno elevado se establece en un sexto parámetro sonoro, es decir, xh_bias = xh_bias_v y xl_bias = xl_bias_v.
Si la señal de canal primario es sonora, y la señal de canal secundario es no sonora, el valor límite superior de la polarización de la altura de coseno elevado se establece en un séptimo parámetro sonoro, y el valor límite inferior de la polarización de la altura de coseno elevado se establece en un octavo parámetro sonoro, es decir, xh_bias = xh_bias_v2 y xl_bias = xl_bias_v2.
Si la señal de canal primario es sonora y la señal de canal secundario es sonora, el valor límite superior de la polarización de la altura de coseno elevado se establece en un séptimo parámetro no sonoro, y el valor límite inferior de la polarización de la altura de coseno elevado se establece en un octavo parámetro no sonoro, es decir, xh_bias = xh_bias_uv2 y xl_bias = xl_bias_uv2.
El quinto parámetro no sonoro xh_bias_uv, el sexto parámetro no sonoro xl_bias_uv, el séptimo parámetro no sonoro xh_bias_uv2, el octavo parámetro no sonoro xl_bias_uv2, el quinto parámetro sonoro xh_bias_v, el sexto parámetro sonoro xl_bias_v, el séptimo parámetro sonoro xh_bias_v2 y el octavo parámetro sonoro xh_bias_v2 son todos números positivos, donde xh_bias_v < xh_bias_v2 < xh_bias_uv2 < xh_bias_uv, xl_bias_v < d_bias_v2 < xl_bias_uv2 < xl_bias_uv, xh_bias es el valor límite superior de la polarización de la altura de coseno elevado y xl_bias es el valor límite inferior de la polarización de la altura de coseno elevado.
En esta realización, los valores de xh_bias_v, xh_bias_v2, xh_bias_uv2, xh_bias_uv, xl_bias_v, xl_bias_v2, xl_bias_uv2 y xl_bias_uv no se limitan. Por ejemplo, xh_bias_v = 0,8, xl_bias_v = 0,5, xh_bias_v2 = 0,7, xl_bias_v2 = 0,4, xh_bias_uv = 0,6, xl_bias_uv = 0,3, xh_bias_uv2 = 0,5 y xl_bias_uv2 = 0,2.
Opcionalmente, al menos uno del quinto parámetro no sonoro, el sexto parámetro no sonoro, el séptimo parámetro no sonoro, el octavo parámetro no sonoro, el quinto parámetro sonoro, el sexto parámetro sonoro, el séptimo parámetro sonoro y el octavo parámetro sonoro se ajusta basándose en el parámetro de codificación de una señal de canal de la trama anterior de la trama actual.
Por ejemplo, la siguiente fórmula se utiliza para la representación:
xh bias uv = l'ach nv' * xh bias init; xlbias uv = facl_i.iv1 * xl bias init:
x h b ia sv = fácil v1 * xhbias init; xl bias v = fací v1 * xl bias mil;
xh bias v2 = fácil \2' * .xh bias init; xl bias \ 2 = fací v2' * xl bias init:.
xh_bias_uv2 = fach_uv2' * .xhbiasinil; and xl_bias_uv2 = facl_uv2' * x lb ia s in it
fach_uv', fach_v', fach_v2', fach_uv2', xh_bias_init y xl_bias_init son números positivos determinados basándose en el parámetro de codificación.
En esta realización, los valores de fach_uv', fach_v', fach_v2', fach_uv2', xh_bias_init y xl_bias_init no se limitan. Por ejemplo, fach_v' = 1,15, fach_v2' = 1,0, fach_uv2'= 0,85, fach_uv' = 0,7, xh_bias_init = 0,7 y xl_bias_init = 0,4.
(3) Determinar, basándose en el parámetro de codificación de la trama anterior de la trama actual, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado, y la estimación de la desviación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado en el parámetro adaptativo.
Las señales de canal primario no sonoras y sonoras de la trama anterior de la trama actual y las señales de canal secundario no sonoras y sonoras de la trama anterior de la trama actual se determinan basándose en el parámetro de codificación. Si tanto la señal de canal primario como la señal de canal secundario son no sonoras, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado se establece en un noveno parámetro no sonoro, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado se establece en un décimo parámetro no sonoro, es decir, yh_dist = yh_dist_uv y yl_dist = yl_dist_uv.
Si tanto la señal de canal primario como la señal de canal secundario son sonoras, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado se establece en un noveno parámetro de voz, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado se establece en un décimo parámetro sonoro, es decir, yh_dist = yh_dist_v, y yl_dist = yl_dist_v.
Si la señal de canal primario es sonora, y la señal de canal secundario es no sonora, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado se establece en un undécimo parámetro sonoro, y la desviación de la estimación de la diferencia de tiempo entre canales correspondiente al valor límite inferior del parámetro de ancho de coseno elevado se establece en un duodécimo parámetro sonoro, es decir, yh_dist = yh_dist_v2, y yl_dist = yl_dist_v2.
Si la señal de canal primario es no sonora, y la señal de canal secundario es sonora, la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del parámetro de ancho de coseno elevado se establece en un undécimo parámetro no sonoro, y la desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del parámetro de ancho de coseno elevado se establece en un duodécimo parámetro no sonoro, es decir, yh_dist = yh_dist_uv2 y yl_dist = yl_dist_uv2.
El noveno parámetro no sonoro yh_dist_uv, el décimo parámetro no sonoro yl_dist_uv, el undécimo parámetro no sonoro yh_dist_uv2, el duodécimo parámetro no sonoro yl_dist_uv2, el noveno parámetro sonoro yh_dist_v, el décimo parámetro sonoro yl_dist_ v, el duodécimo parámetro sonoro yl_dist_v2, el undécimo parámetro sonoro yl_dist_v2 son todos números positivos, donde yh_dist_v < yh_dist_v2 < yh_dist_uv2 < yh_dist_uv, y yl_dist_uv < yl_dist_uv2 < yl_dist_v2 < yl_dist_v.
En esta realización, los valores de yh_dist_v, yh_dist_v2, yh_dist_uv2, yh_dist_uv, yl_dist_uv, yl_dist_uv2, yl_dist_v2 y yl_dist_v no se limitan.
Opcionalmente, al menos un parámetro del noveno parámetro no sonoro, el décimo parámetro no sonoro, el undécimo parámetro no sonoro, el duodécimo parámetro no sonoro, el noveno parámetro sonoro, el décimo parámetro sonoro, el undécimo parámetro sonoro y el duodécimo parámetro sonoro se ajusta mediante el uso del parámetro de codificación de la trama anterior de la trama actual.
Por ejemplo, la siguiente fórmula se utiliza para la representación:
v h disl uv = fach uv" * yhd istin il: yl dist uv = facluv" * y ld is lin il
yh dist v = fach v" * yhd islin il; vl dist v = faclv" * yl dist init;
yh_disl_v2 = íach_\2" * yhd istin il: >l_dist_v2 = facl_v2" * y ld is lin it
yh_dist_<liv>2 = l'ach u\ 2"<*>y h distiiiil; and yl disi uv2 = facl_uv2" * yl dist inil
fach_uv", fach_v", fach_v2", fach_uv2", yh_dist_init y yl_dist_init son números positivos determinados basándose en el parámetro de codificación, y los valores de los parámetros no se limitan en esta realización.
En esta realización, el parámetro adaptativo en el modelo de función de ventana preestablecido se ajusta basándose en el parámetro de codificación de la trama anterior de la trama actual, de modo que una función de ventana adaptativa apropiada se determina adaptativamente basándose en el parámetro de codificación de la trama anterior de la trama actual, de esta mamera se mejora la precisión de la generación de una función de ventana adaptativa y se mejora la precisión de la estimación de una diferencia de tiempo entre canales.
Opcionalmente, basándose en las realizaciones anteriores, antes del paso 301, se realiza el preprocesamiento en el dominio de tiempo en la señal multicanal.
Opcionalmente, la señal multicanal de la trama actual en esta realización de esta solicitud es una señal multicanal de entrada al dispositivo de codificación de audio, o una señal multicanal obtenida mediante preprocesamiento después de que la señal multicanal se introduce en dispositivo de codificación de audio.
Opcionalmente, la entrada de señal multicanal al dispositivo de codificación de audio puede recopilarse por un componente de recopilación en el dispositivo de codificación de audio, o puede recopilarse por un dispositivo de recopilación independiente del dispositivo de codificación de audio, y se envía al dispositivo de codificación de audio.
Opcionalmente, la entrada de señal multicanal al dispositivo de codificación de audio es una señal multicanal obtenida después de la conversión de analógico a digital (analógico a digital, A/D). Opcionalmente, la señal multicanal es una señal de modulación de código de pulso (modulación de código de pulso, MCP).
Una frecuencia de muestreo de la señal multicanal puede ser de 8 kHz, 16 kHz, 32 kHz, 44,1 kHz, 48 kHz o similares. Esto no se limita en esta realización.
Por ejemplo, la frecuencia de muestreo de la señal multicanal es de 16 kHz. En este caso, la duración de una trama de señales multicanal es de 20 ms, y la longitud de la trama se indica como N, donde N = 320, en otras palabras, la longitud de la trama es de 320 puntos de muestreo. La señal multicanal de la trama actual incluye una señal de canal izquierdo y una señal de canal derecho, la señal de canal izquierdo se denota como XL(n) y la señal de canal derecho se denota como XR(n), donde n es un número de secuencia de punto de muestreo, y n = 0, 1,2, ... y (N -1).
Opcionalmente, si el procesamiento de filtrado de alto paso se realiza en la trama actual, una señal de canal izquierdo procesada se denota como<xl>_<h>p(n), y una señal de canal derecho procesada se denota como xR_HP(n), donde n es un muestreo número de secuencia de puntos, y n = 0, 1,2, ... y (N -1).
La figura 11 es un diagrama estructural esquemático de un dispositivo de codificación de audio según una realización de ejemplo de esta solicitud. En esta realización de esta solicitud, el dispositivo de codificación de audio puede ser un dispositivo electrónico que tiene una función de procesamiento de señal de audio y recopilación de audio, tal como un teléfono móvil, una tableta, un ordenador portátil, un ordenador de sobremesa, un altavoz bluetooth, una grabadora de lápiz y un dispositivo utilizable, o puede ser un elemento de red que tiene una capacidad de procesamiento de señales de audio en una red central y una red de radio. Esto no se limita en esta realización.
El dispositivo de codificación de audio incluye un procesador 701, una memoria 702 y un bus 703.
El procesador 701 incluye uno o más núcleos de procesamiento, y el procesador 701 ejecuta un programa de software y un módulo para realizar diversas aplicaciones de función e información de proceso.
La memoria 702 se conecta al procesador 701 mediante el uso del bus 703. La memoria 702 almacena una instrucción necesaria para el dispositivo de codificación de audio.
El procesador 701 se configura para ejecutar la instrucción en la memoria 702 para implementar el método de estimación de retardo proporcionado en las realizaciones del método de esta solicitud.
Además, la memoria 702 puede implementarse mediante cualquier tipo de dispositivo de almacenamiento volátil o no volátil o una combinación de los mismos, como una memoria estática de acceso aleatorio (SRAM), una memoria de solo lectura programable y borrable eléctricamente (EEPROM), una memoria de solo lectura borrable y programable (EPROM), una memoria de solo lectura programable (PROM), una memoria de solo lectura (ROM), una memoria magnética, una memoria flash, un disco magnético o un disco óptico.
La memoria 702 se configura además para almacenar temporalmente información de diferencia de tiempo entre canales de al menos una trama pasada y/o un coeficiente de ponderación de la al menos una trama pasada.
Opcionalmente, el dispositivo de codificación de audio incluye un componente de recopilación y el componente de recopilación se configura para recopilar una señal multicanal.
Opcionalmente, el componente de recopilación incluye al menos un micrófono. Cada micrófono se configura para recopilar un canal de señal de canal.
Opcionalmente, el dispositivo de codificación de audio incluye un componente de recepción y el componente de recepción se configura para recibir una señal multicanal enviada por otro dispositivo.
Opcionalmente, el dispositivo de codificación de audio tiene además una función de decodificación.
Puede entenderse que la figura 11 muestra simplemente un diseño simplificado del dispositivo de codificación de audio. En otra realización, el dispositivo de codificación de audio puede incluir cualquier cantidad de transmisores, receptores, procesadores, controladores, memorias, unidades de comunicaciones, unidades de visualización, unidades de reproducción y similares. Esto no se limita en esta realización.
Opcionalmente, esta solicitud proporciona un medio de almacenamiento legible por computadora. El medio de almacenamiento legible por computadora almacena una instrucción. Cuando la instrucción se ejecuta en el dispositivo de codificación de audio, el dispositivo de codificación de audio se habilita para realizar el método de estimación de retardo proporcionado en las realizaciones anteriores.
La figura 12 es un diagrama en bloque de un aparato de estimación de retardo según una realización de esta solicitud. El aparato de estimación de retardo puede implementarse como todo o como parte del dispositivo de codificación de audio mostrado en la figura 11 mediante el uso de software, hardware o una combinación de estos. El aparato de estimación de retardo puede incluir una unidad 810 de determinación de coeficiente de correlación cruzada, una unidad 820 de estimación de la trayectoria de retardo, una unidad 830 de determinación de función adaptativa, una unidad 840 de ponderación y una unidad 850 de determinación de diferencia de tiempo entre canales.
La unidad 810 de determinación del coeficiente de correlación cruzada se configura para determinar un coeficiente de correlación cruzada de una señal multicanal de una trama actual.
La unidad 820 de estimación de la trayectoria de retardo se configura para determinar un valor de estimación de la trayectoria de retardo de la trama actual basándose en la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de al menos una trama pasada.
La unidad 830 de determinación de función adaptativa se configura para determinar una función de ventana adaptativa de la trama actual.
La unidad 840 de ponderación se configura para realizar la ponderación del coeficiente de correlación cruzada basándose en el valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, para obtener un coeficiente de correlación cruzada ponderado.
La unidad 850 de determinación de diferencia de tiempo entre canales se configura para determinar una diferencia de tiempo entre canales de la trama actual basándose en el coeficiente de correlación cruzada ponderado.
Opcionalmente, la unidad 830 de determinación de función adaptativa se configura además para:
calcular un primer parámetro de ancho de coseno elevado basándose en una desviación de la estimación de la diferencia de tiempo entre canales suavizada de una trama anterior de la trama actual;
calcular una primera polarización de la altura de coseno elevado basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; y
determinar la función de ventana adaptativa de la trama actual basándose en el primer parámetro de ancho de coseno elevado y la primera polarización de la altura de coseno elevado.
Opcionalmente, el aparato incluye además: una unidad 860 de determinación de desviación de la estimación de la diferencia de tiempo entre canales suavizada.
La unidad 860 de determinación de la desviación de la estimación de la diferencia de tiempo entre canales suavizada se configura para calcular una desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, la valor de estimación de la trayectoria de retardo de la trama actual, y la diferencia de tiempo entre canales de la trama actual.
Opcionalmente, la unidad 830 de determinación de función adaptativa se configura además para:
determinar un valor inicial de la diferencia de tiempo entre canales de la trama actual basándose en el coeficiente de correlación cruzada;
calcular una desviación de la estimación de la diferencia de tiempo entre canales de la trama actual basándose en el valor de estimación de la trayectoria de retardo de la trama actual y el valor inicial de la diferencia de tiempo entre canales de la trama actual; y
determinar la función de ventana adaptativa de la trama actual basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual.
Opcionalmente, la unidad 830 de determinación de función adaptativa se configura además para:
calcular un segundo parámetro de ancho de coseno elevado basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual;
calcular una segunda polarización de la altura de coseno elevado basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual; y
determinar la función de ventana adaptativa de la trama actual basándose en el segundo parámetro de ancho de coseno elevado y la segunda polarización de la altura de coseno elevado.
Opcionalmente, el aparato incluye además una unidad 870 de determinación de parámetros adaptativos.
La unidad 870 de determinación de parámetros adaptativos se configura para determinar un parámetro adaptativo de la función de ventana adaptativa de la trama actual basándose en un parámetro de codificación de la trama anterior de la trama actual.
Opcionalmente, la unidad 820 de estimación de la trayectoria de retardo se configura además para:
realizar una estimación de la trayectoria de retardo basándose en la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada mediante el uso de un método de regresión lineal, para determinar el valor de estimación de la trayectoria de retardo de la trama actual.
Opcionalmente, la unidad 820 de estimación de la trayectoria de retardo se configura además para:
realizar una estimación de la trayectoria de retardo basándose en la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada mediante el uso de un método de regresión lineal ponderada, para determinar el valor de estimación de la trayectoria de retardo de la trama actual.
Opcionalmente, el aparato incluye además una unidad 880 de actualización.
La unidad 880 de actualización se configura para actualizar la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada.
Opcionalmente, la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada es un valor suavizado de diferencia de tiempo entre canales de la al menos una trama pasada, y la unidad 880 de actualización se configura para:
determinar un valor suavizado de diferencia de tiempo entre canales de la trama actual basándose en el valor de estimación de la trayectoria de retardo de la trama actual y la diferencia de tiempo entre canales de la trama actual; y actualizar un valor suavizado de diferencia de tiempo entre canales almacenado en la memoria intermedia de la al menos una trama pasada basándose en el valor suavizado de diferencia de tiempo entre canales de la trama actual. Opcionalmente, la unidad 880 de actualización se configura además para:
determinar, basándose en un resultado de detección de activación por voz de la trama anterior de la trama actual o un resultado de detección de activación por voz de la trama actual, si actualizar la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de la al menos una trama pasada.
Opcionalmente, la unidad 880 de actualización se configura además para:
actualizar un coeficiente de ponderación almacenado en la memoria intermedia de al menos una trama pasada, donde el coeficiente de ponderación del al menos una trama pasada es un coeficiente en el método de regresión lineal ponderada.
Opcionalmente, cuando la función de ventana adaptativa de la trama actual se determina basándose en una diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, la unidad 880 de actualización se configura además para:
calcular un primer coeficiente de ponderación de la trama actual basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual; y
actualizar un primer coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada basándose en el primer coeficiente de ponderación de la trama actual.
Opcionalmente, cuando la función de ventana adaptativa de la trama actual se determina basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual, la unidad de actualización 880 se configura además para:
calcular un segundo coeficiente de ponderación de la trama actual basándose en la desviación de la estimación de la diferencia de tiempo entre canales de la trama actual; y
actualizar un segundo coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada basándose en el segundo coeficiente de ponderación de la trama actual.
Opcionalmente, la unidad 880 de actualización se configura además para:
cuando el resultado de detección de activación por voz de la trama anterior de la trama actual es una trama activa o el resultado de detección de activación por voz de la trama actual es una trama activa, actualice el coeficiente de ponderación almacenado en la memoria intermedia de la al menos una trama pasada.
Para obtener detalles relacionados, consulte las realizaciones del método anteriores.
Opcionalmente, las unidades anteriores pueden implementarse por un procesador en el dispositivo de codificación de audio al ejecutar una instrucción en una memoria.
Un experto en la técnica puede entender claramente que, para una fácil y breve descripción, para un proceso de trabajo detallado del aparato y unidades anteriores, la referencia a un proceso correspondiente en las realizaciones del método anterior, y los detalles no se describen de nuevo en la presente memoria.
En las realizaciones proporcionadas en la presente solicitud, debe entenderse que el aparato y el método descritos pueden implementarse de otras maneras. Por ejemplo, las realizaciones de aparato descritas son simplemente ejemplos. Por ejemplo, la división de unidades es simplemente una división de función lógica y puede ser otra división en la implementación real. Por ejemplo, una pluralidad de unidades o componentes puede combinarse o integrarse en otro sistema, o algunas características pueden ignorarse o no realizarse.
Las descripciones anteriores son simplemente implementaciones opcionales de esta solicitud, pero no pretenden limitar el alcance de protección de esta solicitud. Por lo tanto, el ámbito de protección de esta solicitud estará sujeto al ámbito de protección de las reivindicaciones.
Claims (9)
1. Un método de estimación de retardo, en donde el método comprende:
determinar un coeficiente de correlación cruzada de una señal multicanal de una trama actual, en donde la señal multicanal de la trama actual incluye al menos dos señales de canal, en donde las al menos dos señales de canal se recopilan utilizando diferentes componentes de recopilación de audio, en donde las al menos dos señales de canal se transmiten desde un mismo dispositivo de sonido;
determinar un valor de estimación de la trayectoria de retardo de la trama actual basándose en la información de diferencia de tiempo entre canales almacenada en la memoria intermedia de al menos una trama pasada;
determinar una función de ventana adaptativa de la trama actual;
realizar una ponderación del coeficiente de correlación cruzada basándose en el valor de estimación de la trayectoria de retardo de la trama actual y la función de ventana adaptativa de la trama actual, para obtener un coeficiente de correlación cruzada ponderado;
determinar una diferencia de tiempo entre canales de la trama actual basándose en el coeficiente de correlación cruzada ponderado; y
realizar un procesamiento de alineación de retardo en dos canales de las al menos dos señales de canal basándose en la diferencia de tiempo entre canales.
2. El método según la reivindicación 1, en donde la determinación de una función de ventana adaptativa de la trama actual comprende:
calcular un primer parámetro de ancho de coseno elevado basándose en una desviación de la estimación de la diferencia de tiempo entre canales suavizada de una trama anterior de la trama actual;
calcular una primera polarización de la altura de coseno elevado basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; y
determinar la función de ventana adaptativa de la trama actual basándose en el primer parámetro de ancho de coseno elevado y la primera polarización de la altura de coseno elevado.
3. El método según la reivindicación 2, en donde el primer parámetro de ancho de coseno elevado se obtiene a través de cálculo mediante el uso de las siguientes fórmulas de cálculo:
win vvidlhl = TRUNC(widlh parí * (A * L NCSH1FT DS 1))
y
vvidlh parí = a widlhl * smootli dist reg b vvidLhl
en donde
a w idthl = (xh widlhl - xl_widthl)/(yh_distl - y ld is l l) ,
b widlhl = xh widlhl - a widlhl * y h d is lh
en donde win_width1 es el primer parámetro de ancho de coseno elevado, TRUNC indica redondeo de un valor, L_NCSHIFT_DS es un valor máximo de un valor absoluto de una diferencia de tiempo entre canales, A es una constante preestablecida, A es mayor o igual que 4, xh_width1 es un valor límite superior del primer parámetro de ancho de coseno elevado, xl_width1 es un valor límite inferior del primer parámetro de ancho de coseno elevado, yh_dist1 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior del primer parámetro de ancho de coseno elevado, yl_dist1 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior del primer parámetro de ancho de coseno elevado, smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, y xh_width1, xl_width1, yh_dist1 y yl_dist1 son todos números positivos.
4. El método según la reivindicación 3, en donde
w id th p arl = nnn(\vidüi_parl, xh widllil)
y
w id th p arl =max(widlh_parl. xlvvidthl)
en donde mín. representa tomar un valor mínimo, y máx. representa tomar un valor máximo.
5. El método según la reivindicación 3 o 4, en donde la primera polarización de la altura de coseno elevado se obtiene a través de cálculo mediante el uso de la siguiente fórmula de cálculo:
win biasl = a b ia s l * sm ootlid islreg b biasl,
en donde
a biasl = (xh biasl - xl_biasl)/(yh_disL2 — yl_disL2).
b_biasl = x h b ia s l - a_biasl * \h_disl2
en donde win_bias1 es la primera polarización de la altura de coseno elevado, xh_bias1 es un valor límite superior de la primera polarización de la altura de coseno elevado, xl_bias1 es un valor límite inferior de la primera polarización de la altura de coseno elevado, yh_dist2 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite superior de la primera polarización de la altura de coseno elevado, yl_dist2 es una desviación de la estimación de la diferencia de tiempo entre canales suavizada correspondiente al valor límite inferior de la primera polarización de la altura de coseno elevado, smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual y yh_dist2, yl_dist2, xh_bias1 y xl_bias1 son todos números positivos.
6. El método según la reivindicación 5, en donde
vvin biasl = niin(vvin biasl, x h b ia s l) ,
y
vvin biasl = inax(vvin biasl, xl biasl),
en donde mín. representa tomar un valor mínimo y máx. representa tomar un valor máximo.
7. El método según la reivindicación 5 o 6, en donde yh_dist2 = yh_dist1, e yl_dist2 = yl_dist1.
8. El método según una cualquiera de las reivindicaciones 1 a 7, en donde la función de ventana adaptativa se representa mediante el uso de las siguientes fórmulas:
cuando
0 < k < TRUNC(A * L NCSHIFT D S/2)- 2 *w invvidthl - 1.
loe vveighl_\vin(k) = vvin biasl
cuando TRUNC(A * L_NCSHIFT_DS/2) - 2 * win_width1 < k < TRUNC(A * L_NCSHIFT_DS/2) 2 * win_width1 - 1,
loc_weight_win(k) = 0,5 * (1 win_bias1) 0,5 * (1 - win_bias1) * cos(n * (k - TRUNC(A * L_NCSHIFT_DS/2))/(2 * win_width1));
y
cuando
TRÜNC(A * L NCSH1FT DS/2) 2 * win vvidlhl < k < A* L N C SH 1FTD S,
loe vveighl vvin(k) = vvin biasl
en donde loc_weight_win (k) se utiliza para representar la función de ventana adaptativa, en donde k = 0, 1,..., A* L_NCSHIFT_DS; A es la constante preestablecida y es mayor o igual a 4; L_Nc SHIFT_DS es el valor máximo del valor absoluto de la diferencia de tiempo entre canales; win_width1 es el primer parámetro de ancho de coseno elevado; y win_bias1 es la primera polarización de la altura de coseno elevado.
9. El método según una cualquiera de las reivindicaciones 2 a 8, después de determinar una diferencia de tiempo entre canales de la trama actual basándose en el coeficiente de correlación cruzada ponderado, que comprende además:
calcular una desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual basándose en la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual, el valor de estimación de la trayectoria de retardo de la trama actual y la diferencia tiempo entre canales de la trama actual; y
la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual se obtiene a través de cálculo mediante el uso de las siguientes fórmulas de cálculo:
smoolh_disl_reg_update = (1 — -y) * smoolli_dist_reg y * d islreg ',
dist_reg' = |reg_prv_corr - cur_ild|.
en donde smooth_dist_reg_update es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama actual; y es un primer factor de suavizado, y 0 < y < 1; smooth_dist_reg es la desviación de la estimación de la diferencia de tiempo entre canales suavizada de la trama anterior de la trama actual; reg_prv_corr es el valor de estimación de la trayectoria de retardo de la trama actual; y cur_itd es la diferencia de tiempo entre canales de la trama actual.
Un dispositivo de codificación de audio, en donde el dispositivo de codificación de audio comprende un procesador y una memoria conectada al procesador; y
la memoria está configurada para ser controlada por el procesador, y el procesador está configurado para implementar el método de estimación de retardo según una cualquiera de las reivindicaciones 1 a 9.
Un producto de programa informático que comprende instrucciones ejecutables por ordenador almacenadas en un medio legible por ordenador no transitorio que, cuando son ejecutadas por al menos un procesador, hacen que un dispositivo de codificación de audio implemente el método según una cualquiera de las reivindicaciones 1 a 9.
Applications Claiming Priority (1)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| CN201710515887.1A CN109215667B (zh) | 2017-06-29 | 2017-06-29 | 时延估计方法及装置 |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES3036065T3 true ES3036065T3 (en) | 2025-09-12 |
Family
ID=64740977
Family Applications (3)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES21191953T Active ES2944908T3 (es) | 2017-06-29 | 2018-06-11 | Método y dispositivo de estimación de retardo de tiempo |
| ES18825242T Active ES2893758T3 (es) | 2017-06-29 | 2018-06-11 | Método y dispositivo de estimación de retardo de tiempo |
| ES23162751T Active ES3036065T3 (en) | 2017-06-29 | 2018-06-11 | Time delay estimation method and device |
Family Applications Before (2)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES21191953T Active ES2944908T3 (es) | 2017-06-29 | 2018-06-11 | Método y dispositivo de estimación de retardo de tiempo |
| ES18825242T Active ES2893758T3 (es) | 2017-06-29 | 2018-06-11 | Método y dispositivo de estimación de retardo de tiempo |
Country Status (15)
| Country | Link |
|---|---|
| US (3) | US11304019B2 (es) |
| EP (4) | EP4235655B1 (es) |
| JP (3) | JP7055824B2 (es) |
| KR (6) | KR20250039506A (es) |
| CN (1) | CN109215667B (es) |
| AU (4) | AU2018295168B2 (es) |
| BR (1) | BR112019027938A2 (es) |
| CA (1) | CA3068655C (es) |
| ES (3) | ES2944908T3 (es) |
| HU (1) | HUE072329T2 (es) |
| PL (1) | PL4235655T3 (es) |
| RU (1) | RU2759716C2 (es) |
| SG (1) | SG11201913584TA (es) |
| TW (1) | TWI666630B (es) |
| WO (1) | WO2019001252A1 (es) |
Families Citing this family (13)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| CN109215667B (zh) * | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
| CN109862503B (zh) * | 2019-01-30 | 2021-02-23 | 北京雷石天地电子技术有限公司 | 一种扬声器延时自动调整的方法与设备 |
| CN110073176B (zh) * | 2019-03-15 | 2020-11-27 | 深圳市汇顶科技股份有限公司 | 校正电路以及相关信号处理电路及芯片 |
| EP3956890B1 (en) * | 2019-04-18 | 2024-02-21 | Dolby Laboratories Licensing Corporation | A dialog detector |
| US12238011B2 (en) * | 2019-06-25 | 2025-02-25 | Siemens Aktiengesellschaft | Computer-implemented method for adapting at least one pre-defined frame delay |
| CN110349592B (zh) * | 2019-07-17 | 2021-09-28 | 百度在线网络技术(北京)有限公司 | 用于输出信息的方法和装置 |
| CN110895321B (zh) * | 2019-12-06 | 2021-12-10 | 南京南瑞继保电气有限公司 | 一种基于录波文件基准通道的二次设备时标对齐方法 |
| CN111294367B (zh) * | 2020-05-14 | 2020-09-01 | 腾讯科技(深圳)有限公司 | 音频信号后处理方法和装置、存储介质及电子设备 |
| KR20220002859U (ko) | 2021-05-27 | 2022-12-06 | 성기봉 | 열 순환 마호타일 판넬 |
| CN113382081B (zh) * | 2021-06-28 | 2023-04-07 | 阿波罗智联(北京)科技有限公司 | 时延估计调整方法、装置、设备以及存储介质 |
| CN114001758B (zh) * | 2021-11-05 | 2024-04-19 | 江西洪都航空工业集团有限责任公司 | 一种捷联导引头捷联解耦准确确定时间延迟的方法 |
| CN114171061B (zh) * | 2021-12-29 | 2024-12-20 | 苏州科达特种视讯有限公司 | 时延估计方法、设备及存储介质 |
| CN117242517A (zh) * | 2023-08-09 | 2023-12-15 | 北京小米移动软件有限公司 | 音频信号处理方法及装置、通信设备、通信系统、存储介质 |
Family Cites Families (27)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| FI113903B (fi) * | 1997-05-07 | 2004-06-30 | Nokia Corp | Puheen koodaus |
| US20050065786A1 (en) * | 2003-09-23 | 2005-03-24 | Jacek Stachurski | Hybrid speech coding and system |
| US7006636B2 (en) * | 2002-05-24 | 2006-02-28 | Agere Systems Inc. | Coherence-based audio coding and synthesis |
| RU2004118840A (ru) * | 2001-11-23 | 2005-10-10 | Конинклейке Филипс Электроникс Н.В. (Nl) | Способ замещения воспринимаемого шума |
| KR101016982B1 (ko) * | 2002-04-22 | 2011-02-28 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 디코딩 장치 |
| SE0400998D0 (sv) | 2004-04-16 | 2004-04-16 | Cooding Technologies Sweden Ab | Method for representing multi-channel audio signals |
| JP5046653B2 (ja) | 2004-12-28 | 2012-10-10 | パナソニック株式会社 | 音声符号化装置および音声符号化方法 |
| US7573912B2 (en) * | 2005-02-22 | 2009-08-11 | Fraunhofer-Gesellschaft Zur Foerderung Der Angewandten Forschunng E.V. | Near-transparent or transparent multi-channel encoder/decoder scheme |
| WO2007052612A1 (ja) | 2005-10-31 | 2007-05-10 | Matsushita Electric Industrial Co., Ltd. | ステレオ符号化装置およびステレオ信号予測方法 |
| GB2453117B (en) | 2007-09-25 | 2012-05-23 | Motorola Mobility Inc | Apparatus and method for encoding a multi channel audio signal |
| KR101038574B1 (ko) * | 2009-01-16 | 2011-06-02 | 전자부품연구원 | 3차원 오디오 음상 정위 방법과 장치 및 이와 같은 방법을 구현하는 프로그램이 기록되는 기록매체 |
| EP2395504B1 (en) | 2009-02-13 | 2013-09-18 | Huawei Technologies Co., Ltd. | Stereo encoding method and apparatus |
| JP4977157B2 (ja) * | 2009-03-06 | 2012-07-18 | 株式会社エヌ・ティ・ティ・ドコモ | 音信号符号化方法、音信号復号方法、符号化装置、復号装置、音信号処理システム、音信号符号化プログラム、及び、音信号復号プログラム |
| CN101533641B (zh) | 2009-04-20 | 2011-07-20 | 华为技术有限公司 | 对多声道信号的声道延迟参数进行修正的方法和装置 |
| KR20110049068A (ko) | 2009-11-04 | 2011-05-12 | 삼성전자주식회사 | 멀티 채널 오디오 신호의 부호화/복호화 장치 및 방법 |
| CN102157152B (zh) * | 2010-02-12 | 2014-04-30 | 华为技术有限公司 | 立体声编码的方法、装置 |
| CN103366748A (zh) * | 2010-02-12 | 2013-10-23 | 华为技术有限公司 | 立体声编码的方法、装置 |
| CN102074236B (zh) | 2010-11-29 | 2012-06-06 | 清华大学 | 一种分布式麦克风的说话人聚类方法 |
| EP2671222B1 (en) * | 2011-02-02 | 2016-03-02 | Telefonaktiebolaget LM Ericsson (publ) | Determining the inter-channel time difference of a multi-channel audio signal |
| CN103700372B (zh) * | 2013-12-30 | 2016-10-05 | 北京大学 | 一种基于正交解相关技术的参数立体声编码、解码方法 |
| CN107112024B (zh) * | 2014-10-24 | 2020-07-14 | 杜比国际公司 | 音频信号的编码和解码 |
| CN106033672B (zh) | 2015-03-09 | 2021-04-09 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
| CN106033671B (zh) * | 2015-03-09 | 2020-11-06 | 华为技术有限公司 | 确定声道间时间差参数的方法和装置 |
| US10832689B2 (en) * | 2016-03-09 | 2020-11-10 | Telefonaktiebolaget Lm Ericsson (Publ) | Method and apparatus for increasing stability of an inter-channel time difference parameter |
| CN106209491B (zh) * | 2016-06-16 | 2019-07-02 | 苏州科达科技股份有限公司 | 一种时延检测方法及装置 |
| CN106814350B (zh) * | 2017-01-20 | 2019-10-18 | 中国科学院电子学研究所 | 基于压缩感知的外辐射源雷达参考信号信杂比估计方法 |
| CN109215667B (zh) * | 2017-06-29 | 2020-12-22 | 华为技术有限公司 | 时延估计方法及装置 |
-
2017
- 2017-06-29 CN CN201710515887.1A patent/CN109215667B/zh active Active
-
2018
- 2018-06-11 KR KR1020257008023A patent/KR20250039506A/ko active Pending
- 2018-06-11 EP EP23162751.4A patent/EP4235655B1/en active Active
- 2018-06-11 KR KR1020217028193A patent/KR102428951B1/ko active Active
- 2018-06-11 KR KR1020247009498A patent/KR102781883B1/ko active Active
- 2018-06-11 ES ES21191953T patent/ES2944908T3/es active Active
- 2018-06-11 RU RU2020102185A patent/RU2759716C2/ru active
- 2018-06-11 WO PCT/CN2018/090631 patent/WO2019001252A1/zh not_active Ceased
- 2018-06-11 PL PL23162751.4T patent/PL4235655T3/pl unknown
- 2018-06-11 JP JP2019572656A patent/JP7055824B2/ja active Active
- 2018-06-11 KR KR1020237016239A patent/KR102651379B1/ko active Active
- 2018-06-11 ES ES18825242T patent/ES2893758T3/es active Active
- 2018-06-11 EP EP25171786.4A patent/EP4618076A1/en active Pending
- 2018-06-11 SG SG11201913584TA patent/SG11201913584TA/en unknown
- 2018-06-11 ES ES23162751T patent/ES3036065T3/es active Active
- 2018-06-11 EP EP18825242.3A patent/EP3633674B1/en active Active
- 2018-06-11 EP EP21191953.5A patent/EP3989220B1/en active Active
- 2018-06-11 CA CA3068655A patent/CA3068655C/en active Active
- 2018-06-11 AU AU2018295168A patent/AU2018295168B2/en active Active
- 2018-06-11 BR BR112019027938-5A patent/BR112019027938A2/pt unknown
- 2018-06-11 KR KR1020227026562A patent/KR102533648B1/ko active Active
- 2018-06-11 KR KR1020207001706A patent/KR102299938B1/ko active Active
- 2018-06-11 HU HUE23162751A patent/HUE072329T2/hu unknown
- 2018-06-13 TW TW107120261A patent/TWI666630B/zh active
-
2019
- 2019-12-26 US US16/727,652 patent/US11304019B2/en active Active
-
2022
- 2022-03-08 US US17/689,328 patent/US11950079B2/en active Active
- 2022-04-06 JP JP2022063372A patent/JP7419425B2/ja active Active
- 2022-06-09 AU AU2022203996A patent/AU2022203996B2/en active Active
-
2023
- 2023-12-28 AU AU2023286019A patent/AU2023286019B2/en active Active
-
2024
- 2024-01-09 JP JP2024001381A patent/JP7723126B2/ja active Active
- 2024-02-28 US US18/590,257 patent/US20240223982A1/en active Pending
-
2025
- 2025-08-28 AU AU2025223816A patent/AU2025223816A1/en active Pending
Also Published As
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES3036065T3 (en) | Time delay estimation method and device | |
| ES2928335T3 (es) | Método para codificar señales multicanal y codificador | |
| ES3035269T3 (en) | Stereo signal encoding method and device | |
| ES2945723T3 (es) | Método de codificación y decodificación y aparato de codificación y decodificación para señales estéreo | |
| JP2025176006A (ja) | 遅延推定方法および遅延推定装置 | |
| BR122024021515A2 (pt) | Método de estimativa de atraso e dispositivo de codificação de áudio | |
| BR122024021505A2 (pt) | Método de estimativa de atraso e dispositivo de codificação de áudio | |
| BR122024021508A2 (pt) | Método de estimativa de atraso e dispositivo de codificação de áudio | |
| BR122024021519A2 (pt) | Método de estimativa de atraso e dispositivo de codificação de áudio | |
| BR122023025915B1 (pt) | Método para codificar um sinal multicanal, codificador, e meio de armazenamento legível por computador |