ES2625952T3 - Método para la generación de tramas de ocultación en sistema de comunicación - Google Patents

Método para la generación de tramas de ocultación en sistema de comunicación Download PDF

Info

Publication number
ES2625952T3
ES2625952T3 ES06704595.5T ES06704595T ES2625952T3 ES 2625952 T3 ES2625952 T3 ES 2625952T3 ES 06704595 T ES06704595 T ES 06704595T ES 2625952 T3 ES2625952 T3 ES 2625952T3
Authority
ES
Spain
Prior art keywords
samples
concealment
sequence
sub
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06704595.5T
Other languages
English (en)
Inventor
Søren Vang ANDERSEN
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Skype Ltd Ireland
Original Assignee
Skype Ltd Ireland
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Family has litigation
First worldwide family litigation filed litigation Critical https://patents.darts-ip.com/?family=59285473&utm_source=google_patent&utm_medium=platform_link&utm_campaign=public_patent_search&patent=ES2625952(T3) "Global patent litigation dataset” by Darts-ip is licensed under a Creative Commons Attribution 4.0 International License.
Application filed by Skype Ltd Ireland filed Critical Skype Ltd Ireland
Application granted granted Critical
Publication of ES2625952T3 publication Critical patent/ES2625952T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L12/00Data switching networks
    • H04L12/28Data switching networks characterised by path configuration, e.g. LAN [Local Area Networks] or WAN [Wide Area Networks]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/60Network streaming of media packets
    • H04L65/75Media network packet handling
    • H04L65/764Media network packet handling at the destination 
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M3/00Automatic or semi-automatic exchanges
    • H04M3/18Automatic or semi-automatic exchanges with means for reducing interference or noise; with means for reducing effects due to line faults with means for protecting lines
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)
  • Complex Calculations (AREA)
  • Time-Division Multiplex Systems (AREA)
  • Mobile Radio Communication Systems (AREA)
  • Communication Control (AREA)
  • Superconductors And Manufacturing Methods Therefor (AREA)
  • Measuring Pulse, Heart Rate, Blood Pressure Or Blood Flow (AREA)
  • Magnetic Resonance Imaging Apparatus (AREA)
  • Apparatus For Radiation Diagnosis (AREA)
  • Filters That Use Time-Delay Elements (AREA)
  • Dc Digital Transmission (AREA)
  • Telephonic Communication Services (AREA)
  • Noise Elimination (AREA)

Abstract

Un método para generar una secuencia de muestras de ocultación (CS1-CS11) en conexión con la transmisión de una señal de audio digitalizada, en donde el método comprende la generación de la secuencia de muestras de ocultación (CS1 -CS11) a partir de muestras de memoria intermedia (BS1-BS4) de la representación digitalizada de la señal de audio en el orden de tiempo de la muestra, caracterizado por que la secuencia de muestras de ocultación (CS1-CS11) comprende al menos unas dos primeras subsecuencias consecutivas de muestras de ocultación y unas segundas dos subsecuencias consecutivas de muestras de ocultación ((CS1, CS2), (CS9, CS10)), en donde las primeras dos subsecuencias consecutivas de muestras de ocultación se basan en unas dos primeras subsecuencias de muestras de memoria intermedia ordenadas en orden de la muestra inversa, y en donde se basan las dos segundas subsecuencias consecutivas de muestras de ocultación ((CS1, CS2), (CS9, CS10)) en unas segundas dos subsecuencias de muestras de memoria intermedia ((BS4, BS3), (BS2, BS1)), ordenadas en orden de tiempo de muestra inversa, en donde dichas segundas dos subsecuencias consecutivas de muestras de ocultación (CS9, CS10) están situadas más adelante en la secuencia de muestras de ocultación (CS1-CS11) que las primeras dos subsecuencias consecutivas de muestras de ocultación (CS1, CS2), y en donde una primera subsecuencia (CS1) de las primeras dos subsecuencias consecutivas de las muestras de ocultación (CS1, CS2) se basa en una primera subsecuencia de muestras almacenadas de memoria intermedia (BS4) y una primera subsecuencia (CS9) de las segundas dos subsecuencias consecutivas de muestras de ocultación (CS9, CS10) se basa en una segunda subsecuencia de muestras de memoria intermedia (BS2), en donde la segunda subsecuencia de muestras de memoria intermedia (BS2) se encuentra más atrás en el tiempo de muestreo que la primera subsecuencia de muestras de memoria intermedia (BS4).

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Metodo para la generacion de tramas de ocultacion en sistema de comunicacion Campo de la invencion
La presente invencion se refiere en general a sistemas de telecomunicacion. Mas particularmente, la presente invencion se refiere a un metodo, a un dispositivo y a una disposicion que compensa la perdida y/o fluctuacion de retardo y/o desplazamiento de reloj de paquetes de senales para mejorar la calidad de la transmision de senal a traves de sistemas de telecomunicaciones inalambricos y de redes conmutadas de paquetes.
Antecedentes de la invencion
Las telecomunicaciones modernas se basan en la transmision digital de senales. Por ejemplo, en la figura 1, un transmisor 200 recoge una senal de sonido desde una fuente 100. Esta fuente puede ser el resultado de una o mas personas que hablan y otras fuentes de ondas acusticas recogidas por un microfono, o puede ser un sistema de almacenamiento o de generacion de senales de sonido, tal como una smtesis de texto a voz o el sistema de dialogo. Si la senal de la fuente es analogica, se convierte a una representacion digital por medio de un convertidor analogico a digital. La representacion digital se codifica posteriormente y se coloca en paquetes siguiendo un formato adecuado para el canal digital 300. Los paquetes se transmiten a traves del canal digital. El canal digital comprende tipicamente multiples capas de abstraccion.
En la capa de abstraccion en la figura 1, el canal digital toma una secuencia de paquetes como entrada y suministra una secuencia de paquetes como salida. Debido a degradaciones en el canal, tfpicamente causadas en ruido, imperfecciones, y sobrecarga en el canal, la secuencia de paquetes de salida esta tfpicamente contaminada con perdida de parte de los paquetes y el retardo del tiempo de llegada y la fluctuacion de retardo para otros paquetes. Ademas, la diferencia en el reloj del transmisor y el receptor puede resultar en un desplazamiento de reloj. Es la tarea del receptor 400 decodificar los paquetes de datos recibidos y convertir las representaciones digitales decodificadas desde el flujo de paquetes y decodificarlas en representaciones digitales de senales y, ademas, convertir estas representaciones en una senal de sonido decodificada en un formato adecuado para la salida al colector de senales 500. Este colector de senales puede ser una o mas personas que se presentan a la senal de sonido decodificada por medio de, por ejemplo, uno o mas altavoces. Alternativamente, el colector de senal puede ser un sistema de almacenamiento de voz o de audio o un sistema de dialogo o reconocedor de voz o de audio.
Es la tarea del receptor reproducir con precision una senal que se puede presentar al colector. Cuando el colector comprende directa o indirectamente oyentes humanos, un objeto del receptor es obtener una representacion de la senal de sonido que, cuando se presenta a los oyentes humanos, reproduce con precision la impresion humanamente percibida y la informacion de la senal acustica de la fuente o fuentes. Para asegurar esta tarea en el caso comun donde el canal degrada la secuencia recibida de paquetes con perdida, retardo, fluctuacion de retardo, y desplazamiento de reloj, puede presentarse, ademas, una ocultacion eficaz que es necesaria como parte del subsistema receptor.
A modo de ejemplo, una posible implementacion de un subsistema receptor para realizar esta tarea se ilustra en la figura 2. Como se indica en esta figura, los paquetes entrantes se almacenan en una memoria intermedia de fluctuacion 410 donde una unidad de decodificacion y ocultacion 420 adquiere representaciones de senal codificadas recibidas, y decodifica y oculta estas representaciones de senal codificadas para obtener representaciones de senal adecuadas para su almacenamiento en una memoria intermedia de reproduccion 430 y su reproduccion posterior. El control de cuando iniciar la ocultacion y que parametros espedficos de esta ocultacion, tal como la longitud de la senal oculta, puede, como un ejemplo, realizarse mediante una unidad de control 440, que monitoriza el contenido de la memoria intermedia de fluctuacion y la memoria intermedia de reproduccion y controla la accion de la unidad de decodificacion y ocultacion 420.
La ocultacion se puede realizar tambien como parte de un subsistema de canal. La figura 3 ilustra un ejemplo de un subsistema de canal en el cual los paquetes se reenvfan desde un canal 310 a un canal 330 a traves de un subsistema 320, que para referencia posterior llamamos la retransmision. En sistemas practicos, la funcion de la retransmision se puede realizar mediante unidades, que pueden adoptar una variedad de nombres dependientes del contexto, tales como diversos tipos de enrutadores, servidores proxy, servidores de borde, controladores de acceso de red, controladores de red de area local inalambrica, puertas de enlace de voz sobre IP, puertas de enlace de medios, controladores de red sin licencia, y otros nombres. En el presente contexto, todos estos son ejemplos de sistemas de retransmision.
Un ejemplo de un sistema de retransmision que es capaz de hacer la ocultacion de audio se ilustra en la figura 4. Como se ilustra en esta figura, los paquetes se reenvfan desde una memoria intermedia de entrada 310 a una memoria intermedia de salida 360 a traves de subsistemas de conmutacion de paquetes 320 y 350. La unidad de control 370 monitoriza las memorias intermedias de entrada y salida, y como resultado de esta monitorizacion, toma decisiones de si es necesaria la transcodificacion y la ocultacion. Si este es el caso, los interruptores dirigen los
5
10
15
20
25
30
35
40
45
50
55
60
65
paquetes a traves de la unidad de transcodificacion y de ocultacion 330. Si este no es el caso, los interruptores dirigen los paquetes a traves del subsistema de accion de protocolos mmimos 340, lo que hara que un mmimo de operaciones en las cabeceras de los paquetes permanezca compatible con los protocolos aplicados. Esto puede comprender etapas de alteracion de numero de secuencia y de sello de tiempo de los paquetes.
En la transmision de senales de audio que utilizan sistemas ejemplificados por, pero no limitado a, las descripciones anteriores, existe la necesidad de ocultacion de perdida, retardo, fluctuacion de retardo, y/o desplazamiento de reloj en senales representativas, o parcialmente representativas, de la senal de sonido. Las tecnicas anteriores de abordar esta tarea de ocultacion se categorizan en metodos de repeticion de tono y metodos de modificacion de la escala de tiempo.
Los metodos de repeticion de tono, a veces realizados en el modelo de oscilador, se basan en una estimacion del periodo de tono en la voz hablada o, alternativamente, en la estimacion de la frecuencia fundamental correspondiente de la senal de voz hablada. Dado el periodo de tono, una trama de ocultacion se obtiene por lectura repetida del ultimo periodo de tono. Discontinuidades al principio y al final de la trama de ocultacion y entre cada repeticion del periodo de tono pueden alisarse utilizando un procedimiento de adicion de superposicion dividida. Vease la patente numero WO 0148736 y la recomendacion de la Union Internacional de Telecomunicaciones UIT-T G.711 Apendice 1 para ejemplos del metodo de repeticion de tono.
Los sistemas de la tecnica anterior integran ocultacion basada en la repeticion de tono con decodificadores basados en el principio de codificacion predictiva lineal. En estos sistemas la repeticion de tono se realiza tipicamente en el dominio de excitacion de prediccion lineal mediante una lectura del predictor a largo plazo o bucle de libro de codigos adaptativo. Vease la patente numero US5699481, la recomendacion de la Union Internacional de Telecomunicaciones UIT-T G.729, y la Solicitud del grupo de trabajo de ingeniena de Internet para comentarios 3951 para ejemplos de ocultacion de repeticion de tono basados en el dominio de excitacion de prediccion lineal. Los metodos anteriores se aplican para ocultar una perdida o un retardo creciente, es decir, una fluctuacion de retardo positivo, y situaciones de entrada o memoria intermedia de fluctuacion de flujo inferior o cerca de flujo inferior, por ejemplo, debido a desplazamiento de reloj. Para ocultar un retraso decreciente, una fluctuacion de retardo negativo, o un desbordamiento de entrada o de memoria intermedia de fluctuacion o cerca del desbordamiento, es necesaria la generacion de una senal de ocultacion acortada. Metodos basados en el tono logran esto mediante un procedimiento de adicion de solapado entre un periodo de tono y un periodo de tono anterior. Vease la patente numero WO 0148736 para un ejemplo de este metodo.
De nuevo, esto se puede lograr mientras que la explotacion de instalaciones presentes en decodificadores predictivos lineales. Como un ejemplo, la patente numero US5699481 divulga un metodo mediante el cual vectores de contribucion del libro de codigos fijo se descartan simplemente a partir de la senal de reproduccion, basandose en el estado del libro de codigos adaptativo para asegurar la periodicidad de tono en la senal reproducida. En relacion con los metodos de repeticion de tono, un objeto es una continuacion de la senal sin costuras desde la trama de ocultacion a la trama siguiente. La patente WO 0148736 divulga un metodo para lograr este objeto. Mediante la invencion descrita en el documento WO 0148736, este objeto se consigue por medio de tramas de ocultacion de variables en el tiempo y, posiblemente, una longitud dependiente de la senal. Mientras que este puede asegurar de manera eficiente la continuacion de la senal sin costuras en conexion con la ocultacion de la fluctuacion de retardo y el desplazamiento de reloj, esta solucion introduce una deficiencia en relacion con sistemas del tipo representado en la figura 4. Siguiendo a este tipo de ocultacion, no se puede garantizar una codificacion de la ocultacion en tramas de longitud predeterminada fija que conecta sin costuras con las tramas ya codificadas que se retransmiten preferiblemente a traves de la accion de protocolos mmimos 340.
Un problema recurrente en los metodos basados en la repeticion de tono para la ocultacion de perdida y que bruscamente aumentan el retraso es que la repeticion de ciclos de tono hace que la senal reproducida suene poco natural. Mas espedficamente, esta senal de audio se vuelve demasiado periodica. En el peor de los casos, los llamados sonidos de cuerda se perciben en la senal de sonido reproducida. Para aliviar este problema, existen numerosos metodos en la tecnica anterior. Estos metodos incluyen el uso de periodos de repeticion que son el doble o el triple del periodo de paso estimado. Como un ejemplo, la solicitud del grupo de trabajo de ingeniena de Internet para comentarios 3951 describe un metodo por el cual se utilizo dos veces el periodo de tono estimado si el periodo de tono estimado es inferior a 10 ms. Como otro ejemplo, la recomendacion de la Union Internacional de Telecomunicaciones UIT-T G.711 Apendice 1 describe un metodo mediante el que una duplicacion y, mas tarde una triplicacion, del periodo de repeticion se introduce a repetir dos y mas tarde tres ciclos de tono, en lugar de repetir un unico periodo de tono. Vease la recomendacion de la Union Internacional de Telecomunicaciones UIT-T G.711 Apendice 1 para una descripcion completa de este metodo. Por otra parte, una mezcla de la senal de ocultacion con un componente de senal aleatoria o similar a aleatoria con un nivel, que es dependiente del nivel de sonoridad de la voz, y una atenuacion gradual de la senal de ocultacion se introduce tfpicamente para aliviar sonidos de cuerda. A veces, esta senal similar a aleatoria se deriva mediante operaciones sobre la senal de la memoria intermedia o mediante el uso de instalaciones, tales como libros de codigos aleatorios que ya estan disponibles en el decodificador. Vease la patente numero US5699481, la recomendacion de la Union Internacional de Telecomunicaciones UIT-T G.729, y la Solicitud del grupo de trabajo de ingeniena de Internet para comentarios 3951 para ejemplos de uso de estas caractensticas. Tambien la atenuacion gradual se utiliza para suprimir artefactos
5
10
15
20
25
30
35
40
45
50
55
60
65
introducidos. Considerando esto, dado el metodo de ocultacion subyacente, puede ser la mejor opcion segun la interpretacion de un oyente de extremo cercano. Un oyente extremo alejado, en un escenario con retorno de eco y un filtro adaptativo para cancelar este eco, puede interpretar el efecto de esta atenuacion como predominantemente negativo. Esto es debido a que la atenuacion disminuye la persistencia de la excitacion del cancelador de eco adaptativo. De esta manera, el seguimiento de esto para la trayectoria de eco real se degrada, y el oyente de extremo puede experimentar un mayor retorno de eco.
Metodos de modificacion de escala de tiempo del tipo descrito, por ejemplo, en Linag, Farber y Girod, "Adaptive Playout Scheduling and Loss Concealment for Voice Communication over IP Networks", IEEE Transactions on Multimedia, vol. 5, n.° 4, paginas 532-543, diciembre de 2003 funcionan a traves de un procedimiento de adicion de superposicion alisado coincidente. En este procedimiento un segmento de senal esta en la memoria intermedia, pero la senal aun no reproducida se divide de manera alisada y se identifica como el segmento de plantilla, posteriormente otros segmentos enmarcados de manera alisada se buscan para identificar el segmento similar, donde puede haber similitud, por ejemplo, en la medida de correlacion. El segmento de plantilla dividido de manera alisada y el segmento similar dividido de manera alisada posteriormente se superponen y se anaden para producir la senal modificada de escala de tiempo. Cuando la reproduccion de escala de tiempo se extiende, la region de busqueda para el segmento similar se coloca delante del segmento de plantilla en el tiempo de la muestra. A la inversa, cuando la reproduccion de escala de tiempo se comprime, la region de busqueda para el segmento similar se coloca por delante del segmento de plantilla en el tiempo de la muestra. En los metodos conocidos de modificacion de escala de tiempo, la longitud de la plantilla y del segmento similar y de las ventanas aplicadas a los mismos estan predefinidos antes de la ejecucion de la modificacion de escala de tiempo, estas cantidades no estan adaptadas en respuesta a las caractensticas de la senal particular sobre la que se aplica la modificacion de la escala de tiempo. Como se observa en Linag, Farber y Girod, "Adaptive Playout Scheduling and Loss Concealment for Voice Communication over IP Networks", IEEE Transactions on Multimedia, vol. 5, n.° 4, paginas 532-543, diciembre de 2003: con la modificacion de escala de tiempo de la tecnica anterior, retrasos de pico no se pueden aliviar eficazmente desde un punto de partida en una programacion de reproduccion de bajo retardo, segun sea necesario en la comunicacion de voz bidireccional en tiempo real a traves de redes de paquetes.
El documento WO 00/63881 se refiere a un metodo y a un aparato para realizar la perdida de paquetes u ocultacion de borrado de tramas (FEC) para un codificador de voz que no tiene un proceso FEC incorporado o estandar. Un receptor con un decodificador recibe tramas codificadas de informacion de voz comprimida transmitidas desde un codificador. Un detector de tramas perdidas en el receptor determina si una trama codificada se ha perdido o danado en la transmision, o borrado. Si la trama codificada no se borra, la trama codificada se decodifica mediante un decodificador y una memoria temporal se actualiza con la salida del decodificador. Un periodo de retardo predeterminado se aplica y la trama de audio se emite entonces. Si el detector de tramas perdidas determina que la trama codificada se ha borrado, un modulo FEC aplica un proceso de ocultacion de trama a la senal. Este metodo sufre con el problema de que las secuencias de ocultacion generadas pueden presentar picos relacionados armonicamente en el espectro causados por la periodicidad debido a la repeticion de secuencias utilizadas para generar las secuencias de ocultacion.
Se conocen otros metodos con puntos de semejanza a la modificacion de escala de tiempo y metodos de repeticion de tono. Un tipo que se debe mencionar en este contexto se basa en metodos de ocultacion sinusoidales. Vease, por ejemplo, R0dbro y Jensen, "Time-scaling of Sinusoids for Intelligent Jitter Buffer in Packet Based Telephony", en IEEE Proc. Taller sobre Codificacion de Voz, 2002, paginas 71-73. Dependiendo de la cantidad de interpolacion, la repeticion de tono, respectivamente, que se logra a traves del dominio del modelo sinusoidal mediante estos metodos, estos metodos estan sujetos a las mismas limitaciones que se identifican para la repeticion de tono y metodos de modificacion de escala de tiempo mencionados anteriormente.
Sumario de la invencion
La invencion divulgada, o mas bien realizaciones de la misma, mitiga eficazmente las limitaciones identificadas anteriormente en las soluciones conocidas, por ejemplo, artefactos audibles, asf como otras deficiencias no especificadas en las soluciones conocidas.
Espedficamente comparando con metodos conocidos basados en la repeticion de tono, la invencion divulgada proporciona tecnicas para generar senales de ocultacion representativas de la senal de sonido, donde estas senales de ocultacion contienen significativamente menos artefactos perceptivamente molestos, tales como sonidos de cuerda. Se alivia asf una limitacion de estos sistemas con una mejor calidad del sonido directamente percibido como resultado. Al mismo tiempo, esto se obtiene mientras que, al mismo tiempo, se introduce significativamente menor atenuacion en las senales de ocultacion. Asf se alivia una segunda limitacion de los sistemas basados en la repeticion de tono. Este alivio de la segunda limitacion tambien da una calidad percibida directamente mejorada de la senal de ocultacion en el lado de extremo cercano de la comunicacion. Ademas, el alivio de la segunda limitacion da, en sistemas con ecos acusticos y un filtro adaptativo en el extremo cercano para mitigar el efecto de los ecos acusticos percibidos por el extremo lejano, una calidad percibida mejorada en el lado de extremo lejano de la comunicacion. Este segundo efecto se obtiene debido a las senales de ocultacion de la invencion divulgada, debido a que presentan menos atenuacion, proporcionan una excitacion mas persistente para el proceso de adaptacion del
5
10
15
20
25
30
35
40
45
50
55
60
65
filtro de cancelacion de eco adaptativo. Ademas, la robustez de la tecnica divulgada al ruido de fondo acustico supera la de los metodos basados en repeticion de tono conocidos.
Por otra parte, y, espedficamente, en comparacion con metodos conocidos de modificacion de escala de tiempo, la invencion divulgada permite una ocultacion de retrasos de pico en un sistema con bajo retardo de reproduccion de salida o programacion de memoria intermedia de salida, segun sea necesario en comunicacion de voz bidireccional en tiempo real a traves de redes de paquetes. Asf se alivia esta importante limitacion en la modificacion conocida de escala de tiempo.
En un primer aspecto, la invencion proporciona un metodo para generar una secuencia de muestras de ocultacion en relacion con la transmision de una senal de audio digitalizada, donde el metodo comprende la generacion de la secuencia de muestras de ocultacion a partir de muestras de memoria intermedia de la representacion digitalizada de la senal de audio en orden de tiempo de muestra, donde al menos dos subsecuencias consecutivas de muestras en la secuencia de muestras de ocultacion se basan en subsecuencias de muestras de memoria intermedia, donde dichas subsecuencias de muestras de memoria intermedia son consecutivas en el tiempo reordenado.
Las siguientes definiciones se aplican al primer aspecto y seran utilizadas a lo largo de la presente divulgacion. Por una "muestra" se entiende una muestra procedente de una senal de audio digitalizada o de una senal derivada de la misma o coeficientes o parametros representativos de tales senales, siendo estos coeficientes o parametros escalares o vectoriales valorados. Por una "trama" se entiende un conjunto de muestras consecutivas, usando la definicion de la muestra anterior. Por "subsecuencia" se entiende un conjunto de una o mas muestras consecutivas, usando la definicion anterior de muestra. Por lo tanto, en un caso especial, una subsecuencia es igual a una muestra. En caso de uso de, por ejemplo, solapado, dos subsecuencias consecutivas pueden incluir muestras solapadas.
Dependiendo de la eleccion de las tramas, una subsecuencia puede extenderse entre dos tramas consecutivas. En realizaciones preferidas, las subsecuencias estan dispuestas de tal manera que una subsecuencia no puede ser un subconjunto de otra subsecuencia.
Preferiblemente, las al menos dos subsecuencias consecutivas de muestras en la secuencia de muestras de ocultacion se basan en subsecuencias de muestras de memoria intermedia, donde dichas subsecuencias de muestras de memoria intermedia son consecutivas en orden de tiempo inverso. Por lo tanto, en realizaciones preferidas, una secuencia de muestras de ocultacion incluye subsecuencias consecutivas, tales como muestras consecutivas, que se basan en muestras de memoria intermedia consecutivas en orden de tiempo inverso. Por ejemplo, dos, tres, cuatro o incluso mas subsecuencias consecutivas de muestras en la secuencia de muestras de ocultacion pueden basarse en subsecuencias de muestras de memoria intermedia que son consecutivas en orden de tiempo inverso. En otras palabras, la secuencia de ocultacion generada incluye preferentemente partes que se basan en una reproduccion inversa mas o menos directa de muestras de memoria intermedia. En una realizacion preferida, la secuencia de muestras de ocultacion incluye un conjunto de muestras consecutivas de muestras de memoria intermedia en orden de tiempo inverso. Mediante el calculo de al menos parte de una secuencia de muestras de ocultacion basadas en muestras de memoria intermedia utilizando este reordenamiento o esquema de ordenamiento inverso, se proporciona una secuencia de ocultacion de sonido mas natural, sin sufrir de efectos de sonido de cuerdas de la tecnica anterior y ayuda a eliminar o reducir tambien varios otros artefactos.
El metodo descrito tiene un gran numero de ventajas en relacion con los sistemas de comunicacion, por ejemplo, sistemas de VoIP. Aqrn, las senales de voz digitalizadas se transmiten en tramas y la comunicacion esta sujeta a perdida de tramas y a la fluctuacion y a una necesidad de una secuencia de ocultacion de muestras, que al menos en parte reduce la interrupcion muy audible y molesta de la senal.
En realizaciones preferidas, una ubicacion de dichas muestras de memoria intermedia esta situada en un punto que evoluciona gradualmente hacia atras y hacia delante en el tiempo de muestra durante la generacion de la secuencia de muestras de ocultacion. Esto puede implementarse mediante un generador de patrones de mdice que controla esta evolucion temporal. Mediante el analisis de muestras de memoria intermedia, este generador de patrones de mdice selecciona el inicio, detiene y acelera pasajes de evolucion temporal inversa, tambien controla el inicio de la evolucion hacia adelante, se detiene y acelera, y un patron por el cual la evolucion temporal inversa y la evolucion temporal hacia delante estan en secuencia para producir una secuencia de ocultacion de sonido naturalmente.
La secuencia de muestras de ocultacion puede comenzar con una subsecuencia basada en una subsecuencia de las muestras de memoria intermedia que es la ultima en orden de tiempo.
El reordenamiento en el tiempo de subsecuencias puede basarse en un proceso secuencial de indexacion y lectura de muestras hacia delante en el tiempo y dando un paso atras en el tiempo. Preferentemente, el proceso secuencial de indexacion y lectura de muestras comprende la etapa de
a) indexacion de una muestra de memoria intermedia mediante el paso de un numero de muestras de memoria
intermedia hacia atras en orden de tiempo, seguida por la etapa de
5
10
15
20
25
30
35
40
45
50
55
60
65
b) lectura de un numero de muestras de memoria intermedia hacia adelante en orden de tiempo, comenzando con la muestra de memoria intermedia indexada en la etapa a), y uso de las muestras lefdas para el calculo de una subsecuencia de la secuencia de muestras de ocultacion,
donde el numero de muestras de memoria intermedia lefdas hacia adelante es diferente del numero de muestras de memoria intermedia pasadas hacia atras. Con este numero siendo diferente, se evita la periodicidad que conduce a los sonidos de cuerda no naturales. El metodo tambien se denomina como "pasos hacia atras" y "longitudes de lectura" en la descripcion detallada de realizaciones a continuacion.
El numero de muestras de memoria intermedia lefdas hacia adelante puede ser mayor que o menor que el numero de muestras de memoria intermedia pasadas hacia atras. Preferiblemente, el numero de muestras de memoria intermedia lefdas hacia adelante es menor que el numero de muestras de memoria intermedia pasadas hacia atras. Esta eleccion proporcionara un metodo que evoluciona gradualmente mas atras en el tiempo en las muestras de memoria intermedia y proporciona asf una secuencia de ocultacion donde las muestras posteriores se basan gradualmente en muestras de memoria intermedia mas antiguas, iniciando posteriormente una evolucion hacia adelante.
Las subsecuencias de la secuencia de muestras de ocultacion pueden calcularse a partir de subsecuencias de las muestras de memoria intermedia mediante la implicacion de un procedimiento de adicion de superposicion ponderado. Las funciones de ponderacion en dicho ponderado procedimiento de adicion de superposicion ponderado pueden ser, ademas, una funcion de la frecuencia. El procedimiento de adicion de superposicion ponderado puede modificarse en respuesta a un indicador de la calidad de coincidencia, siendo este indicador de la calidad de coincidencia una medida en dos o mas subsecuencias de muestras que entran en el procedimiento de adicion de superposicion ponderado.
El reordenamiento en el tiempo puede describirse en parte mediante una evolucion hacia delante y hacia atras de un puntero de ubicacion. Preferiblemente, la evolucion hacia atras de dicho puntero de localizacion esta limitada por el uso de un criterio de detencion. Los criterios de detencion para dicha evolucion hacia atras, el ritmo (o velocidad) de dicha evolucion hacia delante y hacia atras, y el numero de dichas evoluciones hacia atras iniciadas se pueden optimizar de forma conjunta tal como para optimizar la calidad del sonido cuando son interpretadas por un oyente humano.
Preferiblemente, una operacion de alisado y ecualizacion se aplica a las muestras de memoria intermedia. Esto puede hacerse antes de que las muestras se almacenen temporalmente, mientras estan que, en la memoria intermedia, o justo antes de que las muestras se utilicen para calcular las muestras de ocultacion. Los criterios de detencion para la evolucion hacia atras, el ritmo de dicha evolucion hacia adelante y de dicha evolucion hacia atras, el numero de inicios de dichas evoluciones hacia atras, y la operacion de alisado y ecualizacion se pueden optimizar de forma conjunta para optimizar la calidad del sonido cuando se interpreta por parte de un oyente humano.
Las evoluciones hacia atras y hacia delante del puntero de ubicacion se pueden optimizar de forma conjunta, tal como para optimizar la calidad del sonido cuando se interpreta por parte de un oyente humano.
Preferiblemente, se aplica un filtrado de fase para minimizar las discontinuidades en los lfmites entre la secuencia de muestras de ocultacion y una trama consecutiva de muestras. La introduccion de filtrado de fase ayuda a reducir los problemas de discontinuidad bien conocidos cuando se introduce una secuencia de ocultacion. En los casos donde se aplica este filtrado de fase, la optimizacion conjunta mencionada tambien puede incluir distorsion de la senal introducida por la fase de filtrado, tal como para optimizar la calidad del sonido cuando es percibido por un oyente humano.
Una mezcla de ruido puede introducirse en la secuencia de muestras de ocultacion. Especialmente, una mezcla de ruido puede introducirse en la secuencia de muestras de ocultacion, y donde dicha mezcla de ruido se modifica en respuesta al proceso secuencial de muestras de indexacion hacia delante en el tiempo y el paso hacia atras en el tiempo. En tales casos, el proceso secuencial de muestras de indexacion hacia delante en el tiempo y el paso hacia atras en el tiempo y dicha respuesta a la misma puede incluir el uso de una indicacion de calidad coincidente.
Una funcion de atenuacion se puede aplicar en la secuencia de muestras de ocultacion. Especialmente, esta funcion de atenuacion puede modificarse en respuesta al proceso secuencial de muestras de indexacion hacia delante en el tiempo y el paso hacia atras en el tiempo. El proceso secuencial de muestras de indexacion hacia delante en el tiempo y el paso hacia atras en el tiempo y dicha respuesta a la misma puede incluir el uso de una indicacion de calidad coincidente.
Preferiblemente, un numero resultante de muestras en la secuencia de muestras de ocultacion esta predeterminado, por ejemplo, un numero de muestras en una trama de ocultacion puede ser fijo. El numero de muestras es preferentemente independiente de las caractensticas de la senal de audio digitalizada. El numero predeterminado de muestras tiene preferiblemente un valor entero predeterminado en el intervalo de 5-1000, tal como en el intervalo de 20-500, preferiblemente dependiendo de la frecuencia real de la muestra.
5
10
15
20
25
30
35
40
45
50
55
60
65
La secuencia de muestras de ocultacion puede incluirse en una trama de ocultacion. El metodo puede comprender ademas la generacion de al menos una segunda trama de ocultacion consecutiva a la primera trama de ocultacion, incluyendo la segunda trama una segunda secuencia de muestras de ocultacion. Las secuencias de muestras de ocultacion en la primera y segunda tramas de ocultacion son preferentemente diferentes, es decir, se evitan preferiblemente copias consecutivas de tramas de ocultacion. El uso de tramas que incluyen diferentes secuencias de ocultacion conduce a una ocultacion del sonido mas natural. Preferiblemente, la primera y segunda tramas de ocultacion incluyen el mismo numero de muestras.
Preferiblemente, al menos una subsecuencia de muestras en la segunda trama de ocultacion esta al menos parcialmente basada en subsecuencias de muestras de memoria intermedia mas atras en el tiempo que cualquiera de las subsecuencias de muestras incluidas en la primera trama de ocultacion. Por lo tanto, las tramas de ocultacion posteriores se basan preferentemente en muestras de memoria intermedia mas antiguas.
En un segundo aspecto, la invencion proporciona un codigo de programa ejecutable por ordenador adaptado para realizar el metodo segun el primer aspecto. Dicho codigo de programa puede escribirse en una forma dependiente de la maquina o independiente de la maquina y en cualquier lenguaje de programacion como codigo de maquina o lenguaje de programacion de nivel superior.
En un tercer aspecto, la invencion proporciona un dispositivo de almacenamiento de programa que comprende una secuencia de instrucciones para un microprocesador, tal como un microprocesador de proposito general, para realizar el metodo del primer aspecto. El dispositivo de almacenamiento puede ser cualquier tipo de medios de almacenamiento de datos, tal como discos, tarjetas de memoria o lapices de memoria, discos duros, etc.
En un cuarto aspecto, la invencion proporciona una disposicion, por ejemplo, un dispositivo o aparato, para recibir una senal de audio digitalizada, incluyendo la disposicion:
- medios de memoria para almacenar muestras representativas de una senal de audio digitalizada recibida, y
- medios de procesador para realizar el metodo del primer aspecto.
La implementacion de esta invencion con medios adecuados, tales como los descritos para las realizaciones preferidas a continuacion, permite que un sistema decodificador y de ocultacion y/o un sistema de transcodificador y de ocultacion oculte de manera eficiente secuencias de paquetes perdidos o retardados sin introducir artefactos perceptualmente molestos. Por otra parte, esto se logra con robustez al ruido de fondo acustico y varios altavoces y sin introducir un desvanecimiento rapido. El aumento de la robustez se obtiene porque la consistencia metodo, a traves de la evolucion temporal, es menos dependiente de la estricta periodicidad de la senal que es metodos basados en la repeticion. Por lo tanto, nuestra invencion permite una comunicacion bidireccional de alta calidad de voz en situaciones con ruido acustico de fondo, eco acustico, y/o grave desplazamiento de reloj, perdida de canal y/o fluctuacion de retardo.
Breve descripcion de los dibujos
A continuacion, la invencion se describe en mas detalle con referencia a las figuras adjuntas, en las cuales
la figura 1 es un diagrama de bloques que ilustra un sistema de transmision de sonido de conmutacion de paquetes de extremo a extremo sujeto a los efectos de perdida, retardo, fluctuacion de retardo, y/o desplazamiento de reloj;
la figura 2 es un subsistema receptor de ejemplo que logra memoria intermedia de fluctuacion, decodificacion y ocultacion y memoria intermedia de reproduccion bajo el control de una unidad de control;
la figura 3 es un diagrama de bloques que ilustra un subsistema de retransmision de un canal de conmutacion de paquetes, sujeto a los efectos de desplazamiento de reloj, perdida, retardo, y fluctuacion de retardo;
la figura 4 es un subsistema de retransmision que ejemplifica el cumplimiento de la memoria intermedia de entrada, la memoria intermedia de salida, y cuando sea necesario la transcodificacion y la ocultacion bajo el control de una unidad de control;
la figura 5 es un diagrama de bloques que ilustra un conjunto de realizaciones preferidas de la presente invencion;
la figura 5A es un esquema de ilustracion de subsecuencias en tramas de ocultacion empezando con subsecuencias que se basan en las ultimas subsecuencias de memoria intermedia de orden de tiempo inverso;
la figura 5B ilustra otro ejemplo de una secuencia mas grande de subsecuencias en tramas de ocultacion empezando con las dos ultimas subsecuencias de memoria intermedia en orden de tiempo inverso, y donde las
5
10
15
20
25
30
35
40
45
50
55
60
65
subsecuencias consecutivas se basan en subsecuencias de memoria intermedia mas atras en el tiempo;
la figura 5C ilustra los indices de recuento de muestras en un patron de indexacion formateados mediante pasos hacia atras y longitudes de lectura;
la figura 6 es un esquema que ilustra senales implicadas en la funcion de indexacion y de interpolacion;
la figura 7 es un diagrama de flujo que ilustra una forma posible de implementar una decision logica para detener criterios;
la figura 8 es un diagrama de flujo que ilustra una forma posible de lograr una optimizacion conjunta iterativa de alisado y ecualizacion, criterios de detencion y numero de repeticiones permitidas,
la figura 9 ilustra el uso de desplazamiento circular y adicion de superposicion en relacion con la inicializacion y la alimentacion de una fase de ajuste de filtro, y
la figura 10 ilustra una realizacion del procedimiento de adicion de superposicion ponderada descrito.
Aunque la invencion es susceptible de diversas modificaciones y formas alternativas, realizaciones espedficas se han mostrado a modo de ejemplo en los dibujos y se describiran en detalle en este documento. Se debe entender que, sin embargo, la invencion no pretende estar limitada a las formas particulares divulgadas. Mas bien, la invencion cubre todas las modificaciones, equivalentes y alternativas que caen dentro del alcance de la invencion tal como se define mediante las reivindicaciones adjuntas.
Descripcion de realizaciones preferidas
El procedimiento segun la invencion se activa en la unidad de decodificacion y ocultacion 420 de un receptor tal como el de la figura 2, o se activa en la unidad de transcodificacion y de ocultacion 330 de una retransmision, como la de la figura 4 o en cualquier otra ubicacion en un sistema de comunicacion donde su accion es adecuada. En estas ubicaciones estan disponibles una serie de tramas de senal de memoria intermedia y se desean una serie de tramas de ocultacion. Las tramas de senal disponibles y los marcos de ocultacion deseados pueden consistir en muestras de dominio de tiempo de una senal de audio, por ejemplo, una senal de voz, o pueden consistir en muestras derivadas de las mismas, tal como muestras de excitacion de prediccion lineales, o pueden consistir en otros coeficientes derivados de la senal de audio y total o parcialmente representativos de tramas de senal de sonido. Ejemplos de tales coeficientes son coeficientes de frecuencia de dominio, coeficientes de modelo sinusoidal, coeficientes de codificacion predictiva lineal, coeficientes de interpolacion de forma de onda, y otros conjuntos de coeficientes que total o parcialmente son representativos de las muestras de senal de audio.
La figura 5 muestra una realizacion preferida de la invencion. Despues de la figura 5, las tramas de senal 595 disponibles, que pueden ser tramas de senal o tramas de ocultacion recibidas y decodificadas o transcodificadas a partir de la operacion anterior de este u otros metodos para generar tramas de ocultacion o una combinacion de los tipos de tramas de senal mencionados anteriormente, se almacenan en una memoria intermedia de tramas 600. La senal en la memoria intermedia de trama se analiza mediante un generador de patrones de mdice 660. El generador de patrones de mdice puede ventajosamente hacer uso de las estimaciones del tono de senal 596 y la voz 597. Dependiendo del diseno general del sistema, estas estimaciones pueden estar disponibles para la entrada desde otros procesos, tal como procesos de descodificacion, codificacion o transcodificacion que se calculan mediante otros medios preferentemente utilizando metodos del estado de la tecnica para el analisis de la senal. Ademas, el generador de patrones de mdice toma como entrada el numero 598 de tramas de senal de ocultacion a generar y punteros 599 al principio y al final de las tramas de senal particulares en la memoria intermedia de tramas que reemplaza la trama o tramas de ocultacion. Como un ejemplo, si estas memorias intermedias apuntan al final de la memoria intermedia de trama, entonces esto significa que la trama o tramas de ocultacion deben hacerse adecuadas para seguir la senal almacenada en la memoria intermedia de tramas. Como otro ejemplo, si estos punteros senalan un subconjunto no vado de tramas consecutivas en la memoria intermedia de tramas, entonces esto significa que la trama o tramas de ocultacion deben hacerse para sustituir estas tramas en la secuencia de tramas representativa o parcialmente representativa de la senal de sonido.
Para ilustrar esto aun mas, se asume que la memoria intermedia de trama 600 contiene tramas de senal A, B, C, D, E, y que el numero de tramas de ocultacion 598 es de dos. Entonces, si los punteros a las tramas a reemplazar 599 apuntan al final de la memoria intermedia de tramas, esto significa que dos tramas de senal de ocultacion deben hacerse seguir en secuencia despues de trama de senal E. Por el contrario, si los punteros 599 apuntan fuera de las tramas de senal B, C, D, se deben hacer dos tramas de ocultacion para sustituir las tramas de senal B, C, D y para seguir en secuencia despues de trama de senal A y para ser seguido en secuencia por la trama de senal E.
En cuanto a los metodos para determinar el numero de tramas de ocultacion 598 y el subconjunto de tramas que las tramas de ocultacion deben llegar a sustituir, es decir, los punteros 599, se deben usar preferiblemente los metodos del estado de la tecnica. Asf, los datos 596, 597, 598, y 599 junto con las tramas de senal 595 constituyen entradas
5
10
15
20
25
30
35
40
45
50
55
60
65
al metodo, dispositivo y disposicion de la presente invencion.
En ciertos disenos del sistema general, la longitud o dimension de una trama de senal se mantiene ventajosamente como una constante durante la ejecucion de la unidad de ocultacion. Entre otros escenarios, este es tipicamente el caso cuando la unidad de ocultacion esta integrada en un sistema de retransmision donde el resultado de la ocultacion se debe poner en paquetes representativos de la senal de sonido dentro de un intervalo de tiempo de longitud predeterminada, determinandose esta longitud predeterminada en otro lugar. Como un ejemplo, esta longitud predeterminada puede determinarse durante las negociaciones de protocolo durante un establecimiento de llamada en un sistema de voz sobre IP, y puede alterarse durante la conversacion en respuesta a, por ejemplo, mecanismos de control de congestion de red. Algunas realizaciones de la presente invencion, como se vera mas adelante, cumplen con este requisito de trabajar con una longitud predeterminada de una trama de senal de una manera ventajosa. Sin embargo, la innovacion, como tal, no se limita a estos requisitos del sistema; otras realizaciones de la presente innovacion pueden trabajar con ocultaciones que son un numero no entero de tramas, y tramas de ocultacion que tienen longitudes variables en el tiempo, y donde estas longitudes pueden ser funciones del contenido espedfico en la memoria intermedia de tramas, posiblemente en combinacion con otros factores.
Las realizaciones de la presente invencion pueden ventajosamente hacer uso de una operacion de alisado y ecualizacion 610 que opera en la senal 605 desde la memoria intermedia de trama. Este alisado y ecualizacion genera una senal 615 donde las tramas anteriores en el tiempo que la trama o tramas de ocultacion tienen una mayor similitud con la trama o tramas de senal que la trama o tramas de ocultacion sustitutas de una trama inmediatamente antes de eso. Alternativamente, si la trama o tramas de ocultacion se insertan en secuencia con las tramas existentes sin sustitucion, la similitud es con la trama o tramas inmediatamente antes de la posicion prevista de la trama o tramas de ocultacion. Para su referencia posterior, simplemente llamamos ambos casos como similitud. Similitud es tal como se interpreta por parte de un oyente humano. El alisado y ecualizacion obtiene una senal con una mayor similitud, mientras que al mismo tiempo preserva una evolucion natural del sonido de la senal 615. Ejemplos de operaciones de similitud creciente que se realizan ventajosamente mediante el alisado y la ecualizacion 610 incluyen el aumento del alisado y la similitud en parametros tales como envolvente de energfa, contorno de tono, grado de voz, corte de voz, y envolvente espectral, y otros parametros perceptualmente importantes.
Con respecto a cada uno de estos parametros, transitorios bruscos en la evolucion del parametro dentro de las tramas que se alisan y ecualizan se filtran y el nivel medio del parametro en estas tramas se modifica de manera alisada para ser mas similar en el sentido de similar definido anteriormente. Ventajosamente, la similitud solamente se introduce en una medida, que aun conserva una evolucion de sonido natural de la senal. Bajo el control del generador de patrones de mdice 660, el alisado y la ecualizacion pueden mitigar ventajosamente transitorios y discontinuidades que, de lo contrario, pueden producirse en la siguiente operacion de indexacion y de interpolacion 620. Por otra parte, el alisado y la ecualizacion de contorno de tono ventajosamente pueden controlarse mediante el generador de patrones de mdice 660 de una manera tal como para minimizar la distorsion, que finalmente se introduce de otro modo en las tramas de ocultacion mas tarde mediante el filtro de fase 650. La operacion de alisado y ecualizacion puede ventajosamente hacer uso de la senal o la sustitucion, mezcla, interpolacion y/o fusion de parametros con tramas de senal (o parametros derivados de las mismas) encontrados mas atras en el tiempo en la memoria intermedia de tramas 600. La operacion de alisado y ecualizacion 610 se puede dejar fuera del sistema sin que se aparte del alcance general de la presente invencion. En este caso, la senal 615 se equipara a la senal 605 y la entrada de senal 656 y la salida de control 665 del generador de patrones de mdice 660 puede en ese caso omitirse del diseno del sistema.
La operacion de indexacion y de interpolacion 620 toma como entrada la senal 615, posiblemente alisada y ecualizada, y un patron de mdice 666. Ademas, en algunas realizaciones ventajosas de la presente invencion, la operacion de indexacion y de interpolacion realiza un indicador de calidad de coincidencia 667 como entrada. El indicador de calidad de coincidencia puede ser un valor escalar por instante de tiempo o puede ser una funcion de tiempo y de frecuencia. El proposito del indicador de calidad de coincidencia se hara evidente mas adelante en esta descripcion. El patron de mdice 666 parametriza la operacion de la funcion de indexacion y de interpolacion.
La figura 5A ilustra un ejemplo de como un patron de mdice puede indexar subsecuencias en las muestras de memoria intermedia, BS1, BS2, BS3, BS4, gradualmente hacia atras en el tiempo en la smtesis de una o mas tramas de ocultacion. En el ejemplo mostrado, subsecuencias consecutivas CS1, CS2, CS3, CS, CS5, CS6, CS7 en las tramas de ocultacion CF1, CF2, CF3 se basan en subsecuencias de memoria intermedia BS1, BS2, BS3 y BS4 de muestras en tramas BF1, BF2. Como se ve, las subsecuencias de ocultacion CS1-CS7 se indexan a partir de subsecuencias de memoria intermedia BS1-BS4 con un puntero de ubicacion que se mueve gradualmente hacia atras y luego gradualmente hacia delante en el tiempo como se expresa mediante la notacion funcional CS1(BS4), CS2(BS3), CS3(BS2), lo que significa que CS1 se basa en BS4, y asf sucesivamente. Por lo tanto, la figura 5A sirve como un ejemplo de ilustracion de como subsecuencias consecutivas en tramas de ocultacion puede seguirse entre sf, sobre la base de subsecuencias de memoria intermedia consecutivas, pero reordenadas en el tiempo. Como se ve, las primeras cuatro subsecuencias de ocultacion CS1(BS4), CS2(BS3), CS3(BS2) y CS4(BS1) se eligen para ser la base de las ultimas cuatro subsecuencias de muestras de memoria intermedia BS1, BS2, BS3, BS4, en orden consecutivo, pero en orden de tiempo inverso, comenzando asf con la ultima subsecuencia de memoria intermedia
5
10
15
20
25
30
35
40
45
50
55
60
65
BS1. Despues de las primeras cuatro subsecuencias por orden cronologico inverso, siguen tres subsecuencias CS5, CS6, CS7 que se basan todas en subsecuencias de memoria intermedia consecutivas en el orden del tiempo, es decir, BS2, BS3 y BS4, respectivamente. El patron de mdice preferido es un resultado del generador de patrones de mdice 660 y puede variar en gran medida con las entradas 656, 596, 597, 598, y 599 a este bloque. La figura 5B da, siguiendo la notacion de la figura 5A, otro ejemplo ilustrativo de como subsecuencias de ocultacion CS1-CS11 se puede basar en subsecuencias de memoria intermedia BS1-BS4 en reordenamiento tiempo. Como se ve, mas tarde las subsecuencias de ocultacion se basan gradualmente en subsecuencias de memoria intermedia mas atras en el tiempo. Por ejemplo, las primeras dos subsecuencias de ocultacion consecutivas CS1 y CS2 se basan en las ultimas dos subsecuencias de memoria intermedia BS3, BS4, en orden de tiempo inverso, mientras que una subsecuencia de ocultacion posterior, por ejemplo, CS10 se basa en BS1, es decir, una subsecuencia de memoria intermedia mas atras en el tiempo que las utilizados para calcular CS1 y CS2. Por lo tanto, la figura 5B sirve para ilustrar que subsecuencias de ocultacion consecutivas se basan en las subsecuencias de memoria intermedia indexadas hacia delante y hacia atras en el tiempo de una manera para que la indexacion evolucione gradualmente hacia atras en el tiempo.
En realizaciones ventajosas de la presente invencion, esta evolucion gradual hacia atras en el tiempo se formaliza como una secuencia de lo que para el proposito de esta descripcion llamamos paso hacia atras y una secuencia de lo que para el proposito de esta descripcion llamamos longitudes de lectura. En realizaciones simples de este formato del patron de mdice, un puntero para senalizar muestras, o parametros o coeficientes representativos de los mismos, se desplaza hacia atras en una cantidad igual a un primer paso hacia atras, despues de lo cual una cantidad de muestras, o parametros o coeficientes representativos de los mismos, se insertan en la trama de ocultacion, siendo esta cantidad igual a una primera longitud de lectura. A continuacion, el puntero se mueve hacia atras con una cantidad igual a un segundo paso hacia atras y una cantidad de muestras, o parametros o coeficientes representativos de los mismos, se lee igual a una segunda longitud de lectura, y asf sucesivamente.
La figura 5C ilustra un ejemplo de este proceso mediante la reordenacion de una primera enumeracion de muestras indexadas. Esta primera enumeracion aparece en el eje de tiempo de la senal, mientras que la lista de enumeracion en el eje de tiempo de ocultacion de la figura 5C corresponde a la reordenacion de las muestras originales, ya que se colocan en la trama de ocultacion. Para este ejemplo ilustrado, el primer, segundo, y tercer pasos hacia atras se escogieron arbitrariamente como 5, 6, 5, respectivamente, y la primera, segunda, y tercera longitudes de lectura fueron igualmente elegidas arbitrariamente como 3, 4, 3, respectivamente. En este ejemplo, las subsecuencias con conjuntos de mdice de tiempo {6,7,8}, {3,4,5,6} y {2,3,4}, respectivamente, son subsecuencias que evolucionan gradualmente hacia atras en el tiempo. Las secuencias de pasos hacia atras y longitudes de lectura se eligen aqrn unicamente con fines de ilustracion. Con muestras residuales de voz muestreadas a 16 kHz como un ejemplo, valores tfpicos de pasos hacia atras estan en el intervalo de 40 a 240, pero no se limita a este intervalo, y los valores tfpicos para las longitudes de lectura estan en el intervalo de 5 a 1000 muestras, pero no se limita a este intervalo. En realizaciones mas avanzadas de este formato, la transicion de una secuencia dirigida hacia adelante (por ejemplo, tiempo original o una subsecuencia indexada atras en el tiempo) a otra secuencia dirigida hacia delante, un paso mas atras en el tiempo, se hace gradualmente mediante una interpolacion que cambia gradualmente.
La figura 6 ilustra la operacion de una realizacion simple de la funcion de indexacion y de interpolacion en respuesta a un paso atras y un indicador de longitud de lectura y la calidad coincidente correspondiente. A los efectos de ilustracion, las tramas de senal aqrn consisten en muestras de audio de dominio de tiempo. La interpolacion que cambia gradualmente se aplica en la definicion general de "muestra" utilizada en esta descripcion, es decir, incluyendo coeficientes o parametros del vector o escalados valorados representativos de las muestras de audio de dominio de tiempo, de una manera similar y, por lo tanto, sencilla. En esta figura, 700 ilustra un segmento de la senal 615. El puntero 705 es el instante de tiempo de muestra tras el instante de tiempo de la muestra de la ultima muestra generada en la senal de salida de indexacion y de interpolacion 625. El intervalo de tiempo 750 tiene una longitud igual a la longitud de lectura. El intervalo de tiempo 770 tambien tiene una longitud igual a la longitud de lectura. El intervalo de tiempo 760 tiene una longitud igual al paso atras. Las muestras de senal en 700 a partir del tiempo 705 y la longitud de lectura hacia adelante en el tiempo se multiplican una por una con una funcion de division 720. Tambien las muestras de senal en 700 a partir de una muestra de una ubicacion despues del paso atras antes de la ubicacion 706 y las muestras de longitudes de lectura por delante de allf se multiplican una por una con una funcion de division 7l0. Las muestras resultantes de la multiplicacion con la ventana 710 y con la ventana 720 se anaden una por una 730 para dar lugar a las muestras 740 que constituyen un nuevo lote de muestras para la salida 625 de la operacion de indexacion y de interpolacion. Al termino de esta operacion, el puntero 705 se mueve a la ubicacion 706.
En realizaciones simples de la presente invencion, las funciones de division 710 y 720 son funciones simples de la longitud de lectura 750. Una de tales funciones simples es elegir la ventana 710 y la ventana 720 como la primera y segunda mitad, respectivamente, de una ventana Hanning de longitud dos veces la longitud de lectura. Mientras que aqrn se puede elegir un amplio intervalo de funciones, se observa que para que tales funciones sean significativas en el contexto de la presente invencion, deben realizar una interpolacion ponderada entre las muestras en el segmento indicado por 750 y las muestras indicadas por 770 de tal manera que gradualmente, pero no necesariamente monotonamente, se mueven desde una ponderacion alta en el segmento indicado por 750 a una ponderacion alta en el segmento indicado por 770.
5
10
15
20
25
30
35
40
45
50
55
60
65
En otras realizaciones de la presente invencion, las funciones de division 710 y 720 son funciones del indicador de calidad coincidente. Un ejemplo simple de esta funcion es que, dependiendo de un umbral de correlacion normalizado sobre los segmentos de la senal 700 indicados por los intervalos de tiempo 750 y 770, se elige una operacion de interpolacion para sumar a unidad en amplitudes o en potencias. Otro ejemplo de esta funcion evita la restriccion para sumar amplitudes o potencias a una, sino que optimiza las ponderaciones de division en funcion de la medida de coincidencia solamente. Un refinamiento adicional de este metodo toma el valor real de la correlacion normalizada y optimiza la operacion de interpolacion en respuesta a la misma, por ejemplo, usando metodos clasicos de estimacion lineal. Sin embargo, ejemplos de metodos preferidos se describen a continuacion. En estos ejemplos, el umbral, respectivamente, el valor real de la correlacion normalizada da ejemplos de informacion ventajosa transportada por el indicador de calidad de coincidencia 667. De acuerdo con realizaciones preferidas descritas a continuacion, la operacion de interpolacion puede hacerse para implementar diferentes ponderaciones a diferentes frecuencias. En este caso, el indicador de calidad de coincidencia 667 puede transportar ventajosamente medidas de coincidencia en funcion de la frecuencia. En realizaciones ventajosas, esta ponderacion en funcion de la frecuencia se implementa como una lmea de retardo derivada u otra forma de filtro parametrico que puede optimizarse para maximizar el criterio de coincidencia.
En la figura 6 se da una ilustracion de la operacion de indexacion y de interpolacion cuando la senal 615 (y, por lo tanto, el segmento de senal 700) contienen muestras que son representativas de las muestras de dominio de tiempo de una senal de sonido o de una senal de dominio de tiempo derivada de la misma. Como se menciono anteriormente, las muestras en tramas 595 y de ese modo en senales 605 y 615 pueden ser ventajosamente de tal manera que cada muestra es un vector (muestras valoradas con vectores), donde dicho vector contiene coeficientes o parametros, que son representativos o parcialmente representativos de la senal de sonido. Ejemplos de tales coeficientes son frecuencias espectrales en lmea, coeficientes de dominio de frecuencia, o coeficientes que definen un modelo de senal sinusoidal, tal como conjuntos de amplitudes, frecuencias y fases. Con una base en esta descripcion detallada de realizaciones preferidas de la presente invencion, el diseno de las operaciones de interpolacion que se aplican ventajosamente a muestras valoradas de vectores es factible para una persona experta en la tecnica, ya que los detalles restantes pueden encontrarse descritos en la literatura general para cada uno de los casos espedficos de tales muestras valoradas de vectores.
Es ventajoso para la comprension de la presente invencion observar que cuando se aplica la operacion de indexacion y de interpolacion repetidamente con una longitud de lectura que es menor que el paso atras, entonces el resultado sera que las muestras en la senal 625 se convierten en representativas de muestras de senal que estan gradualmente mas y mas atras en la senal 615. Cuando entonces el paso atras y/o la longitud de lectura se cambia de tal manera que la longitud de lectura se hace mayor que el paso atras, entonces este proceso volvera y las muestras en la senal 625 se convierten ahora en representativas de muestras de senal que estan gradualmente mas y mas hacia adelante en la senal 615. Mediante la ventajosa eleccion de la secuencia de las pasos atras y la secuencia de longitudes de lecturas, se puede obtener una senal de ocultacion larga con variacion rica y natural sin tener que llamar para muestras por delante en el tiempo desde la ultima trama de la senal recibida en la memoria intermedia de trama 600 o incluso sin llamar para muestras por delante de otro instante de tiempo preestablecido, que puede estar situado antes de la ultima muestra en la ultima trama recibida en la memoria intermedia de trama 600. Por lo tanto, la ocultacion de picos de retardo en un sistema con reproduccion de bajo retardo o programacion de memoria intermedia de salida se hace posible con la presente invencion. En la formulacion de la presente descripcion, la simple estricta evolucion hacia atras temporal de la senal, que puede ser util para pensar como un elemento en una forma de realizacion simple de la presente invencion, se realiza mediante el uso repetido de una longitud de lectura de una muestra, un paso atras de dos muestras y una ventana que 720 que comprende una sola muestra de valor 0 y una ventana 710 que comprende una sola muestra de valor 1,0.
El objeto principal del generador de patrones de mdice 660 es para controlar la accion de la operacion de indexacion y de interpolacion 620. En un conjunto de realizaciones preferidas, este control se formaliza en un patron de indexacion 666, que puede consistir en una secuencia de pasos atras y una secuencia de longitudes de lectura. Este control se puede aumentar aun mas con una secuencia de indicaciones de calidad de coincidencia, que a su vez cada uno puede ser, por ejemplo, funciones de frecuencia. Una caractenstica adicional, que puede emitirse desde el generador de patrones de mdice, y cuyo uso se aclarara mas adelante en esta descripcion es un recuento de repeticion 668. El significado del numero de repeticiones es el numero de veces que una evolucion hacia atras en el tiempo en que se inicio en la construccion de la trama o tramas de ocultacion. El generador de patrones de mdice obtiene estas secuencias a partir de una base en informacion, que puede comprender la senal alisada y ecualizada 656 de salida desde la operacion de alisado y de ecualizacion 610; una estimacion de tono 596, una estimacion de voz 597, un numero 598 de tramas de ocultacion a generar y punteros 599 a las tramas a reemplazar. En una realizacion del generador de patrones de mdice, entrara diferentes modos dependiendo del indicador de voz. Tales modos se ejemplifican a continuacion.
A modo de ejemplo se utiliza ventajosamente en el dominio de excitacion de prediccion lineal, si el indicador de voz robustamente indica que la senal es habla sin voz o que ninguna habla activa esta presente en la senal, es decir, la senal consiste en ruido de fondo, el patron de mdice generador puede entrar en un modo donde se inicia una simple reversion de la evolucion temporal de las muestras de senal. Como se ha descrito anteriormente esto se puede lograr, por ejemplo, mediante la presentacion de unos valores de paso atras iguales a dos y una secuencia de
5
10
15
20
25
30
35
40
45
50
55
60
65
valores de longitud de lectura igual a uno (esta descripcion se basa en la eleccion de diseno que la operacion de indexacion y de interpolacion identificara por s^ misma estos valores y aplicara la funcion de division adecuada como se describio anteriormente). En algunos casos, esta secuencia puede continuar hasta que una evolucion temporal inversa de la senal ha sido implementada por la mitad del numero de nuevas muestras necesarias en la trama o tramas de ocultacion, despues de lo cual los valores en la secuencia de paso atras pueden cambiar a 0, con lo que se inicia una evolucion temporal hacia adelante de la senal, y continua hasta que el puntero 706 esta efectivamente de vuelta en el punto de partida para el puntero 705 en la primera aplicacion del paso atras. Sin embargo, este sencillo procedimiento no siempre sera suficiente para tramas de ocultacion de alta calidad. Una tarea importante del generador de patrones de mdice es la monitorizacion de criterios de detencion adecuados. En el ejemplo anterior, la evolucion temporal inversa puede traer el puntero 706 de vuelta a una posicion en la senal donde el sonido, tal como se interpreta por un oyente humano, es significativamente diferente desde el punto de partida. Antes de que esto se produzca, debe girarse la evolucion temporal.
Realizaciones preferidas de la presente invencion pueden aplicar un conjunto de criterios de detencion basados en un conjunto de medidas. El siguiente es un ejemplo de algunas de estas medidas y criterios de detencion. Si la sonorizacion indica que la senal en el puntero 706 es voz, a continuacion, en el ejemplo anterior a partir de sin voz, la direccion de la evolucion temporal de manera ventajosa se puede girar, tambien si la energfa de senal en un area alrededor del puntero 706 es diferente (como se determina por un umbral absoluto o relativo) a partir de la energfa de la senal en el punto de partida para el puntero 705, la direccion de la evolucion temporal se puede girar de manera ventajosa. Como tercer ejemplo, la diferencia espectral entre una region alrededor del punto de partida para el puntero 705 y la posicion actual del puntero 706 podra ser superior a un umbral y la direccion de evolucion temporal se debe girar.
Un segundo ejemplo de un modo puede ser evocado cuando la senal no puede determinarse robustamente como sin voz o que no contiene voz activa. En este modo, la estimacion de tono 596 constituye una base para determinar el patron de mdice. Un procedimiento para hacer esto es que busca cada paso hacia atras dar una correlacion normalizada maximizada entre la senal desde el puntero 705 y un ciclo de tono por delante en el tiempo y la senal desde un punto que es un paso atras antes que el puntero 705 y un ciclo de tono adelantado. La busqueda de valores potenciales de paso hacia atras ventajosamente puede estar limitada a una region. Esta region ventajosamente se puede ajustar a mas menos un 10 por ciento alrededor del paso atras previamente encontrado o el retardo de tono si de nuevo no se ha encontrado ningun paso atras anterior. Una vez que se ha determinado el paso atras, el valor de la longitud de lectura determinara si la evolucion de la senal temporal debena evolucionar hacia atras o hacia delante en el tiempo y la rapidez con que debena tener lugar esta evolucion. Una evolucion lenta se obtiene mediante una eleccion de la longitud de lectura cerca del valor identificado en el paso atras. Una evolucion rapida se obtiene mediante una eleccion de la longitud de lectura que es mucho mas pequena o mas grande que el paso atras en el caso de la evolucion hacia atras y hacia adelante, respectivamente. Uno de los objetivos del generador de patrones de mdice es seleccionar la longitud de lectura para optimizar la calidad del sonido tal como se interpreta por parte de un oyente humano. La seleccion de la longitud de lectura demasiado cerca del paso atras puede, en algunas senales, tal como senales que no son suficientemente periodicas, resultar en artefactos molestos perceptualmente como sonidos de cuerda. La seleccion de la longitud de lectura demasiado lejos del paso atras implica que se barre un intervalo de tiempo mayor en el registro de tramas en ultima instancia durante la evolucion temporal de la trama o tramas de ocultacion, alternativamente que la direccion de la evolucion temporal que tiene que ser girarse mas veces antes de que se genere la cantidad suficiente de muestras para la trama o tramas de ocultacion.
El primer caso puede, en algunas senales, tales como senales que no son suficientemente estacionarias (alternativamente no suficientemente suaves y ecualizadas), resultar en una especie de artefactos perceptualmente molestos que tienen un cierto parecido con un tartamudeo en el sonido de la trama o tramas de ocultacion. En el segundo caso, se pueden producir artefactos a modo de sonido de cuerda. Una caractenstica de realizaciones ventajosas de la presente invencion es que la longitud de lectura se puede determinar como una funcion del paso atras y la correlacion normalizada, que esta optimizada en la busqueda del paso atras optimo. Una eleccion simple, pero ventajosa, de esta funcion en las realizaciones de la presente invencion que trabajan en senales de voz y cuando las tramas de senal contienen 20 ms de senal de excitacion de prediccion lineal muestreada a 16 kHz, es un ejemplo dado por la siguiente funcion
Longitud de Lectura = [ (0,2 + Correlacion Normalizada/3) * Paso Atras]
Cuando corchetes [] se utilizan para indicar redondeo al entero mas cercano y cuando los sfmbolos Longitud de lectura, Correlacion Normalizada, y Paso atras se utilizan para indica la longitud de lectura, la correlacion normalizada obtenida para el paso atras optimo y el paso atras correspondiente, respectivamente. La funcion anterior se incluye solamente como un ejemplo para transmitir una eleccion ventajosa en algunas realizaciones de la presente invencion. Cualquier eleccion de la longitud de lectura que incluya cualquier relacion funcional para obtener esta longitud de lectura es posible sin apartarse de la presente invencion. En particular, los metodos ventajosos para seleccionar la longitud lefda incluyen el uso del control 665 para parametrizar la operacion de alisado y ecualizacion 610, tal como para llegar a una minimizacion conjunta de artefactos a modo de sonido de cuerda y a modo de tartamudeo en una trama de ocultacion intermedia 625. Esto explica por que el generador de patrones de mdice 660
5
10
15
20
25
30
35
40
45
50
55
60
65
toma la senal intermedia 656 como entrada en lugar de la salida 615 de la operacion de alisado y ecualizacion: la senal 656 representa versiones potenciales de la senal final 615 bajo el control 665, y permite que el generador de patrones de mdice se aproxime a la tarea de optimizacion por medio de iteraciones. Como es el caso para el modo de voz sin voz y voz no activa anterior, los criterios de detencion son esenciales tambien en este modo. Todos los ejemplos de criterios de detencion propuestos en el modo anterior se aplican tambien a este modo. Ademas, en este modo, los criterios de detencion de la medicion de la correlacion de tono y normalizada pueden ser ventajosamente parte de realizaciones de la presente invencion.
La figura 7 ilustra, como ejemplo, una logica de decision ventajosa para una combinacion de criterios de detencion. En la figura 7, los signos de referencia indican lo siguiente:
800: Identificar si la senal es el tipo de alta correlacion, tipo de baja correlacion o ninguno de los mismos.
Determinar el nivel de energfa inicial
801: Determinar el siguiente paso atras y la correlacion normalizada y la longitud de lectura
802: Determinar si la senal ha entrada en el tipo de correlacion baja
803: Determinar si la senal ha entrada en el tipo de correlacion alta
804: ^Es la senal de tipo de alta correlacion?
805: ^Es la senal de tipo de baja correlacion?
806: ^Esta la energfa por debajo del umbral mmimo relativo o por encima del umbral maximo relativo?
807: ^Esta la correlacion normalizada por debajo del umbral para el tipo de alta correlacion?
808: ^Esta la correlacion normalizada por encima del umbral para el tipo de baja correlacion?
809: ^Se han generado suficientes muestras?
En el caso de operacion en el dominio de excitacion predictiva lineal del habla muestreada a 16 kHz. Los umbrales dirigidos en la figura 7 pueden seleccionarse ventajosamente como sigue: tipo de alta correlacion se puede introducir cuando se encuentra una correlacion normalizada mayor que 0,8; un umbral para permanecer en el tipo de alta correlacion se puede ajustar a 0,5 en correlacion normalizada; tipo de baja correlacion se puede introducir cuando se encuentra una correlacion normalizada inferior a 0,5; un umbral para permanecer en bajo tipo de correlacion se puede ajustar a 0,8 en correlacion normalizada; una energfa relativa minima se puede ajustar a 0,3; y una energfa relativa maxima se puede ajustar a 3,0. Ademas, otras logicas se pueden utilizar y otros criterios de detencion se pueden utilizar en el contexto de la presente invencion sin apartarse del alcance de la presente invencion.
La aplicacion de criterios de detencion significa que una sola evolucion, hacia atras en el tiempo hasta que se generan suficientes muestras o se cumple un criterio de detencion y luego hacia adelante en el tiempo de nuevo, no esta garantizada para dar el numero necesario de muestras para las tramas de ocultacion. Por lo tanto, mas evoluciones, hacia atras y hacia delante en el tiempo, se pueden aplicar mediante el generador de patrones de mdice. Sin embargo, demasiadas evoluciones hacia delante y hacia atras pueden crear en algunas senales artefactos a modo de sonido de cuerda. Por lo tanto, realizaciones preferibles de la presente invencion pueden optimizar conjuntamente los criterios de detencion, la funcion aplicada en el calculo de las longitudes de lectura, el control de alisado y de ecualizacion 665, y el numero de las evoluciones hacia adelante y hacia atras, es decir, el recuento de repeticion 668, y si se habilita por los punteros a las tramas a reemplazar 599, se inicia tambien el numero de muestras que evolucionamos hacia adelante en el tiempo antes de cada nueva evolucion hacia atras en el tiempo. Para este fin, la operacion de alisado y ecualizacion puede tambien ventajosamente controlarse para modificar ligeramente el contorno de tono de la senal. Ademas, la optimizacion conjunta puede tener en cuenta la operacion del filtro de fase 650, y hacer pequenos cambios en el contorno de tono, tal como dar lugar a un patron de mdice que minimice la distorsion introducida en el filtro de fase conjuntamente con los otros parametros mencionados anteriormente. Con una base en la descripcion de realizaciones preferidas para la presente invencion, una persona experta en la tecnica entiende que una variedad de herramientas generales de optimizacion se aplica a esta tarea, incluyendo estas herramientas optimizacion iterativa, procesos de decision de Markov, metodos de Viterbi, y otros. Cualquiera de los cuales son aplicables a esta tarea sin apartarse del alcance de la presente invencion.
La figura 8 ilustra por medio de un grafico de flujo un ejemplo de un procedimiento iterativo para llevar a cabo una simple, pero eficaz, optimizacion de estos parametros. En la figura 8, los signos de referencia indican lo siguiente:
820: Iniciar controles para alisado y ecualizacion 665
5
10
15
20
25
30
35
40
45
50
55
60
65
821: Obtener una nueva senal lisa 656
822: Iniciar criterios de detencion
823: Iniciar el numero permitido de repeticiones
824: Identificar el patron de mdice para una secuencia de evoluciones hacia atras y hacia delante distribuidas de manera uniforme sobre las tramas disponibles indicadas por punteros 599 o si apuntan al extremo de las tramas disponibles, evoluciones hacia atras siguiendo directamente despues de evoluciones hacia delante.
825: ^Es suficiente la cantidad de muestras para el numero de tramas de ocultacion 598 generadas?
826: ^Se alcanza el numero maximo de repeticiones?
827: Aumentar el numero permitido de repeticiones
828: ^Se alcanza el umbral mas flojo para los criterios de detencion?
829: Aflojar los umbrales para los criterios de detencion
830: Cambiar los controles para aumentar el impacto de alisado y ecualizacion
Observese que una evolucion hacia atras y hacia delante en el tiempo y una siguiente evolucion hacia atras y hacia delante en el tiempo, en el caso de que la senal suficiente no se haya sintetizado en la evolucion o evoluciones hacia atras y hacia delante en el tiempo anterior, puede variar ventajosamente. Como ejemplos, las secuencias de paso atras, longitudes de lectura, y funciones de interpolacion, y tambien el puntero de ubicacion final despues de evolucion hacia atras y hacia delante en el tiempo deben idearse como para minimizar los artefactos de periodicidad, resultando de otra manera de una repeticion de patrones de mdice similares. Con muestras de dominio residuales de habla de a 16 kHz como un ejemplo, una evolucion hacia atras y hacia delante en el tiempo, generando aproximadamente, por ejemplo, 320 muestras, preferiblemente puede terminar aproximadamente 100 muestras mas atras en la senal que una evolucion anterior hacia atras y hacia delante en el tiempo.
Las realizaciones descritas hasta este punto mitigan eficazmente los problemas de sonidos de cuerda que suenan artificialmente conocidos a partir de metodos de la tecnica anterior, mientras que al mismo tiempo permite la ocultacion eficiente de los picos de retardo de fluctuacion bruscos y las perdidas abruptas de paquetes repetidos que se producen. Sin embargo, en condiciones adversas de la red, como se encuentran, por ejemplo, en algunos sistemas inalambricos y redes inalambricas ad hoc y redes de mejor esfuerzo y otros escenarios de transmision, incluso el metodo divulgado en algunos casos puede introducir ligeros componentes de tonalidad en las tramas de ocultacion. Una operacion de mezcla de ruido menor 630 y un filtro de atenuacion agraciado 640 pueden aplicarse asf ventajosamente en algunas realizaciones de la presente invencion. Las tecnicas generales de mezcla de ruido y atenuacion son bien conocidas para una persona experta en la tecnica. Esto incluye el uso ventajoso de la evolucion temporal dependiente de la frecuencia de la potencia del componente de ruido y la evolucion temporal dependiente de la frecuencia de la funcion de atenuacion. Una caractenstica espedfica para el uso de la mezcla de ruido y atenuacion en el contexto de la presente invencion es el uso explfcito del patron de mdice 666, la medida de calidad de coincidencia 667 y/o el recuento de repeticion 668 para la parametrizacion adaptativa de las operaciones de mezcla y atenuacion de ruido. En concreto, los indices de patron de indexacion donde muestras de senal inalteradas se colocan en la trama de ocultacion y donde las muestras de la trama de ocultacion es un resultado de una operacion de interpolacion. Ademas, la relacion de paso atras con relacion a la longitud de lectura en combinacion con la medida de calidad de coincidencia es indicativos de la calidad de percepcion resultante de la operacion de interpolacion. Por lo tanto, ventajosamente, poco o ningun ruido puede mezclarse en las muestras originales, mas ruido ventajosamente puede ser mezclado en las muestras que son resultados de un proceso de interpolacion y la cantidad de ruido mezclado en estas muestras puede ser ventajosamente una funcion de la medida de calidad de coincidencia, ventajosamente de una manera de frecuencia diferenciada. Ademas, el valor de la longitud de lectura en relacion con el paso atras tambien es indicativo de la cantidad de periodicidad que puede producirse, la mezcla de ruido puede incluir ventajosamente esta medida en la determinacion de la cantidad de ruido que se mezcla en la senal de ocultacion. El mismo principio se aplica a la atenuacion; una atenuacion agraciada se utiliza ventajosamente, pero menos atenuacion puede introducirse para las muestras que son representativas de muestras de senales originales y mas atenuacion puede introducirse para las muestras que resultan de la operacion de interpolacion. Ademas, la cantidad de atenuacion en estas muestras puede ser ventajosamente una funcion de la indicacion de calidad de coincidencia y, ventajosamente, de una manera de frecuencia diferenciada. De nuevo, el valor de la longitud de lectura en relacion con el paso atras tambien es indicativo de la cantidad de periodicidad que puede producirse; la operacion de atenuacion puede incluir ventajosamente esta medida en el diseno de la atenuacion.
Como se aborda en los antecedentes para la presente invencion, un objeto importante de un subconjunto de realizaciones de la presente invencion obtiene tramas de ocultacion de longitud predeterminada iguales a la longitud
5
10
15
20
25
30
35
40
45
50
55
60
65
de las tramas de senal regulares. Cuando esto se quena desde una perspectiva de sistema, los medios para este fin pueden ser ventajosamente un filtro de fase 650. Una operacion computacionalmente simple, aproximada, pero a menudo suficiente de este bloque, es lograr una adicion de superposicion lisa entre las muestras que superan los tiempos de longitud de trama predefinidos del numero de tramas de ocultacion con un subconjunto de cola de muestras a partir de la trama siguiente a las tramas de ocultacion. Visto de manera aislada, este metodo es bien conocido por el estado de la tecnica y se utiliza, por ejemplo, en la recomendacion de la Union Internacional de Telecomunicaciones UIT-T G.711 Apendice 1. Cuando sea practico desde una perspectiva de sistema, el simple procedimiento de adicion de superposicion se puede mejorar mediante una multiplicacion de tramas posteriores con -1, siempre que esto aumente la correlacion en la region de adicion de superposicion. Sin embargo, otros metodos se pueden usar ventajosamente, por ejemplo, en la transicion entre tramas de senal de voz, para mitigar adicionalmente el efecto de discontinuidades en los lfmites de la trama. Uno de tales metodos es un remuestreo de las tramas de ocultacion. Visto como un metodo aislado, esto tambien es bien conocido por el estado de la tecnica. Vease, por ejemplo, Valenzuela y Animalu, "A new voice-packet reconstruction technique", IEEE, 1989. Por lo tanto, discontinuidades atenuantes en los lfmites de trama pueden realizarse por parte de una persona experta en la tecnica. Sin embargo, en realizaciones preferidas de la invencion divulgadas en el presente documento, el remuestreo puede continuarse ventajosamente en las tramas siguientes a la ultima trama de ocultacion. Por este medio, la pendiente de cambio temporal y, por lo tanto, el desplazamiento de frecuencia, que es una consecuencia de la tecnica de remuestreo, se puede hacer imperceptible cuando se interpreta por parte de un oyente humano. Ademas, en lugar del remuestreo, el uso de filtros de todo paso variables en el tiempo para mitigar las discontinuidades en los lfmites de trama divulgadas con la presente invencion. Una realizacion de la misma se dada mediante la ecuacion de filtro
H_L(z,t) = (alfa_1(t) + alfa_2(t)*zA(-L))/(alfa_2(t) + alfa_1(t) * zA(-L))
Cuya funcion se explica a continuacion. Supongamos que un barrido de un retraso de L muestras a un retardo de 0 muestras se quiere durante un intervalo de barrido, que puede incluir la totalidad o parte de las muestras en la totalidad o parte de las tramas de ocultacion; en tramas antes de las tramas de ocultacion; y en tramas despues de las tramas de ocultacion. Luego, en el comienzo del intervalo de barrido alfa_1(t) se establece en cero y alfa_2(t) se establece en 1,0 para implementar un retraso de L muestras. Cuando el barrido sobre t comienza, alfa_1(t) debena aumentar gradualmente hacia 0,5 y alfa_2(t) debena disminuir gradualmente hacia 0,5. Cuando, en el final del intervalo de barrido alfa_1(t) equivale a alfa_2(t) el filtro H_L(z, t) introduce un retardo de cero. A la inversa, si un barrido de un retraso de cero muestras a un retardo de L muestras se quiere durante un intervalo de barrido, que puede incluir la totalidad o parte de las muestras en la totalidad o parte de las tramas de ocultacion; en tramas antes de las tramas de ocultacion; y en tramas despues de las tramas de ocultacion. Luego, en el comienzo del intervalo de barrido alfa_1(t) se establece en 0,5 y alfa_2(t) se establece en 0,5 para implementar un retraso de 0 muestras. Cuando el barrido sobre t comienza, alfa_1(t) debena disminuir gradualmente hacia 0 y alfa_2(t) debena aumentar gradualmente hacia 1,0. Cuando, en el final del intervalo de barrido alfa_1(t) equivale a 0 y alfa_2(t) equivale a 1,0 el filtro H_L(z, t) introduce un retardo de L muestras.
El filtrado anterior es computacionalmente simple, sin embargo, tiene una respuesta de fase no lineal. Por motivos de percepcion, esta fase no lineal limita su uso a L relativamente pequeno. Ventajosamente L < 10 para el habla a una frecuencia de muestreo de 16 kHz. Un metodo para realizar el filtrado para valores mayores de L inicial es iniciar varios filtros para valores L mas pequenos que suman hasta el valor L total deseado, estos varios filtros pueden ventajosamente iniciarse en diferentes instantes de tiempo y barrer su intervalo de alfa sobre diferentes intervalos de tiempo. Otro metodo para aumentar el intervalo de L donde este filtro es aplicable se divulga a continuacion. Una estructura que implementa un filtro funcionalmente igual como el anterior para dividir la senal en L polifases y llevar a cabo el siguiente filtrado en cada una de estas polifases.
H_1(z,t) = (alfa_1(t) + alfa_2(t) * zA(-1))/(alfa_2(t) + alfa_1(t) * zA(-1))
Mediante la presente invencion, el filtrado polifasico se implementa ventajosamente mediante el uso de muestreo ascendente. Una forma de hacer esto, ventajosamente, es muestrear de manera ascendente cada polifase con un factor K y llevar a cabo el filtrado H_1(z, t) K veces en cada polifase muestreada antes del muestreo descendente con un factor K y la reconstruccion de la senal de fase modificada a partir de las polifases. El factor K puede elegirse ventajosamente como K = 2. Mediante el procedimiento de muestreo ascendente, se obtiene una respuesta de fase, que esta mas cerca de lineal. De esta manera, se mejora la calidad percibida tal como se interpreta por parte de un oyente humano.
El ajuste de fase descrito anteriormente sobre multiples tramas es aplicable cuando las tramas de ocultacion se insertan en una secuencia de tramas recibidas sin perdida. Tambien es aplicable cuando las tramas se sacan de la secuencia de senal para reducir el retardo de reproduccion de las tramas posteriores. Y es aplicable cuando las tramas se pierden y cero o mas tramas de ocultacion se insertan entre las tramas recibidas antes y las tramas recibidas despues de la perdida. En estos casos, un metodo ventajoso para obtener la senal de entrada para este filtro y encontrar el retardo L es como sigue:
5
10
15
20
25
30
35
40
45
50
55
60
65
1) en las tramas anteriores en el tiempo que el punto de discontinuidad, un metodo de ocultacion, el descrito en el presente documento o cualquier otro, se continua o se inicia.
2) en las tramas mas tarde en el tiempo que la discontinuidad un numero de muestras L_test se insertan en el inicio de la trama mediante un metodo de ocultacion, el descrito con el presente documento o cualquier otro, pero con una indexacion inversa de las muestras de tiempo.
3) una medida de coincidencia, tal como de correlacion normalizado, se aplica entre la trama de ocultacion o tramas forman 1) y la trama o tramas de 2), incluyendo las muestras L_test del encabezamiento.
4) El L_test que maximiza la medida de coincidencia se selecciona como L.
5) La trama o tramas de ocultacion de 2) y la trama o tramas de 3) ahora estan anaden juntas utilizando un procedimiento de adicion de superposicion ponderada. Considerando que la presente adicion de superposicion ponderada puede realizarse como es conocido por parte de una persona experta en la tecnica, preferiblemente se puede optimizar como se describe mas adelante en esta descripcion.
6) La trama o tramas resultantes se utilizan como entrada para el filtrado de ajuste de fase descrito anteriormente, iniciado con el valor determinado L. Si L es mayor que un umbral, entonces varios filtros se inician y el coeficiente de barrido en diferentes instantes de tiempo e intervalos de tiempo, con sus valores L, se suman al valor L determinado.
Ventajosamente, en el habla o el habla residual muestreada a 8 o 16 kHz, el umbral anterior puede elegirse en un valor en el intervalo de 5 a 50. Ademas, ventajosamente, en el habla de voz o el habla de voz residual, las muestras de ocultacion L_test y su continuacion en la trama siguiente se obtienen mediante desplazamiento circular de las muestras del primer periodo de tono de la trama. De este modo, una medida de correlacion sin normalizacion, correlacionando el penodo de tono completo, se puede utilizar de manera ventajosa como medida de coincidencia para encontrar el desplazamiento circular L preferido.
La figura 9 ilustra una realizacion de este metodo. En esta figura, el ajuste de fase crea una transicion suave entre una trama de senal 900 y las siguientes tramas. Esto se realiza como sigue. A partir de la trama de senal 900 y de las anteriores tramas, se genera una senal de ocultacion 910. Esta senal de ocultacion puede generarse utilizando los metodos divulgados en el presente documento, o usando otros metodos que son bien conocidos por el estado de la tecnica. La senal de ocultacion se multiplica con una ventana 920 y se anade 925 con otra ventana 930, que se multiplica con una senal generada como sigue: Se genera una senal de ocultacion 940, a partir de las muestras 950 siguientes y, posiblemente, 960, aplicando efectivamente un metodo de ocultacion como los divulgados en el presente documento, o usando otros metodos que son bien conocidos a partir del estado de la tecnica, y concatenadas con las siguientes muestras 950. El numero de muestras en la ocultacion 940 se optimiza para maximizar la coincidencia entre la ocultacion 910 y la concatenacion de 940 y las siguientes muestras 950.
Ventajosamente, la correlacion normalizada se puede utilizar como una medida de esta coincidencia. Ademas, para reducir la complejidad computacional, la coincidencia para el habla de voz o el habla de voz residual se puede limitar para comprender un periodo de tono. En este caso, las muestras de ocultacion 940 se pueden obtener como una primera parte de un desplazamiento circular de un periodo de tono, y la medida de correlacion sobre un periodo de tono ahora no necesita normalizarse. Asf se evitan computos para el calculo del factor de normalizacion. En cuanto a la operacion de indexacion e interpolacion descrita anteriormente en esta descripcion detallada de realizaciones preferidas, las ventanas pueden de nuevo ventajosamente ser una funcion de un indicador de calidad de coincidencia y/o una funcion de frecuencia y ventajosamente implementadas como una lmea de retardo derivada. La operacion del filtro 970 es como sigue. Las primeras L muestras resultantes del procedimiento de adicion de superposicion se pasan directamente a su salida, y se utilizan para configurar el estado inicial del filtro. A continuacion, los coeficientes del filtro se inicializan como se describio anteriormente, y como el filtro se filtra a partir de la muestra L + 1 y estos coeficientes hacia adelante se ajustan gradualmente, como para eliminar gradualmente las L muestras de retardo, como se divulga anteriormente.
Una vez mas, en el procedimiento descrito anteriormente, se aplica el metodo de optimizacion de las ponderaciones de las ventanas de acuerdo con la maximizacion del criterio de coincidencia, como se describe anteriormente, y tambien la generalizacion de las funciones de division a las ponderaciones dependientes de la frecuencia y para filtros adaptados en la forma de lmeas de retardo derivadas u otras formas de filtro parametrico. En realizaciones ventajosas, la evolucion temporal de la ponderacion del filtro dependiente de la frecuencia se obtiene mediante una secuencia de tres secuencia de adicion de superposicion, primero se desvanece la trama o tramas de ocultacion a partir de tramas anteriores, segundo se desvanece hasta una version filtrada de estas con un filtro tal como para coincidir con las tramas de ocultacion a partir de tramas posteriores obtenidas en el tiempo indexado inverso, luego se desvanece de nuevo, tercero se desvanece la trama o tramas posteriores en el tiempo. En otro conjunto de realizaciones ventajosas, la evolucion temporal de la ponderacion del filtro dependiente de la frecuencia se obtiene mediante una secuencia de cuatro secuencia de adicion de superposicion, primero se desvanece la trama o tramas de ocultacion a partir de tramas anteriores, segundo se desvanece hasta una version filtrada de estas con un filtro tal
5
10
15
20
25
30
35
40
45
50
55
60
65
como para coincidir con las tramas de ocultacion a partir de tramas posteriores obtenidas en el tiempo indexado inverso, luego se desvanece de nuevo, tercero se desvanece una version filtrada de las tramas posteriores en el tiempo, tal como para mejorar tambien esta coincidencia, y se desvanece de nuevo, y finalmente, una cuarta ventana se desvanece la trama o tramas posteriores en el tiempo. Otras realizaciones ventajosas de los metodos de adicion de superposition ponderada se divulgan mas adelante en esta description.
En cuanto a la operation de alisado y ecualizacion 610 en realizaciones en las que se utilizan muestras de dominio residual como parte de la information representativa de la senal de voz, el alisado y la ecualizacion ventajosamente se pueden aplicar sobre esta senal residual utilizando filtrado adaptado al tono, tal como un filtro de peine o un filtro de muesca periodica. Ademas, filtrado Wiener o Kalman con un filtro de correlation a largo plazo mas el ruido como un modelo para el residual sin filtrar se puede aplicar ventajosamente. De esta manera, la aplicacion del filtro Kalman o Wiener, la varianza del ruido en el modelo se aplica para ajustar la cantidad de alisado y de ecualizacion. Este es un uso un tanto contraintuitivo, ya que este componente es tradicionalmente en la teoria de filtrado Wiener y Kalman aplicada para modelar la existencia de un componente de ruido no deseado. Cuando se aplica en la presente innovation, el proposito es establecer el nivel de alisado y de ecualizacion. Como una alternativa al filtrado de peine o muesca adaptado al tono y filtrado de tipo Wiener o Kalman, un tercer metodo se aplica ventajosamente para el alisado y la ecualizacion de senales residuales en el contexto de la presente innovacion. Mediante este tercer metodo, amplitudes de muestra, por ejemplo, como se aplican ventajosamente para habla sin voz, o vectores consecutivos de muestras, se aplican ventajosamente, por ejemplo, para habla de voz, se hacen cada vez mas similares. Posibles procedimientos para realizar esto se describen a continuation para vectores de habla de voz y muestras de habla sin voz, respectivamente.
Para el habla de voz, muestras consecutivas de habla o residual se reunen en vectores con un numero de muestras en cada vector igual a un periodo de tono. Por conveniencia de descripcion, aqm designaremos este vector como v(k). Ahora, el metodo obtiene un vector restante r(k) como un componente de v(k) que no podria encontrarse por algun medio en los vectores de los alrededores v(k-L1), v(k-L1+l), ..., v(k-1) y v(k+1), v(k+2), ...., v(k+L2). Por conveniencia de la descripcion, el componente encontrado en vectores de los alrededores se indica a(k). El vector restante r(k) se manipula posteriormente de alguna manera lineal o no lineal para reducir su audibilidad, preservando al mismo tiempo la naturalidad del vector reconstruido resultante, que se obtiene al insertar el componente a(k) en la version manipulada de r(k).
Esto conduce a la version alisada y ecualizada del habla de voz o habla residual de voz. Una simple realization del principio descrito anteriormente, utilizando por conveniencia la notation matriz-vector y por simplicidad de ejemplo la notion de combination lineal y mmimos cuadrados para definir a(k) se da a continuacion. Esto simplemente sirve como un ejemplo de una sola realizacion sencilla del principio general anterior para alisar y ecualizar.
Para los fines de este ejemplo, la matriz M(k) se define como
M(k) = [ v(k-Ll) v(k-Ll+l)....v(k-l) v(k+l) v(k+2).... V(k+L2)]
A partir del que a(k) se puede calcular, por ejemplo, como la estimation de mmimos cuadrados de v(k) dado M(k)
a(k) = M(k) inv(trans(M(k)) M(k)) v(k)
donde inv() indica inversion de la matriz o pseudo inversion y trans() indica transposition de la matriz. Ahora, el r(k) restante se puede calcular, por ejemplo, mediante sustraccion.
r(k) = v(k) - a(k)
Un ejemplo de la manipulation de r(k) es por el recorte de picos en este vector, por ejemplo, tal como para limitar el valor maximo absoluto de una muestra a un nivel igual a la amplitud maxima del vector r(k) mas cercano al punto de partida del procedimiento de ocultacion hacia atras y hacia adelante, o para algunos tiempos del factor de la amplitud de la muestra en la misma position en el vector, pero en el vector mas cercano al punto de partida del procedimiento de ocultacion hacia atras y hacia adelante. El rm(k) restante manipulado se combina posteriormente con el vector a(k) para reconstruir la version ecualizada de v(k), por conveniencia aqm indicado por ve(k). Esta combinacion puede realizarse, como un ejemplo, mediante adicion simple:
ve(k) = alfa*rm(k) + a(k)
El parametro alfa en este ejemplo se puede establecer en 1,0 o, ventajosamente, se puede seleccionar para ser menor que 1,0, una election ventajosa para alfa es 0,8.
Para el habla sin voz, otro metodo de alisado y de ecualizacion se puede utilizar con ventaja. Un ejemplo de alisado y ecualizacion para voz sin habla calcula un ajuste polinomico para amplitudes de senal residual en el dominio logaritmico. Como un ejemplo, un polinomio de segundo orden y en el dominio log10 pueden utilizarse. Despues de convertir el ajuste polinomico de dominio logaritmico de vuelta al dominio lineal, la curva de ajuste se normaliza
5
10
15
20
25
30
35
40
45
50
55
60
65
ventajosamente a 1,0 en el punto que corresponde al punto de partida para el procedimiento hacia atras y hacia adelante. Posteriormente, la curva de ajuste esta limitada inferiormente, por ejemplo, a 0,5, donde despues de las amplitudes de la senal residual se puede dividir con la curva de ajuste, tal como para igualar de manera lisa las variaciones en la amplitud de la senal residual sin voz.
En cuanto a los procedimientos ponderados de adicion de superposition, algunas, pero no todas las aplicaciones de los cuales se divulgan anteriormente en esta description, es decir, la operation de indexation y de interpolation 620 y el metodo para iniciar la senal de entrada para el filtrado de ajuste de fase 970, los procedimientos pueden realizarse como es conocido por una persona experta en la tecnica. Sin embargo, en realizaciones preferidas de los procedimientos ponderados de adicion de superposicion, los metodos divulgados a continuation se pueden utilizar ventajosamente.
En una realization simple de un procedimiento ponderado de adicion de superposicion modificado en respuesta a un indicador de calidad de coincidencia, consideramos una primera ventana multiplicada con una primera subsecuencia y una segunda ventana multiplicada con una segunda subsecuencia, y estos dos productos entran en una operacion de adicion de superposicion. Ahora, como un ejemplo, dejamos que la primera ventana sea una ventana de forma conica hacia abajo, tal como una funcion monotonamente decreciente, y dejamos que la segunda ventana sea una ventana de forma conica hacia arriba, tal como una funcion monotona creciente. En segundo lugar, con el proposito de un ejemplo sencillo, dejamos que la segunda ventana sea parametrizada por unos tiempos de forma de ventana basica de un multiplicador escalar. Definimos ahora: objetivo como dicha primera subsecuencia; w_objetivo como dicha primera subsecuencia de muestra por muestra multiplicada con dicha ventana de forma conica hacia abajo; w_regresor como dicha segunda subsecuencia de muestra por muestra multiplicada con dicha forma basica de ventana de la ventana conica hacia arriba; y coef como dicho multiplicador escalar. Ahora el componente multiplicador escalar de la segunda ventana puede optimizarse de tal manera que se minimice un error cuadratico sumado entre el objetivo y el resultado de la operacion de adicion de superposicion. Usando por conveniencia una notation de matriz-vector, el problema puede formularse como la minimization de la diferencia al cuadrado sumado entre el objetivo y la cantidad
W_objetivo + w_regresor*coef
Definiendo a partir de aqm los vectores T y H como
T = objetivo - w_objetivo H = w_regresor
La solution a esta optimizacion se da como
coef = inv(trans(H)*H)*trans(H)*T
Donde inv() indica escalar o matriz de inversion, trans() indica la transpuesta de una matriz o vector y * es la matriz o multiplication de vector. Ahora, como componentes centrales en las invenciones divulgadas en este documento, este metodo se puede ampliar para optimizar la forma real de una ventana. Una forma de obtener esto es la siguiente. Se define un conjunto de formas de las que se obtiene la ventana deseada como una combination lineal de elementos en este conjunto. Definimos ahora H de tal manera que cada columna de H es una forma de esta muestra de conjunto mediante la muestra multiplicada con dicha segunda subsecuencia, y definimos coef como un vector de columna que contiene las ponderaciones desconocidas de estas formas en la funcion de ventana optimizada. Con estas definiciones, las ecuaciones anteriores que formulan el problema y su solucion, se aplican ahora para solucionar una forma mas general de la ventana. Naturalmente, el papel de la primera y la segunda ventana se pueden intercambiar en lo anterior, de manera que ahora es la primera ventana para la que se realiza la optimizacion.
Una realizacion mas avanzada de la presente invention optimiza conjuntamente ambas formas de ventana. Esto se hace mediante la definition de un segundo conjunto de formas de ventana basicas, posiblemente equivalentes con el primer conjunto de formas de ventana, y se seleccionan de manera ventajosa como una indexacion invertida de tiempo de las muestras en cada una de las formas de ventana en el primer conjunto de formas de ventana. Ahora definir el w_objetivo como una matriz donde cada columna es una forma basica de ventana a partir de dicho segundo conjunto de formas de ventana muestra por muestra multiplicado por la primera subsecuencia y definir coef como un vector de columna que contiene en primer lugar las ponderaciones para la primera ventana y la segunda de las ponderaciones para la segunda ventana. Entonces, el problema mas general se puede formular como la minimizacion de la diferencia al cuadrado sumada entre el objetivo y la cantidad
[w_objetivo w_regresor]*coef
donde los corchetes [] se utilizan para formar una matriz a partir de submatrices o vectores. Definiendo aqm ahora los vectores T y H como
5
10
15
20
25
30
35
40
45
50
T = objetivo
H = [w_objetivo w_regresor]
La solucion a esta optimization se da como
coef = inv(trans(H)*H)*trans(H)*T
Ademas, una realization mas avanzada de la presente invention optimiza no solo las formas de ventana instantaneas, sino ventanas con una ponderacion optimizada dependiente de la frecuencia. Una realizacion de esta invencion aplica la forma de una lmea de retardo derivada, aunque la invencion en general esta de ningun modo limitada a esta forma. Una forma de lograr esta generalization es reemplazar, en la definition de w_objetivo y w_regresor anterior, cada columna con una serie de columnas de cada muestra por muestra multiplicando con la forma basica de ventana correspondiente a la columna que sustituye, pero donde esta forma basica de la ventana es ahora muestra por muestra multiplicada con la subsecuencia relevante retrasada correspondiente a una position espetifica en una lmea de retardo derivada.
Ventajosamente, las optimizaciones de coeficientes en estos metodos tienen en cuenta una ponderacion, restriction, o calculo secuencial de los coeficientes sin diferir de la invencion descrita en el presente documento. Tales ponderaciones pueden incluir ventajosamente la ponderacion hacia mas ponderacion en coeficientes correspondientes a valores bajos de retardo absoluto. Este calculo secuencial puede calcular ventajosamente coeficientes para bajos valores de retardo absoluto primero, tal como para minimizar la suma de errores al cuadrado utilizando unicamente dichos coeficientes y, posteriormente, repetir este proceso para aumentar los valores de retardo, pero solo en el error restante de las etapas anteriores de este proceso.
En general, las realizaciones de esta invencion toman varias subsecuencias como objetivos de la optimizacion. La optimizacion en terminos generales minimiza una funcion de distorsion, que es una funcion de estas subsecuencias de objetivo y la salida del sistema ponderado de adicion de superposition. Esta optimizacion puede, sin apartarse de la presente invencion, aplicar diversas restricciones en la selection de formas basicas y retrasos y su ponderacion en la adicion de superposicion general. Dependiendo de la seleccion exacta de las formas, el efecto de adicion de superposicion se desvanecio gradualmente de manera ventajosa a partir de subsecuencias siguientes a la region de adicion de superposicion en el tiempo.
La figura 10 ilustra una realizacion del metodo de adicion de superposicion descrito. Esta figura es solo para el proposito de ilustrar una realizacion de esta invencion, ya que la invencion no se limita a la estructura exacta en esta figura. En la figura 10, una subsecuencia 1000 entra la adicion de superposicion optimizada de la forma del tiempo y de la frecuencia con otra subsecuencia 1010. Cada una de estas subsecuencias entra en una lmea de retardo separada, donde en la figura, z designa un avance de tiempo de una muestra y z-1 designa un tiempo de retardo de una muestra, y donde los retardos seleccionados de 1, -1, y 0 son puramente para el proposito de ilustracion: otros retardos, mas y menos, pueden ventajosamente utilizarse en conexion con la presente invencion. Cada version retardada de cada subsecuencia ahora se multiplica por un numero de formas de ventana de base, y el resultado de cada una de estas se multiplica por un coeficiente que se encuentran de forma conjunta con los otros coeficientes en el transcurso de la optimizacion. Despues de la multiplication con estos coeficientes, las subsecuencias resultantes se suman para producir la salida 1020 a partir de la adicion de superposicion optimizada de la forma de tiempo y de frecuencia. La optimizacion 1030 de los coeficientes toma, en el ejemplo de la figura 10, las subsecuencias 1040 y 1050 como entrada, y minimiza una funcion de distorsion, que es una funcion de 1040 y 1050 y la salida 1020.
En las reivindicaciones, los signos de referencia en las figuras se incluyen solamente por razones de claridad. Estas referencias a realizaciones de ejemplo en las figuras no deben de ninguna manera interpretarse como limitativas del alcance de las reivindicaciones.

Claims (37)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un metodo para generar una secuencia de muestras de ocultacion (CS1-CS11) en conexion con la transmision de una senal de audio digitalizada, en donde el metodo comprende la generacion de la secuencia de muestras de ocultacion (CS1-CS11) a partir de muestras de memoria intermedia (BS1-BS4) de la representacion digitalizada de la senal de audio en el orden de tiempo de la muestra,
    caracterizado por que la secuencia de muestras de ocultacion (CS1-CS11) comprende al menos unas dos primeras subsecuencias consecutivas de muestras de ocultacion y unas segundas dos subsecuencias consecutivas de muestras de ocultacion ((CS1, CS2), (CS9, CS10)),
    en donde las primeras dos subsecuencias consecutivas de muestras de ocultacion se basan en unas dos primeras subsecuencias de muestras de memoria intermedia ordenadas en orden de la muestra inversa, y en donde se basan las dos segundas subsecuencias consecutivas de muestras de ocultacion ((CS1, CS2), (CS9, CS10)) en unas segundas dos subsecuencias de muestras de memoria intermedia ((BS4, BS3), (BS2, BS1)), ordenadas en orden de tiempo de muestra inversa,
    en donde dichas segundas dos subsecuencias consecutivas de muestras de ocultacion (CS9, CS10) estan situadas mas adelante en la secuencia de muestras de ocultacion (CS1-CS11) que las primeras dos subsecuencias consecutivas de muestras de ocultacion (CS1, CS2), y
    en donde una primera subsecuencia (CS1) de las primeras dos subsecuencias consecutivas de las muestras de ocultacion (CS1, CS2) se basa en una primera subsecuencia de muestras almacenadas de memoria intermedia (BS4) y una primera subsecuencia (CS9) de las segundas dos subsecuencias consecutivas de muestras de ocultacion (CS9, CS10) se basa en una segunda subsecuencia de muestras de memoria intermedia (BS2), en donde la segunda subsecuencia de muestras de memoria intermedia (BS2) se encuentra mas atras en el tiempo de muestreo que la primera subsecuencia de muestras de memoria intermedia (BS4).
  2. 2. Un metodo de acuerdo con la reivindicacion 1, en donde las respectivas primeras dos subsecuencias de muestras de memoria intermedia y segundas dos subsecuencias de muestras de memoria intermedia ((BS4, BS3), (BS2, BS1)) son consecutivas en orden de tiempo inverso.
  3. 3. Un metodo de acuerdo con la reivindicacion 2, en donde al menos tres subsecuencias consecutivas (CS8, CS9, CS10) en la secuencia de muestras de ocultacion (CS1-CS11) se basan en al menos tres subsecuencias consecutivas de las muestras de memoria intermedia (BS3, BS2, BS1) en orden de tiempo de muestreo inverso.
  4. 4. Un metodo de acuerdo con cualquiera de las reivindicaciones anteriores, en donde la secuencia de muestras de ocultacion (CS1-CS11) se inicia con una subsecuencia (CS1) basada en una subsecuencia de las muestras de memoria intermedia (BS4) que es la ultima en el orden del tiempo de muestreo.
  5. 5. Un metodo de acuerdo con cualquiera de las reivindicaciones anteriores, en donde dichas subsecuencias de muestras de memoria intermedia (BS1-BS4) se reordenan en tiempo de muestra a base de un proceso secuencial de indexacion y lectura de un numero de muestras de memoria intermedia hacia delante en orden de tiempo y pasando un numero de muestras de memoria intermedia hacia atras en orden de tiempo.
  6. 6. Un metodo de acuerdo con la reivindicacion 5, en donde dicho proceso secuencial de indexacion y lectura de muestras de memoria intermedia comprende la etapa de
    a) indexacion de una muestra de memoria intermedia mediante el paso de un numero de muestras de memoria intermedia (BS1-BS4) hacia atras en orden de tiempo, seguida por la etapa de
    b) lectura de un numero de muestras de memoria intermedia hacia adelante en orden de tiempo, comenzando con la muestra de memoria intermedia indexada en la etapa a), y uso de las muestras lefdas para el calculo de una subsecuencia de la secuencia de muestras de ocultacion (CS1-CS11),
    en donde el numero de muestras de memoria intermedia (BS1-BS4) lefdas hacia adelante es diferente del numero de muestras de memoria intermedia (BS1-BS4) pasadas hacia atras.
  7. 7. Un metodo de acuerdo con la reivindicacion 6, en donde el numero de muestras de memoria intermedia (BS1- BS4) lefdas hacia adelante es mayor que el numero de muestras de memoria intermedia (BS1-BS4) pasadas hacia atras.
  8. 8. Un metodo de acuerdo con la reivindicacion 6, en donde el numero de muestras de memoria intermedia (BS1- BS4) lefdas hacia adelante es menor que el numero de muestras de memoria intermedia (BS1-BS4) pasadas hacia atras.
  9. 9. Un metodo de acuerdo con cualquiera de las reivindicaciones anteriores, en donde dichas subsecuencias de la secuencia de muestras de ocultacion (CS1-CS11) se calculan a partir de subsecuencias de las muestras de memoria intermedia (BS1-BS4) mediante la implicacion de un procedimiento de adicion de superposicion ponderada.
    5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
  10. 10. Un metodo de acuerdo con la reivindicacion 9, en donde las funciones de ponderacion en dicho procedimiento de adicion de superposicion ponderada son, ademas, una funcion de la frecuencia.
  11. 11. Un metodo de acuerdo con la reivindicacion 9 o 10, en donde dicho procedimiento de adicion de superposicion ponderada se modifica en respuesta a un indicador de calidad de coincidencia.
  12. 12. Un metodo de acuerdo con la reivindicacion 11, en donde el indicador de calidad de coincidencia es sensible a dos o mas subsecuencias de muestras que entran en el procedimiento de adicion de superposicion ponderada.
  13. 13. Un metodo de acuerdo con las reivindicaciones 5 a 12, en donde dicha reordenacion en tiempo de la muestra se describe mediante una evolucion hacia atras y hacia delante de un puntero de ubicacion.
  14. 14. Un metodo de acuerdo con la reivindicacion 13, en donde dicha evolucion hacia atras de dicho puntero de ubicacion esta limitada por el uso de un criterio de detencion.
  15. 15. Un metodo de acuerdo con cualquiera de las reivindicaciones anteriores, en donde una operacion de alisado y de ecualizacion se aplica a dichas muestras de memoria intermedia (BS1-BS4).
  16. 16. Un metodo de acuerdo con la reivindicacion 14, en donde dichos criterios de detencion para dicha evolucion hacia atras, el ritmo de dicha evolucion hacia delante y hacia atras y el numero de dichas evoluciones hacia atras iniciadas se optimizan conjuntamente tal como para optimizar la calidad del sonido cuando se interpreta por parte de un oyente humano mediante la aplicacion de uno de un metodo de optimizacion iterativo, un proceso de decision de Markov o un metodo de Viterbi.
  17. 17. Un metodo de acuerdo con cualquiera de las reivindicaciones 14 a 16, en donde dichos criterios de detencion para la evolucion hacia atras, el ritmo de dicha evolucion hacia delante y dicha evolucion hacia atras, mediante un numero de dichas evoluciones hacia atras iniciadas y dicha operacion de alisado y ecualizacion se optimizan conjuntamente tal como para optimizar la calidad del sonido cuando se interpreta por parte de un oyente humano mediante la aplicacion de uno de un metodo de optimizacion iterativo, un proceso de decision de Markov o un metodo de Viterbi.
  18. 18. Un metodo de acuerdo con cualquiera de las reivindicaciones 14 a 17, en donde dichas evoluciones hacia adelante y hacia atras del puntero de ubicacion se optimizan conjuntamente tal como para optimizar la calidad del sonido cuando se interpreta por parte de un oyente humano mediante la aplicacion de uno de un metodo de optimizacion iterativo, un proceso de decision de Markov o un metodo de Viterbi.
  19. 19. Un metodo de acuerdo con cualquiera de las reivindicaciones anteriores, en donde se aplica un filtrado de fase para minimizar las discontinuidades en los lfmites entre la secuencia de muestras de ocultacion y una trama consecutiva de muestras.
  20. 20. Un metodo de acuerdo con cualquiera de las reivindicaciones 16 a 18, en donde se aplica un filtrado de fase para minimizar discontinuidades en los lfmites entre la secuencia de muestras de ocultacion (CS1-CS11) y una trama consecutiva de muestras, y en donde dicha optimizacion conjunta tambien incluye la distorsion de la senal introducida por el filtrado de fase, tal como para optimizar la calidad del sonido cuando es percibido por un oyente humano.
  21. 21. Un metodo de acuerdo con cualquiera de las reivindicaciones anteriores, en donde una mezcla de ruido se introduce en la secuencia de muestras de ocultacion (CS1-CS11).
  22. 22. Un metodo de acuerdo con la reivindicacion 5, en donde una mezcla de ruido se introduce en la secuencia de muestras de ocultacion (CS1-CS11), y en donde dicha mezcla de ruido se modifica en respuesta al proceso secuencial de la indexacion de un numero de muestras de memoria intermedia hacia delante en orden de tiempo de la muestra y el paso de un numero de muestras de memoria intermedia hacia atras en orden de tiempo de la muestra.
  23. 23. Un metodo de acuerdo con la reivindicacion 22, en donde dicho proceso secuencial de indexacion de un numero de muestras de memoria intermedia hacia adelante en el orden del tiempo de la muestra y el paso hacia atras de un numero de muestras de memoria intermedia en el orden de tiempo de la muestra y dicha respuesta al mismo incluye el uso de una indicacion de calidad de coincidencia.
  24. 24. Un metodo de acuerdo con cualquiera de las reivindicaciones anteriores, en donde una funcion de atenuacion se aplica en la secuencia de muestras de ocultacion (CS1-CS11).
  25. 25. Un metodo de acuerdo con la reivindicacion 5, en donde una funcion de atenuacion se aplica en la secuencia de muestras de ocultacion (CS1-CS11), y en donde dicha funcion de atenuacion se modifica en respuesta al proceso secuencial de la indexacion de un numero de muestras de memoria intermedia hacia delante en orden de tiempo de
    5
    10
    15
    20
    25
    30
    35
    40
    45
    la muestra y el paso de un numero de muestras de memoria intermedia hacia atras en orden de tiempo de la muestra.
  26. 26. Un metodo de acuerdo con la reivindicacion 25, en donde el proceso secuencial de indexacion de un numero de muestras de memoria intermedia hacia adelante en el orden del tiempo de la muestra y el paso hacia atras de un numero de muestras de memoria intermedia en el orden de tiempo de la muestra y dicha respuesta al mismo incluye el uso de una indicacion de calidad de coincidencia.
  27. 27. Un metodo de acuerdo con cualquiera de las reivindicaciones anteriores, en donde un numero resultante de muestras en la secuencia de muestras de ocultacion (CS1-CS11) esta predeterminado.
  28. 28. Un metodo de acuerdo con la reivindicacion 27, en donde dicho numero predeterminado de muestras es independiente de las caractensticas de la senal de audio digitalizada.
  29. 29. Un metodo de acuerdo con la reivindicacion 27 o 28, en donde dicho numero predeterminado de muestras tiene un valor entero predeterminado en el intervalo de 5-1000, tal como en el intervalo de 20-500.
  30. 30. Un metodo de acuerdo con cualquiera de las reivindicaciones anteriores, en donde la secuencia de muestras de ocultacion esta incluida en una primera trama de ocultacion (CF1).
  31. 31. Un metodo de acuerdo con la reivindicacion 30, en donde el metodo comprende ademas la generacion de al menos una segunda trama de ocultacion (CF2) consecutiva a la primera trama de ocultacion (CF1), incluyendo la segunda trama (CF2) una segunda secuencia de muestras de ocultacion.
  32. 32. Un metodo de acuerdo con la reivindicacion 31, en donde las secuencias de muestras de ocultacion en la primera y segunda trama de ocultacion son diferentes.
  33. 33. Un metodo de acuerdo con la reivindicacion 31 o 32, en donde la primera y segunda trama de ocultacion (CF1, CF2) incluyen el mismo numero de muestras.
  34. 34. Un metodo de acuerdo con la reivindicacion 33, en donde al menos una subsecuencia de muestras en la segunda trama de ocultacion (CF2) esta al menos parcialmente basada en subsecuencias de muestras de memoria intermedia mas atras en el tiempo de muestra que cualquiera de las subsecuencias de muestras incluidas en la primera trama de ocultacion (CF1).
  35. 35. Codigo de programa ejecutable por ordenador adaptado para realizar el metodo de acuerdo con cualquiera de las reivindicaciones anteriores.
  36. 36. Un dispositivo de almacenamiento de programa que comprende una secuencia de instrucciones para un microprocesador, tal como un microprocesador de proposito general, para realizar el metodo como se reivindica en una cualquiera de las reivindicaciones 1 a 34.
  37. 37. Una disposicion para recibir una senal de audio digitalizada, incluyendo la disposicion:
    - medios de memoria para almacenar muestras representativas de una senal de audio digitalizada recibida, y
    - medios de procesador para realizar el metodo de acuerdo con cualquiera de las reivindicaciones 1 a 34.
ES06704595.5T 2005-01-31 2006-01-31 Método para la generación de tramas de ocultación en sistema de comunicación Active ES2625952T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
DKPA200500146 2005-01-31
DK200500146 2005-01-31
PCT/DK2006/000053 WO2006079348A1 (en) 2005-01-31 2006-01-31 Method for generating concealment frames in communication system

Publications (1)

Publication Number Publication Date
ES2625952T3 true ES2625952T3 (es) 2017-07-21

Family

ID=59285473

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06704595.5T Active ES2625952T3 (es) 2005-01-31 2006-01-31 Método para la generación de tramas de ocultación en sistema de comunicación

Country Status (15)

Country Link
US (5) US8918196B2 (es)
EP (3) EP1846921B1 (es)
JP (4) JP5420175B2 (es)
KR (3) KR101237546B1 (es)
CN (3) CN101120399B (es)
AU (3) AU2006208530B2 (es)
BR (3) BRPI0607247B1 (es)
CA (3) CA2596341C (es)
ES (1) ES2625952T3 (es)
HK (1) HK1108760A1 (es)
IL (3) IL184864A (es)
NO (3) NO338702B1 (es)
RU (3) RU2407071C2 (es)
WO (3) WO2006079348A1 (es)
ZA (3) ZA200706261B (es)

Families Citing this family (58)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5420175B2 (ja) 2005-01-31 2014-02-19 スカイプ 通信システムにおける隠蔽フレームの生成方法
TWI285568B (en) * 2005-02-02 2007-08-21 Dowa Mining Co Powder of silver particles and process
WO2007086380A1 (ja) * 2006-01-26 2007-08-02 Pioneer Corporation 高音質化装置及び方法、並びにコンピュータプログラム
JP2007316254A (ja) * 2006-05-24 2007-12-06 Sony Corp オーディオ信号補間方法及びオーディオ信号補間装置
EP2080194B1 (fr) * 2006-10-20 2011-12-07 France Telecom Attenuation du survoisement, notamment pour la generation d'une excitation aupres d'un decodeur, en absence d'information
JP4504389B2 (ja) * 2007-02-22 2010-07-14 富士通株式会社 隠蔽信号生成装置、隠蔽信号生成方法および隠蔽信号生成プログラム
US8280539B2 (en) * 2007-04-06 2012-10-02 The Echo Nest Corporation Method and apparatus for automatically segueing between audio tracks
CN100550712C (zh) * 2007-11-05 2009-10-14 华为技术有限公司 一种信号处理方法和处理装置
CN101207665B (zh) * 2007-11-05 2010-12-08 华为技术有限公司 一种衰减因子的获取方法
CN101437009B (zh) 2007-11-15 2011-02-02 华为技术有限公司 丢包隐藏的方法及其系统
KR101230479B1 (ko) * 2008-03-10 2013-02-06 프라운호퍼 게젤샤프트 쭈르 푀르데룽 데어 안겐반텐 포르슝 에. 베. 트랜지언트 이벤트를 갖는 오디오 신호를 조작하기 위한 장치 및 방법
FR2929466A1 (fr) * 2008-03-28 2009-10-02 France Telecom Dissimulation d'erreur de transmission dans un signal numerique dans une structure de decodage hierarchique
KR101228165B1 (ko) * 2008-06-13 2013-01-30 노키아 코포레이션 프레임 에러 은폐 방법, 장치 및 컴퓨터 판독가능한 저장 매체
US8620660B2 (en) * 2010-10-29 2013-12-31 The United States Of America, As Represented By The Secretary Of The Navy Very low bit rate signal coder and decoder
JP5664291B2 (ja) * 2011-02-01 2015-02-04 沖電気工業株式会社 音声品質観測装置、方法及びプログラム
CA2827335C (en) 2011-02-14 2016-08-30 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E.V. Audio codec using noise synthesis during inactive phases
MY159444A (en) 2011-02-14 2017-01-13 Fraunhofer-Gesellschaft Zur Forderung Der Angewandten Forschung E V Encoding and decoding of pulse positions of tracks of an audio signal
ES2639646T3 (es) 2011-02-14 2017-10-27 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Codificación y decodificación de posiciones de impulso de pistas de una señal de audio
ES2529025T3 (es) 2011-02-14 2015-02-16 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Aparato y método para procesar una señal de audio decodificada en un dominio espectral
CA2827000C (en) 2011-02-14 2016-04-05 Jeremie Lecomte Apparatus and method for error concealment in low-delay unified speech and audio coding (usac)
TWI488177B (zh) 2011-02-14 2015-06-11 Fraunhofer Ges Forschung 使用頻譜域雜訊整形之基於線性預測的編碼方案
MX2013009304A (es) 2011-02-14 2013-10-03 Fraunhofer Ges Forschung Aparato y metodo para codificar una porcion de una señal de audio utilizando deteccion de un transiente y resultado de calidad.
SG192721A1 (en) 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Apparatus and method for encoding and decoding an audio signal using an aligned look-ahead portion
SG185519A1 (en) 2011-02-14 2012-12-28 Fraunhofer Ges Forschung Information signal representation using lapped transform
SG192745A1 (en) * 2011-02-14 2013-09-30 Fraunhofer Ges Forschung Noise generation in audio codecs
US9008170B2 (en) * 2011-05-10 2015-04-14 Qualcomm Incorporated Offset type and coefficients signaling method for sample adaptive offset
FR2977439A1 (fr) * 2011-06-28 2013-01-04 France Telecom Fenetres de ponderation en codage/decodage par transformee avec recouvrement, optimisees en retard.
US8935308B2 (en) * 2012-01-20 2015-01-13 Mitsubishi Electric Research Laboratories, Inc. Method for recovering low-rank matrices and subspaces from data in high-dimensional matrices
US9129600B2 (en) * 2012-09-26 2015-09-08 Google Technology Holdings LLC Method and apparatus for encoding an audio signal
DK2922053T3 (da) 2012-11-15 2019-09-23 Ntt Docomo Inc Lydkodningsindretning, lydkodningsfremgangsmåde, lydkodningsprogram, lydafkodningsindretning, lydafkodningsfremgangsmåde og lydafkodningsprogram
CN103888630A (zh) * 2012-12-20 2014-06-25 杜比实验室特许公司 用于控制声学回声消除的方法和音频处理装置
SG11201505898XA (en) 2013-01-29 2015-09-29 Fraunhofer Ges Forschung Concept for coding mode switching compensation
PT3451334T (pt) 2013-01-29 2020-06-29 Fraunhofer Ges Forschung Conceito de preenchimento de ruído
KR102037691B1 (ko) 2013-02-05 2019-10-29 텔레폰악티에볼라겟엘엠에릭슨(펍) 오디오 프레임 손실 은폐
MX344550B (es) * 2013-02-05 2016-12-20 Ericsson Telefon Ab L M Metodo y aparato para controlar ocultacion de perdida de trama de audio.
WO2014123469A1 (en) 2013-02-05 2014-08-14 Telefonaktiebolaget L M Ericsson (Publ) Enhanced audio frame loss concealment
FR3004876A1 (fr) * 2013-04-18 2014-10-24 France Telecom Correction de perte de trame par injection de bruit pondere.
US9406308B1 (en) 2013-08-05 2016-08-02 Google Inc. Echo cancellation via frequency domain modulation
US10728298B2 (en) * 2013-09-12 2020-07-28 Qualcomm Incorporated Method for compressed sensing of streaming data and apparatus for performing the same
FR3015754A1 (fr) * 2013-12-20 2015-06-26 Orange Re-echantillonnage d'un signal audio cadence a une frequence d'echantillonnage variable selon la trame
CN104751851B (zh) * 2013-12-30 2018-04-27 联芯科技有限公司 一种基于前后向联合估计的丢帧差错隐藏方法及系统
EP3090574B1 (en) * 2014-01-03 2019-06-26 Samsung Electronics Co., Ltd. Method and apparatus for improved ambisonic decoding
KR101862356B1 (ko) * 2014-01-03 2018-06-29 삼성전자주식회사 개선된 앰비소닉 디코딩을 수행하는 방법 및 장치
WO2015134579A1 (en) 2014-03-04 2015-09-11 Interactive Intelligence Group, Inc. System and method to correct for packet loss in asr systems
EP2922054A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using an adaptive noise estimation
EP2922056A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using power compensation
EP2922055A1 (en) 2014-03-19 2015-09-23 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and corresponding computer program for generating an error concealment signal using individual replacement LPC representations for individual codebook information
NO2780522T3 (es) 2014-05-15 2018-06-09
FR3023646A1 (fr) * 2014-07-11 2016-01-15 Orange Mise a jour des etats d'un post-traitement a une frequence d'echantillonnage variable selon la trame
GB2547877B (en) * 2015-12-21 2019-08-14 Graham Craven Peter Lossless bandsplitting and bandjoining using allpass filters
EP3427257B1 (en) * 2016-03-07 2021-05-05 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Error concealment unit, audio decoder, and related method and computer program fading out a concealed audio frame out according to different damping factors for different frequency bands
BR112018068060A2 (pt) 2016-03-07 2019-01-08 Fraunhofer Ges Forschung unidade de ocultação de erros, codificador de áudio e método relacionado e programa de computador usando características de uma representação decodificada de um quadro de áudio adequadamente decodificado
US9679578B1 (en) 2016-08-31 2017-06-13 Sorenson Ip Holdings, Llc Signal clipping compensation
JP6652469B2 (ja) * 2016-09-07 2020-02-26 日本電信電話株式会社 復号装置、復号方法及びプログラム
US9934785B1 (en) 2016-11-30 2018-04-03 Spotify Ab Identification of taste attributes from an audio signal
CN108922551B (zh) * 2017-05-16 2021-02-05 博通集成电路(上海)股份有限公司 用于补偿丢失帧的电路及方法
WO2020249380A1 (en) * 2019-06-13 2020-12-17 Telefonaktiebolaget Lm Ericsson (Publ) Time reversed audio subframe error concealment
EP3901950A1 (en) * 2020-04-21 2021-10-27 Dolby International AB Methods, apparatus and systems for low latency audio discontinuity fade out

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
GB2102254B (en) * 1981-05-11 1985-08-07 Kokusai Denshin Denwa Co Ltd A speech analysis-synthesis system
DE3462572D1 (en) 1983-04-20 1987-04-09 Nippon Telegraph & Telephone Interframe coding method and apparatus therefor
FR2606239A1 (fr) 1986-10-30 1988-05-06 Bull Sa Procede et dispositif de transmission de donnees numeriques
US5007094A (en) 1989-04-07 1991-04-09 Gte Products Corporation Multipulse excited pole-zero filtering approach for noise reduction
US5371853A (en) 1991-10-28 1994-12-06 University Of Maryland At College Park Method and system for CELP speech coding and codebook for use therewith
JP2779886B2 (ja) * 1992-10-05 1998-07-23 日本電信電話株式会社 広帯域音声信号復元方法
US5434947A (en) * 1993-02-23 1995-07-18 Motorola Method for generating a spectral noise weighting filter for use in a speech coder
US5995539A (en) * 1993-03-17 1999-11-30 Miller; William J. Method and apparatus for signal transmission and reception
SE503547C2 (sv) 1993-06-11 1996-07-01 Ericsson Telefon Ab L M Anordning och förfarande för döljande av förlorade ramar
JP3520555B2 (ja) * 1994-03-29 2004-04-19 ヤマハ株式会社 音声符号化方法及び音声音源装置
US5602959A (en) * 1994-12-05 1997-02-11 Motorola, Inc. Method and apparatus for characterization and reconstruction of speech excitation waveforms
TW294867B (es) 1994-12-23 1997-01-01 Qualcomm Inc
US5699481A (en) 1995-05-18 1997-12-16 Rockwell International Corporation Timing recovery scheme for packet speech in multiplexing environment of voice with data applications
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5956674A (en) * 1995-12-01 1999-09-21 Digital Theater Systems, Inc. Multi-channel predictive subband audio coder using psychoacoustic adaptive bit allocation in frequency, time and over the multiple channels
CA2206652A1 (en) 1996-06-04 1997-12-04 Claude Laflamme Baud-rate-independent asvd transmission built around g.729 speech-coding standard
JP3623056B2 (ja) 1996-09-10 2005-02-23 ソニー株式会社 動画像圧縮装置
JPH1091194A (ja) * 1996-09-18 1998-04-10 Sony Corp 音声復号化方法及び装置
US6766300B1 (en) * 1996-11-07 2004-07-20 Creative Technology Ltd. Method and apparatus for transient detection and non-distortion time scaling
JP3596841B2 (ja) 1997-01-24 2004-12-02 株式会社ルネサステクノロジ 受信データ伸長装置
WO1999010719A1 (en) * 1997-08-29 1999-03-04 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
DE69836785T2 (de) * 1997-10-03 2007-04-26 Matsushita Electric Industrial Co., Ltd., Kadoma Audiosignalkompression, Sprachsignalkompression und Spracherkennung
FI980132A (fi) * 1998-01-21 1999-07-22 Nokia Mobile Phones Ltd Adaptoituva jälkisuodatin
US6415253B1 (en) * 1998-02-20 2002-07-02 Meta-C Corporation Method and apparatus for enhancing noise-corrupted speech
SE513520C2 (sv) * 1998-05-14 2000-09-25 Ericsson Telefon Ab L M Förfarande och anordning för maskering av fördröjda paket
US6292454B1 (en) * 1998-10-08 2001-09-18 Sony Corporation Apparatus and method for implementing a variable-speed audio data playback system
US6456964B2 (en) 1998-12-21 2002-09-24 Qualcomm, Incorporated Encoding of periodic speech using prototype waveforms
AU4201100A (en) 1999-04-05 2000-10-23 Hughes Electronics Corporation Spectral phase modeling of the prototype waveform components for a frequency domain interpolative speech codec system
US6765931B1 (en) * 1999-04-13 2004-07-20 Broadcom Corporation Gateway with voice
CA2335005C (en) * 1999-04-19 2005-10-11 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US7117156B1 (en) * 1999-04-19 2006-10-03 At&T Corp. Method and apparatus for performing packet loss or frame erasure concealment
US6324503B1 (en) * 1999-07-19 2001-11-27 Qualcomm Incorporated Method and apparatus for providing feedback from decoder to encoder to improve performance in a predictive speech coder under frame erasure conditions
US6691082B1 (en) * 1999-08-03 2004-02-10 Lucent Technologies Inc Method and system for sub-band hybrid coding
US6665317B1 (en) * 1999-10-29 2003-12-16 Array Telecom Corporation Method, system, and computer program product for managing jitter
US6931370B1 (en) 1999-11-02 2005-08-16 Digital Theater Systems, Inc. System and method for providing interactive audio in a multi-channel audio environment
JP2001142477A (ja) * 1999-11-12 2001-05-25 Matsushita Electric Ind Co Ltd 有声音形成装置とそれを用いた音声認識装置
FI116643B (fi) 1999-11-15 2006-01-13 Nokia Corp Kohinan vaimennus
SE517156C2 (sv) * 1999-12-28 2002-04-23 Global Ip Sound Ab System för överföring av ljud över paketförmedlade nät
US6584438B1 (en) 2000-04-24 2003-06-24 Qualcomm Incorporated Frame erasure compensation method in a variable rate speech coder
DE60127274T2 (de) * 2000-09-15 2007-12-20 Lernout & Hauspie Speech Products N.V. Schnelle wellenformsynchronisation für die verkettung und zeitskalenmodifikation von sprachsignalen
US6661842B1 (en) * 2000-09-22 2003-12-09 General Dynamics Decision Systems, Inc. Methods and apparatus for error-resilient video coding
US7031926B2 (en) * 2000-10-23 2006-04-18 Nokia Corporation Spectral parameter substitution for the frame error concealment in a speech decoder
US6968309B1 (en) * 2000-10-31 2005-11-22 Nokia Mobile Phones Ltd. Method and system for speech frame error concealment in speech decoding
EP1217613A1 (fr) 2000-12-19 2002-06-26 Koninklijke Philips Electronics N.V. Reconstitution de trames manquantes ou mauvaises en téléphonie cellulaire
US7069208B2 (en) * 2001-01-24 2006-06-27 Nokia, Corp. System and method for concealment of data loss in digital audio transmission
FR2820227B1 (fr) * 2001-01-30 2003-04-18 France Telecom Procede et dispositif de reduction de bruit
CN1311424C (zh) 2001-03-06 2007-04-18 株式会社Ntt都科摩 音频数据内插、关联信息制作、内插信息发送装置和方法
KR20030009517A (ko) * 2001-04-09 2003-01-29 코닌클리즈케 필립스 일렉트로닉스 엔.브이. 위상-스미어링 및 위상-디스미어링 필터를 구비하는adpcm 스피치 코딩 시스템
US7610205B2 (en) * 2002-02-12 2009-10-27 Dolby Laboratories Licensing Corporation High quality time-scaling and pitch-scaling of audio signals
WO2002095731A1 (fr) 2001-05-22 2002-11-28 Fujitsu Limited Processeur de signaux vocaux
FI20011392A (fi) * 2001-06-28 2002-12-29 Nokia Corp Mekanismi multicast-jakelua varten tietoliikennejärjestelmässä
US7006511B2 (en) 2001-07-17 2006-02-28 Avaya Technology Corp. Dynamic jitter buffering for voice-over-IP and other packet-based communication systems
US7711563B2 (en) * 2001-08-17 2010-05-04 Broadcom Corporation Method and system for frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US7590525B2 (en) * 2001-08-17 2009-09-15 Broadcom Corporation Frame erasure concealment for predictive speech coding based on extrapolation of speech waveform
US6895375B2 (en) 2001-10-04 2005-05-17 At&T Corp. System for bandwidth extension of Narrow-band speech
US6681842B2 (en) * 2001-12-03 2004-01-27 Agilent Technologies, Inc. Cooling apparatus
SE521600C2 (sv) 2001-12-04 2003-11-18 Global Ip Sound Ab Lågbittaktskodek
US20040002856A1 (en) 2002-03-08 2004-01-01 Udaya Bhaskar Multi-rate frequency domain interpolative speech CODEC system
JP4022427B2 (ja) 2002-04-19 2007-12-19 独立行政法人科学技術振興機構 エラー隠蔽方法、エラー隠蔽プログラム、送信装置、受信装置及びエラー隠蔽装置
US7496086B2 (en) * 2002-04-30 2009-02-24 Alcatel-Lucent Usa Inc. Techniques for jitter buffer delay management
CA2388439A1 (en) * 2002-05-31 2003-11-30 Voiceage Corporation A method and device for efficient frame erasure concealment in linear predictive based speech codecs
JP4089347B2 (ja) 2002-08-21 2008-05-28 沖電気工業株式会社 音声復号装置
US20060093038A1 (en) * 2002-12-04 2006-05-04 Boyce Jill M Encoding of video cross-fades using weighted prediction
CN100576318C (zh) 2003-05-14 2009-12-30 冲电气工业株式会社 用于隐藏被擦除的周期信号数据的装置与方法
JP4233931B2 (ja) 2003-06-17 2009-03-04 日本電信電話株式会社 音声・音響信号再生調整方法、装置、および音声・音響信号再生調整プログラム、そのプログラムを記録した記録媒体
US7356748B2 (en) * 2003-12-19 2008-04-08 Telefonaktiebolaget Lm Ericsson (Publ) Partial spectral loss concealment in transform codecs
JP2005315973A (ja) * 2004-04-27 2005-11-10 Seiko Epson Corp 半導体集積回路
TWI273562B (en) * 2004-09-01 2007-02-11 Via Tech Inc Decoding method and apparatus for MP3 decoder
US7676362B2 (en) 2004-12-31 2010-03-09 Motorola, Inc. Method and apparatus for enhancing loudness of a speech signal
JP5420175B2 (ja) * 2005-01-31 2014-02-19 スカイプ 通信システムにおける隠蔽フレームの生成方法
US7359409B2 (en) * 2005-02-02 2008-04-15 Texas Instruments Incorporated Packet loss concealment for voice over packet networks
US9160382B2 (en) * 2013-10-08 2015-10-13 Blackberry Limited Phase noise mitigation for wireless communications

Also Published As

Publication number Publication date
JP2014038347A (ja) 2014-02-27
JP5202960B2 (ja) 2013-06-05
EP1846920B1 (en) 2017-04-19
BRPI0607251A2 (pt) 2017-06-13
EP1846921A1 (en) 2007-10-24
CN101120398B (zh) 2012-05-23
BRPI0607246B1 (pt) 2019-12-03
CN101120399A (zh) 2008-02-06
WO2006079349A1 (en) 2006-08-03
CN101120399B (zh) 2011-07-06
AU2006208528A1 (en) 2006-08-03
CA2596337C (en) 2014-08-19
RU2007132729A (ru) 2009-03-10
RU2007132728A (ru) 2009-03-10
US20150207842A1 (en) 2015-07-23
JP2008529072A (ja) 2008-07-31
JP2008529074A (ja) 2008-07-31
BRPI0607247B1 (pt) 2019-10-29
US9047860B2 (en) 2015-06-02
NO20074349L (no) 2007-10-18
HK1108760A1 (en) 2008-05-16
US20080275580A1 (en) 2008-11-06
RU2417457C2 (ru) 2011-04-27
CA2596341A1 (en) 2006-08-03
US8068926B2 (en) 2011-11-29
EP1849156A1 (en) 2007-10-31
ZA200706534B (en) 2008-07-30
EP1846920A1 (en) 2007-10-24
KR101203348B1 (ko) 2012-11-20
AU2006208530A1 (en) 2006-08-03
JP2008529073A (ja) 2008-07-31
BRPI0607246A2 (pt) 2010-03-23
WO2006079350A1 (en) 2006-08-03
JP5925742B2 (ja) 2016-05-25
EP1846921B1 (en) 2017-10-04
NO20074348L (no) 2007-10-21
IL184927A0 (en) 2007-12-03
KR20080001708A (ko) 2008-01-03
RU2407071C2 (ru) 2010-12-20
US9270722B2 (en) 2016-02-23
AU2006208530B2 (en) 2010-10-28
AU2006208529A1 (en) 2006-08-03
RU2007132735A (ru) 2009-03-10
JP5420175B2 (ja) 2014-02-19
IL184927A (en) 2016-06-30
NO338798B1 (no) 2016-10-24
IL184948A0 (en) 2007-12-03
KR20080002756A (ko) 2008-01-04
NO20074418L (no) 2007-08-29
IL184864A0 (en) 2007-12-03
US20080154584A1 (en) 2008-06-26
AU2006208528C1 (en) 2012-03-01
AU2006208529B2 (en) 2010-10-28
US20100161086A1 (en) 2010-06-24
US8918196B2 (en) 2014-12-23
CN101120400B (zh) 2013-03-27
US20120158163A1 (en) 2012-06-21
KR101237546B1 (ko) 2013-02-26
AU2006208528B2 (en) 2011-08-18
CN101120398A (zh) 2008-02-06
CA2596341C (en) 2013-12-03
IL184864A (en) 2011-01-31
CA2596338A1 (en) 2006-08-03
KR20080002757A (ko) 2008-01-04
NO338702B1 (no) 2016-10-03
WO2006079348A1 (en) 2006-08-03
BRPI0607247A2 (pt) 2010-03-23
ZA200706261B (en) 2009-09-30
IL184948A (en) 2012-07-31
KR101203244B1 (ko) 2012-11-20
ZA200706307B (en) 2008-06-25
CA2596337A1 (en) 2006-08-03
RU2405217C2 (ru) 2010-11-27
NO340871B1 (no) 2017-07-03
CA2596338C (en) 2014-05-13
EP1849156B1 (en) 2012-08-01
CN101120400A (zh) 2008-02-06

Similar Documents

Publication Publication Date Title
ES2625952T3 (es) Método para la generación de tramas de ocultación en sistema de comunicación
ES2434947T3 (es) Procedimiento y dispositivo para la ocultación eficiente de un borrado de trama en códecs de voz