ES2576232T3 - Clasificación de señal de múltiples modos de codificación - Google Patents

Clasificación de señal de múltiples modos de codificación Download PDF

Info

Publication number
ES2576232T3
ES2576232T3 ES12810018.7T ES12810018T ES2576232T3 ES 2576232 T3 ES2576232 T3 ES 2576232T3 ES 12810018 T ES12810018 T ES 12810018T ES 2576232 T3 ES2576232 T3 ES 2576232T3
Authority
ES
Spain
Prior art keywords
voice
classifier
music
audio signal
classified
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12810018.7T
Other languages
English (en)
Inventor
Venkatraman Srinivasa ATTI
Ethan Robert Duni
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qualcomm Inc
Original Assignee
Qualcomm Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qualcomm Inc filed Critical Qualcomm Inc
Application granted granted Critical
Publication of ES2576232T3 publication Critical patent/ES2576232T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/02Preprocessing operations, e.g. segment selection; Pattern representation or modelling, e.g. based on linear discriminant analysis [LDA] or principal components; Feature selection or extraction
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/20Vocoders using multiple modes using sound class specific coding, hybrid encoders or object based coding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/173Transcoding, i.e. converting between two coded representations avoiding cascaded coding-decoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/22Mode decision, i.e. based on audio signal content versus external parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/16Vocoder architecture
    • G10L19/18Vocoders using multiple modes
    • G10L19/24Variable rate codecs, e.g. for generating different qualities using a scalable representation such as hierarchical encoding or layered encoding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/81Detection of presence or absence of voice signals for discriminating voice from music

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un procedimiento, que comprende: recibir una porción de una señal de audio en un primer clasificador; clasificar la porción de la señal de audio en el primer clasificador como voz o como música; y procesar la porción de la señal de audio, en el que el procesamiento de la porción de la señal de audio comprende: si la porción se clasifica por el primer clasificador como voz, entonces codificar la voz usando un primer modo de codificación; o si la porción se clasifica por el primer clasificador como música, entonces: proporcionar la porción a un segundo clasificador; clasificar la porción en el segundo clasificador como voz o como música; y codificar la porción de la señal de audio, en el que codificar la porción de la señal de audio comprende: si la porción se clasifica en el segundo clasificador como voz, entonces codificar la porción usando un segundo modo de codificación; o si la porción se clasifica en el segundo clasificador como música, entonces codificar la porción usando un tercer modo de codificación.

Description

5
10
15
20
25
30
35
40
45
50
55
60
65
DESCRIPCION
Clasificacion de senal de multiples modos de codificacion ANTECEDENTES
La transmision de voz (tambien denominada como vocal) y musica mediante tecnicas digitales se ha generalizado e incorporado en una amplia gama de dispositivos, incluyendo, dispositivos de comunicacion inalambrica, asistentes digitales personales (PDA), ordenadores portables, ordenadores de mesa, telefonos moviles y/o radiotelefonos sateliales, y similares. Un campo ejemplar son las comunicaciones inalambricas. El campo de las comunicaciones inalambricas tiene muchas aplicaciones, incluyendo, por ejemplo, telefonos sin cables, paginacion, bucles locales inalambricos, telefonia inalambrica, tal como sistemas celulares y telefonos PCS, telefonia movil por protocolo de Internet (IP), y sistemas de comunicacion por satelite.
En redes de telecomunicaciones, la informacion se transfiere de forma codificada entre un dispositivo de comunicacion de transmision y un dispositivo de comunicacion de recepcion. El dispositivo de comunicacion de transmision codifica informacion original, tal como senales de voz y/o senales de musica, en informacion codificada y la envia al dispositivo de comunicacion de recepcion. El dispositivo de comunicacion de recepcion descodifica la informacion codificada recibida para recrear la informacion original. La codificacion y la descodificacion se realiza usando codecs. La codificacion de senales de voz y/o senales de musica se realiza en un codec localizado en el dispositivo de comunicacion de transmision, y la descodificacion se realiza en un codec situado en el dispositivo de comunicacion de recepcion.
En los codecs modernos, se incluyen multiples modos de codificacion para manejar diferentes tipos de fuentes de entrada, tales como voz, musica y contenido mixto. Para un rendimiento optico, debe seleccionarse y usarse el modo de codificacion optimo para cada trama de la senal de entrada. Es necesaria una clasificacion precisa para seleccion los esquemas de codificacion mas eficientes y conseguir la menor tasa de datos.
Esta clasificacion puede realizarse en bucle abierto para evitar complejidad. En este caso, el clasificador de modo optimo debe tener en cuenta caracteristicas principales de los diversos modos de codificacion. Algunos modos (tal como modos de codificacion de voz como prediccion lineal excitada por codigo algebraico (ACELP)) contienen un libro de codigos adaptativo (ACB) que aprovecha la correlacion entre las tramas pasadas y actuales. Algunos otros modos (tales como modos de codificacion de transformada discreta del coseno modificada (MDCT) par musica/audio) pueden no contener tal caracteristica. Por lo tanto, es importante asegurar que las tramas de entrada que tienen una alta correlacion con la trama anterior se clasifican en el modo que tiene ACB o que incluye otras tecnicas de modelacion de correlacion entre tramas.
Las soluciones anteriores han usado decisiones de modo de bucle cerrado (por ejemplo, AMR- WB+, USAC) o diversos tipos de decisiones de bucle abierto (por ejemplo, AMR-WB+, EVRC-WB), pero estas soluciones son complejas o sus rendimientos son propensos a errores.
RESUMEN
Se proporciona una clasificacion de audio mejorada para codificar aplicaciones. Se realiza una clasificacion inicial, seguida de una clasificacion mas precisa, para producir clasificaciones de voz y clasificaciones de musica con mayor precision y menos complejidad que las disponibles previamente.
El audio se clasifica como voz o musica en una base porcion por porcion (por ejemplo, trama por trama). Si la trama se clasifica como musica por la clasificacion inicial, esa trama se somete a una segunda clasificacion mas precisa para confirmar que la trama es musica y no voz (por ejemplo, voz que es tonal y/o esta estructurada que puede no haberse clasificado como voz por la clasificacion inicial).
Dependiendo de la implementacion, pueden usarse uno o mas parametros en la clasificacion mas precisa. Los parametros ejemplares incluyen sonorizacion, correlacion modificada, actividad significativa y ganancia de paso a largo plazo. Estos parametros son unicamente ejemplos, y no pretenden ser limitantes.
Este resumen se proporciona para introducir una seleccion de conceptos de forma simplificada que se describen adicionalmente a continuacion en la descripcion detallada. Este resumen no pretende identificar caracteristicas clave o caracteristicas esenciales de la materia objeto reivindicada, ni pretende usarse para limitar el alcance de la materia objeto reivindicada.
BREVE DESCRIPCION DE LOS DIBUJOS
El resumen anterior, asi como la siguiente descripcion detallada de las realizaciones ilustrativas, se entiende mejor cuando se lee junto con los dibujos adjuntos. Para el fin de ilustrar las realizaciones, se muestran en los dibujos construcciones ejemplares de las realizaciones; sin embargo, las realizaciones no se limitan a los procedimientos e
5
10
15
20
25
30
35
40
45
50
55
60
65
instrumentos especificos divulgados. En los dibujos:
La figure 1A es un diagrama de bloques que ilustra un sistema ejemplar en el que un dispositivo origen transmite un flujo de bits codificado a un dispositivo de recepcion;
la figura 1B es un diagrama de bloques de dos dispositivos que pueden usarse como se describe en el presente documento;
la figura 2 es un diagrama de bloques de una implementacion de un sistema de clasificacion de senal de multiples modos de codificacion y codificador;
la figura 3 es un flujo operativo de una implementacion de un procedimiento para clasificar audio; la figura 4 es un diagrama de una estacion movil ejemplar; y la figura 5 muestra un entorno informatico ejemplar.
DESCRIPCION DETALLADA
Las realizaciones divulgadas presentan tecnicas de clasificacion para una diversidad de modos de codificacion en entornos con diversos tipos de audio, tal como voz y musica. Los tipos de tramas de audio pueden identificarse de forma fiable y precisa para su codificacion de la manera mas eficiente. Aunque los ejemplos y la descripcion en el presente documento se refieren a tramas de audio, se contemplan mas generalmente porciones de senales de audio y pueden usarse de acuerdo con las implementaciones descritas en el presente documento.
La figura 1A es un diagrama de bloques que ilustra un sistema ejemplar 10 en el que un dispositivo origen 12a transmite un flujo de bits codificado a traves de un enlace de comunicacion 15 a un dispositivo de recepcion 14a. El flujo de bits puede representarse como uno o mas paquetes. El dispositivo origen 12a y el dispositivo de recepcion 14a pueden ser ambos dispositivos digitales. En particular, el dispositivo origen 12a puede codificar datos acordes con el estandar 3GPP2 EVRC-B, o estandares similares que aprovechan la codificacion de datos en paquetes para la compresion de voz. Uno o ambos dispositivos 12a, 14a del sistema 10 pueden implementar selecciones de modos de codificacion (basados en diferentes modelos de codificacion) y tasas de codificacion para compresion de audio (por ejemplo, voz y/o musica), como se describe en mas detalle a continuacion, para mejorar el proceso de codificacion de audio. Una estacion movil ejemplar, que puede comprender un dispositivo origen o un dispositivo de recepcion, se describe con respecto a la figura 4.
El enlace de comunicacion 15 puede comprender un enlace inalambrico, una linea de transmision fisica, fibra optica, una red basada en paquetes tal como una red de area local, una red de area extensa, o una red global tal como Internet, una red telefonica conmutada publica (PSTN), o cualquier otro enlace de comunicacion capaz de transferir datos. El enlace de comunicacion 15 puede acoplarse a un medio de almacenamiento. Por lo tanto, el enlace de comunicacion 15 representa cualquier medio de comunicacion adecuado, o posiblemente una coleccion de diferentes redes y enlaces, para transmitir datos de voz comprimidos desde el dispositivo origen 12a al dispositivo de recepcion 14a.
El dispositivo origen 12a puede incluir uno o mas microfonos 16 que capturan el sonido. El sonido continuo se envia al digitalizador 18. El digitalizador 18 muestrea el sonido a intervalos discretos y cuantifica (digitaliza) la voz. La voz digitalizada puede almacenarse en una memoria 20 y/o puede enviarse a un codificador 22, donde las muestras de voz digitalizadas pueden codificarse, a menudo durante una trama de 20 ms.
Mas particularmente, el codificador divide la senal de voz entrante en bloques de tiempo, o tramas o porciones de analisis. La duracion de cada segmento en tiempo (o trama) se selecciona tipicamente para que sea suficientemente corta como para que pueda esperarse que la envolvente espectral de la senal permanezca relativamente estacionaria. Por ejemplo, una longitud de trama tipica es de veinte milisegundos (20 ms), que corresponde a 160 muestras a una frecuencia de muestreo tipica de ocho kilohertzios (8 kHz), aunque puede usarse cualquier longitud de trama o frecuencia de muestreo que se considere adecuada para la aplicacion particular.
El proceso de codificacion realizado en el codificador 22 produce uno o mas paquetes, para enviar al transmisor 24, que pueden transmitirse por un enlace de comunicacion 15 al dispositivo de recepcion 14a. Por ejemplo, el codificador analiza la trama entrante para extraer ciertos parametros relevantes, y despues cuantifica los parametros en representacion binaria, es decir, a un conjunto de bits o un paquete de datos binario. Los paquetes de datos se transmiten por el canal de comunicacion (es decir, una conexion de red alambrica y/o inalambrica) a un receptor y un descodificador. El descodificador procesa los paquetes de datos, los descuantifica para producir los parametros, y sintetiza de nuevo las tramas de audio usando los parametros no cuantificados.
El codificador 22 puede incluir, por ejemplo, diverso hardware, software o firmware, o uno o mas procesadores de senales digitales (DSP) que ejecutan modulos de software programables para controlar las tecnicas de codificacion, como se describen en el presente documento. Los circuitos de memoria y logica asociados pueden proporcionarse
5
10
15
20
25
30
35
40
45
50
55
60
65
para soportar el DSP en el control de las tecnicas de codificacion. Como se describira, el codificador 22 puede comportarse mas energicamente si los modos de codificacion y las tasas pueden cambiarse antes y/o durante la codificacion dependiendo de si se ha determinado y se codifica una trama de voz o una trama de musica.
El dispositivo de recepcion 14a puede tomar la forma de cualquier dispositivo de audio digital capaz de recibir y descodificar datos de audio. Por ejemplo, el dispositivo de recepcion 14a puede incluir un receptor 26 para recibir paquetes del transmisor 24, por ejemplo, a traves de enlaces intermedios, enrutadores, otro equipo de red, y similares. El dispositivo de recepcion 14a tambien puede incluir un descodificador 28 para descodificar el uno o mas paquetes, y uno o mas altavoces 30 para permitir que un usuario oiga el audio reconstruido despues de la descodificacion de los paquetes por el decodificador de voz 28.
En algunos casos, un dispositivo origen 12b y un dispositivo de recepcion 14b pueden incluir cada uno un codificador/descodificador de voz (codec) 32 como se muestra en la figura 1B, para codificar y descodificar datos de audio digital. En particular, tanto el dispositivo origen 12b como el dispositivo de recepcion 14b pueden incluir transmisores y receptores, asi como una memoria y altavoces. Muchas de las tecnicas de codificacion contempladas en el presente documento se describen en el contexto de un dispositivo de audio digital que incluye un codificador para comprimir voz y/o musica.
Sin embargo, se entendera que el codificador puede formar parte de un codec 32. En este caso, el codec puede implementarse en hardware, software, firmware, un DSP, un microprocesador, un procesador de proposito general, un circuito integrado de aplicacion especifica (ASIC), una matriz de puertas programables en campo (FPGA), componentes de hardware discretos o diversas combinaciones de los mismos. Ademas, se entiende por los expertos en la tecnica que los codificadores pueden implementarse con un DSP, un ASIC, una logica de compuertas discretas, firmware, o cualquier modulo de software programable convencional y un microprocesador. El modulo de software puede residir en una memoria RAM, una memoria flash, registros, o cualquier otra forma de medio de almacenamiento de escritura conocido en la tecnica. Como alternativa, cualquier procesador, controlador o maquina de estados convencional puede estar sustituido por el microprocesador. Se describe un dispositivo informatico ejemplar con respecto a la figura 5.
La figura 2 es un diagrama de bloques de una implementacion de un sistema de clasificacion de senal de multiples modos de codificacion y codificador 200. En una implementacion, el sistema 200 puede usarse con un dispositivo, tal como un dispositivo origen o un dispositivo de recepcion descritos con respecto a las figuras 1A y 1B. Por ejemplo, el sistema 200 puede operar junto con el codificador 22 del dispositivo origen 12a.
El sistema de clasificacion de senal de multiples modos de codificacion y codificador 200 comprende un clasificador inicial 210 (tambien denominado como un primer clasificador) y un clasificador de precision 220 (tambien denominado como un segundo clasificador). El sistema 200 tambien comprende un conmutador de seleccion de clasificador de precision 230 que puede seleccionarse (por ejemplo, por un usuario) para habilitar o deshabilitar el clasificador de precision 220 y su funcionalidad de clasificacion mas precisa asociada.
Se incluyen diversos tipos de codificadores en el sistema 200, tales como codificadores de voz y un codificador de musica. En una implementacion, un primer modo de codificacion, denominado como "modo de codificacion 1" 240 (tal como un codificador de tipo predictivo lineal excitado por codigo (CELP), o un modo de codificacion de voz, por ejemplo) puede proporcionarse y usarse en respuesta a la clasificacion por el clasificador inicial 210. Un segundo modo de codificacion, denominado como "modo de codificacion 2" 260 (tal como un codificador hibrido CELP/transformada, o un segundo modo de codificacion de voz, por ejemplo) puede proporcionarse y usarse en respuesta a la clasificacion por el clasificador de precision 220.
Un tercer modo de codificacion, denominado como "modo de codificacion 3" 250 (tal como un codificador por transformada, o un modo de codificacion de musica, por ejemplo) puede proporcionarse y usarse en respuesta a la clasificacion por el clasificador inicial 210 y/o el clasificador de precision 220. Estos tipos de modos de codificacion y codificadores se conocen bien, y se omiten descripciones adicionales para mayor brevedad. Los modos de codificacion y codificadores ejemplares descritos para los modos de codificacion 1, 2 y 3 son unicamente ejemplos y no pretenden ser limitantes. Puede usarse cualquier modo o modos de codificacion y/o codificador o codificadores de voz y cualquier modo o modos de codificacion y/o codificador o codificadores de musica apropiados.
La figura 3 es un flujo operativo de una implementacion de un procedimiento 300 para clasificar audio. En 310, el clasificador inicial 210 recibe una trama de audio de entrada (u otra porcion de una senal de audio para clasificar la porcion de la senal de audio como una senal de audio tipo voz o una senal de audio tipo musica) y la clasifica como voz o musica en 320. El clasificador inicial 210 puede ser cualquiera clasificador que clasifica una trama o porcion de audio como voz o musica.
En algunas implementaciones, el clasificador inicial 210 puede comprender mas de un clasificador (mostrado en 320 como "clasificador 1" y "clasificador 2", aunque puede usarse cualquier numero de clasificadores dependiendo de la implementacion). Por ejemplo, el clasificador inicial puede comprender un clasificador que se sesga completamente hacia voz, y otro clasificador diferente, tal como un clasificador que esta mas sesgado hacia musica. Estos dos
5
10
15
20
25
30
35
40
45
50
55
60
65
clasificadores pueden operar en la trama de entrada secuencialmente o, a veces, simultaneamente (dependiendo de la implementacion) en 320, estando sus resultados combinados para formar un resultado que se envia a 330 o 340.
Hay una pequena probabilidad de que la voz se detecte como musica por el clasificador inicial 210. Como tal, algunas tramas de voz pueden clasificarse inicialmente como musica. Por ejemplo, la voz en presencia de musica de fondo de muy bajo nivel o una voz cantante, que son representativos de la voz, pueden no clasificarse como voz por el clasificador inicial 210. En su lugar, el clasificador inicial 210 puede clasificar dichas senales como musica. La presencia de otro ruido de fondo, tal como el claxon de un vehiculo suena en el ruido de la calle o el telefono suena en una oficina tipica, por ejemplo, tambien puede contribuir a aumentar una clasificacion erronea de la voz como musica.
Si la trama se determina en 320 como una trama de voz por el clasificador inicial 210, entonces la trama se proporciona al modo de codificacion 1 240 (por ejemplo, un codificador de tipo CELP) para su codificacion. En algunas implementaciones, puede usarse cualquier codificador de tipo CELP conocido.
Por otro lado, si la trama se determina en 320 como una trama de musica por el clasificador inicial 210, entonces se determina en 340 si esta habilitada una clasificacion mas precisa (por ejemplo, por el usuario que tiene habilitada previamente la caracteristica, a traves de un conmutador de seleccion "on" y "off" en el dispositivo correspondiente a "habilitado" y "no habilitado", respectivamente). Esta clasificacion mas precisa es una segunda ronda de clasificacion que refuerza la decision de la primera clasificacion. En una implementacion, la clasificacion mas precisa para procesar datos de audio puede habilitarse selectivamente por un usuario.
Si la clasificacion mas precisa no esta habilitada como se determina en 340, entonces la trama se proporciona al modo de codificacion 3 250 (por ejemplo, un codificador por transformada) para su codificacion como una trama de musica en 350. Sin embargo, si la clasificacion mas precisa se habilita como se determina en 340, entonces la trama se proporciona al clasificador de precision 220 en 360 para una clasificacion mas precisa adicional. La clasificacion mas precisa se usa para distinguir adicionalmente una trama de voz de una trama de musica.
En una implementacion, la clasificacion mas precisa se usa para confirmar que la trama es tipo ruido de banda ancha, que es una caracteristica de ciertos tipos de musica, en lugar de caracteristicas tonales y/o casi estacionarias de voz. Si la clasificacion mas precisa en 360 da como resultado la trama que se identifica como una trama de musica, entonces la trama se envia al modo de codificacion 3 para su codificacion como una trama de musica en 350.
Si la clasificacion mas precisa en 360 da como resultado la trama que se identifica como una trama de voz, entonces la trama se envia al modo de codificacion 2 260 para su codificacion como una trama de voz en 370. Como se ha senalado anteriormente, en una implementacion, el modo de codificacion 2 260 puede ser un codificador hibrido CELP/transformada, que puede usarse para codificar tramas de voz tonales y/o estructuradas. En una implementacion alternativa, el modo de codificacion 2 260 en 370 puede ser un codificador de tipo CELP tal como el modo de codificacion 1 usado en 330.
En una implementacion, la clasificacion mas precisa realizada en 360 (por ejemplo, el clasificador de precision 220) puede comparar diversas caracteristicas o funciones de la trama con uno o mas umbrales para determinar si la trama es una trama de voz o una trama de musica.
En algunas implementaciones, la sonorizacion de la trama puede compararse con un primer umbral THR1. Si la sonorizacion de la trama es mayor que THR1, entonces se determina que la trama es una trama de voz. Un valor ejemplar para THR1 es 0,99, aunque puede usarse cualquier valor dependiendo de la implementacion. La sonorizacion varia de 0 (correspondiente a correlacion nula con una trama de voz) a 1 (correspondiente a una alta correlacion con una trama de voz).
En algunas implementaciones, la correlacion de senal ponderada puede compararse con un segundo umbral THR2. Si la correlacion de senal ponderada es mayor que THR2, entonces se determina que la trama es una trama de voz. Un valor ejemplar para THR2 es 0,87, aunque puede usarse cualquier valor dependiendo de la implementacion. La correlacion de senal varia de 0 (correspondiente a un ruido aleatorio) a 1 (correspondiente a un sonido altamente estructurado).
En algunas implementaciones, la ganancia de paso a largo plazo puede compararse con un tercer umbral THR3. Si la ganancia de paso a largo plazo es mayor que THR3, entonces se determina que la trama es una trama de voz. Un valor ejemplar para THR3 es 0,5, aunque puede usarse cualquier valor dependiendo de la implementacion. La ganancia de paso a largo plazo es la correlacion cruzada normalizada entre la excitacion pasada y el residuo de prediccion actual. La ganancia de paso a largo plazo varia de 0 (que indica que el error en la trama pasada no es adecuado en la representacion de la trama actual) a 1 (que indica que el uso del error residual en la trama pasada puede representar completamente la trama actual).
En algunas implementaciones, la tonalidad de la trama actual puede determinarse y compararse con un umbral
5
10
15
20
25
30
35
40
45
50
55
60
65
THR4. La tonalidad de una senal puede medirse usando una medicion de planitud espectral o un pico espectral con respecto una medicion de relacion media. Si el espectro no contiene ningun pico localizado prominente, entonces la medicion de planitud espectral tendera a estar cerca de 1. Por otro lado, si el espectro muestra una fuerte inclinacion con picos localizados, entonces la medicion de planitud espectral estara cerca de 0. Si la tonalidad es mayor que THR4, entonces se determina que la trama es una trama de voz. Un valor ejemplar para THR4 es 0,75, aunque puede usarse cualquier valor dependiendo de la implementacion.
Adicionalmente, o como alternativa, en algunas implementaciones, puede determinarse si hay alguna actividad de senal. Si no hay ninguna actividad de senal (es decir, la trama es silenciosa), entonces se determina que no hay ninguna senal util que codificar, y puede codificarse como una trama de voz.
En algunas implementaciones, si no se cumple ninguna de las condiciones para determinar en 360 que la trama es una trama de voz, entonces se determina que la trama es una trama de musica.
Las comparaciones y umbrales que se describen en el presente documento no pretenden ser limitantes, ya que puede usarse uno cualquiera o mas comparaciones y/o umbrales dependiendo de la implementacion. Tambien pueden usarse comparaciones y umbrales adicionales y/o alternativos, dependiendo de la implementacion.
Por lo tanto, en una implementacion, si una trama se clasifica inicialmente (por el clasificador inicial 210) como voz, se pasa a un codificador CELP. Si la trama se clasifica como musica, sin embargo, entonces se verifica si se permite o no una clasificacion mas precisa. La clasificacion mas precisa puede habilitarse usando un control de usuario externo. Si la clasificacion mas precisa no esta habilitada, entonces la trata que inicialmente se clasifica como musica se enruta a un codificador por transformada para su codificador. Si la clasificacion mas precisa esta habilitada, entonces se usa una combinacion logica de ciertos criterios (por ejemplo, voz, correlacion modificada, actividad de senal, ganancia de paso a largo plazo, etc.) para seleccionar entre un codificador por transformada y un hibrido de codificador CELP/transformada. El THR1, THR2, THR3 y el THR4 son valores de umbral que pueden determinarse experimentalmente y depender de las tasas de muestreo y tipos de senal, por ejemplo.
En una implementacion, se impide que las senales fuertemente tonales se codifiquen en modo MDCT (que carece de libro de codigos adaptativo) y, en su lugar, se proporcionan a modos de codificacion predictiva lineal (LPC) que utilizan un libro de codigos adaptativo.
Los componentes de los codificadores y los clasificadores que se describen en el presente documento pueden implementarse como hardware electronico, como software informatico, o combinaciones de ambos. Estos componentes se describen en el presente documento en cuanto a su funcionalidad. Si la funcionalidad se implementa como hardware o software dependera de la aplicacion particular y de las limitaciones de diseno impuestas sobre todo el sistema. Los expertos en la tecnica reconoceran la intercambiabilidad del hardware y el software en estas circunstancias, y cual es la mejor forma de implementar la funcionalidad descrita para cada aplicacion particular.
Como se usa en el presente documento, el termino "determinar" (y variantes gramaticales del mismo) se usa en un sentido extremadamente amplio. El termino "determinacion" incluye una amplia variedad de acciones y, por lo tanto, "determinacion" puede incluir el calculo, la computacion, el procesamiento, la derivacion, la investigacion, la consulta (por ejemplo, la consulta en una tabla, la consulta en una base de datos o en otra estructura de datos), la verificacion y similares. Ademas, "determinacion" puede incluir la recepcion (por ejemplo, la recepcion de informacion), el acceso, (por ejemplo, el acceso a datos de una memoria) y similares. Asi mismo, "determinacion" puede incluir la resolucion, la seleccion, la eleccion, el establecimiento y similares.
La expresion "procesamiento de senal" (y variantes gramaticales de la misma) puede referirse al procesamiento e interpretacion de senales. Las senales de interes pueden incluir sonido, imagenes, y muchos otros. El procesamiento de dichas senales puede incluye almacenamiento y reconstruccion, separacion de informacion del ruido, compresion, y extraccion de caracteristicas. El termino "procesamiento digital de senales" puede referirse al estudio de senales en una representacion digital y a los metodos de procesamiento de estas senales. El procesamiento digital de senales es un elemento de muchas tecnologias de comunicaciones tales como estaciones moviles, estaciones no moviles e Internet. Los algoritmos que se utilizan para el procesamiento digital de senales pueden realizarse usando ordenadores especializados, que pueden hacer uso de microprocesadores especializados denominados procesadores de senales digitales (a menudo abreviados como DSP).
A menos que se indique otra cosa, cualquier divulgacion de una operacion de un aparato que tiene una caracteristica particular tambien pretende expresamente divulgar un procedimiento que tenga una caracteristica analoga (y viceversa), y cualquier divulgacion de una operacion de un aparato de acuerdo con una configuracion particular tambien pretende expresamente divulgar un procedimiento de acuerdo con una configuracion analoga (y viceversa).
La figura 4 muestra un diagrama de bloques de un diseno de una estacion movil ejemplar 400 en un sistema de comunicacion inalambrica. La estacion movil 400 puede ser un telefono movil, un terminal, un dispositivo de mano,
5
10
15
20
25
30
35
40
45
50
55
60
65
un PDA, un modem inalambrico, un telefono sin cables, etc. El sistema de comunicacion inalambrica puede ser un sistema CDMA, un sistema GSM, etc.
La estacion movil 400 es capaz de proporcionar una comunicacion bidireccional a traves de una ruta de recepcion y una ruta de transmision. En la ruta de recepcion, las senales transmitidas por las estaciones base se reciben por una antena 412 y se proporcionan a un receptor (RCVR) 414. El receptor 414 acondiciona y digitaliza la senal recibida y proporciona muestras a una seccion digital 420 para su procesamiento adicional. En la ruta de transmision, un transmisor (TMTR) 416 recibe datos que se van a transmitir desde la seccion digital 420, procesa y acondiciona los datos, y genera una senal modulada, que se transmite a traves de la antena 412 a las estaciones base. El receptor 414 y el transmisor 416 pueden ser parte de un transceptor que puede soportar CDMA, GSM, etc.
La seccion digital 420 incluye diversas unidades de procesamiento, interfaz y memoria, tales como, por ejemplo, un procesador de modem 422, un ordenador con conjunto reducido de instrucciones/procesador de senales digitales (RISC/DSP) 424, un controlador/procesador 426, una memoria interna 428, un codificador de audio generalizado 432, un descodificador de audio generalizado 434, un procesador de graficos/pantalla 436, y una interfaz de externo (EBI) 438. El procesador de modem 422 puede realizar un procesamiento para la transmision y recepcion de datos, por ejemplo, codificacion, modulacion, desmodulacion y descodificacion. El RISC/DSP 424 puede realizar un procesamiento general y especializado para el dispositivo inalambrico 400. El controlador/procesador 426 puede dirigir la operacion y diversas unidades de procesamiento e interfaz dentro de la seccion digital 420. La memoria interna 428 puede almacenar datos y/o instrucciones para diversas unidades dentro de la seccion digital 420.
El codificador de audio generalizado 432 puede realizar una codificacion de senales de entrada de una fuente de audio 442, un microfono 443, etc. El descodificador de audio generalizado 434 puede realizar una descodificacion de datos de audio codificados y puede proporcionar senales de salida a un altavoz/auriculares 444. El procesador de graficos/pantalla 436 puede realizar un procesamiento de graficos, videos, imagenes y textos, que pueden presentarse a una unidad de pantalla 446. La EBI 438 puede facilitar la transferencia de datos entre la seccion digital 420 y una memoria principal 448.
La seccion digital 420 puede implementarse con uno o mas procesadores, DSP, microprocesadores, RISC, etc. La seccion digital 420 tambien puede fabricarse en uno o mas circuitos integrados de aplicaciones especificas (ASIC) y/o alguno otro tipo de circuitos integrados (IC).
La figura 5 muestra un entorno informatico ejemplar en el que pueden implementarse implementaciones y aspectos ejemplares. El entorno del sistema informatico es unicamente un ejemplo de un entorno informatico adecuado y no pretende sugerir ninguna limitacion en cuanto al alcance del uso o funcionalidad.
Pueden usarse instrucciones ejecutables por ordenador, tales como modulos de programa, que se ejecutan por un ordenador. Generalmente, los modulos de programa incluyen rutinas, programas, objetos, componentes, estructuras de datos, etc. que realizan tareas particulares o implementan tipos de datos abstractos particulares. Pueden usarse entornos informaticos distribuidos donde las tareas se realizan mediante dispositivos de procesamiento remotos que estan vinculados a traves de una red de comunicaciones u otro medio de transmision de datos. En un entorno informatico distribuido, los modulos de programa y otros datos pueden localizarse tanto en medios de almacenamiento informaticos locales como remotos, incluyendo dispositivos de almacenamiento de memoria.
Con referencia a la figura 5, un sistema ejemplar para implementar los aspectos descritos en el presente documento incluye un dispositivo informatico, tal como el dispositivo informatico 500. En su configuracion mas basica, el dispositivo informatico 500 incluye tipicamente al menos una unidad de procesamiento 502 y una memoria 504. Dependiendo de la configuracion exacta y el tipo de dispositivo informatico, la memoria 504 puede ser volatil (tal como una memoria de acceso aleatorio (RAM)), no volatil (tal como una memoria de solo lectura (ROM), una memoria flash, etc.), o alguna combinacion de las dos. Esta configuracion mas basica se ilustra en la figura 5 por la linea discontinua 506.
El dispositivo informatico 500 puede tener caracteristicas y/o una funcionalidad adicionales. Por ejemplo, el dispositivo informatico 500 puede incluir un almacenamiento adicional (extraible y/o no extraible), incluyendo, pero sin limitacion, discos magneticos y opticos o una cinta. Dicho almacenamiento adicional se ilustra en la figura 5 por el almacenamiento extraible 508 y el almacenamiento no extraible 510.
El dispositivo informatico 500 incluye tipicamente una diversidad de medios legibles por ordenador. Los medios legibles por ordenador pueden ser cualquier medio disponible al que se pueda acceder mediante el dispositivo 500 y que incluya tanto medios volatiles como no volatiles, y tanto medios extraibles como no extraibles. Los medios de almacenamiento informaticos incluyen medios volatiles y no volatiles, y extraibles y no extraibles implementados en cualquier procedimiento o tecnologia para el almacenamiento de informacion, tal como instrucciones legibles por ordenador, estructuras de datos, modulos de programa, u otros datos. La memoria 504, el almacenamiento extraible 508, y el almacenamiento no extraible 510 son todos ejemplos de medios de almacenamiento informatico. Los medios de almacenamiento de ordenador incluyen, pero sin limitacion, memoria RAM, ROM, memoria de solo lectura electricamente programable borrable (EEPROM), memoria flash u otras tecnologias de memoria, CDROM,
5
10
15
20
25
30
35
40
45
50
55
60
65
discos versatiles digitales (DVD) u otro almacenamiento optico, casetes magneticas, cinta magnetica, almacenamiento en disco magnetico u otros dispositivos magneticos de almacenamiento, o cualquier otro medio que pueda usarse para almacenar la informacion deseada y a la que se pueda acceder por el dispositivo informatico 500. Cualquier medio de almacenamiento informatico puede ser parte del dispositivo informatico 500.
El dispositivo informatico 500 puede contener una conexion o conexiones de comunicacion 512 que permiten que el dispositivo se comunique con otros dispositivos. El dispositivo informatico 500 tambien puede tener un dispositivo o dispositivos de entrada 514, tales como un teclado, raton, pen, dispositivo de entrada de voz, dispositivo de entrada tactil, etc. Tambien puede incluir un dispositivo o dispositivos de salida 516, tales como una pantalla, altavoces, impresora, etc. Todos estos dispositivos se conocen bien en la tecnica y no necesitan analizarse ampliamente aqui.
En general, cualquier dispositivo descrito en el presente documento puede representar diversos tipos de dispositivos, tales como un telefono inalambrico o alambrico, un telefono movil, un ordenador portatil, un dispositivo multimedia inalambrico, una tarjeta para PC de comunicacion inalambrica, un PDA, un modem externo o interno, un dispositivo que comunica a traves de un canal inalambrico o alambrico, etc. Un dispositivo puede tener diversos nombres, tal como terminal de acceso (AT), unidad de acceso, unidad de abonado, estacion movil, dispositivo movil, unidad movil, telefono movil, movil, estacion remota, terminal remoto, unidad remota, dispositivo de usuario, equipo de usuario, dispositivo de mano, estacion no movil, dispositivo no movil, punto terminal, etc. Cualquier dispositivo descrito en el presente documento puede tener una memoria para almacenar instrucciones y datos, asi como hardware, software, firmware, o combinaciones de los mismos.
Las tecnicas descritas en el presente documento pueden implementarse por diversos medios. Por ejemplo, estas tecnicas pueden implementarse en hardware, software o una combinacion de ambos. Los expertos en la tecnica apreciaran ademas que los diversos bloques logicos, modulos, circuitos y etapas de algoritmo ilustrativos descritos en relacion con la divulgacion del presente documento pueden implementarse como hardware electronico, software informatico o combinaciones de ambos. Para ilustrar claramente esta intercambiabilidad de hardware y software, anteriormente se han descrito diversos componentes, bloques, modulos, circuitos y etapas ilustrativos, generalmente, en lo que respecta a su funcionalidad. Si tal funcionalidad se implementa como hardware o software, dependera de la aplicacion particular y de las limitaciones de diseno impuestas sobre todo el sistema. Los expertos en la tecnica pueden implementar la funcionalidad descrita de diferentes maneras para cada aplicacion particular, pero no debe interpretarse que tales decisiones de implementacion suponen un apartamiento del alcance de la presente divulgacion.
Para una implementacion de hardware, las unidades de procesamiento usadas para realizar las tecnicas pueden implementarse en uno o mas ASIC, DSP, dispositivos de procesamiento digital de senales (DSPD), dispositivos logicos programables (PLD), FPGA, procesadores, controladores, microcontroladores, microprocesadores, dispositivos electronicos, otras unidades electronicas disenadas para realizar las funciones descritas en el presente documento, un ordenador, o una combinacion de los mismos.
Por lo tanto, los diversos bloques logicos, modulos y circuitos ilustrativos descritos en relacion con la divulgacion del presente documento pueden implementarse o realizarse con un procesador de proposito general, un DSP, un ASIC, una FPGA o con otro dispositivo de logica programable, logica de transistor o de puertas discretas, componentes de hardware discretos, o con cualquier combinacion de los mismos disenada para realizar las funciones descritas en el presente documento. Un procesador de proposito general puede ser un microprocesador pero, como alternativa, el procesador puede ser cualquier procesador, controlador, microcontrolador o maquina de estados convencional. Un procesador tambien puede implementarse como una combinacion de dispositivos informaticos, por ejemplo una combinacion de un DSP y un microprocesador, una pluralidad de microprocesadores, uno o mas microprocesadores junto con un nucleo de DSP o cualquier otra configuracion de este tipo.
Para una implementacion de firmware y/o software, las tecnicas pueden realizarse como instrucciones en un medio legible por ordenador, tal como RAM, ROM, RAM no volatil, ROM programable, EEPROM, memoria flash, disco compacto (CD), dispositivo de almacenamiento de datos magnetico u optico, o similares. Las instrucciones pueden ser ejecutables por uno o mas procesadores, y pueden hacer que el procesador o los procesadores realicen ciertos aspectos de la funcionalidad que se describe en el presente documento.
Si se implementan en software, las funciones pueden almacenarse en o transmitirse como una o mas instrucciones o codigo en un medio legible por ordenador. Los medios legibles por ordenador incluyen tanto medios de almacenamiento informaticos como medios de comunicacion, incluyendo cualquier medio que facilite la transferencia de un programa informatico de un lugar a otro. Los medios de almacenamiento pueden ser cualquier medio disponible al que pueda accederse mediante un ordenador de fin general o de fin especial. A modo de ejemplo, y no de manera limitativa, tales medios legibles por ordenador pueden comprender RAM, ROM, EEPROM, CD-ROM u otro almacenamiento de disco optico, almacenamiento de disco magnetico u otros dispositivos de almacenamiento magnetico, o cualquier otro medio que pueda usarse para transportar o almacenar medios de codigo de programa deseado en forma de instrucciones o estructuras de datos y al que pueda accederse mediante un ordenador de proposito general o de proposito especial, o mediante un procesador de proposito general o de proposito especial. Ademas, cualquier conexion puede denominarse de manera apropiada medio legible por ordenador. Por ejemplo, si
5
10
15
20
25
30
35
el software se transmite desde un sitio web, un servidor u otra fuente remota usando un cable coaxial, un cable de fibra optica, un par trenzado, una linea de abonado digital (DSL) o tecnologias inalambricas tales como infrarrojos, radio y microondas, entonces el cable coaxial, el cable de fibra optica, el par trenzado, la DSL o las tecnologias inalambricas tales como infrarrojos, radio y microondas se incluyen en la definicion de medio. Los discos, como se usan en el presente documento, incluyen CD, discos de laser, discos opticos, discos versatiles digitales (DVD), discos flexibles y discos blu-ray, donde los discos normalmente reproducen datos de manera magnetica asi como de manera optica con laser. Las combinaciones de lo anterior tambien deben incluirse dentro del alcance de los medios legibles por ordenador.
Un modulo de software puede residir en memoria RAM, memoria flash, memoria ROM, memoria EPROM, memoria EEPROM, registros, un disco duro, un disco extraible, un CD-ROM o en cualquier otra forma de medio de almacenamiento conocida en la tecnica. Un medio de almacenamiento a modo de ejemplo esta acoplado al procesador de manera que el procesador pueda leer informacion de, y escribir informacion en, el medio de almacenamiento. Como alternativa, el medio de almacenamiento puede ser una parte integrante del procesador. El procesador y el medio de almacenamiento pueden residir en un ASIC. El ASlC puede residir en un terminal de usuario. Como alternativa, el procesador y el medio de almacenamiento pueden residir como componentes discretos en un terminal de usuario.
La anterior descripcion de la divulgacion se proporciona para permitir que cualquier experto en la tecnica realice o use la divulgacion. Por tanto, la divulgacion no pretende limitarse a los ejemplos descritos en el presente documento, sino que se le concede el alcance mas amplio compatible con los principios y caracteristicas novedosas dados a conocer en el presente documento.
Aunque las implementaciones ejemplares pueden referirse a utilizar aspectos de la presente material objeto divulgada en el contexto de uno o mas sistemas informaticos autonomos, la materia objeto no esta limitada, sino que en su lugar puede implementarse en relacion con cualquier entorno informatico, tal como una red o un entorno informatico distribuido. Aun adicionalmente, pueden implementarse aspectos de la presente materia objeto divulgada en o a traves de una pluralidad de chips o dispositivos de procesamiento, y el almacenamiento puede realizarse de forma similar en una pluralidad de dispositivos. Dichos dispositivos pueden incluir PC, servidores de red y dispositivos de mano, por ejemplo.
Aunque la materia objeto se ha descrito en un lenguaje especifico con respecto a las caracteristicas estructurales y/o acciones metodologicas, se entendera que la materia objeto definida en las reivindicaciones adjuntas no se limita necesariamente a las caracteristicas especificas o acciones que se han descrito anteriormente. En su lugar, las caracteristicas y acciones especificas que se han descrito anteriormente se divulgan como formas ejemplares de implementar las reivindicaciones.

Claims (15)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    50
    55
    60
    65
    REIVINDICACIONES
    1. Un procedimiento, que comprende:
    recibir una porcion de una senal de audio en un primer clasificador;
    clasificar la porcion de la senal de audio en el primer clasificador como voz o como musica; y
    procesar la porcion de la senal de audio, en el que el procesamiento de la porcion de la senal de audio comprende:
    si la porcion se clasifica por el primer clasificador como voz, entonces codificar la voz usando un primer modo de codificacion; o
    si la porcion se clasifica por el primer clasificador como musica, entonces: proporcionar la porcion a un segundo clasificador;
    clasificar la porcion en el segundo clasificador como voz o como musica; y
    codificar la porcion de la senal de audio, en el que codificar la porcion de la senal de audio comprende:
    si la porcion se clasifica en el segundo clasificador como voz, entonces codificar la porcion usando un segundo modo de codificacion; o
    si la porcion se clasifica en el segundo clasificador como musica, entonces codificar la porcion usando un tercer modo de codificacion.
  2. 2. El procedimiento de la reivindicacion 1, en el que la porcion de la senal de audio es una trama.
  3. 3. El procedimiento de la reivindicacion 1, en el que el primer modo de codificacion comprende un primer codificador de voz, el segundo modo de codificacion comprende un segundo codificador de voz, y el tercer modo de codificacion comprende un codificador de musica.
  4. 4. El procedimiento de la reivindicacion 3, en el que el primer codificador de voz es un codificador de tipo predictivo lineal excitado por codigo (CELP), el segundo codificador de voz es un codificador hibrido CELP/transformada, y el codificador de musica es un codificador por transformada.
  5. 5. El procedimiento de la reivindicacion 1, que comprende adicionalmente determinar si el segundo clasificador esta habilitado antes de proporcionar la porcion al segundo clasificador, y si el segundo clasificador no esta habilitado, entonces codificar la porcion con el tercer modo de codificacion.
  6. 6. El procedimiento de la reivindicacion 1, en el que clasificar la porcion en el segundo clasificador como voz o como musica comprende comparar una pluralidad de caracteristicas de la porcion con uno o mas umbrales para clasificar si la porcion tiene caracteristicas de musica o caracteristicas de voz.
  7. 7. El procedimiento de la reivindicacion 6, en el que las caracteristicas de musica comprenden caracteristicas tipo ruido de banda ancha de musica, y las caracteristicas de voz comprenden al menos una de las caracteristicas tonales de voz o caracteristicas casi estacionarias de voz.
  8. 8. El procedimiento de la reivindicacion 1, en el que la clasificacion de la porcion en el segundo clasificador como voz o como musica comprende al menos uno de comparar la sonorizacion de la porcion con un primer umbral, comparar la correlacion modificada con un segundo umbral, o comparar la ganancia de paso a largo plazo con un tercer umbral.
  9. 9. El procedimiento de la reivindicacion 8, en el que la sonorizacion varia de 0, correspondiente a una correlacion nula con voz, a 1, correspondiente a una alta correlacion con voz; en el que la correlacion modificada varia de 0, correspondiente a un ruido aleatorio, a 1, correspondiente a un sonido altamente estructurado; en el que la ganancia de paso a largo plazo es la correlacion cruzada normalizada entre la excitacion pasada y el residuo de prediccion actual; y en el que la ganancia de paso a largo plazo varia de 0, que indica que el error en la porcion pasada no es adecuado en la representacion de la porcion actual, a 1, que indica que el uso del error residual en la porcion pasada puede representar completamente la porcion actual.
  10. 10. El procedimiento de la reivindicacion 1, en el que la clasificacion de la porcion en el segundo clasificador
    5
    10
    15
    20
    25
    30
    35
    40
    45
    como voz o como musica comprende determinar si hay alguna actividad de senal en la porcion, y si no hay ninguna actividad de senal, determinar entonces que no hay ninguna senal util que codificar, y codificar la porcion como voz.
  11. 11. Un aparato que comprende:
    medios para recibir una porcion de una senal de audio en un primer clasificador;
    medios para clasificar la porcion de la senal de audio en el primer clasificador como voz o como musica;
    medios para codificar la voz usando un primer modo de codificacion si la porcion se clasifica por el primer clasificador como voz, o clasificar la porcion en el segundo clasificador como voz o como musica cuando la porcion se clasifica por el primer clasificador como musica; y
    medios para codificar la porcion usando un segundo modo de codificacion cuando la porcion se clasifica en el segundo clasificador como voz, o codificar la porcion usando un tercer modo de codificacion cuando la porcion se clasifica en el segundo clasificador como musica.
  12. 12. El aparato de la reivindicacion 11, que comprende adicionalmente medios para determinar si el segundo clasificador esta habilitado antes de proporcionar la porcion al segundo clasificador, y si el segundo clasificador no esta habilitado, codificar entonces la porcion con el tercer modo de codificacion.
  13. 13. El aparato de la reivindicacion 11, en el que el medio para clasificar la porcion en el segundo clasificador como voz o como musica comprende medios para comparar una pluralidad de caracteristicas de la porcion con uno o mas umbrales para clasificar si la porcion tiene caracteristicas de musica o caracteristicas de voz.
  14. 14. Un medio legible por ordenador no transitorio que comprende instrucciones legibles por ordenador para hacer que un procesador realice el procedimiento de cualquiera de las reivindicaciones 1-10.
  15. 15. Un sistema que comprende:
    un primer clasificador que recibe una porcion de senal de audio, clasifica la porcion de la senal de audio como voz o como musica, y procesa la porcion de la senal de audio, en el que el procesamiento de la porcion de la senal de audio comprende:
    si la porcion se clasifica como voz, entonces codifica la voz usando un primer modo de codificacion, o
    si la porcion se clasifica como musica, entonces proporciona la porcion a un segundo clasificador; y
    el segundo clasificador, en el que si la porcion se clasifica por el primer clasificador como musica, clasifica la porcion como voz o como musica y codifica la porcion de la senal de audio, en el que la codificacion de la porcion de la senal de audio comprende:
    si la porcion se clasifica en el segundo clasificador como voz, codificar la porcion usando un segundo modo de codificacion; o
    si la porcion se clasifica en el segundo clasificador como musica, codificar la porcion usando un tercer modo de codificacion.
ES12810018.7T 2012-01-13 2012-12-21 Clasificación de señal de múltiples modos de codificación Active ES2576232T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261586374P 2012-01-13 2012-01-13
US201261586374P 2012-01-13
US201213722669 2012-12-20
US13/722,669 US9111531B2 (en) 2012-01-13 2012-12-20 Multiple coding mode signal classification
PCT/US2012/071217 WO2013106192A1 (en) 2012-01-13 2012-12-21 Multiple coding mode signal classification

Publications (1)

Publication Number Publication Date
ES2576232T3 true ES2576232T3 (es) 2016-07-06

Family

ID=48780608

Family Applications (1)

Application Number Title Priority Date Filing Date
ES12810018.7T Active ES2576232T3 (es) 2012-01-13 2012-12-21 Clasificación de señal de múltiples modos de codificación

Country Status (12)

Country Link
US (1) US9111531B2 (es)
EP (1) EP2803068B1 (es)
JP (1) JP5964455B2 (es)
KR (2) KR20140116487A (es)
CN (1) CN104040626B (es)
BR (1) BR112014017001B1 (es)
DK (1) DK2803068T3 (es)
ES (1) ES2576232T3 (es)
HU (1) HUE027037T2 (es)
IN (1) IN2014MN01588A (es)
SI (1) SI2803068T1 (es)
WO (1) WO2013106192A1 (es)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9589570B2 (en) * 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
KR102561265B1 (ko) * 2012-11-13 2023-07-28 삼성전자주식회사 부호화 모드 결정방법 및 장치, 오디오 부호화방법 및 장치와, 오디오 복호화방법 및 장치
CN106409310B (zh) 2013-08-06 2019-11-19 华为技术有限公司 一种音频信号分类方法和装置
CN104424956B9 (zh) 2013-08-30 2022-11-25 中兴通讯股份有限公司 激活音检测方法和装置
CN110992965B (zh) * 2014-02-24 2024-09-03 三星电子株式会社 信号分类方法和装置以及使用其的音频编码方法和装置
PL3594948T3 (pl) * 2014-05-08 2021-08-30 Telefonaktiebolaget Lm Ericsson (Publ) Klasyfikator sygnału audio
CN107424621B (zh) * 2014-06-24 2021-10-26 华为技术有限公司 音频编码方法和装置
CN104143335B (zh) 2014-07-28 2017-02-01 华为技术有限公司 音频编码方法及相关装置
US9886963B2 (en) * 2015-04-05 2018-02-06 Qualcomm Incorporated Encoder selection
CN104867492B (zh) * 2015-05-07 2019-09-03 科大讯飞股份有限公司 智能交互系统及方法
KR102398124B1 (ko) 2015-08-11 2022-05-17 삼성전자주식회사 음향 데이터의 적응적 처리
US10186276B2 (en) * 2015-09-25 2019-01-22 Qualcomm Incorporated Adaptive noise suppression for super wideband music
US10902043B2 (en) 2016-01-03 2021-01-26 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
WO2017117234A1 (en) * 2016-01-03 2017-07-06 Gracenote, Inc. Responding to remote media classification queries using classifier models and context parameters
JP6996185B2 (ja) * 2017-09-15 2022-01-17 富士通株式会社 発話区間検出装置、発話区間検出方法及び発話区間検出用コンピュータプログラム
CN116149499B (zh) * 2023-04-18 2023-08-11 深圳雷柏科技股份有限公司 用于鼠标的多模式切换控制电路及切换控制方法

Family Cites Families (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
BR9206143A (pt) * 1991-06-11 1995-01-03 Qualcomm Inc Processos de compressão de final vocal e para codificação de taxa variável de quadros de entrada, aparelho para comprimir im sinal acústico em dados de taxa variável, codificador de prognóstico exitado por córdigo de taxa variável (CELP) e descodificador para descodificar quadros codificados
US5778335A (en) 1996-02-26 1998-07-07 The Regents Of The University Of California Method and apparatus for efficient multiband celp wideband speech and music coding and decoding
US6493665B1 (en) * 1998-08-24 2002-12-10 Conexant Systems, Inc. Speech classification and parameter weighting used in codebook search
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US7272556B1 (en) * 1998-09-23 2007-09-18 Lucent Technologies Inc. Scalable and embedded codec for speech and audio signals
US6691084B2 (en) * 1998-12-21 2004-02-10 Qualcomm Incorporated Multiple mode variable rate speech coding
JP2000267699A (ja) * 1999-03-19 2000-09-29 Nippon Telegr & Teleph Corp <Ntt> 音響信号符号化方法および装置、そのプログラム記録媒体、および音響信号復号装置
EP1959434B1 (en) * 1999-08-23 2013-03-06 Panasonic Corporation Speech encoder
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6625226B1 (en) * 1999-12-03 2003-09-23 Allen Gersho Variable bit rate coder, and associated method, for a communication station operable in a communication system
US6697776B1 (en) * 2000-07-31 2004-02-24 Mindspeed Technologies, Inc. Dynamic signal detector system and method
US6694293B2 (en) 2001-02-13 2004-02-17 Mindspeed Technologies, Inc. Speech coding system with a music classifier
US6785645B2 (en) 2001-11-29 2004-08-31 Microsoft Corporation Real-time speech and music classifier
US6829579B2 (en) * 2002-01-08 2004-12-07 Dilithium Networks, Inc. Transcoding method and system between CELP-based speech codes
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7363218B2 (en) * 2002-10-25 2008-04-22 Dilithium Networks Pty. Ltd. Method and apparatus for fast CELP parameter mapping
FI118834B (fi) * 2004-02-23 2008-03-31 Nokia Corp Audiosignaalien luokittelu
AU2004319556A1 (en) * 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
US8010350B2 (en) 2006-08-03 2011-08-30 Broadcom Corporation Decimated bisectional pitch refinement
CN1920947B (zh) * 2006-09-15 2011-05-11 清华大学 用于低比特率音频编码的语音/音乐检测器
CN101197130B (zh) * 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
KR100964402B1 (ko) * 2006-12-14 2010-06-17 삼성전자주식회사 오디오 신호의 부호화 모드 결정 방법 및 장치와 이를 이용한 오디오 신호의 부호화/복호화 방법 및 장치
KR100883656B1 (ko) 2006-12-28 2009-02-18 삼성전자주식회사 오디오 신호의 분류 방법 및 장치와 이를 이용한 오디오신호의 부호화/복호화 방법 및 장치
CN101226744B (zh) * 2007-01-19 2011-04-13 华为技术有限公司 语音解码器中实现语音解码的方法及装置
KR100925256B1 (ko) * 2007-05-03 2009-11-05 인하대학교 산학협력단 음성 및 음악을 실시간으로 분류하는 방법
CN101393741A (zh) * 2007-09-19 2009-03-25 中兴通讯股份有限公司 一种宽带音频编解码器中的音频信号分类装置及分类方法
CN101399039B (zh) * 2007-09-30 2011-05-11 华为技术有限公司 一种确定非噪声音频信号类别的方法及装置
CN101221766B (zh) * 2008-01-23 2011-01-05 清华大学 音频编码器切换的方法
CA2716817C (en) 2008-03-03 2014-04-22 Lg Electronics Inc. Method and apparatus for processing audio signal
CN101236742B (zh) * 2008-03-03 2011-08-10 中兴通讯股份有限公司 音乐/非音乐的实时检测方法和装置
US8768690B2 (en) * 2008-06-20 2014-07-01 Qualcomm Incorporated Coding scheme selection for low-bit-rate applications
WO2010003521A1 (en) 2008-07-11 2010-01-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Method and discriminator for classifying different segments of a signal
EP2144230A1 (en) * 2008-07-11 2010-01-13 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Low bitrate audio encoding/decoding scheme having cascaded switches
KR101261677B1 (ko) * 2008-07-14 2013-05-06 광운대학교 산학협력단 음성/음악 통합 신호의 부호화/복호화 장치
CN101751920A (zh) * 2008-12-19 2010-06-23 数维科技(北京)有限公司 基于再次分类的音频分类装置及其实现方法
CN101814289A (zh) * 2009-02-23 2010-08-25 数维科技(北京)有限公司 低码率dra数字音频多声道编码方法及其系统
JP5519230B2 (ja) * 2009-09-30 2014-06-11 パナソニック株式会社 オーディオエンコーダ及び音信号処理システム
CN102237085B (zh) * 2010-04-26 2013-08-14 华为技术有限公司 音频信号的分类方法及装置
WO2012109734A1 (en) 2011-02-15 2012-08-23 Voiceage Corporation Device and method for quantizing the gains of the adaptive and fixed contributions of the excitation in a celp codec

Also Published As

Publication number Publication date
SI2803068T1 (sl) 2016-07-29
EP2803068B1 (en) 2016-04-13
BR112014017001A2 (pt) 2017-06-13
EP2803068A1 (en) 2014-11-19
JP2015507222A (ja) 2015-03-05
KR20170005514A (ko) 2017-01-13
IN2014MN01588A (es) 2015-05-08
KR20140116487A (ko) 2014-10-02
WO2013106192A1 (en) 2013-07-18
BR112014017001A8 (pt) 2017-07-04
HUE027037T2 (en) 2016-08-29
US20130185063A1 (en) 2013-07-18
JP5964455B2 (ja) 2016-08-03
CN104040626A (zh) 2014-09-10
US9111531B2 (en) 2015-08-18
BR112014017001B1 (pt) 2020-12-22
DK2803068T3 (en) 2016-05-23
CN104040626B (zh) 2017-08-11

Similar Documents

Publication Publication Date Title
ES2576232T3 (es) Clasificación de señal de múltiples modos de codificación
TWI474660B (zh) 用於編碼及偵測浮水印信號之裝置
ES2266281T3 (es) Metodo y sistema para ocultacion de error en tramas de voz en la decodificacion de voz.
TWI436349B (zh) 用於重建一被抹除語音訊框之系統與方法
ES2621417T3 (es) Sistema, procedimientos, aparato y medios legibles por ordenador para la asignación de bits para la transmisión redundante de datos de audio
KR101160218B1 (ko) 일련의 데이터 패킷들을 전송하기 위한 장치와 방법, 디코더, 및 일련의 데이터 패킷들을 디코딩하기 위한 장치
JP6058824B2 (ja) パーソナライズされた帯域幅拡張
ES2573113T3 (es) Dispositivos, procedimientos y producto de programa de ordenador para codificar y descodificar adaptativamente una señal con marcas de agua
ES2727748T3 (es) Dispositivo y método de codificación de audio
ES2544538T3 (es) Dispositivos, procedimientos, programa de ordenador para generar y decodificar una señal de audio con marca de agua
Gong et al. Pitch delay based adaptive steganography for amr speech stream
ES2702455T3 (es) Procedimiento y dispositivo de clasificación de señales, y procedimiento y dispositivo de codificación de audio que usan los mismos
KR101164834B1 (ko) 제 1 비트 레이트와 연관된 제 1 패킷을 제 2 비트 레이트와 연관된 제 2 패킷으로 디밍하는 시스템 및 방법