ES2702455T3

ES2702455T3 - Procedimiento y dispositivo de clasificación de señales, y procedimiento y dispositivo de codificación de audio que usan los mismos

Info

Publication number: ES2702455T3
Application number: ES15751981T
Authority: ES
Inventors: Ki-Hyun Choo; Anton Viktorovich Porov; Konstantin Sergeevich Osipov
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-02-24
Filing date: 2015-02-24
Publication date: 2019-03-01
Anticipated expiration: 2035-02-24
Also published as: CN106256001A; JP6599368B2; US10504540B2; CN110992965A; SG11201607971TA; CN106256001B; EP3109861A1; CN110992965B; EP3109861B1; KR102552293B1; KR102354331B1; JP2017511905A; KR20220013009A; US20190103129A1; KR20160125397A; EP3109861A4; US20170011754A1; US10090004B2; KR20220148302A; KR102457290B1

Abstract

Un procedimiento de clasificación de señales que comprende: clasificar una trama actual como una de entre una señal de voz y una señal de música (910); determinar si hay un error en un resultado de clasificación de la trama actual, basándose en los parámetros de función obtenidos a partir de una pluralidad de tramas (930); y corregir el resultado de clasificación de la trama actual en respuesta a un resultado de la determinación (950), basándose en una pluralidad de máquinas de estado independientes.

Description

DESCRIPCIÓN

Procedimiento y dispositivo de clasificación de señales, y procedimiento y dispositivo de codificación de audio que usan los mismos

Campo técnico

Una o más realizaciones a modo de ejemplo se refieren a la codificación de audio, y más en particular, a un procedimiento y aparato de clasificación de señales capaz de mejorar la calidad de un sonido restaurado y reducir un retardo debido a la conmutación de modo de codificación, y un procedimiento y aparato de codificación de audio que emplean los mismos.

Antecedentes de la técnica

Es bien sabido que una señal de música se codifica de manera eficaz en un dominio de frecuencia y una señal de voz se codifica de manera eficaz en un dominio de tiempo. Por lo tanto, se han propuesto diversas técnicas de clasificación de si una señal de audio en la que se mezclan una señal de música y una señal de voz corresponde a la señal de música o a la señal de voz, y de determinación de un modo de codificación en respuesta a un resultado de clasificación.

Sin embargo, el cambio frecuente de los modos de codificación induce la aparición de un retraso y deterioro de la calidad de un sonido restaurado, y una técnica de corrección de un resultado de clasificación inicial no se ha propuesto y, por lo tanto, cuando hay un error en una clasificación de señal inicial, se produce el deterioro de la calidad de sonido restaurado.

El documento WO 2014/010175 A1 desvela un dispositivo de codificación y un procedimiento de codificación capaz de mejorar la precisión para determinar si una señal BGM está en modo de señal de voz o en modo de señal de música.

Descripción detallada de la invención

Problema técnico

Una o más realizaciones a modo de ejemplo incluyen un procedimiento y un aparato de clasificación de señales capaces de mejorar la calidad de sonido restaurado determinando un modo de codificación con el fin de que sea adecuado para las características de una señal de audio y un procedimiento y un aparato de codificación de audio que emplean los mismos.

Una o más realizaciones a modo de ejemplo incluyen un procedimiento y un aparato de clasificación de señales capaces de reducir un retardo debido a la conmutación de modo de codificación mientras se determina un modo de codificación con el fin de que sea adecuado para las características de una señal de audio y un procedimiento y un aparato de codificación de audio que emplean los mismos.

De acuerdo con una o más realizaciones a modo de ejemplo, un procedimiento de clasificación de señales incluye: clasificar una trama actual como una de entre una señal de voz y una señal de música; determinar si hay un error en un resultado de clasificación de la trama actual, basándose en los parámetros de función obtenidos a partir de una pluralidad de tramas; y corregir el resultado de clasificación de la trama actual en respuesta a un resultado de la determinación, basándose en una pluralidad de máquinas de estado independientes.

De acuerdo con una o más realizaciones a modo de ejemplo, un aparato de clasificación de señales incluye al menos un procesador configurado para clasificar una trama actual como una de entre una señal de voz y una señal de música, determinar si hay un error en un resultado de clasificación de la trama actual, basándose en los parámetros de función obtenidos a partir de una pluralidad de tramas, y corregir el resultado de clasificación de la trama actual en respuesta a un resultado de la determinación, basándose en una pluralidad de máquinas de estado independientes.

De acuerdo con una o más realizaciones a modo de ejemplo, un procedimiento de codificación de audio incluye: clasificar una trama actual como una de entre una señal de voz y una señal de música; determinar si hay un error en un resultado de clasificación de la trama actual, basándose en los parámetros de función obtenidos a partir de una pluralidad de tramas; corregir el resultado de clasificación de la trama actual en respuesta a un resultado de la determinación, basándose en una pluralidad de máquinas de estado independientes; y codificar la trama actual basándose en el resultado de clasificación de la trama actual o en el resultado de clasificación corregido.

De acuerdo con una o más realizaciones a modo de ejemplo, un aparato de codificación de audio incluye al menos un procesador configurado para clasificar una trama actual como una de entre una señal de voz y una señal de música, determinar si hay un error en un resultado de clasificación de la trama actual, basándose en los parámetros de función obtenidos a partir de una pluralidad de tramas, corregir el resultado de clasificación de la trama actual en respuesta a un resultado de la determinación, basándose en una pluralidad de máquinas de estado independientes; y codificar la trama actual basándose en el resultado de clasificación de la trama actual o en el resultado de clasificación corregido.

Efectos ventajosos de la invención

Al corregir un resultado de clasificación inicial de una señal de audio basándose en un parámetro de corrección, puede evitarse la conmutación frecuente de los modos de codificación mientras se determina un modo de codificación optimizado para las características de señal de audio.

Descripción de los dibujos

La figura 1 es un diagrama de bloques de un aparato de clasificación de señales de audio de acuerdo con una realización a modo de ejemplo.

La figura 2 es un diagrama de bloques de un aparato de clasificación de señales de audio de acuerdo con otra realización a modo de ejemplo.

La figura 3 es un diagrama de bloques de un aparato de codificación de audio de acuerdo con una realización a modo de ejemplo.

La figura 4 es un diagrama de flujo para describir un procedimiento para corregir la clasificación de señales en un núcleo CELP, de acuerdo con una realización a modo de ejemplo.

La figura 5 es un diagrama de flujo para describir un procedimiento para corregir la clasificación de señales en un núcleo HQ, de acuerdo con una realización a modo de ejemplo.

La figura 6 ilustra una máquina de estado para la corrección de la clasificación de señales basada en contexto en el núcleo CELP, de acuerdo con una realización a modo de ejemplo.

La figura 7 ilustra una máquina de estado para la corrección de la clasificación de señales basada en contexto en el núcleo HQ, de acuerdo con una realización a modo de ejemplo.

La figura 8 es un diagrama de bloques de un aparato de determinación de modo de codificación de acuerdo con una realización a modo de ejemplo.

La figura 9 es un diagrama de flujo para describir un procedimiento de clasificación de señales de audio de acuerdo con una realización a modo de ejemplo.

La figura 10 es un diagrama de bloques de un dispositivo multimedia de acuerdo con una realización a modo de ejemplo.

La figura 11 es un diagrama de bloques de un dispositivo multimedia de acuerdo con otra realización a modo de ejemplo.

Modo de la invención

En lo sucesivo en el presente documento, se describe en detalle un aspecto de la presente invención con respecto a los dibujos. En la siguiente descripción, cuando se determina que una descripción detallada de las funciones o funciones relevantes bien conocidas puede ocultar los elementos esenciales, se omite la descripción detallada. Cuando se describe que un determinado elemento está 'conectado' o 'vinculado' a otro elemento, debería entenderse que el elemento determinado puede estar conectado o vinculado a otro elemento directamente o a través de otro elemento en el medio.

Aunque los términos, tales como 'primero' y 'segundo', pueden usarse para describir diversos elementos, los elementos no pueden estar limitados por los términos. Los términos pueden usarse para clasificar un determinado elemento a partir de otro elemento.

Los componentes que aparecen en las realizaciones se muestran independientemente para representar diferentes funciones caracterizadas, y no se indica que cada componente se forme en hardware separado o en una sola unidad de configuración de software. Los componentes se muestran como componentes individuales por conveniencia de la descripción, y un componente puede formarse combinando dos de los componentes, o un componente puede separarse en una pluralidad de componentes para realizar funciones.

La figura 1 es un diagrama de bloques que ilustra una configuración de un aparato de clasificación de señales de audio de acuerdo con una realización a modo de ejemplo.

Un aparato 100 de clasificación de señales de audio mostrado en la figura 1 puede incluir un clasificador 110 de señales y un corrector 130. En este caso, los componentes pueden integrarse en al menos un módulo e implementarse como al menos un procesador (no mostrado), excepto en el caso de que sea necesario implementarlo para separar piezas de hardware. Además, una señal de audio puede indicar una señal de música, una señal de voz o una señal mixta de música y voz.

Haciendo referencia a la figura 1, el clasificador 110 de señales puede clasificar si una señal de audio corresponde a una señal de música o a una señal de voz, basándose en diversos parámetros de clasificación iniciales. Un procedimiento de clasificación de señales de audio puede incluir al menos una operación. De acuerdo con una realización, la señal de audio puede clasificarse como una señal de música o una señal de voz basándose en las características de señal de una trama actual y de una pluralidad de tramas anteriores. Las características de señal pueden incluir al menos una de entre una característica a corto plazo y una característica a largo plazo. Además, las características de señal pueden incluir al menos una de entre una característica de dominio de tiempo y una característica de dominio de frecuencia. En este caso, si la señal de audio se clasifica como una señal de voz, la señal de audio puede codificarse usando un codificador de tipo predicción lineal excitada por código (CELP). Si la señal de audio se clasifica como una señal de música, la señal de audio puede codificarse usando un codificador de transformada. El codificador de transformada puede ser, por ejemplo, un codificador de transformada de coseno discreta modificada (MDCT), pero no está limitado al mismo.

De acuerdo con otra realización a modo de ejemplo, un procedimiento de clasificación de señales de audio puede incluir una primera operación de clasificación de una señal de audio como una señal de voz y una señal de audio genérica, es decir, una señal de música, de acuerdo con si la señal de audio tiene una característica de voz y una segunda operación para determinar si la señal de audio genérica es adecuada para un codificador de audio de señal genérico (GSC). Si la señal de audio puede clasificarse como una señal de voz o como una señal de música puede determinarse combinando un resultado de clasificación de la primera operación y un resultado de clasificación de la segunda operación. Cuando la señal de audio se clasifica como una señal de voz, la señal de audio puede codificarse por un codificador de tipo CELP. El codificador de tipo CELP puede incluir una pluralidad de modos entre un modo de codificación sin voz (UC), un modo de codificación con voz (VC), un modo de codificación transitoria (TC) y un modo de codificación genérica (GC) de acuerdo con una velocidad de bits o una característica de señal. Un modo de codificación de audio de señal genérica (GSC) puede implementarse mediante un codificador separado o incluido como un modo del codificador de tipo CELP. Cuando la señal de audio se clasifica como una señal de música, la señal de audio puede codificarse usando el codificador de transformada o un codificador híbrido CELP/transformada. En detalle, el codificador de transformada puede aplicarse a una señal de música, y el codificador híbrido CELP/transformada puede aplicarse a una señal no de música, que no es una señal de voz, o una señal en la que se mezclan música y voz. De acuerdo con una realización, de acuerdo con los anchos de banda, pueden usarse todos de entre el codificador de tipo CELP, el codificador híbrido CELP/transformada y el codificador de transformada, o puede usarse el codificador de tipo CELP y el codificador de transformada. Por ejemplo, el codificador de tipo CELP y el codificador de transformada pueden usarse para una banda estrecha (NB), y el codificador de tipo CELP, el codificador híbrido CELP/transformada, y el codificador de transformada pueden usarse para una banda ancha (WB), una banda superancha (SWB) y una banda completa (FB). El codificador híbrido CELP/transformada se obtiene combinando un codificador basándose en LP que opera en un dominio de tiempo y un codificador de dominio de transformada, y también puede denominarse como codificador de audio de señal genérico (GSC).

La clasificación de señales de la primera operación puede basarse en un modelo de mezcla gaussiana (GMM). Pueden usarse diversas características de señal para el GMM. Los ejemplos de las características de señal pueden incluir el tono de bucle abierto, la correlación normalizada, la envolvente espectral, la estabilidad tonal, la no estacionalidad de la señal, el error residual de LP, el valor de diferencia espectral y la estacionalidad espectral, pero no están limitados a las mismas. Los ejemplos de características de señal usados para la clasificación de señales de la segunda operación pueden incluir características de variación de energía espectral, características de inclinación de la energía residual de análisis de LP, características de pico espectral de banda alta, características de correlación, características de voz y características tonales, pero no están limitadas a las mismas. Las características usadas para la primera operación pueden usarse para determinar si la señal de audio tiene una característica de voz o una característica de no voz con el fin de determinar si el codificador de tipo CELP es adecuado para codificar, y las características usadas para la segunda operación pueden usarse para determinar si la señal de audio tiene una característica de música o una característica de no música con el fin de determinar si el GSC es adecuado para codificar. Por ejemplo, un conjunto de tramas clasificadas como una señal de música en la primera operación puede cambiarse a una señal de voz en la segunda operación y a continuación codificarse mediante uno de los modos CELP. Es decir, cuando la señal de audio es una señal de gran correlación o una señal de ataque mientras tiene un período de tono grande y una alta estabilidad, la señal de audio puede cambiarse desde una señal de música a una señal de voz en la segunda operación. Un modo de codificación puede cambiarse de acuerdo con el resultado de clasificación de señales descrito anteriormente.

El corrector 130 puede corregir o mantener el resultado de clasificación del clasificador 110 de señales basándose en al menos un parámetro de corrección. El corrector 130 puede corregir o mantener el resultado de clasificación del clasificador 110 de señales basándose en el contexto. Por ejemplo, cuando una trama actual se clasifica como una señal de voz, la trama actual puede corregirse a una señal de música o mantenerse como la señal de voz, y cuando la trama actual se clasifica como una señal de música, la trama actual puede corregirse a una señal de voz o mantenerse como una señal de música. Para determinar si hay un error en un resultado de clasificación de la trama actual, pueden usarse las características de una pluralidad de tramas, incluida la trama actual. Por ejemplo, pueden usarse ocho tramas, pero la realización no se limita a las mismas.

El parámetro de corrección puede incluir una combinación de al menos una de las características tales como tonalidad, error de predicción lineal, sonorización y correlación. En este caso, la tonalidad puede incluir la tonalidad ton2 de un intervalo de 1-2 KHz y la tonalidad ton3 de un intervalo de 2-4 KHz, que puede definirse mediante las ecuaciones 1 y 2, respectivamente.

Donde un superíndice [-j] indica una trama anterior. Por ejemplo, tonalidad2['1] indica la tonalidad de un intervalo de 1-2 KHz de una trama anterior de una trama.

La tonalidad tonLT a largo plazo de banda baja puede definirse como tonLT = 0,2 * {log-iü [lt_tonalidad]. En este caso, lt_tonalidad puede indicar la tonalidad a largo plazo de banda completa.

Una diferencia dft entre la tonalidad ton2 de un intervalo de 1-2 KHz y la tonalidad ton3 de un intervalo de 2-4 KHz en una trama n-ésima puede definirse como dft = 0,2 * (log-io (tonalidad2(n)) - log-io (tonalidad3(n))).

Donde FV^s(9) se define como FV^s(i) = sfaⁱFVⁱ+ sfbⁱ(i = 0,..., 11) y corresponde a un valor obtenido al escalar un parámetro de característica de relación energía-registro residual LP definido por la Ecuación 4 entre los parámetros de característica usados para el clasificador 110 o 210 de señales. Además, sfaⁱy sfbⁱpueden variar de acuerdo con los tipos de parámetros de característica y los anchos de banda y se usan para aproximar cada parámetro de característica a un intervalo de [0; 1]

Donde E (1) indica la energía de un primer coeficiente LP, y E (13) indica la energía de un 13° coeficiente LP.

A continuación, una diferencia d^vcorentre un valor FV^s(1) obtenido al escalar una función de correlación normalizada o función de voz FV¹, que se define por la Ecuación 5 entre los parámetros de función utilizados para el clasificador 110 o 210 de señales, basándose en FV^s(i) = sfaⁱFVⁱ+ sfbⁱ(i = 0,..., 11) y un valor FV^s(7) obtenido al escalar una función de mapa de correlación FV (7), que se define mediante la Ecuación 6, basándose en FV^s(i) = sfaⁱFVⁱ+ sfbⁱ(i = 0,..., 11) puede definirse como d^vcor= máx (FV^s(1) - FV^s(7), 0).

Donde

ndica una correlación normalizada en una primera o segunda mitad de trama.

Donde Mcor indica un mapa de correlación de una trama.

Un parámetro de corrección que incluye al menos una de las condiciones 1 a 4 puede generarse usando la pluralidad de parámetros de función, tomados solos o en combinación. En este caso, las condiciones 1 y 2 pueden indicar condiciones mediante las cuales puede cambiarse un estado de voz SPEECH_STATE, y las condiciones 3 y 4 pueden indicar condiciones mediante las cuales puede cambiarse un estado de música MUSIC_STATE. En detalle, la condición 1 permite que el estado de voz SPEECH_STATE se cambie de 0 a 1, y la condición 2 permite que el estado de voz SPEECH_STATE se cambie de 1 a 0. Además, la condición 3 permite que se cambie el estado de música MUSIC_STATE de 0 a 1, y la condición 4 permite que el estado de música MUSIC_STATE se cambie de 1 a 0. El estado de voz SPEECH_STATE de 1 puede indicar que la probabilidad de voz es alta, es decir, la codificación de tipo CELP es adecuada, y el estado de voz SPEECH_STATE de 0 puede indicar que la probabilidad de no voz es alta. El estado de música MUSIC_STATE de 1 puede indicar que la codificación de transformada es adecuada, y el estado de música MUSIC_STATE de 0 puede indicar que la codificación híbrida CELP/transformada, es decir, GSC, es adecuada. Como otro ejemplo, el estado de música MUSIC_STATE de 1 puede indicar que la codificación de transformada es adecuada, y el estado de música MUSIC_STATE de 0 puede indicar que la codificación de tipo CELP es adecuada.

La condición 1 (f^A) puede definirse, por ejemplo, de la siguiente manera. Es decir, cuando d^vcor> 0,4 Y d^ft< 0,1 Y FV^s(1) > (2 * FV^s(7) 0,12) Y ton²< d^vcorY ton^a< d^vcorY ton^LT< d^vcorY FV^s(7) < d^vcorY FV^s(1) > d^vcorY FV^s(1) > 0,76, f^Apuede configurarse en 1.

La condición 2 (f^B) puede definirse, por ejemplo, de la siguiente manera. Es decir, cuando d^vcor< 0,4, f^Bpuede establecerse en 1.

La condición 3 (f^c) puede definirse, por ejemplo, de la siguiente manera. Es decir, cuando 0,26 < ton²< 0,54 Y ton³> 0,22 Y 0,26 < ton^LT<0,54 Y LP^err> 0,5, f^cpuede configurarse en 1.

La condición 4 (f^D) puede definirse, por ejemplo, de la siguiente manera. Es decir, cuando ton²< 0,34 Y ton³<0,26 Y 0,26 < ton^LT<0,45, f^Dpuede configurarse en 1.

Una característica o un conjunto de características usadas para generar cada condición no es limitada a la misma. Además, cada valor constante es solo ilustrativo y puede establecerse en un valor óptimo de acuerdo con un procedimiento de implementación.

En detalle, el corrector 130 puede corregir errores en el resultado de clasificación inicial usando dos máquinas de estado independientes, por ejemplo, una máquina de estado de voz y una máquina de estado de música. Cada máquina de estado tiene dos estados, y puede usarse el arrastre en cada estado para evitar las transiciones frecuentes. El arrastre puede incluir, por ejemplo, seis tramas. Cuando una variable de arrastre en la máquina de estado de voz está indicada por hang^sp, y una variable de arrastre en la máquina de estado de música está indicada por hang^mus, si un resultado de clasificación cambia en un estado determinado, cada variable se inicializa a 6, y posteriormente, el arrastre disminuye en 1 para cada trama posterior. Un cambio de estado puede producirse solo cuando el arrastre disminuye a cero. En cada máquina de estado, puede usarse un parámetro de corrección generado al combinar al menos una función extraída de la señal de audio.

La figura 2 es un diagrama de bloques que ilustra una configuración de un aparato de clasificación de señales de audio de acuerdo con otra realización.

Un aparato 200 de clasificación de señales de audio mostrado en la figura 2 puede incluir un clasificador 210 de señal, un corrector 230 y un clasificador 250 fino. El aparato 200 de clasificación de señales de audio de la figura 2 difiere del aparato 100 de clasificación de señales de audio de la figura 1, en que se incluye además el clasificador 250 fino, y las funciones del clasificador 210 de señal y del corrector 230 son las mismas que las descritas haciendo referencia a la figura 1, y por lo tanto se omite una descripción detallada de los mismos.

Haciendo referencia a la figura 2, el clasificador 250 fino puede clasificar finamente el resultado de clasificación corregido o mantenido por el corrector 230, basándose en los parámetros de clasificación fina. De acuerdo con una realización, el clasificador 250 fino es para corregir la señal de audio clasificada como una señal de música determinando si es adecuado que la señal de audio esté codificada por el codificador híbrido CELP/transformada, es decir, un GSC. En este caso, como procedimiento de corrección, se cambia un parámetro específico o un indicador para no seleccionar el codificador de transformada. Cuando la salida de resultado de clasificación del corrector 230 indica una señal de música, el clasificador 250 fino puede realizar de nuevo una clasificación fina para clasificar si la señal de audio es una señal de música o una señal de voz. Cuando un resultado de clasificación del clasificador 250 fino indica una señal de música, el codificador de transformada puede usarse también para codificar la señal de audio en un segundo modo de codificación, y cuando el resultado de clasificación del clasificador 250 fino indica una señal de voz, la señal de audio puede codificarse usando el codificador híbrido CELP/transformada en un tercer modo de codificación. Cuando la salida del resultado de clasificación del corrector 230 indica una señal de voz, la señal de audio puede codificarse usando el codificador de tipo CELP en un primer modo de codificación. Los parámetros de clasificación fina pueden incluir, por ejemplo, funciones tales como tonalidad, sonorización, correlación, ganancia de tono y diferencia de tono, pero no están limitadas a las mismas.

La figura 3 es un diagrama de bloques que ilustra la configuración de un aparato de codificación de audio de acuerdo con una realización.

Un aparato 300 de codificación de audio mostrado en la figura 3 puede incluir un determinador 310 de modo de codificación y un módulo 330 de codificación. El determinador 310 de modo de codificación puede incluir los componentes del aparato 100 de clasificación de señales de audio de la figura 1 o del aparato 200 de clasificación de señales de audio de la figura 2. El módulo 330 de codificación puede incluir los codificadores 331, 333 y 335 primero al tercero. En este caso, el primer codificador 331 puede corresponder al codificador de tipo CELp , el segundo codificador 333 puede corresponder al codificador híbrido CELP/transformada, y el tercer codificador 335 puede corresponder al codificador de transformada. Cuando el GSC se implementa como un modo del codificador de tipo CELP, el módulo 330 de codificación puede incluir los codificadores 331 y 335 primero y tercero. El módulo 330 de codificación y el primer codificador 331 pueden tener diversas configuraciones de acuerdo con las velocidades de bits o los anchos de banda.

Haciendo referencia a la figura 3, el determinador 310 de modo de codificación puede clasificar si una señal de audio es una señal de música o una señal de voz, basándose en una característica de señal, y determinar un modo de codificación en respuesta a un resultado de clasificación. El modo de codificación puede realizarse en una unidad de supertrama, una unidad de trama o una unidad de banda. Como alternativa, el modo de codificación puede realizarse en una unidad de una pluralidad de grupos de supertrama, una pluralidad de grupos de trama, o una pluralidad de grupos de bandas. En este caso, los ejemplos del modo de codificación pueden incluir dos tipos de un modo de dominio de transformada y un modo de dominio de predicción lineal pero no están limitados a los mismos. El modo de dominio de predicción lineal puede incluir los modos UC, VC, TC y GC. El modo GSC puede clasificarse como un modo de codificación separado o incluirse en un submodo del modo de dominio de predicción lineal. Cuando se soporta el rendimiento, la velocidad de procesamiento y similares de un procesador, y se puede resolver un retraso debido a la conmutación de modo de codificación, el modo de codificación puede subdividirse aún más, y un esquema de codificación también puede subdividirse en respuesta al modo de codificación. En detalle, el determinador 310 de modo de codificación puede clasificar la señal de audio como una de entre una señal de música y una señal de voz basándose en los parámetros de clasificación iniciales. El determinador 310 de modo de codificación puede corregir un resultado de clasificación como una señal de música a una señal de voz o mantener la señal de música o corregir un resultado de clasificación como una señal de voz a una señal de música o mantener la señal de voz, basándose en el parámetro de corrección. El determinador 310 de modo de codificación puede clasificar el resultado de clasificación corregido o mantenido, por ejemplo, el resultado de clasificación como una señal de música, como una de entre una señal de música y una señal de voz basándose en los parámetros de clasificación fina. El determinador 310 de modo de codificación puede determinar un modo de codificación usando el resultado de clasificación final. De acuerdo con una realización, el determinador 310 de modo de codificación puede determinar el modo de codificación basándose en al menos una de entre la velocidad de bits y un ancho de banda. En el módulo 330 de codificación, el primer codificador 331 puede operar cuando el resultado de clasificación del corrector 130 o 230 corresponde a una señal de voz. El segundo codificador 333 puede funcionar cuando el resultado de clasificación del corrector 130 corresponde a una señal de música, o cuando el resultado de clasificación del clasificador 350 fino corresponde a una señal de voz. El tercer codificador 335 puede operar cuando el resultado de clasificación del corrector 130 corresponde a una señal de música, o cuando el resultado de clasificación del clasificador 350 fino corresponde a una señal de música.

La figura 4 es un diagrama de flujo para describir un procedimiento para corregir la clasificación de señal en un núcleo CELP, de acuerdo con una realización, y puede realizarse por el corrector 130 o 230 de la figura 1 o 2.

Haciendo referencia a la figura 4, en la operación 410, pueden recibirse los parámetros de corrección, por ejemplo, la condición 1 y la condición 2. Además, en la operación 410, puede recibirse la información del arrastre de la máquina de estado de voz. En la operación 410, también puede recibirse un resultado de clasificación inicial. El resultado de clasificación inicial puede proporcionarse a partir del clasificador 110 o 210 de señales de la figura 1 o 2.

En la operación 420, puede determinarse si el resultado de clasificación inicial, es decir, el estado de voz, es 0, la condición 1 (f^A) es 1, y el arrastre hang^spde la máquina de estado de voz es 0. Si en la operación 420 se determina que el resultado de clasificación inicial, es decir, el estado de voz, es 0, la condición 1 es 1 y el arrastre hang^spde la máquina de estado de voz es 0, en la operación 430, el estado de voz puede cambiarse a 1 y el arrastre puede inicializarse a 6. El valor de arrastre inicializado puede proporcionarse a la operación 460. De lo contrario, si el estado de voz no es 0, la condición 1 no es 1, o el arrastre hang^spde la máquina de estado de voz no es 0 en la operación 420, el procedimiento puede proceder a la operación 440.

En la operación 440, puede determinarse si el resultado de clasificación inicial, es decir, el estado de voz, es 1, la condición 2 (f^B) es 1, y el arrastre hang^spde la máquina de estado de voz es 0. Si se determina en la operación 440 que el estado de voz es 1, la condición 2 es 1, y el arrastre hang^spde la máquina de estado de voz es 0, en la operación 450, el estado de voz puede cambiarse a 0, y el arrastre^sppuede inicializarse a 6. El valor de arrastre inicializado puede proporcionarse a la operación 460. De lo contrario, si el estado de voz no es 1, la condición 2 no es 1, o el arrastre hang^spde la máquina de estado de voz no es 0 en la operación 440, el procedimiento puede proceder a la operación 460 para realizar una actualización de arrastre para disminuir el arrastre por 1.

La figura 5 es un diagrama de flujo para describir un procedimiento para corregir la clasificación de señales en un núcleo de alta calidad (HQ), de acuerdo con una realización, que puede realizarse por el corrector 130 o 230 de la figura 1 o 2.

Haciendo referencia a la figura 5, en la operación 510, pueden recibirse los parámetros de corrección, por ejemplo, la condición 3 y la condición 4. Además, en la operación 510, puede recibirse la información de arrastre de la máquina de estado de música. En la operación 510, también puede recibirse un resultado de clasificación inicial. El resultado de clasificación inicial puede proporcionarse a partir del clasificador 110 o 210 de señales de la figura 1 o 2.

En la operación 520, puede determinarse si el resultado de clasificación inicial, es decir, el estado de música, es 1, la condición 3 (f^c) es 1, y el arrastre hang^spde la máquina de estado de música es 0. Si en la operación 520 se determina que el resultado de clasificación inicial, es decir, el estado de música, es 1, la condición 3 es 1, y el arrastre hang^spde la máquina de estado de música es 0, en la operación 530, el estado de música puede cambiarse a 0, y el arrastre puede inicializarse a 6. El valor de arrastre inicializado puede proporcionarse a la operación 560. De lo contrario, si el estado de música no es 1, la condición 3 no es 1, o el arrastre hang^spde la máquina de estado de música no es 0 en la operación 520, el procedimiento puede proceder a la operación 540.

En la operación 540, puede determinarse si el resultado de clasificación inicial, es decir, el estado de música, es 0, la condición 4 (f^o) es 1, y el arrastre hang^spde la máquina de estado de música es 0. Si se determina en la operación 540 que el estado de música es 0, la condición 4 es 1, y el arrastre hang^spde la máquina de estado de música es 0, en la operación 550, el estado de música puede cambiarse a 1, y el arrastre hang^sppuede inicializarse a 6. El valor de arrastre inicializado puede proporcionarse a la operación 560. De lo contrario, si el estado de música no es 0, la condición 4 no es 1, o el arrastre hang^spde la máquina de estado de música no es 0 en la operación 540, el procedimiento puede proceder a la operación 560 para realizar una actualización de arrastre para reducir el arrastre por 1.

La figura 6 ilustra una máquina de estado para la corrección de la clasificación de señales basada en contexto en un estado adecuado para el núcleo CELP, es decir, en el estado de voz, de acuerdo con una realización, y puede corresponder a la figura 4.

Haciendo referencia a la figura 6, en el corrector (130 o 230 de la figura 1), puede aplicarse una corrección en un resultado de clasificación de acuerdo con un estado de música determinado por la máquina de estado de música y un estado de voz determinado por la máquina de estado de voz. Por ejemplo, cuando un resultado de clasificación inicial se establece en una señal de música, la señal de música puede cambiarse a una señal de voz basándose en los parámetros de corrección. En detalle, cuando un resultado de clasificación de una primera operación del resultado de clasificación inicial indica una señal de música y el estado de voz es 1, tanto el resultado de clasificación de la primera operación como el resultado de clasificación de una segunda operación pueden cambiarse a una señal de voz. En este caso, puede determinarse que hay un error en el resultado de clasificación inicial, corrigiendo de este modo el resultado de clasificación.

La figura 7 ilustra una máquina de estado para la corrección de la clasificación de señales basada en contexto en un estado para el núcleo de alta calidad (HQ), es decir, en el estado de música, de acuerdo con una realización, y puede corresponder a la figura 5.

Haciendo referencia a la figura 7, en el corrector (130 o 230 de la figura 1), puede aplicarse una corrección en un resultado de clasificación de acuerdo con un estado de música determinado por la máquina de estado de música y un estado de voz determinado por la máquina de estado de voz. Por ejemplo, cuando un resultado de clasificación inicial se establece en una señal de voz, la señal de voz puede cambiarse a una señal de música basándose en los parámetros de corrección. En detalle, cuando un resultado de clasificación de una primera operación del resultado de clasificación inicial indica una señal de voz y el estado de música es 1, tanto el resultado de clasificación de la primera operación como el resultado de clasificación de una segunda operación pueden cambiarse a una señal de música. Cuando el resultado de clasificación inicial se establece en una señal de música, la señal de música puede cambiarse a una señal de voz basándose en los parámetros de corrección. En este caso, puede determinarse que hay un error en el resultado de clasificación inicial, corrigiendo de este modo el resultado de clasificación.

La figura 8 es un diagrama de bloques que ilustra una configuración de un aparato de determinación de modo de codificación de acuerdo con una realización.

El aparato de determinación de modo de codificación mostrado en la figura 8 puede incluir un determinador 810 de modo de codificación inicial y un corrector 830.

Haciendo referencia a la figura 8, el determinador 810 de modo de codificación inicial puede determinar si una señal de audio tiene una característica de voz y puede determinar el primer modo de codificación como un modo de codificación inicial cuando la señal de audio tiene una característica de voz. En el primer modo de codificación, la señal de audio puede codificarse por el codificador de tipo CELP. El determinador 810 de modo de codificación inicial puede determinar el segundo modo de codificación como el modo de codificación inicial cuando la señal de audio tiene una característica de no voz En el segundo modo de codificación la señal de audio puede codificarse por el codificador de transformada. Como alternativa, cuando la señal de audio tiene una característica de no voz, el determinador 810 de modo de codificación inicial puede determinar uno de entre el segundo modo de codificación y el tercer modo de codificación como el modo de codificación inicial de acuerdo con una velocidad de bits. En el tercer modo de codificación, la señal de audio puede codificarse por el codificador híbrido CELP/transformada. De acuerdo con una realización, el determinador 810 de modo de codificación inicial puede usar un esquema de tres vías.

Cuando el modo de codificación inicial se determina como el primer modo de codificación, el corrector 830 puede corregir el modo de codificación inicial al segundo modo de codificación basándose en los parámetros de corrección. Por ejemplo, cuando un resultado de clasificación inicial indica una señal de voz pero tiene una característica de música, el resultado de clasificación inicial puede corregirse a una señal de música. Cuando el modo de codificación inicial se determina como el segundo modo de codificación, el corrector 830 puede corregir el modo de codificación inicial al primer modo de codificación o al tercer modo de codificación basándose en los parámetros de corrección. Por ejemplo, cuando un resultado de clasificación inicial indica una señal de música pero tiene una característica de voz, el resultado de clasificación inicial puede corregirse a una señal de voz.

La figura 9 es un diagrama de flujo para describir un procedimiento de clasificación de señales de audio de acuerdo con una realización.

Haciendo referencia a la figura 9, en la operación 910, una señal de audio puede clasificarse como una señal de música y una señal de voz. En detalle, en la operación 910, puede clasificarse, basándose en una característica de señal, si una trama actual corresponde a una señal de música o una señal de voz. La operación 910 puede realizarse por el clasificador 110 o 210 de señales de la figura 1 o 2.

En la operación 930, puede determinarse, basándose en los parámetros de corrección, si existe un error en el resultado de clasificación de la operación 910. Si se determina en la operación 930 que existe un error en el resultado de clasificación, el resultado de clasificación puede corregirse en la operación 950. Si se determina en la operación 930 que no existe un error en el resultado de clasificación, el resultado de clasificación puede mantenerse como está en la operación 970. Las operaciones 930 a 970 pueden realizarse por el corrector 130 o 230 de la figura 1 o 2.

La figura 10 es un diagrama de bloques que ilustra una configuración de un dispositivo multimedia de acuerdo con una realización.

Un dispositivo 1000 multimedia mostrado en la figura 10 puede incluir una unidad 1010 de comunicación y un módulo 1030 de codificación. Además, puede incluirse una unidad 1050 de almacenamiento para almacenar un flujo de bits de audio obtenido como un resultado de codificación de acuerdo con el uso del flujo de bits de audio. Además, el dispositivo 1000 multimedia puede incluir un micrófono 1070. Es decir, la unidad 1050 de almacenamiento y el micrófono 1070 pueden proporcionarse opcionalmente. El dispositivo 1000 multimedia mostrado en la figura 28 puede incluir además un módulo de decodificación arbitrario (no mostrado), por ejemplo, un módulo de decodificación para realizar una función de decodificación genérica o un módulo de decodificación de acuerdo con una realización a modo de ejemplo. En este caso, el módulo 1030 de codificación puede integrarse con otros componentes (no mostrados) proporcionados al dispositivo 1000 multimedia e implementarse como al menos un procesador (no mostrado).

Haciendo referencia a la figura 10, la unidad 1010 de comunicación puede recibir al menos uno de entre un audio y un flujo de bits codificado proporcionados desde el exterior o transmitir al menos uno de entre un audio reconstruido y un flujo de bits de audio obtenidos como un resultado de codificación del módulo 1030 de codificación.

La unidad 1010 de comunicación está configurada para permitir la transmisión y recepción de datos hacia y desde un dispositivo o servidor multimedia exterior a través de una red inalámbrica tal como una Internet inalámbrica, una intranet inalámbrica, una red de telefonía inalámbrica, una red de área local inalámbrica (LAN), una red Wi-Fi, una red Wi-Fi Directa (WFD), una red de tercera generación (3G), una red 4G, una red Bluetooth, una red de asociación de datos infrarrojos (IrDA), una red de identificación por radiofrecuencia (RFID), una red de banda ultra ancha (UWB), una red ZigBee y una red de comunicación de campo cercano (NFC) o una red cableada tal como una red telefónica o Internet cableada.

El módulo 1030 de codificación puede codificar una señal de audio del dominio de tiempo, que se proporciona a través de la unidad 1010 de comunicación o del micrófono 1070, de acuerdo con una realización. El procedimiento de codificación puede implementarse usando el aparato o el procedimiento mostrados en las figuras 1 a 9.

La unidad 1050 de almacenamiento puede almacenar diversos programas requeridos para operar el dispositivo 1000 multimedia.

El micrófono 1070 puede proporcionar una señal de audio de un usuario o del exterior al módulo 1030 de codificación.

La figura 11 es un diagrama de bloques que ilustra una configuración de un dispositivo multimedia de acuerdo con otra realización.

Un dispositivo 1100 multimedia mostrado en la figura 11 puede incluir una unidad 1110 de comunicación, un módulo 1120 de codificación, y un módulo 1130 de decodificación. Además, una unidad 1140 de almacenamiento para almacenar un flujo de bits de audio obtenido como un resultado de codificación o una señal de audio reconstruida obtenida como un resultado de descodificación puede incluirse adicionalmente de acuerdo con el uso del flujo de bits de audio o la señal de audio reconstruida. Además, el dispositivo 1100 multimedia puede incluir un micrófono 1150 o un altavoz 1160. En este caso, el módulo 1120 de codificación y el módulo 1130 de decodificación pueden integrarse con otros componentes (no mostrados) proporcionados al dispositivo 1100 multimedia e implementarse como al menos un procesador (no mostrado).

Se omite una descripción detallada de los mismos componentes que los del dispositivo 1000 multimedia mostrado en la figura 10 entre los componentes mostrados en la figura 11.

El módulo 1130 de decodificación puede recibir un flujo de bits proporcionado a través de la unidad 1110 de comunicación y decodificar un espectro de audio incluido en el flujo de bits. El módulo 1130 de decodificación puede implementarse en correspondencia con el módulo 330 de codificación de la figura 3

El altavoz 1170 puede emitir una señal de audio reconstruida generada por el módulo 1130 de decodificación al exterior.

Los dispositivos 1000 y 1100 multimedia mostrados en las figuras 10 y 11 pueden incluir un terminal exclusivo de comunicación de voz que incluye un teléfono o un teléfono móvil, un dispositivo exclusivo de difusión o música que incluye un televisor o un reproductor de MP3, o un dispositivo de terminal híbrido del terminal exclusivo de comunicación de voz y el dispositivo exclusivo de difusión o música, pero no se limita a los mismos. Además, el dispositivo 1000 o 1100 multimedia puede usarse como un transductor dispuesto en un cliente, en un servidor o entre el cliente y el servidor.

Cuando el dispositivo 1000 o 1100 multimedia es, por ejemplo, un teléfono móvil, aunque no se muestra, pueden incluirse además una unidad de entrada de usuario tal como un teclado, una unidad de visualización para visualizar una interfaz de usuario o la información procesada por el teléfono móvil, y un procesador para controlar una función general del teléfono móvil. Además, el teléfono móvil puede incluir una unidad de cámara que tiene una función de captura de imágenes y al menos un componente para realizar las funciones requeridas por el teléfono móvil.

Cuando el dispositivo 1000 o 1100 multimedia es, por ejemplo, un TV, aunque no se muestra, pueden incluirse además una unidad de entrada de usuario tal como un teclado, una unidad de visualización para visualizar la información de difusión recibida, y un procesador para controlar una función general del TV. Además, el TV puede incluir al menos un componente para realizar las funciones requeridas por el TV.

Los procedimientos de acuerdo con las realizaciones pueden editarse por programas ejecutables por ordenador e implementarse en un ordenador digital de uso general para ejecutar los programas usando un medio de grabación legible por ordenador. Además, las estructuras de datos, los comandos de programa o los archivos de datos utilizables en las realizaciones de la presente invención pueden grabarse en el medio de grabación legible por ordenador a través de diversos medios. El medio de grabación legible por ordenador puede incluir todos los tipos de dispositivos de almacenamiento para almacenar datos legibles por un sistema informático. Los ejemplos de un medio de grabación legible por ordenador incluyen medios magnéticos tales como discos duros, disquetes o cintas magnéticas, medios ópticos tales como memorias de solo lectura de discos compactos (CD-ROM) o discos versátiles digitales (DVD), medios magneto-ópticos tales como discos flópticos y dispositivos de hardware que están especialmente configurados para almacenar y realizar comandos de programas, tales como ROM, RAM o memorias flash. Además, el medio de grabación legible por ordenador puede ser un medio de transmisión para transmitir una señal para designar comandos de programa, estructuras de datos, o similares. Los ejemplos de los comandos de programa incluyen un código de lenguaje de alto nivel que puede ejecutarse por un ordenador usando un intérprete, así como un código de lenguaje máquina creado por un compilador.

Aunque las realizaciones de la presente invención se han descrito haciendo referencia a las realizaciones y dibujos limitados, las realizaciones de la presente invención no se limitan a las realizaciones descritas anteriormente, y sus actualizaciones y modificaciones podrían realizarse de diversas maneras por los expertos en la materia a partir de la divulgación. Por lo tanto, el ámbito de la presente invención se define no por la descripción anterior sino por las reivindicaciones.

Claims

REIVINDICACIONES

1. Un procedimiento de clasificación de señales que comprende:

clasificar una trama actual como una de entre una señal de voz y una señal de música (910);

determinar si hay un error en un resultado de clasificación de la trama actual, basándose en los parámetros de función obtenidos a partir de una pluralidad de tramas (930); y

corregir el resultado de clasificación de la trama actual en respuesta a un resultado de la determinación (950), basándose en una pluralidad de máquinas de estado independientes.

2. El procedimiento de clasificación de señales de la reivindicación 1, en el que la pluralidad de máquinas de estado independientes incluye una máquina de estado de música y una máquina de estado de voz.

3. El procedimiento de clasificación de señales de la reivindicación 1, en el que los parámetros de función se obtienen a partir de la trama actual y una pluralidad de tramas anteriores.

4. El procedimiento de clasificación de señales de la reivindicación 1, en el que la determinación comprende determinar que hay un error en el resultado de clasificación cuando se determina que el resultado de clasificación de la trama actual indica una señal de música y la trama actual tiene una característica de voz.

5 El procedimiento de clasificación de señales de la reivindicación 1, en el que la determinación comprende determinar que hay un error en el resultado de clasificación cuando se determina que el resultado de clasificación de la trama actual indica una señal de voz y que la trama actual tiene una característica de música.

6. El procedimiento de clasificación de señales de la reivindicación 1, en el que cada máquina de estado usa los arrastres correspondientes a la pluralidad de tramas para evitar transiciones de estado frecuentes.

7. El procedimiento de clasificación de señales de la reivindicación 1, en el que la corrección comprende corregir el resultado de clasificación para una señal de voz cuando se determina que el resultado de clasificación de la trama actual indica una señal de música y la trama actual tiene una característica de voz.

8. El procedimiento de clasificación de señales de la reivindicación 1, en el que la corrección comprende corregir el resultado de clasificación para una señal de música cuando se determina que el resultado de clasificación de la trama actual indica una señal de voz y la trama actual tiene una característica de música.

9. Un medio de grabación legible por ordenador que tiene grabado en el mismo un programa para ejecutar las siguientes etapas:

clasificar una trama actual como una de entre señal de voz y una señal de música;

determinar si hay un error en el resultado de clasificación de la trama actual, basándose en los parámetros de función obtenidos a partir de una pluralidad de tramas; y

corregir el resultado de clasificación de la trama actual en respuesta a un resultado de la determinación, basándose en una pluralidad de máquinas de estado independientes.

10. Un procedimiento de codificación de audio que comprende:

clasificar una trama actual como una de entre una señal de voz y una señal de música;

determinar si hay un error en un resultado de clasificación de la trama actual, basándose en los parámetros de función obtenidos a partir de una pluralidad de tramas;

corregir el resultado de clasificación de la trama actual en respuesta a un resultado de la determinación, basándose en una pluralidad de máquinas de estado independientes; y

codificar la trama actual basándose en el resultado de clasificación de la trama actual o en el resultado de clasificación corregido.

11. El procedimiento de clasificación de señales de la reivindicación 10, en el que la codificación se realiza usando uno de entre un codificador de tipo CELP y un codificador de transformada.

12. El procedimiento de clasificación de señales de la reivindicación 11, en el que la codificación se realiza usando uno de entre el codificador de tipo CELP, el codificador de transformada y un codificador híbrido CELP/transformada.

13. Un aparato (200) de clasificación de señales que comprende al menos un procesador configurado para clasificar una trama actual como una de entre una señal de voz y una señal de música, determinar si hay un error en un resultado de clasificación de la trama actual, basándose en los parámetros de función obtenidos a partir de una pluralidad de tramas y corregir el resultado de clasificación de la trama actual en respuesta a un resultado de la determinación, basándose en una pluralidad de máquinas de estado independientes.

14. Un aparato (300) de codificación de audio que comprende al menos un procesador configurado para clasificar una trama actual como una de entre una señal de voz y una señal de música, determinar si hay un error en un resultado de clasificación de la trama actual basándose en los parámetros de función obtenidos a partir de una pluralidad de tramas, corregir el resultado de clasificación de la trama actual en respuesta a un resultado de la determinación, basándose en una pluralidad de máquinas de estado independientes;

y codificar la trama actual basándose en el resultado de clasificación de la trama actual o en el resultado de clasificación corregido.