ES2757700T3 - Detección y codificación de altura tonal muy débil - Google Patents

Detección y codificación de altura tonal muy débil Download PDF

Info

Publication number
ES2757700T3
ES2757700T3 ES17193357T ES17193357T ES2757700T3 ES 2757700 T3 ES2757700 T3 ES 2757700T3 ES 17193357 T ES17193357 T ES 17193357T ES 17193357 T ES17193357 T ES 17193357T ES 2757700 T3 ES2757700 T3 ES 2757700T3
Authority
ES
Spain
Prior art keywords
pitch
correlation
weak
ratio
delay
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17193357T
Other languages
English (en)
Inventor
Yang Gao
Fengyan Qi
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2757700T3 publication Critical patent/ES2757700T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/09Long term prediction, i.e. removing periodical redundancies, e.g. by using adaptive codebook or pitch predictor

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

Un método para la detección y codificación de altura tonal muy débil implementado mediante un aparato para una codificación vocal o audio, comprendiendo dicho método: detectar en una señal vocal o de audio un retardo de altura tonal muy débil, que está en un margen desde una limitación de altura tonal muy débil mínima a una limitación de altura tonal mínima convencional PIT_MIN, que se define mediante un algoritmo predeterminado de Técnica de Predicción Lineal Excitada por Código (CELP), utilizando una combinación de técnicas de detección de altura tonal de dominio temporal y dominio frecuencial que incluyen el utilización de la correlación de altura tonal y la detección de una falta de energía de baja frecuencia, en donde, la limitación de altura tonal muy débil mínima es menor que la limitación de PIT_MIN; el método está caracterizado por cuanto que comprende, además: codificación del retardo de altura tonal muy débil; en donde la detección de una falta de energía de baja frecuencia comprende: calcular (907) una relación de energía como Ratio = Energy1 - Energy0, en donde Ratio es la relación de energía, Energy0 es la energía máxima en decibelios (dB) en una primera zona de frecuencia [0, FMIN] Hertz (Hz), Energy1 es la energía máxima en dB en una segunda zona de frecuencia [FMIN, 900] Hz, y FMIN es una frecuencia mínima predeterminada; ponderar (908) la relación de energía usando la correlación de altura tonal normalizada media como en donde Ratio, en el lado derecho de la ecuación, representa la relación de energía que ha de ajustarse; Ratio, en el lado izquierdo de la ecuación, representa la relación de energía ajustada; y Voicing representa la correlación de altura tonal normalizada media; calcular (909) una relación de energía de magnitud limitada utilizando la relación de energía como:**Fórmula** en donde LF_EnergyRatio_sm, en el lado izquierdo de la ecuación, representa la relación de energía de magnitud limitada y Ratio representa la relación de energía ajustada; determinar que se detecta la falta de energía de baja frecuencia si la relación de energía ajustada es mayor que un primer valor umbral predeterminado o si la relación de energía de magnitud limitada es mayor que un secundo valor umbral predeterminado.

Description

DESCRIPCIÓN
Detección y codificación de altura tonal muy débil
CAMPO TÉCNICO
La presente invención se refiere, en general, al campo de codificación de señales y, en formas de realización particulares, a un sistema y método para la detección y codificación de altura tonal muy débil.
ANTECEDENTES DE LA INVENCIÓN
Por lo general, los métodos paramétricos de codificación vocal hacen uso de la redundancia inherente en la señal vocal con el fin de reducir la cantidad de información que ha de enviarse, y estimar los parámetros de muestras vocales de una señal en intervalos cortos. Esta redundancia puede ser el resultado de la repetición de formas de onda vocales a una tasa casi periódica y la envolvente espectral, que cambia lentamente, de la señal vocal. La redundancia de las formas de onda vocales puede considerarse con respecto a tipos diferentes de señal vocal, tales como de voz y sin voz. Para la señal vocal con voz, dicha señal vocal es prácticamente periódica. Sin embargo, esta periodicidad puede variar a través de la duración de un segmento vocal, y la forma de la onda periódica puede cambiar, de forma gradual, de un segmento a otro. Una codificación vocal de baja tasa binaria podría beneficiarse, de forma sustancial, mediante la exploración de dicha periodicidad. El período vocal de voz se denomina también altura tonal, y la predicción de altura tonal se denomina, a menudo, Predicción a Largo Plazo (LTP). En cuanto a la señal vocal sin voz, la señal se asemeja más a un ruido aleatorio y tiene menor cantidad de predictibilidad.
La Solicitud de Patente de Estados Unidos 2010/070270A da a conocer un método para recibir una señal de audio decodificada que tiene un retardo de altura notal transmitido. El método incluye: la estimación de correlaciones de alturas tonales de posibles retardos de altura tonal débil que son inferiores a una limitación mínima de altura tonal, y tiene una relación aproximada múltiplo con el retardo de altura tonal transmitido, la comprobación de si una de las correlaciones de altura tonal de los posibles retardos de altura tonal débil, es lo suficientemente grande en comparación con una correlación de altura tonal estimada con el retardo de altura tonal transmitido, la selección de un retardo de altura tonal débil como un retardo de altura tonal correcto si una correlación de altura tonal correspondiente es suficientemente grande. El post-procesamiento se realiza utilizando el retardo de altura total corregido. En otra forma de realización, cuando se detecta la existencia de armónicos irregulares o retardo de altura tonal erróneo, un post-filtro de predicción lineal excitada por código (CELP) se hace más agresivo.
SUMARIO DE LA INVENCIÓN
De conformidad con una forma de realización, se divulga un método para la detección y codificación de altura tonal muy débil implementado mediante un aparato para la codificación vocal o audio según una cualquiera de las reivindicaciones 1-14.
De conformidad con otra forma de realización, se divulga un aparato que soporta la detección y codificación de altura tonal muy débil para la codificación de audio o vocal según la reivindicación 15.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
Para un entendimiento más completo de la presente invención, y de sus ventajas, se hace ahora referencia a las descripciones siguientes que se toman en conjunción con los dibujos adjuntos, en las que:
La Figura 1 es un diagrama de bloques de un codificador de la Técnica de Predicción Lineal Excitada por Código (CELP).
La Figura 2 es un diagrama de bloques de un decodificador que corresponde al codificador de CELP de la Figura 1. La Figura 3 es un diagrama de bloques de otro codificador de CELP con un componente adaptativo.
La Figura 4 es un diagrama de bloques de otro decodificador que corresponde al codificador de CELP de la Figura 3. La Figura 5 es un ejemplo de una señal vocal con voz, en donde un período de altura tonal es menor que un tamaño de sub-trama y un tamaño de mitad de trama.
La Figura 6 es un ejemplo de una señal vocal con voz, en donde un período de altura tonal es mayor que un tamaño de sub-trama y menor que un tamaño de mitad de trama.
La Figura 7 ilustra un ejemplo de un espectro de una señal vocal con voz.
La Figura 8 ilustra un ejemplo de un espectro de la misma señal ilustrada en la Figura 7 con codificación de retardo de altura tonal doble.
La Figura 9 ilustra una forma de realización de un método para la detección y codificación de un retardo de altura tonal muy débil para una señal vocal o de voz.
La Figura 10 es un diagrama de bloques de un sistema de procesamiento que puede utilizarse para poner en práctica varias formas de realización.
DESCRIPCIÓN DETALLADA DE FORMAS DE REALIZACIÓN ILUSTRATIVAS
Todos los sucesos siguientes del término "formas de realización", si se refieren a combinaciones de características diferentes de las definidas por las reivindicaciones independientes, se refieren a ejemplos que se presentaron originalmente pero que no representan formas de realización de la invención actualmente reivindicada; estos ejemplos todavía se muestran solamente con fines ilustrativos.
La creación y utilización de las formas de realización actualmente preferidas se describen, en detalle, a continuación. Debe entenderse que, sin embargo, la presente invención da a conocer numerosos conceptos inventivos aplicables que pueden realizarse en una amplia diversidad de contextos específicos. Las formas de realización específicas, aquí descritas, son simplemente ilustrativas de modos específicos de la realización y utilización de la invención, y no limitan el alcance de la idea inventiva.
Para un caso de señal vocal con voz o sin voz, se puede utilizar la codificación paramétrica con el fin de reducir la redundancia de los segmentos vocales mediante la separación de la componente de excitación de la señal vocal del componente de envolvente espectral. La envolvente espectral que cambia lentamente puede representarse por una Codificación de Predicción Lineal (LPC), también denominada Predicción a Corto Plazo (STP). Una codificación vocal de baja tasa binaria podría beneficiarse, también, de una exploración tal como la Predicción a Corto Plazo. La ventaja de la codificación es el resultado de la baja tasa a la que cambian los parámetros. Además, los parámetros de señal de voz pueden no ser muy diferentes de los valores mantenidos en el espacio de unos pocos milisegundos. En la tasa de muestreo de 8 kilohercios (kHz), 12.8 kHz o 16 kHz, el algoritmo de codificación vocal es tal que la duración de la trama nominal está en el margen de diez a treinta milisegundos. Una duración de trama de veinte milisegundos puede ser una elección común. En las normas bien conocidas más recientes, tales como G.723.1, G.729, G.718, EFR, SMV, AMR, VMR-WB o AMR-WB, se ha adoptado una Técnica de Predicción Lineal Excitada por Código (CELP). CELP es una combinación técnica de Predicción a Largo Plazo y Predicción a Corto Plazo de Excitación por Código. La codificación vocal de CELP es un principio algorítmico muy popular en el área de compresión vocal, aunque los detalles de la técnica CELP para diferentes códecs podría ser bastante distinta.
La Figura 1 ilustra un ejemplo de un codificador de CELP 100, en donde puede minimizarse un error ponderado 109 entre una señal vocal sintetizada 102 y una señal vocal original 101 mediante la utilización de un método de análisis por síntesis. El codificador de CLP 100 realiza diferentes operaciones o funciones. La función W(z) correspondiente se consigue por un filtro de ponderación de error 110. La función 1/B(z) se consigue mediante un filtro de predicción lineal a largo plazo 105. La función 1/A(z) se consigue mediante un filtro de predicción lineal a corto plazo 103. Una excitación codificada 107, a partir de un bloque de excitación codificada 108, que se denomina también excitación de libro de código fijo, se pone a escala mediante una ganancia Gc 106 antes de pasar a través de los filtros posteriores. Un filtro de predicción lineal a corto plazo 103 se pone en práctica mediante el análisis de la señal original 101 y se representa por un conjunto de coeficientes:
Figure imgf000003_0001
El filtro de ponderación de error 110 está relacionado con la función de filtro de predicción lineal a corto plazo anterior. Una forma típica de la función de filtro de ponderación podría ser
Figure imgf000003_0002
en donde @<a, 0<fi<1 y 0 <a < 1. El filtro de predicción lineal a largo plazo 105 depende de la altura tonal de la señal y de su ganancia. Una altura tonal puede estimarse a partir de la señal original, la señal residual o la señal original ponderada. La función de filtro de predicción lineal a largo plazo puede expresarse como
Figure imgf000003_0003
La excitación codificada 107, a partir del bloque de excitación codificada 108, puede estar constituida por señales similares a pulsos o señales similares a ruido, que se construyen matemáticamente o se memorizan en un libro de códigos. Un índice de excitación codificada, un índice de ganancia cuantificada, un índice de parámetro de predicción a largo plazo cuantificado y un índice de parámetro de predicción a corto plazo cuantificado, pueden transmitirse desde el codificador 100 a un decodificador.
La Figura 2 ilustra un ejemplo de un decodificador 200, que puede recibir señales procedentes del codificador 100. El decodificador 200 incluye un bloque de post-procesamiento 207 que proporciona, a la salida, una señal vocal sintetizada 206. El decodificador 200 comprende una combinación de múltiples bloques, que incluyen un bloque de excitación codificada 201, un filtro de predicción lineal a largo plazo 203, un filtro de predicción lineal a corto plazo 205 y un bloque de post-procesamiento 207. Los bloques del decodificador 200 están configurados de forma similar a los bloques correspondientes del codificador 100. El bloque de post-procesamiento 207 puede incluir funciones de post-procesamiento a corto plazo y post-procesamiento a largo plazo.
La Figura 3 ilustra otro codificador de CELP 300 que pone en práctica la predicción lineal a largo plazo utilizando un bloque de libro de códigos adaptativo 307. El bloque de libro de códigos adaptativo 307 utiliza una excitación sintetizada anterior 304, o repite un ciclo de altura tonal de excitación anterior en un período de altura tonal. Los bloques restantes y los componentes del codificador 300 son similares a los bloques y componentes descritos con anterioridad. El codificador 300 puede codificar un retardo de altura tonal en un valor entero cuando el retardo de altura tonal es relativamente grande o largo. El retardo de altura tonal puede codificarse en un valor fraccional más preciso cuando la altura tonal es relativamente pequeña o corta. La información periódica de la altura tonal se utiliza con el fin de generar el componente adaptativo de la excitación (en el bloque de libro de códigos adaptativo 307). Este componente de excitación se pone luego a escala mediante una ganancia Gp 305 (también denominada ganancia de altura tonal). Los dos componentes de excitación puestos a escala, a partir del bloque de libro de códigos adaptativo 307, y del bloque de excitación codificada 308, se añaden juntos antes de pasar a través de un filtro de predicción lineal a corto plazo 303. Las dos ganancias (Gp y Gc) son objeto de cuantización y a continuación, se envían a un decodificador.
La Figura 4 ilustra un decodificador 400, que puede recibir señales a partir del codificador 300. El decodificador 400 incluye un bloque de post-procesamiento 408 que proporciona, a la salida, una señal vocal sintetizada 407. El decodificador 400 es similar al decodificador 200 y los componentes del decodificador 400 pueden ser similares a los correspondientes componentes del decodificador 200. Sin embargo, el decodificador 400 incluye un bloque de libro de códigos adaptativo 307, además de una combinación de otros bloques, que incluyen un bloque de excitación codificada 402, un libro de códigos adaptativo 401, un filtro de predicción lineal a corto plazo 406 y un bloque de post-procesamiento 408. El bloque de post-procesamiento 408 puede incluir funciones de post-procesamiento a corto plazo y post-procesamiento a largo plazo. Otros bloques son similares a los componentes correspondientes en el decodificador 200.
La predicción a largo plazo puede ser utilizada, de forma eficaz, en una codificación vocal de voz, debido a la naturaleza de periodicidad relativamente fuerte de la señal vocal con voz. Los ciclos de altura tonal adyacentes de la señal vocal con voz pueden ser similares entre sí, lo que significa, matemáticamente, que la ganancia de altura tonal Gp en la expresión de excitación siguiente es relativamente alta o próxima a 1,
Figure imgf000004_0001
en donde ep(n) es una sub-trama de series de muestras indexadas por n, y se envía desde el bloque de libro de códigos adaptativo 307 o 401, que utiliza la excitación sintetizada anterior 304 o 403. El parámetro ep(n) puede ser filtrado de modo adaptativo de paso bajo desde la zona de baja frecuencia que puede ser más periódica o más armónica que la zona de alta frecuencia. El parámetro ec(n) se envía desde el libro de códigos de excitación codificada 308 o 402 (también denominado libro de códigos fijo), que es una contribución de excitación actual. El parámetro ec(n) puede mejorarse, además, a modo de ejemplo, utilizando un filtrado de paso alto mejorado, una mejora de altura tonal, mejora de dispersión, mejora de los formantes, etc. Para la señal vocal con voz, la contribución del parámetro ep(n) procedente del bloque de libro de códigos adaptativo 307 o 401 puede ser dominante y la ganancia de altura tonal Gp 305 o 404 es aproximadamente un valor de 1. La excitación puede actualizarse para cada sub-trama. A modo de ejemplo, un tamaño de trama típico es de aproximadamente 20 milisegundos y un tamaño de sub-trama típico es de aproximadamente 5 milisegundos.
Para señales vocales con voz típicas, una trama puede incluir más de 2 ciclos de altura tonal. La Figura 5 ilustra un ejemplo de una señal vocal con voz 500, en donde un período de altura tonal 503 es menor que un tamaño de sub­ trama 502 y un tamaño de mitad de trama 501. La Figura 6 ilustra otro ejemplo de una señal vocal con voz 600, en donde un período de altura tonal 603 es mayor que un tamaño de sub-trama 602 y menor que un tamaño de mitad de trama 601.
La técnica CELP se utiliza para codificar la señal vocal beneficiándose de las características de la voz humana o del modelo de generación de señal vocal humana. El algoritmo de CELP ha sido utilizado en varias normas como ITU-T, MPEG, 3GPP y 3GPP2. Para una codificación más eficiente de señales vocales, dichas señales vocales se pueden clasificar en diferentes clases, en donde cada clase se codifica de un modo distinto. A modo de ejemplo, en algunas normas tales como G.718, VMR-WB o AMR-WB, las señales vocales se clasifican en clases de señal vocal de UNVOICED, TRANSITION, GENERIC, VOICED y NOISE. Para cada clase, se utiliza un filtro LPC o STP para representar una envolvente espectral, pero la excitación para el filtro LPC puede ser diferente. Las clases UNVOICED y NOISE pueden codificarse con una excitación por ruido y alguna excitación mejorada. La clase de TRANSITION puede codificarse con una excitación por pulsos y alguna excitación mejorada sin utilizar un libro de códigos adaptativo o LTP. La clase GENERIC puede codificarse con una técnica CELP tradicional, tal como una técnica CELP algebraica utilizada en las normas G.729 o AMR-WB, en la que una trama de 20 milisegundos (ms) contiene cuatro sub-tramas de 5 ms. El componente de excitación de libro de códigos adaptativo y el componente de excitación de libro de códigos fijo se generan, ambos, con alguna mejora de excitación para cada sub-trama. Retardos de altura tonal para el libro de códigos adaptativo en la primera y tercera sub-tramas se codifican en un margen completo a partir de un límite de altura tonal mínimo PIT_MINa un límite de altura tonal máximo PIT_MAX, y retardos de altura tonal para el libro de códigos adaptativo, en la segunda y cuarta sub-tramas se codifican, de forma distinta del anterior retardo de altura tonal codificado. La clase VOICED se puede codificar, de una forma ligeramente distinta, de la clase GENERIC, en la que el retardo de altura tonal en la primera sub-trama se codifica en un margen completo a partir de un límite de altura tonal mínimo PIT_MIN a un límite de altura tonal máximo PIT_MAX, y retardos de altura tonal en las otras sub-tramas se codifican, de forma distinta del anterior retardo de altura tonal codificado. A modo de ejemplo, si se supone una tasa de muestreo de excitación de 12.8 kHz, el valor de PIT_MIN puede ser 34 y el valor de PITMAX puede ser 231.
Los códecs de CELP (codificadores/decodificadores) funcionan, de forma eficiente, para señales vocales normales, pero códecs CELP de baja tasa binaria pueden fallar para señales musicales y señales vocales de canto. Para señales vocales de voz estable, el método de codificación de altura tonal de la clase VOICED puede proporcionar un mejor rendimiento que el método de codificación de altura tonal de la clase GENERIC mediante la reducción de la tasa binaria para codificar retardos de altura tonal con codificación de altura tonal más diferencial. Sin embargo, el método de codificación de altura tonal de la clase VOICED o de la clase GENERIC pueden tener, todavía, un problema de que se degrada el rendimiento o no es suficientemente bueno cuando la altura tonal real es prácticamente o relativamente, muy débil, a modo de ejemplo, cuando el retardo de altura tonal real es menor que PIT_MIN. Un margen de altura tonal desde PIT_MIN= 34 a PIT_MAX =231 para frecuencias de muestreo Fs = 12.8 kHz, se puede adaptar para diversas voces humanas. Sin embargo, el retardo de altura tonal real de señales típicas de música o señales vocales de canto, puede ser sustancialmente más corto que la limitación mínima PIT_MIN = 34 definida en el algoritmo de CELP. Cuando el retardo de altura tonal real es P, la frecuencia armónica fundamental correspondiente es F0=Fs/P, en donde Fs es la frecuencia de muestreo y F0 es la localización del primer pico armónico en el espectro. De este modo, la limitación mínima de altura tonal PIT_MIN puede definir, realmente, la limitación de frecuencia armónica fundamental máxima Fmin = Fs/PIT_MIN para el algoritmo de CELP.
La Figura 7 ilustra un ejemplo de un espectro 700 de una señal vocal con voz que comprende picos armónicos 701 y una envolvente espectral 702. La frecuencia armónica fundamental real (la localización del primer pico armónico) supera ya la limitación máxima de frecuencia armónica fundamental Fmin de modo que el retardo de altura tonal transmitido para el algoritmo de CELP es igual a un doble o un múltiplo del retardo de altura tonal real. El retardo de altura tonal incorrecto que se transmite como un múltiplo del retardo de altura tonal real puede hacer que se degrade la calidad. Dicho de otro modo, cuando el retardo de altura tonal real para una señal armónica de música o una señal vocal de canto es menor que la limitación de retardo mínima PIT_MIN que se define en el algoritmo de CELP, el retardo transmitido puede ser el doble, el triple o un múltiplo del retardo de altura tonal real. La Figura 8 ilustra un ejemplo de un espectro 800 de la misma señal de codificación de retardo de altura tonal doble (el retardo de altura tonal transmitido y codificado es el doble del retardo de altura tonal real). El espectro 800 incluye picos armónicos 801, una envolvente espectral 802 y picos pequeños no deseados entre los picos armónicos reales. Los pequeños picos del espectro, en la Figura 8, pueden causar una distorsión perceptual no deseada.
Las formas de realización del sistema y método se dan a conocer en este documento con el fin de evitar el problema potencial anterior de la codificación de altura tonal para la clase VOICED o la clase GENERIC. Las formas de realización del sistema y método están configuradas para codificar un retardo de altura tonal en un margen que comienza desde un valor prácticamente corto PIT_MIN0 (PIT_MIN0 < PIT_MIN), que puede estar definido con anterioridad. El sistema y método incluye la detección de si existe, o no, una altura tonal muy débil en una señal vocal o de audio (p.ej., de 4 sub-tramas) con la utilización de una combinación de procedimientos del dominio temporal y del dominio frecuencial, p.ej., utilizando una función de correlación de altura tonal y un análisis del espectro de energía. A la detección de que existe una altura tonal muy débil, se puede determinar, entonces, un valor de altura tonal muy débil en el margen desde PIT_MIN0 a PIT_MIN.
En condiciones normales, las señales armónicas musicales o las señales vocales de canto son más estacionarias que las señales vocales normal. El retardo de altura tonal (o frecuencia fundamental) de una señal vocal normal puede seguir cambiando en el transcurso del tiempo. Sin embargo, el retardo de altura tonal (o frecuencia fundamental) de las señales musicales o señales vocales de canto, pueden cambiar relativamente despacio a través de una duración temporal considerablemente larga. Para un retardo de altura tonal sustancialmente corto, es deseable tener un retardo de altura tonal preciso para la finalidad de una codificación eficiente. El retardo de altura tonal relativamente corto puede cambiar muy lentamente desde una sub-trama a una sub-trama siguiente. Lo que antecede significa que no se necesita un margen dinámico relativamente largo de codificación de altura tonal cuando el retardo de altura tonal real es sustancialmente corto. En consecuencia, un modo de codificación de altura tonal puede estar configurado para definir alta precisión con un margen dinámico relativamente menor. Este modo de codificación de altura tonal se utiliza para codificar señales de altura tonal, sustancial o relativamente cortas o señales de altura tonal prácticamente estables que tienen una diferencia de altura tonal relativamente pequeña entre una sub-trama anterior y una sub-trama actual.
El margen de altura tonal sustancialmente corto se define a partir de PIT_MIN0 a PIT_MIN. A modo de ejemplo, en la frecuencia de muestreo Fs = 12.8 kHz, la definición del margen de altura tonal sustancialmente corto puede ser PIT_MIN0 = 17 y PIT_MIN = 34. Cuando la altura tonal candidato es sustancialmente corta, puede no ser fiable la detección de altura tonal utilizando solamente un método de dominio temporal o de dominio frecuencial. Con el fin de detectar, de forma fiable, un valor de altura tonal débil, puede ser necesaria la comprobación de tres condiciones: (1) en el dominio frecuencial, la energía desde 0 Hz a Fmin = Fs/PIT_MIN Hz es relativamente baja; (2) en el dominio temporal, la correlación de altura tonal máxima en el margen de PIT_MIN0 a PIT_MIN es, relativamente, lo suficientemente alta en comparación con la correlación de altura tonal máxima en el margen de PIT_MIN a PIT_MAX; y (3) en el dominio temporal, la correlación de altura tonal normalizada máxima en el margen de PIT_MIN0 a PIT_MIN es lo suficientemente alta con referencia en sentido hacia 1. Estas tres condiciones son más importantes que otras condiciones que pueden también añadirse, tales como Detección de Actividad de Voz y Clasificación por Voz.
Para una altura tonal candidato P, la correlación de altura tonal normalizada se puede definir en forma matemática como,
Figure imgf000006_0001
En la ecuación (5), sw(n) es una señal vocal ponderada, el numerador es la correlación, y el denominador es un factor de normalización de la energía. Suponiendo que Voicing sea el valor de correlación de altura tonal normalizada media de las cuatro sub-tramas, en la trama actual:
Voicing = [R¡{P¡) R:(P<) + R-(P-¡ + RjfPj ] / 4 (6)
en donde R1(P1), R2(P2), R3 (P3) y R4 (P4), son las cuatro correlaciones de altura tonal normalizadas que se calculan para cada sub-trama y siendo P1, P2, P3 y P4, para cada sub-trama, las mejores candidatas de altura tonal encontradas en el margen de altura tonal desde P = PIT_MIN a P = PIT_MAX. La correlación de altura tonal de magnitud limitada desde la trama anterior a la trama actual puede ser
Voicing_sm £= (3 ■Voicing_sm + Voicing}!4. (7)
Utilizando un sistema de detección de altura tonal de bucle abierto, la altura tonal candidato puede ser una altura tonal múltiple. Si la altura tonal de bucle abierto es la correcta, existe un pico de espectro alrededor de la frecuencia de altura tonal correspondiente (la frecuencia fundamental o la primera frecuencia armónica) y la energía del espectro relacionada es relativamente grande. Además, la energía media entorno a la frecuencia de altura tonal correspondiente es relativamente grande. De no ser así, es posible que exista una altura tonal sustancialmente corta. Esta etapa puede combinarse con un sistema de detección de falta de energía de baja frecuencia, que se describe a continuación con el fin de detectar la posible altura tonal sustancialmente corta.
En el sistema para detectar la falta de energía de baja frecuencia, la energía máxima en la zona de frecuencia [0, Fmin] (Hz) se define como Energy0 (dB), la energía máxima en la zona de frecuencia [Fmin, 900] (Hz) se define como Energy1 (dB), y la relación de energía relativa entre Energy0 y Energy1 se define como
Roño = Energy i - Energy 0. (8)
Esta relación de energía puede ser ponderada multiplicando un valor de correlación de altura tonal normalizada media Voicing:
Ratio <= Ratio- Voicing. (9)
El motivo para realizar la ponderación en la ecuación (9) utilizando el factor Voicing es que la detección de altura tonal débil es significativa para la señal vocal de voz o la música armónica, pero puede no ser significativa para la señal vocal sin voz o la música no armónica. Antes de utilizar el parámetro Ratio para detectar la falta de energía de baja frecuencia, resulta ventajoso limitar la magnitud del parámetro Ratio con el fin de reducir la incertidumbre: LF_Energ}’Rati>_sm (\5-LF _Energ]>Ralo_sm Ratio) l\6 . ( 10 )
Suponiendo que LF_lack_flag=1 designa que se detecta la falta de energía de baja frecuencia (de no ser así LF_lack_flag=0), el valor LF_lack_flag puede determinarse mediante el siguiente procedimiento A:
Si (LF_EnergyRatio_sm>35 o Ratio>50) {
LF_lack_flag=1;
}
Si (LF_EnergyRatio_sm<16) {
LF_lack_flag=0;
}
Si las condiciones anteriores no se satisfacen, LF_lack_flag se mantiene invariable.
Se puede encontrar una altura tonal débil candidato inicial Pitch_Tp maximizando la ecuación (5) y buscando desde P=PIT_MIN0 a PIT_MIN,
RfPitchTp) = MAXf R(P), P=PIT MINO, ..... PITJfíN}. (II)
Si Voicing0 representa la correlación de altura tonal débil actual,
VoicingO = R(Pitch_Tp), (12)
entonces, la correlación de altura tonal débil, de magnitud limitada, desde la trama anterior a la trama actual puede ser
Voicing) _sm <= (2-Voicin$_sm Voicing))! 4 ( 13 )
Utilizando los parámetros disponibles con anterioridad, se puede decidir el retardo de altura tonal final sustancialmente corto con el procedimiento B siguiente:
Si ( (coder_type no es UNVOICED o TRANSITION) y
(LF_lack_flag= 1) y (VAD=1) y
(Voicing0_sm>0.7) y (Voicing0_sm>0.7 Voicing_sm))
{
Open_Loop_Pitch = Pitch_Tp;
stab_pit_flag = 1;
coder_type = VOICED;
}
En el procedimiento anterior, VAD significa Detección de Actividad de Voz.
La Figura 9 ilustra una forma de realización de un método 900 para la detección y codificación de retardo de altura tonal muy débil para una señal vocal o de audio. El método 900 puede ponerse en práctica por un codificador para la codificación vocal/audio tal como el codificador 300 (o 100). Un método similar puede ponerse en práctica también por un decodificador para la codificación de señal vocal/audio, tal como el decodificador 400 (o 200). En la etapa 901, se clasifica una señal vocal o de audio, o trama, que incluye 4 sub-tramas, a modo de ejemplo, para la clase VOICED o GENERIC. En la etapa 902, se calcula una correlación de altura tonal normalizada R(P) para una altura tonal candidato P, p.ej., utilizando la ecuación (5). En la etapa 903, se calcula una correlación de altura tonal normalizada media Voicing, p.ej., utilizando la ecuación (6). En la etapa 904, se calcula una correlación de altura tonal de magnitud limitada Voicing_sm, p.ej., utilizando la ecuación (7). En la etapa 905, se detecta una energía máxima Energy0 en la zona de la frecuencia [0, Fmin]. En la etapa 906, se detecta una energía máxima Energy1 en la zona de la frecuencia [Fmin, 900], a modo de ejemplo. En la etapa 907, se calcula una relación de energía Ratio entre los valores Energy1 y Energy0, p.ej., utilizando la ecuación (8). En la etapa 908, se ajusta la relación Ratio utilizando la correlación de altura tonal normalizada media Voicing p.ej., utilizando la ecuación (9). En la etapa 909, se calcula una relación de magnitud limitada LF_EnergyRatio_sm p.ej., utilizando la ecuación (10). En la etapa 910, se calcula una correlación Voicing0 para una altura tonal inicial muy débil Pitch_Tp, p.ej., utilizando las ecuaciones (11) y (12). En la etapa 911, se calcula una correlación de altura tonal débil de magnitud limitada Voicing0_sm p.ej., utilizando la ecuación (13). En la etapa 912, se calcula una altura tonal final muy débil, p.ej., utilizando los procedimientos A y B.
La Relación de Señal a Ruido (SNR) es uno de los métodos de medición de prueba objetivo para la codificación vocal. La relación SNR Segmental Ponderada (WsegSNR) es otro método de medición de prueba objetivo, que puede ser ligeramente más próximo a la medición real de la calidad perceptual que la relación SNR. Puede no ser audible una diferencia relativamente pequeña en SNR o WsegSNR, mientras que las diferencias más grandes en SNR o WsegSNR pueden ser más o claramente audibles. Las tablas 1 y 2 ilustran el hecho de que la introducción de una codificación de retardo de altura tonal muy débil puede mejorar, de forma significativa, la calidad de codificación de música o vocal cuando la señal contiene un retardo de altura tonal real muy débil. Los resultados de prueba adicional de audición ilustran que se mejora, de forma significativa, la calidad vocal o musical con un retardo de altura tonal real <= PIT_MIN después de la utilización de las etapas y métodos anteriores.
Tabla 1: Relación SNR para señal vocal limpia con retardo de altura tonal real <= PIT_MIN.
Figure imgf000008_0001
Tabla 2: Relación WsegSNR para señal vocal limpia con retardo de altura tonal real <= PIT_MIN.
Figure imgf000008_0002
La Figura 10 es un diagrama de bloques de un aparato o sistema de procesamiento 1000 que puede utilizarse para poner en práctica varias formas de realización. A modo de ejemplo, el sistema de procesamiento 1000 puede ser parte de, o acoplarse a, un componente de red, tal como un enrutador, un servidor, o cualquier otro componente de red o aparato. Dispositivos específicos pueden utilizar la totalidad de los componentes ilustrados, o solamente un subconjunto de los componentes, y los niveles de integración pueden variar de un dispositivo a otro. Además, un dispositivo puede incluir múltiples instancias operativas de un componente, tal como múltiples unidades de procesamiento, procesadores, memorias, transmisores, receptores, etc. El sistema de procesamiento 1000 puede incluir una unidad de procesamiento 1001 provista con uno o más dispositivos de entrada/salida, tal como un altavoz, micrófono, ratón, pantalla táctil, teclado numérico, teclado, impresora, pantalla, etc. La unidad de procesamiento 1001 puede incluir una unidad central de procesamiento (CPU) 1010, una memoria 1020, un dispositivo de almacenamiento masivo 1030, un adaptador de vídeo 1040, y una interfaz de I/O (entrada/salida) 1060 que se conecta a un bus. El bus puede ser uno o más de cualquier tipo de varias arquitecturas de bus, que incluyen un bus de memoria o un controlador de memoria, un bus periférico, un bus de vídeo, o similar.
La unidad CPU 1010 puede incluir cualquier tipo de procesador de datos electrónico. La memoria 1020 puede comprender cualquier tipo de memoria del sistema, tal como una memoria de acceso aleatorio estática (SRAM), una memoria de acceso aleatorio dinámica (DRAM), una memoria DRAM síncrona (SDRAM), una memoria de solamente lectura (ROM), una de sus combinaciones, etc. En una forma de realización, la memoria 1020 puede incluir una memoria ROM para su uso durante el arranque, y una memoria DRAM para memorizar programas y datos para uso mientras se ejecutan dichos programas. En formas de realización, la memoria 1020 es una memoria no transitoria. El dispositivo de almacenamiento masivo 1030 puede incluir cualquier tipo de dispositivo de almacenamiento configurado para memorizar datos, programas y otra información y para hacer que los datos, los programas y otra información sean accesibles a través de un bus. El dispositivo de almacenamiento masivo 1030 puede incluir, a modo de ejemplo, uno o más de entre una unidad de estado sólido, una unidad de disco duro, una unidad de disco magnético, una unidad de disco óptico, o similar.
El adaptador de vídeo 1040 y la interfaz de I/O (entrada/salida) 1060 proporcionan interfaces con el fin de acoplar, de forma externa, dispositivos de entrada y salida a la unidad de procesamiento. Tal como se ilustra, ejemplos de dispositivos de entrada y salida incluyen una pantalla de visualización 1090 acoplada al adaptador de vídeo 1040 y cualquier combinación de ratón/teclado/impresora 1070 que se acopla a la interfaz de entrada/salida (I/O) 1060. Otros dispositivos pueden acoplarse a la unidad de procesamiento 1001, y se pueden utilizar menos, o adicionales tarjetas de interfaz. A modo de ejemplo, una tarjeta de interfaz serie (no ilustrada) puede utilizarse para proporcionar una interfaz serie para una impresora.
La unidad de procesamiento 1001 incluye, además, una o más interfaces de red 1050, que puede incluir enlaces cableados, tal como un cable de Ethernet o similar, y/o enlaces inalámbricos para acceder a nodos o una o más redes 1080. La interfaz de red 1050 permite a la unidad de procesamiento 1001 su comunicación con unidades distantes a través de las redes 1080. A modo de ejemplo, la interfaz de red 1050 puede proporcionar comunicación inalámbrica, a través de uno o más transmisores/antenas de transmisión y uno o más receptores/antenas de recepción. En una forma de realización, la unidad de procesamiento 1001 está acoplada a una red de área local o una red de área amplia para el procesamiento de datos y comunicaciones con dispositivos distantes, tales como otras unidades de procesamiento, la red Internet, instalaciones de almacenamiento distantes, etc.
Aunque esta invención ha sido descrita haciendo referencia a las formas de realización ilustrativas, la presente descripción no está prevista para crearse en un sentido limitativo. Varias modificaciones y combinaciones de las formas de realización ilustrativas, así como otras formas de realización de la invención, serán evidentes para los expertos en esta técnica, con referencia a la descripción. Por lo tanto, está previsto que las reivindicaciones adjuntas abarquen cualesquiera de dichas modificaciones o formas de realización.

Claims (15)

REIVINDICACIONES
1. Un método para la detección y codificación de altura tonal muy débil implementado mediante un aparato para una codificación vocal o audio, comprendiendo dicho método:
detectar en una señal vocal o de audio un retardo de altura tonal muy débil, que está en un margen desde una limitación de altura tonal muy débil mínima a una limitación de altura tonal mínima convencional PIT_MIN, que se define mediante un algoritmo predeterminado de Técnica de Predicción Lineal Excitada por Código (CELP), utilizando una combinación de técnicas de detección de altura tonal de dominio temporal y dominio frecuencial que incluyen el utilización de la correlación de altura tonal y la detección de una falta de energía de baja frecuencia, en donde, la limitación de altura tonal muy débil mínima es menor que la limitación de PIT_MIN;
el método está caracterizado por cuanto que comprende, además:
codificación del retardo de altura tonal muy débil;
en donde la detección de una falta de energía de baja frecuencia comprende:
calcular (907) una relación de energía como
Ratio = Energyl - EnergyO,
en donde Ratio es la relación de energía, EnergyO es la energía máxima en decibelios (dB) en una primera zona de frecuencia [0, Fmin] Hertz (Hz), Energyl es la energía máxima en dB en una segunda zona de frecuencia [Fmin, 900] Hz, y Fmin es una frecuencia mínima predeterminada;
ponderar (908) la relación de energía usando la correlación de altura tonal normalizada media como
Figure imgf000010_0001
en donde Ratio, en el lado derecho de la ecuación, representa la relación de energía que ha de ajustarse; Ratio, en el lado izquierdo de la ecuación, representa la relación de energía ajustada; y Voicing representa la correlación de altura tonal normalizada media;
calcular (909) una relación de energía de magnitud limitada utilizando la relación de energía como:
LF_E nergyR atio_sm = (15 ■LF_EnergyR atio_sm R atio)/16 en donde LF_EnergyRatio_sm, en el lado izquierdo de la ecuación, representa la relación de energía de magnitud limitada y Ratio representa la relación de energía ajustada;
determinar que se detecta la falta de energía de baja frecuencia si la relación de energía ajustada es mayor que un primer valor umbral predeterminado o si la relación de energía de magnitud limitada es mayor que un secundo valor umbral predeterminado.
2. El método según la reivindicación 1, en donde la detección del retardo de altura tonal muy débil, utilizando la combinación de técnicas de detección de altura tonal de dominio temporal y de dominio frecuencial, comprende: calcular (902) una correlación de altura tonal normalizada, utilizando una altura tonal candidato y un valor ponderado para la señal vocal o de audio;
calcular (903) la correlación de altura tonal normalizada media Voicing utilizando la correlación de altura tonal normalizada; y
calcular (904) una correlación de altura tonal de magnitud limitada de la correlación de altura tonal normalizada.
3. El método según la reivindicación 2, en donde el cálculo de la correlación de altura tonal normalizada utilizando una altura tonal candidato y el valor ponderado para la señal vocal o de audio, comprende:
calcular la correlación de altura tonal normalizada como
■ sK,(n - F)
R(P ) = , " ,
J V l n lk>f ■Y n hxr’-pf
en donde R(P) es la correlación de altura tonal normalizada, P es la altura tonal candidato, y sw(n) es un valor ponderado de la señal vocal.
4. El método según cualquiera de las reivindicaciones 2 o 3, en donde Ri (Pi), R2 (P2), R3 (P3) y R4 P4), son cuatro correlaciones de altura tonal normalizadas que se calculan para cuatro sub-tramas respectivas en una trama actual de la señal vocal o de audio, y Pi , P2, P3 y P4, son cuatro alturas tonales candidatos que se encuentran en un margen de altura tonal desde PIT_MIN a una altura tonal limitada máxima PIT_MAXque se define por el algoritmo de CELP predeterminado ;
en donde el cálculo de la correlación de altura tonal normalizada media, utilizando la correlación de altura tonal normalizada, comprende:
calcular la correlación de altura tonal normalizada media como
Figure imgf000011_0001
en donde Voicing es la correlación de altura tonal normalizada media.
5. El método según cualquiera de las reivindicaciones 1, 2 a 4 en donde la detección del retardo de altura tonal muy débil, utilizando la combinación de técnicas de detección de altura tonal de dominio temporal y de dominio frecuencial comprende, además:
calcular una correlación de altura tonal de magnitud limitada como :
Voicing_sm = (3-Voicing_sm Voicing)/4;
en donde Voicing_sm, en el lado izquierdo de la ecuación, es la correlación de altura tonal de magnitud limitada de la trama actual, Voicing_sm en el lado derecho de la ecuación es la correlación de altura tonal de magnitud limitada de la trama anterior.
6. El método según cualquiera de las reivindicaciones 2 a 5, en donde la detección del retardo de altura tonal muy débil, utilizando la combinación de técnicas de detección de altura tonal de dominio temporal y de dominio frecuencial, comprende, además:
calcular (910) una correlación para un retardo de altura tonal inicial muy débil; y
calcular (911) una correlación de altura tonal débil de magnitud limitada utilizando la correlación para el retardo de altura tonal inicial muy débil.
7. El método según la reivindicación 6, en donde el retardo de altura tonal muy débil inicial se encuentra como R(Piích_Tp} = MAX I R(P), P= P1T_MIW......PITJÍIN ¡ ,
en donde Pitch_Tp es el retardo de altura tonal inicial muy débil, PIT_MIN0 es la limitación mínima predeterminada de altura tonal muy débil; y
la correlación para el retardo de altura tonal inicial muy débil se representa como:
VoicingO - R(Pitch_Tp),
en donde Voicing0 es la correlación para el retardo de altura tonal inicial muy débil.
8. El método según la reivindicación 7, en donde el cálculo de una correlación de altura tonal débil de magnitud limitada, utilizando la correlación para el retardo de altura tonal inicial muy débil, comprende:
calcular una correlación de altura tonal débil de magnitud limitada usando la correlación para el retardo de altura tonal inicial muy débil como:
Voicing 0 _ sm = (3 • Voicing 0 _ sm Voicing 0) / 4 ;
en donde Voicing0_sm, en el lado izquierdo de la ecuación, es la correlación de altura tonal débil de magnitud limitada de una trama actual, Voicing0_sm, en el lado derecho de la ecuación, es la correlación de altura tonal débil de magnitud limitada de una trama anterior.
9. El método según las reivindicaciones 6 a 8, en donde la detección del retardo de altura tonal muy débil, utilizando la combinación de técnicas de dominio temporal y de dominio frecuencial comprende, además:
decidir (912) el retardo de altura tonal muy débil de conformidad con las condiciones que comprenden:
se detecta la falta de energía de baja frecuencia;
la correlación de altura tonal débil de magnitud limitada es mayor que un tercer umbral predeterminado; y la correlación de altura tonal débil de magnitud limitada mayor que una multiplicación de un producto de un cuarto umbral predeterminado y la correlación de altura tonal de magnitud limitada.
10. El método según cualquiera de las reivindicaciones 1 a 9, en donde la limitación convencional de altura tonal mínima PIT_MIN es igual a 34 para una frecuencia de muestreo de 12.8 kilohercios (kHz).
11. El método según cualquiera de las reivindicaciones 1 a 9, en donde la limitación de altura tonal muy débil mínima es igual a 17 para una frecuencia de muestreo de 12.8 kilohercios (kHz).
12. El método según cualquiera de las reivindicaciones 1 a 9, en donde el primer valor umbral predeterminado es 50 y el segundo valor umbral predeterminado es 35.
13. El método según la reivindicación 9, en donde el cuarto valor umbral predeterminado es 0,7.
14. El método según la reivindicación 1, en donde la limitación convencional de altura tonal mínima PIT_MIN define la limitación de frecuencia armónica fundamental máxima Fmin = Fs/PIT_MIN para el algoritmo de CELP.
15. Un aparato que soporta la detección y codificación de altura tonal muy débil para una codificación vocal o de audio, que comprende:
un procesador; y
un soporte de memorización legible por ordenador que memoriza la programación para su ejecución por el procesador, de los programas que incluyen instrucciones para poner en práctica el método de conformidad con cualquiera de las reivindicaciones 1 a 14.
ES17193357T 2011-12-21 2012-12-21 Detección y codificación de altura tonal muy débil Active ES2757700T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
US201161578398P 2011-12-21 2011-12-21

Publications (1)

Publication Number Publication Date
ES2757700T3 true ES2757700T3 (es) 2020-04-29

Family

ID=48655414

Family Applications (3)

Application Number Title Priority Date Filing Date
ES19177800T Active ES2950794T3 (es) 2011-12-21 2012-12-21 Detección y codificación de altura tonal muy débil
ES17193357T Active ES2757700T3 (es) 2011-12-21 2012-12-21 Detección y codificación de altura tonal muy débil
ES12860799.1T Active ES2656022T3 (es) 2011-12-21 2012-12-21 Detección y codificación de altura tonal muy débil

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES19177800T Active ES2950794T3 (es) 2011-12-21 2012-12-21 Detección y codificación de altura tonal muy débil

Family Applications After (1)

Application Number Title Priority Date Filing Date
ES12860799.1T Active ES2656022T3 (es) 2011-12-21 2012-12-21 Detección y codificación de altura tonal muy débil

Country Status (7)

Country Link
US (5) US9099099B2 (es)
EP (4) EP4231296A3 (es)
CN (3) CN104115220B (es)
ES (3) ES2950794T3 (es)
HU (1) HUE045497T2 (es)
PT (1) PT2795613T (es)
WO (1) WO2013096900A1 (es)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104115220B (zh) 2011-12-21 2017-06-06 华为技术有限公司 非常短的基音周期检测和编码
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
US9589570B2 (en) 2012-09-18 2017-03-07 Huawei Technologies Co., Ltd. Audio classification based on perceptual quality for low or medium bit rates
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter
US9959886B2 (en) * 2013-12-06 2018-05-01 Malaspina Labs (Barbados), Inc. Spectral comb voice activity detection
US9685166B2 (en) * 2014-07-26 2017-06-20 Huawei Technologies Co., Ltd. Classification between time-domain coding and frequency domain coding
KR20170051856A (ko) * 2015-11-02 2017-05-12 주식회사 아이티매직 사운드 신호에서 진단 신호를 추출하는 방법 및 진단 장치
CN105913854B (zh) * 2016-04-15 2020-10-23 腾讯科技(深圳)有限公司 语音信号级联处理方法和装置
CN109389988B (zh) * 2017-08-08 2022-12-20 腾讯科技(深圳)有限公司 音效调整控制方法和装置、存储介质及电子装置
TWI684912B (zh) * 2019-01-08 2020-02-11 瑞昱半導體股份有限公司 語音喚醒裝置及方法
WO2020146867A1 (en) * 2019-01-13 2020-07-16 Huawei Technologies Co., Ltd. High resolution audio coding
CN110390939B (zh) * 2019-07-15 2021-08-20 珠海市杰理科技股份有限公司 音频压缩方法和装置

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE1029746B (de) 1954-10-19 1958-05-08 Krauss Maffei Ag Kontinuierlich arbeitende Zentrifuge mit Siebtrommel
US4809334A (en) 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5104813A (en) 1989-04-13 1992-04-14 Biotrack, Inc. Dilution and mixing cartridge
US5127053A (en) 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
US5495555A (en) * 1992-06-01 1996-02-27 Hughes Aircraft Company High quality low bit rate celp-based speech codec
US6463406B1 (en) 1994-03-25 2002-10-08 Texas Instruments Incorporated Fractional pitch method
EP0772484B1 (en) 1994-07-28 2008-02-27 Pall Corporation Fibrous web and process of preparing same
US5864795A (en) 1996-02-20 1999-01-26 Advanced Micro Devices, Inc. System and method for error correction in a correlation-based pitch estimator
US5774836A (en) 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
US5960386A (en) * 1996-05-17 1999-09-28 Janiszewski; Thomas John Method for adaptively controlling the pitch gain of a vocoder's adaptive codebook
JP3364825B2 (ja) * 1996-05-29 2003-01-08 三菱電機株式会社 音声符号化装置および音声符号化復号化装置
WO1998006091A1 (fr) 1996-08-02 1998-02-12 Matsushita Electric Industrial Co., Ltd. Codec vocal, support sur lequel est enregistre un programme codec vocal, et appareil mobile de telecommunications
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JP4121578B2 (ja) 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
US6456965B1 (en) 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6438517B1 (en) 1998-05-19 2002-08-20 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US7072832B1 (en) * 1998-08-24 2006-07-04 Mindspeed Technologies, Inc. System for speech encoding having an adaptive encoding arrangement
US6330533B2 (en) 1998-08-24 2001-12-11 Conexant Systems, Inc. Speech encoder adaptively applying pitch preprocessing with warping of target signal
US6558665B1 (en) 1999-05-18 2003-05-06 Arch Development Corporation Encapsulating particles with coatings that conform to size and shape of the particles
WO2001013360A1 (en) 1999-08-17 2001-02-22 Glenayre Electronics, Inc. Pitch and voicing estimation for low bit rate speech coders
US6604070B1 (en) * 1999-09-22 2003-08-05 Conexant Systems, Inc. System of encoding and decoding speech signals
US6574593B1 (en) * 1999-09-22 2003-06-03 Conexant Systems, Inc. Codebook tables for encoding and decoding
US6418405B1 (en) 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for dynamic segmentation of a low bit rate digital voice message
US6470311B1 (en) * 1999-10-15 2002-10-22 Fonix Corporation Method and apparatus for determining pitch synchronous frames
AU2001260162A1 (en) 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in a speech signal
GB0029590D0 (en) 2000-12-05 2001-01-17 Univ Heriot Watt Bio-strings
US6875403B2 (en) 2001-02-09 2005-04-05 Microchem Solutions Method and apparatus for reproducible sample injection on microfabricated devices
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
GB2375028B (en) 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US20040158462A1 (en) 2001-06-11 2004-08-12 Rutledge Glen J. Pitch candidate selection method for multi-channel pitch detectors
KR100393899B1 (ko) 2001-07-27 2003-08-09 어뮤즈텍(주) 2-단계 피치 판단 방법 및 장치
JP3888097B2 (ja) 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
US20050150766A1 (en) 2001-11-02 2005-07-14 Andreas Manz Capillary electrophoresis microchip system and method
US8220494B2 (en) 2002-09-25 2012-07-17 California Institute Of Technology Microfluidic large scale integration
ES2588905T3 (es) 2002-10-04 2016-11-07 The Regents Of The University Of California Dispositivo microfluídico de compartimentos múltiples para investigación en neurociencias
US7233894B2 (en) 2003-02-24 2007-06-19 International Business Machines Corporation Low-frequency band noise detection
FR2855076B1 (fr) 2003-05-21 2006-09-08 Inst Curie Dispositif microfluidique
KR100927288B1 (ko) 2004-02-18 2009-11-18 히다치 가세고교 가부시끼가이샤 마이크로 유체시스템용 지지유닛
CA2566368A1 (en) 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
WO2006018044A1 (en) 2004-08-18 2006-02-23 Agilent Technologies, Inc. Microfluidic assembly with coupled microfluidic devices
US8480970B2 (en) 2004-11-30 2013-07-09 Hitachi Chemical Co., Ltd. Analytical pretreatment device
JP5020826B2 (ja) * 2004-12-14 2012-09-05 シリコン ハイブ ビー・ヴィー プログラム可能信号処理回路及び復調方法
US8255207B2 (en) * 2005-12-28 2012-08-28 Voiceage Corporation Method and device for efficient frame erasure concealment in speech codecs
KR100770839B1 (ko) 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
WO2008007699A1 (en) * 2006-07-12 2008-01-17 Panasonic Corporation Audio decoding device and audio encoding device
US7752038B2 (en) * 2006-10-13 2010-07-06 Nokia Corporation Pitch lag estimation
CN101183526A (zh) * 2006-11-14 2008-05-21 中兴通讯股份有限公司 一种检测语音信号基音周期的方法
CN101286319B (zh) * 2006-12-26 2013-05-01 华为技术有限公司 改进语音丢包修补质量的语音编码方法
US7521622B1 (en) * 2007-02-16 2009-04-21 Hewlett-Packard Development Company, L.P. Noise-resistant detection of harmonic segments of audio signals
EP2128854B1 (en) * 2007-03-02 2017-07-26 III Holdings 12, LLC Audio encoding device and audio decoding device
JP5511372B2 (ja) * 2007-03-02 2014-06-04 パナソニック株式会社 適応音源ベクトル量子化装置および適応音源ベクトル量子化方法
US8206992B2 (en) 2008-03-27 2012-06-26 President And Fellows Of Harvard College Cotton thread as a low-cost multi-assay diagnostic platform
KR20090122143A (ko) * 2008-05-23 2009-11-26 엘지전자 주식회사 오디오 신호 처리 방법 및 장치
US20090319261A1 (en) 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
CN102149628B (zh) 2008-08-14 2015-09-02 莫纳什大学 用于微流体系统的开关
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
CN101599272B (zh) 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
GB2466669B (en) * 2009-01-06 2013-03-06 Skype Speech coding
FR2942041B1 (fr) 2009-02-06 2011-02-25 Commissariat Energie Atomique Dispositif embarque d'analyse d'un fluide corporel.
WO2010111265A1 (en) 2009-03-24 2010-09-30 University Of Chicago Slip chip device and methods
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
US20110100472A1 (en) 2009-10-30 2011-05-05 David Juncker PASSIVE PREPROGRAMMED LOGIC SYSTEMS USING KNOTTED/STRTCHABLE YARNS and THEIR USE FOR MAKING MICROFLUIDIC PLATFORMS
IN2012DN05235A (es) * 2010-01-08 2015-10-23 Nippon Telegraph & Telephone
CN104115220B (zh) * 2011-12-21 2017-06-06 华为技术有限公司 非常短的基音周期检测和编码
US9418671B2 (en) * 2013-08-15 2016-08-16 Huawei Technologies Co., Ltd. Adaptive high-pass post-filter

Also Published As

Publication number Publication date
WO2013096900A1 (en) 2013-06-27
ES2950794T3 (es) 2023-10-13
US9099099B2 (en) 2015-08-04
CN107342094A (zh) 2017-11-10
EP2795613B1 (en) 2017-11-29
ES2656022T3 (es) 2018-02-22
PT2795613T (pt) 2018-01-16
EP3573060A1 (en) 2019-11-27
US11894007B2 (en) 2024-02-06
US9741357B2 (en) 2017-08-22
US20130166288A1 (en) 2013-06-27
US20170323652A1 (en) 2017-11-09
EP2795613A1 (en) 2014-10-29
US20150287420A1 (en) 2015-10-08
EP3301677A1 (en) 2018-04-04
CN107342094B (zh) 2021-05-07
EP3301677B1 (en) 2019-08-28
US10482892B2 (en) 2019-11-19
EP3573060B1 (en) 2023-05-03
CN104115220A (zh) 2014-10-22
EP4231296A2 (en) 2023-08-23
EP2795613A4 (en) 2015-04-29
CN107293311A (zh) 2017-10-24
CN107293311B (zh) 2021-10-26
CN104115220B (zh) 2017-06-06
US11270716B2 (en) 2022-03-08
EP4231296A3 (en) 2023-09-27
US20200135223A1 (en) 2020-04-30
HUE045497T2 (hu) 2019-12-30
US20220230647A1 (en) 2022-07-21

Similar Documents

Publication Publication Date Title
ES2757700T3 (es) Detección y codificación de altura tonal muy débil
US20200234724A1 (en) Classification Between Time-Domain Coding and Frequency Domain Coding for High Bit Rates
US10347275B2 (en) Unvoiced/voiced decision for speech processing
US9015039B2 (en) Adaptive encoding pitch lag for voiced speech
ES2952973T3 (es) Dispositivo de determinación de la función de ponderación y procedimiento para cuantificar el coeficiente de codificación de predicción lineal
US9418671B2 (en) Adaptive high-pass post-filter