ES2627857T3 - Método y aparato para detectar la exactitud del período de tono - Google Patents

Método y aparato para detectar la exactitud del período de tono Download PDF

Info

Publication number
ES2627857T3
ES2627857T3 ES12876916.3T ES12876916T ES2627857T3 ES 2627857 T3 ES2627857 T3 ES 2627857T3 ES 12876916 T ES12876916 T ES 12876916T ES 2627857 T3 ES2627857 T3 ES 2627857T3
Authority
ES
Spain
Prior art keywords
parameter
tone
spectral
frequency
accuracy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES12876916.3T
Other languages
English (en)
Inventor
Fengyan Qi
Lei Miao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2627857T3 publication Critical patent/ES2627857T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

Un método para determinar la exactitud de un período de tono, que comprende: determinar (11), según un período de tono inicial de una señal de entrada en un dominio temporal, un comportamiento de frecuencia de tono de la señal de entrada, en donde el período de tono inicial se obtienellevando a cabo una detección en bucle abierto en la señal de entrada; determinar (12), según un espectro de amplitud de la señal de entrada en un dominio de la frecuencia, un parámetro de decisión de exactitud de período de tono, asociado al comportamiento de frecuencia de tono, de la señal de entrada; y determinar (13) la exactitud del período de tono inicial según el parámetro de decisión de exactitud de período de tono; el método caracterizado por que: el parámetro de decisión de exactitud de período de tono comprende un parámetro de diferencia espectral, un parámetro de amplitud espectral promedio y un parámetro de relación diferencia/amplitud, el parámetro de diferencia espectral es una suma de diferencias espectrales de una cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; el parámetro de amplitud espectral promedio es un promedio de amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; y el parámetro de relación diferencia/amplitud es una relación de la suma de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono con el promedio de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; donde las diferencias espectrales se refieren a diferencias entre amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono y una amplitud espectral del comportamiento de frecuencia de tono.

Description

5
10
15
20
25
30
35
40
45
50
55
DESCRIPCION
Metodo y aparato para detectar la exactitud del penodo de tono.
Campo tecnico
La presente invencion se refiere al campo de las tecnologfas de audio y, mas espedficamente, a un metodo y un aparato para detectar la exactitud de un penodo de tono.
Antecedentes
En el procesamiento de senales de audio y voz, la deteccion de tono es una de las tecnologfas clave en varias aplicaciones reales de audio y voz. Por ejemplo, la deteccion de tono es la tecnologfa clave en aplicaciones de codificacion de la voz, reconocimiento de la voz, karaoke y similares. Las tecnologfas de deteccion de tono se aplican ampliamente a varios dispositivos electronicos como, por ejemplo, un telefono movil, un aparato inalambrico, un asistente digital personal (PDA, por su sigla en ingles), un ordenador portatil o portable, un receptor/navegador GPS, una camara, un reproductor de audioMdeo, una camara de video, un videograbador y un dispositivo de vigilancia. Por lo tanto, la precision y eficiencia de deteccion de la deteccion de tono afecta directamente el efecto de varias aplicaciones reales de audio y voz.
La deteccion de tono actual se lleva a cabo, basicamente, en un dominio temporal y, en general, un algoritmo de deteccion de tono es un metodo de autocorrelacion de dominio temporal. Sin embargo, en las aplicaciones reales, la deteccion de tono que se lleva a cabo en el dominio temporal lleva, con frecuencia, a un fenomeno de multiplicacion de frecuencia y es diffcil resolver, de manera adecuada, el fenomeno de multiplicacion de frecuencia en el dominio temporal, porque grandes coeficientes de autocorrelacion se obtienen para un penodo de tono real y para una frecuencia multiplicada del penodo de tono real y, ademas, en un caso con ruido de fondo, un penodo de tono inicial obtenido por la deteccion en bucle abierto en el dominio temporal puede no ser exacto. Aqm, un penodo de tono real es un penodo de tono real en la voz, es decir, un penodo de tono correcto. Un penodo de tono se refiere a un intervalo de tiempo mmimo repetible en la voz.
Detectar un penodo de tono inicial en un dominio temporal se usa como un ejemplo. La mayona de los estandares de codificacion del ITU-T (Sector de Normalizacion de las Telecomunicaciones de la Union Internacional de Telecomunicaciones (ITU-T, por su sigla en ingles) requieren que se lleve a cabo la deteccion de tono, pero casi todas las detecciones de tono se llevan a cabo en un mismo dominio (un dominio temporal o un dominio de la frecuencia). Por ejemplo, un metodo de deteccion de tono en bucle abierto que se lleva a cabo solamente en un dominio ponderado perceptual se aplica en el estandar de codificacion de la voz G729.
En el presente metodo de deteccion de tono en bucle abierto, despues de obtener un penodo de tono inicial por la deteccion en bucle abierto en el dominio temporal, la exactitud del penodo de tono inicial no se lleva a cabo, sino que la deteccion fina en bucle cerrado se lleva a cabo directamente en el penodo de tono inicial. La deteccion fina en bucle cerrado se lleva a cabo en un intervalo de penodo que incluye el penodo de tono inicial obtenido por la deteccion en bucle abierto, de modo que si el penodo de tono inicial obtenido por la deteccion en bucle abierto es incorrecto, un penodo de tono obtenido por la deteccion fina en bucle cerrado final tambien es incorrecto. En otras palabras, dado que es extremadamente diffcil asegurar que el penodo de tono inicial obtenido por la deteccion en bucle abierto en el dominio temporal sea absolutamente correcto, si un penodo de tono inicial incorrecto se aplica al siguiente procesamiento, la calidad de audio final puede deteriorarse.
Ademas, en la tecnica anterior, tambien se propone cambiar la deteccion de penodo de tono que se lleva a cabo en el dominio temporal por la deteccion fina de penodo de tono que se lleva a cabo en el dominio de la frecuencia, pero la deteccion fina de penodo de tono que se lleva a cabo en el dominio de la frecuencia es extremadamente compleja. En la deteccion fina, se puede llevar a cabo una deteccion de tono adicional en una senal de entrada en el dominio temporal o en el dominio de la frecuencia segun el penodo de tono inicial, incluida la deteccion de tono corto, la deteccion de tono fraccionario o deteccion de tono con frecuencia multiplicada.
El documento US6,108,62A describe un metodo de analisis de la voz y un metodo de codificacion de la voz y un aparato en el cual, incluso si los armonicos del espectro de la voz se encuentran descentrados de los multiples enteros de la onda fundamental, las amplitudes de los armonicos se pueden evaluar correctamente para producir una salida de reproduccion de claridad alta. A tal fin, el espectro de frecuencia de la voz de entrada se divide en el eje de frecuencia en bandas plurales en cada una de las cuales se lleva a cabo, de forma simultanea, una busqueda de tono y una evaluacion de amplitudes de los armonicos mediante el uso de un tono optimo derivado de la forma espectral. Mediante el uso de la estructura de un armonico como la forma espectral, y segun el tono aspero previamente detectado por una busqueda de tono aspero en bucle abierto, se lleva a cabo una busqueda de tono de alta precision compuesta de una primera busqueda de tono para el espectro de frecuencia en su totalidad y una segunda busqueda de tono de mayor precision que la primera busqueda de tono. La segunda busqueda de tono se lleva a cabo de forma independiente para cada uno del lado de rango alto y lado de rango bajo del espectro de frecuencia.
5
10
15
20
25
30
35
40
45
50
El documento US2004/0158462A1 describe un metodo mejorado para llevar a cabo la seleccion de canal en sistemas multicanal de deteccion de tono. Para cada canal, varias caractensticas se calculan usando la senal de entrada y el valor del tono candidato del canal. El vector de caractenstica resultante se usa para evaluar una funcion de probabilidad multivariable que define la probabilidad de que el tono candidato represente el tono correcto. El calculo de tono final se toma luego para que sea el tono candidato con la probabilidad mas alta de ser correcto, o el promedio (o la media) de los tonos candidatos con probabilidades por encima de un umbral dado. La forma funcional de la funcion de probabilidad se puede definir usando varias representaciones parametricas diferentes y los parametros de la funcion de probabilidad se pueden derivar, de manera ventajosa, en una forma automatizada, usando senales que tienen etiquetas de tono que se considera que son correctas.
El documento US6.496.797B1 describe un aparato y un metodo para la compresion de la voz, los cuales incluyen dividir el espectro de la voz en multiples tramas, asignar clasificaciones de trama a las multiples tramas y determinar los parametros de modelado de la voz segun la clasificacion de trama asignada. La parte sonora del espectro de la voz y la parte no sonora del espectro de la voz se sintetizan de forma separada usando el Analisis por Smtesis que permite una correspondencia correcta entre las partes sonora y no sonora de la senal reconstruida. En particular, una respuesta de frecuencia de una senal simulada especial basada en las tramas previa y actual se usa como una funcion de aproximacion. La senal simulada se sintetiza en el lado de codificador en la forma en que se generara en el lado de descodificador. Asimismo, el mejor de dos metodos de codificacion se selecciona para codificar las magnitudes espectrales.
Compendio
La presente invencion provee un metodo y un aparato para detectar la exactitud de un penodo de tono, para resolver el problema de la tecnica anterior en el que, cuando la exactitud de un penodo de tono inicial se detecta en un dominio temporal o dominio de la frecuencia, la precision es baja y la complejidad es relativamente alta.
Segun un aspecto, se provee un metodo para detectar la exactitud de un penodo de tono, el cual incluye:
determinar, segun un penodo de tono inicial de una senal de entrada en un dominio temporal, un comportamiento de frecuencia de tono de la senal de entrada, en donde el penodo de tono inicial se obtiene llevando a cabo una deteccion en bucle abierto en la senal de entrada;
determinar, segun un espectro de amplitud de la senal de entrada en un dominio de la frecuencia, un parametro de decision de exactitud de penodo de tono, asociado al comportamiento de frecuencia de tono, de la senal de entrada; y
determinar la exactitud del penodo de tono inicial segun el parametro de decision de exactitud de penodo de tono;
el parametro de decision de exactitud de penodo de tono comprende un parametro de diferencia espectral, un parametro de amplitud espectral promedio y un parametro de relacion diferencia/amplitud, el parametro de diferencia espectral es una suma de diferencias espectrales de una cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; el parametro de amplitud espectral promedio es un promedio de amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; y el parametro de relacion diferencia/amplitud es una relacion de la suma de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono con el promedio de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono;
donde las diferencias espectrales se refieren a diferencias entre amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono y una amplitud espectral del comportamiento de frecuencia de tono.
Segun otro aspecto, se provee un aparato para detectar la exactitud de un penodo de tono, el cual incluye:
una unidad de determinacion de comportamiento de frecuencia de tono, configurada para determinar, segun un penodo de tono inicial de una senal de entrada en un dominio temporal, un comportamiento de frecuencia de tono de la senal de entrada, en donde el penodo de tono inicial se obtiene llevando a cabo una deteccion en bucle abierto en la senal de entrada;
una unidad de generacion de parametro, configurada para determinar, segun un espectro de amplitud de la senal de entrada en un dominio de la frecuencia, un parametro de decision de exactitud de penodo de tono, asociado al comportamiento de frecuencia de tono, de la senal de entrada; y
5
10
15
20
25
30
35
40
45
50
una unidad de determinacion de exactitud, configurada para determinar la exactitud del penodo de tono inicial segun el parametro de decision de exactitud de penodo de tono;
el aparato caracterizado por que:
el parametro de decision de exactitud de penodo de tono generado por la unidad de generacion de parametro comprende un parametro de diferencia espectral, un parametro de amplitud espectral promedio y un parametro de relacion diferencia/amplitud, el parametro de diferencia espectral es una suma de diferencias espectrales de una cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; el parametro de amplitud espectral promedio es un promedio de amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; y el parametro de relacion diferencia/amplitud es una relacion de la suma de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono con el promedio de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono;
donde las diferencias espectrales se refieren a diferencias entre amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono y una amplitud espectral del comportamiento de frecuencia de tono.
El metodo y el aparato para detectar la exactitud de un penodo de tono segun las realizaciones de la presente invencion pueden mejorar, segun un algoritmo relativamente menos complejo, la precision de la deteccion de exactitud de un penodo de tono.
Breve descripcion de los dibujos
Con el fin de describir las soluciones tecnicas en la presente invencion de forma mas clara, a continuacion se introducen brevemente los dibujos anexos requeridos para describir la presente invencion. De manera aparente, los dibujos anexos en la siguiente descripcion muestran simplemente algunas realizaciones de la presente invencion y una persona con experiencia normal en la tecnica puede derivar otros dibujos a partir de dichos dibujos anexos sin esfuerzos creativos.
La Figura 1 es un diagrama de flujo de un metodo para detectar la exactitud de un penodo de tono segun una realizacion de la presente invencion;
la Figura 2 es un diagrama estructural esquematico segun una realizacion de la presente invencion;
la Figura 3 es un diagrama estructural esquematico segun una realizacion de la presente invencion;
la Figura 4 es un diagrama estructural esquematico segun una realizacion de la presente invencion; y
la Figura 5 es un diagrama estructural esquematico segun una realizacion de la presente invencion.
Descripcion de las realizaciones
A continuacion se describen de forma clara y completa las soluciones tecnicas en las realizaciones de la presente invencion con referencia a los dibujos anexos en las realizaciones de la presente invencion. De manera aparente, las realizaciones descritas son una parte de, antes que todas, las realizaciones de la presente invencion. Todas las otras realizaciones que una persona con experiencia normal en la tecnica obtenga segun las realizaciones de la presente invencion sin esfuerzos creativos caeran dentro del alcance de proteccion de la presente invencion.
Segun las realizaciones de la presente invencion, la exactitud de un penodo de tono inicial obtenido por la deteccion en bucle abierto en un dominio temporal se detecta en un dominio de la frecuencia, para evitar la aplicacion de un penodo de tono inicial incorrecto al siguiente procesamiento.
Un objetivo de las realizaciones de la presente invencion es llevar a cabo una deteccion de exactitud adicional en un penodo de tono inicial, el cual se obtiene por la deteccion en bucle abierto en el dominio temporal, para mejorar ampliamente la precision y estabilidad de la deteccion de tono extrayendo parametros efectivos en el dominio de la frecuencia y tomando una decision mediante la combinacion de dichos parametros.
de un aparato para detectar la exactitud de un penodo de tono
de un aparato para detectar la exactitud de un penodo de tono
de un aparato para detectar la exactitud de un penodo de tono
de un aparato para detectar la exactitud de un penodo de tono
5
10
15
20
25
30
35
40
45
50
55
Un metodo para detectar la exactitud de un penodo de tono segun una realizacion de la presente invencion, como se muestra en la Figura 1, incluye las siguientes etapas.
11. Determinar, segun un penodo de tono inicial de una senal de entrada en un dominio temporal, un comportamiento de frecuencia de tono de la senal de entrada, en donde el penodo de tono inicial se obtiene llevando a cabo una deteccion en bucle abierto en la senal de entrada.
En general, el comportamiento de frecuencia de tono de la senal de entrada es inversamente proporcional al penodo de tono inicial de la senal de entrada y es directamente proporcional a una cantidad de puntos de una FFT (Transformada Rapida de Fourier) llevada a cabo en la senal de entrada.
12. Determinar, segun un espectro de amplitud de la senal de entrada en un dominio de la frecuencia, un parametro de decision de exactitud de penodo de tono, asociado al comportamiento de frecuencia de tono, de la senal de entrada.
El parametro de decision de exactitud de penodo de tono incluye un parametro de diferencia espectral Dif_sm, un parametro de amplitud espectral promedio Esp_sm y un parametro de relacion diferencia/amplitud Dif_relac. El parametro de diferencia espectral Dif_sm es una suma Dif_sum de diferencias espectrales de una cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma Dif_sum de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono. El parametro de amplitud espectral promedio Esp_sm es un promedio Esp_prom de amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio Esp_prom de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono. El parametro de relacion diferencia/amplitud Dif_relac es una relacion de la suma Dif_sum de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono con el promedio Esp_prom de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono.
13. Determinar la exactitud del penodo de tono inicial segun el parametro de decision de exactitud de penodo de tono.
Por ejemplo, cuando el parametro de decision de exactitud de penodo de tono cumple con una condicion de determinacion de exactitud, se determina que el penodo de tono inicial es correcto; y cuando el parametro de decision de exactitud de penodo de tono cumple con una condicion de determinacion de inexactitud, se determina que el penodo de tono inicial es incorrecto.
De manera espedfica, la condicion de determinacion de inexactitud cumple, al menos, con uno de los siguientes: el parametro de diferencia espectral Dif_sm es menor que un primer umbral de parametro de diferencia, el parametro de amplitud espectral promedio Esp_sm es menor que un primer umbral de parametro de amplitud espectral y el parametro de relacion diferencia/amplitud Dif_relac es menor que un primer umbral de parametro de factor de relacion. La condicion de determinacion de exactitud cumple, al menos, con uno de los siguientes: el parametro de diferencia espectral Dif_sm es mayor que un segundo umbral de parametro de diferencia, el parametro de amplitud espectral promedio Esp_sm es mayor que un segundo umbral de parametro de amplitud espectral y el parametro de relacion diferencia/amplitud Dif_relac es mayor que un segundo umbral de parametro de factor de relacion.
Por ejemplo, si la condicion de determinacion de inexactitud es que el parametro de diferencia espectral Dif_sm es menor que el primer umbral de parametro de diferencia y la condicion de determinacion de exactitud es que el parametro de diferencia espectral Dif_sm es mayor que el segundo umbral de parametro de diferencia, el segundo umbral de parametro de diferencia es mayor que el primer umbral de parametro de diferencia. De manera alternativa, si la condicion de determinacion de inexactitud es que el parametro de amplitud espectral promedio Esp_sm es menor que el primer umbral de parametro de amplitud espectral y la condicion de determinacion de exactitud es que el parametro de amplitud espectral promedio Esp_sm es mayor que el segundo umbral de parametro de amplitud espectral, el segundo umbral de parametro de amplitud espectral es mayor que el primer umbral de parametro de amplitud espectral. De manera alternativa, si la condicion de determinacion de inexactitud es que el parametro de relacion diferencia/amplitud Dif_relac es menor que el primer umbral de parametro de factor de relacion y la condicion de determinacion de exactitud es que el parametro de relacion diferencia/amplitud Dif_relac es mayor que el segundo umbral de parametro de factor de relacion, el segundo umbral de parametro de factor de relacion es mayor que el primer umbral de parametro de factor de relacion.
En general, si el penodo de tono inicial detectado en el dominio temporal es correcto, debe haber un pico en un comportamiento de frecuencia correspondiente al penodo de tono inicial y la energfa es grande; y si el penodo de tono inicial detectado en el dominio temporal es incorrecto, entonces, la deteccion fina se puede llevar a cabo ademas en el dominio de la frecuencia para determinar un penodo de tono correcto.
5
10
15
20
25
30
35
40
En otras palabras, cuando se detecta que el penodo de tono inicial es incorrecto durante la deteccion, segun el parametro de decision de exactitud de penodo de tono, de la exactitud del penodo de tono inicial, la deteccion fina se lleva a cabo en el penodo de tono inicial.
De manera alternativa, cuando se detecta que el penodo de tono inicial es incorrecto durante la deteccion, segun el parametro de decision de exactitud de penodo de tono, de la exactitud del penodo de tono inicial, la energfa del penodo de tono inicial se detecta en un rango de baja frecuencia; y la deteccion de tono corto (una manera de deteccion fina) se lleva a cabo cuando la energfa cumple con una condicion de determinacion de energfa de baja frecuencia.
Por lo tanto, se puede aprender que el metodo para detectar la exactitud de un penodo de tono segun la presente realizacion de la presente invencion puede mejorar, segun un algoritmo relativamente menos complejo, la precision de deteccion de exactitud de un penodo de tono.
A continuacion se describe en detalle una realizacion espedfica, la cual incluye las siguientes etapas.
1. Llevar a cabo una FFT de N puntos en una senal de entrada s(n) para convertir una senal de entrada en un dominio temporal en una senal de entrada en un dominio de la frecuencia para obtener un espectro de amplitud E(k) correspondiente en el dominio de la frecuencia, donde N=256, 512 o similares.
De manera espedfica, el espectro de amplitud E(k) se puede obtener en las siguientes etapas:
Etapa A1. Procesar previamente la senal de entrada s(n) para obtener una senal de entrada preprocesada Spre(n), donde el preprocesamiento se puede procesar como, por ejemplo, filtrado de paso alto, remuestreo o preponderacion. Solo el procesamiento de preponderacion se describe en la presente memoria usando un ejemplo. La senal de entrada preprocesada Spre(n) se obtiene despues de que la senal de entrada s(n) pasa un filtro de paso alto de primer orden, donde el filtro de paso alto tiene un factor de filtro Hpre-en(z) = 1-0,68z'1.
Etapa A2. Llevar a cabo una FFT en la senal de entrada preprocesada Spre(n). En una realizacion, la FFT se lleva a cabo en la senal de entrada preprocesada Spre(n) dos veces, donde una es para llevar a cabo la FFT en una senal de entrada preprocesada de una trama actual y la otra es para llevar a cabo la FFT en una senal de entrada preprocesada que incluye una segunda mitad de la trama actual y una primera mitad de una trama futura. Antes de llevar a cabo la FFT, la senal de entrada preprocesada necesita procesarse mediante ventanas, donde una funcion de ventana es:
imagen1
n = 0,...,Lff7-1. Lfft es una longitud de la FFT.
Una senal basada en ventana, despues de que una primera ventana de analisis y una segunda ventana de analisis se anaden a la senal de entrada preprocesada, es:
,[0]
(ft) V^j-(ft).v^.p(ft), ft 0,..., LfFT 1,
S ven ~ VFFri^pm ^FFT ‘ ^ ft - 0,..., Lm 1,
pre.
donde la primera ventana de analisis corresponde a la trama actual y la segunda ventana de analisis corresponde a la segunda mitad de la trama actual y a la primera mitad de la trama futura.
La FFT se lleva a cabo en la senal basada en ventana para obtener un coeficiente espectral:
kn
x[a](k) = Zs'(>]™(”> N
w-0
xLij(*)=fyj_(/7k
N = LX
k = 0,...,K-l, N = L
FFT
donde K < Lfft/2.
5
10
15
20
25
30
35
La primera mitad de la trama futura proviene de una proxima senal de trama (de anticipacion) que se codifica en el dominio temporal y la senal de entrada se puede ajustar segun una cantidad de proximas senales de trama. Un proposito de llevar a cabo la FFT dos veces es obtener informacion de dominio de la frecuencia mas precisa. En otra realizacion, la FFT tambien se puede llevar a cabo en la senal de entrada preprocesada Spre(n) una vez.
Etapa A3. Calcular, segun el coeficiente espectral, un espectro de energfa.
E{0) = rj(xl(0)+Xl(LrFT/2)),
E{k) = ?j(X2R(k) + Xj(k)), k = l...,K-\,
donde Xr(K) y X(k) denotan una parte real y una parte imaginaria de un kesimo comportamiento de frecuencia, respectivamente; y n es una constante que puede ser, por ejemplo, 4/(Lfft * Lfft).
Etapa A4. Llevar a cabo el procesamiento de ponderacion en el espectro de energfa.
imagen2
En la presente memoria, E[0](k) es un espectro de energfa, calculado segun la formula en la etapa A3, del coeficiente espectral X[0](k) y E[1](k) es un espectro de energfa, calculado segun la formula en la etapa A3, del coeficiente espectral X[1](k).
Etapa A5. Calcular un espectro de amplitud de un dominio de logaritmo.
donde 9 es una constante que puede ser, por ejemplo, 2; y £ es un numero positivo relativamente pequeno para evitar que se supere un valor de logaritmo. De manera alternativa, logio se puede reemplazar por loge en una implementacion de proyecto.
2. Llevar a cabo una deteccion en bucle abierto en la senal de entrada en el dominio temporal para obtener un penodo de tono inicial Top, cuyas etapas son las siguientes:
Etapa B1. Convertir la senal de entrada s(n) en una senal ponderada perceptual:
p p
sw(n) - a’(m) + - f) -^aj^swin -i) n - 0,...,N-l
i-i i-i
■i
donde a, es un coeficiente de LP (Prediccion Lineal), Yi e Y2 son factores de ponderacion perceptuales, p es un orden de un filtro perceptual y N es una longitud de trama.
Etapa B2. Buscar un valor mas grande en cada uno de los tres rangos de deteccion candidatos (por ejemplo, en un dominio de muestra inferior, los tres rangos de deteccion candidatos pueden ser [62 115]; [32 61]; y [17 31]) mediante el uso de una funcion de correlacion y usar los valores mas grandes como tonos candidatos:
A' -1
R (k ) = ^ s w (n ) s vr' (n - k)
n-0
donde k es un valor en un rango de deteccion candidato de un penodo de tono, por ejemplo, k puede ser un valor en los tres rangos de deteccion candidatos.
Etapa B3. Calcular, de forma separada, los coeficientes de correlacion normalizados de los tres tonos candidato:
Etapa B4. Seleccionar un penodo de tono inicial en bucle abierto Top mediante la comparacion de los coeficientes de correlacion normalizados de los rangos: primero, un penodo de un primer tono candidato se usa como un penodo de tono inicial. Luego, si un coeficiente de correlacion normalizado de un segundo tono candidato es mayor que o igual a un producto de un coeficiente de correlacion normalizado del penodo de tono inicial y un factor de relacion fija, un penodo del segundo tono candidato se usa como el penodo de tono inicial; de lo contrario, el penodo de tono inicial
imagen3
imagen4
5
10
15
20
25
30
no cambia. Finalmente, si un coeficiente de correlacion normalizado de un tercer tono candidate es mayor que o igual a un producto del coeficiente de correlacion normalizado del pertedo de tono inicial y el factor de relacion fija, un pertedo del tercer tono candidato se usa como el pertedo de tono inicial; de lo contrario, el pertedo de tono inicial no cambia. Es preciso remitirse a la siguiente expresion de programa:
imagen5
Se puede comprender que no se impone ninguna limitacion en una secuencia de las etapas anteriores para obtener el espectro de amplitud E(k) y el pertedo de de tono inicial Top. Las etapas se pueden llevar a cabo al mismo tiempo o cualquier etapa se puede llevar a cabo en primer lugar.
3. Obtener un comportamiento de frecuencia de tono F_op segun una cantidad N de puntos de la FFT y el pertedo de tono inicial T_op.
Fop = N/Top
4. Calcular una suma Esp_sum de amplitudes espectrales y una suma Dif_sum de diferencias de amplitud espectral de una cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono F_op, donde la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono F_op se puede preestablecer.
En la presente memoria, la suma Esp_sum de las amplitudes espectrales es una suma de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono y la suma Dif_sum de diferencias de amplitud espectral es una suma de diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono, donde las diferencias espectrales se refieren a diferencias entre amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono F_op y una amplitud espectral del comportamiento de frecuencia de tono. La suma Esp_sum de amplitudes espectrales y la suma Dif_sum de diferencias de amplitud espectral se pueden expresar en la siguiente expresion de programa:
Esp_sum[0]=0;
Dif_sum[0]=0;
para (i=1; i < 2*F_op; i++){
Esp_sum[i] = Esp_sum[i-1] + S[i]; Dif_sum[i] = Dif_sum[i-1] + (S[F_op] - S[i]; },
5
10
15
20
25
30
35
40
45
50
donde i es un numero de secuencia de un comportamiento de frecuencia. En una implementacion de proyecto, un valor inicial de i se puede establecer en 2 para evitar la interferencia de baja frecuencia de un coeficiente mas bajo.
5. Determinar un parametro de amplitud espectral promedio Esp_sm, un parametro de diferencia espectral Dif_sm y un parametro de relacion diferencia/amplitud Dif_relac.
El parametro de amplitud espectral promedio Esp_sm puede ser una amplitud espectral promedio Esp_prom de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono F_op, es decir, la suma Esp_sum de amplitudes espectrales dividida por la cantidad de todos los comportamientos de frecuencia de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono F_op:
imagen6
Ademas, el parametro de amplitud espectral promedio Esp_sm puede ser tambien un valor ponderado y suavizado de la amplitud espectral promedio Esp_prom de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono F_op:
Esp_sm =0,2* Esp_sm_pre + 0,8*Esp_prom, donde Esp_sm_pre es un parametro que es un valor ponderado y suavizado de una amplitud espectral promedio de una trama previa. En el presente caso, 0,2 y 0,8 son coeficientes de ponderacion y suavizado. Diferentes coeficientes de ponderacion y suavizado se pueden seleccionar segun las diferentes caractensticas de las senales de entrada.
El parametro de diferencia espectral Dif_sm puede ser una suma Dif_sum de diferencias de amplitud espectral o un valor ponderado y suavizado de la suma Dif_sum de diferencias de amplitud espectral:
Dif_sm =0,4* Dif_sm_pre + 0,6*Dif_sum, donde Dif_sm_pre es un parametro que es un valor ponderado y suavizado de una diferencia espectral de una trama previa. En el presente caso, 0,4 y 0,6 son coeficientes de ponderacion y suavizado. Diferentes coeficientes de ponderacion y suavizado se pueden seleccionar segun las diferentes caractensticas de las senales de entrada.
Como se puede aprender de lo anterior, en general, un valor ponderado y suavizado Esp_sm de un parametro de amplitud espectral promedio de una trama actual se determina segun un valor ponderado y suavizado Esp_sm_pre de un parametro de amplitud espectral promedio de una trama previa y un valor ponderado y suavizado Dif_sm de un parametro de diferencia espectral de la trama actual se determina segun un valor ponderado y suavizado Dif_sm_pre de un parametro de diferencia espectral de la trama previa.
El parametro de relacion diferencia/amplitud Dif_relac es una relacion de la suma Dif_sum de diferencias de amplitud espectral con la amplitud espectral promedio Esp_prom.
imagen7
6. Segun el parametro de amplitud espectral promedio Esp_sm, el parametro de diferencia espectral Dif_sm y el parametro de relacion diferencia/amplitud Dif_relac, determinar si el penodo de tono inicial Top es correcto y determinar si cambiar un indicador de determinacion T_ind.
Por ejemplo, cuando el parametro de diferencia espectral Dif_sm es menor que un primer umbral de parametro de diferencia Dif_umb1, el parametro de amplitud espectral promedio Esp_sm es menor que un primer umbral de parametro de amplitud espectral Esp_umb1 y el parametro de relacion diferencia/amplitud Dif_relac es menor que un primer umbral de parametro de factor de relacion relac_umb1, se determina que el indicador de exactitud T_ind es 1 y se determina que el penodo de tono inicial es incorrecto segun el indicador de exactitud. A modo de otro ejemplo, cuando el parametro de diferencia espectral Dif_sm es mayor que un segundo umbral de parametro de diferencia Dif_umb2, el parametro de amplitud espectral promedio Esp_sm es mayor que un segundo umbral de parametro de amplitud espectral Esp_umb2 y el parametro de relacion diferencia/amplitud Dif_relac es mayor que un segundo umbral de parametro de factor de relacion relac_umb2, se determina que el indicador de exactitud T_ind es 0 y se determina que el penodo de tono inicial es correcto segun el indicador de exactitud. Si no se cumple con todas las condiciones de determinacion de exactitud ni con todas las condiciones de determinacion de inexactitud, un indicador original T_ind permanece sin cambios.
Se debe comprender que el primer umbral de parametro de diferencia Dif_umb1, el primer umbral de parametro de amplitud espectral Esp_umb1, el primer umbral de parametro de factor de relacion relac_umb1, el segundo umbral de parametro de diferencia Dif_umb2, el segundo umbral de parametro de amplitud espectral Esp_umb2 y el segundo umbral de parametro de factor de relacion relac_umb2 se pueden seleccionar segun un requisito.
5
10
15
20
25
30
35
40
45
50
Para un penodo de tono inicial incorrecto detectado segun el metodo anterior, la deteccion fina se puede llevar a cabo en el resultado de deteccion anterior para evitar un error de deteccion del metodo anterior.
Ademas, la energfa en un rango de baja frecuencia se puede detectar ademas para detectar la exactitud del penodo de tono inicial. La deteccion de tono corto se puede llevar a cabo ademas en un penodo de tono incorrecto detectado.
7.1. Si la energfa del penodo de tono inicial es muy pequena en un rango de baja frecuencia, esta se puede detectar
ademas para el penodo de tono inicial. Cuando la energfa detectada cumple con una condicion de determinacion de energfa de baja frecuencia, se lleva a cabo la deteccion de tono corto. De manera espedfica, la condicion de determinacion de energfa de baja frecuencia especifica dos valores relativos de energfa de baja frecuencia que representan que la energfa de baja frecuencia es relativamente muy pequena y que la energfa de baja frecuencia es relativamente grande. Por lo tanto, cuando la energfa detectada cumple con el hecho de que la energfa de baja frecuencia es relativamente muy pequena, el indicador de exactitud T_ind se establece en 1; y cuando la energfa detectada cumple con el hecho de que la energfa de baja frecuencia es relativamente grande, el indicador de exactitud T_ind se establece en 0. Si la energfa detectada no cumple con la condicion de determinacion de energfa de baja frecuencia, el indicador original T_ind permanece sin cambios. Cuando el indicador de exactitud T_ind se establece en 1, la deteccion de tono corto se lleva a cabo. Ademas de especificar los valores relativos de energfa de baja frecuencia, la condicion de determinacion de energfa de baja frecuencia puede tambien especificar otra
combinacion de condiciones para aumentar la robustez de la condicion de determinacion de energfa de baja
frecuencia.
Por ejemplo, dos comportamientos de frecuencia f_baja1 y f_baja2 se establecen primero, la energfa que es la energfa 1 y la energfa 2 de los penodos de tono inicial en rangos entre 0 y f_baja1 y entre f_baja1 y f_baja2 se calculan de forma separada y luego se calcula una diferencia de energfa entre la energfa1 y la energfa2: energfa_dif=energfa2-energfa1. Ademas, la diferencia de energfa se puede ponderar y un factor de ponderacion puede ser un factor de grado de voz voz_factor, es decir, energfa_dif_p=energfa_dif*voz_factor. En general, una diferencia de energfa ponderada se puede ademas suavizar y un resultado del suavizado se compara con un umbral preestablecido para determinar si falta la energfa del penodo de tono inicial en el rango de baja frecuencia.
De manera alternativa, el algoritmo anterior se simplifica, de modo que la energfa de baja frecuencia del penodo de tono inicial en un rango se obtiene directamente, entonces, la energfa de baja frecuencia se pondera y suaviza y un resultado del suavizado se compara con un umbral preestablecido.
7.2. Llevar a cabo la deteccion de tono corto y determinar, segun el indicador de exactitud T_ind o segun el indicador
de exactitud T_ind en combinacion con otra condicion, si reemplazar el penodo de tono inicial Top con un resultado de la deteccion de tono corto. De manera alternativa, antes de llevar a cabo el penodo de tono corto, se puede
determinar primero si es necesario llevar a cabo la deteccion de tono corto segun el indicador de exactitud T_ind o
segun el indicador de exactitud T_ind en combinacion con otra condicion.
La deteccion de tono corto se puede llevar a cabo en el dominio de la frecuencia o se puede llevar a cabo en el dominio temporal.
Por ejemplo, en el dominio temporal, un rango de deteccion del penodo de tono es, en general, de 34 a 231, para llevar a cabo la deteccion de tono corto y buscar un penodo de tono con un rango inferior a 34, y un metodo usado puede ser un metodo de funcion de autocorrelacion de dominio temporal:
R(T) = MAX{R(t), t< 34};
si R(T) es mayor que un umbral preestablecido o un valor de autocorrelacion que corresponde al penodo de tono inicial y, cuando T_ind es 1 (aqu tambien se puede anadir otra condicion), T se puede considerar un penodo de tono corto detectado.
Ademas de la deteccion de tono corto, tambien se puede llevar a cabo la deteccion de frecuencia multiplicada. Si el indicador de exactitud T_ind es 1, se indica que el penodo de tono inicial Top es incorrecto y, por lo tanto, la deteccion de tono de frecuencia multiplicada se puede llevar a cabo en un lugar de frecuencia multiplicada del penodo de tono inicial Top, donde un penodo de tono de frecuencia multiplicada puede ser una integral multiple del penodo de tono inicial Top o puede ser un multiplo fraccionario del penodo de tono inicial Top.
Para la etapa 7.1 y la etapa 7.2, solamente la etapa 7.2 se puede llevar a cabo para simplificar el proceso de la deteccion fina.
8. Todas las etapas 1 a 7.2 se llevan a cabo para una trama actual. Despues de procesar la trama actual, se necesita procesar una trama siguiente. Por lo tanto, para la proxima trama, se usan un parametro de amplitud espectral promedio Esp_sm y un parametro de diferencia espectral Dif_sm de la trama actual, un parametro Esp_sm_pre que es un valor ponderado y suavizado de una amplitud espectral promedio de una trama previa y un
5
10
15
20
25
30
35
40
45
50
55
parametro Dif_sm_pre que es un valor ponderado y suavizado de una diferencia espectral de la trama previa y se almacenan de forma temporal para implementar el suavizado de parametro de la proxima trama.
Por lo tanto, se puede aprender que en la presente realizacion de la presente invencion, despues de obtener un penodo de tono inicial durante la deteccion en bucle abierto, la exactitud del penodo de tono inicial se detecta en un dominio de la frecuencia, y si se detecta que el penodo de tono inicial es incorrecto, el penodo de tono inicial se corrige usando la deteccion fina, para asegurar la exactitud del penodo de tono inicial. En el metodo para detectar la exactitud de un penodo de tono inicial, un parametro de diferencia espectral, un parametro de amplitud espectral promedio (o energfa espectral) y un parametro de relacion diferencia/amplitud de una cantidad predeterminada de comportamientos de frecuencia en dos lados de un comportamiento de frecuencia de tono necesitan extraerse. Dado que la complejidad de extraer dichos parametros es baja, la presente realizacion de la presente invencion puede asegurar que un penodo de tono con exactitud relativamente alta se produce segun un algoritmo menos complejo. En conclusion, el metodo para detectar la exactitud de un penodo de tono segun la presente realizacion de la presente invencion puede mejorar, segun un algoritmo relativamente menos complejo, la precision de deteccion de exactitud de un penodo de tono.
A continuacion se describen aparatos para detectar la exactitud de un penodo de tono segun las realizaciones de la presente invencion en detalle con referencia a la Figura 2 a la Figura 4.
En la Figura 2, un aparato 20 para detectar la exactitud de un penodo de tono incluye una unidad de determinacion de comportamiento de frecuencia de tono 21, una unidad de generacion de parametro 22 y una unidad de determinacion de exactitud 23.
La unidad de determinacion de comportamiento de frecuencia de tono 21 se configura para determinar, segun un penodo de tono inicial de una senal de entrada en un dominio temporal, un comportamiento de frecuencia de tono de la senal de entrada, donde el penodo de tono inicial se obtiene llevando a cabo una deteccion en bucle abierto en la senal de entrada. De manera espedfica, la unidad de determinacion de comportamiento de frecuencia de tono 21 determina el comportamiento de frecuencia de tono basado en la siguiente manera: el comportamiento de frecuencia de tono de la senal de entrada es inversamente proporcional al penodo de tono inicial y es directamente proporcional a una cantidad de puntos de una FFT llevada a cabo en la senal de entrada.
La unidad de generacion de parametro 22 se configura para determinar, segun un espectro de amplitud de la senal de entrada en un dominio de la frecuencia, un parametro de decision de exactitud de penodo de tono, asociado al comportamiento de frecuencia de tono, de la senal de entrada. El parametro de decision de exactitud de penodo de tono generado por la unidad de generacion de parametro 22 incluye un parametro de diferencia espectral Dif_sm, un parametro de amplitud espectral promedio Esp_sm y un parametro de relacion diferencia/amplitud Dif_relac. El parametro de diferencia espectral Dif_sm es una suma Dif_sum de diferencias espectrales de una cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma Dif_sum de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono. El parametro de amplitud espectral promedio Esp_sm es un promedio Esp_prom de amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio Esp_prom de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono. El parametro de relacion diferencia/amplitud Dif_relac es una relacion de la suma Dif_sum de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono con el promedio Esp_prom de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono.
La unidad de determinacion de exactitud 23 se configura para determinar la exactitud del penodo de tono inicial segun el parametro de decision de exactitud de penodo de tono.
De manera espedfica, cuando la unidad de determinacion de exactitud 23 determina que el parametro de decision de exactitud de penodo de tono cumple con una condicion de determinacion de exactitud, la unidad de determinacion de exactitud 23 determina que el penodo de tono inicial es correcto; o, cuando la unidad de determinacion de exactitud 23 determina que el parametro de decision de exactitud de penodo de tono cumple con una condicion de determinacion de inexactitud, la unidad de determinacion de exactitud 23 determina que el penodo de tono inicial es incorrecto.
En la presente memoria, la condicion de determinacion de inexactitud cumple, al menos, con uno de los siguientes: el parametro de diferencia espectral Dif_sm es menor que un primer umbral de parametro de diferencia, el parametro de amplitud espectral promedio Esp_sm es menor que un primer umbral de parametro de amplitud espectral y el parametro de relacion diferencia/amplitud Dif_relac es menor que un primer umbral de parametro de factor de relacion.
La condicion de determinacion de exactitud cumple, al menos, con uno de los siguientes: el parametro de diferencia espectral Dif_sm es mayor que un segundo umbral de parametro de diferencia, el parametro de amplitud espectral promedio Esp_sm es mayor que un segundo umbral de parametro de amplitud espectral y el parametro de relacion diferencia/amplitud Dif_relac es mayor que un segundo umbral de parametro de factor de relacion.
5 De manera opcional, como se muestra en la Figura 3, en comparacion con el aparato 20, un aparato 30 para detectar la exactitud de un penodo de tono ademas incluye una unidad de deteccion fina 24, configurada para, cuando se detecta que el penodo de tono inicial es incorrecto durante la deteccion, segun el parametro de decision de exactitud de penodo de tono, de la exactitud del penodo de tono inicial, llevar a cabo la deteccion fina en la senal de entrada.
10 De manera opcional, como se muestra en la Figura 4, en comparacion con el aparato 30, un aparato 40 para detectar la exactitud de un penodo de tono puede ademas incluir una unidad de deteccion de energfa 25, configurada para, cuando se detecta un penodo de tono inicial incorrecto durante la deteccion, segun el parametro de decision de exactitud de penodo de tono, de la exactitud del penodo de tono inicial, detectar energfa del penodo de tono inicial en un rango de baja frecuencia. Luego, la unidad de deteccion fina 24 lleva a cabo una deteccion de 15 tono corto en la senal de entrada cuando la unidad de deteccion de energfa 25 detecta que la energfa cumple con una condicion de determinacion de energfa de baja frecuencia.
Por lo tanto, se puede aprender que el aparato para detectar la exactitud de un penodo de tono segun la presente realizacion de la presente invencion puede mejorar, segun un algoritmo relativamente menos complejo, la precision de deteccion de exactitud de un penodo de tono.
20 Con referencia a la Figura 5, en otra realizacion, un aparato para detectar la exactitud de un penodo de tono incluye: un receptor, configurado para recibir una senal de entrada; y
un procesador, configurado para determinar un comportamiento de frecuencia de tono de la senal de entrada segun un penodo de tono inicial de la senal de entrada en un dominio temporal, donde el penodo de tono inicial se obtiene llevando a cabo una deteccion en bucle abierto en la senal de entrada; determinar, segun un espectro de amplitud 25 de la senal de entrada en un dominio de la frecuencia, un parametro de decision de exactitud de penodo de tono, asociado al comportamiento de frecuencia de tono, de la senal de entrada; y determinar la exactitud del penodo de tono inicial segun el parametro de decision de exactitud de penodo de tono.
Se debe comprender que el procesador puede implementar cada etapa en las realizaciones anteriores del metodo.
Una persona con experiencia normal en la tecnica puede darse cuenta de que, en combinacion con los ejemplos 30 descritos en las realizaciones descritas en la presente memoria, las unidades y etapas del algoritmo se pueden implementar por hardware electronico o una combinacion de software de ordenador y hardware electronico. Si las funciones se llevan a cabo mediante hardware o software depende de las aplicaciones particulares y de las condiciones de limitacion de diseno de las soluciones tecnicas. Una persona experta en la tecnica puede utilizar diferentes metodos para implementar las funciones descritas para cada aplicacion particular, pero no se debe 35 considerar que la implementacion excede el alcance de la presente invencion.
Una persona con experiencia en la tecnica podra comprender de forma clara que, a los fines de una descripcion conveniente y breve, para un proceso de trabajo detallado del sistema, aparato y unidad anteriores, se puede hacer referencia a un proceso correspondiente en las realizaciones anteriores del metodo y los detalles no se describen nuevamente en la presente memoria.
40 En las diversas realizaciones provistas en la presente solicitud, se debe comprender que el sistema, aparato y metodo descritos pueden implementarse de otras maneras. Por ejemplo, la realizacion del aparato descrita es meramente a modo de ejemplo. Por ejemplo, la division de unidad es meramente una division de funcion logica y en la implementacion real la division puede ser otra. Por ejemplo, se pueden combinar o integrar en otro sistema multiples unidades o componentes. Ademas, los acoplamientos mutuos representados o descritos o los 45 acoplamientos directos o conexiones de comunicaciones se pueden implementar a traves de algunas interfaces. Los acoplamientos indirectos o conexiones de comunicacion entre los aparatos o unidades se pueden implementar de forma electronica, mecanica u otras.
Las unidades descritas como partes separadas pueden o pueden no estar ffsicamente separadas y las partes que se muestran como unidades pueden o pueden no ser unidades ffsicas, pueden estar ubicadas en una posicion o 50 pueden distribuirse en multiples unidades de red. Una parte de o todas las unidades pueden seleccionarse segun las necesidades reales para alcanzar los objetivos de las soluciones de las realizaciones.
Ademas, las unidades funcionales en las realizaciones de la presente invencion se pueden integrar en una unidad de procesamiento, o cada una de las unidades puede existir sola ffsicamente, o dos o mas unidades se integran en una unidad.
Cuando las funciones se implementan en una forma de una unidad funcional de software y se venden o usan como un producto independiente, las funciones se pueden almacenar en un medio de almacenamiento legible por ordenador. Segun dicho entendimiento, las soluciones tecnicas de la presente invencion esencialmente, o la parte que contribuye a la tecnica anterior, o una parte de las soluciones tecnicas, se pueden implementar en forma de un 5 producto de software. El producto de software se almacena en un medio de almacenamiento e incluye varias instrucciones para ordenar a un dispositivo informatico (que puede ser un ordenador personal, un servidor o un dispositivo de red) que lleve a cabo todas o una parte de las etapas de los metodos descritos en las realizaciones de la presente invencion. Los medios de almacenamiento anteriores incluyen: cualquier medio que pueda almacenar un codigo de programa como, por ejemplo, una memoria USB; un disco duro removible, una memoria de solo lectura 10 (ROM, por su sigla en ingles), una memoria de acceso aleatorio (RAM, por su sigla en ingles), un disco magnetico o un disco optico.
Las anteriores descripciones son meramente maneras espedficas de implementacion de la presente invencion, pero no pretenden limitar el alcance de proteccion de la presente invencion.

Claims (8)

  1. 5
    10
    15
    20
    25
    30
    35
    40
    45
    REIVINDICACIONES
    1. Un metodo para determinar la exactitud de un penodo de tono, que comprende:
    determinar (11), segun un penodo de tono inicial de una senal de entrada en un dominio temporal, un comportamiento de frecuencia de tono de la senal de entrada, en donde el penodo de tono inicial se obtiene llevando a cabo una deteccion en bucle abierto en la senal de entrada;
    determinar (12), segun un espectro de amplitud de la senal de entrada en un dominio de la frecuencia, un parametro de decision de exactitud de penodo de tono, asociado al comportamiento de frecuencia de tono, de la senal de entrada; y
    determinar (13) la exactitud del penodo de tono inicial segun el parametro de decision de exactitud de penodo de tono;
    el metodo caracterizado por que:
    el parametro de decision de exactitud de penodo de tono comprende un parametro de diferencia espectral, un parametro de amplitud espectral promedio y un parametro de relacion diferencia/amplitud, el parametro de diferencia espectral es una suma de diferencias espectrales de una cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; el parametro de amplitud espectral promedio es un promedio de amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; y el parametro de relacion diferencia/amplitud es una relacion de la suma de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono con el promedio de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono;
    donde las diferencias espectrales se refieren a diferencias entre amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono y una amplitud espectral del comportamiento de frecuencia de tono.
  2. 2. El metodo segun la reivindicacion 1, en donde la exactitud de determinacion del penodo de tono inicial segun el parametro de decision de exactitud de penodo de tono comprende:
    cuando el parametro de decision de exactitud de penodo de tono cumple con una condicion de determinacion de exactitud, determinar que el penodo de tono inicial es correcto; y
    cuando el parametro de decision de exactitud de penodo de tono cumple con una condicion de determinacion de inexactitud, determinar que el penodo de tono inicial es incorrecto.
  3. 3. El metodo segun la reivindicacion 2, en donde:
    la condicion de determinacion de exactitud cumple, al menos, con uno de los siguientes:
    el parametro de diferencia espectral es mayor que un segundo umbral de parametro de diferencia, el parametro de amplitud espectral promedio es mayor que un segundo umbral de parametro de amplitud espectral y el parametro de relacion diferencia/amplitud es mayor que un segundo umbral de parametro de factor de relacion; y
    la condicion de determinacion de inexactitud cumple, al menos, con uno de los siguientes:
    el parametro de diferencia espectral es menor que un primer umbral de parametro de diferencia, el parametro de amplitud espectral promedio es menor que un primer umbral de parametro de amplitud espectral y el parametro de relacion diferencia/amplitud es menor que un primer umbral de parametro de factor de relacion.
  4. 4. El metodo segun cualquiera de las reivindicaciones 1 a 3, en donde:
    el comportamiento de frecuencia de tono de la senal de entrada es inversamente proporcional al penodo de tono inicial y es directamente proporcional a la cantidad de puntos de una transformada rapida de Fourier llevada a cabo en la senal de entrada.
  5. 5. Un aparato para determinar la exactitud de un penodo de tono, que comprende:
    una unidad de determinacion de comportamiento de frecuencia de tono (21), configurada para determinar, segun un penodo de tono inicial de una senal de entrada en un dominio temporal, un comportamiento de frecuencia de tono
    14
    5
    10
    15
    20
    25
    30
    35
    40
    45
    de la senal de entrada, en donde el peiiodo de tono inicial se obtiene llevando a cabo una deteccion en bucle abierto en la senal de entrada;
    una unidad de generacion de parametro (22), configurada para determinar, segun un espectro de amplitud de la senal de entrada en un dominio de la frecuencia, un parametro de decision de exactitud de penodo de tono, asociado al comportamiento de frecuencia de tono, de la senal de entrada; y
    una unidad de determinacion de exactitud (23), configurada para determinar la exactitud del penodo de tono inicial segun el parametro de decision de exactitud de penodo de tono;
    el aparato caracterizado por que:
    el parametro de decision de exactitud de penodo de tono generado por la unidad de generacion de parametro comprende un parametro de diferencia espectral, un parametro de amplitud espectral promedio y un parametro de relacion diferencia/amplitud, el parametro de diferencia espectral es una suma de diferencias espectrales de una cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; el parametro de amplitud espectral promedio es un promedio de amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; y el parametro de relacion diferencia/amplitud es una relacion de la suma de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono con el promedio de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono;
    donde las diferencias espectrales se refieren a diferencias entre amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono y una amplitud espectral del comportamiento de frecuencia de tono.
  6. 6. El aparato segun la reivindicacion 5, en donde la unidad de determinacion de exactitud (23) se configura espedficamente para:
    cuando se determina que el parametro de decision de exactitud de penodo de tono cumple con una condicion de determinacion de exactitud, determinar que el penodo de tono inicial es correcto; y
    cuando se determina que el parametro de decision de exactitud de penodo de tono cumple con una condicion de determinacion de inexactitud, determinar que el penodo de tono inicial es incorrecto.
  7. 7. El aparato segun la reivindicacion 6, en donde:
    la condicion de determinacion de exactitud cumple, al menos, con uno de los siguientes:
    el parametro de diferencia espectral es mayor que un segundo umbral de parametro de diferencia, el parametro de amplitud espectral promedio es mayor que un segundo umbral de parametro de amplitud espectral y el parametro de relacion diferencia/amplitud es mayor que un segundo umbral de parametro de factor de relacion; y
    la condicion de determinacion de inexactitud cumple, al menos, con uno de los siguientes:
    el parametro de diferencia espectral es menor que un primer umbral de parametro de diferencia, el parametro de amplitud espectral promedio es menor que un primer umbral de parametro de amplitud espectral y el parametro de relacion diferencia/amplitud es menor que un primer umbral de parametro de factor de relacion.
  8. 8. El aparato segun cualquiera de las reivindicaciones 5 a 7, en donde:
    el comportamiento de frecuencia de tono de la senal de entrada es inversamente proporcional al penodo de tono inicial y es directamente proporcional a una cantidad de puntos de una transformada rapida de Fourier llevada a cabo en la senal de entrada.
ES12876916.3T 2012-05-18 2012-12-26 Método y aparato para detectar la exactitud del período de tono Active ES2627857T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201210155298.4A CN103426441B (zh) 2012-05-18 2012-05-18 检测基音周期的正确性的方法和装置
CN201210155298 2012-05-18
PCT/CN2012/087512 WO2013170610A1 (zh) 2012-05-18 2012-12-26 检测基音周期的正确性的方法和装置

Publications (1)

Publication Number Publication Date
ES2627857T3 true ES2627857T3 (es) 2017-07-31

Family

ID=49583070

Family Applications (2)

Application Number Title Priority Date Filing Date
ES17150741T Active ES2847150T3 (es) 2012-05-18 2012-12-26 Método y aparato para detectar la exactitud de un período de tono
ES12876916.3T Active ES2627857T3 (es) 2012-05-18 2012-12-26 Método y aparato para detectar la exactitud del período de tono

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES17150741T Active ES2847150T3 (es) 2012-05-18 2012-12-26 Método y aparato para detectar la exactitud de un período de tono

Country Status (10)

Country Link
US (5) US9633666B2 (es)
EP (2) EP3246920B1 (es)
JP (2) JP6023311B2 (es)
KR (2) KR101649243B1 (es)
CN (1) CN103426441B (es)
DK (1) DK2843659T3 (es)
ES (2) ES2847150T3 (es)
HU (1) HUE034664T2 (es)
PL (1) PL2843659T3 (es)
WO (1) WO2013170610A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426441B (zh) 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
CN106373594B (zh) * 2016-08-31 2019-11-26 华为技术有限公司 一种音调检测方法及装置
US10192461B2 (en) 2017-06-12 2019-01-29 Harmony Helper, LLC Transcribing voiced musical notes for creating, practicing and sharing of musical harmonies
US11282407B2 (en) 2017-06-12 2022-03-22 Harmony Helper, LLC Teaching vocal harmonies
CN110600060B (zh) * 2019-09-27 2021-10-22 云知声智能科技股份有限公司 一种硬件音频主动探测hvad系统
CN111223491B (zh) * 2020-01-22 2022-11-15 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
CA1245363A (en) * 1985-03-20 1988-11-22 Tetsu Taguchi Pattern matching vocoder
US4776014A (en) * 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US4809334A (en) 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5127053A (en) 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
US7171016B1 (en) * 1993-11-18 2007-01-30 Digimarc Corporation Method for monitoring internet dissemination of image, video and/or audio files
US6463406B1 (en) 1994-03-25 2002-10-08 Texas Instruments Incorporated Fractional pitch method
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
US6136548A (en) * 1994-11-22 2000-10-24 Rutgers, The State University Of New Jersey Methods for identifying useful T-PA mutant derivatives for treatment of vascular hemorrhaging
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5864795A (en) 1996-02-20 1999-01-26 Advanced Micro Devices, Inc. System and method for error correction in a correlation-based pitch estimator
US5774836A (en) 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
US6226604B1 (en) 1996-08-02 2001-05-01 Matsushita Electric Industrial Co., Ltd. Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
JP4121578B2 (ja) 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
US6456965B1 (en) 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6438517B1 (en) 1998-05-19 2002-08-20 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
DE69939086D1 (de) * 1998-09-17 2008-08-28 British Telecomm Audiosignalverarbeitung
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames
AU3651200A (en) 1999-08-17 2001-03-13 Glenayre Electronics, Inc Pitch and voicing estimation for low bit rate speech coders
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6418405B1 (en) 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for dynamic segmentation of a low bit rate digital voice message
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
WO2001078061A1 (en) 2000-04-06 2001-10-18 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in a speech signal
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
WO2002029782A1 (en) * 2000-10-02 2002-04-11 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
WO2002101717A2 (en) * 2001-06-11 2002-12-19 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
KR100393899B1 (ko) 2001-07-27 2003-08-09 어뮤즈텍(주) 2-단계 피치 판단 방법 및 장치
JP3888097B2 (ja) 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
CN1324556C (zh) * 2001-08-31 2007-07-04 株式会社建伍 生成基音周期波形信号的装置和方法及处理语音信号的装置和方法
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7233894B2 (en) 2003-02-24 2007-06-19 International Business Machines Corporation Low-frequency band noise detection
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
CA2566368A1 (en) 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
KR100724736B1 (ko) 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
KR100770839B1 (ko) 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
CN100541609C (zh) * 2006-09-18 2009-09-16 华为技术有限公司 一种实现开环基音搜索的方法和装置
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
CN101556795B (zh) * 2008-04-09 2012-07-18 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
US8645129B2 (en) * 2008-05-12 2014-02-04 Broadcom Corporation Integrated speech intelligibility enhancement system and acoustic echo canceller
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
CN101354889B (zh) * 2008-09-18 2012-01-11 北京中星微电子有限公司 一种语音变调方法及装置
CN101599272B (zh) 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
EP2211335A1 (en) * 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
WO2010091554A1 (zh) * 2009-02-13 2010-08-19 华为技术有限公司 一种基音周期检测方法和装置
CN101814291B (zh) * 2009-02-20 2013-02-13 北京中星微电子有限公司 在时域提高语音信号信噪比的方法和装置
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
JP5433696B2 (ja) * 2009-07-31 2014-03-05 株式会社東芝 音声処理装置
US20140019125A1 (en) * 2011-03-31 2014-01-16 Nokia Corporation Low band bandwidth extended
CN102231274B (zh) * 2011-05-09 2013-04-17 华为技术有限公司 基音周期估计值修正方法、基音估计方法和相关装置
CN102842305B (zh) * 2011-06-22 2014-06-25 华为技术有限公司 一种基音检测的方法和装置
ES2757700T3 (es) * 2011-12-21 2020-04-29 Huawei Tech Co Ltd Detección y codificación de altura tonal muy débil
CN103426441B (zh) * 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置

Also Published As

Publication number Publication date
US10249315B2 (en) 2019-04-02
JP2017027076A (ja) 2017-02-02
US9633666B2 (en) 2017-04-25
KR20160099729A (ko) 2016-08-22
WO2013170610A1 (zh) 2013-11-21
US20230402048A1 (en) 2023-12-14
US20210335377A1 (en) 2021-10-28
US20150073781A1 (en) 2015-03-12
JP2015516597A (ja) 2015-06-11
DK2843659T3 (en) 2017-07-03
JP6023311B2 (ja) 2016-11-09
KR101762723B1 (ko) 2017-07-28
KR101649243B1 (ko) 2016-08-18
US10984813B2 (en) 2021-04-20
EP2843659A1 (en) 2015-03-04
US11741980B2 (en) 2023-08-29
EP2843659A4 (en) 2015-07-15
CN103426441B (zh) 2016-03-02
PL2843659T3 (pl) 2017-10-31
CN103426441A (zh) 2013-12-04
US20190180766A1 (en) 2019-06-13
JP6272433B2 (ja) 2018-01-31
US20170194016A1 (en) 2017-07-06
EP3246920A1 (en) 2017-11-22
EP2843659B1 (en) 2017-04-05
KR20150014492A (ko) 2015-02-06
ES2847150T3 (es) 2021-08-02
EP3246920B1 (en) 2020-10-28
HUE034664T2 (hu) 2018-02-28

Similar Documents

Publication Publication Date Title
ES2627857T3 (es) Método y aparato para detectar la exactitud del período de tono
Mowlaee et al. Harmonic phase estimation in single-channel speech enhancement using phase decomposition and SNR information
RU2691243C2 (ru) Зависящее от гармоничности управление инструментом фильтрации гармоник
Janicki Spoofing countermeasure based on analysis of linear prediction error.
ES2627581T3 (es) Sistema y método para la excitación de libro de códigos mixto para la codificación de la voz
US9524720B2 (en) Systems and methods of blind bandwidth extension
BR9906706B1 (pt) Aparelho e método de codificação de voz de modo múltiplo
SG189452A1 (en) Apparatus and method for determining weighting function having low complexity for linear predictive coding (lpc) coefficients quantization
JP6439682B2 (ja) 信号処理装置、信号処理方法および信号処理プログラム
Zhen et al. Psychoacoustic calibration of loss functions for efficient end-to-end neural audio coding
KR100463417B1 (ko) 상관함수의 최대값과 그의 후보값의 비를 이용한 피치검출 방법 및 그 장치
RU2682851C2 (ru) Усовершенствованная коррекция потери кадров с помощью речевой информации
ES2703565T3 (es) Aparato, método, programa y soporte de registro de análisis predictivo lineal
Sampaio et al. Detection of AMR double compression using compressed-domain speech features
Doets et al. Distortion estimation in compressed music using only audio fingerprints
CN106463122A (zh) 突发帧错误处理
Wen et al. Robust audio anti-spoofing with fusion-reconstruction learning on multi-order spectrograms
Chin et al. Improved voice activity detection for speech recognition system
Liu et al. Blind bandwidth extension of audio signals based on non-linear prediction and hidden Markov model
US20240021208A1 (en) Method and device for classification of uncorrelated stereo content, cross-talk detection, and stereo mode selection in a sound codec
Hosoda et al. Complex-domain pitch estimation algorithm for narrowband speech signals
Farsi et al. Improving voice activity detection used in ITU-T G. 729. B
KR100557113B1 (ko) 다수의 대역들을 이용한 대역별 음성신호 판정장치 및 방법
Shin et al. Quantization Noise Masking in Perceptual Neural Audio Coder
CN117935789A (zh) 语音识别方法及系统、设备、存储介质