ES2847150T3 - Método y aparato para detectar la exactitud de un período de tono - Google Patents

Método y aparato para detectar la exactitud de un período de tono Download PDF

Info

Publication number
ES2847150T3
ES2847150T3 ES17150741T ES17150741T ES2847150T3 ES 2847150 T3 ES2847150 T3 ES 2847150T3 ES 17150741 T ES17150741 T ES 17150741T ES 17150741 T ES17150741 T ES 17150741T ES 2847150 T3 ES2847150 T3 ES 2847150T3
Authority
ES
Spain
Prior art keywords
parameter
spectral
frequency
accuracy
tone
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES17150741T
Other languages
English (en)
Inventor
Fengyan Qi
Lei Miao
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Huawei Technologies Co Ltd
Original Assignee
Huawei Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Huawei Technologies Co Ltd filed Critical Huawei Technologies Co Ltd
Application granted granted Critical
Publication of ES2847150T3 publication Critical patent/ES2847150T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • G10L21/013Adapting to target pitch
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • G10L19/125Pitch excitation, e.g. pitch synchronous innovation CELP [PSI-CELP]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrophonic Musical Instruments (AREA)

Abstract

Un método para determinar la exactitud de un período de tono, que comprende: determinar (11), según un período de tono inicial de una señal de entrada en un dominio temporal, un comportamiento de frecuencia de tono de la señal de entrada, en donde el período de tono inicial se obtiene llevando a cabo una detección en bucle abierto en la señal de entrada; determinar (12), según un espectro de amplitud de la señal de entrada en un dominio de la frecuencia, un parámetro de decisión de exactitud de período de tono, asociado al comportamiento de frecuencia de tono, de la señal de entrada; y determinar (13) la exactitud del período de tono inicial según el parámetro de decisión de exactitud de período de tono, y determinar si cambiar una bandera de exactitud (T_bandera); en donde el método se caracteriza por que: el parámetro de decisión de exactitud de período de tono comprende un parámetro de diferencias espectrales, un parámetro de amplitud espectral promedio y un parámetro de relación diferencia/amplitud, el parámetro de diferencias espectrales es una suma de diferencias espectrales de una cantidad de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma de las diferencias espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; el parámetro de amplitud espectral promedio es un promedio de amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio de las amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; y el parámetro de relación diferencia/amplitud es una relación de la suma de las diferencias espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono con respecto al promedio de las amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; donde las diferencias espectrales se refieren a diferencias entre amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono y una amplitud espectral del comportamiento de frecuencia de tono; en donde el promedio de amplitudes espectrales se determina por la siguiente ecuación: **(Ver fórmula)** en donde, Esp_prom representa el promedio de amplitudes espectrales; Esp_sum representa una suma de las amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; y 2* F_op-1 representa la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; en donde el comportamiento de frecuencia de tono se determina por la siguiente ecuación: **(Ver fórmula)** en donde, F_op representa el comportamiento de frecuencia de tono; N representa una cantidad de puntos de una transformada FFT; y Top representa el período de tono inicial.

Description

DESCRIPCIÓN
Método y aparato para detectar la exactitud de un período de tono
Campo técnico
La presente invención se refiere al campo de las tecnologías de audio y, más específicamente, a un método y a un aparato para detectar la exactitud de un período de tono.
Antecedentes
En el procesamiento de señales de audio y voz, la detección de tono es una de las tecnologías claves en varias aplicaciones reales de audio y voz. Por ejemplo, la detección de tono es la tecnología clave en aplicaciones de codificación de la voz, reconocimiento de la voz, karaoke y similares. Las tecnologías de detección de tono se aplican ampliamente a varios dispositivos electrónicos como, por ejemplo, un teléfono móvil, un aparato inalámbrico, un asistente digital personal (PDA, por sus siglas en inglés), un ordenador portátil o portable, un receptor/navegador GPS, una cámara, un reproductor de audio/vídeo, una cámara de vídeo, una videograbadora y un dispositivo de vigilancia. Por lo tanto, la precisión y eficiencia de detección de la detección de tono directamente afectan el efecto de varias aplicaciones reales de audio y voz.
La detección de tono actual se lleva a cabo, básicamente, en un dominio temporal y, en general, un algoritmo de detección de tono es un método de autocorrelación de dominio temporal. Sin embargo, en las aplicaciones reales, la detección de tono que se lleva a cabo en el dominio temporal lleva, con frecuencia, a un fenómeno de multiplicación de frecuencia y es difícil resolver, de manera deseable, el fenómeno de multiplicación de frecuencia en el dominio temporal, porque grandes coeficientes de autocorrelación se obtienen para un período de tono real como para una frecuencia multiplicada del período de tono real y, además, en un caso con ruido de fondo, un período de tono inicial obtenido por la detección en bucle abierto en el dominio temporal puede también no ser exacto. Aquí, un período de tono real es un período de tono real en la voz, es decir, un período de tono correcto. Un período de tono se refiere a un intervalo de tiempo mínimo repetible en la voz.
Detectar un período de tono inicial en un dominio temporal se usa como un ejemplo. La mayoría de los estándares de codificación de voz de ITU-T (Sector de Normalización de las Telecomunicaciones de la Unión Internacional de Telecomunicaciones (ITU-T, por sus siglas en inglés) requieren que se lleve a cabo la detección de tono, pero casi todas las detecciones de tono se llevan a cabo en un mismo dominio (un dominio temporal o un dominio de la frecuencia). Por ejemplo, un método de detección de tono en bucle abierto que se lleva a cabo solamente en un dominio ponderado perceptual se aplica en el estándar de codificación de la voz G729.
En el presente método de detección de tono en bucle abierto, después de obtener un período de tono inicial por la detección en bucle abierto en el dominio temporal, la exactitud del período de tono inicial no se lleva a cabo, sino que la detección fina en bucle cerrado se lleva a cabo directamente en el período de tono inicial. La detección fina en bucle cerrado se lleva a cabo en un intervalo del período que incluye el período de tono inicial obtenido por la detección en bucle abierto, de modo que, si el período de tono inicial obtenido por la detección en bucle abierto es incorrecto, un período de tono obtenido por la detección fina en bucle cerrado final también es incorrecto. En otras palabras, dado que es extremadamente difícil asegurar que el período de tono inicial obtenido por la detección en bucle abierto en el dominio temporal sea absolutamente correcto, si un período de tono inicial incorrecto se aplica al siguiente procesamiento, la calidad de audio final puede deteriorarse.
Además, en la técnica anterior, también se propone cambiar la detección de período de tono que se lleva a cabo en el dominio temporal por la detección fina de período de tono que se lleva a cabo en el dominio de la frecuencia, pero la detección fina de período de tono que se lleva a cabo en el dominio de la frecuencia es extremadamente compleja. En la detección fina, se puede llevar a cabo una detección de tono adicional en una señal de entrada en el dominio temporal o en el dominio de la frecuencia según el período de tono inicial, incluida la detección de tono corto, detección de tono fraccionario o detección de tono con frecuencia multiplicada.
El documento US 2004/0158462 A1 describe el uso de características derivadas del dominio de la frecuencia para evaluar candidatos de tono para determinar el tono correcto. Una característica descrita consiste en sumas de los valores de picos cerca de la frecuencia candidata de tono y múltiplos de enteros de la frecuencia candidata de tono. El documento US 6496797 B1 describe la evaluación de un candidato de tono establecido mediante el uso de un criterio de errores que evalúa la forma del espectro de señales alrededor de picos espectrales y sus armónicos. Compendio
Las realizaciones de la presente invención proporcionan un método según la reivindicación 1 y un aparato según la reivindicación 5 para detectar la exactitud de un período de tono, para resolver el problema de la técnica anterior en el que, cuando la exactitud de un período de tono inicial se detecta en un dominio temporal o un dominio de la frecuencia, la exactitud es baja y la complejidad es relativamente alta.
El método y el aparato para detectar la exactitud de un período de tono según las realizaciones de la presente invención pueden mejorar, según un algoritmo relativamente menos complejo, la precisión de la detección de exactitud de un período de tono.
Breve descripción de los dibujos
Para describir las soluciones técnicas en las realizaciones de la presente invención de manera más clara, a continuación, se describen brevemente los dibujos anexos requeridos para describir las realizaciones o la técnica anterior. De manera aparente, los dibujos anexos en la siguiente descripción muestran simplemente algunas realizaciones de la presente invención, y una persona con experiencia ordinaria en la técnica puede incluso derivar otros dibujos a partir de dichos dibujos anexos sin esfuerzos creativos.
La Figura 1 es un diagrama de flujo de un método para detectar la exactitud de un período de tono según una realización de la presente invención;
la Figura 2 es un diagrama estructural esquemático de un aparato para detectar la exactitud de un período de tono según una realización de la presente invención;
la Figura 3 es un diagrama estructural esquemático de un aparato para detectar la exactitud de un período de tono según una realización de la presente invención;
la Figura 4 es un diagrama estructural esquemático de un aparato para detectar la exactitud de un período de tono según una realización de la presente invención; y
la Figura 5 es un diagrama estructural esquemático de un aparato para detectar la exactitud de un período de tono según una realización de la presente invención.
Descripción de las realizaciones
A continuación, se describen de forma clara y completa las soluciones técnicas en las realizaciones de la presente invención con referencia a los dibujos anexos en las realizaciones de la presente invención. De manera aparente, las realizaciones descritas son una parte de, antes que todas, las realizaciones de la presente invención.
Según las realizaciones de la presente invención, la exactitud de un período de tono inicial obtenido por la detección en bucle abierto en un dominio temporal se detecta en un dominio de la frecuencia, para evitar aplicar un período de tono inicial incorrecto al siguiente procesamiento.
Un objetivo de las realizaciones de la presente invención es llevar a cabo una detección de exactitud adicional en un período de tono inicial, el cual se obtiene por la detección en bucle abierto en el dominio temporal, para mejorar ampliamente la precisión y estabilidad de la detección de tono extrayendo parámetros efectivos en el dominio de la frecuencia y tomando una decisión mediante la combinación de dichos parámetros.
Un método para detectar la exactitud de un período de tono según una realización de la presente invención, como se muestra en la Figura 1, incluye las siguientes etapas.
11. Determinar, según un período de tono inicial de una señal de entrada en un dominio temporal, un comportamiento de frecuencia de tono de la señal de entrada, en donde el período de tono inicial se obtiene llevando a cabo una detección en bucle abierto en la señal de entrada.
En general, el comportamiento de frecuencia de tono de la señal de entrada es inversamente proporcional al período de tono inicial de la señal de entrada y es directamente proporcional a la cantidad de puntos de una transformada FFT (Transformada Rápida de Fourier) llevada a cabo en la señal de entrada.
12. Determinar, según un espectro de la amplitud de la señal de entrada en un dominio de la frecuencia, un parámetro de decisión de exactitud de período de tono, asociado al comportamiento de frecuencia de tono, de la señal de entrada.
El parámetro de decisión de exactitud de período de tono incluye un parámetro de diferencias espectrales Dif_sm, un parámetro de amplitud espectral promedio Esp_sm y un parámetro de relación diferencia/amplitud Dif_relación. El parámetro de diferencias espectrales Dif_sm es una suma Dif_sum de diferencias espectrales de una cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma Dif_sum de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono. El parámetro de amplitud espectral promedio Esp_sm es un promedio Esp_prom de amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio Esp_prom de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono. El parámetro de relación diferencia/amplitud Dif_relación es una relación de la suma Dif_sum de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono respecto del promedio Esp_prom de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono.
13. Determinar la exactitud del período de tono inicial según el parámetro de decisión de exactitud de período de tono.
Por ejemplo, cuando el parámetro de decisión de exactitud de período de tono cumple con una condición de determinación de exactitud, se determina que el período de tono inicial es correcto; y cuando el parámetro de decisión de exactitud de período de tono cumple con una condición de determinación de inexactitud, se determina que el período de tono inicial es incorrecto.
De manera específica, la condición de determinación de inexactitud cumple, al menos, con uno de los siguientes: el parámetro de diferencias espectrales Dif_sm es menor que un primer umbral de parámetro de diferencia, el parámetro de amplitud espectral promedio Esp_sm es menor que un primer umbral de parámetro de amplitud espectral y el parámetro de relación diferencia/amplitud Dif_relación es menor que un primer umbral de parámetro de factor de relación. La condición de determinación de exactitud cumple, al menos, con uno de los siguientes: el parámetro de diferencias espectrales Dif_sm es mayor que un segundo umbral de parámetro de diferencia, el parámetro de amplitud espectral promedio Esp_sm es mayor que un segundo umbral de parámetro de amplitud espectral y el parámetro de relación diferencia/amplitud Dif_relación es mayor que un segundo umbral de parámetro de factor de relación.
Por ejemplo, en un caso en el cual la condición de determinación de inexactitud es que el parámetro de diferencias espectrales Dif_sm sea menor que el primer umbral de parámetro de diferencia y la condición de determinación de exactitud es que el parámetro de diferencias espectrales Dif_sm sea mayor que el segundo umbral de parámetro de diferencia, el segundo umbral de parámetro de diferencias es mayor que el primer umbral de parámetro de diferencia. De manera alternativa, en un caso en el cual la condición de determinación de inexactitud es que el parámetro de amplitud espectral promedio Esp_sm sea menor que el primer umbral de parámetro de amplitud espectral y la condición de determinación de exactitud es que el parámetro de amplitud espectral promedio Esp_sm sea mayor que el segundo umbral de parámetro de amplitud espectral, el segundo umbral de parámetro de amplitud espectral es mayor que el primer umbral de parámetro de amplitud espectral. De manera alternativa, en un caso en el cual la condición de determinación de inexactitud es que el parámetro de relación diferencia/amplitud Dif_relación sea menor que el primer umbral de parámetro de factor de relación y la condición de determinación de exactitud es que el parámetro de relación diferencia/amplitud Dif_relación sea mayor que el segundo umbral de parámetro de factor de relación, el segundo umbral de parámetro de factor de relación es mayor que el primer umbral de parámetro de factor de relación.
En general, si el período de tono inicial detectado en el dominio temporal es correcto, debe haber un pico en un comportamiento de frecuencia correspondiente al período de tono inicial y la energía es grande; y si el período de tono inicial detectado en el dominio temporal es incorrecto, entonces, la detección fina se puede además llevar a cabo en el dominio de la frecuencia para determinar un período de tono correcto.
En otras palabras, cuando se detecta que el período de tono inicial es incorrecto durante la detección, según el parámetro de decisión de exactitud de período de tono, de la exactitud del período de tono inicial, la detección fina se lleva a cabo en el período de tono inicial.
De manera alternativa, cuando se detecta que el período de tono inicial es incorrecto durante la detección, según el parámetro de decisión de exactitud de período de tono, de la exactitud del período de tono inicial, la energía del período de tono inicial se detecta en un rango de baja frecuencia; y la detección de tono corto (una manera de detección fina) se lleva a cabo cuando la energía cumple con una condición de determinación de energía de baja frecuencia.
Por lo tanto, se puede aprender que el método para detectar la exactitud de un período de tono según la presente realización de la presente invención puede mejorar, según un algoritmo relativamente menos complejo, la precisión de la detección de exactitud de un período de tono.
A continuación, se describe en detalle una realización específica, la cual incluye las siguientes etapas.
1. Llevar a cabo una transformada FFT de N puntos en una señal de entrada s(n) para convertir una señal de entrada en un dominio temporal en una señal de entrada en un dominio de la frecuencia para obtener un espectro de amplitud S(k) correspondiente en el dominio de la frecuencia, donde N=256, 512 o similares.
De manera específica, el espectro de amplitud S(k) se puede obtener en las siguientes etapas:
Etapa A1. Preprocesar la señal de entrada s(n) para obtener una señal de entrada preprocesada spre (n), donde el preprocesamiento se puede procesar como, por ejemplo, filtrado de paso alto, remuestreo o preponderación. Solo el procesamiento de preponderación se describe en la presente memoria usando un ejemplo. La señal de entrada preprocesada spre (n) se obtiene después de que la señal de entrada s(n) pasa un filtro de paso alto de primer orden, donde el filtro de paso alto tiene un factor de filtro Hpre-emph (z) = 1 - 0,68z1.
Etapa A2. Llevar a cabo una transformada FFT en la señal de entrada preprocesada Spre (n). En una realización, la transformada FFT se lleva a cabo en la señal de entrada preprocesada Spre (n) dos veces, donde una es para llevar a cabo la transformada FFT en una señal de entrada preprocesada de una trama actual y la otra es para llevar a cabo la transformada FFT en una señal de entrada preprocesada que incluye una segunda mitad de la trama actual y una primera mitad de una trama futura. Antes de llevar a cabo la transformada FFT, la señal de entrada preprocesada necesita procesarse mediante ventanas, donde una función de ventana es:
Figure imgf000005_0001
n = 0,... ,Lfft-1. Lf ft es una longitud de la transformada FFT.
Una señal basada en ventana, después de que una primera ventana de análisis y una segunda ventana de análisis se añadan a la señal de entrada preprocesada, es:
Figure imgf000005_0002
donde la primera ventana de análisis corresponde a la trama actual y la segunda ventana de análisis corresponde a la segunda mitad de la trama actual y a la primera mitad de la trama futura.
La transformada FFT se lleva a cabo en la señal basada en ventana para obtener un coeficiente espectral:
JV-l - j lz-kn
X [0]( - ¿) J = W L a 0] (n)e k = Q , ... , K - l , N = L pft
n=0 ven
N -1 -jlK-
X íl](k) = ^ mvJ n )e
Figure imgf000005_0003
N = Lfft
ñ 0
donde K > Lf ft / 2.
La primera mitad de la trama futura proviene de una próxima señal de trama (de anticipación) que se codifica en el dominio temporal y la señal de entrada se puede ajustar según una cantidad de las próximas señales de trama. Un propósito de llevar a cabo la transformada FFT dos veces es obtener información de dominio de la frecuencia más precisa. En otra realización, la transformada FFT también se puede llevar a cabo en la señal de entrada preprocesada Spre (n) una vez.
Etapa A3. Calcular, según el coeficiente espectral, un espectro de energía.
Figure imgf000005_0004
E(k) = t1(X ¡(k) X j(k)),
Figure imgf000005_0005
donde X p (k) y X i (k) denotan una parte real y una parte imaginaria de un comportamiento de una késima frecuencia, respectivamente; y n es una constante que puede ser, por ejemplo, 4/(Lfft * Lfft).
Etapa A4. Llevar a cabo el procesamiento de ponderación en el espectro de energía.
É(k)=aEm (i) (1 - a)¿?[11 (k), k = 0, ... ,K-l, a < 1
En la presente memoria, E[0](k) es un espectro de energía, calculado según la fórmula en la etapa A3, del coeficiente espectral X[0](k), y E[1](k) es un espectro de energía, calculado según la fórmula en la etapa A3, del coeficiente espectral X[1](k).
Etapa A5. Calcular un espectro de amplitud de un dominio de logaritmo.
Figure imgf000006_0001
donde 9 es una constante que puede ser, por ejemplo, 2; y £ es un número positivo relativamente pequeño para evitar que se supere un valor de logaritmo. De manera alternativa, log10 se puede reemplazar por loge en una implementación de proyecto.
2. Llevar a cabo una detección en bucle abierto en la señal de entrada en el dominio temporal para obtener un período de tono inicial Top, cuyas etapas son las siguientes:
Etapa B1. Convertir la señal de entrada s(n) en una señal ponderada perceptual:
p . p .
sw(n) = s(n) '^ a jy l s(n - i ) - ' ^ a iy\sw(n - i ) n = 0, ... ,N - l
í= 1 ¿=1
donde a¡ es un coeficiente de LP (Predicción Lineal), Y 1 y Y 2 son factores de ponderación perceptuales, p es un orden de un filtro perceptual y N es una longitud de trama.
Etapa B2. Buscar un valor más grande en cada uno de los tres rangos de detección de candidatos (por ejemplo, en un dominio de muestreo inferior, los tres rangos de detección de candidatos pueden ser [62115]; [3261]; y [1731]) mediante el uso de la función de correlación, y usar los valores más grandes como tonos candidatos:
Figure imgf000006_0002
donde k es un valor en un rango de detección de candidato de un período de tono, por ejemplo, k puede ser un valor en los tres rangos de detección de candidato.
Etapa B3. Calcular, de forma separada, los coeficientes de correlación normalizados de los tres tonos candidatos:
Figure imgf000006_0003
Etapa B4. Seleccionar un período de tono inicial en bucle abierto Top mediante comparación de los coeficientes de correlación normalizados de los rangos: Primero, un período de un primer tono candidato se usa como un período de tono inicial. Luego, si un coeficiente de correlación normalizado de un segundo tono candidato es mayor que o igual a un producto de un coeficiente de correlación normalizado del período de tono inicial y factor de relación fija, un período del segundo candidato se usa como el período de tono inicial; de lo contrario, el período de tono inicial no cambia. Finalmente, si un coeficiente de correlación normalizado de un tercer tono candidato es mayor que o igual a un producto del coeficiente de correlación normalizado del período de tono inicial y factor de relación fija, un período del tercer candidato se usa como el período de tono inicial; de lo contrario, el período de tono inicial no cambia. Es preciso remitirse a la siguiente expresión de programa:
Se puede comprender que no se impone limitación alguna a una secuencia de las etapas anteriores para obtener el espectro de amplitud S(k) y el período de tono inicial Top. Las etapas se pueden llevar a cabo al mismo tiempo o cualquier etapa se puede llevar a cabo en primer lugar.
3. Obtener un comportamiento de frecuencia de tono F_op según una cantidad N de puntos de la transformada FFT y el período de tono inicial T_op.
F_op = N/Top
4. Calcular una suma Esp_sum de amplitudes espectrales y una suma Dif_sum de diferencias de amplitudes espectrales de una cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono F_op, donde la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono F_op se puede preestablecer.
En la presente memoria, la suma Esp_sum de las amplitudes espectrales es una suma de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono, y la suma Dif_sum de diferencias de amplitudes espectrales es una suma de diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono, donde las diferencias espectrales se refieren a diferencias entre amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono F_op y una amplitud espectral del comportamiento de frecuencia de tono. La suma Esp_sum de amplitudes espectrales y la suma Dif_sum de diferencias de amplitudes espectrales se pueden expresar en la siguiente expresión de programa:
Figure imgf000007_0001
Esp_sum[i] = Esp_sum[i-1] S[i];
Dif_sum[i] = Dif_sum[i-1] (S[F_op] - S[i]);
},
donde i es un número de secuencia de un comportamiento de frecuencia. En una implementación de proyecto, un valor inicial de i se puede establecer en 2 para evitar la interferencia de baja frecuencia de un coeficiente más bajo.
5. Determinar un parámetro de amplitud espectral promedio Esp_sm, un parámetro de diferencias espectrales Dif_sm y un parámetro de relación diferencia/amplitud Dif_relación.
El parámetro de amplitud espectral promedio Esp_sm puede ser una amplitud espectral promedio Esp_prom de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono F_op, es decir, la suma Esp_sum de amplitudes espectrales dividida por la cantidad de todos los comportamientos de frecuencia de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono F_op:
Figure imgf000007_0002
Además, el parámetro de amplitud espectral promedio Esp_sm puede ser también un valor ponderado y suavizado de la amplitud espectral promedio Esp_prom de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono F_op:
Esp_sm =0,2*Esp_sm_pre 0,8*Esp_prom, donde Esp_sm_pre es un parámetro que es un valor ponderado y suavizado de una amplitud espectral promedio de una trama previa. En el presente caso, 0,2 y 0,8 son coeficientes de ponderación y suavizado. Diferentes coeficientes de ponderación y suavizado se pueden seleccionar según diferentes características de señales de entrada.
El parámetro de diferencias espectrales Dif_sm puede ser una suma Dif_sum de diferencias de amplitudes espectrales o un valor ponderado y suavizado de la suma Dif_sum de diferencias de amplitudes espectrales:
Dif_sm =0,4* Dif_sm_pre 0,6*Dif_sum, donde Dif_sm_pre es un parámetro que es un valor ponderado y suavizado de una diferencia espectral de una trama previa. Aquí, 0,4 y 0,6 son coeficientes de ponderación y suavizado.
Diferentes coeficientes de ponderación y suavizado se pueden seleccionar según diferentes características de señales de entrada.
Como se puede aprender de lo anterior, en general, un valor ponderado y suavizado Esp_sm de un parámetro de amplitud espectral promedio de una trama actual se determina según un valor ponderado y suavizado Esp_sm_pre de un parámetro de amplitud espectral promedio de una trama previa, y un valor ponderado y suavizado Dif_sm de un parámetro de diferencias espectrales de la trama actual se determina según un valor ponderado y suavizado Dif_sm_pre de un parámetro de diferencias espectrales de la trama previa.
El parámetro de relación diferencia/amplitud Dif_relación es una relación de la suma Dif_sum de diferencias de amplitudes espectrales con respecto a la amplitud espectral promedio Esp_prom.
Dif_relación =Dif_sum/Esp _prom.
Un parámetro de amplitud espectral promedio suavizado Esp_sm y el parámetro de diferencias espectrales Dif_sm.
6. Según el parámetro de amplitud espectral promedio Esp_sm, el parámetro de diferencias espectrales Dif_sm y el parámetro de relación diferencia/amplitud Dif_relación, determinar si el período de tono inicial Top es correcto y determinar si cambiar una bandera determinante T_bandera.
Por ejemplo, cuando el parámetro de diferencias espectrales Dif_sm es menor que un primer umbral de parámetro de diferencias Dif_umb1, el parámetro de amplitud espectral promedio Esp_sm es menor que un primer umbral de parámetro de amplitud espectral Esp_umb1, y el parámetro de relación diferencia/amplitud Dif_relación es menor que un primer umbral de parámetro de factor de relación relación_umb1, se determina que la bandera de exactitud T_bandera es 1, y se determina que el período de tono inicial es incorrecto según la bandera de exactitud. A modo de otro ejemplo, cuando el parámetro de diferencias espectrales Dif_sm es mayor que un segundo umbral de parámetro de diferencias Dif_umb2, el parámetro de amplitud espectral promedio Esp_sm es mayor que un segundo umbral de parámetro de amplitud espectral Esp_umb2, y el parámetro de relación diferencia/amplitud Dif_relación es mayor que un segundo umbral de parámetro de factor de relación relación_umb2, se determina que la bandera de exactitud T_bandera es 0, y se determina que el período de tono inicial es correcto según la bandera de exactitud. Si no se cumple con todas las condiciones de determinación de exactitud ni con todas las condiciones de determinación de inexactitud, una bandera original T_bandera permanece sin cambios.
Se debe comprender que el primer umbral de parámetros de diferencia Dif_umb1, el primer umbral de parámetros de amplitud espectral Esp_umb1, el primer umbral de parámetros de factor de relación relación_umb1, el segundo umbral de parámetros de diferencia Dif_umb2, el segundo umbral de parámetros de amplitud espectral Esp_umb2 y el segundo umbral de parámetros de factor de relación relación_umb2 se pueden seleccionar según un requisito. Para un período de tono inicial incorrecto detectado según el método anterior, la detección fina se puede llevar a cabo en el resultado de detección anterior para evitar un error de detección del método anterior.
Además, la energía en un rango de baja frecuencia se puede detectar además para detectar la exactitud del período de tono inicial. La detección de tono corto se puede llevar a cabo además en un período de tono incorrecto detectado.
7,1. Si la energía del período de tono inicial es muy pequeña en un rango de baja frecuencia, esta se puede detectar además para el período de tono inicial. Cuando la energía detectada cumple con una condición de determinación de energía de baja frecuencia, se lleva a cabo la detección de tono corto. De manera específica, la condición de determinación de energía de baja frecuencia especifica dos valores relativos de energía de baja frecuencia que representan que la energía de baja frecuencia es relativamente muy pequeña y que la energía de baja frecuencia es relativamente grande. Por lo tanto, cuando la energía detectada cumple con el hecho de que la energía de baja frecuencia es relativamente muy pequeña, la bandera de exactitud T_bandera se establece en 1; y cuando la energía detectada cumple con el hecho de que la energía de baja frecuencia es relativamente grande, la bandera de exactitud T_bandera se establece en 0. Si la energía detectada no cumple con la condición de determinación de energía de baja frecuencia, la bandera original T_bandera permanece sin cambios. Cuando la bandera de exactitud T_bandera se establece en 1, la detección de tono corto se lleva a cabo. Además de especificar los valores relativos de energía de baja frecuencia, la condición de determinación de energía de baja frecuencia puede también especificar otra combinación de condiciones para aumentar la robustez de la condición de determinación de energía de baja frecuencia.
Por ejemplo, dos comportamientos de frecuencia f_baja1 y f_baja2 se establecen primero, la energía que es la energía 1 y la energía 2 de los períodos de tono inicial en rangos entre 0 y f_baja1 y entre f_baja1 y f_baja2 se calculan de forma separada y luego se calcula una diferencia de energía entre la energía1 y la energía2: energía_dif=energía2-energía1. Además, la diferencia de energía se puede ponderar y un factor de ponderación puede ser un factor de grado de voz voz_factor, es decir, energía_dif_p=energía_dif * voz_factor. En general, una diferencia de energía ponderada se puede además suavizar y un resultado del suavizado se compara con un umbral preestablecido para determinar si falta la energía del período de tono inicial en el rango de baja frecuencia.
De manera alternativa, el algoritmo anterior se simplifica, de modo que la energía de baja frecuencia del período de tono inicial en un rango se obtiene directamente, entonces, la energía de baja frecuencia se pondera y suaviza y un resultado del suavizado se compara con un umbral preestablecido.
7,2. Llevar a cabo la detección de tono corto y determinar, según la bandera de exactitud T_bandera o según la bandera de exactitud T_bandera en combinación con otra condición, si reemplazar el período de tono inicial Top por un resultado de la detección de tono corto. De manera alternativa, antes de llevar a cabo el período de tono corto, se puede determinar primero si es necesario llevar a cabo la detección de tono corto según la bandera de exactitud T_bandera o según la bandera de exactitud T_bandera en combinación con otra condición.
La detección de tono corto se puede llevar a cabo en el dominio de la frecuencia o se puede llevar a cabo en el dominio temporal.
Por ejemplo, en el dominio temporal, un rango de detección del período de tono es, en general, de 34 a 231, llevar a cabo la detección de tono corto es buscar un período de tono con un rango inferior a 34, y un método usado puede ser un método de función de autocorrelación de dominio temporal:
R(T) = MAX{R(t), t < 34};
si R(7) es mayor que un umbral preestablecido o un valor de autocorrelación que corresponde al período de tono inicial y, cuando T_bandera es 1 (aquí también se puede añadir otra condición), T se puede considerar un período de tono corto detectado.
Además de la detección de tono corto, también se puede llevar a cabo la detección de frecuencia multiplicada. Si la bandera de exactitud T_bandera es 1, se indica que el período de tono inicial Top es incorrecto y, por lo tanto, la detección de tono de frecuencia multiplicada se puede llevar a cabo en un lugar de frecuencia multiplicada del período de tono inicial Top, donde un período de tono de frecuencia multiplicada puede ser un múltiplo integral del período de tono inicial Top o puede ser un múltiplo fraccionario del período de tono inicial Top.
Para la etapa 7.1 y la etapa 7.2, solamente la etapa 7.2 se puede llevar a cabo para simplificar el proceso de la detección fina.
8. Todas las etapas 1 a 7.2 se llevan a cabo para una trama actual. Después de procesar la trama actual, se necesita procesar una trama siguiente. Por lo tanto, para la próxima trama, se usan un parámetro de amplitud espectral promedio Esp_sm y un parámetro de diferencias espectrales Dif_sm de la trama actual, un parámetro Esp_sm_pre siendo un valor ponderado y suavizado de una amplitud espectral promedio de una trama previa y un parámetro Dif_sm_pre siendo un valor ponderado y suavizado de una diferencia espectral de la trama previa, y se almacenan de forma temporal para implementar el suavizado de parámetros de la próxima trama.
Por lo tanto, se puede aprender que, en la presente realización de la presente invención, después de obtener un período de tono inicial durante la detección en bucle abierto, la exactitud del período de tono inicial se detecta en un dominio de la frecuencia, y si se detecta que el período de tono inicial es incorrecto, el período de tono inicial se corrige usando la detección fina, para asegurar la exactitud del período de tono inicial. En el método para detectar la exactitud de un período de tono inicial, un parámetro de diferencias espectrales, un parámetro de amplitud espectral promedio (o energía espectral) y un parámetro de relación diferencia/amplitud de una cantidad predeterminada de comportamientos de frecuencia en dos lados de un comportamiento de frecuencia de tono necesitan extraerse. Dado que la complejidad para extraer dichos parámetros es baja, la presente realización de la presente invención puede asegurar que un período de tono con exactitud relativamente alta se produce según un algoritmo menos complejo. En conclusión, el método para detectar la exactitud de un período de tono según la presente realización de la presente invención puede mejorar, según un algoritmo relativamente menos complejo, la precisión de la detección de exactitud de un período de tono.
A continuación, se describen aparatos para detectar la exactitud de un período de tono según las realizaciones de la presente invención en detalle con referencia a la Figura 2 a la Figura 4.
En la Figura 2, un aparato 20 para detectar la exactitud de un período de tono incluye una unidad 21 de determinación de comportamiento de frecuencia de tono, una unidad 22 de generación de parámetro y una unidad 23 de determinación de exactitud.
La unidad 21 de determinación de comportamiento de frecuencia de tono se configura para determinar, según un período de tono inicial de una señal de entrada en un dominio temporal, un comportamiento de frecuencia de tono de la señal de entrada, donde el período de tono inicial se obtiene llevando a cabo una detección en bucle abierto en la señal de entrada. De manera específica, la unidad 21 de determinación de comportamiento de frecuencia de tono determina el comportamiento de frecuencia de tono según la siguiente manera: el comportamiento de frecuencia de tono de la señal de entrada es inversamente proporcional al período de tono inicial y es directamente proporcional a una cantidad de puntos de una transformada FFT llevada a cabo en la señal de entrada.
La unidad 22 de generación de parámetro se configura para determinar, según un espectro de la amplitud de la señal de entrada en un dominio de la frecuencia, un parámetro de decisión de exactitud de período de tono, asociado al comportamiento de frecuencia de tono, de la señal de entrada. El parámetro de decisión de exactitud de período de tono generado por la unidad 22 de generación de parámetro incluye un parámetro de diferencias espectrales Dif_sm, un parámetro de amplitud espectral promedio Esp_sm y un parámetro de relación diferencia/amplitud Dif_relación. El parámetro de diferencias espectrales Dif_sm es una suma Dif_sum de diferencias espectrales de una cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma Dif_sum de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono. El parámetro de amplitud espectral promedio Esp_sm es un promedio Esp_prom de amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio Esp_prom de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono. El parámetro de relación diferencia/amplitud Dif_relación es una relación de la suma Dif_sum de las diferencias espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono con respecto al promedio Esp_prom de las amplitudes espectrales de la cantidad predeterminada de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono. La unidad 23 de determinación de exactitud se configura para determinar la exactitud del período de tono inicial según el parámetro de decisión de exactitud de período de tono.
De manera específica, cuando la unidad 23 de determinación de exactitud determina que el parámetro de decisión de exactitud de período de tono cumple con una condición de determinación de exactitud, la unidad 23 de determinación de exactitud determina que el período de tono inicial es correcto; o, cuando la unidad 23 de determinación de exactitud determina que el parámetro de decisión de exactitud de período de tono cumple con una condición de determinación de inexactitud, la unidad 23 de determinación de exactitud determina que el período de tono inicial es incorrecto.
En la presente memoria, la condición de determinación de inexactitud cumple, al menos, con uno de los siguientes: el parámetro de diferencias espectrales Dif_sm es menor que o igual a un primer umbral de parámetro de diferencias, el parámetro de amplitud espectral promedio Esp_sm es menor que o igual a un primer umbral de parámetros de amplitud espectral y el parámetro de relación diferencia/amplitud Dif_relación es menor que o igual a un primer umbral de parámetros de factor de relación.
La condición de determinación de exactitud cumple, al menos, con uno de los siguientes: el parámetro de diferencias espectrales Dif_sm es mayor que un segundo umbral de parámetro de diferencias, el parámetro de amplitud espectral promedio Esp_sm es mayor que un segundo umbral de parámetro de amplitud espectral y el parámetro de relación diferencia/amplitud Dif_relación es mayor que un segundo umbral de parámetro de factor de relación.
De manera opcional, como se muestra en la Figura 3, en comparación con el aparato 20, un aparato 30 para detectar la exactitud de un período de tono además incluye una unidad 24 de detección fina, configurada para, cuando se detecta que el período de tono inicial es incorrecto durante la detección, según el parámetro de decisión de exactitud de período de tono, de la exactitud del período de tono inicial, llevar a cabo la detección final en la señal de entrada.
De manera opcional, como se muestra en la Figura 4, en comparación con el aparato 30, un aparato 40 para detectar la exactitud de un período de tono puede además incluir una unidad 25 de detección de energía, configurada para, cuando se detecta un período de tono inicial incorrecto durante la detección, según el parámetro de decisión de exactitud de período de tono, de la exactitud del período de tono inicial, detectar energía del período de tono inicial en un rango de baja frecuencia. Luego, la unidad 25 de detección fina lleva a cabo una detección de tono corto en la señal de entrada cuando la unidad 24 de detección de energía detecta que la energía cumple con una condición de determinación de energía de baja frecuencia.
Por lo tanto, se puede aprender que el aparato para detectar la exactitud de un período de tono según la presente realización de la presente invención puede mejorar, según un algoritmo relativamente menos complejo, la precisión de la detección de exactitud de un período de tono.
Con referencia a la Figura 5, en otra realización, un aparato para detectar la exactitud de un período de tono incluye: un receptor, configurado para recibir una señal de entrada; y
un procesador, configurado para determinar un comportamiento de frecuencia de tono de la señal de entrada según un período de tono inicial de la señal de entrada en un dominio temporal, donde el período de tono inicial se obtiene llevando a cabo una detección en bucle abierto en la señal de entrada; determinar, según un espectro de amplitud de la señal de entrada en un dominio de frecuencia, un parámetro de decisión de exactitud de período de tono, asociado al comportamiento de frecuencia de tono, de la señal de entrada; y determinar la exactitud del período de tono inicial según el parámetro de decisión de exactitud de período de tono.
Se debe comprender que el procesador puede implementar cada etapa en las realizaciones anteriores del método. Una persona de experiencia ordinaria en la técnica puede comprender que, en combinación con los ejemplos descritos en las realizaciones descritas en la presente memoria descriptiva, las etapas de algoritmos y unidades se pueden implementar mediante hardware electrónico o una combinación de software de ordenador y hardware electrónico. Si las funciones se llevan a cabo por hardware o software depende de las aplicaciones particulares y de las condiciones de limitaciones de diseño de las soluciones técnicas.
Una persona con experiencia en la técnica debe comprender claramente que, en aras de una descripción conveniente y breve, para un proceso de trabajo detallado del sistema, aparato y unidad anteriores se puede hacer referencia a un proceso correspondiente en las realizaciones de método anteriores, y que los detalles no se describen en la presente memoria nuevamente.
En las diversas realizaciones provistas en la presente solicitud, se ha de comprender que el sistema, aparato y método descritos se pueden implementar de otras maneras. Por ejemplo, la realización del aparato descrita es meramente a modo de ejemplo. Por ejemplo, la división de unidad es meramente una división de función lógica y en la implementación real la división puede ser otra. Por ejemplo, se pueden combinar o integrar en otro sistema múltiples unidades o componentes, o algunas características se pueden ignorar o no llevar a cabo. Además, los acoplamientos mutuos representados o descritos o los acoplamientos directos o conexiones de comunicaciones se pueden implementar a través de algunas interfaces. Los acoplamientos indirectos o conexiones de comunicación entre los aparatos o unidades se pueden implementar de forma electrónica, mecánica u otras.
Las unidades descritas como partes separadas pueden o pueden no estar físicamente separadas, y las partes representadas como unidades pueden o pueden no ser unidades físicas, estar ubicadas en una posición o pueden distribuirse en múltiples unidades de red. Un parte de o todas las unidades pueden seleccionarse según las necesidades reales para alcanzar los objetivos de las soluciones de las realizaciones.
Además, las unidades funcionales en las realizaciones de la presente invención pueden estar integradas en una unidad de procesamiento, o cada una de las unidades puede existir sola físicamente, o dos o más unidades se integran en una unidad.
Cuando las funciones se implementan en la forma de una unidad funcional de software y se venden o usan como un producto independiente, las funciones se pueden almacenar en un medio de almacenamiento legible por ordenador. Según dicho entendimiento, las soluciones técnicas de la presente invención esencialmente, o la parte que contribuye a la técnica anterior, o una parte de las soluciones técnicas, se pueden implementar en forma de un producto de software. El producto de software se almacena en un medio de almacenamiento, e incluye varias instrucciones para ordenar a un dispositivo informático (que puede ser un ordenador personal, un servidor, o un dispositivo de red) que lleve a cabo todas o una parte de las etapas de los métodos descritos en las realizaciones de la presente invención. Los medios de almacenamiento anteriores incluyen: cualquier medio que pueda almacenar un código de programa como, por ejemplo, una memoria flash USB, un disco duro extraíble, una memoria de solo lectura (ROM, memoria de sólo lectura), una memoria de acceso aleatorio (RAM, memoria de acceso aleatorio), un disco magnético, o un disco óptico.

Claims (8)

REIVINDICACIONES
1. Un método para determinar la exactitud de un período de tono, que comprende:
determinar (11), según un período de tono inicial de una señal de entrada en un dominio temporal, un comportamiento de frecuencia de tono de la señal de entrada, en donde el período de tono inicial se obtiene llevando a cabo una detección en bucle abierto en la señal de entrada;
determinar (12), según un espectro de amplitud de la señal de entrada en un dominio de la frecuencia, un parámetro de decisión de exactitud de período de tono, asociado al comportamiento de frecuencia de tono, de la señal de entrada; y
determinar (13) la exactitud del período de tono inicial según el parámetro de decisión de exactitud de período de tono, y determinar si cambiar una bandera de exactitud (T_bandera);
en donde el método se caracteriza por que:
el parámetro de decisión de exactitud de período de tono comprende un parámetro de diferencias espectrales, un parámetro de amplitud espectral promedio y un parámetro de relación diferencia/amplitud, el parámetro de diferencias espectrales es una suma de diferencias espectrales de una cantidad de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma de las diferencias espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; el parámetro de amplitud espectral promedio es un promedio de amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio de las amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; y el parámetro de relación diferencia/amplitud es una relación de la suma de las diferencias espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono con respecto al promedio de las amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono;
donde las diferencias espectrales se refieren a diferencias entre amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono y una amplitud espectral del comportamiento de frecuencia de tono;
en donde el promedio de amplitudes espectrales se determina por la siguiente ecuación:
Figure imgf000012_0001
en donde, Esp_prom representa el promedio de amplitudes espectrales; Esp_sum representa una suma de las amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; y 2* F_op-1 representa la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono;
en donde el comportamiento de frecuencia de tono se determina por la siguiente ecuación:
F_op =N/Top
en donde,
F_op representa el comportamiento de frecuencia de tono; N representa una cantidad de puntos de una transformada FFT; y Top representa el período de tono inicial.
2. El método según la reivindicación 1, en donde la determinación de exactitud del período de tono inicial según el parámetro de decisión de exactitud de período de tono comprende:
cuando el parámetro de decisión de exactitud de período de tono cumple con una condición de determinación de exactitud, determinar que el período de tono inicial es correcto; y
cuando el parámetro de decisión de exactitud de período de tono cumple con una condición de determinación de inexactitud, determinar que el período de tono inicial es incorrecto.
3. El método según la reivindicación 2, en donde:
la condición de determinación de exactitud cumple, al menos, con uno de los siguientes:
el parámetro de diferencias espectrales es mayor que un segundo umbral de parámetro de diferencias, el parámetro de amplitud espectral promedio es mayor que un segundo umbral de parámetro de amplitud espectral y el parámetro de relación diferencia/amplitud es mayor que un segundo umbral de parámetros de factor de relación; y
la condición de determinación de inexactitud cumple, al menos, con uno de los siguientes:
el parámetro de diferencias espectrales es menor que un primer umbral de parámetro de diferencias, el parámetro de amplitud espectral promedio es menor que un primer umbral de parámetro de amplitud espectral y el parámetro de relación diferencia/amplitud es menor que un primer umbral de parámetros de factor de relación.
4. El método según cualquiera de las reivindicaciones 1 a 3, en donde el comportamiento de frecuencia de tono de la señal de entrada es inversamente proporcional al período de tono inicial y es directamente proporcional a una cantidad de puntos de una rápida de Fourier llevada a cabo en la señal de entrada.
5. Un aparato para determinar la exactitud de un período de tono, que comprende:
una unidad (21) de determinación de comportamiento de frecuencia de tono, configurada para determinar, según un período de tono inicial de una señal de entrada en un dominio temporal, un comportamiento de frecuencia de tono de la señal de entrada, en donde el período de tono inicial se obtiene llevando a cabo una detección en bucle abierto en la señal de entrada;
una unidad (22) de generación de parámetro, configurada para determinar, según un espectro de amplitud de la señal de entrada en un dominio de la frecuencia, un parámetro de decisión de exactitud de período de tono, asociado al comportamiento de frecuencia de tono, de la señal de entrada; y
una unidad (23) de determinación de exactitud, configurada para determinar la exactitud del período de tono inicial según el parámetro de decisión de exactitud de período de tono, y determinar si cambiar una bandera de exactitud (T_bandera);
en donde el aparato se caracteriza por que:
el parámetro de decisión de exactitud de período de tono generado por la unidad de generación de parámetros comprende un parámetro de diferencias espectrales, un parámetro de amplitud espectral promedio y un parámetro de relación diferencia/amplitud, el parámetro de diferencias espectrales es una suma de diferencias espectrales de una cantidad de comportamientos de frecuencia en dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado de la suma de las diferencias espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; el parámetro de amplitud espectral promedio es un promedio de amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono o un valor ponderado y suavizado del promedio de las amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono; y el parámetro de relación diferencia/amplitud es una relación de la suma de las diferencias espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono con respecto al promedio de las amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono;
donde las diferencias espectrales se refieren a diferencias entre amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono y una amplitud espectral del comportamiento de frecuencia de tono;
en donde el promedio de amplitudes espectrales se determina por la siguiente ecuación:
Esp_prom= Esp_sum/(2* F _ o p -l)
en donde, Esp_prom representa el promedio de amplitudes espectrales; Esp_sum representa una suma de las amplitudes espectrales de la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono, F_op representa el comportamiento de frecuencia de tono y 2* F_op-1 representa la cantidad de comportamientos de frecuencia en los dos lados del comportamiento de frecuencia de tono;
en donde el comportamiento de frecuencia de tono se determina por la siguiente ecuación:
F_op = N/Top
en donde,
F_op representa el comportamiento de frecuencia de tono; N representa la cantidad de puntos de una transformada FFT; y Top representa el período de tono inicial.
6. El aparato según la reivindicación 5, en donde la unidad (23) de determinación de exactitud se configura específicamente para:
cuando se determina que el parámetro de decisión de exactitud de período de tono cumple con una condición de determinación de exactitud, determinar que el período de tono inicial es correcto; y
cuando se determina que el parámetro de decisión de exactitud de período de tono cumple con una condición de determinación de inexactitud, determinar que el período de tono inicial es incorrecto.
7. El aparato según la reivindicación 6, en donde:
la condición de determinación de exactitud cumple, al menos, con uno de los siguientes:
el parámetro de diferencias espectrales es mayor que un segundo umbral de parámetro de diferencias, el parámetro de amplitud espectral promedio es mayor que un segundo umbral de parámetro de amplitud espectral y el parámetro de relación diferencia/amplitud es mayor que un segundo umbral de parámetros de factor de relación; y
la condición de determinación de inexactitud cumple, al menos, con uno de los siguientes:
el parámetro de diferencias espectrales es menor que o igual a un primer umbral de parámetro de diferencias, el parámetro de amplitud espectral promedio es menor que o igual a un primer umbral de parámetro de amplitud espectral y el parámetro de relación diferencia/amplitud es menor que o igual a un primer umbral de parámetros de factor de relación.
8. El aparato según cualquiera de las reivindicaciones 5 a 7, en donde la unidad de determinación de comportamiento de frecuencia de tono se configura para determinar el comportamiento de frecuencia de tono según la siguiente manera:
el comportamiento de frecuencia de tono de la señal de entrada es inversamente proporcional al período de tono inicial y es directamente proporcional a una cantidad de puntos de una transformada rápida de Fourier llevada a cabo en la señal de entrada.
ES17150741T 2012-05-18 2012-12-26 Método y aparato para detectar la exactitud de un período de tono Active ES2847150T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210155298.4A CN103426441B (zh) 2012-05-18 2012-05-18 检测基音周期的正确性的方法和装置

Publications (1)

Publication Number Publication Date
ES2847150T3 true ES2847150T3 (es) 2021-08-02

Family

ID=49583070

Family Applications (2)

Application Number Title Priority Date Filing Date
ES12876916.3T Active ES2627857T3 (es) 2012-05-18 2012-12-26 Método y aparato para detectar la exactitud del período de tono
ES17150741T Active ES2847150T3 (es) 2012-05-18 2012-12-26 Método y aparato para detectar la exactitud de un período de tono

Family Applications Before (1)

Application Number Title Priority Date Filing Date
ES12876916.3T Active ES2627857T3 (es) 2012-05-18 2012-12-26 Método y aparato para detectar la exactitud del período de tono

Country Status (10)

Country Link
US (5) US9633666B2 (es)
EP (2) EP2843659B1 (es)
JP (2) JP6023311B2 (es)
KR (2) KR101649243B1 (es)
CN (1) CN103426441B (es)
DK (1) DK2843659T3 (es)
ES (2) ES2627857T3 (es)
HU (1) HUE034664T2 (es)
PL (1) PL2843659T3 (es)
WO (1) WO2013170610A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103426441B (zh) * 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
CN106373594B (zh) * 2016-08-31 2019-11-26 华为技术有限公司 一种音调检测方法及装置
US11282407B2 (en) 2017-06-12 2022-03-22 Harmony Helper, LLC Teaching vocal harmonies
US10249209B2 (en) 2017-06-12 2019-04-02 Harmony Helper, LLC Real-time pitch detection for creating, practicing and sharing of musical harmonies
CN110600060B (zh) * 2019-09-27 2021-10-22 云知声智能科技股份有限公司 一种硬件音频主动探测hvad系统
CN111223491B (zh) * 2020-01-22 2022-11-15 深圳市倍轻松科技股份有限公司 一种提取音乐信号主旋律的方法、装置及终端设备
US11335361B2 (en) * 2020-04-24 2022-05-17 Universal Electronics Inc. Method and apparatus for providing noise suppression to an intelligent personal assistant

Family Cites Families (72)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL8400552A (nl) * 1984-02-22 1985-09-16 Philips Nv Systeem voor het analyseren van menselijke spraak.
US4885790A (en) * 1985-03-18 1989-12-05 Massachusetts Institute Of Technology Processing of acoustic waveforms
CA1245363A (en) * 1985-03-20 1988-11-22 Tetsu Taguchi Pattern matching vocoder
US4776014A (en) * 1986-09-02 1988-10-04 General Electric Company Method for pitch-aligned high-frequency regeneration in RELP vocoders
US5054072A (en) * 1987-04-02 1991-10-01 Massachusetts Institute Of Technology Coding of acoustic waveforms
US4809334A (en) 1987-07-09 1989-02-28 Communications Satellite Corporation Method for detection and correction of errors in speech pitch period estimates
US5127053A (en) 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
US7171016B1 (en) * 1993-11-18 2007-01-30 Digimarc Corporation Method for monitoring internet dissemination of image, video and/or audio files
US6463406B1 (en) 1994-03-25 2002-10-08 Texas Instruments Incorporated Fractional pitch method
CA2154911C (en) * 1994-08-02 2001-01-02 Kazunori Ozawa Speech coding device
JP3528258B2 (ja) * 1994-08-23 2004-05-17 ソニー株式会社 符号化音声信号の復号化方法及び装置
US6136548A (en) * 1994-11-22 2000-10-24 Rutgers, The State University Of New Jersey Methods for identifying useful T-PA mutant derivatives for treatment of vascular hemorrhaging
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5729694A (en) * 1996-02-06 1998-03-17 The Regents Of The University Of California Speech coding, reconstruction and recognition using acoustics and electromagnetic waves
US5864795A (en) 1996-02-20 1999-01-26 Advanced Micro Devices, Inc. System and method for error correction in a correlation-based pitch estimator
US5774836A (en) 1996-04-01 1998-06-30 Advanced Micro Devices, Inc. System and method for performing pitch estimation and error checking on low estimated pitch values in a correlation based pitch estimator
AU3708597A (en) 1996-08-02 1998-02-25 Matsushita Electric Industrial Co., Ltd. Voice encoder, voice decoder, recording medium on which program for realizing voice encoding/decoding is recorded and mobile communication apparatus
US6014622A (en) * 1996-09-26 2000-01-11 Rockwell Semiconductor Systems, Inc. Low bit rate speech coder using adaptive open-loop subframe pitch lag estimation and vector quantization
JPH10105195A (ja) * 1996-09-27 1998-04-24 Sony Corp ピッチ検出方法、音声信号符号化方法および装置
JP4121578B2 (ja) 1996-10-18 2008-07-23 ソニー株式会社 音声分析方法、音声符号化方法および装置
US6456965B1 (en) 1997-05-20 2002-09-24 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6438517B1 (en) 1998-05-19 2002-08-20 Texas Instruments Incorporated Multi-stage pitch and mixed voicing estimation for harmonic speech coders
US6188980B1 (en) * 1998-08-24 2001-02-13 Conexant Systems, Inc. Synchronized encoder-decoder frame concealment using speech coding parameters including line spectral frequencies and filter coefficients
DE69939086D1 (de) * 1998-09-17 2008-08-28 British Telecomm Audiosignalverarbeitung
US6233549B1 (en) * 1998-11-23 2001-05-15 Qualcomm, Inc. Low frequency spectral enhancement system and method
US6496797B1 (en) * 1999-04-01 2002-12-17 Lg Electronics Inc. Apparatus and method of speech coding and decoding using multiple frames
WO2001013360A1 (en) 1999-08-17 2001-02-22 Glenayre Electronics, Inc. Pitch and voicing estimation for low bit rate speech coders
US6151571A (en) * 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6418405B1 (en) 1999-09-30 2002-07-09 Motorola, Inc. Method and apparatus for dynamic segmentation of a low bit rate digital voice message
US6704711B2 (en) * 2000-01-28 2004-03-09 Telefonaktiebolaget Lm Ericsson (Publ) System and method for modifying speech signals
AU2001260162A1 (en) 2000-04-06 2001-10-23 Telefonaktiebolaget Lm Ericsson (Publ) Pitch estimation in a speech signal
JP2002149200A (ja) * 2000-08-31 2002-05-24 Matsushita Electric Ind Co Ltd 音声処理装置及び音声処理方法
AU2001294974A1 (en) * 2000-10-02 2002-04-15 The Regents Of The University Of California Perceptual harmonic cepstral coefficients as the front-end for speech recognition
SE522553C2 (sv) 2001-04-23 2004-02-17 Ericsson Telefon Ab L M Bandbreddsutsträckning av akustiska signaler
GB2375028B (en) * 2001-04-24 2003-05-28 Motorola Inc Processing speech signals
US6917912B2 (en) * 2001-04-24 2005-07-12 Microsoft Corporation Method and apparatus for tracking pitch in audio analysis
WO2002101717A2 (en) * 2001-06-11 2002-12-19 Ivl Technologies Ltd. Pitch candidate selection method for multi-channel pitch detectors
US6871176B2 (en) * 2001-07-26 2005-03-22 Freescale Semiconductor, Inc. Phase excited linear prediction encoder
KR100393899B1 (ko) 2001-07-27 2003-08-09 어뮤즈텍(주) 2-단계 피치 판단 방법 및 장치
JP3888097B2 (ja) 2001-08-02 2007-02-28 松下電器産業株式会社 ピッチ周期探索範囲設定装置、ピッチ周期探索装置、復号化適応音源ベクトル生成装置、音声符号化装置、音声復号化装置、音声信号送信装置、音声信号受信装置、移動局装置、及び基地局装置
DE02765393T1 (de) * 2001-08-31 2005-01-13 Kabushiki Kaisha Kenwood, Hachiouji Vorrichtung und verfahren zum erzeugen eines tonhöhen-kurvenformsignals und vorrichtung und verfahren zum komprimieren, dekomprimieren und synthetisieren eines sprachsignals damit
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
US7233894B2 (en) 2003-02-24 2007-06-19 International Business Machines Corporation Low-frequency band noise detection
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
CA2566368A1 (en) 2004-05-17 2005-11-24 Nokia Corporation Audio encoding with different coding frame lengths
KR100724736B1 (ko) * 2006-01-26 2007-06-04 삼성전자주식회사 스펙트럴 자기상관치를 이용한 피치 검출 방법 및 피치검출 장치
KR100770839B1 (ko) 2006-04-04 2007-10-26 삼성전자주식회사 음성 신호의 하모닉 정보 및 스펙트럼 포락선 정보,유성음화 비율 추정 방법 및 장치
CN100541609C (zh) * 2006-09-18 2009-09-16 华为技术有限公司 一种实现开环基音搜索的方法和装置
CN100524462C (zh) * 2007-09-15 2009-08-05 华为技术有限公司 对高带信号进行帧错误隐藏的方法及装置
US9142221B2 (en) * 2008-04-07 2015-09-22 Cambridge Silicon Radio Limited Noise reduction
CN101556795B (zh) * 2008-04-09 2012-07-18 展讯通信(上海)有限公司 计算语音基音频率的方法及设备
US9197181B2 (en) * 2008-05-12 2015-11-24 Broadcom Corporation Loudness enhancement system and method
US9336785B2 (en) * 2008-05-12 2016-05-10 Broadcom Corporation Compression for speech intelligibility enhancement
US20090319261A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US20090319263A1 (en) * 2008-06-20 2009-12-24 Qualcomm Incorporated Coding of transitional speech frames for low-bit-rate applications
US8577673B2 (en) * 2008-09-15 2013-11-05 Huawei Technologies Co., Ltd. CELP post-processing for music signals
CN101354889B (zh) * 2008-09-18 2012-01-11 北京中星微电子有限公司 一种语音变调方法及装置
CN101599272B (zh) 2008-12-30 2011-06-08 华为技术有限公司 基音搜索方法及装置
EP2211335A1 (en) * 2009-01-21 2010-07-28 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus, method and computer program for obtaining a parameter describing a variation of a signal characteristic of a signal
CN102016530B (zh) * 2009-02-13 2012-11-14 华为技术有限公司 一种基音周期检测方法和装置
CN101814291B (zh) * 2009-02-20 2013-02-13 北京中星微电子有限公司 在时域提高语音信号信噪比的方法和装置
US8718804B2 (en) * 2009-05-05 2014-05-06 Huawei Technologies Co., Ltd. System and method for correcting for lost data in a digital audio signal
US8620672B2 (en) 2009-06-09 2013-12-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for phase-based processing of multichannel signal
WO2011013244A1 (ja) * 2009-07-31 2011-02-03 株式会社東芝 音声処理装置
WO2012131438A1 (en) * 2011-03-31 2012-10-04 Nokia Corporation A low band bandwidth extender
CN102231274B (zh) * 2011-05-09 2013-04-17 华为技术有限公司 基音周期估计值修正方法、基音估计方法和相关装置
CN102842305B (zh) * 2011-06-22 2014-06-25 华为技术有限公司 一种基音检测的方法和装置
EP3301677B1 (en) * 2011-12-21 2019-08-28 Huawei Technologies Co., Ltd. Very short pitch detection and coding
CN103426441B (zh) * 2012-05-18 2016-03-02 华为技术有限公司 检测基音周期的正确性的方法和装置
CN105976830B (zh) * 2013-01-11 2019-09-20 华为技术有限公司 音频信号编码和解码方法、音频信号编码和解码装置
CN104217727B (zh) * 2013-05-31 2017-07-21 华为技术有限公司 信号解码方法及设备
CN104517610B (zh) * 2013-09-26 2018-03-06 华为技术有限公司 频带扩展的方法及装置

Also Published As

Publication number Publication date
HUE034664T2 (hu) 2018-02-28
US20210335377A1 (en) 2021-10-28
US11741980B2 (en) 2023-08-29
JP6023311B2 (ja) 2016-11-09
JP6272433B2 (ja) 2018-01-31
JP2017027076A (ja) 2017-02-02
DK2843659T3 (en) 2017-07-03
WO2013170610A1 (zh) 2013-11-21
EP2843659B1 (en) 2017-04-05
CN103426441B (zh) 2016-03-02
EP3246920B1 (en) 2020-10-28
US20150073781A1 (en) 2015-03-12
EP2843659A4 (en) 2015-07-15
US20230402048A1 (en) 2023-12-14
US10249315B2 (en) 2019-04-02
CN103426441A (zh) 2013-12-04
US20170194016A1 (en) 2017-07-06
ES2627857T3 (es) 2017-07-31
EP2843659A1 (en) 2015-03-04
JP2015516597A (ja) 2015-06-11
KR101762723B1 (ko) 2017-07-28
US9633666B2 (en) 2017-04-25
PL2843659T3 (pl) 2017-10-31
EP3246920A1 (en) 2017-11-22
US20190180766A1 (en) 2019-06-13
KR20150014492A (ko) 2015-02-06
KR20160099729A (ko) 2016-08-22
KR101649243B1 (ko) 2016-08-18
US10984813B2 (en) 2021-04-20

Similar Documents

Publication Publication Date Title
ES2847150T3 (es) Método y aparato para detectar la exactitud de un período de tono
CN106486131B (zh) 一种语音去噪的方法及装置
JP4796309B2 (ja) モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
Shahnaz et al. Pitch estimation based on a harmonic sinusoidal autocorrelation model and a time-domain matching scheme
CN104620313A (zh) 音频信号分析
JP2007279743A (ja) 話者認証登録及び確認方法並びに装置
JP5141397B2 (ja) 音声処理装置およびプログラム
Hsu et al. Robust voice activity detection algorithm based on feature of frequency modulation of harmonics and its DSP implementation
Rajan et al. Group delay based melody monopitch extraction from music
CN112201279B (zh) 一种基音检测方法及装置
CN117935789A (zh) 语音识别方法及系统、设备、存储介质
BR112014009338B1 (pt) Aparelho de atenuação de ruído e método de atenuação de ruído
Kaminski et al. Automatic speaker recognition using a unique personal feature vector and Gaussian Mixture Models
Jamaludin et al. An improved time domain pitch detection algorithm for pathological voice
Kyriakides et al. Isolated word endpoint detection using time-frequency variance kernels
Hsieh et al. A study on the application of an average energy entropy method for the endpoint extraction of frog croak syllables
CN110853678A (zh) 颤音识别评分方法、装置、终端和非临时性计算机可读存储介质
CN116758930A (zh) 语音增强方法、装置、电子设备及存储介质
Tan et al. High quality and low complexity speech analysis/synthesis based on sinusoidal representation
Brichta et al. VLSI implementation of the SIFT algorithm for pitch detection