ES2807529T3 - Método para la determinación de señal de ruido y aparato del mismo - Google Patents

Método para la determinación de señal de ruido y aparato del mismo Download PDF

Info

Publication number
ES2807529T3
ES2807529T3 ES16854895T ES16854895T ES2807529T3 ES 2807529 T3 ES2807529 T3 ES 2807529T3 ES 16854895 T ES16854895 T ES 16854895T ES 16854895 T ES16854895 T ES 16854895T ES 2807529 T3 ES2807529 T3 ES 2807529T3
Authority
ES
Spain
Prior art keywords
signal
speech
frame
variance
power values
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES16854895T
Other languages
English (en)
Inventor
Zhijun Du
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Original Assignee
Advanced New Technologies Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Advanced New Technologies Co Ltd filed Critical Advanced New Technologies Co Ltd
Application granted granted Critical
Publication of ES2807529T3 publication Critical patent/ES2807529T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02168Noise filtering characterised by the method used for estimating noise the estimation exclusively taking place during speech pauses
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Quality & Reliability (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • Noise Elimination (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

Un método para determinar una señal de ruido en un segmento de señal de voz, el método que comprende: determinar un segmento de señal de voz con una variación de amplitud menor que un umbral preestablecido en una voz a procesar como el segmento de señal de voz con base en una variación de amplitud de una señal de dominio de tiempo de la voz a procesar; realizar (S101) una transformada de Fourier en cada señal de trama en el segmento de señal de voz para adquirir un espectro de potencia de cada señal de trama en el segmento de señal de voz, en donde el espectro de potencia comprende múltiples valores de potencia correspondientes a diferentes frecuencias; determinar (S102) una varianza de los valores de potencia de cada señal de trama en el segmento de señal de voz a diversas frecuencias en función del espectro de potencia de la señal de trama; y determinar (S103) si cada señal de trama en el segmento de señal de voz es una señal de ruido con base en la varianza.

Description

DESCRIPCIÓN
Método para la determinación de señal de ruido y aparato del mismo
La presente solicitud reivindica prioridad a la solicitud de patente china No. 201510670697.8, presentada el 13 de octubre de 2015 y titulada " NOISE SIGNAL DETERMINING METHOD AND APPARATUS AND VOICE DENOISING METHOD AND APPARATUS".
Campo técnico
La presente solicitud se refiere al campo de las tecnologías de eliminación de ruido de voz, y en particular, a un método y aparato de determinación de señal de ruido y a un método y aparato de eliminación de ruido de voz.
Antecedentes de la Técnica
Una tecnología de eliminación de ruido de voz puede mejorar la calidad de la voz al eliminar los ruidos ambientales de una señal de voz. Un espectro de potencia de una señal de ruido en una señal de voz debe determinarse primero en el proceso de eliminación de ruido de voz, y luego la señal de voz puede eliminarse de acuerdo con el espectro de potencia determinado de la señal de ruido.
En la técnica anterior, un espectro de potencia de una señal de ruido en una señal de voz generalmente se puede determinar de la siguiente manera: analizando las primeras N señales de trama en un segmento de señal de voz suponiendo que las primeras N señales de trama son señales de ruido (es decir, que no incluyen ninguna señal de voz humana), para obtener los espectros de potencia de las señales de ruido en la señal de voz.
En un escenario de aplicación real, las primeras N señales de trama en una señal de voz que se supone que son señales de ruido en la técnica anterior usualmente son inconsistentes con las señales de ruido reales, y por lo tanto la precisión de los espectros de potencia de la señal de ruido obtenida se ve afectada.
El documento CN 101968957B describe un método de detección de voz en condiciones de ruido, que incluye las etapas de: convertir señales de entrada a un dominio de frecuencia y dividirlas en subbandas; calcular un espectro de potencia de cada subbanda para formar un espectro de potencia de subbanda; calcular la desviación cuadrática media del espectro de potencia de subbanda de cada trama y comparar la desviación cuadrática media que sirve como característica de detección con un umbral de detección de voz adaptativo para determinar si la trama actual contiene señales de voz.
El documento EP 2546831 describe un dispositivo de supresión de ruido en el que una unidad de separación de banda lleva a cabo una división de banda de una pluralidad de espectros de potencia dentro de la que se convierte una señal de entrada por una unidad de conversión de tiempo a frecuencia para combinar los espectros de potencia en cada subbanda. Una unidad generadora de componentes representativos de banda define un espectro de potencia que tiene un máximo entre la pluralidad de espectros de potencia dentro de cada subbanda como un espectro de potencia representativo. Una unidad generadora de cantidad de supresión de ruido calcula una cantidad de supresión de ruido para cada subbanda utilizando el espectro de potencia representativo y un espectro de ruido, y una unidad de supresión de ruido suprime las amplitudes de los espectros de potencia de acuerdo con la cantidad de supresión de ruido.
Resumen de la invención
Los objetivos de las realizaciones de la presente solicitud son proporcionar un método de determinación de señal de ruido y un aparato para resolver el problema en la técnica anterior de que la precisión de los espectros de potencia de señal de ruido obtenidos se ve afectada ya que las primeras N señales de trama que se supone que son señales de ruido son inconsistentes con las reales señales de ruido.
Para resolver el problema técnico de más arriba, se proporcionan el método de determinación de la señal de ruido según se establece en la reivindicación 1 y el aparato para determinar las señales de ruido según se establece en la reivindicación 6. Realizaciones particulares se definen en las reivindicaciones dependientes. Todos los sucesos siguientes de las palabras "realización(es)", si se refieren a combinaciones de características diferentes de las definidas por las reivindicaciones independientes, se refieren a ejemplos que se presentaron originalmente, pero que no representan realizaciones de la invención reivindicada actualmente; estos ejemplos todavía se muestran solo con fines ilustrativos.
Como se puede ver en las soluciones técnicas de más arriba proporcionadas en las realizaciones de la presente solicitud, realizando la transformada de Fourier en un segmento de señal de voz a analizar para adquirir un espectro de potencia de cada señal de trama, determinando una varianza de los valores de potencia de cada señal de trama en el segmento de señal de voz a analizar en varias frecuencias, y finalmente determinando si la señal de trama es una señal de ruido en base a la varianza, el método de determinación de señal de ruido y el aparato proporcionados en las realizaciones de la presente solicitud pueden obtener con precisión varias tramas de ruido incluidas en el segmento de señal de voz a analizar. Se puede eliminar ruido de la voz a procesar en función de una potencia promedio de las tramas de ruido determinadas en el proceso de eliminación de ruido de voz, y por lo tanto se mejora el efecto de la eliminación de ruido de voz.
Breve Descripción de los Dibujos
Para describir las soluciones técnicas en las realizaciones de la presente solicitud o la técnica anterior más claramente, a continuación, se presentan brevemente los dibujos adjuntos utilizados para describir las realizaciones o la técnica anterior. Aparentemente, los dibujos adjuntos que se describen a continuación son meramente algunas realizaciones mencionadas en la presente solicitud, y los expertos en la técnica aún pueden deducir, sin esfuerzos creativos, otros dibujos de estos dibujos adjuntos.
La Figura 1 es un diagrama de flujo de un método de determinación de señal de ruido de acuerdo con una realización de la presente solicitud;
La Figura 2 es un diagrama de flujo de etapas para determinar si una señal de trama es una señal de ruido de acuerdo con una realización de la presente solicitud;
La Figura 3 es un diagrama de flujo de etapas para determinar una varianza de los valores de potencia de una señal de trama en varios puntos de muestreo de acuerdo con una realización de la presente solicitud; La Figura 4 es un gráfico de curva de las varianzas de los valores de potencia de acuerdo con una realización de la presente solicitud;
La Figura 5 es un diagrama de flujo de un método de eliminación de ruido de voz de acuerdo con una realización de la presente solicitud;
La Figura 6 es un diagrama de bloques de un aparato de determinación de señal de ruido de acuerdo con una realización de la presente solicitud;
La Figura 7 es un diagrama de bloques de un aparato de eliminación de ruido de voz de acuerdo con una realización de la presente solicitud; y
La Figura 8 es un diagrama estructural esquemático de un ejemplo de implementación de hardware de un aparato proporcionado en la presente solicitud.
Descripción Detallada
Para que los expertos en la técnica entiendan mejor las soluciones técnicas de la presente solicitud, las soluciones técnicas en las realizaciones de la presente solicitud se describirán clara y completamente a continuación con referencia a los dibujos adjuntos en las realizaciones de la presente solicitud.
La Figura 1 muestra un diagrama de flujo de un método de determinación de señal de ruido de acuerdo con una realización de la presente solicitud. Para determinar una señal de ruido en un segmento de señal de voz a analizar, el método de determinación de la señal de ruido de esta realización incluye las siguientes etapas:
S101: Se realiza la transformada de Fourier en cada señal de trama en el segmento de señal de voz a analizar para adquirir un espectro de potencia de cada señal de trama en el segmento de señal de voz.
El segmento de señal de voz a analizar puede capturarse a partir de una voz a procesar en base a una determinada regla. El segmento de señal de voz a analizar puede ser un "segmento de trama de ruido sospechoso" que posiblemente incluye muchas tramas de ruido en base a una determinación preliminar. Preferentemente, antes de la etapa S101, el método incluye, además:
determinar un segmento de señal de voz con una variación de amplitud menor que un umbral preestablecido en la voz a procesar como el segmento de señal de voz a analizar en base a una variación de amplitud de una señal de dominio de tiempo de la voz a procesar; o capturar las primeras N señales de voz de trama en la voz a procesar como el segmento de señal de voz a analizar.
En la realización de la presente solicitud, en un dominio de tiempo de una señal de voz, una señal de ruido es generalmente un segmento de señal de voz que tiene una pequeña variación de amplitud o que tiene amplitudes consistentes, mientras que un segmento de señal de voz que incluye una voz de voz humana generalmente fluctúa mucho en variación de amplitud. En base a dicha regla, se puede establecer de antemano un umbral preestablecido utilizado para reconocer un "segmento de trama de ruido sospechoso" incluido en una voz a procesar (es decir, una voz a cuyo ruido será eliminado). Por lo tanto, un segmento de señal de voz que tiene una variación de amplitud menor que el umbral preestablecido en la voz a procesar puede determinarse como el segmento de señal de voz a analizar.
En la realización de la presente solicitud, el encuadre puede realizarse primero en una señal de voz. Una señal de trama se refiere a una señal de voz de trama única, y un segmento de señal de voz puede incluir varias señales de trama. Una señal de trama puede incluir varios puntos de muestreo, por ejemplo, 1.024 puntos de muestreo. Dos señales de trama adyacentes pueden superponerse entre sí (por ejemplo, una relación de superposición puede ser del 50%). En esta realización, se puede realizar una transformada de Fourier a corto plazo (STFT) en una señal de voz en un dominio de tiempo para adquirir un espectro de potencia (dominio de frecuencia) de la señal de voz. El espectro de potencia puede incluir múltiples valores de potencia correspondientes a diferentes frecuencias, por ejemplo, 1.024 valores de potencia.
En la realización de la presente solicitud, generalmente se puede suponer de forma predeterminada que una señal de voz en un período de tiempo (por ejemplo, 1,5 s) antes de que una persona hable es una señal de ruido (un ruido ambiental) en un segmento de señal de voz que incluye una voz humana. Por lo tanto, se puede determinar en la realización de la presente solicitud que la señal de voz a analizar son las primeras N señales de trama en un segmento de señal de voz. Por ejemplo, la señal de voz a analizar es una señal de voz en los primeros 1,5 s: {fV, f2”,..., fn'}, en el que f-T, f2 ',..., fn' representan señales de trama incluidas en la señal de voz, respectivamente. La realización de la presente solicitud tiene como objetivo determinar las señales de ruido a partir de las señales de trama en la señal de voz analizada.
Se pueden calcular múltiples valores de potencia correspondientes a cada señal de trama en función del espectro de potencia de la señal de voz a analizar: {f-T, f2 ',..., fn'} obtenida después del STFT. Suponga que el espectro de potencia de una señal de trama a una frecuencia es a+bi, en el que la parte real a puede representar la amplitud y la parte imaginaria b puede representar la fase. Entonces, un valor de potencia de la señal de trama a la frecuencia puede ser: a2+b2. Los valores de potencia de cada señal de trama a diferentes frecuencias se pueden obtener en base al proceso de más arriba. Por ejemplo, si cada una de las señales de trama {f-T, f2 ',..., fn'} incluye 1.024 puntos de muestreo, se pueden obtener 1.024 valores de potencia de cada señal de trama a diferentes frecuencias en función del espectro de potencia. Por ejemplo, los valores de potencia correspondientes a la señal de trama f1 son {p11, p12,..., p11024}, los valores de potencia correspondientes a la señal de trama f2 son {p21, p22,..., p21024},..., y los valores de potencia correspondientes a la señal de trama fn' son { p \ pn2,..., pn1024}.
S102: Una varianza de los valores de potencia de cada señal de trama en el segmento de señal de voz a varias frecuencias se determina en función del espectro de potencia de la señal de trama.
En base a los valores de potencia de las señales de trama {fV, f2 ',..., fn'} en varias frecuencias, varianzas {Var(f2 ), Var(f2 '),..., Var(fn')} de los valores de potencia de las señales de trama {fV, f2 ',..., fn'} se pueden calcular de acuerdo con una fórmula de cálculo de la varianza. Por ejemplo, si cada señal de trama incluye 1024 puntos de muestreo, Var (fV) es una varianza de { p \ p12 ,..., p11024}, Var(f2 ) es una varianza de {p21, p22,..., p21024},..., y Vaf ) es una varianza de { p \ pn2,..., pn1024}.
S103: Se determina si cada señal de trama en el segmento de señal de voz es una señal de ruido en base a la varianza.
En la realización de la presente solicitud, la energía (es decir, un valor de potencia) de una señal de trama que incluye un segmento de voz generalmente varía mucho con las bandas, mientras que la energía de una señal de trama sin un segmento de voz (es decir, una señal de ruido) varía con las bandas ligeramente y se distribuye uniformemente. Por lo tanto, se puede determinar si cada señal de trama es una señal de ruido en base a una varianza de los valores de potencia de la señal de trama.
La Figura 2 muestra un diagrama de flujo de etapas para determinar si una señal de trama es una señal de ruido de acuerdo con una realización de la presente solicitud. En la realización de la presente solicitud, la etapa de más arriba S103 puede incluir las siguientes etapas:
S1031: Se determina si la varianza de los valores de potencia de la señal de trama es mayor que un primer umbral T1.
S1032: Si no, la señal de trama se determina como una señal de ruido.
Si una varianza de los valores de potencia de una señal de trama excede el primer umbral T1, se indica que una amplitud de variación de la energía (es decir, valores de potencia) de la señal de trama con bandas excede el primer umbral T1. Por lo tanto, se puede determinar que la señal de trama no es una señal de ruido. En contraste, si una varianza de los valores de potencia de una señal de trama no excede el primer umbral T1, se indica que una amplitud de variación de la energía (es decir, valores de potencia) de la señal de trama con bandas no excede el primer umbral T1. Por lo tanto, se puede determinar que la señal de trama es una señal de ruido.
En base al proceso de más arriba, las señales de trama de ruido {fT, f2 ',..., fm'} y las señales de trama sin ruido {f 'm+1, f m+2,..., fn'} se puede determinar secuencialmente en las señales de voz a analizar {fV, f2 ',..., fn'}. Por lo tanto, las señales de ruido incluidas en un segmento de señal de voz pueden determinarse, y la eliminación de ruido de voz puede realizarse de acuerdo con estas señales de ruido {fT, f2',..., fn'}.
Con referencia a la Figura 3, en la realización de la presente solicitud, la etapa de más arriba S102 puede incluir específicamente las siguientes etapas:
S1021: Los valores de potencia de cada una de las señales de trama {fV, f2 ',..., fn'} en varias frecuencias se clasifican al menos en un primer conjunto de valores de potencia correspondiente a un primer intervalo de frecuencia y un segundo conjunto de valores de potencia correspondiente a un segundo intervalo de frecuencia de acuerdo con los intervalos de frecuencia a los que pertenecen las frecuencias correspondientes al espectro de potencia de la señal de trama, siendo el primer intervalo de frecuencia inferior al segundo intervalo de frecuencia.
En una realización específica, se puede adquirir una varianza de cada señal de trama en el dominio de frecuencia a través de estadísticas. Las señales sin ruido generalmente se concentran en las bandas de frecuencia media baja, mientras que las señales de ruido generalmente se distribuyen uniformemente en todas las bandas de frecuencia. Por lo tanto, se puede adquirir una varianza de los valores de potencia de cada señal de trama a varias frecuencias a través de estadísticas en al menos dos bandas de frecuencia diferentes (es decir, los intervalos de frecuencia de más arriba).
Por ejemplo, el primer intervalo de frecuencia puede ser 0~2000 Hz (banda de baja frecuencia), y el segundo intervalo de frecuencia puede ser 2000~4000 Hz (banda de alta frecuencia). Si cada señal de trama incluye 1024 puntos de muestreo, 1024 valores de potencia correspondientes a cada señal de trama se clasifican en un primer conjunto de valores de potencia A correspondiente a 0~2000 Hz y un segundo conjunto de valores de potencia B correspondiente a 2000~4000 Hz de acuerdo con los intervalos de frecuencia correspondientes a los valores de potencia. Usando la señal de trama f1 como ejemplo, 1.024 valores de potencia correspondientes son { p \ p12,..., p11024}. De acuerdo con los intervalos de frecuencia, se puede deducir que los valores de potencia incluidos en el primer conjunto de valores de potencia A son, por ejemplo, { p \ p12 ,..., p1126}, valores de potencia incluidos en el primer el conjunto de potencias A son, por ejemplo, {p1127, p1128,..., p11024}, y el resto puede deducirse por analogía. Debe observarse que las varianzas de los valores de potencia de la señal pueden adquirirse mediante estadísticas en más de dos bandas de frecuencia en otras realizaciones de la presente solicitud.
S1022: Se determina una primera varianza de los valores de potencia incluidos en el primer conjunto de valores de potencia.
Como se describió más arriba, utilizando la señal de trama f1 como ejemplo, los valores de potencia incluidos en el primer conjunto de valores de potencia A son, por ejemplo, {p1127, p1128,..., p11024}. Por lo tanto, se puede calcular una primera variación V a ra ita ( f1 ') de los valores de potencia p 1127~p11024 de acuerdo con una fórmula de varianza.
S1021: Se determina una segunda varianza de los valores de potencia incluidos en el segundo conjunto de valores de potencia.
Como se describió más arriba, utilizando la señal de trama f1 como ejemplo, los valores de potencia incluidos en el segundo conjunto de valores de potencia B son, por ejemplo, { p \ p 2,..., p126}. Por lo tanto, se puede calcular una segunda variación V a rb a ja ( f1 ' ) de los valores de potencia p11~p1126 de acuerdo con una fórmula de varianza.
La Figura 4 muestra un gráfico de curva de varianzas de acuerdo con una realización de la presente solicitud. En el gráfico, el eje horizontal indica un número de trama de una señal de trama, y el eje vertical indica la magnitud de una varianza. Una primera curva de varianza muestra la tendencia de una primera varianza de cada señal de trama, y la primera curva de varianza muestra la tendencia de una segunda varianza de cada señal de trama. Como se puede ver en el gráfico, la varianza fluctúa ligeramente en la banda de alta frecuencia 2000~4000 Hz, y la varianza fluctúa mucho en la banda de baja frecuencia 0~2000 Hz. Esto puede demostrar que las señales sin ruido se concentran principalmente en la banda de baja frecuencia.
Como se describió más arriba, en una realización preferida de la presente solicitud, la etapa S1031 puede incluir específicamente:
determinar si la primera varianza de los valores de potencia de la señal de trama es mayor que un primer umbral T1; y en caso afirmativo, determinar la señal de trama como una señal de ruido. Usando la señal de trama f1 como ejemplo, se determina si la primera varianza Vara«a(fi') es mayor que el primer umbral T1.
En la realización de la presente solicitud, la etapa de más arriba S103 puede incluir además específicamente:
determinar si una diferencia entre la primera varianza y la segunda varianza es mayor que un segundo umbral T2; y
en caso negativo, determinar la señal de trama como señal de ruido.
Usando la señal de trama f1 como ejemplo, una diferencia entre la primera varianza y la segunda varianza es | V a ra ita ( f1 ' ) -V a rb a ja ( f1 ' ) l Si |V a r a lta ( f1 ') - V a r b a ja ( f1 ') |< T 2 , la señal de trama f1 se determina como una señal de ruido. Las señales de ruido se pueden determinar secuencialmente a partir de las señales de trama de voz a analizar {fV, f2 ',..., fn'} de acuerdo con esta etapa.
En la realización de la presente solicitud, entre la etapa S102 y la etapa S103, el método puede incluir, además: clasificar las señales de trama en el segmento de señal de voz a analizar de acuerdo con las magnitudes de las varianzas.
Luego, determinar si cada señal de trama en el segmento de señal de voz es una señal de ruido en base a la varianza incluye:
determinar si cada señal de trama en el segmento de señal de voz es una señal de ruido en base a la varianza de los valores de potencia de cada señal de trama clasificada en varias frecuencias.
Como se describió más arriba, las varianzas {Var(fi'), V a f ' ) , ... , Var(fn')} de los valores de potencia de las señales de trama { fi , f2',..., fn'} se puede determinar en esta realización. Las señales de trama se pueden clasificar en orden ascendente de las varianzas de los valores de potencia. Una señal con una varianza menor es más probable que sea una señal de ruido. Por lo tanto, las señales de trama de ruido en la señal de voz a analizar pueden clasificarse al frente. En la realización de la presente solicitud, si las varianzas se adquieren respectivamente a través de estadísticas en la banda de baja frecuencia (por ejemplo, 0~2000 Hz) y la banda de alta frecuencia (por ejemplo, 2000~4000 Hz), los valores de potencia de cada una de las señales de trama {fi', fi , . . . , fn'} en varias frecuencias se pueden clasificar en un primer conjunto de valores de potencia A correspondiente a un primer intervalo de frecuencia (por ejemplo, 0~2000 Hz) y un segundo conjunto de valores de potencia B correspondiente a un segundo intervalo de frecuencia (por ejemplo, 2000~4000 Hz) de acuerdo con los intervalos de frecuencia a los que pertenecen las frecuencias correspondientes al espectro de potencia de la señal de trama. Luego, las primeras varianzas {Varb a a (fi'), Varbaja(f2 ) , ... , Varbaja(fn ') } de los valores de potencia incluidos en los primeros conjuntos de valores de potencia correspondientes a las señales de trama {fi', f2 ',..., fn'} se pueden determinar respectivamente, y segundas varianzas {Varaita(fi'), Varaita(f2 ) , ... , Vaa a (fn')} de los valores de potencia incluidos en los segundos conjuntos de valores de potencia correspondientes a las señales de trama {fi', f2 ',..., fn'} se pueden determinar respectivamente. En la etapa S104 de más arriba, en base a las estadísticas de varianza a frecuencias altas y bajas, las señales de ruido incluidas en las señales de voz a analizar (que pueden ser señales de voz clasificadas de acuerdo con las magnitudes de las varianzas) se pueden determinar de la siguiente manera:
Varbaja (f')>T i ( i)
| Varatta (f;)-Varbaja (f;)\>T2 (2)
Varaltaf + i)-Varalta (f i-i)>T3 (3)
Varaita (f ’i+ i)- Varatta (f 'i-i )>T 3 (4)
i e (i, n). Se puede determinar con base en la fórmula ( i) si una primera varianza de los valores de potencia de cada señal de trama f¡ es mayor que un primer umbral Ti. Si no, la señal de trama f¡ se determina como una señal de trama de ruido. Un conjunto de señales de trama de ruido determinadas se determina como una señal de ruido.
Se puede determinar con base en la fórmula (2) si una segunda varianza de los valores de potencia de cada señal de trama f¡ es mayor que un segundo umbral T2. Si no, la señal de trama f¡ se determina como una señal de trama de ruido. Un conjunto de señales de trama de ruido determinadas se determina como una señal de ruido.
Se puede determinar con base en la fórmula (3) si una diferencia Varatta(f ’i+ i)-Vara ita (f i - i ) entre una segunda varianza Vara ita (f i-i) de los valores de potencia de un la señal de trama f - i antes de una señal de trama f¡ y una segunda varianza Varatta(f i+ i) de los valores de potencia de una señal de trama f + junto a la señal de trama fi ' es mayor de un tercer umbral T3. Si no, la señal de trama fi ' se determina como una señal de trama de ruido. Un conjunto de señales de trama de ruido determinadas se determina como una señal de ruido.
Se puede determinar con base en la fórmula (4) si una diferencia Varbaja(f i+ i ) -Varbaja(f i-i) entre una primera varianza Varbaja(f i-i) de los valores de potencia de un señal de trama f - i antes de una señal de trama f y una primera varianza Varbaja(f i+ i) de los valores de potencia de una señal de trama f+i al lado de la señal de trama fi es mayor de un cuarto umbral T4. Si no, la señal de trama fi se determina como una señal de trama de ruido. Un conjunto de señales de trama de ruido determinadas se determina como una señal de ruido.
En la realización de la presente solicitud, las tramas de ruido incluidas en la señal de voz a analizar pueden reconocerse usando las fórmulas ( i) a (4) de más arriba. Es decir, cualquier señal de trama f f que cumpla con cualquiera de las fórmulas de más arriba ( i) a (4) puede determinarse como una señal sin ruido (una trama final de ruido). En otras palabras, cualquier señal de trama f i cumplir ninguna de las fórmulas de más arriba ( i) a (4) se puede determinar como una señal de ruido. Se puede determinar una trama final de ruido fm en base al proceso de más arriba, y luego las tramas de ruido incluyen: { f i , f i , ... , f m-i}.
Cabe señalar que, en otras realizaciones de la presente solicitud, la trama final de ruido puede determinarse en base a algunas de las fórmulas ( i) a (4), tales como las fórmulas ( i) y (2), o las fórmulas (2) y (3). Además, las fórmulas para determinar la trama final de ruido en la realización de la presente solicitud no se limitan a las fórmulas enumeradas más arriba. Los umbrales Ti, T2, T3 y T4 se obtienen de las estadísticas de una gran cantidad de muestras de prueba.
La Figura 5 es un diagrama de flujo de un método de eliminación de ruido de voz de acuerdo con una realización de la presente solicitud, que incluye las siguientes etapas:
S20i: Se determina un segmento de señal de voz a analizar incluido en una voz a procesar.
S202: Se realiza la transformada de Fourier en cada señal de trama en el segmento de señal de voz a analizar para adquirir un espectro de potencia de cada señal de trama en el segmento de señal de voz. S203: Se determina una varianza de los valores de potencia de cada señal de trama en el segmento de señal de voz a varias frecuencias en función del espectro de potencia de la señal de trama.
S204: Se determina si cada señal de trama en el segmento de señal de voz es una señal de ruido en base a la varianza, y se obtienen varias tramas de ruido incluidas en el segmento de señal de voz.
S205: Se determina una potencia promedio correspondiente a las varias tramas de ruido incluidas en el segmento de señal de voz, y la voz a procesar se elimina en función de la potencia promedio de las tramas de ruido.
En la realización de la presente solicitud, después de que las tramas de ruido {f-T, f2 ',..., f m-1} incluidas en un segmento de voz a analizar se adquieren de acuerdo con el método de más arriba, los números de trama de señales originales (antes de la clasificación) correspondientes a las tramas de ruido respectivamente, se puede determinar, y se puede obtener una potencia promedio de estas señales de trama a través de estadísticas para obtener un valor de estimación del espectro de potencia Pru ido de la señal de ruido. La voz puede ser eliminada después de obtener el valor de estimación del espectro de potencia Pru ido de la señal de ruido. El método de eliminación de ruido es bien conocido por los expertos en la técnica y no se describirá específicamente aquí.
Definitivamente, en otras formas de realización factibles de la presente solicitud, se puede omitir la etapa de clasificar las señales de trama de acuerdo con las varianzas, y las tramas de ruido se pueden determinar directamente en función de las varianzas de las señales originales. Además, después de determinar múltiples tramas de señal de ruido en la presente solicitud, el valor de estimación del espectro de potencia Pru ido generalmente se calcula usando algunos de las tramas, para evitar la sobreestimación. Por ejemplo, se pueden capturar las primeros 30 tramas para calcular el valor de estimación del espectro de potencia del Pru ido si la señal de ruido determinada incluye 50 tramas. Como tal, se puede mejorar la precisión del valor de estimación del espectro de potencia.
Una realización de la presente solicitud proporciona además un aparato de determinación de señal de ruido correspondiente a la implementación del proceso de más arriba. El aparato se puede implementar a través de software, y también se puede implementar a través de hardware o una combinación de software y hardware. Al usar una manera de implementación de software como ejemplo, se puede formar un aparato en un sentido lógico leyendo un programa de computadora correspondiente a través de una Unidad Central de Procesamiento (CPU) de un servidor en una memoria y ejecutando el programa de computadora. Consulte la Figura 8 para una estructura de hardware del aparato.
La Figura 6 es un diagrama de bloques de un aparato de determinación de señal de ruido de acuerdo con una realización de la presente solicitud. En esta realización, las funciones de las unidades en el aparato pueden corresponder a las funciones de las etapas en el método de determinación de señal de ruido de más arriba. Consulte la realización del método de más arriba para más detalles. El aparato de determinación de señal de ruido 100 incluye:
una unidad de adquisición de espectro de potencia 101 configurada para realizar la transformada de Fourier en cada señal de trama en un segmento de señal de voz a analizar para adquirir un espectro de potencia de cada señal de trama en el segmento de señal de voz;
una unidad de determinación de varianza 102 configurada para determinar una varianza de valores de potencia de cada señal de trama en el segmento de señal de voz a diversas frecuencias en base a el espectro de potencia de la señal de trama; y
una unidad de determinación de ruido 103 configurada para determinar si cada señal de trama en el segmento de señal de voz es una señal de ruido en base a la varianza.
Preferentemente, el aparato incluye, además: una unidad de adquisición de segmento configurada para:
determinar un segmento de señal de voz con una variación de amplitud menor que un umbral preestablecido en una voz a procesar como el segmento de señal de voz a analizar en función de una variación de amplitud de una señal de dominio de tiempo de la voz a procesar; o
capturar las primeras N señales de voz de trama en una voz a procesar como el segmento de señal de voz a analizar.
Preferentemente, la unidad de determinación de ruido 103 está configurada para:
determinar si la varianza correspondiente a cada señal de trama en el segmento de señal de voz es mayor que un primer umbral; y
si no, determinar la señal de trama como una señal de ruido.
Preferentemente, la unidad de determinación de varianza 102 está configurada para:
al menos clasificar los valores de potencia de la señal de trama en varias frecuencias en un primer conjunto de valores de potencia correspondiente a un primer intervalo de frecuencia de acuerdo con los intervalos de frecuencia a los que pertenecen las frecuencias correspondientes al espectro de potencia; y determinar una primera varianza de los valores de potencia incluidos en el primer conjunto de valores de potencia.
Entonces la unidad de determinación de ruido 103 está configurada para:
determinar si la primera varianza es mayor que el primer umbral; y
si no, determinar la señal de trama como una señal de ruido.
Preferentemente, la unidad de determinación de varianza 102 está configurada específicamente para:
al menos clasificar los valores de potencia de cada señal de trama en varias frecuencias en un primer conjunto de valores de potencia correspondiente a un primer intervalo de frecuencia y un segundo conjunto de valores de potencia correspondiente a un segundo intervalo de frecuencia de acuerdo con los intervalos de frecuencia a los que pertenecen las frecuencias correspondientes a los valores de potencia de la señal de trama, en el que el primer intervalo de frecuencia es menor que el segundo intervalo de frecuencia; determinar una primera varianza de los valores de potencia incluidos en el primer conjunto de valores de potencia; y
determinar una segunda varianza de los valores de potencia incluidos en el segundo conjunto de valores de potencia.
Entonces la unidad de determinación de ruido 103 está configurada para:
determinar si una diferencia entre la primera varianza y la segunda varianza que corresponde a cada señal de trama es mayor que un segundo umbral; y
si no, determinar la señal de trama como una señal de ruido.
Una realización de la presente solicitud proporciona además un aparato de eliminación de ruido de voz correspondiente a la implementación del proceso de más arriba. El aparato se puede implementar a través de software, y también se puede implementar a través de hardware o una combinación de software y hardware. Al usar una manera de implementación de software como ejemplo, se puede formar un aparato en un sentido lógico leyendo un programa de computadora correspondiente a través de una Unidad Central de Procesamiento (CPU) de un servidor en una memoria y ejecutando el programa de computadora. Consulte la Figura 8 para una estructura de hardware del aparato.
La Figura 7 es un diagrama de bloques de un aparato de eliminación de ruido de voz de acuerdo con una realización de la presente solicitud. En esta realización, las funciones de las unidades en el aparato pueden corresponder a las funciones de las etapas en el método de más arriba de eliminación de ruido de voz. Consulte la realización del método de más arriba para más detalles. En esta realización, el aparato de eliminación de ruido de voz 200 incluye:
una unidad de determinación de segmento 201 configurada para determinar un segmento de señal de voz a analizar incluido en una voz a procesar;
una unidad de adquisición de espectro de potencia 202 configurada para realizar la transformada de Fourier en cada señal de trama en el segmento de señal de voz a analizar para adquirir un espectro de potencia de cada señal de trama en el segmento de señal de voz;
una unidad de determinación de varianza 203 configurada para determinar una varianza de valores de potencia de cada señal de trama en el segmento de señal de voz a diversas frecuencias en base a el espectro de potencia de la señal de trama; una unidad de determinación de ruido 205 configurada para determinar si cada señal de trama en el segmento de señal de voz es una señal de ruido en base a la varianza, y obtener varias tramas de ruido incluidas en el segmento de señal de voz; y
una unidad de eliminación de ruido de voz 10 configurada para determinar una potencia media correspondiente a las diversas tramas de ruido incluidas en el segmento de señal de voz, y eliminar el ruido de la voz a procesar en función de la potencia media de las tramas de ruido.
Preferentemente, el aparato incluye, además: una unidad de clasificación 204 configurada para:
clasificar las señales de trama en el segmento de señal de voz a analizar de acuerdo con las magnitudes de las varianzas.
Entonces la unidad de determinación de ruido 205 está configurada específicamente para:
determinar si cada señal de trama en el segmento de señal de voz es una señal de ruido en base a la varianza de los valores de potencia de cada señal de trama clasificado en varias frecuencias.
Al realizar la transformada de Fourier en un segmento de señal de voz a analizar para adquirir un espectro de potencia de cada señal de trama, determinar una varianza de los valores de potencia de cada señal de trama en el segmento de señal de voz a analizar en varias frecuencias, y finalmente determinar si la señal de trama es una señal de ruido en base a la varianza, el método y el aparato de determinación de la señal de ruido, así como el método y aparato de eliminación de ruido de voz proporcionados en las realizaciones de la presente solicitud, pueden determinar con precisión varias tramas de ruido incluidas en el segmento de señal de voz a analizar. Se puede eliminar el ruido de la voz a procesar en función de una potencia promedio de las diversas tramas de ruido determinados en el proceso de eliminación de ruido de voz, y por lo tanto se mejora el efecto de eliminación de ruido de voz.
Para facilitar la descripción, el aparato se divide en varias unidades en términos de funciones para las descripciones respectivas. Definitivamente, cuando se implementa la presente solicitud, las funciones de las unidades pueden implementarse en el mismo componente de software y/o hardware o múltiples componentes de software y/o hardware.
Los expertos en la técnica deben entender que las realizaciones de la presente invención pueden proporcionarse como un método, un sistema, o un producto de programa informático. Por lo tanto, la presente invención puede implementarse como una realización de hardware completa, una realización de software completa o una realización que combina software y hardware. Además, la presente invención puede estar en forma de un producto de programa informático implementado en uno o más medios de almacenamiento utilizables por una computadora (que incluyen, pero no se limitan a, una memoria de disco magnético, un CD-ROM, una memoria óptica, y similares) que incluyen código de programa utilizable por una computadora.
La presente invención se describe con referencia a diagramas de flujo y/o diagramas de bloques de acuerdo con el método, el dispositivo (sistema) y el producto de programa informático de acuerdo con las realizaciones de la presente invención. Debe entenderse que las instrucciones del programa informático pueden usarse para implementar cada proceso y/o bloque y una combinación de procesos y/o bloques en los diagramas de flujo y/o diagramas de bloque. Las instrucciones del programa de computadora se pueden proporcionar a una computadora de propósito general, una computadora de propósito especial, un procesador incorporado u otro dispositivo de procesamiento de datos programable para generar una máquina, de modo que la computadora o un procesador de otro dispositivo de procesamiento de datos programable ejecute una instrucción para generar un aparato configurado para implementar funciones designadas en uno o más procesos en un diagrama de flujo y/o uno o más bloques en un diagrama de bloques.
Las instrucciones del programa de computadora también pueden almacenarse en un almacenamiento de lectura de la computadora que puede guiar a una computadora u otro dispositivo de procesamiento de datos programable para trabajar de una manera específica, de modo que la instrucción almacenada en el almacenamiento de lectura de la computadora genere una fabricación que incluya un aparato de instrucción que implemente funciones designadas por uno o más procesos en un diagrama de flujo y/o uno o más bloques en un diagrama de bloques.
Las instrucciones del programa informático también pueden cargarse en una computadora u otro dispositivo de procesamiento de datos programable, de modo que se ejecuten una serie de etapas de operación en la computadora u otro dispositivo programable, para generar un procesamiento implementado por la computadora. Por lo tanto, la instrucción ejecutada en la computadora u otro dispositivo programable proporciona etapas para implementar funciones designadas en uno o más procesos en un diagrama de flujo y/o uno o más bloques en un diagrama de bloques.
Cabe señalar además que el término "incluir", "comprender" u otras variaciones de estos están destinados a cubrir no excluyentes, de modo que un proceso, método, producto o dispositivo que incluye una serie de elementos no solo incluye los elementos, sino que también incluye otros elementos que no están claramente enumerados, o incluye elementos inherentes del proceso, método, producto o dispositivo. En un caso sin más limitaciones, un elemento definido por "que incluye un ..." no excluye que el proceso, método, producto o dispositivo que incluye el elemento tenga además otros elementos idénticos.
Los expertos en la técnica deben entender que las realizaciones de la presente solicitud pueden proporcionarse como un método, un sistema, o un producto de programa informático. Por lo tanto, la presente solicitud puede implementarse en forma de una realización de hardware completa, una realización de software completa o una realización que combina software y hardware. Además, la presente solicitud puede estar en la forma de un producto de programa informático implementado en uno o más medios de almacenamiento utilizables por la computadora (que incluyen, pero no se limitan a, una memoria de disco magnético, un CD-ROM, una memoria óptica, y similares) que incluyen código de programa utilizable por una computadora.
La presente solicitud puede describirse en un contexto común de una instrucción ejecutable por computadora ejecutada por una computadora, por ejemplo, un módulo de programa. Generalmente, el módulo del programa incluye una rutina, un programa, un objeto, un ensamblaje, una estructura de datos y similares utilizados para ejecutar una tarea específica o implementar un tipo de datos abstracto específico. La presente solicitud también se puede implementar en entornos informáticos distribuidos, en los que se ejecuta una tarea utilizando dispositivos de procesamiento remoto conectados a través de una red de comunicaciones. En los entornos informáticos distribuidos, el módulo del programa puede ubicarse en medios de almacenamiento informáticos locales y remotos, incluido un dispositivo de almacenamiento.
Las realizaciones en la especificación se describen progresivamente, se pueden obtener partes idénticas o similares de las realizaciones con referencia entre sí, y cada realización enfatiza una parte diferente de otras realizaciones. Especialmente, la realización del sistema es básicamente similar a la realización del método, por lo que se describe simplemente. Para partes relacionadas, consulte las descripciones de las partes en la realización del método.
Las descripciones de más arriba son meramente realizaciones de la presente solicitud, y no pretenden limitar la presente solicitud. Varias modificaciones y variaciones de la presente solicitud son posibles para los expertos en la técnica. El alcance de la presente invención está definido por las reivindicaciones adjuntas.

Claims (6)

REIVINDICACIONES
1. Un método para determinar una señal de ruido en un segmento de señal de voz, el método que comprende:
determinar un segmento de señal de voz con una variación de amplitud menor que un umbral preestablecido en una voz a procesar como el segmento de señal de voz con base en una variación de amplitud de una señal de dominio de tiempo de la voz a procesar;
realizar (S101) una transformada de Fourier en cada señal de trama en el segmento de señal de voz para adquirir un espectro de potencia de cada señal de trama en el segmento de señal de voz, en donde el espectro de potencia comprende múltiples valores de potencia correspondientes a diferentes frecuencias; determinar (S102) una varianza de los valores de potencia de cada señal de trama en el segmento de señal de voz a diversas frecuencias en función del espectro de potencia de la señal de trama; y
determinar (S103) si cada señal de trama en el segmento de señal de voz es una señal de ruido con base en la varianza.
2. El método de la reivindicación 1, en donde la etapa de determinar si cada señal de trama en el segmento de señal de voz es una señal de ruido con base en la varianza comprende:
determinar (S1031) si la varianza correspondiente a cada señal de trama en el segmento de señal de voz es mayor que un primer umbral; y
en caso negativo, determinar (S1032) la señal de trama como señal de ruido.
3. El método de la reivindicación 2, en donde la etapa de determinar una varianza de los valores de potencia de cada señal de trama en el segmento de señal de voz a varias frecuencias con base en el espectro de potencia de la señal de trama comprende:
al menos clasificar los valores de potencia de la señal de trama en varias frecuencias en un primer conjunto de valores de potencia correspondiente a un primer intervalo de frecuencia de acuerdo con los intervalos de frecuencia a los que pertenecen las frecuencias correspondientes al espectro de potencia; y determinar (S1022) una primera varianza de valores de potencia comprendidos en el primer conjunto de valores de potencia;
entonces la etapa de determinar si la varianza es mayor que un primer umbral comprende determinar si la primera varianza es mayor que el primer umbral.
4. El método de la reivindicación 1, en donde la etapa de determinar una varianza de los valores de potencia de cada señal de trama en el segmento de señal de voz a varias frecuencias en base a el espectro de potencia de la señal de trama comprende:
al menos clasificar los valores de potencia (S1021) de cada señal de trama en varias frecuencias en un primer conjunto de valores de potencia correspondiente a un primer intervalo de frecuencia y un segundo conjunto de valores de potencia correspondiente a un segundo intervalo de frecuencia de acuerdo con los intervalos de frecuencia a los que pertenecen las frecuencias correspondientes a los valores de potencia de la señal de trama, en donde el primer intervalo de frecuencia es menor que el segundo intervalo de frecuencia;
determinar (S1022) una primera varianza de valores de potencia comprendidos en el primer conjunto de valores de potencia; y
determinar (S1023) una segunda varianza de valores de potencia comprendidos en el segundo conjunto de valores de potencia;
entonces la etapa de determinar si cada señal de trama en el segmento de señal de voz es una señal de ruido con base en las varianzas comprende:
determinar si una diferencia entre la primera varianza y la segunda varianza que corresponde a cada señal de trama es mayor que un segundo umbral; y
en caso negativo, determinar la señal de trama como señal de ruido.
5. El método de la reivindicación 1, en donde después de la etapa de determinar una varianza de los valores de potencia de cada señal de trama en el segmento de señal de voz a varias frecuencias con base en el espectro de potencia de la señal de trama y antes de la etapa de determinar si cada señal de trama en el segmento de señal de voz es una señal de ruido con base en la varianza, el método comprende, además: clasificar las señales de trama en el segmento de señal de voz de acuerdo con las magnitudes de las varianzas;
entonces la etapa de determinar si cada señal de trama en el segmento de señal de voz es una señal de ruido con base en la varianza comprende determinar si cada señal de trama en el segmento de señal de voz es una señal de ruido con base en la varianza de los valores de potencia de cada señal de trama clasificada en varias frecuencias.
6. Un aparato (100) para determinar señales de ruido en un segmento de señal de voz, el aparato que comprende múltiples unidades (101, 102, 103) configuradas para realizar el método de cualquiera de las reivindicaciones 1 a 5.
ES16854895T 2015-10-13 2016-10-08 Método para la determinación de señal de ruido y aparato del mismo Active ES2807529T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510670697.8A CN106571146B (zh) 2015-10-13 2015-10-13 噪音信号确定方法、语音去噪方法及装置
PCT/CN2016/101444 WO2017063516A1 (zh) 2015-10-13 2016-10-08 噪音信号确定方法、语音去噪方法及装置

Publications (1)

Publication Number Publication Date
ES2807529T3 true ES2807529T3 (es) 2021-02-23

Family

ID=58508605

Family Applications (1)

Application Number Title Priority Date Filing Date
ES16854895T Active ES2807529T3 (es) 2015-10-13 2016-10-08 Método para la determinación de señal de ruido y aparato del mismo

Country Status (9)

Country Link
US (1) US10796713B2 (es)
EP (1) EP3364413B1 (es)
JP (1) JP6784758B2 (es)
KR (1) KR102208855B1 (es)
CN (1) CN106571146B (es)
ES (1) ES2807529T3 (es)
PL (1) PL3364413T3 (es)
SG (2) SG10202005490WA (es)
WO (1) WO2017063516A1 (es)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10504538B2 (en) * 2017-06-01 2019-12-10 Sorenson Ip Holdings, Llc Noise reduction by application of two thresholds in each frequency band in audio signals
KR102096533B1 (ko) * 2018-09-03 2020-04-02 국방과학연구소 음성 구간을 검출하는 방법 및 장치
CN110689901B (zh) * 2019-09-09 2022-06-28 苏州臻迪智能科技有限公司 语音降噪的方法、装置、电子设备及可读存储介质
JP7331588B2 (ja) * 2019-09-26 2023-08-23 ヤマハ株式会社 情報処理方法、推定モデル構築方法、情報処理装置、推定モデル構築装置およびプログラム
KR20220018271A (ko) 2020-08-06 2022-02-15 라인플러스 주식회사 딥러닝을 이용한 시간 및 주파수 분석 기반의 노이즈 제거 방법 및 장치
EP4273860A1 (en) * 2020-12-31 2023-11-08 Shenzhen Shokz Co., Ltd. Audio generation method and system
CN112967738A (zh) * 2021-02-01 2021-06-15 腾讯音乐娱乐科技(深圳)有限公司 人声检测方法、装置及电子设备和计算机可读存储介质

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2966452B2 (ja) * 1989-12-11 1999-10-25 三洋電機株式会社 音声認識装置の雑音除去システム
JPH0836400A (ja) * 1994-07-25 1996-02-06 Kokusai Electric Co Ltd 音声状態判定回路
US6529868B1 (en) * 2000-03-28 2003-03-04 Tellabs Operations, Inc. Communication system noise cancellation power signal calculation techniques
US7299173B2 (en) * 2002-01-30 2007-11-20 Motorola Inc. Method and apparatus for speech detection using time-frequency variance
CN101197130B (zh) 2006-12-07 2011-05-18 华为技术有限公司 声音活动检测方法和声音活动检测器
WO2008111462A1 (ja) 2007-03-06 2008-09-18 Nec Corporation 雑音抑圧の方法、装置、及びプログラム
EP2031583B1 (en) * 2007-08-31 2010-01-06 Harman Becker Automotive Systems GmbH Fast estimation of spectral noise power density for speech signal enhancement
JP2009216733A (ja) * 2008-03-06 2009-09-24 Nippon Telegr & Teleph Corp <Ntt> フィルタ推定装置、信号強調装置、フィルタ推定方法、信号強調方法、プログラム、記録媒体
JP4327886B1 (ja) 2008-05-30 2009-09-09 株式会社東芝 音質補正装置、音質補正方法及び音質補正用プログラム
EP2546831B1 (en) 2010-03-09 2020-01-15 Mitsubishi Electric Corporation Noise suppression device
CN101853661B (zh) * 2010-05-14 2012-05-30 中国科学院声学研究所 基于非监督学习的噪声谱估计与语音活动度检测方法
CN102314883B (zh) * 2010-06-30 2013-08-21 比亚迪股份有限公司 一种判断音乐噪声的方法以及语音消噪方法
JP4937393B2 (ja) 2010-09-17 2012-05-23 株式会社東芝 音質補正装置及び音声補正方法
CN101968957B (zh) * 2010-10-28 2012-02-01 哈尔滨工程大学 一种噪声条件下的语音检测方法
CN102800322B (zh) * 2011-05-27 2014-03-26 中国科学院声学研究所 一种噪声功率谱估计与语音活动性检测方法
CN103903629B (zh) * 2012-12-28 2017-02-15 联芯科技有限公司 基于隐马尔科夫链模型的噪声估计方法和装置
CN103489446B (zh) * 2013-10-10 2016-01-06 福州大学 复杂环境下基于自适应能量检测的鸟鸣识别方法
CN103632677B (zh) * 2013-11-27 2016-09-28 腾讯科技(成都)有限公司 带噪语音信号处理方法、装置及服务器

Also Published As

Publication number Publication date
EP3364413A1 (en) 2018-08-22
US20180293997A1 (en) 2018-10-11
CN106571146B (zh) 2019-10-15
JP2018534618A (ja) 2018-11-22
PL3364413T3 (pl) 2020-10-19
JP6784758B2 (ja) 2020-11-11
WO2017063516A1 (zh) 2017-04-20
US10796713B2 (en) 2020-10-06
EP3364413A4 (en) 2019-06-26
KR102208855B1 (ko) 2021-01-29
CN106571146A (zh) 2017-04-19
SG11201803004YA (en) 2018-05-30
EP3364413B1 (en) 2020-06-10
SG10202005490WA (en) 2020-07-29
KR20180067608A (ko) 2018-06-20

Similar Documents

Publication Publication Date Title
ES2807529T3 (es) Método para la determinación de señal de ruido y aparato del mismo
Millioz et al. Circularity of the STFT and spectral kurtosis for time-frequency segmentation in Gaussian environment
US8891786B1 (en) Selective notch filtering for howling suppression
EP2828856B1 (en) Audio classification using harmonicity estimation
CN101430882B (zh) 一种抑制风噪声的方法及装置
JP6793706B2 (ja) 音声信号を検出するための方法および装置
CN104637489B (zh) 声音信号处理的方法和装置
CN110706693B (zh) 语音端点的确定方法及装置、存储介质、电子装置
US9997168B2 (en) Method and apparatus for signal extraction of audio signal
JP2018534618A5 (es)
Brown et al. Automatic and efficient denoising of bioacoustics recordings using mmse stsa
de Souza et al. On selecting relevant intrinsic mode functions in empirical mode decomposition: An energy-based approach
Kumar Mean-median based noise estimation method using spectral subtraction for speech enhancement technique
CN105830152B (zh) 集音装置、集音装置的输入信号校正方法以及移动设备信息系统
US9159336B1 (en) Cross-domain filtering for audio noise reduction
US20150124998A1 (en) Multi-band harmonic discrimination for feedback supression
JP6666725B2 (ja) ノイズ低減装置およびノイズ低減方法
Parris et al. Real-time implementation of cochlear implant speech processing pipeline on smartphones
US10389394B2 (en) Method and device for processing a signal
Becker et al. A segmental spectral flatness measure for harmonic-percussive discrimination
Eldwaik et al. Microphone wind noise reduction using singular spectrum analysis techniques
JP6559427B2 (ja) 音声処理装置、音声処理方法およびプログラム
TWI585757B (zh) 口吃偵測方法與裝置、電腦程式產品
US10312954B1 (en) Identification of RFI (radio frequency interference)
Zeng-Pu et al. Influence of window width selection in fault diagnosis of loudspeaker based on Short-time Fourier Transform