ES2964131T3 - Método y aparato de detección de voz objetivo - Google Patents

Método y aparato de detección de voz objetivo Download PDF

Info

Publication number
ES2964131T3
ES2964131T3 ES18871326T ES18871326T ES2964131T3 ES 2964131 T3 ES2964131 T3 ES 2964131T3 ES 18871326 T ES18871326 T ES 18871326T ES 18871326 T ES18871326 T ES 18871326T ES 2964131 T3 ES2964131 T3 ES 2964131T3
Authority
ES
Spain
Prior art keywords
detection
model
target voice
module
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18871326T
Other languages
English (en)
Inventor
Feng Ma
Haikun Wang
Zhiguo Wang
Guoping Hu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Application granted granted Critical
Publication of ES2964131T3 publication Critical patent/ES2964131T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0264Noise filtering characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/15Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/06Decision making techniques; Pattern matching strategies
    • G10L17/08Use of distortion metrics or a particular distance between probe pattern and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01HMEASUREMENT OF MECHANICAL VIBRATIONS OR ULTRASONIC, SONIC OR INFRASONIC WAVES
    • G01H17/00Measuring mechanical vibrations or ultrasonic, sonic or infrasonic waves, not provided for in the preceding groups
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Game Theory and Decision Science (AREA)
  • Business, Economics & Management (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

Un método y aparato de detección de voz objetivo. El método comprende: recibir una señal de sonido recopilada sobre la base de un conjunto de micrófonos (101); realizar un tratamiento de formación de haces en la señal de sonido para obtener haces de ondas en diferentes direcciones (102); extraer características de detección basándose en la señal de sonido y los haces de ondas en diferentes direcciones cuadro por cuadro (103); introducir las características de detección extraídas del fotograma actual en un modelo de detección de voz objetivo prediseñado para obtener un resultado de salida del modelo (104); y obtener un resultado de detección de la voz objetivo correspondiente al cuadro actual según el resultado de salida del modelo (105). Por lo tanto, se puede mejorar la precisión de los resultados de detección. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método y aparato de detección de voz objetivo
Campo técnico
La presente divulgación se refiere al campo del procesamiento de señales de voz y, en particular, a un método de detección de voz objetivo y a un aparato de detección de voz objetivo.
Antecedentes
La voz, como uno de los métodos de interacción más naturales, convenientes y rápidos, se ha usado ampliamente en el trabajo y la vida cotidiana de las personas. El procesamiento de señales de voz, tal como la codificación de voz y la reducción de ruido, también ha sido un tema candente de investigación para los investigadores en campos relacionados. Tomando como un ejemplo la reducción de ruido de la voz, la detección de voz objetivo es una de las etapas más importantes en la reducción de ruido, por lo tanto la precisión de la detección de voz objetivo afecta directamente al efecto de la reducción de ruido. Si la detección de voz objetivo no es precisa, la voz efectiva se distorsionará gravemente en el proceso de reducción de ruido. Por lo tanto, una detección de voz objetivo precisa es de gran importancia.
Los métodos de detección de voz objetivo existentes incluyen principalmente los siguientes dos tipos.
1. Método de detección de voz objetivo basado en diferencia de intensidad
Por ejemplo, en primer lugar se realiza una reducción de ruido sobre una señal de micrófono primario, entonces se realiza una detección de voz basándose en la diferencia en las intensidades de señal entre la señal de micrófono primario después de que se haya realizado una reducción de ruido y una señal de micrófono secundario; como alternativa, la detección de voz objetivo se realiza basándose en la diferencia en las energías entre una señal de referencia de voz y una señal de referencia de ruido. Este tipo de método se basa en la suposición de que la intensidad de una señal objetivo recogida por el micrófono primario es mayor que la intensidad de una señal objetivo recogida por el micrófono secundario, y las intensidades de las señales de ruido en el micrófono primario y en el micrófono secundario son iguales. Por ejemplo, si una relación señal-ruido es alta, la relación entre la energía de la señal recogida por el micrófono primario y la energía de la señal recogida por el micrófono secundario es mayor que 1, y si la relación señal-ruido es baja, la relación entre la energía de la señal recogida por el micrófono primario y la energía de la señal recogida por el micrófono secundario es menor que 1.
El escenario de aplicación del método de detección de voz objetivo basado en diferencia de intensidad es limitado, es decir, el método es eficaz solo en el caso en el que la diferencia entre la intensidad de la señal objetivo que llega al micrófono primario y la intensidad de la señal objetivo que alcanza el micrófono secundario alcanza un cierto umbral (por ejemplo, la diferencia es mayor que 3 dB). Además, si el ruido es grande y la relación señal-ruido es baja, la probabilidad de que se detecte la voz objetivo es baja.
2. Método de detección de voz objetivo basado en aprendizaje automático
Por ejemplo, si se usa una señal de un único canal con ruido como una entrada y se usa una máscara binaria ideal (IBM) o una máscara de relación ideal (IRM) como una salida, puede usarse un valor de la salida como una base para la existencia de una voz objetivo. Como alternativa, si se usan datos de múltiples canales, se combinan múltiples canales para dar un canal como una entrada para obtener una máscara.
El método de detección de voz objetivo basado en aprendizaje automático existente tiene los siguientes problemas. Si solo se usa información de un único canal, la información no se utiliza plenamente, por lo tanto el efecto de la detección de voz objetivo no es bueno. Incluso si se usa información de múltiples canales, solo una señal original en un canal o una señal mixta puede ser procesada por una red neuronal, la información de espacio de los múltiples canales no se utiliza bien. Si en el ruido hay interferencias acústicas humanas en otra dirección, el efecto del método se reduce de forma abrupta. Se propone un sistema (Zhang Xueliang y col., "Deep Learning Based Binaural Speech Separation in Reverberant Environment', IEEE/ACM Transactions on Audio, Speech, and Language Processing, IEEE, EE. UU., vol. 25, n.° 5, 1 de mayo de 2017) para separar, de unas entradas binaurales, una señal de habla objetivo en condiciones de reverberación. La separación binaural se formula como un problema de aprendizaje supervisado, y se emplea aprendizaje profundo para correlacionar características tanto espaciales como espectrales con un objetivo de entrenamiento. Con las entradas binaurales, en primer lugar se aplica un formador de haces fijo, y entonces se extraen varias características espectrales. Se propone y se extrae una nueva característica espacial para complementar las características espectrales.
Sumario
Se proporcionan un aparato de detección de voz objetivo y un método de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación para solucionar uno o más problemas en métodos de detección de voz objetivo convencionales, tales como unos escenarios de aplicación limitados, un efecto de detección deficiente debido a la detección en un entorno de relación señal-ruido baja y a un efecto de detección deficiente debido al uso insuficiente de información.
Por lo tanto, las siguientes soluciones técnicas se proporcionan de acuerdo con las reivindicaciones independientes. Con el método de detección de voz objetivo y el aparato de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación, se reciben señales de sonido recogidas por una agrupación ordenada de micrófonos, entonces se realiza un proceso de formación de haces sobre las señales de sonido para obtener haces en diferentes direcciones, y entonces se extrae una característica de detección de cada trama basándose en las señales de sonido y los haces en diferentes direcciones, y entonces se detecta una voz objetivo usando un modelo de detección de voz objetivo preconstruido e información de múltiples canales, mejorando de ese modo de forma efectiva la precisión de la detección de voz objetivo. Además, no hay ningún problema de escenarios de aplicación limitados y puede obtenerse un resultado de detección preciso incluso en un entorno de relación señal-ruido baja.
Además, el resultado de detección de voz objetivo de la trama actual se obtiene combinando un resultado de detección basado en diferencia de intensidad, es decir, fusionando el resultado de detección basado en diferencia de intensidad y el resultado de detección basado en modelo, mejorando de ese modo adicionalmente la precisión del resultado de detección.
Breve descripción de los dibujos
Los dibujos que van a usarse en la descripción de las realizaciones se describen brevemente como sigue, de tal modo que las soluciones técnicas de acuerdo con las realizaciones de la presente divulgación o de acuerdo con la tecnología convencional se vuelvan más claras. Es evidente que los dibujos en la siguiente descripción únicamente ilustran algunas realizaciones de la presente divulgación. Para los expertos en la materia, pueden obtenerse otros dibujos de acuerdo con estos dibujos.
La figura 1 es un diagrama de flujo de un método de detección de voz objetivo de acuerdo con una realización de la presente divulgación;
la figura 2 es un diagrama de flujo de la construcción de un modelo de detección de voz objetivo de acuerdo con una realización de la presente divulgación;
la figura 3 es un diagrama de flujo de un método de detección de voz objetivo de acuerdo con otra realización de la presente divulgación;
la figura 4 es un diagrama estructural esquemático de un aparato de detección de voz objetivo de acuerdo con una realización de la presente divulgación;
la figura 5 es un diagrama esquemático de un módulo de construcción de modelos de acuerdo con una realización de la presente divulgación; y
la figura 6 es un diagrama estructural esquemático de un aparato de detección de voz objetivo de acuerdo con otra realización de la presente divulgación.
Descripción detallada de las realizaciones
Para posibilitar que los expertos en la materia entiendan mejor las soluciones de acuerdo con las realizaciones de la presente divulgación, las realizaciones de la presente divulgación se describirán con detalle a continuación en relación con los dibujos y las realizaciones.
Se hace referencia a la figura 1, que es un diagrama de flujo de un método de detección de voz objetivo de acuerdo con una realización de la presente divulgación. El método incluye las siguientes etapas 101 a 105.
En la etapa 101, se reciben señales de sonido recogidas por una agrupación ordenada de micrófonos.
En aplicaciones específicas, después de que se hayan recogido las señales de sonido, se ha de realizar un preprocesamiento sobre las señales de sonido recogidas.
Tomando como un ejemplo una agrupación ordenada de micrófonos que incluye micrófonos M para recoger señales de sonido, las señales de sonido recogidas son X1 (t), X2(t)... xm(t).
El preprocesamiento se refiere principalmente a transformar las señales de sonido recibidas desde el dominio del tiempo al dominio de la frecuencia para obtener unas señales en el dominio de la frecuencia X(k, l) = [X1 (k, l), X2(k, l ) ... X m(k, l)]T, en donde k representa unas frecuencias (0, 1, ... , K) de las señales en el dominio de la frecuencia, y l representa un número de trama.
En la etapa 102, se realiza un proceso de formación de haces sobre las señales de sonido para obtener haces en diferentes direcciones.
Para el algoritmo de formación de haces, puede adoptarse una tecnología convencional, tal como un algoritmo adaptativo basándose en la estimación de la dirección y un algoritmo de formación de haces basándose en la estructura de la señal, que no se limita en la realización de la presente divulgación. Las señales recogidas por la agrupación ordenada de micrófonos se procesan con el algoritmo de formación de haces, por lo tanto la agrupación ordenada de micrófonos tiene una ganancia grande para las señales en ciertas direcciones en el dominio del espacio y una ganancia pequeña para las señales en otras direcciones en el dominio del espacio, como si se formara un haz en una dirección.
Se forman unos haces, que tienen unas distribuciones de lóbulo principal que apuntan en N direcciones diferentes, basándose en M micrófonos, pueden obtenerse haces en N direcciones mediante un formador de haces:
HazfJ (k, l) = W n(k, l)X (k , l) (1)
en donde Wn (k, l) representa un coeficiente de un formador de haces en un k-ésimo punto de frecuencia y que apunta en una n-ésima dirección, y Wn(k, l) puede determinarse mediante un algoritmo de formación de haces diferente.
En la etapa 103, se extrae una característica de detección de cada trama basándose en las señales de sonido y los haces en diferentes direcciones.
La característica de detección es información integral que incluye información de dimensión de espacio, información de dimensión de frecuencia e información de dimensión de tiempo. El proceso de extracción específico es como sigue.
Se supone que H az^ son señales de salida preestablecidas en una dirección objetivo, y H a z ^ , i e 1,2, N -1 son señales de salida en una dirección no objetivo.
1. Información de dimensión de espacio Vi (k, l)
Específicamente, las señales de haz obtenidas y las señales de sonido recogidas por la agrupación ordenada de micrófonos en cada punto de frecuencia de cada trama se concatenan para obtener un vector de espacio multidimensional. Por ejemplo, se forman unos haces, que tienen unas distribuciones de lóbulo principal que apuntan en N direcciones diferentes, basándose en M micrófonos, las N señales de haz y las M señales de micrófono se concatenan para dar un vector de espacio (M N)-dimensional V1 (k, l) en cada punto de frecuencia de cada trama:
Debería hacerse notar que, en la práctica, no existe ninguna restricción en el orden de concatenación de las señales de salida de dirección objetivo H a z ^ , las señales de salida de dirección no objetivo H az^ y las señales de sonido recogidas por el micrófono.
2. Información de dimensión de frecuencia
En primer lugar, se calcula un módulo de cada elemento en el vector de espacio multidimensional, y entonces se concatenan módulos para todos los puntos de frecuencia de cada trama para obtener un vector de frecuencia multidimensional que contiene información de espacio. Por ejemplo, un módulo de cada elemento en V1 (k, l) se calcula como sigue, MD (k, l) = f (V1 (k, l)), en donde f (x) = |x|2, y entonces se concatenan módulos MD (k, l) para todos los puntos de frecuencia de una l-ésima trama para obtener un vector de frecuencia (M N) * K-dimensional:
V2(l) = [MD (1, l); MD (2, l); ... ; MD (K, l)] (3)
3. Información de dimensión de tiempo
Se realiza una expansión de trama sobre el vector de frecuencia multidimensional que contiene información de espacio para obtener un vector de tiempo multidimensional que contiene información de espacio e información de frecuencia.
Por ejemplo, se realiza una expansión de trama sobre V2(l), ampliando respectivamente P tramas hacia adelante y hacia atrás, para obtener información de dimensión de tiempo (M N) * K * 2P-dimensional:
V3(l) = [V2(l- P); V 2 (l-P 1); ... ; V2(l P)] (4)
En la etapa 104, una característica de detección extraída de una trama actual se introduce en un modelo de detección
de voz objetivo preconstruido para obtener un resultado de salida de modelo.
Es decir, la característica de detección V3 (/) de la trama actual /, incluyendo información de dimensión de espacio, información de dimensión de frecuencia e información de dimensión de tiempo, se introduce en un modelo de detección de voz objetivo preconstruido. Una salida del modelo de detección de voz objetivo es una máscara binaria ideal (IBM) o una máscara de relación ideal (IRM) para cada punto de frecuencia l de la trama actual /. Tomando como un ejemplo que la salida del modelo de detección de voz objetivo sea una IRM, la salida del modelo puede definirse como /modelo (K /).
El modelo de detección de voz objetivo puede configurarse como un modelo de clasificación o un modelo de regresión. Si la salida es una IRM, el modelo de detección de voz objetivo se configura como un modelo de regresión; y si la salida no es una IRM, el modelo de detección de voz objetivo se configura como un modelo de clasificación.
El modelo de detección de voz objetivo puede configurarse específicamente como un modelo de red neuronal tal como una red neuronal profunda (DNN) o una red neuronal recurrente (RNN).
En la etapa 105, se obtiene un resultado de detección de voz objetivo de la trama actual basándose en el resultado de salida de modelo.
El resultado de salida de modelo puede ser una IBM o una IRM. Si la salida del modelo de detección de voz objetivo es una IBM, puede determinarse si la trama actual es una trama de voz objetivo basándose en la salida. Si la salida del modelo de detección de voz objetivo es una IRM, se requiere determinar si la trama actual es una trama de voz objetivo basándose en un umbral preestablecido. Si la salida del modelo de detección de voz objetivo es mayor que el umbral preestablecido, la trama actual se determina como una trama de voz objetivo; y si la salida del modelo de detección de voz objetivo es menor que o igual al umbral preestablecido, la trama actual se determina como una trama de voz no objetivo. Es evidente que la IRM emitida por el modelo de detección de voz objetivo puede usarse directamente como un resultado de detección correspondiente.
Se hace referencia a la figura 2, que es un diagrama de flujo de la construcción del modelo de detección de voz objetivo. El modelo de detección de voz objetivo se construye mediante las siguientes etapas 201 a 204.
En la etapa 201, se determina una estructura topológica del modelo de detección de voz objetivo.
Como se ha mencionado anteriormente, el modelo de detección de voz objetivo puede configurarse como un modelo de clasificación o un modelo de regresión, que no se limita en las realizaciones de la presente divulgación.
En la etapa 202, se generan datos de entrenamiento basándose en una voz limpia y un ruido simulado, y se genera información de etiquetado para etiquetar una voz objetivo en los datos de entrenamiento.
La voz limpia incluye la voz objetivo.
En la etapa 203, se extrae una característica de detección de los datos de entrenamiento.
La característica de detección es información integral que incluye información de dimensión de espacio, información de dimensión de frecuencia e información de dimensión de tiempo. El proceso específico de extracción de la característica de detección se ha descrito anteriormente.
En la etapa 204, se obtienen parámetros del modelo de detección de voz objetivo realizando un entrenamiento basándose en la característica de detección y la información de etiquetado.
Con el método de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación, unas señales de sonido son recogidas por una agrupación ordenada de micrófonos, entonces se realiza un proceso de formación de haces sobre las señales de sonido para obtener haces en diferentes direcciones, y entonces se extrae una característica de detección de cada trama basándose en las señales de sonido y los haces en diferentes direcciones, y entonces se detecta una voz objetivo usando un modelo de detección de voz objetivo preconstruido e información de múltiples canales, mejorando de ese modo de forma efectiva la precisión de la detección de voz objetivo. Además, no hay ningún problema de escenarios de aplicación limitados y puede obtenerse un resultado de detección preciso incluso en un entorno de relación señal-ruido baja.
Para mejorar adicionalmente la precisión del resultado de detección de voz objetivo, se proporciona adicionalmente un método de detección de voz objetivo, basándose en resultados de un método de detección basado en diferencia de intensidad y un método de detección basado en modelo de detección, de acuerdo con otra realización de la presente divulgación.
Se hace referencia a la figura 3, que es un diagrama de flujo de un método de detección de voz objetivo de acuerdo con una realización de la presente divulgación. El método incluye las siguientes etapas 301 a 305.
En la etapa 301, se reciben señales de sonido recogidas por una agrupación ordenada de micrófonos.
En la etapa 302, se realiza un proceso de formación de haces sobre las señales de sonido para obtener haces en diferentes direcciones.
En la etapa 303, se realiza una detección de voz objetivo basándose en una diferencia de intensidad para obtener un resultado de detección basado en diferencia de intensidad.
Específicamente, en primer lugar, se obtienen una señal de referencia de voz y una señal de referencia de ruido basándose en los haces en diferentes direcciones. Entonces, se calculan una potencia de la señal de referencia de voz y una potencia de la señal de referencia de ruido. Se calcula una relación de potencia entre la potencia de la señal de referencia de voz y la potencia de la señal de referencia de ruido. Por último, el resultado de detección basado en diferencia de intensidad se obtiene basándose en la relación de potencia.
Suponiendo que la señal de referencia de voz es F y la señal de referencia de ruido es U, una relación entre la energía de la señal de referencia de voz y la energía de la señal de referencia de ruido se define como:
pF(fc,0
R (k, l) =Pu(k, l )<(5)>
Pf (k, l) y Pu(k, l) representan, respectivamente, estimaciones de potencia de la señal de referencia de voz y de la señal de referencia de ruido, y puede realizarse una estimación de potencia usando una recursividad de primer orden:
P<f>(k, l) = a P<f>(k, l -1 ) (1 - a1)|XF (k, l)|2 (6)
Pu (k, l) = a2Pu (k ,l -1 ) (1 - a2)|Xu (k, l)|2 (7)
X f (k, l) representa una señal de referencia de voz, es decir, una señal sometida a formación de haces que tiene un lóbulo principal que apunta en una dirección objetivo, que puede obtenerse mediante un algoritmo de formación de haces fijo que tiene un lóbulo principal que apunta a una voz objetivo, tal como formación de haces de retardo y suma, formador de haces de anchura de haz constante y formación de haces de súper-ganancia.
X u (k, l) representa una señal de referencia de ruido, es decir, una señal sometida a formación de haces que tiene una dirección nula que apunta en la dirección objetivo, que puede obtenerse mediante una matriz de bloqueo adaptativa. Por ejemplo, puede usarse un algoritmo adaptativo de mínimos cuadrados medios normalizados (NLMS) en el dominio de la frecuencia para actualizar un filtro para obtener la señal de referencia de ruido:
X<u>(k, l) = X1 (k, l) - W<n>(k, l)X2 (k, l);
Wn (k , l 1) = Wn (k, l) ablación(
Wn (k, l) representa un coeficiente de matriz de bloqueo adaptativo; a representa un tamaño de escalón de aprendizaje fijo; por ejemplo, el tamaño de escalón puede establecerse a 0,05; el superíndice * indica la conjugación de un número complejo; 5 representa un número positivo pequeño, por ejemplo, 5 puede establecerse a 0,001; e delación (k, l) representa un resultado de detección de voz objetivo para un punto de frecuencia actual:
í 1, R (k, l ) > t h l
/relación^, 0 = ] 0 R(k, l) < th2 (9)
[R (k, l ) - t h 2 / t h i — th2 ,de lo co n tra rio
los umbrales th1 y th2 se obtienen basándose en un número grande de experimentos y/o en la experiencia, por ejemplo, th2 = 2 y th1 = 0,5.
Debería hacerse notar que puede establecerse adicionalmente un umbral th. Si Irelación (k, l) es mayor que el umbral th, la trama actual se determina como una trama de voz objetivo; y, si Irelación (k, l) no es mayor que el umbral th, la trama actual se determina como una trama de voz no objetivo.
En la etapa 304, se realiza una detección de voz objetivo basándose en un modelo de detección para obtener un resultado de detección basado en modelo.
Para la detección de voz objetivo basándose en un modelo de detección, puede hacerse referencia a las etapas 103 a 104 mostradas en la figura 1, que no se describe de nuevo en el presente documento.
En la etapa 305, se fusionan el resultado de detección basado en diferencia de intensidad y el resultado de detección basado en modelo para obtener el resultado de detección de voz objetivo de la trama actual.
Específicamente, puede hacerse una determinación conjunta basándose en Imodelo(k, l) e Irelación(k, l). Tomando como un ejemplo la cancelación de ruido adaptativa (ANC) en la reducción de ruido de la voz, se determina si hay una voz objetivo como sigue:
l 1, ^modelo ( k, 0 > th 3 O /-elación^, 0 > th4
¡ANC( k, 0 = K ¡modeloik, l ) < th 5 y IVelación( k, 0 < th 6 (10) l m áx (/modeio(^, 0 , A-elación^, 0 ) de lo c o n tra r io
los umbrales th3, th4, th5 y th6 se obtienen basándose en un número grande de experimentos y/o en la experiencia, por ejemplo, th3 = 0,5, th4 = 0,5, th5 = 0,25 y th6 = 0,25.
Debería hacerse notar que, si el modelo de detección de voz objetivo está configurado como un modelo de clasificación y el resultado de detección basado en diferencia de intensidad es un resultado binario, es decir, el resultado de detección basado en diferencia de intensidad es igual a 0 o 1, puede adoptarse un modo de fusión de "Y" u "O" lógica en la fusión del resultado de detección basado en diferencia de intensidad y el resultado de detección basado en modelo. Es evidente que pueden adoptarse otros modos de fusión en aplicaciones reales, que no se limita a las realizaciones de la presente divulgación.
Debería hacerse notar que en las etapas 303 y 304 se describen, respectivamente, procesos de detección de voz objetivo basándose en diferentes métodos. Las etapas 303 y 304 se realizan de forma independiente y no existe ninguna relación temporal entre las etapas 303 y 304. Las etapas 303 y 304 pueden realizarse en paralelo, o puede realizarse en primer lugar una cualquiera de las etapas 303 y 304.
Puede verse que, con el método de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación, puede obtenerse un resultado de detección preciso incluso en un entorno de relación señal-ruido baja, y puede considerarse adicionalmente un resultado de detección basado en diferencia de intensidad, mejorando de ese modo adicionalmente la precisión del resultado de detección.
Se proporciona adicionalmente un medio de almacenamiento legible por ordenador de acuerdo con una realización de la presente divulgación. El medio de almacenamiento legible por ordenador incluye códigos de programa informático. Los códigos de programa informático, cuando son ejecutados por una unidad informática, hacen que la unidad informática realice el método de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación.
Un dispositivo de detección de voz objetivo incluye un procesador, una memoria y un bus de sistema. El procesador y la memoria se conectan a través del bus de sistema. La memoria almacena uno o más programas. Los uno o más programas incluyen instrucciones. Las instrucciones, cuando son ejecutadas por el procesador, hacen que el procesador realice el método de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación.
Un producto de programa informático, cuando se ejecuta en un dispositivo terminal, hace que el dispositivo terminal realice el método de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación.
Se proporciona adicionalmente un aparato de detección de voz objetivo de acuerdo con una realización de la presente divulgación. Se hace referencia a la figura 4, que muestra un diagrama estructural esquemático del aparato.
De acuerdo con la realización, el aparato de detección de voz objetivo incluye un módulo de recepción de señales 401, un módulo de formación de haces 402, un módulo de extracción de características de detección 403, un primer módulo de detección 404 y un módulo de emisión de resultados de detección 405.
El módulo de recepción de señales 401 está configurado para recibir señales de sonido recogidas por una agrupación ordenada de micrófonos y emitir las señales de sonido al módulo de formación de haces 402.
El módulo de formación de haces 402 está configurado para realizar un proceso de formación de haces sobre las señales de sonido introducidas para obtener haces en diferentes direcciones.
La entrada del módulo de extracción de características de detección 403 se conecta a una salida del módulo de recepción de señales 401 y a una salida del módulo de formación de haces 402. El módulo de extracción de características de detección 403 está configurado para extraer una característica de detección de cada trama basándose en las señales de sonido y los haces en diferentes direcciones, y emitir la característica de detección extraída al primer módulo de detección 404.
El primer módulo de detección 404 está configurado para introducir una característica de detección de una trama actual extraída por el módulo de extracción de características de detección 403 en un modelo de detección de voz objetivo 400 preconstruido para obtener un resultado de salida de modelo, y enviar el resultado de salida de modelo al módulo de emisión de resultados de detección 405.
El módulo de emisión de resultados de detección 405 está configurado para obtener un resultado de detección de voz objetivo de la trama actual basándose en el resultado de salida de modelo.
Debería hacerse notar que, después de que el módulo de recepción de señales 401 haya recogido las señales de sonido, el módulo de recepción de señales 401 está configurado para realizar un preprocesamiento sobre las señales de sonido recogidas. El preprocesamiento se refiere principalmente a transformar las señales de sonido recibidas desde el dominio del tiempo al dominio de la frecuencia para obtener unas señales en el dominio de la frecuencia.
La característica de detección extraída por el módulo de extracción de características de detección 403 es información integral que incluye información de dimensión de espacio, información de dimensión de frecuencia e información de dimensión de tiempo. El proceso de extracción específico puede hacer referencia a la descripción del método de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación, que no se describe de nuevo en el presente documento.
El modelo de detección de voz objetivo 400 puede ser un modelo de clasificación o un modelo de regresión, y puede preconstruirse específicamente mediante un módulo de construcción de modelos. El módulo de construcción de modelos puede ser una parte del aparato de acuerdo con la presente divulgación o puede ser independiente del aparato de acuerdo con la presente divulgación, que no se limita en las realizaciones de la presente divulgación.
La figura 5 muestra una estructura del módulo de construcción de modelos de acuerdo con una realización de la presente divulgación. El módulo de construcción de modelos incluye una unidad de diseño de estructuras 51, una unidad de procesamiento de datos de entrenamiento 52, una unidad de extracción de características 53 y una unidad de entrenamiento 54.
La unidad de diseño de estructuras 51 está configurada para determinar una estructura topológica del modelo de detección de voz objetivo.
La unidad de procesamiento de datos de entrenamiento 52 está configurada para generar datos de entrenamiento basándose en una voz limpia y un ruido simulado, y generar información de etiquetado para etiquetar una voz objetivo en los datos de entrenamiento.
La unidad de extracción de características 53 está configurada para extraer una característica de detección de los datos de entrenamiento.
La unidad de entrenamiento 54 está configurada para obtener parámetros del modelo de detección de voz objetivo realizando un entrenamiento basándose en la característica de detección y la información de etiquetado.
Debería hacerse notar que, en un proceso de construcción del modelo de detección de voz objetivo, la característica de detección extraída por la unidad de extracción de características 53 también es información integral que incluye información de dimensión de espacio, información de dimensión de frecuencia e información de dimensión de tiempo. El proceso específico de extracción de la característica de detección puede hacer referencia a la descripción del método de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación, que no se describe de nuevo en el presente documento.
Con el aparato de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación, unas señales de sonido son recogidas por una agrupación ordenada de micrófonos, entonces se realiza un proceso de formación de haces sobre las señales de sonido para obtener haces en diferentes direcciones, y entonces se extrae una característica de detección de cada trama basándose en las señales de sonido y los haces en diferentes direcciones, y entonces se detecta una voz objetivo usando un modelo de detección de voz objetivo preconstruido e información de múltiples canales, mejorando de ese modo de forma efectiva la precisión de la detección de voz objetivo. Además, no hay ningún problema de escenarios de aplicación limitados y puede obtenerse un resultado de detección preciso incluso en un entorno de relación señal-ruido baja.
Se hace referencia a la figura 6, que muestra un diagrama estructural esquemático de un aparato de detección de voz objetivo de acuerdo con otra realización de la presente divulgación. A diferencia de la realización mostrada en la figura 5, el aparato mostrado en la figura 6 incluye además un segundo módulo de detección 406, que tiene una entrada conectada a una salida del módulo de formación de haces 402, configurado para realizar una detección de voz objetivo basándose en una diferencia de intensidad para obtener un resultado de detección basado en diferencia de intensidad y enviar el resultado de detección basado en diferencia de intensidad al módulo de emisión de resultados de detección 405.
El segundo módulo de detección 406 incluye una unidad de obtención de señales de referencia, una unidad de cálculo y una unidad de resultado de detección.
La unidad de obtención de señales de referencia está configurada para obtener una señal de referencia de voz y una señal de referencia de ruido basándose en los haces en diferentes direcciones.
La unidad de cálculo está configurada para calcular una potencia de la señal de referencia de voz y una potencia de la señal de referencia de ruido y calcular una relación de potencia entre la potencia de la señal de referencia de voz y la potencia de la señal de referencia de ruido.
La unidad de resultado de detección está configurada para obtener el resultado de detección basado en diferencia de intensidad basándose en la relación de potencia.
En consecuencia, de acuerdo con la realización, el módulo de emisión de resultados de detección 405 está configurado para fusionar el resultado de detección basado en diferencia de intensidad y el resultado de salida de modelo para obtener el resultado de detección de voz objetivo de la trama actual. El modo de fusión específico puede hacer referencia a la descripción del método de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación, que no se describe de nuevo en el presente documento.
Con el aparato de detección de voz objetivo de acuerdo con las realizaciones de la presente divulgación, la voz objetivo se detecta basándose en el método de detección basado en modelo y el método de detección basado en diferencia de intensidad, y los resultados de detección de los dos métodos diferentes se consideran de forma integral, obteniendo de ese modo un resultado de detección más preciso.
En la presente divulgación, las realizaciones se describen de una forma progresiva. Puede hacerse referencia a estas partes similares entre las realizaciones, y cada realización se centra principalmente en un aspecto diferente de los de otras realizaciones. Además, las realizaciones de aparato descritas anteriormente son únicamente esquemáticas, una unidad descrita como un componente separado puede estar, o puede no estar, separada físicamente, un componente representado visualmente como una unidad puede ser, o puede no ser, una unidad física, es decir, puede colocarse en una misma posición o puede distribuirse en múltiples unidades de red. Puede seleccionarse una parte o la totalidad de los módulos para lograr el objeto de las realizaciones de acuerdo con requisitos reales. Los expertos en la materia pueden entender e implementar las realizaciones sin ningún trabajo creativo.
Las realizaciones de la presente divulgación se han presentado con detalle anteriormente. Se usan realizaciones específicas en las descripciones para describir la presente divulgación. Las realizaciones descritas anteriormente se usan solo para ayudar a entender el método y el aparato de acuerdo con la presente divulgación. Para los expertos en la materia, pueden hacerse cambios en las realizaciones y en las aplicaciones basándose en el concepto de la presente divulgación. En resumen, no debería entenderse que la memoria descriptiva limite la presente divulgación.

Claims (13)

REIVINDICACIONES
1. Un método de detección de voz objetivo, que comprende:
recibir (101, 301) señales de sonido recogidas por una agrupación ordenada de micrófonos;
realizar (102, 302) un proceso de formación de haces sobre las señales de sonido para obtener haces en diferentes direcciones;
extraer (103) una característica de detección de cada trama basándose en las señales de sonido y los haces en las diferentes direcciones;
introducir (104) una característica de detección extraída de una trama actual en un modelo de detección de voz objetivo preconstruido para obtener un resultado de salida de modelo; y
obtener (105) un resultado de detección de voz objetivo de la trama actual basándose en el resultado de salida de modelo;
en donde el método de detección de voz objetivo está caracterizado por comprender además:
realizar (303) una detección de voz objetivo basándose en una diferencia de intensidad para obtener un resultado de detección basado en diferencia de intensidad;
en donde la obtención (105) de un resultado de detección de voz objetivo de la trama actual basándose en el resultado de salida de modelo comprende:
fusionar (305) el resultado de detección basado en diferencia de intensidad y el resultado de salida de modelo para obtener el resultado de detección de voz objetivo de la trama actual.
2. El método de acuerdo con la reivindicación 1, en donde un proceso de construcción del modelo de detección de voz objetivo comprende:
determinar (201) una estructura topológica del modelo de detección de voz objetivo; generar (202) datos de entrenamiento basándose en una voz limpia y un ruido simulado, y generar información de etiquetado para etiquetar una voz objetivo en los datos de entrenamiento;
extraer (203) una característica de detección de los datos de entrenamiento; y
obtener (204) parámetros del modelo de detección de voz objetivo realizando un entrenamiento basándose en la característica de detección y la información de etiquetado.
3. El método de acuerdo con la reivindicación 1, en donde el modelo de detección de voz objetivo es un modelo de clasificación o un modelo de regresión, y una salida del modelo de detección de voz objetivo es una máscara binaria ideal o una máscara de relación ideal para cada punto de frecuencia de la trama actual.
4. El método de acuerdo con la reivindicación 1, en donde la característica de detección comprende información de dimensión de espacio, información de dimensión de frecuencia e información de dimensión de tiempo.
5. El método de acuerdo con la reivindicación 1, en donde la extracción de una característica de detección de cada trama basándose en las señales de sonido y los haces en diferentes direcciones comprende:
concatenar las señales de sonido recogidas por la agrupación ordenada de micrófonos y señales de haz en cada punto de frecuencia de cada trama para obtener un vector de espacio multidimensional;
calcular un módulo de cada elemento en el vector de espacio multidimensional, y entonces concatenar módulos para todos los puntos de frecuencia de cada trama para obtener un vector de frecuencia multidimensional que contiene información de espacio; y
realizar una expansión de trama sobre el vector de frecuencia multidimensional que contiene información de espacio para obtener un vector de tiempo multidimensional que contiene información de espacio e información de frecuencia.
6. El método de acuerdo con la reivindicación 1, en donde la realización (303) de una detección de voz objetivo basándose en una diferencia de intensidad para obtener un resultado de detección basado en diferencia de intensidad comprende:
obtener una señal de referencia de voz y una señal de referencia de ruido basándose en los haces en diferentes direcciones;
calcular una potencia de la señal de referencia de voz y una potencia de la señal de referencia de ruido; calcular una relación de potencia entre la potencia de la señal de referencia de voz y la potencia de la señal de referencia de ruido; y
obtener el resultado de detección basado en diferencia de intensidad basándose en la relación de potencia.
7. Un aparato de detección de voz objetivo, que comprende: un módulo de recepción de señales (401), un módulo de formación de haces (402), un módulo de extracción de características de detección (403), un primer módulo de detección (404) y un módulo de emisión de resultados de detección (405),
en donde
el módulo de recepción de señales (401) está configurado para recibir señales de sonido recogidas por una agrupación ordenada de micrófonos y emitir las señales de sonido al módulo de formación de haces (402), el módulo de formación de haces (402) está configurado para realizar un proceso de formación de haces sobre las señales de sonido introducidas para obtener haces en diferentes direcciones,
una entrada del módulo de extracción de características de detección (403) se conecta a una salida del módulo de recepción de señales (401) y a una salida del módulo de formación de haces (402), y el módulo de extracción de características de detección (403) está configurado para extraer una característica de detección de cada trama basándose en las señales de sonido y los haces en diferentes direcciones, y emitir la característica de detección extraída al primer módulo de detección (404),
el primer módulo de detección (404) está configurado para introducir una característica de detección de una trama actual extraída por el módulo de extracción de características de detección (403) en un modelo de detección de voz objetivo (400) preconstruido para obtener un resultado de salida de modelo, y enviar el resultado de salida de modelo al módulo de emisión de resultados de detección (405), y
el módulo de emisión de resultados de detección (405) está configurado para obtener un resultado de detección de voz objetivo de la trama actual basándose en el resultado de salida de modelo,
en donde el aparato de detección de voz objetivo está caracterizado por comprender además:
un segundo módulo de detección (406), que tiene una entrada conectada a una salida del módulo de formación de haces (402), configurado para realizar una detección de voz objetivo basándose en una diferencia de intensidad para obtener un resultado de detección basado en diferencia de intensidad y enviar el resultado de detección basado en diferencia de intensidad al módulo de emisión de resultados de detección (405); y
el módulo de emisión de resultados de detección (405) está configurado para fusionar el resultado de detección basado en diferencia de intensidad y el resultado de salida de modelo para obtener el resultado de detección de voz objetivo de la trama actual.
8. El aparato de acuerdo con la reivindicación 7, que comprende además: un módulo de construcción de modelos configurado para construir el modelo de detección de voz objetivo (400), en donde
el módulo de construcción de modelos comprende:
una unidad de diseño de estructuras (51), configurada para determinar una estructura topológica del modelo de detección de voz objetivo (400),
una unidad de procesamiento de datos de entrenamiento (52), configurada para generar datos de entrenamiento basándose en una voz limpia y un ruido simulado, y generar información de etiquetado para etiquetar una voz objetivo en los datos de entrenamiento,
una unidad de extracción de características (53), configurada para extraer una característica de detección de los datos de entrenamiento, y
una unidad de entrenamiento (54), configurada para obtener parámetros del modelo de detección de voz objetivo (400) realizando un entrenamiento basándose en la característica de detección y la información de etiquetado.
9. El aparato de acuerdo con la reivindicación 7, en donde el modelo de detección de voz objetivo (400) es un modelo de clasificación o un modelo de regresión.
10. El aparato de acuerdo con la reivindicación 7, en donde el segundo módulo de detección (406) comprende:
una unidad de obtención de señales de referencia, configurada para obtener una señal de referencia de voz y una señal de referencia de ruido basándose en los haces en diferentes direcciones;
una unidad de cálculo, configurada para calcular una potencia de la señal de referencia de voz y una potencia de la señal de referencia de ruido y calcular una relación de potencia entre la potencia de la señal de referencia de voz y la potencia de la señal de referencia de ruido; y
una unidad de resultado de detección, configurada para obtener el resultado de detección basado en diferencia de intensidad basándose en la relación de potencia.
11. Un medio de almacenamiento legible por ordenador que comprende códigos de programa informático, en donde los códigos de programa informático, cuando son ejecutados por una unidad informática, hacen que la unidad informática realice el método de detección de voz objetivo de acuerdo con la reivindicación 1.
12. Un dispositivo de detección de voz objetivo, que comprende: un procesador, una memoria y un bus de sistema, en donde
el procesador y la memoria se conectan a través del bus de sistema;
la memoria almacena uno o más programas, en donde los uno o más programas comprenden instrucciones, y las instrucciones, cuando son ejecutadas por el procesador, hacen que el procesador realice el método de acuerdo con la reivindicación 1.
13. Un producto de programa informático, cuando se ejecuta en un dispositivo terminal, que hace que el dispositivo terminal realice el método de acuerdo con la reivindicación 1.
ES18871326T 2017-10-23 2018-07-16 Método y aparato de detección de voz objetivo Active ES2964131T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710994194.5A CN107785029B (zh) 2017-10-23 2017-10-23 目标语音检测方法及装置
PCT/CN2018/095758 WO2019080551A1 (zh) 2017-10-23 2018-07-16 目标语音检测方法及装置

Publications (1)

Publication Number Publication Date
ES2964131T3 true ES2964131T3 (es) 2024-04-04

Family

ID=61433874

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18871326T Active ES2964131T3 (es) 2017-10-23 2018-07-16 Método y aparato de detección de voz objetivo

Country Status (8)

Country Link
US (1) US11308974B2 (es)
EP (1) EP3703054B1 (es)
JP (1) JP7186769B2 (es)
KR (1) KR102401217B1 (es)
CN (1) CN107785029B (es)
ES (1) ES2964131T3 (es)
HU (1) HUE065118T2 (es)
WO (1) WO2019080551A1 (es)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107785029B (zh) * 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
CN108335694B (zh) * 2018-02-01 2021-10-15 北京百度网讯科技有限公司 远场环境噪声处理方法、装置、设备和存储介质
US10672414B2 (en) * 2018-04-13 2020-06-02 Microsoft Technology Licensing, Llc Systems, methods, and computer-readable media for improved real-time audio processing
CN108962237B (zh) 2018-05-24 2020-12-04 腾讯科技(深圳)有限公司 混合语音识别方法、装置及计算机可读存储介质
CN110364166B (zh) * 2018-06-28 2022-10-28 腾讯科技(深圳)有限公司 实现语音信号识别的电子设备
CN109801646B (zh) * 2019-01-31 2021-11-16 嘉楠明芯(北京)科技有限公司 一种基于融合特征的语音端点检测方法和装置
CN110223708B (zh) * 2019-05-07 2023-05-30 平安科技(深圳)有限公司 基于语音处理的语音增强方法及相关设备
CN110265065B (zh) * 2019-05-13 2021-08-03 厦门亿联网络技术股份有限公司 一种构建语音端点检测模型的方法及语音端点检测系统
CN111613247B (zh) * 2020-04-14 2023-03-21 云知声智能科技股份有限公司 一种基于麦克风阵列的前景语音检测方法及装置
CN111883166B (zh) * 2020-07-17 2024-05-10 北京百度网讯科技有限公司 一种语音信号处理方法、装置、设备以及存储介质
CN112151036B (zh) * 2020-09-16 2021-07-30 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备
CN112562649B (zh) * 2020-12-07 2024-01-30 北京大米科技有限公司 一种音频处理的方法、装置、可读存储介质和电子设备
CN113077803B (zh) * 2021-03-16 2024-01-23 联想(北京)有限公司 一种语音处理方法、装置、可读存储介质及电子设备
CN113270108B (zh) * 2021-04-27 2024-04-02 维沃移动通信有限公司 语音活动检测方法、装置、电子设备及介质
CN115240698A (zh) * 2021-06-30 2022-10-25 达闼机器人股份有限公司 模型训练方法、语音检测定位方法、电子设备及存储介质
CN116580723B (zh) * 2023-07-13 2023-09-08 合肥星本本网络科技有限公司 一种强噪声环境下的语音检测方法和系统

Family Cites Families (40)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002091469A (ja) * 2000-09-19 2002-03-27 Atr Onsei Gengo Tsushin Kenkyusho:Kk 音声認識装置
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
DE602006019872D1 (es) * 2005-07-06 2011-03-10 Koninkl Philips Electronics Nv
KR20090037845A (ko) * 2008-12-18 2009-04-16 삼성전자주식회사 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
US8175291B2 (en) * 2007-12-19 2012-05-08 Qualcomm Incorporated Systems, methods, and apparatus for multi-microphone based speech enhancement
CN101192411B (zh) * 2007-12-27 2010-06-02 北京中星微电子有限公司 大距离麦克风阵列噪声消除的方法和噪声消除系统
US9100734B2 (en) 2010-10-22 2015-08-04 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for far-field multi-source tracking and separation
CN102074246B (zh) * 2011-01-05 2012-12-19 瑞声声学科技(深圳)有限公司 基于双麦克风语音增强装置及方法
US8650029B2 (en) * 2011-02-25 2014-02-11 Microsoft Corporation Leveraging speech recognizer feedback for voice activity detection
KR101811716B1 (ko) * 2011-02-28 2017-12-28 삼성전자주식회사 음성 인식 방법 및 그에 따른 음성 인식 장치
JP5318258B1 (ja) 2012-07-03 2013-10-16 株式会社東芝 集音装置
TW201443875A (zh) * 2013-05-14 2014-11-16 Hon Hai Prec Ind Co Ltd 收音方法及收音系統
CN103578467B (zh) * 2013-10-18 2017-01-18 威盛电子股份有限公司 声学模型的建立方法、语音辨识方法及其电子装置
US9715660B2 (en) * 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
CN105244036A (zh) * 2014-06-27 2016-01-13 中兴通讯股份有限公司 一种麦克风语音增强方法及装置
JP6221158B2 (ja) * 2014-08-27 2017-11-01 本田技研工業株式会社 自律行動ロボット、及び自律行動ロボットの制御方法
CN105590631B (zh) 2014-11-14 2020-04-07 中兴通讯股份有限公司 信号处理的方法及装置
US20160180214A1 (en) * 2014-12-19 2016-06-23 Google Inc. Sharp discrepancy learning
US10580401B2 (en) * 2015-01-27 2020-03-03 Google Llc Sub-matrix input for neural network layers
US9697826B2 (en) * 2015-03-27 2017-07-04 Google Inc. Processing multi-channel audio waveforms
CN104766093B (zh) * 2015-04-01 2018-02-16 中国科学院上海微系统与信息技术研究所 一种基于麦克风阵列的声目标分类方法
CN105336340B (zh) * 2015-09-30 2019-01-01 中国电子科技集团公司第三研究所 一种用于低空目标声探测系统的风噪抑制方法和装置
JP6594222B2 (ja) * 2015-12-09 2019-10-23 日本電信電話株式会社 音源情報推定装置、音源情報推定方法、およびプログラム
CN205621437U (zh) * 2015-12-16 2016-10-05 宁波桑德纳电子科技有限公司 一种声像联合定位的远距离语音采集装置
CN106504763A (zh) * 2015-12-22 2017-03-15 电子科技大学 基于盲源分离与谱减法的麦克风阵列多目标语音增强方法
EP4235646A3 (en) 2016-03-23 2023-09-06 Google LLC Adaptive audio enhancement for multichannel speech recognition
CN105869651B (zh) * 2016-03-23 2019-05-31 北京大学深圳研究生院 基于噪声混合相干性的双通道波束形成语音增强方法
CN105788607B (zh) * 2016-05-20 2020-01-03 中国科学技术大学 应用于双麦克风阵列的语音增强方法
US9972339B1 (en) * 2016-08-04 2018-05-15 Amazon Technologies, Inc. Neural network based beam selection
CN106328156B (zh) * 2016-08-22 2020-02-18 华南理工大学 一种音视频信息融合的麦克风阵列语音增强系统及方法
CN106483502B (zh) * 2016-09-23 2019-10-18 科大讯飞股份有限公司 一种声源定位方法及装置
US10140980B2 (en) * 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling
CN106782618B (zh) * 2016-12-23 2020-07-31 云知声(上海)智能科技有限公司 基于二阶锥规划的目标方向语音检测方法
CN106710603B (zh) * 2016-12-23 2019-08-06 云知声(上海)智能科技有限公司 利用线性麦克风阵列的语音识别方法及系统
WO2018127447A1 (en) * 2017-01-03 2018-07-12 Koninklijke Philips N.V. Method and apparatus for audio capture using beamforming
US11133011B2 (en) * 2017-03-13 2021-09-28 Mitsubishi Electric Research Laboratories, Inc. System and method for multichannel end-to-end speech recognition
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107785029B (zh) 2017-10-23 2021-01-29 科大讯飞股份有限公司 目标语音检测方法及装置
US10546593B2 (en) * 2017-12-04 2020-01-28 Apple Inc. Deep learning driven multi-channel filtering for speech enhancement
US11120786B2 (en) * 2020-03-27 2021-09-14 Intel Corporation Method and system of automatic speech recognition with highly efficient decoding

Also Published As

Publication number Publication date
JP2021500593A (ja) 2021-01-07
WO2019080551A1 (zh) 2019-05-02
EP3703054C0 (en) 2023-09-20
EP3703054A1 (en) 2020-09-02
KR102401217B1 (ko) 2022-05-23
US20200342890A1 (en) 2020-10-29
HUE065118T2 (hu) 2024-05-28
CN107785029B (zh) 2021-01-29
JP7186769B2 (ja) 2022-12-09
EP3703054B1 (en) 2023-09-20
KR20200066367A (ko) 2020-06-09
CN107785029A (zh) 2018-03-09
US11308974B2 (en) 2022-04-19
EP3703054A4 (en) 2021-07-28

Similar Documents

Publication Publication Date Title
ES2964131T3 (es) Método y aparato de detección de voz objetivo
CN110364166B (zh) 实现语音信号识别的电子设备
Brutti et al. Oriented global coherence field for the estimation of the head orientation in smart rooms equipped with distributed microphone arrays.
Pang et al. Multitask learning of time-frequency CNN for sound source localization
CN111415676A (zh) 一种基于分离矩阵初始化频点选择的盲源分离方法及系统
Traa et al. Multichannel source separation and tracking with RANSAC and directional statistics
Chakraborty et al. Sound-model-based acoustic source localization using distributed microphone arrays
Epain et al. Super-resolution sound field imaging with sub-space pre-processing
Zhao et al. Real-time sound source localization using hybrid framework
Yang et al. Srp-dnn: Learning direct-path phase difference for multiple moving sound source localization
Noohi et al. Super-resolution acoustic imaging using sparse recovery with spatial priming
Hosseini et al. Time difference of arrival estimation of sound source using cross correlation and modified maximum likelihood weighting function
Ding et al. DOA estimation of multiple speech sources by selecting reliable local sound intensity estimates
Nogueira et al. Robust localization of multiple sound sources based on BSS algorithms
Ju et al. Tracking the moving sound target based on distributed microphone pairs
He et al. Direction of arrival (DOA) estimation algorithm based on the radial basis function neural networks
Zhang et al. Microphone clustering and BP network based acoustic source localization in distributed microphone arrays
Koyama et al. Sparse sound field decomposition using group sparse Bayesian learning
Zheng et al. Exploiting joint sparsity for far-field microphone array sound source localization
Chen et al. Acoustic vector sensor based speech source separation with mixed Gaussian-Laplacian distributions
Shang et al. The analysis of interference suppression capability of mvdr algorithm based on microphone array
Liu et al. Applications of bootstrap in radar signal processing
Menon et al. High resolution beamforming using l1 minimization
Jing Noise driven compressed sensing method for space time signal processing
Thakur et al. An Improved 3D Sound Source Localization of Varied Sources using Oblique Square Pyramid array