ES2967132T3 - Método y dispositivo de adquisición de voz objetivo basado en matriz de micrófonos - Google Patents

Método y dispositivo de adquisición de voz objetivo basado en matriz de micrófonos Download PDF

Info

Publication number
ES2967132T3
ES2967132T3 ES18870140T ES18870140T ES2967132T3 ES 2967132 T3 ES2967132 T3 ES 2967132T3 ES 18870140 T ES18870140 T ES 18870140T ES 18870140 T ES18870140 T ES 18870140T ES 2967132 T3 ES2967132 T3 ES 2967132T3
Authority
ES
Spain
Prior art keywords
gain
signal
weak
strong
directional gain
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES18870140T
Other languages
English (en)
Inventor
Dongyang Xu
Haikun Wang
Zhiguo Wang
Guoping Hu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
iFlytek Co Ltd
Original Assignee
iFlytek Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by iFlytek Co Ltd filed Critical iFlytek Co Ltd
Application granted granted Critical
Publication of ES2967132T3 publication Critical patent/ES2967132T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • Otolaryngology (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

Un método y dispositivo de adquisición de voz objetivo basado en una matriz de micrófonos, comprendiendo dicho método: recibir señales de voz adquiridas sobre la base de una matriz de micrófonos (101); determinar una señal de voz objetivo preseleccionada y una dirección de la misma (102); realizar una ganancia direccional fuerte y una ganancia direccional débil en la señal de voz objetivo preseleccionada, para obtener una señal de ganancia fuerte y una señal de ganancia débil (103); realizar una detección de punto final basándose en la señal de ganancia fuerte, para obtener un resultado de detección de punto final (104); y realizar el procesamiento del punto final en la señal de ganancia débil de acuerdo con el resultado de la detección del punto final, para obtener una señal de voz objetivo final (105). La presente invención puede obtener una señal de voz objetivo precisa y fiable, evitando así un efecto adverso de la calidad de la voz objetivo en el procesamiento posterior de la voz objetivo. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método y dispositivo de adquisición de voz objetivo basado en matriz de micrófonos
La presente solicitud reivindica la prioridad de la solicitud de patente china n.° 201710994211.5, titulada "MICROPHONE ARRAY-BASED TARGET VOICE ADQUISITION METHOD AND DEVICE", presentada el 23 de octubre de 2017, con la Administración Nacional de Propiedad Intelectual de China.
Campo
La presente divulgación se refiere al campo del procesamiento de señales de voz y, en particular, a un método basado en matriz de micrófonos y para obtener una voz objetivo y su dispositivo.
Antecedentes
Con el rápido desarrollo de la tecnología de la información, han aparecido más y más productos interactivos inteligentes. La voz como uno de los métodos de interacción más naturales y convenientes es actualmente un método de interacción convencional de productos de interacción inteligente. En procesos prácticos de interacción de voz, el efecto de interacción se ve directamente afectado por la calidad de voz, pero el entorno real es complejo y cambiante, y hay varios ruidos que afectan a la calidad de la voz. Por lo tanto, cómo eliminar eficazmente el ruido y mejorar la calidad de la voz objetivo es extremadamente importante en la escena interactiva.
Actualmente, el método de reducción de ruido convencional para la voz objetivo es un método de reducción de ruido basado en una matriz de micrófonos, que usa múltiples micrófonos para obtener información espacial de la señal de voz, realiza una mejora de voz en una señal objetivo en una dirección objetivo y suprime el ruido en una dirección no objetivo. Un enfoque ilustrativo para el procesamiento de señales de voz usando una matriz de micrófonos se divulga en el documento US 2017/0125037 A1.
Este método funciona bien cuando el número de micrófonos es grande, pero en la práctica, considerando las restricciones de coste y diseño del dispositivo, es difícil que el número de micrófonos alcance el número ideal. En este momento, la zona de captación para cada dirección de haz es grande, y es probable que un haz correspondiente a una señal en la dirección objetivo contenga tanto la voz objetivo como la voz no objetivo. Durante el proceso de mejora de señal en la dirección objetivo, si el ruido se va a eliminar con el fin de una fuerte supresión de ruido, puede hacer que la voz objetivo se distorsione, lo que da como resultado un efecto irreversible en el procesamiento de voz objetivo. Por lo tanto, en la tecnología convencional, generalmente no se realiza una fuerte supresión de ruido. En este caso, habrá residuos de ruido. Los residuos de ruido provocarán una detección de punto final inexacta y, en consecuencia, en el procesamiento de voz objetivo posterior, como el reconocimiento de voz, aparecerán varios errores de inserción o faltantes debido a una detección imprecisa del punto final, afectando la experiencia del usuario.
Sumario
Las realizaciones de la presente divulgación proporcionan un método y un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos, para obtener una señal de voz objetivo precisa y fiable, evitando de este modo que la calidad de voz objetivo afecte negativamente al procesamiento de voz objetivo posterior.
Para este fin, la presente divulgación proporciona las siguientes soluciones técnicas.
Un método para obtener una voz objetivo basándose en una matriz de micrófonos incluye:
recibir una señal de voz recopilada basándose en la matriz de micrófonos;
determinar una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada basándose en la señal de voz recibida;
realizar un procesamiento de ganancia direccional fuerte y un procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente una señal de ganancia fuerte y una señal de ganancia débil;
realizar una detección de punto final basándose en la señal con ganancia fuerte para obtener un resultado de detección de punto final, donde la detección de punto final determina los puntos de inicio y final de una voz en la señal con ganancia fuerte; y
realizar procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final para obtener una señal de voz objetivo final,
donde realizar el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente la señal con ganancia fuerte y la señal con ganancia débil incluye:
establecer un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, y el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil;
determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido, y determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido, donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; y
obtener la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido, respectivamente.
Preferiblemente, determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada incluye:
determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada a través de la localización de fuente de sonido.
Preferiblemente, determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada incluye:
realizar procesamiento de formación de haces en la señal de voz para obtener haces en diferentes direcciones; y
seleccionar, de los haces en diferentes direcciones, un haz que satisface una condición preestablecida, y determinar la señal de voz objetivo y la dirección de la señal de voz objetivo basándose en el haz seleccionado.
Preferiblemente, el ángulo de zona de captación de la ganancia direccional fuerte es menor que un ángulo de un lóbulo principal de la señal de voz objetivo preseleccionada.
Preferiblemente, realizar el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente la señal de ganancia fuerte y la señal de ganancia débil incluye adicionalmente:
calcular una relación de energía de suavizadoyde la señal objetivo preseleccionada con respecto a una señal de interferencia;
determinar un coeficiente de ajuste de ganancia basándose en la relación de energía de suavizadoy,un umbral de relación de alta energía preestablecido y un umbral de relación de baja energía; y
ajustar la ganancia direccional fuerte y la ganancia direccional débil de acuerdo con el coeficiente de ajuste de ganancia.
Preferiblemente, determinar el coeficiente de ajuste de ganancia basándose en la relación de energía de suavizadoy,el umbral de relación de alta energía preestablecido y el umbral de relación de baja energía incluye:
establecer el coeficiente de ajuste de ganancia en 1 en caso de que la relación de energía uniformeyes mayor que el umbral de relación de alta energía;
establecer el coeficiente de ajuste de ganancia para que sea Ko en caso de que la relación de energía de suavizadoYsea menor que el umbral de relación de baja energía; y
establecer el coeficiente de ajuste de ganancia para que sea Ki en caso de que la relación de energía de suavizadoYsea mayor o igual que el umbral de relación de baja energía y menor o igual que el umbral de relación de alta energía, donde Ki > Ko.
Preferiblemente, el método incluye, además:
realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en cada haz, antes de que se determine la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada basándose en el haz que cumple la condición preestablecida; o
realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en la señal de voz objetivo preseleccionada, después de que se determinen la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada.
Un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos incluye: un módulo de recepción de señales, un módulo de preselección, un módulo de procesamiento de ganancia, un módulo de detección de punto final y un módulo de extracción de voz objetivo;
donde el módulo de recepción de señales está configurado para recibir una señal de voz recopilada basándose en la matriz de micrófonos, y emitir la señal de voz al módulo de preselección;
el módulo de preselección está configurado para determinar una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada basándose en la señal de voz recibida;
el módulo de procesamiento de ganancia está configurado para realizar un procesamiento de ganancia direccional fuerte y un procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada, , para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil, emitir la señal con ganancia fuerte al módulo de detección de punto final, y emitir la señal con ganancia débil al módulo de extracción de voz objetivo;
el módulo de detección de punto final está configurado para realizar una detección de punto final basándose en la señal con ganancia fuerte, y emitir un resultado de detección de punto final al módulo de extracción de voz objetivo, donde la detección de punto final determina los puntos de inicio y final de una voz en la señal con ganancia fuerte; y
el módulo de extracción de voz objetivo está configurado para realizar procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final, para obtener una señal de voz objetivo final, en donde el módulo de procesamiento de ganancia comprende:
una unidad de ajuste de ángulo, configurada para establecer un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, en donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, y el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil;
una unidad de cálculo de ganancia configurada para determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido, y determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido, en donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; y
una unidad de generación de señal con ganancia, configurada para obtener la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido, respectivamente.
Preferiblemente, el módulo de preselección está configurado para determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada a través de la localización de fuente de sonido.
Preferiblemente, el módulo de preselección incluye:
una unidad de formación de haces, configurada para realizar procesamiento de formación de haces en la señal de voz para obtener haces en diferentes direcciones; y
una unidad de determinación, configurada para seleccionar un haz que cumple una condición preestablecida a partir de los haces en diferentes direcciones obtenidas por la unidad de formación de haces, y determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada basándose en el haz seleccionado.
Preferiblemente, el ángulo de zona de captación de la ganancia direccional fuerte es menor que un ángulo de un lóbulo principal de la señal de voz objetivo preseleccionada.
Preferiblemente, el módulo de procesamiento de ganancia incluye, además:
una unidad de ajuste de umbral de relación de energía, configurada para establecer un umbral de relación de alta energía y un umbral de relación de baja energía;
una unidad de cálculo de relación de energía, configurada para calcular una relación de energía de suavizadoyde la señal objetivo preseleccionada con respecto a una señal de interferencia;
una unidad de determinación de coeficiente de ajuste de ganancia, configurada para determinar un coeficiente de ajuste de ganancia basándose en la relación de energía de suavizadoy,el umbral de relación de alta energía y el umbral de relación de baja energía; y
una unidad de corrección de ganancia, configurada para ajustar la ganancia direccional fuerte y la ganancia direccional débil obtenidas por la unidad de cálculo de ganancia de acuerdo con el coeficiente de ajuste de ganancia.
Preferiblemente, el módulo de preselección incluye, además:
una unidad de reducción de ruido dispuesta entre la unidad de formación de haces y la unidad de determinación, y configurada para realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en cada haz obtenido por la unidad de formación de haces;
o; el dispositivo incluye, además:
un módulo de reducción de ruido dispuesto entre el módulo de preselección y el módulo de procesamiento de ganancia, y configurado para realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en la señal de voz objetivo preseleccionada determinada por el módulo de preselección.
Un medio de almacenamiento legible por ordenador incluye códigos de programa informático, donde los códigos de programa informático se ejecutan por una unidad informática para hacer que la unidad informática realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos descrita anteriormente.
Un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos incluye un procesador, una memoria y un bus de sistema,
donde el procesador y la memoria están conectados entre sí a través del bus de sistema; y
la memoria está configurada para almacenar uno o más programas, y el uno o más programas incluyen instrucciones que, cuando son ejecutadas por el procesador, hacen que el procesador realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos descrita anteriormente.
Un producto de programa informático, cuando se ejecuta en un dispositivo terminal, hace que el dispositivo terminal realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos descrita anteriormente.
El método y el dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos se proporcionan en las realizaciones de la presente divulgación. Se recibe una señal de voz recopilada basándose en la matriz de micrófonos, se determinan una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada, y después el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil se realizan en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil. Dado que queda menos señal de ruido en la señal de voz después de una ganancia fuerte, se puede obtener un resultado de detección de punto final preciso basándose en la señal con ganancia fuerte. La distorsión de la voz objetivo es muy pequeña en la señal de voz después de una ganancia débil; por lo tanto, se puede obtener una señal de voz objetivo con mayor credibilidad realizando procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final.
Breve descripción de los dibujos
Para una ilustración más clara de las soluciones técnicas de acuerdo con las realizaciones de la presente divulgación o técnicas convencionales, a continuación, se describen brevemente los dibujos que se aplicarán en realizaciones de la presente divulgación. Aparentemente, los dibujos en las siguientes descripciones son solo algunas realizaciones de la presente divulgación, y las personas con experiencia ordinaria en la materia pueden obtener otros dibujos basados en los dibujos proporcionados sin ningún esfuerzo creativo.
La Figura 1 es un diagrama de flujo de un método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una realización de la presente divulgación;
la Figura 2 es un diagrama esquemático de una ganancia diseñada basándose en un ángulo acimutal de una fuente de sonido de acuerdo con una realización de la presente divulgación;
la Figura 3 es un diagrama de bloques estructural de un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una realización de la presente divulgación;
la Figura 4 es un diagrama estructural esquemático de un módulo de procesamiento de ganancia de acuerdo con una realización de dispositivo de la presente divulgación;
la Figura 5 es otro diagrama estructural esquemático de un módulo de procesamiento de ganancia de acuerdo con una realización de dispositivo de la presente divulgación; y
la Figura 6 es otro diagrama de bloques estructural de un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una realización de la presente divulgación.
Descripción detallada
Para permitir que las personas expertas en la materia comprendan mejor las soluciones de las realizaciones de la presente divulgación, las realizaciones de la presente divulgación se describirán adicionalmente en detalle a continuación con referencia a los dibujos y realizaciones adjuntos.
La mejora de voz tiene como objetivo reducir o incluso eliminar el ruido existente en la señal recibida sin dañar la estructura de voz objetivo, mejorando así la inteligibilidad de la voz. Para este fin, las realizaciones de la presente divulgación proporcionan un método y un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos, una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada se determinan basándose en una señal de voz que es recibida por la matriz de micrófonos, el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil se realizan en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil, se realiza una detección de punto final basándose en la señal con ganancia fuerte para obtener un resultado de detección de punto final, y se realiza procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final para obtener una señal de voz objetivo final.
La Figura 1 es un diagrama de flujo de un método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una realización de la presente divulgación. El método incluye las siguientes etapas.
En la etapa 101, se recibe una señal de voz recopilada basándose en la matriz de micrófonos.
En una aplicación específica, se requiere que la señal de voz se procese previamente después de recibirse.
Tomar una señal de voz recibida por una matriz de micrófonos que incluye M micrófonos como ejemplo, preprocesar la señal de voz se refiere principalmente a transformar la señal de voz recibida del dominio del tiempo al dominio de la frecuencia, para obtener una señal de voz en el dominio de frecuenciax(k,l)=[x<1>(k,l),x<2>(k,l)...x<m>(k,l)...x<iw>(k,l)]<T>, dondexm(k,l)representa una señal de voz en el dominio de frecuencia recibida por unmésimomicrófono,krepresenta una frecuencia de la señal eIrepresenta un número de serie de trama de voz.
En la etapa 102, se determinen una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada.
En una realización de la presente divulgación, la señal de voz objetivo preseleccionada puede ser una señal de voz de palabra de comando específica y/o una señal de voz humana objetivo específica, una señal de voz efectiva y similares. No importa cuál sea la señal de voz, la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada pueden determinarse por medio de localización de fuente de sonido. El proceso específico de localización de fuente de sonido es el mismo que en la tecnología convencional, lo que no se repetirá en el presente documento.
Antes de que la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada se determinen por medio de localización de fuente de sonido, el procesamiento de reducción de ruido se puede realizar también en la señal de voz. Específicamente, se pueden adoptar algunos métodos de reducción de ruido en la tecnología convencional, lo que no está limitado en la realización de la presente divulgación.
De forma adicional, al determinar la señal de voz objetivo preseleccionada y su dirección, el procesamiento de formación de haces puede realizarse en la señal de voz para obtener haces en diferentes direcciones; a continuación, se selecciona un haz que satisface una condición preestablecida de los haces en diferentes direcciones, y la señal de voz objetivo y su dirección se determinan de acuerdo con el haz seleccionado.
La formación de haces puede adoptar específicamente una tecnología existente, tal como un algoritmo autoadaptativo basado en la estimación de dirección, un método de formación de haces basado en una estructura de señal y similares, lo que no está limitado en la realización de la presente divulgación.
El proceso de formación de haces fijo por el micrófono se describe como sigue.
Suponiendo que M micrófonos forman N haces fijos, los coeficientes de formación de haces correspondientes a los micrófonos son:
w(k,l)=[ w-i(k,l), W<2>(k,l),..... , WM(k,l)]T,(1)
dondekrepresenta la frecuencia de la señal eIrepresenta el número de serie de trama de voz.
La salida de los haces fijos es:
fix(k,l)=wH(k,l)x(k,l).(2)
Los coeficientes de formación de haces fijos mencionados anteriormente pueden calcularse basándose en el principio de que la señal de dirección deseada no tiene distorsión y la potencia de señal de salida en otras direcciones es suficientemente pequeña.
Cabe señalar que, en aplicaciones prácticas, después de obtener los haces, el filtrado autoadaptativo y el procesamiento de reducción de ruido se pueden realizar en los haces. El filtrado autoadaptativo y el procesamiento de reducción de ruido incluyen procesamiento tal como la de-reverberación multicanal, cancelación generalizada de lóbulos laterales y otros métodos de reducción de ruido existentes, que no se limitan a estos. La siguiente descripción usa la cancelación generalizada de lóbulos laterales como un ejemplo.
La finalidad de la cancelación generalizada de lóbulos laterales es suprimir señales en direcciones no objetivo. El proceso de implementación específico se describe como sigue.
En primer lugar, se obtiene una señal de referencia de ruido:
u(k,l)=B(k,l)<H>x(k,l), (3)
dondeu= [u<i>(k ,l),-U<M -i>(k,l)]<T>es un vector (M-1)*1; yB(k,l) es una matriz de bloqueo (M-1)*M, que puede obtenerse basándose en el principio de suprimir al máximo la señal en una dirección deseada, y se usa para obtener la señal de referencia de ruido con la señal objetivo eliminada.
A continuación, se filtra una señal de ruido de la señal de haz fijo. La señal de ruido en la señal de haz fijo puede obtenerse multiplicando la señal de referencia de ruido por un coeficiente. La señal de haz deseada final puede expresarse como:
Y(k,l) = fix(k,l)-H(k,l)Hu(k,l), (4)
dondeH(k,l)H representa un coeficiente de filtro, que puede obtenerse actualizando mediante un algoritmo de error cuadrático medio (LMS) mínimo lineal normalizado.
Como se ha mencionado antes, en la realización de la presente divulgación, la señal de voz objetivo preseleccionada puede ser una señal de voz de palabra de comando específica y/o una señal de voz humana objetivo específica. En este caso, se puede usar una palabra de comando específica y/o realizar un reconocimiento de huella de voz en cada haz, después de identificar una palabra de comando específica y/o un ser humano objetivo específico, un haz cuyo resultado de reconocimiento satisface una condición preestablecida, por ejemplo, un haz con la puntuación de reconocimiento más alta, se selecciona como la señal de voz objetivo preseleccionada y, por consiguiente, la dirección del haz seleccionado es la dirección de la señal de voz objetivo preseleccionada. En el caso donde la señal de voz objetivo preseleccionada es una señal de voz efectiva, la voz objetivo preseleccionada puede seleccionarse de los haces basándose en un criterio establecido y puede determinarse su dirección. El criterio establecido puede ser uno cualquiera o una combinación de los siguientes: energía máxima y relación señal a ruido más alta.
Cabe señalar que las etapas de des-reverberación multicanal y cancelación generalizada de lóbulos laterales en el filtrado autoadaptativo y el procesamiento de reducción de ruido de la señal de voz mencionada anteriormente pueden realizarse también después de que se determine la dirección de la voz objetivo, si lo permite la precisión de la determinación de ubicación, esto es, el filtrado autoadaptativo y el procesamiento de reducción de ruido se realizan en la señal de voz objetivo preseleccionada, lo que no está limitado en la realización de la presente divulgación.
En la etapa 103, una ganancia direccional fuerte y una ganancia direccional débil se realizan en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil.
El GSC (cancelador de lóbulo lateral generalizado) solo puede suprimir el ruido en algunas de las direcciones no objetivo cuando se suprime el ruido en las direcciones no objetivo, y el ruido puede suprimirse adicionalmente a través del procesamiento de ganancia direccional.
Para este fin, en la realización de la presente divulgación, una señal de voz sometida a un procesamiento de ganancia direccional fuerte (es decir, una señal con ganancia fuerte) y una señal de voz sometida a un procesamiento de ganancia direccional débil (es decir, una señal con ganancia débil) se obtienen mediante procesamiento de ganancia direccional de dos intensidades. La señal con ganancia fuerte después del procesamiento tiene menos señales de ruido residual, pero la señal de voz objetivo tiene una distorsión relativamente grande, mientras que la señal de ganancia débil tiene una propiedad opuesta.
El proceso de procesamiento de ganancia es como se describe a continuación:
1) se establecen un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, y el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil;
2) la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido se determina basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, y la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido se determina basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; 3) se obtienen la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido, respectivamente. Considerando la influencia en la señal de voz objetivo preseleccionada en diferentes situaciones de interferencia, el método incluye además las siguientes etapas entre las etapas 2) y 3 anteriores): ajustar la ganancia direccional fuerte y la ganancia direccional débil para que estén basadas en el ángulo acimutal de la fuente de sonido. Por consiguiente, en la etapa 3), la señal con ganancia fuerte y la señal con ganancia débil necesitan obtenerse de acuerdo con la ganancia direccional fuerte ajustada y la ganancia direccional débil.
La ganancia direccional viene dada por la siguiente fórmula:
(5)
dondeg(6,l)representa una ganancia diseñada basándose en el ángulo acimutal6de la fuente de sonido; como se muestra en la Figura 2,6es el ángulo acimutal de la fuente de sonido, esto es, el ángulo acimutal de la señal de voz objetivo preseleccionada; la región de -T1 a T1 representa la zona de captación, la región de T1 a T2 y la región de -T2 a -T1 representan la zona de transición, y la región donde6es mayor que T2 y menor que -T2 representa una zona de no captación.
Debería observarse que la diferencia entre la ganancia direccional fuerte y la ganancia direccional débil radica en los valores de T1 y T2.
En un caso de ganancia direccional fuerte, el valor de T1 es pequeño (generalmente menor que el ángulo del lóbulo principal del haz objetivo, que puede determinarse de acuerdo con la aplicación real). El valor de T2 es lo más cercano posible a T1, de modo que la zona de transición sea lo más estrecha posible para garantizar que la ganancia de la zona sin captación sea lo más pequeña posible y cercana a cero. Cuando la zona de captación es pequeña y la zona de transición está diseñada para ser estrecha, es fácil causar distorsión de la voz objetivo, pero como la señal con ganancia fuerte obtenida después del procesamiento de ganancia direccional fuerte se usa principalmente para la detección posterior de los puntos de inicio y fin de la voz objetivo, la distorsión no tiene impacto.
En un caso de ganancia direccional débil, el valor de T1 es mayor que en el caso de la ganancia direccional fuerte. Por lo general, el valor de T1 puede ser ligeramente menor o igual que el ángulo del lóbulo principal del haz objetivo (que puede determinarse de acuerdo con la aplicación real), y el valor de T2 puede diseñarse lo más grande posible, para garantizar que el componente de voz objetivo no se suprime excesivamente cuando la estimación de la fuente de sonido es incorrecta.
Adicionalmente, considerando la influencia en la señal de voz objetivo preseleccionada en diferentes situaciones de interferencia, se puede ajustar también la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido. El proceso de ajuste de ganancia se describe como sigue.
Primero, se calcula una relación de energía de suavizadoyde la señal objetivo preseleccionada con respecto a una señal de interferencia, y se determina un coeficiente de ajuste de ganancia basándose en la relación de energía uniforme y, un umbral de relación de alta energía preestablecido y un umbral de relación de baja energía, de modo que diferentes relaciones de energía de suavizado corresponden a diferentes coeficientes de ajuste de ganancia; y después la ganancia direccional fuerte y la ganancia direccional débil se ajustan de acuerdo con el coeficiente de ajuste de ganancia.
La relación de energía de suavizadoypuede calcularse de acuerdo con un método de suavizado convencional, por ejemplo, se puede calcular usando la siguiente fórmula:
y (k, l) = d * y (k, l - l ) p *<ly°h¡etivo( f c , i ) |2>(6)
r H<lYnterferenda(W)l2’ V>'
donde a y@son coeficientes de ponderación,3+p=1, y sus valores pueden determinarse de acuerdo con la aplicación real, tal como 0,9 y 0,1, respectivamente. Y<objetivo>(k,/) representa la señal objetivo preseleccionada, e Y<nterferenáa>(k,/) representa la señal de interferencia.
Cuando la relación de energía uniformeyes mayor que el umbral de relación de alta energía, el coeficiente de ajuste de ganancia se establece en 1; cuando la relación de energía de suavizadoyes menor que el umbral de relación de baja energía, el coeficiente de ajuste de ganancia se establece en K<o>; cuando la relación de energía de suavizadoyes mayor o igual que el umbral de relación de baja energía y menor o igual que el umbral de relación de alta energía, el coeficiente de ajuste de ganancia se establece en K<i>, donde K<i>> K<o>.
Por ejemplo, se proporciona una fórmula específica para ajustar la ganancia direccional fuerte y la ganancia direccional débil como sigue:
íg i( 0 , l ) , y ( k , l ) > Yaito
Gi(k, i) = | Kig i( 0, l ) , Ybajo < Y(k, l ) < Yaito (7)
l k o g i( 0 , l) ,Y (k , l ) < Ybajo
<donde>*1<=>7<w h>T<= ' ¿ = 1<2 corresponden a la ganancia direccional fuerte y a la ganancia direccional débil,>respectivamente.y(k,/)representa la relación de energía uniforme de la señal objetivo preseleccionada en unaIésimatrama con la frecuenciakcon respecto a la señal de interferencia. La señal de interferencia puede ser un haz con la energía más alta entre los otros haces; yya/toyybajorepresentan el umbral de relación de alta energía y el umbral de relación de baja energía respectivamente, y sus valores pueden determinarse basándose en una aplicación real, por ejemplo, 4 y 0,4, respectivamente. Ko es un coeficiente de corrección utilizado principalmente para corregir la ganancia en circunstancias de habla simultánea en un caso de ganancia direccional débil, y tiene por lo general un valor pequeño, por ejemplo, 0,2.
Después de determinar la ganancia direccional fuerte y la ganancia direccional débil, dos señales con ganancias, en concreto, la señal con ganancia fuerte y la señal con ganancia débil se obtienen mediante:
Yi(k,/)=Gi(k,/)Y(k,/)(8)
Y2(k,/)=G2(k,/)Y(k,/)(9)
dondeY(k,/)representa la señal de voz objetivo preseleccionada, Yi(k,I) y Y<2>(k,I) son la señal con ganancia fuerte y la señal con ganancia débil, respectivamente.
En la etapa 104, se realiza una detección de punto final basándose en la señal con ganancia fuerte, para obtener un resultado de detección de punto final.
La detección de punto final es determinar con precisión los puntos de inicio y fin de una voz a partir de un trozo de señal que contiene la voz, determinando de este modo tanto la señal de voz como la señal que no es de voz. La detección eficaz de puntos finales no solo reduce la cantidad de datos recopilados en aplicaciones tales como reconocimiento y procesamiento de voz, sino que elimina también la interferencia de segmentos silenciosos y ruidosos, para obtener señales de voz efectivas. La detección de punto final específica puede usar tecnologías existentes, tal como detección de punto final basada en energía a corto plazo y tasa de cruce por cero promedio a corto plazo, detección de punto final basada en características de cepstrum y detección de punto final basada en entropía.
En la etapa 105, el procesamiento de punto final se realiza en la señal con ganancia débil de acuerdo con el resultado de detección de punto final, para obtener una señal de voz objetivo final.
Esto es, de acuerdo con las posiciones del punto de inicio y el punto final de la voz obtenida en la etapa 105, la señal de voz objetivo final se obtiene a partir de la señal con ganancia débil.
El método para obtener una voz objetivo basándose en una matriz de micrófonos se proporciona en la realización de la presente divulgación. Se recibe una señal de voz recopilada basándose en la matriz de micrófonos, se determina una señal de voz objetivo preseleccionada y una dirección de la misma, el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil se realizan en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil. Como hay menos señal de ruido residual en la señal con ganancia fuerte, se puede obtener un resultado de detección de punto final preciso mediante detección de punto final basándose en la señal con ganancia fuerte; como la distorsión de la voz objetivo es pequeña en la señal con ganancia débil, se puede obtener una señal de voz objetivo con mayor credibilidad realizando procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final.
Por consiguiente, una realización de la presente divulgación proporciona además un medio de almacenamiento legible por ordenador que incluye códigos de programa informático, donde los códigos de programa informático se ejecutan por una unidad informática, de modo que la unidad informática realiza las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con las realizaciones de la presente divulgación.
Un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos incluye un procesador, una memoria y un bus de sistema;
donde el procesador y la memoria están conectados entre sí a través del bus de sistema;
la memoria está configurada para almacenar uno o más programas, donde el uno o más programas incluyen instrucciones, y las instrucciones, cuando son ejecutadas por el procesador, hacen que el procesador realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con las realizaciones de la presente divulgación.
Por consiguiente, una realización de la presente divulgación proporciona además un producto de programa informático, donde el producto de programa informático, cuando se ejecuta en un dispositivo terminal, hace que el dispositivo terminal realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con las realizaciones de la presente divulgación.
Por consiguiente, una realización de la presente divulgación proporciona además un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos. Como se muestra en la Figura 3, que es un diagrama de bloques estructural del dispositivo, el dispositivo incluye: un módulo de recepción de señales 301, un módulo de preselección 302 y un módulo de procesamiento de ganancia 303, un módulo de detección de punto final 304, un módulo de extracción de voz objetivo 305.
El módulo de recepción de señal 301 recibe una señal de voz recopilada basándose en la matriz de micrófonos, y emite la señal de voz al módulo de preselección 302.
El módulo de preselección 302 está configurado para determinar una señal de voz objetivo preseleccionada y una dirección de la misma basándose en la señal de voz.
El módulo de procesamiento de ganancia 303 realiza una ganancia direccional fuerte y una ganancia direccional débil en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil, emite la señal con ganancia fuerte al módulo de detección de punto final 304, y emite la señal con ganancia débil al módulo de extracción de voz objetivo 305.
El módulo de detección de punto final 304 realiza una detección de punto final basándose en la señal con ganancia fuerte, y emite un resultado de detección de punto final al módulo de extracción de voz objetivo 305.
El módulo de extracción de voz objetivo 305 realiza el procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final, para obtener una señal de voz objetivo final.
En aplicaciones prácticas, el módulo de recepción de señal 301 necesita preprocesar también la señal de voz recibida. Preprocesar la señal de voz se refiere principalmente a transformar la señal de voz recibida del dominio del tiempo al dominio de la frecuencia, para obtener una señal de voz en el dominio de la frecuencia.
En una realización de la presente divulgación, el módulo de preselección 302 puede determinar la señal de voz objetivo preseleccionada y su dirección a través de la localización de fuente de sonido.
En otra realización de la presente divulgación, el módulo de preselección 302 puede realizar primero un procesamiento de formación de haces en la señal de voz para obtener haces en diferentes direcciones, a continuación, seleccionar un haz que cumpla una condición preestablecida y determinar la señal de voz objetivo y su dirección basándose en el haz seleccionado. Por consiguiente, en esta realización, el módulo de preselección 302 puede incluir las dos unidades siguientes:
una unidad de formación de haces, configurada para realizar procesamiento de formación de haces en la señal de voz para obtener haces en diferentes direcciones, que pueden implementarse mediante tecnologías existentes, tal como un algoritmo autoadaptativo basado en la estimación de dirección, un método de formación de haces basado en una estructura de señal y similares; y
una unidad de determinación, configurada para seleccionar un haz que cumpla la condición preestablecida de los haces en diferentes direcciones obtenidas por la unidad de formación de haces, y determinar la señal de voz objetivo preseleccionada y su dirección basándose en el haz seleccionado.
Por ejemplo, la señal de voz objetivo preseleccionada puede ser una señal de voz de palabra de comando específica y/o una señal de voz humana objetivo específica. En este caso, la unidad de determinación puede usar una palabra de comando específica y/o realizar un reconocimiento de huella de voz en los haces. Después de identificar una palabra de comando específica y/o un ser humano objetivo específico, un haz cuyo resultado de reconocimiento satisface la condición preestablecida, por ejemplo, un haz con la puntuación de reconocimiento más alta, se selecciona como la señal de voz objetivo preseleccionada y, por consiguiente, la dirección del haz seleccionado es la dirección de la señal de voz objetivo preseleccionada.
Por ejemplo, la señal de voz objetivo preseleccionada es una señal de voz efectiva. En este caso, la unidad de determinación puede seleccionar la voz objetivo preseleccionada de los haces basándose en un criterio establecido y determinar su dirección. El criterio establecido puede ser uno cualquiera o una combinación de los siguientes: energía máxima y relación señal a ruido más alta.
Debería observarse que puede proporcionarse adicionalmente una unidad de reducción de ruido entre la unidad de formación de haces y la unidad de determinación, y está configurada para realizar un filtrado autoadaptativo y un procesamiento de reducción de ruido en los haces obtenidos por la unidad de formación de haces. El filtrado autoadaptativo y el procesamiento de reducción de ruido incluyen uno cualquiera o más de lo siguiente: de reverberación multicanal y cancelación de lóbulo lateral generalizada.
La Figura 4 es un diagrama estructural esquemático de un módulo de procesamiento de ganancia de acuerdo con una realización de dispositivo de la presente divulgación.
El módulo de procesamiento de ganancia incluye:
una unidad de ajuste de ángulo 41, configurada para establecer un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil, y el ángulo de zona de captación de la ganancia direccional fuerte es menor que un ángulo de un lóbulo principal de la señal de voz objetivo preseleccionada;
una unidad de cálculo de ganancia 42, configurada para determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido, y determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido, donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; y
una unidad de generación de señal con ganancia 43, configurada para obtener la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido, respectivamente.
La Figura 5 es otro diagrama estructural esquemático de un módulo de procesamiento de ganancia de acuerdo con una realización de dispositivo de la presente divulgación.
En comparación con la realización mostrada en la Figura 4, en esta realización, el módulo de procesamiento de ganancia incluye, además:
una unidad de ajuste de umbral de relación de energía 51, configurada para establecer un umbral de relación de alta energía y un umbral de relación de baja energía;
una unidad de cálculo de relación de energía 52, configurada para calcular una relación de energía de suavizadoYde la señal objetivo preseleccionada con respecto a una señal de interferencia;
una unidad de determinación de coeficiente de ajuste de ganancia 53, configurada para determinar un coeficiente de ajuste de ganancia basándose en la relación de energía de suavizado y, el umbral de relación de alta energía y el umbral de relación de baja energía; y
una unidad de corrección de ganancia 54, configurada para ajustar la ganancia direccional fuerte y la ganancia direccional débil obtenidas por la unidad de cálculo de ganancia 42 de acuerdo con el coeficiente de ajuste de ganancia.
Por consiguiente, en esta realización, la unidad de generación de señal con ganancia 43 necesita obtener la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil ajustada por la unidad de corrección de ganancia 54.
En aplicaciones prácticas, la unidad de ajuste de ángulo 41 y la unidad de ajuste de umbral de relación de energía 51 descritas anteriormente pueden ser independientes entre sí o estar integradas en una sola pieza, lo que no está limitado en la realización de la presente divulgación.
La Figura 6 es otro diagrama de bloques estructural del dispositivo. En comparación con la realización mostrada en la Figura 3, en esta realización, el dispositivo incluye, además: un módulo de reducción de ruido 306 dispuesto entre el módulo de preselección 302 y el módulo de procesamiento de ganancia 303, y configurado para realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en la señal de voz objetivo preseleccionada determinada por el módulo de preselección 302, tal como la de-reverberación multicanal, cancelación generalizada de lóbulos laterales y otros procesos de reducción de ruido en la tecnología convencional, lo que no está limitado en esta realización de la presente divulgación.
El dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos se proporciona en las realizaciones de la presente divulgación. Se recibe una señal de voz recopilada basándose en la matriz de micrófonos, se determinan una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada, y después el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil se realizan en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil. Dado que queda menos señal de ruido en la señal de voz después de una ganancia fuerte, se puede obtener un resultado de detección de punto final preciso basándose en la señal con ganancia fuerte. La distorsión de la voz objetivo es muy pequeña en la señal de voz después de una ganancia débil; por lo tanto, se puede obtener una señal de voz objetivo con mayor credibilidad realizando procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final.
Las realizaciones en esta memoria descriptiva se describen de manera progresiva, y se puede hacer referencia entre sí de las realizaciones para partes iguales o similares entre las diversas realizaciones. Cada realización se centra en las diferencias de otras realizaciones. Es más, las realizaciones del dispositivo descritas anteriormente son solo esquemáticas, donde las unidades descritas como componentes separados pueden o no estar separados físicamente, y los componentes mostrados como unidades pueden o no ser unidades físicas, esto es, pueden ubicarse en un lugar o distribuirse a través de múltiples elementos de red. Algunos o todos los módulos pueden seleccionarse de acuerdo con las necesidades reales para lograr el objetivo de la solución de esta realización, mientras que la invención está definida únicamente por las reivindicaciones adjuntas. Los expertos en la materia pueden entender e implementar lo anterior sin ningún esfuerzo creativo.
Las realizaciones de la presente divulgación se han descrito en detalle anteriormente, y se usan realizaciones específicas para explicar la presente divulgación. Las descripciones de las realizaciones anteriores solo se usan para ayudar a comprender el método y el dispositivo de la presente divulgación. Los expertos en la materia pueden realizar cambios en la implementación específica. Por lo general, el contenido de esta divulgación no debe interpretarse como una limitación de esta solicitud, mientras que la invención está definida únicamente por las reivindicaciones adjuntas.

Claims (16)

REIVINDICACIONES
1. Un método para obtener una voz objetivo basándose en una matriz de micrófonos, comprendiendo el método:
recibir (101) una señal de voz recopilada basándose en la matriz de micrófonos;
determinar (102) una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada basándose en la señal de voz recibida;
realizar (103) un procesamiento de ganancia direccional fuerte y un procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente una señal de ganancia fuerte y una señal de ganancia débil;
realizar (104) una detección de punto final basándose en la señal con ganancia fuerte, para obtener un resultado de detección de punto final, en donde la detección de punto final determina los puntos de inicio y final de una voz en la señal con ganancia fuerte; y
realizar (105) procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final, para obtener una señal de voz objetivo final,
en donde realizar el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente la señal con ganancia fuerte y la señal con ganancia débil comprende:
establecer un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, en donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, y el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil;
determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido, y determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido, en donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; y
obtener la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido, respectivamente.
2. El método de acuerdo con la reivindicación 1, en donde determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada comprende:
determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada a través de la localización de fuente de sonido.
3. El método de acuerdo con la reivindicación 1, en donde determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada comprende:
realizar el procesamiento de formación de haces en la señal de voz, para obtener haces en diferentes direcciones; seleccionar, de los haces en diferentes direcciones, un haz que satisface una condición preestablecida, y determinar la señal de voz objetivo y la dirección de la señal de voz objetivo basándose en el haz seleccionado.
4. El método de acuerdo con la reivindicación 1, en donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que un ángulo de un lóbulo principal de la señal de voz objetivo preseleccionada.
5. El método de acuerdo con la reivindicación 1, en donde realizar el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente la señal de ganancia fuerte y la señal de ganancia débil comprende adicionalmente:
calcular una relación de energía de suavizadoyde la señal objetivo preseleccionada con respecto a una señal de interferencia;
determinar un coeficiente de ajuste de ganancia basándose en la relación de energía de suavizadoy,un umbral de relación de alta energía preestablecido y un umbral de relación de baja energía; y
ajustar la ganancia direccional fuerte y la ganancia direccional débil de acuerdo con el coeficiente de ajuste de ganancia.
6. El método de acuerdo con la reivindicación 5, en donde determinar el coeficiente de ajuste de ganancia basándose en la relación de energía de suavizadoy,el umbral de relación de alta energía preestablecido y el umbral de relación de baja energía comprende:
establecer el coeficiente de ajuste de ganancia en 1 en caso de que la relación de energía uniformeyes mayor que el umbral de relación de alta energía;
establecer el coeficiente de ajuste de ganancia para que sea K<q>en caso de que la relación de energía de suavizadoYsea menor que el umbral de relación de baja energía; y
establecer el coeficiente de ajuste de ganancia para que sea Ki en caso de que la relación de energía de suavizadoYsea mayor o igual que el umbral de relación de baja energía y menor o igual que el umbral de relación de alta energía, en donde K<1>> Ko.
7. El método de acuerdo con la reivindicación 3, que comprende, además:
realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en cada haz, antes de que se determine la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada basándose en el haz que cumple la condición preestablecida; o
realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en la señal de voz objetivo preseleccionada, después de que se determinen la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada.
8. Un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos, comprendiendo el dispositivo: un módulo de recepción de señales (301), un módulo de preselección (302), un módulo de procesamiento de ganancia (303), un módulo de detección de punto final (304) y un módulo de extracción de voz objetivo (305), en donde:
el módulo de recepción de señales (301) está configurado para recibir una señal de voz recopilada basándose en la matriz de micrófonos, y emitir la señal de voz al módulo de preselección (302);
el módulo de preselección (302) está configurado para determinar una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada basándose en la señal de voz recibida;
el módulo de procesamiento de ganancia (303) está configurado para realizar un procesamiento de ganancia direccional fuerte y un procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil, emitir la señal con ganancia fuerte al módulo de detección de punto final (304), y emitir la señal con ganancia débil al módulo de extracción de voz objetivo (305);
el módulo de detección de punto final (304) está configurado para realizar una detección de punto final basándose en la señal con ganancia fuerte, y emitir un resultado de detección de punto final al módulo de extracción de voz objetivo (305), en donde la detección de punto final determina los puntos de inicio y final de una voz en la señal con ganancia fuerte; y
el módulo de extracción de voz objetivo (305) está configurado para realizar procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final, para obtener una señal de voz objetivo final,
en donde el módulo de procesamiento de ganancia (303) comprende:
una unidad de ajuste de ángulo (41), configurada para establecer un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, en donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, y el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil;
una unidad de cálculo de ganancia (42), configurada para determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido, y determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido, en donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; y
una unidad de generación de señal con ganancia (43) configurada para obtener la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido, respectivamente.
9. El dispositivo de acuerdo con la reivindicación 8, en donde el módulo de preselección (302) está configurado para determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada a través de localización de fuente de sonido.
10. El dispositivo de acuerdo con la reivindicación 8, en donde el módulo de preselección (302) incluye:
una unidad de formación de haces, configurada para realizar procesamiento de formación de haces en la señal de voz para obtener haces en diferentes direcciones; y
una unidad de determinación, configurada para seleccionar un haz que cumple una condición preestablecida a partir de los haces en diferentes direcciones obtenidas por la unidad de formación de haces, y determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada basándose en el haz seleccionado.
11. El dispositivo de acuerdo con la reivindicación 8, en donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que un ángulo de un lóbulo principal de la señal de voz objetivo preseleccionada.
12. El dispositivo de acuerdo con la reivindicación 11, en donde el módulo de procesamiento de ganancia (303) comprende, además:
una unidad de ajuste de umbral de relación de energía (51), configurada para establecer un umbral de relación de alta energía y un umbral de relación de baja energía;
una unidad de cálculo de relación de energía (52), configurada para calcular una relación de energía de suavizadoYde la señal objetivo preseleccionada con respecto a una señal de interferencia;
una unidad de determinación de coeficiente de ajuste de ganancia (53), configurada para determinar un coeficiente de ajuste de ganancia basándose en la relación de energía de suavizado y, el umbral de relación de alta energía y el umbral de relación de baja energía; y
una unidad de corrección de ganancia (54), configurada para ajustar la ganancia direccional fuerte y la ganancia direccional débil obtenidas por la unidad de cálculo de ganancia de acuerdo con el coeficiente de ajuste de ganancia.
13. El dispositivo de acuerdo con la reivindicación 8, en donde el módulo de preselección (302) comprende, además:
una unidad de reducción de ruido dispuesta entre la unidad de formación de haces y la unidad de determinación, y configurada para realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en cada haz obtenido por la unidad de formación de haces;
o; el dispositivo comprende, además:
un módulo de reducción de ruido (306) dispuesto entre el módulo de preselección (302) y el módulo de procesamiento de ganancia (303), y configurado para realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en la señal de voz objetivo preseleccionada determinada por el módulo de preselección (302).
14. Un medio de almacenamiento legible por ordenador, que comprende códigos de programa informático, en donde los códigos de programa informático, cuando se ejecutan por un dispositivo informático, hacen que la unidad informática realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una cualquiera de las reivindicaciones 1 a 7.
15. Un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos, comprendiendo el dispositivo un procesador, una memoria y un bus de sistema, en donde:
el procesador y la memoria están conectados entre sí a través del bus de sistema; y
la memoria está configurada para almacenar uno o más programas, y el uno o más programas comprenden instrucciones que, cuando son ejecutadas por el procesador, hacen que el procesador realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una cualquiera de las reivindicaciones 1 a 7.
16. Un producto de programa informático que, cuando se ejecuta en un dispositivo terminal, hace que el dispositivo terminal realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una cualquiera de las reivindicaciones 1 a 7.
ES18870140T 2017-10-23 2018-07-16 Método y dispositivo de adquisición de voz objetivo basado en matriz de micrófonos Active ES2967132T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201710994211.5A CN107742522B (zh) 2017-10-23 2017-10-23 基于麦克风阵列的目标语音获取方法及装置
PCT/CN2018/095765 WO2019080553A1 (zh) 2017-10-23 2018-07-16 基于麦克风阵列的目标语音获取方法及装置

Publications (1)

Publication Number Publication Date
ES2967132T3 true ES2967132T3 (es) 2024-04-26

Family

ID=61238104

Family Applications (1)

Application Number Title Priority Date Filing Date
ES18870140T Active ES2967132T3 (es) 2017-10-23 2018-07-16 Método y dispositivo de adquisición de voz objetivo basado en matriz de micrófonos

Country Status (9)

Country Link
US (1) US11081123B2 (es)
EP (1) EP3703053B1 (es)
JP (1) JP7011075B2 (es)
KR (1) KR102469516B1 (es)
CN (1) CN107742522B (es)
ES (1) ES2967132T3 (es)
HU (1) HUE065302T2 (es)
PL (1) PL3703053T3 (es)
WO (1) WO2019080553A1 (es)

Families Citing this family (31)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置
CN108735227B (zh) * 2018-06-22 2020-05-19 北京三听科技有限公司 对麦克风阵列拾取的语音信号进行声源分离的方法及系统
CN108962226B (zh) * 2018-07-18 2019-12-20 百度在线网络技术(北京)有限公司 用于检测语音的端点的方法和装置
CN110875056B (zh) * 2018-08-30 2024-04-02 阿里巴巴集团控股有限公司 语音转录设备、系统、方法、及电子设备
CN109243457B (zh) * 2018-11-06 2023-01-17 北京如布科技有限公司 基于语音的控制方法、装置、设备及存储介质
CN109545242A (zh) * 2018-12-07 2019-03-29 广州势必可赢网络科技有限公司 一种音频数据处理方法、系统、装置及可读存储介质
CN111627425B (zh) * 2019-02-12 2023-11-28 阿里巴巴集团控股有限公司 一种语音识别方法及系统
CN110310625A (zh) * 2019-07-05 2019-10-08 四川长虹电器股份有限公司 语音断句方法及系统
CN112216298B (zh) * 2019-07-12 2024-04-26 大众问问(北京)信息科技有限公司 双麦克风阵列声源定向方法、装置及设备
CN110517677B (zh) * 2019-08-27 2022-02-08 腾讯科技(深圳)有限公司 语音处理系统、方法、设备、语音识别系统及存储介质
CN110415718B (zh) * 2019-09-05 2020-11-03 腾讯科技(深圳)有限公司 信号生成的方法、基于人工智能的语音识别方法及装置
CN110619895A (zh) * 2019-09-06 2019-12-27 Oppo广东移动通信有限公司 定向发声控制方法及装置、发声设备、介质和电子设备
CN110517702B (zh) * 2019-09-06 2022-10-04 腾讯科技(深圳)有限公司 信号生成的方法、基于人工智能的语音识别方法及装置
CN111243615B (zh) * 2020-01-08 2023-02-10 环鸿电子(昆山)有限公司 麦克风阵列信号处理方法及手持式装置
CN113141285B (zh) * 2020-01-19 2022-04-29 海信集团有限公司 一种沉浸式语音交互方法及系统
CN111161748B (zh) * 2020-02-20 2022-09-23 百度在线网络技术(北京)有限公司 一种双讲状态检测方法、装置以及电子设备
CN113393856B (zh) * 2020-03-11 2024-01-16 华为技术有限公司 拾音方法、装置和电子设备
CN111429905B (zh) * 2020-03-23 2024-06-07 北京声智科技有限公司 语音信号处理方法、装置、语音智能电梯、介质和设备
CN113496708B (zh) * 2020-04-08 2024-03-26 华为技术有限公司 拾音方法、装置和电子设备
CN111627456B (zh) * 2020-05-13 2023-07-21 广州国音智能科技有限公司 噪音排除方法、装置、设备及可读存储介质
USD958435S1 (en) * 2020-07-17 2022-07-19 Aiping GUO Motion sensor ceiling light
CN112151036B (zh) * 2020-09-16 2021-07-30 科大讯飞(苏州)科技有限公司 基于多拾音场景的防串音方法、装置以及设备
CN112185406A (zh) * 2020-09-18 2021-01-05 北京大米科技有限公司 声音处理方法、装置、电子设备和可读存储介质
CN112333602B (zh) * 2020-11-11 2022-08-26 支付宝(杭州)信息技术有限公司 信号处理方法、信号处理设备、计算机可读存储介质及室内用播放系统
CN112562681B (zh) * 2020-12-02 2021-11-19 腾讯科技(深圳)有限公司 语音识别方法和装置、存储介质
CN112735461B (zh) * 2020-12-29 2024-06-07 西安讯飞超脑信息科技有限公司 拾音方法以及相关装置、设备
CN112908310A (zh) * 2021-01-20 2021-06-04 宁波方太厨具有限公司 一种智能电器中的语音指令识别方法及识别系统
CN113053406B (zh) * 2021-05-08 2024-06-18 北京小米移动软件有限公司 声音信号识别方法及装置
WO2023085749A1 (ko) * 2021-11-09 2023-05-19 삼성전자주식회사 빔포밍을 제어하는 전자 장치 및 이의 동작 방법
CN114245266B (zh) * 2021-12-15 2022-12-23 苏州蛙声科技有限公司 小型麦克风阵列设备的区域拾音方法及系统
CN116168719A (zh) * 2022-12-26 2023-05-26 杭州爱听科技有限公司 一种基于语境分析的声音增益调节方法及系统

Family Cites Families (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2477767A1 (en) 2002-03-05 2003-11-20 Aliphcom Voice activity detection (vad) devices and methods for use with noise suppression systems
US7415117B2 (en) * 2004-03-02 2008-08-19 Microsoft Corporation System and method for beamforming using a microphone array
KR100959983B1 (ko) * 2005-08-11 2010-05-27 아사히 가세이 가부시키가이샤 음원 분리 장치, 음성 인식 장치, 휴대 전화기, 음원 분리방법, 및, 프로그램
JP2007086554A (ja) * 2005-09-26 2007-04-05 Toshiba Tec Corp 音声認識装置及び音声認識処理用プログラム
JP4096104B2 (ja) * 2005-11-24 2008-06-04 国立大学法人北陸先端科学技術大学院大学 雑音低減システム及び雑音低減方法
KR20090037845A (ko) * 2008-12-18 2009-04-16 삼성전자주식회사 혼합 신호로부터 목표 음원 신호를 추출하는 방법 및 장치
KR101041039B1 (ko) 2009-02-27 2011-06-14 고려대학교 산학협력단 오디오 및 비디오 정보를 이용한 시공간 음성 구간 검출 방법 및 장치
CN101510426B (zh) * 2009-03-23 2013-03-27 北京中星微电子有限公司 一种噪声消除方法及系统
CN102196109B (zh) * 2010-03-01 2013-07-31 联芯科技有限公司 一种残留回声检测方法和系统
JP5672770B2 (ja) * 2010-05-19 2015-02-18 富士通株式会社 マイクロホンアレイ装置及び前記マイクロホンアレイ装置が実行するプログラム
JP2011257627A (ja) * 2010-06-10 2011-12-22 Murata Mach Ltd 音声認識装置と認識方法
JP2012150237A (ja) * 2011-01-18 2012-08-09 Sony Corp 音信号処理装置、および音信号処理方法、並びにプログラム
US9100735B1 (en) * 2011-02-10 2015-08-04 Dolby Laboratories Licensing Corporation Vector noise cancellation
US9354310B2 (en) 2011-03-03 2016-05-31 Qualcomm Incorporated Systems, methods, apparatus, and computer-readable media for source localization using audible sound and ultrasound
CN103248992B (zh) * 2012-02-08 2016-01-20 中国科学院声学研究所 一种基于双麦克风的目标方向语音活动检测方法及系统
KR20130101943A (ko) * 2012-03-06 2013-09-16 삼성전자주식회사 음원 끝점 검출 장치 및 그 방법
CN102800325A (zh) * 2012-08-31 2012-11-28 厦门大学 一种超声波辅助麦克风阵列语音增强装置
CN102969002B (zh) * 2012-11-28 2014-09-03 厦门大学 一种可抑制移动噪声的麦克风阵列语音增强装置
JP6107151B2 (ja) * 2013-01-15 2017-04-05 富士通株式会社 雑音抑圧装置、方法、及びプログラム
US10229697B2 (en) * 2013-03-12 2019-03-12 Google Technology Holdings LLC Apparatus and method for beamforming to obtain voice and noise signals
CN104103277B (zh) * 2013-04-15 2017-04-05 北京大学深圳研究生院 一种基于时频掩膜的单声学矢量传感器目标语音增强方法
CN103426440A (zh) 2013-08-22 2013-12-04 厦门大学 利用能量谱熵空间信息的语音端点检测装置及其检测方法
CN103544959A (zh) * 2013-10-25 2014-01-29 华南理工大学 一种基于无线定位麦克风阵列语音增强的通话系统及方法
CN104091593B (zh) * 2014-04-29 2017-02-15 苏州大学 采用感知语谱结构边界参数的语音端点检测算法
CN104038880B (zh) * 2014-06-26 2017-06-23 南京工程学院 一种双耳助听器语音增强方法
CN105489224B (zh) * 2014-09-15 2019-10-18 讯飞智元信息科技有限公司 一种基于麦克风阵列的语音降噪方法及系统
WO2016076237A1 (ja) * 2014-11-10 2016-05-19 日本電気株式会社 信号処理装置、信号処理方法および信号処理プログラム
CN104936091B (zh) * 2015-05-14 2018-06-15 讯飞智元信息科技有限公司 基于圆形麦克风阵列的智能交互方法及系统
KR102444061B1 (ko) * 2015-11-02 2022-09-16 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
CN106255026A (zh) * 2016-08-08 2016-12-21 浙江大学 基于语音模式识别和振动反馈的助残装置及交互方法
CN106952653B (zh) * 2017-03-15 2021-05-04 科大讯飞股份有限公司 噪声去除方法、装置和终端设备
CN107146614B (zh) * 2017-04-10 2020-11-06 北京猎户星空科技有限公司 一种语音信号处理方法、装置及电子设备
CN107742522B (zh) * 2017-10-23 2022-01-14 科大讯飞股份有限公司 基于麦克风阵列的目标语音获取方法及装置

Also Published As

Publication number Publication date
CN107742522B (zh) 2022-01-14
EP3703053A4 (en) 2021-07-21
JP7011075B2 (ja) 2022-01-26
HUE065302T2 (hu) 2024-05-28
PL3703053T3 (pl) 2024-03-11
JP2021500634A (ja) 2021-01-07
US11081123B2 (en) 2021-08-03
KR102469516B1 (ko) 2022-11-21
KR20200066366A (ko) 2020-06-09
WO2019080553A1 (zh) 2019-05-02
US20200342887A1 (en) 2020-10-29
EP3703053B1 (en) 2023-10-18
EP3703053A1 (en) 2020-09-02
EP3703053C0 (en) 2023-10-18
CN107742522A (zh) 2018-02-27

Similar Documents

Publication Publication Date Title
ES2967132T3 (es) Método y dispositivo de adquisición de voz objetivo basado en matriz de micrófonos
CN110085247B (zh) 一种针对复杂噪声环境的双麦克风降噪方法
CN110133596A (zh) 一种基于频点信噪比和偏置软判决的阵列声源定位方法
TWI412023B (zh) 可消除噪音且增進語音品質之麥克風陣列架構及其方法
CN106161751B (zh) 一种噪声抑制方法及装置
WO2015196729A1 (zh) 一种麦克风阵列语音增强方法及装置
US20140193009A1 (en) Method and system for enhancing the intelligibility of sounds relative to background noise
Taseska et al. Informed spatial filtering for sound extraction using distributed microphone arrays
CN106558315B (zh) 异质麦克风自动增益校准方法及系统
US20180190310A1 (en) De-reverberation control method and apparatus for device equipped with microphone
WO2015196760A1 (zh) 一种麦克风阵列语音检测方法及装置
CN111435598B (zh) 语音信号处理方法、装置、计算机可读介质及电子设备
US9374651B2 (en) Sensitivity calibration method and audio device
BR112019013555A2 (pt) Aparelho para captura de áudio, método de captura de áudio e produto de programa de computador
BR112019013548A2 (pt) Aparelho de captura de áudio, método de operação para capturar áudio, e produto de programa de computador
CN111063366A (zh) 降低噪声的方法、装置、电子设备及可读存储介质
Yousefian et al. A coherence-based noise reduction algorithm for binaural hearing aids
Schwartz et al. Maximum likelihood estimation of the late reverberant power spectral density in noisy environments
CN112530451A (zh) 基于去噪自编码器的语音增强方法
CN112581970A (zh) 用于音频信号生成的系统和方法
Mirzahasanloo et al. Environment-adaptive speech enhancement for bilateral cochlear implants using a single processor
BR112019013239A2 (pt) aparelho de captura de áudio, e método de captura de áudio
CN114882898A (zh) 多通道语音信号增强方法和装置及计算机设备和存储介质
CN113223549A (zh) 一种用于智能饮水机的远场语音识别增强方法
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置