ES2967132T3

ES2967132T3 - Método y dispositivo de adquisición de voz objetivo basado en matriz de micrófonos

Info

Publication number: ES2967132T3
Application number: ES18870140T
Authority: ES
Inventors: Dongyang Xu; Haikun Wang; Zhiguo Wang; Guoping Hu
Original assignee: iFlytek Co Ltd
Current assignee: iFlytek Co Ltd
Priority date: 2017-10-23
Filing date: 2018-07-16
Publication date: 2024-04-26
Anticipated expiration: 2038-07-16
Also published as: CN107742522B; EP3703053A4; JP7011075B2; HUE065302T2; PL3703053T3; JP2021500634A; US11081123B2; KR102469516B1; KR20200066366A; WO2019080553A1; US20200342887A1; EP3703053B1; EP3703053A1; EP3703053C0; CN107742522A

Abstract

Un método y dispositivo de adquisición de voz objetivo basado en una matriz de micrófonos, comprendiendo dicho método: recibir señales de voz adquiridas sobre la base de una matriz de micrófonos (101); determinar una señal de voz objetivo preseleccionada y una dirección de la misma (102); realizar una ganancia direccional fuerte y una ganancia direccional débil en la señal de voz objetivo preseleccionada, para obtener una señal de ganancia fuerte y una señal de ganancia débil (103); realizar una detección de punto final basándose en la señal de ganancia fuerte, para obtener un resultado de detección de punto final (104); y realizar el procesamiento del punto final en la señal de ganancia débil de acuerdo con el resultado de la detección del punto final, para obtener una señal de voz objetivo final (105). La presente invención puede obtener una señal de voz objetivo precisa y fiable, evitando así un efecto adverso de la calidad de la voz objetivo en el procesamiento posterior de la voz objetivo. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN

Método y dispositivo de adquisición de voz objetivo basado en matriz de micrófonos

La presente solicitud reivindica la prioridad de la solicitud de patente china n.° 201710994211.5, titulada "MICROPHONE ARRAY-BASED TARGET VOICE ADQUISITION METHOD AND DEVICE", presentada el 23 de octubre de 2017, con la Administración Nacional de Propiedad Intelectual de China.

Campo

La presente divulgación se refiere al campo del procesamiento de señales de voz y, en particular, a un método basado en matriz de micrófonos y para obtener una voz objetivo y su dispositivo.

Antecedentes

Con el rápido desarrollo de la tecnología de la información, han aparecido más y más productos interactivos inteligentes. La voz como uno de los métodos de interacción más naturales y convenientes es actualmente un método de interacción convencional de productos de interacción inteligente. En procesos prácticos de interacción de voz, el efecto de interacción se ve directamente afectado por la calidad de voz, pero el entorno real es complejo y cambiante, y hay varios ruidos que afectan a la calidad de la voz. Por lo tanto, cómo eliminar eficazmente el ruido y mejorar la calidad de la voz objetivo es extremadamente importante en la escena interactiva.

Actualmente, el método de reducción de ruido convencional para la voz objetivo es un método de reducción de ruido basado en una matriz de micrófonos, que usa múltiples micrófonos para obtener información espacial de la señal de voz, realiza una mejora de voz en una señal objetivo en una dirección objetivo y suprime el ruido en una dirección no objetivo. Un enfoque ilustrativo para el procesamiento de señales de voz usando una matriz de micrófonos se divulga en el documento US 2017/0125037 A1.

Este método funciona bien cuando el número de micrófonos es grande, pero en la práctica, considerando las restricciones de coste y diseño del dispositivo, es difícil que el número de micrófonos alcance el número ideal. En este momento, la zona de captación para cada dirección de haz es grande, y es probable que un haz correspondiente a una señal en la dirección objetivo contenga tanto la voz objetivo como la voz no objetivo. Durante el proceso de mejora de señal en la dirección objetivo, si el ruido se va a eliminar con el fin de una fuerte supresión de ruido, puede hacer que la voz objetivo se distorsione, lo que da como resultado un efecto irreversible en el procesamiento de voz objetivo. Por lo tanto, en la tecnología convencional, generalmente no se realiza una fuerte supresión de ruido. En este caso, habrá residuos de ruido. Los residuos de ruido provocarán una detección de punto final inexacta y, en consecuencia, en el procesamiento de voz objetivo posterior, como el reconocimiento de voz, aparecerán varios errores de inserción o faltantes debido a una detección imprecisa del punto final, afectando la experiencia del usuario.

Sumario

Las realizaciones de la presente divulgación proporcionan un método y un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos, para obtener una señal de voz objetivo precisa y fiable, evitando de este modo que la calidad de voz objetivo afecte negativamente al procesamiento de voz objetivo posterior.

Para este fin, la presente divulgación proporciona las siguientes soluciones técnicas.

Un método para obtener una voz objetivo basándose en una matriz de micrófonos incluye:

recibir una señal de voz recopilada basándose en la matriz de micrófonos;

determinar una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada basándose en la señal de voz recibida;

realizar un procesamiento de ganancia direccional fuerte y un procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente una señal de ganancia fuerte y una señal de ganancia débil;

realizar una detección de punto final basándose en la señal con ganancia fuerte para obtener un resultado de detección de punto final, donde la detección de punto final determina los puntos de inicio y final de una voz en la señal con ganancia fuerte; y

realizar procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final para obtener una señal de voz objetivo final,

donde realizar el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente la señal con ganancia fuerte y la señal con ganancia débil incluye:

establecer un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, y el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil;

determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido, y determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido, donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; y

obtener la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido, respectivamente.

Preferiblemente, determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada incluye:

determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada a través de la localización de fuente de sonido.

realizar procesamiento de formación de haces en la señal de voz para obtener haces en diferentes direcciones; y

seleccionar, de los haces en diferentes direcciones, un haz que satisface una condición preestablecida, y determinar la señal de voz objetivo y la dirección de la señal de voz objetivo basándose en el haz seleccionado.

Preferiblemente, el ángulo de zona de captación de la ganancia direccional fuerte es menor que un ángulo de un lóbulo principal de la señal de voz objetivo preseleccionada.

Preferiblemente, realizar el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente la señal de ganancia fuerte y la señal de ganancia débil incluye adicionalmente:

calcular una relación de energía de suavizadoyde la señal objetivo preseleccionada con respecto a una señal de interferencia;

determinar un coeficiente de ajuste de ganancia basándose en la relación de energía de suavizadoy,un umbral de relación de alta energía preestablecido y un umbral de relación de baja energía; y

ajustar la ganancia direccional fuerte y la ganancia direccional débil de acuerdo con el coeficiente de ajuste de ganancia.

Preferiblemente, determinar el coeficiente de ajuste de ganancia basándose en la relación de energía de suavizadoy,el umbral de relación de alta energía preestablecido y el umbral de relación de baja energía incluye:

establecer el coeficiente de ajuste de ganancia en 1 en caso de que la relación de energía uniformeyes mayor que el umbral de relación de alta energía;

establecer el coeficiente de ajuste de ganancia para que sea Ko en caso de que la relación de energía de suavizadoYsea menor que el umbral de relación de baja energía; y

establecer el coeficiente de ajuste de ganancia para que sea Ki en caso de que la relación de energía de suavizadoYsea mayor o igual que el umbral de relación de baja energía y menor o igual que el umbral de relación de alta energía, donde Ki > Ko.

Preferiblemente, el método incluye, además:

realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en cada haz, antes de que se determine la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada basándose en el haz que cumple la condición preestablecida; o

realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en la señal de voz objetivo preseleccionada, después de que se determinen la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada.

Un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos incluye: un módulo de recepción de señales, un módulo de preselección, un módulo de procesamiento de ganancia, un módulo de detección de punto final y un módulo de extracción de voz objetivo;

donde el módulo de recepción de señales está configurado para recibir una señal de voz recopilada basándose en la matriz de micrófonos, y emitir la señal de voz al módulo de preselección;

el módulo de preselección está configurado para determinar una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada basándose en la señal de voz recibida;

el módulo de procesamiento de ganancia está configurado para realizar un procesamiento de ganancia direccional fuerte y un procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada, , para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil, emitir la señal con ganancia fuerte al módulo de detección de punto final, y emitir la señal con ganancia débil al módulo de extracción de voz objetivo;

el módulo de detección de punto final está configurado para realizar una detección de punto final basándose en la señal con ganancia fuerte, y emitir un resultado de detección de punto final al módulo de extracción de voz objetivo, donde la detección de punto final determina los puntos de inicio y final de una voz en la señal con ganancia fuerte; y

el módulo de extracción de voz objetivo está configurado para realizar procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final, para obtener una señal de voz objetivo final, en donde el módulo de procesamiento de ganancia comprende:

una unidad de ajuste de ángulo, configurada para establecer un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, en donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, y el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil;

una unidad de cálculo de ganancia configurada para determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido, y determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido, en donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; y

una unidad de generación de señal con ganancia, configurada para obtener la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido, respectivamente.

Preferiblemente, el módulo de preselección está configurado para determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada a través de la localización de fuente de sonido.

Preferiblemente, el módulo de preselección incluye:

una unidad de formación de haces, configurada para realizar procesamiento de formación de haces en la señal de voz para obtener haces en diferentes direcciones; y

una unidad de determinación, configurada para seleccionar un haz que cumple una condición preestablecida a partir de los haces en diferentes direcciones obtenidas por la unidad de formación de haces, y determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada basándose en el haz seleccionado.

Preferiblemente, el módulo de procesamiento de ganancia incluye, además:

una unidad de ajuste de umbral de relación de energía, configurada para establecer un umbral de relación de alta energía y un umbral de relación de baja energía;

una unidad de cálculo de relación de energía, configurada para calcular una relación de energía de suavizadoyde la señal objetivo preseleccionada con respecto a una señal de interferencia;

una unidad de determinación de coeficiente de ajuste de ganancia, configurada para determinar un coeficiente de ajuste de ganancia basándose en la relación de energía de suavizadoy,el umbral de relación de alta energía y el umbral de relación de baja energía; y

una unidad de corrección de ganancia, configurada para ajustar la ganancia direccional fuerte y la ganancia direccional débil obtenidas por la unidad de cálculo de ganancia de acuerdo con el coeficiente de ajuste de ganancia.

Preferiblemente, el módulo de preselección incluye, además:

una unidad de reducción de ruido dispuesta entre la unidad de formación de haces y la unidad de determinación, y configurada para realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en cada haz obtenido por la unidad de formación de haces;

o; el dispositivo incluye, además:

un módulo de reducción de ruido dispuesto entre el módulo de preselección y el módulo de procesamiento de ganancia, y configurado para realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en la señal de voz objetivo preseleccionada determinada por el módulo de preselección.

Un medio de almacenamiento legible por ordenador incluye códigos de programa informático, donde los códigos de programa informático se ejecutan por una unidad informática para hacer que la unidad informática realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos descrita anteriormente.

Un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos incluye un procesador, una memoria y un bus de sistema,

donde el procesador y la memoria están conectados entre sí a través del bus de sistema; y

la memoria está configurada para almacenar uno o más programas, y el uno o más programas incluyen instrucciones que, cuando son ejecutadas por el procesador, hacen que el procesador realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos descrita anteriormente.

Un producto de programa informático, cuando se ejecuta en un dispositivo terminal, hace que el dispositivo terminal realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos descrita anteriormente.

El método y el dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos se proporcionan en las realizaciones de la presente divulgación. Se recibe una señal de voz recopilada basándose en la matriz de micrófonos, se determinan una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada, y después el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil se realizan en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil. Dado que queda menos señal de ruido en la señal de voz después de una ganancia fuerte, se puede obtener un resultado de detección de punto final preciso basándose en la señal con ganancia fuerte. La distorsión de la voz objetivo es muy pequeña en la señal de voz después de una ganancia débil; por lo tanto, se puede obtener una señal de voz objetivo con mayor credibilidad realizando procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final.

Breve descripción de los dibujos

Para una ilustración más clara de las soluciones técnicas de acuerdo con las realizaciones de la presente divulgación o técnicas convencionales, a continuación, se describen brevemente los dibujos que se aplicarán en realizaciones de la presente divulgación. Aparentemente, los dibujos en las siguientes descripciones son solo algunas realizaciones de la presente divulgación, y las personas con experiencia ordinaria en la materia pueden obtener otros dibujos basados en los dibujos proporcionados sin ningún esfuerzo creativo.

La Figura 1 es un diagrama de flujo de un método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una realización de la presente divulgación;

la Figura 2 es un diagrama esquemático de una ganancia diseñada basándose en un ángulo acimutal de una fuente de sonido de acuerdo con una realización de la presente divulgación;

la Figura 3 es un diagrama de bloques estructural de un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una realización de la presente divulgación;

la Figura 4 es un diagrama estructural esquemático de un módulo de procesamiento de ganancia de acuerdo con una realización de dispositivo de la presente divulgación;

la Figura 5 es otro diagrama estructural esquemático de un módulo de procesamiento de ganancia de acuerdo con una realización de dispositivo de la presente divulgación; y

la Figura 6 es otro diagrama de bloques estructural de un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una realización de la presente divulgación.

Descripción detallada

Para permitir que las personas expertas en la materia comprendan mejor las soluciones de las realizaciones de la presente divulgación, las realizaciones de la presente divulgación se describirán adicionalmente en detalle a continuación con referencia a los dibujos y realizaciones adjuntos.

La mejora de voz tiene como objetivo reducir o incluso eliminar el ruido existente en la señal recibida sin dañar la estructura de voz objetivo, mejorando así la inteligibilidad de la voz. Para este fin, las realizaciones de la presente divulgación proporcionan un método y un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos, una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada se determinan basándose en una señal de voz que es recibida por la matriz de micrófonos, el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil se realizan en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil, se realiza una detección de punto final basándose en la señal con ganancia fuerte para obtener un resultado de detección de punto final, y se realiza procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final para obtener una señal de voz objetivo final.

La Figura 1 es un diagrama de flujo de un método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una realización de la presente divulgación. El método incluye las siguientes etapas.

En la etapa 101, se recibe una señal de voz recopilada basándose en la matriz de micrófonos.

En una aplicación específica, se requiere que la señal de voz se procese previamente después de recibirse.

Tomar una señal de voz recibida por una matriz de micrófonos que incluye M micrófonos como ejemplo, preprocesar la señal de voz se refiere principalmente a transformar la señal de voz recibida del dominio del tiempo al dominio de la frecuencia, para obtener una señal de voz en el dominio de frecuenciax(k,l)=[x<1>(k,l),x<2>(k,l)...x<m>(k,l)...x<iw>(k,l)]<T>, dondexm(k,l)representa una señal de voz en el dominio de frecuencia recibida por unmésimomicrófono,krepresenta una frecuencia de la señal eIrepresenta un número de serie de trama de voz.

En la etapa 102, se determinen una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada.

En una realización de la presente divulgación, la señal de voz objetivo preseleccionada puede ser una señal de voz de palabra de comando específica y/o una señal de voz humana objetivo específica, una señal de voz efectiva y similares. No importa cuál sea la señal de voz, la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada pueden determinarse por medio de localización de fuente de sonido. El proceso específico de localización de fuente de sonido es el mismo que en la tecnología convencional, lo que no se repetirá en el presente documento.

Antes de que la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada se determinen por medio de localización de fuente de sonido, el procesamiento de reducción de ruido se puede realizar también en la señal de voz. Específicamente, se pueden adoptar algunos métodos de reducción de ruido en la tecnología convencional, lo que no está limitado en la realización de la presente divulgación.

De forma adicional, al determinar la señal de voz objetivo preseleccionada y su dirección, el procesamiento de formación de haces puede realizarse en la señal de voz para obtener haces en diferentes direcciones; a continuación, se selecciona un haz que satisface una condición preestablecida de los haces en diferentes direcciones, y la señal de voz objetivo y su dirección se determinan de acuerdo con el haz seleccionado.

La formación de haces puede adoptar específicamente una tecnología existente, tal como un algoritmo autoadaptativo basado en la estimación de dirección, un método de formación de haces basado en una estructura de señal y similares, lo que no está limitado en la realización de la presente divulgación.

El proceso de formación de haces fijo por el micrófono se describe como sigue.

Suponiendo que M micrófonos forman N haces fijos, los coeficientes de formación de haces correspondientes a los micrófonos son:

w(k,l)=[ w-i(k,l), W<2>(k,l),..... , WM(k,l)]T,(1)

dondekrepresenta la frecuencia de la señal eIrepresenta el número de serie de trama de voz.

La salida de los haces fijos es:

fix(k,l)=wH(k,l)x(k,l).(2)

Los coeficientes de formación de haces fijos mencionados anteriormente pueden calcularse basándose en el principio de que la señal de dirección deseada no tiene distorsión y la potencia de señal de salida en otras direcciones es suficientemente pequeña.

Cabe señalar que, en aplicaciones prácticas, después de obtener los haces, el filtrado autoadaptativo y el procesamiento de reducción de ruido se pueden realizar en los haces. El filtrado autoadaptativo y el procesamiento de reducción de ruido incluyen procesamiento tal como la de-reverberación multicanal, cancelación generalizada de lóbulos laterales y otros métodos de reducción de ruido existentes, que no se limitan a estos. La siguiente descripción usa la cancelación generalizada de lóbulos laterales como un ejemplo.

La finalidad de la cancelación generalizada de lóbulos laterales es suprimir señales en direcciones no objetivo. El proceso de implementación específico se describe como sigue.

En primer lugar, se obtiene una señal de referencia de ruido:

u(k,l)=B(k,l)<H>x(k,l), (3)

dondeu= [u<i>(k ,l),-U<M -i>(k,l)]<T>es un vector (M-1)*1; yB(k,l) es una matriz de bloqueo (M-1)*M, que puede obtenerse basándose en el principio de suprimir al máximo la señal en una dirección deseada, y se usa para obtener la señal de referencia de ruido con la señal objetivo eliminada.

A continuación, se filtra una señal de ruido de la señal de haz fijo. La señal de ruido en la señal de haz fijo puede obtenerse multiplicando la señal de referencia de ruido por un coeficiente. La señal de haz deseada final puede expresarse como:

Y(k,l) = fix(k,l)-H(k,l)Hu(k,l), (4)

dondeH(k,l)H representa un coeficiente de filtro, que puede obtenerse actualizando mediante un algoritmo de error cuadrático medio (LMS) mínimo lineal normalizado.

Como se ha mencionado antes, en la realización de la presente divulgación, la señal de voz objetivo preseleccionada puede ser una señal de voz de palabra de comando específica y/o una señal de voz humana objetivo específica. En este caso, se puede usar una palabra de comando específica y/o realizar un reconocimiento de huella de voz en cada haz, después de identificar una palabra de comando específica y/o un ser humano objetivo específico, un haz cuyo resultado de reconocimiento satisface una condición preestablecida, por ejemplo, un haz con la puntuación de reconocimiento más alta, se selecciona como la señal de voz objetivo preseleccionada y, por consiguiente, la dirección del haz seleccionado es la dirección de la señal de voz objetivo preseleccionada. En el caso donde la señal de voz objetivo preseleccionada es una señal de voz efectiva, la voz objetivo preseleccionada puede seleccionarse de los haces basándose en un criterio establecido y puede determinarse su dirección. El criterio establecido puede ser uno cualquiera o una combinación de los siguientes: energía máxima y relación señal a ruido más alta.

Cabe señalar que las etapas de des-reverberación multicanal y cancelación generalizada de lóbulos laterales en el filtrado autoadaptativo y el procesamiento de reducción de ruido de la señal de voz mencionada anteriormente pueden realizarse también después de que se determine la dirección de la voz objetivo, si lo permite la precisión de la determinación de ubicación, esto es, el filtrado autoadaptativo y el procesamiento de reducción de ruido se realizan en la señal de voz objetivo preseleccionada, lo que no está limitado en la realización de la presente divulgación.

En la etapa 103, una ganancia direccional fuerte y una ganancia direccional débil se realizan en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil.

El GSC (cancelador de lóbulo lateral generalizado) solo puede suprimir el ruido en algunas de las direcciones no objetivo cuando se suprime el ruido en las direcciones no objetivo, y el ruido puede suprimirse adicionalmente a través del procesamiento de ganancia direccional.

Para este fin, en la realización de la presente divulgación, una señal de voz sometida a un procesamiento de ganancia direccional fuerte (es decir, una señal con ganancia fuerte) y una señal de voz sometida a un procesamiento de ganancia direccional débil (es decir, una señal con ganancia débil) se obtienen mediante procesamiento de ganancia direccional de dos intensidades. La señal con ganancia fuerte después del procesamiento tiene menos señales de ruido residual, pero la señal de voz objetivo tiene una distorsión relativamente grande, mientras que la señal de ganancia débil tiene una propiedad opuesta.

El proceso de procesamiento de ganancia es como se describe a continuación:

1) se establecen un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, y el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil;

2) la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido se determina basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, y la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido se determina basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; 3) se obtienen la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido, respectivamente. Considerando la influencia en la señal de voz objetivo preseleccionada en diferentes situaciones de interferencia, el método incluye además las siguientes etapas entre las etapas 2) y 3 anteriores): ajustar la ganancia direccional fuerte y la ganancia direccional débil para que estén basadas en el ángulo acimutal de la fuente de sonido. Por consiguiente, en la etapa 3), la señal con ganancia fuerte y la señal con ganancia débil necesitan obtenerse de acuerdo con la ganancia direccional fuerte ajustada y la ganancia direccional débil.

La ganancia direccional viene dada por la siguiente fórmula:

(5)

dondeg(6,l)representa una ganancia diseñada basándose en el ángulo acimutal6de la fuente de sonido; como se muestra en la Figura 2,6es el ángulo acimutal de la fuente de sonido, esto es, el ángulo acimutal de la señal de voz objetivo preseleccionada; la región de -T1 a T1 representa la zona de captación, la región de T1 a T2 y la región de -T2 a -T1 representan la zona de transición, y la región donde6es mayor que T2 y menor que -T2 representa una zona de no captación.

Debería observarse que la diferencia entre la ganancia direccional fuerte y la ganancia direccional débil radica en los valores de T1 y T2.

En un caso de ganancia direccional fuerte, el valor de T1 es pequeño (generalmente menor que el ángulo del lóbulo principal del haz objetivo, que puede determinarse de acuerdo con la aplicación real). El valor de T2 es lo más cercano posible a T1, de modo que la zona de transición sea lo más estrecha posible para garantizar que la ganancia de la zona sin captación sea lo más pequeña posible y cercana a cero. Cuando la zona de captación es pequeña y la zona de transición está diseñada para ser estrecha, es fácil causar distorsión de la voz objetivo, pero como la señal con ganancia fuerte obtenida después del procesamiento de ganancia direccional fuerte se usa principalmente para la detección posterior de los puntos de inicio y fin de la voz objetivo, la distorsión no tiene impacto.

En un caso de ganancia direccional débil, el valor de T1 es mayor que en el caso de la ganancia direccional fuerte. Por lo general, el valor de T1 puede ser ligeramente menor o igual que el ángulo del lóbulo principal del haz objetivo (que puede determinarse de acuerdo con la aplicación real), y el valor de T2 puede diseñarse lo más grande posible, para garantizar que el componente de voz objetivo no se suprime excesivamente cuando la estimación de la fuente de sonido es incorrecta.

Adicionalmente, considerando la influencia en la señal de voz objetivo preseleccionada en diferentes situaciones de interferencia, se puede ajustar también la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido. El proceso de ajuste de ganancia se describe como sigue.

Primero, se calcula una relación de energía de suavizadoyde la señal objetivo preseleccionada con respecto a una señal de interferencia, y se determina un coeficiente de ajuste de ganancia basándose en la relación de energía uniforme y, un umbral de relación de alta energía preestablecido y un umbral de relación de baja energía, de modo que diferentes relaciones de energía de suavizado corresponden a diferentes coeficientes de ajuste de ganancia; y después la ganancia direccional fuerte y la ganancia direccional débil se ajustan de acuerdo con el coeficiente de ajuste de ganancia.

La relación de energía de suavizadoypuede calcularse de acuerdo con un método de suavizado convencional, por ejemplo, se puede calcular usando la siguiente fórmula:

y (k, l) = d * y (k, l - l ) p *<ly°h¡etivo( f c , i ) |2>(6)

r H<lYnterferenda(W)l2’ V>'

donde a y@son coeficientes de ponderación,3+p=1, y sus valores pueden determinarse de acuerdo con la aplicación real, tal como 0,9 y 0,1, respectivamente. Y<objetivo>(k,/) representa la señal objetivo preseleccionada, e Y<nterferenáa>(k,/) representa la señal de interferencia.

Cuando la relación de energía uniformeyes mayor que el umbral de relación de alta energía, el coeficiente de ajuste de ganancia se establece en 1; cuando la relación de energía de suavizadoyes menor que el umbral de relación de baja energía, el coeficiente de ajuste de ganancia se establece en K<o>; cuando la relación de energía de suavizadoyes mayor o igual que el umbral de relación de baja energía y menor o igual que el umbral de relación de alta energía, el coeficiente de ajuste de ganancia se establece en K<i>, donde K<i>> K<o>.

Por ejemplo, se proporciona una fórmula específica para ajustar la ganancia direccional fuerte y la ganancia direccional débil como sigue:

íg i( 0 , l ) , y ( k , l ) > Yaito

Gi(k, i) = | Kig i( 0, l ) , Ybajo < Y(k, l ) < Yaito (7)

l k o g i( 0 , l) ,Y (k , l ) < Ybajo

<donde>*1<=>7<w h>T<= ' ¿ = 1<2 corresponden a la ganancia direccional fuerte y a la ganancia direccional débil,>respectivamente.y(k,/)representa la relación de energía uniforme de la señal objetivo preseleccionada en unaIésimatrama con la frecuenciakcon respecto a la señal de interferencia. La señal de interferencia puede ser un haz con la energía más alta entre los otros haces; yya/toyybajorepresentan el umbral de relación de alta energía y el umbral de relación de baja energía respectivamente, y sus valores pueden determinarse basándose en una aplicación real, por ejemplo, 4 y 0,4, respectivamente. Ko es un coeficiente de corrección utilizado principalmente para corregir la ganancia en circunstancias de habla simultánea en un caso de ganancia direccional débil, y tiene por lo general un valor pequeño, por ejemplo, 0,2.

Después de determinar la ganancia direccional fuerte y la ganancia direccional débil, dos señales con ganancias, en concreto, la señal con ganancia fuerte y la señal con ganancia débil se obtienen mediante:

Yi(k,/)=Gi(k,/)Y(k,/)(8)

Y2(k,/)=G2(k,/)Y(k,/)(9)

dondeY(k,/)representa la señal de voz objetivo preseleccionada, Yi(k,I) y Y<2>(k,I) son la señal con ganancia fuerte y la señal con ganancia débil, respectivamente.

En la etapa 104, se realiza una detección de punto final basándose en la señal con ganancia fuerte, para obtener un resultado de detección de punto final.

La detección de punto final es determinar con precisión los puntos de inicio y fin de una voz a partir de un trozo de señal que contiene la voz, determinando de este modo tanto la señal de voz como la señal que no es de voz. La detección eficaz de puntos finales no solo reduce la cantidad de datos recopilados en aplicaciones tales como reconocimiento y procesamiento de voz, sino que elimina también la interferencia de segmentos silenciosos y ruidosos, para obtener señales de voz efectivas. La detección de punto final específica puede usar tecnologías existentes, tal como detección de punto final basada en energía a corto plazo y tasa de cruce por cero promedio a corto plazo, detección de punto final basada en características de cepstrum y detección de punto final basada en entropía.

En la etapa 105, el procesamiento de punto final se realiza en la señal con ganancia débil de acuerdo con el resultado de detección de punto final, para obtener una señal de voz objetivo final.

Esto es, de acuerdo con las posiciones del punto de inicio y el punto final de la voz obtenida en la etapa 105, la señal de voz objetivo final se obtiene a partir de la señal con ganancia débil.

El método para obtener una voz objetivo basándose en una matriz de micrófonos se proporciona en la realización de la presente divulgación. Se recibe una señal de voz recopilada basándose en la matriz de micrófonos, se determina una señal de voz objetivo preseleccionada y una dirección de la misma, el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil se realizan en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil. Como hay menos señal de ruido residual en la señal con ganancia fuerte, se puede obtener un resultado de detección de punto final preciso mediante detección de punto final basándose en la señal con ganancia fuerte; como la distorsión de la voz objetivo es pequeña en la señal con ganancia débil, se puede obtener una señal de voz objetivo con mayor credibilidad realizando procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final.

Por consiguiente, una realización de la presente divulgación proporciona además un medio de almacenamiento legible por ordenador que incluye códigos de programa informático, donde los códigos de programa informático se ejecutan por una unidad informática, de modo que la unidad informática realiza las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con las realizaciones de la presente divulgación.

Un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos incluye un procesador, una memoria y un bus de sistema;

donde el procesador y la memoria están conectados entre sí a través del bus de sistema;

la memoria está configurada para almacenar uno o más programas, donde el uno o más programas incluyen instrucciones, y las instrucciones, cuando son ejecutadas por el procesador, hacen que el procesador realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con las realizaciones de la presente divulgación.

Por consiguiente, una realización de la presente divulgación proporciona además un producto de programa informático, donde el producto de programa informático, cuando se ejecuta en un dispositivo terminal, hace que el dispositivo terminal realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con las realizaciones de la presente divulgación.

Por consiguiente, una realización de la presente divulgación proporciona además un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos. Como se muestra en la Figura 3, que es un diagrama de bloques estructural del dispositivo, el dispositivo incluye: un módulo de recepción de señales 301, un módulo de preselección 302 y un módulo de procesamiento de ganancia 303, un módulo de detección de punto final 304, un módulo de extracción de voz objetivo 305.

El módulo de recepción de señal 301 recibe una señal de voz recopilada basándose en la matriz de micrófonos, y emite la señal de voz al módulo de preselección 302.

El módulo de preselección 302 está configurado para determinar una señal de voz objetivo preseleccionada y una dirección de la misma basándose en la señal de voz.

El módulo de procesamiento de ganancia 303 realiza una ganancia direccional fuerte y una ganancia direccional débil en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil, emite la señal con ganancia fuerte al módulo de detección de punto final 304, y emite la señal con ganancia débil al módulo de extracción de voz objetivo 305.

El módulo de detección de punto final 304 realiza una detección de punto final basándose en la señal con ganancia fuerte, y emite un resultado de detección de punto final al módulo de extracción de voz objetivo 305.

El módulo de extracción de voz objetivo 305 realiza el procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final, para obtener una señal de voz objetivo final.

En aplicaciones prácticas, el módulo de recepción de señal 301 necesita preprocesar también la señal de voz recibida. Preprocesar la señal de voz se refiere principalmente a transformar la señal de voz recibida del dominio del tiempo al dominio de la frecuencia, para obtener una señal de voz en el dominio de la frecuencia.

En una realización de la presente divulgación, el módulo de preselección 302 puede determinar la señal de voz objetivo preseleccionada y su dirección a través de la localización de fuente de sonido.

En otra realización de la presente divulgación, el módulo de preselección 302 puede realizar primero un procesamiento de formación de haces en la señal de voz para obtener haces en diferentes direcciones, a continuación, seleccionar un haz que cumpla una condición preestablecida y determinar la señal de voz objetivo y su dirección basándose en el haz seleccionado. Por consiguiente, en esta realización, el módulo de preselección 302 puede incluir las dos unidades siguientes:

una unidad de formación de haces, configurada para realizar procesamiento de formación de haces en la señal de voz para obtener haces en diferentes direcciones, que pueden implementarse mediante tecnologías existentes, tal como un algoritmo autoadaptativo basado en la estimación de dirección, un método de formación de haces basado en una estructura de señal y similares; y

una unidad de determinación, configurada para seleccionar un haz que cumpla la condición preestablecida de los haces en diferentes direcciones obtenidas por la unidad de formación de haces, y determinar la señal de voz objetivo preseleccionada y su dirección basándose en el haz seleccionado.

Por ejemplo, la señal de voz objetivo preseleccionada puede ser una señal de voz de palabra de comando específica y/o una señal de voz humana objetivo específica. En este caso, la unidad de determinación puede usar una palabra de comando específica y/o realizar un reconocimiento de huella de voz en los haces. Después de identificar una palabra de comando específica y/o un ser humano objetivo específico, un haz cuyo resultado de reconocimiento satisface la condición preestablecida, por ejemplo, un haz con la puntuación de reconocimiento más alta, se selecciona como la señal de voz objetivo preseleccionada y, por consiguiente, la dirección del haz seleccionado es la dirección de la señal de voz objetivo preseleccionada.

Por ejemplo, la señal de voz objetivo preseleccionada es una señal de voz efectiva. En este caso, la unidad de determinación puede seleccionar la voz objetivo preseleccionada de los haces basándose en un criterio establecido y determinar su dirección. El criterio establecido puede ser uno cualquiera o una combinación de los siguientes: energía máxima y relación señal a ruido más alta.

Debería observarse que puede proporcionarse adicionalmente una unidad de reducción de ruido entre la unidad de formación de haces y la unidad de determinación, y está configurada para realizar un filtrado autoadaptativo y un procesamiento de reducción de ruido en los haces obtenidos por la unidad de formación de haces. El filtrado autoadaptativo y el procesamiento de reducción de ruido incluyen uno cualquiera o más de lo siguiente: de reverberación multicanal y cancelación de lóbulo lateral generalizada.

La Figura 4 es un diagrama estructural esquemático de un módulo de procesamiento de ganancia de acuerdo con una realización de dispositivo de la presente divulgación.

El módulo de procesamiento de ganancia incluye:

una unidad de ajuste de ángulo 41, configurada para establecer un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil, y el ángulo de zona de captación de la ganancia direccional fuerte es menor que un ángulo de un lóbulo principal de la señal de voz objetivo preseleccionada;

una unidad de cálculo de ganancia 42, configurada para determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido, y determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido, donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; y

una unidad de generación de señal con ganancia 43, configurada para obtener la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido, respectivamente.

La Figura 5 es otro diagrama estructural esquemático de un módulo de procesamiento de ganancia de acuerdo con una realización de dispositivo de la presente divulgación.

En comparación con la realización mostrada en la Figura 4, en esta realización, el módulo de procesamiento de ganancia incluye, además:

una unidad de ajuste de umbral de relación de energía 51, configurada para establecer un umbral de relación de alta energía y un umbral de relación de baja energía;

una unidad de cálculo de relación de energía 52, configurada para calcular una relación de energía de suavizadoYde la señal objetivo preseleccionada con respecto a una señal de interferencia;

una unidad de determinación de coeficiente de ajuste de ganancia 53, configurada para determinar un coeficiente de ajuste de ganancia basándose en la relación de energía de suavizado y, el umbral de relación de alta energía y el umbral de relación de baja energía; y

una unidad de corrección de ganancia 54, configurada para ajustar la ganancia direccional fuerte y la ganancia direccional débil obtenidas por la unidad de cálculo de ganancia 42 de acuerdo con el coeficiente de ajuste de ganancia.

Por consiguiente, en esta realización, la unidad de generación de señal con ganancia 43 necesita obtener la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil ajustada por la unidad de corrección de ganancia 54.

En aplicaciones prácticas, la unidad de ajuste de ángulo 41 y la unidad de ajuste de umbral de relación de energía 51 descritas anteriormente pueden ser independientes entre sí o estar integradas en una sola pieza, lo que no está limitado en la realización de la presente divulgación.

La Figura 6 es otro diagrama de bloques estructural del dispositivo. En comparación con la realización mostrada en la Figura 3, en esta realización, el dispositivo incluye, además: un módulo de reducción de ruido 306 dispuesto entre el módulo de preselección 302 y el módulo de procesamiento de ganancia 303, y configurado para realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en la señal de voz objetivo preseleccionada determinada por el módulo de preselección 302, tal como la de-reverberación multicanal, cancelación generalizada de lóbulos laterales y otros procesos de reducción de ruido en la tecnología convencional, lo que no está limitado en esta realización de la presente divulgación.

El dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos se proporciona en las realizaciones de la presente divulgación. Se recibe una señal de voz recopilada basándose en la matriz de micrófonos, se determinan una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada, y después el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil se realizan en la señal de voz objetivo preseleccionada, para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil. Dado que queda menos señal de ruido en la señal de voz después de una ganancia fuerte, se puede obtener un resultado de detección de punto final preciso basándose en la señal con ganancia fuerte. La distorsión de la voz objetivo es muy pequeña en la señal de voz después de una ganancia débil; por lo tanto, se puede obtener una señal de voz objetivo con mayor credibilidad realizando procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final.

Las realizaciones en esta memoria descriptiva se describen de manera progresiva, y se puede hacer referencia entre sí de las realizaciones para partes iguales o similares entre las diversas realizaciones. Cada realización se centra en las diferencias de otras realizaciones. Es más, las realizaciones del dispositivo descritas anteriormente son solo esquemáticas, donde las unidades descritas como componentes separados pueden o no estar separados físicamente, y los componentes mostrados como unidades pueden o no ser unidades físicas, esto es, pueden ubicarse en un lugar o distribuirse a través de múltiples elementos de red. Algunos o todos los módulos pueden seleccionarse de acuerdo con las necesidades reales para lograr el objetivo de la solución de esta realización, mientras que la invención está definida únicamente por las reivindicaciones adjuntas. Los expertos en la materia pueden entender e implementar lo anterior sin ningún esfuerzo creativo.

Las realizaciones de la presente divulgación se han descrito en detalle anteriormente, y se usan realizaciones específicas para explicar la presente divulgación. Las descripciones de las realizaciones anteriores solo se usan para ayudar a comprender el método y el dispositivo de la presente divulgación. Los expertos en la materia pueden realizar cambios en la implementación específica. Por lo general, el contenido de esta divulgación no debe interpretarse como una limitación de esta solicitud, mientras que la invención está definida únicamente por las reivindicaciones adjuntas.

Claims

REIVINDICACIONES

1. Un método para obtener una voz objetivo basándose en una matriz de micrófonos, comprendiendo el método:

recibir (101) una señal de voz recopilada basándose en la matriz de micrófonos;

determinar (102) una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada basándose en la señal de voz recibida;

realizar (103) un procesamiento de ganancia direccional fuerte y un procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente una señal de ganancia fuerte y una señal de ganancia débil;

realizar (104) una detección de punto final basándose en la señal con ganancia fuerte, para obtener un resultado de detección de punto final, en donde la detección de punto final determina los puntos de inicio y final de una voz en la señal con ganancia fuerte; y

realizar (105) procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final, para obtener una señal de voz objetivo final,

en donde realizar el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente la señal con ganancia fuerte y la señal con ganancia débil comprende:

establecer un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, en donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, y el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil;

determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido, y determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido, en donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; y

2. El método de acuerdo con la reivindicación 1, en donde determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada comprende:

3. El método de acuerdo con la reivindicación 1, en donde determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada comprende:

realizar el procesamiento de formación de haces en la señal de voz, para obtener haces en diferentes direcciones; seleccionar, de los haces en diferentes direcciones, un haz que satisface una condición preestablecida, y determinar la señal de voz objetivo y la dirección de la señal de voz objetivo basándose en el haz seleccionado.

4. El método de acuerdo con la reivindicación 1, en donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que un ángulo de un lóbulo principal de la señal de voz objetivo preseleccionada.

5. El método de acuerdo con la reivindicación 1, en donde realizar el procesamiento de ganancia direccional fuerte y el procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente la señal de ganancia fuerte y la señal de ganancia débil comprende adicionalmente:

6. El método de acuerdo con la reivindicación 5, en donde determinar el coeficiente de ajuste de ganancia basándose en la relación de energía de suavizadoy,el umbral de relación de alta energía preestablecido y el umbral de relación de baja energía comprende:

establecer el coeficiente de ajuste de ganancia para que sea K<q>en caso de que la relación de energía de suavizadoYsea menor que el umbral de relación de baja energía; y

establecer el coeficiente de ajuste de ganancia para que sea Ki en caso de que la relación de energía de suavizadoYsea mayor o igual que el umbral de relación de baja energía y menor o igual que el umbral de relación de alta energía, en donde K<1>> Ko.

7. El método de acuerdo con la reivindicación 3, que comprende, además:

8. Un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos, comprendiendo el dispositivo: un módulo de recepción de señales (301), un módulo de preselección (302), un módulo de procesamiento de ganancia (303), un módulo de detección de punto final (304) y un módulo de extracción de voz objetivo (305), en donde:

el módulo de recepción de señales (301) está configurado para recibir una señal de voz recopilada basándose en la matriz de micrófonos, y emitir la señal de voz al módulo de preselección (302);

el módulo de preselección (302) está configurado para determinar una señal de voz objetivo preseleccionada y una dirección de la señal de voz objetivo preseleccionada basándose en la señal de voz recibida;

el módulo de procesamiento de ganancia (303) está configurado para realizar un procesamiento de ganancia direccional fuerte y un procesamiento de ganancia direccional débil en la señal de voz objetivo preseleccionada para obtener respectivamente una señal con ganancia fuerte y una señal con ganancia débil, emitir la señal con ganancia fuerte al módulo de detección de punto final (304), y emitir la señal con ganancia débil al módulo de extracción de voz objetivo (305);

el módulo de detección de punto final (304) está configurado para realizar una detección de punto final basándose en la señal con ganancia fuerte, y emitir un resultado de detección de punto final al módulo de extracción de voz objetivo (305), en donde la detección de punto final determina los puntos de inicio y final de una voz en la señal con ganancia fuerte; y

el módulo de extracción de voz objetivo (305) está configurado para realizar procesamiento de punto final en la señal con ganancia débil de acuerdo con el resultado de detección de punto final, para obtener una señal de voz objetivo final,

en donde el módulo de procesamiento de ganancia (303) comprende:

una unidad de ajuste de ángulo (41), configurada para establecer un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional fuerte, y un ángulo de zona de captación y un ángulo de zona de transición de una ganancia direccional débil, en donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que el ángulo de zona de captación de la ganancia direccional débil, y el ángulo de zona de transición de la ganancia direccional fuerte es menor que el ángulo de zona de transición de la ganancia direccional débil;

una unidad de cálculo de ganancia (42), configurada para determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional fuerte, la ganancia direccional fuerte que se basa en un ángulo acimutal de una fuente de sonido, y determinar, basándose en el ángulo de zona de captación y el ángulo de zona de transición de la ganancia direccional débil, la ganancia direccional débil que se basa en el ángulo acimutal de la fuente de sonido, en donde el ángulo acimutal de la fuente de sonido se refiere a un ángulo acimutal de la señal de voz objetivo preseleccionada; y

una unidad de generación de señal con ganancia (43) configurada para obtener la señal con ganancia fuerte y la señal con ganancia débil de acuerdo con la ganancia direccional fuerte y la ganancia direccional débil que se basan en el ángulo acimutal de la fuente de sonido, respectivamente.

9. El dispositivo de acuerdo con la reivindicación 8, en donde el módulo de preselección (302) está configurado para determinar la señal de voz objetivo preseleccionada y la dirección de la señal de voz objetivo preseleccionada a través de localización de fuente de sonido.

10. El dispositivo de acuerdo con la reivindicación 8, en donde el módulo de preselección (302) incluye:

11. El dispositivo de acuerdo con la reivindicación 8, en donde el ángulo de zona de captación de la ganancia direccional fuerte es menor que un ángulo de un lóbulo principal de la señal de voz objetivo preseleccionada.

12. El dispositivo de acuerdo con la reivindicación 11, en donde el módulo de procesamiento de ganancia (303) comprende, además:

una unidad de ajuste de umbral de relación de energía (51), configurada para establecer un umbral de relación de alta energía y un umbral de relación de baja energía;

una unidad de cálculo de relación de energía (52), configurada para calcular una relación de energía de suavizadoYde la señal objetivo preseleccionada con respecto a una señal de interferencia;

una unidad de determinación de coeficiente de ajuste de ganancia (53), configurada para determinar un coeficiente de ajuste de ganancia basándose en la relación de energía de suavizado y, el umbral de relación de alta energía y el umbral de relación de baja energía; y

una unidad de corrección de ganancia (54), configurada para ajustar la ganancia direccional fuerte y la ganancia direccional débil obtenidas por la unidad de cálculo de ganancia de acuerdo con el coeficiente de ajuste de ganancia.

13. El dispositivo de acuerdo con la reivindicación 8, en donde el módulo de preselección (302) comprende, además:

o; el dispositivo comprende, además:

un módulo de reducción de ruido (306) dispuesto entre el módulo de preselección (302) y el módulo de procesamiento de ganancia (303), y configurado para realizar el filtrado autoadaptativo y el procesamiento de reducción de ruido en la señal de voz objetivo preseleccionada determinada por el módulo de preselección (302).

14. Un medio de almacenamiento legible por ordenador, que comprende códigos de programa informático, en donde los códigos de programa informático, cuando se ejecutan por un dispositivo informático, hacen que la unidad informática realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una cualquiera de las reivindicaciones 1 a 7.

15. Un dispositivo para obtener una voz objetivo basándose en una matriz de micrófonos, comprendiendo el dispositivo un procesador, una memoria y un bus de sistema, en donde:

el procesador y la memoria están conectados entre sí a través del bus de sistema; y

la memoria está configurada para almacenar uno o más programas, y el uno o más programas comprenden instrucciones que, cuando son ejecutadas por el procesador, hacen que el procesador realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una cualquiera de las reivindicaciones 1 a 7.

16. Un producto de programa informático que, cuando se ejecuta en un dispositivo terminal, hace que el dispositivo terminal realice las etapas en el método para obtener una voz objetivo basándose en una matriz de micrófonos de acuerdo con una cualquiera de las reivindicaciones 1 a 7.