ES2953525T3 - Método y dispositivo de reconocimiento de voz, medio de almacenamiento y acondicionador de aire - Google Patents

Método y dispositivo de reconocimiento de voz, medio de almacenamiento y acondicionador de aire Download PDF

Info

Publication number
ES2953525T3
ES2953525T3 ES19915991T ES19915991T ES2953525T3 ES 2953525 T3 ES2953525 T3 ES 2953525T3 ES 19915991 T ES19915991 T ES 19915991T ES 19915991 T ES19915991 T ES 19915991T ES 2953525 T3 ES2953525 T3 ES 2953525T3
Authority
ES
Spain
Prior art keywords
voice
voice data
data
far
speech recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES19915991T
Other languages
English (en)
Inventor
Mingjie Li
Dechao Song
Jutao Jia
Wei Wu
Junjie Xie
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Gree Electric Appliances Inc of Zhuhai
Original Assignee
Gree Electric Appliances Inc of Zhuhai
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Gree Electric Appliances Inc of Zhuhai filed Critical Gree Electric Appliances Inc of Zhuhai
Application granted granted Critical
Publication of ES2953525T3 publication Critical patent/ES2953525T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/88Radar or analogous systems specially adapted for specific applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • FMECHANICAL ENGINEERING; LIGHTING; HEATING; WEAPONS; BLASTING
    • F24HEATING; RANGES; VENTILATING
    • F24FAIR-CONDITIONING; AIR-HUMIDIFICATION; VENTILATION; USE OF AIR CURRENTS FOR SCREENING
    • F24F11/00Control or safety arrangements
    • F24F11/50Control or safety arrangements characterised by user interfaces or communication
    • F24F11/56Remote control
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S13/00Systems using the reflection or reradiation of radio waves, e.g. radar systems; Analogous systems using reflection or reradiation of waves whose nature or wavelength is irrelevant or unspecified
    • G01S13/86Combinations of radar systems with non-radar systems, e.g. sonar, direction finder
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Abstract

Un método y dispositivo de reconocimiento de voz, un medio de almacenamiento y un aire acondicionado. El método comprende: adquirir primeros datos de voz (S110); ajustar, según los primeros datos de voz, una configuración de adquisición para segundos datos de voz, y adquirir segundos datos de voz sobre la base de la configuración de adquisición ajustada (S120); y usar un modelo de reconocimiento de voz de campo lejano preestablecido para realizar reconocimiento de voz de campo lejano en los segundos datos de voz adquiridos para obtener información semántica correspondiente a los segundos datos de voz adquiridos (S130). La invención puede resolver el problema en el que el rendimiento del reconocimiento de voz de campo lejano es deficiente cuando se utiliza un método de aprendizaje profundo o un método de matriz de micrófonos para eliminar la reverberación y el ruido de los datos de voz de campo lejano, mejorando así el rendimiento del reconocimiento de voz de campo lejano. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Método y dispositivo de reconocimiento de voz, medio de almacenamiento y acondicionador de aire
Campo Técnico
La descripción se refiere al campo de la tecnología de control de voz, en particular a un método y aparato de reconocimiento de voz, un medio de almacenamiento y un acondicionador de aire.
Antecedentes
Actualmente, la tecnología de reconocimiento de voz es un método de interacción humano-ordenador relativamente maduro. Se ha desarrollado a partir la tecnología inicial de reconocimiento de campo cercano, tal como los dispositivos portátiles, por ejemplo, Siri y varios asistentes de voz, hasta la tecnología de reconocimiento, tal como el hardware inteligente, los electrodomésticos y los robots. Sin embargo, los nuevos métodos de interacción humano-ordenador tienen requisitos más estrictos para el hardware, el software y los algoritmos y, en particular, la tecnología de reconocimiento de voz de campo lejano se enfrenta a un gran desafío.
Con el rápido desarrollo del sistema hogar inteligente (Smart Home), los hogares inteligentes, tales como los aires acondicionados por voz, pertenecen a la tecnología de reconocimiento de voz de campo lejano. En primer lugar, la interacción de voz entre humanos y máquinas (aquí se refiere principalmente a hardware inteligente, robots, etc.) es diferente de un dispositivo portátil tradicional con pantalla. En la interacción por voz tradicional, debido al campo cercano, la calidad de la señal de voz es relativamente alta y el enlace de interacción puede ser relativamente simple con una ayuda de una pantalla táctil. Haciendo clic en la pantalla para activar, y luego haciendo clic en la pantalla o detección VAD (detección de actividad de voz) de energía para finalizar la recogida de señales de voz, es decir, se puede completar una interacción y todo el proceso se puede completar a través del reconocimiento de voz, comprensión semántica y síntesis de voz.
En cuanto a la interacción entre humanos y máquinas, el entorno es más complicado ya que está involucrado el campo lejano. Y dado que no hay interacción con la pantalla, es necesario resolver más problemas en todo el proceso de interacción para que sea tan natural, continuo, bidireccional e interrumpible como la comunicación entre personas. Es un proceso que requiere la integración de software y hardware, y la cooperación entre la nube y un terminal.
El documento WO2018022222A1 describe que un aparato incluye múltiples micrófonos para generar señales de audio basándose en el sonido de un entorno acústico de campo lejano. El aparato también incluye un sistema de procesamiento de señales para procesar las señales de audio para generar al menos una señal de audio procesada. El sistema de procesamiento de señales está configurado para actualizar uno o más parámetros de procesamiento mientras funciona en un primer modo de funcionamiento y está configurado para usar una versión estática de uno o más parámetros de procesamiento mientras funciona en el segundo modo de funcionamiento. El aparato incluye además un sistema de detección de palabras clave para realizar la detección de palabras clave basándose en la al menos una señal de audio procesada para determinar si el sonido incluye una expresión correspondiente a una palabra clave y, basándose en el resultado de la detección de palabras clave, enviar una señal de control al sistema de procesamiento de señales para cambiar un modo de funcionamiento del sistema de procesamiento de señales.
El documento CN109119071A describe un método y un dispositivo de entrenamiento para un modelo de reconocimiento de voz. El método incluye las siguientes etapas: se recogen las señales de voz del usuario; se adopta un modelo de reconocimiento de voz del usuario para realizar el reconocimiento de voz en las señales de voz del usuario, la salida de texto de voz se obtiene cuando el reconocimiento de voz es exitoso y las señales de voz del usuario se cargan en un servidor cuando falla el reconocimiento de voz; y las señales de voz del usuario y un texto de voz correspondiente emitido por el servidor se adoptan para entrenar el modelo de reconocimiento de voz del usuario correspondiente. Con el método y dispositivo de entrenamiento para el modelo de reconocimiento de voz de la invención adoptado, se resuelve el problema de la baja precisión del reconocimiento de voz de personas con acentos y dialectos locales durante el reconocimiento de voz.
El documento US 20140372129A1 describe que se proporcionan métodos y sistemas para recibir los sonidos deseados. El sistema incluye un sensor de posición configurado para determinar la posición de un ocupante hablando dentro de un espacio definido y transmitir la posición del ocupante que habla. Una pluralidad de micrófonos está configurada para recibir sonido desde dentro del espacio definido y transmitir señales de audio correspondientes al sonido recibido. Un procesador, en comunicación con el sensor de posición y los micrófonos, está configurado para recibir la posición del ocupante que habla y las señales de audio, aplicar un formador de haces a las señales de audio para dirigir un haz de micrófonos hacia la posición del ocupante y generar una señal de salida del formador de haces.
Los datos de entrenamiento del algoritmo de reconocimiento de voz actual usan principalmente la voz recogida en un teléfono móvil para el entrenamiento, que solo es adecuado para el reconocimiento de campo cercano. Para datos de voz de campo lejano complejos, hay mucha reverberación y ruido. Las tecnologías relacionadas usan principalmente métodos de aprendizaje profundo o métodos de matriz de micrófonos para eliminar la reverberación y el ruido. En aplicaciones reales, los datos de ubicación y dirección de la fuente de sonido no se pueden detectar al mismo tiempo. Por lo tanto, solo se usan métodos generales (tales como un método de matriz de micrófonos frontal (de front-end) y un algoritmo de red neurona! de servidor (de back-end)) para procesar datos de voz, y existen problemas como baja tasa de reconocimiento de voz de campo lejano, tiempo de respuesta largo y pobre efecto de reducción de ruido. El uso de métodos de aprendizaje profundo o métodos de matriz de micrófonos para eliminar la reverberación y el ruido puede incluir:
(1) El método de matriz de micrófonos se usa principalmente para mejorar la solidez de la estimación de la dirección de las ondas sonoras en una escena reverberante. Después de detectar una dirección de un haz mediante la integración de múltiples micrófonos, se usa una tecnología de formación de haces para suprimir el ruido no estacionario circundante. Sin embargo, debido a las limitaciones de precio y tamaño de un producto, el número de micrófonos y la distancia entre cada dos micrófonos están limitados, para que un intervalo de direcciones que se pueda distinguir sea relativamente pequeño.
(2) El método de aprendizaje profundo: la mejora de la voz se logra filtrando y singularizando los datos de voz de ruido y reverberación a través del procesamiento de señales y reemplazando una tecnología de formación de haces con un algoritmo tal como DNN o RNN. Pero el procesamiento tiene un efecto pobre, especialmente cuando se reconoce la voz de campo lejano en un entorno ruidoso.
El contenido anterior solo se usa para ayudar a comprender el esquema técnico de la presente solicitud y no significa que el contenido anterior se reconozca como tecnología relacionada.
Compendio
Es un objeto de la invención superar las deficiencias de la técnica anterior. Este objeto de la invención se soluciona mediante las reivindicaciones independientes. Las realizaciones específicas se definen en las reivindicaciones dependientes.
Breve descripción de los dibujos
La FIG. 1 es un diagrama de flujo esquemático de un método de reconocimiento de voz según una realización de la presente solicitud.
La FIG. 2 es un diagrama de flujo esquemático de un método para ajustar un estado de recogida de segundos datos de voz según los primeros datos de voz según una realización de la presente solicitud.
La FIG. 3 es un diagrama de flujo esquemático de un método para determinar la información de ubicación de una fuente de sonido que envía los primeros datos de voz según los primeros datos de voz según una realización de la presente solicitud.
La FIG. 4 es un diagrama de flujo esquemático de un método para realizar el reconocimiento de voz de campo lejano en los segundos datos de voz usando un modelo de reconocimiento de voz de campo lejano preestablecido según una realización de la presente solicitud.
La FIG. 5 es un diagrama de flujo esquemático de un método para obtener un modelo de reconocimiento de voz de campo lejano mediante entrenamiento según una realización de la presente solicitud.
La FIG. 6 es un diagrama estructural esquemático de un aparato de reconocimiento de voz según una realización de la presente solicitud.
La FIG. 7 es un diagrama estructural esquemático de un sistema de reconocimiento de voz de campo lejano basándose en un radar de microondas según una realización de un acondicionador de aire de la presente solicitud.
La FIG. 8 es un diagrama de flujo esquemático de un algoritmo de reconocimiento de voz de campo lejano basándose en un radar de microondas según una realización de un acondicionador de aire de la presente solicitud.
Con referencia a los dibujos adjuntos, los números de referencia en las realizaciones de esta solicitud son los siguientes:
102 - unidad de adquisición; 104 - unidad de identificación.
Descripción detallada de la realizaciones
A continuación se dará una descripción clara y completa de las soluciones técnicas de las realizaciones del modelo de utilidad, en combinación con los dibujos adjuntos en las realizaciones del modelo de utilidad. Aparentemente, las realizaciones que se describen a continuación son una parte, pero no la totalidad, de las realizaciones del modelo de utilidad. Todas las demás realizaciones, obtenidas por los expertos en la técnica basándose en las realizaciones del modelo de utilidad sin ningún esfuerzo inventivo, caen dentro del alcance de protección de la presente invención.
Según una realización de la presente solicitud, se proporciona un método de reconocimiento de voz. La FIG. 1 es un diagrama de flujo esquemático de un método de reconocimiento de voz según una realización de la presente solicitud. El método de reconocimiento de voz puede incluir: de la Etapa S110 a la Etapa S130.
Etapa S110: adquirir los primeros datos de voz.
Los primeros datos de voz pueden incluir una palabra de activación por voz, y los primeros datos de voz pueden incluir además un comando de voz. La palabra de activación por voz son datos de voz para activar un dispositivo de voz.
Por lo tanto, mediante la adquisición de múltiples formas de primeros datos de voz, es conveniente ajustar un estado de recogida de segundos datos de voz basándose en los datos de primera voz en diferentes situaciones, mejorando así la conveniencia y versatilidad del uso del usuario.
Opcionalmente, la adquisición de los primeros datos de voz en la etapa S110 puede incluir: adquirir los primeros datos de voz recogidos por un dispositivo de recogida de voz.
Por lo tanto, los primeros datos de voz pueden adquirirse mediante el método de adquisición de los primeros datos de voz por el dispositivo de recogida de voz, para que la adquisición de los primeros datos de voz sea más conveniente y precisa.
Etapa S120: ajustar, según los primeros datos de voz, un estado de recogida de segundos datos de voz para obtener un estado de recogida ajustado, y adquirir los segundos datos de voz basándose en el estado de recogida ajustado.
Por ejemplo, en una plataforma de procesamiento del lado del dispositivo, en primer lugar, una fuente de sonido de la palabra de activación se ubica aproximadamente usando una matriz de micrófonos (por ejemplo, la ubicación de la fuente de sonido de la palabra de activación se determina según la dirección de las ondas sonoras a través de la matriz de micrófonos); luego, el módulo de radar de microondas se usa para ubicar con precisión la fuente de sonido y recoger los datos de distancia y dirección (es decir, la distancia y dirección de la fuente de sonido); a continuación, el(los) micrófono(s) en la posición correspondiente en el módulo de matriz de micrófonos se encienden y apagan según los datos; finalmente, se recogen datos de audio de campo lejano.
Los segundos datos de voz incluyen un comando de voz, y los segundos datos de voz también pueden incluir la siguiente palabra de activación por voz. El comando de voz son datos de voz para controlar el dispositivo de voz.
Por lo tanto, mediante la adquisición de múltiples formas de segundos datos de voz, los varios requisitos de control de voz del usuario pueden cumplirse de manera flexible y conveniente.
Específicamente, la operación de adquisición de primeros datos de voz en la etapa S110, la operación de ajuste, según los primeros datos de voz, de un estado de recogida de segundos datos de voz en la etapa S120, y la operación de adquisición de segundos datos de función del estado de recogida ajustado se ejecutan en un lado local de un dispositivo de voz.
Por lo tanto, al realizar las operaciones de adquisición de los primeros datos de voz y los segundos datos de voz y de ajuste del estado de recogida de los segundos datos de voz basándose en los primeros datos de voz en el lado local del dispositivo de voz, se pueden mejorar la precisión y fiabilidad de la adquisición, y se puede mejorar la eficiencia del procesamiento.
Opcionalmente, con referencia a la FIG. 2 que es un diagrama de flujo esquemático de un método para ajustar un estado de recogida de segundos datos de voz según los primeros datos de voz según una realización de la presente solicitud, el proceso específico de ajuste de un estado de recogida de datos de segunda voz según los primeros datos de voz los datos en la etapa S120 pueden incluir: la etapa S210 y la etapa S220.
Etapa S210: determinar la información de ubicación de una fuente de sonido que envía los primeros datos de voz.
Además, opcionalmente, con referencia a la FIG. 3 que es un diagrama de flujo esquemático de un método para determinar la información de ubicación de una fuente de sonido que envía los primeros datos de voz según una realización de la presente solicitud, el proceso específico para determinar la información de ubicación de una fuente de sonido que envía los primeros datos de voz en la etapa S210, puede incluir: la etapa S310 y la etapa S320.
Etapa S310: determinar una dirección de la fuente de sonido que envía los primeros datos de voz usando el dispositivo de recogida de voz.
Por ejemplo: la identificación aproximada de una dirección de una fuente de sonido para una palabra de activación por voz usando una matriz de micrófonos puede incluir: el sistema de reconocimiento de voz necesita activar un dispositivo a través de la palabra de activación por voz (tal como: un determinado acondicionador de aire). En la solución de la presente solicitud, se puede obtener de antemano una dirección aproximada de la fuente de voz para la palabra de activación a través de la tecnología de matriz de micrófonos.
Etapa S320: ubicar la fuente de sonido basándose en la dirección usando un dispositivo de ubicación para obtener la información de ubicación de la fuente de sonido.
El dispositivo de ubicación puede incluir: un módulo de radar de microondas, el dispositivo de ubicación puede incluir además otros módulos de ubicación, resolviendo así el problema del reconocimiento de voz de campo lejano en situaciones complejas basándose en la tecnología de ubicación por radar de microondas. La información de ubicación puede incluir: una distancia y una dirección.
Por ejemplo: la distancia y la dirección de la fuente de sonido se calculan con precisión en tiempo real usando la tecnología de radar de microondas, lo que puede incluir: el radar de microondas envía una señal de microondas a través de un dispositivo emisor y la señal de microondas se reflejará cuando encuentre un objeto. Al recibir la señal de microondas reflejada por un dispositivo receptor, se pueden obtener datos tales como la posición, el tamaño y la forma del objeto en un entorno. En la solución de la presente solicitud, esta tecnología se puede usar para obtener datos de ubicación de la fuente de sonido (la persona que emite un sonido).
Por lo tanto, al determinar la dirección de la fuente de sonido de los primeros datos de voz mediante el dispositivo de recogida de voz y ubicar la fuente de sonido basándose en la dirección usando un dispositivo de ubicación para ubicar la información de ubicación de la fuente de sonido, la información de ubicación de la fuente de sonido de los primeros datos de voz puede determinarse con precisión y fiabilidad.
Etapa S220: basándose en la información de ubicación, mejorar una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en la información de ubicación basándose en la información de ubicación, y/o suprimir una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en ubicaciones distintas de la información de ubicación para ajustar el estado de recogida del dispositivo de recogida de voz para los segundos datos de voz. El estado de recogida del dispositivo de recogida de voz puede incluir: la intensidad de recogida del dispositivo de recogida de voz.
Por ejemplo, en un entorno de campo lejano, se usa una combinación en la nube (tal como una plataforma de procesamiento en la nube) y un terminal (tal como un lado de procesamiento del dispositivo o una plataforma de procesamiento en el lado del dispositivo). En el lado del procesamiento del dispositivo, en primer lugar, la dirección de la fuente de sonido de la palabra de activación se identifica aproximadamente usando la matriz de micrófonos, luego, la distancia y la dirección de la fuente de sonido se calculan con precisión en tiempo real usando una tecnología de radar de microondas y luego el estado de la matriz de micrófonos se controla en tiempo real usando una tecnología informática de borde.
Por tanto, la intensidad del dispositivo de recogida de voz para recoger los segundos datos de voz se ajusta basándose en la información de ubicación de la fuente de sonido de los primeros datos de voz, mejorando así la conveniencia y fiabilidad de la recogida de los segundos datos de voz.
Además, opcionalmente, en la etapa S220, la operación de mejora de una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en la información de ubicación, y/o suprimir una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en ubicaciones distintas de la información de ubicación puede incluir al menos una de las siguientes situaciones de ajuste.
La primera situación de ajuste: la mejora de una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en la información de ubicación, puede incluir: en el caso de que el dispositivo de recogida de voz pueda incluir una matriz de micrófonos, encender un micrófono, en la información de ubicación, en la matriz de micrófonos, y/o aumentar el número de micrófonos encendidos, en la información de ubicación, en la matriz de micrófonos.
La segunda situación de ajuste: la supresión de una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en ubicaciones distintas de la información de ubicación, puede incluir: apagar los micrófonos en las ubicaciones distintas de la información de ubicación, en la matriz de micrófonos, y/o reducir el número de micrófonos encendidos, en ubicaciones distintas de la información de ubicación, en la matriz de micrófonos.
Por ejemplo: el estado de la matriz de micrófonos se controla en tiempo real usando la tecnología informática de borde, que incluye: hay varios dispositivos de micrófono en la matriz de micrófonos de la presente solicitud, y el estado del micrófono se ajusta mediante un dispositivo de front-end basándose en la adquisición de la ubicación y dirección aproximadas de la fuente de sonido a través de la palabra de activación. Por ejemplo: la matriz de micrófonos tiene un efecto de 4 micrófonos en diferentes direcciones, y se obtiene que la fuente de sonido está en una posición de frente. En este momento, se puede mejorar un efecto de recepción (la capacidad de recibir señales de voz) del micrófono en la dirección y puede suprimirse un efecto de recepción del micrófono en otras direcciones, eliminando así el ruido en otras direcciones.
Por lo tanto, al mejorar o reducir la intensidad de recogida del dispositivo de recogida de voz en diferentes ubicaciones basándose en la información de ubicación de los primeros datos de voz, se pueden mejorar la precisión y fiabilidad de la recogida de segundos datos de voz por el dispositivo de recogida de voz, mejorando así la precisión y fiabilidad del reconocimiento de voz y control de voz.
Opcionalmente, la adquisición de los segundos datos de voz en la etapa S120 puede incluir: adquirir los segundos datos de voz recogidos por el dispositivo de recogida de voz después de ajustar el estado de recogida.
Por lo tanto, es más conveniente y preciso adquirir los segundos datos de voz recogiéndolos a través del dispositivo de recogida de voz.
El dispositivo de recogida de voz puede incluir: una matriz de micrófonos. La matriz de micrófonos se proporciona con más de un micrófono que se puede usar para recoger datos de voz en más de una dirección.
Por lo tanto, el método de adquisición de datos de voz usando la matriz de micrófonos es flexible y el resultado obtenido es fiable.
En la etapa S130, realizar el reconocimiento de voz de campo lejano en los segundos datos de voz usando un modelo de reconocimiento de voz de campo lejano preestablecido para obtener información semántica correspondiente a los segundos datos de voz, a fin de controlar el dispositivo de voz para ejecutar los segundos datos de voz según la información semántica. La información semántica puede incluir: datos de texto semántico. Por ejemplo, los datos de texto pueden obtenerse convirtiendo datos de voz en datos de texto a través de un modelo acústico entrenado.
Por ejemplo, en una plataforma de procesamiento en la nube, en primer lugar, el modelo acústico LSTM se entrena usando fuentes de sonido y bases de datos de audio recogidas y etiquetadas manualmente para obtener un modelo de reconocimiento de voz de campo lejano; luego, a través de la recogida en tiempo real de datos de voz, se realiza el reconocimiento de voz de campo lejano en tiempo real en el modelo anterior; finalmente, se obtienen datos de voz y texto de alta precisión en un entorno complejo. En escenarios complejos, el reconocimiento de voz de campo lejano se puede realizar de manera precisa y eficiente basándose en la tecnología de radar de microondas.
Por lo tanto, adquiriendo los segundos datos de voz después de ajustar el estado de recogida de los segundos datos de voz basándose en los primeros datos de voz, se puede garantizar la precisión y fiabilidad de la adquisición de los segundos datos de voz; y al realizar el reconocimiento de voz de campo lejano en los segundos datos de voz usando el modelo de reconocimiento de voz de campo lejano preestablecido, se pueden mejorar la eficiencia y el efecto del reconocimiento de voz de campo lejano en los segundos datos de voz.
Específicamente, para la operación de realización del reconocimiento de voz de campo lejano en los segundos datos de voz usando un modelo de reconocimiento de voz de campo lejano preestablecido en la etapa S130, la información de retroalimentación obtenida por la operación de la nube es recibida en el lado local por el dispositivo de voz.
Por lo tanto, la operación de realización del reconocimiento de voz de campo lejano en los segundos datos de voz usando el modelo de reconocimiento de voz de campo lejano preestablecido es ejecutado por la nube, y luego el resultado de la operación se retroalimenta al lado local del dispositivo de voz. Por un lado, se pueden mejorar la eficiencia del procesamiento de datos y la fiabilidad del almacenamiento; por otro lado, puede reducirse la presión del procesamiento y almacenamiento de datos en el lado local del dispositivo de voz, mejorando así la conveniencia y fiabilidad del control de voz por el dispositivo de voz.
Opcionalmente, con referencia a la FIG. 4 que es un diagrama de flujo esquemático de un método para realizar el reconocimiento de voz de campo lejano en los segundos datos de voz usando un modelo de reconocimiento de voz de campo lejano preestablecido según una realización de la presente solicitud, el proceso específico de realizar el reconocimiento de voz de campo lejano en los segundos datos de voz usando el modelo de reconocimiento de voz de campo lejano establecido puede incluir: la etapa S410 y la etapa S420.
Etapa S410: procesamiento previo de los segundos datos de voz para obtener información de voz.
Etapa S420: realizar, usando el modelo de reconocimiento de voz de campo lejano preestablecido, reconocimiento de voz de campo lejano en la información de voz obtenida mediante preprocesamiento. El preprocesamiento puede incluir: preprocesamiento tal como valores perdidos, estandarización y reducción de ruido.
El modelo de reconocimiento de voz de campo lejano puede incluir: un modelo acústico de campo lejano obtenido mediante entrenamiento de aprendizaje profundo basándose en un algoritmo LSTM.
Por ejemplo, en un sistema que se muestra en la FIG. 7, la matriz de micrófonos recibe datos de voz y determina una ubicación aproximada de la fuente de sonido de la palabra de activación. El radar de microondas adquiere un parámetro de ubicación (datos de dirección y distancia) de la fuente de sonido, es decir, adquiere los datos de la fuente de sonido. Ajustar un estado de la matriz de micrófonos se refiere a mejorar o suprimir un micrófono en una dirección correspondiente según la ubicación de la fuente de sonido. El modelo acústico de campo lejano basándose en LSTM convierte los datos de voz en datos de texto correspondientes a través del modelo acústico entrenado por datos de la fuente de sonido y datos de voz.
Por ejemplo, con referencia al ejemplo que se muestra en la FIG. 8, después de entrenar el modelo acústico LSTM, recoger voz en tiempo real, es decir, monitorizar la voz del acondicionador de aire en tiempo real y recoger datos de voz y datos de la fuente de sonido. El preprocesamiento de datos puede ser el mismo que el método de preprocesamiento de datos para entrenar el modelo acústico LSTM en la etapa 1. El modelo acústico de campo lejano basándose en LSTM reconoce la voz usando el modelo acústico LSTM de campo lejano entrenado por el método de entrenamiento del modelo acústico LSTM. Los datos de texto de voz son datos de texto correspondientes adquiridos según un resultado de reconocimiento de voz del modelo. Los datos de voz se convierten en datos de texto de manera precisa y eficiente usando el modelo de reconocimiento de voz de campo lejano entrenado por la fuente de sonido y los datos de voz basándose en la tecnología de radar de microondas y combinados con el modelo de algoritmo de aprendizaje profundo LSTM para proporcionar un sistema de voz de campo lejano con una alta tasa de reconocimiento que satisface las necesidades de los usuarios.
Por lo tanto, mediante preprocesamiento de los segundos datos de voz recogidos, se puede mejorar la precisión y fiabilidad de los propios datos de la segunda voz; y luego, mediante el reconocimiento de campo lejano de la información de voz preprocesada por el modelo de reconocimiento de campo lejano preestablecido, se puede garantizar la precisión y fiabilidad del reconocimiento de los segundos datos de voz.
En una realización alternativa, el método puede incluir además un proceso de entrenamiento para obtener el modelo de reconocimiento de voz de campo lejano preestablecido.
Con referencia a la FIG. 5, que es un diagrama de flujo esquemático de un método de entrenamiento para obtener un modelo de reconocimiento de voz de campo lejano preestablecido según una realización de la presente solicitud, el proceso específico de entrenamiento para obtener un modelo preestablecido de reconocimiento de voz de campo lejano puede incluir: la etapa S510 y la etapa S520.
Etapa S510: recoger datos de voz y sus datos de la fuente de sonido. Los datos de voz pueden incluir una palabra de activación y/o un comando de voz. Por ejemplo, los datos de la fuente de sonido pueden incluir un parámetro de ubicación de la fuente de sonido (datos de dirección y distancia) y los datos de voz pueden ser datos de voz recogidos por un micrófono de la matriz de micrófonos cuyo estado se ha ajustado.
Etapa S520: realizar entrenamiento, después de preprocesar los datos de voz y los datos de la fuente de sonido, con un modelo LSTM para obtener un modelo de reconocimiento de voz de campo lejano basándose en LSTM. Para la operación de recogida de datos de voz y sus datos de la fuente de sonido, la operación de preprocesamiento de los datos de voz y sus datos de la fuente de sonido, y la operación de entrenamiento usando el modelo LSTM, la información de retroalimentación obtenida por la operación en la nube se recibe en el lado local por el dispositivo de voz. Por ejemplo: en el extremo del procesamiento en la nube, se entrena y usa un modelo acústico de campo lejano basándose en LSTM combinándolo con datos de la fuente de sonido y datos de voz.
Por ejemplo, la combinación de la tecnología de procesamiento de información de front-end y la tecnología de reconocimiento de voz de back-end, es decir, la adquisición del parámetro de ubicación de la fuente de sonido mediante la combinación de la tecnología de radar de microondas, la combinación de los datos de audio y los datos de ubicación (tal como el parámetro de ubicación de la fuente de sonido), y la obtención del modelo acústico de campo lejano entrenándolo a través del algoritmo LSTM adecuado para datos de audio largos y contexto de datos de audio. Varios entornos circundantes se reconocen automáticamente a través de la tecnología de radar de microondas, y se usa un algoritmo de aprendizaje profundo para mejorar la precisión del reconocimiento de voz de campo lejano.
Por ejemplo: con referencia a un ejemplo que se muestra en la FIG. 8, el entrenamiento de un modelo acústico LSTM puede incluir: recoger los datos históricos antes mencionados (datos de registro histórico de la fuente de sonido y voz); el preprocesamiento de datos es un preprocesamiento, tal como valores perdidos, estandarización y reducción de ruido, en los datos; cargar los datos en el modelo a través de una capa de entrada del modelo LSTM; capa de procesamiento intermedio del modelo LSTM; la capa de salida de texto genera datos de texto convertidos a partir de datos de voz para obtener un modelo acústico de campo lejano basándose en LSTM.
Por lo tanto, al recoger previamente los datos de voz y sus datos de la fuente de sonido y preprocesarlos con el modelo LSTM, se obtiene el modelo de reconocimiento de campo lejano basándose en LSTM, que se puede usar para facilitar el reconocimiento de voz de campo lejano de los segundos datos de la voz usando el modelo de reconocimiento de voz de campo lejano, y una alta tasa de reconocimiento es alta, un efecto de reconocimiento es bueno.
Después de una gran cantidad de verificaciones experimentales, se adopta la solución técnica de esta realización para reconocer automáticamente varios entornos circundantes a través de la tecnología de radar de microondas, y se usa un algoritmo de aprendizaje profundo, mejorando así la precisión del reconocimiento de voz de campo lejano y proporcionando una buena experiencia de usuario.
Según una realización de la presente solicitud, también se proporciona un aparato de reconocimiento de voz correspondiente al método de reconocimiento de voz. Con referencia a la FIG. 6 que es un diagrama estructural esquemático de una realización del aparato de la presente solicitud. El aparato de reconocimiento de voz puede incluir: una unidad 102 de adquisición y una unidad 104 de identificación.
En un ejemplo alternativo, la unidad 102 de adquisición puede configurarse para adquirir los primeros datos de voz. Las funciones específicas y el procesamiento de la unidad 102 de adquisición pueden referirse a la etapa S110.
Los primeros datos de voz pueden incluir: una palabra de activación por voz, y los primeros datos de voz pueden incluir además un comando de voz. La palabra de activación por voz son datos de voz para activar un dispositivo de voz.
Por lo tanto, mediante la adquisición de múltiples formas de primeros datos de voz, es conveniente ajustar un estado de recogida de segundos datos de voz basándose en los primeros datos de voz en diferentes situaciones, mejorando así la conveniencia y versatilidad de uso del usuario.
Opcionalmente, la unidad 102 de adquisición puede configurarse para adquirir los primeros datos de voz y puede incluir: la unidad 102 de adquisición que está configurada para adquirir primeros datos de voz recogidos por el dispositivo de recogida de voz.
Por lo tanto, adquirir los primeros datos de voz mediante el método de adquisición de los primeros datos de voz a través del dispositivo de recogida de voz hace que la adquisición de los primeros datos de voz sea más conveniente y precisa.
En un ejemplo alternativo, la unidad 102 de adquisición está además configurada para ajustar, según los primeros datos de voz, un estado de recogida de segundos datos de voz, y adquirir los segundos datos de voz basándose en el estado de recogida ajustado. Las funciones específicas y el procesamiento de la unidad 102 de adquisición pueden referirse a la etapa S120.
Por ejemplo: en una plataforma de procesamiento del lado del dispositivo, en primer lugar, una fuente de sonido de la palabra de activación se ubica aproximadamente usando una matriz de micrófonos (por ejemplo, la ubicación de la fuente de sonido de la palabra de activación se determina según la dirección de las ondas sonoras a través de la matriz de micrófonos); luego, el módulo de radar de microondas se usa para ubicar con precisión la fuente de sonido y recoger los datos de distancia y dirección (es decir, la distancia y dirección de la fuente de sonido); a continuación, el(los) micrófono(s) en la posición correspondiente en el módulo de matriz de micrófonos se encienden y apagan según los datos; finalmente, se recogen datos de audio de campo lejano.
Los segundos datos de voz incluyen un comando de voz, y los segundos datos de voz también pueden incluir la siguiente palabra de activación por voz. El comando de voz son datos de voz para controlar el dispositivo de voz.
Por lo tanto, mediante la adquisición de múltiples formas de segundos datos de voz, los varios requisitos de control de voz del usuario pueden cumplirse de manera flexible y conveniente.
Específicamente, la operación de adquisición de primeros datos de voz por de la unidad 102 de adquisición, la operación de ajuste, según los primeros datos de voz, un estado de recogida de segundos datos de voz por la unidad 102 de adquisición, y la operación de adquisición de los segundos datos de voz basándose en el estado de recogida ajustado se ejecutan en un lado local de un dispositivo de voz.
Por lo tanto, al realizar las operaciones de adquisición de los primeros datos de voz y los segundos datos de voz y ajustar el estado de recogida de los segundos datos de voz basándose en los primeros datos de voz en el lado local del dispositivo de voz, se puede mejorar la precisión y fiabilidad de la adquisición, y se puede mejorar la eficiencia del procesamiento.
Opcionalmente, la unidad 102 de adquisición puede configurarse para ajustar el estado de recogida de los segundos datos de voz según los primeros datos de voz que puede incluir:
La unidad 102 de adquisición puede además configurarse para determinar información de ubicación de una fuente de sonido que envía los primeros datos de voz. La función específica y el procesamiento de la unidad 102 de adquisición pueden referirse a la etapa S210.
Opcionalmente, la unidad 102 de adquisición puede configurarse para determinar información de ubicación de una fuente de sonido que envía los primeros datos de voz que puede incluir:
La unidad 102 de adquisición puede además configurarse específicamente para determinar una dirección de la fuente de sonido que envía los primeros datos de voz usando el dispositivo de recogida de voz. Las funciones específicas y el procesamiento de la unidad 102 de adquisición pueden referirse a la etapa S310.
Por ejemplo: la identificación aproximada de una dirección de una fuente de sonido para una palabra de activación por voz usando una matriz de micrófonos puede incluir: el sistema de reconocimiento de voz necesita activar un dispositivo a través de la palabra de activación por voz (tal como: un determinado acondicionador de aire). En la solución de la presente solicitud, se puede obtener de antemano una dirección aproximada de la fuente de voz para la palabra de activación a través de la tecnología de matriz de micrófonos.
La unidad 102 de adquisición puede además configurarse específicamente para ubicar la fuente de sonido basándose en la dirección usando un dispositivo de ubicación para obtener la información de ubicación de la fuente de sonido. Las funciones específicas y el procesamiento de la unidad 102 de adquisición pueden referirse a la etapa S320.
El dispositivo de ubicación puede incluir: un módulo de radar de microondas, y el dispositivo de ubicación puede incluir además otros módulos de ubicación, resolviendo así el problema del reconocimiento de voz de campo lejano en situaciones complejas basándose en la tecnología de ubicación de radar de microondas. La información de ubicación puede incluir: una distancia y una dirección.
Por ejemplo: la distancia y la dirección de la fuente de sonido se calcula con precisión en tiempo real usando la tecnología de radar de microondas, que puede incluir: el radar de microondas envía una señal de microondas a través de un dispositivo emisor, y la señal de microondas se reflejará cuando encuentre un objeto. Al recibir la señal de microondas reflejada por un dispositivo receptor, se pueden obtener datos como la posición, el tamaño y la forma del objeto en un entorno. En la solución de la presente solicitud, esta tecnología se puede usar para obtener datos de ubicación de la fuente de sonido (la persona que emite un sonido).
Por lo tanto, al determinar la dirección de la fuente de sonido de los primeros datos de voz mediante el dispositivo de recogida de voz y ubicar la fuente de sonido basándose en la dirección usando un dispositivo de ubicación para ubicar la información de ubicación de la fuente de sonido, la información de ubicación de la fuente de sonido de los primeros datos de voz puede determinarse con precisión y fiabilidad.
La unidad 102 de adquisición puede además configurarse específicamente para, basándose en la información de ubicación, mejorar una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en la información de ubicación, y/o suprimir una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en ubicaciones distintas de la información de ubicación para ajustar el estado de recogida del dispositivo de recogida de voz para los segundos datos de voz. El estado de recogida del dispositivo de recogida de voz puede incluir: la intensidad de recogida del dispositivo de recogida de voz. Las funciones específicas y el procesamiento de la unidad 102 de adquisición pueden referirse a la etapa S220.
Por ejemplo, en un entorno de campo lejano, se usa una combinación en la nube (tal como una plataforma de procesamiento en la nube) y un terminal (tal como un lado de procesamiento del dispositivo o una plataforma de procesamiento en el lado del dispositivo). En el lado del procesamiento del dispositivo, en primer lugar, la dirección de la fuente de sonido de las palabras de activación se identifica aproximadamente usando la matriz de micrófonos, luego, la distancia y la dirección de la fuente de sonido se calculan con precisión en tiempo real usando una tecnología de radar de microondas. y luego, el estado de la matriz de micrófonos se controla en tiempo real usando una tecnología informática de borde.
Por tanto, la intensidad del dispositivo de recogida de voz para recoger los segundos datos de voz se ajusta basándose en la información de ubicación de la fuente de sonido de los primeros datos de voz, mejorando así la conveniencia y fiabilidad de la recogida de los segundos datos de voz.
Además, opcionalmente, la operación de mejora de una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en la información de ubicación, y/o suprimir una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en ubicaciones distintas de la información de ubicación por la unidad 102 de adquisición pueda incluir al menos una de las siguientes situaciones de ajuste.
La primera situación de ajuste: la unidad 102 de adquisición mejora la intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en la información de ubicación, puede incluir: la unidad 102 de adquisición puede además configurarse para, en el caso que el dispositivo de recogida de voz pueda incluir una matriz de micrófonos, encender un micrófono, en la información de ubicación, en la matriz de micrófonos, y/o aumentar el número de micrófonos encendidos, en la información de ubicación, en la matriz de micrófonos.
La segunda situación de ajuste: la unidad 102 de adquisición suprime una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en ubicaciones distintas de la información de ubicación, puede incluir: la unidad 102 de adquisición puede además configurarse para apagar micrófonos en ubicaciones distintas de la información de ubicación, en la matriz de micrófonos, y/o reducir el número de micrófonos encendidos, en ubicaciones distintas de la información de ubicación, en la matriz de micrófonos.
Por ejemplo: el estado de la matriz de micrófonos se controla en tiempo real usando la tecnología informática de borde, que incluye: hay varios dispositivos de micrófono en la matriz de micrófonos de la presente solicitud, y el estado del micrófono se ajusta mediante un dispositivo de front-end basándose en la adquisición de la ubicación y dirección aproximadas de la fuente de sonido a través de la palabra de activación. Por ejemplo: la matriz de micrófonos tiene un efecto de 4 micrófonos en diferentes direcciones, y se obtiene que la fuente de sonido está en una posición de frente. En este momento, se puede mejorar un efecto de recepción (la capacidad de recibir señales de voz) del micrófono en la dirección y puede suprimirse un efecto de recepción del micrófono en otras direcciones, eliminando así el ruido en otras direcciones.
Por lo tanto, al mejorar o reducir la intensidad de recogida del dispositivo de recogida de voz en diferentes ubicaciones basándose en la información de ubicación de los primeros datos de voz, se puede mejorar la precisión y fiabilidad de la recogida de los segundos datos de voz por el dispositivo de recogida de voz, mejorando así la precisión y fiabilidad del reconocimiento de voz y control de voz.
Opcionalmente, la unidad 102 de adquisición está configurada para adquirir los segundos datos de voz puede incluir: la unidad 102 de adquisición puede configurarse específicamente para adquirir los segundos datos de voz recogidos por el dispositivo de recogida de voz después de ajustar el estado de recogida.
Por lo tanto, es más conveniente y preciso adquirir los segundos datos de voz recogiéndolos a través del dispositivo de recogida de voz.
El dispositivo de recogida de voz puede incluir: una matriz de micrófonos. La matriz de micrófonos se proporciona con más de un micrófono que se pueden usar para recoger datos de voz en más de una dirección.
Por lo tanto, el método de adquisición de datos de voz usando la matriz de micrófonos es flexible y el resultado obtenido es fiable.
En un ejemplo opcional, la unidad 104 de identificación puede configurarse para realizar el reconocimiento de voz de campo lejano en los segundos datos de voz adquiridos usando un modelo de reconocimiento de voz de campo lejano preestablecido para obtener información semántica correspondiente a los segundos datos de voz, a fin de controlar el dispositivo de voz para ejecutar los segundos datos de voz según la información semántica. Las funciones específicas y el procesamiento de la unidad 104 de identificación pueden referirse a la etapa S130. La información semántica puede incluir: datos de texto semántico. Por ejemplo: los datos de texto pueden obtenerse convirtiendo datos de voz en datos de texto a través de un modelo acústico entrenado.
Por ejemplo: en la plataforma de procesamiento en la nube, en primer lugar, el modelo acústico LSTM se entrena usando fuentes de sonido y bases de datos de audio recogidas y etiquetadas manualmente para obtener un modelo de reconocimiento de voz de campo lejano; luego, a través de la recogida en tiempo real de datos de voz, se realiza el reconocimiento de voz de campo lejano en tiempo real en el modelo anterior; finalmente, se obtienen datos de voz y texto de alta precisión en un entorno complejo. En escenarios complejos, el reconocimiento de voz de campo lejano se puede realizar de manera precisa y eficiente basándose en la tecnología de radar de microondas.
Por lo tanto, al adquirir los segundos datos de voz después de ajustar el estado de recogida de los segundos datos de voz basándose en los primeros datos de voz, se puede garantizar la precisión y fiabilidad de la adquisición de los segundos datos de voz; y al realizar el reconocimiento de voz de campo lejano en los segundos datos de voz usando el modelo de reconocimiento de voz de campo lejano preestablecido, se puede mejorar la eficiencia y el efecto del reconocimiento de voz de campo lejano en los segundos datos de voz.
Específicamente, para la operación de realización del reconocimiento de voz de campo lejano en los segundos datos de voz usando un modelo de reconocimiento de voz de campo lejano preestablecido por la unidad 104 de identificación, la información de retroalimentación obtenida por la operación en la nube es recibida en el lado local por el dispositivo de voz
Por lo tanto, la operación de realización del reconocimiento de voz de campo lejano en los segundos datos de voz usando el modelo de reconocimiento de voz de campo lejano preestablecido es ejecutada por la nube, y luego el resultado de la operación se retroalimenta al lado local del dispositivo de voz. Por un lado, se puede mejorar la eficiencia del procesamiento de datos y la fiabilidad del almacenamiento; por otro lado, se puede reducir la presión del procesamiento y almacenamiento de datos en el lado local del dispositivo de voz, mejorando así la conveniencia y fiabilidad del control de voz por el dispositivo de voz.
Opcionalmente, la unidad 104 de identificación está configurada para realizar el reconocimiento de voz de campo lejano en los segundos datos de voz usando un modelo de reconocimiento de voz de campo lejano preestablecido, que puede incluir:
La unidad 104 de identificación puede configurarse específicamente para preprocesar los segundos datos de voz para obtener información de voz. La función específica y el procesamiento de la unidad 104 de identificación pueden referirse a la etapa S410.
La unidad 104 de identificación puede además configurarse para realizar, usando el modelo de reconocimiento de voz de campo lejano preestablecido, reconocimiento de voz de campo lejano en la información de voz obtenida mediante preprocesamiento. El preprocesamiento puede incluir: preprocesamiento tal como valores perdidos, estandarización y reducción de ruido. La función específica y el procesamiento de la unidad 104 de identificación pueden referirse a la etapa S420.
El modelo de reconocimiento de voz de campo lejano puede incluir: un modelo acústico de campo lejano obtenido mediante entrenamiento de aprendizaje profundo basándose en un algoritmo LSTM.
Por ejemplo, en un sistema que se muestra en la FIG. 7, la matriz de micrófonos recibe datos de voz y determina una ubicación aproximada de la fuente de sonido de la palabra de activación. El radar de microondas adquiere un parámetro de ubicación (datos de dirección y distancia) de la fuente de sonido, es decir, adquiere los datos de la fuente de sonido. Ajustar un estado de la matriz de micrófonos se refiere a mejorar o suprimir un micrófono en una dirección correspondiente según la ubicación de la fuente de sonido. El modelo acústico de campo lejano basándose en LSTM convierte los datos de voz en datos de texto correspondientes a través del modelo acústico entrenado por datos de la fuente de sonido y datos de voz.
Por ejemplo: con referencia a un ejemplo que se muestra en la FIG. 8, después de entrenar el modelo acústico LSTM, recoger voz en tiempo real, es decir, monitorizar la voz del acondicionador de aire en tiempo real y recoger datos de voz y datos de la fuente de sonido. El preprocesamiento de datos puede ser el mismo que el método de preprocesamiento de datos para entrenar el modelo acústico LSTM en la etapa 1. El modelo acústico de campo lejano basándose en LSTM reconoce la voz usando el modelo acústico LSTM de campo lejano entrenado por el método de entrenamiento del modelo acústico LSTM. Los datos de texto de voz son datos de texto correspondientes adquiridos según un resultado de reconocimiento de voz del modelo. Los datos de voz se convierten en datos de texto de manera precisa y eficiente usando el modelo de reconocimiento de voz de campo lejano entrenado por la fuente de sonido y los datos de voz basándose en la tecnología de radar de microondas y combinados con el modelo de algoritmo de aprendizaje profundo LSTM, para proporcionar un sistema de voz de campo lejano con una alta tasa de reconocimiento que satisface las necesidades de los usuarios.
Por lo tanto, mediante preprocesamiento de los segundos datos de voz recogidos, se puede mejorar la precisión y fiabilidad de los propios segundos datos de voz; y luego, mediante el reconocimiento de campo lejano de la información de voz preprocesada por el modelo de reconocimiento de campo lejano preestablecido, se puede garantizar la precisión y fiabilidad del reconocimiento de los segundos datos de voz.
En una realización alternativa, se puede incluir además un proceso de entrenamiento para obtener el modelo de reconocimiento de voz de campo lejano preestablecido.
La unidad 102 de adquisición puede además configurarse para recoger datos de voz y sus datos de la fuente de sonido. Los datos de voz pueden incluir una palabra de activación y/o un comando de voz. La función específica y el procesamiento de la unidad 102 de adquisición pueden referirse a la etapa S510. Por ejemplo, los datos de la fuente de sonido pueden incluir un parámetro de ubicación de la fuente de sonido (datos de dirección y distancia) y los datos de voz pueden ser datos de voz recogidos por un micrófono de la matriz de micrófonos cuyo estado se ha ajustado.
La unidad 104 de identificación puede además configurarse para realizar el entrenamiento, después de preprocesar los datos de voz y los datos de la fuente de sonido, con un modelo LSTM para obtener un modelo de reconocimiento de voz de campo lejano basándose en LSTM. Para la operación de recogida de datos de voz y sus datos de la fuente de sonido, la operación de preprocesamiento de los datos de voz y sus datos de la fuente de sonido, y la operación de entrenamiento usando el modelo LSTM, la información de retroalimentación obtenida por la operación en la nube se recibe en el lado local por el dispositivo de voz. La función específica y el procesamiento de la unidad 104 de identificación pueden referirse a la etapa S520. Por ejemplo: en el extremo del procesamiento en la nube, se entrena y usa un modelo acústico de campo lejano basándose en LSTM combinándolo con datos de la fuente de sonido y datos de voz.
Por ejemplo, combinar la tecnología de procesamiento de información de front-end y la tecnología de reconocimiento de voz de back-end, es decir, adquirir el parámetro de ubicación de la fuente de sonido combinando la tecnología de radar de microondas, que combina los datos de voz y los datos de ubicación (tal como el parámetro de ubicación de la fuente de sonido), y obtener el modelo acústico de campo lejano entrenándolo a través del algoritmo LSTM adecuado para datos de audio largos y contexto de datos de audio. Varios entornos circundantes se reconocen automáticamente a través de la tecnología de radar de microondas, y se usan algoritmos de aprendizaje profundo para mejorar la precisión del reconocimiento de voz de campo lejano.
Por ejemplo: con referencia a un ejemplo que se muestra en la FIG. 8, el entrenamiento de un modelo acústico LSTM puede incluir: recoger los datos históricos antes mencionados (datos de registro histórico de fuente de sonido y voz); el preprocesamiento de datos es un preprocesamiento, tal como valores perdidos, estandarización y reducción de ruido, en los datos; cargar datos en el modelo a través de una capa de entrada del modelo LSTM; capa de procesamiento intermedio del modelo LSTM; la capa de salida de texto genera datos de texto convertidos a partir de datos de voz para obtener un modelo acústico de campo lejano basándose en LSTM.
Por lo tanto, al recoger previamente los datos de voz y sus datos de la fuente de sonido y preprocesarlos con el modelo LSTM, se obtiene el modelo de reconocimiento de campo lejano basándose en LSTM, que se puede usar para facilitar el reconocimiento de voz de campo lejano de los segundos datos de voz usando el modelo de reconocimiento de voz de campo lejano, y la tasa de reconocimiento es alta y el efecto de reconocimiento es bueno.
Dado que el procesamiento y las funciones implementadas por el dispositivo en esta realización corresponden básicamente a las realizaciones, principios y ejemplos de los métodos que se muestran de las FIGs. 1 a 5, si la descripción de esta realización no es exhaustiva, consulte la descripción pertinente de la realización anterior, que no se repetirá aquí.
Después de una gran cantidad de verificaciones experimentales, según la solución técnica de esta solicitud, la fuente de sonido se ubica usando una tecnología de radar de microondas, el estado de recogida de la matriz de micrófonos se ajusta según una ubicación de la fuente de sonido y el modelo de reconocimiento de voz de campo lejano entrenado basándose en un algoritmo de aprendizaje profundo LSTM para campo lejano se usa además para realizar el reconocimiento de los datos de voz, lo que garantiza una alta tasa de reconocimiento para satisfacer las necesidades de uso en entornos complejos.
Según una realización de la presente solicitud, también se proporciona un acondicionador de aire correspondiente al aparato de reconocimiento de voz. El acondicionador de aire puede incluir: el aparato de reconocimiento de voz descrito anteriormente.
Teniendo en cuenta que en una tecnología tradicional de reconocimiento de voz de campo lejano, la captación de distancia de campo lejano se puede lograr usando principalmente matrices de micrófonos y ubicación de fuentes de sonido, resolviendo así los efectos del ruido, la reverberación y el eco, excepto por el problema de la detección de la voz humana y segmentación de frases en entornos complejos, el efecto del tratamiento es pobre. Por ejemplo, un modelo acústico general puede simplemente realizar un procesamiento de reconocimiento y reducción de ruido para datos de voz, por lo que la precisión del modelo no es suficiente en un entorno complejo.
Por ejemplo, en la tecnología de matriz de micrófonos en el front-end, se puede mejorar el efecto de reconocimiento de voz aumentando la cantidad de micrófonos, pero debido a las limitaciones del precio y el tamaño del producto, la cantidad de micrófonos y la distancia entre micrófonos son limitados y la función y el efecto de cada micrófono es el mismo, por lo que se puede recibir ruido en múltiples direcciones, lo que reduce la precisión del reconocimiento de voz. Por lo tanto, la tecnología tiene un rendimiento de menor coste con un menor intervalo de direcciones a distinguir.
Por ejemplo, el modelo acústico existente se usa principalmente para procesar algunos datos de audio cortos de campo cercano y solo puede procesar datos de audio de voz. No puede percibir ni adquirir los parámetros de posición (distancia y dirección) de la fuente de sonido, por lo que solo puede adaptarse al reconocimiento de voz en un entorno específico. Además, el modelo acústico existente pertenece a la tecnología de procesamiento de reconocimiento de voz de back-end, que no se combina estrechamente con el dispositivo o algoritmos de procesamiento de señales de front-end.
En una implementación alternativa, el esquema propuesto resuelve el problema del reconocimiento de voz de campo lejano en entornos complejos basándose en la tecnología de posicionamiento por radar de microondas.
Un radar de microondas civil y su sensor es una nueva industria de alta tecnología, que se ha usado ampliamente en la medición de velocidad, detección de flujo de vehículos, medidor de nivel de objetos y otros aspectos. LSTM (red de memoria a corto y largo plazo) es un tipo de sistema de red neuronal recursivo en el tiempo, que se puede usar para procesar y predecir eventos importantes con intervalos y retrasos relativamente largos en una secuencia de tiempo.
Específicamente, en la solución de la presente solicitud, la combinación de la tecnología de procesamiento de información de front-end y la tecnología de reconocimiento de voz de back-end, es decir, la adquisición de un parámetro de ubicación de la fuente de sonido mediante la combinación de la tecnología de radar de microondas, que combina los datos de voz y la ubicación (tal como el parámetro de ubicación de la fuente de sonido) y la obtención del modelo acústico de campo lejano entrenándolo a través del algoritmo LSTM adecuado para datos de audio largos y contexto de datos de audio.
El audio largo, en relación con el audio corto, se refiere al audio de más tiempo. La mayoría de las tecnologías actuales son adecuadas para el procesamiento de audio corto. La solución de la presente solicitud puede realizar un procesamiento de audio largo, de modo que se pueda extraer más información.
En un ejemplo opcional, en un entorno de campo lejano, se adoptan una combinación en la nube (tal como una plataforma de procesamiento en la nube) y un terminal (tal como un lado de procesamiento del dispositivo o una plataforma de procesamiento en un lado del dispositivo). En el lado del procesamiento del dispositivo, en primer lugar, la dirección de la fuente de sonido de la palabra de activación se identifica aproximadamente usando la matriz de micrófonos, luego, la distancia y la dirección de la fuente de sonido se calculan con precisión en tiempo real usando una tecnología de radar de microondas, y luego el estado de la matriz de micrófonos se controla en tiempo real usando una tecnología informática de borde. En el lado del procesamiento en la nube, se entrena y usa un modelo acústico de campo lejano basándose en LSTM mediante la combinación con datos de la fuente de sonido y datos de voz.
Opcionalmente, la identificación aproximada de una dirección de una fuente de sonido para una palabra de activación de voz usando una matriz de micrófonos puede incluir: el sistema de reconocimiento de voz necesita activar un dispositivo a través de la palabra de activación por voz (tal como: un determinado acondicionador de aire). En la solución de la presente solicitud, se puede obtener de antemano una dirección aproximada de la fuente de voz para la palabra de activación a través de la tecnología de matriz de micrófonos.
Opcionalmente, la distancia y la dirección de la fuente de sonido se calculan con precisión en tiempo real usando la tecnología de radar de microondas, que puede incluir: el radar de microondas envía una señal de microondas a través de un dispositivo emisor, y la señal de microondas se reflejará cuando encuentre un objeto. Al recibir la señal de microondas reflejada por un dispositivo receptor, se pueden obtener datos tal como la posición, el tamaño y la forma del objeto en un entorno. En la solución de la presente solicitud, esta tecnología se puede usar para obtener datos de ubicación de la fuente de sonido (la persona que emite un sonido).
Opcionalmente, el estado de la matriz de micrófonos se controla en tiempo real usando la tecnología informática de borde, que incluye: hay varios dispositivos de micrófono en la matriz de micrófonos de la presente solicitud, y el estado del micrófono se ajusta mediante un dispositivo frontal sobre la base de adquirir la ubicación y dirección aproximadas de la fuente de sonido a través de la palabra de activación. Por ejemplo: la matriz de micrófonos tiene un efecto de 4 micrófonos en diferentes direcciones, y se obtiene que la fuente de sonido está en una posición de frente. En este momento, se puede mejorar un efecto de recepción (la capacidad de recibir señales de voz) del micrófono en la dirección y puede suprimirse un efecto de recepción del micrófono en otras direcciones, eliminando así el ruido en otras direcciones.
Por ejemplo: mejorar el efecto de recepción del micrófono en la dirección (la capacidad de recibir señales de voz) y suprimir el efecto de recepción del micrófono en otras direcciones puede incluir principalmente: encender y apagar los micrófonos en diferentes direcciones en la matriz de micrófonos y filtrar la voz recibida por los micrófonos. Por ejemplo: controlando un interruptor y filtrando el micrófono en una determinada dirección, de modo que se pueda recibir una pequeña cantidad de voz en la dirección.
Puede verse que, en la solución de la presente solicitud, el reconocimiento de voz de campo lejano es una dificultad técnica. Varios entornos circundantes se reconocen automáticamente a través de la tecnología de radar de microondas, y se usa un algoritmo de aprendizaje profundo para mejorar la precisión del reconocimiento de voz de campo lejano.
En una forma de implementación específica opcional, el proceso de implementación específico de la solución de la presente solicitud se puede describir a modo de ejemplo junto con los ejemplos que se muestran en la FIG. 7 y la FIG.
8.
En un ejemplo específico opcional, la solución de la presente aplicación incluye principalmente tecnologías relacionadas, tal como la ubicación por radar de microondas, el aprendizaje profundo, el procesamiento de macrodatos, la informática de borde, la computación en la nube, etc., y se divide en dos módulos funcionales: plataforma de procesamiento del lado del dispositivo y plataforma de procesamiento en la nube.
Específicamente, en un sistema que se muestra en la FIG. 7, la matriz de micrófonos recibe datos de voz y determina una ubicación aproximada de la fuente de sonido de la palabra de activación. El radar de microondas adquiere un parámetro de ubicación (datos de dirección y distancia) de la fuente de sonido, es decir, adquiere los datos de la fuente de sonido. Ajustar un estado de la matriz de micrófonos se refiere a mejorar o suprimir un micrófono en una dirección correspondiente según la ubicación de la fuente de sonido. El modelo acústico de campo lejano basándose en LSTM convierte los datos de voz en datos de texto correspondientes a través del modelo acústico entrenado por datos de la fuente de sonido y datos de voz. Los datos de la fuente de sonido pueden incluir un parámetro de ubicación (datos de dirección y distancia) de la fuente de sonido; los datos de voz pueden ser los datos de voz recogidos por el micrófono en la matriz de micrófonos cuyo estado se ha ajustado; los datos de texto se pueden obtener convirtiendo datos de voz en datos de texto a través de un modelo acústico entrenado.
Con referencia al ejemplo que se muestra en la FIG. 7, el principio de implementación de la solución de la presente solicitud puede incluir:
Por un lado, en una plataforma de procesamiento del lado del dispositivo, en primer lugar, se ubica aproximadamente una fuente de sonido de la palabra de activación usando una matriz de micrófonos (por ejemplo, la ubicación de la fuente de sonido de la palabra de activación se determina según a la dirección de las ondas sonoras a través de la matriz de micrófonos); luego, el módulo de radar de microondas se usa para ubicar con precisión la fuente de sonido y recoger los datos de distancia y dirección (es decir, la distancia y dirección de la fuente de sonido); a continuación, el(los) micrófono(s) en la posición correspondiente en el módulo de matriz de micrófonos se encienden y apagan según los datos; finalmente, se recogen datos de audio de campo lejano.
Por otro lado, en una plataforma de procesamiento en la nube, en primer lugar, el modelo acústico LSTM se entrena usando fuentes de sonido y bases de datos de audio recogidas y etiquetadas manualmente para obtener un modelo de reconocimiento de voz de campo lejano; luego, a través de la recogida en tiempo real de datos de voz, se realiza el reconocimiento de voz de campo lejano en tiempo real en el modelo anterior; finalmente, se obtienen datos de voz y texto de alta precisión en un entorno complejo.
El objetivo principal es etiquetar los datos de ubicación de la fuente de sonido con el fin de marcarlos durante el entrenamiento.
En un ejemplo específico opcional, en la solución de la presente solicitud, en escenarios complejos, el reconocimiento de voz de campo lejano se puede realizar de manera precisa y eficiente basándose en la tecnología de radar de microondas. Con referencia al ejemplo que se muestra en la FIG. 8, el proceso específico de reconocimiento de voz de campo lejano basándose en el radar de microondas en la solución de la presente solicitud puede incluir:
Etapa 1, entrenar el modelo acústico LSTM puede incluir específicamente:
Etapa 11, recoger de los datos históricos mencionados anteriormente (los datos históricos grabados de la fuente de sonido y la voz).
Etapa 12, preprocesamiento de datos: el proceso de valores perdidos, estandarización, reducción de ruido y otros preprocesamientos de los datos.
Por ejemplo, el proceso de valores perdidos consiste en completar los elementos de datos que pueden faltar con una media general u otros métodos. La estandarización consiste en homogeneizar diferentes datos a través de la normalización de datos o la misma medición, tal como convertir datos de audio y datos de posición en el mismo tipo de datos.
Etapa 13, cargar los datos en un modelo a través de una capa de entrada de un modelo LSTM.
Etapa 14, capa de procesamiento intermedia del modelo LSTM.
La capa de procesamiento intermedia es un proceso de procesamiento de una red neuronal, que es una operación fija en el algoritmo LSTM. Por ejemplo, la capa de procesamiento intermedia actualiza los estados de las celdas y los pesos de las conexiones entre las celdas de la red a través de métodos de entrada, olvido y salida.
Etapa 15, capa de salida de texto, que genera datos de texto convertidos a partir de datos de voz para obtener un modelo acústico de campo lejano basándose en LSTM.
Etapa 2, voz en tiempo real: que se usa para monitorizar la voz de un acondicionador de aire en tiempo real.
Etapa 3, recogida de datos de voz y datos de la fuente de sonido.
Etapa 4, preprocesamiento de datos, que puede ser el mismo que el método de preprocesamiento de datos para entrenar el modelo acústico LSTM en el etapa 1.
Etapa 5, modelo acústico de campo lejano basándose en LSTM: que reconoce la voz usando el modelo acústico LSTM de campo lejano entrenado por el método de entrenamiento del modelo acústico LSTM en la etapa 1.
Etapa 6, datos de texto de voz: que son unos datos de texto correspondientes obtenidos según un resultado de reconocimiento de voz del modelo.
Se puede ver que en un proceso de uso de dispositivos de voz en entornos complejos, se requiere una tecnología de reconocimiento de campo lejano precisa, eficiente y en tiempo real para resolver el impacto del ruido, la reverberación y el eco, y para mejorar la experiencia del usuario. Existe una necesidad urgente de un sistema de reconocimiento de campo lejano que sea inteligente, eficiente, altamente preciso y fiable. Sin embargo, en la actualidad, el reconocimiento de campo lejano en el mercado se presenta principalmente en forma de una sola matriz de micrófonos y un modelo acústico para un reconocimiento simple. La precisión del reconocimiento en escenas complejas no es alta. Por el momento, no existe un método de alta precisión y fiabilidad para la identificación de voz de campo lejano. La solución de la presente solicitud, basándose en la tecnología de radar de microondas, se combina con el modelo de algoritmo de aprendizaje profundo LSTM, usa fuentes de sonido y datos de voz para entrenar un modelo de reconocimiento de voz de campo lejano, y convierte de manera precisa y eficiente los datos de voz en datos de texto, proporcionando a los usuarios un sistema de voz de campo lejano con alta tasa de reconocimiento.
Por ejemplo, después de convertir la voz en datos de texto, al extraer y reconocer los datos de texto, se puede controlar el dispositivo correspondiente. Esta es una etapa necesaria para un sistema de reconocimiento de voz.
Dado que el procesamiento y las funciones implementadas por el acondicionador de aire en la realización corresponden básicamente a las realizaciones, principios y ejemplos de los métodos que se muestran en la FIG. 6. Si la descripción de esta realización no es exhaustiva, consulte la descripción pertinente de la realización anterior, que no se repetirá aquí.
Después de una gran cantidad de verificaciones experimentales, en la solución técnica de esta solicitud, los datos de voz se convierten en datos de texto de manera precisa y eficiente usando un modelo de reconocimiento de voz de campo lejano entrenado por una fuente de sonido y datos de voz basándose en una tecnología de radar de microondas y combinado con un modelo de algoritmo de aprendizaje profundo LSTM, que puede mejorar el efecto de reconocimiento de voz de campo lejano.
Según una realización de la presente solicitud, también se proporciona un medio de almacenamiento correspondiente al método de reconocimiento de voz. El medio de almacenamiento puede incluir: una pluralidad de instrucciones almacenadas en el medio de almacenamiento. La pluralidad de instrucciones es cargada por un procesador para ejecutar el método de reconocimiento de voz mencionado anteriormente.
Dado que el procesamiento y las funciones implementadas por el medio de almacenamiento en esta realización corresponden básicamente a las realizaciones, principios y ejemplos de los métodos que se muestran de las FIGs. 1 a 5, si la descripción de esta realización no es exhaustiva, consulte la descripción pertinente de la realización anterior, que no se repetirá aquí.
Después de una gran cantidad de verificaciones experimentales, en la solución técnica de esta aplicación, se combina la tecnología de procesamiento de información de front-end con la tecnología de reconocimiento de voz de back-end, a saber: adquirir el parámetro de ubicación de la fuente de sonido combinando la tecnología de radar de microondas, que combina los datos de audio y los datos de ubicación (tal como el parámetro de ubicación de la fuente de sonido), y obtener el modelo acústico de campo lejano entrenándolo a través del algoritmo LSTM adecuado para datos de audio largos y contexto de datos de audio. Esta solución puede acortar el tiempo de respuesta y mejorar el efecto de reducción de ruido.
Según una realización de la presente solicitud, también se proporciona un acondicionador de aire correspondiente al método de reconocimiento de voz. El acondicionador de aire puede incluir: un procesador para ejecutar una pluralidad de instrucciones; un medio de almacenamiento para almacenar la pluralidad de instrucciones. La pluralidad de instrucciones se almacenan en el medio de almacenamiento y el procesador las carga para ejecutar el método de reconocimiento de voz descrito anteriormente.
Dado que el procesamiento y las funciones implementadas por el acondicionador de aire en esta realización corresponden básicamente a las realizaciones, principios y ejemplos de los métodos que se muestran de las FIGs. 1 a 5, si la descripción de esta realización no es exhaustiva, consulte la descripción pertinente de la realización anterior, que no se repetirá aquí.
Después de una gran cantidad de verificaciones experimentales, en la solución de la presente solicitud, sobre la base del uso de una matriz de micrófonos para identificar aproximadamente la dirección de la fuente de sonido de la palabra de activación por voz, la distancia y la dirección de la fuente de sonido se calculan con precisión en tiempo real usando la tecnología de radar de microondas, y luego se controla un estado de matriz de micrófonos en tiempo real usando la tecnología informática de borde, y usando un modelo acústico de campo lejano basándose en LSTM se entrena y usa combinándolo con los datos de la fuente de sonido y datos de voz, se puede mejorar la eficiencia del reconocimiento de campo lejano y la reducción de ruido, y se puede acortar el tiempo de respuesta.
En resumen, es fácil para los expertos en la técnica comprender que los métodos ventajosos mencionados anteriormente pueden combinarse y superponerse libremente bajo la premisa de que no hay conflicto.
Los anteriores son solo ejemplos de la presente solicitud y no están configurados para limitar la presente solicitud. Para los expertos en la técnica, existen varias modificaciones y cambios.

Claims (11)

REIVINDICACIONES
1. Un método de reconocimiento de voz, que comprende:
adquirir (S110) primeros datos de voz;
ajustar (S120), según los primeros datos de voz, un estado de recogida de segundos datos de voz para obtener un estado de recogida ajustado, y adquirir los segundos datos de voz basándose en el estado de recogida ajustado; realizar (S130) reconocimiento de voz de campo lejano en los segundos datos de voz usando un modelo de reconocimiento de voz de campo lejano preestablecido para obtener información semántica correspondiente a los segundos datos de voz;
en donde los primeros datos de voz comprenden una palabra de activación por voz, la palabra de activación por voz son datos de voz para activar un dispositivo de voz; y los segundos datos de voz comprenden un comando de voz, el comando de voz son datos de voz para controlar el dispositivo de voz;
ajustar (S210), según los primeros datos de voz, un estado de recogida de segundos datos de voz, comprende: después de determinar información de ubicación de una fuente de sonido que envía los primeros datos de voz, realizar al menos una de los siguientes:
mejorar (S220) una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en la información de ubicación; y
suprimir (S220) una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en ubicaciones distintas de la información de ubicación;
realizar (S130) reconocimiento de voz de campo lejano en los segundos datos de voz usando un modelo de reconocimiento de voz de campo lejano preestablecido comprende:
preprocesar los segundos datos de voz para obtener información de voz;
realizar, usando el modelo de reconocimiento de voz de campo lejano preestablecido, reconocimiento de voz de campo lejano sobre la información de voz obtenida mediante preprocesamiento;
el modelo de reconocimiento de voz de campo lejano comprende: un modelo acústico de campo lejano obtenido mediante entrenamiento de aprendizaje profundo basándose en un algoritmo LSTM.
2. El método de la reivindicación 1, en donde la operación de adquisición (S110) de primeros datos de voz, la operación de ajuste, según los primeros datos de voz, de un estado de recogida de segundos datos de voz para obtener un estado de recogida ajustado, y la operación de adquisición (S120) de los segundos datos de voz basándose en el estado de recogida ajustado se ejecutan en un lado local de un dispositivo de voz; y
la operación de realización (S130) de reconocimiento de voz de campo lejano en los segundos datos de voz usando un modelo de reconocimiento de voz de campo lejano preestablecido es ejecutada por el dispositivo de voz en el lado local en respuesta a la recepción de la información de retroalimentación obtenida por la operación en la nube.
3. El método de la reivindicación 1, en donde adquirir (S110) los primeros datos de voz comprende:
adquirir los primeros datos de voz recogidos por un dispositivo de recogida de voz;
adquirir los segundos datos de voz comprende:
adquirir los segundos datos de voz recogidos por un dispositivo de recogida de voz después de ajustar el estado de recogida,
en donde el dispositivo de recogida de voz comprende: una matriz de micrófonos provista de más de un micrófono para recoger datos de voz en más de una dirección.
4. El método de la reivindicación 1, en donde determinar (S210) la información de ubicación de una fuente de sonido que envía los primeros datos de voz comprende:
determinar (S310) una dirección de la fuente de sonido que envía los primeros datos de voz usando el dispositivo de recogida de voz;
ubicar (S320) la fuente de sonido basándose en la dirección usando un dispositivo de ubicación para obtener la información de ubicación de la fuente de sonido,
en donde el dispositivo de ubicación comprende: un módulo de radar de microondas; y la información de ubicación comprende: una distancia y una dirección.
5. El método de la reivindicación 4, en donde mejorar (S220) una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en la información de ubicación comprende al menos una de las siguientes acciones:
en el caso de que el dispositivo de recogida de voz comprenda una matriz de micrófonos, encender un micrófono, en la información de ubicación, en la matriz de micrófonos;
en el caso de que el dispositivo de recogida de voz comprenda la matriz de micrófonos, aumentar el número de micrófonos encendidos, en la información de ubicación, en la matriz de micrófonos.
6. El método de la reivindicación 4, en donde suprimir (S220) una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en ubicaciones distintas de la información de ubicación, comprende al menos una de las siguientes acciones:
apagar los micrófonos en las ubicaciones distintas de la información de ubicación, en la matriz de micrófonos; reducir el número de micrófonos encendidos, en las ubicaciones distintas de la información de ubicación, en la matriz de micrófonos.
7. El método de una cualquiera de las reivindicaciones 1 a 6, que comprende además:
recoger datos de voz y datos de la fuente de sonido de los datos de voz; y
realizar el entrenamiento, después de preprocesar los datos de voz y los datos de la fuente de sonido, con un modelo LSTM para obtener un modelo de reconocimiento de voz de campo lejano basándose en LSTM.
8. Un aparato de reconocimiento de voz, que comprende:
una unidad (102) de adquisición, configurada para adquirir primeros datos de voz,
en donde la unidad (102) de adquisición está además configurada para ajustar, según los primeros datos de voz, un estado de recogida de segundos datos de voz para obtener un estado de recogida ajustado, y adquirir los segundos datos de voz basándose en el estado de recogida ajustado;
una unidad (104) de identificación, configurada para realizar el reconocimiento de voz de campo lejano en los segundos datos de voz usando un modelo de reconocimiento de voz de campo lejano preestablecido para obtener información semántica correspondiente a los segundos datos de voz;
en donde los primeros datos de voz comprenden: una palabra de activación por voz; la palabra de activación por voz son datos de voz para activar un dispositivo de voz; y
los segundos datos de voz comprenden un comando de voz, el comando de voz son datos de voz para controlar el dispositivo de voz;
la unidad (102) de adquisición está configurada para: después de determinar información de ubicación de una fuente de sonido que envía los primeros datos de voz, mejorar una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en la información de ubicación; y suprimir una intensidad del dispositivo de recogida de voz que recoge los primeros datos de voz para recoger los segundos datos de voz en ubicaciones distintas de la información de ubicación;
la unidad (104) de identificación está configurada para: preprocesar los segundos datos de voz para obtener información de voz, y realizar, usando el modelo de reconocimiento de voz de campo lejano preestablecido, reconocimiento de voz de campo lejano en la información de voz obtenida mediante preprocesamiento;
el modelo de reconocimiento de voz de campo lejano comprende: un modelo acústico de campo lejano obtenido mediante entrenamiento de aprendizaje profundo basándose en un algoritmo LSTM.
9. Un acondicionador de aire, que comprende: el aparato de reconocimiento de voz de la reivindicación 8.
10. Un medio de almacenamiento que comprende una pluralidad de instrucciones para ejecutar el método de reconocimiento de voz de una cualquiera de las reivindicaciones 1 a 7.
11. El acondicionador de aire de la reivindicación 9, que comprende:
un procesador y;
un medio de almacenamiento de la reivindicación 10,
en donde el procesador carga la pluralidad de instrucciones para ejecutar el método de reconocimiento de voz de una cualquiera de las reivindicaciones 1 a 7.
ES19915991T 2019-02-21 2019-10-09 Método y dispositivo de reconocimiento de voz, medio de almacenamiento y acondicionador de aire Active ES2953525T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201910130206.9A CN109767769B (zh) 2019-02-21 2019-02-21 一种语音识别方法、装置、存储介质及空调
PCT/CN2019/110107 WO2020168727A1 (zh) 2019-02-21 2019-10-09 一种语音识别方法、装置、存储介质及空调

Publications (1)

Publication Number Publication Date
ES2953525T3 true ES2953525T3 (es) 2023-11-14

Family

ID=66457008

Family Applications (1)

Application Number Title Priority Date Filing Date
ES19915991T Active ES2953525T3 (es) 2019-02-21 2019-10-09 Método y dispositivo de reconocimiento de voz, medio de almacenamiento y acondicionador de aire

Country Status (6)

Country Link
US (1) US11830479B2 (es)
EP (1) EP3923273B1 (es)
CN (1) CN109767769B (es)
ES (1) ES2953525T3 (es)
PT (1) PT3923273T (es)
WO (1) WO2020168727A1 (es)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20220291328A1 (en) * 2015-07-17 2022-09-15 Muhammed Zahid Ozturk Method, apparatus, and system for speech enhancement and separation based on audio and radio signals
CN109767769B (zh) * 2019-02-21 2020-12-22 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及空调
CN110223686A (zh) * 2019-05-31 2019-09-10 联想(北京)有限公司 语音识别方法、语音识别装置和电子设备
CN110415694A (zh) * 2019-07-15 2019-11-05 深圳市易汇软件有限公司 一种多台智能音箱协同工作的方法
CN110992974B (zh) 2019-11-25 2021-08-24 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN110931019B (zh) * 2019-12-06 2022-06-21 广州国音智能科技有限公司 公安语音数据采集方法、装置、设备和计算机存储介质
CN110807909A (zh) * 2019-12-09 2020-02-18 深圳云端生活科技有限公司 一种雷达和语音处理组合控制的方法
JP2021107699A (ja) * 2019-12-27 2021-07-29 アイリスオーヤマ株式会社 送風機
CN111688580B (zh) * 2020-05-29 2023-03-14 阿波罗智联(北京)科技有限公司 智能后视镜进行拾音的方法以及装置
CN111755006B (zh) * 2020-07-28 2023-05-30 斑马网络技术有限公司 一种定向收声装置和车载语音触发方法
CN112700771A (zh) * 2020-12-02 2021-04-23 珠海格力电器股份有限公司 空调、立体声控识别方法、计算机设备、存储介质及终端
CN112562671A (zh) * 2020-12-10 2021-03-26 上海雷盎云智能技术有限公司 一种服务机器人的语音控制方法和装置
CN113793596A (zh) * 2021-09-15 2021-12-14 深圳金贝奇电子有限公司 一种基于语音增强技术的耳机远场交互系统

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6122613A (en) * 1997-01-30 2000-09-19 Dragon Systems, Inc. Speech recognition using multiple recognizers (selectively) applied to the same input sample
US20040003070A1 (en) * 2002-06-26 2004-01-01 Clarus Systems, Inc. Centrally controlled end-to-end service quality monitoring system and method in a distributed environment
US8892443B2 (en) * 2009-12-15 2014-11-18 At&T Intellectual Property I, L.P. System and method for combining geographic metadata in automatic speech recognition language and acoustic models
EP2916567B1 (en) * 2012-11-02 2020-02-19 Sony Corporation Signal processing device and signal processing method
CN103095911B (zh) * 2012-12-18 2014-12-17 苏州思必驰信息科技有限公司 一种通过语音唤醒寻找手机的方法及系统
US9747917B2 (en) * 2013-06-14 2017-08-29 GM Global Technology Operations LLC Position directed acoustic array and beamforming methods
CN105825855A (zh) * 2016-04-13 2016-08-03 联想(北京)有限公司 一种信息处理方法及主终端设备
US20170365271A1 (en) * 2016-06-15 2017-12-21 Adam Kupryjanow Automatic speech recognition de-reverberation
EP3493201B1 (en) * 2016-07-26 2020-07-29 Sony Corporation Information processing device, information processing method, and computer program
US10431211B2 (en) * 2016-07-29 2019-10-01 Qualcomm Incorporated Directional processing of far-field audio
US10467509B2 (en) * 2017-02-14 2019-11-05 Microsoft Technology Licensing, Llc Computationally-efficient human-identifying smart assistant computer
CN107464564B (zh) * 2017-08-21 2023-05-26 腾讯科技(深圳)有限公司 语音交互方法、装置及设备
CN107862060B (zh) * 2017-11-15 2021-03-23 吉林大学 一种追踪目标人的语义识别装置及识别方法
KR20190084789A (ko) * 2018-01-09 2019-07-17 엘지전자 주식회사 전자 장치 및 그 제어 방법
KR20190101865A (ko) * 2018-02-23 2019-09-02 삼성전자주식회사 세탁 기기 및 그의 제어 방법
CN108538305A (zh) * 2018-04-20 2018-09-14 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备及计算机可读存储介质
CN109119071A (zh) * 2018-09-26 2019-01-01 珠海格力电器股份有限公司 一种语音识别模型的训练方法及装置
CN109215656A (zh) * 2018-11-14 2019-01-15 珠海格力电器股份有限公司 语音遥控装置装置及方法、存储介质、电子装置
CN109360579A (zh) * 2018-12-05 2019-02-19 途客电力科技(天津)有限公司 充电桩语音控制装置以及系统
CN109767769B (zh) * 2019-02-21 2020-12-22 珠海格力电器股份有限公司 一种语音识别方法、装置、存储介质及空调

Also Published As

Publication number Publication date
US20210383795A1 (en) 2021-12-09
EP3923273B1 (en) 2023-06-21
CN109767769B (zh) 2020-12-22
WO2020168727A1 (zh) 2020-08-27
PT3923273T (pt) 2023-07-07
EP3923273A4 (en) 2022-07-13
EP3923273A1 (en) 2021-12-15
US11830479B2 (en) 2023-11-28
CN109767769A (zh) 2019-05-17

Similar Documents

Publication Publication Date Title
ES2953525T3 (es) Método y dispositivo de reconocimiento de voz, medio de almacenamiento y acondicionador de aire
CN110992974B (zh) 语音识别方法、装置、设备以及计算机可读存储介质
CN109272989B (zh) 语音唤醒方法、装置和计算机可读存储介质
CN110364166B (zh) 实现语音信号识别的电子设备
CN110491403B (zh) 音频信号的处理方法、装置、介质和音频交互设备
CN110556103B (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN110364143B (zh) 语音唤醒方法、装置及其智能电子设备
CN110503970A (zh) 一种音频数据处理方法、装置及存储介质
CN110265020B (zh) 语音唤醒方法、装置及电子设备、存储介质
CN108297108B (zh) 一种球形跟随机器人及其跟随控制方法
US11495215B1 (en) Deep multi-channel acoustic modeling using frequency aligned network
CN110942779A (zh) 一种噪声处理方法、装置、系统
US20240013784A1 (en) Speaker recognition adaptation
CN110517702A (zh) 信号生成的方法、基于人工智能的语音识别方法及装置
US11762052B1 (en) Sound source localization
Macho et al. Automatic speech activity detection, source localization, and speech recognition on the CHIL seminar corpus
CN108680902A (zh) 一种基于多麦克风阵列的声源定位系统
US20150039314A1 (en) Speech recognition method and apparatus based on sound mapping
CN112799016B (zh) 声源定位方法、装置、计算机可读存储介质和电子设备
CN110415718B (zh) 信号生成的方法、基于人工智能的语音识别方法及装置
CN208520985U (zh) 一种基于多麦克风阵列的声源定位系统
CN114694667A (zh) 语音输出方法、装置、计算机设备及存储介质
CN112908310A (zh) 一种智能电器中的语音指令识别方法及识别系统
KR101863098B1 (ko) 음성 인식 장치 및 방법
CN113744731B (zh) 多模态语音识别方法、系统及计算机可读存储介质