ES2953623T3 - Asistente de voz virtual con precisión de reconocimiento mejorada - Google Patents

Asistente de voz virtual con precisión de reconocimiento mejorada Download PDF

Info

Publication number
ES2953623T3
ES2953623T3 ES21150542T ES21150542T ES2953623T3 ES 2953623 T3 ES2953623 T3 ES 2953623T3 ES 21150542 T ES21150542 T ES 21150542T ES 21150542 T ES21150542 T ES 21150542T ES 2953623 T3 ES2953623 T3 ES 2953623T3
Authority
ES
Spain
Prior art keywords
audio signal
analysis
algorithm
user
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES21150542T
Other languages
English (en)
Inventor
Mallouki Said El
Carl Jahn
Jascha Minow
Martin Michael Platschek
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Deutsche Telekom AG
Original Assignee
Deutsche Telekom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Deutsche Telekom AG filed Critical Deutsche Telekom AG
Application granted granted Critical
Publication of ES2953623T3 publication Critical patent/ES2953623T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02082Noise filtering the noise being echo, reverberation of the speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Abstract

La invención se refiere a técnicas para mejorar la precisión del reconocimiento de un asistente de voz virtual al recibir comandos de voz de un usuario, en donde el asistente de voz virtual se implementa en el terminal de un usuario y recibe los comandos de voz del usuario con un micrófono del terminal, comprendiendo el método los siguientes pasos: - Grabar una señal de audio recibida a través del micrófono del terminal y almacenar la señal de audio recibida en una unidad de almacenamiento; - pasar la señal de audio recibida a un algoritmo implementado en una unidad informática como entrada; - analizar la señal de audio usando el algoritmo, en donde el algoritmo está configurado para analizar la señal de audio entrante y determinar así qué componentes de la señal de audio provienen del usuario y emiten una señal de audio reducida como salida; - Extraiga al menos un comando de voz para el asistente de voz virtual de la señal de audio reducida. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Asistente de voz virtual con precisión de reconocimiento mejorada
La invención se refiere a un procedimiento para mejorar la precisión de reconocimiento de un asistente de voz virtual. Además, la invención se refiere a un terminal en el que está instalado el asistente de voz virtual y a un producto de programa informático en el que están depositados los pasos esenciales del procedimiento.
Los asistentes virtuales controlados por voz se están abriendo camino cada vez más en la vida cotidiana y, por lo tanto, también están expuestos más a situaciones "variadas" que pueden conllevar ruidos ambientales muy diferentes. Por ejemplo, los asistentes de voz virtuales son usados por usuarios en la sala de estar de su casa, de viaje en automóvil con una instalación de manos libres o en lugares públicos con audífonos o directamente a través de pulsar para hablar. Diferentes ruidos ambientales de diferentes fuentes, como un televisor, una radio, la calle, una instalación de manos libres, etc., y diferentes voces pueden perjudicar significativamente el reconocimiento de voz y, a menudo, dar lugar a entradas o comandos no deseados.
Un ejemplo de un aparato que puede representar un asistente de voz virtual y reconocer comandos de voz de un usuario se describe en el documento US 9,558,749 B1.
Los asistentes de voz virtuales actualmente en uso son solo insuficientemente capaces de procesar "correctamente" una cantidad tan grande de ruidos en una sola señal de audio. Por lo tanto, estos asistentes de voz no pueden detectar quién está hablando, de dónde proviene la voz, si se trata de una voz dirigida intencionadamente al asistente o solo de una persona hablando de fondo. Por ello se producen reconocimientos erróneos que conducen a que o bien no se ejecuten comandos de voz aunque se desee, o bien, que se ejecuten comandos de voz erróneos. Los asistentes de voz virtuales actuales solo contrarrestan este problema por medio de las técnicas de "formación de haces" o "cancelación de ruido". Sin embargo, si la señal de audio contiene ruido o voces provenientes de una determinada dirección, o si la voz de fondo es más alta que la del hablante (por ejemplo, en el caso de anuncios en una estación de tren), estos dos métodos de compensación suelen fallar. Al usuario del asistente de voz virtual esto evidentemente le parece insatisfactorio. A menudo no le queda claro por qué el sistema no fue capaz de ejecutar el comando de voz.
Por lo tanto, la invención tiene el objetivo de proporcionar técnicas que permitan al asistente de voz virtual analizar señales de audio con mayor eficiencia o precisión de reconocimiento y, de esta manera, mejorar los resultados.
Este objetivo se consigue con las características de las reivindicaciones independientes. Las características de los diversos aspectos de la invención o de los diversos ejemplos de realización descritos a continuación, pueden combinarse entre sí, a menos que esto esté explícitamente excluido o sea técnicamente imposible y siempre que el objeto resultante esté dentro del alcance de protección de las reivindicaciones.
De acuerdo con la invención, se proporciona un procedimiento para mejorar la precisión de reconocimiento de un asistente de voz virtual en comandos de voz de un usuario, estando implementado el asistente de voz virtual en el terminal del usuario, recibiendo los comandos de voz del usuario con un micrófono del terminal. El procedimiento comprende los siguientes pasos:
• la grabación de una señal de audio recibida por el micrófono del terminal y el almacenamiento de la señal de audio en una unidad de almacenamiento;
o los terminales posibles en los que está implementado el asistente de voz virtual pueden ser: un smartphone, una tablet, un altavoz inteligente, un ordenador, un vehículo y/o un "wearable". La unidad de almacenamiento puede estar prevista en el terminal y/o en un servidor en una red de comunicación. Si la unidad de almacenamiento está instalada en el servidor, la señal de audio transmitida a través del micrófono aún debe ser transmitida al servidor a través de una conexión de datos de la red de comunicación.
• La transferencia de la señal de audio recibida a un algoritmo implementado en una unidad de computación como entrada;
• l análisis de la señal de audio por medio del algoritmo, estando concebido el algoritmo para llevar a cabo un análisis de la señal de audio entrante y así determinar qué componentes de la señal de audio provienen del usuario y emitir una señal de audio reducida como salida;
o siendo procesada la señal de audio después del análisis correspondiente de tal manera que se detectan componentes de la señal de audio que con un valor de probabilidad previamente establecido son asignables al usuario. Las otras componentes de la señal de audio que están por debajo de este valor de probabilidad son marcadas como no relevantes por el algoritmo. La señal de audio reducida se compone entonces de las componentes que están por encima del valor de probabilidad predeterminado. Preferentemente, la composición se lleva a cabo en el orden cronológico en el que las componentes individuales se hallan en la señal de audio original. Por lo tanto, la señal de audio reducida tiene menos información de audio que la señal de audio original y, por ello, se denomina señal de audio reducida. En principio, como aún se explicará más adelante, se pueden generar diferentes etapas de la señal de audio reducida, representando cada etapa adicional una reducción adicional en relación con la etapa anterior.
• La extracción de al menos un comando de voz para el asistente de voz virtual de la señal de audio reducida.
Esto ofrece la ventaja de que el procedimiento es capaz, de manera similar a como los humanos son capaces, de forma natural. de bloquear los ruidos irrelevantes y los hablantes irrelevantes, de modo que permanezcan en la señal de audio reducida solamente las señales de audio del usuario, que con una alta probabilidad representan la base para la ejecución de los comandos de voz. De esta manera, se evitan comandos de voz erróneos y el asistente de voz virtual puede funcionar conforme a los deseos del usuario. En principio, esta solución representaba una segregación de audio de la señal de audio entrante con vistas al origen de las señales de audio. Preferentemente, se realiza un análisis en tiempo real, ya que el usuario no quiere esperar mucho a que se ejecuten los comandos de voz. Por lo tanto, las componentes irrelevantes de la señal de audio se remueven, eventualmente en varios pasos, y se eliminan cuando se procesa el comando de voz. Incluso si no fuese posible eliminar todas las señales de audio que no provienen del usuario, mediante este procedimiento no obstante se aumenta significativamente la precisión del reconocimiento.
Preferentemente, al menos uno de los siguientes métodos de análisis está implementado en el algoritmo:
• l análisis comparativo con un perfil de voz depositado del usuario;
o el perfil de voz del usuario se genera a partir de las entradas de voz anteriores del usuario. Preferentemente se utilizan para ello las entradas de voz del usuario que se realizaron sin ruido de fondo, de modo que se pueda crear un perfil de voz del usuario que sea lo más puro posible. Cada voz tiene características típicas, como la entonación, el tono, las frecuencias y/o las peculiaridades de pronunciación, que pueden usarse individualmente o en cualquier combinación para formar el perfil de voz del usuario. El perfil de voz del usuario puede compararse ahora con la señal de audio, siendo filtradas las áreas que con una probabilidad predefinida corresponden al perfil de voz del usuario. El perfil de voz puede ser depositado en el terminal y/o en el servidor y puede ser generado y mejorado constantemente, por ejemplo, mediante un proceso de aprendizaje automático. Este método es especialmente adecuado si el asistente de voz virtual del terminal es utilizado siempre por el mismo usuario.
• El análisis de frecuencia;
o tras la entrada de la señal de audio, la señal de audio primero es dividida por el algoritmo en rangos de frecuencia que son típicos de una voz humana y que por lo tanto pueden contener señales de audio del usuario (aprox. 500 Hz a 4,5 kHz) y en el resto de rangos de frecuencia que, por ejemplo, pueden provenir de ruidos de fondo. Esto también se denomina análisis de ancho de banda. De esta manera, se proporciona por tanto una posibilidad particularmente eficiente de detectar ruidos de fondo de la señal de audio. En particular, este método también es adecuado cuando alguien que no sea el usuario habitual utiliza el terminal para un comando de voz al asistente de voz virtual.
• El análisis de formación de haces;
o mediante el análisis de formación de haces, en la señal de audio se determina la dirección de la que provienen las señales correspondientes que componen la señal de audio. A este respecto, hay direcciones que se pueden determinar como provenientes del usuario con mayor probabilidad que otras. Las direcciones que vienen con una probabilidad predeterminada para el usuario se conservan, las demás se descartan y no se consideran para la señal de audio reducida. Este procedimiento es particularmente adecuado si el usuario se encuentra siempre en una posición determinada con respecto al terminal, por ejemplo, cuando da los comandos de voz.
• El análisis de posición;
o la posición local de un terminal puede ser determinada por un terminal, por ejemplo, mediante sus coordenadas GPS que típicamente son recopilados por el propio terminal. El entorno espacial del usuario puede determinarse con mayor precisión por medio de una comparación de una posición local determinada en un momento determinado con material cartográfico almacenado o disponible en Internet. En concreto: Si del análisis resulta que el usuario se encuentra en la misma posición g Ps que una estación de tren, es probable que la señal de audio recibida también contenga un anuncio por altavoz.
• El análisis del tiempo de propagación de la señal.
° mediante el análisis del tiempo de propagación de la señal se identifica la reverberación. Las componentes de la señal de audio a las que se pueda asignar un valor de reverberación encima de una duración previamente establecida, típicamente en milisegundos, se descartan y no se consideran para la señal de audio reducida. Este procedimiento es especialmente adecuado, por ejemplo, para anuncios en estaciones, ya que los anuncios en estaciones también se realizan con una voz natural y, dado el caso, a un volumen relativamente alto.
Cada uno de los métodos de análisis mencionados ofrece una posibilidad eficiente de filtrar la señal de audio original a fin de mantener las componentes que provienen del usuario. Según el tipo de ruido ambiental o de fondo, y también según las características del usuario, por ejemplo, la claridad con la que habla al terminal, uno de los métodos de análisis puede ser más adecuado que otro de los métodos de análisis. El uso de un solo método de análisis puede conducir a una reducción de la duración de cálculo por el algoritmo al generar la señal de audio reducida. Esto es generalmente deseable para el usuario, ya que espera un procesamiento de su comando de voz a ser posible en tiempo real.
En el curso siguiente del algoritmo, se pueden utilizar los servicios ASR-NLU que ayudan a seguir refinando el resultado a base de numerosos criterios. El ASR utiliza posibilidades para reconocer fragmentos de oraciones que no tengan ningún sentido semántico en el contexto general. Por ejemplo, una oración como "Hola Magenta, por favor pon 'Atención en el andén uno, está llegando el tren' algo bonito de Bon Jovi" puede reducirse por análisis semántico al comando realmente deseado "Hola Magenta, por favor pon algo bonito de Bon Jovi". Preferentemente, durante todo el tiempo de procesamiento por el algoritmo, los datos originales y los datos reducidos por optimización pueden mantenerse accesibles para poder implementar, dado el caso, una lógica retrospectiva como se explicará a continuación. La lógica retrospectiva puede ser eficiente cuando el asistente de voz virtual no puede hallar un comando de voz asignable al comando de voz extraído. Para optimizar el comportamiento del tiempo de ejecución, también se pueden calcular varias variantes del método de análisis en paralelo y se puede ejecutar el resultado con la mayor probabilidad de coincidencia con respecto al comando de voz intencionado "auténtico" del usuario.
En un ejemplo de realización, los métodos de análisis mencionados anteriormente se combinan entre sí a discreción.
Esto ofrece la ventaja de que las respectivas "fuerzas" de los métodos de análisis individuales se complementan entre sí formando un efecto de sinergia que hace que la señal de audio original se pueda filtrar de manera mucho más eficiente con respecto a la voz del usuario.
El algoritmo determina convenientemente una probabilidad de que el comando de voz determinado a partir de la señal de audio reducida sea un comando de voz real. En particular, el algoritmo puede comparar el comando de voz extraído con comandos de voz pasados del usuario. Si la probabilidad de que se trate de un comando de voz intencionado está por encima de un valor de umbral predefinido, el comando de voz es ejecutado por el asistente de voz virtual. De lo contrario, el algoritmo puede tomar más medidas.
En un ejemplo de realización preferente, la señal de audio reducida se transmite de nuevo al algoritmo como entrada para generar como salida una señal de audio reducida de una etapa adicional. La señal de audio de la etapa adicional es en particular una señal de audio reducida de la etapa 1, una señal de audio de la etapa uno puede usarse a su vez como entrada para generar una señal de audio de la etapa 2. En principio, esto se puede realizar n veces para generar una señal de audio de nivel n. Un mayor número de etapa significa que la señal de audio correspondiente se ha procesado o reducido aún más. En particular, dichas etapas adicionales pueden generarse si se detecta que la última señal de audio reducida generada está por debajo del valor umbral predefinido, y que se trata de un comando de voz intencionado. En principio, existen varias posibilidades para generar eficientemente señales de audio reducidas de las etapas adicionales. En comparación con la señal de audio generada en la etapa anterior, los parámetros del método de análisis se pueden seguir refinando y/o se usan otros métodos de análisis y/o los métodos de análisis se combinan entre sí de una manera diferente.
Preferentemente, las señales de audio reducidas de cada etapa adicional generada también se almacenan en la unidad de almacenamiento. Esto ofrece la ventaja de que se puede acceder rápidamente a los resultados correspondientes si se van a comparar entre sí las respectivas señales de audio reducidas generadas a partir de las distintas etapas.
En una forma de realización preferente, la señal de audio reducida de la etapa adicional se usa para extraer los comandos de voz para el asistente de voz virtual. En lugar de la señal de audio reducida generada originalmente, la señal de audio reducida se usa por lo tanto en una etapa adicional para extraer los comandos de voz. En particular, se usa la señal de audio reducida de la etapa a la que se le puede asignar con la mayor probabilidad un comando de voz intencionado del usuario. Esto ofrece la ventaja de que puede tener lugar eficientemente una selección de diferentes señales de audio reducidas, correspondiendo la selección al mismo tiempo con una alta probabilidad al comando de voz intencionado del usuario.
En un ejemplo de realización, la señal de audio reducida de una etapa adicional puede generarse de tal forma que el algoritmo se aplica nuevamente a la señal de audio reducida y/o que el algoritmo aplica otro método de análisis y/u otra combinación de métodos de análisis. En particular, los parámetros del análisis pueden por refinarse por tanto. Esto ofrece una posibilidad eficiente de obtener las señales de audio reducidas de la al menos una etapa adicional. A este respecto, cabe destacar que, en el caso normal, es deseable para el usuario un análisis en tiempo real, de modo que se generan señales de audio reducidas de las etapas posteriores solamente si el algoritmo determina que, con una probabilidad predeterminada, la última señal de audio reducida generada no es un comando de voz intencionado del usuario.
Preferentemente, se establece un orden en cuanto a la aplicación de los diferentes métodos de análisis, estableciéndose el orden con vistas al menor período de tiempo posible hasta la recepción de la salida. Esto ofrece la ventaja de que el comando de voz del usuario puede ser transmitido al asistente de voz virtual lo más rápido posible y es procesado a ser posible casi en tiempo real.
En un ejemplo de realización, el análisis puede llevarse a cabo en el terminal o en un servidor en una red de comunicación. El análisis en el terminal ofrece la ventaja de que no es necesario enviar datos a través de la red de comunicación y que el análisis puede realizarse casi inmediatamente en el terminal. Por otro lado, normalmente están disponibles más recursos informáticos y datos en un servidor en la red de comunicación, que pueden ser útiles en el análisis. Según el diseño concreto del terminal y los recursos disponibles en el servidor, una u otra variante proporciona la señal de audio reducida. Por lo tanto, es ventajoso si en el terminal están depositadas las especificaciones del servidor, de modo que el terminal pueda decidir qué variante de la señal de audio reducida está disponible más rápidamente. En el terminal puede estar implementada una lógica que decida qué variante se selecciona.
Otro factor para elegir la variante también depende del rendimiento de red que esté disponible actualmente para el terminal. Si, por ejemplo, solo hay una conexión de datos lenta con mala calidad de señal, la lógica decide que el procesamiento de la señal de audio se lleva a cabo en el terminal. Con una alta intensidad de señal y un gran ancho de banda (por ejemplo, 5G), la lógica puede enviar la señal de audio al servidor para su procesamiento. La lógica también puede tener en cuenta cuán "cara" es una transmisión de datos para el usuario. La regla aquí es que las conexiones WiFi son significativamente más baratas para el usuario que las conexiones de telefonía móvil.
En un ejemplo de realización, en el algoritmo está implementada una lógica orientada hacia atrás que vuelve a recurrir a una señal de audio reducida de una etapa anterior. Esto ofrece la ventaja de que también puede recurrirse a resultados anteriores si resulta que la señal reducida de una etapa superior da un peor resultado que la señal reducida de una etapa anterior.
De acuerdo con un segundo aspecto de la invención, se proporciona un terminal en el que está implementado un asistente de voz virtual, estando configurado el asistente de voz virtual para llevar a cabo uno de los procedimientos descritos anteriormente.
Las ventajas resultantes son sustancialmente análogas a las ventajas descritas anteriormente en relación con el procedimiento de acuerdo con la invención.
De acuerdo con un tercer aspecto de la invención, se proporciona un producto de programa informático. El producto de programa informático para un asistente de voz virtual está formado y concebido para la realización de uno de los procedimientos descritos anteriormente.
Las ventajas resultantes son sustancialmente análogas a las ventajas descritas anteriormente en relación con el procedimiento de acuerdo con la invención.
A continuación, se explican ejemplos de realización preferentes de la presente invención haciendo referencia a las figuras adjuntas:
La figura 1: muestra un sistema de comunicación con un terminal en el que se ejecuta el procedimiento de acuerdo con la invención.
La figura 2: muestra el diagrama de flujo del procedimiento de acuerdo con la invención.
A continuación, se explican en detalle numerosas características de la presente invención sobre la base de formas de realización preferentes. La presente divulgación no se limita a las combinaciones de características mencionadas en concreto. Más bien, las características mencionadas aquí pueden combinarse a discreción formando formas de realización de acuerdo con la invención, siempre que esto no se excluya expresamente en lo sucesivo y siempre que el objeto resultante esté dentro del alcance de protección de las reivindicaciones.
La figura 1 muestra un sistema de comunicación 1 con un terminal 2 en el que se ejecuta al menos parcialmente el procedimiento de acuerdo con la invención. El terminal 2 está conectado a una red de comunicación 6, en particular Internet 6, a través de una conexión de datos 4, proporcionando la red de comunicación 6 también la conexión de datos 4 a un servidor 8. El procedimiento de acuerdo con la invención, que se explica en lo sucesivo, puede estar implementado en principio como un algoritmo 10 en el terminal 2 pero también en el servidor 8. Las señales de audio son grabadas por el terminal 2 por medio de un micrófono incorporado y transferidas como entrada al algoritmo 10 previsto en el terminal 2 y/o el servidor 8. Como se explica en lo sucesivo, el algoritmo 10 procesa la señal de audio original y extrae de ella los comandos de voz de un usuario presentes en la señal de audio original. Estos comandos de voz se transfieren al asistente de voz virtual y se ejecutan de manera correspondiente.
La figura 2 muestra un diagrama de flujo del algoritmo.
Paso 12: la señal de audio grabada originalmente se entrega al algoritmo 10 como entrada.
Paso 14: una segregación de la voz del usuario es realizada por el algoritmo 10. El algoritmo puede aplicar los siguientes métodos de análisis. Preferentemente, estos se aplican sucesivamente en el siguiente orden:
• Análisis de frecuencia 16 (también llamado análisis de ancho de banda): aquí la señal de audio original se divide primero en rangos de frecuencia que pueden contener voces humanas (aprox. 500 Hz a 4,5 kHz) y en las bandas de frecuencia restantes, en las que se dividen las demás señales, que pueden provenir de ruidos de fondo, por ejemplo. Sin embargo, los ruidos de fondo se puede reutilizar para un análisis de contexto posterior.
• La formación de haces 18: mediante la formación de haces 18 se determina la dirección de la que proviene la señal entre las partes (restantes) de la voz (si esto es posible en el nivel HW).
• El análisis de Hall 20 (también análisis de tiempo de propagación de señal 20): el desfase de tiempo de la misma señal, preferentemente en el rango de milisegundos, se identifica como reverberación para identificar señales externas, como por ejemplo anuncios de altavoz en estaciones de tren o aeropuertos y fuertes ruidos ambientales en naves.
• La comparación con entradas anteriores 22: se realiza una comparación con los últimos comandos de voz hablados en cuanto a la voz, la velocidad del habla y similares, es decir, un análisis del perfil de voz 22 para poder determinar de manera más fiable qué componentes de la señal de audio provienen del usuario
• El análisis de canal 24: también es posible analizar a través de qué canal se recibió la señal de audio. ¿La señal de audio se recibió a través de un audífono Bluetooth, un altavoz, un micrófono o una instalación de manos libres? En el paso 26, los resultados de los diversos métodos de análisis se usan para calcular las partes de la señal de audio que no pertenecen a la voz del usuario.
El paso 28 muestra el efecto del análisis de frecuencia 16: se eliminan los rangos de frecuencia que no se pueden asignar a humanos. En particular, todos los rangos de frecuencia fuera de aproximadamente 500 Hz a 4,5 kHz. El paso 30 muestra el efecto de la formación de haces 18: las partes de la señal que pueden atribuirse a direcciones que probablemente no provienen del usuario se eliminan de la señal de audio original.
El paso 32 muestra el efecto del análisis Hall 20: se eliminan las componentes de la señal que tienen efectos Hall. El paso 34 muestra el efecto del análisis del perfil de voz 24: se eliminan las voces que no coinciden con el perfil de voz del usuario. La clasificación puede realizarse sobre la base de muestras de voz anteriores correctas.
En el paso 26, se genera como salida una señal de audio reducida.
Durante el procesamiento de los datos, todas las componentes de la señal de audio original, en particular también las componentes eliminadas, pueden conservarse guardando las componentes eliminadas por separado, por ejemplo, en una unidad de almacenamiento en el terminal dos. Esto ofrece la ventaja de que, en principio, se puede recurrir a toda la información de la señal de audio original en análisis posteriores.
En el paso 36, se realiza un análisis de contexto de la señal de audio reducida, dado el caso, incluyendo opcionalmente las componentes eliminadas de la señal de audio. De esta manera puede obtenerse información adicional para procesar el comando de voz, como por ejemplo:
• Paso 38: ¿se detectaron varias voces diferentes? ¿Hay varias personas en la habitación?
• Paso 40: la clasificación basada en aprendizaje automático para determinar la ubicación donde se encuentra actualmente el usuario. Por ejemplo en una estación de tren, en un bar, en un aeropuerto, en un coche, en una calle, en una oficina, etc.
• Paso 42: se puede analizar la voz del propio usuario mediante aprendizaje automático para determinar si se pueden clasificar determinadas características que revelan un estado de ánimo del usuario (enfadado, estresado, cansado, etc.).
La información del análisis de contexto se puede usar en el curso siguiente del procesamiento de los datos para generar respuestas correspondientes o para poder reconocer mejor la intención del usuario. Además, determinada información de contexto también puede servir como parámetro para una entrada para un comando de voz. Para ello puede usarse, por ejemplo, la ubicación actual. También el volumen de salida puede adaptarse dinámicamente al lugar, por ejemplo, más alto en la estación de tren y más bajo en el teletrabajo)
En la ramificación 44 se analiza si se reconoció una parte de voz adecuada para el comando de voz. Si no es así, la ramificación conduce al paso 50, en el que se realiza de nuevo el análisis con parámetros adaptados de los respectivos métodos de análisis. Si se pudo reconocer una parte de voz adecuada del usuario para el comando de voz, la ramificación conduce al paso 60.
En el paso 60, en principio, se puede acceder a todos los datos de los pasos anteriores durante todo el procesamiento. Se pueden hacer adaptaciones a base de los resultados en el curso siguiente del proceso. En el paso 60, se aplica "ASR".
Paso 62: el ASR puede activar el modelo adecuado para el entorno identificado en el que se grabó la señal de audio. Hay modelos especiales para la estación de tren, el coche, etc.
En el paso 64, la transcripción de la señal de audio reducida se realiza incluyendo los parámetros determinados.
En el paso 66, se examina el texto en busca de incoherencias semánticas. Por ejemplo, frases como "pon la radio más caliente" o "sube el volumen del agua" no tienen sentido. Esto permite identificar cualquier superposición. Si aquí se notasen incoherencias, el algoritmo vuelve al paso 50 y adapta de manera correspondiente los parámetros de los métodos de análisis, de manera que se genera otra señal de audio reducida que no presenta estas incoherencias.
En el paso 70, se aplica "NLU". La NLU asimismo está apoyada por la información de contexto determinada. En el paso 72, por ejemplo, se puede mejorar el reconocimiento de una intención, por ejemplo, teniendo en cuenta el lugar. En el paso 74 se puede realizar un "reconocimiento de entidad".
Una vez realizados los pasos 72 y 74, los datos junto con el contexto y los datos de análisis se pueden enviar a "Skill" 80 como comando de voz para el asistente de voz virtual.
En el paso 80 se ejecuta el comando de voz extraído del usuario.
La respuesta al comando de voz se emite al usuario en el paso 82 en forma de "TTS". La generación de la salida de voz puede usar la información de contexto para ajustar el volumen de la respuesta (paso 84) así como para responder al estado de ánimo del hablante (paso 86). El estado de ánimo del hablante se puede abordar, por ejemplo, eligiendo un asistente de voz que parezca lo más empático posible. Para determinados escenarios, puede ser útil usar otra voz que se pueda entender mejor en malas condiciones, como por ejemplo otra velocidad del habla u otra frecuencia de la voz del hablante.

Claims (14)

REIVINDICACIONES
1. Procedimiento para mejorar la precisión de reconocimiento de un asistente de voz virtual en comandos de voz de un usuario, estando implementado el asistente de voz virtual en el terminal del usuario, recibiendo los comandos de voz del usuario con un micrófono del terminal, comprendiendo el procedimiento los siguientes pasos:
• La grabación de una señal de audio recibida por el micrófono del terminal y el almacenamiento de la señal de audio en una unidad de almacenamiento;
• la transferencia de la señal de audio recibida a un algoritmo implementado en una unidad de computación como entrada;
• el análisis de la señal de audio por medio del algoritmo, estando concebido el algoritmo para llevar a cabo un análisis de la señal de audio entrante y así determinar qué componentes de la señal de audio provienen del usuario y emitir una señal de audio reducida como salida;
• la extracción de al menos un comando de voz para el asistente de voz virtual de la señal de audio reducida,
en el que la señal de audio es procesada después del análisis de tal manera que se detectan componentes de la señal de audio que con un valor de probabilidad previamente establecido son asignables al usuario, en el que las otras componentes de la señal de audio que están por debajo de este valor de probabilidad son marcadas como no relevantes por el algoritmo,
en el que la señal de audio reducida se compone de las componentes que están por encima del valor de probabilidad predeterminado, realizándose la composición en el orden cronológico en el que se encuentran las componentes individuales en la señal de audio original.
2. Procedimiento de acuerdo con la reivindicación 1, caracterizado por que en el algoritmo está implementado al menos uno de los siguientes métodos de análisis:
• El análisis comparativo con un perfil de voz depositado del usuario;
• el análisis de frecuencia;
• el análisis de formación de haces;
• el análisis de posición;
• el análisis del tiempo de propagación de la señal.
3. Procedimiento de acuerdo con la reivindicación 2, caracterizado por que los métodos de análisis mencionados anteriormente pueden combinarse entre sí a discreción.
4. Procedimiento de acuerdo con una de las reivindicaciones anteriores, caracterizado por que el algoritmo determina una probabilidad de que el comando de voz determinado sea un comando de voz real.
5. Procedimiento de acuerdo con una de las reivindicaciones anteriores, caracterizado por que la señal de audio reducida se transmite de nuevo al algoritmo como entrada para generar como salida una señal de audio reducida de una etapa adicional.
6. Procedimiento de acuerdo con la reivindicación 5, caracterizado por que la señal de audio reducida de la etapa adicional se almacena en la unidad de almacenamiento.
7. Procedimiento de acuerdo con una de las reivindicaciones 5 a 6, caracterizado por que la señal de audio reducida de la etapa adicional se usa para extraer los comandos de voz para el asistente de voz virtual.
8. Procedimiento de acuerdo con una de las reivindicaciones 5 a 7, caracterizado por que la señal de audio reducida de una etapa adicional puede generarse de tal forma que el algoritmo se aplica nuevamente a la señal de audio reducida y/o por que el algoritmo aplica otro método de análisis y/u otra combinación de métodos de análisis.
9. Procedimiento de acuerdo con una de las reivindicaciones 2 a 8, caracterizado por que se establece un orden en cuanto a la aplicación de los diferentes métodos de análisis, estableciéndose el orden con vistas al menor período de tiempo posible hasta la recepción de la salida.
10. Procedimiento de acuerdo con una de las reivindicaciones anteriores, caracterizado por que el análisis puede realizarse en el terminal o en un servidor de una red de comunicación.
11. Procedimiento de acuerdo con la reivindicación 9, caracterizado por que el análisis se realiza en el servidor si existe suficiente rendimiento de red.
12. Procedimiento de acuerdo con una de las reivindicaciones anteriores, caracterizado por que en el algoritmo está implementada una lógica orientada hacia atrás que vuelve a recurrir a una señal de audio reducida de una etapa anterior.
13. Terminal en el que está implementado un asistente de voz virtual, estando el asistente de voz virtual concebido para realizar uno de los procedimientos de acuerdo con una de las reivindicaciones 1 a 12.
14. Producto de programa informático adecuado para formar un asistente de voz virtual y concebido para la realización de un procedimiento de acuerdo con una de las reivindicaciones 1 a 12.
ES21150542T 2021-01-07 2021-01-07 Asistente de voz virtual con precisión de reconocimiento mejorada Active ES2953623T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP21150542.5A EP4027333B1 (de) 2021-01-07 2021-01-07 Virtueller sprachassistent mit verbesserter erkennungsgenauigkeit

Publications (1)

Publication Number Publication Date
ES2953623T3 true ES2953623T3 (es) 2023-11-14

Family

ID=74105915

Family Applications (1)

Application Number Title Priority Date Filing Date
ES21150542T Active ES2953623T3 (es) 2021-01-07 2021-01-07 Asistente de voz virtual con precisión de reconocimiento mejorada

Country Status (2)

Country Link
EP (1) EP4027333B1 (es)
ES (1) ES2953623T3 (es)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130085753A1 (en) * 2011-09-30 2013-04-04 Google Inc. Hybrid Client/Server Speech Recognition In A Mobile Device
JP5810912B2 (ja) * 2011-12-28 2015-11-11 富士通株式会社 音声認識装置、音声認識方法及び音声認識プログラム
US20140025374A1 (en) * 2012-07-22 2014-01-23 Xia Lou Speech enhancement to improve speech intelligibility and automatic speech recognition
US9558749B1 (en) * 2013-08-01 2017-01-31 Amazon Technologies, Inc. Automatic speaker identification using speech recognition features
KR101805976B1 (ko) * 2015-03-02 2017-12-07 한국전자통신연구원 음성 인식 장치 및 방법
CN106910500B (zh) * 2016-12-23 2020-04-17 北京小鸟听听科技有限公司 对带麦克风阵列的设备进行语音控制的方法及设备
US10403299B2 (en) * 2017-06-02 2019-09-03 Apple Inc. Multi-channel speech signal enhancement for robust voice trigger detection and automatic speech recognition
US10713007B2 (en) * 2017-12-12 2020-07-14 Amazon Technologies, Inc. Architecture for a hub configured to control a second device while a connection to a remote system is unavailable

Also Published As

Publication number Publication date
EP4027333A1 (de) 2022-07-13
EP4027333B1 (de) 2023-07-19

Similar Documents

Publication Publication Date Title
JP7461416B2 (ja) 記録メディアのホットワードトリガ抑制
US11823679B2 (en) Method and system of audio false keyphrase rejection using speaker recognition
KR102474941B1 (ko) 발언 분류기
KR102493289B1 (ko) 핫워드 억제
US9293133B2 (en) Improving voice communication over a network
US9240183B2 (en) Reference signal suppression in speech recognition
US20060229873A1 (en) Methods and apparatus for adapting output speech in accordance with context of communication
US11587547B2 (en) Electronic apparatus and method for controlling thereof
US10049658B2 (en) Method for training an automatic speech recognition system
WO2014118420A1 (es) Método y sistema para obtener información relevante de una comunicación por voz
US20170221481A1 (en) Data structure, interactive voice response device, and electronic device
ES2953623T3 (es) Asistente de voz virtual con precisión de reconocimiento mejorada
US20110208516A1 (en) Information processing apparatus and operation method thereof
Shabtai et al. Room volume classification from reverberant speech
KR20140077422A (ko) 음성인식 성능향상 방법
Cossalter et al. Ad-hoc meeting transcription on clusters of mobile devices
Yoon et al. Acoustic model combination incorporated with mask-based multi-channel source separation for automatic speech recognition
ES2577705T3 (es) Procedimiento y sistema para obtener información relevante de una comunicación por voz
Eswaran et al. The Connected for easy Conversation Transformation
Tak et al. Clustering Approach in speech phoneme recognition based on statistical analysis
KR20190041108A (ko) 차량의 음성생성 시스템 및 방법
Petrick et al. Methods for robust speech recognition in reverberant environments: A comparison