ES2952381T3 - Procedimiento y aparatos de interacción de habla - Google Patents

Procedimiento y aparatos de interacción de habla Download PDF

Info

Publication number
ES2952381T3
ES2952381T3 ES20183503T ES20183503T ES2952381T3 ES 2952381 T3 ES2952381 T3 ES 2952381T3 ES 20183503 T ES20183503 T ES 20183503T ES 20183503 T ES20183503 T ES 20183503T ES 2952381 T3 ES2952381 T3 ES 2952381T3
Authority
ES
Spain
Prior art keywords
task
information
user terminal
question
speech
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES20183503T
Other languages
English (en)
Inventor
Luyu Gao
Tianwei Sun
Baiming Ma
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Xiaomi Pinecone Electronic Co Ltd
Original Assignee
Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Xiaomi Pinecone Electronic Co Ltd filed Critical Beijing Xiaomi Pinecone Electronic Co Ltd
Application granted granted Critical
Publication of ES2952381T3 publication Critical patent/ES2952381T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/44Arrangements for executing specific programs
    • G06F9/451Execution arrangements for user interfaces
    • G06F9/453Help systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/46Multiprogramming arrangements
    • G06F9/48Program initiating; Program switching, e.g. by interrupt
    • G06F9/4806Task transfer initiation or dispatching
    • G06F9/4843Task transfer initiation or dispatching by program, e.g. task dispatcher, supervisor, operating system
    • G06F9/4881Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues
    • G06F9/4887Scheduling strategies for dispatcher, e.g. round robin, multi-level priority queues involving deadlines, e.g. rate based, periodic
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Electrophonic Musical Instruments (AREA)
  • Display Devices Of Pinball Game Machines (AREA)

Abstract

La presente divulgación proporciona un método y aparato de interacción de voz, un dispositivo y un medio de almacenamiento. El método incluye que: se adquiere información de voz de un usuario (202); se determina (204) una lista de tareas correspondiente a la información de voz, incluyendo la lista de tareas al menos dos tareas ordenadas; y para cada tarea en las al menos dos tareas ordenadas, en respuesta a que la siguiente tarea de una tarea presente es una tarea de pregunta-respuesta, la información de respuesta de la siguiente tarea se consulta y envía a un terminal de usuario antes del tiempo de ejecución de la siguiente tarea. llega (206), de modo que el terminal de usuario genera la información de respuesta cuando llega el tiempo de ejecución de la siguiente tarea. (Traducción automática con Google Translate, sin valor legal)

Description

DESCRIPCIÓN
Procedimiento y aparatos de interacción de habla
Campo técnico
La presente solicitud se refiere en general al campo técnico de la interacción de habla (interacción de voz) y, más particularmente, a un procedimiento y aparato de interacción de habla, un dispositivo y un medio de almacenamiento.
Estado de la técnica
Con la mejora continua de las tecnologías de inteligencia artificial, también se ha desarrollado la interacción de habla hombre-máquina, y cada vez más usuarios prefieren diversos asistentes de habla (asistentes de voz) y dispositivos de interacción hombre-máquina. La interacción de habla se refiere a la interacción con una máquina que usa un habla como portadora de información. Una serie de entradas y salidas son generadas por la interacción, comunicación e intercambio de información de una persona y un ordenador para completar una tarea o lograr un propósito. En comparación con una forma de interacción hombre-máquina convencional, la interacción de habla es más rápida y sencilla.
En un proceso de interacción de habla existente, después de que un usuario introduce un habla en una máquina, si el habla corresponde a una tarea de pregunta-respuesta, la máquina puede buscar un resultado que coincida con el habla en un corpus y luego retroalimentar el resultado al usuario. Si el habla corresponde a una tarea de control, la máquina puede ejecutar la tarea de control correspondiente. Considere un altavoz inteligente como ejemplo, el altavoz inteligente puede conectarse con/a una red y, después de adquirir un habla de entrada de un usuario, ejecutar una tarea correspondiente al habla de entrada.
En una técnica relacionada, la interacción de habla normalmente tiene forma de pregunta-respuesta. Por ejemplo, un usuario pregunta: Xiaoai (palabra de activación), ¿qué tiempo hace hoy? El altavoz de MIUI responde: está de despejado a nublado, con viento del norte de grado 3, la temperatura es de 19 a 26 grados centígrados y la calidad del aire es buena. Sin embargo, en dicha forma de interacción, un asistente de habla solo puede dar una única respuesta y no puede cumplir con el requisito de un escenario complejo que requiera múltiples respuestas.
La tecnología relacionada se conoce a partir del documento US 2019/066677 A1.
Compendio
Para resolver el problema de la técnica relacionada, la presente divulgación proporciona un procedimiento de interacción de habla según la reivindicación 1 y un aparato según la reivindicación 6.
Los rasgos característicos del procedimiento y aparato de interacción de habla según la presente divulgación se definen en las reivindicaciones independientes, y los rasgos característicos preferibles según la presente invención se definen en las reivindicaciones dependientes.
Las soluciones técnicas en las realizaciones de la presente divulgación pueden tener los siguientes efectos beneficiosos.
Según las realizaciones de la presente divulgación, se puede preconfigurar una relación de correspondencia entre la información de habla y una lista de tareas, la lista de tareas puede incluir múltiples tareas ordenadas, y después de obtener la información de habla del usuario, la lista de tareas correspondiente a la información de habla se puede determinar, de modo que un habla puede corresponder a múltiples tareas, no se requiere que el usuario introduzca múltiples hablas, se enriquecen las respuestas de interacción de habla, se mejora la eficacia de la interacción hombremáquina y se resuelve el problema de la reducción de reconocimiento de habla causado por múltiples interacciones de habla. Además, en cada tarea de las por lo menos dos tareas ordenadas, en respuesta a que la tarea siguiente de la tarea actual es una tarea de pregunta-respuesta, se consulta la información de respuesta de la tarea siguiente y se envía al terminal de usuario en un tiempo preestablecido antes de que llegue el tiempo de ejecución de la tarea siguiente, de modo que el terminal de usuario emite la información de respuesta cuando llega el tiempo de ejecución de la tarea siguiente, para asegurar una alta puntualidad y exactitud de la información de respuesta de la tarea.
Se ha de entender que las descripciones generales anteriores y las descripciones detalladas a continuación son solo ejemplares y explicativas y no pretenden limitar la presente divulgación.
Breve descripción de los dibujos
Los dibujos adjuntos, que están incorporados en, y constituyen una parte de, esta memoria descriptiva, ilustran realizaciones congruentes con la presente divulgación y, junto con la descripción, sirven para explicar los principios de la presente divulgación.
La figura 1 es un diagrama de escenario de aplicación de un procedimiento de interacción de habla, según una realización ejemplar de la presente divulgación.
La figura 2 es un diagrama de flujo que muestra un procedimiento de interacción de habla, según una realización ejemplar de la presente divulgación.
La figura 3 es un diagrama de flujo que muestra otro procedimiento de interacción de habla, según una realización ejemplar de la presente divulgación.
La figura 4 es un diagrama de temporización de un procedimiento de interacción de habla, según una realización ejemplar de la presente divulgación.
La figura 5 es un diagrama de temporización de otro procedimiento de interacción de habla, según una realización ejemplar de la presente divulgación.
La figura 6 es un diagrama de bloques de un aparato de interacción de habla según una realización ejemplar de la presente divulgación.
La figura 7 es un diagrama de bloques de un aparato de interacción de habla según una realización ejemplar de la presente divulgación.
La figura 8 es un diagrama de estructura de un aparato de interacción de habla según una realización ejemplar de la presente divulgación.
Descripción detallada
A continuación, se hará referencia en detalle a realizaciones ejemplares, ejemplos de las cuales se ilustran en los dibujos adjuntos. La siguiente descripción se refiere a los dibujos adjuntos en los que los mismos números en diferentes dibujos representan los mismos elementos o elementos similares, a menos que se represente lo contrario. Las realizaciones expuestas en la siguiente descripción de realizaciones ejemplares no representan todas las realizaciones congruentes con la presente divulgación. En cambio, son meramente ejemplos de aparatos y procedimientos congruentes con aspectos relacionados con la presente divulgación tal como se menciona en las reivindicaciones adjuntas.
Los términos usados en la presente divulgación se adoptan únicamente con el propósito de describir realizaciones ejemplares y no pretenden limitar la presente divulgación. "Un/uno", "dicho" y "el/la" en forma singular en la presente divulgación y las reivindicaciones adjuntas también pretenden incluir una forma plural, a menos que se indiquen claramente otros significados a lo largo de la presente divulgación. También se ha de entender que el término "y/o" usado en la presente divulgación se refiere e incluye una o cualquiera o todas las posibles combinaciones de múltiples elementos asociados que se enumeran.
Se ha de entender que, aunque los términos primero, segundo, tercero y similares pueden adoptarse para describir información diversa en la presente divulgación, la información no se debería limitar a estos términos. Estos términos sólo se adoptan para distinguir la información del mismo tipo. Por ejemplo, sin apartarse del alcance de la presente divulgación, la primera información también puede denominarse segunda información y, de forma similar, la segunda información también puede denominarse primera información. Por ejemplo, el término "si" usado aquí puede explicarse como "mientras" o "cuando" o "en respuesta a la determinación", que depende del contexto.
Junto con la llegada de la era de la inteligencia artificial, los asistentes de habla inteligentes se han aplicado a la vida diaria de manera más extensa, y cada vez están implicados más ámbitos, desde teléfonos inteligentes y electrodomésticos inteligentes hasta escenarios de vehículos y atención domiciliaria inteligente. Según diferentes escenarios de aplicación y diversos requisitos complejos, también se enriquecen las formas de interacción para los usuarios y asistentes de habla. Una serie de entradas y salidas son generadas por la interacción, comunicación e intercambio de información de una persona y un ordenador para completar una tarea o lograr un propósito. La interacción de habla se refiere a la interacción con una máquina que usa un habla como portadora de información. En comparación con una forma de interacción hombre-máquina convencional, la interacción de habla es más rápida y sencilla. Cuando se reproduce una canción, es posible que se necesiten unos minutos para introducir, consultar y reproducir en una interfaz gráfica de usuario (GUI) convencional, mientras que se necesita menos tiempo para la interacción de habla. Se liberan las manos, se evitan operaciones complejas a través de una aplicación (APP) y se puede asignar una tarea de habla a un terminal al mismo tiempo que se conduce. La tarea de habla puede ser una tarea de pregunta-respuesta, concretamente, un usuario pregunta y el terminal responde. La tarea de habla también puede ser una tarea de control, concretamente, el usuario controla otro dispositivo, en particular un dispositivo doméstico inteligente y similares, a través de un habla. Junto con el desarrollo continuo de la interacción de habla, para cumplir con los requisitos cada vez más complejos de un usuario en un asistente de habla inteligente, ha surgido una forma de diálogo de múltiples rondas. Por ejemplo:
usuario: Xiaoai, pon el despertador.
Xiaoai: ¿a qué hora quieres poner el despertador?
usuario: pon el despertador a las 7 de la mañana.
Xiaoai: vale, te he puesto el despertador a las 7 de la mañana.
La forma de diálogo de múltiples rondas es una forma de interacción proporcionada con la condición de que la intención del usuario sea ambigua a causa de preguntas sueltas. Se requiere que el asistente de habla inteligente continúe activamente el diálogo para adquirir un requisito más completo del usuario y luego dar una respuesta única a este requisito. Cada ronda del diálogo también está en forma de pregunta-respuesta, y es imposible dar múltiples respuestas.
Se puede ver que, para la forma de pregunta-respuesta o la forma de diálogo de múltiples rondas, el asistente de habla solo puede dar una única respuesta cada vez y no puede cumplir con el requisito de un escenario complejo que requiere múltiples respuestas.
En vista de esto, las realizaciones de la presente divulgación proporcionan soluciones de interacción de habla. Se puede preconfigurar una relación de correspondencia entre la información de habla y una lista de tareas, y la lista de tareas puede incluir múltiples tareas. Después de obtener la información de habla de un usuario, se determina una lista de tareas correspondiente a la información de habla, de modo que un habla puede corresponder a múltiples tareas, no se requiere que el usuario introduzca múltiples hablas, las respuestas de interacción de habla se enriquecen, se mejora la eficacia de la interacción hombre-máquina y se resuelve el problema de la reducción de reconocimiento de habla causado por múltiples interacciones de voz. Además, para cada tarea en por lo menos dos tareas ordenadas, en respuesta a que la tarea siguiente de una tarea actual es una tarea de pregunta-respuesta, se consulta la información de respuesta de la tarea siguiente y se envía a un terminal de usuario en un tiempo preestablecido antes de que llegue el tiempo de ejecución de la tarea siguiente de modo que el terminal de usuario emite la información de respuesta cuando llega el tiempo de ejecución de la tarea siguiente, para asegurar una alta puntualidad y exactitud de la información de respuesta de la tarea.
Las realizaciones de la presente divulgación se describirán de forma ejemplar a continuación en combinación con los dibujos adjuntos.
Para facilitar la comprensión, se describe a modo de ejemplo un escenario de aplicación de realizaciones de la presente divulgación. La solución de interacción de habla de las realizaciones de la presente divulgación puede aplicarse a una arquitectura que incluye un terminal de usuario y un sistema de interacción de habla. El terminal de usuario y un servidor pueden estar configurados en un mismo dispositivo electrónico y también pueden estar configurados en diferentes dispositivos electrónicos. Cuando el terminal de usuario y el servidor están configurados en el mismo dispositivo electrónico, el mismo dispositivo puede completar la entrada de audio, el procesamiento de audio, la ejecución de tareas y similares. Cuando el terminal de usuario y el servidor están configurados en diferentes dispositivos electrónicos, puede aliviarse la presión de procesamiento del terminal de usuario. El terminal de usuario puede ser un terminal con una función de adquisición de habla y, por ejemplo, puede ser un teléfono inteligente, una tableta informática, un asistente personal digital (PDA), un dispositivo ponible, un altavoz inteligente y similares. El sistema de interacción de habla puede ser un servidor con capacidad de procesamiento de habla. Por ejemplo, el altavoz inteligente representa el terminal de usuario y el servidor representa el sistema de interacción de habla. La figura 1 es un diagrama de escenario de aplicación de un procedimiento de interacción de habla, según una realización ejemplar de la presente divulgación. En el escenario de aplicación, un usuario puede hablar con el terminal de usuario, el terminal de usuario adquiere información de habla y envía la información adquirida de habla al sistema de interacción de habla, y el sistema de interacción de habla puede realizar el procesamiento de habla. Por ejemplo, el sistema de interacción de habla puede incluir un módulo de reconocimiento automático de habla (ASR), un módulo de procesamiento de lenguaje natural (NLP), un módulo de planificación de tareas y un módulo de texto a habla (TTS). El módulo ASR convierte un habla en un texto. El módulo NLP interpreta el texto y da una retroalimentación. El módulo de planificación de tareas realiza la planificación de tareas. El módulo TTS convierte la información de salida en un habla. Se ha de entender que el sistema de interacción de habla puede ser otras arquitecturas en la técnica relacionada y en la presente memoria se omiten las elaboraciones.
A continuación, el procedimiento de interacción de habla se describe de forma ejemplar desde el ángulo de un solo lado.
La figura 2 es un diagrama de flujo que muestra un procedimiento de interacción de habla, según una realización ejemplar de la invención. El procedimiento incluye las etapas siguientes.
En la etapa 202, se adquiere información de habla de un usuario.
En la etapa 204, se determina una lista de tareas correspondiente a la información de habla, y la lista de tareas incluye por lo menos dos tareas ordenadas.
En la etapa 206, en cada tarea de las por lo menos dos tareas ordenadas, en respuesta a que la tarea siguiente de una tarea actual es una tarea de pregunta-respuesta, se consulta la información de respuesta de la tarea siguiente y se envía a un terminal de usuario antes de que llegue un tiempo de ejecución de tiempo preestablecido de la tarea siguiente de modo que el terminal de usuario emite la información de respuesta cuando llega el tiempo de ejecución de la tarea siguiente.
El procedimiento de interacción de habla proporcionado en la realización puede ejecutarse a través de software y también puede implementarse por el software y el hardware juntos o ejecutarse por el hardware, y el hardware implicado puede estar formado por dos o más entidades físicas y también puede estar formado por una entidad física. El procedimiento de la realización se aplica a un sistema de interacción de habla, y el sistema de interacción de habla puede configurarse en un dispositivo electrónico con capacidad de procesamiento de habla o formarse por un dispositivo electrónico con capacidad de procesamiento de habla. El dispositivo electrónico puede ser un dispositivo terminal, también puede ser un dispositivo servidor y puede configurarse según se requiera. A continuación, se harán descripciones ejemplares con la condición de que un ejecutor local sea el sistema de interacción de habla como ejemplo.
La información de habla del usuario puede ser información de habla adquirida mediante el terminal de usuario, y se envía al sistema de interacción de habla mediante el terminal de usuario. En el sistema de interacción de habla, se puede preconfigurar una relación de correspondencia entre la información de habla y una lista de tareas. La lista de tareas correspondiente a la información de habla puede ser configurada por el usuario. Por ejemplo, se proporciona una interfaz de configuración y ofrece una respuesta a una entrada de instrucción de configuración por parte del usuario para obtener la lista de tareas correspondiente a la información de habla. La lista de tareas correspondiente a la información de habla también puede ser recomendada por el sistema y puede configurarse según se requiera.
En la realización, la lista de tareas correspondiente a la información de habla está configurada para lograr la correspondencia de un habla y múltiples tareas. La lista de tareas incluye por lo menos las dos tareas ordenadas. Por ejemplo, la lista de tareas puede incluir diversos tipos de tareas y puede haber un requisito de secuencia de ejecución para cada tarea. Por ejemplo, las tareas de la lista de tareas incluyen, pero no se limitan a, una tarea de preguntarespuesta, una tarea de control y similares. La tarea de pregunta-respuesta puede ser una tarea que requiera consulta y respuesta del sistema de interacción de habla. La tarea de control puede ser una tarea que requiere que el sistema de interacción de habla controle un dispositivo, por ejemplo, controlar un dispositivo doméstico inteligente, por ejemplo, controlar el encendido/apagado de una lámpara inteligente y controlar el encendido/apagado de una olla arrocera inteligente, etc. El reconocimiento y la comprensión semántica de un habla de entrada pueden considerarse como reconocimiento de un escenario. Por ejemplo, si la información de habla es "buenos días", puede considerarse como un escenario para levantarse, y las tareas en la lista de tareas correspondiente pueden incluir: reproducir música relajante (durante 20 minutos) y simultáneamente abrir la cortina de un dormitorio; luego reproducir de las noticias de la mañana (durante 20 minutos); luego reproducir del pronóstico del tiempo; y finalmente reproducir el estado del tráfico de una carretera al trabajo.
El autor de la invención ha encontrado que algunas tareas de la lista de tareas pueden tener un requisito de consulta de resultados en tiempo real, por ejemplo, el estado del tráfico de la carretera al trabajo. Si se recibe el habla "buenos días", se consulta inmediatamente la información de respuesta de cada tarea de pregunta-respuesta, por ejemplo, se consulta el estado del tráfico de la carretera al trabajo y se transmite colectivamente al terminal de usuario para su almacenamiento en caché. Cuando llega el momento de reproducir la información sobre el estado del tráfico, el estado del tráfico almacenado en caché puede ser un estado del tráfico de hace por lo menos 40 minutos, y la información sobre el estado del tráfico obtenida por el usuario es inexacta.
Por lo tanto, en algunas realizaciones, el terminal de usuario está habilitado para ofrecer diversas respuestas complejas y al mismo tiempo asegurar una alta puntualidad y exactitud de los contenidos de las respuestas. En una realización, en cada tarea de las por lo menos dos tareas ordenadas, en respuesta a que la tarea siguiente de la tarea actual es una tarea de pregunta-respuesta, se consulta la información de respuesta de la tarea siguiente y se envía a un terminal de usuario en un tiempo preestablecido antes de que llegue el tiempo de ejecución de la tarea siguiente de modo que el terminal de usuario emite la información de respuesta cuando llega el tiempo de ejecución de la tarea siguiente.
En la realización, la información de respuesta de la tarea siguiente puede consultarse cuando la tarea siguiente está a punto de ejecutarse, de modo que se garantiza la puntualidad y exactitud de la información de respuesta obtenida mediante el terminal de usuario.
Para saber cómo determinar que un estado de tiempo actual es anterior al tiempo de ejecución de la tarea siguiente, en una realización, el tiempo de ejecución de cada tarea se marca en la lista de tareas y, en este caso, se puede determinar que el estado de tiempo actual es antes de que llegue el tiempo de ejecución de la tarea siguiente, por ejemplo, la consulta se realiza en un tiempo preestablecido antes de que llegue el tiempo de ejecución. En otra realización, cuando se recibe una solicitud de tarea para ejecutar la tarea siguiente desde el terminal de usuario, se determina que el estado de tiempo actual es antes de que llegue el tiempo de ejecución de la tarea siguiente. Por ejemplo, antes de la operación en la que se consulta la información de respuesta de la tarea siguiente y envía al terminal de usuario, el procedimiento incluye además que: se recibe una solicitud de tarea que contiene información de tarea de la tarea siguiente enviada mediante el terminal de usuario. Una oportunidad cuando el terminal de usuario envía la solicitud de tarea puede ser antes de que llegue el tiempo de ejecución de la tarea siguiente. Por ejemplo, el terminal de usuario puede determinar el tiempo de compleción de la tarea actual, de modo que, si la tarea siguiente se ejecuta inmediatamente después de la tarea actual, el terminal de usuario puede enviar la solicitud de tarea de la tarea siguiente al sistema de interacción de habla cuando la tarea actual se ha completado o en un momento preestablecido antes de la compleción, para permitir que el sistema de interacción de habla, al recibir la solicitud de tarea, evalúe que el estado de tiempo actual es antes de que llegue el tiempo de ejecución de la tarea siguiente y comience a consultar la información de respuesta correspondiente a la tarea siguiente. Para poner otro ejemplo, si el terminal de usuario conoce el tiempo de ejecución de la tarea siguiente, el terminal de usuario puede enviar la solicitud de tarea, etc., al sistema de interacción de habla en un tiempo preestablecido antes de que llegue el tiempo de ejecución de la tarea siguiente. La forma en que el terminal de usuario obtiene el tiempo de ejecución de la tarea siguiente puede determinarse mediante la lista de tareas transmitida por el sistema de interacción de habla, registrando la lista de tareas el tiempo de ejecución de las tareas; y también puede determinarse por la información de tarea, transmitida por el sistema de interacción de habla, de la tarea siguiente, incluyendo la información de tarea el tiempo de ejecución de la tarea siguiente.
Para saber cómo el terminal de usuario determina la tarea siguiente, en una realización, el terminal de usuario puede almacenar la lista de tareas. La lista de tareas puede almacenarse históricamente y también puede retroalimentarse mediante el sistema de interacción de habla después de que la información de habla se envíe al sistema de interacción de habla. En otra realización, el sistema de interacción de habla, al enviar la tarea actual al terminal de usuario, también puede enviar la información de tarea de la tarea siguiente. El terminal de usuario determina la tarea siguiente según un identificador de tarea en la información de tarea. En una realización, la solicitud de tarea puede contener además la información de tarea de la tarea siguiente. La información de tarea se puede configurar por lo menos para identificar de forma única la tarea siguiente. Por ejemplo, la información de tarea de la tarea siguiente incluye por lo menos información de identificación de la tarea siguiente, de modo que la tarea siguiente puede determinarse por la información de tarea. La información de tarea en la solicitud de tarea puede determinarse mediante el terminal de usuario según la lista de tareas, y también puede ser la información de tarea, contenida cuando el sistema de interacción de habla envía información de respuesta de la tarea actual, de la tarea siguiente.
En algunos escenarios, el aumento de solicitudes puede aumentar la carga de procesamiento de solicitudes del sistema de interacción de habla y el rendimiento de prueba (por ejemplo, alta concurrencia, complejidad del tiempo de ejecución y similares) del sistema de interacción de habla. Por un lado, se puede mejorar el rendimiento del sistema de interacción de habla para resolver el problema. Por otro lado, el tiempo de consulta puede reducirse a causa de la información de tarea proporcionada. Por ejemplo, además de la información de identificación que puede identificar de forma única la tarea siguiente, la información de tarea de la tarea siguiente puede incluir, pero sin limitarse a, una o más informaciones de índice de una pregunta en la tarea siguiente, un tipo de la pregunta en la tarea siguiente y el tiempo de ejecución de la tarea siguiente. La información de índice es información configurada para indexar una respuesta a la pregunta en la tarea siguiente. La respuesta correspondiente a la pregunta de la tarea siguiente se puede consultar rápidamente a través de la información de índice, de modo que se reduce el tiempo de consulta. Las diferentes preguntas se clasifican y las respuestas correspondientes a diferentes tipos de preguntas se almacenan en diferentes bases de datos, de modo que, según el tipo de pregunta, la consulta de datos se puede realizar directamente en la base de datos correspondiente a este tipo, y la eficacia de la consulta se puede mejorar aún más.
Se ha de entender que la información de tarea puede incluir además otro campo que puede de mejorar la eficacia de la consulta y en la presente memoria se omiten las elaboraciones. Además, el estado de tiempo actual también puede determinarse por otros medios. El tiempo preestablecido puede ser un tiempo preconfigurado con menos influencia en la exactitud de la información de respuesta, y desde el tiempo preestablecido hasta el tiempo de ejecución de la tarea siguiente, se pueden completar consultas, retroalimentaciones y similares de la información de respuesta. Incluso en algunos escenarios, debido a una velocidad de consulta relativamente alta, el tiempo preestablecido puede ser 0, concretamente, se consulta la información de respuesta de la tarea siguiente y se envía al terminal de usuario cuando llega el tiempo de ejecución de la tarea siguiente.
En cuanto a la tarea específica que requiere la ejecución de una operación de consulta en tiempo real, en una realización, independientemente del tipo de la tarea siguiente, el terminal de usuario puede enviar la solicitud de tarea que contiene la información de tarea de la tarea siguiente al sistema de interacción de habla. La tarea siguiente incluye cualquier tarea en una tarea de pregunta-respuesta con un requisito de rendimiento en tiempo real o una tarea de pregunta-respuesta sin el requisito de rendimiento en tiempo real. En otras palabras, para la tarea de preguntarespuesta con el requisito de rendimiento en tiempo real o la tarea de pregunta-respuesta sin el requisito de rendimiento en tiempo real, la consulta se realiza antes de que llegue el tiempo de ejecución de la tarea y la información de respuesta se retroalimente al terminal de usuario.
Además, la información de tarea de la tarea siguiente también se puede enviar al terminal de usuario cuando la información de respuesta de la tarea actual se envía al terminal de usuario y, en consecuencia, cuando la información de respuesta de la tarea siguiente se envía al terminal de usuario, la información de tarea de una tarea sin procesar (llamada tarea de tercera ronda para abreviar) contigua a la tarea siguiente se envía al terminal de usuario, para implementar la transmisión simultánea de información de tarea de una tarea contigua cada vez que se transmite información de respuesta de una tarea. Por lo tanto, el terminal de usuario, cuando la información de respuesta de la tarea siguiente se ejecuta por completo, puede saber la tarea que debe ejecutarse a continuación e, incluso antes de que llegue el tiempo de ejecución de la tarea sin procesar contigua a la tarea siguiente, enviar una solicitud de tarea que contiene la información de tarea al sistema de interacción de habla para solicitar la ejecución de la tarea de tercera ronda.
En la realización, la información de respuesta de la tarea actual y la información de tarea de la tarea siguiente se transmiten cada vez, se reproduce la información de respuesta de la tarea actual y antes de que llegue el tiempo de ejecución de la tarea siguiente, se puede realizar una solicitud de la información de respuesta de la tarea siguiente usando la información de tarea, de modo que pueda garantizarse la puntualidad de la información de respuesta.
En algunos escenarios, la consulta en tiempo real puede generar una presión de procesamiento relativamente alta en el sistema de interacción de habla, de modo que el número de veces de consulta del sistema de interacción de habla puede reducirse de modo que se reduzca el número de solicitudes de tareas. Por ejemplo, las tareas de preguntarespuesta se dividen en tareas de pregunta-respuesta con el requisito de rendimiento en tiempo real y tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real. La tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real se refiere a una tarea de pregunta-respuesta con un requisito sobre la puntualidad de la información de respuesta, por ejemplo, una tarea de reproducir un estado del tráfico en tiempo real y similares. La tarea de pregunta-respuesta sin el requisito de rendimiento en tiempo real puede ser una tarea de pregunta-respuesta sin o con un requisito bajo sobre la puntualidad de la información de respuesta, por ejemplo, una tarea de reproducir música relajante durante 20 minutos y similares. En cuanto a cómo dividir un tipo de la tarea de pregunta-respuesta, puede configurarse por el usuario por un lado, y también puede obtenerse mediante análisis de datos masivos del sistema por otro lado.
En otra realización, la tarea siguiente es una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real. En otras palabras, con la condición de que la tarea siguiente sea una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real, la información de respuesta de la tarea siguiente puede consultarse y enviarse al terminal de usuario antes de que llegue el tiempo de ejecución de la tarea siguiente, de modo que se reduce la presión de procesamiento del sistema de interacción de habla. En cuanto a la condición de que se requiera enviar la información de tarea, en una realización, cuando la información de respuesta de la tarea siguiente se envía al terminal de usuario, se incluye además la siguiente operación: la información de tarea de la tarea sin procesar contigua a la tarea siguiente se envía al terminal de usuario. El terminal de usuario puede evaluar si la tarea siguiente es una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real o una tarea de pregunta-respuesta sin el requisito de rendimiento en tiempo real según la información de tarea y, al determinar según la información de tarea que la tarea siguiente es una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real, puede enviar la solicitud de tarea que contiene la información de tarea al sistema de interacción de habla antes de que llegue el tiempo de ejecución de la tarea siguiente.
Según la realización, no importa si la tarea tiene el requisito de rendimiento en tiempo real, la información de tarea se transmite y luego el terminal de usuario puede evaluar si envía la solicitud de tarea.
En otra realización, cuando la información de respuesta de la tarea siguiente se envía al terminal de usuario, se incluye además la siguiente operación: en respuesta a que la tarea sin procesar contigua a la tarea siguiente es una tarea de pregunta-respuesta con el requisito de rendimiento de tiempo real, la información de tarea de la tarea sin procesar contigua a la tarea siguiente se envía al terminal de usuario, y el terminal de usuario almacena la lista de tareas.
En la realización, solo se envía información de tarea de una tarea con el requisito de rendimiento en tiempo real, de modo que se evita el desperdicio de recursos causado por la transmisión de información cuando también se envía información de tarea de una tarea sin el requisito de rendimiento en tiempo real, y los procesos de evaluación del terminal de usuario se reducen. El terminal de usuario, con la condición de que no se reciba la información de tarea sin procesar contigua a la tarea siguiente, puede determinar directamente la tarea siguiente según la lista de tareas y adquirir y emitir localmente la información de respuesta de la tarea sin procesar contigua a la tarea siguiente.
Para la tarea de pregunta-respuesta sin el requisito de rendimiento en tiempo real, la información de respuesta de una tarea de pregunta-respuesta de este tipo puede retroalimentarse al terminal de usuario en un tiempo específico. Por ejemplo, en un proceso de ejecución de una primera tarea en la lista de tareas, se pueden determinar una o más tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real en la lista de tareas, y la información de respuesta de todas las una o más tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real se transmiten al terminal de usuario, de modo que el terminal de usuario adquiere y emite localmente la información de respuesta según una secuencia de la una o más tareas de pregunta-respuesta en la lista de tareas.
En la realización, la información de respuesta de la tarea de pregunta-respuesta sin el requisito de rendimiento en tiempo real se puede transmitir colectivamente de una vez, de modo que se puede reducir el número de solicitudes de tareas y se puede aliviar la presión de un servidor.
Con respecto a la operación en la que se consulta la información de respuesta de la tarea siguiente y se envía al terminal de usuario, se puede consultar la información de respuesta correspondiente a la tarea siguiente, y la información de respuesta obtenida se envía al terminal de usuario. La información de respuesta puede ser información de audio, información de texto, información de imagen y similares. En consecuencia, la salida de la información de respuesta puede ser la reproducción de la información de audio y la visualización de la información de texto y la información de imagen, etc. Por ejemplo, la interacción normalmente se realiza a través de un audio en el proceso de interacción de habla, de modo que la información de respuesta puede ser la información de audio y la salida de la información de respuesta puede ser reproducir la información de audio.
Además de las tareas de pregunta-respuesta, las tareas de la lista de tareas también pueden ser tareas de control configuradas para controlar dispositivos. En una realización, el procedimiento incluye además que: si la tarea siguiente es una tarea de control para controlar un dispositivo doméstico inteligente, se envía una instrucción de control correspondiente a la tarea de control a un sistema de Internet de las cosas para permitir que el sistema de Internet de las cosas controle el dispositivo doméstico inteligente correspondiente.
En la realización, no solo se puede implementar una pregunta-respuesta, sino que también se puede controlar el dispositivo doméstico inteligente, de modo que se amplían los escenarios de aplicación de la interacción de habla.
En algunos escenarios, puede haber una condición tal que se pueda recibir una nueva habla de usuario cuando una tarea en la lista de tareas no se ejecuta por completo. Para esta condición, en una realización, se puede retrasar la ejecución de la tarea que no se ejecuta completamente en la lista de tareas; y en otra realización, se puede impedir directamente que el terminal de usuario ejecute la tarea que no se ha completado en la lista de tareas, y se borra la tarea que no se ha ejecutado por completo. Por ejemplo, cuando una tarea en la lista de tareas no se ejecuta completamente, si se recibe una nueva habla de usuario, se interrumpe la ejecución de la tarea que no se ha completado por el terminal de usuario en la lista de tareas. Además, también se puede emitir información de recordatorio, y se determina si continuar ejecutando la tarea que no se ejecuta completamente en la lista de tareas según una instrucción de usuario, de modo que se logre la controlabilidad de tarea.
Diversas características técnicas en las realizaciones anteriores pueden combinarse libremente si no existen conflictos o contradicciones en las combinaciones de las características y las combinaciones no se describen una por una debido a limitaciones de espacio. Por lo tanto, cualquier combinación de las características técnicas en las realizaciones también estará dentro del alcance divulgado en la memoria descriptiva.
Además, el procedimiento de interacción de habla también se describe a modo de ejemplo desde un lado de terminal de usuario.
La figura 3 es un diagrama de flujo que muestra otro procedimiento de interacción de habla, según una realización ejemplar de la divulgación siguiente (no englobada en la invención reivindicada). El procedimiento puede incluir las etapas siguientes:
En la etapa 302, la información adquirida de habla se envía a un sistema de interacción de habla. En la etapa 304, la información de respuesta de una tarea actual enviada por el sistema de interacción de habla se recibe antes de que llegue el tiempo de ejecución de la tarea actual, de modo que la información de respuesta de la tarea actual se emite cuando llega el tiempo de ejecución de la tarea actual.
El procedimiento de la realización puede aplicarse a un terminal de usuario. El terminal de usuario puede ser software y también puede ser hardware. Por ejemplo, el terminal de usuario puede ser un dispositivo con una función de adquisición de habla, tal como un teléfono inteligente, una tableta informática, una PDA, un dispositivo ponible, un altavoz inteligente y similares.
La información de respuesta de la tarea actual enviada por el sistema de interacción de habla puede recibirse antes de que llegue el tiempo de ejecución de la tarea actual, de modo que la información de respuesta de la tarea actual se emite cuando llega el tiempo de ejecución de la tarea actual. La tarea presente puede ser una tarea de preguntarespuesta con un requisito de rendimiento en tiempo real, también puede ser una tarea de pregunta-respuesta sin el requisito de rendimiento en tiempo real y también puede ser una tarea de control, etc. En una realización, cuando la tarea actual es una tarea de pregunta-respuesta, tal como una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real, puede consultarse la información de respuesta de la tarea actual y obtenerse mediante el sistema de interacción de habla en un corto tiempo antes de que llegue el tiempo de ejecución de la tarea actual (por ejemplo, un tiempo preestablecido antes de que llegue el tiempo de ejecución de la tarea actual), de modo que se asegura una alta puntualidad y exactitud de la tarea de respuesta de la tarea. El tiempo preestablecido puede ser un tiempo relativamente corto configurado según se requiera.
Puede haber múltiples condiciones en el terminal de usuario. Desde el nivel de una lista de tareas, una condición es que no haya una lista de tareas almacenada previamente correspondiente a la información de habla y el terminal de usuario determina una tarea a través de la información de tarea enviada por el sistema de interacción de habla; y la otra condición es que se almacena previamente la lista de tareas correspondiente a la información de habla y el terminal de usuario puede determinar la tarea en la lista de tareas. Desde el nivel de transmisión de solicitud de tarea, una condición es que, independientemente del tipo de tarea siguiente, se envíe una solicitud de tarea que contenga información de tarea de la tarea siguiente para implementar una consulta puntual para cualquier tipo de tarea de pregunta-respuesta; y la otra condición es que una solicitud de tarea se envíe solo para una tarea de preguntarespuesta con el requisito de rendimiento en tiempo real o una tarea de control (en algunos ejemplos, tampoco es necesario enviar la solicitud de tarea ni para la tarea de control). El terminal de usuario puede almacenar previamente información de respuesta de tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real para determinar que la tarea siguiente es una tarea de pregunta-respuesta sin el requisito de rendimiento en tiempo real y, cuando llega el tiempo de ejecución de la tarea siguiente, adquirir y emitir localmente la información de respuesta de la tarea siguiente. En el sistema de interacción de habla, cuando se envía la información de respuesta de la tarea actual, independientemente del tipo de la tarea siguiente, la información de tarea de la tarea siguiente se transmite de modo que se envía la información de tarea de cada tarea, excepto para una primera tarea, en la lista de tareas; o, cuando se envía la información de respuesta de la tarea actual, si la tarea siguiente es una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real o una tarea de control, se transmite la información de tarea de la tarea siguiente. Puede determinarse si enviar la información de respuesta de la tarea actual, por ejemplo, si se recibe una solicitud de tarea. La realización en el lado del terminal de usuario puede combinarse con la realización en el lado del sistema de interacción de habla. A continuación, se realizarán descripciones ejemplares con algunas combinaciones.
En cuanto a la condición de que el sistema de interacción de habla puede enviar la información de tarea de cada tarea, excepto para la primera tarea, en la lista de tareas, en una realización, en el terminal de usuario, la información de respuesta de la tarea actual contiene además información de tarea de una tarea siguiente, y el procedimiento incluye además que: una solicitud de tarea que contiene la información de tarea de la tarea siguiente se envía al sistema de interacción de habla antes de que llegue el tiempo de ejecución de la tarea siguiente, de modo que el sistema de interacción de habla retroalimenta la información de respuesta correspondiente antes de que llegue el tiempo de ejecución de la tarea siguiente. Por lo tanto, la información de respuesta de cada tarea de pregunta-respuesta se puede consultar y obtener en tiempo real.
En otra realización, si la información de respuesta de todas las tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real se obtiene por adelantado, por ejemplo, en el terminal de usuario, el procedimiento incluye además que: cuando la tarea actual es la primera tarea en la tarea correspondiente a la información de habla, la información de respuesta de todas las tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real en la lista de tareas se recibe además desde el sistema de interacción de habla. En este caso, si la tarea siguiente es una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real o una tarea de control puede determinarse según la información de tarea, transmitida por el sistema de interacción de habla, de la tarea siguiente; si se determina según la información de tarea que la tarea siguiente es una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real o una tarea de control para controlar un dispositivo doméstico inteligente, la solicitud de tarea que contiene la información de tarea se envía al sistema de interacción de habla antes de que llegue el tiempo de ejecución de la tarea siguiente; y si se determina según la información de tarea que la tarea siguiente es una tarea de pregunta-respuesta sin el requisito de rendimiento en tiempo real, la información de respuesta de la tarea siguiente se adquiere localmente y se emite cuando llega el tiempo de ejecución de la tarea siguiente.
Según la realización, el terminal de usuario evalúa el tipo de la tarea siguiente según la información de tarea para determinar adicionalmente si enviar la solicitud de tarea, de modo que se pueda reducir el número de veces para enviar solicitudes de tarea y, además, se alivia la presión de procesamiento del sistema de interacción de habla.
En una realización, el sistema de interacción de habla puede enviar información de tarea de una tarea con el requisito de rendimiento en tiempo real o información de tarea de una tarea de control en la lista de tareas. Si el terminal de usuario recibe la información de tarea de la tarea siguiente, se indica que la tarea siguiente es una tarea de preguntarespuesta con el requisito de rendimiento en tiempo real o una tarea de control, y la solicitud de tarea que contiene la información de tarea se envía al sistema de interacción de habla en el tiempo preestablecido antes de que llegue el tiempo de ejecución de la tarea siguiente. Por ejemplo, el terminal de usuario almacena previamente la lista de tareas correspondiente a la información de habla, y el procedimiento incluye además que: se determina la información de tarea de la tarea siguiente en la lista de tareas; y la solicitud de tarea que contiene la información de tarea de la tarea siguiente se envía al sistema de interacción de habla antes de que llegue el tiempo de ejecución de la tarea siguiente, de modo que el sistema de interacción de habla retroalimenta la información de respuesta correspondiente antes de que llegue el tiempo de ejecución de la tarea siguiente.
Además, si solo se recibe la información de respuesta de la tarea actual enviada por el sistema de interacción de habla, se indica que la tarea siguiente es una tarea de la que se ha almacenado la información de respuesta. Por lo tanto, si solo se recibe la información de respuesta de la tarea actual enviada por el sistema de interacción de habla, se emite la información de respuesta, se determina la tarea siguiente según la lista de tareas y la información de respuesta de la tarea siguiente se adquiere localmente y se emite cuando llega el tiempo de ejecución de la tarea siguiente.
En la realización, se envía una solicitud al sistema de interacción de habla solo cuando una tarea es una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real o una tarea de control, de modo que se reduce el número de veces de envío.
El terminal de usuario puede almacenar la lista de tareas y también puede no almacenar la lista de tareas. Por ejemplo, si el sistema de interacción de habla transmite información de tarea de cada tarea, no se requiere que el terminal de usuario almacene la lista de tareas. El sistema de interacción de habla puede realizar consultas para cada tarea, y también puede consultar y enviar la información de respuesta de la tarea siguiente al terminal de usuario para una tarea con el requisito de rendimiento en tiempo real antes de que llegue el tiempo de ejecución de la tarea. El terminal de usuario puede evaluar si la tarea es una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real y también puede evaluarse mediante el sistema de interacción de habla.
Para facilitar la comprensión, el procedimiento de interacción de habla se describe a modo de ejemplo desde el ángulo de interacción entre el terminal de usuario y el sistema de interacción de habla. La figura 4 es un diagrama de temporización de un procedimiento de interacción de habla, según una realización ejemplar de la divulgación siguiente (no englobada en la invención reivindicada).
El procedimiento se describe a modo de ejemplo desde el ángulo en que se envía una solicitud de tarea para cada tarea excepto para una primera tarea y no se requiere un terminal de usuario para almacenar una lista de tareas. El procedimiento incluye las etapas siguientes.
En la etapa 401, un terminal de usuario envía información adquirida de habla a un sistema de interacción de habla.
En la etapa 402, el sistema de interacción de habla determina una lista de tareas correspondiente a la información de habla, y la lista de tareas incluye por lo menos dos tareas ordenadas.
En la etapa 403, el sistema de interacción de habla envía la información de respuesta de una tarea actual y la información de tarea de una tarea siguiente.
En la etapa 404, el terminal de usuario, en respuesta a la información de respuesta de la tarea actual enviada por el sistema de interacción de habla, emite la información de respuesta y envía una solicitud de tarea que contiene la información de tarea al sistema de interacción de habla antes de que llegue el tiempo de ejecución de la tarea siguiente.
En la etapa 405, el sistema de interacción de habla, cuando recibe la solicitud de tarea y determina según la información de tarea que la tarea siguiente es una tarea de pregunta-respuesta, consulta la información de respuesta de la tarea siguiente.
En la etapa 406, el sistema de interacción de habla envía la información de respuesta de la tarea siguiente y la información de tarea de una tarea dispuesta después de la tarea siguiente al terminal de usuario.
El resto se hace de la misma manera hasta que todas las tareas de la lista de tareas se ejecutan por completo.
Además, el sistema de interacción de habla, cuando recibe la solicitud de tarea y determina según la información de tarea que la tarea siguiente es una tarea de control, puede enviar una instrucción de control correspondiente a la tarea de control a un sistema de Internet de las cosas para permitir que el sistema de Internet de las cosas controle un dispositivo doméstico inteligente correspondiente.
Las tecnologías relacionadas en la figura 4 son las mismas que las de la figura 2 y la figura 3 y no se introducirán repetidamente en la presente memoria.
En la realización, la información de respuesta de la tarea actual y la información de tarea de la tarea siguiente se transmiten cada vez, y después de que la información de respuesta de la tarea actual se reproduce por completo, se puede realizar una solicitud de información de respuesta de la tarea siguiente usando la información de tarea, de modo que se pueda garantizar la puntualidad de la información de respuesta.
La figura 5 es un diagrama de temporización de otro procedimiento de interacción de habla, según una realización ejemplar de la divulgación siguiente (no englobada en la invención reivindicada). El procedimiento se describe a modo de ejemplo desde el ángulo en que las solicitudes de tareas se envían solo para una tarea de control y una tarea de pregunta-respuesta con un requisito de rendimiento en tiempo real y un terminal de usuario almacena una lista de tareas. El procedimiento incluye las etapas siguientes.
En la etapa 501, un terminal de usuario envía la información adquirida de habla a un sistema de interacción de habla.
En la etapa 502, el sistema de interacción de habla determina una lista de tareas correspondiente a la información de habla, y la lista de tareas incluye por lo menos dos tareas ordenadas.
En la etapa 503, el sistema de interacción de habla envía información de respuesta de una tarea actual al terminal de usuario, y cuando la tarea siguiente es una tarea de pregunta-respuesta con un requisito de rendimiento en tiempo real o una tarea de control, envía la información de tarea de la tarea siguiente al terminal de usuario, de lo contrario no envía la información de tarea.
En la etapa 504, el terminal de usuario, en respuesta a la información de respuesta de la tarea actual y a la información de tarea de la tarea siguiente enviada por el sistema de interacción de habla, emite la información de respuesta, y envía una solicitud de tarea que contiene la información de tarea al sistema de interacción de habla en un tiempo preestablecido antes de que llegue el tiempo de ejecución de la tarea siguiente; y en respuesta a la información de respuesta recibida de la tarea actual enviada por el sistema de interacción de habla (la información de tarea de la tarea siguiente no se recibe, lo que indica que la tarea siguiente no es una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real o una tarea de control), emite la información de respuesta, determina la tarea siguiente según la lista de tareas y adquiere y emite localmente la información de respuesta de la tarea siguiente cuando llega el tiempo de ejecución de la tarea siguiente.
En la etapa 505, el sistema de interacción de habla, cuando recibe la solicitud de tarea y determina según la información de tarea que la tarea siguiente es una tarea de pregunta-respuesta, consulta la información de respuesta de la tarea siguiente.
En la etapa 506, la información de respuesta de la tarea siguiente se envía al terminal de usuario, cuando una tarea sin procesar contigua a la tarea siguiente es una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real o una tarea de control, la información de tarea de la tarea se envía al terminal de usuario, de lo contrario no se envía la información de tarea.
El resto se hace de la misma manera hasta que las tareas de la lista de tareas se ejecutan por completo.
Además, el sistema de interacción de habla, en un proceso de ejecución de una primera tarea en la lista de tareas, determina una o más tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real en la lista de tareas y transmite información de respuesta de todas las una o más tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real para el terminal de usuario.
Las tecnologías relacionadas en la figura 5 son las mismas que las de la figura 2 y la figura 3 y no se introducirán repetidamente en la presente memoria.
En la realización, únicamente se envía la información de tarea de una tarea de control o una tarea con el requisito de rendimiento en tiempo real, y no se envía la información de tarea de una tarea sin el requisito de rendimiento en tiempo real, de modo que se puede reducir el número de solicitudes y se alivia aún más la presión de procesamiento del sistema de interacción de habla.
En correspondencia con las realizaciones del procedimiento de interacción de habla, la presente divulgación también proporciona realizaciones de un aparato de interacción de habla, un dispositivo al que se aplica el aparato y un medio de almacenamiento.
Como se ilustra en la figura 6, la figura 6 es un diagrama de bloques de un aparato de interacción de habla, según una realización ejemplar de la invención. El aparato incluye:
un módulo 62 de adquisición de información, configurado para adquirir información de habla de un usuario;
un módulo 64 de determinación de lista, configurado para determinar una lista de tareas correspondiente a la información de habla, incluyendo la lista de tareas por lo menos dos tareas ordenadas; y
un módulo 66 de retroalimentación de información, configurado para, en cada tarea de las por lo menos dos tareas ordenadas, en respuesta a que la tarea siguiente de una tarea actual es una tarea de pregunta-respuesta, consultar y enviar información de respuesta de la tarea siguiente a un terminal de usuario en un tiempo preestablecido antes de que llegue el tiempo de ejecución de la tarea siguiente, de modo que el terminal de usuario emite la información de respuesta cuando llega el tiempo de ejecución de la tarea siguiente.
En una realización opcional, la tarea siguiente es una tarea de pregunta-respuesta con un requisito de rendimiento en tiempo real.
En una realización opcional, el módulo 66 de retroalimentación de información está configurado para, antes de que se consulte la información de respuesta de la tarea siguiente y se envíe al terminal de usuario, recibir una solicitud de tarea que contiene información de tarea de la tarea siguiente enviada mediante el terminal de usuario.
En una realización opcional, cuando la información de respuesta de la tarea siguiente se envía al terminal de usuario, el módulo 66 de retroalimentación de información está configurado para enviar información de tarea de una tarea sin procesar contigua a la tarea siguiente al terminal de usuario; o, en respuesta a que la tarea sin procesar contigua a la tarea siguiente es una tarea de pregunta-respuesta con el requisito de rendimiento en tiempo real, enviar la información de la tarea sin procesar contigua a la tarea siguiente al terminal de usuario, almacenando el terminal de usuario la lista de tareas.
En una realización opcional, la información de tarea de la tarea siguiente incluye por lo menos información de identificación de la tarea siguiente, y la información de tarea de la tarea siguiente incluye además por lo menos una de las informaciones de índice de una pregunta en la tarea siguiente, un tipo de la pregunta en la tarea siguiente o el tiempo de ejecución de la tarea siguiente.
En una realización opcional, el módulo 66 de retroalimentación de información está configurado además para, antes de que se consulte la información de respuesta de la tarea siguiente y se envíe al terminal de usuario, en un proceso de ejecución de una primera tarea en la lista de tareas, determinar una o más tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real en la lista de tareas y transmitir información de respuesta de todas las una o más tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real al terminal de usuario, de modo que el terminal de usuario adquiere y emite localmente la información de respuesta según una secuencia de las tareas en la lista de la una o más tareas de pregunta-respuesta.
En una realización opcional, el aparato incluye además un módulo de interrupción de tarea (no ilustrado en la figura 6), configurado para:
cuando una tarea en la lista de tareas no se ejecuta por completo, si se recibe una nueva habla de usuario, interrumpir la ejecución de la tarea que no se ha completado por el terminal de usuario en la lista de tareas.
Como se ilustra en la figura 7, la figura 7 es un diagrama de bloques de otro aparato de interacción de habla, según una realización ejemplar de la divulgación siguiente (no englobada en la invención reivindicada). El aparato incluye:
un módulo 72 de envío de voz, configurado para enviar información adquirida de habla a un sistema de interacción de habla; y
un módulo 74 de recepción de información, configurado para recibir información de respuesta de una tarea actual enviada por el sistema de interacción de habla antes de que llegue el tiempo de ejecución de la tarea actual, de modo que la información de respuesta de la tarea actual se emite cuando llega el tiempo de ejecución de la tarea actual.
En una realización opcional, la información de respuesta de la tarea presente contiene además información de tarea de la tarea siguiente, y el aparato incluye además un primer módulo de envío de solicitud (no ilustrado en la figura 7), configurado para:
enviar una solicitud de tarea que contiene la información de tarea de la tarea siguiente al sistema de interacción de habla antes de que llegue el tiempo de ejecución de la tarea siguiente de modo que el sistema de interacción de habla retroalimenta la información de respuesta correspondiente antes de que llegue el tiempo de ejecución de la tarea siguiente.
En una realización opcional, se almacena previamente una lista de tareas correspondiente a la información de habla, y el aparato incluye además (no ilustrado en la figura 7):
un módulo de determinación de información de tarea, configurado para determinar la información de tarea de una tarea siguiente en la lista de tareas; y
un segundo módulo de envío de solicitud, configurado para enviar una solicitud de tarea que contiene la información de tarea de la tarea siguiente al sistema de interacción de habla antes de que llegue el tiempo de ejecución de la tarea siguiente, de modo que el sistema de interacción de habla retroalimenta la información de respuesta correspondiente antes de que llegue el tiempo de ejecución de la tarea siguiente.
En una realización opcional, la tarea siguiente es una tarea de pregunta-respuesta con un requisito de rendimiento en tiempo real.
En una realización opcional, el aparato incluye además un módulo de ejecución de tarea (no ilustrado en la figura 7), configurado para:
determinar según la información de tarea que la tarea siguiente es una tarea de pregunta-respuesta sin el requisito de rendimiento en tiempo real y adquirir y generar localmente la información de respuesta de la tarea siguiente cuando llega el tiempo de ejecución de la tarea siguiente.
Los detalles sobre un proceso de implementación de una función y el efecto de cada módulo en el aparato pueden referirse al proceso de implementación de la etapa correspondiente en el procedimiento y las elaboraciones se omiten en la presente memoria.
Las realizaciones del aparato corresponden sustancialmente a la realización del procedimiento y, por lo tanto, las partes relacionadas se refieren a parte de las descripciones de la realización del procedimiento. Las realizaciones del aparato descritas anteriormente son solo ejemplares, los módulos descritos como partes separadas en el mismo pueden o no estar físicamente separados, y las partes visualizadas como módulos pueden o no ser módulos físicos, y concretamente, pueden estar ubicados en el mismo lugar o también pueden estar distribuidos en múltiples módulos de red. Parte o la totalidad de los módulos del mismo pueden seleccionarse según un requisito práctico para lograr el propósito de las soluciones de la presente divulgación. Aquellos con conocimientos ordinarios en la materia pueden comprender e implementar sin trabajo creativo.
En consecuencia, la presente divulgación también proporciona un medio de almacenamiento legible por ordenador, en el que se almacena un programa informático, siendo ejecutado el programa por un procesador para implementar las etapas de cualquiera de los procedimientos descritos anteriormente.
La presente divulgación puede adoptar la forma de un producto de programa informático implementado en uno o más medios de almacenamiento (que incluyen, pero no se limitan a, una memoria de disco, una memoria de solo lectura de disco compacto (CD-ROM), una memoria óptica y similares) incluidos los códigos de programa. El medio de almacenamiento legible por ordenador incluye medios no volátiles, volátiles, extraíbles y no extraíbles y puede almacenar información por cualquier procedimiento o tecnología. La información puede ser una instrucción legible por ordenador, una estructura de datos, un módulo de programa u otros datos. Los ejemplos del medio de almacenamiento informático incluyen, pero no se limitan a, una memoria de acceso aleatorio de cambio de fase (PRAM), una memoria de acceso aleatorio estática (SRAM), una memoria dinámica de acceso aleatorio (DRAM), una memoria de acceso aleatorio (RAM) de otro tipo, una memoria de solo lectura (ROM), una Rom programable y borrable eléctricamente (EEPROM), una memoria flash u otra tecnología de memoria, un CD-ROM, un disco de vídeo digital (DVD) u otra memoria óptica, una memoria en casete, una cinta magnética, una memoria de disco u otro dispositivo de almacenamiento magnético o cualquier otro medio que no sea de transmisión, y pueda configurarse para almacenar información accesible para un dispositivo informático.
En consecuencia, una realización de la divulgación siguiente (no englobada en la invención reivindicada) proporciona un dispositivo electrónico que incluye: un procesador; y una memoria configurada para almacenar instrucciones ejecutables por el procesador; el procesador está configurado para ejecutar las instrucciones ejecutables para implementar cualquiera de los procedimientos de interacción de habla descritos anteriormente.
Como se ilustra en la figura 8, la figura 8 es un diagrama de estructura de un aparato 800 de interacción de habla, según una realización ejemplar (no englobada en la invención reivindicada). Por ejemplo, el aparato 800 puede proporcionarse como un terminal de usuario o un sistema de interacción de habla. En referencia a la figura 8, el aparato 800 incluye un componente 822 de procesamiento, que incluye además uno o más procesadores, y un recurso de memoria representado por una memoria 832, configurada para almacenar instrucciones ejecutables por el componente 822 de procesamiento, por ejemplo, una APP. La APP almacenada en la memoria 832 puede incluir uno o más de un módulo de los cuales cada uno corresponde a un conjunto de instrucciones. Además, el componente 822 de procesamiento está configurado para ejecutar las instrucciones para ejecutar el procedimiento de interacción de habla descrito anteriormente.
El aparato 800 puede incluir además un componente 826 de potencia configurado para ejecutar la gestión de potencia del aparato 800, una interfaz 850 de red alámbrica o inalámbrica configurada para conectar el aparato 800 a una red y una interfaz 858 de entrada/salida (I/O). El aparato 800 puede funcionar en base a un sistema operativo almacenado en la memoria 832, por ejemplo, Android, il)S, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM o similares.
En la siguiente realización (no englobada en la invención reivindicada), también se proporciona un medio de almacenamiento legible por ordenador no transitorio que incluye instrucciones, tales como la memoria 832 que incluye instrucciones, y las instrucciones pueden ser ejecutadas por el componente 822 de procesamiento del aparato 800 para implementar los procedimientos descritos anteriormente. Por ejemplo, el medio de almacenamiento legible por ordenador no transitorio puede ser una ROM, una RAM, un CD-ROM, una cinta magnética, un disco flexible, un dispositivo óptico de almacenamiento de datos y similares.
Las instrucciones en la memoria 832 son ejecutadas por el componente 822 de procesamiento para permitir que el aparato 800 ejecute cualquiera de los procedimientos de interacción de habla.
Otras soluciones de implementación de la presente divulgación serán evidentes para los expertos en la materia a partir de la consideración de la memoria descriptiva y la puesta en práctica de la presente divulgación. La presente divulgación pretende abarcar cualquier variación, uso o adaptación de la presente divulgación que siga los principios generales de la misma e incluye dichas desviaciones de la presente divulgación que puedan ponerse en práctica dentro del alcance de las reivindicaciones.
Se apreciará que la presente divulgación no se limita a la construcción exacta que se ha descrito anteriormente e ilustrado en los dibujos adjuntos, y que se pueden realizar diversas modificaciones y cambios sin apartarse del alcance de la misma. Se pretende que el alcance de la presente divulgación solo esté limitado por las reivindicaciones adjuntas.

Claims (10)

REIVINDICACIONES
1. Un procedimiento de interacción de habla, el procedimiento comprende:
adquirir (202), mediante un sistema de interacción de habla, información de habla de un usuario;
determinar (204), mediante el sistema de interacción de habla, una lista de tareas correspondiente a la información de habla, la lista de tareas comprende por lo menos dos tareas ordenadas; y el procedimiento se caracteriza por que: en cada tarea de las por lo menos dos tareas ordenadas, en respuesta a que la tarea siguiente de una tarea actual es una tarea de pregunta-respuesta, consultar y enviar (206), mediante el sistema de interacción de habla, información de respuesta de la tarea siguiente a un usuario terminal en un tiempo preestablecido antes de que llegue el tiempo de ejecución de la tarea siguiente, de modo que el terminal de usuario emite la información de respuesta cuando llega el tiempo de ejecución de la tarea siguiente.
2. El procedimiento de la reivindicación 1, en el que la tarea siguiente es una tarea de pregunta-respuesta con un requisito de rendimiento en tiempo real.
3. El procedimiento de la reivindicación 1, antes de consultar y enviar la información de respuesta de la tarea siguiente al terminal de usuario, que además comprende:
recibir, mediante el sistema de interacción de habla, una solicitud de tarea que contiene información de tarea de la tarea siguiente enviada mediante el terminal de usuario; o
al enviar la información de respuesta de la tarea siguiente al terminal de usuario, que además comprende: enviar, mediante el sistema de interacción de habla, información de tarea de una tarea sin procesar contigua a la tarea siguiente al terminal de usuario; o
en respuesta a que la tarea sin procesar contigua a la tarea siguiente es una tarea de pregunta-respuesta con un requisito de rendimiento en tiempo real, enviar, mediante el sistema de interacción de habla, la información de tarea sin procesar contigua a la tarea siguiente al terminal de usuario, almacenando el terminal de usuario la lista de tareas.
4. El procedimiento de la reivindicación 3, en el que la información de tarea de la tarea siguiente comprende por lo menos información de identificación de la tarea siguiente; y la información de tarea de la tarea siguiente además comprende por lo menos una de las informaciones de índice de una pregunta en la tarea siguiente, un tipo de la pregunta en la tarea siguiente o el tiempo de ejecución de la tarea siguiente.
5. El procedimiento de la reivindicación 1, antes de consultar y enviar la información de respuesta de la tarea siguiente al terminal de usuario, que además comprende:
en un proceso de ejecución de una primera tarea en la lista de tareas, determinar, mediante el sistema de interacción de habla, una o más tareas de pregunta-respuesta sin un requisito de rendimiento en tiempo real en la lista de tareas, y transmitir, mediante el sistema de interacción de habla, información de respuesta de todas las una o más tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real al terminal de usuario, de modo que el terminal de usuario adquiere y emite localmente la información de respuesta según una secuencia de la una o más tareas de pregunta-respuesta en la lista de tareas.
6. Un aparato de interacción de habla, el aparato comprende:
un módulo (62) de adquisición de información, configurado para adquirir información de habla de un usuario; un módulo (64) de determinación de lista, configurado para determinar una lista de tareas correspondiente a la información de habla, comprendiendo la lista de tareas por lo menos dos tareas ordenadas; y el aparato se caracteriza por que además comprende:
un módulo (66) de retroalimentación de información, configurado para, en cada tarea de las por lo menos dos tareas ordenadas, en respuesta a que la tarea siguiente de una tarea actual es una tarea de pregunta-respuesta, consultar y enviar información de respuesta de la tarea siguiente a un terminal de usuario en un tiempo preestablecido antes de que llegue el tiempo de ejecución de la tarea siguiente, de modo que el terminal de usuario emite la información de respuesta cuando llega el tiempo de ejecución de la tarea siguiente.
7. El aparato de la reivindicación 6, en el que la tarea siguiente es una tarea de pregunta-respuesta con un requisito de rendimiento en tiempo real.
8. El aparato de la reivindicación 6, en el que el módulo (66) de retroalimentación de información está configurado para, antes de que se consulte la información de respuesta de la tarea siguiente y se envíe al terminal de usuario, recibir una solicitud de tarea que contiene información de tarea de la tarea siguiente enviada mediante el terminal de usuario;
en el que cuando la información de respuesta de la tarea siguiente se envía al terminal de usuario, el módulo (66) de retroalimentación de información está configurado para:
enviar información de tarea de una tarea sin procesar contigua a la tarea siguiente al terminal de usuario; o
en respuesta a que la tarea sin procesar contigua a la tarea siguiente es una tarea de pregunta-respuesta con un requisito de rendimiento en tiempo real, enviar la información de tarea sin procesar contigua a la tarea siguiente al terminal de usuario, almacenando el terminal de usuario la lista de tareas.
9. El aparato de la reivindicación 8, en el que la información de tarea de la tarea siguiente comprende por lo menos información de identificación de la tarea siguiente; y la información de tarea de la tarea siguiente además comprende por lo menos una de las informaciones de índice de una pregunta en la tarea siguiente, un tipo de la pregunta en la tarea siguiente o el tiempo de ejecución de la tarea siguiente.
10. El aparato de la reivindicación 6, en el que el módulo (66) de retroalimentación de información está configurado además para, antes de que se consulte la información de respuesta de la tarea siguiente y se envíe al terminal de usuario, en un proceso de ejecución de una primera tarea en la lista de tareas, determinar una o más tareas de pregunta-respuesta sin un requisito de rendimiento en tiempo real en la lista de tareas y transmitir información de respuesta de todas las una o más tareas de pregunta-respuesta sin el requisito de rendimiento en tiempo real al terminal de usuario, de modo que el terminal de usuario adquiere y emite localmente la información de respuesta según una secuencia de la una o más tareas de pregunta-respuesta en la lista de tareas.
ES20183503T 2020-01-08 2020-07-01 Procedimiento y aparatos de interacción de habla Active ES2952381T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010017436.7A CN111243587A (zh) 2020-01-08 2020-01-08 语音交互方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
ES2952381T3 true ES2952381T3 (es) 2023-10-31

Family

ID=70872405

Family Applications (1)

Application Number Title Priority Date Filing Date
ES20183503T Active ES2952381T3 (es) 2020-01-08 2020-07-01 Procedimiento y aparatos de interacción de habla

Country Status (6)

Country Link
US (1) US11798545B2 (es)
EP (1) EP3848801B1 (es)
JP (1) JP7288885B2 (es)
KR (1) KR102389034B1 (es)
CN (1) CN111243587A (es)
ES (1) ES2952381T3 (es)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112017659A (zh) * 2020-09-01 2020-12-01 北京百度网讯科技有限公司 多音区语音信号的处理方法、装置、设备以及存储介质
CN115390467A (zh) * 2022-07-29 2022-11-25 青岛海尔科技有限公司 语音交互的方法和装置、存储介质及电子装置

Family Cites Families (73)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002315069A (ja) 2001-04-17 2002-10-25 Misawa Homes Co Ltd 遠隔制御装置
JP4015898B2 (ja) * 2002-07-26 2007-11-28 松下電器産業株式会社 プログラム実行装置
US7707140B2 (en) * 2002-10-09 2010-04-27 Yahoo! Inc. Information retrieval system and method employing spatially selective features
US9794348B2 (en) * 2007-06-04 2017-10-17 Todd R. Smith Using voice commands from a mobile device to remotely access and control a computer
US20110004881A1 (en) * 2008-03-12 2011-01-06 Nxp B.V. Look-ahead task management
JP5897240B2 (ja) * 2008-08-20 2016-03-30 株式会社ユニバーサルエンターテインメント 顧客対応システム、並びに会話サーバ
KR101667702B1 (ko) 2009-08-31 2016-10-19 엘지전자 주식회사 이동 단말기 및 그 제어 방법
US9043319B1 (en) * 2009-12-07 2015-05-26 Google Inc. Generating real-time search results
RU2530268C2 (ru) * 2012-11-28 2014-10-10 Общество с ограниченной ответственностью "Спиктуит" Способ обучения информационной диалоговой системы пользователем
US9271111B2 (en) * 2012-12-14 2016-02-23 Amazon Technologies, Inc. Response endpoint selection
US9767794B2 (en) * 2014-08-11 2017-09-19 Nuance Communications, Inc. Dialog flow management in hierarchical task dialogs
US20160308811A1 (en) * 2015-04-17 2016-10-20 Microsoft Technology Licensing, Llc Communication System Invite Mechanism
US10521189B1 (en) * 2015-05-11 2019-12-31 Alan AI, Inc. Voice assistant with user data context
US10424293B1 (en) * 2015-07-21 2019-09-24 Amazon Technologies, Inc. Using audio input and output to interact with text-based interactive content
CN107452383B (zh) * 2016-05-31 2021-10-26 华为终端有限公司 一种信息处理方法、服务器、终端及信息处理系统
US10110272B2 (en) * 2016-08-24 2018-10-23 Centurylink Intellectual Property Llc Wearable gesture control device and method
EP3506256A4 (en) * 2016-08-26 2019-08-21 Sony Corporation INFORMATION PROCESSING DEVICE AND INFORMATION PROCESSING METHOD
US11138894B1 (en) * 2016-09-21 2021-10-05 Workday, Inc. Educational learning importation
CN106910500B (zh) * 2016-12-23 2020-04-17 北京小鸟听听科技有限公司 对带麦克风阵列的设备进行语音控制的方法及设备
US11082851B2 (en) * 2017-03-17 2021-08-03 Lg Electronics Inc. Method and apparatus for processing audio signal by using Bluetooth technology
KR102298947B1 (ko) * 2017-04-28 2021-09-08 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
DE112018003014T5 (de) * 2017-06-16 2020-03-05 Honda Motor Co., Ltd. Erfahrung-bereitstellungssystem, erfahrung-bereitstellungsverfahren und erfahrung-bereitstellungsprogramm
CN109102802B (zh) * 2017-06-21 2023-10-17 三星电子株式会社 用于处理用户话语的系统
US11367449B2 (en) * 2017-08-09 2022-06-21 Lg Electronics Inc. Method and apparatus for calling voice recognition service by using Bluetooth low energy technology
EP3671733A1 (en) * 2017-08-17 2020-06-24 Sony Corporation Information processing device, information processing method, and program
KR102374910B1 (ko) 2017-08-22 2022-03-16 삼성전자주식회사 음성 데이터 처리 방법 및 이를 지원하는 전자 장치
US11450314B2 (en) 2017-10-03 2022-09-20 Google Llc Voice user interface shortcuts for an assistant application
WO2019077012A1 (en) * 2017-10-18 2019-04-25 Soapbox Labs Ltd. METHODS AND SYSTEMS FOR SPEECH DETECTION
WO2019155283A1 (en) * 2018-02-09 2019-08-15 Deutsche Bank Aktiengesellchaft Stress testing and entity planning model execution apparatus, method, and computer readable media
US10679620B2 (en) * 2018-03-06 2020-06-09 GM Global Technology Operations LLC Speech recognition arbitration logic
US11114096B2 (en) * 2018-03-08 2021-09-07 Google Llc Mitigation of client device latency in rendering of remotely generated automated assistant content
KR102617265B1 (ko) 2018-03-13 2023-12-26 삼성전자주식회사 사용자 음성 입력을 처리하는 장치
EP4235644A3 (en) * 2018-03-14 2023-10-25 Google LLC Generating iot-based notification(s) and provisioning of command(s) to cause automatic rendering of the iot-based notification(s) by automated assistant client(s) of client device(s)
CN109739462B (zh) * 2018-03-15 2020-07-03 北京字节跳动网络技术有限公司 一种内容输入的方法及装置
JPWO2019176670A1 (ja) * 2018-03-16 2021-03-25 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
US10824670B2 (en) * 2018-03-23 2020-11-03 nedl.com, Inc. Real-time audio stream search and presentation system
US10984799B2 (en) * 2018-03-23 2021-04-20 Amazon Technologies, Inc. Hybrid speech interface device
JP7366003B2 (ja) 2018-03-29 2023-10-20 サターン ライセンシング エルエルシー 情報処理装置、情報処理方法、送信装置、及び送信方法
WO2019198405A1 (ja) * 2018-04-12 2019-10-17 ソニー株式会社 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム
US10963273B2 (en) * 2018-04-20 2021-03-30 Facebook, Inc. Generating personalized content summaries for users
US10868711B2 (en) * 2018-04-30 2020-12-15 Splunk Inc. Actionable alert messaging network for automated incident resolution
US20210174791A1 (en) * 2018-05-02 2021-06-10 Melo Inc. Systems and methods for processing meeting information obtained from multiple sources
EP3596584B1 (en) * 2018-05-04 2021-03-24 Google LLC Adapting automated assistant based on detected mouth movement and/or gaze
CN110459211B (zh) * 2018-05-07 2023-06-23 阿里巴巴集团控股有限公司 人机对话方法、客户端、电子设备及存储介质
US10991373B1 (en) * 2018-05-29 2021-04-27 Amazon Technologies, Inc. Voice command processing for locked devices
US20190370413A1 (en) * 2018-06-03 2019-12-05 Apple Inc. Accessing multiple domains across multiple devices for candidate responses
US10963492B2 (en) * 2018-06-14 2021-03-30 Google Llc Generation of domain-specific models in networked system
JP2021156907A (ja) * 2018-06-15 2021-10-07 ソニーグループ株式会社 情報処理装置および情報処理方法
US10678571B2 (en) * 2018-07-13 2020-06-09 Microsoft Technology Licensing, Llc Image-based skill triggering
KR102572701B1 (ko) * 2018-08-17 2023-08-31 삼성전자주식회사 사용자의 상태 정보에 기초하여 응답 메시지를 제공하는 전자 장치 및 그 동작 방법
US11249992B2 (en) * 2018-09-21 2022-02-15 Servicenow, Inc. Parsing of user queries in a remote network management platform using extended context-free grammar rules
US20200111487A1 (en) * 2018-10-04 2020-04-09 Ca, Inc. Voice capable api gateway
US11120791B2 (en) * 2018-11-15 2021-09-14 International Business Machines Corporation Collaborative artificial intelligence (AI) voice response system control for authorizing a command associated with a calendar event
US11468071B2 (en) * 2018-11-30 2022-10-11 Rovi Guides, Inc. Voice query refinement to embed context in a voice query
US11211061B2 (en) * 2019-01-07 2021-12-28 2236008 Ontario Inc. Voice control in a multi-talker and multimedia environment
US11593447B2 (en) * 2019-01-25 2023-02-28 Ford Global Technologies, Llc Pre-fetch and lazy load results of in-vehicle digital assistant voice searches
JP2020141235A (ja) 2019-02-27 2020-09-03 パナソニックIpマネジメント株式会社 機器制御システム、機器制御方法及びプログラム
AU2019432912B2 (en) * 2019-03-01 2022-10-06 Google Llc Dynamically adapting assistant responses
US11360969B2 (en) * 2019-03-20 2022-06-14 Promethium, Inc. Natural language based processing of data stored across heterogeneous data sources
US11462216B2 (en) * 2019-03-28 2022-10-04 Cerence Operating Company Hybrid arbitration system
US11364364B2 (en) * 2019-05-03 2022-06-21 Pacesetter, Inc. Biostimulator transport system having valve bypass tool
DK180129B1 (en) * 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
CN110209791B (zh) 2019-06-12 2021-03-26 百融云创科技股份有限公司 一种多轮对话智能语音交互系统及装置
US11050977B2 (en) * 2019-06-18 2021-06-29 Tmrw Foundation Ip & Holding Sarl Immersive interactive remote participation in live entertainment
US11216415B2 (en) * 2019-06-19 2022-01-04 Citrix Systems, Inc. Identification and recommendation of file content segments
CN110390935B (zh) * 2019-07-15 2021-12-31 百度在线网络技术(北京)有限公司 语音交互方法和装置
US11138975B2 (en) * 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138969B2 (en) * 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11710480B2 (en) * 2019-08-07 2023-07-25 International Business Machines Corporation Phonetic comparison for virtual assistants
US20210118435A1 (en) * 2019-10-21 2021-04-22 Soundhound, Inc. Automatic Synchronization for an Offline Virtual Assistant
US11218565B2 (en) * 2019-10-23 2022-01-04 Microsoft Technology Licensing, Llc Personalized updates upon invocation of a service
US11449496B2 (en) * 2019-10-25 2022-09-20 Servicenow, Inc. Enhanced natural language processing with semantic shortcuts
US10917524B1 (en) * 2019-10-30 2021-02-09 American Tel-A-Systems, Inc. Methods for auditing communication sessions

Also Published As

Publication number Publication date
KR102389034B1 (ko) 2022-04-21
KR20210090081A (ko) 2021-07-19
JP7288885B2 (ja) 2023-06-08
EP3848801A1 (en) 2021-07-14
US11798545B2 (en) 2023-10-24
JP2021110921A (ja) 2021-08-02
US20210210088A1 (en) 2021-07-08
EP3848801B1 (en) 2023-05-10
CN111243587A (zh) 2020-06-05

Similar Documents

Publication Publication Date Title
US10496364B2 (en) System and method for controlling colors of smart lights based on user intent using natural language processing
ES2952381T3 (es) Procedimiento y aparatos de interacción de habla
US10747954B2 (en) System and method for performing tasks based on user inputs using natural language processing
CN111033492B (zh) 为自动化助手提供命令束建议
US10360897B2 (en) System and method for crowd-sourced data labeling
AU2021203758B2 (en) Tailoring an interactive dialog application based on creator provided content
GB2505985A (en) Associating expert speakers with conversation segments
US11314548B2 (en) Electronic device and server for processing data received from electronic device
US8856007B1 (en) Use text to speech techniques to improve understanding when announcing search results
ES2620799T3 (es) Sistema de procesamiento de información y procedimiento de procesamiento de información para predicción de entrada de caracteres
US11830482B2 (en) Method and apparatus for speech interaction, and computer storage medium
KR20190103081A (ko) 지능적 음성 출력 방법, 음성 출력 장치 및 지능형 컴퓨팅 디바이스
US20220351714A1 (en) Text-to-speech (tts) method and device enabling multiple speakers to be set
US10032204B2 (en) System and method for synthetic ideation
JP2020004442A (ja) インテリジェントインタラクション方法、インテリジェントインタラクション装置、スマート機器及びコンピューター読み取り可能な記憶媒体
US11113473B2 (en) Interpreting expressions having potentially ambiguous meanings in different domains
US20210312138A1 (en) System and method for handling out of scope or out of domain user inquiries
US11817087B2 (en) Systems and methods for reducing latency in cloud services
KR20200092455A (ko) 사용자 의도를 예측하는 서버, 방법 및 컴퓨터 프로그램
JP6985355B2 (ja) 妨害回避の処理方法、装置、記憶媒体、及びプログラム
CN112464075A (zh) 智能音箱的应用推荐方法、装置及电子设备
US20180225381A1 (en) Bot integration in a web-based search engine
CN116027946B (zh) 互动小说中图片信息处理方法及装置
Cippola et al. Responding by exclusion in temporal discrimination tasks
US11481188B1 (en) Application launch delay and notification