ES2751484T3 - Interfaz de entrada de voz incremental con retroalimentación en tiempo real - Google Patents

Interfaz de entrada de voz incremental con retroalimentación en tiempo real Download PDF

Info

Publication number
ES2751484T3
ES2751484T3 ES14795114T ES14795114T ES2751484T3 ES 2751484 T3 ES2751484 T3 ES 2751484T3 ES 14795114 T ES14795114 T ES 14795114T ES 14795114 T ES14795114 T ES 14795114T ES 2751484 T3 ES2751484 T3 ES 2751484T3
Authority
ES
Spain
Prior art keywords
entry
user
input
degree
content items
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES14795114T
Other languages
English (en)
Inventor
Murali Aravamudan
Girish Welling
Daren Gill
Sankar Ardhanari
Rakesh Barve
Sashikumar Venkataraman
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Veveo LLC
Original Assignee
Veveo LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Veveo LLC filed Critical Veveo LLC
Application granted granted Critical
Publication of ES2751484T3 publication Critical patent/ES2751484T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/54Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/43Querying
    • G06F16/432Query formulation
    • G06F16/433Query formulation using audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

Un procedimiento implementado por ordenador para seleccionar y presentar elementos de contenido basado en las entradas de los usuarios que comprende: proporcionar acceso a un conjunto de elementos de contenido, estando dichos elementos de contenido asociados a metadatos que describen uno de los elementos de contenido; recibir una primera entrada (401) destinada por el usuario a identificar al menos un elemento de contenido deseado; determinar que al menos una parte de la primera entrada tiene un grado de importancia que excede un valor umbral; proporcionar retroalimentación al usuario (402) identificando parte de la primera entrada; recibir una segunda entrada (403, 405) del usuario posterior a la primera entrada; deducir si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada; con la condición de la que se deduce que el usuario tenía la intención de modificar la primera entrada con la segunda entrada, determinar una consulta alternativa modificando la primera entrada basada en la segunda entrada (404); con la condición de la que se deduce que el usuario tenía la intención de complementar la primera entrada con la segunda entrada, determinar una consulta alternativa combinando la primera entrada basada en la segunda entrada (406); seleccionar un subconjunto de elementos de contenido del conjunto de elementos de contenido basándose en la comparación de la consulta alternativa y los metadatos asociados con los elementos de contenido del subconjunto de elementos de contenido; y presentar el subconjunto de elementos de contenido al usuario; caracterizado porque la deducción de si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada incluye: determinar un grado de similitud entre la primera entrada y la segunda entrada; con la condición de que el grado de similitud esté por encima de un umbral, deducir que el usuario tenía la intención de modificar la primera entrada; y con la condición de que el grado de similitud esté por debajo de un umbral, deducir que el usuario tenía la intención de complementar la primera entrada.

Description

DESCRIPCIÓN
Interfaz de entrada de voz incremental con retroalimentación en tiempo real
CAMPO DE LA DESCRIPCIÓN
La presente descripción se refiere a sistemas y procedimientos para ayudar a un usuario a recuperar información aplicando una entrada incremental a una interfaz conversacional y, más específicamente, relacionada con técnicas para proporcionar una retroalimentación interactiva a un usuario durante la entrada incremental a una interfaz conversacional.
ANTECEDENTES DE LA DESCRIPCIÓN
El descubrimiento de contenido basado en la entrada de voz se encuentra en una etapa similar de evolución en comparación con las interfaces de entrada basadas en texto hace casi una década. Un usuario expresa su intención diciendo una oración completamente formada y a continuación espera una respuesta. La respuesta puede hacer que el usuario conteste con otra oración completa. De manera análoga a este modelo de uso, hace casi una década, el usuario expresaba toda su intención en forma de palabras clave completamente formadas, y a continuación enviaba la consulta de búsqueda introducida completamente. La búsqueda incremental basada en texto cambió este paradigma operativo. La búsqueda incremental basada en texto se describe más adelante en la patente de EE. UU. n.° 7.895.218 denominada “Procedimiento y sistema para realizar búsquedas de contenido de televisión utilizando una entrada de texto reducida” y presentada el 24 de mayo de 2005. En la búsqueda incremental basada en texto, los resultados de búsqueda aparecen cuando el usuario escribe palabras clave (o incluso simples prefijos que corresponden a palabras clave). Los usuarios ahora dan por sentado la facilidad de uso de una interfaz de búsqueda incremental basada en texto.
Los sistemas de descubrimiento de contenido basados en voz se están volviendo lo suficientemente fiables y útiles como para incorporarse a la vida cotidiana de los usuarios. Si bien los usuarios se han visto condicionados por la facilidad de uso de la búsqueda incremental basada en texto, el descubrimiento de contenido basado en voz también está marcando el comienzo de un cambio lento en la expresión de la intención. Por ejemplo, el descubrimiento de contenido basado en voz ofrece la capacidad de verbalizar directamente las mentes de los usuarios, en lugar de traducir el pensamiento a una cadena de palabras clave. Si bien las interfaces de voz basadas en el lenguaje natural se encuentran principalmente en el entorno móvil y de la televisión, el entorno de escritorio también está asistiendo a la aparición de interfaces de lenguaje natural, como la Graph Search de Facebook, donde el usuario escribe las consultas en lenguaje natural.
La patente de EE. UU. 2006/0206454 A1 describe un sistema donde se recibe la entrada de búsqueda desde un campo de búsqueda de una aplicación de navegador web o de las palabras pronunciadas por un usuario y se convierten a texto usando un software de reconocimiento de voz. Según las características de la entrada de búsqueda, se determina si se debe enviar automáticamente una consulta a un motor de búsqueda. La patente de eE. UU.
2011/0145224 A1 describe un sistema para recibir una consulta de búsqueda por voz del usuario y reconocer e identificar incrementalmente los términos de búsqueda. Después de que la consulta se haya reconocido de forma incremental, el sistema utilizará los términos de búsqueda para recuperar una parte de los resultados de búsqueda en función de los términos de búsqueda utilizables identificados. La patente de EE. UU. 2010/0153112 A1 describe un procedimiento de búsqueda donde la voz del usuario se traduce en una consulta textual y se envía a un motor de búsqueda. Los resultados de la búsqueda se presentan al usuario. A medida que el usuario continúa hablando, la consulta de voz se refina en función de la posterior conversación del usuario. La consulta de voz refinada se convierte en una consulta textual que nuevamente se envía al motor de búsqueda.
RESUMEN
Las siguientes instancias de la palabra “realización(es)”, si se refieren a combinaciones de características diferentes de las definidas por las reivindicaciones independientes, se refieren en cualquier caso a ejemplos que se presentaron originalmente pero que no representan las realizaciones de la invención actualmente reivindicada; estos ejemplos se muestran, no obstante, solo con fines ilustrativos. La presente descripción incluye procedimientos y sistemas para seleccionar y presentar elementos de contenido basados en la entrada del usuario. La presente descripción presenta una interfaz de entrada incremental para la recuperación de información. Los presentes sistemas y procedimientos proporcionan retroalimentación sobre la interpretación del sistema de la entrada del usuario y devuelven respuestas basándose en esa interpretación.
Según un aspecto, un procedimiento implementado por ordenador para seleccionar y presentar los elementos de contenido basados en la entrada del usuario comprende proporcionar acceso a un conjunto de elementos de contenido asociados a metadatos que describe el elemento de contenido correspondiente, recibir una primera entrada con la que el usuario tiene la intención de identificar al menos un elemento de contenido deseado, determinar que al menos una parte de la primera entrada tiene importancia en un grado que excede un valor umbral, proporcionar retroalimentación al usuario que identifica la parte de la entrada y recibir una segunda entrada del usuario posterior a la primera, deducir si el usuario tenía la intención de modificar la primera entrada con la segunda o de complementar la primera entrada con la segunda, con la condición de la que se deduce que el usuario tenía la intención de modificar la primera entrada con la segunda, determinar una consulta alternativa que combina la primera entrada con la segunda, con la condición de la que se deduce que el usuario tenía la intención de complementar la primera entrada con la segunda, determinar una consulta alternativa que combina la primera entrada y la segunda, seleccionar un subconjunto de elementos de contenido del conjunto de elementos de contenido basado en la comparación de la consulta alternativa y los metadatos asociados con el subconjunto de elementos de contenido y presentar el subconjunto de elementos de contenido al usuario, donde la deducción de si el usuario tenía la intención de modificar la primera entrada con la segunda o de complementar la primera entrada con la segunda puede incluir la determinación de un grado de similitud entre la primera entrada y la segunda, con la condición de que ese grado de similitud esté por encima de un umbral, deducir que el usuario tenía la intención de modificar la primera entrada y, con la condición de que el grado de similitud esté por debajo de un umbral, deducir que el usuario tenía la intención de complementar la primera entrada.
El aspecto anterior también puede proporcionar un sistema para seleccionar y presentar elementos de contenido basados en la entrada del usuario, comprendiendo el sistema instrucciones legibles por ordenador codificadas en un medio legible por ordenador no transitorio, las instrucciones legibles por ordenador que hacen que el sistema informático esté configurado para proporcionar acceso a un conjunto de elementos de contenido, estando dichos elementos de contenido asociados a metadatos que describen un elemento de contenido correspondiente, recibir una primera entrada con la que el usuario tiene la intención de identificar al menos un elemento de contenido deseado, determinar que al menos una parte de la primera entrada tiene un grado de importancia que excede un valor umbral, proporcionar retroalimentación al usuario que identifica la parte de la entrada y recibir una segunda entrada del usuario posterior a la primera, deducir si el usuario tenía la intención de modificar la primera entrada con la segunda o complementar la primera entrada con la segunda, con la condición de la que se deduce que el usuario tenía la intención de modificar la primera entrada con la segunda, determinar una consulta alternativa que combina la primera entrada y la segunda, con la condición de la que se deduce que el usuario tenía la intención de complementar la primera entrada con la segunda, determinar una consulta alternativa que combina la primera entrada con la segunda, seleccionar un subconjunto de elementos de contenido del conjunto de elementos de contenido basado en la comparación de la consulta alternativa y los metadatos asociados con el subconjunto de elementos de contenido y presentar el subconjunto de elementos de contenido al usuario, donde la deducción de si el usuario tenía la intención de modificar la primera entrada con la segunda o complementar la primera entrada con la segunda puede incluir la determinación de un grado de similitud entre la primera entrada y la segunda, con la condición de que ese grado de similitud esté por encima de un umbral, deducir que el usuario tenía la intención de modificar la primera entrada, y con la condición de que el grado de similitud esté por debajo de un umbral, deducir que el usuario tenía la intención de complementar la primera entrada.
Las realizaciones descritas en la presente invención pueden incluir aspectos adicionales. Por ejemplo, la determinación de que al menos la parte de la primera entrada tiene un grado de importancia que excede el valor umbral incluye la identificación de uno o más límites de frase en la entrada incremental, y la identificación de uno o más límites de la frase se basa al menos en parte o al menos en uno de los siguientes: (a) una disfluencia identificada en la primera entrada del usuario, (b) reglas gramaticales aplicadas a la primera entrada, (c) el grado de importancia de la parte de la primera entrada, (d) al menos una interacción conversacional previa con el usuario, y (e) una firma de preferencia del usuario. La firma de preferencia del usuario puede describir las preferencias del usuario para al menos uno de (i) los elementos de contenido en particular y (ii) los metadatos en particular asociados con los elementos de contenido, donde la parte de la primera entrada se identifica en función de la firma de preferencia del usuario. La disfluencia puede incluir una pausa en la entrada de voz, un relleno de tiempo auditivo en la entrada de voz y/o una pausa en la escritura. La selección del subconjunto de elementos de contenido puede basarse además en una disfluencia identificada en la primera entrada, y también en interacciones conversacionales previas que se determina que están relacionadas con la primera y la segunda entrada. En la retroalimentación proporcionada se puede incluir la solicitud de una aclaración sobre la parte identificada de la entrada, sugerir la finalización de la primera entrada recibida y/o la repetición de la parte de la entrada al usuario, para notificar al usuario que parte de la entrada puede haberse reconocido de manera incorrecta. La solicitud de aclaración sobre la parte identificada de la entrada puede basarse, al menos en parte, en una determinación de que se produce una disfluencia después de que el usuario haya proporcionado parte de la entrada. La sugerencia de completar la primera entrada recibida puede basarse, al menos en parte, en una determinación de que la disfluencia ocurre antes de que se espere que el usuario proporcione la parte de la entrada. La retroalimentación proporcionada al usuario puede elegirse en función de la duración de una disfluencia identificada en la primera entrada, un grado de confianza en el correcto reconocimiento de voz a texto de la parte de la entrada, un recuento de las ambigüedades detectadas en la primera entrada, un recuento las de correcciones de errores necesarias para identificar la parte de la entrada, un recuento de los nodos en la estructura de datos gráficos, donde dicho recuento de los nodos en la estructura de datos gráficos mide la ruta entre un primer nodo que representa un elemento de interés de una interacción conversacional previa y un segundo nodo que representa la parte de la entrada, y/o un grado de relación de la parte de la entrada con interacciones conversacionales previas con el usuario. La presentación del subconjunto de elementos de contenido puede incluir la presentación del subconjunto de elementos de contenido antes de recibir una entrada completa del usuario, al determinar una fuerte coincidencia de reconocimiento para la primera entrada y al determinar que un grado de respuesta del subconjunto seleccionado de elementos de contenido estaría por encima de un umbral.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
Para una comprensión más completa de varias realizaciones de los presentes sistemas y procedimientos, a continuación se hace referencia a las siguientes descripciones tomadas en relación con los dibujos adjuntos, donde los números de referencia similares se refieren a elementos similares:
La figura 1 ilustra los componentes de entrada y salida de un sistema de ejemplo para una entrada incremental, según algunas realizaciones.
La figura 2 ilustra un sistema de ejemplo para una interfaz de entrada de voz incremental, según algunas realizaciones. La figura 3 representa un flujo de datos de ejemplo de los presentes sistemas, según algunas realizaciones.
Las figuras 4-5 ilustran ejemplos de interacciones conversacionales entre el presente sistema y un usuario, según algunas realizaciones.
Las figuras 6-8 ilustran ejemplos de muestras de formas de onda para la introducción de datos del usuario “Quién actuaba en la película El mañana nunca muere,” según algunas realizaciones.
Las figuras 9-10 ilustran formas de onda de ejemplo que muestran el uso de la falta de pausas para detectar el recorte en la entrada de voz, según algunas realizaciones.
DESCRIPCIÓN DETALLADA DE LAS REALIZACIONES PREFERIDAS
Vista general
La presente descripción proporciona una interfaz de entrada incremental para la recuperación de información, donde los sistemas y procedimientos presentes proporcionan retroalimentación en tiempo real de la interpretación del sistema de la entrada del usuario y la devolución de respuestas en función de esa interpretación. Algunas realizaciones incluyen una interfaz de entrada incremental basada en voz, donde los presentes sistemas y procedimientos proporcionan retroalimentación en tiempo real sobre la entrada del usuario mientras este habla. Los presentes procedimientos y sistemas permiten una experiencia de usuario similar a las interacciones humanas donde un oyente responde a una consulta inmediatamente o incluso antes de que el usuario finalice una pregunta.
Además de centrarse en la experiencia natural de las interacciones humanas, los presentes sistemas y procedimientos abordan las muchas deficiencias que afectan a los sistemas tradicionales basados en la conversación, por ejemplo, donde abundan los errores en el reconocimiento de voz. La retroalimentación proporcionada por los presentes sistemas permite al usuario saber en tiempo real si se produce un error y tener así la oportunidad de corregirlo. El usuario no tiene que comenzar a hablar de nuevo, o recurrir a un modo de interacción de entrada de texto, para editar la larga cadena de texto de la entrada de voz. Es sabido que el uso del modo de entrada de texto es engorroso y peligroso en un entorno móvil, dada la exclusiva atención cognitiva, motora y sensorial que exige la edición de texto. Los requisitos de ejemplo de un modo de entrada de texto incluyen colocar o navegar al punto de inserción de texto en medio de una cadena para eliminar una frase o palabra incorrecta y a continuación escribir la frase o palabra correcta. Los presentes procedimientos y sistemas proporcionan retroalimentación en tiempo real sobre la entrada del usuario en los límites de la frase, y también devuelven respuestas completas o una sinopsis de respuestas a la entrada del usuario.
Algunas realizaciones proporcionan las respuestas en forma de audio y/o visual que coinciden con la forma donde el usuario está utilizando el presente sistema. Al igual que en el caso de las interacciones humanas, donde las pausas en las conversaciones son señales importantes para calibrar el nivel de comprensión, la confianza y/o la falta de confianza en el contenido que se expresa, los presentes sistemas y procedimientos hacen un uso completo de las disfluencias en la conversación, dentro y entre las oraciones, interpretando adecuadamente dichas disfluencias para sincronizar la retroalimentación auditiva/visual y las respuestas al usuario. Las disfluencias de ejemplo incluyen pausas en la conversación; rellenos auditivos en la conversación como “um”, “hmm”, “esto”, “uh”, “eh”, “bueno” o incluso “como”; o pausas en la introducción de datos con el teclado, como cuando un usuario se detiene al escribir.
Descubrimiento del problema y ventajas de la solución
Los solicitantes han descubierto que desde la perspectiva del procedimiento de entrada, la expresión de la intención como una oración completamente formada en lugar de una cadena de palabras clave, requiere que las interfaces de voz para el descubrimiento de contenido no sean como motores de ejecución de “comandos de voz”. Necesitan dar sentido a oraciones completas para generar respuestas.
Los solicitantes también han descubierto que otro desafío al que se enfrentan los sistemas de descubrimiento de contenido basado en voz es la corrección de errores que se deslizan en la entrada del usuario debido a los errores de reconocimiento de voz. Pronunciar una oración completa y a continuación tener que corregir una frase en medio de una oración convertida de voz a texto no es fácil, particularmente en un entorno móvil donde el usuario puede estar conduciendo y tener las manos y la vista completamente ocupados. Incluso ignorando lo engorroso de la edición de texto, la atención cognitiva, motora y sensorial exclusiva que exige la operación de edición descarta la edición de texto como una opción para la corrección en entornos móviles, como cuando el usuario está conduciendo.
Además, los solicitantes han descubierto que un desafío más sutil que abordar en una interfaz de descubrimiento de contenido basado en la entrada de voz es igualar la facilidad de uso que ofrece de manera natural la búsqueda incremental basada en texto. En la búsqueda incremental basada en texto, a medida que el usuario empieza a escribir, los resultados proporcionan información visual instantánea del sistema que converge en los resultados. Es decir, cuando el usuario escribe la frase “programador de Java” en una entrada de búsqueda de texto, el usuario comienza a ver resultados de búsqueda de programadores de JAVA, por ejemplo, en un sistema de recuperación de información para selección de personal. La posterior adición de restricciones como “Boston” o “desarrollo de sistemas integrados” podría ser una elección dinámica que el usuario puede hacer en función de los resultados que aparecen a medida que escribe. La naturaleza instantánea de la respuesta a la búsqueda tiene dos objetivos clave: (1) la respuesta ofrece retroalimentación instantánea al usuario y (2) la respuesta incluso ayuda al usuario a adaptar las preguntas posteriores en función de la respuesta, todo ello mientras escribe en un cuadro de búsqueda. No es suficiente con que el rango de precisión del reconocimiento de voz mejore para igualar la facilidad de uso de la búsqueda incremental basada en texto. Incluso si el reconocimiento de voz se aproxima al 100 % de precisión, la capacidad de los presentes sistemas y procedimientos de modificar dinámicamente la intención original en función de las respuestas a la entrada parcial es un factor útil de experiencia del usuario para calibrar la capacidad de respuesta y la inteligencia del sistema. Las conversaciones que muchos usuarios clasificarían como interesantes aún pueden contener interrupciones e interjecciones mutuas. Por ejemplo, estas interrupciones e interjecciones forman la esencia de la riqueza de la conversación, incluso si la conversación se mantiene centrada en el tema principal a tratar.
Las realizaciones de los presentes sistemas y procedimientos abordan los desafíos descritos anteriormente de múltiples maneras. Un procedimiento sirve para dar al usuario la confianza de que el reconocimiento de voz ha funcionado tanto de forma visual como auditiva. Esta confirmación puede ser por una respuesta auditiva y/o visual (p. ej., a través del tablero de instrumentos de un automóvil o de la pantalla del teléfono móvil). En forma auditiva, esta confirmación puede incluir la repetición de frases reconocidas (no todas las palabras del usuario) o proporcionar una sinopsis de la respuesta, mientras el usuario habla (p. ej., los presentes sistemas responden con “50 coincidencias de programadores de Java” como resultado de búsqueda). El presente sistema también puede generar resultados completos de forma visual o auditiva cuando el usuario hace una pausa; la duración de una pausa se usa como una métrica para decidir qué resultados presentar.
En resumen, la presente descripción presenta una interfaz de descubrimiento de contenido basada en la entrada de voz donde la retroalimentación y las respuestas se presentan cuando el usuario expresa su intención, donde las respuestas pueden incluir retroalimentación sobre la entrada del usuario y los resultados de la intención expresada por el usuario hasta ese momento.
Sistema de entrada incremental
Las realizaciones preferidas de la presente invención y sus ventajas pueden entenderse consultando las figuras 1-10. La figura 1 ilustra los componentes de entrada y salida de un sistema de ejemplo 103 para una entrada incremental, según algunas realizaciones. El sistema 103 incluye las entradas de micrófono 101 y la interfaz visual 102. El sistema 103 también incluye las salidas de auriculares/altavoz 104 y la pantalla 105
Algunas realizaciones permiten al usuario expresar su intención al hablar o escribir. El micrófono 101 y la interfaz visual 102, como un cuadro de texto o equivalente, pueden habilitar ambas formas de entrada. Otras realizaciones incluyen ambas formas de entrada, o solo una. De forma similar, algunas realizaciones presentan respuestas visuales y auditivas, respectivamente, en la pantalla 105 y los auriculares/altavoz 104. Entre los dispositivos que admiten diferentes combinaciones de estas entradas y salidas se encuentran las tabletas (p. ej., iPad) que tienen ambas formas de entrada y salida, teléfonos móviles que tienen ambas formas de entrada y salida (aunque en el uso real, el usuario solo puede usar entradas y salidas de audio, por ejemplo, mientras conduce), las pantallas del tablero de instrumentos del automóvil que tienen entrada de audio y salida tanto de imagen como de audio, los ordenadores de sobremesa/tabletas que tienen ambas formas de entrada y salida (aunque el usuario solo puede usar expresamente los medios de entrada y salida visual).
El último caso de uso de ordenadores de sobremesa/tabletas que admiten entrada y salida de audio e imagen puede parecer inicialmente un simple caso de uso de búsqueda incremental basada en texto. Sin embargo, los presentes sistemas y procedimientos todavía pueden usar la entrada de lenguaje natural en combinación con la capacidad de detectar términos de importancia en los límites de la frase, para facilitar la edición rápida. Por ejemplo, las interfaces visuales de los dispositivos táctiles dificultan la interacción a la hora de colocar un punto de inserción para eliminar o seleccionar. Incluso en los ordenadores de sobremesa, donde las operaciones de edición son más fáciles, algunas realizaciones hacen que la interfaz de entrada de texto mediante lenguaje natural sea una extensión sencilla y natural del familiar cuadro de texto de búsqueda. Por ejemplo, los presentes sistemas interpretan las disfluencias, p. ej., las pausas detectadas entre las oraciones mientras el usuario escribe que representan los límites de las oraciones. Este uso de las disfluencias elimina la necesidad de que el usuario introduzca delimitadores explícitos, como la puntuación. Por consiguiente, en algunas realizaciones, el sistema 103 amplía la conocida interfaz visual basada en texto 102 como un medio para introducir la intención en la presente interfaz de lenguaje natural. El presente sistema utiliza las disfluencias detectadas entre las palabras y oraciones para interpretar los límites de las oraciones y la conversación. Los presentes sistemas se convierten en interfaces familiares y fáciles de adoptar, tanto para usuarios que desean utilizar interfaces de lenguaje natural como para usuarios que ya se sienten cómodos con el refinamiento de búsqueda basado en palabras clave. La determinación implícita de los límites de las oraciones y la conversación basados en las disfluencias hace posible esta familiaridad. Otras realizaciones usan modos de texto y voz híbridos o combinados para permitir que un usuario exprese su intención, si lo desea.
La figura 2 ilustra un sistema de ejemplo 213 para una interfaz de entrada de voz incremental, según algunas realizaciones. El sistema 213 incluye el reconocedor de voz 201, la interfaz de entrada de texto 203, la interfaz de representación de retroalimentación y respuesta 204 y el convertidor de texto a voz 206.
El sistema 213 alimenta el flujo de entrada de voz 200 desde el usuario al reconocedor de voz 201. El reconocedor de voz 201 emite texto reconocido en tiempo real mientras el usuario habla. En algunas realizaciones, la pantalla 205 presenta el texto emitido directamente como texto ya introducido en la interfaz de entrada de texto 203. En otras realizaciones, el sistema 213 envía el texto reconocido con errores al motor de conversación 202 (a través de la interfaz de entrada/salida 212). El motor 202 de conversación interpreta la salida reconocida, incluidos los errores incrustados, en el contexto de la conversación para realizar una corrección de errores más inteligente de la entrada del usuario. La interfaz de entrada de texto 203 muestra a continuación la salida reconocida. Al usar el contexto de la conversación, algunas realizaciones usan variables de estado previamente almacenadas sobre las interacciones presentes en el contexto de la conversación y/o conversaciones previas (p. ej., entidades, intenciones y/o resultados de interacciones conversacionales) para mejorar la predicción de qué intención intentaba comunicar el usuario. Por ejemplo, si un usuario dice una frase que contiene una palabra que el reconocedor de voz 201 podría interpretar como “java” o “jabba”, el sistema 213 puede deducir que el usuario estaba preguntando sobre “JAVA”, el lenguaje de programación, basándose en las interacciones conversacionales de anteriores solicitudes del usuario para obtener una lista de programadores disponibles en un área geográfica designada. En contraste, el sistema 213 deduce que el usuario no estaba solicitando elementos de contenido relacionados con “Jabba”, el nombre de un personaje ficticio de las películas de Star Wars (es decir, “Jabba el Hutt”). La corrección de errores descrita anteriormente y la determinación de las variables de estado correspondientes se describen en la patente de los EE. UU. n.° 2014/0108453 A1 denominada “Procedimiento para la gestión adaptativa del estado de la conversación con operadores de filtrado aplicados dinámicamente como parte de una interfaz conversacional”, presentada el 13 de marzo de 2013.
En algunas realizaciones, el sistema 213 resalta las frases como elementos interactivos que son fácilmente editables, basándose en el procesamiento actual de la entrada de voz 200 y el texto correspondiente en tiempo real del motor de conversación 202 antes de visualizarse en la interfaz de entrada de texto 203. El presente resaltado permite al sistema 213 manejar los errores de reconocimiento que no fueron descubiertos por el motor de conversación 202. En algunas realizaciones, el sistema 213 utiliza reglas de gramática para identificar los elementos interactivos apropiados a resaltar. Por ejemplo, el sistema 213 resalta los sustantivos o sujetos de una oración, según lo identificado por un motor de reglas gramaticales (no mostrado) o por otros procedimientos conocidos. En otras realizaciones, la interfaz de usuario 203 muestra la cadena de voz reconocida sin alterar, y la interfaz de representación de retroalimentación y respuesta 204 presenta información sobre la entrada de texto 208 desde el motor de conversación 203 por separado. Esta representación por separado permite al usuario editar fácilmente la cadena original convertida en texto.
La salida de ejemplo del motor de conversación 202 incluye la respuesta de voz 210 y la respuesta visual 209 a mostrar. El componente de voz 211 de la respuesta de voz 210 proporciona retroalimentación al usuario que identifica una parte de la entrada que el sistema 213 ha determinado que es importante. La retroalimentación de ejemplo incluye (1) solicitar aclaraciones sobre la parte de la entrada, (2) repetir la parte de la entrada, (3) sugerir que se complete la parte de la entrada del usuario, (4) proporcionar un breve resumen (p. ej., una “sinopsis”) de los elementos de contenido solicitados en respuesta a la entrada de voz 200, y/o (5) proporcionar el subconjunto completo de elementos de contenido solicitados encontrados en respuesta a la entrada de voz 200. Un ejemplo de solicitud de aclaración sería que el sistema 213 preguntara “¿quiso decir programadores de “Java” o “Jabba e1Hutt”?” Un ejemplo de repetición de la parte de la entrada sería que el sistema 213 repitiera una parte de la entrada reconocida incorrectamente, por ejemplo, “área de Bolton”, cuando la entrada de voz 200 incluía “área de Boston”. Un ejemplo de sugerencia de finalización sería que, en respuesta a la entrada de voz 200 “en qué película actuó Jessica Chastain dirigida por Terrence <pausa>“, el sistema 213 respondiera “Terrence Malick”). Un ejemplo de sinopsis de los elementos de contenido solicitados sería que el sistema 213 respondiera “más de 100 programadores de Java en el área de Boston”. Un ejemplo donde se proporciona todo el subconjunto de elementos de contenido solicitados sería que el sistema 213 enumerara los programadores de Java encontrados. El convertidor de texto a voz 206 convierte el componente de voz 210 del motor de conversación 202 en la salida de voz 211.
En algunas realizaciones, el convertidor de texto a voz 206 también alimenta la salida de voz 207 al reconocedor de voz 201, por ejemplo, para representarla en la salida de audio, de modo que el reconocedor de voz 201 pueda filtrar la salida del sistema a partir de la voz del usuario. Este filtrado asume que el sistema 213 está diseñado para evitar el tradicional timbre de bucle de retroalimentación de audio. Si el sistema 213 alimenta la salida de audio directamente a la toma de salida de los auriculares, esta retroalimentación de audio no es necesaria, ya que el usuario escucha la salida del sistema directamente, sin que el micrófono la detecte. En algunas realizaciones, la salida de audio del sistema tiene menos prioridad y se apaga cuando el sistema 213 detecta que el usuario está hablando, para no interrumpirlo. En otras realizaciones, el sistema puede no apagar la salida de audio, por ejemplo en los casos donde la salida de audio es la de los auriculares. Esta situación simula conversaciones de la vida real donde una persona interrumpe a otra. Por ejemplo, el sistema 213 “interrumpe” al usuario al determinar un grado de confianza que al presentar los resultados solicitados al usuario (es decir, al presentar el subconjunto solicitado de elementos de contenido) eliminaría la necesidad de que el usuario termine de proporcionar el resto de la entrada de voz 200. Esta funcionalidad puede beneficiarse de un diseño cuidadoso desde la perspectiva de la interfaz, para evitar que el sistema 213 le parezca “grosero” al usuario.
La figura 3 representa un flujo de datos 300 de ejemplo de los presentes sistemas, según algunas realizaciones. El presente sistema recibe la entrada de texto 302. En algunas realizaciones, la entrada de texto 302 se recibe como entrada de texto escrita directamente por el usuario. En otras realizaciones, la entrada de texto 302 se determina usando la conversión de voz a texto (paso 303) de la voz de usuario 301. El presente sistema marca en el tiempo la entrada de texto 302 con la información de las pausas dentro y entre las oraciones (paso 304). Algunas realizaciones utilizan el contexto conversacional para interpretar la información de las pausas (paso 305). El presente sistema utiliza la interpretación resultante para generar la retroalimentación o los resultados en respuesta al usuario (paso 306). A continuación se describen las técnicas para interpretar las pausas en el discurso, en relación con las figuras 6-10. Las técnicas para interpretar las pausas en el discurso se exponen con más detalle en la patente de los EE. UU. n.° 2014/0039895 A1 denominada Procedimiento para utilizar las pausas detectadas en la entrada de voz para ayudar a interpretar la entrada durante la interacción conversacional para la recuperación de información, presentada el 13 de marzo de 2013. Esas técnicas pueden utilizarse junto con las técnicas descritas en este documento. En algunas realizaciones, la respuesta generada incluye un componente visual 307 y un componente de voz. El presente sistema reproduce el componente de voz 308 al usuario y también utiliza el componente de voz como retroalimentación auditiva 309. Por ejemplo, el presente sistema cancela la señal reproducida en el caso de que una entrada de micrófono pueda detectar la retroalimentación auditiva 309.
La figura 4 ilustra un ejemplo de interacción conversacional 400 entre el presente sistema y un usuario, según algunas realizaciones. El usuario dice “muéstrame programadores de Java en el área de Boston” (intercambio 401). En cualquier momento, el presente sistema permite que el usuario pueda proporcionar disfluencias tales como hacer una pausa en cualquier punto para recibir retroalimentación del presente sistema, si el usuario duda de que se le haya entendido. Por ejemplo, si el usuario hace una pausa después de decir “muéstrame programadores” o “muéstrame programadores de java”, el presente sistema determina que una parte de la entrada recibida hasta el momento tiene un grado de importancia que excede un valor umbral. El presente sistema proporciona retroalimentación y/o indicaciones sobre la parte de la entrada que se considera que tiene el grado de importancia, como “programadores de Java” o “área de Boston”. Por ejemplo, el presente sistema proporciona retroalimentación sobre partes de la entrada acotadas por límites de la frase, o generalmente sobre cualquier parte de la entrada considerada importante. Algunas realizaciones pueden determinar el grado de importancia en función de los metadatos relacionados almacenados en una estructura de datos teóricos gráficos de nodos y entidades, descritos con más detalle a continuación. En algunas realizaciones, el grado de importancia identifica las partes de la entrada que podrían beneficiarse de la aclaración, desambiguación o confirmación por parte del presente sistema. El presente sistema proporciona retroalimentación al usuario identificando la parte de la entrada considerada importante (es decir, el presente sistema proporciona retroalimentación o confirmación sobre las frases o términos importantes dichos hasta ese momento).
Al proporcionar la confirmación, el presente sistema funciona casi como un asistente personal que copia al dictado y repite ciertas frases o palabras pronunciadas, de modo que la persona que dicta es consciente de que la transcripción del texto del asistente personal se está realizando correctamente. Por lo tanto, en algunas realizaciones, el presente sistema comienza repitiendo la parte de la entrada considerada importante (es decir, repitiendo las frases dichas por el usuario). En realizaciones adicionales, el presente sistema utiliza el índice de éxito de reconocimiento y/o comprensión a lo largo del tiempo para ajustar la retroalimentación. Por ejemplo, si la primera retroalimentación proporcionada es “programadores de Java”, y la segunda es “James Gosling” (cocreador del lenguaje de programación Java), un tercer ejemplo de retroalimentación confirma “sí, Python lo consiguió” al reconocer el presente sistema una parte adicional de la entrada que indica otro lenguaje de programación.
En otras realizaciones, el grado de importancia es una puntuación de confianza recibida del convertidor de voz a texto, y la retroalimentación repite una parte de la entrada que el presente sistema determina que está por debajo de la puntuación de confianza. En contraste con el ejemplo expuesto anteriormente, este ejemplo describe un escenario donde el presente sistema proporciona retroalimentación repitiendo la parte de la entrada, porque el sistema ha determinado que el proceso de conversión de voz a texto puede haber arrojado resultados incorrectos. Otras realizaciones del grado de importancia pueden indicar que hay muchas variaciones fonéticas cercanas que coinciden con la entrada del usuario.
En el intercambio 401 de ejemplo, el usuario escribe y/o pronuncia una oración completa que contiene dos partes de la entrada que tienen altos grados de importancia: programadores de Java 409 y área Bolton 410. En algunas realizaciones, el presente sistema proporciona retroalimentación ofreciendo una repetición auditiva de la última frase “área de Bolton”, y también resalta visualmente las partes de interés (intercambio 402) para permitir una edición fácil por parte del usuario. El presente sistema recibe una segunda entrada del usuario (intercambio 403). Por ejemplo, el usuario hace clic o toca la segunda frase “área de Bolton” 410 para corregir un error de reconocimiento (“Boston” se ha reconocido erróneamente como “Bolton”). El presente sistema deduce que el usuario tiene la intención de modificar la primera entrada (intercambio 401) utilizando una segunda entrada. Por ejemplo, el presente sistema deduce que el usuario tiene la intención de modificar la primera entrada determinando una similitud entre la segunda entrada y la parte de la entrada correspondiente con la primera. La similitud puede basarse en la detección de caracteres similares de la segunda entrada y la parte de la entrada correspondiente, o en la detección de variaciones similares, tales como las variaciones fonéticas entre la segunda entrada y la parte de la entrada correspondiente. En algunas realizaciones, el usuario corrige el error de reconocimiento pronunciando la segunda entrada 411 “área de Boston” nuevamente, o eligiendo de una lista de variantes de “Bolton”, la variante “Boston”. El presente sistema puede determinar una consulta alternativa utilizando la segunda entrada. Incluso en el caso de que la segunda entrada implique una interacción visual, el usuario no tiene que usar procedimientos tradicionales de corrección de texto y no tiene que esforzarse para colocar el punto de inserción al final de la palabra “Bolton” para corregir el error de reconocimiento. En cambio, el presente sistema permite al usuario tocar el área resaltada alrededor de la parte identificada de la entrada “área de Bolton”. El presente sistema permite al usuario editar la parte de la entrada usando una segunda entrada, ya sea pronunciando de nuevo la parte de la entrada o escribiendo la parte de la entrada “Boston”.
El presente sistema selecciona un subconjunto de elementos de contenido relevantes, con base en la comparación de la consulta alternativa y los metadatos asociados con el subconjunto de elementos de contenido. Por ejemplo, el presente sistema responde con un resumen de los resultados (intercambio 404) de la consulta alternativa. Los resultados se basan en metadatos asociados, como los que identifican a los programadores de Java. En algunas realizaciones, la respuesta incluye una pantalla visual combinada con una versión oral o auditiva de los elementos de contenido relevantes. El usuario puede proporcionar información posterior, como “que también tengan conocimientos de Python” (intercambio 405). En algunas realizaciones, el usuario comienza a hablar incluso antes de que el presente sistema haya terminado de proporcionar los resultados de que hay más de cien programadores de Java. Al escuchar que el usuario comienza a hablar (p. ej., en función de la actividad del micrófono), algunas realizaciones suspenden inmediatamente la reproducción de la respuesta. Esta situación es análoga a las conversaciones entre humanos, donde un hablante puede detenerse cuando alguien le interrumpe. El presente sistema deduce que la segunda entrada está destinada a complementar la entrada existente. El presente sistema responde con un subconjunto revisado de elementos de contenido, como un resumen de treinta y tres programadores para la nueva consulta (intercambio 406).
Como se ha descrito anteriormente, el presente sistema deduce que el usuario tenía la intención de complementar la consulta existente. El presente sistema añade la consulta recién pronunciada al texto existente que se muestra en la pantalla, con la frase recién añadida Python resaltada (intercambio 412). En algunas realizaciones, el presente sistema permite al usuario usar la interfaz de la barra de búsqueda para continuar la conversación. El usuario puede utilizar cómodamente una interfaz de búsqueda existente para la búsqueda de palabras clave, no solo para escribir la entrada en lenguaje natural, sino también para mantener una conversación como si el usuario simplemente estuviera añadiendo una palabra adicional en la búsqueda incremental basada en texto. Como se ha descrito anteriormente, algunas realizaciones rastrean disfluencias tales como las pausas en la recepción de la entrada de texto y desglosan una secuencia de entrada (ya sea escrita como entrada de texto, una entrada de voz convertida a texto o una combinación), en oraciones y frases basadas en la información de las pausas y las interacciones anteriores del usuario con la interfaz.
Además, la presente interfaz de usuario permite que los usuarios que ya se sienten cómodos con la búsqueda de palabras clave utilicen la interfaz familiar, sin tener que ser conscientes de que la interfaz es capaz de introducir información hablada y en lenguaje natural. Por ejemplo, después de escuchar el resumen de la sinopsis del subconjunto de elementos de contenido (intercambio 406), el usuario pronuncia una acción como “mándaselo por correo electrónico a Sam” (intercambio 407). El presente sistema identifica a “Sam” como una parte de la entrada basada en un grado de importancia. El presente sistema proporciona retroalimentación al usuario que identifica la parte de la entrada. Por ejemplo, el presente sistema repite “Sam” al usuario. El presente sistema también resalta la parte de la entrada “Sam”, lo que permite al usuario editar la parte de la entrada resaltada si es incorrecta. El presente sistema deduce que el usuario tenía la intención de complementar el intercambio conversacional anterior y envía la lista de treinta y tres programadores por correo electrónico a Sam. El sistema envía la lista por correo electrónico después de una pausa, para permitir al usuario editar la parte de entrada “Sam” si es necesario. Este ejemplo ilustra una secuencia de interacción que incluye entradas y salidas auditivas y visuales. Como se ha descrito anteriormente, el presente sistema no requiere tanto entradas y salidas auditivas como visuales; cualquier subconjunto o combinación de estas entradas y salidas es posible en función de la implementación en particular y el escenario de uso.
La figura 5 ilustra un ejemplo de interacción conversacional 500 entre el presente sistema y un usuario, según algunas realizaciones. La interacción conversacional 500 ilustra un ejemplo donde la interacción del usuario no implica la visualización para la entrada ni para la salida. En otras palabras, la interacción conversacional 500 ilustra el audio como el único medio de comunicación.
El usuario proporciona una primera entrada, “dime el nombre de Jessica Chastain” y hace una pausa para confirmar que el presente sistema ha identificado correctamente la parte de la entrada de interés para el usuario (intercambio 501) . El presente sistema identifica que la parte de la entrada “Jessica Chastain” tiene un grado de importancia que excede un valor umbral. En consecuencia, el presente sistema proporciona retroalimentación al usuario que identifica la parte de la entrada. Por ejemplo, el presente sistema responde con “Sí, Jessica Chastain, continúa...” (intercambio 502) . La retroalimentación proporcionada por el sistema representa una respuesta de audio natural, dado que la primera entrada del usuario es parcial y una oración incompleta (en contraste con el usuario que simplemente escribe una palabra clave) y dado que la primera entrada es una entrada de voz. (Algunas realizaciones rastrean si la fuente de la primera entrada es texto o voz, pese a la conversión de voz a texto de la entrada de voz). El usuario proporciona una entrada posterior “en su última película” (intercambio 503). El presente sistema deduce que el usuario tenía la intención de complementar la primera entrada con la segunda. El presente sistema determina una consulta alternativa combinando la primera entrada con la segunda, y selecciona un subconjunto de elementos de contenido comparando la consulta alternativa con los metadatos correspondientes. En función del subconjunto de elementos de contenido seleccionado, el presente sistema responde “La noche más oscura” (intercambio 504), la película más reciente donde Jessica Chastain había actuado en el momento de la consulta del usuario. Algunas realizaciones utilizan reglas gramaticales aplicadas a la estructura de la oración para determinar si la entrada es completa o es parcial. Por ejemplo, si el motor de reglas gramaticales determina que falta el sujeto, objeto directo y/o objeto indirecto de una oración, el presente sistema determina que la entrada es incremental o parcial. Otras realizaciones usan técnicas de clasificación probabilística, como un clasificador bayesiano ingenuo, para determinar cuándo una entrada está incompleta. Aun así, otras realizaciones deducen que un intercambio está incompleto en función de las relaciones entre entidades detectadas en el intercambio. Por ejemplo, el presente sistema deduce que el intercambio 501 está incompleto en función de las relaciones detectadas entre entidades gramaticales en el intercambio, porque no tiene sentido que un usuario pregunte el nombre (“dígame el nombre”) de alguien a quien acaba de nombrar (“de Jessica Chastain”).
El usuario hace una pregunta de seguimiento, “en qué película actuó que fue dirigida por Terrence”, y hace una pausa para recordar el nombre completo del director (intercambio 505). El presente sistema determina que una parte de la entrada (“Terrence”) tiene un grado de importancia que excede un umbral, en función de la disfluencia detectada (p. ej., en función de la pausa del usuario). El presente sistema determina además que el usuario tenía la intención de complementar la consulta existente, y determina una consulta alternativa que combina el término “Terrence” con la consulta existente (p. ej., película de Jessica Chastain). El presente sistema selecciona un subconjunto de elementos de contenido basándose en la comparación de la consulta alternativa y los metadatos correspondientes. Al descubrir una fuerte coincidencia inequívoca (p. ej., tanto para la parte de la entrada reconocida (“Terrence”) como para el subconjunto seleccionado de elementos de contenido (p. ej., película “El árbol de la vida”)) que califica un índice de éxito de respuesta por encima de un umbral, el presente sistema interrumpe al usuario para presentar el subconjunto de elementos de contenido. Por ejemplo, el presente sistema exclama “te refieres a El árbol de la vida de Terrence Malick” (intercambio 506). En algunas realizaciones, el índice de éxito de la respuesta para un subconjunto coincidente de elementos de contenido se determina en función de factores que incluyen recuentos de ambigüedades en la entrada del usuario, recuentos de correcciones de errores necesarios para llegar a una coincidencia, recuentos de “saltos” entre nodos en una estructura de datos gráficos que representa el contexto conversacional para llegar a la coincidencia (en realizaciones que usan información representada en formato teórico de gráficos, como se describe a continuación), y/o un grado de relación de la coincidencia con interacciones conversacionales anteriores entre el sistema y el usuario. En realizaciones adicionales, el intercambio 506, aunque se ilustra en forma de audio, también puede producirse como una combinación de texto y audio. Además, como se ha descrito anteriormente, la entrada del usuario puede ser una cadena de palabras clave proporcionadas por el usuario en forma de texto. El presente sistema responde con la misma interjección incluso en respuesta a la entrada de texto. En otras realizaciones, la interjección es pasiva, ya que el presente sistema muestra los resultados en cuanto el usuario escribe “Terrence”.
Mientras que en el escenario de ejemplo descrito anteriormente, el presente sistema presenta de manera proactiva el subconjunto de elementos de contenido al usuario al determinar que la intención del usuario no era ambigua, la presente interfaz de voz incremental también permite la desambiguación de la entrada incluso antes de que el usuario termine de expresar una intención por completo. Por ejemplo, si el usuario tiene la intención de hacer la pregunta “juegan los sox esta noche” y dice “juegan los sox” y hace una pausa para escuchar los comentarios sobre la parte de la entrada “sox”, el presente sistema proporciona retroalimentación desambiguando automáticamente las entradas recibidas como los equipos de béisbol “Boston Red Sox” y “Chicago White Sox”. Si el usuario hubiera pronunciado completamente la oración, “juegan los sox esta noche”, y suponiendo que el presente sistema no estuviera al tanto de las preferencias personales del usuario, proporcionaría retroalimentación utilizando una pregunta de seguimiento para desambiguar la entrada recibida. Por ejemplo, el presente sistema pregunta “¿te refieres a los Boston Red Sox o a los Chicago White Sox?” Como se ha descrito anteriormente, el presente sistema puede proporcionar retroalimentación tanto de forma visual como auditiva. Además, en la presente búsqueda incremental, la desambiguación puede ocurrir cuando el usuario está expresando su intención. Por ejemplo, el presente sistema utiliza una disfluencia (p. ej., una pausa) proporcionada por el usuario en los límites de la frase para proporcionar retroalimentación en forma de confirmación al usuario de que el sistema recibió la conversión correcta de voz a texto en las frases de entrada. El presente sistema utiliza además una disfluencia detectada para identificar una parte de la entrada para desambiguar cuando la entrada tiene ambigüedades. En otras palabras, el usuario usa pausas en los límites de la frase para confirmar que el presente sistema ha entendido la entrada correctamente (con la capacidad de editar la entrada inmediatamente si se ha entendido de manera incorrecta). El usuario además utiliza pausas en los límites de la frase para desambiguar la intención. Como se ha ilustrado anteriormente, cuando el presente sistema determina que un índice de éxito de respuesta esperado supera un umbral, las disfluencias detectadas eliminan incluso la necesidad de que el usuario exprese más su intención. Según lo descrito anteriormente, las técnicas expuestas en la patente de EE. UU. n.° 2014/0039895 A1 se pueden utilizar para deducir el significado de la pausa de un usuario en el discurso y/o cualquier otra disfluencia de la voz. Por ejemplo, si se produce una pausa después de una entrada de oración parcial, el presente sistema deduce que el usuario busca confirmación de que se le ha entendido. Por el contrario, si la pausa precede a lo que se puede predecir como una parte de la entrada, el presente sistema deduce que el usuario no está seguro durante la entrada, y el sistema pondera en consecuencia el correspondiente grado de importancia de la parte de la entrada.
Detección y uso de las disfluencias
Las figuras 6-8 ilustran ejemplos de muestras de formas de onda de la entrada del usuario “Quién actuaba en la película El mañana nunca muere”, según algunas realizaciones.
<duración de la pausa = 800 ms>quién actuaba en la película<duración de la pausa = 550
ms>el mañana nunca muere<duración de la pausa = 1200 ms>
La entrada de voz 601 está flanqueada por una pausa inicial/silencio 602 y una pausa final/silencio 603. Además, dentro de la entrada de voz 601, hay una pausa 701 de 550 milisegundos. Estas pausas y/o silencios están indicados por una baja intensidad de la onda de sonido de la entrada de voz. A diferencia de estas pausas, la parte del discurso 801 tiene una alta intensidad, lo que indica que la parte del discurso 801 no es una disfluencia ni una pausa. Una definición del término pausa, como se usa en esta invención, es un período de silencio relativo donde el usuario no está hablando, pero donde la entrada de audio puede incluir sonidos ambientales. Por ejemplo, el presente sistema puede analizar los espectros de potencia de frecuencia 604, 704 y 804 para detectar el discurso frente a una pausa según los niveles de potencia de entrada. Como se muestra en los espectros de potencia 704, 804, la pausa 701 tiene una intensidad de aproximadamente -60 dB, y la parte de discurso 801 tiene una intensidad de aproximadamente -50 dB. Como la unidad de decibelios (dB) es una unidad logarítmica, hay un factor de diferencia de 10 en la intensidad de la pausa y la parte del discurso. En algunas realizaciones, los motores de voz a texto estándar realizan la detección de las disfluencias, teniendo en cuenta los sonidos ambientales.
Como se ha ilustrado anteriormente, se detecta una pausa cuando hay un período de ausencia o baja intensidad de sonido. La intensidad de corte del sonido para distinguir una pausa de una parte vocalizada de la entrada de voz se puede predefinir, por ejemplo, a -55 dB. Por otro lado, la intensidad de corte puede ser relativa a la entrada de voz y al ruido de fondo. La intensidad de corte se puede elegir, por ejemplo, al 20 % de la intensidad media de la entrada de voz. Si el ruido de fondo es alto, la intensidad de corte se puede elegir al 30 % de la intensidad media. Además, se puede predefinir el período mínimo de pausa de baja intensidad de sonido que forma una pausa. Por ejemplo, el período de pausa mínimo puede ser de 300 ms. Alternativamente, el período de pausa mínimo puede variar según la velocidad a la que el usuario hable. Si la entrada de voz se pronuncia rápido, el período de pausa mínimo puede ser más corto. Si la entrada de voz se pronuncia despacio, el período de pausa mínimo puede ser más largo. Por lo tanto, el presente sistema detecta una pausa cuando hay un período más largo que el período de pausa mínimo con una intensidad de sonido menor que la intensidad de corte.
Los motores de voz a texto tradicionales pueden intentar determinar palabras y/o frases basadas en la entrada de audio durante la pausa, o simplemente pueden detener el procesamiento del lenguaje durante la pausa. Una distinción de las realizaciones descritas en la presente invención es que las técnicas actualmente descritas incluyen el hecho de que la pausa se produjo como entrada a los módulos posteriores al motor de voz a texto para determinar la intención del usuario o para ayudar al usuario a formular la solicitud de consulta en sí. Además del uso de pausas, se utilizan otras formas de disfluencias, incluidos los rellenos de tiempo auditivos, en el procesamiento del habla. En caso de que el usuario pronuncie palabras o sonidos de relleno añadidos para acompañar una pausa, los módulos posteriores que procesan la salida del motor de voz a texto pueden reconocer esas palabras y sonidos de relleno añadidos a la pausa. Por ejemplo, el uso de palabras de relleno del tipo “como” seguidas de una pausa, o sonidos como “umm”, “hmm”, “bueno”, “uh” y “eh” seguidos de una pausa también se consideran en su conjunto como una pausa con la duración total de la pausa, incluida la duración de la pronunciación de las palabras de relleno. En otras realizaciones, las palabras de relleno auditivo no van seguidas de una pausa. Por lo general, los rellenos de tiempo auditivo son continuos y carecen de variaciones en el tono y el volumen. Estas características pueden ayudar a la detección de los rellenos de tiempo auditivos.
Si la entrada de voz del usuario, por otro lado, fue “¿Juegan los Red Sox mañana?”, es poco probable que haya una latencia cognitiva de recuperación que preceda a la palabra “mañana”, puesto que la instancia de la parte de la entrada “mañana” forma parte de la razón misma para hacer la pregunta. En contraste, durante la entrada de voz “¿Quién actuaba en (pausa) El mañana nunca muere?” el usuario puede hacer una pausa antes de “mañana” para demarcar conscientemente el límite de la frase (es decir, para identificar la parte de la frase “El mañana nunca muere” como un elemento distinto) o simplemente hacer una pausa para realizar un recuerdo cognitivo. Al utilizar la pausa que precede a la frase “El mañana nunca muere” para identificar la frase como una parte de la entrada, el presente sistema de recuperación de información puede comprender mejor que la intención del usuario se refiere a esa parte de la entrada. Esta valiosa información se puede utilizar para restringir la búsqueda a información que se refiere solo a esa parte de la entrada, o que las partes de la entrada devueltas por la búsqueda que están relacionadas con la película “El mañana nunca muere” pueden recibir un mayor peso de relevancia.
En el caso de demarcar el límite de la frase, el usuario puede decir con confianza la parte que sigue a la pausa. En consecuencia, el presente sistema puede determinar la parte que sigue a la pausa como una determinada frase o título en función del volumen o la velocidad de la voz del hablante. Otro procedimiento para distinguir si la parte que sigue a la pausa es una frase pronunciada con o sin confianza podría ser basarse donde se exprese adicionalmente después de la pausa inicial. Si una persona no está segura de una frase, es posible que haga una nueva pausa. Además, una pausa seguida de una frase dicha con confianza puede ser relativamente corta. Por lo tanto, el sistema puede suponer primero que una frase o título que siga a una pausa breve es una frase dicha con confianza. A continuación, el sistema realiza la búsqueda, pero si no encuentra ningún resultado, puede deducir que la frase que sigue a la pausa breve se ha dicho sin confianza.
Como se ha mencionado anteriormente, la presencia de una pausa dentro de la entrada de voz se puede usar como una forma de medir la confianza de las partes de la propia entrada. La interpretación de la duración de las pausas y la frecuencia con que ocurren también se tiene en cuenta en las realizaciones de la presente invención para distinguir los casos de usuarios que simplemente hablan despacio (para que el reconocimiento de voz funcione mejor) frente a las pausas para realizar el recuerdo cognitivo. Por ejemplo, supongamos que la entrada de voz del usuario fue “¿Quién actuaba en (pausa) El día nunca muere?” En este caso, el sistema puede usar la pausa para indicar que el usuario puede no estar seguro del nombre del elemento para el que solicita información. Por lo tanto, cuando no encuentra un elemento correspondiente a “El día nunca muere”, el sistema puede responder con preguntas, orientado por la entrada del usuario (utilizando, p. ej., las técnicas establecidas en las aplicaciones incorporadas como se ha descrito anteriormente) para ayudar al usuario a definir su intención.
Además, el presente sistema puede dar una prioridad de búsqueda menor al elemento expresado con poca confianza en su conjunto y, en su lugar, usar los elementos de mayor confianza para guiar la búsqueda. Por ejemplo, el sistema puede confiar mucho en la parte “Quién actuaba” para centrarse en los resultados de un dominio de entretenimiento de audio/vídeo (basándose en la palabra “actuaba”). Conociendo este dominio, el sistema puede refinar aún más la búsqueda basándose en las partes de la entrada de menor confianza. Por ejemplo, el sistema puede realizar consultas basadas en combinaciones de las palabras de la parte de menor confianza para encontrar lo que el usuario está buscando o al menos para proporcionarle algunas opciones al usuario. De este modo, el sistema puede responder con la afirmación de que no puede encontrar una película titulada “El día nunca muere” y preguntar si el usuario quiso decir “El amor nunca muere” o “El mañana nunca muere”.
Las figuras 9-10 ilustran formas de onda de ejemplo que muestran el uso de la falta de pausas para detectar el recorte en la entrada de voz, según algunas realizaciones. Específicamente, la figura 9 ilustra el recorte inicial 901 y la figura 10 ilustra el recorte final 1002. El recorte de voz inicial 901 y el recorte final 1002 son detectados por el motor de voz a texto en combinación con los otros módulos y se codifican junto con la entrada de voz como se ha ilustrado anteriormente. Por el contrario, la presencia de la pausa final 902 y la pausa inicial 1001 delimitan claramente la entrada de voz. Los motores de voz a texto tradicionales pueden asignar sonidos recortados a palabras que coinciden aproximadamente o simplemente emitir un texto fonético equivalente a los sonidos. Las implementaciones de la presente invención reconocen la ausencia de estas pausas delimitadoras y utilizan su presencia como información adicional para interpretar el significado de la entrada del usuario. Por ejemplo, en lugar de simplemente encontrar la palabra que más se acerca a la parte recortada 901, la realización ilustrativa considera la posibilidad de que el usuario tuviera la intención de decir una palabra diferente que tiene un sufijo que coincide.
Repositorios de información
En algunas realizaciones, la presente invención utiliza repositorios de información para buscar el resultado de la consulta o para encontrar una palabra o frase sustituta. Los repositorios de información están asociados con dominios, que son conjuntos de tipos similares de información y/o determinados tipos de elementos de contenido. Ciertos tipos de repositorios de información incluyen entidades y relaciones entre las entidades. Cada entidad/relación pertenece a un tipo, respectivamente, de un conjunto de tipos. Además, a cada entidad/relación se le asocia un conjunto de atributos, que pueden capturarse, en algunas realizaciones, como un conjunto finito definido de campos de nombrevalor. La asignación entidad/relación también sirve como un conjunto de metadatos asociados con los elementos de contenido porque la asignación entidad/relación proporciona información que describe los diversos elementos de contenido. En otras palabras, una entidad en particular tendrá relación con otras entidades y estas “otras entidades” servirán como metadatos para la “entidad en particular”. Además, en la asignación, cada entidad puede tener atributos asignados a ella o a las relaciones que conectan la entidad con otras entidades. Colectivamente, esto constituye los metadatos asociados con las entidades/elementos de contenido. En general, dichos repositorios de información pueden denominarse en la presente invención repositorios de información estructurada. A continuación se presentan ejemplos de repositorios de información asociados a los dominios.
En un dominio de entretenimiento de medios se incluyen entidades, tales como películas, programas de televisión, episodios, equipo de producción, roles/personajes, actores/personalidades, atletas, partidos, equipos, ligas y torneos, deportistas, artistas e intérpretes de música, compositores, álbumes, canciones, personalidades de actualidad y/o distribuidores de contenido. Estas entidades tienen una serie de relaciones que se capturan en el repositorio de información. Por ejemplo, una entidad de una película se relaciona con una o más entidades de actor/personalidad mediante la relación “actuaba en”. De manera similar, una entidad de película puede estar relacionada con una entidad de álbum de música a través de la relación “banda sonora original”, que a su vez puede estar relacionada con una entidad de canción a través de la relación de “pista de un álbum”. Mientras tanto, los nombres, las descripciones, la información de la programación, las reseñas, las calificaciones, los costes, las URL de los vídeos o audios, las transacciones de la tienda de contenidos o aplicaciones, las puntuaciones, etc., pueden considerarse campos de atributo.
En un dominio de correo electrónico (e-mail) personal se incluyen entidades, como correos electrónicos, hilos de correo electrónico, contactos, remitentes, destinatarios, nombres de compañías, departamentos/unidades de negocios de empresa, carpetas de correo electrónico, ubicaciones de oficinas y/o ciudades y países correspondientes a las ubicaciones de las oficinas. Ejemplos ilustrativos de las relaciones serían una entidad de correo electrónico relacionada con la entidad remitente (así como las entidades para, cc, cco, receptores e hilo de correo electrónico). Mientras tanto, pueden existir relaciones entre un contacto y su empresa, departamento, ubicación de la oficina. En este repositorio, ejemplos de los campos de atributo asociados con las entidades serían los nombres de contactos, designaciones, identificadores de correo electrónico, otra información de contacto, marca de tiempo de correo electrónico enviado/recibido, asunto, cuerpo, archivos adjuntos, niveles de prioridad, información de ubicación de una oficina y/o el nombre y descripción de un departamento.
En un dominio relacionado con viajes/hoteles y turismo se incluyen entidades, como ciudades, hoteles, marcas de hoteles, puntos de interés individuales, categorías de puntos de interés, cadenas minoristas de cara al consumidor, sitios de alquiler de automóviles y/o empresas de alquiler de automóviles. Entre las relaciones entre tales entidades se incluyen la ubicación, pertenencia a cadenas y/o categorías. También se incluyen en los campos de atributo nombres, descripciones, palabras clave, costes, tipos de servicio, calificaciones, reseñas, etc.
En un dominio de comercio electrónico se incluyen entidades como artículos de productos, categorías y subcategorías de productos, marcas, tiendas, etc. Las relaciones entre dichas entidades pueden incluir información de compatibilidad entre artículos de productos, un producto “vendido por” una tienda, etc. En los campos de atributo se incluyen las descripciones, palabras clave, reseñas, calificaciones, costes y/o información de disponibilidad. En un dominio de libro de direcciones se incluyen entidades e información como nombres de contacto, direcciones de correo electrónico, números de teléfono, direcciones físicas y empresa.
Las entidades, relaciones y atributos enumerados aquí son solo ilustrativos y no pretenden ser una lista exhaustiva. Algunas realizaciones también pueden usar repositorios que no son repositorios de información estructurada como los descritos anteriormente. Por ejemplo, el repositorio de información correspondiente a documentos basados en la red (p. ej., Internet/World Wide Web) puede considerarse una red de relaciones web de documentos vinculados (entidades). Sin embargo, en general, ninguna estructura de tipos directamente aplicable puede describir de manera significativa, de forma no trivial, todos los tipos de entidades y relaciones y atributos asociados con los elementos de Internet en el sentido de los repositorios de información estructurada descritos anteriormente. Sin embargo, elementos como los nombres de dominio, tipos de medios de Internet, nombres de archivo, extensión de nombre de archivo, etc. pueden usarse como entidades o atributos con dicha información.
Por ejemplo, consideremos un corpus que conste de un conjunto de documentos de texto no estructurados. En este caso, ninguna estructura de tipos directamente aplicable puede enumerar un conjunto de entidades y relaciones que describan de manera significativa el contenido del documento. Sin embargo, la aplicación de técnicas de procesamiento de extracción semántica de la información como un paso de preprocesamiento puede dar como resultado entidades y relaciones que pueden descubrir parcialmente la estructura de dicho corpus.
Ejemplos ilustrativos de acceso a repositorios de información.
La siguiente descripción ilustra algunos ejemplos de tareas de recuperación de la información en el contexto de los repositorios de información estructurados y no estructurados como se ha descrito anteriormente.
En algunos casos, un usuario está interesado en una o más entidades de algún tipo, generalmente llamado tipo de intención en la presente invención, que el usuario desea descubrir especificando solo las restricciones de campo de atributo con las que las entidades deben cumplir. Tenga en cuenta que a veces la intención puede ser doble (tipo, atributo) cuando el usuario desea algún atributo de una entidad de cierto tipo. Por ejemplo, si el usuario desea conocer la calificación de una película, la intención podría verse como (tipo, atributo) = (película, calificación). Tales restricciones de la consulta se denominan generalmente restricciones de solo atributo en la presente invención. Cada vez que el usuario nombra la entidad o especifica suficiente información para que coincida directamente con los atributos de la entidad de tipo de intención deseada, se trata de una restricción de solo atributo. Por ejemplo, cuando el usuario identifica una película por su nombre y algún atributo adicional (p. ej., El cabo del miedo de los años 60), o cuando especifica una coincidencia de asunto para el correo electrónico que desea descubrir, o cuando solicita hoteles en función de un rango de precios, o cuando especifica que quiere un iPod touch de color negro de 32 GB.
Sin embargo, en algunos casos, un usuario está interesado en una o más entidades del tipo de intención y especifica no solo las restricciones de campo de atributo a las entidades de tipo de intención, sino también restricciones de campo de atributo o incluso nombra otras entidades con las que las entidades de tipo de intención están conectadas a través de las relaciones de alguna manera bien definida. A tales restricciones de la consulta se las denomina generalmente restricciones orientadas a la conexión en la presente invención.
Un ejemplo de restricción orientada a la conexión sería cuando el usuario quiere conocer una película (un tipo de intención) basada en la especificación de dos o más actores de la película o una película sobre un actor y un premio que ganó la película. Otro ejemplo, en el contexto del correo electrónico, es si el usuario desea ver los correos electrónicos (tipo de intención) recibidos de ciertos remitentes de una empresa en particular en los últimos siete días. Del mismo modo, otro ejemplo es si el usuario desea reservar una habitación de hotel (tipo de intención) cercana a una estación de tren y también a un Starbucks. Otro ejemplo es si el usuario quiere encontrar un televisor (tipo de intención) fabricado por Samsung que también sea compatible con una NINTENDO WII. Todos estos son ejemplos de consultas de restricciones orientadas a la conexión.
En los anteriores ejemplos de restricciones orientadas a la conexión, el usuario describe o especifica explícitamente las otras entidades conectadas a las entidades de intención. A tales restricciones se las denomina generalmente en la presente invención restricciones explícitas orientadas a la conexión y a las entidades mencionadas en la presente invención se las denomina entidades explícitas.
Mientras tanto, otras consultas contienen restricciones orientadas a la conexión que incluyen entidades no especificadas o implícitas como parte de la especificación de la restricción. En tal situación, el usuario está intentando identificar una información, entidad, atributo, etc. que no se conoce a través de las relaciones entre el elemento desconocido y los elementos que el usuario sí conoce. A tales restricciones se las denomina generalmente en la presente invención restricciones implícitas orientadas a la conexión y a las entidades no especificadas se las denomina generalmente en la presente invención entidades implícitas de la restricción.
Por ejemplo, el usuario puede desear identificar una película que está buscando nombrando dos personajes de la misma. Sin embargo, el usuario no recuerda el nombre de uno de los personajes, pero sí recuerda que un actor en particular interpretó al personaje. Por lo tanto, en su consulta, hace referencia a un personaje por su nombre e identifica al personaje desconocido indicando que el personaje fue interpretado por el actor en particular.
Sin embargo, hay que tener en cuenta las siguientes restricciones de usuario para los objetivos específicos de recuperación de la información: El usuario quiere conocer el papel (intención) interpretado por una actriz específica (p. ej., “Michelle Pfeiffer”) en una película no especificada que trata sobre un papel en concreto (p. ej., el personaje “Tony Montana”). En este caso, la restricción del usuario incluye una entidad implícita o no especificada que corresponde a la película “Scarface”. Del mismo modo, supongamos que el usuario quiere conocer la película (intención) protagonizada por la actriz especificada “Scarlett Johannson” y el actor no especificado que interpretó el papel concreto de “Obe Wan Kanobi” en una película específica Star Wars. En este caso, la entidad implícita es el actor “Ewan McGregor” y la entidad intencional es la película La isla protagonizada por “Scarlett Johannson” e “Ewan McGregor”. En el contexto del repositorio de correo electrónico, un ejemplo sería un usuario que desea obtener el último correo electrónico (intención) de un hombre no especificado de una compañía concreta “Intel” a quien se le presentó por correo electrónico (un especificador de atributos) la semana pasada. En este caso, la entidad implícita es un contacto que se puede descubrir examinando los contactos de “Intel”, a través de una relación empleado/empresa, que fue la primera vez que intercambió un correo electrónico normal con el usuario la semana pasada.
Los tres ejemplos anteriores son restricciones orientadas a la conexión, pero incluyen entidades no especificadas o implícitas como parte de la especificación de la restricción. La presente invención se refiere a las restricciones aquí contenidas como restricciones implícitas orientadas a la conexión y se refiere a las entidades no especificadas aquí contenidas como entidades implícitas de la restricción.
En el contexto de las restricciones orientadas a la conexión, puede ser útil asignar entidades y relaciones de los repositorios de información a los nodos y bordes de una estructura de datos teóricos de gráficos. La motivación para emplear un modelo gráfico en lugar de un modelo de relaciones de entidades es observar que la relevancia, la proximidad y la relación de la conversación en lenguaje natural pueden modelarse simplemente con nociones como la distancia entre enlaces y, en algunos casos, los caminos más cortos y los árboles de menor peso. Durante la conversación, cuando el diálogo de usuario involucra a otras entidades relacionadas con las entidades realmente buscadas, una recuperación de información de direccionamiento de subrutina como un problema simple de búsqueda de gráficos ayuda de manera eficaz a reducir la dependencia de una comprensión profunda e inequívoca de la estructura de la oración, lo que puede ser una enorme ventaja de la implementación. Incluso si el cálculo de la intención del usuario es ambiguo o no concluyente, siempre y cuando se hayan reconocido las entidades en el enunciado del usuario, un tratamiento del problema basado en la interpretación del gráfico permite que nuestro sistema responda de una manera mucho más inteligible que cualquier otra.
Algunas realizaciones de la presente invención utilizan una firma de preferencias del usuario (que captura la actividad e intereses del usuario, tanto implícita como explícitamente determinados) de una manera dependiente del contexto y, si corresponde, aplica la personalización a la selección de una palabra precedida por una pausa o un palabra recortada en caso de recorte inicial y recorte final. La personalización también se puede aplicar a la selección de resultados para ofrecer la mejor respuesta que tenga una alta probabilidad de coincidir con la intención del usuario. Ciertas realizaciones de la presente invención utilizan la firma de las preferencias del usuario, si están disponibles, para resolver la ambigüedad de la entrada del usuario.
El sistema puede proporcionar una firma de preferencia del usuario que utiliza técnicas para descubrir y almacenar dicha información de preferencias del usuario. Por ejemplo, los procedimientos y sistemas establecidos en la patente de EE. UU. n.° 7.774.294 denominada Procedimientos y sistemas para seleccionar y presentar contenido basado en la periodicidad aprendida de las selecciones de contenido del usuario, concedida el 10 de agosto de 2010, la patente de EE. UU. n.° 7.835.998 denominada Procedimientos y sistemas para seleccionar y presentar contenido en un primer sistema basado en las preferencias del usuario aprendidas en un segundo sistema, concedida el 16 de noviembre de 2010, la patente de EE. UU. n.° 7.461.061 denominada Procedimientos y sistemas de interfaz de usuario para seleccionar y presentar contenido basado en la navegación del usuario y las acciones de selección asociadas con el contenido, concedida el 2 de diciembre de 2008, y la patente de EE. UU. n.° 8.112.454 denominada Procedimientos y sistemas para ordenar elementos de contenido según las preferencias de usuario aprendidas, concedida el 7 de febrero de 2012, se pueden usar con las técnicas aquí descritas. Sin embargo, el uso de firmas y/o información de preferencias del usuario no se limita a las técnicas establecidas en las aplicaciones incorporadas.
En la descripción anterior, ciertos pasos o procesos se pueden realizar en servidores particulares o como parte de un motor particular. Estas descripciones son meramente ilustrativas, ya que los pasos específicos se pueden realizar en varios dispositivos de hardware, incluidos, entre otros, sistemas de servidor y/o dispositivos móviles. De manera similar, la división de dónde se realizan los pasos en particular puede variar, entendiéndose que dentro del alcance de la invención no se encuentra ninguna división o una división diferente. Además, el uso de “analizador”, “módulo”, “motor” y/u otros términos utilizados para describir el procesamiento del sistema informático está destinado a ser intercambiable y representar la lógica o los circuitos donde se puede ejecutar la funcionalidad.
Las técnicas y sistemas descritos en esta invención pueden implementarse como un programa informático para su uso con un sistema informático o dispositivo electrónico computarizado. Dichas implementaciones pueden incluir una serie de instrucciones computarizadas, o lógica, fijadas en un medio tangible, como un medio legible por ordenador (por ejemplo, un disquete, CD-ROM, ROM, memoria flash u otra memoria o disco duro) o transmitible a un sistema informático o un dispositivo, a través de un módem u otro dispositivo de interfaz, como un adaptador de comunicaciones conectado a una red a través de un medio.
El medio puede ser un medio tangible (p. ej., las líneas de comunicaciones ópticas o analógicas) o un medio implementado con técnicas inalámbricas (p. ej., Wi-Fi, tecnología móvil, de microondas, infrarrojos u otras técnicas de transmisión). La serie de instrucciones computarizadas incorpora al menos parte de la funcionalidad descrita en este documento con respecto al sistema. Los expertos en la materia deberían apreciar que tales instrucciones computarizadas se pueden escribir en varios lenguajes de programación para su uso con muchas arquitecturas informáticas o sistemas operativos.
Además, dichas instrucciones pueden almacenarse en cualquier dispositivo de memoria tangible, como dispositivos de memoria semiconductores, magnéticos, ópticos y otros, y pueden transmitirse utilizando cualquier tecnología de comunicaciones, como óptica, infrarroja, de microondas u otras tecnologías de transmisión.
Se espera que dicho programa informático se distribuya como un medio extraíble con la documentación impresa o electrónica adjunta (p. ej., software precintado), precargado en un sistema informático (p. ej., en la ROM del sistema o en el disco duro), o distribuido desde un servidor o boletín de anuncios electrónico a través de la red (p. ej., Internet o World Wide Web). Por supuesto, algunas realizaciones de la invención pueden implementarse como una combinación de software (p. ej., un programa informático) y hardware. Aun así, otras realizaciones de la invención se implementan completamente como hardware o completamente como software (p. ej., un programa informático).

Claims (11)

REIVINDICACIONES
1. Un procedimiento implementado por ordenador para seleccionar y presentar elementos de contenido basado en las entradas de los usuarios que comprende:
proporcionar acceso a un conjunto de elementos de contenido, estando dichos elementos de contenido asociados a metadatos que describen uno de los elementos de contenido;
recibir una primera entrada (401) destinada por el usuario a identificar al menos un elemento de contenido deseado; determinar que al menos una parte de la primera entrada tiene un grado de importancia que excede un valor umbral; proporcionar retroalimentación al usuario (402) identificando parte de la primera entrada;
recibir una segunda entrada (403, 405) del usuario posterior a la primera entrada;
deducir si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada;
con la condición de la que se deduce que el usuario tenía la intención de modificar la primera entrada con la segunda entrada, determinar una consulta alternativa modificando la primera entrada basada en la segunda entrada (404); con la condición de la que se deduce que el usuario tenía la intención de complementar la primera entrada con la segunda entrada, determinar una consulta alternativa combinando la primera entrada basada en la segunda entrada (406);
seleccionar un subconjunto de elementos de contenido del conjunto de elementos de contenido basándose en la comparación de la consulta alternativa y los metadatos asociados con los elementos de contenido del subconjunto de elementos de contenido; y
presentar el subconjunto de elementos de contenido al usuario;
caracterizado porque
la deducción de si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada incluye:
determinar un grado de similitud entre la primera entrada y la segunda entrada;
con la condición de que el grado de similitud esté por encima de un umbral, deducir que el usuario tenía la intención de modificar la primera entrada; y
con la condición de que el grado de similitud esté por debajo de un umbral, deducir que el usuario tenía la intención de complementar la primera entrada.
2. El procedimiento según la reivindicación 1,
donde la determinación de que la parte de la primera entrada tiene el grado de importancia que excede el valor umbral incluye la identificación de uno o más límites de la frase en la entrada incremental, y
donde la identificación de uno o más límites de la frase se basa al menos en parte en al menos uno de los siguientes (a) una disfluencia identificada del usuario en la primera entrada, (b) reglas gramaticales aplicadas a la primera entrada, (c) el grado de importancia de la parte de la primera entrada, (d) al menos una interacción conversacional previa con el usuario, y (e) una firma de preferencia del usuario
la firma de preferencia del usuario describe las preferencias del usuario para al menos uno de (i) los elementos de contenido en particular y (ii) los metadatos en particular asociados con los elementos de contenido, donde la parte de la primera entrada se identifica en función de la firma de preferencia del usuario.
3. El procedimiento según la reivindicación 2, donde la disfluencia incluye al menos una pausa en la entrada de voz, un relleno de tiempo auditivo en la entrada de voz y una pausa en la entrada de escritura.
4. El procedimiento según la reivindicación 1, donde la selección del subconjunto de elementos de contenido se basa además en una disfluencia identificada en la primera entrada, y también en interacciones conversacionales previas que se determina que están relacionadas con la primera entrada y la segunda entrada.
5. El procedimiento según la reivindicación 1, donde la retroalimentación proporcionada incluye al menos uno de los siguientes:
la solicitud de aclaración sobre la parte identificada de la primera entrada basada, al menos en parte, en una determinación de que se produce una primera disfluencia después de que el usuario haya proporcionado parte de la primera entrada,
la sugerencia de completar la primera entrada recibida basada, al menos en parte, en una determinación de que la segunda disfluencia ocurre antes de que se espere que el usuario proporcione la parte de la primera entrada, y la repetición de la parte de la primera entrada al usuario, para notificarle que la parte de la primera entrada puede haberse reconocido incorrectamente.
6. El procedimiento según la reivindicación 1, donde la retroalimentación proporcionada al usuario se elige sobre la base de al menos uno de los siguientes:
la duración de la disfluencia identificada en la primera entrada,
un grado de confianza en que el reconocimiento de voz a texto de la parte de la primera entrada es correcto, un recuento de las ambigüedades detectadas en la primera entrada,
un recuento de las correcciones de errores necesarias para identificar la parte de la primera entrada,
un recuento de nodos en una estructura de datos gráficos, donde la cantidad de nodos en la estructura de datos gráficos mide una ruta entre un primer nodo que representa un elemento de interés de una interacción conversacional previa y un segundo nodo que representa la parte de la primera entrada, y
un grado de relación entre la parte de la primera entrada y las interacciones conversacionales previas con el usuario.
7. Un sistema para seleccionar y presentar elementos de contenido basado en las entradas de los usuarios que comprende:
instrucciones legibles por ordenador codificadas en un medio legible por ordenador no transitorio, haciendo las instrucciones legibles por ordenador que el sistema informático esté configurado para:
proporcionar acceso a un conjunto de elementos de contenido, estando dichos elementos de contenido asociados a metadatos que describen uno de los elementos de contenido;
recibir una primera entrada (401) destinada por el usuario a identificar al menos un elemento de contenido deseado; determinar que al menos una parte de la primera entrada tiene un grado de importancia que excede un valor umbral; proporcionar retroalimentación al usuario (402) identificando parte de la primera entrada;
recibir una segunda entrada (403, 405) del usuario posterior a la primera entrada;
deducir si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada;
con la condición de la que se deduce que el usuario tenía la intención de modificar la primera entrada con la segunda entrada, determinar una consulta alternativa modificando la primera entrada basada en la segunda entrada (404); con la condición de la que se deduce que el usuario tenía la intención de complementar la primera entrada con la segunda entrada, determinar una consulta alternativa combinando la primera entrada basada en la segunda entrada (406);
seleccionar un subconjunto de elementos de contenido del conjunto de elementos de contenido basándose en la comparación de la consulta alternativa y los metadatos asociados con los elementos de contenido del subconjunto de elementos de contenido; y
presentar el subconjunto de elementos de contenido al usuario;
caracterizado porque
las instrucciones legibles por computadora hacen que el sistema se configure de modo que la deducción de si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada comprende:
determinar un grado de similitud entre la primera entrada y la segunda entrada;
con la condición de que el grado de similitud esté por encima de un umbral, deducir que el usuario tenía la intención de modificar la primera entrada; y
con la condición de que el grado de similitud esté por debajo de un umbral, deducir que el usuario tenía la intención de complementar la primera entrada.
8. El sistema según la reivindicación 7,
donde la determinación de que la parte de la primera entrada tiene el grado de importancia que excede el valor umbral incluye las instrucciones legibles por ordenador que hacen que el sistema informático esté configurado para identificar uno o más límites de la frase en la entrada incremental, y
donde la identificación de uno o más límites de la frase se basa al menos en parte en al menos uno de los siguientes (a) una disfluencia identificada del usuario en la primera entrada, donde la disfluencia incluye al menos una pausa en la entrada de voz, un relleno de tiempo auditivo en la entrada de voz y una pausa en la entrada de escritura, (b) reglas gramaticales aplicadas a la primera entrada, (c) el grado de importancia de la parte de la primera entrada, (d) al menos una interacción conversacional previa con el usuario, y (e) una firma de preferencia del usuario, y
donde la firma de preferencia del usuario describe las preferencias del usuario para al menos uno de (i) los elementos de contenido en particular y (ii) los metadatos en particular asociados con los elementos de contenido, donde la parte de la primera entrada se identifica en función de la firma de preferencia del usuario.
9. El sistema según la reivindicación 7, donde la selección del subconjunto de elementos de contenido se basa además en una disfluencia identificada en la primera entrada, y también en interacciones conversacionales previas que se determina que están relacionadas con la primera entrada y la segunda entrada.
10. El sistema según la reivindicación 7, donde las instrucciones legibles por ordenador que hacen que el sistema esté configurado para proporcionar la retroalimentación incluye al menos uno de los siguientes:
las instrucciones legibles por ordenador que hacen que el sistema esté configurado para solicitar una aclaración sobre la parte identificada de la primera entrada basada, al menos en parte, en una determinación de que se produce una primera disfluencia después de que el usuario haya proporcionado parte de la primera entrada,
las instrucciones legibles por ordenador que hacen que el sistema esté configurado para sugerir que se complete la primera entrada recibida basada, al menos en parte, en una determinación de que la segunda disfluencia ocurre antes de que se espere que el usuario proporcione la parte de la primera entrada, y
las instrucciones legibles por ordenador que hacen que el sistema esté configurado para repetir la parte de la primera entrada al usuario, para notificarle que la parte de la primera entrada puede haberse reconocido incorrectamente.
11. El sistema según la reivindicación 7, donde la retroalimentación proporcionada al usuario se elige sobre la base de al menos uno de los siguientes:
la duración de la disfluencia identificada en la primera entrada,
un grado de confianza en que el reconocimiento de voz a texto de la parte de la primera entrada es correcto, un recuento de las ambigüedades detectadas en la primera entrada,
un recuento de las correcciones de errores necesarias para identificar la parte de la primera entrada,
un recuento de nodos en una estructura de datos gráficos, donde la cantidad de nodos en la estructura de datos gráficos mide una ruta entre un primer nodo que representa un elemento de interés de una interacción conversacional previa y un segundo nodo que representa la parte de la primera entrada, y
un grado de relación entre la parte de la primera entrada y las interacciones conversacionales previas con el usuario.
ES14795114T 2013-05-07 2014-05-07 Interfaz de entrada de voz incremental con retroalimentación en tiempo real Active ES2751484T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US201361820267P 2013-05-07 2013-05-07
PCT/US2014/037080 WO2014182771A1 (en) 2013-05-07 2014-05-07 Incremental speech input interface with real time feedback

Publications (1)

Publication Number Publication Date
ES2751484T3 true ES2751484T3 (es) 2020-03-31

Family

ID=51865613

Family Applications (1)

Application Number Title Priority Date Filing Date
ES14795114T Active ES2751484T3 (es) 2013-05-07 2014-05-07 Interfaz de entrada de voz incremental con retroalimentación en tiempo real

Country Status (8)

Country Link
US (4) US10121493B2 (es)
EP (2) EP3640938B1 (es)
DK (2) DK2994908T3 (es)
ES (1) ES2751484T3 (es)
FI (1) FI3640938T3 (es)
HK (1) HK1222942A1 (es)
PT (1) PT2994908T (es)
WO (1) WO2014182771A1 (es)

Families Citing this family (112)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9424233B2 (en) 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
US9465833B2 (en) 2012-07-31 2016-10-11 Veveo, Inc. Disambiguating user intent in conversational interaction system for large corpus information retrieval
US10424291B2 (en) * 2012-12-28 2019-09-24 Saturn Licensing Llc Information processing device, information processing method, and program
KR20240132105A (ko) 2013-02-07 2024-09-02 애플 인크. 디지털 어시스턴트를 위한 음성 트리거
US10652394B2 (en) 2013-03-14 2020-05-12 Apple Inc. System and method for processing voicemail
US10748529B1 (en) 2013-03-15 2020-08-18 Apple Inc. Voice activated device for use with a voice-based digital assistant
WO2014183035A1 (en) 2013-05-10 2014-11-13 Veveo, Inc. Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
KR101772152B1 (ko) 2013-06-09 2017-08-28 애플 인크. 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
CN110797019B (zh) 2014-05-30 2023-08-29 苹果公司 多命令单一话语输入方法
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9852136B2 (en) * 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
JP6669073B2 (ja) * 2015-03-31 2020-03-18 ソニー株式会社 情報処理装置、制御方法、およびプログラム
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10200824B2 (en) 2015-05-27 2019-02-05 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US10331312B2 (en) 2015-09-08 2019-06-25 Apple Inc. Intelligent automated assistant in a media environment
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10740384B2 (en) 2015-09-08 2020-08-11 Apple Inc. Intelligent automated assistant for media search and playback
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
US10269341B2 (en) 2015-10-19 2019-04-23 Google Llc Speech endpointing
KR101942521B1 (ko) 2015-10-19 2019-01-28 구글 엘엘씨 음성 엔드포인팅
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10956666B2 (en) 2015-11-09 2021-03-23 Apple Inc. Unconventional virtual assistant interactions
US10079021B1 (en) * 2015-12-18 2018-09-18 Amazon Technologies, Inc. Low latency audio interface
US10311862B2 (en) * 2015-12-23 2019-06-04 Rovi Guides, Inc. Systems and methods for conversations with devices about media using interruptions and changes of subjects
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
CN106933561A (zh) * 2015-12-31 2017-07-07 北京搜狗科技发展有限公司 语音输入方法和终端设备
US9922647B2 (en) * 2016-01-29 2018-03-20 International Business Machines Corporation Approach to reducing the response time of a speech interface
US10055403B2 (en) * 2016-02-05 2018-08-21 Adobe Systems Incorporated Rule-based dialog state tracking
US10270839B2 (en) 2016-03-29 2019-04-23 Snap Inc. Content collection navigation and autoforwarding
US10831763B2 (en) * 2016-06-10 2020-11-10 Apple Inc. System and method of generating a key list from multiple search domains
US10769182B2 (en) 2016-06-10 2020-09-08 Apple Inc. System and method of highlighting terms
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
AU2017100670C4 (en) 2016-06-12 2019-11-21 Apple Inc. User interfaces for retrieving contextually relevant media content
US9875740B1 (en) * 2016-06-20 2018-01-23 A9.Com, Inc. Using voice information to influence importance of search result categories
US11507977B2 (en) * 2016-06-28 2022-11-22 Snap Inc. Methods and systems for presentation of media collections with automated advertising
KR102691889B1 (ko) * 2016-07-27 2024-08-06 삼성전자주식회사 전자 장치 및 그의 음성 인식 방법
JP6461058B2 (ja) * 2016-09-06 2019-01-30 国立大学法人京都大学 音声対話装置および音声対話装置を用いた自動対話方法
KR20180043627A (ko) * 2016-10-20 2018-04-30 삼성전자주식회사 디스플레이 장치 및 디스플레이 장치를 제어하는 방법
PT3533022T (pt) 2016-10-31 2024-05-10 Rovi Guides Inc Sistemas e métodos para a utilização flexível de temas em tendência como parâmetros para recomendar recursos multimédia que estão relacionados com o recurso multimédia visualizado
WO2018147687A1 (en) * 2017-02-10 2018-08-16 Samsung Electronics Co., Ltd. Method and apparatus for managing voice-based interaction in internet of things network system
WO2018174884A1 (en) 2017-03-23 2018-09-27 Rovi Guides, Inc. Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset
KR102363794B1 (ko) * 2017-03-31 2022-02-16 삼성전자주식회사 정보 제공 방법 및 이를 지원하는 전자 장치
US10943255B1 (en) 2017-04-28 2021-03-09 Snap Inc. Methods and systems for interactive advertising with media collections
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK180048B1 (en) 2017-05-11 2020-02-04 Apple Inc. MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION
DK201770428A1 (en) 2017-05-12 2019-02-18 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
DK201770411A1 (en) * 2017-05-15 2018-12-20 Apple Inc. MULTI-MODAL INTERFACES
US20180336892A1 (en) 2017-05-16 2018-11-22 Apple Inc. Detecting a trigger of a digital assistant
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
CN110663079A (zh) * 2017-05-24 2020-01-07 乐威指南公司 基于语音纠正使用自动语音识别生成的输入的方法和系统
WO2018226779A1 (en) 2017-06-06 2018-12-13 Google Llc End of query detection
US10929754B2 (en) 2017-06-06 2021-02-23 Google Llc Unified endpointer using multitask and multidomain learning
US11699039B2 (en) 2017-06-28 2023-07-11 Microsoft Technology Licensing, Llc Virtual assistant providing enhanced communication session services
US10585991B2 (en) * 2017-06-29 2020-03-10 Microsoft Technology Licensing, Llc Virtual assistant for generating personalized responses within a communication session
US10540521B2 (en) * 2017-08-24 2020-01-21 International Business Machines Corporation Selective enforcement of privacy and confidentiality for optimization of voice applications
WO2019087811A1 (ja) * 2017-11-02 2019-05-09 ソニー株式会社 情報処理装置、及び情報処理方法
KR101891489B1 (ko) * 2017-11-03 2018-08-24 주식회사 머니브레인 적시에 간투사 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체
US10515640B2 (en) * 2017-11-08 2019-12-24 Intel Corporation Generating dialogue based on verification scores
US10558689B2 (en) * 2017-11-15 2020-02-11 International Business Machines Corporation Leveraging contextual information in topic coherent question sequences
US20190179416A1 (en) * 2017-12-12 2019-06-13 Ford Global Technologies, Llc Interactive vehicle speech recognition and correction system
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US10832675B2 (en) * 2018-08-24 2020-11-10 Denso International America, Inc. Speech recognition system with interactive spelling function
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
DK201970511A1 (en) 2019-05-31 2021-02-15 Apple Inc Voice identification in digital assistant systems
US11227599B2 (en) 2019-06-01 2022-01-18 Apple Inc. Methods and user interfaces for voice-based control of electronic devices
JP7326931B2 (ja) * 2019-07-02 2023-08-16 富士通株式会社 プログラム、情報処理装置、及び情報処理方法
US11455983B2 (en) * 2019-11-18 2022-09-27 Lenovo (Singapore) Pte. Ltd. Output provision using query syntax
US11302300B2 (en) * 2019-11-19 2022-04-12 Applications Technology (Apptek), Llc Method and apparatus for forced duration in neural speech synthesis
CN111583907B (zh) * 2020-04-15 2023-08-15 北京小米松果电子有限公司 信息处理方法、装置及存储介质
US11061543B1 (en) 2020-05-11 2021-07-13 Apple Inc. Providing relevant data items based on context
US11038934B1 (en) 2020-05-11 2021-06-15 Apple Inc. Digital assistant hardware abstraction
US11755276B2 (en) 2020-05-12 2023-09-12 Apple Inc. Reducing description length based on confidence
CN112099720A (zh) * 2020-05-22 2020-12-18 苹果公司 数字助理用户界面和响应模式
US12045437B2 (en) * 2020-05-22 2024-07-23 Apple Inc. Digital assistant user interfaces and response modes
US11490204B2 (en) 2020-07-20 2022-11-01 Apple Inc. Multi-device audio adjustment coordination
US11438683B2 (en) 2020-07-21 2022-09-06 Apple Inc. User identification using headphones
US11657814B2 (en) * 2020-10-08 2023-05-23 Harman International Industries, Incorporated Techniques for dynamic auditory phrase completion
US11830489B2 (en) * 2021-06-30 2023-11-28 Bank Of America Corporation System and method for speech processing based on response content
LT6914B (lt) * 2021-07-14 2022-05-25 Gasefis, UAB Vizualinės paieškos būdas su grįžtamojo ryšio ciklu, paremtu interaktyviuoju eskizu
US20230064049A1 (en) * 2021-08-31 2023-03-02 Nvidia Corporation Multi-modal sensor fusion for content identification in applications of human-machine interfaces
US12093462B2 (en) 2022-04-11 2024-09-17 Meta Platforms Technologies, Llc Virtual keyboard selections using multiple input modalities
US11556722B1 (en) * 2022-08-28 2023-01-17 One AI, Inc. System and method for editing transcriptions with improved readability and correctness
WO2024097684A1 (en) * 2022-10-31 2024-05-10 CDC Phone App IP 2023 LLC Systems for providing real-time feedback to reduce undesired speaking patterns, and methods of using the same

Family Cites Families (265)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CH644246B (fr) * 1981-05-15 1900-01-01 Asulab Sa Dispositif d'introduction de mots a commande par la parole.
US5255386A (en) 1990-02-08 1993-10-19 International Business Machines Corporation Method and apparatus for intelligent help that matches the semantic similarity of the inferred intent of query or command to a best-fit predefined command intent
US6092043A (en) * 1992-11-13 2000-07-18 Dragon Systems, Inc. Apparatuses and method for training and operating speech recognition systems
US5909666A (en) * 1992-11-13 1999-06-01 Dragon Systems, Inc. Speech recognition system which creates acoustic models by concatenating acoustic models of individual words
JPH06266779A (ja) 1993-03-15 1994-09-22 Hitachi Ltd 制御装置
US5715468A (en) 1994-09-30 1998-02-03 Budzinski; Robert Lucius Memory system for storing and retrieving experience and knowledge with natural language
US5887120A (en) 1995-05-31 1999-03-23 Oracle Corporation Method and apparatus for determining theme for discourse
US6006221A (en) 1995-08-16 1999-12-21 Syracuse University Multilingual document retrieval system and method using semantic vector matching
JPH09146972A (ja) 1995-11-24 1997-06-06 Oki Electric Ind Co Ltd 自然言語対話型情報処理装置
US6021403A (en) * 1996-07-19 2000-02-01 Microsoft Corporation Intelligent user assistance facility
EP0863466A4 (en) 1996-09-26 2005-07-20 Mitsubishi Electric Corp INTERACTIVE PROCESSOR
US6014665A (en) * 1997-08-01 2000-01-11 Culliss; Gary Method for organizing information
US6044347A (en) * 1997-08-05 2000-03-28 Lucent Technologies Inc. Methods and apparatus object-oriented rule-based dialogue management
US6125345A (en) 1997-09-19 2000-09-26 At&T Corporation Method and apparatus for discriminative utterance verification using multiple confidence measures
US6064960A (en) * 1997-12-18 2000-05-16 Apple Computer, Inc. Method and apparatus for improved duration modeling of phonemes
US6236968B1 (en) 1998-05-14 2001-05-22 International Business Machines Corporation Sleep prevention dialog based car system
US7711672B2 (en) 1998-05-28 2010-05-04 Lawrence Au Semantic network methods to disambiguate natural language meaning
US6006225A (en) * 1998-06-15 1999-12-21 Amazon.Com Refining search queries by the suggestion of correlated terms from prior searches
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US6195635B1 (en) * 1998-08-13 2001-02-27 Dragon Systems, Inc. User-cued speech recognition
US7197534B2 (en) 1998-09-01 2007-03-27 Big Fix, Inc. Method and apparatus for inspecting the properties of a computer
US8914507B2 (en) 1998-09-01 2014-12-16 International Business Machines Corporation Advice provided for offering highly targeted advice without compromising individual privacy
US6256664B1 (en) 1998-09-01 2001-07-03 Bigfix, Inc. Method and apparatus for computed relevance messaging
US6601059B1 (en) 1998-12-23 2003-07-29 Microsoft Corporation Computerized searching tool with spell checking
US6523061B1 (en) 1999-01-05 2003-02-18 Sri International, Inc. System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system
JP2001034292A (ja) 1999-07-26 2001-02-09 Denso Corp 単語列認識装置
US6317718B1 (en) 1999-02-26 2001-11-13 Accenture Properties (2) B.V. System, method and article of manufacture for location-based filtering for shopping agent in the physical world
US6885990B1 (en) 1999-05-31 2005-04-26 Nippon Telegraph And Telephone Company Speech recognition based on interactive information retrieval scheme using dialogue control to reduce user stress
US6408293B1 (en) 1999-06-09 2002-06-18 International Business Machines Corporation Interactive framework for understanding user's perception of multimedia data
JP2001100787A (ja) 1999-09-29 2001-04-13 Mitsubishi Electric Corp 音声対話システム
US20030191625A1 (en) 1999-11-05 2003-10-09 Gorin Allen Louis Method and system for creating a named entity language model
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7392185B2 (en) * 1999-11-12 2008-06-24 Phoenix Solutions, Inc. Speech based learning/training system using semantic decoding
JP3446886B2 (ja) 1999-12-21 2003-09-16 日本電気株式会社 人脈データ管理システムと人脈探索方法
JP2001188784A (ja) 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
US6546388B1 (en) * 2000-01-14 2003-04-08 International Business Machines Corporation Metadata search results ranking system
US7043439B2 (en) * 2000-03-29 2006-05-09 Canon Kabushiki Kaisha Machine interface
US6999963B1 (en) 2000-05-03 2006-02-14 Microsoft Corporation Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations
US6671681B1 (en) * 2000-05-31 2003-12-30 International Business Machines Corporation System and technique for suggesting alternate query expressions based on prior user selections and their query strings
US6766320B1 (en) 2000-08-24 2004-07-20 Microsoft Corporation Search engine with natural language-based robust parsing for user query and relevance feedback learning
JP2002108915A (ja) 2000-09-28 2002-04-12 Toshiba Corp 自然言語対話システム及び自然言語処理方法
US6731307B1 (en) 2000-10-30 2004-05-04 Koninklije Philips Electronics N.V. User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality
US6937983B2 (en) 2000-12-20 2005-08-30 International Business Machines Corporation Method and system for semantic speech recognition
WO2002073331A2 (en) 2001-02-20 2002-09-19 Semantic Edge Gmbh Natural language context-sensitive and knowledge-based interaction environment for dynamic and flexible product, service and information search and presentation applications
US6910012B2 (en) * 2001-05-16 2005-06-21 International Business Machines Corporation Method and system for speech recognition using phonetically similar word alternatives
GB2377046A (en) 2001-06-29 2002-12-31 Ibm Metadata generation
US20040215443A1 (en) 2001-07-27 2004-10-28 Hatton Charles Malcolm Computers that communicate in the english language and complete work assignments by reading english language sentences
JP3691773B2 (ja) 2001-08-20 2005-09-07 株式会社ジャストシステム 文章解析方法とその方法を利用可能な文章解析装置
US7308404B2 (en) * 2001-09-28 2007-12-11 Sri International Method and apparatus for speech recognition using a dynamic vocabulary
US7324947B2 (en) * 2001-10-03 2008-01-29 Promptu Systems Corporation Global speech user interface
US7711570B2 (en) 2001-10-21 2010-05-04 Microsoft Corporation Application abstraction with dialog purpose
US8229753B2 (en) 2001-10-21 2012-07-24 Microsoft Corporation Web server controls for web enabled recognition and/or audible prompting
US7085709B2 (en) 2001-10-30 2006-08-01 Comverse, Inc. Method and system for pronoun disambiguation
US7209876B2 (en) 2001-11-13 2007-04-24 Groove Unlimited, Llc System and method for automated answering of natural language questions and queries
US7231343B1 (en) 2001-12-20 2007-06-12 Ianywhere Solutions, Inc. Synonyms mechanism for natural language systems
US7016849B2 (en) * 2002-03-25 2006-03-21 Sri International Method and apparatus for providing speech-driven routing between spoken language applications
JP3762327B2 (ja) * 2002-04-24 2006-04-05 株式会社東芝 音声認識方法および音声認識装置および音声認識プログラム
US7403890B2 (en) 2002-05-13 2008-07-22 Roushar Joseph C Multi-dimensional method and apparatus for automated language interpretation
US7398209B2 (en) 2002-06-03 2008-07-08 Voicebox Technologies, Inc. Systems and methods for responding to natural language speech utterance
US7130923B2 (en) * 2002-07-01 2006-10-31 Avaya Technology Corp. Method and apparatus for guessing correct URLs using tree matching
US7676452B2 (en) * 2002-07-23 2010-03-09 International Business Machines Corporation Method and apparatus for search optimization based on generation of context focused queries
US20040148170A1 (en) 2003-01-23 2004-07-29 Alejandro Acero Statistical classifiers for spoken language understanding and command/control scenarios
US7146361B2 (en) * 2003-05-30 2006-12-05 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
US7143078B2 (en) 2003-06-27 2006-11-28 Microsoft Corporation System and method for managed database query pre-optimization
US8140980B2 (en) 2003-08-05 2012-03-20 Verizon Business Global Llc Method and system for providing conferencing services
WO2005020094A1 (en) 2003-08-21 2005-03-03 Idilia Inc. System and method for associating documents with contextual advertisements
EP1665092A4 (en) * 2003-08-21 2006-11-22 Idilia Inc INTERNET SEARCH USING SEMANTIC DISAMBIGUING AND EXPANSION
US20050060140A1 (en) 2003-09-15 2005-03-17 Maddox Paul Christopher Using semantic feature structures for document comparisons
GB0321916D0 (en) 2003-09-19 2003-10-22 Heatsafe Cable Systems Ltd Self-regulating electrical heating cable
US7593687B2 (en) 2003-10-07 2009-09-22 Immersion Entertainment, Llc System and method for providing event spectators with audio/video signals pertaining to remote events
US7739102B2 (en) 2003-10-08 2010-06-15 Bender Howard J Relationship analysis system and method for semantic disambiguation of natural language
US7240049B2 (en) 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US7356772B2 (en) 2003-11-25 2008-04-08 International Business Machines Corporation Multi-column user interface for managing on-line threaded conversations
US8160883B2 (en) 2004-01-10 2012-04-17 Microsoft Corporation Focus tracking in dialogs
US7542903B2 (en) 2004-02-18 2009-06-02 Fuji Xerox Co., Ltd. Systems and methods for determining predictive models of discourse functions
US20070018953A1 (en) 2004-03-03 2007-01-25 The Boeing Company System, method, and computer program product for anticipatory hypothesis-driven text retrieval and argumentation tools for strategic decision support
US7836044B2 (en) * 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
US7720674B2 (en) 2004-06-29 2010-05-18 Sap Ag Systems and methods for processing natural language queries
US7856441B1 (en) 2005-01-10 2010-12-21 Yahoo! Inc. Search systems and methods using enhanced contextual queries
WO2006011819A1 (en) 2004-07-30 2006-02-02 Eurekster, Inc. Adaptive search engine
US7610199B2 (en) * 2004-09-01 2009-10-27 Sri International Method and apparatus for obtaining complete speech signals for speech recognition applications
US7310602B2 (en) * 2004-09-27 2007-12-18 Kabushiki Kaisha Equos Research Navigation apparatus
US20060074980A1 (en) 2004-09-29 2006-04-06 Sarkar Pte. Ltd. System for semantically disambiguating text information
US7565627B2 (en) 2004-09-30 2009-07-21 Microsoft Corporation Query graphs indicating related queries
US7895218B2 (en) 2004-11-09 2011-02-22 Veveo, Inc. Method and system for performing searches for television content using reduced text input
US8135576B2 (en) 2004-11-12 2012-03-13 Oracle International Corporation System for enterprise knowledge management and automation
US8221126B2 (en) * 2004-11-22 2012-07-17 Bravobrava L.L.C. System and method for performing programmatic language learning tests and evaluations
US20060112091A1 (en) * 2004-11-24 2006-05-25 Harbinger Associates, Llc Method and system for obtaining collection of variants of search query subjects
US8185399B2 (en) 2005-01-05 2012-05-22 At&T Intellectual Property Ii, L.P. System and method of providing an automated data-collection in spoken dialog systems
US7895039B2 (en) * 2005-02-04 2011-02-22 Vocollect, Inc. Methods and systems for optimizing model adaptation for a speech recognition system
US7788248B2 (en) * 2005-03-08 2010-08-31 Apple Inc. Immediate search feedback
JP4667082B2 (ja) * 2005-03-09 2011-04-06 キヤノン株式会社 音声認識方法
EP1861820A4 (en) 2005-03-10 2010-04-21 Efficient Frontier METHOD AND APPARATUS FOR GENERATING AND / OR PREDICTING EFFECTIVENESS OF FEATURED WORDS
US7526476B2 (en) 2005-03-14 2009-04-28 Microsoft Corporation System and method for generating attribute-based selectable search extension
US7386545B2 (en) 2005-03-31 2008-06-10 International Business Machines Corporation System and method for disambiguating entities in a web page search
JP2008537225A (ja) 2005-04-11 2008-09-11 テキストディガー,インコーポレイテッド クエリについての検索システムおよび方法
US7653627B2 (en) 2005-05-13 2010-01-26 Microsoft Corporation System and method for utilizing the content of an online conversation to select advertising content and/or other relevant information for display
US8046348B1 (en) * 2005-06-10 2011-10-25 NetBase Solutions, Inc. Method and apparatus for concept-based searching of natural language discourse
US7672931B2 (en) * 2005-06-30 2010-03-02 Microsoft Corporation Searching for content using voice search queries
US20070043736A1 (en) 2005-08-22 2007-02-22 Microsoft Corporation Smart find
US7844599B2 (en) * 2005-08-24 2010-11-30 Yahoo! Inc. Biasing queries to determine suggested queries
US7747639B2 (en) 2005-08-24 2010-06-29 Yahoo! Inc. Alternative search query prediction
US7912458B2 (en) 2005-09-14 2011-03-22 Jumptap, Inc. Interaction analysis and prioritization of mobile content
US20070061334A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Search query address redirection on a mobile communication facility
US20070061245A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Location based presentation of mobile content
US7660581B2 (en) * 2005-09-14 2010-02-09 Jumptap, Inc. Managing sponsored content based on usage history
US9009046B1 (en) 2005-09-27 2015-04-14 At&T Intellectual Property Ii, L.P. System and method for disambiguating multiple intents in a natural language dialog system
JP4542974B2 (ja) * 2005-09-27 2010-09-15 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US7590541B2 (en) 2005-09-30 2009-09-15 Rockwell Automation Technologies, Inc. HMI presentation layer configuration system
US7930168B2 (en) 2005-10-04 2011-04-19 Robert Bosch Gmbh Natural language processing of disfluent sentences
US9201923B2 (en) * 2005-10-04 2015-12-01 Robert Bosch Corporation Method and apparatus for organizing and optimizing content in dialog systems
KR100755677B1 (ko) 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US20100153885A1 (en) 2005-12-29 2010-06-17 Rovi Technologies Corporation Systems and methods for interacting with advanced displays provided by an interactive media guidance application
US8832569B2 (en) 2006-01-25 2014-09-09 International Business Machines Corporation Scrolling chat for participation in multiple instant messaging conversations
JP2007219190A (ja) 2006-02-17 2007-08-30 Murata Mach Ltd 音声認識装置と認識方法及びそのプログラム
US8204751B1 (en) 2006-03-03 2012-06-19 At&T Intellectual Property Ii, L.P. Relevance recognition for a human machine dialog system contextual question answering based on a normalization of the length of the user input
US7739280B2 (en) 2006-03-06 2010-06-15 Veveo, Inc. Methods and systems for selecting and presenting content based on user preference information extracted from an aggregate preference signature
US20070226295A1 (en) 2006-03-23 2007-09-27 Nokia Corporation Method and apparatuses for retrieving messages
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
US7716229B1 (en) * 2006-03-31 2010-05-11 Microsoft Corporation Generating misspells from query log context usage
US20070231781A1 (en) 2006-03-31 2007-10-04 Birgit Zimmermann Estimation of adaptation effort based on metadata similarity
EP4209927A1 (en) 2006-04-20 2023-07-12 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
US8069182B2 (en) 2006-04-24 2011-11-29 Working Research, Inc. Relevancy-based domain classification
US7483894B2 (en) 2006-06-07 2009-01-27 Platformation Technologies, Inc Methods and apparatus for entity search
US20080240379A1 (en) 2006-08-03 2008-10-02 Pudding Ltd. Automatic retrieval and presentation of information relevant to the context of a user's conversation
US7860719B2 (en) 2006-08-19 2010-12-28 International Business Machines Corporation Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers
US7844976B2 (en) * 2006-09-08 2010-11-30 Microsoft Corporation Processing data across a distributed network
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
JP4393494B2 (ja) * 2006-09-22 2010-01-06 株式会社東芝 機械翻訳装置、機械翻訳方法および機械翻訳プログラム
US20080091634A1 (en) 2006-10-15 2008-04-17 Lisa Seeman Content enhancement system and method and applications thereof
US8073681B2 (en) 2006-10-16 2011-12-06 Voicebox Technologies, Inc. System and method for a cooperative conversational voice user interface
WO2008058022A2 (en) 2006-11-02 2008-05-15 Ripl Corp. User-generated content with instant-messaging functionality
US20080120093A1 (en) * 2006-11-16 2008-05-22 Seiko Epson Corporation System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device
US7814086B2 (en) * 2006-11-16 2010-10-12 Yahoo! Inc. System and method for determining semantically related terms based on sequences of search queries
CN100449547C (zh) 2006-12-06 2009-01-07 华为技术有限公司 一种媒体内容管理系统及方法
US20090234814A1 (en) 2006-12-12 2009-09-17 Marco Boerries Configuring a search engine results page with environment-specific information
US8024280B2 (en) 2006-12-21 2011-09-20 Yahoo! Inc. Academic filter
US20080155701A1 (en) 2006-12-22 2008-06-26 Yahoo! Inc. Method and system for unauthorized content detection and reporting
US8156135B2 (en) 2006-12-22 2012-04-10 Yahoo! Inc. Method and system for progressive disclosure of search results
US20080153465A1 (en) * 2006-12-26 2008-06-26 Voice Signal Technologies, Inc. Voice search-enabled mobile device
US8171087B2 (en) 2007-01-16 2012-05-01 Oracle International Corporation Thread-based conversation management
US20080221866A1 (en) 2007-03-06 2008-09-11 Lalitesh Katragadda Machine Learning For Transliteration
US8219406B2 (en) 2007-03-15 2012-07-10 Microsoft Corporation Speech-centric multimodal user interface design in mobile technology
JP4247284B2 (ja) 2007-03-28 2009-04-02 株式会社東芝 情報検索装置、情報検索方法及び情報検索プログラム
US20080270110A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
US7983915B2 (en) * 2007-04-30 2011-07-19 Sonic Foundry, Inc. Audio content search engine
US20080270344A1 (en) * 2007-04-30 2008-10-30 Yurick Steven J Rich media content search engine
US8285539B2 (en) 2007-06-18 2012-10-09 International Business Machines Corporation Extracting tokens in a natural language understanding application
US20080319733A1 (en) 2007-06-20 2008-12-25 At&T Corp. System and method to dynamically manipulate and disambiguate confusable speech input using a table
US8260809B2 (en) 2007-06-28 2012-09-04 Microsoft Corporation Voice-based search processing
US8190627B2 (en) * 2007-06-28 2012-05-29 Microsoft Corporation Machine assisted query formulation
CN101339551B (zh) 2007-07-05 2013-01-30 日电(中国)有限公司 自然语言查询需求扩展设备及其方法
US8645390B1 (en) 2007-08-31 2014-02-04 Google Inc. Reordering search query results in accordance with search context specific predicted performance functions
US8583670B2 (en) * 2007-10-04 2013-11-12 Microsoft Corporation Query suggestions for no result web searches
US8594996B2 (en) 2007-10-17 2013-11-26 Evri Inc. NLP-based entity recognition and disambiguation
US8694483B2 (en) * 2007-10-19 2014-04-08 Xerox Corporation Real-time query suggestion in a troubleshooting context
US7693940B2 (en) 2007-10-23 2010-04-06 International Business Machines Corporation Method and system for conversation detection in email systems
US8972434B2 (en) * 2007-12-05 2015-03-03 Kayak Software Corporation Multi-phase search and presentation for vertical search websites
US8639507B2 (en) * 2007-12-25 2014-01-28 Nec Corporation Voice recognition system, voice recognition method, and program for voice recognition
US7925708B2 (en) 2008-01-04 2011-04-12 Yahoo! Inc. System and method for delivery of augmented messages
US8165884B2 (en) * 2008-02-15 2012-04-24 Microsoft Corporation Layered prompting: self-calibrating instructional prompting for verbal interfaces
US8172637B2 (en) 2008-03-12 2012-05-08 Health Hero Network, Inc. Programmable interactive talking device
US8521512B2 (en) 2008-04-30 2013-08-27 Deep Sky Concepts, Inc Systems and methods for natural language communication with a computer
US8364528B2 (en) 2008-05-06 2013-01-29 Richrelevance, Inc. System and process for improving product recommendations for use in providing personalized advertisements to retail customers
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US8219397B2 (en) 2008-06-10 2012-07-10 Nuance Communications, Inc. Data processing system for autonomously building speech identification and tagging data
US8375308B2 (en) 2008-06-24 2013-02-12 International Business Machines Corporation Multi-user conversation topic change
US20100002685A1 (en) 2008-06-30 2010-01-07 Shaham Eliezer Method and system for providing communication
US8073869B2 (en) * 2008-07-03 2011-12-06 The Regents Of The University Of California Method for efficiently supporting interactive, fuzzy search on structured data
US9305060B2 (en) 2008-07-18 2016-04-05 Steven L. Robertson System and method for performing contextual searches across content sources
US8990106B2 (en) * 2008-08-22 2015-03-24 Realwire Limited Information categorisation systems, modules, and methods
US8041733B2 (en) * 2008-10-14 2011-10-18 Yahoo! Inc. System for automatically categorizing queries
WO2010067142A1 (en) 2008-12-08 2010-06-17 Pantanelli Georges P A method using contextual analysis, semantic analysis and artificial intelligence in text search engines
KR101042515B1 (ko) 2008-12-11 2011-06-17 주식회사 네오패드 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
KR101173556B1 (ko) 2008-12-11 2012-08-13 한국전자통신연구원 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법
US20100153112A1 (en) * 2008-12-16 2010-06-17 Motorola, Inc. Progressively refining a speech-based search
US8156129B2 (en) * 2009-01-15 2012-04-10 Microsoft Corporation Substantially similar queries
US20110093500A1 (en) 2009-01-21 2011-04-21 Google Inc. Query Optimization
US9805089B2 (en) 2009-02-10 2017-10-31 Amazon Technologies, Inc. Local business and product search system and method
KR101048546B1 (ko) 2009-03-05 2011-07-11 엔에이치엔(주) 온톨로지를 이용한 컨텐츠 검색 시스템 및 방법
US9031216B1 (en) * 2009-03-05 2015-05-12 Google Inc. In-conversation search
US8335754B2 (en) 2009-03-06 2012-12-18 Tagged, Inc. Representing a document using a semantic structure
US8145636B1 (en) 2009-03-13 2012-03-27 Google Inc. Classifying text into hierarchical categories
US8515754B2 (en) 2009-04-06 2013-08-20 Siemens Aktiengesellschaft Method for performing speech recognition and processing system
US8805823B2 (en) * 2009-04-14 2014-08-12 Sri International Content processing systems and methods
US8214366B2 (en) 2009-11-17 2012-07-03 Glace Holding Llc Systems and methods for generating a language database that can be used for natural language communication with a computer
US20100306249A1 (en) 2009-05-27 2010-12-02 James Hill Social network systems and methods
US8417649B2 (en) 2009-07-13 2013-04-09 International Business Machines Corporation Providing a seamless conversation service between interacting environments
US20110015996A1 (en) * 2009-07-14 2011-01-20 Anna Kassoway Systems and Methods For Providing Keyword Related Search Results in Augmented Content for Text on a Web Page
US8533175B2 (en) 2009-08-13 2013-09-10 Gilbert Marquard ROSWELL Temporal and geographic presentation and navigation of linked cultural, artistic, and historic content
US8457967B2 (en) 2009-08-15 2013-06-04 Nuance Communications, Inc. Automatic evaluation of spoken fluency
US9166714B2 (en) 2009-09-11 2015-10-20 Veveo, Inc. Method of and system for presenting enriched video viewing analytics
US8326859B2 (en) 2009-11-02 2012-12-04 Microsoft Corporation Task prediction
US9502025B2 (en) 2009-11-10 2016-11-22 Voicebox Technologies Corporation System and method for providing a natural language content dedication service
US8358749B2 (en) 2009-11-21 2013-01-22 At&T Intellectual Property I, L.P. System and method to search a media content database based on voice input data
US8903793B2 (en) * 2009-12-15 2014-12-02 At&T Intellectual Property I, L.P. System and method for speech-based incremental search
KR20110072847A (ko) 2009-12-23 2011-06-29 삼성전자주식회사 열려진 사용자 의도 처리를 위한 대화관리 시스템 및 방법
EP2362593B1 (en) 2010-02-05 2012-06-20 Research In Motion Limited Communications system including aggregation server for determining updated metadata of e-mail messages and related methods
US20110212428A1 (en) 2010-02-18 2011-09-01 David Victor Baker System for Training
JP2011186351A (ja) * 2010-03-11 2011-09-22 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US8140512B2 (en) * 2010-04-12 2012-03-20 Ancestry.Com Operations Inc. Consolidated information retrieval results
US8756216B1 (en) * 2010-05-13 2014-06-17 A9.Com, Inc. Scalable tree builds for content descriptor search
US8448206B2 (en) 2010-05-17 2013-05-21 Verizon Patent And Licensing Inc. Augmenting interactive television content utilizing a dynamic cloud activity guide
US9436764B2 (en) 2010-06-29 2016-09-06 Microsoft Technology Licensing, Llc Navigation to popular search results
US8909623B2 (en) * 2010-06-29 2014-12-09 Demand Media, Inc. System and method for evaluating search queries to identify titles for content production
US8219628B2 (en) 2010-07-23 2012-07-10 International Business Machines Corporation Method to change instant messaging status based on text entered during conversation
WO2012024585A1 (en) 2010-08-19 2012-02-23 Othar Hansson Predictive query completion and predictive search results
JP2012047924A (ja) * 2010-08-26 2012-03-08 Sony Corp 情報処理装置、および情報処理方法、並びにプログラム
US20120084291A1 (en) 2010-09-30 2012-04-05 Microsoft Corporation Applying search queries to content sets
US8515984B2 (en) 2010-11-16 2013-08-20 Microsoft Corporation Extensible search term suggestion engine
US9830379B2 (en) * 2010-11-29 2017-11-28 Google Inc. Name disambiguation using context terms
US8631002B2 (en) 2010-12-09 2014-01-14 Microsoft Corporation Web-relevance based query classification
US20130262485A1 (en) * 2010-12-14 2013-10-03 The Regents Of The University Of California High Efficiency Prefix Search Algorithm Supporting Interactive, Fuzzy Search on Geographical Structured Data
US20120265784A1 (en) * 2011-04-15 2012-10-18 Microsoft Corporation Ordering semantic query formulation suggestions
EP2702508A4 (en) 2011-04-27 2015-07-15 Vadim Berman GENERIC SYSTEM OF LANGUAGE ANALYSIS AND TRANSFORMATION
US9489352B1 (en) * 2011-05-13 2016-11-08 Groupon, Inc. System and method for providing content to users based on interactions by similar other users
EP2707808A4 (en) 2011-05-13 2015-10-21 Microsoft Technology Licensing Llc USE OF QUERY LOOKING PROTOCOLS FOR DOMAIN RECOGNITION IN UNDERSTANDING SPOKEN LANGUAGE
US8515985B1 (en) * 2011-06-24 2013-08-20 Google Inc. Search query suggestions
US8880423B2 (en) 2011-07-01 2014-11-04 Yahoo! Inc. Inventory estimation for search retargeting
US8417718B1 (en) * 2011-07-11 2013-04-09 Google Inc. Generating word completions based on shared suffix analysis
GB201117052D0 (en) 2011-10-04 2011-11-16 Daybees Ltd Automated diary population
US8930189B2 (en) * 2011-10-28 2015-01-06 Microsoft Corporation Distributed user input to text generated by a speech to text transcription service
US9619554B2 (en) 2011-11-03 2017-04-11 Microsoft Technology Licensing, Llc Domain specific query-completion suggestions
US9547832B2 (en) * 2012-01-10 2017-01-17 Oracle International Corporation Identifying individual intentions and determining responses to individual intentions
US9355191B1 (en) * 2012-01-24 2016-05-31 Google Inc. Identification of query completions which change users' original search intent
US8972388B1 (en) * 2012-02-29 2015-03-03 Google Inc. Demotion of already observed search query completions
US8504562B1 (en) * 2012-04-03 2013-08-06 Google Inc. Evaluation of substitute terms
US9542482B1 (en) 2012-04-06 2017-01-10 Amazon Technologies Inc. Providing items of interest
US20130275429A1 (en) 2012-04-12 2013-10-17 Graham York System and method for enabling contextual recommendations and collaboration within content
KR101694286B1 (ko) * 2012-05-02 2017-01-09 한국전자통신연구원 양방향 자동 통역 및 번역 서비스 제공 장치 및 그 방법
US20140006012A1 (en) 2012-07-02 2014-01-02 Microsoft Corporation Learning-Based Processing of Natural Language Questions
US9424233B2 (en) 2012-07-20 2016-08-23 Veveo, Inc. Method of and system for inferring user intent in search input in a conversational interaction system
JP6338579B2 (ja) 2012-07-24 2018-06-06 アビニシオ テクノロジー エルエルシー データモデルにおけるエンティティのマッピング
US9799328B2 (en) * 2012-08-03 2017-10-24 Veveo, Inc. Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US8713042B1 (en) * 2012-10-11 2014-04-29 Google Inc. Processing autocomplete suggestions
US8494853B1 (en) * 2013-01-04 2013-07-23 Google Inc. Methods and systems for providing speech recognition systems based on speech recordings logs
US20140214401A1 (en) * 2013-01-29 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and device for error correction model training and text error correction
US9123335B2 (en) * 2013-02-20 2015-09-01 Jinni Media Limited System apparatus circuit method and associated computer executable code for natural language understanding and semantic content discovery
US9894312B2 (en) 2013-02-22 2018-02-13 The Directv Group, Inc. Method and system for controlling a user receiving device using voice commands
US10747837B2 (en) 2013-03-11 2020-08-18 Creopoint, Inc. Containing disinformation spread using customizable intelligence channels
US20140280289A1 (en) * 2013-03-12 2014-09-18 Microsoft Corporation Autosuggestions based on user history
US9268880B2 (en) * 2013-03-14 2016-02-23 Google Inc. Using recent media consumption to select query suggestions
US20150006290A1 (en) * 2013-06-27 2015-01-01 Google Inc. Providing information to a user based on determined user activity
US9483565B2 (en) * 2013-06-27 2016-11-01 Google Inc. Associating a task with a user based on user selection of a query suggestion
RU2718435C2 (ru) * 2013-07-08 2020-04-02 Общество С Ограниченной Ответственностью "Яндекс" Исполняемый на компьютере способ и система для поиска в инвертированном индексе, обладающем множеством списков словопозиций
CN104462084B (zh) 2013-09-13 2019-08-16 Sap欧洲公司 基于多个查询提供搜索细化建议
US11295730B1 (en) * 2014-02-27 2022-04-05 Soundhound, Inc. Using phonetic variants in a local context to improve natural language understanding
US9582515B1 (en) * 2014-04-11 2017-02-28 Google Inc. Detecting queries for specific places
US9852136B2 (en) 2014-12-23 2017-12-26 Rovi Guides, Inc. Systems and methods for determining whether a negation statement applies to a current or past query
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US9959328B2 (en) * 2015-06-30 2018-05-01 Microsoft Technology Licensing, Llc Analysis of user text
US10621507B2 (en) * 2016-03-12 2020-04-14 Wipro Limited System and method for generating an optimized result set using vector based relative importance measure
US10275519B2 (en) * 2016-08-22 2019-04-30 International Business Machines Corporation Sensor based context augmentation of search queries
US20180225013A1 (en) 2017-02-06 2018-08-09 Likemoji Inc. Network-based graphical communication system
US10229683B2 (en) * 2017-03-10 2019-03-12 Soundhound, Inc. Speech-enabled system with domain disambiguation
US11183181B2 (en) * 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
US10304154B2 (en) 2017-04-24 2019-05-28 Intel Corporation Coordination and increased utilization of graphics processors during inference
US10909441B2 (en) 2017-06-02 2021-02-02 Microsoft Technology Licensing, Llc Modeling an action completion conversation using a knowledge graph
US20190108447A1 (en) 2017-11-30 2019-04-11 Intel Corporation Multifunction perceptrons in machine learning environments
US10795886B1 (en) * 2018-03-30 2020-10-06 Townsend Street Labs, Inc. Dynamic query routing system
US11710034B2 (en) 2019-02-27 2023-07-25 Intel Corporation Misuse index for explainable artificial intelligence in computing environments
US10997373B2 (en) * 2019-04-09 2021-05-04 Walmart Apollo, Llc Document-based response generation system
US11094324B2 (en) * 2019-05-14 2021-08-17 Motorola Mobility Llc Accumulative multi-cue activation of domain-specific automatic speech recognition engine
US20210157813A1 (en) * 2019-11-27 2021-05-27 Microstrategy Incorporated Mutually exclusive search operations
US12106055B2 (en) * 2020-08-21 2024-10-01 Oracle International Corporation Techniques for providing explanations for text classification

Also Published As

Publication number Publication date
HK1222942A1 (zh) 2017-07-14
US20230206940A1 (en) 2023-06-29
US10121493B2 (en) 2018-11-06
EP3640938A1 (en) 2020-04-22
EP2994908A1 (en) 2016-03-16
US10978094B2 (en) 2021-04-13
US20140337370A1 (en) 2014-11-13
DK2994908T3 (da) 2019-09-23
DK3640938T3 (da) 2024-10-07
FI3640938T3 (fi) 2024-10-04
EP2994908B1 (en) 2019-08-28
WO2014182771A1 (en) 2014-11-13
US20190051317A1 (en) 2019-02-14
EP2994908A4 (en) 2017-01-04
PT2994908T (pt) 2019-10-18
EP3640938B1 (en) 2024-07-03
US20210201932A1 (en) 2021-07-01

Similar Documents

Publication Publication Date Title
ES2751484T3 (es) Interfaz de entrada de voz incremental con retroalimentación en tiempo real
US11024297B2 (en) Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval
US10878809B2 (en) Multi-command single utterance input method
US20200364411A1 (en) System and method for inferring user intent from speech inputs
CN108228132B (zh) 语音启用装置及其中执行的方法
JP6535349B2 (ja) 以前の対話行為を使用する自然言語処理における文脈解釈
Schalkwyk et al. “Your word is my command”: Google search by voice: A case study
US10181322B2 (en) Multi-user, multi-domain dialog system
JP6357458B2 (ja) 音声合成における同綴異音異義語の曖昧さの解消
US9805718B2 (en) Clarifying natural language input using targeted questions
US8768687B1 (en) Machine translation of indirect speech
US20150279360A1 (en) Language modeling in speech recognition
AU2016213815A1 (en) Systems and methods for integrating third party services with a digital assistant
JP2018532165A (ja) 個別化されたエンティティ発音の学習
US11501764B2 (en) Apparatus for media entity pronunciation using deep learning
Hämäläinen et al. Multilingual speech recognition for the elderly: The AALFred personal life assistant
JP2021131472A (ja) 情報処理装置、および情報処理方法、並びにプログラム