ES2751484T3 - Interfaz de entrada de voz incremental con retroalimentación en tiempo real - Google Patents
Interfaz de entrada de voz incremental con retroalimentación en tiempo real Download PDFInfo
- Publication number
- ES2751484T3 ES2751484T3 ES14795114T ES14795114T ES2751484T3 ES 2751484 T3 ES2751484 T3 ES 2751484T3 ES 14795114 T ES14795114 T ES 14795114T ES 14795114 T ES14795114 T ES 14795114T ES 2751484 T3 ES2751484 T3 ES 2751484T3
- Authority
- ES
- Spain
- Prior art keywords
- entry
- user
- input
- degree
- content items
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 claims abstract description 54
- 230000003993 interaction Effects 0.000 claims description 31
- 239000013589 supplement Substances 0.000 claims description 17
- 239000000945 filler Substances 0.000 claims description 9
- 238000005352 clarification Methods 0.000 claims description 7
- 238000012937 correction Methods 0.000 claims description 7
- 230000001052 transient effect Effects 0.000 claims description 2
- 230000004064 dysfunction Effects 0.000 claims 1
- 230000000295 complement effect Effects 0.000 abstract description 8
- 230000004044 response Effects 0.000 description 34
- 230000000007 visual effect Effects 0.000 description 16
- 238000012790 confirmation Methods 0.000 description 7
- 230000008901 benefit Effects 0.000 description 5
- 230000001149 cognitive effect Effects 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 238000012545 processing Methods 0.000 description 5
- 238000006243 chemical reaction Methods 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 239000000047 product Substances 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000003780 insertion Methods 0.000 description 3
- 230000037431 insertion Effects 0.000 description 3
- 230000002452 interceptive effect Effects 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000009877 rendering Methods 0.000 description 3
- 238000012552 review Methods 0.000 description 3
- 240000003243 Thuja occidentalis Species 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 230000001953 sensory effect Effects 0.000 description 2
- 238000001228 spectrum Methods 0.000 description 2
- 206010035148 Plague Diseases 0.000 description 1
- 241000607479 Yersinia pestis Species 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/54—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for retrieval
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/432—Query formulation
- G06F16/433—Query formulation using audio data
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- User Interface Of Digital Computer (AREA)
Abstract
Un procedimiento implementado por ordenador para seleccionar y presentar elementos de contenido basado en las entradas de los usuarios que comprende: proporcionar acceso a un conjunto de elementos de contenido, estando dichos elementos de contenido asociados a metadatos que describen uno de los elementos de contenido; recibir una primera entrada (401) destinada por el usuario a identificar al menos un elemento de contenido deseado; determinar que al menos una parte de la primera entrada tiene un grado de importancia que excede un valor umbral; proporcionar retroalimentación al usuario (402) identificando parte de la primera entrada; recibir una segunda entrada (403, 405) del usuario posterior a la primera entrada; deducir si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada; con la condición de la que se deduce que el usuario tenía la intención de modificar la primera entrada con la segunda entrada, determinar una consulta alternativa modificando la primera entrada basada en la segunda entrada (404); con la condición de la que se deduce que el usuario tenía la intención de complementar la primera entrada con la segunda entrada, determinar una consulta alternativa combinando la primera entrada basada en la segunda entrada (406); seleccionar un subconjunto de elementos de contenido del conjunto de elementos de contenido basándose en la comparación de la consulta alternativa y los metadatos asociados con los elementos de contenido del subconjunto de elementos de contenido; y presentar el subconjunto de elementos de contenido al usuario; caracterizado porque la deducción de si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada incluye: determinar un grado de similitud entre la primera entrada y la segunda entrada; con la condición de que el grado de similitud esté por encima de un umbral, deducir que el usuario tenía la intención de modificar la primera entrada; y con la condición de que el grado de similitud esté por debajo de un umbral, deducir que el usuario tenía la intención de complementar la primera entrada.
Description
DESCRIPCIÓN
Interfaz de entrada de voz incremental con retroalimentación en tiempo real
CAMPO DE LA DESCRIPCIÓN
La presente descripción se refiere a sistemas y procedimientos para ayudar a un usuario a recuperar información aplicando una entrada incremental a una interfaz conversacional y, más específicamente, relacionada con técnicas para proporcionar una retroalimentación interactiva a un usuario durante la entrada incremental a una interfaz conversacional.
ANTECEDENTES DE LA DESCRIPCIÓN
El descubrimiento de contenido basado en la entrada de voz se encuentra en una etapa similar de evolución en comparación con las interfaces de entrada basadas en texto hace casi una década. Un usuario expresa su intención diciendo una oración completamente formada y a continuación espera una respuesta. La respuesta puede hacer que el usuario conteste con otra oración completa. De manera análoga a este modelo de uso, hace casi una década, el usuario expresaba toda su intención en forma de palabras clave completamente formadas, y a continuación enviaba la consulta de búsqueda introducida completamente. La búsqueda incremental basada en texto cambió este paradigma operativo. La búsqueda incremental basada en texto se describe más adelante en la patente de EE. UU. n.° 7.895.218 denominada “Procedimiento y sistema para realizar búsquedas de contenido de televisión utilizando una entrada de texto reducida” y presentada el 24 de mayo de 2005. En la búsqueda incremental basada en texto, los resultados de búsqueda aparecen cuando el usuario escribe palabras clave (o incluso simples prefijos que corresponden a palabras clave). Los usuarios ahora dan por sentado la facilidad de uso de una interfaz de búsqueda incremental basada en texto.
Los sistemas de descubrimiento de contenido basados en voz se están volviendo lo suficientemente fiables y útiles como para incorporarse a la vida cotidiana de los usuarios. Si bien los usuarios se han visto condicionados por la facilidad de uso de la búsqueda incremental basada en texto, el descubrimiento de contenido basado en voz también está marcando el comienzo de un cambio lento en la expresión de la intención. Por ejemplo, el descubrimiento de contenido basado en voz ofrece la capacidad de verbalizar directamente las mentes de los usuarios, en lugar de traducir el pensamiento a una cadena de palabras clave. Si bien las interfaces de voz basadas en el lenguaje natural se encuentran principalmente en el entorno móvil y de la televisión, el entorno de escritorio también está asistiendo a la aparición de interfaces de lenguaje natural, como la Graph Search de Facebook, donde el usuario escribe las consultas en lenguaje natural.
La patente de EE. UU. 2006/0206454 A1 describe un sistema donde se recibe la entrada de búsqueda desde un campo de búsqueda de una aplicación de navegador web o de las palabras pronunciadas por un usuario y se convierten a texto usando un software de reconocimiento de voz. Según las características de la entrada de búsqueda, se determina si se debe enviar automáticamente una consulta a un motor de búsqueda. La patente de eE. UU.
2011/0145224 A1 describe un sistema para recibir una consulta de búsqueda por voz del usuario y reconocer e identificar incrementalmente los términos de búsqueda. Después de que la consulta se haya reconocido de forma incremental, el sistema utilizará los términos de búsqueda para recuperar una parte de los resultados de búsqueda en función de los términos de búsqueda utilizables identificados. La patente de EE. UU. 2010/0153112 A1 describe un procedimiento de búsqueda donde la voz del usuario se traduce en una consulta textual y se envía a un motor de búsqueda. Los resultados de la búsqueda se presentan al usuario. A medida que el usuario continúa hablando, la consulta de voz se refina en función de la posterior conversación del usuario. La consulta de voz refinada se convierte en una consulta textual que nuevamente se envía al motor de búsqueda.
RESUMEN
Las siguientes instancias de la palabra “realización(es)”, si se refieren a combinaciones de características diferentes de las definidas por las reivindicaciones independientes, se refieren en cualquier caso a ejemplos que se presentaron originalmente pero que no representan las realizaciones de la invención actualmente reivindicada; estos ejemplos se muestran, no obstante, solo con fines ilustrativos. La presente descripción incluye procedimientos y sistemas para seleccionar y presentar elementos de contenido basados en la entrada del usuario. La presente descripción presenta una interfaz de entrada incremental para la recuperación de información. Los presentes sistemas y procedimientos proporcionan retroalimentación sobre la interpretación del sistema de la entrada del usuario y devuelven respuestas basándose en esa interpretación.
Según un aspecto, un procedimiento implementado por ordenador para seleccionar y presentar los elementos de contenido basados en la entrada del usuario comprende proporcionar acceso a un conjunto de elementos de contenido
asociados a metadatos que describe el elemento de contenido correspondiente, recibir una primera entrada con la que el usuario tiene la intención de identificar al menos un elemento de contenido deseado, determinar que al menos una parte de la primera entrada tiene importancia en un grado que excede un valor umbral, proporcionar retroalimentación al usuario que identifica la parte de la entrada y recibir una segunda entrada del usuario posterior a la primera, deducir si el usuario tenía la intención de modificar la primera entrada con la segunda o de complementar la primera entrada con la segunda, con la condición de la que se deduce que el usuario tenía la intención de modificar la primera entrada con la segunda, determinar una consulta alternativa que combina la primera entrada con la segunda, con la condición de la que se deduce que el usuario tenía la intención de complementar la primera entrada con la segunda, determinar una consulta alternativa que combina la primera entrada y la segunda, seleccionar un subconjunto de elementos de contenido del conjunto de elementos de contenido basado en la comparación de la consulta alternativa y los metadatos asociados con el subconjunto de elementos de contenido y presentar el subconjunto de elementos de contenido al usuario, donde la deducción de si el usuario tenía la intención de modificar la primera entrada con la segunda o de complementar la primera entrada con la segunda puede incluir la determinación de un grado de similitud entre la primera entrada y la segunda, con la condición de que ese grado de similitud esté por encima de un umbral, deducir que el usuario tenía la intención de modificar la primera entrada y, con la condición de que el grado de similitud esté por debajo de un umbral, deducir que el usuario tenía la intención de complementar la primera entrada.
El aspecto anterior también puede proporcionar un sistema para seleccionar y presentar elementos de contenido basados en la entrada del usuario, comprendiendo el sistema instrucciones legibles por ordenador codificadas en un medio legible por ordenador no transitorio, las instrucciones legibles por ordenador que hacen que el sistema informático esté configurado para proporcionar acceso a un conjunto de elementos de contenido, estando dichos elementos de contenido asociados a metadatos que describen un elemento de contenido correspondiente, recibir una primera entrada con la que el usuario tiene la intención de identificar al menos un elemento de contenido deseado, determinar que al menos una parte de la primera entrada tiene un grado de importancia que excede un valor umbral, proporcionar retroalimentación al usuario que identifica la parte de la entrada y recibir una segunda entrada del usuario posterior a la primera, deducir si el usuario tenía la intención de modificar la primera entrada con la segunda o complementar la primera entrada con la segunda, con la condición de la que se deduce que el usuario tenía la intención de modificar la primera entrada con la segunda, determinar una consulta alternativa que combina la primera entrada y la segunda, con la condición de la que se deduce que el usuario tenía la intención de complementar la primera entrada con la segunda, determinar una consulta alternativa que combina la primera entrada con la segunda, seleccionar un subconjunto de elementos de contenido del conjunto de elementos de contenido basado en la comparación de la consulta alternativa y los metadatos asociados con el subconjunto de elementos de contenido y presentar el subconjunto de elementos de contenido al usuario, donde la deducción de si el usuario tenía la intención de modificar la primera entrada con la segunda o complementar la primera entrada con la segunda puede incluir la determinación de un grado de similitud entre la primera entrada y la segunda, con la condición de que ese grado de similitud esté por encima de un umbral, deducir que el usuario tenía la intención de modificar la primera entrada, y con la condición de que el grado de similitud esté por debajo de un umbral, deducir que el usuario tenía la intención de complementar la primera entrada.
Las realizaciones descritas en la presente invención pueden incluir aspectos adicionales. Por ejemplo, la determinación de que al menos la parte de la primera entrada tiene un grado de importancia que excede el valor umbral incluye la identificación de uno o más límites de frase en la entrada incremental, y la identificación de uno o más límites de la frase se basa al menos en parte o al menos en uno de los siguientes: (a) una disfluencia identificada en la primera entrada del usuario, (b) reglas gramaticales aplicadas a la primera entrada, (c) el grado de importancia de la parte de la primera entrada, (d) al menos una interacción conversacional previa con el usuario, y (e) una firma de preferencia del usuario. La firma de preferencia del usuario puede describir las preferencias del usuario para al menos uno de (i) los elementos de contenido en particular y (ii) los metadatos en particular asociados con los elementos de contenido, donde la parte de la primera entrada se identifica en función de la firma de preferencia del usuario. La disfluencia puede incluir una pausa en la entrada de voz, un relleno de tiempo auditivo en la entrada de voz y/o una pausa en la escritura. La selección del subconjunto de elementos de contenido puede basarse además en una disfluencia identificada en la primera entrada, y también en interacciones conversacionales previas que se determina que están relacionadas con la primera y la segunda entrada. En la retroalimentación proporcionada se puede incluir la solicitud de una aclaración sobre la parte identificada de la entrada, sugerir la finalización de la primera entrada recibida y/o la repetición de la parte de la entrada al usuario, para notificar al usuario que parte de la entrada puede haberse reconocido de manera incorrecta. La solicitud de aclaración sobre la parte identificada de la entrada puede basarse, al menos en parte, en una determinación de que se produce una disfluencia después de que el usuario haya proporcionado parte de la entrada. La sugerencia de completar la primera entrada recibida puede basarse, al menos en parte, en una determinación de que la disfluencia ocurre antes de que se espere que el usuario proporcione la parte de la entrada. La retroalimentación proporcionada al usuario puede elegirse en función de la duración de una disfluencia identificada en la primera entrada, un grado de confianza en el correcto reconocimiento de voz a texto de la parte de la entrada, un recuento de las ambigüedades detectadas en la primera entrada, un recuento las de
correcciones de errores necesarias para identificar la parte de la entrada, un recuento de los nodos en la estructura de datos gráficos, donde dicho recuento de los nodos en la estructura de datos gráficos mide la ruta entre un primer nodo que representa un elemento de interés de una interacción conversacional previa y un segundo nodo que representa la parte de la entrada, y/o un grado de relación de la parte de la entrada con interacciones conversacionales previas con el usuario. La presentación del subconjunto de elementos de contenido puede incluir la presentación del subconjunto de elementos de contenido antes de recibir una entrada completa del usuario, al determinar una fuerte coincidencia de reconocimiento para la primera entrada y al determinar que un grado de respuesta del subconjunto seleccionado de elementos de contenido estaría por encima de un umbral.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
Para una comprensión más completa de varias realizaciones de los presentes sistemas y procedimientos, a continuación se hace referencia a las siguientes descripciones tomadas en relación con los dibujos adjuntos, donde los números de referencia similares se refieren a elementos similares:
La figura 1 ilustra los componentes de entrada y salida de un sistema de ejemplo para una entrada incremental, según algunas realizaciones.
La figura 2 ilustra un sistema de ejemplo para una interfaz de entrada de voz incremental, según algunas realizaciones. La figura 3 representa un flujo de datos de ejemplo de los presentes sistemas, según algunas realizaciones.
Las figuras 4-5 ilustran ejemplos de interacciones conversacionales entre el presente sistema y un usuario, según algunas realizaciones.
Las figuras 6-8 ilustran ejemplos de muestras de formas de onda para la introducción de datos del usuario “Quién actuaba en la película El mañana nunca muere,” según algunas realizaciones.
Las figuras 9-10 ilustran formas de onda de ejemplo que muestran el uso de la falta de pausas para detectar el recorte en la entrada de voz, según algunas realizaciones.
DESCRIPCIÓN DETALLADA DE LAS REALIZACIONES PREFERIDAS
Vista general
La presente descripción proporciona una interfaz de entrada incremental para la recuperación de información, donde los sistemas y procedimientos presentes proporcionan retroalimentación en tiempo real de la interpretación del sistema de la entrada del usuario y la devolución de respuestas en función de esa interpretación. Algunas realizaciones incluyen una interfaz de entrada incremental basada en voz, donde los presentes sistemas y procedimientos proporcionan retroalimentación en tiempo real sobre la entrada del usuario mientras este habla. Los presentes procedimientos y sistemas permiten una experiencia de usuario similar a las interacciones humanas donde un oyente responde a una consulta inmediatamente o incluso antes de que el usuario finalice una pregunta.
Además de centrarse en la experiencia natural de las interacciones humanas, los presentes sistemas y procedimientos abordan las muchas deficiencias que afectan a los sistemas tradicionales basados en la conversación, por ejemplo, donde abundan los errores en el reconocimiento de voz. La retroalimentación proporcionada por los presentes sistemas permite al usuario saber en tiempo real si se produce un error y tener así la oportunidad de corregirlo. El usuario no tiene que comenzar a hablar de nuevo, o recurrir a un modo de interacción de entrada de texto, para editar la larga cadena de texto de la entrada de voz. Es sabido que el uso del modo de entrada de texto es engorroso y peligroso en un entorno móvil, dada la exclusiva atención cognitiva, motora y sensorial que exige la edición de texto. Los requisitos de ejemplo de un modo de entrada de texto incluyen colocar o navegar al punto de inserción de texto en medio de una cadena para eliminar una frase o palabra incorrecta y a continuación escribir la frase o palabra correcta. Los presentes procedimientos y sistemas proporcionan retroalimentación en tiempo real sobre la entrada del usuario en los límites de la frase, y también devuelven respuestas completas o una sinopsis de respuestas a la entrada del usuario.
Algunas realizaciones proporcionan las respuestas en forma de audio y/o visual que coinciden con la forma donde el usuario está utilizando el presente sistema. Al igual que en el caso de las interacciones humanas, donde las pausas en las conversaciones son señales importantes para calibrar el nivel de comprensión, la confianza y/o la falta de confianza en el contenido que se expresa, los presentes sistemas y procedimientos hacen un uso completo de las disfluencias en la conversación, dentro y entre las oraciones, interpretando adecuadamente dichas disfluencias para sincronizar la retroalimentación auditiva/visual y las respuestas al usuario. Las disfluencias de ejemplo incluyen pausas
en la conversación; rellenos auditivos en la conversación como “um”, “hmm”, “esto”, “uh”, “eh”, “bueno” o incluso “como”; o pausas en la introducción de datos con el teclado, como cuando un usuario se detiene al escribir.
Descubrimiento del problema y ventajas de la solución
Los solicitantes han descubierto que desde la perspectiva del procedimiento de entrada, la expresión de la intención como una oración completamente formada en lugar de una cadena de palabras clave, requiere que las interfaces de voz para el descubrimiento de contenido no sean como motores de ejecución de “comandos de voz”. Necesitan dar sentido a oraciones completas para generar respuestas.
Los solicitantes también han descubierto que otro desafío al que se enfrentan los sistemas de descubrimiento de contenido basado en voz es la corrección de errores que se deslizan en la entrada del usuario debido a los errores de reconocimiento de voz. Pronunciar una oración completa y a continuación tener que corregir una frase en medio de una oración convertida de voz a texto no es fácil, particularmente en un entorno móvil donde el usuario puede estar conduciendo y tener las manos y la vista completamente ocupados. Incluso ignorando lo engorroso de la edición de texto, la atención cognitiva, motora y sensorial exclusiva que exige la operación de edición descarta la edición de texto como una opción para la corrección en entornos móviles, como cuando el usuario está conduciendo.
Además, los solicitantes han descubierto que un desafío más sutil que abordar en una interfaz de descubrimiento de contenido basado en la entrada de voz es igualar la facilidad de uso que ofrece de manera natural la búsqueda incremental basada en texto. En la búsqueda incremental basada en texto, a medida que el usuario empieza a escribir, los resultados proporcionan información visual instantánea del sistema que converge en los resultados. Es decir, cuando el usuario escribe la frase “programador de Java” en una entrada de búsqueda de texto, el usuario comienza a ver resultados de búsqueda de programadores de JAVA, por ejemplo, en un sistema de recuperación de información para selección de personal. La posterior adición de restricciones como “Boston” o “desarrollo de sistemas integrados” podría ser una elección dinámica que el usuario puede hacer en función de los resultados que aparecen a medida que escribe. La naturaleza instantánea de la respuesta a la búsqueda tiene dos objetivos clave: (1) la respuesta ofrece retroalimentación instantánea al usuario y (2) la respuesta incluso ayuda al usuario a adaptar las preguntas posteriores en función de la respuesta, todo ello mientras escribe en un cuadro de búsqueda. No es suficiente con que el rango de precisión del reconocimiento de voz mejore para igualar la facilidad de uso de la búsqueda incremental basada en texto. Incluso si el reconocimiento de voz se aproxima al 100 % de precisión, la capacidad de los presentes sistemas y procedimientos de modificar dinámicamente la intención original en función de las respuestas a la entrada parcial es un factor útil de experiencia del usuario para calibrar la capacidad de respuesta y la inteligencia del sistema. Las conversaciones que muchos usuarios clasificarían como interesantes aún pueden contener interrupciones e interjecciones mutuas. Por ejemplo, estas interrupciones e interjecciones forman la esencia de la riqueza de la conversación, incluso si la conversación se mantiene centrada en el tema principal a tratar.
Las realizaciones de los presentes sistemas y procedimientos abordan los desafíos descritos anteriormente de múltiples maneras. Un procedimiento sirve para dar al usuario la confianza de que el reconocimiento de voz ha funcionado tanto de forma visual como auditiva. Esta confirmación puede ser por una respuesta auditiva y/o visual (p. ej., a través del tablero de instrumentos de un automóvil o de la pantalla del teléfono móvil). En forma auditiva, esta confirmación puede incluir la repetición de frases reconocidas (no todas las palabras del usuario) o proporcionar una sinopsis de la respuesta, mientras el usuario habla (p. ej., los presentes sistemas responden con “50 coincidencias de programadores de Java” como resultado de búsqueda). El presente sistema también puede generar resultados completos de forma visual o auditiva cuando el usuario hace una pausa; la duración de una pausa se usa como una métrica para decidir qué resultados presentar.
En resumen, la presente descripción presenta una interfaz de descubrimiento de contenido basada en la entrada de voz donde la retroalimentación y las respuestas se presentan cuando el usuario expresa su intención, donde las respuestas pueden incluir retroalimentación sobre la entrada del usuario y los resultados de la intención expresada por el usuario hasta ese momento.
Sistema de entrada incremental
Las realizaciones preferidas de la presente invención y sus ventajas pueden entenderse consultando las figuras 1-10. La figura 1 ilustra los componentes de entrada y salida de un sistema de ejemplo 103 para una entrada incremental, según algunas realizaciones. El sistema 103 incluye las entradas de micrófono 101 y la interfaz visual 102. El sistema 103 también incluye las salidas de auriculares/altavoz 104 y la pantalla 105
Algunas realizaciones permiten al usuario expresar su intención al hablar o escribir. El micrófono 101 y la interfaz visual 102, como un cuadro de texto o equivalente, pueden habilitar ambas formas de entrada. Otras realizaciones
incluyen ambas formas de entrada, o solo una. De forma similar, algunas realizaciones presentan respuestas visuales y auditivas, respectivamente, en la pantalla 105 y los auriculares/altavoz 104. Entre los dispositivos que admiten diferentes combinaciones de estas entradas y salidas se encuentran las tabletas (p. ej., iPad) que tienen ambas formas de entrada y salida, teléfonos móviles que tienen ambas formas de entrada y salida (aunque en el uso real, el usuario solo puede usar entradas y salidas de audio, por ejemplo, mientras conduce), las pantallas del tablero de instrumentos del automóvil que tienen entrada de audio y salida tanto de imagen como de audio, los ordenadores de sobremesa/tabletas que tienen ambas formas de entrada y salida (aunque el usuario solo puede usar expresamente los medios de entrada y salida visual).
El último caso de uso de ordenadores de sobremesa/tabletas que admiten entrada y salida de audio e imagen puede parecer inicialmente un simple caso de uso de búsqueda incremental basada en texto. Sin embargo, los presentes sistemas y procedimientos todavía pueden usar la entrada de lenguaje natural en combinación con la capacidad de detectar términos de importancia en los límites de la frase, para facilitar la edición rápida. Por ejemplo, las interfaces visuales de los dispositivos táctiles dificultan la interacción a la hora de colocar un punto de inserción para eliminar o seleccionar. Incluso en los ordenadores de sobremesa, donde las operaciones de edición son más fáciles, algunas realizaciones hacen que la interfaz de entrada de texto mediante lenguaje natural sea una extensión sencilla y natural del familiar cuadro de texto de búsqueda. Por ejemplo, los presentes sistemas interpretan las disfluencias, p. ej., las pausas detectadas entre las oraciones mientras el usuario escribe que representan los límites de las oraciones. Este uso de las disfluencias elimina la necesidad de que el usuario introduzca delimitadores explícitos, como la puntuación. Por consiguiente, en algunas realizaciones, el sistema 103 amplía la conocida interfaz visual basada en texto 102 como un medio para introducir la intención en la presente interfaz de lenguaje natural. El presente sistema utiliza las disfluencias detectadas entre las palabras y oraciones para interpretar los límites de las oraciones y la conversación. Los presentes sistemas se convierten en interfaces familiares y fáciles de adoptar, tanto para usuarios que desean utilizar interfaces de lenguaje natural como para usuarios que ya se sienten cómodos con el refinamiento de búsqueda basado en palabras clave. La determinación implícita de los límites de las oraciones y la conversación basados en las disfluencias hace posible esta familiaridad. Otras realizaciones usan modos de texto y voz híbridos o combinados para permitir que un usuario exprese su intención, si lo desea.
La figura 2 ilustra un sistema de ejemplo 213 para una interfaz de entrada de voz incremental, según algunas realizaciones. El sistema 213 incluye el reconocedor de voz 201, la interfaz de entrada de texto 203, la interfaz de representación de retroalimentación y respuesta 204 y el convertidor de texto a voz 206.
El sistema 213 alimenta el flujo de entrada de voz 200 desde el usuario al reconocedor de voz 201. El reconocedor de voz 201 emite texto reconocido en tiempo real mientras el usuario habla. En algunas realizaciones, la pantalla 205 presenta el texto emitido directamente como texto ya introducido en la interfaz de entrada de texto 203. En otras realizaciones, el sistema 213 envía el texto reconocido con errores al motor de conversación 202 (a través de la interfaz de entrada/salida 212). El motor 202 de conversación interpreta la salida reconocida, incluidos los errores incrustados, en el contexto de la conversación para realizar una corrección de errores más inteligente de la entrada del usuario. La interfaz de entrada de texto 203 muestra a continuación la salida reconocida. Al usar el contexto de la conversación, algunas realizaciones usan variables de estado previamente almacenadas sobre las interacciones presentes en el contexto de la conversación y/o conversaciones previas (p. ej., entidades, intenciones y/o resultados de interacciones conversacionales) para mejorar la predicción de qué intención intentaba comunicar el usuario. Por ejemplo, si un usuario dice una frase que contiene una palabra que el reconocedor de voz 201 podría interpretar como “java” o “jabba”, el sistema 213 puede deducir que el usuario estaba preguntando sobre “JAVA”, el lenguaje de programación, basándose en las interacciones conversacionales de anteriores solicitudes del usuario para obtener una lista de programadores disponibles en un área geográfica designada. En contraste, el sistema 213 deduce que el usuario no estaba solicitando elementos de contenido relacionados con “Jabba”, el nombre de un personaje ficticio de las películas de Star Wars (es decir, “Jabba el Hutt”). La corrección de errores descrita anteriormente y la determinación de las variables de estado correspondientes se describen en la patente de los EE. UU. n.° 2014/0108453 A1 denominada “Procedimiento para la gestión adaptativa del estado de la conversación con operadores de filtrado aplicados dinámicamente como parte de una interfaz conversacional”, presentada el 13 de marzo de 2013.
En algunas realizaciones, el sistema 213 resalta las frases como elementos interactivos que son fácilmente editables, basándose en el procesamiento actual de la entrada de voz 200 y el texto correspondiente en tiempo real del motor de conversación 202 antes de visualizarse en la interfaz de entrada de texto 203. El presente resaltado permite al sistema 213 manejar los errores de reconocimiento que no fueron descubiertos por el motor de conversación 202. En algunas realizaciones, el sistema 213 utiliza reglas de gramática para identificar los elementos interactivos apropiados a resaltar. Por ejemplo, el sistema 213 resalta los sustantivos o sujetos de una oración, según lo identificado por un motor de reglas gramaticales (no mostrado) o por otros procedimientos conocidos. En otras realizaciones, la interfaz de usuario 203 muestra la cadena de voz reconocida sin alterar, y la interfaz de representación de retroalimentación y respuesta 204 presenta información sobre la entrada de texto 208 desde el motor de conversación 203 por separado. Esta representación por separado permite al usuario editar fácilmente la cadena original convertida en texto.
La salida de ejemplo del motor de conversación 202 incluye la respuesta de voz 210 y la respuesta visual 209 a mostrar. El componente de voz 211 de la respuesta de voz 210 proporciona retroalimentación al usuario que identifica una parte de la entrada que el sistema 213 ha determinado que es importante. La retroalimentación de ejemplo incluye (1) solicitar aclaraciones sobre la parte de la entrada, (2) repetir la parte de la entrada, (3) sugerir que se complete la parte de la entrada del usuario, (4) proporcionar un breve resumen (p. ej., una “sinopsis”) de los elementos de contenido solicitados en respuesta a la entrada de voz 200, y/o (5) proporcionar el subconjunto completo de elementos de contenido solicitados encontrados en respuesta a la entrada de voz 200. Un ejemplo de solicitud de aclaración sería que el sistema 213 preguntara “¿quiso decir programadores de “Java” o “Jabba e1Hutt”?” Un ejemplo de repetición de la parte de la entrada sería que el sistema 213 repitiera una parte de la entrada reconocida incorrectamente, por ejemplo, “área de Bolton”, cuando la entrada de voz 200 incluía “área de Boston”. Un ejemplo de sugerencia de finalización sería que, en respuesta a la entrada de voz 200 “en qué película actuó Jessica Chastain dirigida por Terrence <pausa>“, el sistema 213 respondiera “Terrence Malick”). Un ejemplo de sinopsis de los elementos de contenido solicitados sería que el sistema 213 respondiera “más de 100 programadores de Java en el área de Boston”. Un ejemplo donde se proporciona todo el subconjunto de elementos de contenido solicitados sería que el sistema 213 enumerara los programadores de Java encontrados. El convertidor de texto a voz 206 convierte el componente de voz 210 del motor de conversación 202 en la salida de voz 211.
En algunas realizaciones, el convertidor de texto a voz 206 también alimenta la salida de voz 207 al reconocedor de voz 201, por ejemplo, para representarla en la salida de audio, de modo que el reconocedor de voz 201 pueda filtrar la salida del sistema a partir de la voz del usuario. Este filtrado asume que el sistema 213 está diseñado para evitar el tradicional timbre de bucle de retroalimentación de audio. Si el sistema 213 alimenta la salida de audio directamente a la toma de salida de los auriculares, esta retroalimentación de audio no es necesaria, ya que el usuario escucha la salida del sistema directamente, sin que el micrófono la detecte. En algunas realizaciones, la salida de audio del sistema tiene menos prioridad y se apaga cuando el sistema 213 detecta que el usuario está hablando, para no interrumpirlo. En otras realizaciones, el sistema puede no apagar la salida de audio, por ejemplo en los casos donde la salida de audio es la de los auriculares. Esta situación simula conversaciones de la vida real donde una persona interrumpe a otra. Por ejemplo, el sistema 213 “interrumpe” al usuario al determinar un grado de confianza que al presentar los resultados solicitados al usuario (es decir, al presentar el subconjunto solicitado de elementos de contenido) eliminaría la necesidad de que el usuario termine de proporcionar el resto de la entrada de voz 200. Esta funcionalidad puede beneficiarse de un diseño cuidadoso desde la perspectiva de la interfaz, para evitar que el sistema 213 le parezca “grosero” al usuario.
La figura 3 representa un flujo de datos 300 de ejemplo de los presentes sistemas, según algunas realizaciones. El presente sistema recibe la entrada de texto 302. En algunas realizaciones, la entrada de texto 302 se recibe como entrada de texto escrita directamente por el usuario. En otras realizaciones, la entrada de texto 302 se determina usando la conversión de voz a texto (paso 303) de la voz de usuario 301. El presente sistema marca en el tiempo la entrada de texto 302 con la información de las pausas dentro y entre las oraciones (paso 304). Algunas realizaciones utilizan el contexto conversacional para interpretar la información de las pausas (paso 305). El presente sistema utiliza la interpretación resultante para generar la retroalimentación o los resultados en respuesta al usuario (paso 306). A continuación se describen las técnicas para interpretar las pausas en el discurso, en relación con las figuras 6-10. Las técnicas para interpretar las pausas en el discurso se exponen con más detalle en la patente de los EE. UU. n.° 2014/0039895 A1 denominada Procedimiento para utilizar las pausas detectadas en la entrada de voz para ayudar a interpretar la entrada durante la interacción conversacional para la recuperación de información, presentada el 13 de marzo de 2013. Esas técnicas pueden utilizarse junto con las técnicas descritas en este documento. En algunas realizaciones, la respuesta generada incluye un componente visual 307 y un componente de voz. El presente sistema reproduce el componente de voz 308 al usuario y también utiliza el componente de voz como retroalimentación auditiva 309. Por ejemplo, el presente sistema cancela la señal reproducida en el caso de que una entrada de micrófono pueda detectar la retroalimentación auditiva 309.
La figura 4 ilustra un ejemplo de interacción conversacional 400 entre el presente sistema y un usuario, según algunas realizaciones. El usuario dice “muéstrame programadores de Java en el área de Boston” (intercambio 401). En cualquier momento, el presente sistema permite que el usuario pueda proporcionar disfluencias tales como hacer una pausa en cualquier punto para recibir retroalimentación del presente sistema, si el usuario duda de que se le haya entendido. Por ejemplo, si el usuario hace una pausa después de decir “muéstrame programadores” o “muéstrame programadores de java”, el presente sistema determina que una parte de la entrada recibida hasta el momento tiene un grado de importancia que excede un valor umbral. El presente sistema proporciona retroalimentación y/o indicaciones sobre la parte de la entrada que se considera que tiene el grado de importancia, como “programadores de Java” o “área de Boston”. Por ejemplo, el presente sistema proporciona retroalimentación sobre partes de la entrada acotadas por límites de la frase, o generalmente sobre cualquier parte de la entrada considerada importante. Algunas realizaciones pueden determinar el grado de importancia en función de los metadatos relacionados almacenados en una estructura de datos teóricos gráficos de nodos y entidades, descritos con más detalle a continuación. En algunas
realizaciones, el grado de importancia identifica las partes de la entrada que podrían beneficiarse de la aclaración, desambiguación o confirmación por parte del presente sistema. El presente sistema proporciona retroalimentación al usuario identificando la parte de la entrada considerada importante (es decir, el presente sistema proporciona retroalimentación o confirmación sobre las frases o términos importantes dichos hasta ese momento).
Al proporcionar la confirmación, el presente sistema funciona casi como un asistente personal que copia al dictado y repite ciertas frases o palabras pronunciadas, de modo que la persona que dicta es consciente de que la transcripción del texto del asistente personal se está realizando correctamente. Por lo tanto, en algunas realizaciones, el presente sistema comienza repitiendo la parte de la entrada considerada importante (es decir, repitiendo las frases dichas por el usuario). En realizaciones adicionales, el presente sistema utiliza el índice de éxito de reconocimiento y/o comprensión a lo largo del tiempo para ajustar la retroalimentación. Por ejemplo, si la primera retroalimentación proporcionada es “programadores de Java”, y la segunda es “James Gosling” (cocreador del lenguaje de programación Java), un tercer ejemplo de retroalimentación confirma “sí, Python lo consiguió” al reconocer el presente sistema una parte adicional de la entrada que indica otro lenguaje de programación.
En otras realizaciones, el grado de importancia es una puntuación de confianza recibida del convertidor de voz a texto, y la retroalimentación repite una parte de la entrada que el presente sistema determina que está por debajo de la puntuación de confianza. En contraste con el ejemplo expuesto anteriormente, este ejemplo describe un escenario donde el presente sistema proporciona retroalimentación repitiendo la parte de la entrada, porque el sistema ha determinado que el proceso de conversión de voz a texto puede haber arrojado resultados incorrectos. Otras realizaciones del grado de importancia pueden indicar que hay muchas variaciones fonéticas cercanas que coinciden con la entrada del usuario.
En el intercambio 401 de ejemplo, el usuario escribe y/o pronuncia una oración completa que contiene dos partes de la entrada que tienen altos grados de importancia: programadores de Java 409 y área Bolton 410. En algunas realizaciones, el presente sistema proporciona retroalimentación ofreciendo una repetición auditiva de la última frase “área de Bolton”, y también resalta visualmente las partes de interés (intercambio 402) para permitir una edición fácil por parte del usuario. El presente sistema recibe una segunda entrada del usuario (intercambio 403). Por ejemplo, el usuario hace clic o toca la segunda frase “área de Bolton” 410 para corregir un error de reconocimiento (“Boston” se ha reconocido erróneamente como “Bolton”). El presente sistema deduce que el usuario tiene la intención de modificar la primera entrada (intercambio 401) utilizando una segunda entrada. Por ejemplo, el presente sistema deduce que el usuario tiene la intención de modificar la primera entrada determinando una similitud entre la segunda entrada y la parte de la entrada correspondiente con la primera. La similitud puede basarse en la detección de caracteres similares de la segunda entrada y la parte de la entrada correspondiente, o en la detección de variaciones similares, tales como las variaciones fonéticas entre la segunda entrada y la parte de la entrada correspondiente. En algunas realizaciones, el usuario corrige el error de reconocimiento pronunciando la segunda entrada 411 “área de Boston” nuevamente, o eligiendo de una lista de variantes de “Bolton”, la variante “Boston”. El presente sistema puede determinar una consulta alternativa utilizando la segunda entrada. Incluso en el caso de que la segunda entrada implique una interacción visual, el usuario no tiene que usar procedimientos tradicionales de corrección de texto y no tiene que esforzarse para colocar el punto de inserción al final de la palabra “Bolton” para corregir el error de reconocimiento. En cambio, el presente sistema permite al usuario tocar el área resaltada alrededor de la parte identificada de la entrada “área de Bolton”. El presente sistema permite al usuario editar la parte de la entrada usando una segunda entrada, ya sea pronunciando de nuevo la parte de la entrada o escribiendo la parte de la entrada “Boston”.
El presente sistema selecciona un subconjunto de elementos de contenido relevantes, con base en la comparación de la consulta alternativa y los metadatos asociados con el subconjunto de elementos de contenido. Por ejemplo, el presente sistema responde con un resumen de los resultados (intercambio 404) de la consulta alternativa. Los resultados se basan en metadatos asociados, como los que identifican a los programadores de Java. En algunas realizaciones, la respuesta incluye una pantalla visual combinada con una versión oral o auditiva de los elementos de contenido relevantes. El usuario puede proporcionar información posterior, como “que también tengan conocimientos de Python” (intercambio 405). En algunas realizaciones, el usuario comienza a hablar incluso antes de que el presente sistema haya terminado de proporcionar los resultados de que hay más de cien programadores de Java. Al escuchar que el usuario comienza a hablar (p. ej., en función de la actividad del micrófono), algunas realizaciones suspenden inmediatamente la reproducción de la respuesta. Esta situación es análoga a las conversaciones entre humanos, donde un hablante puede detenerse cuando alguien le interrumpe. El presente sistema deduce que la segunda entrada está destinada a complementar la entrada existente. El presente sistema responde con un subconjunto revisado de elementos de contenido, como un resumen de treinta y tres programadores para la nueva consulta (intercambio 406).
Como se ha descrito anteriormente, el presente sistema deduce que el usuario tenía la intención de complementar la consulta existente. El presente sistema añade la consulta recién pronunciada al texto existente que se muestra en la pantalla, con la frase recién añadida Python resaltada (intercambio 412). En algunas realizaciones, el presente sistema permite al usuario usar la interfaz de la barra de búsqueda para continuar la conversación. El usuario puede utilizar
cómodamente una interfaz de búsqueda existente para la búsqueda de palabras clave, no solo para escribir la entrada en lenguaje natural, sino también para mantener una conversación como si el usuario simplemente estuviera añadiendo una palabra adicional en la búsqueda incremental basada en texto. Como se ha descrito anteriormente, algunas realizaciones rastrean disfluencias tales como las pausas en la recepción de la entrada de texto y desglosan una secuencia de entrada (ya sea escrita como entrada de texto, una entrada de voz convertida a texto o una combinación), en oraciones y frases basadas en la información de las pausas y las interacciones anteriores del usuario con la interfaz.
Además, la presente interfaz de usuario permite que los usuarios que ya se sienten cómodos con la búsqueda de palabras clave utilicen la interfaz familiar, sin tener que ser conscientes de que la interfaz es capaz de introducir información hablada y en lenguaje natural. Por ejemplo, después de escuchar el resumen de la sinopsis del subconjunto de elementos de contenido (intercambio 406), el usuario pronuncia una acción como “mándaselo por correo electrónico a Sam” (intercambio 407). El presente sistema identifica a “Sam” como una parte de la entrada basada en un grado de importancia. El presente sistema proporciona retroalimentación al usuario que identifica la parte de la entrada. Por ejemplo, el presente sistema repite “Sam” al usuario. El presente sistema también resalta la parte de la entrada “Sam”, lo que permite al usuario editar la parte de la entrada resaltada si es incorrecta. El presente sistema deduce que el usuario tenía la intención de complementar el intercambio conversacional anterior y envía la lista de treinta y tres programadores por correo electrónico a Sam. El sistema envía la lista por correo electrónico después de una pausa, para permitir al usuario editar la parte de entrada “Sam” si es necesario. Este ejemplo ilustra una secuencia de interacción que incluye entradas y salidas auditivas y visuales. Como se ha descrito anteriormente, el presente sistema no requiere tanto entradas y salidas auditivas como visuales; cualquier subconjunto o combinación de estas entradas y salidas es posible en función de la implementación en particular y el escenario de uso.
La figura 5 ilustra un ejemplo de interacción conversacional 500 entre el presente sistema y un usuario, según algunas realizaciones. La interacción conversacional 500 ilustra un ejemplo donde la interacción del usuario no implica la visualización para la entrada ni para la salida. En otras palabras, la interacción conversacional 500 ilustra el audio como el único medio de comunicación.
El usuario proporciona una primera entrada, “dime el nombre de Jessica Chastain” y hace una pausa para confirmar que el presente sistema ha identificado correctamente la parte de la entrada de interés para el usuario (intercambio 501) . El presente sistema identifica que la parte de la entrada “Jessica Chastain” tiene un grado de importancia que excede un valor umbral. En consecuencia, el presente sistema proporciona retroalimentación al usuario que identifica la parte de la entrada. Por ejemplo, el presente sistema responde con “Sí, Jessica Chastain, continúa...” (intercambio 502) . La retroalimentación proporcionada por el sistema representa una respuesta de audio natural, dado que la primera entrada del usuario es parcial y una oración incompleta (en contraste con el usuario que simplemente escribe una palabra clave) y dado que la primera entrada es una entrada de voz. (Algunas realizaciones rastrean si la fuente de la primera entrada es texto o voz, pese a la conversión de voz a texto de la entrada de voz). El usuario proporciona una entrada posterior “en su última película” (intercambio 503). El presente sistema deduce que el usuario tenía la intención de complementar la primera entrada con la segunda. El presente sistema determina una consulta alternativa combinando la primera entrada con la segunda, y selecciona un subconjunto de elementos de contenido comparando la consulta alternativa con los metadatos correspondientes. En función del subconjunto de elementos de contenido seleccionado, el presente sistema responde “La noche más oscura” (intercambio 504), la película más reciente donde Jessica Chastain había actuado en el momento de la consulta del usuario. Algunas realizaciones utilizan reglas gramaticales aplicadas a la estructura de la oración para determinar si la entrada es completa o es parcial. Por ejemplo, si el motor de reglas gramaticales determina que falta el sujeto, objeto directo y/o objeto indirecto de una oración, el presente sistema determina que la entrada es incremental o parcial. Otras realizaciones usan técnicas de clasificación probabilística, como un clasificador bayesiano ingenuo, para determinar cuándo una entrada está incompleta. Aun así, otras realizaciones deducen que un intercambio está incompleto en función de las relaciones entre entidades detectadas en el intercambio. Por ejemplo, el presente sistema deduce que el intercambio 501 está incompleto en función de las relaciones detectadas entre entidades gramaticales en el intercambio, porque no tiene sentido que un usuario pregunte el nombre (“dígame el nombre”) de alguien a quien acaba de nombrar (“de Jessica Chastain”).
El usuario hace una pregunta de seguimiento, “en qué película actuó que fue dirigida por Terrence”, y hace una pausa para recordar el nombre completo del director (intercambio 505). El presente sistema determina que una parte de la entrada (“Terrence”) tiene un grado de importancia que excede un umbral, en función de la disfluencia detectada (p. ej., en función de la pausa del usuario). El presente sistema determina además que el usuario tenía la intención de complementar la consulta existente, y determina una consulta alternativa que combina el término “Terrence” con la consulta existente (p. ej., película de Jessica Chastain). El presente sistema selecciona un subconjunto de elementos de contenido basándose en la comparación de la consulta alternativa y los metadatos correspondientes. Al descubrir una fuerte coincidencia inequívoca (p. ej., tanto para la parte de la entrada reconocida (“Terrence”) como para el subconjunto seleccionado de elementos de contenido (p. ej., película “El árbol de la vida”)) que califica un índice de éxito de respuesta por encima de un umbral, el presente sistema interrumpe al usuario para presentar el subconjunto
de elementos de contenido. Por ejemplo, el presente sistema exclama “te refieres a El árbol de la vida de Terrence Malick” (intercambio 506). En algunas realizaciones, el índice de éxito de la respuesta para un subconjunto coincidente de elementos de contenido se determina en función de factores que incluyen recuentos de ambigüedades en la entrada del usuario, recuentos de correcciones de errores necesarios para llegar a una coincidencia, recuentos de “saltos” entre nodos en una estructura de datos gráficos que representa el contexto conversacional para llegar a la coincidencia (en realizaciones que usan información representada en formato teórico de gráficos, como se describe a continuación), y/o un grado de relación de la coincidencia con interacciones conversacionales anteriores entre el sistema y el usuario. En realizaciones adicionales, el intercambio 506, aunque se ilustra en forma de audio, también puede producirse como una combinación de texto y audio. Además, como se ha descrito anteriormente, la entrada del usuario puede ser una cadena de palabras clave proporcionadas por el usuario en forma de texto. El presente sistema responde con la misma interjección incluso en respuesta a la entrada de texto. En otras realizaciones, la interjección es pasiva, ya que el presente sistema muestra los resultados en cuanto el usuario escribe “Terrence”.
Mientras que en el escenario de ejemplo descrito anteriormente, el presente sistema presenta de manera proactiva el subconjunto de elementos de contenido al usuario al determinar que la intención del usuario no era ambigua, la presente interfaz de voz incremental también permite la desambiguación de la entrada incluso antes de que el usuario termine de expresar una intención por completo. Por ejemplo, si el usuario tiene la intención de hacer la pregunta “juegan los sox esta noche” y dice “juegan los sox” y hace una pausa para escuchar los comentarios sobre la parte de la entrada “sox”, el presente sistema proporciona retroalimentación desambiguando automáticamente las entradas recibidas como los equipos de béisbol “Boston Red Sox” y “Chicago White Sox”. Si el usuario hubiera pronunciado completamente la oración, “juegan los sox esta noche”, y suponiendo que el presente sistema no estuviera al tanto de las preferencias personales del usuario, proporcionaría retroalimentación utilizando una pregunta de seguimiento para desambiguar la entrada recibida. Por ejemplo, el presente sistema pregunta “¿te refieres a los Boston Red Sox o a los Chicago White Sox?” Como se ha descrito anteriormente, el presente sistema puede proporcionar retroalimentación tanto de forma visual como auditiva. Además, en la presente búsqueda incremental, la desambiguación puede ocurrir cuando el usuario está expresando su intención. Por ejemplo, el presente sistema utiliza una disfluencia (p. ej., una pausa) proporcionada por el usuario en los límites de la frase para proporcionar retroalimentación en forma de confirmación al usuario de que el sistema recibió la conversión correcta de voz a texto en las frases de entrada. El presente sistema utiliza además una disfluencia detectada para identificar una parte de la entrada para desambiguar cuando la entrada tiene ambigüedades. En otras palabras, el usuario usa pausas en los límites de la frase para confirmar que el presente sistema ha entendido la entrada correctamente (con la capacidad de editar la entrada inmediatamente si se ha entendido de manera incorrecta). El usuario además utiliza pausas en los límites de la frase para desambiguar la intención. Como se ha ilustrado anteriormente, cuando el presente sistema determina que un índice de éxito de respuesta esperado supera un umbral, las disfluencias detectadas eliminan incluso la necesidad de que el usuario exprese más su intención. Según lo descrito anteriormente, las técnicas expuestas en la patente de EE. UU. n.° 2014/0039895 A1 se pueden utilizar para deducir el significado de la pausa de un usuario en el discurso y/o cualquier otra disfluencia de la voz. Por ejemplo, si se produce una pausa después de una entrada de oración parcial, el presente sistema deduce que el usuario busca confirmación de que se le ha entendido. Por el contrario, si la pausa precede a lo que se puede predecir como una parte de la entrada, el presente sistema deduce que el usuario no está seguro durante la entrada, y el sistema pondera en consecuencia el correspondiente grado de importancia de la parte de la entrada.
Detección y uso de las disfluencias
Las figuras 6-8 ilustran ejemplos de muestras de formas de onda de la entrada del usuario “Quién actuaba en la película El mañana nunca muere”, según algunas realizaciones.
<duración de la pausa = 800 ms>quién actuaba en la película<duración de la pausa = 550
ms>el mañana nunca muere<duración de la pausa = 1200 ms>
La entrada de voz 601 está flanqueada por una pausa inicial/silencio 602 y una pausa final/silencio 603. Además, dentro de la entrada de voz 601, hay una pausa 701 de 550 milisegundos. Estas pausas y/o silencios están indicados por una baja intensidad de la onda de sonido de la entrada de voz. A diferencia de estas pausas, la parte del discurso 801 tiene una alta intensidad, lo que indica que la parte del discurso 801 no es una disfluencia ni una pausa. Una definición del término pausa, como se usa en esta invención, es un período de silencio relativo donde el usuario no está hablando, pero donde la entrada de audio puede incluir sonidos ambientales. Por ejemplo, el presente sistema puede analizar los espectros de potencia de frecuencia 604, 704 y 804 para detectar el discurso frente a una pausa según los niveles de potencia de entrada. Como se muestra en los espectros de potencia 704, 804, la pausa 701 tiene una intensidad de aproximadamente -60 dB, y la parte de discurso 801 tiene una intensidad de aproximadamente -50 dB. Como la unidad de decibelios (dB) es una unidad logarítmica, hay un factor de diferencia de 10 en la intensidad de la pausa y la parte del discurso. En algunas realizaciones, los motores de voz a texto estándar realizan la detección de las disfluencias, teniendo en cuenta los sonidos ambientales.
Como se ha ilustrado anteriormente, se detecta una pausa cuando hay un período de ausencia o baja intensidad de sonido. La intensidad de corte del sonido para distinguir una pausa de una parte vocalizada de la entrada de voz se puede predefinir, por ejemplo, a -55 dB. Por otro lado, la intensidad de corte puede ser relativa a la entrada de voz y al ruido de fondo. La intensidad de corte se puede elegir, por ejemplo, al 20 % de la intensidad media de la entrada de voz. Si el ruido de fondo es alto, la intensidad de corte se puede elegir al 30 % de la intensidad media. Además, se puede predefinir el período mínimo de pausa de baja intensidad de sonido que forma una pausa. Por ejemplo, el período de pausa mínimo puede ser de 300 ms. Alternativamente, el período de pausa mínimo puede variar según la velocidad a la que el usuario hable. Si la entrada de voz se pronuncia rápido, el período de pausa mínimo puede ser más corto. Si la entrada de voz se pronuncia despacio, el período de pausa mínimo puede ser más largo. Por lo tanto, el presente sistema detecta una pausa cuando hay un período más largo que el período de pausa mínimo con una intensidad de sonido menor que la intensidad de corte.
Los motores de voz a texto tradicionales pueden intentar determinar palabras y/o frases basadas en la entrada de audio durante la pausa, o simplemente pueden detener el procesamiento del lenguaje durante la pausa. Una distinción de las realizaciones descritas en la presente invención es que las técnicas actualmente descritas incluyen el hecho de que la pausa se produjo como entrada a los módulos posteriores al motor de voz a texto para determinar la intención del usuario o para ayudar al usuario a formular la solicitud de consulta en sí. Además del uso de pausas, se utilizan otras formas de disfluencias, incluidos los rellenos de tiempo auditivos, en el procesamiento del habla. En caso de que el usuario pronuncie palabras o sonidos de relleno añadidos para acompañar una pausa, los módulos posteriores que procesan la salida del motor de voz a texto pueden reconocer esas palabras y sonidos de relleno añadidos a la pausa. Por ejemplo, el uso de palabras de relleno del tipo “como” seguidas de una pausa, o sonidos como “umm”, “hmm”, “bueno”, “uh” y “eh” seguidos de una pausa también se consideran en su conjunto como una pausa con la duración total de la pausa, incluida la duración de la pronunciación de las palabras de relleno. En otras realizaciones, las palabras de relleno auditivo no van seguidas de una pausa. Por lo general, los rellenos de tiempo auditivo son continuos y carecen de variaciones en el tono y el volumen. Estas características pueden ayudar a la detección de los rellenos de tiempo auditivos.
Si la entrada de voz del usuario, por otro lado, fue “¿Juegan los Red Sox mañana?”, es poco probable que haya una latencia cognitiva de recuperación que preceda a la palabra “mañana”, puesto que la instancia de la parte de la entrada “mañana” forma parte de la razón misma para hacer la pregunta. En contraste, durante la entrada de voz “¿Quién actuaba en (pausa) El mañana nunca muere?” el usuario puede hacer una pausa antes de “mañana” para demarcar conscientemente el límite de la frase (es decir, para identificar la parte de la frase “El mañana nunca muere” como un elemento distinto) o simplemente hacer una pausa para realizar un recuerdo cognitivo. Al utilizar la pausa que precede a la frase “El mañana nunca muere” para identificar la frase como una parte de la entrada, el presente sistema de recuperación de información puede comprender mejor que la intención del usuario se refiere a esa parte de la entrada. Esta valiosa información se puede utilizar para restringir la búsqueda a información que se refiere solo a esa parte de la entrada, o que las partes de la entrada devueltas por la búsqueda que están relacionadas con la película “El mañana nunca muere” pueden recibir un mayor peso de relevancia.
En el caso de demarcar el límite de la frase, el usuario puede decir con confianza la parte que sigue a la pausa. En consecuencia, el presente sistema puede determinar la parte que sigue a la pausa como una determinada frase o título en función del volumen o la velocidad de la voz del hablante. Otro procedimiento para distinguir si la parte que sigue a la pausa es una frase pronunciada con o sin confianza podría ser basarse donde se exprese adicionalmente después de la pausa inicial. Si una persona no está segura de una frase, es posible que haga una nueva pausa. Además, una pausa seguida de una frase dicha con confianza puede ser relativamente corta. Por lo tanto, el sistema puede suponer primero que una frase o título que siga a una pausa breve es una frase dicha con confianza. A continuación, el sistema realiza la búsqueda, pero si no encuentra ningún resultado, puede deducir que la frase que sigue a la pausa breve se ha dicho sin confianza.
Como se ha mencionado anteriormente, la presencia de una pausa dentro de la entrada de voz se puede usar como una forma de medir la confianza de las partes de la propia entrada. La interpretación de la duración de las pausas y la frecuencia con que ocurren también se tiene en cuenta en las realizaciones de la presente invención para distinguir los casos de usuarios que simplemente hablan despacio (para que el reconocimiento de voz funcione mejor) frente a las pausas para realizar el recuerdo cognitivo. Por ejemplo, supongamos que la entrada de voz del usuario fue “¿Quién actuaba en (pausa) El día nunca muere?” En este caso, el sistema puede usar la pausa para indicar que el usuario puede no estar seguro del nombre del elemento para el que solicita información. Por lo tanto, cuando no encuentra un elemento correspondiente a “El día nunca muere”, el sistema puede responder con preguntas, orientado por la entrada del usuario (utilizando, p. ej., las técnicas establecidas en las aplicaciones incorporadas como se ha descrito anteriormente) para ayudar al usuario a definir su intención.
Además, el presente sistema puede dar una prioridad de búsqueda menor al elemento expresado con poca confianza
en su conjunto y, en su lugar, usar los elementos de mayor confianza para guiar la búsqueda. Por ejemplo, el sistema puede confiar mucho en la parte “Quién actuaba” para centrarse en los resultados de un dominio de entretenimiento de audio/vídeo (basándose en la palabra “actuaba”). Conociendo este dominio, el sistema puede refinar aún más la búsqueda basándose en las partes de la entrada de menor confianza. Por ejemplo, el sistema puede realizar consultas basadas en combinaciones de las palabras de la parte de menor confianza para encontrar lo que el usuario está buscando o al menos para proporcionarle algunas opciones al usuario. De este modo, el sistema puede responder con la afirmación de que no puede encontrar una película titulada “El día nunca muere” y preguntar si el usuario quiso decir “El amor nunca muere” o “El mañana nunca muere”.
Las figuras 9-10 ilustran formas de onda de ejemplo que muestran el uso de la falta de pausas para detectar el recorte en la entrada de voz, según algunas realizaciones. Específicamente, la figura 9 ilustra el recorte inicial 901 y la figura 10 ilustra el recorte final 1002. El recorte de voz inicial 901 y el recorte final 1002 son detectados por el motor de voz a texto en combinación con los otros módulos y se codifican junto con la entrada de voz como se ha ilustrado anteriormente. Por el contrario, la presencia de la pausa final 902 y la pausa inicial 1001 delimitan claramente la entrada de voz. Los motores de voz a texto tradicionales pueden asignar sonidos recortados a palabras que coinciden aproximadamente o simplemente emitir un texto fonético equivalente a los sonidos. Las implementaciones de la presente invención reconocen la ausencia de estas pausas delimitadoras y utilizan su presencia como información adicional para interpretar el significado de la entrada del usuario. Por ejemplo, en lugar de simplemente encontrar la palabra que más se acerca a la parte recortada 901, la realización ilustrativa considera la posibilidad de que el usuario tuviera la intención de decir una palabra diferente que tiene un sufijo que coincide.
Repositorios de información
En algunas realizaciones, la presente invención utiliza repositorios de información para buscar el resultado de la consulta o para encontrar una palabra o frase sustituta. Los repositorios de información están asociados con dominios, que son conjuntos de tipos similares de información y/o determinados tipos de elementos de contenido. Ciertos tipos de repositorios de información incluyen entidades y relaciones entre las entidades. Cada entidad/relación pertenece a un tipo, respectivamente, de un conjunto de tipos. Además, a cada entidad/relación se le asocia un conjunto de atributos, que pueden capturarse, en algunas realizaciones, como un conjunto finito definido de campos de nombrevalor. La asignación entidad/relación también sirve como un conjunto de metadatos asociados con los elementos de contenido porque la asignación entidad/relación proporciona información que describe los diversos elementos de contenido. En otras palabras, una entidad en particular tendrá relación con otras entidades y estas “otras entidades” servirán como metadatos para la “entidad en particular”. Además, en la asignación, cada entidad puede tener atributos asignados a ella o a las relaciones que conectan la entidad con otras entidades. Colectivamente, esto constituye los metadatos asociados con las entidades/elementos de contenido. En general, dichos repositorios de información pueden denominarse en la presente invención repositorios de información estructurada. A continuación se presentan ejemplos de repositorios de información asociados a los dominios.
En un dominio de entretenimiento de medios se incluyen entidades, tales como películas, programas de televisión, episodios, equipo de producción, roles/personajes, actores/personalidades, atletas, partidos, equipos, ligas y torneos, deportistas, artistas e intérpretes de música, compositores, álbumes, canciones, personalidades de actualidad y/o distribuidores de contenido. Estas entidades tienen una serie de relaciones que se capturan en el repositorio de información. Por ejemplo, una entidad de una película se relaciona con una o más entidades de actor/personalidad mediante la relación “actuaba en”. De manera similar, una entidad de película puede estar relacionada con una entidad de álbum de música a través de la relación “banda sonora original”, que a su vez puede estar relacionada con una entidad de canción a través de la relación de “pista de un álbum”. Mientras tanto, los nombres, las descripciones, la información de la programación, las reseñas, las calificaciones, los costes, las URL de los vídeos o audios, las transacciones de la tienda de contenidos o aplicaciones, las puntuaciones, etc., pueden considerarse campos de atributo.
En un dominio de correo electrónico (e-mail) personal se incluyen entidades, como correos electrónicos, hilos de correo electrónico, contactos, remitentes, destinatarios, nombres de compañías, departamentos/unidades de negocios de empresa, carpetas de correo electrónico, ubicaciones de oficinas y/o ciudades y países correspondientes a las ubicaciones de las oficinas. Ejemplos ilustrativos de las relaciones serían una entidad de correo electrónico relacionada con la entidad remitente (así como las entidades para, cc, cco, receptores e hilo de correo electrónico). Mientras tanto, pueden existir relaciones entre un contacto y su empresa, departamento, ubicación de la oficina. En este repositorio, ejemplos de los campos de atributo asociados con las entidades serían los nombres de contactos, designaciones, identificadores de correo electrónico, otra información de contacto, marca de tiempo de correo electrónico enviado/recibido, asunto, cuerpo, archivos adjuntos, niveles de prioridad, información de ubicación de una oficina y/o el nombre y descripción de un departamento.
En un dominio relacionado con viajes/hoteles y turismo se incluyen entidades, como ciudades, hoteles, marcas de
hoteles, puntos de interés individuales, categorías de puntos de interés, cadenas minoristas de cara al consumidor, sitios de alquiler de automóviles y/o empresas de alquiler de automóviles. Entre las relaciones entre tales entidades se incluyen la ubicación, pertenencia a cadenas y/o categorías. También se incluyen en los campos de atributo nombres, descripciones, palabras clave, costes, tipos de servicio, calificaciones, reseñas, etc.
En un dominio de comercio electrónico se incluyen entidades como artículos de productos, categorías y subcategorías de productos, marcas, tiendas, etc. Las relaciones entre dichas entidades pueden incluir información de compatibilidad entre artículos de productos, un producto “vendido por” una tienda, etc. En los campos de atributo se incluyen las descripciones, palabras clave, reseñas, calificaciones, costes y/o información de disponibilidad. En un dominio de libro de direcciones se incluyen entidades e información como nombres de contacto, direcciones de correo electrónico, números de teléfono, direcciones físicas y empresa.
Las entidades, relaciones y atributos enumerados aquí son solo ilustrativos y no pretenden ser una lista exhaustiva. Algunas realizaciones también pueden usar repositorios que no son repositorios de información estructurada como los descritos anteriormente. Por ejemplo, el repositorio de información correspondiente a documentos basados en la red (p. ej., Internet/World Wide Web) puede considerarse una red de relaciones web de documentos vinculados (entidades). Sin embargo, en general, ninguna estructura de tipos directamente aplicable puede describir de manera significativa, de forma no trivial, todos los tipos de entidades y relaciones y atributos asociados con los elementos de Internet en el sentido de los repositorios de información estructurada descritos anteriormente. Sin embargo, elementos como los nombres de dominio, tipos de medios de Internet, nombres de archivo, extensión de nombre de archivo, etc. pueden usarse como entidades o atributos con dicha información.
Por ejemplo, consideremos un corpus que conste de un conjunto de documentos de texto no estructurados. En este caso, ninguna estructura de tipos directamente aplicable puede enumerar un conjunto de entidades y relaciones que describan de manera significativa el contenido del documento. Sin embargo, la aplicación de técnicas de procesamiento de extracción semántica de la información como un paso de preprocesamiento puede dar como resultado entidades y relaciones que pueden descubrir parcialmente la estructura de dicho corpus.
Ejemplos ilustrativos de acceso a repositorios de información.
La siguiente descripción ilustra algunos ejemplos de tareas de recuperación de la información en el contexto de los repositorios de información estructurados y no estructurados como se ha descrito anteriormente.
En algunos casos, un usuario está interesado en una o más entidades de algún tipo, generalmente llamado tipo de intención en la presente invención, que el usuario desea descubrir especificando solo las restricciones de campo de atributo con las que las entidades deben cumplir. Tenga en cuenta que a veces la intención puede ser doble (tipo, atributo) cuando el usuario desea algún atributo de una entidad de cierto tipo. Por ejemplo, si el usuario desea conocer la calificación de una película, la intención podría verse como (tipo, atributo) = (película, calificación). Tales restricciones de la consulta se denominan generalmente restricciones de solo atributo en la presente invención. Cada vez que el usuario nombra la entidad o especifica suficiente información para que coincida directamente con los atributos de la entidad de tipo de intención deseada, se trata de una restricción de solo atributo. Por ejemplo, cuando el usuario identifica una película por su nombre y algún atributo adicional (p. ej., El cabo del miedo de los años 60), o cuando especifica una coincidencia de asunto para el correo electrónico que desea descubrir, o cuando solicita hoteles en función de un rango de precios, o cuando especifica que quiere un iPod touch de color negro de 32 GB.
Sin embargo, en algunos casos, un usuario está interesado en una o más entidades del tipo de intención y especifica no solo las restricciones de campo de atributo a las entidades de tipo de intención, sino también restricciones de campo de atributo o incluso nombra otras entidades con las que las entidades de tipo de intención están conectadas a través de las relaciones de alguna manera bien definida. A tales restricciones de la consulta se las denomina generalmente restricciones orientadas a la conexión en la presente invención.
Un ejemplo de restricción orientada a la conexión sería cuando el usuario quiere conocer una película (un tipo de intención) basada en la especificación de dos o más actores de la película o una película sobre un actor y un premio que ganó la película. Otro ejemplo, en el contexto del correo electrónico, es si el usuario desea ver los correos electrónicos (tipo de intención) recibidos de ciertos remitentes de una empresa en particular en los últimos siete días. Del mismo modo, otro ejemplo es si el usuario desea reservar una habitación de hotel (tipo de intención) cercana a una estación de tren y también a un Starbucks. Otro ejemplo es si el usuario quiere encontrar un televisor (tipo de intención) fabricado por Samsung que también sea compatible con una NINTENDO WII. Todos estos son ejemplos de consultas de restricciones orientadas a la conexión.
En los anteriores ejemplos de restricciones orientadas a la conexión, el usuario describe o especifica explícitamente las otras entidades conectadas a las entidades de intención. A tales restricciones se las denomina generalmente en la presente invención restricciones explícitas orientadas a la conexión y a las entidades mencionadas en la presente invención se las denomina entidades explícitas.
Mientras tanto, otras consultas contienen restricciones orientadas a la conexión que incluyen entidades no especificadas o implícitas como parte de la especificación de la restricción. En tal situación, el usuario está intentando identificar una información, entidad, atributo, etc. que no se conoce a través de las relaciones entre el elemento desconocido y los elementos que el usuario sí conoce. A tales restricciones se las denomina generalmente en la presente invención restricciones implícitas orientadas a la conexión y a las entidades no especificadas se las denomina generalmente en la presente invención entidades implícitas de la restricción.
Por ejemplo, el usuario puede desear identificar una película que está buscando nombrando dos personajes de la misma. Sin embargo, el usuario no recuerda el nombre de uno de los personajes, pero sí recuerda que un actor en particular interpretó al personaje. Por lo tanto, en su consulta, hace referencia a un personaje por su nombre e identifica al personaje desconocido indicando que el personaje fue interpretado por el actor en particular.
Sin embargo, hay que tener en cuenta las siguientes restricciones de usuario para los objetivos específicos de recuperación de la información: El usuario quiere conocer el papel (intención) interpretado por una actriz específica (p. ej., “Michelle Pfeiffer”) en una película no especificada que trata sobre un papel en concreto (p. ej., el personaje “Tony Montana”). En este caso, la restricción del usuario incluye una entidad implícita o no especificada que corresponde a la película “Scarface”. Del mismo modo, supongamos que el usuario quiere conocer la película (intención) protagonizada por la actriz especificada “Scarlett Johannson” y el actor no especificado que interpretó el papel concreto de “Obe Wan Kanobi” en una película específica Star Wars. En este caso, la entidad implícita es el actor “Ewan McGregor” y la entidad intencional es la película La isla protagonizada por “Scarlett Johannson” e “Ewan McGregor”. En el contexto del repositorio de correo electrónico, un ejemplo sería un usuario que desea obtener el último correo electrónico (intención) de un hombre no especificado de una compañía concreta “Intel” a quien se le presentó por correo electrónico (un especificador de atributos) la semana pasada. En este caso, la entidad implícita es un contacto que se puede descubrir examinando los contactos de “Intel”, a través de una relación empleado/empresa, que fue la primera vez que intercambió un correo electrónico normal con el usuario la semana pasada.
Los tres ejemplos anteriores son restricciones orientadas a la conexión, pero incluyen entidades no especificadas o implícitas como parte de la especificación de la restricción. La presente invención se refiere a las restricciones aquí contenidas como restricciones implícitas orientadas a la conexión y se refiere a las entidades no especificadas aquí contenidas como entidades implícitas de la restricción.
En el contexto de las restricciones orientadas a la conexión, puede ser útil asignar entidades y relaciones de los repositorios de información a los nodos y bordes de una estructura de datos teóricos de gráficos. La motivación para emplear un modelo gráfico en lugar de un modelo de relaciones de entidades es observar que la relevancia, la proximidad y la relación de la conversación en lenguaje natural pueden modelarse simplemente con nociones como la distancia entre enlaces y, en algunos casos, los caminos más cortos y los árboles de menor peso. Durante la conversación, cuando el diálogo de usuario involucra a otras entidades relacionadas con las entidades realmente buscadas, una recuperación de información de direccionamiento de subrutina como un problema simple de búsqueda de gráficos ayuda de manera eficaz a reducir la dependencia de una comprensión profunda e inequívoca de la estructura de la oración, lo que puede ser una enorme ventaja de la implementación. Incluso si el cálculo de la intención del usuario es ambiguo o no concluyente, siempre y cuando se hayan reconocido las entidades en el enunciado del usuario, un tratamiento del problema basado en la interpretación del gráfico permite que nuestro sistema responda de una manera mucho más inteligible que cualquier otra.
Algunas realizaciones de la presente invención utilizan una firma de preferencias del usuario (que captura la actividad e intereses del usuario, tanto implícita como explícitamente determinados) de una manera dependiente del contexto y, si corresponde, aplica la personalización a la selección de una palabra precedida por una pausa o un palabra recortada en caso de recorte inicial y recorte final. La personalización también se puede aplicar a la selección de resultados para ofrecer la mejor respuesta que tenga una alta probabilidad de coincidir con la intención del usuario. Ciertas realizaciones de la presente invención utilizan la firma de las preferencias del usuario, si están disponibles, para resolver la ambigüedad de la entrada del usuario.
El sistema puede proporcionar una firma de preferencia del usuario que utiliza técnicas para descubrir y almacenar dicha información de preferencias del usuario. Por ejemplo, los procedimientos y sistemas establecidos en la patente de EE. UU. n.° 7.774.294 denominada Procedimientos y sistemas para seleccionar y presentar contenido basado en
la periodicidad aprendida de las selecciones de contenido del usuario, concedida el 10 de agosto de 2010, la patente de EE. UU. n.° 7.835.998 denominada Procedimientos y sistemas para seleccionar y presentar contenido en un primer sistema basado en las preferencias del usuario aprendidas en un segundo sistema, concedida el 16 de noviembre de 2010, la patente de EE. UU. n.° 7.461.061 denominada Procedimientos y sistemas de interfaz de usuario para seleccionar y presentar contenido basado en la navegación del usuario y las acciones de selección asociadas con el contenido, concedida el 2 de diciembre de 2008, y la patente de EE. UU. n.° 8.112.454 denominada Procedimientos y sistemas para ordenar elementos de contenido según las preferencias de usuario aprendidas, concedida el 7 de febrero de 2012, se pueden usar con las técnicas aquí descritas. Sin embargo, el uso de firmas y/o información de preferencias del usuario no se limita a las técnicas establecidas en las aplicaciones incorporadas.
En la descripción anterior, ciertos pasos o procesos se pueden realizar en servidores particulares o como parte de un motor particular. Estas descripciones son meramente ilustrativas, ya que los pasos específicos se pueden realizar en varios dispositivos de hardware, incluidos, entre otros, sistemas de servidor y/o dispositivos móviles. De manera similar, la división de dónde se realizan los pasos en particular puede variar, entendiéndose que dentro del alcance de la invención no se encuentra ninguna división o una división diferente. Además, el uso de “analizador”, “módulo”, “motor” y/u otros términos utilizados para describir el procesamiento del sistema informático está destinado a ser intercambiable y representar la lógica o los circuitos donde se puede ejecutar la funcionalidad.
Las técnicas y sistemas descritos en esta invención pueden implementarse como un programa informático para su uso con un sistema informático o dispositivo electrónico computarizado. Dichas implementaciones pueden incluir una serie de instrucciones computarizadas, o lógica, fijadas en un medio tangible, como un medio legible por ordenador (por ejemplo, un disquete, CD-ROM, ROM, memoria flash u otra memoria o disco duro) o transmitible a un sistema informático o un dispositivo, a través de un módem u otro dispositivo de interfaz, como un adaptador de comunicaciones conectado a una red a través de un medio.
El medio puede ser un medio tangible (p. ej., las líneas de comunicaciones ópticas o analógicas) o un medio implementado con técnicas inalámbricas (p. ej., Wi-Fi, tecnología móvil, de microondas, infrarrojos u otras técnicas de transmisión). La serie de instrucciones computarizadas incorpora al menos parte de la funcionalidad descrita en este documento con respecto al sistema. Los expertos en la materia deberían apreciar que tales instrucciones computarizadas se pueden escribir en varios lenguajes de programación para su uso con muchas arquitecturas informáticas o sistemas operativos.
Además, dichas instrucciones pueden almacenarse en cualquier dispositivo de memoria tangible, como dispositivos de memoria semiconductores, magnéticos, ópticos y otros, y pueden transmitirse utilizando cualquier tecnología de comunicaciones, como óptica, infrarroja, de microondas u otras tecnologías de transmisión.
Se espera que dicho programa informático se distribuya como un medio extraíble con la documentación impresa o electrónica adjunta (p. ej., software precintado), precargado en un sistema informático (p. ej., en la ROM del sistema o en el disco duro), o distribuido desde un servidor o boletín de anuncios electrónico a través de la red (p. ej., Internet o World Wide Web). Por supuesto, algunas realizaciones de la invención pueden implementarse como una combinación de software (p. ej., un programa informático) y hardware. Aun así, otras realizaciones de la invención se implementan completamente como hardware o completamente como software (p. ej., un programa informático).
Claims (11)
1. Un procedimiento implementado por ordenador para seleccionar y presentar elementos de contenido basado en las entradas de los usuarios que comprende:
proporcionar acceso a un conjunto de elementos de contenido, estando dichos elementos de contenido asociados a metadatos que describen uno de los elementos de contenido;
recibir una primera entrada (401) destinada por el usuario a identificar al menos un elemento de contenido deseado; determinar que al menos una parte de la primera entrada tiene un grado de importancia que excede un valor umbral; proporcionar retroalimentación al usuario (402) identificando parte de la primera entrada;
recibir una segunda entrada (403, 405) del usuario posterior a la primera entrada;
deducir si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada;
con la condición de la que se deduce que el usuario tenía la intención de modificar la primera entrada con la segunda entrada, determinar una consulta alternativa modificando la primera entrada basada en la segunda entrada (404); con la condición de la que se deduce que el usuario tenía la intención de complementar la primera entrada con la segunda entrada, determinar una consulta alternativa combinando la primera entrada basada en la segunda entrada (406);
seleccionar un subconjunto de elementos de contenido del conjunto de elementos de contenido basándose en la comparación de la consulta alternativa y los metadatos asociados con los elementos de contenido del subconjunto de elementos de contenido; y
presentar el subconjunto de elementos de contenido al usuario;
caracterizado porque
la deducción de si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada incluye:
determinar un grado de similitud entre la primera entrada y la segunda entrada;
con la condición de que el grado de similitud esté por encima de un umbral, deducir que el usuario tenía la intención de modificar la primera entrada; y
con la condición de que el grado de similitud esté por debajo de un umbral, deducir que el usuario tenía la intención de complementar la primera entrada.
2. El procedimiento según la reivindicación 1,
donde la determinación de que la parte de la primera entrada tiene el grado de importancia que excede el valor umbral incluye la identificación de uno o más límites de la frase en la entrada incremental, y
donde la identificación de uno o más límites de la frase se basa al menos en parte en al menos uno de los siguientes (a) una disfluencia identificada del usuario en la primera entrada, (b) reglas gramaticales aplicadas a la primera entrada, (c) el grado de importancia de la parte de la primera entrada, (d) al menos una interacción conversacional previa con el usuario, y (e) una firma de preferencia del usuario
la firma de preferencia del usuario describe las preferencias del usuario para al menos uno de (i) los elementos de contenido en particular y (ii) los metadatos en particular asociados con los elementos de contenido, donde la parte de la primera entrada se identifica en función de la firma de preferencia del usuario.
3. El procedimiento según la reivindicación 2, donde la disfluencia incluye al menos una pausa en la entrada de voz, un relleno de tiempo auditivo en la entrada de voz y una pausa en la entrada de escritura.
4. El procedimiento según la reivindicación 1, donde la selección del subconjunto de elementos de
contenido se basa además en una disfluencia identificada en la primera entrada, y también en interacciones conversacionales previas que se determina que están relacionadas con la primera entrada y la segunda entrada.
5. El procedimiento según la reivindicación 1, donde la retroalimentación proporcionada incluye al menos uno de los siguientes:
la solicitud de aclaración sobre la parte identificada de la primera entrada basada, al menos en parte, en una determinación de que se produce una primera disfluencia después de que el usuario haya proporcionado parte de la primera entrada,
la sugerencia de completar la primera entrada recibida basada, al menos en parte, en una determinación de que la segunda disfluencia ocurre antes de que se espere que el usuario proporcione la parte de la primera entrada, y la repetición de la parte de la primera entrada al usuario, para notificarle que la parte de la primera entrada puede haberse reconocido incorrectamente.
6. El procedimiento según la reivindicación 1, donde la retroalimentación proporcionada al usuario se elige sobre la base de al menos uno de los siguientes:
la duración de la disfluencia identificada en la primera entrada,
un grado de confianza en que el reconocimiento de voz a texto de la parte de la primera entrada es correcto, un recuento de las ambigüedades detectadas en la primera entrada,
un recuento de las correcciones de errores necesarias para identificar la parte de la primera entrada,
un recuento de nodos en una estructura de datos gráficos, donde la cantidad de nodos en la estructura de datos gráficos mide una ruta entre un primer nodo que representa un elemento de interés de una interacción conversacional previa y un segundo nodo que representa la parte de la primera entrada, y
un grado de relación entre la parte de la primera entrada y las interacciones conversacionales previas con el usuario.
7. Un sistema para seleccionar y presentar elementos de contenido basado en las entradas de los usuarios que comprende:
instrucciones legibles por ordenador codificadas en un medio legible por ordenador no transitorio, haciendo las instrucciones legibles por ordenador que el sistema informático esté configurado para:
proporcionar acceso a un conjunto de elementos de contenido, estando dichos elementos de contenido asociados a metadatos que describen uno de los elementos de contenido;
recibir una primera entrada (401) destinada por el usuario a identificar al menos un elemento de contenido deseado; determinar que al menos una parte de la primera entrada tiene un grado de importancia que excede un valor umbral; proporcionar retroalimentación al usuario (402) identificando parte de la primera entrada;
recibir una segunda entrada (403, 405) del usuario posterior a la primera entrada;
deducir si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada;
con la condición de la que se deduce que el usuario tenía la intención de modificar la primera entrada con la segunda entrada, determinar una consulta alternativa modificando la primera entrada basada en la segunda entrada (404); con la condición de la que se deduce que el usuario tenía la intención de complementar la primera entrada con la segunda entrada, determinar una consulta alternativa combinando la primera entrada basada en la segunda entrada (406);
seleccionar un subconjunto de elementos de contenido del conjunto de elementos de contenido basándose en la comparación de la consulta alternativa y los metadatos asociados con los elementos de contenido del subconjunto de
elementos de contenido; y
presentar el subconjunto de elementos de contenido al usuario;
caracterizado porque
las instrucciones legibles por computadora hacen que el sistema se configure de modo que la deducción de si el usuario tenía la intención de modificar la primera entrada con la segunda entrada o complementar la primera entrada con la segunda entrada comprende:
determinar un grado de similitud entre la primera entrada y la segunda entrada;
con la condición de que el grado de similitud esté por encima de un umbral, deducir que el usuario tenía la intención de modificar la primera entrada; y
con la condición de que el grado de similitud esté por debajo de un umbral, deducir que el usuario tenía la intención de complementar la primera entrada.
8. El sistema según la reivindicación 7,
donde la determinación de que la parte de la primera entrada tiene el grado de importancia que excede el valor umbral incluye las instrucciones legibles por ordenador que hacen que el sistema informático esté configurado para identificar uno o más límites de la frase en la entrada incremental, y
donde la identificación de uno o más límites de la frase se basa al menos en parte en al menos uno de los siguientes (a) una disfluencia identificada del usuario en la primera entrada, donde la disfluencia incluye al menos una pausa en la entrada de voz, un relleno de tiempo auditivo en la entrada de voz y una pausa en la entrada de escritura, (b) reglas gramaticales aplicadas a la primera entrada, (c) el grado de importancia de la parte de la primera entrada, (d) al menos una interacción conversacional previa con el usuario, y (e) una firma de preferencia del usuario, y
donde la firma de preferencia del usuario describe las preferencias del usuario para al menos uno de (i) los elementos de contenido en particular y (ii) los metadatos en particular asociados con los elementos de contenido, donde la parte de la primera entrada se identifica en función de la firma de preferencia del usuario.
9. El sistema según la reivindicación 7, donde la selección del subconjunto de elementos de contenido se basa además en una disfluencia identificada en la primera entrada, y también en interacciones conversacionales previas que se determina que están relacionadas con la primera entrada y la segunda entrada.
10. El sistema según la reivindicación 7, donde las instrucciones legibles por ordenador que hacen que el sistema esté configurado para proporcionar la retroalimentación incluye al menos uno de los siguientes:
las instrucciones legibles por ordenador que hacen que el sistema esté configurado para solicitar una aclaración sobre la parte identificada de la primera entrada basada, al menos en parte, en una determinación de que se produce una primera disfluencia después de que el usuario haya proporcionado parte de la primera entrada,
las instrucciones legibles por ordenador que hacen que el sistema esté configurado para sugerir que se complete la primera entrada recibida basada, al menos en parte, en una determinación de que la segunda disfluencia ocurre antes de que se espere que el usuario proporcione la parte de la primera entrada, y
las instrucciones legibles por ordenador que hacen que el sistema esté configurado para repetir la parte de la primera entrada al usuario, para notificarle que la parte de la primera entrada puede haberse reconocido incorrectamente.
11. El sistema según la reivindicación 7, donde la retroalimentación proporcionada al usuario se elige sobre la base de al menos uno de los siguientes:
la duración de la disfluencia identificada en la primera entrada,
un grado de confianza en que el reconocimiento de voz a texto de la parte de la primera entrada es correcto, un recuento de las ambigüedades detectadas en la primera entrada,
un recuento de las correcciones de errores necesarias para identificar la parte de la primera entrada,
un recuento de nodos en una estructura de datos gráficos, donde la cantidad de nodos en la estructura de datos gráficos mide una ruta entre un primer nodo que representa un elemento de interés de una interacción conversacional previa y un segundo nodo que representa la parte de la primera entrada, y
un grado de relación entre la parte de la primera entrada y las interacciones conversacionales previas con el usuario.
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361820267P | 2013-05-07 | 2013-05-07 | |
PCT/US2014/037080 WO2014182771A1 (en) | 2013-05-07 | 2014-05-07 | Incremental speech input interface with real time feedback |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2751484T3 true ES2751484T3 (es) | 2020-03-31 |
Family
ID=51865613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES14795114T Active ES2751484T3 (es) | 2013-05-07 | 2014-05-07 | Interfaz de entrada de voz incremental con retroalimentación en tiempo real |
Country Status (8)
Country | Link |
---|---|
US (4) | US10121493B2 (es) |
EP (2) | EP3640938B1 (es) |
DK (2) | DK2994908T3 (es) |
ES (1) | ES2751484T3 (es) |
FI (1) | FI3640938T3 (es) |
HK (1) | HK1222942A1 (es) |
PT (1) | PT2994908T (es) |
WO (1) | WO2014182771A1 (es) |
Families Citing this family (112)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US10706373B2 (en) | 2011-06-03 | 2020-07-07 | Apple Inc. | Performing actions associated with task items that represent tasks to perform |
US10276170B2 (en) | 2010-01-18 | 2019-04-30 | Apple Inc. | Intelligent automated assistant |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US9424233B2 (en) | 2012-07-20 | 2016-08-23 | Veveo, Inc. | Method of and system for inferring user intent in search input in a conversational interaction system |
US9465833B2 (en) | 2012-07-31 | 2016-10-11 | Veveo, Inc. | Disambiguating user intent in conversational interaction system for large corpus information retrieval |
US10424291B2 (en) * | 2012-12-28 | 2019-09-24 | Saturn Licensing Llc | Information processing device, information processing method, and program |
KR20240132105A (ko) | 2013-02-07 | 2024-09-02 | 애플 인크. | 디지털 어시스턴트를 위한 음성 트리거 |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
WO2014183035A1 (en) | 2013-05-10 | 2014-11-13 | Veveo, Inc. | Method and system for capturing and exploiting user intent in a conversational interaction based information retrieval system |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
KR101772152B1 (ko) | 2013-06-09 | 2017-08-28 | 애플 인크. | 디지털 어시스턴트의 둘 이상의 인스턴스들에 걸친 대화 지속성을 가능하게 하기 위한 디바이스, 방법 및 그래픽 사용자 인터페이스 |
DE112014003653B4 (de) | 2013-08-06 | 2024-04-18 | Apple Inc. | Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
CN110797019B (zh) | 2014-05-30 | 2023-08-29 | 苹果公司 | 多命令单一话语输入方法 |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9852136B2 (en) * | 2014-12-23 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for determining whether a negation statement applies to a current or past query |
US9854049B2 (en) | 2015-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for resolving ambiguous terms in social chatter based on a user profile |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
JP6669073B2 (ja) * | 2015-03-31 | 2020-03-18 | ソニー株式会社 | 情報処理装置、制御方法、およびプログラム |
US10460227B2 (en) | 2015-05-15 | 2019-10-29 | Apple Inc. | Virtual assistant in a communication session |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US11587559B2 (en) | 2015-09-30 | 2023-02-21 | Apple Inc. | Intelligent device identification |
US10269341B2 (en) | 2015-10-19 | 2019-04-23 | Google Llc | Speech endpointing |
KR101942521B1 (ko) | 2015-10-19 | 2019-01-28 | 구글 엘엘씨 | 음성 엔드포인팅 |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10079021B1 (en) * | 2015-12-18 | 2018-09-18 | Amazon Technologies, Inc. | Low latency audio interface |
US10311862B2 (en) * | 2015-12-23 | 2019-06-04 | Rovi Guides, Inc. | Systems and methods for conversations with devices about media using interruptions and changes of subjects |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
CN106933561A (zh) * | 2015-12-31 | 2017-07-07 | 北京搜狗科技发展有限公司 | 语音输入方法和终端设备 |
US9922647B2 (en) * | 2016-01-29 | 2018-03-20 | International Business Machines Corporation | Approach to reducing the response time of a speech interface |
US10055403B2 (en) * | 2016-02-05 | 2018-08-21 | Adobe Systems Incorporated | Rule-based dialog state tracking |
US10270839B2 (en) | 2016-03-29 | 2019-04-23 | Snap Inc. | Content collection navigation and autoforwarding |
US10831763B2 (en) * | 2016-06-10 | 2020-11-10 | Apple Inc. | System and method of generating a key list from multiple search domains |
US10769182B2 (en) | 2016-06-10 | 2020-09-08 | Apple Inc. | System and method of highlighting terms |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
AU2017100670C4 (en) | 2016-06-12 | 2019-11-21 | Apple Inc. | User interfaces for retrieving contextually relevant media content |
US9875740B1 (en) * | 2016-06-20 | 2018-01-23 | A9.Com, Inc. | Using voice information to influence importance of search result categories |
US11507977B2 (en) * | 2016-06-28 | 2022-11-22 | Snap Inc. | Methods and systems for presentation of media collections with automated advertising |
KR102691889B1 (ko) * | 2016-07-27 | 2024-08-06 | 삼성전자주식회사 | 전자 장치 및 그의 음성 인식 방법 |
JP6461058B2 (ja) * | 2016-09-06 | 2019-01-30 | 国立大学法人京都大学 | 音声対話装置および音声対話装置を用いた自動対話方法 |
KR20180043627A (ko) * | 2016-10-20 | 2018-04-30 | 삼성전자주식회사 | 디스플레이 장치 및 디스플레이 장치를 제어하는 방법 |
PT3533022T (pt) | 2016-10-31 | 2024-05-10 | Rovi Guides Inc | Sistemas e métodos para a utilização flexível de temas em tendência como parâmetros para recomendar recursos multimédia que estão relacionados com o recurso multimédia visualizado |
WO2018147687A1 (en) * | 2017-02-10 | 2018-08-16 | Samsung Electronics Co., Ltd. | Method and apparatus for managing voice-based interaction in internet of things network system |
WO2018174884A1 (en) | 2017-03-23 | 2018-09-27 | Rovi Guides, Inc. | Systems and methods for calculating a predicted time when a user will be exposed to a spoiler of a media asset |
KR102363794B1 (ko) * | 2017-03-31 | 2022-02-16 | 삼성전자주식회사 | 정보 제공 방법 및 이를 지원하는 전자 장치 |
US10943255B1 (en) | 2017-04-28 | 2021-03-09 | Snap Inc. | Methods and systems for interactive advertising with media collections |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK201770428A1 (en) | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
DK201770411A1 (en) * | 2017-05-15 | 2018-12-20 | Apple Inc. | MULTI-MODAL INTERFACES |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
CN110663079A (zh) * | 2017-05-24 | 2020-01-07 | 乐威指南公司 | 基于语音纠正使用自动语音识别生成的输入的方法和系统 |
WO2018226779A1 (en) | 2017-06-06 | 2018-12-13 | Google Llc | End of query detection |
US10929754B2 (en) | 2017-06-06 | 2021-02-23 | Google Llc | Unified endpointer using multitask and multidomain learning |
US11699039B2 (en) | 2017-06-28 | 2023-07-11 | Microsoft Technology Licensing, Llc | Virtual assistant providing enhanced communication session services |
US10585991B2 (en) * | 2017-06-29 | 2020-03-10 | Microsoft Technology Licensing, Llc | Virtual assistant for generating personalized responses within a communication session |
US10540521B2 (en) * | 2017-08-24 | 2020-01-21 | International Business Machines Corporation | Selective enforcement of privacy and confidentiality for optimization of voice applications |
WO2019087811A1 (ja) * | 2017-11-02 | 2019-05-09 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
KR101891489B1 (ko) * | 2017-11-03 | 2018-08-24 | 주식회사 머니브레인 | 적시에 간투사 답변을 제공함으로써 자연어 대화를 제공하는 방법, 컴퓨터 장치 및 컴퓨터 판독가능 기록 매체 |
US10515640B2 (en) * | 2017-11-08 | 2019-12-24 | Intel Corporation | Generating dialogue based on verification scores |
US10558689B2 (en) * | 2017-11-15 | 2020-02-11 | International Business Machines Corporation | Leveraging contextual information in topic coherent question sequences |
US20190179416A1 (en) * | 2017-12-12 | 2019-06-13 | Ford Global Technologies, Llc | Interactive vehicle speech recognition and correction system |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK201870355A1 (en) | 2018-06-01 | 2019-12-16 | Apple Inc. | VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
US10832675B2 (en) * | 2018-08-24 | 2020-11-10 | Denso International America, Inc. | Speech recognition system with interactive spelling function |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
DK201970511A1 (en) | 2019-05-31 | 2021-02-15 | Apple Inc | Voice identification in digital assistant systems |
US11227599B2 (en) | 2019-06-01 | 2022-01-18 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
JP7326931B2 (ja) * | 2019-07-02 | 2023-08-16 | 富士通株式会社 | プログラム、情報処理装置、及び情報処理方法 |
US11455983B2 (en) * | 2019-11-18 | 2022-09-27 | Lenovo (Singapore) Pte. Ltd. | Output provision using query syntax |
US11302300B2 (en) * | 2019-11-19 | 2022-04-12 | Applications Technology (Apptek), Llc | Method and apparatus for forced duration in neural speech synthesis |
CN111583907B (zh) * | 2020-04-15 | 2023-08-15 | 北京小米松果电子有限公司 | 信息处理方法、装置及存储介质 |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11038934B1 (en) | 2020-05-11 | 2021-06-15 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
CN112099720A (zh) * | 2020-05-22 | 2020-12-18 | 苹果公司 | 数字助理用户界面和响应模式 |
US12045437B2 (en) * | 2020-05-22 | 2024-07-23 | Apple Inc. | Digital assistant user interfaces and response modes |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
US11657814B2 (en) * | 2020-10-08 | 2023-05-23 | Harman International Industries, Incorporated | Techniques for dynamic auditory phrase completion |
US11830489B2 (en) * | 2021-06-30 | 2023-11-28 | Bank Of America Corporation | System and method for speech processing based on response content |
LT6914B (lt) * | 2021-07-14 | 2022-05-25 | Gasefis, UAB | Vizualinės paieškos būdas su grįžtamojo ryšio ciklu, paremtu interaktyviuoju eskizu |
US20230064049A1 (en) * | 2021-08-31 | 2023-03-02 | Nvidia Corporation | Multi-modal sensor fusion for content identification in applications of human-machine interfaces |
US12093462B2 (en) | 2022-04-11 | 2024-09-17 | Meta Platforms Technologies, Llc | Virtual keyboard selections using multiple input modalities |
US11556722B1 (en) * | 2022-08-28 | 2023-01-17 | One AI, Inc. | System and method for editing transcriptions with improved readability and correctness |
WO2024097684A1 (en) * | 2022-10-31 | 2024-05-10 | CDC Phone App IP 2023 LLC | Systems for providing real-time feedback to reduce undesired speaking patterns, and methods of using the same |
Family Cites Families (265)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CH644246B (fr) * | 1981-05-15 | 1900-01-01 | Asulab Sa | Dispositif d'introduction de mots a commande par la parole. |
US5255386A (en) | 1990-02-08 | 1993-10-19 | International Business Machines Corporation | Method and apparatus for intelligent help that matches the semantic similarity of the inferred intent of query or command to a best-fit predefined command intent |
US6092043A (en) * | 1992-11-13 | 2000-07-18 | Dragon Systems, Inc. | Apparatuses and method for training and operating speech recognition systems |
US5909666A (en) * | 1992-11-13 | 1999-06-01 | Dragon Systems, Inc. | Speech recognition system which creates acoustic models by concatenating acoustic models of individual words |
JPH06266779A (ja) | 1993-03-15 | 1994-09-22 | Hitachi Ltd | 制御装置 |
US5715468A (en) | 1994-09-30 | 1998-02-03 | Budzinski; Robert Lucius | Memory system for storing and retrieving experience and knowledge with natural language |
US5887120A (en) | 1995-05-31 | 1999-03-23 | Oracle Corporation | Method and apparatus for determining theme for discourse |
US6006221A (en) | 1995-08-16 | 1999-12-21 | Syracuse University | Multilingual document retrieval system and method using semantic vector matching |
JPH09146972A (ja) | 1995-11-24 | 1997-06-06 | Oki Electric Ind Co Ltd | 自然言語対話型情報処理装置 |
US6021403A (en) * | 1996-07-19 | 2000-02-01 | Microsoft Corporation | Intelligent user assistance facility |
EP0863466A4 (en) | 1996-09-26 | 2005-07-20 | Mitsubishi Electric Corp | INTERACTIVE PROCESSOR |
US6014665A (en) * | 1997-08-01 | 2000-01-11 | Culliss; Gary | Method for organizing information |
US6044347A (en) * | 1997-08-05 | 2000-03-28 | Lucent Technologies Inc. | Methods and apparatus object-oriented rule-based dialogue management |
US6125345A (en) | 1997-09-19 | 2000-09-26 | At&T Corporation | Method and apparatus for discriminative utterance verification using multiple confidence measures |
US6064960A (en) * | 1997-12-18 | 2000-05-16 | Apple Computer, Inc. | Method and apparatus for improved duration modeling of phonemes |
US6236968B1 (en) | 1998-05-14 | 2001-05-22 | International Business Machines Corporation | Sleep prevention dialog based car system |
US7711672B2 (en) | 1998-05-28 | 2010-05-04 | Lawrence Au | Semantic network methods to disambiguate natural language meaning |
US6006225A (en) * | 1998-06-15 | 1999-12-21 | Amazon.Com | Refining search queries by the suggestion of correlated terms from prior searches |
US6144958A (en) * | 1998-07-15 | 2000-11-07 | Amazon.Com, Inc. | System and method for correcting spelling errors in search queries |
US6195635B1 (en) * | 1998-08-13 | 2001-02-27 | Dragon Systems, Inc. | User-cued speech recognition |
US7197534B2 (en) | 1998-09-01 | 2007-03-27 | Big Fix, Inc. | Method and apparatus for inspecting the properties of a computer |
US8914507B2 (en) | 1998-09-01 | 2014-12-16 | International Business Machines Corporation | Advice provided for offering highly targeted advice without compromising individual privacy |
US6256664B1 (en) | 1998-09-01 | 2001-07-03 | Bigfix, Inc. | Method and apparatus for computed relevance messaging |
US6601059B1 (en) | 1998-12-23 | 2003-07-29 | Microsoft Corporation | Computerized searching tool with spell checking |
US6523061B1 (en) | 1999-01-05 | 2003-02-18 | Sri International, Inc. | System, method, and article of manufacture for agent-based navigation in a speech-based data navigation system |
JP2001034292A (ja) | 1999-07-26 | 2001-02-09 | Denso Corp | 単語列認識装置 |
US6317718B1 (en) | 1999-02-26 | 2001-11-13 | Accenture Properties (2) B.V. | System, method and article of manufacture for location-based filtering for shopping agent in the physical world |
US6885990B1 (en) | 1999-05-31 | 2005-04-26 | Nippon Telegraph And Telephone Company | Speech recognition based on interactive information retrieval scheme using dialogue control to reduce user stress |
US6408293B1 (en) | 1999-06-09 | 2002-06-18 | International Business Machines Corporation | Interactive framework for understanding user's perception of multimedia data |
JP2001100787A (ja) | 1999-09-29 | 2001-04-13 | Mitsubishi Electric Corp | 音声対話システム |
US20030191625A1 (en) | 1999-11-05 | 2003-10-09 | Gorin Allen Louis | Method and system for creating a named entity language model |
US7725307B2 (en) * | 1999-11-12 | 2010-05-25 | Phoenix Solutions, Inc. | Query engine for processing voice based queries including semantic decoding |
US7392185B2 (en) * | 1999-11-12 | 2008-06-24 | Phoenix Solutions, Inc. | Speech based learning/training system using semantic decoding |
JP3446886B2 (ja) | 1999-12-21 | 2003-09-16 | 日本電気株式会社 | 人脈データ管理システムと人脈探索方法 |
JP2001188784A (ja) | 1999-12-28 | 2001-07-10 | Sony Corp | 会話処理装置および方法、並びに記録媒体 |
US6546388B1 (en) * | 2000-01-14 | 2003-04-08 | International Business Machines Corporation | Metadata search results ranking system |
US7043439B2 (en) * | 2000-03-29 | 2006-05-09 | Canon Kabushiki Kaisha | Machine interface |
US6999963B1 (en) | 2000-05-03 | 2006-02-14 | Microsoft Corporation | Methods, apparatus, and data structures for annotating a database design schema and/or indexing annotations |
US6671681B1 (en) * | 2000-05-31 | 2003-12-30 | International Business Machines Corporation | System and technique for suggesting alternate query expressions based on prior user selections and their query strings |
US6766320B1 (en) | 2000-08-24 | 2004-07-20 | Microsoft Corporation | Search engine with natural language-based robust parsing for user query and relevance feedback learning |
JP2002108915A (ja) | 2000-09-28 | 2002-04-12 | Toshiba Corp | 自然言語対話システム及び自然言語処理方法 |
US6731307B1 (en) | 2000-10-30 | 2004-05-04 | Koninklije Philips Electronics N.V. | User interface/entertainment device that simulates personal interaction and responds to user's mental state and/or personality |
US6937983B2 (en) | 2000-12-20 | 2005-08-30 | International Business Machines Corporation | Method and system for semantic speech recognition |
WO2002073331A2 (en) | 2001-02-20 | 2002-09-19 | Semantic Edge Gmbh | Natural language context-sensitive and knowledge-based interaction environment for dynamic and flexible product, service and information search and presentation applications |
US6910012B2 (en) * | 2001-05-16 | 2005-06-21 | International Business Machines Corporation | Method and system for speech recognition using phonetically similar word alternatives |
GB2377046A (en) | 2001-06-29 | 2002-12-31 | Ibm | Metadata generation |
US20040215443A1 (en) | 2001-07-27 | 2004-10-28 | Hatton Charles Malcolm | Computers that communicate in the english language and complete work assignments by reading english language sentences |
JP3691773B2 (ja) | 2001-08-20 | 2005-09-07 | 株式会社ジャストシステム | 文章解析方法とその方法を利用可能な文章解析装置 |
US7308404B2 (en) * | 2001-09-28 | 2007-12-11 | Sri International | Method and apparatus for speech recognition using a dynamic vocabulary |
US7324947B2 (en) * | 2001-10-03 | 2008-01-29 | Promptu Systems Corporation | Global speech user interface |
US7711570B2 (en) | 2001-10-21 | 2010-05-04 | Microsoft Corporation | Application abstraction with dialog purpose |
US8229753B2 (en) | 2001-10-21 | 2012-07-24 | Microsoft Corporation | Web server controls for web enabled recognition and/or audible prompting |
US7085709B2 (en) | 2001-10-30 | 2006-08-01 | Comverse, Inc. | Method and system for pronoun disambiguation |
US7209876B2 (en) | 2001-11-13 | 2007-04-24 | Groove Unlimited, Llc | System and method for automated answering of natural language questions and queries |
US7231343B1 (en) | 2001-12-20 | 2007-06-12 | Ianywhere Solutions, Inc. | Synonyms mechanism for natural language systems |
US7016849B2 (en) * | 2002-03-25 | 2006-03-21 | Sri International | Method and apparatus for providing speech-driven routing between spoken language applications |
JP3762327B2 (ja) * | 2002-04-24 | 2006-04-05 | 株式会社東芝 | 音声認識方法および音声認識装置および音声認識プログラム |
US7403890B2 (en) | 2002-05-13 | 2008-07-22 | Roushar Joseph C | Multi-dimensional method and apparatus for automated language interpretation |
US7398209B2 (en) | 2002-06-03 | 2008-07-08 | Voicebox Technologies, Inc. | Systems and methods for responding to natural language speech utterance |
US7130923B2 (en) * | 2002-07-01 | 2006-10-31 | Avaya Technology Corp. | Method and apparatus for guessing correct URLs using tree matching |
US7676452B2 (en) * | 2002-07-23 | 2010-03-09 | International Business Machines Corporation | Method and apparatus for search optimization based on generation of context focused queries |
US20040148170A1 (en) | 2003-01-23 | 2004-07-29 | Alejandro Acero | Statistical classifiers for spoken language understanding and command/control scenarios |
US7146361B2 (en) * | 2003-05-30 | 2006-12-05 | International Business Machines Corporation | System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND) |
US7143078B2 (en) | 2003-06-27 | 2006-11-28 | Microsoft Corporation | System and method for managed database query pre-optimization |
US8140980B2 (en) | 2003-08-05 | 2012-03-20 | Verizon Business Global Llc | Method and system for providing conferencing services |
WO2005020094A1 (en) | 2003-08-21 | 2005-03-03 | Idilia Inc. | System and method for associating documents with contextual advertisements |
EP1665092A4 (en) * | 2003-08-21 | 2006-11-22 | Idilia Inc | INTERNET SEARCH USING SEMANTIC DISAMBIGUING AND EXPANSION |
US20050060140A1 (en) | 2003-09-15 | 2005-03-17 | Maddox Paul Christopher | Using semantic feature structures for document comparisons |
GB0321916D0 (en) | 2003-09-19 | 2003-10-22 | Heatsafe Cable Systems Ltd | Self-regulating electrical heating cable |
US7593687B2 (en) | 2003-10-07 | 2009-09-22 | Immersion Entertainment, Llc | System and method for providing event spectators with audio/video signals pertaining to remote events |
US7739102B2 (en) | 2003-10-08 | 2010-06-15 | Bender Howard J | Relationship analysis system and method for semantic disambiguation of natural language |
US7240049B2 (en) | 2003-11-12 | 2007-07-03 | Yahoo! Inc. | Systems and methods for search query processing using trend analysis |
US7356772B2 (en) | 2003-11-25 | 2008-04-08 | International Business Machines Corporation | Multi-column user interface for managing on-line threaded conversations |
US8160883B2 (en) | 2004-01-10 | 2012-04-17 | Microsoft Corporation | Focus tracking in dialogs |
US7542903B2 (en) | 2004-02-18 | 2009-06-02 | Fuji Xerox Co., Ltd. | Systems and methods for determining predictive models of discourse functions |
US20070018953A1 (en) | 2004-03-03 | 2007-01-25 | The Boeing Company | System, method, and computer program product for anticipatory hypothesis-driven text retrieval and argumentation tools for strategic decision support |
US7836044B2 (en) * | 2004-06-22 | 2010-11-16 | Google Inc. | Anticipated query generation and processing in a search engine |
US7720674B2 (en) | 2004-06-29 | 2010-05-18 | Sap Ag | Systems and methods for processing natural language queries |
US7856441B1 (en) | 2005-01-10 | 2010-12-21 | Yahoo! Inc. | Search systems and methods using enhanced contextual queries |
WO2006011819A1 (en) | 2004-07-30 | 2006-02-02 | Eurekster, Inc. | Adaptive search engine |
US7610199B2 (en) * | 2004-09-01 | 2009-10-27 | Sri International | Method and apparatus for obtaining complete speech signals for speech recognition applications |
US7310602B2 (en) * | 2004-09-27 | 2007-12-18 | Kabushiki Kaisha Equos Research | Navigation apparatus |
US20060074980A1 (en) | 2004-09-29 | 2006-04-06 | Sarkar Pte. Ltd. | System for semantically disambiguating text information |
US7565627B2 (en) | 2004-09-30 | 2009-07-21 | Microsoft Corporation | Query graphs indicating related queries |
US7895218B2 (en) | 2004-11-09 | 2011-02-22 | Veveo, Inc. | Method and system for performing searches for television content using reduced text input |
US8135576B2 (en) | 2004-11-12 | 2012-03-13 | Oracle International Corporation | System for enterprise knowledge management and automation |
US8221126B2 (en) * | 2004-11-22 | 2012-07-17 | Bravobrava L.L.C. | System and method for performing programmatic language learning tests and evaluations |
US20060112091A1 (en) * | 2004-11-24 | 2006-05-25 | Harbinger Associates, Llc | Method and system for obtaining collection of variants of search query subjects |
US8185399B2 (en) | 2005-01-05 | 2012-05-22 | At&T Intellectual Property Ii, L.P. | System and method of providing an automated data-collection in spoken dialog systems |
US7895039B2 (en) * | 2005-02-04 | 2011-02-22 | Vocollect, Inc. | Methods and systems for optimizing model adaptation for a speech recognition system |
US7788248B2 (en) * | 2005-03-08 | 2010-08-31 | Apple Inc. | Immediate search feedback |
JP4667082B2 (ja) * | 2005-03-09 | 2011-04-06 | キヤノン株式会社 | 音声認識方法 |
EP1861820A4 (en) | 2005-03-10 | 2010-04-21 | Efficient Frontier | METHOD AND APPARATUS FOR GENERATING AND / OR PREDICTING EFFECTIVENESS OF FEATURED WORDS |
US7526476B2 (en) | 2005-03-14 | 2009-04-28 | Microsoft Corporation | System and method for generating attribute-based selectable search extension |
US7386545B2 (en) | 2005-03-31 | 2008-06-10 | International Business Machines Corporation | System and method for disambiguating entities in a web page search |
JP2008537225A (ja) | 2005-04-11 | 2008-09-11 | テキストディガー,インコーポレイテッド | クエリについての検索システムおよび方法 |
US7653627B2 (en) | 2005-05-13 | 2010-01-26 | Microsoft Corporation | System and method for utilizing the content of an online conversation to select advertising content and/or other relevant information for display |
US8046348B1 (en) * | 2005-06-10 | 2011-10-25 | NetBase Solutions, Inc. | Method and apparatus for concept-based searching of natural language discourse |
US7672931B2 (en) * | 2005-06-30 | 2010-03-02 | Microsoft Corporation | Searching for content using voice search queries |
US20070043736A1 (en) | 2005-08-22 | 2007-02-22 | Microsoft Corporation | Smart find |
US7844599B2 (en) * | 2005-08-24 | 2010-11-30 | Yahoo! Inc. | Biasing queries to determine suggested queries |
US7747639B2 (en) | 2005-08-24 | 2010-06-29 | Yahoo! Inc. | Alternative search query prediction |
US7912458B2 (en) | 2005-09-14 | 2011-03-22 | Jumptap, Inc. | Interaction analysis and prioritization of mobile content |
US20070061334A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Search query address redirection on a mobile communication facility |
US20070061245A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Location based presentation of mobile content |
US7660581B2 (en) * | 2005-09-14 | 2010-02-09 | Jumptap, Inc. | Managing sponsored content based on usage history |
US9009046B1 (en) | 2005-09-27 | 2015-04-14 | At&T Intellectual Property Ii, L.P. | System and method for disambiguating multiple intents in a natural language dialog system |
JP4542974B2 (ja) * | 2005-09-27 | 2010-09-15 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US7590541B2 (en) | 2005-09-30 | 2009-09-15 | Rockwell Automation Technologies, Inc. | HMI presentation layer configuration system |
US7930168B2 (en) | 2005-10-04 | 2011-04-19 | Robert Bosch Gmbh | Natural language processing of disfluent sentences |
US9201923B2 (en) * | 2005-10-04 | 2015-12-01 | Robert Bosch Corporation | Method and apparatus for organizing and optimizing content in dialog systems |
KR100755677B1 (ko) | 2005-11-02 | 2007-09-05 | 삼성전자주식회사 | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 |
US20100153885A1 (en) | 2005-12-29 | 2010-06-17 | Rovi Technologies Corporation | Systems and methods for interacting with advanced displays provided by an interactive media guidance application |
US8832569B2 (en) | 2006-01-25 | 2014-09-09 | International Business Machines Corporation | Scrolling chat for participation in multiple instant messaging conversations |
JP2007219190A (ja) | 2006-02-17 | 2007-08-30 | Murata Mach Ltd | 音声認識装置と認識方法及びそのプログラム |
US8204751B1 (en) | 2006-03-03 | 2012-06-19 | At&T Intellectual Property Ii, L.P. | Relevance recognition for a human machine dialog system contextual question answering based on a normalization of the length of the user input |
US7739280B2 (en) | 2006-03-06 | 2010-06-15 | Veveo, Inc. | Methods and systems for selecting and presenting content based on user preference information extracted from an aggregate preference signature |
US20070226295A1 (en) | 2006-03-23 | 2007-09-27 | Nokia Corporation | Method and apparatuses for retrieving messages |
JP4734155B2 (ja) * | 2006-03-24 | 2011-07-27 | 株式会社東芝 | 音声認識装置、音声認識方法および音声認識プログラム |
US7716229B1 (en) * | 2006-03-31 | 2010-05-11 | Microsoft Corporation | Generating misspells from query log context usage |
US20070231781A1 (en) | 2006-03-31 | 2007-10-04 | Birgit Zimmermann | Estimation of adaptation effort based on metadata similarity |
EP4209927A1 (en) | 2006-04-20 | 2023-07-12 | Veveo, Inc. | User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content |
US8069182B2 (en) | 2006-04-24 | 2011-11-29 | Working Research, Inc. | Relevancy-based domain classification |
US7483894B2 (en) | 2006-06-07 | 2009-01-27 | Platformation Technologies, Inc | Methods and apparatus for entity search |
US20080240379A1 (en) | 2006-08-03 | 2008-10-02 | Pudding Ltd. | Automatic retrieval and presentation of information relevant to the context of a user's conversation |
US7860719B2 (en) | 2006-08-19 | 2010-12-28 | International Business Machines Corporation | Disfluency detection for a speech-to-speech translation system using phrase-level machine translation with weighted finite state transducers |
US7844976B2 (en) * | 2006-09-08 | 2010-11-30 | Microsoft Corporation | Processing data across a distributed network |
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
JP4393494B2 (ja) * | 2006-09-22 | 2010-01-06 | 株式会社東芝 | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
US20080091634A1 (en) | 2006-10-15 | 2008-04-17 | Lisa Seeman | Content enhancement system and method and applications thereof |
US8073681B2 (en) | 2006-10-16 | 2011-12-06 | Voicebox Technologies, Inc. | System and method for a cooperative conversational voice user interface |
WO2008058022A2 (en) | 2006-11-02 | 2008-05-15 | Ripl Corp. | User-generated content with instant-messaging functionality |
US20080120093A1 (en) * | 2006-11-16 | 2008-05-22 | Seiko Epson Corporation | System for creating dictionary for speech synthesis, semiconductor integrated circuit device, and method for manufacturing semiconductor integrated circuit device |
US7814086B2 (en) * | 2006-11-16 | 2010-10-12 | Yahoo! Inc. | System and method for determining semantically related terms based on sequences of search queries |
CN100449547C (zh) | 2006-12-06 | 2009-01-07 | 华为技术有限公司 | 一种媒体内容管理系统及方法 |
US20090234814A1 (en) | 2006-12-12 | 2009-09-17 | Marco Boerries | Configuring a search engine results page with environment-specific information |
US8024280B2 (en) | 2006-12-21 | 2011-09-20 | Yahoo! Inc. | Academic filter |
US20080155701A1 (en) | 2006-12-22 | 2008-06-26 | Yahoo! Inc. | Method and system for unauthorized content detection and reporting |
US8156135B2 (en) | 2006-12-22 | 2012-04-10 | Yahoo! Inc. | Method and system for progressive disclosure of search results |
US20080153465A1 (en) * | 2006-12-26 | 2008-06-26 | Voice Signal Technologies, Inc. | Voice search-enabled mobile device |
US8171087B2 (en) | 2007-01-16 | 2012-05-01 | Oracle International Corporation | Thread-based conversation management |
US20080221866A1 (en) | 2007-03-06 | 2008-09-11 | Lalitesh Katragadda | Machine Learning For Transliteration |
US8219406B2 (en) | 2007-03-15 | 2012-07-10 | Microsoft Corporation | Speech-centric multimodal user interface design in mobile technology |
JP4247284B2 (ja) | 2007-03-28 | 2009-04-02 | 株式会社東芝 | 情報検索装置、情報検索方法及び情報検索プログラム |
US20080270110A1 (en) * | 2007-04-30 | 2008-10-30 | Yurick Steven J | Automatic speech recognition with textual content input |
US7983915B2 (en) * | 2007-04-30 | 2011-07-19 | Sonic Foundry, Inc. | Audio content search engine |
US20080270344A1 (en) * | 2007-04-30 | 2008-10-30 | Yurick Steven J | Rich media content search engine |
US8285539B2 (en) | 2007-06-18 | 2012-10-09 | International Business Machines Corporation | Extracting tokens in a natural language understanding application |
US20080319733A1 (en) | 2007-06-20 | 2008-12-25 | At&T Corp. | System and method to dynamically manipulate and disambiguate confusable speech input using a table |
US8260809B2 (en) | 2007-06-28 | 2012-09-04 | Microsoft Corporation | Voice-based search processing |
US8190627B2 (en) * | 2007-06-28 | 2012-05-29 | Microsoft Corporation | Machine assisted query formulation |
CN101339551B (zh) | 2007-07-05 | 2013-01-30 | 日电(中国)有限公司 | 自然语言查询需求扩展设备及其方法 |
US8645390B1 (en) | 2007-08-31 | 2014-02-04 | Google Inc. | Reordering search query results in accordance with search context specific predicted performance functions |
US8583670B2 (en) * | 2007-10-04 | 2013-11-12 | Microsoft Corporation | Query suggestions for no result web searches |
US8594996B2 (en) | 2007-10-17 | 2013-11-26 | Evri Inc. | NLP-based entity recognition and disambiguation |
US8694483B2 (en) * | 2007-10-19 | 2014-04-08 | Xerox Corporation | Real-time query suggestion in a troubleshooting context |
US7693940B2 (en) | 2007-10-23 | 2010-04-06 | International Business Machines Corporation | Method and system for conversation detection in email systems |
US8972434B2 (en) * | 2007-12-05 | 2015-03-03 | Kayak Software Corporation | Multi-phase search and presentation for vertical search websites |
US8639507B2 (en) * | 2007-12-25 | 2014-01-28 | Nec Corporation | Voice recognition system, voice recognition method, and program for voice recognition |
US7925708B2 (en) | 2008-01-04 | 2011-04-12 | Yahoo! Inc. | System and method for delivery of augmented messages |
US8165884B2 (en) * | 2008-02-15 | 2012-04-24 | Microsoft Corporation | Layered prompting: self-calibrating instructional prompting for verbal interfaces |
US8172637B2 (en) | 2008-03-12 | 2012-05-08 | Health Hero Network, Inc. | Programmable interactive talking device |
US8521512B2 (en) | 2008-04-30 | 2013-08-27 | Deep Sky Concepts, Inc | Systems and methods for natural language communication with a computer |
US8364528B2 (en) | 2008-05-06 | 2013-01-29 | Richrelevance, Inc. | System and process for improving product recommendations for use in providing personalized advertisements to retail customers |
US10496753B2 (en) | 2010-01-18 | 2019-12-03 | Apple Inc. | Automatically adapting user interfaces for hands-free interaction |
US8219397B2 (en) | 2008-06-10 | 2012-07-10 | Nuance Communications, Inc. | Data processing system for autonomously building speech identification and tagging data |
US8375308B2 (en) | 2008-06-24 | 2013-02-12 | International Business Machines Corporation | Multi-user conversation topic change |
US20100002685A1 (en) | 2008-06-30 | 2010-01-07 | Shaham Eliezer | Method and system for providing communication |
US8073869B2 (en) * | 2008-07-03 | 2011-12-06 | The Regents Of The University Of California | Method for efficiently supporting interactive, fuzzy search on structured data |
US9305060B2 (en) | 2008-07-18 | 2016-04-05 | Steven L. Robertson | System and method for performing contextual searches across content sources |
US8990106B2 (en) * | 2008-08-22 | 2015-03-24 | Realwire Limited | Information categorisation systems, modules, and methods |
US8041733B2 (en) * | 2008-10-14 | 2011-10-18 | Yahoo! Inc. | System for automatically categorizing queries |
WO2010067142A1 (en) | 2008-12-08 | 2010-06-17 | Pantanelli Georges P | A method using contextual analysis, semantic analysis and artificial intelligence in text search engines |
KR101042515B1 (ko) | 2008-12-11 | 2011-06-17 | 주식회사 네오패드 | 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법 |
KR101173556B1 (ko) | 2008-12-11 | 2012-08-13 | 한국전자통신연구원 | 토픽맵 기반 색인 장치, 토픽맵 기반 검색 장치, 토픽맵 기반 검색 시스템 및 그 방법 |
US20100153112A1 (en) * | 2008-12-16 | 2010-06-17 | Motorola, Inc. | Progressively refining a speech-based search |
US8156129B2 (en) * | 2009-01-15 | 2012-04-10 | Microsoft Corporation | Substantially similar queries |
US20110093500A1 (en) | 2009-01-21 | 2011-04-21 | Google Inc. | Query Optimization |
US9805089B2 (en) | 2009-02-10 | 2017-10-31 | Amazon Technologies, Inc. | Local business and product search system and method |
KR101048546B1 (ko) | 2009-03-05 | 2011-07-11 | 엔에이치엔(주) | 온톨로지를 이용한 컨텐츠 검색 시스템 및 방법 |
US9031216B1 (en) * | 2009-03-05 | 2015-05-12 | Google Inc. | In-conversation search |
US8335754B2 (en) | 2009-03-06 | 2012-12-18 | Tagged, Inc. | Representing a document using a semantic structure |
US8145636B1 (en) | 2009-03-13 | 2012-03-27 | Google Inc. | Classifying text into hierarchical categories |
US8515754B2 (en) | 2009-04-06 | 2013-08-20 | Siemens Aktiengesellschaft | Method for performing speech recognition and processing system |
US8805823B2 (en) * | 2009-04-14 | 2014-08-12 | Sri International | Content processing systems and methods |
US8214366B2 (en) | 2009-11-17 | 2012-07-03 | Glace Holding Llc | Systems and methods for generating a language database that can be used for natural language communication with a computer |
US20100306249A1 (en) | 2009-05-27 | 2010-12-02 | James Hill | Social network systems and methods |
US8417649B2 (en) | 2009-07-13 | 2013-04-09 | International Business Machines Corporation | Providing a seamless conversation service between interacting environments |
US20110015996A1 (en) * | 2009-07-14 | 2011-01-20 | Anna Kassoway | Systems and Methods For Providing Keyword Related Search Results in Augmented Content for Text on a Web Page |
US8533175B2 (en) | 2009-08-13 | 2013-09-10 | Gilbert Marquard ROSWELL | Temporal and geographic presentation and navigation of linked cultural, artistic, and historic content |
US8457967B2 (en) | 2009-08-15 | 2013-06-04 | Nuance Communications, Inc. | Automatic evaluation of spoken fluency |
US9166714B2 (en) | 2009-09-11 | 2015-10-20 | Veveo, Inc. | Method of and system for presenting enriched video viewing analytics |
US8326859B2 (en) | 2009-11-02 | 2012-12-04 | Microsoft Corporation | Task prediction |
US9502025B2 (en) | 2009-11-10 | 2016-11-22 | Voicebox Technologies Corporation | System and method for providing a natural language content dedication service |
US8358749B2 (en) | 2009-11-21 | 2013-01-22 | At&T Intellectual Property I, L.P. | System and method to search a media content database based on voice input data |
US8903793B2 (en) * | 2009-12-15 | 2014-12-02 | At&T Intellectual Property I, L.P. | System and method for speech-based incremental search |
KR20110072847A (ko) | 2009-12-23 | 2011-06-29 | 삼성전자주식회사 | 열려진 사용자 의도 처리를 위한 대화관리 시스템 및 방법 |
EP2362593B1 (en) | 2010-02-05 | 2012-06-20 | Research In Motion Limited | Communications system including aggregation server for determining updated metadata of e-mail messages and related methods |
US20110212428A1 (en) | 2010-02-18 | 2011-09-01 | David Victor Baker | System for Training |
JP2011186351A (ja) * | 2010-03-11 | 2011-09-22 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
US8140512B2 (en) * | 2010-04-12 | 2012-03-20 | Ancestry.Com Operations Inc. | Consolidated information retrieval results |
US8756216B1 (en) * | 2010-05-13 | 2014-06-17 | A9.Com, Inc. | Scalable tree builds for content descriptor search |
US8448206B2 (en) | 2010-05-17 | 2013-05-21 | Verizon Patent And Licensing Inc. | Augmenting interactive television content utilizing a dynamic cloud activity guide |
US9436764B2 (en) | 2010-06-29 | 2016-09-06 | Microsoft Technology Licensing, Llc | Navigation to popular search results |
US8909623B2 (en) * | 2010-06-29 | 2014-12-09 | Demand Media, Inc. | System and method for evaluating search queries to identify titles for content production |
US8219628B2 (en) | 2010-07-23 | 2012-07-10 | International Business Machines Corporation | Method to change instant messaging status based on text entered during conversation |
WO2012024585A1 (en) | 2010-08-19 | 2012-02-23 | Othar Hansson | Predictive query completion and predictive search results |
JP2012047924A (ja) * | 2010-08-26 | 2012-03-08 | Sony Corp | 情報処理装置、および情報処理方法、並びにプログラム |
US20120084291A1 (en) | 2010-09-30 | 2012-04-05 | Microsoft Corporation | Applying search queries to content sets |
US8515984B2 (en) | 2010-11-16 | 2013-08-20 | Microsoft Corporation | Extensible search term suggestion engine |
US9830379B2 (en) * | 2010-11-29 | 2017-11-28 | Google Inc. | Name disambiguation using context terms |
US8631002B2 (en) | 2010-12-09 | 2014-01-14 | Microsoft Corporation | Web-relevance based query classification |
US20130262485A1 (en) * | 2010-12-14 | 2013-10-03 | The Regents Of The University Of California | High Efficiency Prefix Search Algorithm Supporting Interactive, Fuzzy Search on Geographical Structured Data |
US20120265784A1 (en) * | 2011-04-15 | 2012-10-18 | Microsoft Corporation | Ordering semantic query formulation suggestions |
EP2702508A4 (en) | 2011-04-27 | 2015-07-15 | Vadim Berman | GENERIC SYSTEM OF LANGUAGE ANALYSIS AND TRANSFORMATION |
US9489352B1 (en) * | 2011-05-13 | 2016-11-08 | Groupon, Inc. | System and method for providing content to users based on interactions by similar other users |
EP2707808A4 (en) | 2011-05-13 | 2015-10-21 | Microsoft Technology Licensing Llc | USE OF QUERY LOOKING PROTOCOLS FOR DOMAIN RECOGNITION IN UNDERSTANDING SPOKEN LANGUAGE |
US8515985B1 (en) * | 2011-06-24 | 2013-08-20 | Google Inc. | Search query suggestions |
US8880423B2 (en) | 2011-07-01 | 2014-11-04 | Yahoo! Inc. | Inventory estimation for search retargeting |
US8417718B1 (en) * | 2011-07-11 | 2013-04-09 | Google Inc. | Generating word completions based on shared suffix analysis |
GB201117052D0 (en) | 2011-10-04 | 2011-11-16 | Daybees Ltd | Automated diary population |
US8930189B2 (en) * | 2011-10-28 | 2015-01-06 | Microsoft Corporation | Distributed user input to text generated by a speech to text transcription service |
US9619554B2 (en) | 2011-11-03 | 2017-04-11 | Microsoft Technology Licensing, Llc | Domain specific query-completion suggestions |
US9547832B2 (en) * | 2012-01-10 | 2017-01-17 | Oracle International Corporation | Identifying individual intentions and determining responses to individual intentions |
US9355191B1 (en) * | 2012-01-24 | 2016-05-31 | Google Inc. | Identification of query completions which change users' original search intent |
US8972388B1 (en) * | 2012-02-29 | 2015-03-03 | Google Inc. | Demotion of already observed search query completions |
US8504562B1 (en) * | 2012-04-03 | 2013-08-06 | Google Inc. | Evaluation of substitute terms |
US9542482B1 (en) | 2012-04-06 | 2017-01-10 | Amazon Technologies Inc. | Providing items of interest |
US20130275429A1 (en) | 2012-04-12 | 2013-10-17 | Graham York | System and method for enabling contextual recommendations and collaboration within content |
KR101694286B1 (ko) * | 2012-05-02 | 2017-01-09 | 한국전자통신연구원 | 양방향 자동 통역 및 번역 서비스 제공 장치 및 그 방법 |
US20140006012A1 (en) | 2012-07-02 | 2014-01-02 | Microsoft Corporation | Learning-Based Processing of Natural Language Questions |
US9424233B2 (en) | 2012-07-20 | 2016-08-23 | Veveo, Inc. | Method of and system for inferring user intent in search input in a conversational interaction system |
JP6338579B2 (ja) | 2012-07-24 | 2018-06-06 | アビニシオ テクノロジー エルエルシー | データモデルにおけるエンティティのマッピング |
US9799328B2 (en) * | 2012-08-03 | 2017-10-24 | Veveo, Inc. | Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval |
US8713042B1 (en) * | 2012-10-11 | 2014-04-29 | Google Inc. | Processing autocomplete suggestions |
US8494853B1 (en) * | 2013-01-04 | 2013-07-23 | Google Inc. | Methods and systems for providing speech recognition systems based on speech recordings logs |
US20140214401A1 (en) * | 2013-01-29 | 2014-07-31 | Tencent Technology (Shenzhen) Company Limited | Method and device for error correction model training and text error correction |
US9123335B2 (en) * | 2013-02-20 | 2015-09-01 | Jinni Media Limited | System apparatus circuit method and associated computer executable code for natural language understanding and semantic content discovery |
US9894312B2 (en) | 2013-02-22 | 2018-02-13 | The Directv Group, Inc. | Method and system for controlling a user receiving device using voice commands |
US10747837B2 (en) | 2013-03-11 | 2020-08-18 | Creopoint, Inc. | Containing disinformation spread using customizable intelligence channels |
US20140280289A1 (en) * | 2013-03-12 | 2014-09-18 | Microsoft Corporation | Autosuggestions based on user history |
US9268880B2 (en) * | 2013-03-14 | 2016-02-23 | Google Inc. | Using recent media consumption to select query suggestions |
US20150006290A1 (en) * | 2013-06-27 | 2015-01-01 | Google Inc. | Providing information to a user based on determined user activity |
US9483565B2 (en) * | 2013-06-27 | 2016-11-01 | Google Inc. | Associating a task with a user based on user selection of a query suggestion |
RU2718435C2 (ru) * | 2013-07-08 | 2020-04-02 | Общество С Ограниченной Ответственностью "Яндекс" | Исполняемый на компьютере способ и система для поиска в инвертированном индексе, обладающем множеством списков словопозиций |
CN104462084B (zh) | 2013-09-13 | 2019-08-16 | Sap欧洲公司 | 基于多个查询提供搜索细化建议 |
US11295730B1 (en) * | 2014-02-27 | 2022-04-05 | Soundhound, Inc. | Using phonetic variants in a local context to improve natural language understanding |
US9582515B1 (en) * | 2014-04-11 | 2017-02-28 | Google Inc. | Detecting queries for specific places |
US9852136B2 (en) | 2014-12-23 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for determining whether a negation statement applies to a current or past query |
US9854049B2 (en) | 2015-01-30 | 2017-12-26 | Rovi Guides, Inc. | Systems and methods for resolving ambiguous terms in social chatter based on a user profile |
US9959328B2 (en) * | 2015-06-30 | 2018-05-01 | Microsoft Technology Licensing, Llc | Analysis of user text |
US10621507B2 (en) * | 2016-03-12 | 2020-04-14 | Wipro Limited | System and method for generating an optimized result set using vector based relative importance measure |
US10275519B2 (en) * | 2016-08-22 | 2019-04-30 | International Business Machines Corporation | Sensor based context augmentation of search queries |
US20180225013A1 (en) | 2017-02-06 | 2018-08-09 | Likemoji Inc. | Network-based graphical communication system |
US10229683B2 (en) * | 2017-03-10 | 2019-03-12 | Soundhound, Inc. | Speech-enabled system with domain disambiguation |
US11183181B2 (en) * | 2017-03-27 | 2021-11-23 | Sonos, Inc. | Systems and methods of multiple voice services |
US10304154B2 (en) | 2017-04-24 | 2019-05-28 | Intel Corporation | Coordination and increased utilization of graphics processors during inference |
US10909441B2 (en) | 2017-06-02 | 2021-02-02 | Microsoft Technology Licensing, Llc | Modeling an action completion conversation using a knowledge graph |
US20190108447A1 (en) | 2017-11-30 | 2019-04-11 | Intel Corporation | Multifunction perceptrons in machine learning environments |
US10795886B1 (en) * | 2018-03-30 | 2020-10-06 | Townsend Street Labs, Inc. | Dynamic query routing system |
US11710034B2 (en) | 2019-02-27 | 2023-07-25 | Intel Corporation | Misuse index for explainable artificial intelligence in computing environments |
US10997373B2 (en) * | 2019-04-09 | 2021-05-04 | Walmart Apollo, Llc | Document-based response generation system |
US11094324B2 (en) * | 2019-05-14 | 2021-08-17 | Motorola Mobility Llc | Accumulative multi-cue activation of domain-specific automatic speech recognition engine |
US20210157813A1 (en) * | 2019-11-27 | 2021-05-27 | Microstrategy Incorporated | Mutually exclusive search operations |
US12106055B2 (en) * | 2020-08-21 | 2024-10-01 | Oracle International Corporation | Techniques for providing explanations for text classification |
-
2014
- 2014-05-07 DK DK14795114.9T patent/DK2994908T3/da active
- 2014-05-07 FI FIEP19193948.7T patent/FI3640938T3/fi active
- 2014-05-07 DK DK19193948.7T patent/DK3640938T3/da active
- 2014-05-07 WO PCT/US2014/037080 patent/WO2014182771A1/en active Application Filing
- 2014-05-07 ES ES14795114T patent/ES2751484T3/es active Active
- 2014-05-07 EP EP19193948.7A patent/EP3640938B1/en active Active
- 2014-05-07 US US14/271,869 patent/US10121493B2/en active Active
- 2014-05-07 EP EP14795114.9A patent/EP2994908B1/en active Active
- 2014-05-07 PT PT147951149T patent/PT2994908T/pt unknown
-
2016
- 2016-09-15 HK HK16110942.0A patent/HK1222942A1/zh unknown
-
2018
- 2018-10-18 US US16/164,280 patent/US10978094B2/en active Active
-
2021
- 2021-03-16 US US17/202,496 patent/US20210201932A1/en active Pending
-
2023
- 2023-02-28 US US18/115,612 patent/US20230206940A1/en active Pending
Also Published As
Publication number | Publication date |
---|---|
HK1222942A1 (zh) | 2017-07-14 |
US20230206940A1 (en) | 2023-06-29 |
US10121493B2 (en) | 2018-11-06 |
EP3640938A1 (en) | 2020-04-22 |
EP2994908A1 (en) | 2016-03-16 |
US10978094B2 (en) | 2021-04-13 |
US20140337370A1 (en) | 2014-11-13 |
DK2994908T3 (da) | 2019-09-23 |
DK3640938T3 (da) | 2024-10-07 |
FI3640938T3 (fi) | 2024-10-04 |
EP2994908B1 (en) | 2019-08-28 |
WO2014182771A1 (en) | 2014-11-13 |
US20190051317A1 (en) | 2019-02-14 |
EP2994908A4 (en) | 2017-01-04 |
PT2994908T (pt) | 2019-10-18 |
EP3640938B1 (en) | 2024-07-03 |
US20210201932A1 (en) | 2021-07-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2751484T3 (es) | Interfaz de entrada de voz incremental con retroalimentación en tiempo real | |
US11024297B2 (en) | Method for using pauses detected in speech input to assist in interpreting the input during conversational interaction for information retrieval | |
US10878809B2 (en) | Multi-command single utterance input method | |
US20200364411A1 (en) | System and method for inferring user intent from speech inputs | |
CN108228132B (zh) | 语音启用装置及其中执行的方法 | |
JP6535349B2 (ja) | 以前の対話行為を使用する自然言語処理における文脈解釈 | |
Schalkwyk et al. | “Your word is my command”: Google search by voice: A case study | |
US10181322B2 (en) | Multi-user, multi-domain dialog system | |
JP6357458B2 (ja) | 音声合成における同綴異音異義語の曖昧さの解消 | |
US9805718B2 (en) | Clarifying natural language input using targeted questions | |
US8768687B1 (en) | Machine translation of indirect speech | |
US20150279360A1 (en) | Language modeling in speech recognition | |
AU2016213815A1 (en) | Systems and methods for integrating third party services with a digital assistant | |
JP2018532165A (ja) | 個別化されたエンティティ発音の学習 | |
US11501764B2 (en) | Apparatus for media entity pronunciation using deep learning | |
Hämäläinen et al. | Multilingual speech recognition for the elderly: The AALFred personal life assistant | |
JP2021131472A (ja) | 情報処理装置、および情報処理方法、並びにプログラム |