ES2675302T3 - Sistemas y métodos para realizar ASR en presencia de palabras heterógrafas - Google Patents

Sistemas y métodos para realizar ASR en presencia de palabras heterógrafas Download PDF

Info

Publication number
ES2675302T3
ES2675302T3 ES15747723.3T ES15747723T ES2675302T3 ES 2675302 T3 ES2675302 T3 ES 2675302T3 ES 15747723 T ES15747723 T ES 15747723T ES 2675302 T3 ES2675302 T3 ES 2675302T3
Authority
ES
Spain
Prior art keywords
words
word
user
content
expressions
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES15747723.3T
Other languages
English (en)
Inventor
Akshat AGARWAL
Rakesh Barve
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Adeia Guides Inc
Original Assignee
Rovi Guides Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rovi Guides Inc filed Critical Rovi Guides Inc
Application granted granted Critical
Publication of ES2675302T3 publication Critical patent/ES2675302T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/193Formal grammars, e.g. finite state automata, context free grammars or word networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • User Interface Of Digital Computer (AREA)
  • Information Transfer Between Computers (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Machine Translation (AREA)
  • Steroid Compounds (AREA)

Abstract

Un aparato para corregir automáticamente los errores del reconocimiento del habla, el aparato comprende: medios (310) para recibir una entrada verbal del usuario que comprende una pluralidad de expresiones; medios (306) para hacer coincidir una primera pluralidad de expresiones con una primera palabra; medios (306) para determinar que una segunda expresión en la pluralidad de expresiones coincide con una pluralidad de palabras que está en el mismo conjunto de palabras heterógrafas; medios (308) para almacenar un gráfico de conocimiento de las relaciones entre las palabras, donde las distancias entre las palabras en el gráfico de conocimiento indican la fuerza en la relación entre las palabras; medios (306) para actualizar, en el gráfico de conocimiento, una o más de dichas distancias basadas en los datos de la guía de medios; medios (306) para identificar cuál de la pluralidad de palabras se asocia con un contexto de la primera palabra con base en las distancias, en el gráfico de conocimiento, entre la primera palabra y las palabras en dicho conjunto de palabras heterógrafas; y, medios para realizar una función con base en la primera palabra y la identificada de la pluralidad de palabras; donde dichos medios para identificar comprenden: medios para identificar las posiciones de la primera palabra en el gráfico de conocimiento y en cada pluralidad de palabras; medios para calcular, con base en las posiciones identificadas, una distancia entre la primera palabra y cada pluralidad de palabras; y medios para seleccionar, como la pluralidad de palabras identificada, la palabra en la pluralidad que tiene la distancia más corta que ha sido calculada a la primera palabra

Description

DESCRIPCIÓN
Sistemas y métodos para realizar ASR en presencia de palabras heterógrafas 5 Referencia cruzada con solicitudes relacionadas
Esta solicitud reivindica prioridad a y en beneficio de la Solicitud de Patente de Utilidad de Estados Unidos n° 14/448.308, presentada el 31 de julo del 2014.
10 Antecedentes
Los sistemas automáticos de reconocimiento del habla (ASR) normalmente funcionan bien a la hora de convertir voz en texto.
15 Sin embargo, en algunos casos, el mismo sonido de habla se asigna a diferentes palabras con diferentes significados. Estos tipos de palabras se conocen comúnmente como palabras heterógrafas. En estas situaciones, los sistemas ASR convencionales elegirán una de las palabras que coincide con el habla recibida a una entrada aleatoria o de solicitud del usuario para clarificar qué palabra usar. Esto resulta en un resultado erróneo o en frustración del usuario. Se conoce un sistema de la técnica anterior a partir de US2007/0225980.
20
Resumen
Es un objetivo de la invención mejorar la situación descrita anteriormente en conexión con la técnica anterior. De acuerdo con un aspecto de la invención, se proporciona un aparato de acuerdo con la reivindicación 1 y/o un método 25 de acuerdo con la reivindicación 6. Las realizaciones específicas se definen en las reivindicaciones dependientes. Las realizaciones específicas se definen en las reivindicaciones dependientes. Por tanto, los métodos y sistemas se divulgan en el presente documento para realizar ASR en la presencia de palabras heterógrafas.
En algunas realizaciones, se recibe una entrada verbal por parte del usuario que incluye una pluralidad de 30 expresiones. Una primera pluralidad de expresiones se asocia con una primera palabra. En algunas realizaciones, la primera expresión se codifica en una secuencia de fonemas y se representa usando el AFI. La secuencia de fonemas se remite con una base de datos de secuencias de fonemas para identificar la primera palabra que coincide con la secuencia de fonemas.
35 En algunas realizaciones, se determina que una segunda expresión en la pluralidad de expresiones coincide con una pluralidad de palabras que está en el mismo conjunto de palabras heterógrafas. En particular, la pluralidad de palabras en el mismo conjunto de palabras heterógrafas pueden ser fonéticamente similares entre ellas. En algunas realizaciones, la segunda expresión se codifica en una secuencia de fonemas y se representa usando el AFI. La secuencia de fonemas se remite con una base de datos de secuencias de fonemas para identificar una pluralidad de
40 palabras que coincide con la secuencia de fonemas. En respuesta a determinar que una pluralidad de palabras
coincide con la misma secuencia de fonemas, se determina un contexto de la primera palabra. El sistema luego identifica cuál de la pluralidad de palabras que coincide con la segunda secuencia de fonemas se asocia con el contexto de la primera palabra. Se realiza una función basada en la primera palabra y la palabra identificada de la pluralidad de palabras. Por ejemplo, se realiza una búsqueda usando la primera palabra y solo una de las palabras 45 que coinciden con la segunda secuencia que tiene el mismo contexto, o uno similar al de la primera palabra.
En algunas realizaciones, se almacena un gráfico de conocimiento de una relación entre las palabras. Una distancia entre las palabras en el gráfico de conocimiento puede indicar la fuerza en la relación entre las palabras. La
pluralidad de palabras que coincide con el contexto se determina con base en la distancia entre cada una de las
50 pluralidades de palabras en el conjunto de palabras heterógrafas con respecto a la primera palabra en el gráfico de conocimiento. En algunas implementaciones, se identifican las posiciones de la primera palabra en el gráfico de conocimiento y cada una de la pluralidad de palabras. Se calcula una distancia entre la primera palabra y cada una de las pluralidades de palabras con base en las posiciones identificadas. La palabra en la pluralidad que tenga una distancia más corta calculada a la primera palabra se selecciona como la palabra identificada de la pluralidad de 55 palabras.
En algunas realizaciones, la primera palabra puede ser un nombre de un competidor en un evento deportivo. En tales casos, el contexto de la primera palabra puede establecerse para que sea el evento deportivo. Se determina cuál de las pluralidades de palabras se corresponde con el evento deportivo, donde la pluralidad de palabras identificada se 60 corresponde con otro competidor (por ejemplo, otro equipo) en el evento deportivo.
En algunas realizaciones, la primera palabra puede ser un nombre de un actor en un recurso mediático. El contexto puede establecerse para que sea el recurso mediático. Se determina cuál de la pluralidad de palabras se corresponde con el recurso mediático, donde la pluralidad de palabras identificada se corresponde con otro actor del 5 recurso mediático.
En algunas realizaciones, el contexto puede determinarse con base en una conjunción entre dos de la pluralidad de expresiones. Por ejemplo, si el usuario expresa la palabra "v." en una frase como una conjunción de dos palabras, puede determinarse que el contexto es un evento deportivo donde v. representa "versus".
10
Debería tenerse en cuenta que los sistemas y/o métodos descritos anteriormente pueden aplicarse a, o usarse de acuerdo con, otros sistemas, métodos y/o aparatos.
Breve descripción de los dibujos 15
Los anteriores y otros objetos y ventajas de la divulgación serán evidentes tras considerar la siguiente descripción detallada, tomada en conjunto con los dibujos que acompañan, en los cuales los caracteres de referencia iguales se refieren a partes iguales, y en los cuales:
20 Las figs. 1 y 2 muestran pantallas ilustrativas que pueden usarse para proporcionar listados de una aplicación de guía de medios de acuerdo con una realización de la invención.
La fig. 3 es un diagrama de bloque de un dispositivo equipo de usuario ilustrativo de acuerdo con algunas realizaciones de la divulgación.
25
La fig. 4 es un diagrama de bloque de una divulgación ilustrativa; de acuerdo con algunas realizaciones de la divulgación.
La fig. 5 es un gráfico de conocimiento ilustrativo de acuerdo con algunas realizaciones de la divulgación.
30
La fig. 6 muestra una base de datos ilustrativa para asociar secuencias de fonemas con palabras heterógrafas de acuerdo con algunas realizaciones de la divulgación.
La fig. 7 es un diagrama de un proceso para realizar ASR en la presencia de palabras heterógrafas de acuerdo con 35 algunas realizaciones de la divulgación.
Descripción detallada de los dibujos
En el presente documento se divulgan métodos y sistemas para realizar ASR en la presencia de palabras 40 heterógrafas. En particular pueden recibirse del usuario una pluralidad de expresiones. Las expresiones pueden representarse usando secuencias de fonemas. En algunos casos, una secuencia de fonemas concreta puede coincidir con múltiples palabras. Estas palabras pueden estar en el mismo conjunto de palabras heterógrafas. Una primera palabra de las palabras en el conjunto de palabras heterógrafas puede seleccionarse para procesarse junto con una segunda palabra que se detecta en las expresiones recibidas con base en cuán cerca o lejos está la primera 45 palabra de la segunda palabra en un gráfico de conocimiento. Aunque esta divulgación se explica con referencia a la codificación fonética del AFI, puede usarse cualquier otro tipo de sistema de codificación o representación (por ejemplo, SAMPA, X-SAMPA, Arpabet, extAFI, Kirshenbaum, etc.).
Por ejemplo, si dos palabras están en el mismo conjunto de palabras heterógrafas, el sistema puede seleccionar la 50 palabra en el conjunto que esté más estrechamente relacionada con otra palabra recibida para el procesamiento con la otra palabra recibida. Específicamente, si el usuario está buscando juegos de baloncesto entre los equipos Duke y Uconn, el usuario puede expresar la frase "Duke v. Uconn". El sistema puede determinar que la secuencia de fonemas para la expresión "Uconn" coincide con dos palabras (por ejemplo, Uconn y Yukon). El sistema selecciona la palabra Uconn en vez de Yukon dado que Uconn (es decir, el equipo de baloncesto) está más cerca de Duke (es 55 decir, la otra expresión recibida) que Yukon (es decir, el río).
Con referencia a los recursos de medios o contenido, la cantidad de contenido disponible para los usuarios en cualquier sistema de entrega de contenidos puede ser sustanciosa. Por tanto, muchos usuarios desean una forma de guía de medios a través de una interfaz que permita a los usuarios navegar de forma eficiente por las selecciones de 60 contenido e identificar fácilmente el contenido que desean. Una aplicación que proporcione dicha guía se denomina
en el presente como una aplicación interactiva de guía de medios, o a veces, una aplicación de guía de medios o una aplicación de guía.
Las aplicaciones interactivas de guía de medios pueden tener varias formas dependiendo del contexto para el cual 5 proporcionan guía. Un tipo típico de aplicación de guía de medios es una guía interactiva de programación de televisión. Las guías interactivas de programación de televisión (a veces denominadas como guías electrónicas de programación), son aplicaciones de guía bien conocidas que, entre otras cosas, permiten a los usuarios navegar por y encontrar muchos tipos de contenidos o recursos de medios. Las aplicaciones interactivas de guía de medios pueden generar pantallas de interfaz gráfica del usuario que permiten al usuario navegar por, encontrar y seleccionar 10 contenido. Como se denomina en el presente documento, los términos "recurso de medios" y "contenido" deberían comprenderse como un activo de usuario consumible electrónicamente, como una programación de televisión, además de programas de pago por visionado, programas bajo demanda (como los sistemas de vídeo bajo demanda (VOD)), contenido de Internet (por ejemplo, contenido en streaming, contenido descargable, Webcasts, etc.), clips de vídeo, audio, información de contenido, imágenes, imágenes en carrusel, documentos, listas de reproducción, sitios 15 web, artículos, libros, libros electrónicos, blogs, publicidad, sesiones de chat, redes sociales, aplicaciones, juegos, y/o cualquier otro recurso de medios o multimedia y/o una combinación de los mismos. Las aplicaciones guía también permiten a los usuarios navegar por y encontrar contenido. Como se denomina en el presente, se debería comprender que el término "multimedia" significa contenido que utiliza al menos dos formatos de contenido diferentes descritos anteriormente, por ejemplo, texto, audio, imágenes, vídeo, o formas de interactividad de contenido. El 20 contenido puede grabarse, reproducirse, mostrarse o accederse por los dispositivos de equipo de usuario, pero también puede ser parte de un espectáculo en vivo.
La aplicación de guía de medios y/o cualquier instrucción para realizar cualquiera de las realizaciones explicadas en el presente pueden estar codificada en un medio legible por ordenador. Los medios legibles por ordenador incluyen 25 cualquier medio capaz de almacenar datos. El medio legible por ordenador puede ser transitorio, incluyendo, pero sin limitación, propagar señales eléctricas o electromagnéticas, o incluyendo, pero sin limitación, memoria de ordenador volátil y no volátil o dispositivos de almacenamiento como disco duro, disquete, unidad USB, DVD, CD, tarjetas multimedia, memoria de registro, memorias caché del procesador, memoria de acceso aleatorio ("RAM"), etc.
30 Con la llegada de Internet, la computación móvil, y las redes inalámbricas de alta velocidad, los usuarios están accediendo a los medios en dispositivos de equipo de usuario en los cuales tradicionalmente no podían. Como se indica en el presente documento, debería comprenderse que la frase "dispositivo de equipo de usuario", "equipo de usuario", "dispositivo de usuario", "dispositivo electrónico", "equipo electrónico", "dispositivo de equipo de medios" o "dispositivo de medios" significa cualquier dispositivo para acceder al contenido descrito anteriormente, como una 35 televisión, una Smart TV, un codificador, un decodificador receptor integrado (IRD) para recibir televisión por satélite, un dispositivo de almacenamiento digital, un receptor de medios digitales (DMR), un adaptador de medios digitales (DMA), un dispositivo de transmisión de medios, un reproductor DVD, un grabador de dVd, un DVD conectado, un servidor de medios locales, un reproductor de BLU-RAY, un grabador de BLU-RAY, un ordenador personal (PC), un ordenador portátil, una tableta, un dispositivo WebTV, un televisor ordenador personal (PC/TV), un servidor de 40 medios PC, un centro multimedia PC, un dispositivo portátil, un teléfono fijo, un asistente digital personal (PDA), un teléfono móvil, un reproductor de vídeo portátil, un reproductor de música portátil, una videoconsola portátil, un teléfono inteligente, o cualquier otro equipo de televisión, o dispositivo inalámbrico, y/o una combinación de los mismos. En algunas realizaciones, el dispositivo de equipo de usuario puede tener una pantalla frontal, múltiples pantallas frontales, o múltiples pantallas en ángulo. En algunas realizaciones, el dispositivo de equipo de usuario 45 puede tener una cámara frontal y/o una cámara trasera. En estos dispositivos de equipo de usuario, los usuarios pueden navegar por y encontrar el mismo contenido disponible a través de un televisor. Por tanto, la guía de medios puede estar disponible en estos dispositivos también. La guía proporcionada puede ser para el contenido disponible solo a través de un televisor, para el contenido disponible solo a través de uno o más de otros tipos de dispositivos de equipo de usuario, o para el contenido disponible a través de un televisor y uno o más de los otros tipos de 50 dispositivos de equipo de usuario. Las aplicaciones de guía de medios pueden proporcionarse como aplicaciones en línea, (es decir, proporcionadas en un sitio web), o como aplicaciones o clientes independientes en los dispositivos equipo de usuario. Varios dispositivos y plataformas que pueden implementar aplicaciones de guía de medios se describen con más detalle a continuación.
55 Una de las funciones de la aplicación de guía de medios es proporcionar datos de guía de medios a los usuarios. Como se denomina en el presente documento, debería comprenderse que la frase "datos de guía de medios" o "datos de guía" significa cualquier dato relacionado con el contenido o datos usados a la hora de operar la aplicación de guía. Por ejemplo, los datos de guía pueden incluir información del programa, datos usados para generar un gráfico de conocimiento que indican relaciones ponderadas entre palabras, asignación de secuencias de fonemas a 60 palabras, ajustes de la aplicación de guía, preferencias del usuario, información del perfil del usuario, listado de
medios, información relacionada con los medios (por ejemplo, horas de retransmisión, canales de retransmisión, títulos, descripciones, información de clasificación (por ejemplo, control parental, puntuación de la crítica, etc.), información de género o categoría, información de actores, datos de logotipo para operadores de radiodifusión o proveedores, logotipos, etc.), subtítulos, formato de medios (por ejemplo, definición estándar, alta definición, 3D, 5 etc.), información publicitaria (por ejemplo, texto, imágenes, clips de medios, etc.), información bajo demanda, blogs, sitios web, y otros tipos de datos de guía que son útiles para que el usuario navegue por y encuentre selecciones de contenido deseadas.
Las figs. 1 y 2 muestran pantallas ilustrativas que pueden ser usadas para proporcionar datos de guía de medios. 10 Las pantallas mostradas en las figs. 1 y 2 pueden implementarse en cualquier dispositivo de equipo de usuario o plataforma adecuados. Aunque las pantallas de las figs. 1 y 2 se ilustran como pantallas completas, también pueden superponerse total o parcialmente sobre el contenido que se muestra. Un usuario puede indicar un deseo de acceder a la información del contenido seleccionando una opción seleccionable proporcionada en una pantalla (por ejemplo, una opción del menú, una opción de listado, un icono, un hipervínculo, etc.), o pulsando un botón (por ejemplo, un 15 botón GUÍA) en un mando a distancia u otra interfaz o dispositivo de entrada de usuario. En respuesta a la indicación del usuario, la aplicación de guía de medios puede proporcionar una pantalla con datos de guía de medios organizados en una entre varias formas, como por hora y canal en una cuadrícula, por hora, por canal, por fuente, por tipo de contenido, por categoría (por ejemplo, películas, deportes, noticias, infantil, u otras categorías de programación), u otro criterio predefinido, definido por el usuario o de organización.
20
La fig. 1 muestra la pantalla 100 de listados de programación en cuadrícula ilustrativa dispuesta por hora y canal, que también permite el acceso a los diferentes tipos de contenido en una única pantalla. La pantalla 100 puede incluir la cuadrícula 102 con: (1) una columna de identificadores de canal/tipo de contenido (que es una celda en la columna) identifica 104 un canal o tipo de contenido diferente disponible; y (2) una fila de identificadores de tiempo 106, donde 25 cada identificador de tiempo (que es una celda en la fila), identifica un bloque de tiempo de la programación. La cuadrícula 102 también incluye celdas de listados de programas, como listado de programas 108, donde cada listado proporciona el título del programa proporcionado en el canal y la hora asociados del listado. Con el dispositivo de entrada del usuario, un usuario puede seleccionar listados de programa moviendo la región destacada 110. La información relativa al listado de programación seleccionado por la región destacada 110 puede proporcionarse en la 30 región de información del programa 112. La región 112 puede incluir, por ejemplo, el título del programa, la descripción del programa, la hora en que se proporciona el programa (si es aplicable), el canal en el que se emite el programa (si es aplicable), la clasificación del programa y otra información deseada.
Además de proporcionar acceso a la programación lineal (por ejemplo, el contenido programado para transmitirse a 35 una pluralidad de dispositivos de equipo de usuario a una hora predeterminada y se proporciona de acuerdo con un horario), la aplicación de guía de medios también proporciona acceso a programación no lineal (por ejemplo, contenido accesible para un dispositivo de equipo de usuario a cualquier hora y que no se proporciona de acuerdo con un horario). La programación no lineal puede incluir contenido de diferentes fuentes de contenido incluyendo contenido bajo demanda (por ejemplo, VOD), contenido de Internet (por ejemplo, transmisión de medios, medios 40 descargables, etc.), contenido almacenado localmente (por ejemplo, contenido almacenado en cualquier dispositivo de equipo de usuario descrito anteriormente o en otro dispositivo de almacenamiento), u otro contenido independiente del tiempo. El contenido bajo demanda puede incluir películas o cualquier contenido proporcionado por un proveedor de contenidos concreto (por ejemplo, HBO Bajo Demanda proporciona "Los Soprano" y "Larry David (Curb your Enthusiasm)"). HBO BAJO DEMANDA es una marca de servicio propiedad de Time Warner 45 Company L.P. et al. y LOS SOPRANO y LARRY DAVID son marcas comerciales propiedad de Home Box Office, Inc. El contenido de Internet puede incluir eventos web, como una sesión de chat o Webcast, o contenido disponible bajo demanda como contenido en streaming o contenido descargable a través de un sitio web de Internet u otro acceso a Internet (por ejemplo, FTP).
50 La cuadrícula 102 puede proporcionar datos de guía de medios para la programación no lineal incluyendo un listado bajo demanda 114, listado de contenido grabado 116 y listado de contenido de Internet 118. Una pantalla que combina contenido de datos de guía de medios de diferentes tipos de fuentes de contenidos a veces se denomina pantalla de "medios mezclados". Varias combinaciones de los tipos de datos de guía de medios que pueden mostrarse que son diferentes a la pantalla 100 pueden basarse en la selección del usuario o la definición de la 55 aplicación de guía (por ejemplo, una pantalla de solo listados grabados y transmitidos, listados solo bajo demanda y transmitidos, etc.). Como se ilustra, los listados 114, 116 y 118 se muestran como que abarcan todo el bloque de tiempo mostrado en la cuadrícula 102 para indicar que la selección de estos listados puede proporcionar acceso a una pantalla dedicada a listados bajo demanda, listados grabados y listados de Internet, respectivamente. En algunas realizaciones, los listados para estos tipos de contenidos pueden incluirse directamente en la cuadrícula 102. 60 Pueden mostrarse datos de guía de medios adicionales en respuesta al usuario seleccionando uno de los iconos de
navegación 120. (Pulsar una tecla de flecha en un dispositivo de entrada de usuario puede afectar a la pantalla de forma similar a seleccionar los iconos de navegación 120).
La pantalla 100 puede también incluir región de vídeo 122, publicidad 124 y región de opciones 126. La región de 5 vídeo 122 puede permitir al usuario ver y/o previsualizar programas que están disponibles actualmente, estarán disponibles o estuvieron disponibles para el usuario. El contenido de la región de vídeo 122 puede corresponderse con, o ser independiente de, uno de los listados mostrados en la cuadrícula 102. Las visualizaciones en la cuadrícula que incluyen una región de vídeo a veces se denominan pantallas de imagen en guía (PIG por sus siglas en inglés). Las pantallas PIG y sus funcionalidades se describen con mayor detalle en Satterfield et al., patente de EE. UU. n° 10 6.564.378, emitida el 13 de mayo del 2003, y Yuen et al., patente de EE. UU. n° 6.239.794, emitida el 29 de mayo del 2001. Las pantallas PIG pueden incluirse en otras pantallas de la aplicación de guía de medios de las realizaciones descritas en el presente documento.
La publicidad 124 puede proporcionar un anuncio para el contenido que, dependiendo de los derechos de acceso del 15 espectador (por ejemplo, para programación de suscripción), está disponible actualmente para su visionado, estará disponible en el futuro, no quizá nunca esté disponible para su visionado, y puede corresponderse o no estar relacionado con uno o más listados de contenido en la cuadrícula 102. La publicidad 124 puede también ser para productos o servicios relacionados o no relacionados con el contenido mostrado en la cuadrícula 102. La publicidad 124 puede ser seleccionable y proporcionar información adicional sobre el contenido, proporcionar información sobre 20 un producto o servicio, permitir la compra de contenido, un producto o un servicio, proporcionar publicidad del contenido, etc. La publicidad 124 puede estar dirigida con base en el perfil/preferencias de un usuario, de la actividad monitorizada del usuario, el tipo de pantalla proporcionado y otras bases de publicidad dirigida adecuadas.
Aunque la publicidad 124 se muestra en forma rectangular o de banner, los anuncios pueden proporcionarse en 25 cualquier tamaño, forma y ubicación en una pantalla de aplicación de guía. Por ejemplo, la publicidad 124 puede proporcionarse como una forma rectangular que está adyacente horizontalmente a la cuadrícula 102. Esto a veces se denomina como un anuncio de panel. Además, los anuncios pueden superponerse al contenido o a la pantalla de aplicación de guía o integrarse dentro de una pantalla. Los anuncios pueden además incluir texto, imágenes, imágenes en carrusel, clips de vídeo u otros tipos de contenido descritos anteriormente. Los anuncios pueden 30 almacenarse en un dispositivo de equipo de usuario que tiene una aplicación de guía, en una base de datos conectada el equipo del usuario, en una ubicación remota (que incluye servidores de transmisión de medios), o en otro medio de almacenamiento, o en una combinación de estas ubicaciones. Proporcionar anuncios en una aplicación de guía de medios se explica con mayor detalle en, por ejemplo, Knudson et al., publicación de solicitud de patente de EE. UU. n° 2003/0110499, presentada el 17 de enero, del 2003; Ward, III et al., patente de EE. UU. n° 35 6.756.997, emitida el 29 de junio del 2004; y Schein et al., patente de EE. UU. n° 6.388.714, emitida el 14 de mayo del 2002. Se apreciará que los anuncios puedan estar incluidos en otras pantallas de aplicación de guía de medios de las realizaciones descritas en el presente documento.
La región de opciones 126 puede permitir al usuario acceder a diferentes tipos de contenido, a las pantallas de la 40 aplicación de guía de medios, y/o a las funciones de la aplicación de guía de medios. La región de opciones 126 puede ser parte de la pantalla 100 y otras pantallas descritas en el presente documento, o ser invocadas por un usuario al seleccionar una opción en la pantalla o pulsar un botón dedicado o asignable en un dispositivo de entrada de usuario. Las opciones seleccionables en la región de opciones 126 pueden ser funciones relacionadas con los listados de programas en la cuadrícula 102 o pueden incluir opciones disponibles desde una pantalla de menú 45 principal. Las funciones relacionadas con los listados de programas pueden incluir la búsqueda por otras horas de emisión o formas de recibir un programa, grabar un programa, habilitar la grabación de una serie de un programa, establecer un programa y/o canal como favorito, o comprar un programa, una configuración de subtítulos u otras funciones. Las opciones disponibles desde la pantalla del menú principal pueden incluir opciones de búsqueda, opciones de VOD, opciones de control parental, opciones de Internet, opciones basadas en la nube, opciones de 50 sincronización de dispositivo, opciones de segundo dispositivo de pantalla, opciones para acceder a varios tipos de pantallas de datos de guía de medios, opciones para suscribirse a un servicio prémium, opciones para habilitar/deshabilitar la configuración de subtítulos, opciones para editar el perfil de usuario, opciones para acceder a una capa de búsqueda u otras opciones.
55 La aplicación de guía de medios puede personalizarse con base en las preferencias del usuario. Una aplicación de guía personalizada permite al usuario personalizar las pantallas y funciones para crear una "experiencia" personalizada con la aplicación de guía de medios. Esta experiencia personalizada puede crearse permitiendo al usuario introducir estas personalizaciones y/o mediante la monitorización por parte de la aplicación de guía de medios de la actividad del usuario para determinar varias preferencias del usuario. Los usuarios pueden acceder a su 60 aplicación de guía personalizada iniciando sesión o identificándose a la aplicación de guía. La personalización de la
aplicación de guía de medios puede realizarse de acuerdo con un perfil del usuario. Las personalizaciones pueden incluir variar los esquemas de presentación (por ejemplo, esquema de color de las pantallas, tamaño de fuente del texto, etc.), aspectos de los listados de contenido mostrados (por ejemplo, solo HDTV o solo programación en 3D, canales de emisión especificados por el usuario con base en las selecciones de canal favorito, reordenación de la 5 forma en que se muestran los canales, contenido recomendado, etc.), funciones de grabación deseadas (por ejemplo, grabación o grabación de una serie para usuarios concretos, calidad de la grabación, etc.), configuración del control parental, presentación personalizada del contenido de Internet (por ejemplo, presentación de contenido de redes sociales, correo electrónico, artículos entregados electrónicamente, etc.), y otras personalizaciones deseadas.
10 La aplicación de guía de medios puede permitir a un usuario proporcionar información del perfil de usuario o puede recopilar automáticamente la información del perfil del usuario. La aplicación de guía de medios puede, por ejemplo, monitorizar el contenido al que el usuario accede y/u otras interacciones que el usuario pueda tener con la aplicación de guía. Adicionalmente, la aplicación de guía de medios puede obtener todo o parte de los otros perfiles del usuario que están relacionados con un usuario concreto (por ejemplo, desde otros sitios web en Internet a los que el usuario 15 accede, como
www.allrovi.com, desde otras aplicaciones de guía de medios a las que el usuario accede, desde otras aplicaciones interactivas a las que el usuario accede, desde otro dispositivo de equipo de usuario del usuario, etc.), y/o para obtener información sobre el usuario de otras fuentes a las que pueda acceder la aplicación de guía de medios. Como resultado, se puede proporcionar al usuario una experiencia de aplicación de guía unificada por todos los diferentes dispositivos de equipo del usuario. Este tipo de experiencia de usuario se describe con más detalle a 20 continuación en conexión con la fig. 4. Las características de la aplicación de guía de medios personalizada se describen con más detalle en Ellis et al., publicación de solicitud de patente de EE. UU. n° 2005/0251827, presentada el 11 de julio del 2005, Boyer et al., patente de EE. UU. n° 7.165.098, emitida el 16 de enero del 2007, y Ellis et al., publicación de solicitud de patente de EE. UU. n° 2002/0174430, presentada el 21 de febrero del 2002.
25 Otra disposición de pantalla para proporcionar guía de medios se muestra en la fig. 2. La pantalla de mosaico de vídeo 200 incluye opciones seleccionables 202 para la información del contenido organizada según el tipo de contenido, género, y/u otros criterios de organización. La selección de la opción 204 puede devolver al usuario a la cuadrícula 102 (fig. 1).
30 En la pantalla 200, los listados 206, 208, 210 y 212 pueden proporcionar imágenes gráficas, incluyendo portada, imágenes estáticas del contenido, vistas previas en clips de vídeo, vídeo en vivo del contenido, u otro tipo de contenido que indique al usuario el contenido descrito por los datos de la guía de medios en el listado. Cada uno de los listados gráficos también puede estar acompañado de texto para proporcionar información adicional sobre el contenido asociado con el listado. Por ejemplo, los listados 208, 210, y 212 pueden incluir más de una parte, 35 incluyendo parte de medios 214, parte de texto 216. La parte de medios 214 y/o la parte de texto 216 pueden ser seleccionables para ver el contenido en pantalla completa o para ver la información relacionada con el contenido mostrado en la parte de medios 214 (por ejemplo, para ver los listados para el canal en el que se muestra el vídeo).
Los listados en la pantalla 200 son de tamaños diferentes (es decir, el listado 206 es más grande que el listado 208, 40 210 y 212), pero si se desea todos los listados pueden ser del mismo tamaño. Los listados pueden ser de diferentes tamaños o acentuarse gráficamente para indicar grados de interés al usuario o para enfatizar cierto contenido, según desee el proveedor de contenido o con base en las preferencias del usuario. Se explican varios sistemas y métodos para acentuar gráficamente los listados de contenidos, por ejemplo, Yates, publicación de solicitud de patente de EE. UU. n° 2010/0153885, presentada el 29 de diciembre del 2005.
45
Los usuarios pueden acceder al contenido y a la aplicación de guía de medios (y sus pantallas descritas arriba y abajo) desde uno o más de sus dispositivos de equipo de usuario. La fig. 3 muestra una realización generalizada de un dispositivo de equipo de usuario 300 ilustrativo. Implementaciones más específicas de dispositivos de equipo de usuario se explican a continuación en conexión con la fig. 4. El dispositivo de equipo de usuario 300 puede recibir 50 contenido y datos a través de una ruta de entrada/salida (a partir de ahora "E/S") 302. La ruta E/S 302 puede proporcionar contenido (por ejemplo, programación retransmitida, programación bajo demanda, contenido de Internet, contenido disponible sobre una red de área local (LAN) o red de área amplia (WAN), y/u otro contenido) y datos al circuito de control 304, que incluye un circuito de procesamiento 306, un circuito de detección 320, y almacenamiento 308.
55
El circuito de control 304 puede usarse para enviar y recibir comandos, solicitudes y otros datos adecuados que utilizan la ruta E/S 302. La ruta E/S 302 puede conectar el circuito de control 304 (y específicamente el circuito de procesamiento 306) a una o más rutas de comunicación (descritas más adelante). Las funciones de la E/S pueden proporcionarse por una o más de estas rutas de comunicaciones, pero se muestran como una ruta única en la fig. 3 60 para evitar complicar en exceso el dibujo. El circuito de control 304 puede basarse en cualquier circuito de
procesamiento adecuado como el circuito de procesamiento 306. Como se denomina en el presente documento, circuito de procesamiento debería entenderse como un circuito basado en uno o más microprocesadores, microcontroladores, procesadores de señal digital, dispositivos lógicos programables, matriz de puertas programable (FPGA), circuitos integrados específicos para la aplicación (ASIC), etc., y pueden incluir un procesador multi núcleo 5 (por ejemplo, dual-core, quad-core, hexa-core, o cualquier número de núcleos adecuado) o superordenador. En algunas realizaciones, el circuito de procesamiento puede estar distribuido entre múltiples procesadores independientes o unidades de procesamiento, por ejemplo, múltiples unidades de procesamiento del mismo tipo (por ejemplo, dos procesadores Intel Core i7) o múltiples procesadores diferentes (por ejemplo, un procesador Intel Core i5 y un procesador Intel Core i7). En algunas realizaciones, el circuito de control 304 ejecuta instrucciones para una 10 aplicación de guía de medios almacenada en la memoria (es decir, almacenamiento 308). Específicamente, el circuito de control 304 puede recibir instrucciones de la aplicación de guía de medios para que realice las funciones explicadas anteriormente y a continuación. Por ejemplo, la aplicación de guía de medios puede proporcionar instrucciones para controlar el circuito 304 para que genere pantallas de guía de medios. En algunas implementaciones, cualquier acción realizada por el circuito de control 304 puede estar basada en las instrucciones 15 recibidas de la aplicación de guía de medios.
En las realizaciones basadas en cliente-servidor, el circuito de control 304 puede incluir un circuito de comunicaciones adecuado para comunicare con un servidor de la aplicación de guía u otras redes o servidores. Las instrucciones para realizar la funcionalidad mencionada anteriormente pueden almacenarse en el servidor de la 20 aplicación de guía. El circuito de comunicaciones puede incluir un módem por cable, un módem de red digital de servicios integrados (RSDI), un módem de línea de abonado digital (DSL), un módem telefónico, tarjeta Ethernet o un módem inalámbrico para las comunicaciones con otros equipos, o cualquier otro circuito de comunicaciones. Dichas comunicaciones pueden implicar Internet u otras redes o rutas de comunicaciones adecuadas (que se describen con más detalle en conexión con la fig. 4). Además, el circuito de comunicaciones puede incluir un circuito que permita la 25 comunicación peer-to-peer de dispositivos de equipo de usuario, o la comunicación de dispositivos de equipo de usuario en ubicaciones remotas unos de los otros (descrito con más detalle a continuación).
El circuito de control puede dar instrucciones al circuito de detección 320, que puede usarse para detectar y/o identificar a un usuario o usuarios sin la necesidad de que el usuario o usuarios realicen acciones afirmativas usando 30 cualquier técnica de determinación biométrica, como determinación facial, información de ondas cerebrales, determinación de la temperatura del cuerpo, determinación del ritmo cardíaco, determinación de olor corporal, determinación de forma corporal, determinación de la voz, determinación del comportamiento, u otra técnica de determinación biométrica adecuada o una combinación de las mismas.
35 El circuito de detección 320 puede incluir un componente de monitorización 316 y una unidad de gestión de la energía 318. El componente de monitorización 316 puede incluir uno o más componentes (por ejemplo, un EEG, EMG, oxímetro de pulso, etc.) para monitorizar un tipo de actividad (por ejemplo, estado biométrico, ubicación, o información de ondas cerebrales) de un usuario. Como se denomina en el presente, "ubicación" se refiere a cualquier identificador relativo o absoluto de una posición, como una coordenada geográfica, vector de dirección, dirección, 40 nombre de edificio, o cualquier otro identificador adecuado. Por ejemplo, una ubicación puede indicarse mediante coordenadas en un sistema de coordenadas geográficas (por ejemplo, latitud o longitud), o un sistema global de posicionamiento (GPS).
Debería tenerse en cuenta, que el componente de monitorización 316 puede, en algunas realizaciones, estar ubicado 45 en un dispositivo independiente en comunicación con el dispositivo sobre el cual se implementa la aplicación de guía de medios (y el circuito de control 304). Por ejemplo, en algunas realizaciones, el componente de monitorización 316 puede comunicarse con el dispositivo 300 través de una red de comunicaciones (por ejemplo, la red de comunicaciones 414 (fig. 4)). En algunas realizaciones, el componente de monitorización 316 puede ser un dispositivo que puede llevarse puesto (por ejemplo, una muñequera, una banda para la cabeza, un reloj, etc.).
50
Usando micrófonos y reconocimiento por voz, el circuito de control 304 puede detectar o identificar a los usuarios con base en las características físicas de sus tractos vocales a través del reconocimiento o identificación de la voz. Usando una fuente de sonido y un conjunto de micrófonos, el circuito de control 304 puede determinar información sobre la forma del área que rodea al dispositivo biométrico a través de la localización acústica, de forma similar al 55 método de tiempo de vuelo descrito anteriormente en referencia con la luz IR. Por ejemplo, una fuente de sonido puede estar ubicada cerca de un conjunto de micrófonos. Una transmisión de sonido desde la fuente de sonido puede propagarse como una onda frontal que se aleja de la fuente. A medida que la onda frontal impacta con un objeto, partes de la onda frontal pueden reflejarse hacia la fuente de sonido y el conjunto de micrófonos. Dependiendo de la posición del objeto, el sonido reflejado puede llegar al micrófono en momentos diferentes. Por 60 ejemplo, el sonido reflejado puede llegar a un micrófono más cercano en una cantidad de tiempo más corta que a un
micrófono más alejado. Según la diferencia de tiempo o fase en el tiempo de llegada en los varios micrófonos, el tiempo total de recorrido del sonido, y las posiciones de los micrófonos, puede ser posible generar un mapa de área espacial. Las ubicaciones de los objetos pueden determinarse con base en el mapa de área espacial generado mediante la localización acústica, tiempo de vuelo IR, cualquier otro método de mapeo, o una combinación de los 5 mismos. Debería comprenderse que pueden usarse varias técnicas y dispositivos biométricos solos o en combinación para complementarse y así identificar o detectar usuarios de forma más precisa.
En algunas realizaciones, la aplicación de guía de medios puede responder a comandos verbales o instrucciones verbales recibidas de un usuario. El circuito de control 304 puede incluir un motor o circuito de reconocimiento de voz 10 con un codificador de fonemas para procesar instrucciones verbales del usuario. En algunas implementaciones, los sonidos del lenguaje humano (por ejemplo, las expresiones) pueden recibirse con uno o más micrófonos y proporcionarse al codificador de fonemas del circuito de control 304. El codificador de fonemas puede convertir los sonidos en representaciones de máquina de los sonidos usando una representación del fonema. En una realización, la representación de la máquina puede verse como representaciones de los fonemas del Código Estándar Americano 15 para Intercambio de Información (ASCII), o similares, visualizables como una secuencia de valores alfanuméricos. En una realización, las representaciones de máquina pueden emplear símbolos del Alfabeto Fonético Internacional (AFI) y/o conjuntos extendidos adaptados para su uso en un ordenador.
Como se utiliza en el presente documento, el término "fonema" se refiere a la representación física de un sonido o 20 expresión del lenguaje humano. Además, un fonema es una representación de un sonido de un lenguaje independiente de su posición en una palabra o frase. Así, los fonemas representan sonidos en la forma más neutral posible. En la técnica se conoce una variedad de representaciones escritas de fonemas, y como tal, virtualmente cualquier representación puede ser usada por la presente divulgación. Por ejemplo, en una realización, los fonemas pueden representarse mediante símbolos alfanuméricos como los empleados en el Alfabeto Fonético Internacional 25 (AFI), en el formato de Código Estándar Americano para el Intercambio de Información (ASCII), o similares. Sin embargo, como se indica, la divulgación no está limitada a este mecanismo, y pueden usarse otros. Como se utiliza en el presente, el término "palabra" se refiere a un elemento significativo distintivo único del habla o la escritura que coincide con una o más secuencias de fonemas. Cuando múltiples palabras coinciden con la misma secuencia de fonemas, se denominan heterógrafas o palabras que son parte del mismo conjunto de palabras heterógrafas.
30
El circuito de control 304 puede realizar una referencia cruzada de una secuencia de fonemas con una base de datos 600 (fig. 6) que asigna las secuencias de fonemas a palabras. El proceso de realizar una referencia cruzada de las secuencias de fonemas con la base de datos 600 puede usarse para convertir una pluralidad de expresiones recibidas de un usuario en palabras textuales. Tras convertirse las expresiones a sus palabras digitales 35 correspondientes, el resultado puede proporcionarse a la aplicación de guía de medios para su posterior procesamiento. Por ejemplo, la aplicación de guía de medios puede procesar las palabras identificadas (que se corresponden con las expresiones recibidas) para generar recomendaciones, anuncios, realizar consultas de búsqueda, cargar sitios web o realizar cualquier otro comando que se corresponda con las palabras identificadas. En algunas implementaciones, la aplicación de guía de medios puede realizar una referencia cruzada de una de las 40 palabras identificadas con la base de datos de comandos para determinar si una o más de las palabras son comandos. La aplicación de guía de medios puede identificar un comando que se corresponde con las palabras identificadas y realizar el comando (por ejemplo, una función de búsqueda). Otros parámetros del comando pueden proporcionarse por otras palabras identificadas o expresiones recibidas posteriormente.
45 En algunas realizaciones, el circuito de control 304 puede recibir instrucciones verbales por parte del usuario que incluyan una pluralidad de expresiones incluye una pluralidad de expresiones. Por ejemplo, el usuario puede expresar la frase "Duke v. Uconn". Cada expresión puede corresponderse con una palabra concreta hablada por el usuario. Normalmente, las expresiones se separan entre ellas por un breve momento de silencio. En respuesta a la recepción de expresiones, el circuito de control 304 puede codificar las expresiones en secuencias de fonemas. Por 50 ejemplo, el circuito de control 304 puede codificar cada expresión usando AFI como /duk/; /vi/; /yukcn/, (donde el punto y coma representa el silencio o descanso entre las expresiones). El circuito de control 304 puede almacenar cada secuencia de fonemas usando AFI en el almacenamiento 308. Aparte de usar la codificación fonética AFI, puede usarse cualquier otro tipo de sistema de codificación o representación fonética (por ejemplo, SAMPA, X- SAMPA, Arpabet, extAFI, Kirshenbaum, etc.).
55
El circuito de control 304 puede realizar una referencia cruzada del AFI almacenada para cada expresión con la base de datos 600. La base de datos 600 puede ser una base de datos local o una base de datos remota. Cuando la base de datos 600 es remota, el circuito de control 304 puede comunicar la secuencia de fonemas o el AFI a un servidor, que luego puede devolver al circuito de control 304 la palabra o palabras correspondientes que coincidan con la 60 secuencia de fonemas o AFI.
En algunas realizaciones, además de realizar una referencia cruzada del resultado AFI por parte del codificador de fonemas, el circuito de control 304 puede realizar una referencia cruzada de la base de datos 600 con el AFI que está cerca del resultado AFI por el codificador de fonemas. Esto puede tener en cuenta posibles errores en la 5 detección del habla o las formas diferentes en que las personas dicen ciertas palabras. Por ejemplo, el usuario puede expresar el término "bite", para el cual el codificador de fonemas produce la representación AFI como /bait/. Además de realizar una referencia cruzada del resultado del codificador de fonemas, /bait/, el circuito de control 304 puede también identificar otras AFIS que se acerquen a /bait/. Otra AFI de este tipo puede ser /brait/ (que se corresponde con la palabra "bright", que se acerca a "bite"). Por tanto, el circuito de control 304 puede recuperar de la base de 10 datos 600 todas las palabras que coinciden con ambas lecturas del AFI.
En algunas realizaciones, la base de datos 600 puede devolver al circuito de control 304 la palabra o palabras correspondientes a una secuencia de fonemas dada. Por ejemplo, para el AFI de duk, la base de datos 600 puede devolver solo una palabra que coincide, "duke". Para el AFI de /yukun/, la base de datos 600 puede devolver 15 múltiples palabras junto con una indicación de que el AFI recibido es una palabra heterógrafa. Específicamente, la base de datos 600 puede devolver el conjunto de palabras "Yukon" y "Uconn". En respuesta a recibir la indicación de la base de datos 600 de que una de las secuencias de fonemas coincide con un conjunto de palabras heterógrafas, el circuito de control 304 puede procesar cada palabra en el conjunto de palabras heterógrafas con otras palabras recibidas en la expresión para seleccionar la palabra apropiada. En algunas implementaciones, el circuito de control 20 304 puede usar un gráfico de conocimiento 500 para determinar qué palabra en el conjunto de palabras heterógrafas era a la que se refería el usuario que expresó la palabra con base en su relación con otras palabras expresadas por el usuario.
En algunas realizaciones, el circuito de control 304 puede identificar un contexto para la primera palabra y puede 25 determinar qué palabra en el conjunto de palabras heterógrafas era a la que se refería el usuario que expresión la palabra con base en si la palabra se asocia con el contexto de la primera palabra. Por ejemplo, el circuito de control 304 puede determinar que la palabra "duke" es una universidad. Por tanto, el circuito de control 304 puede establecer el contexto para que sea universidades o deportes universitarios. El circuito de control 304 puede determinar si la palabra "Yukon" o la palabra "Uconn" se asocian con el contexto universidades o el contexto 30 deportes universitarios. En respuesta a la determinación de que la palabra "uconn" se asocia con el mismo contexto que la palabra "duke" y que la palabra "Yukon no lo hace, el circuito de control 304 puede seleccionar la combinación de palabras "Duke" y "Uconn" para su procesamiento como la instrucción a la que se refería el usuario.
En algunas realizaciones, el circuito de control 304 puede identificar un contexto para la palabra en el conjunto de 35 palabras heterógrafas a la que se refería el usuario que expresó la palabra con base en una conjunción usada en la frase expresada por el usuario entre la palabra en el heterógrafo y otra palabra. Por ejemplo, el circuito de control 304 puede determinar que la conjunción usada en la frase "Duke v. Uconn" era "v.". El circuito de control 304 puede realizar una referencia cruzada de "v." con una tabla de búsqueda de conjunciones para determinar el contexto para la conjunción. Por ejemplo, el circuito de control 304 puede determinar con base en la tabla de búsqueda que la 40 conjunción "v." normalmente representa una competición, como un evento deportivo. Por tanto, el circuito de control 304 puede establecer que el contexto es competiciones. El circuito de control 304 puede determinar si la palabra "Yukon" o la palabra "Uconn" se asocian con el contexto de competiciones. Específicamente, el circuito de control 304 puede determinar que la palabra "uconn" se asocia con el contexto de competiciones, ya que Uconn es una universidad que normalmente se conoce por competir en deportes, y la palabra "Yukon" no lo es (ya que los ríos no 45 son conocidos por sus competiciones). Por tanto, el circuito de control 304 puede seleccionar la combinación de palabras "Duke" y "Uconn" para procesarse como la entrada a la que se refería el usuario, y no "Duke" y "Yukon".
En algunas realizaciones, el gráfico de conocimiento 500 puede asignar una colección de palabras y sus relaciones entre ellas usando entradas para cada palabra. Específicamente, una entrada 510 en el gráfico de conocimiento 50 puede incluir una palabra 520 y su representación AFI 530 correspondiente. Aunque la representación AFI se muestra en el gráfico de conocimiento 500, puede utilizarse cualquier otro tipo de sistema de codificación o representación fonética (por ejemplo, SAMPA, XSAMPA, Arpabet, extAFI, Kirshenbaum, etc.). Una primera entrada se conecta con una segunda entrada mediante una línea ponderada 540. Por ejemplo, la entrada 510 para la palabra "Duke" puede estar conectada mediante la línea 540 que tiene un peso de "1" a la entrada para la palabra 55 "universidad". Un peso bajo de la línea puede indicar una relación más fuerte o mayor entre las dos palabras. Debido a que Duke es una universidad, el peso de la línea que conecta las dos entradas en el gráfico de conocimiento 500 se establece para que tenga el valor máximo de "1". De forma similar, la entrada para la palabra "Duke" se conecta a una entrada 580 para la palabra "uconn" mediante una línea 550 que tiene un peso de "2" porque hay una relación más débil entre la universidad Duke y la universidad Uconn. La falta de una conexión visual en el gráfico de 60 conocimiento 500 entre las dos entradas indica que las dos entradas se conectan mediante una línea con un peso
infinito, lo que significa que las dos palabras correspondientes no están relacionadas entre ellas. Como se ve en el gráfico de conocimiento 500, las dos palabras "Uconn" y "Yukon" tienen entradas correspondientes e idénticas representaciones AFI. Aunque las representaciones AFI son idénticas, las dos entradas están relacionadas con otras entradas mediante diferentes pesos porque las palabras correspondientes tienen significados diferentes.
5
En algunas realizaciones, los pesos entre las diferentes entidades en el gráfico de conocimiento 500 pueden cambiar a lo largo del tiempo. Por ejemplo, dos entidades que representan dos equipos pueden estar conectadas por un peso muy fuerte (por ejemplo, “2”) cuando los dos equipos estén en el mismo torneo. Sin embargo, cuando termina el torneo y los equipos ya no juegan entre ellos, los pesos entre las dos entidades en el gráfico de conocimiento 500 10 pueden ser mayores (por ejemplo, "100" o infinitas), lo que indica que las dos entidades están menos relacionadas entre ellas. Específicamente, la relación entre palabras y entidades en el gráfico de conocimiento 500 puede adaptarse a lo largo del tiempo.
En algunas realizaciones, el circuito de control 304 puede calcular una distancia entre dos o más palabras usando el 15 gráfico de conocimiento 500. Específicamente, el circuito de control 304 puede sumar los pesos a las líneas que conectan las diferentes entradas en el gráfico de conocimiento 500 para determinar la distancia más corta. Por ejemplo, si las entradas primera y segunda están separadas entre ellas en el gráfico de conocimiento 500 por otras tres entradas, el circuito de control 304 puede acumular las líneas que conectan cada una de las otras tres entradas para determinar la distancia entre la primera y la segunda entrada. Específicamente, la distancia entre la entrada 510 20 para la palabra "Duke" y la entrada 590 para la palabra "área" pueden calcularse como cuatro porque la entrada 510 está separada de la entrada 590 por la palabra "Carolina del Norte". Es decir, la distancia entre la entrada 510 y la entrada para "Carolina del Norte" es "1" y la distancia entre la entrada para "Carolina del Norte" y la entrada 590 es "3" lo que suma cuatro.
25 En algunas realizaciones, en respuesta a recibir una indicación de la base de datos 600 que una secuencia de fonemas coincide con múltiples palabras, el circuito de control puede primero seleccionar una primera palabra y procesar la primera palabra seleccionada con otra palabra que se corresponda a una secuencia de fonemas diferentes. Por ejemplo, el circuito de control puede primer seleccionar la palabra "Yukon" en el conjunto de palabras heterógrafas y combinar la palabra seleccionada con una palabra de destino que coincide con una secuencia de 30 fonemas diferente a la recibida (por ejemplo, "duke") para determinar su relación. El circuito de control 304 puede usar el gráfico de conocimiento 500 para calcular la distancia entre la combinación de palabras "duke" y "Yukon" para determinar cuán cerca o lejos están las palabras la una de la otra en un gráfico de conocimiento 500. En particular, el circuito de control 304 puede determinar que la distancia más corta en el gráfico de conocimiento 500 entre las entidades correspondientes a la palabra "duke" y la palabra "Yukon" es de cinco (por ejemplo, el peso de la línea o 35 conexión entre la entidad para la palabra "Duke" a la entidad para la palabra "Carolina del Norte" es de 1; el peso de la línea o conexión entre la entidad para la apalabra "Carolina del Norte" a la entidad para la palabra "área" es de 3; y el peso de la línea o conexión entre la entidad para la palabra "área" a la entidad para la palabra "Yukon" es de 1). El circuito de control 304 puede almacenar en el almacenamiento 308 ese valor de la distancia entre la primera palabra seleccionada "Yukon" y la palabra de destino "duke".
40
El circuito de control puede determinar si hay otras palabras en el conjunto de palabras heterógrafas para el cual determinar una distancia a la palabra de destino. En este caso, el circuito de control 304 tiene "Uconn" en el conjunto de palabras heterógrafas que queda por procesar con la palabra de destino. El circuito de control puede a continuación seleccionar la palabra "Uconn" en el conjunto de palabras heterógrafas y combinar la palabra 45 seleccionada con una palabra de destino (por ejemplo, "duke") para determinar su relación. El circuito de control 304 puede usar el gráfico de conocimiento 500 para calcular la distancia entre la combinación de palabras "duke" y "Uconn" para determinar cuán cerca o lejos están las palabras entre ellas en un gráfico de conocimiento 500. En particular, el circuito de control 304 puede determinar que la distancia más corta en el gráfico de conocimiento 500 entre las entidades correspondientes a la palabra "Uconn" es 2 (por ejemplo, el peso de la línea o conexión 550 entre 50 la entidad para la palabra "Duke" a la entidad para la palabra "Uconn" es "1"). El control 304 puede almacenar en el almacenamiento 308 ese valor de la distancia entre la palabra "Uconn" y la palabra de destino "duke".
El circuito de control 304 puede comparar la distancia entre cada palabra en el conjunto de palabras heterógrafas y la palabra de destino. El circuito de control 304 puede seleccionar como la combinación a la que se refería el usuario la 55 palabra en el conjunto de palabras heterógrafas que tiene la distancia más pequeña a la palabra de destino (la palabra que está más estrechamente relacionada con la palabra de destino). En este caso, el circuito de control 304 puede determinar que la combinación a la que se refería el usuario para las expresiones /duke/ y /yukon/ se corresponde a "duke" y "uconn" en vez de "duke" y "yukon". El circuito de control 304 puede entonces proporcionar esta combinación a la aplicación de guía de medios para realizar una función de la guía de medios sobre la 60 combinación (por ejemplo, realizar una búsqueda o recomendación). Por ejemplo, la aplicación de guía de medios
puede generar una pantalla de próximos eventos deportivos entre los dos equipos de evento deportivo ("Duke" y "Uconn").
En algunas realizaciones, la base de datos 600 puede devolver al circuito de control 304 múltiples palabras para 5 cada expresión o secuencia de fonemas que el circuito de control 304 proporcione a la base de datos 600. Por ejemplo, las múltiples palabras que se corresponden con una expresión dada pueden ser el resultado de que el circuito de control 304 proporcione secuencias de fonemas que están cerca entre ellas para una expresión. En tales circunstancias, el circuito de control 304 puede calcular una distancia entre cada combinación de palabras que coinciden para seleccionar la palabra que tenga la distancia más corta (por ejemplo, la combinación de palabras que 10 están relacionadas más estrechamente entre ellas). Por ejemplo, el circuito de control 304 puede proporcionar una primera secuencia de fonemas /a/ y una segunda secuencia de fonemas /b/ a la base de datos 600. La base de datos 600 en respuesta puede devolver un primer conjunto de palabras que coincida con la primera secuencia de fonemas (por ejemplo, las palabras A, B y C) y un segundo conjunto de palabras que coincida con la segunda secuencia de fonemas (por ejemplo, las palabras D y E). Como resultado, el circuito de control 304 puede generar 15 seis combinaciones de palabras (por ejemplo, combinación 1: A+D; combinación 2: B+D; combinación 3: C+D; combinación 4: A+E; combinación 5: B+E; y combinación 6: C+E). El circuito de control 304 puede determinar una distancia entre cada palabra en cada combinación usando el gráfico de conocimiento 500. Por ejemplo, el circuito de control 304 puede determinar que las palabras en las combinaciones 1-6 tienen las distancias respectivas de 3, 2, 5, 10, 8 y 50. En respuesta a determinar que las palabras en la combinación 2 tienen la distancia más corta y por tanto 20 están relacionadas más estrechamente, el circuito de control 304 puede seleccionar automáticamente la combinación 2 para su posterior procesamiento como la combinación a la que se refería el usuario.
Por tanto, sin recibir la instrucción del usuario después de recibir la entrada verbal inicial con la frase "Duke v. Uconn", el circuito de control 304 puede producir los resultados de una búsqueda con las palabras "Duke" y "Uconn" 25 incluso aunque la palabra "Uconn" está en un conjunto de palabras heterógrafas. Es decir, el usuario no necesita estar implicado para resolver la ambigüedad de si el usuario se refería a "uconn" la universidad o "yukon" el río para que el circuito de control 304 proporcione el resultado deseado (por ejemplo, la universidad "Uconn"). Esto es porque el circuito de control 304 determina cuál de las múltiples palabras en el conjunto de palabras heterógrafas es más probablemente la palabra deseada con base en otra información contextual, como otras palabras en la entrada 30 verbal y su relación con cada palabra en el conjunto de palabras heterógrafas.
La memoria puede ser un dispositivo de almacenamiento electrónico proporcionado como almacenamiento 308 que es parte del circuito de control 304. Como se denomina en el presente documento, la frase "dispositivo de almacenamiento electrónico" o "dispositivo de almacenamiento" debería comprenderse como cualquier dispositivo 35 para almacenar datos electrónicos, software informático, o firmware, como una memoria de acceso aleatorio, memoria solo lectura, discos duros, unidades de disco ópticas, grabadores de disco de vídeo digital (DVD), grabadores de disco compacto (CD), grabadores de disco BLU-RAY, grabadores de disco BLU RAY 3D, grabadores de vídeo digital (DVR, a veces llamado grabador de vídeo personal, o PVR), dispositivos en estado sólido, dispositivos de almacenamiento quantum, consolas de vídeo juegos, medios de juego, o cualquier otro dispositivo de 40 almacenamiento fijo o extraíble y/o cualquier combinación de los mismos. El almacenamiento 308 puede usarse para almacenar varios tipos de contenido descritos en el presente documento y los datos de la guía de medios descrita anteriormente. Por ejemplo, el almacenamiento 308 puede usarse para almacenar la base de datos 600. La base de datos 600 puede incluir múltiples entradas. Cada entrada puede incluir un campo de secuencia de fonemas y un campo con las correspondientes palabras/palabras heterógrafas. El campo de secuencia de fonemas representa una 45 expresión recibida y el campo de palabras/palabras heterógrafas puede identificar la representación textual de la palabra o palabras que coinciden con la secuencia de fonemas. El almacenamiento 308 puede también usarse para almacenar el gráfico de conocimiento 500 (fig. 5) que almacena una relación ponderada entre las diferentes palabras. También puede usarse una memoria no volátil (por ejemplo, para iniciar una rutina de arranque y otras instrucciones). Puede usarse el almacenamiento basado en la nube, descrito en relación con la fig. 4, para 50 complementar el almacenamiento 308 o en vez del almacenamiento 308.
El circuito de control 304 puede incluir un circuito generador de vídeo y un circuito de sintonización, como uno o más sintonizadores analógicos, uno o más decodificadores MPEG-2, u otro circuito de decodificación digital, sintonizadores de alta definición, o cualquier otro circuito de sintonización o vídeo adecuado o combinaciones de 55 dichos circuitos. Puede proporcionarse también un circuito de codificación (por ejemplo, para convertir señales en el aire, analógicas o digitales a señales MPEG para su almacenamiento). El circuito de control 304 puede incluir también un circuito escalador para convertir en sentido ascendente y descendente contenido en el formato de salida preferido del equipo 300 del usuario. El circuito 304 puede también incluir un circuito convertidor digital a analógico y convertidor analógico a digital para convertir entre señales digitales y analógicas. El circuito de sintonización y 60 codificación puede ser usado por el dispositivo equipo de usuario para recibir y mostrar, reproducir o grabar
contenido. El circuito de sintonización y codificación también puede usarse para recibir datos de guía. El circuito descrito en el presente documento, incluyendo, por ejemplo, el circuito de sintonización, de generación de vídeo, de codificación, de decodificación, de cifrado, de descifrado, escalador y análogo/digital, puede implementarse usando un software que se ejecute en uno o más procesadores de uso general o especializados. Pueden proporcionarse 5 múltiples sintonizadores para gestionar las funciones de sintonización simultáneas (por ejemplo, las funciones ver y grabar, las funciones imagen en imagen (PIP), grabación con sintonizador múltiple, etc.). Si el almacenamiento 308 se proporciona como un dispositivo independiente del equipo 300 del usuario, el circuito de sintonización y decodificación (incluyendo múltiples sintonizadores) puede asociarse con el almacenamiento 308.
10 Un usuario puede enviar instrucciones el circuito de control 304 usando la interfaz de entrada 310 del usuario. La interfaz de entrada 310 del usuario puede ser cualquier interfaz de usuario adecuada, como un mando a distancia, ratón, trackball, teclado, stylus, joystick, interfaz de reconocimiento de voz, micrófono u otras interfaces de entrada de usuario. La pantalla 312 puede proporcionarse como dispositivo independiente o integrado con otros elementos del dispositivo equipo de usuario 300. Por ejemplo, la pantalla 312 puede ser una pantalla táctil o un dispositivo sensible 15 al tacto. En tales circunstancias, la interfaz de entrada 312 de usuario puede integrase o combinarse con la pantalla 312. La pantalla 312 puede ser cualquiera o más de entre un monitor, una televisión, una pantalla de cristal líquido (LCD) de un dispositivo móvil, una pantalla de silicio amorfo, una pantalla de poli silicio de baja temperatura, una pantalla de tinta electrónica, una pantalla electroforética, una pantalla de matriz activa, una pantalla de humectación eléctrica, una pantalla electrofluida, una pantalla de tubos de rayos catódicos, una pantalla de diodos emisores de 20 luz, una pantalla electroluminiscente, un panel de pantalla de plasma, una pantalla de direccionamiento de alto rendimiento, una pantalla transistora de película delgada, una pantalla de diodos emisores de luz orgánicos, una pantalla emisora de electrones de conducción por superficie (SED), una televisión láser, nanotubos de carbono, pantalla de puntos cuánticos, pantalla moduladora interferométrica, o cualquier otro equipo adecuado para mostrar imágenes visuales. En algunas realizaciones, la pantalla 312 puede ser apta para HDTV. En algunas realizaciones la 25 pantalla 312 puede ser una pantalla 3D, y la aplicación interactiva de guía de medios y cualquier otro contenido adecuado puede mostrarse en 3D. Una tarjeta de vídeo o tarjeta gráfica puede generar la salida a la pantalla 312. La tarjeta de vídeo puede ofrecer varias funciones como una renderización acelerada de las escenas 3D y los gráficos en 2D, decodificación MPEG-2/MPEG-4, salida de TV, o la capacidad de conectar múltiples monitores. La tarjeta de vídeo puede ser cualquiera de los circuitos de procesamiento descritos anteriormente en relación con el circuito de 30 control 304. La tarjeta de vídeo puede integrarse con el circuito de control 304. Pueden proporcionarse altavoces 314 integrados con otros elementos del dispositivo equipo de usuario 300 o pueden ser unidades independientes. El componente de audio de los vídeos y otros contenidos mostrados en la pantalla 312 puede reproducirse a través de los altavoces 314. En algunas realizaciones, el audio puede distribuirse a un receptor (no mostrado), que procesa y produce el audio a través de los altavoces 314.
35
La aplicación de guía puede implementarse usando cualquier arquitectura adecuada. Por ejemplo, puede ser una aplicación independiente completamente implementada en el dispositivo equipo de usuario 300. En dicho enfoque, las instrucciones de la aplicación se almacenan localmente (por ejemplo, en el almacenamiento 308), y los datos que utilizará la aplicación se descargan periódicamente (por ejemplo, desde una alimentación fuera de banda, desde un 40 recurso de Internet, o usando otro enfoque adecuado). El circuito de control 304 puede recuperar las instrucciones de la aplicación desde el almacenamiento 308 y procesar las instrucciones para generar cualquiera de las pantallas explicadas en el presente documento. En base a las instrucciones procesadas, el circuito de control 304 puede determinar qué acción realizar cuando se recibe una entrada desde la interfaz de entrada 310. Por ejemplo, el movimiento de un cursor en una pantalla hacia arriba o hacia abajo puede indicarse mediante las instrucciones 45 procesadas cuando la interfaz de entrada 310 indica que se seleccionó un botón arriba/abajo.
En algunas realizaciones, la aplicación de guía de medios es una aplicación basada en cliente-servidor. Los datos para su uso por un cliente complejo o sencillo implementado en el dispositivo de equipo de usuario 300 se recuperan bajo demanda emitiendo solicitudes a un servidor remoto al dispositivo equipo de usuario 300. En un ejemplo de una 50 aplicación guía basada en cliente-servidor, el circuito de control 304 ejecuta un navegador web que interpreta las páginas web proporcionadas por un servidor remoto. Por ejemplo, el servidor remoto puede almacenar las instrucciones para la aplicación en un dispositivo de almacenamiento. El servidor remoto puede procesar las instrucciones almacenadas usando el circuito (por ejemplo, el circuito de control 304) y generar las pantallas explicadas anteriormente y más adelante. El dispositivo cliente puede recibir las pantallas generadas por el servidor 55 remoto y puede mostrar el contenido de las pantallas localmente en el dispositivo equipo 300. De esta forma, el procesamiento de las instrucciones se realiza remotamente por el servidor mientras que las pantallas resultantes se proporcionan localmente en el dispositivo equipo 300. El dispositivo equipo 300 puede recibir entradas por parte del usuario desde la interfaz de entrada 310 y transmitir esas entradas al servidor remoto para el procesamiento y generación de las pantallas correspondientes. Por ejemplo, el dispositivo equipo 300 puede transmitir una 60 comunicación al servidor remoto indicando que se seleccionó un botón arriba/abajo a través de la interfaz de entrada
310. El servidor remoto puede procesar las instrucciones de acuerdo con esa entrada y generar una pantalla de la aplicación que se corresponde con la entrada (por ejemplo, una pantalla que mueve un cursor arriba/abajo). La pantalla generada luego se transmite al dispositivo equipo 300 para su presentación al usuario.
5 En algunas realizaciones, la aplicación de guía de medios se descarga e interpreta o se ejecuta mediante un interpretador o máquina virtual (ejecutada por el circuito de control 304). En algunas realizaciones, la aplicación de guía puede codificarse en el Formato de Intercambio Binario ETV (EBIF), recibido por el circuito de control 304 como parte de una fuente adecuada, e interpretarse por un agente usuario que se ejecuta en el circuito de control 304. Por ejemplo, la aplicación guía puede ser una aplicación EBIF. En algunas realizaciones, la aplicación guía puede 10 definirse mediante una serie de archivos basados en JAVA que se reciben y se ejecutan en una máquina virtual u otro middleware adecuado ejecutado mediante el circuito de control 304. En algunas de dichas realizaciones (por ejemplo, aquellas que emplean MPEG-2 u otros esquemas de codificación de medios), la aplicación guía puede, por ejemplo, codificarse y transmitirse en un carrusel de objetos MPEG-2 con el audio MPEG y los paquetes de vídeo de un programa.
15
El dispositivo equipo de usuario 300 de la fig. 3 puede implementarse en el sistema 400 de la fig. 4, como equipo de televisión 402 del usuario, equipo de ordenador del usuario 404, dispositivo de comunicaciones inalámbricas del usuario 406, o cualquier otro equipo de equipo de usuario adecuado para acceder al contenido, como una máquina de juego no portátil. Con fines de simplicidad, estos dispositivos pueden denominarse en el presente documento de 20 forma colectiva como equipo o dispositivos equipos de usuario, y pueden ser sustancialmente similares a los dispositivos equipos de usuario descritos anteriormente. Los dispositivos equipos de usuario sobre los cuales puede implementarse la aplicación guía de medios pueden funcionar como dispositivo independiente o ser parte de una red de dispositivos. Pueden implementarse varias configuraciones de red de los dispositivos y se explican con más detalle a continuación.
25
Un dispositivo equipo de usuario que utiliza al menos algunas de las características del sistema descritas anteriormente en conexión con la fig. 3 no pueden clasificarse únicamente como equipo de televisión de usuario 402, equipo de ordenador de usuario 404, o un dispositivo de comunicaciones inalámbricas de usuario 406. Por ejemplo, el equipo de televisión de usuario 402 puede, como algún equipo de ordenador de usuario 404, estar habilitado para 30 Internet, permitiendo el acceso al contenido de Internet, mientras que el equipo de ordenador de usuario 404 puede, como algunos equipos de televisión 402, incluir un sintonizador que permite el acceso a la programación de televisión. La aplicación guía de medios puede tener la misma distribución en varios tipos diferentes de equipos de usuario o pueden estar hechos a medida de las capacidades del equipo de usuario. Por ejemplo, en el equipo de ordenador de usuario 404, la aplicación de guía puede proporcionarse como un sitio web al que se accede mediante 35 un navegador web. En otro ejemplo, la aplicación de guía pude reducirse para los dispositivos de comunicaciones inalámbricas del usuario 406.
En el sistema 400, normalmente hay más de uno de cada tipo de dispositivo de equipo de usuario, pero solo uno de cada uno se muestra en la fig. 4 para evitar complicar en exceso el dibujo. Además, cada usuario puede utilizar más 40 de un tipo de dispositivo equipo de usuario y también más de cada tipo de dispositivo equipo de usuario.
En algunas realizaciones, un dispositivo equipo de usuario (por ejemplo, equipo de televisión de usuario 402, equipo de ordenador de usuario 404, dispositivos de comunicaciones inalámbricas de usuario 406) puede denominarse como un "segundo dispositivo de pantalla". El contenido presentado en el segundo dispositivo pantalla puede ser 45 cualquier contenido adecuado que complemente el contenido presentado en el primer dispositivo. En algunas realizaciones, el segundo dispositivo pantalla proporciona una interfaz para ajustar los ajustes y las preferencias de la pantalla del primer dispositivo. En algunas realizaciones, el segundo dispositivo pantalla se configura para que interactúe con otros segundos dispositivos pantalla o para interactuar con una red social. El segundo dispositivo pantalla puede estar situado en la misma habitación que el primer dispositivo, en una habitación diferente a la del 50 primer dispositivo, pero en la misma casa o edificio, o en un edificio diferente al del primero dispositivo. En algunas realizaciones, el segundo dispositivo pantalla puede proporcionar entrada verbal al primer dispositivo. En algunas realizaciones, el segundo dispositivo pantalla puede ser un cliente sencillo que no puede realizar reconocimiento de voz o ASR, sino que simplemente envía las expresiones recibidas de un usuario al primer dispositivo. El primer dispositivo puede incluir la capacidad para realizar ASR sobre las expresiones recibidas con el segundo dispositivo 55 de pantalla. En tales casos, el primer dispositivo puede ser un servidor local o remoto. En algunas realizaciones, el segundo dispositivo pantalla puede incluir capacidad completa para realizar ASR sobre una expresión recibida y puede transmitir (si es necesario) las palabras correspondientes al primer dispositivo para su posterior procesamiento.
60 El usuario también puede configurar varios ajustes para mantener los ajustes de la aplicación de guía de medios
consistentes entre los dispositivos locales y los dispositivos remotos. Los ajustes pueden incluir aquellos descritos en el presente documento, además de los canales y programas favoritos, las preferencias de programación que la aplicación de guía utiliza para realizar recomendaciones de programación, las preferencias de la pantalla y otros ajustes de guía deseables. Por ejemplo, si un usuario establece un canal como favorito en, por ejemplo, el sitio web 5
www.allrovi.com en su ordenador personal en su oficina, el mismo canal aparecerá como favorito en los dispositivos en casa del usuario (por ejemplo, el equipo televisión del usuario y el equipo ordenador del usuario), además de en los dispositivos móviles del usuario, si se desea. Por tanto, los cambios realizados en el dispositivo equipo de usuario pueden cambiar la experiencia de la guía en otro dispositivo de equipo de usuario, sin importar si es el mismo tipo o un tipo diferente de dispositivo equipo de usuario. Además, los cambios realizados pueden basarse en la entrada de 10 ajustes de un usuario, y en la actividad monitorizada por la aplicación de guía.
Los dispositivos equipo de usuario pueden conectarse a una red de comunicaciones 414. Es decir, el equipo televisión de usuario 402, el equipo ordenador de usuario 404, y el dispositivo de comunicaciones inalámbricas 406 del usuario se conectan a la red de comunicaciones 414 a través de rutas de comunicaciones 408, 410 y 412, 15 respectivamente. La red de comunicaciones 414 puede ser una o más redes incluyendo el Internet, una red de telefonía móvil, una red móvil de voz o datos (por ejemplo, una red 4G, XLTE y/o LTE), red por cable, red telefónica conmutada pública u otros tipos de redes de comunicaciones o combinaciones de redes de comunicaciones. Las rutas 408, 410 y 412 pueden incluir por separado o juntas una o más rutas de comunicaciones, como ruta por satélite, una ruta de fibra óptica, una ruta por cable, una ruta que admita comunicaciones de Internet (por ejemplo, 20 IPTV), conexiones de espacio libre (por ejemplo, señales de transmisión u otras señales inalámbricas), o cualquier otra ruta de comunicaciones cableada o inalámbricas o una combinación de dichas rutas. La ruta 412 se dibuja con líneas discontinuas para indicar que en la realización ejemplar mostrada en la fig. 4 es una ruta inalámbrica y las rutas 408 y 410 se dibujan como líneas continuas para indicar que son rutas cableadas (aunque estas rutas pueden ser rutas inalámbricas si así se desea).
25
Las comunicaciones con los dispositivos equipo de usuario pueden proporcionarse por una o más de estas rutas de comunicaciones, pero se muestran como una ruta única en la fig. 4 para evitar complicar excesivamente el dibujo.
Aunque las rutas de comunicaciones no se dibujan entre los dispositivos equipo de usuario, estos dispositivos 30 pueden comunicarse directamente con cada una de las rutas de comunicación, como aquellas descritas anteriormente en conexión con las rutas 408, 410 y 412, además de otras rutas de comunicación de rango corto, como cables USB, cables IEEE 1394, rutas inalámbricas (por ejemplo, Bluetooth, infrarrojo, IEEE 802-11x, etc.), otra comunicación de rango corto mediante rutas cableadas o inalámbricas. BLUETOOTH es una marca de certificación propiedad de Bluetooth SIG, INC. Los dispositivos equipo de usuario pueden comunicarse también entre ellos 35 directamente a través de una ruta indirecta mediante la red de comunicaciones 414.
El sistema 400 incluye una fuente de contenidos 416 y una fuente de datos de guía de medios 418 conectada con la red de comunicaciones 414 mediante las rutas de comunicación 420, y 422, respectivamente. Las rutas 420 y 422 pueden incluir cualquiera de las rutas de comunicación descritas anteriormente en conexión con las rutas 408, 410 y 40 412. Las comunicaciones con la fuente de contenidos 416 y la fuente de datos de guía de medios 418 puede intercambiarse sobre una o más rutas de comunicaciones, pero se muestran como una ruta única en la fig. 4 para evitar complicar el dibujo en exceso. Además, puede haber más de una de cada fuente de contenidos 416 y fuente de datos de guía de medios 418, pero solo se muestra una de cada una en la fig. 4 para evitar complicar el dibujo en exceso. (Los diferentes tipos de cada una de estas fuentes se explican a continuación). Si se desea, la fuente de 45 contenidos 416 y la fuente de datos de guía de medios 418 pueden integrarse como un dispositivo de origen. Aunque las comunicaciones entre las fuentes 416 y 418 con los dispositivos equipo de usuario 402, 404 y 406 se muestran como a través de la red de comunicaciones 414, en algunas realizaciones, las fuentes 416 y 418 pueden comunicarse directamente con los dispositivos equipo de usuario 402, 404 y 406 a través de las rutas de comunicación (no mostradas) como aquellas descritas anteriormente en conexión con las rutas 408, 410 y 412.
50
La fuente de contenidos 416 puede incluir uno o más tipos de equipo de distribución de contenidos incluyendo instalación de distribución de televisión, cabecera de sistema por cable, instalación de distribución por satélite, fuentes de programación (por ejemplo, operadores de televisión, como NBC, ABC, HBO, etc.), instalación de distribución intermedias y/o servidores, proveedores de Internet, servidores de medios bajo demanda, y otros 55 proveedores de contenidos. NBC es una marca comercial propiedad de National Broadcasting Company, Inc., ABD es una marca comercial propiedad de American Broadcasting Company, Inc., y HBO es una marca comercial propiedad de Home Box Office, Inc. La fuente de contenidos 416 puede ser la originadora del contenido (por ejemplo, un operador de televisión, un proveedor de Webcast, etc.), o puede no ser la originadora del contenido (por ejemplo, un proveedor de contenido bajo demanda, un proveedor de contenido de Internet de programas de transmisión para 60 descargar, etc.). La fuente de contenidos 416 puede incluir fuentes por cable, proveedores de satélite, proveedores
bajo demanda, proveedores de Internet, proveedores de contenido over-the-top, y otros proveedores de contenidos. La fuente de contenidos 416 puede también incluir un servidor de medios remoto usado para almacenar diferentes tipos de contenido (incluyendo contenido de vídeo seleccionado por un usuario), en una ubicación remota desde cualquiera de los dispositivos equipo de usuario. Los sistemas y métodos para el almacenamiento remoto de 5 contenidos, y proporcionar remotamente el contenido almacenado al equipo de usuario se explican con mayor detalle en conexión con Ellis et al., patente de EE. UU. n° 7.761.892, emitida el 20 de julio del 2010.
La fuente de datos de guía de medios 418 puede proporcionar datos de guía de medios, como los datos de guía de medios descritos anteriormente. Los datos de guía de medios pueden proporcionarse a los dispositivos equipo de 10 usuario usando cualquier enfoque adecuado. En algunas realizaciones, la aplicación de guía puede ser una guía de programación de televisión interactiva independiente que recibe los datos de guía del programa a través de una fuente de datos (por ejemplo, una fuente continua o una fuente lenta). Los datos de programación del programa y otros datos de la guía pueden ser proporcionadas al equipo de usuario en una banda lateral de canal de televisión, usando una señal digital en banda, usando una señal digital fuera de banda u otra técnica de transmisión de datos 15 adecuada. Los datos de programación del programa pueden proporcionarse al equipo de usuario en múltiples canales de televisión analógicos o digitales. Los datos de guía de medios pueden proporcionarse a los dispositivos equipo de usuario usando cualquier enfoque adecuado.
En algunas realizaciones, los datos de guía de la fuente de datos de guía de medios 418 pueden proporcionarse al 20 equipo de usuario usando un enfoque cliente-servidor. Por ejemplo, un dispositivo equipo de usuario puede extraer datos de guía de medios desde un servidor, un servidor puede introducir datos de guía de medios a un dispositivo equipo de usuario. En algunas realizaciones, un cliente de aplicación de guía que reside en el equipo de usuario puede iniciar sesiones con la fuente 418 para obtener datos de guía cuando se necesiten, por ejemplo, cuando los datos de guía están obsoletos o cuando el equipo de usuario recibe una solicitud desde el usuario para recibir datos. 25 La guía de medios puede proporcionarse al equipo de usuario con cualquier frecuencia adecuada (por ejemplo, continuamente, diariamente, en un periodo de tiempo especificado por el usuario, en un periodo de tiempo especificado por el sistema, en respuesta a una solicitud del equipo de usuario, etc.). La fuente de datos de la guía de medios 418 puede proporcionar a los dispositivos equipo de usuario 402, 404 y 406 la aplicación de guía de medios en sí misma o actualizaciones de software para la aplicación de guía de medios.
30
Las aplicaciones de guía de medios pueden ser, por ejemplo, aplicaciones independientes implementadas en dispositivos equipo de usuario. Por ejemplo, la aplicación de guía de medios puede implementarse como software o como un conjunto de instrucciones ejecutables que pueden almacenarse en el almacenamiento 308, y ejecutarse por el circuito de control 304 del dispositivo equipo de usuario 300. En algunas realizaciones, las aplicaciones de guía de 35 medios pueden ser aplicaciones cliente-servidor donde solo una aplicación cliente reside en el dispositivo equipo de usuario, y una aplicación servidor reside en un servidor remoto. Por ejemplo, las aplicaciones de guía de medios pueden implementarse parcialmente como una aplicación cliente en el circuito de control 304 del equipo de usuario 300 y parcialmente en un servidor remoto como una aplicación servidor (por ejemplo, fuente de datos de guía de medios 418) que se ejecuta en el circuito de control del servidor remoto. Cuando se ejecuta por el circuito de control 40 del servidor remoto (como fuente de datos de guía de medios 418), la aplicación de guía puede dar instrucciones al circuito de control para que genere las pantallas de la aplicación de guía y transmitir las pantallas generadas a los dispositivos equipo de usuario. La aplicación del servidor puede dar instrucciones al circuito de control de la fuente de datos de guía de medios 418 para que transmita datos para su almacenamiento en el equipo del usuario. La aplicación cliente puede dar instrucciones al circuito de control del equipo de usuario receptor para que genere las 45 pantallas de la aplicación de guía y procese la entrada verbal.
El contenido y/o los datos de guía de medios entregados a los dispositivos de equipo de usuario 402, 404 y 406 puede ser contenido over-the-top (OTT). La entrega de contenido OTT permite a los dispositivos de usuario habilitados para Internet, incluyendo cualquier dispositivo equipo de usuario descrito anteriormente, recibir contenido 50 que se transfiere sobre Internet, incluyendo cualquier contenido descrito anteriormente, además del contenido recibido sobre conexiones por cable o satélite. El contenido OTT se entrega a través de una conexión de Internet proporcionada por un proveedor de servicios de Internet (ISP), pero un tercero distribuye el contenido. El ISP puede no ser responsable de las capacidades de visionado, derechos de autor, o redistribución del contenido, y puede solo transferir los paquetes IP proporcionados por el proveedor de contenido OTT. Ejemplos de proveedores de contenido 55 OTT incluyen YOUTUBE, nEtFLIX y HULU, que proporcionan audio y vídeo a través de paquetes IP. YouTube es una marca comercial propiedad de Google Inc., Netflix es una marca comercial propiedad de Netflix, Inc., y Hulu es una marca comercial propiedad de Hulu, LLC. Los proveedores de contenido OTT pueden proporcionar adicional o alternativamente los datos de guía de medios descritos anteriormente. Además del contenido y/o los datos de guía de medios, los proveedores de contenido OTT pueden distribuidor aplicaciones de guía de medios (por ejemplo, 60 aplicaciones basadas en web o aplicaciones basadas en la nube), o el contenido puede mostrarse mediante las
aplicaciones de guía de medios almacenadas en el dispositivo equipo de usuario.
El sistema de guía de medios 400 está pensado para ilustrar un número de enfoques, o configuraciones de red, mediante las cuales los dispositivos equipo de usuario y las fuentes de contenido y datos de guía pueden 5 comunicarse entre ellos con el fin de acceder al contenido y proporcionar guía de medios. Las realizaciones descritas en el presente documento pueden aplicarse en cualquiera o en un subconjunto de estos enfoques, o en un sistema que emplea otros enfoques para entregar el contenido y proporcionar guía de medios. Los siguientes cuatro enfoques proporcionan ilustraciones específicas del ejemplo generalizado de la fig. 4.
10 En un enfoque, los dispositivos equipo de usuario pueden comunicarse entre ellos dentro de una red doméstica. Los dispositivos equipo de usuario pueden comunicarse entre ellos directamente mediante los esquemas de comunicación punto a punto de rango corto descritos anteriormente, mediante rutas indirectas a través de un hub u otro dispositivo simular proporcionado en una red doméstica, o mediante la red de comunicaciones 414. Cada uno de los múltiples individuos en un único hogar puede operar diferentes dispositivos equipo de usuario en la red 15 doméstica. Como resultado, puede ser deseable que se comuniquen varias informaciones o ajustes de la guía de medios entre los diferentes dispositivos equipo de usuario. Por ejemplo, puede ser deseable que los usuarios mantengan ajustes de la aplicación de guía de medios consistentes en los diferentes dispositivos equipos de usuario en una red doméstica, como se describe con más detalle en Ellis et al., solicitud de patente de EE. UU. n° 11/179.410, presentada el 11 de julio del 2005. Diferentes tipos de dispositivos equipos de usuario en una red 20 doméstica pueden también comunicarse entre ellos para transmitir contenido. Por ejemplo, un usuario puede transmitir contenido desde el equipo ordenador de usuario a un reproductor de vídeo portátil o un reproductor de música portátil.
En un segundo enfoque, los usuarios pueden tener múltiples tipos de equipo de usuario mediante el cual pueden 25 acceder al contenido y obtener guía de medios. Por ejemplo, algunos usuarios pueden tener redes domésticas a las que se accede mediante dispositivos en el hogar y móviles. Los usuarios pueden controlar los dispositivos en el hogar mediante una aplicación de guía de medios implementada en un dispositivo remoto. Por ejemplo, los usuarios pueden acceder a una aplicación de guía de medios en un sitio web a través de un ordenador personal en su oficina, o un dispositivo móvil como un PDA o un teléfono móvil habilitado para la web. El usuario puede configurar varios 30 ajustes (por ejemplo, grabaciones, recordatorios u otros ajustes) en la aplicación de guía en línea para controlar el equipo de usuario en el hogar. La guía en línea puede controlar el equipo del usuario directamente o comunicándose con una aplicación de guía de medios en el equipo en el hogar del usuario. Varios sistemas y métodos para la comunicación de los dispositivos equipos de usuario, donde los dispositivos de equipos de usuario están en ubicaciones remotas entre ellos, se explican en, por ejemplo, Ellis et al., patente de EE. UU. n° 8.046.801, emitida el 35 25 de octubre del 2011.
En un tercer enfoque, los usuarios de los dispositivos equipos de usuario dentro o fuera de un hogar pueden usar su aplicación de guía de medios para comunicarse directamente con la fuente de contenidos 416 para acceder al contenido. Específicamente, dentro de un hogar, los usuarios del equipo televisión del usuario 402 y del equipo 40 televisión del usuario 404 pueden acceder a la aplicación de guía de medios para navegar por y encontrar el contenido deseado. Los usuarios pueden también acceder a la aplicación de guía de medios fuera del hogar usando dispositivos de comunicaciones inalámbricas 406 del usuario para navegar por y encontrar el contenido deseado.
En un cuarto enfoque, los dispositivos equipo de usuario pueden funcionar en un entorno de computación en la nube 45 para acceder a los servicios en la nube. En un entorno de computación en la nube, se proporcionan varios tipos de servicios de computación para el intercambio, almacenamiento o distribución del contenido (por ejemplo, sitios de intercambio de vídeo o sitios de redes sociales) mediante una colección de recursos de computación y almacenamiento accesibles por la red, conocidos como "la nube". Por ejemplo, la nube puede incluir una colección de dispositivos de computación en servidor, que pueden estar ubicados centralmente o en ubicaciones distribuidas, 50 que proporcionan servicios basados en la nube a varios tipos de usuarios y dispositivos conectados a través de una red como el Internet mediante la red de comunicaciones 414. Estos recursos en la nube pueden incluir una o más fuentes de contenido 416 y una o más fuentes de datos de guía de medios 418. Además, o como alternativa, los sitios de computación remota pueden incluir otros dispositivos equipo de usuario, como equipo televisión de usuario 402, equipo ordenador de usuario 404, y dispositivo de comunicaciones inalámbricas 406 de usuario. Por ejemplo, 55 los otros dispositivos equipos de usuario pueden proporcionar acceso a una copia almacenada de un vídeo o un vídeo retransmitido. En dichas realizaciones, los dispositivos equipo de usuario pueden operar de forma peer-to-peer sin comunicarse con un servidor central.
La nube proporciona acceso a los servicios, como el almacenamiento de contenido, intercambio de contenido, o 60 servicios de redes sociales, entre otros ejemplos, y acceso a cualquier contenido descrito anteriormente, para los
dispositivos equipo de usuario. Los servicios pueden proporcionarse en la nube a través de proveedores de servicio de computación en la nube, o a través de otros proveedores de servicios en línea. Por ejemplo, los servicios basados en la nube pueden incluir un servicio de almacenamiento de contenido, un sitio de intercambio de contenido, un sitio de red social, u otros servicios a través de los cuales el contenido obtenido del usuario se distribuye para su 5 visualización por otros en dispositivos conectados. Estos servicios basados en la nube pueden permitir que un dispositivo equipo de usuario almacene contenido en la nube y reciba contenido desde la nube en vez de almacenar el contenido localmente y acceder al contenido almacenado localmente.
Un usuario puede utilizar varios dispositivos para la captura de contenido, como videocámaras, cámaras digitales con 10 modo de vídeo, grabadores de audio, teléfonos móviles y dispositivos portátiles de computación, para grabar el contenido. El usuario puede subir contenido a un servicio de almacenamiento de contenido en la nube, directamente, por ejemplo, desde un equipo ordenador de usuario 404, o un dispositivo de comunicaciones inalámbricas 406 de usuario que tenga una función de captura de contenido. Alternativamente, el usuario puede primero transferir el contenido a un dispositivo equipo de usuario, como un equipo ordenador de usuario 404. El dispositivo equipo de 15 usuario que almacena el contenido sube el contenido a la nube usando un servicio de trasmisión de datos sobre la red de comunicaciones 414. En algunas realizaciones, el dispositivo equipo de usuario en sí mismo en un recurso en la nube, y otros dispositivos equipos de usuario pueden acceder al contenido directamente desde el dispositivo equipo de usuario en el cual el usuario almacenó el contenido.
20 El dispositivo equipo del usuario puede acceder a los recursos en la nube usando, por ejemplo, un navegador web, una aplicación de guía de medios, una aplicación de escritorio, una aplicación móvil, y/o cualquier comunicación de aplicaciones acceso de las mismas. El dispositivo equipo de usuario puede ser un cliente en la nube que dependa de la computación en la nube para la entrega de la aplicación, o el dispositivo equipo de usuario puede tener la misma funcionalidad sin acceso a los recursos en la nube. Por ejemplo, algunas aplicaciones que se ejecutan en el 25 dispositivo equipo de usuario pueden ser aplicaciones en la nube, es decir, aplicaciones entregadas como un servicio sobre Internet, mientras que otras aplicaciones pueden almacenarse y ejecutarse en el dispositivo equipo de usuario. En algunas realizaciones, el dispositivo de usuario puede recibir contenido de múltiples recursos en la nube simultáneamente. Por ejemplo, un dispositivo de usuario puede transmitir audio desde un recurso en la nube mientras descarga contenido desde un segundo recurso en la nube. O un dispositivo de usuario puede descargar 30 contenido desde múltiples recursos en la nube para una descarga más eficiente. En algunas realizaciones, los dispositivos equipos de usuario pueden usar recursos en la nube para procesar operaciones como las operaciones de procesamiento realizadas por el circuito de procesamiento descrito en relación con la fig. 3.
La fig. 7 es un diagrama de un proceso 700 para realizar ASR en la presencia de palabras heterógrafas de acuerdo 35 con algunas realizaciones de la divulgación. En la etapa 710, se recibe la entrada verbal del usuario que incluye una pluralidad de expresiones. Por ejemplo, un micrófono puede recibir una entrada verbal del usuario que incluye la frase "Duke v. Uconn".
En la etapa 720, se selecciona una de la pluralidad de expresiones. Por ejemplo, el circuito de control 304 puede 40 seleccionar la expresión correspondiente a "Duke". En la etapa 730, se genera una secuencia de fonemas para la expresión seleccionada. Por ejemplo, un codificador de fonema puede codificar la expresión que se corresponde con "Uconn" para representar las expresiones como la secuencia de fonemas /yukcn/.
En la etapa 740, la secuencia de fonemas se somete a una referencia cruzada con una base de datos para identificar
45 un conjunto de palabras que se corresponde con la secuencia de fonemas. Por ejemplo, el circuito de control 304
puede realizar una referencia cruzada de la secuencia de fonemas /duk/ con la base de datos 600 (fig. 6) para identificar el conjunto de palabras que se corresponde con la secuencia de fonemas. Por ejemplo, el conjunto de palabras puede incluir una palabra, "duke" que coincide con la secuencia de fonemas /duk/. De forma similar, el circuito de control 304 puede realizar una referencia cruzada de la secuencia de fonemas /yukun/ con la base de 50 datos 600 (fig. 6) para identificar el conjunto de palabras que se corresponde con la secuencia de fonemas. Por ejemplo, el conjunto de palabras puede incluir dos palabras, "Yukon" y "Uconn" que coinciden con la secuencia de fonemas /yukcn/.
En la etapa 750, se determina si permanecen expresiones adicionales. En respuesta a determinar que permanecen 55 expresiones adicionales, el proceso continúa a la etapa 720, de lo contrario el proceso continúa a la etapa 760.
En la etapa 760, se generan las combinaciones que incluyen una palabra de cada conjunto de palabras para cada
expresión. Por ejemplo, el circuito de control 304 puede generar una combinación que incluya las palabras "duke" y "Yukon" y otra combinación que incluya las palabras "duke" y "uconn".
En la etapa 770, se selecciona una de las combinaciones generadas.
En la etapa 780, se calcula una distancia entre las palabras en la combinación deseada usando un gráfico de conocimiento. Por ejemplo, el circuito de control 304 puede calcular una distancia entre las palabras en la 5 combinación de "duke" y "Yukon" para que sea "5". De forma similar, el circuito de control 304 puede calcular una distancia entre las palabras en la combinación de "duke" y "uconn" para que sea "2".
En la etapa 790, se determina si permanecen combinaciones adicionales. En respuesta a determinar que permanecen combinaciones adicionales, el proceso continúa a la etapa 770, de lo contrario el proceso continúa a la 10 etapa 792.
En la etapa 792, las distancias calculadas de cada combinación se comparan.
En la etapa 794, la combinación de palabras que tenga la distancia más pequeña se procesa como la entrada a la 15 que se refería el usuario. Por ejemplo, el circuito de control 304 puede seleccionar la combinación de las palabras "duke" y "uconn" con una distancia de "2" que es menor que "5", lo que indica que esta combinación de palabras es más relevante las unas para las otras. El circuito de control 304 puede realizar una función de la guía de medios usando la combinación seleccionada (por ejemplo, realizar una búsqueda o recomendación). Específicamente, en respuesta a recibir la entrada verbal del usuario con la frase "Duke v. Uconn", el circuito de control 304 puede 20 producir todos los partidos con estas dos universidades juntas sin entrada adicional del usuario, incluso si el término "uconn" en la frase es una palabra heterógrafa que fonéticamente coincide con múltiples palabras.
Las realizaciones descritas anteriormente de la presente divulgación se presentan con fines de ilustración y no de limitación, y la presente divulgación está limitada solo por las reivindicaciones que siguen. Además, debería tenerse 25 en cuenta que las características y limitaciones descritas en cualquiera de las realizaciones pueden aplicarse a cualquier otra realización de la presente divulgación, y los gráficos de flujo o los ejemplos que se relacionan con una realización pueden combinarse con cualquier otra realización de una forma adecuada, hacerse en diferente orden o hacerse en paralelo. Además, los sistemas y métodos descritos en el presente documento pueden realizarse en tiempo real. Debería tenerse en cuenta también que los sistemas y/o métodos descritos anteriormente pueden 30 aplicarse a, o usarse de acuerdo con, otros sistemas y/o métodos.

Claims (10)

  1. REIVINDICACIONES
    1. Un aparato para corregir automáticamente los errores del reconocimiento del habla, el aparato comprende:
    5
    medios (310) para recibir una entrada verbal del usuario que comprende una pluralidad de expresiones;
    medios (306) para hacer coincidir una primera pluralidad de expresiones con una primera palabra;
    medios (306) para determinar que una segunda expresión en la pluralidad de expresiones coincide con una
    pluralidad de palabras que está en el mismo conjunto de palabras heterógrafas;
    10 medios (308) para almacenar un gráfico de conocimiento de las relaciones entre las palabras, donde las distancias entre las palabras en el gráfico de conocimiento indican la fuerza en la relación entre las palabras; medios (306) para actualizar, en el gráfico de conocimiento, una o más de dichas distancias basadas en los datos de la guía de medios;
    medios (306) para identificar cuál de la pluralidad de palabras se asocia con un contexto de la primera palabra con 15 base en las distancias, en el gráfico de conocimiento, entre la primera palabra y las palabras en dicho conjunto de palabras heterógrafas; y,
    medios para realizar una función con base en la primera palabra y la identificada de la pluralidad de palabras; donde dichos medios para identificar comprenden:
    20
    medios para identificar las posiciones de la primera palabra en el gráfico de conocimiento y en cada pluralidad de palabras;
    medios para calcular, con base en las posiciones identificadas, una distancia entre la primera palabra y cada pluralidad de palabras; y
    25 medios para seleccionar, como la pluralidad de palabras identificada, la palabra en la pluralidad que tiene la distancia más corta que ha sido calculada a la primera palabra.
  2. 2. El aparato de la reivindicación 1, donde la pluralidad de palabras en el mismo conjunto de palabras heterógrafas es fonéticamente similar entre sí.
    30
  3. 3. El aparato de la reivindicación 1 o 2 que además comprende medios para generar una recomendación basada en la primera palabra y la identificada de la pluralidad de palabras.
  4. 4. El aparato de la reivindicación 1, 2 o 3, donde el medio para hacer coincidir la primera pluralidad de 35 expresiones a la primera palabra comprende un medio para determinar que la primera expresión se corresponde
    fonéticamente con la primera palabra.
  5. 5. El aparato de cualquiera de las reivindicaciones anteriores, donde el medio para realizar la función comprende medios para realizar una función de aplicación de guía de medios en un activo de medios que se
    40 corresponde con la primera palabra y la pluralidad de palabras identificadas.
  6. 6. Un método que comprende:
    recibir (710) una entrada verbal del usuario que comprende una pluralidad de expresiones;
    45 hacer coincidir (730) la primera pluralidad de expresiones a una primera palabra;
    determinar (760) que una segunda expresión en la pluralidad de expresiones coincide con una pluralidad de palabras que está en el mismo conjunto de palabras heterógrafas;
    almacenar un gráfico de conocimiento de las relaciones entre las palabras, donde las distancias entre las palabras en el gráfico de conocimiento indican la fuerza en las relaciones entre las palabras;
    50 actualizar, en el gráfico de conocimiento, dichas distancias con base en los datos de la guía de medios;
    identificar (780), con base en las distancias entre la primera palabra y las palabras en dicho conjunto de palabras heterógrafas cuál de la pluralidad de palabras se asocia con un contexto de la primera palabra; y realizar (794) una función basada en la primera palabra y la identificada de la pluralidad de palabras; donde dicha identificación comprende:
    55 identificar las posiciones de la primera palabra en el gráfico de conocimiento y cada una de las pluralidades de palabras;
    calcular (780), con base en las posiciones identificadas, una distancia entre la primera palabra y cada una de las pluralidades de palabras; y
    seleccionar, en la pluralidad de palabras identificada, la palabra en la pluralidad que tiene la distancia más corta, que 60 ha sido calculada, a la primera palabra.
  7. 7. El método de la reivindicación 6, donde la pluralidad de palabras en el mismo conjunto de palabras
    heterógrafas son fonéticamente similares entre ellas.
    5 8. El método de la reivindicación 6 o 7, que además comprende generar una recomendación con base en
    la primera palabra y la identificada de la pluralidad de palabras.
  8. 9. El método de la reivindicación 6, 7, u 8, donde hacer coincidir la primera pluralidad de expresiones a la primera palabra comprende determinar que la primera expresión se corresponde fonéticamente con la primera
    10 palabra.
  9. 10. El método de cualquiera de las reivindicaciones 6 a 9, donde realizar la función comprende realizar una función de la aplicación de guía de medios en un activo de medios que se corresponde con la primera palabra y la identificada de la pluralidad de palabras.
    15
  10. 11. Un programa informático que comprende instrucciones legibles por ordenador que, cuando se ejecutan, causan que un ordenador realice un método de acuerdo con cualquiera de las reivindicaciones 6 a 10.
ES15747723.3T 2014-07-31 2015-07-29 Sistemas y métodos para realizar ASR en presencia de palabras heterógrafas Active ES2675302T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201414448308 2014-07-31
US14/448,308 US9721564B2 (en) 2014-07-31 2014-07-31 Systems and methods for performing ASR in the presence of heterographs
PCT/US2015/042584 WO2016018981A1 (en) 2014-07-31 2015-07-29 Systems and methods for performing asr in the presence of heterographs

Publications (1)

Publication Number Publication Date
ES2675302T3 true ES2675302T3 (es) 2018-07-10

Family

ID=53784025

Family Applications (1)

Application Number Title Priority Date Filing Date
ES15747723.3T Active ES2675302T3 (es) 2014-07-31 2015-07-29 Sistemas y métodos para realizar ASR en presencia de palabras heterógrafas

Country Status (13)

Country Link
US (1) US9721564B2 (es)
EP (2) EP3175442B1 (es)
JP (1) JP6684231B2 (es)
KR (3) KR102438752B1 (es)
CN (1) CN106471571A (es)
AU (1) AU2015296597A1 (es)
CA (2) CA3187269A1 (es)
DK (1) DK3175442T3 (es)
ES (1) ES2675302T3 (es)
GB (1) GB2530871B (es)
MX (1) MX359330B (es)
PT (2) PT3364408T (es)
WO (1) WO2016018981A1 (es)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10068023B2 (en) 2014-12-30 2018-09-04 Rovi Guides, Inc. Systems and methods for updating links between keywords associated with a trending topic
US9854049B2 (en) 2015-01-30 2017-12-26 Rovi Guides, Inc. Systems and methods for resolving ambiguous terms in social chatter based on a user profile
US10628009B2 (en) 2015-06-26 2020-04-21 Rovi Guides, Inc. Systems and methods for automatic formatting of images for media assets based on user profile
US9576578B1 (en) * 2015-08-12 2017-02-21 Google Inc. Contextual improvement of voice query recognition
US10133735B2 (en) 2016-02-29 2018-11-20 Rovi Guides, Inc. Systems and methods for training a model to determine whether a query with multiple segments comprises multiple distinct commands or a combined command
US10031967B2 (en) 2016-02-29 2018-07-24 Rovi Guides, Inc. Systems and methods for using a trained model for determining whether a query comprising multiple segments relates to an individual query or several queries
US20170272825A1 (en) 2016-03-16 2017-09-21 Rovi Guides, Inc. System and method for locating content related to a media asset
US10169470B2 (en) 2016-04-11 2019-01-01 Rovi Guides, Inc. Systems and methods for identifying a meaning of an ambiguous term in a natural language query
US10503832B2 (en) * 2016-07-29 2019-12-10 Rovi Guides, Inc. Systems and methods for disambiguating a term based on static and temporal knowledge graphs
US9959864B1 (en) 2016-10-27 2018-05-01 Google Llc Location-based voice query recognition
US10097898B2 (en) 2016-11-21 2018-10-09 Rovi Guides, Inc. Systems and methods for generating for display recommendations that are temporally relevant to activities of a user and are contextually relevant to a portion of a media asset that the user is consuming
US11094317B2 (en) * 2018-07-31 2021-08-17 Samsung Electronics Co., Ltd. System and method for personalized natural language understanding
CN110176237A (zh) * 2019-07-09 2019-08-27 北京金山数字娱乐科技有限公司 一种语音识别方法及装置
US11721322B2 (en) 2020-02-28 2023-08-08 Rovi Guides, Inc. Automated word correction in speech recognition systems

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS60130798A (ja) * 1983-12-19 1985-07-12 松下電器産業株式会社 音声識別装置
US4980918A (en) 1985-05-09 1990-12-25 International Business Machines Corporation Speech recognition system with efficient storage and rapid assembly of phonological graphs
US6239794B1 (en) 1994-08-31 2001-05-29 E Guide, Inc. Method and system for simultaneously displaying a television program and information about the program
US6388714B1 (en) 1995-10-02 2002-05-14 Starsight Telecast Inc Interactive computer system for providing television schedule information
US6177931B1 (en) 1996-12-19 2001-01-23 Index Systems, Inc. Systems and methods for displaying and recording control interface with television programs, video, advertising information and program scheduling information
US5963957A (en) * 1997-04-28 1999-10-05 Philips Electronics North America Corporation Bibliographic music data base with normalized musical themes
US6182038B1 (en) 1997-12-01 2001-01-30 Motorola, Inc. Context dependent phoneme networks for encoding speech information
US6564378B1 (en) 1997-12-08 2003-05-13 United Video Properties, Inc. Program guide system with browsing display
MXPA00008584A (es) 1998-03-04 2002-05-08 United Video Properties Inc Sistema de guias de programacion con publicidad dirigida.
US6236968B1 (en) 1998-05-14 2001-05-22 International Business Machines Corporation Sleep prevention dialog based car system
CN1867068A (zh) 1998-07-14 2006-11-22 联合视频制品公司 交互式电视节目导视系统及其方法
MX340302B (es) 1998-07-17 2016-07-04 Rovi Guides Inc Un sistema de guias de programacion televisiva interactivas que tiene multiples dispositivos dentro de una residencia de un grupo familiar.
AR020608A1 (es) 1998-07-17 2002-05-22 United Video Properties Inc Un metodo y una disposicion para suministrar a un usuario acceso remoto a una guia de programacion interactiva por un enlace de acceso remoto
US6269335B1 (en) 1998-08-14 2001-07-31 International Business Machines Corporation Apparatus and methods for identifying homophones among words in a speech recognition system
US7165098B1 (en) 1998-11-10 2007-01-16 United Video Properties, Inc. On-line schedule system with personalization features
US6370503B1 (en) 1999-06-30 2002-04-09 International Business Machines Corp. Method and apparatus for improving speech recognition accuracy
EP2271095A1 (en) 2001-02-21 2011-01-05 United Video Properties, Inc. Systems and methods for interactive program guides with personal video recording features
US7693720B2 (en) 2002-07-15 2010-04-06 Voicebox Technologies, Inc. Mobile systems and methods for responding to natural language speech utterance
JP2006085565A (ja) * 2004-09-17 2006-03-30 Fuji Xerox Co Ltd 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
US7818179B2 (en) 2004-11-12 2010-10-19 International Business Machines Corporation Devices and methods providing automated assistance for verbal communication
KR100755677B1 (ko) * 2005-11-02 2007-09-05 삼성전자주식회사 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US20100153885A1 (en) 2005-12-29 2010-06-17 Rovi Technologies Corporation Systems and methods for interacting with advanced displays provided by an interactive media guidance application
JP4734155B2 (ja) * 2006-03-24 2011-07-27 株式会社東芝 音声認識装置、音声認識方法および音声認識プログラム
CN101118541B (zh) * 2006-08-03 2011-08-17 苗玉水 汉语语音码汉语语音识别方法
JP5121252B2 (ja) 2007-02-26 2013-01-16 株式会社東芝 原言語による音声を目的言語に翻訳する装置、方法およびプログラム
US20080270110A1 (en) 2007-04-30 2008-10-30 Yurick Steven J Automatic speech recognition with textual content input
US9817809B2 (en) 2008-02-22 2017-11-14 Vocera Communications, Inc. System and method for treating homonyms in a speech recognition system
CN101655837B (zh) * 2009-09-08 2010-10-13 北京邮电大学 一种对语音识别后文本进行检错并纠错的方法
US8744860B2 (en) * 2010-08-02 2014-06-03 At&T Intellectual Property I, L.P. Apparatus and method for providing messages in a social network
US9489375B2 (en) 2011-06-19 2016-11-08 Mmodal Ip Llc Speech recognition using an operating system hooking component for context-aware recognition models
US9336769B2 (en) * 2011-07-01 2016-05-10 Nec Corporation Relative semantic confidence measure for error detection in ASR
US8606577B1 (en) 2012-06-25 2013-12-10 Google Inc. Visual confirmation of voice recognized text input
US8909526B2 (en) 2012-07-09 2014-12-09 Nuance Communications, Inc. Detecting potential significant errors in speech recognition results
US9588964B2 (en) * 2012-09-18 2017-03-07 Adobe Systems Incorporated Natural language vocabulary generation and usage
US20140122069A1 (en) 2012-10-30 2014-05-01 International Business Machines Corporation Automatic Speech Recognition Accuracy Improvement Through Utilization of Context Analysis
US9189742B2 (en) 2013-11-20 2015-11-17 Justin London Adaptive virtual intelligent agent
US10296160B2 (en) * 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data

Also Published As

Publication number Publication date
US9721564B2 (en) 2017-08-01
MX2016017394A (es) 2017-04-27
EP3364408B1 (en) 2021-05-19
EP3175442B1 (en) 2018-06-06
KR20230130761A (ko) 2023-09-12
US20160035347A1 (en) 2016-02-04
EP3175442A1 (en) 2017-06-07
GB2530871B (en) 2018-11-21
EP3364408A1 (en) 2018-08-22
PT3175442T (pt) 2018-06-19
WO2016018981A1 (en) 2016-02-04
DK3175442T3 (en) 2018-06-18
MX359330B (es) 2018-09-25
CA2954197C (en) 2023-03-21
CN106471571A (zh) 2017-03-01
KR20170040134A (ko) 2017-04-12
JP2017525993A (ja) 2017-09-07
JP6684231B2 (ja) 2020-04-22
KR102438752B1 (ko) 2022-08-30
CA3187269A1 (en) 2016-02-04
CA2954197A1 (en) 2016-02-04
PT3364408T (pt) 2021-06-14
KR20220123347A (ko) 2022-09-06
KR102574333B1 (ko) 2023-09-01
GB201513493D0 (en) 2015-09-16
AU2015296597A1 (en) 2017-01-12
GB2530871A (en) 2016-04-06

Similar Documents

Publication Publication Date Title
ES2675302T3 (es) Sistemas y métodos para realizar ASR en presencia de palabras heterógrafas
ES2747599T3 (es) Procedimientos y sistemas para mostrar información contextualmente relevante en relación con un recurso de medios
US11792456B2 (en) Systems and methods for managing available bandwidth in a household
US11721321B2 (en) Systems and methods for identifying content corresponding to a language spoken in a household