ES2330758T3 - Procedimiento para personalizar un servicio. - Google Patents

Procedimiento para personalizar un servicio. Download PDF

Info

Publication number
ES2330758T3
ES2330758T3 ES05111345T ES05111345T ES2330758T3 ES 2330758 T3 ES2330758 T3 ES 2330758T3 ES 05111345 T ES05111345 T ES 05111345T ES 05111345 T ES05111345 T ES 05111345T ES 2330758 T3 ES2330758 T3 ES 2330758T3
Authority
ES
Spain
Prior art keywords
user
models
depend
speech
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES05111345T
Other languages
English (en)
Inventor
Robert Van Kommer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Swisscom AG
Original Assignee
Swisscom AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Swisscom AG filed Critical Swisscom AG
Application granted granted Critical
Publication of ES2330758T3 publication Critical patent/ES2330758T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04MTELEPHONIC COMMUNICATION
    • H04M2250/00Details of telephonic subscriber devices
    • H04M2250/74Details of telephonic subscriber devices with voice recognition means

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Development Economics (AREA)
  • Multimedia (AREA)
  • Finance (AREA)
  • Computational Linguistics (AREA)
  • Strategic Management (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Accounting & Taxation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Information Transfer Between Computers (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)
  • Machine Translation (AREA)

Abstract

Un procedimiento en una red de comunicaciones para personalizar un servicio, que comprende las etapas de: generar modelos de lenguaje que dependen del usuario mediante un sistema de reconocimiento del habla; almacenar dichos modelos de lenguaje que dependen del usuario; obtener una lista personalizada de expresiones semánticas a partir de dichos modelos de lenguaje que dependen del usuario; poner dicha lista a disposición de una aplicación que se ejecuta en un dispositivo de usuario y/o que está a disposición de proveedores de servicios externos, para personalizar un aspecto de un servicio (4) no relacionado con el procesamiento del habla.

Description

Procedimiento para personalizar un servicio.
Campo de la invención
La presente invención se refiere a un procedimiento para personalizar servicios en una red de telecomunicaciones, y a una plataforma para personalizar servicios de proveedores de servicios.
Descripción de la técnica relacionada
El éxito o el fracaso de muchos servicios de los servicios de telecomunicaciones depende en gran medida de la personalización de al menos algunos aspectos del servicio. Por ejemplo, los servicios que utilizan algoritmos de reconocimiento del habla funcionarán mejor con modelos de habla y de lenguaje que dependan del usuario. Encontrar y clasificar información en motores de búsqueda, periódicos electrónicos y otras fuentes de información es más eficaz si el algoritmo tiene en cuenta los intereses y el historial del usuario. La experiencia de navegar por una tienda web puede mejorarse con sugerencias de artículos comprados por otros usuarios que tengan intereses afines.
Por lo tanto, existe la necesidad de que muchos proveedores de servicios, incluyendo los operadores de telecomunicaciones, generen y mantengan perfiles de usuario que siempre tengan más información relacionada con los intereses, preferencias y costumbres de cada usuario. En muchos sistemas existentes, la información de los perfiles de usuario se obtiene a partir de cuestionarios, que muchos usuarios encuentran engorrosos de rellenar, y del comportamiento de usuario.
El documento US-B2-6.687.696 describe un sistema y un procedimiento para un filtrado personalizado de información y generación automática de recomendaciones específicas para el usuario, en el que el filtrado y la generación de recomendaciones dependen de un modelo estadístico y semántico de cada usuario. El modelo de usuario se obtiene en base a datos de usuario recuperados a partir de cuestionarios o deducidos a través de observaciones del comportamiento del usuario, tales como los registros del historial de Internet, información demográfica, etc. No se sugieren otros usos del algoritmo para servicios distintos al filtrado de información y la generación de recomendaciones. Además, aunque esta solución puede ser apropiada para personalizar servicios para usuarios de ordenadores personales, es menos apropiada para personalizar servicios ofrecidos a usuarios de equipos telefónicos y de otros dispositivos en los que la mayoría de las interacciones del usuario se realizan con el habla.
El documento US 2005/033 582 desvela una interfaz de lenguaje hablado que comprende un sistema automático de reconocimiento del habla y un sistema de conversión texto a voz controlado por un controlador de habla. El ASR (automatic speech recognition) y el TTS (text to speech) están conectados a un sistema de telefonía que recibe el habla del usuario a través de un enlace de comunicaciones. Un gestor de diálogo está conectado al controlador de habla y proporciona control de diálogo generado como respuesta al habla del usuario. El gestor de diálogo está conectado a gestores de aplicación, cada uno de los cuales proporciona una interfaz a una aplicación con la que el usuario puede conversar. El diálogo y las gramáticas se almacenan en una base de datos y se recuperan bajo el control del gestor de diálogo y de un módulo de aprendizaje adaptativo y de personalización. Un gestor de sesión y de notificación registra los detalles de la sesión y permite la reconexión de una conversación interrumpida en el momento en que la conversión fue interrumpida.
Según la invención, un objetivo de la invención es proporcionar un nuevo procedimiento y sistema para personalizar servicios en una red de telecomunicaciones que estén mejor adaptados a los usuarios de equipos telefónicos y otros dispositivos controlados mediante el habla.
Otro objetivo de la invención es proporcionar un nuevo procedimiento y sistema para personalizar servicios en una red de telecomunicaciones que estén adaptados a una gran variedad de servicios, incluyendo servicios proporcionados por proveedores de servicios externos.
Otro objetivo de la invención es crear un nuevo flujo de comunicación entre un usuario y un proveedor de servicios externo, en el que el usuario pueda beneficiarse de una calidad de interacción mejorada con su dispositivo y servicios solicitados, y posiblemente de incentivos adicionales, y en el que los proveedores de servicios, incluyendo el operador de telecomunicaciones, puedan beneficiarse de una eficacia comercial mejorada.
Otro objetivo de la invención es crear un canal de negocio multimodal entre usuarios, proveedores de servicio y operadores de red.
Breve resumen de la invención
Según la invención, estos objetivos, entre otros, se consiguen mediante un procedimiento según la reivindicación 1 y un sistema según la reivindicación 29.
Esto tiene la ventaja de que la personalización del servicio depende no solamente de lo que ha escrito o leído el usuario, sino también de lo que el usuario dice o escucha. Por lo tanto, el procedimiento puede usarse con dispositivos que se utilicen o se controlen principalmente mediante el habla, por ejemplo dispositivos manuales que carezcan de un teclado completo.
Según otro aspecto de la invención, los modelos que dependen del usuario adaptados por el sistema de reconocimiento del habla, y/o el perfil de usuario obtenido de esos modelos, se ponen a disposición de una pluralidad de proveedores de servicios externos de valor añadido. Por lo tanto, los perfiles personalizados generados con el procedimiento inventivo no sólo beneficiarán al sistema o a la entidad que recopila el material de habla del usuario, sino también a los proveedores de servicios externos.
Según otro aspecto adicional de la invención, un espacio de interacción multimodal está abierto permanentemente en el dispositivo terminal del usuario y, posiblemente, en un servicio web sincronizado. Este espacio de interacción puede utilizarse por varios proveedores de servicios externos, por ejemplo para visualizar o reproducir material publicitario y de información que depende del usuario, mientras que el contenido visualizado o reproducido puede depender del perfil de usuario obtenido a partir de los modelos que dependen del usuario. Además, la interfaz de usuario multimodal se adapta continuamente a través de la información de entrada e interacciones del usuario a fin de mejorar la calidad del reconocimiento del habla y de escritura en dicha interfaz, para adaptar el contenido visualizado o hablado a las preferencias del usuario, y para adaptar la interfaz a las preferencias y costumbres del usuario. Finalmente, los modelos de interacción personalizada pueden utilizarse para reforzar la autenticación del usuario a través de, por ejemplo, una verificación de usuario biométrica.
Según otra característica, posiblemente independiente, de la invención, los modelos de lenguaje y de habla que dependen del usuario están almacenados en el dispositivo del usuario y están sincronizados de manera inteligente con modelos de lenguaje y de habla que dependen del usuario y, a efectos prácticos, almacenados permanentemente de manera central en una plataforma genérica de una red de telecomunicaciones. Esto combina las ventajas de modelos fácilmente disponibles por el sistema de reconocimiento del habla del dispositivo de usuario con las ventajas de lenguaje disponible fuera del dispositivo. Los modelos de lenguaje y de habla que dependen del usuario almacenados de manera central pueden copiarse o utilizarse después en otro dispositivo del usuario. Por lo tanto, un usuario que cambie de dispositivo o que utilice diferentes dispositivos con sistemas de reconocimiento del habla no necesita entrenar los modelos de lenguaje y de habla con cada dispositivo diferente. Los modelos de lenguaje y/o habla también pueden ponerse a disposición de terceras partes, incluyendo proveedores de servicios externos que utilicen estos modelos para personalizar sus servicios para el usuario. Además, los modelos que dependen del usuario pueden actualizarse en cualquier momento desde la plataforma genérica central. Este mecanismo de sincronización de modelos de lenguaje y/o de habla almacenados en dos lugares diferentes incluso puede utilizarse de forma independiente respecto de las características de la reivindicación 1 de la solicitud.
Breve descripción de los dibujos
La invención se entenderá mejor con la ayuda de la descripción de una realización proporcionada a modo de ejemplo e ilustrada en las figuras, en las que:
La Fig. 1 ilustra un diagrama esquemático de un sistema de telecomunicaciones en el que puede llevarse a cabo el procedimiento de la invención.
La Fig. 2 muestra un dispositivo de usuario que incluye un espacio de interacción multimodal según una característica preferida de la invención.
La Fig. 3 muestra modelos de lenguaje que dependen del tiempo y del usuario.
Descripción detallada de posibles realizaciones de la invención
La presente invención se refiere en general a la personalización de servicios en redes de comunicaciones. Los servicios que pueden beneficiarse de la invención incluyen, por ejemplo, servicios proporcionados por terceras partes remotas y externas, servicios de un proveedor de telecomunicaciones, así como servicios ofrecidos por aplicaciones que se ejecutan total o parcialmente en dispositivos terminales de usuario. En particular, la presente invención se refiere a la personalización de servicios que utilizan modelos de lenguaje que dependen del hablante adaptados mediante un sistema de reconocimiento del habla.
En el contexto de la invención, la expresión "modelos de lenguaje" designa un conjunto de módulos que representan todo el lenguaje que va a entender un sistema de reconocimiento del habla. Los modelos de lenguaje pueden describirse con una gramática; una gramática puede estar limitada cuando no incluye todas y cada una de las posibles expresiones del lenguaje del hablante; una gramática limitada limita por tanto el conjunto de frases aceptables, pero es más fácil de crear y puede mejorar la precisión global del reconocimiento del habla reduciendo las confusiones. Una gramática puede expresarse utilizando un conjunto de reglas, y/o enumerando todas y cada una de las posibles expresiones permitidas en la gramática. Probabilidades absolutas o dependientes del contexto pueden asociarse a la gramática (en los modelos de lenguaje) con cada expresión de la lista.
Los modelos de lenguaje necesitan distinguirse claramente de los modelos acústicos de habla, es decir, modelos para los fonemas o trifonos de la señal de habla. El objetivo de los modelos de lenguaje es únicamente definir expectativas relacionadas con las expresiones, tales como palabras, grupos de palabras o frases, que pueden pronunciarse en una fase dada de un diálogo de habla. Por ejemplo, cuando el gestor de diálogo de un sistema automático de directorios indica al usuario que introduzca el nombre de una ciudad, esperará que el usuario conteste con el nombre de una ciudad existente. Por lo tanto, el proceso de reconocimiento mejorará enormemente limitando la comparación del dato pronunciado a nombres de ciudades indicados en un léxico. Por ejemplo, si se utiliza un descodificador de Viterbi para determinar el nombre que es más probable que se haya pronunciado, la probabilidad de errores y el tiempo de búsqueda se reducirán si la búsqueda se limita a nombres que existan en el léxico.
Los modelos de lenguaje pueden crearse partiendo de cero, utilizando por ejemplo una herramienta de desarrollo de gramáticas, y/o pueden aprenderse y adaptarse de manera automática a partir de material de habla existente recopilado a partir de un hablante, o a partir de un grupo de varios hablantes. También es posible generar o comprar modelos de lenguaje adaptados a grupos específicos de usuarios, por ejemplo dependiendo de la profesión, edad y aficiones de los usuarios. Además, debe observarse que los modelos de lenguaje utilizados por un sistema de reconocimiento de habla son específicos según el origen lingüístico del hablante.
Los modelos de lenguaje pueden almacenarse como un archivo de datos que contenga el conjunto de reglas que represente la gramática, y/o como un archivo de datos que contenga una tabla u otra estructura de almacenamiento de datos para almacenar todas las expresiones y probabilidades asociadas que definan a los modelos.
El término "expresión" designa en el contexto de esta invención una entrada específica en los modelos de lenguaje. Una expresión puede ser por ejemplo una palabra (unigrama), un par de palabras relacionadas (bigrama), tal como <el gato>, un trigrama (por ejemplo "podría por favor"), etc. Un conjunto de modelos de lenguaje que dependen del usuario contendrá diferentes conjuntos de expresiones para cada usuario y asociará diferentes probabilidades a cada expresión. Además, las probabilidades asociadas con cada expresión pueden depender del contexto.
El término "sistema de reconocimiento del habla" designa una combinación de hardware y software, o solamente software, que puede reconocer frases pronunciadas y detectar expresiones conocidas en las frases.
El término "sincronización inteligente" designa un mecanismo mediante el cual conjuntos de datos almacenados en diferentes lugares no solamente se duplican, sino que también se adaptan, convierten u optimizan de otro modo en al menos un lugar. El conjunto de datos almacenados en los diferentes lugares pueden ser diferentes.
El término "proveedor de servicios" o "proveedor de servicios de valor añadido" designa en este contexto cualquier entidad que proporcione servicios a usuarios a través de la red de telecomunicaciones, incluyendo terceras partes, el propio operador de red, el operador de servicios web, centros de atención telefónica, etc.
El sistema de la invención comprende un usuario 1 que utiliza uno o varios dispositivos terminales de usuario tales como, por ejemplo, un teléfono móvil 10, un ordenador personal 11, un teléfono fijo 13 y/o cualquier equipo de comunicación electrónico 13 de un coche para utilizar o acceder a varios servicios proporcionados en el dispositivo terminal y/o mediante proveedores de servicios remotos. Al menos algunos de los dispositivos terminales pueden incluir medios de identificación y autenticación de dispositivo y/o de usuario, incluyendo por ejemplo medios de introducción de contraseñas, sensores biométricos y/o tarjetas inteligentes de identificación de usuario. En una realización preferida, la identificación o autenticación de usuario biométrica se basa en una verificación de habla del hablante.
Además, al menos algunos dispositivos incluyen un micrófono para capturar el habla pronunciada por los usuarios, así como preferentemente software de reconocimiento del habla local para reconocer el habla. En una realización preferida, al menos un dispositivo permite una interacción multimodal con el usuario, en base a una combinación de habla con entradas de usuario mediante teclado, teclado numérico o almohadilla táctil.
El reconocimiento del habla se basa preferentemente en tecnologías tales como, por ejemplo, modelos ocultos de Markov (HMM) y/o redes neuronales, y preferentemente depende del hablante. En el contexto de esta invención, reconocimiento de habla que depende del hablante significa que el reconocimiento utiliza modelos acústicos de habla (modelos acústicos para los fonemas) y modelos de lenguaje que dependen de cada usuario. Con el fin de mejorar la velocidad de interacción, el reconocimiento del habla se realiza preferentemente de manera local y en base a modelos de habla y de lenguaje almacenados de manera local, es decir, en el dispositivo del usuario.
Una copia, o un conjunto más grande, de los modelos de lenguaje, y posiblemente de habla, que dependen del usuario también puede proporcionarse en una plataforma genérica 20 compartida por varios usuarios y a la que se accede a través de una red de comunicaciones 2 tal como Internet. En este caso se proporciona preferentemente un mecanismo de sincronización inteligente para sincronizar cambios, adiciones o borrados en los modelos del dispositivo terminal con cambios, adiciones o borrados en la plataforma genérica, y/o para eliminar del dispositivo terminal modelos de lenguaje no utilizados.
En una realización, un conjunto inicial de modelos de lenguaje se carga en primer lugar en un dispositivo terminal de usuario 10, 11, 12 o 13, por ejemplo cuando el usuario se suscribe al servicio. El modelo de lenguaje seleccionado puede ser completamente independiente del usuario, o puede depender preferentemente de los datos demográficos y/o contextuales relacionados con dicho usuario, incluyendo posiblemente datos recuperados de cuestionarios y/o temas extraídos de manera semántica de los diálogos de dicho usuario o de otras interacciones con su dispositivo. Asimismo, un conjunto inicial de modelos acústicos de habla independientes del hablante, o dependientes de grupos, puede cargarse en un dispositivo terminal de usuario 10, 11, 12 o 13.
En una realización, los modelos de habla y/o de lenguaje utilizados inicialmente para el reconocimiento de la habla de un nuevo usuario se recuperan a partir de otros usuarios o a partir de un conjunto de usuarios con perfiles similares, por ejemplo acentos similares, orígenes similares, profesiones similares, perfiles demográficos similares, etc. El conjunto también puede comprarse a una tercera parte. Además, el conjunto puede depender del contexto, por ejemplo de las aplicaciones y servicios utilizados actualmente o recientemente por el usuario 1, de la fecha, de la hora (diferentes conjuntos en casa o en el trabajo), de la ubicación del usuario, etc. Los modelos acústicos de habla se adaptan entonces con un nuevo material de habla recopilado a partir del usuario, utilizando por ejemplo el algoritmo de Baum-Welsch.
Después, esos modelos de habla y/o de lenguaje iniciales se adaptan de manera local al habla y/o al lenguaje del usuario utilizando datos de salida del sistema de reconocimiento del habla de los dispositivos de usuario 10, 11, 12, 13. Los modelos de lenguaje pueden completarse y adaptarse, por ejemplo, cada vez que un usuario diga una nueva expresión. Los modelos de lenguaje del dispositivo de usuario también pueden actualizarse en cualquier momento desde la plataforma genérica, dependiendo, por ejemplo, del contexto y de datos de entrada de otros usuarios. Además, las expresiones no utilizadas pueden eliminarse de un modelo de lenguaje o de la copia local de los modelos de lenguaje.
Después, los modelos de lenguaje pueden actualizarse en la plataforma genérica 2 con el fin de guardarlos, copiarlos en otros dispositivos del usuario, y/o ponerlos, a efectos prácticos, permanentemente a disposición de proveedores de servicios externos y de otros dispositivos del usuario.
Debe observarse que la plataforma genérica 20 no almacena necesariamente una réplica exacta de los modelos de lenguaje o de habla de los dispositivos del usuario. Por el contrario, preferentemente, los modelos que dependen del hablante se adaptan, convierten y/u optimizan de otro modo en la plataforma genérica, por ejemplo para reducir sus requisitos de almacenamiento, o para mejorarlos utilizando el conocimiento disponible en la plataforma genérica, incluyendo posiblemente el conocimiento recuperado a partir de modelos de otros usuarios. Por lo tanto, la plataforma genérica no actúa simplemente como un repositorio para el almacenamiento seguro de los modelos de lenguaje y de habla que dependen del hablante, sino que procesa y/u optimiza los modelos. Esto se denomina "aprendizaje máquina" y la expresión "aprendizaje de colaboración" se utiliza cuando el conocimiento recuperado a partir de otros usuarios se utiliza para mejorar los modelos de un usuario.
Los modelos de lenguaje que dependen del usuario almacenados en y utilizados por el dispositivo del usuario pueden adaptarse además en cualquier momento, posiblemente justo al comienzo de cada sesión que requiera reconocimiento del habla, con modelos de lenguaje adicionales recuperados de la plataforma central 20 y/o de proveedores de servicios. Por ejemplo, los modelos de lenguaje que dependen del contexto pueden descargarse, dependiendo de la aplicación o del servicio utilizado actualmente por el usuario 1 o de los temas extraídos de manera semántica de diálogos recientes o de otras interacciones del usuario. Además, la plataforma genérica 20 también puede iniciar posiblemente la eliminación de modelos raramente utilizados, o de modelos que probablemente no sean útiles para las siguientes sesiones.
Asimismo, la plataforma genérica puede iniciar en cualquier momento la actualización de los modelos de habla almacenados en el dispositivo del usuario, por ejemplo al principio de una sesión.
En una realización, los modelos se almacenan como servicios web en la plataforma genérica 20 y una aplicación, servicio o agente de la plataforma genérica y/o de los dispositivos de usuario garantiza que un subconjunto apropiado de esos modelos se almacene de manera local en los dispositivos terminales. Diferentes subconjuntos de modelos de lenguaje pueden almacenarse en los diferentes dispositivos terminales 10 y 11 de un mismo usuario 1, dependiendo de la memoria disponible y/o del uso que realice el usuario de sus dispositivos terminales. Todo el proceso de sincronización de modelos de lenguaje es preferentemente transparente para el usuario final y se controla mediante la plataforma genérica 20. Además, este proceso es preferiblemente gratis para el usuario 1, o se cobra en una tarifa plana, por ejemplo como parte de la suscripción.
Además, también puede ser posible actualizar los modelos acústicos de habla que dependen del usuario en la plataforma genérica 20 para utilizarse posteriormente en otros dispositivos de usuario.
Los modelos de lenguaje que dependen del usuario cargados en la plataforma genérica central 20 pueden utilizarse además para adaptar modelos de lenguaje independientes del usuario, o dependientes de grupos, que se ponen a disposición de otros usuarios.
El almacenamiento de los modelos de lenguaje en la plataforma genérica 20 puede cobrarse al usuario, por ejemplo en función del volumen requerido, la frecuencia de uso, etc. En una realización preferida, este servicio se ofrece como una parte de una suscripción del usuario a la red de telecomunicaciones o a un servicio que utilice esos modelos de lenguaje. El almacenamiento puede ser independiente de cualquier copia de seguridad central del dispositivo de usuario o de una tarjeta SIM del dispositivo de usuario 10, 11, 12, 13, lo que también puede realizarse; en particular, la sincronización de los modelos de lenguaje del dispositivo y de la plataforma central 20 se activa mediante otros eventos y puede realizarse en diferentes momentos que cualquier copia de seguridad del dispositivo del usuario. Además, tal y como se ha mencionado anteriormente, los modelos de lenguaje y/o de habla se convierten posiblemente en la plataforma central 20, y en cualquier caso se almacenan en un formato independiente del dispositivo, adecuado para su utilización en diferentes dispositivos o por diferentes proveedores de servicios externos.
El almacenamiento de los modelos que dependen del usuario, o de una copia o superconjunto de esos modelos, en la plataforma genérica 2 también permite que esos modelos se utilicen con diferentes dispositivos terminales del usuario. Esto tiene la ventaja de una adaptación mejorada y más rápida de los modelos, puesto que todas las interacciones del usuario 1 con cualquiera de sus dispositivos 10 a 13 se utilizarán para adaptar los modelos. Además, cualquier dispositivo de usuario con un sistema de reconocimiento del habla compatible se beneficiará de los modelos entrenados anteriormente con otros dispositivos; los modelos de lenguaje que dependen del usuario se vuelven de este modo genéricos, permanentes e independientes de cualquier dispositivo de usuario.
En una realización preferida, los modelos de lenguaje y/o de habla de una pluralidad de usuarios se almacenan en una plataforma genérica común 20. En este caso deben proporcionarse medios de identificación de usuario con el fin de asociar cada dispositivo terminal conectado con el conjunto correspondiente de modelos de lenguaje. La identificación de usuario puede basarse en la identificación de línea de la persona que llama (CLI, caller line identification), en la identificación internacional de abonado móvil (IMSI, international mobile subscriber identification) y/o en el IDSN de abonado móvil (MSISIDN, mobile suscriber ISDN) almacenados en una tarjeta SIM del dispositivo del usuario, en una identificación de usuario y/o una contraseña introducida por el usuario, en su correo o dirección de Internet, y/o en parámetros biométricos, etc. En una realización preferida, la plataforma genérica 20 funciona mediante un operador de red pública, por ejemplo, un operador de red móvil, y la identificación del usuario se basa al menos en parte en los mecanismos utilizados por este operador para el cobro de las comunicaciones.
Otros datos que dependen del usuario pueden estar asociados a cada usuario en la plataforma genérica 20, incluyendo modelos acústicos que dependen del usuario, preferencias del usuario para el lenguaje, el modo de interacción multimodal preferido, modelos biométricos de voz, huellas dactilares, retina, iris, vasos sanguíneos, cara, etc. Un perfil de usuario 200 puede obtenerse en la plataforma genérica 20 a partir de los modelos de lenguaje del usuario, posiblemente combinados con otros datos del mismo usuario y/o de diferentes usuarios. En una realización, el perfil del usuario comprende para cada usuario una lista personalizada de expresiones semánticas, recuperada a partir de los modelos de lenguaje y posiblemente de otras interacciones de usuario con cualquier dispositivo terminal. Las expresiones semánticas que dependen del usuario pueden recopilarse, por ejemplo, a partir de frases del usuario cuando introduce comandos en su dispositivo y cuando habla a otro interlocutor, a partir de frases del otro interlocutor en un diálogo conversacional, etc. Además, puede ser posible recopilar material de habla incluso si el usuario no está hablando realmente a su dispositivo móvil; para este fin, el micrófono y el sistema de reconocimiento del habla pueden activarse, incluso si el usuario no está hablando a su dispositivo terminal, para capturar y reconocer voces
ambientales.
Los modelos acústicos de habla también pueden utilizarse para adaptar el perfil de usuario o para realizar una acción; por ejemplo, los modelos de habla pueden revelar un acento que indique un origen geográfico y/o sociodemográfico del hablante. Otras indicaciones que pueden recuperarse de los modelos de habla incluyen la edad, sexo, posible enfermedad, emociones, etc., del hablante; estas características también pueden utilizarse por proveedores de servicios externos para personalizar sus servicios.
Además, las expresiones semánticas que dependen del usuario pueden recopilarse a partir de cualquier texto introducido por el usuario en cualquier aplicación ejecutada o iniciada por su dispositivo terminal, incluyendo el procesamiento de textos, hojas de cálculo, aplicaciones cliente de correo electrónico o de mensajería instantánea, historial del registro web, diccionarios de ortografía personales del usuario, por ejemplo, y/o a partir de texto mostrado al usuario, por ejemplo, mediante su navegador web, cliente de correo electrónico o de mensajería instantánea, etc. Un applet o cualquier otro fragmento de software en el dispositivo de usuario, en la red 2 y/o por cualquier proveedor de servicios 4 puede utilizarse para extraer este contenido del texto pronunciado, escrito, escuchado y/o leído por el usuario. Además, la información demográfica y la información recuperada a partir de cuestionarios o formularios web, por ejemplo en la suscripción de cualquier servicio de un proveedor de servicios 4, puede utilizarse como una fuente para recopilar contenido semántico y para definir el perfil del usuario.
Pueden asignarse diferentes ponderaciones a diferentes fuentes; por ejemplo, puede considerarse más importante tener una expresión específica pronunciada realmente por un usuario que simplemente leída en una página web larga. Además, cualquier énfasis emocional para una expresión pronunciada específica y cualquier estilo aplicado a la expresión en un documento, pueden utilizarse para evaluar su importancia y ponderar la expresión.
Además, la lista de expresiones semánticas que dependen del usuario pueden depender del tiempo; una expresión específica puede tener un mayor impacto en el perfil del usuario si se ha pronunciado recientemente. Además, puede tenerse en cuenta cualquier cambio en la frecuencia de uso de las diferentes expresiones; un cambio repentino en la frecuencia de utilización de cualquier expresión puede indicar un cambio en los intereses del usuario y llevar a cabo una adaptación del perfil del usuario, una acción inmediata por parte de un proveedor de servicios (tal como enviar un mensaje publicitario adaptado), o una actualización de los modelos de lenguaje disponibles en el dispositivo del usuario.
La figura 3 ilustra una posible manera de almacenar una lista de expresiones semánticas que depende del usuario. En esta realización, los valores almacenados representan la frecuencia de uso de todas las expresiones diferentes 1 a 7 de una lista en diferentes instantes t0, t1, etc. Tal y como se indica, la frecuencia es un valor incrementado por diferentes ponderaciones cada vez que el usuario diga, escuche, escriba o lea la expresión correspondiente. La lista de la figura 3 puede almacenarse, por ejemplo, en una estructura de base de datos, como un archivo separado por comas, como un archivo XML, etc., de la base de datos 200 y posiblemente en cualquier dispositivo de usuario 10 a
13.
En una realización, la frecuencia de utilización de diferentes expresiones en momentos diferentes del actual se almacena solamente en la plataforma genérica 20, mientras que solamente se almacenan los modelos de lenguaje actuales en los dispositivos 10, 11, 12, 13. Esto permite que la plataforma genérica 20 y los proveedores de servicios obtengan cualquier información requerida a partir de cambios en los diálogos de lenguaje, evitando al mismo tiempo un incremento innecesario del requisito de almacenamiento en el dispositivo del usuario.
La lista de expresiones almacenada en la plataforma genérica 20 puede omitir expresiones muy comunes, tales como "el", "la", "los", "las", "y", "es", etc., y dar más importancia a palabras y expresiones poco habituales, tomadas de expresiones del vocabulario, y a palabras que contengan un alto contenido semántico incluyendo, por ejemplo, nombres propios, nombres geográficos, en lugar de nombres más comunes. Además, pueden tenerse en cuenta grandes diferencias en la frecuencia de expresiones entre un usuario y el resto de usuarios; una expresión que no sea habitual para la mayoría de usuarios, pero muy frecuente en el lenguaje de un usuario específico, puede ser muy útil para establecer el perfil del usuario y para relacionarlo con un grupo de otros usuarios con perfiles conocidos que también utilicen la misma expresión.
En una realización, la plataforma genérica 20 (o cualquier otro módulo de software ejecutado en el dispositivo terminal o por el proveedor de servicios) ejecuta algoritmos de procesamiento de lenguaje natural (NLP, natural language processing) y otros algoritmos para modelar de manera semántica el contenido recuperado. La plataforma genérica puede, por ejemplo, ejecutar algoritmos semánticos de extracción de temas para "entender" el contenido recibido y extraer temas relevantes que pueden utilizarse, por ejemplo, cuando se decide qué conjunto pertinente de modelos de lenguaje utilizar, mantener o descargar, o para determinar el perfil de usuario. La extracción de un tema específico a partir del diálogo entre usuarios también puede activar un evento, tal como enviar un mensaje publicitario relacionado desde un proveedor de servicios.
Pueden utilizarse procedimientos ontológicos para agrupar u organizar conceptualmente expresiones cerradas; la ontología puede describirse, por ejemplo, con una representación gráfica, posiblemente en formato XML, que define relaciones entre palabras relacionadas. Por ejemplo, la expresión "sistema antibloqueo" está relacionada con "ABS" y, hasta cierto punto con los coches, pero mucho menos con otras expresiones tales como "ordenador" o "plátano", por ejemplo. Agrupar de manera semántica expresiones similares permite tener en cuenta, en mayor grado, varios modos de expresar algunos conceptos e intereses del usuario con varias expresiones. Por otro lado, los grupos pueden utilizarse para distinguir diferentes significados de una expresión particular, dependiendo del contexto.
Además, los algoritmos semánticos pueden utilizarse para calcular la distancia semántica entre documentos o extractos de diálogos, por ejemplo entre frases del usuario y diálogos de referencia almacenados en la plataforma genérica y/o con los proveedores de servicios. De nuevo, esta distancia puede utilizarse, por ejemplo, para decidir si debe realizarse una acción específica o si el perfil del usuario debe adaptarse.
En esta realización, la lista de expresiones semánticas que depende del usuario se sustituye, o se completa, por una lista de grupos semánticos y probabilidades asociadas.
De manera similar, la lista de expresiones (incluidos los grupos) que depende del usuario puede tener en cuenta diferentes lenguas habladas o utilizadas por un usuario, y utiliza traducciones de palabras o expresiones.
Tal y como se ha indicado anteriormente, la lista de expresiones semánticas de la figura 3 se pone a disposición de varios proveedores de servicios externos 4 con el fin de que procesen perfiles de usuario. Los perfiles recuperados por varios proveedores pueden ser diferentes; como un ejemplo, un proveedor 4 de servicios de viajes puede buscar usuarios finales que utilicen frecuentemente, o en un pasado reciente, expresiones tales como "esquiar", "Matterhorn" o "vacaciones", mientras que un vendedor de teléfonos móviles intentará atraer abonados con una gran afinidad con los dispositivos tecnológicos.
En otra realización, un perfil de usuario se obtiene a partir de las listas de expresiones semánticas, y posiblemente a partir de modelos acústicos de habla, directamente mediante la plataforma genérica 20, y se pone a disposición de los proveedores de servicio. Esto tiene la ventaja de que el perfil sólo necesita procesarse una vez y de que solamente se necesita una infraestructura de software para esa finalidad; sin embargo, el inconveniente es que la información del perfil no depende del servicio. La plataforma genérica puede intentar clasificar los usuarios en varias categorías que pueden ser útiles para varios proveedores de servicios.
En una realización se ofrece un incentivo a los usuarios 1 para que participen en el sistema y para que pongan elementos de su perfil a disposición de terceras partes. Este incentivo puede tomar la forma de, por ejemplo, una bonificación, una reducción en las tasas de suscripción o en las tarifas de comunicación con la red móvil y/o con el servicio, o de puntos en un programa de seguro cada vez que un proveedor de servicios utilice el perfil y/o cuando se haya suscrito el servicio.
La lista de expresiones semánticas y/o el perfil obtenido de la misma pueden ponerse a disposición de terceras partes 4 como, por ejemplo, servicios web, un fichero disponible a través de un servidor web o FTP, o pueden ser enviados a una pluralidad de proveedores de servicios 4 externos o internos (en la plataforma 20) que los reciben, mediante cualquier protocolo adecuado. La disponibilidad puede limitarse a proveedores de servicio autenticados en la plataforma 20, con los que existe un acuerdo válido; además, un usuario 1 puede decidir limitar la disponibilidad de su perfil solamente a algunos proveedores externos. En una realización, el acceso a todo el perfil, o a partes determinadas del perfil, solo está permitido a proveedores de servicio autorizados explícitamente por el usuario.
Tal y como se ha mencionado anteriormente, el perfil recuperado a partir de los modelos de lenguaje y de habla suministrados por el sistema de reconocimiento del habla en cualquier dispositivo del usuario también puede utilizarse en el dispositivo o en la red de área local del usuario, por ejemplo mediante cualquier aplicación ejecutada por dicho dispositivo o en dicha red local.
En una realización, esta información se hace disponible a través de una plataforma de anonimización (no mostrada) que elimina cualquier dato de identificación de usuario de los perfiles puestos a disposición de terceras partes, o que sustituye estos datos de identificación de usuario con un alias. La plataforma de anonimización puede hacerse funcionar mediante otra parte independiente del operador de la plataforma genérica 20 y del proveedor de servicios 4.
Diferentes tipos de proveedores de servicios pueden utilizar el sistema y procedimiento de la invención. En una realización, un proveedor de servicios 4 utiliza el sistema para transmitir material publicitario y de información personalizado 1 a 1 a los dispositivos terminales de usuario 10, 11, 12, 13. El material publicitario y de información puede, por ejemplo, visualizarse en una parte reservada multimodal 101 de la interfaz de usuario 100, por ejemplo en una parte de una pantalla táctil 100. El material publicitario también puede reproducirse de manera acústica con los altavoces del dispositivo terminal del usuario. En una realización preferida, el material publicitario y de información que se ajusta a los intereses y necesidades del usuario se selecciona mediante un proveedor de servicios 4 según el perfil del usuario en la base de datos 200, y se transmite al dispositivo del usuario, como por ejemplo, páginas web o servicios web, por ejemplo a través de un canal GPRS, EDGE, UMTS o cualquier canal de comunicaciones adecuado "siempre activado".
Preferentemente, la parte multimodal 101 también está siempre activada, es decir, puede visualizar y posiblemente reproducir imágenes fijas, vídeos y/o sonidos incluso cuando el dispositivo de usuario 10 no esté utilizándose. Preferentemente, el usuario 1 tiene la posibilidad de desactivar el servicio, por ejemplo, durante las reuniones; tal y como se ha descrito anteriormente, puede ofrecerse algún incentivo para incitarle a que active el servicio lo antes posible.
Preferentemente, la parte reservada multimodal 101 permite que el usuario reaccione ante un mensaje recibido, usando preferentemente varios modos. Por ejemplo, el usuario 1 puede escribir una respuesta con el teclado 103 de su dispositivo, y/o seleccionar o escribir directamente en la pantalla táctil 100, y/o introducir comandos con su habla. En una realización preferida, el reconocimiento de la escritura y/o el reconocimiento del habla se realiza utilizando modelos que dependen del usuario que pueden estar almacenados preferentemente de manera central, en la base de datos 200, y posiblemente sincronizados con modelos locales. El propio proceso de reconocimiento de la escritura y/o de la habla puede ejecutarse en el dispositivo de usuario 10 a 13 y/o de manera remota en la plataforma genérica 20 o por el proveedor de servicios.
Además, puede ser posible identificar o al menos autenticar al usuario 1 utilizando características biométricas, incluyendo huellas dactilares recogidas durante la manipulación de la pantalla táctil 100 u cualquier otro elemento táctil 102, y/o características del habla. De nuevo, la identificación/autenticación del usuario puede basarse en modelos de habla, huellas dactilares u otra característica del usuario almacenada en el perfil de usuario en la base de datos 200, y posiblemente sincronizados con los modelos de usuario del dispositivo terminal. El propio proceso de identificación/autenticación puede ejecutarse en el dispositivo terminal del usuario, en una tarjeta con chip insertada en el dispositivo, en la plataforma genérica 20 y/o en el lado del proveedor de servicios 4.
A continuación se describirá un ejemplo de interacción entre la usuaria 1 Alicia, su operador de telecomunicaciones FreeCom y varios proveedores de servicios de valor añado.
Durante varios años, Alicia ha utilizado la interacción multimodal en su teléfono. Sus modelos de interacción multimodal, utilizados para reconocer su habla y escritura, y para identificarla o autenticarla, funcionan correctamente incluso en entornos habitualmente ruidosos. Normalmente, ella envía SMS o realiza una reserva de un viaje en el último momento. En algunos SMS recientes, Alicia mencionó las islas del Caribe. Una agencia de viajes 4 tiene un acuerdo con su operador de red FreeCom para tener acceso al perfil de usuario de Alicia así como a los de otros muchos usuarios. Puesto que el modelo de lenguaje se ha adaptado recientemente con relación a las islas del Caribe, la agencia de viajes ha decido enviar automáticamente un oferta con varias alternativas. Alicia recibe el siguiente anuncio multimodal: en primer lugar suena una dulce música de las islas del Caribe y después se muestra en la pantalla un formulario con múltiples opciones. Alicia decide comprar el paquete de viaje utilizando la característica de compra multimodal; selecciona con el lápiz, dice "deseo comprar esta oferta", y su voz se utiliza como firma junto con la identidad ya conocida de Alicia.
Más específicamente, el diálogo puede parecerse a lo siguiente:
Un proveedor de servicios decide unirse al modelo de suscripción con el nuevo canal de negocio multimodal 1 a 1 ofrecido por el operador de telecomunicaciones FreeCom el cual gestiona una plataforma genérica 20. Por lo tanto, el proveedor de servicios 4 registra su servicio y el servicio del proveedor de servicios 4 se registra en la plataforma genérica 20, con las siguientes características:
1.
Se garantiza el acceso a los metadatos de todos los abonados.
2.
Se actualizan los modelos de lenguaje necesarios para el acceso multimodal al proveedor de servicios 4 (esto se lleva a cabo además diariamente).
3.
Se permite la gestión de crédito (por ejemplo, modelo de compartición Revenue).
4.
Se estable comunicación con el adaptador de patrones semánticos para cada generación de eventos.
5.
Se definen las direcciones de cobro y el procedimiento de transacción.
\vskip1.000000\baselineskip
Entonces, Alicia rellena un formulario de suscripción con el operador de red FreeCom para ganar incentivos, por ejemplo acceso a una comunicación móvil gratis. A cambio, ella accede a proporcionar su perfil a una selección de terceras partes (puede seleccionar algunas de ellas en una lista). Otro muchos ajustes de interacción también se definen en esta fase para mejorar la oferta de servicios de FreeCom.
El entorno multimodal interactivo se inicializa mediante el proveedor de servicios con modelos de interacción personalizados directamente en los dispositivos terminales dados. Esta configuración puede cargarse en otros varios dispositivos terminales 10, 11, 12, 13 (PC, otros teléfonos).
La plataforma genérica 20 carga el entorno de interacción multimodal en el dispositivo terminal de Alicia incluyendo los modelos más afines, modelos de lenguaje (incluyendo los nuevos modelos de lenguaje del proveedor de servicios), y otras aplicaciones de terceras partes.
Alicia activa en su dispositivo terminal una aplicación SMS de dictado. Esta aplicación utiliza los modelos personalizados (acústico y de lenguaje). Ambos modelos se adaptan continuamente al habla de Alicia y a la entrada de texto.
La sincronización con la plataforma genérica se produce de manera transparente. El proveedor de servicio obtiene acceso a la nueva información proporcionada por el modelo de lenguaje actualizado a través de los servicios web. Como alternativa, puesto que Alicia utilizó el concepto de las islas del Caribe, que se detectó, se genera un evento (acierto de patrón semántico / detección de temas) que se envía al proveedor de servicios.
El proveedor de servicios obtiene el evento y busca una posible correspondencia con la lista de ofertas de última hora. Se encuentra una correspondencia, se prepara la aplicación y se precarga en los dispositivos terminales de Alicia. En una realización, nuevos modelos de lenguaje, que incluyen expresiones que pueden requerirse para acceder a la oferta del proveedor de servicios, se cargan en el dispositivo de Alicia. Los modelos de lenguaje también pueden actualizar las probabilidades asociadas con expresiones ya disponibles con el fin de anticipar respuestas esperadas.
Después, se envía un objeto java o HTML de información/publicidad multimodal que se visualiza en el dispositivo terminal 10 de Alicia. Los modelos de lenguaje necesarios para activar la sesión se sincronizan previamente a través de la plataforma genérica 20.
En la parte de interacción multimodal reservada 101, un sonido de música caribeña anuncia la llegada de un anuncio. En la pantalla se visualiza una lista de posibles opciones de última hora. Se cargan todos los modelos de lenguaje principales para hacer la experiencia del usuario lo más placentera posible y sin que haya tiempo de demora de interacción.
Se envía un diálogo multimodal de iniciativa mixta si Alicia puede elegir varias opciones sobre la marcha mientras compra un paquete de viajes de la lista. Alicia marca con un lápiz su opción preferida en el menú visualizado y dice "elijo el que tiene la habitación doble y, por favor, cárguenlo a mi cuenta de FreeCom". El proveedor de servicios 4 recibe la orden a través de un evento de compra. Un agente activo de un centro de atención telefónica se activa posiblemente si fuera necesario.
El proveedor de servicios emite un billete electrónico para el vuelo de última hora que después se carga en los dispositivos terminales de Alicia. Simultáneamente, se le regala a Alicia un crédito de bonificación. La plataforma genérica 20 actualiza el interés de Alicia en sus metadatos. El operador de red realiza el pago y se queda un porcentaje de esta transacción.
\newpage
El sistema y el procedimiento de la invención pueden utilizarse para otros tipos de servicios de proveedores externos, incluyendo pero no limitados a:
-
Búsqueda de pareja, para detectar automáticamente posibles parejas que compartan perfiles similares o compatibles según se determine, al menos en parte, a partir de los modelos de lenguaje adaptados por un sistema de reconocimiento del habla.
-
Entrega personalizada de información; periódicos personalizados, dependiendo de los intereses obtenidos a partir de dichos modelos de lenguaje.
-
Clasificación personalizada de resultados de búsqueda, mientras que el orden de los documentos recuperados, por ejemplo, por un motor de búsqueda, depende del perfil de cada usuario, obtenido a partir de lo que el usuario dice, oye, escribe y/o lee.
-
Delimitación automática de un resultado de búsqueda existente con el fin de conservar solamente los documentos que se adapten mejor a los intereses y al perfil del usuario.
-
Selección automática de audio, vídeo y/o contenido de texto enviados en modo de flujo al dispositivo del usuario, por ejemplo la selección automática de música reproducida para el usuario.
-
Selección automática de productos y servicios propuestos al cliente, dependiendo de lo que haya dicho el usuario y de lo que usuarios con perfiles similares en la base de datos 200 hayan seleccionado, examinado o comprado.
-
Filtro de mensajes no deseados que no se ajustan a los intereses y expresiones habituales de dicho usuario.
-
Servicios de subastas, en los que nuevas ofertas que pueden ajustarse al interés del usuario, determinado a partir de sus modelos de lenguaje y de habla, se envían de manera proactiva al espacio multimodal 101 de sus dispositivos terminales 10 a 13.
-
Bloc de notas, que permite al usuario realizar búsquedas en el historial de expresiones semánticas que ha utilizado o escuchado, por ejemplo durante un transcurso de tiempo específico, para ayudarle a recordar el nombre de una persona, lugar, etc.
-
Copia de seguridad central de modelos de lenguaje, así como de otros datos almacenados en la plataforma genérica 20, en un formato preferentemente independiente de los dispositivos terminales, permitiendo de este modo que el usuario utilice esos modelos entrenados con nuevos dispositivos.
-
Asistencia personalizada en un centro de atención telefónica, teniendo en cuanta el historial de interacciones multimodales y de habla del usuario.
Por lo tanto, la invención permite generar un canal de negocio multimodal real entre los usuarios por un lado, proveedores de servicios por otro lado, y el operador de red.

Claims (31)

1. Un procedimiento en una red de comunicaciones para personalizar un servicio, que comprende las etapas de:
generar modelos de lenguaje que dependen del usuario mediante un sistema de reconocimiento del habla;
almacenar dichos modelos de lenguaje que dependen del usuario;
obtener una lista personalizada de expresiones semánticas a partir de dichos modelos de lenguaje que dependen del usuario;
poner dicha lista a disposición de una aplicación que se ejecuta en un dispositivo de usuario y/o que está a disposición de proveedores de servicios externos, para personalizar un aspecto de un servicio (4) no relacionado con el procesamiento del habla.
\vskip1.000000\baselineskip
2. El procedimiento según la reivindicación 1, en el que al menos un subconjunto de dichos modelos de lenguaje que dependen del usuario se almacenan de manera local en un dispositivo de usuario (10, 11, 12, 13) y se sincronizan con modelos de lenguaje que dependen del usuario almacenados en una plataforma genérica (2).
3. El procedimiento según la reivindicación 2, que comprende una etapa de realizar un reconocimiento del habla en dicho dispositivo de usuario utilizando dichos modelos de lenguaje que dependen del usuario almacenados de manera local,
y en el que dicho aspecto de un servicio se personaliza utilizando dichos modelos de lenguaje que dependen del usuario almacenados de manera central.
\vskip1.000000\baselineskip
4. El procedimiento según una de las reivindicaciones 2 o 3, que comprende una etapa de cargar en dicho dispositivo de usuario un conjunto inicial de modelos de lenguaje,
adaptar dichos modelos de lenguaje a dicho usuario,
sincronizar dichos modelos de lenguaje adaptados que dependen del usuario con dichos modelos de lenguaje que dependen del usuario almacenados de manera central,
descargar dichos modelos de lenguaje que dependen del usuario almacenados de manera central en otro dispositivo de dicho usuario (10, 11, 12, 13).
\vskip1.000000\baselineskip
5. El procedimiento según una de las reivindicaciones 2 a 4, que comprende una etapa de cargar en dicho dispositivo de usuario un conjunto de modelos de lenguaje que depende de los datos demográficos y/o contextuales relacionados con dicho usuario y/o de temas extraídos a partir de diálogos de dicho usuario
adaptar dichos modelos de lenguaje en dicho dispositivo de usuario,
cargar dichos modelos de lenguaje adaptados en dicha plataforma.
\vskip1.000000\baselineskip
6. El procedimiento según una de las reivindicaciones 2 a 5, en el que versiones anteriores de dichos modelos de lenguaje que dependen del usuario están almacenadas en dicha plataforma genérica.
7. El procedimiento según la reivindicación 1, en el que dichas expresiones semánticas comprenden al menos uno de lo siguiente:
palabras,
bigramas, trigramas y/o n-gramas,
grupos semánticos y/u ontologías.
\vskip1.000000\baselineskip
8. El procedimiento según la reivindicación 1, que comprende una etapa de determinar la frecuencia de utilización de dichas expresiones semánticas por dicho usuario (1) y adaptar un perfil de usuario (200) según dicha frecuencia.
9. El procedimiento según la reivindicación 1, en el que un perfil de usuario depende del momento en el que dichas expresiones semánticas se recopilaron o pronunciaron.
10. El procedimiento según la reivindicación 1, en el que un perfil de usuario depende de la rareza de dichas expresiones semánticas y/o del contexto del que se obtuvieron.
11. El procedimiento según la reivindicación 1, que comprende las etapas de recopilar en un servidor de habla remoto material de habla pronunciado por un usuario (1) cuando accede a dicho servidor de habla remoto (20).
12. El procedimiento según la reivindicación 1, que comprende las etapas de recopilar en un dispositivo terminal de usuario (10, 11, 12, 13) material de habla pronunciado por un usuario (1) cuando habla a dicho dispositivo terminal de usuario (10, 11, 12, 13).
13. El procedimiento según una de las reivindicaciones 1 a 12, que comprende las etapas de recopilar material de habla de dicho usuario (1) durante conversaciones telefónicas habituales con otros usuarios o dispositivos,
y utilizar dicho material de habla para adaptar dichos modelos de lenguaje que dependen del usuario.
\vskip1.000000\baselineskip
14. El procedimiento según una de las reivindicaciones 1 a 13, que comprende las etapas de utilizar un micrófono de un dispositivo terminal de usuario (10, 11, 12, 13) de dicho usuario (1) para recopilar material de habla ambiental fuera del uso habitual de dicho dispositivo terminal de usuario (10, 11, 12, 13) para comunicaciones de habla o de datos con dispositivos externos,
y utilizar dicho material de habla ambiental para adaptar dichos modelos de lenguaje que dependen del usuario.
\vskip1.000000\baselineskip
15. El procedimiento según una de las reivindicaciones 1 a 14, que comprende además la etapa de poner dichos modelos de lenguaje que dependen del usuario a disposición de una pluralidad de sistemas de reconocimiento del habla en una red de comunicaciones (2).
16. El procedimiento según una de las reivindicaciones 1 a 15, en el que los perfiles de usuario anonimizados se ponen a disposición de proveedores de servicios externos de valor añadido (4).
17. El procedimiento según una de las reivindicaciones 1 a 16, en el que los perfiles de usuario sólo se ponen a disposición de proveedores de servicios externos de valor añadido (4) autorizados por dicho usuario (1).
18. El procedimiento según una de las reivindicaciones 1 a 17, en el que dicha etapa de personalizar un aspecto de un servicio incluye enviar mensajes publicitarios personalizados a dicho usuario (1).
19. El procedimiento según la reivindicación 18, en el que dichos mensajes publicitarios se visualizan en una parte reservada multimodal (101) de un dispositivo de usuario (10, 11, 12, 13).
20. El procedimiento según la reivindicación 19, en el que nuevos mensajes se envían a dicho dispositivo de usuario (10, 11, 12, 13) incluso fuera de comunicaciones iniciadas o contestadas por dicho usuario (1).
21. El procedimiento según una de las reivindicaciones 18 a 20, que comprende la etapa de proporcionar a dicho usuario (1) un incentivo para recibir dichos mensajes publicitarios.
22. El procedimiento según una de las reivindicaciones 19 a 21, en el que dicho usuario (1) puede contestar directamente dicho mensaje publicitario hablando y/o haciendo clic y/o escribiendo en dicha parte multimodal (101).
23. El procedimiento según la reivindicación 22, que comprende una etapa de autenticar dicho usuario (1) con su habla y/o con sus huellas digitales y/o con su escritura cuando contesta dicho mensaje publicitario.
24. El procedimiento según una de las reivindicaciones 1 a 23, en el que dicha etapa de personalizar un aspecto de un servicio incluye proponer a dicho usuario (1) nombres o direcciones de usuarios con intereses o perfiles afines.
25. El procedimiento según una de las reivindicaciones 1 a 24, en el que dicha etapa de personalizar un aspecto de un servicio incluye seleccionar información relacionada con los intereses de dicho usuario (1).
26. El procedimiento según una de las reivindicaciones 1 a 25, en el que dicha etapa de personalizar un aspecto de un servicio incluye clasificar resultados de búsqueda según criterios del usuario.
27. El procedimiento según una de las reivindicaciones 1 a 26, en el que dicha etapa de personalizar un aspecto de un servicio comprende filtrar mensajes no deseados.
28. El procedimiento según una de las reivindicaciones 1 a 27, que comprende además la etapa de utilizar modelos acústicos de habla que dependen del usuario suministrados por dicho sistema de reconocimiento del habla para personalizar dicho aspecto de dicho servicio (4) no relacionado con el procesamiento de habla.
29. Un sistema de comunicaciones en una red de comunicaciones, que comprende:
un sistema de reconocimiento del habla para generar una pluralidad de modelos de lenguaje que dependen del usuario;
medios para almacenar dichos modelos de lenguaje que dependen del usuario;
medios para obtener de dichos modelos de lenguaje que dependen del usuario una lista personalizada de expresiones semánticas; y
medios para poner dicha lista a disposición de una aplicación que se ejecuta en un dispositivo de usuario y/o a disposición de proveedores de servicios externos, para personalizar un aspecto de un servicio (4) no relacionado con el procesamiento de habla.
\vskip1.000000\baselineskip
30. El sistema según la reivindicación 29, que comprende medios de almacenamiento para almacenar modelos de lenguaje que dependen del usuario y medios de sincronización para sincronizar dichos modelos de lenguaje que dependen del usuario con modelos de lenguaje almacenados en dispositivos de usuario (10, 11, 12, 13).
31. El sistema según una de las reivindicaciones 29 o 30, que almacena además una pluralidad de modelos acústicos de habla que dependen del usuario suministrados por dichos sistemas de reconocimiento del habla.
ES05111345T 2005-11-25 2005-11-25 Procedimiento para personalizar un servicio. Active ES2330758T3 (es)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
EP05111345A EP1791114B1 (en) 2005-11-25 2005-11-25 A method for personalization of a service

Publications (1)

Publication Number Publication Date
ES2330758T3 true ES2330758T3 (es) 2009-12-15

Family

ID=36153077

Family Applications (1)

Application Number Title Priority Date Filing Date
ES05111345T Active ES2330758T3 (es) 2005-11-25 2005-11-25 Procedimiento para personalizar un servicio.

Country Status (5)

Country Link
US (1) US8005680B2 (es)
EP (2) EP2109097B1 (es)
AT (1) ATE439665T1 (es)
DE (1) DE602005015984D1 (es)
ES (1) ES2330758T3 (es)

Families Citing this family (91)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7895076B2 (en) * 1995-06-30 2011-02-22 Sony Computer Entertainment Inc. Advertisement insertion, profiling, impression, and feedback
US9342588B2 (en) * 2007-06-18 2016-05-17 International Business Machines Corporation Reclassification of training data to improve classifier accuracy
US9058319B2 (en) * 2007-06-18 2015-06-16 International Business Machines Corporation Sub-model generation to improve classification accuracy
US8521511B2 (en) * 2007-06-18 2013-08-27 International Business Machines Corporation Information extraction in a natural language understanding system
US8285539B2 (en) * 2007-06-18 2012-10-09 International Business Machines Corporation Extracting tokens in a natural language understanding application
US20090064320A1 (en) * 2007-06-27 2009-03-05 Sharp Kabushiki Kaisha Image processing apparatus and image processing system
US9202243B2 (en) * 2007-08-23 2015-12-01 Dside Technologies, Llc System, method, and computer program product for comparing decision options
US8954367B2 (en) 2007-08-23 2015-02-10 Dside Technologies, Llc System, method and computer program product for interfacing software engines
US8279848B1 (en) * 2007-09-27 2012-10-02 Sprint Communications Company L.P. Determining characteristics of a mobile user of a network
WO2009050773A1 (ja) * 2007-10-15 2009-04-23 Comsquare Co., Ltd. 広告情報管理方法、広告情報管理装置及び広告情報管理プログラム
US8255224B2 (en) * 2008-03-07 2012-08-28 Google Inc. Voice recognition grammar selection based on context
US20090240539A1 (en) * 2008-03-21 2009-09-24 Microsoft Corporation Machine learning system for a task brokerage system
CA2665055C (en) * 2008-05-23 2018-03-06 Accenture Global Services Gmbh Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto
US8577685B2 (en) * 2008-10-24 2013-11-05 At&T Intellectual Property I, L.P. System and method for targeted advertising
US8275623B2 (en) 2009-03-06 2012-09-25 At&T Intellectual Property I, L.P. Method and apparatus for analyzing discussion regarding media programs
JP2011033680A (ja) * 2009-07-30 2011-02-17 Sony Corp 音声処理装置及び方法、並びにプログラム
US11416214B2 (en) 2009-12-23 2022-08-16 Google Llc Multi-modal input on an electronic device
EP2339576B1 (en) 2009-12-23 2019-08-07 Google LLC Multi-modal input on an electronic device
US8612999B2 (en) * 2010-08-20 2013-12-17 Salesforce.Com, Inc. System, method and computer program product for publishing an application-independent format event
US8532994B2 (en) * 2010-08-27 2013-09-10 Cisco Technology, Inc. Speech recognition using a personal vocabulary and language model
US20120078635A1 (en) * 2010-09-24 2012-03-29 Apple Inc. Voice control system
US8352245B1 (en) 2010-12-30 2013-01-08 Google Inc. Adjusting language models
US8296142B2 (en) 2011-01-21 2012-10-23 Google Inc. Speech recognition using dock context
US8630860B1 (en) 2011-03-03 2014-01-14 Nuance Communications, Inc. Speaker and call characteristic sensitive open voice search
US20130066634A1 (en) * 2011-03-16 2013-03-14 Qualcomm Incorporated Automated Conversation Assistance
US9202465B2 (en) * 2011-03-25 2015-12-01 General Motors Llc Speech recognition dependent on text message content
US9760566B2 (en) 2011-03-31 2017-09-12 Microsoft Technology Licensing, Llc Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof
US9298287B2 (en) 2011-03-31 2016-03-29 Microsoft Technology Licensing, Llc Combined activation for natural user interface systems
US9244984B2 (en) 2011-03-31 2016-01-26 Microsoft Technology Licensing, Llc Location based conversational understanding
US9842168B2 (en) 2011-03-31 2017-12-12 Microsoft Technology Licensing, Llc Task driven user intents
US10642934B2 (en) 2011-03-31 2020-05-05 Microsoft Technology Licensing, Llc Augmented conversational understanding architecture
US9858343B2 (en) * 2011-03-31 2018-01-02 Microsoft Technology Licensing Llc Personalization of queries, conversations, and searches
US9064006B2 (en) 2012-08-23 2015-06-23 Microsoft Technology Licensing, Llc Translating natural language utterances to keyword search queries
US9454962B2 (en) 2011-05-12 2016-09-27 Microsoft Technology Licensing, Llc Sentence simplification for spoken language understanding
US8938391B2 (en) * 2011-06-12 2015-01-20 Microsoft Corporation Dynamically adding personalization features to language models for voice search
GB2493413B (en) * 2011-07-25 2013-12-25 Ibm Maintaining and supplying speech models
US9465368B1 (en) * 2011-12-08 2016-10-11 Navroop Pal Singh Mitter Authentication system and method thereof
US9620111B1 (en) * 2012-05-01 2017-04-11 Amazon Technologies, Inc. Generation and maintenance of language model
GB201208373D0 (en) * 2012-05-14 2012-06-27 Touchtype Ltd Mechanism for synchronising devices,system and method
US9195721B2 (en) 2012-06-04 2015-11-24 Apple Inc. Mobile device with localized app recommendations
US20140039893A1 (en) * 2012-07-31 2014-02-06 Sri International Personalized Voice-Driven User Interfaces for Remote Multi-User Services
US9786281B1 (en) * 2012-08-02 2017-10-10 Amazon Technologies, Inc. Household agent learning
US9460716B1 (en) * 2012-09-11 2016-10-04 Google Inc. Using social networks to improve acoustic models
US9043210B1 (en) * 2012-10-02 2015-05-26 Voice Security Systems, Inc. Biometric voice command and control switching device and method of use
US8983849B2 (en) * 2012-10-17 2015-03-17 Nuance Communications, Inc. Multiple device intelligent language model synchronization
US9137314B2 (en) * 2012-11-06 2015-09-15 At&T Intellectual Property I, L.P. Methods, systems, and products for personalized feedback
WO2014096506A1 (en) * 2012-12-21 2014-06-26 Nokia Corporation Method, apparatus, and computer program product for personalizing speech recognition
EP3039386A4 (en) * 2013-03-15 2017-01-18 Dside Technologies LLC System, method, and computer program product for comparing decision options
US9953630B1 (en) * 2013-05-31 2018-04-24 Amazon Technologies, Inc. Language recognition for device settings
US20140365225A1 (en) * 2013-06-05 2014-12-11 DSP Group Ultra-low-power adaptive, user independent, voice triggering schemes
CN103399906B (zh) * 2013-07-29 2015-07-29 百度在线网络技术(北京)有限公司 在进行输入时基于社会关系提供候选词的方法和装置
US9530416B2 (en) 2013-10-28 2016-12-27 At&T Intellectual Property I, L.P. System and method for managing models for embedded speech and language processing
US9666188B2 (en) 2013-10-29 2017-05-30 Nuance Communications, Inc. System and method of performing automatic speech recognition using local private data
US9607081B2 (en) 2013-11-15 2017-03-28 Red Hat, Inc. Ontology based categorization of users
US20150161999A1 (en) * 2013-12-09 2015-06-11 Ravi Kalluri Media content consumption with individualized acoustic speech recognition
US20150161986A1 (en) * 2013-12-09 2015-06-11 Intel Corporation Device-based personal speech recognition training
US9842592B2 (en) 2014-02-12 2017-12-12 Google Inc. Language models using non-linguistic context
US9412365B2 (en) 2014-03-24 2016-08-09 Google Inc. Enhanced maximum entropy models
US9633649B2 (en) 2014-05-02 2017-04-25 At&T Intellectual Property I, L.P. System and method for creating voice profiles for specific demographics
US9564123B1 (en) * 2014-05-12 2017-02-07 Soundhound, Inc. Method and system for building an integrated user profile
US9997157B2 (en) * 2014-05-16 2018-06-12 Microsoft Technology Licensing, Llc Knowledge source personalization to improve language models
US9913100B2 (en) 2014-05-30 2018-03-06 Apple Inc. Techniques for generating maps of venues including buildings and floors
US9402161B2 (en) 2014-07-23 2016-07-26 Apple Inc. Providing personalized content based on historical interaction with a mobile device
US10073828B2 (en) * 2015-02-27 2018-09-11 Nuance Communications, Inc. Updating language databases using crowd-sourced input
US10134394B2 (en) 2015-03-20 2018-11-20 Google Llc Speech recognition using log-linear model
CN111552416A (zh) 2015-04-13 2020-08-18 华为技术有限公司 启动任务管理界面的方法、装置及设备
US9922138B2 (en) * 2015-05-27 2018-03-20 Google Llc Dynamically updatable offline grammar model for resource-constrained offline device
US9529500B1 (en) 2015-06-05 2016-12-27 Apple Inc. Application recommendation based on detected triggering events
DE102015211101A1 (de) * 2015-06-17 2016-12-22 Volkswagen Aktiengesellschaft Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server
US10008199B2 (en) 2015-08-22 2018-06-26 Toyota Motor Engineering & Manufacturing North America, Inc. Speech recognition system with abbreviated training
CN108604237B (zh) 2015-12-01 2022-10-14 英特吉姆公司股份有限公司 个性化交互式智能搜索方法和系统
US9978367B2 (en) 2016-03-16 2018-05-22 Google Llc Determining dialog states for language models
WO2018049430A2 (en) * 2016-08-11 2018-03-15 Integem Inc. An intelligent interactive and augmented reality based user interface platform
US10832664B2 (en) 2016-08-19 2020-11-10 Google Llc Automated speech recognition using language models that selectively use domain-specific model components
US10181321B2 (en) 2016-09-27 2019-01-15 Vocollect, Inc. Utilization of location and environment to improve recognition
US10846779B2 (en) 2016-11-23 2020-11-24 Sony Interactive Entertainment LLC Custom product categorization of digital media content
US10860987B2 (en) 2016-12-19 2020-12-08 Sony Interactive Entertainment LLC Personalized calendar for digital media content-related events
KR20180070970A (ko) * 2016-12-19 2018-06-27 삼성전자주식회사 음성 인식 방법 및 장치
US10311860B2 (en) 2017-02-14 2019-06-04 Google Llc Language model biasing system
CN107507612B (zh) * 2017-06-30 2020-08-28 百度在线网络技术(北京)有限公司 一种声纹识别方法及装置
US10719592B1 (en) 2017-09-15 2020-07-21 Wells Fargo Bank, N.A. Input/output privacy tool
US10931991B2 (en) 2018-01-04 2021-02-23 Sony Interactive Entertainment LLC Methods and systems for selectively skipping through media content
US10719832B1 (en) 2018-01-12 2020-07-21 Wells Fargo Bank, N.A. Fraud prevention tool
CN112334975A (zh) * 2018-06-29 2021-02-05 索尼公司 信息处理设备、信息处理方法和程序
CN109086273B (zh) * 2018-08-14 2022-04-15 北京猿力未来科技有限公司 基于神经网络解答语法填空题的方法、装置和终端设备
US11232783B2 (en) * 2018-09-12 2022-01-25 Samsung Electronics Co., Ltd. System and method for dynamic cluster personalization
KR20200052612A (ko) * 2018-11-07 2020-05-15 삼성전자주식회사 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
RU2744063C1 (ru) 2018-12-18 2021-03-02 Общество С Ограниченной Ответственностью "Яндекс" Способ и система определения говорящего пользователя управляемого голосом устройства
US11727925B2 (en) * 2020-10-13 2023-08-15 Google Llc Cross-device data synchronization based on simultaneous hotword triggers
CN113177114B (zh) * 2021-05-28 2022-10-21 重庆电子工程职业学院 一种基于深度学习的自然语言语义理解方法
CN115544994B (zh) * 2022-12-01 2023-05-05 爱集微咨询(厦门)有限公司 数据推送方法、装置、电子设备以及可读存储介质

Family Cites Families (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5915001A (en) * 1996-11-14 1999-06-22 Vois Corporation System and method for providing and using universally accessible voice and speech data files
US6167377A (en) * 1997-03-28 2000-12-26 Dragon Systems, Inc. Speech recognition language models
US6418431B1 (en) * 1998-03-30 2002-07-09 Microsoft Corporation Information retrieval and speech recognition based on language models
US20050091057A1 (en) * 1999-04-12 2005-04-28 General Magic, Inc. Voice application development methodology
US6665644B1 (en) * 1999-08-10 2003-12-16 International Business Machines Corporation Conversational data mining
JP2001188784A (ja) * 1999-12-28 2001-07-10 Sony Corp 会話処理装置および方法、並びに記録媒体
US20030078779A1 (en) * 2000-01-04 2003-04-24 Adesh Desai Interactive voice response system
US6510417B1 (en) * 2000-03-21 2003-01-21 America Online, Inc. System and method for voice access to internet-based information
US7096185B2 (en) * 2000-03-31 2006-08-22 United Video Properties, Inc. User speech interfaces for interactive media guidance applications
US20020046030A1 (en) * 2000-05-18 2002-04-18 Haritsa Jayant Ramaswamy Method and apparatus for improved call handling and service based on caller's demographic information
US6687696B2 (en) 2000-07-26 2004-02-03 Recommind Inc. System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
GB2372864B (en) * 2001-02-28 2005-09-07 Vox Generation Ltd Spoken language interface
US6848542B2 (en) * 2001-04-27 2005-02-01 Accenture Llp Method for passive mining of usage information in a location-based services system
US7013275B2 (en) * 2001-12-28 2006-03-14 Sri International Method and apparatus for providing a dynamic speech-driven control and remote service access system
US20030171931A1 (en) * 2002-03-11 2003-09-11 Chang Eric I-Chao System for creating user-dependent recognition models and for making those models accessible by a user
US7099825B1 (en) * 2002-03-15 2006-08-29 Sprint Communications Company L.P. User mobility in a voice recognition environment
EP1400953B1 (en) * 2002-09-12 2013-03-20 me2me AG Method for building speech and/or language recognition models
US7584102B2 (en) * 2002-11-15 2009-09-01 Scansoft, Inc. Language model for use in speech recognition

Also Published As

Publication number Publication date
ATE439665T1 (de) 2009-08-15
DE602005015984D1 (de) 2009-09-24
EP1791114A1 (en) 2007-05-30
US8005680B2 (en) 2011-08-23
US20070124134A1 (en) 2007-05-31
EP2109097B1 (en) 2014-03-19
EP1791114B1 (en) 2009-08-12
EP2109097A1 (en) 2009-10-14

Similar Documents

Publication Publication Date Title
ES2330758T3 (es) Procedimiento para personalizar un servicio.
US20220319517A1 (en) Electronic personal interactive device
US9786281B1 (en) Household agent learning
CN110998725B (zh) 在对话中生成响应
US9053096B2 (en) Language translation based on speaker-related information
US20130144619A1 (en) Enhanced voice conferencing
KR20190096304A (ko) 대화 내용에 대한 요약문 생성 장치 및 방법
US20220188361A1 (en) Voice-based Auto-Completions and Auto-Responses for Assistant Systems
US11074916B2 (en) Information processing system, and information processing method
US11562744B1 (en) Stylizing text-to-speech (TTS) voice response for assistant systems
CN109829039A (zh) 智能聊天方法、装置、计算机设备及存储介质
US20080240379A1 (en) Automatic retrieval and presentation of information relevant to the context of a user&#39;s conversation
KR20200059054A (ko) 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법
Neustein Advances in speech recognition: mobile environments, call centers and clinics
US20220366904A1 (en) Active Listening for Assistant Systems
Nadeak et al. AN ANALYSIS OF ILLOCUTIONARY ACT AND PERLOCUTIONARY ACT OF JUDY HOPPS'UTTERANCES IN ZOOTOPIA MOVIE (2016)
US11381675B2 (en) Command based interactive system and a method thereof
CN114155460A (zh) 用户类型识别的方法、装置、计算机设备以及存储介质
CN110390938A (zh) 基于声纹的语音处理方法、装置和终端设备
KR20240073991A (ko) 음성 합성 서비스 제공 방법 및 그 시스템
Cave How People Living With Amyotrophic Lateral Sclerosis Use Personalized Automatic Speech Recognition Technology to Support Communication
CN117131191A (zh) 互动账号评论方法及装置
CN117275453A (zh) 使用用户特定的语音模型呈现文本消息的方法
CN114168706A (zh) 智能对话能力测试方法、介质和测试设备