ES2330758T3

ES2330758T3 - Procedimiento para personalizar un servicio.

Info

Publication number: ES2330758T3
Application number: ES05111345T
Authority: ES
Inventors: Robert Van Kommer
Original assignee: Swisscom AG
Current assignee: Swisscom AG
Priority date: 2005-11-25
Filing date: 2005-11-25
Publication date: 2009-12-15
Anticipated expiration: 2025-11-25
Also published as: ATE439665T1; DE602005015984D1; EP1791114A1; US8005680B2; US20070124134A1; EP2109097B1; EP1791114B1; EP2109097A1

Abstract

Un procedimiento en una red de comunicaciones para personalizar un servicio, que comprende las etapas de: generar modelos de lenguaje que dependen del usuario mediante un sistema de reconocimiento del habla; almacenar dichos modelos de lenguaje que dependen del usuario; obtener una lista personalizada de expresiones semánticas a partir de dichos modelos de lenguaje que dependen del usuario; poner dicha lista a disposición de una aplicación que se ejecuta en un dispositivo de usuario y/o que está a disposición de proveedores de servicios externos, para personalizar un aspecto de un servicio (4) no relacionado con el procesamiento del habla.

Description

Procedimiento para personalizar un servicio.

Campo de la invención

La presente invención se refiere a un procedimiento para personalizar servicios en una red de telecomunicaciones, y a una plataforma para personalizar servicios de proveedores de servicios.

Descripción de la técnica relacionada

El éxito o el fracaso de muchos servicios de los servicios de telecomunicaciones depende en gran medida de la personalización de al menos algunos aspectos del servicio. Por ejemplo, los servicios que utilizan algoritmos de reconocimiento del habla funcionarán mejor con modelos de habla y de lenguaje que dependan del usuario. Encontrar y clasificar información en motores de búsqueda, periódicos electrónicos y otras fuentes de información es más eficaz si el algoritmo tiene en cuenta los intereses y el historial del usuario. La experiencia de navegar por una tienda web puede mejorarse con sugerencias de artículos comprados por otros usuarios que tengan intereses afines.

Por lo tanto, existe la necesidad de que muchos proveedores de servicios, incluyendo los operadores de telecomunicaciones, generen y mantengan perfiles de usuario que siempre tengan más información relacionada con los intereses, preferencias y costumbres de cada usuario. En muchos sistemas existentes, la información de los perfiles de usuario se obtiene a partir de cuestionarios, que muchos usuarios encuentran engorrosos de rellenar, y del comportamiento de usuario.

El documento US-B2-6.687.696 describe un sistema y un procedimiento para un filtrado personalizado de información y generación automática de recomendaciones específicas para el usuario, en el que el filtrado y la generación de recomendaciones dependen de un modelo estadístico y semántico de cada usuario. El modelo de usuario se obtiene en base a datos de usuario recuperados a partir de cuestionarios o deducidos a través de observaciones del comportamiento del usuario, tales como los registros del historial de Internet, información demográfica, etc. No se sugieren otros usos del algoritmo para servicios distintos al filtrado de información y la generación de recomendaciones. Además, aunque esta solución puede ser apropiada para personalizar servicios para usuarios de ordenadores personales, es menos apropiada para personalizar servicios ofrecidos a usuarios de equipos telefónicos y de otros dispositivos en los que la mayoría de las interacciones del usuario se realizan con el habla.

El documento US 2005/033 582 desvela una interfaz de lenguaje hablado que comprende un sistema automático de reconocimiento del habla y un sistema de conversión texto a voz controlado por un controlador de habla. El ASR (automatic speech recognition) y el TTS (text to speech) están conectados a un sistema de telefonía que recibe el habla del usuario a través de un enlace de comunicaciones. Un gestor de diálogo está conectado al controlador de habla y proporciona control de diálogo generado como respuesta al habla del usuario. El gestor de diálogo está conectado a gestores de aplicación, cada uno de los cuales proporciona una interfaz a una aplicación con la que el usuario puede conversar. El diálogo y las gramáticas se almacenan en una base de datos y se recuperan bajo el control del gestor de diálogo y de un módulo de aprendizaje adaptativo y de personalización. Un gestor de sesión y de notificación registra los detalles de la sesión y permite la reconexión de una conversación interrumpida en el momento en que la conversión fue interrumpida.

Según la invención, un objetivo de la invención es proporcionar un nuevo procedimiento y sistema para personalizar servicios en una red de telecomunicaciones que estén mejor adaptados a los usuarios de equipos telefónicos y otros dispositivos controlados mediante el habla.

Otro objetivo de la invención es proporcionar un nuevo procedimiento y sistema para personalizar servicios en una red de telecomunicaciones que estén adaptados a una gran variedad de servicios, incluyendo servicios proporcionados por proveedores de servicios externos.

Otro objetivo de la invención es crear un nuevo flujo de comunicación entre un usuario y un proveedor de servicios externo, en el que el usuario pueda beneficiarse de una calidad de interacción mejorada con su dispositivo y servicios solicitados, y posiblemente de incentivos adicionales, y en el que los proveedores de servicios, incluyendo el operador de telecomunicaciones, puedan beneficiarse de una eficacia comercial mejorada.

Otro objetivo de la invención es crear un canal de negocio multimodal entre usuarios, proveedores de servicio y operadores de red.

Breve resumen de la invención

Según la invención, estos objetivos, entre otros, se consiguen mediante un procedimiento según la reivindicación 1 y un sistema según la reivindicación 29.

Esto tiene la ventaja de que la personalización del servicio depende no solamente de lo que ha escrito o leído el usuario, sino también de lo que el usuario dice o escucha. Por lo tanto, el procedimiento puede usarse con dispositivos que se utilicen o se controlen principalmente mediante el habla, por ejemplo dispositivos manuales que carezcan de un teclado completo.

Según otro aspecto de la invención, los modelos que dependen del usuario adaptados por el sistema de reconocimiento del habla, y/o el perfil de usuario obtenido de esos modelos, se ponen a disposición de una pluralidad de proveedores de servicios externos de valor añadido. Por lo tanto, los perfiles personalizados generados con el procedimiento inventivo no sólo beneficiarán al sistema o a la entidad que recopila el material de habla del usuario, sino también a los proveedores de servicios externos.

Según otro aspecto adicional de la invención, un espacio de interacción multimodal está abierto permanentemente en el dispositivo terminal del usuario y, posiblemente, en un servicio web sincronizado. Este espacio de interacción puede utilizarse por varios proveedores de servicios externos, por ejemplo para visualizar o reproducir material publicitario y de información que depende del usuario, mientras que el contenido visualizado o reproducido puede depender del perfil de usuario obtenido a partir de los modelos que dependen del usuario. Además, la interfaz de usuario multimodal se adapta continuamente a través de la información de entrada e interacciones del usuario a fin de mejorar la calidad del reconocimiento del habla y de escritura en dicha interfaz, para adaptar el contenido visualizado o hablado a las preferencias del usuario, y para adaptar la interfaz a las preferencias y costumbres del usuario. Finalmente, los modelos de interacción personalizada pueden utilizarse para reforzar la autenticación del usuario a través de, por ejemplo, una verificación de usuario biométrica.

Según otra característica, posiblemente independiente, de la invención, los modelos de lenguaje y de habla que dependen del usuario están almacenados en el dispositivo del usuario y están sincronizados de manera inteligente con modelos de lenguaje y de habla que dependen del usuario y, a efectos prácticos, almacenados permanentemente de manera central en una plataforma genérica de una red de telecomunicaciones. Esto combina las ventajas de modelos fácilmente disponibles por el sistema de reconocimiento del habla del dispositivo de usuario con las ventajas de lenguaje disponible fuera del dispositivo. Los modelos de lenguaje y de habla que dependen del usuario almacenados de manera central pueden copiarse o utilizarse después en otro dispositivo del usuario. Por lo tanto, un usuario que cambie de dispositivo o que utilice diferentes dispositivos con sistemas de reconocimiento del habla no necesita entrenar los modelos de lenguaje y de habla con cada dispositivo diferente. Los modelos de lenguaje y/o habla también pueden ponerse a disposición de terceras partes, incluyendo proveedores de servicios externos que utilicen estos modelos para personalizar sus servicios para el usuario. Además, los modelos que dependen del usuario pueden actualizarse en cualquier momento desde la plataforma genérica central. Este mecanismo de sincronización de modelos de lenguaje y/o de habla almacenados en dos lugares diferentes incluso puede utilizarse de forma independiente respecto de las características de la reivindicación 1 de la solicitud.

Breve descripción de los dibujos

La invención se entenderá mejor con la ayuda de la descripción de una realización proporcionada a modo de ejemplo e ilustrada en las figuras, en las que:

La Fig. 1 ilustra un diagrama esquemático de un sistema de telecomunicaciones en el que puede llevarse a cabo el procedimiento de la invención.

La Fig. 2 muestra un dispositivo de usuario que incluye un espacio de interacción multimodal según una característica preferida de la invención.

La Fig. 3 muestra modelos de lenguaje que dependen del tiempo y del usuario.

Descripción detallada de posibles realizaciones de la invención

La presente invención se refiere en general a la personalización de servicios en redes de comunicaciones. Los servicios que pueden beneficiarse de la invención incluyen, por ejemplo, servicios proporcionados por terceras partes remotas y externas, servicios de un proveedor de telecomunicaciones, así como servicios ofrecidos por aplicaciones que se ejecutan total o parcialmente en dispositivos terminales de usuario. En particular, la presente invención se refiere a la personalización de servicios que utilizan modelos de lenguaje que dependen del hablante adaptados mediante un sistema de reconocimiento del habla.

En el contexto de la invención, la expresión "modelos de lenguaje" designa un conjunto de módulos que representan todo el lenguaje que va a entender un sistema de reconocimiento del habla. Los modelos de lenguaje pueden describirse con una gramática; una gramática puede estar limitada cuando no incluye todas y cada una de las posibles expresiones del lenguaje del hablante; una gramática limitada limita por tanto el conjunto de frases aceptables, pero es más fácil de crear y puede mejorar la precisión global del reconocimiento del habla reduciendo las confusiones. Una gramática puede expresarse utilizando un conjunto de reglas, y/o enumerando todas y cada una de las posibles expresiones permitidas en la gramática. Probabilidades absolutas o dependientes del contexto pueden asociarse a la gramática (en los modelos de lenguaje) con cada expresión de la lista.

Los modelos de lenguaje necesitan distinguirse claramente de los modelos acústicos de habla, es decir, modelos para los fonemas o trifonos de la señal de habla. El objetivo de los modelos de lenguaje es únicamente definir expectativas relacionadas con las expresiones, tales como palabras, grupos de palabras o frases, que pueden pronunciarse en una fase dada de un diálogo de habla. Por ejemplo, cuando el gestor de diálogo de un sistema automático de directorios indica al usuario que introduzca el nombre de una ciudad, esperará que el usuario conteste con el nombre de una ciudad existente. Por lo tanto, el proceso de reconocimiento mejorará enormemente limitando la comparación del dato pronunciado a nombres de ciudades indicados en un léxico. Por ejemplo, si se utiliza un descodificador de Viterbi para determinar el nombre que es más probable que se haya pronunciado, la probabilidad de errores y el tiempo de búsqueda se reducirán si la búsqueda se limita a nombres que existan en el léxico.

Los modelos de lenguaje pueden crearse partiendo de cero, utilizando por ejemplo una herramienta de desarrollo de gramáticas, y/o pueden aprenderse y adaptarse de manera automática a partir de material de habla existente recopilado a partir de un hablante, o a partir de un grupo de varios hablantes. También es posible generar o comprar modelos de lenguaje adaptados a grupos específicos de usuarios, por ejemplo dependiendo de la profesión, edad y aficiones de los usuarios. Además, debe observarse que los modelos de lenguaje utilizados por un sistema de reconocimiento de habla son específicos según el origen lingüístico del hablante.

Los modelos de lenguaje pueden almacenarse como un archivo de datos que contenga el conjunto de reglas que represente la gramática, y/o como un archivo de datos que contenga una tabla u otra estructura de almacenamiento de datos para almacenar todas las expresiones y probabilidades asociadas que definan a los modelos.

El término "expresión" designa en el contexto de esta invención una entrada específica en los modelos de lenguaje. Una expresión puede ser por ejemplo una palabra (unigrama), un par de palabras relacionadas (bigrama), tal como <el gato>, un trigrama (por ejemplo "podría por favor"), etc. Un conjunto de modelos de lenguaje que dependen del usuario contendrá diferentes conjuntos de expresiones para cada usuario y asociará diferentes probabilidades a cada expresión. Además, las probabilidades asociadas con cada expresión pueden depender del contexto.

El término "sistema de reconocimiento del habla" designa una combinación de hardware y software, o solamente software, que puede reconocer frases pronunciadas y detectar expresiones conocidas en las frases.

El término "sincronización inteligente" designa un mecanismo mediante el cual conjuntos de datos almacenados en diferentes lugares no solamente se duplican, sino que también se adaptan, convierten u optimizan de otro modo en al menos un lugar. El conjunto de datos almacenados en los diferentes lugares pueden ser diferentes.

El término "proveedor de servicios" o "proveedor de servicios de valor añadido" designa en este contexto cualquier entidad que proporcione servicios a usuarios a través de la red de telecomunicaciones, incluyendo terceras partes, el propio operador de red, el operador de servicios web, centros de atención telefónica, etc.

El sistema de la invención comprende un usuario 1 que utiliza uno o varios dispositivos terminales de usuario tales como, por ejemplo, un teléfono móvil 10, un ordenador personal 11, un teléfono fijo 13 y/o cualquier equipo de comunicación electrónico 13 de un coche para utilizar o acceder a varios servicios proporcionados en el dispositivo terminal y/o mediante proveedores de servicios remotos. Al menos algunos de los dispositivos terminales pueden incluir medios de identificación y autenticación de dispositivo y/o de usuario, incluyendo por ejemplo medios de introducción de contraseñas, sensores biométricos y/o tarjetas inteligentes de identificación de usuario. En una realización preferida, la identificación o autenticación de usuario biométrica se basa en una verificación de habla del hablante.

Además, al menos algunos dispositivos incluyen un micrófono para capturar el habla pronunciada por los usuarios, así como preferentemente software de reconocimiento del habla local para reconocer el habla. En una realización preferida, al menos un dispositivo permite una interacción multimodal con el usuario, en base a una combinación de habla con entradas de usuario mediante teclado, teclado numérico o almohadilla táctil.

El reconocimiento del habla se basa preferentemente en tecnologías tales como, por ejemplo, modelos ocultos de Markov (HMM) y/o redes neuronales, y preferentemente depende del hablante. En el contexto de esta invención, reconocimiento de habla que depende del hablante significa que el reconocimiento utiliza modelos acústicos de habla (modelos acústicos para los fonemas) y modelos de lenguaje que dependen de cada usuario. Con el fin de mejorar la velocidad de interacción, el reconocimiento del habla se realiza preferentemente de manera local y en base a modelos de habla y de lenguaje almacenados de manera local, es decir, en el dispositivo del usuario.

Una copia, o un conjunto más grande, de los modelos de lenguaje, y posiblemente de habla, que dependen del usuario también puede proporcionarse en una plataforma genérica 20 compartida por varios usuarios y a la que se accede a través de una red de comunicaciones 2 tal como Internet. En este caso se proporciona preferentemente un mecanismo de sincronización inteligente para sincronizar cambios, adiciones o borrados en los modelos del dispositivo terminal con cambios, adiciones o borrados en la plataforma genérica, y/o para eliminar del dispositivo terminal modelos de lenguaje no utilizados.

En una realización, un conjunto inicial de modelos de lenguaje se carga en primer lugar en un dispositivo terminal de usuario 10, 11, 12 o 13, por ejemplo cuando el usuario se suscribe al servicio. El modelo de lenguaje seleccionado puede ser completamente independiente del usuario, o puede depender preferentemente de los datos demográficos y/o contextuales relacionados con dicho usuario, incluyendo posiblemente datos recuperados de cuestionarios y/o temas extraídos de manera semántica de los diálogos de dicho usuario o de otras interacciones con su dispositivo. Asimismo, un conjunto inicial de modelos acústicos de habla independientes del hablante, o dependientes de grupos, puede cargarse en un dispositivo terminal de usuario 10, 11, 12 o 13.

En una realización, los modelos de habla y/o de lenguaje utilizados inicialmente para el reconocimiento de la habla de un nuevo usuario se recuperan a partir de otros usuarios o a partir de un conjunto de usuarios con perfiles similares, por ejemplo acentos similares, orígenes similares, profesiones similares, perfiles demográficos similares, etc. El conjunto también puede comprarse a una tercera parte. Además, el conjunto puede depender del contexto, por ejemplo de las aplicaciones y servicios utilizados actualmente o recientemente por el usuario 1, de la fecha, de la hora (diferentes conjuntos en casa o en el trabajo), de la ubicación del usuario, etc. Los modelos acústicos de habla se adaptan entonces con un nuevo material de habla recopilado a partir del usuario, utilizando por ejemplo el algoritmo de Baum-Welsch.

Después, esos modelos de habla y/o de lenguaje iniciales se adaptan de manera local al habla y/o al lenguaje del usuario utilizando datos de salida del sistema de reconocimiento del habla de los dispositivos de usuario 10, 11, 12, 13. Los modelos de lenguaje pueden completarse y adaptarse, por ejemplo, cada vez que un usuario diga una nueva expresión. Los modelos de lenguaje del dispositivo de usuario también pueden actualizarse en cualquier momento desde la plataforma genérica, dependiendo, por ejemplo, del contexto y de datos de entrada de otros usuarios. Además, las expresiones no utilizadas pueden eliminarse de un modelo de lenguaje o de la copia local de los modelos de lenguaje.

Después, los modelos de lenguaje pueden actualizarse en la plataforma genérica 2 con el fin de guardarlos, copiarlos en otros dispositivos del usuario, y/o ponerlos, a efectos prácticos, permanentemente a disposición de proveedores de servicios externos y de otros dispositivos del usuario.

Debe observarse que la plataforma genérica 20 no almacena necesariamente una réplica exacta de los modelos de lenguaje o de habla de los dispositivos del usuario. Por el contrario, preferentemente, los modelos que dependen del hablante se adaptan, convierten y/u optimizan de otro modo en la plataforma genérica, por ejemplo para reducir sus requisitos de almacenamiento, o para mejorarlos utilizando el conocimiento disponible en la plataforma genérica, incluyendo posiblemente el conocimiento recuperado a partir de modelos de otros usuarios. Por lo tanto, la plataforma genérica no actúa simplemente como un repositorio para el almacenamiento seguro de los modelos de lenguaje y de habla que dependen del hablante, sino que procesa y/u optimiza los modelos. Esto se denomina "aprendizaje máquina" y la expresión "aprendizaje de colaboración" se utiliza cuando el conocimiento recuperado a partir de otros usuarios se utiliza para mejorar los modelos de un usuario.

Los modelos de lenguaje que dependen del usuario almacenados en y utilizados por el dispositivo del usuario pueden adaptarse además en cualquier momento, posiblemente justo al comienzo de cada sesión que requiera reconocimiento del habla, con modelos de lenguaje adicionales recuperados de la plataforma central 20 y/o de proveedores de servicios. Por ejemplo, los modelos de lenguaje que dependen del contexto pueden descargarse, dependiendo de la aplicación o del servicio utilizado actualmente por el usuario 1 o de los temas extraídos de manera semántica de diálogos recientes o de otras interacciones del usuario. Además, la plataforma genérica 20 también puede iniciar posiblemente la eliminación de modelos raramente utilizados, o de modelos que probablemente no sean útiles para las siguientes sesiones.

Asimismo, la plataforma genérica puede iniciar en cualquier momento la actualización de los modelos de habla almacenados en el dispositivo del usuario, por ejemplo al principio de una sesión.

En una realización, los modelos se almacenan como servicios web en la plataforma genérica 20 y una aplicación, servicio o agente de la plataforma genérica y/o de los dispositivos de usuario garantiza que un subconjunto apropiado de esos modelos se almacene de manera local en los dispositivos terminales. Diferentes subconjuntos de modelos de lenguaje pueden almacenarse en los diferentes dispositivos terminales 10 y 11 de un mismo usuario 1, dependiendo de la memoria disponible y/o del uso que realice el usuario de sus dispositivos terminales. Todo el proceso de sincronización de modelos de lenguaje es preferentemente transparente para el usuario final y se controla mediante la plataforma genérica 20. Además, este proceso es preferiblemente gratis para el usuario 1, o se cobra en una tarifa plana, por ejemplo como parte de la suscripción.

Además, también puede ser posible actualizar los modelos acústicos de habla que dependen del usuario en la plataforma genérica 20 para utilizarse posteriormente en otros dispositivos de usuario.

Los modelos de lenguaje que dependen del usuario cargados en la plataforma genérica central 20 pueden utilizarse además para adaptar modelos de lenguaje independientes del usuario, o dependientes de grupos, que se ponen a disposición de otros usuarios.

El almacenamiento de los modelos de lenguaje en la plataforma genérica 20 puede cobrarse al usuario, por ejemplo en función del volumen requerido, la frecuencia de uso, etc. En una realización preferida, este servicio se ofrece como una parte de una suscripción del usuario a la red de telecomunicaciones o a un servicio que utilice esos modelos de lenguaje. El almacenamiento puede ser independiente de cualquier copia de seguridad central del dispositivo de usuario o de una tarjeta SIM del dispositivo de usuario 10, 11, 12, 13, lo que también puede realizarse; en particular, la sincronización de los modelos de lenguaje del dispositivo y de la plataforma central 20 se activa mediante otros eventos y puede realizarse en diferentes momentos que cualquier copia de seguridad del dispositivo del usuario. Además, tal y como se ha mencionado anteriormente, los modelos de lenguaje y/o de habla se convierten posiblemente en la plataforma central 20, y en cualquier caso se almacenan en un formato independiente del dispositivo, adecuado para su utilización en diferentes dispositivos o por diferentes proveedores de servicios externos.

El almacenamiento de los modelos que dependen del usuario, o de una copia o superconjunto de esos modelos, en la plataforma genérica 2 también permite que esos modelos se utilicen con diferentes dispositivos terminales del usuario. Esto tiene la ventaja de una adaptación mejorada y más rápida de los modelos, puesto que todas las interacciones del usuario 1 con cualquiera de sus dispositivos 10 a 13 se utilizarán para adaptar los modelos. Además, cualquier dispositivo de usuario con un sistema de reconocimiento del habla compatible se beneficiará de los modelos entrenados anteriormente con otros dispositivos; los modelos de lenguaje que dependen del usuario se vuelven de este modo genéricos, permanentes e independientes de cualquier dispositivo de usuario.

En una realización preferida, los modelos de lenguaje y/o de habla de una pluralidad de usuarios se almacenan en una plataforma genérica común 20. En este caso deben proporcionarse medios de identificación de usuario con el fin de asociar cada dispositivo terminal conectado con el conjunto correspondiente de modelos de lenguaje. La identificación de usuario puede basarse en la identificación de línea de la persona que llama (CLI, caller line identification), en la identificación internacional de abonado móvil (IMSI, international mobile subscriber identification) y/o en el IDSN de abonado móvil (MSISIDN, mobile suscriber ISDN) almacenados en una tarjeta SIM del dispositivo del usuario, en una identificación de usuario y/o una contraseña introducida por el usuario, en su correo o dirección de Internet, y/o en parámetros biométricos, etc. En una realización preferida, la plataforma genérica 20 funciona mediante un operador de red pública, por ejemplo, un operador de red móvil, y la identificación del usuario se basa al menos en parte en los mecanismos utilizados por este operador para el cobro de las comunicaciones.

Otros datos que dependen del usuario pueden estar asociados a cada usuario en la plataforma genérica 20, incluyendo modelos acústicos que dependen del usuario, preferencias del usuario para el lenguaje, el modo de interacción multimodal preferido, modelos biométricos de voz, huellas dactilares, retina, iris, vasos sanguíneos, cara, etc. Un perfil de usuario 200 puede obtenerse en la plataforma genérica 20 a partir de los modelos de lenguaje del usuario, posiblemente combinados con otros datos del mismo usuario y/o de diferentes usuarios. En una realización, el perfil del usuario comprende para cada usuario una lista personalizada de expresiones semánticas, recuperada a partir de los modelos de lenguaje y posiblemente de otras interacciones de usuario con cualquier dispositivo terminal. Las expresiones semánticas que dependen del usuario pueden recopilarse, por ejemplo, a partir de frases del usuario cuando introduce comandos en su dispositivo y cuando habla a otro interlocutor, a partir de frases del otro interlocutor en un diálogo conversacional, etc. Además, puede ser posible recopilar material de habla incluso si el usuario no está hablando realmente a su dispositivo móvil; para este fin, el micrófono y el sistema de reconocimiento del habla pueden activarse, incluso si el usuario no está hablando a su dispositivo terminal, para capturar y reconocer voces
ambientales.

Los modelos acústicos de habla también pueden utilizarse para adaptar el perfil de usuario o para realizar una acción; por ejemplo, los modelos de habla pueden revelar un acento que indique un origen geográfico y/o sociodemográfico del hablante. Otras indicaciones que pueden recuperarse de los modelos de habla incluyen la edad, sexo, posible enfermedad, emociones, etc., del hablante; estas características también pueden utilizarse por proveedores de servicios externos para personalizar sus servicios.

Además, las expresiones semánticas que dependen del usuario pueden recopilarse a partir de cualquier texto introducido por el usuario en cualquier aplicación ejecutada o iniciada por su dispositivo terminal, incluyendo el procesamiento de textos, hojas de cálculo, aplicaciones cliente de correo electrónico o de mensajería instantánea, historial del registro web, diccionarios de ortografía personales del usuario, por ejemplo, y/o a partir de texto mostrado al usuario, por ejemplo, mediante su navegador web, cliente de correo electrónico o de mensajería instantánea, etc. Un applet o cualquier otro fragmento de software en el dispositivo de usuario, en la red 2 y/o por cualquier proveedor de servicios 4 puede utilizarse para extraer este contenido del texto pronunciado, escrito, escuchado y/o leído por el usuario. Además, la información demográfica y la información recuperada a partir de cuestionarios o formularios web, por ejemplo en la suscripción de cualquier servicio de un proveedor de servicios 4, puede utilizarse como una fuente para recopilar contenido semántico y para definir el perfil del usuario.

Pueden asignarse diferentes ponderaciones a diferentes fuentes; por ejemplo, puede considerarse más importante tener una expresión específica pronunciada realmente por un usuario que simplemente leída en una página web larga. Además, cualquier énfasis emocional para una expresión pronunciada específica y cualquier estilo aplicado a la expresión en un documento, pueden utilizarse para evaluar su importancia y ponderar la expresión.

Además, la lista de expresiones semánticas que dependen del usuario pueden depender del tiempo; una expresión específica puede tener un mayor impacto en el perfil del usuario si se ha pronunciado recientemente. Además, puede tenerse en cuenta cualquier cambio en la frecuencia de uso de las diferentes expresiones; un cambio repentino en la frecuencia de utilización de cualquier expresión puede indicar un cambio en los intereses del usuario y llevar a cabo una adaptación del perfil del usuario, una acción inmediata por parte de un proveedor de servicios (tal como enviar un mensaje publicitario adaptado), o una actualización de los modelos de lenguaje disponibles en el dispositivo del usuario.

La figura 3 ilustra una posible manera de almacenar una lista de expresiones semánticas que depende del usuario. En esta realización, los valores almacenados representan la frecuencia de uso de todas las expresiones diferentes 1 a 7 de una lista en diferentes instantes t0, t1, etc. Tal y como se indica, la frecuencia es un valor incrementado por diferentes ponderaciones cada vez que el usuario diga, escuche, escriba o lea la expresión correspondiente. La lista de la figura 3 puede almacenarse, por ejemplo, en una estructura de base de datos, como un archivo separado por comas, como un archivo XML, etc., de la base de datos 200 y posiblemente en cualquier dispositivo de usuario 10 a
13.

En una realización, la frecuencia de utilización de diferentes expresiones en momentos diferentes del actual se almacena solamente en la plataforma genérica 20, mientras que solamente se almacenan los modelos de lenguaje actuales en los dispositivos 10, 11, 12, 13. Esto permite que la plataforma genérica 20 y los proveedores de servicios obtengan cualquier información requerida a partir de cambios en los diálogos de lenguaje, evitando al mismo tiempo un incremento innecesario del requisito de almacenamiento en el dispositivo del usuario.

La lista de expresiones almacenada en la plataforma genérica 20 puede omitir expresiones muy comunes, tales como "el", "la", "los", "las", "y", "es", etc., y dar más importancia a palabras y expresiones poco habituales, tomadas de expresiones del vocabulario, y a palabras que contengan un alto contenido semántico incluyendo, por ejemplo, nombres propios, nombres geográficos, en lugar de nombres más comunes. Además, pueden tenerse en cuenta grandes diferencias en la frecuencia de expresiones entre un usuario y el resto de usuarios; una expresión que no sea habitual para la mayoría de usuarios, pero muy frecuente en el lenguaje de un usuario específico, puede ser muy útil para establecer el perfil del usuario y para relacionarlo con un grupo de otros usuarios con perfiles conocidos que también utilicen la misma expresión.

En una realización, la plataforma genérica 20 (o cualquier otro módulo de software ejecutado en el dispositivo terminal o por el proveedor de servicios) ejecuta algoritmos de procesamiento de lenguaje natural (NLP, natural language processing) y otros algoritmos para modelar de manera semántica el contenido recuperado. La plataforma genérica puede, por ejemplo, ejecutar algoritmos semánticos de extracción de temas para "entender" el contenido recibido y extraer temas relevantes que pueden utilizarse, por ejemplo, cuando se decide qué conjunto pertinente de modelos de lenguaje utilizar, mantener o descargar, o para determinar el perfil de usuario. La extracción de un tema específico a partir del diálogo entre usuarios también puede activar un evento, tal como enviar un mensaje publicitario relacionado desde un proveedor de servicios.

Pueden utilizarse procedimientos ontológicos para agrupar u organizar conceptualmente expresiones cerradas; la ontología puede describirse, por ejemplo, con una representación gráfica, posiblemente en formato XML, que define relaciones entre palabras relacionadas. Por ejemplo, la expresión "sistema antibloqueo" está relacionada con "ABS" y, hasta cierto punto con los coches, pero mucho menos con otras expresiones tales como "ordenador" o "plátano", por ejemplo. Agrupar de manera semántica expresiones similares permite tener en cuenta, en mayor grado, varios modos de expresar algunos conceptos e intereses del usuario con varias expresiones. Por otro lado, los grupos pueden utilizarse para distinguir diferentes significados de una expresión particular, dependiendo del contexto.

Además, los algoritmos semánticos pueden utilizarse para calcular la distancia semántica entre documentos o extractos de diálogos, por ejemplo entre frases del usuario y diálogos de referencia almacenados en la plataforma genérica y/o con los proveedores de servicios. De nuevo, esta distancia puede utilizarse, por ejemplo, para decidir si debe realizarse una acción específica o si el perfil del usuario debe adaptarse.

En esta realización, la lista de expresiones semánticas que depende del usuario se sustituye, o se completa, por una lista de grupos semánticos y probabilidades asociadas.

De manera similar, la lista de expresiones (incluidos los grupos) que depende del usuario puede tener en cuenta diferentes lenguas habladas o utilizadas por un usuario, y utiliza traducciones de palabras o expresiones.

Tal y como se ha indicado anteriormente, la lista de expresiones semánticas de la figura 3 se pone a disposición de varios proveedores de servicios externos 4 con el fin de que procesen perfiles de usuario. Los perfiles recuperados por varios proveedores pueden ser diferentes; como un ejemplo, un proveedor 4 de servicios de viajes puede buscar usuarios finales que utilicen frecuentemente, o en un pasado reciente, expresiones tales como "esquiar", "Matterhorn" o "vacaciones", mientras que un vendedor de teléfonos móviles intentará atraer abonados con una gran afinidad con los dispositivos tecnológicos.

En otra realización, un perfil de usuario se obtiene a partir de las listas de expresiones semánticas, y posiblemente a partir de modelos acústicos de habla, directamente mediante la plataforma genérica 20, y se pone a disposición de los proveedores de servicio. Esto tiene la ventaja de que el perfil sólo necesita procesarse una vez y de que solamente se necesita una infraestructura de software para esa finalidad; sin embargo, el inconveniente es que la información del perfil no depende del servicio. La plataforma genérica puede intentar clasificar los usuarios en varias categorías que pueden ser útiles para varios proveedores de servicios.

En una realización se ofrece un incentivo a los usuarios 1 para que participen en el sistema y para que pongan elementos de su perfil a disposición de terceras partes. Este incentivo puede tomar la forma de, por ejemplo, una bonificación, una reducción en las tasas de suscripción o en las tarifas de comunicación con la red móvil y/o con el servicio, o de puntos en un programa de seguro cada vez que un proveedor de servicios utilice el perfil y/o cuando se haya suscrito el servicio.

La lista de expresiones semánticas y/o el perfil obtenido de la misma pueden ponerse a disposición de terceras partes 4 como, por ejemplo, servicios web, un fichero disponible a través de un servidor web o FTP, o pueden ser enviados a una pluralidad de proveedores de servicios 4 externos o internos (en la plataforma 20) que los reciben, mediante cualquier protocolo adecuado. La disponibilidad puede limitarse a proveedores de servicio autenticados en la plataforma 20, con los que existe un acuerdo válido; además, un usuario 1 puede decidir limitar la disponibilidad de su perfil solamente a algunos proveedores externos. En una realización, el acceso a todo el perfil, o a partes determinadas del perfil, solo está permitido a proveedores de servicio autorizados explícitamente por el usuario.

Tal y como se ha mencionado anteriormente, el perfil recuperado a partir de los modelos de lenguaje y de habla suministrados por el sistema de reconocimiento del habla en cualquier dispositivo del usuario también puede utilizarse en el dispositivo o en la red de área local del usuario, por ejemplo mediante cualquier aplicación ejecutada por dicho dispositivo o en dicha red local.

En una realización, esta información se hace disponible a través de una plataforma de anonimización (no mostrada) que elimina cualquier dato de identificación de usuario de los perfiles puestos a disposición de terceras partes, o que sustituye estos datos de identificación de usuario con un alias. La plataforma de anonimización puede hacerse funcionar mediante otra parte independiente del operador de la plataforma genérica 20 y del proveedor de servicios 4.

Diferentes tipos de proveedores de servicios pueden utilizar el sistema y procedimiento de la invención. En una realización, un proveedor de servicios 4 utiliza el sistema para transmitir material publicitario y de información personalizado 1 a 1 a los dispositivos terminales de usuario 10, 11, 12, 13. El material publicitario y de información puede, por ejemplo, visualizarse en una parte reservada multimodal 101 de la interfaz de usuario 100, por ejemplo en una parte de una pantalla táctil 100. El material publicitario también puede reproducirse de manera acústica con los altavoces del dispositivo terminal del usuario. En una realización preferida, el material publicitario y de información que se ajusta a los intereses y necesidades del usuario se selecciona mediante un proveedor de servicios 4 según el perfil del usuario en la base de datos 200, y se transmite al dispositivo del usuario, como por ejemplo, páginas web o servicios web, por ejemplo a través de un canal GPRS, EDGE, UMTS o cualquier canal de comunicaciones adecuado "siempre activado".

Preferentemente, la parte multimodal 101 también está siempre activada, es decir, puede visualizar y posiblemente reproducir imágenes fijas, vídeos y/o sonidos incluso cuando el dispositivo de usuario 10 no esté utilizándose. Preferentemente, el usuario 1 tiene la posibilidad de desactivar el servicio, por ejemplo, durante las reuniones; tal y como se ha descrito anteriormente, puede ofrecerse algún incentivo para incitarle a que active el servicio lo antes posible.

Preferentemente, la parte reservada multimodal 101 permite que el usuario reaccione ante un mensaje recibido, usando preferentemente varios modos. Por ejemplo, el usuario 1 puede escribir una respuesta con el teclado 103 de su dispositivo, y/o seleccionar o escribir directamente en la pantalla táctil 100, y/o introducir comandos con su habla. En una realización preferida, el reconocimiento de la escritura y/o el reconocimiento del habla se realiza utilizando modelos que dependen del usuario que pueden estar almacenados preferentemente de manera central, en la base de datos 200, y posiblemente sincronizados con modelos locales. El propio proceso de reconocimiento de la escritura y/o de la habla puede ejecutarse en el dispositivo de usuario 10 a 13 y/o de manera remota en la plataforma genérica 20 o por el proveedor de servicios.

Además, puede ser posible identificar o al menos autenticar al usuario 1 utilizando características biométricas, incluyendo huellas dactilares recogidas durante la manipulación de la pantalla táctil 100 u cualquier otro elemento táctil 102, y/o características del habla. De nuevo, la identificación/autenticación del usuario puede basarse en modelos de habla, huellas dactilares u otra característica del usuario almacenada en el perfil de usuario en la base de datos 200, y posiblemente sincronizados con los modelos de usuario del dispositivo terminal. El propio proceso de identificación/autenticación puede ejecutarse en el dispositivo terminal del usuario, en una tarjeta con chip insertada en el dispositivo, en la plataforma genérica 20 y/o en el lado del proveedor de servicios 4.

A continuación se describirá un ejemplo de interacción entre la usuaria 1 Alicia, su operador de telecomunicaciones FreeCom y varios proveedores de servicios de valor añado.

Durante varios años, Alicia ha utilizado la interacción multimodal en su teléfono. Sus modelos de interacción multimodal, utilizados para reconocer su habla y escritura, y para identificarla o autenticarla, funcionan correctamente incluso en entornos habitualmente ruidosos. Normalmente, ella envía SMS o realiza una reserva de un viaje en el último momento. En algunos SMS recientes, Alicia mencionó las islas del Caribe. Una agencia de viajes 4 tiene un acuerdo con su operador de red FreeCom para tener acceso al perfil de usuario de Alicia así como a los de otros muchos usuarios. Puesto que el modelo de lenguaje se ha adaptado recientemente con relación a las islas del Caribe, la agencia de viajes ha decido enviar automáticamente un oferta con varias alternativas. Alicia recibe el siguiente anuncio multimodal: en primer lugar suena una dulce música de las islas del Caribe y después se muestra en la pantalla un formulario con múltiples opciones. Alicia decide comprar el paquete de viaje utilizando la característica de compra multimodal; selecciona con el lápiz, dice "deseo comprar esta oferta", y su voz se utiliza como firma junto con la identidad ya conocida de Alicia.

Más específicamente, el diálogo puede parecerse a lo siguiente:

Un proveedor de servicios decide unirse al modelo de suscripción con el nuevo canal de negocio multimodal 1 a 1 ofrecido por el operador de telecomunicaciones FreeCom el cual gestiona una plataforma genérica 20. Por lo tanto, el proveedor de servicios 4 registra su servicio y el servicio del proveedor de servicios 4 se registra en la plataforma genérica 20, con las siguientes características:

1.: Se garantiza el acceso a los metadatos de todos los abonados.

2.: Se actualizan los modelos de lenguaje necesarios para el acceso multimodal al proveedor de servicios 4 (esto se lleva a cabo además diariamente).

3.: Se permite la gestión de crédito (por ejemplo, modelo de compartición Revenue).

4.: Se estable comunicación con el adaptador de patrones semánticos para cada generación de eventos.

5.: Se definen las direcciones de cobro y el procedimiento de transacción.

\vskip1.000000\baselineskip

Entonces, Alicia rellena un formulario de suscripción con el operador de red FreeCom para ganar incentivos, por ejemplo acceso a una comunicación móvil gratis. A cambio, ella accede a proporcionar su perfil a una selección de terceras partes (puede seleccionar algunas de ellas en una lista). Otro muchos ajustes de interacción también se definen en esta fase para mejorar la oferta de servicios de FreeCom.

El entorno multimodal interactivo se inicializa mediante el proveedor de servicios con modelos de interacción personalizados directamente en los dispositivos terminales dados. Esta configuración puede cargarse en otros varios dispositivos terminales 10, 11, 12, 13 (PC, otros teléfonos).

La plataforma genérica 20 carga el entorno de interacción multimodal en el dispositivo terminal de Alicia incluyendo los modelos más afines, modelos de lenguaje (incluyendo los nuevos modelos de lenguaje del proveedor de servicios), y otras aplicaciones de terceras partes.

Alicia activa en su dispositivo terminal una aplicación SMS de dictado. Esta aplicación utiliza los modelos personalizados (acústico y de lenguaje). Ambos modelos se adaptan continuamente al habla de Alicia y a la entrada de texto.

La sincronización con la plataforma genérica se produce de manera transparente. El proveedor de servicio obtiene acceso a la nueva información proporcionada por el modelo de lenguaje actualizado a través de los servicios web. Como alternativa, puesto que Alicia utilizó el concepto de las islas del Caribe, que se detectó, se genera un evento (acierto de patrón semántico / detección de temas) que se envía al proveedor de servicios.

El proveedor de servicios obtiene el evento y busca una posible correspondencia con la lista de ofertas de última hora. Se encuentra una correspondencia, se prepara la aplicación y se precarga en los dispositivos terminales de Alicia. En una realización, nuevos modelos de lenguaje, que incluyen expresiones que pueden requerirse para acceder a la oferta del proveedor de servicios, se cargan en el dispositivo de Alicia. Los modelos de lenguaje también pueden actualizar las probabilidades asociadas con expresiones ya disponibles con el fin de anticipar respuestas esperadas.

Después, se envía un objeto java o HTML de información/publicidad multimodal que se visualiza en el dispositivo terminal 10 de Alicia. Los modelos de lenguaje necesarios para activar la sesión se sincronizan previamente a través de la plataforma genérica 20.

En la parte de interacción multimodal reservada 101, un sonido de música caribeña anuncia la llegada de un anuncio. En la pantalla se visualiza una lista de posibles opciones de última hora. Se cargan todos los modelos de lenguaje principales para hacer la experiencia del usuario lo más placentera posible y sin que haya tiempo de demora de interacción.

Se envía un diálogo multimodal de iniciativa mixta si Alicia puede elegir varias opciones sobre la marcha mientras compra un paquete de viajes de la lista. Alicia marca con un lápiz su opción preferida en el menú visualizado y dice "elijo el que tiene la habitación doble y, por favor, cárguenlo a mi cuenta de FreeCom". El proveedor de servicios 4 recibe la orden a través de un evento de compra. Un agente activo de un centro de atención telefónica se activa posiblemente si fuera necesario.

El proveedor de servicios emite un billete electrónico para el vuelo de última hora que después se carga en los dispositivos terminales de Alicia. Simultáneamente, se le regala a Alicia un crédito de bonificación. La plataforma genérica 20 actualiza el interés de Alicia en sus metadatos. El operador de red realiza el pago y se queda un porcentaje de esta transacción.

\newpage

El sistema y el procedimiento de la invención pueden utilizarse para otros tipos de servicios de proveedores externos, incluyendo pero no limitados a:

-: Búsqueda de pareja, para detectar automáticamente posibles parejas que compartan perfiles similares o compatibles según se determine, al menos en parte, a partir de los modelos de lenguaje adaptados por un sistema de reconocimiento del habla.

-: Entrega personalizada de información; periódicos personalizados, dependiendo de los intereses obtenidos a partir de dichos modelos de lenguaje.

-: Clasificación personalizada de resultados de búsqueda, mientras que el orden de los documentos recuperados, por ejemplo, por un motor de búsqueda, depende del perfil de cada usuario, obtenido a partir de lo que el usuario dice, oye, escribe y/o lee.

-: Delimitación automática de un resultado de búsqueda existente con el fin de conservar solamente los documentos que se adapten mejor a los intereses y al perfil del usuario.

-: Selección automática de audio, vídeo y/o contenido de texto enviados en modo de flujo al dispositivo del usuario, por ejemplo la selección automática de música reproducida para el usuario.

-: Selección automática de productos y servicios propuestos al cliente, dependiendo de lo que haya dicho el usuario y de lo que usuarios con perfiles similares en la base de datos 200 hayan seleccionado, examinado o comprado.

-: Filtro de mensajes no deseados que no se ajustan a los intereses y expresiones habituales de dicho usuario.

-: Servicios de subastas, en los que nuevas ofertas que pueden ajustarse al interés del usuario, determinado a partir de sus modelos de lenguaje y de habla, se envían de manera proactiva al espacio multimodal 101 de sus dispositivos terminales 10 a 13.

-: Bloc de notas, que permite al usuario realizar búsquedas en el historial de expresiones semánticas que ha utilizado o escuchado, por ejemplo durante un transcurso de tiempo específico, para ayudarle a recordar el nombre de una persona, lugar, etc.

-: Copia de seguridad central de modelos de lenguaje, así como de otros datos almacenados en la plataforma genérica 20, en un formato preferentemente independiente de los dispositivos terminales, permitiendo de este modo que el usuario utilice esos modelos entrenados con nuevos dispositivos.

-: Asistencia personalizada en un centro de atención telefónica, teniendo en cuanta el historial de interacciones multimodales y de habla del usuario.

Por lo tanto, la invención permite generar un canal de negocio multimodal real entre los usuarios por un lado, proveedores de servicios por otro lado, y el operador de red.

Claims

1. Un procedimiento en una red de comunicaciones para personalizar un servicio, que comprende las etapas de:

: generar modelos de lenguaje que dependen del usuario mediante un sistema de reconocimiento del habla;

: almacenar dichos modelos de lenguaje que dependen del usuario;

: obtener una lista personalizada de expresiones semánticas a partir de dichos modelos de lenguaje que dependen del usuario;

: poner dicha lista a disposición de una aplicación que se ejecuta en un dispositivo de usuario y/o que está a disposición de proveedores de servicios externos, para personalizar un aspecto de un servicio (4) no relacionado con el procesamiento del habla.

\vskip1.000000\baselineskip

2. El procedimiento según la reivindicación 1, en el que al menos un subconjunto de dichos modelos de lenguaje que dependen del usuario se almacenan de manera local en un dispositivo de usuario (10, 11, 12, 13) y se sincronizan con modelos de lenguaje que dependen del usuario almacenados en una plataforma genérica (2).

3. El procedimiento según la reivindicación 2, que comprende una etapa de realizar un reconocimiento del habla en dicho dispositivo de usuario utilizando dichos modelos de lenguaje que dependen del usuario almacenados de manera local,

y en el que dicho aspecto de un servicio se personaliza utilizando dichos modelos de lenguaje que dependen del usuario almacenados de manera central.

\vskip1.000000\baselineskip

4. El procedimiento según una de las reivindicaciones 2 o 3, que comprende una etapa de cargar en dicho dispositivo de usuario un conjunto inicial de modelos de lenguaje,

adaptar dichos modelos de lenguaje a dicho usuario,

sincronizar dichos modelos de lenguaje adaptados que dependen del usuario con dichos modelos de lenguaje que dependen del usuario almacenados de manera central,

descargar dichos modelos de lenguaje que dependen del usuario almacenados de manera central en otro dispositivo de dicho usuario (10, 11, 12, 13).

\vskip1.000000\baselineskip

5. El procedimiento según una de las reivindicaciones 2 a 4, que comprende una etapa de cargar en dicho dispositivo de usuario un conjunto de modelos de lenguaje que depende de los datos demográficos y/o contextuales relacionados con dicho usuario y/o de temas extraídos a partir de diálogos de dicho usuario

adaptar dichos modelos de lenguaje en dicho dispositivo de usuario,

cargar dichos modelos de lenguaje adaptados en dicha plataforma.

\vskip1.000000\baselineskip

6. El procedimiento según una de las reivindicaciones 2 a 5, en el que versiones anteriores de dichos modelos de lenguaje que dependen del usuario están almacenadas en dicha plataforma genérica.

7. El procedimiento según la reivindicación 1, en el que dichas expresiones semánticas comprenden al menos uno de lo siguiente:

: palabras,

: bigramas, trigramas y/o n-gramas,

: grupos semánticos y/u ontologías.

\vskip1.000000\baselineskip

8. El procedimiento según la reivindicación 1, que comprende una etapa de determinar la frecuencia de utilización de dichas expresiones semánticas por dicho usuario (1) y adaptar un perfil de usuario (200) según dicha frecuencia.

9. El procedimiento según la reivindicación 1, en el que un perfil de usuario depende del momento en el que dichas expresiones semánticas se recopilaron o pronunciaron.

10. El procedimiento según la reivindicación 1, en el que un perfil de usuario depende de la rareza de dichas expresiones semánticas y/o del contexto del que se obtuvieron.

11. El procedimiento según la reivindicación 1, que comprende las etapas de recopilar en un servidor de habla remoto material de habla pronunciado por un usuario (1) cuando accede a dicho servidor de habla remoto (20).

12. El procedimiento según la reivindicación 1, que comprende las etapas de recopilar en un dispositivo terminal de usuario (10, 11, 12, 13) material de habla pronunciado por un usuario (1) cuando habla a dicho dispositivo terminal de usuario (10, 11, 12, 13).

13. El procedimiento según una de las reivindicaciones 1 a 12, que comprende las etapas de recopilar material de habla de dicho usuario (1) durante conversaciones telefónicas habituales con otros usuarios o dispositivos,

y utilizar dicho material de habla para adaptar dichos modelos de lenguaje que dependen del usuario.

\vskip1.000000\baselineskip

14. El procedimiento según una de las reivindicaciones 1 a 13, que comprende las etapas de utilizar un micrófono de un dispositivo terminal de usuario (10, 11, 12, 13) de dicho usuario (1) para recopilar material de habla ambiental fuera del uso habitual de dicho dispositivo terminal de usuario (10, 11, 12, 13) para comunicaciones de habla o de datos con dispositivos externos,

y utilizar dicho material de habla ambiental para adaptar dichos modelos de lenguaje que dependen del usuario.

\vskip1.000000\baselineskip

15. El procedimiento según una de las reivindicaciones 1 a 14, que comprende además la etapa de poner dichos modelos de lenguaje que dependen del usuario a disposición de una pluralidad de sistemas de reconocimiento del habla en una red de comunicaciones (2).

16. El procedimiento según una de las reivindicaciones 1 a 15, en el que los perfiles de usuario anonimizados se ponen a disposición de proveedores de servicios externos de valor añadido (4).

17. El procedimiento según una de las reivindicaciones 1 a 16, en el que los perfiles de usuario sólo se ponen a disposición de proveedores de servicios externos de valor añadido (4) autorizados por dicho usuario (1).

18. El procedimiento según una de las reivindicaciones 1 a 17, en el que dicha etapa de personalizar un aspecto de un servicio incluye enviar mensajes publicitarios personalizados a dicho usuario (1).

19. El procedimiento según la reivindicación 18, en el que dichos mensajes publicitarios se visualizan en una parte reservada multimodal (101) de un dispositivo de usuario (10, 11, 12, 13).

20. El procedimiento según la reivindicación 19, en el que nuevos mensajes se envían a dicho dispositivo de usuario (10, 11, 12, 13) incluso fuera de comunicaciones iniciadas o contestadas por dicho usuario (1).

21. El procedimiento según una de las reivindicaciones 18 a 20, que comprende la etapa de proporcionar a dicho usuario (1) un incentivo para recibir dichos mensajes publicitarios.

22. El procedimiento según una de las reivindicaciones 19 a 21, en el que dicho usuario (1) puede contestar directamente dicho mensaje publicitario hablando y/o haciendo clic y/o escribiendo en dicha parte multimodal (101).

23. El procedimiento según la reivindicación 22, que comprende una etapa de autenticar dicho usuario (1) con su habla y/o con sus huellas digitales y/o con su escritura cuando contesta dicho mensaje publicitario.

24. El procedimiento según una de las reivindicaciones 1 a 23, en el que dicha etapa de personalizar un aspecto de un servicio incluye proponer a dicho usuario (1) nombres o direcciones de usuarios con intereses o perfiles afines.

25. El procedimiento según una de las reivindicaciones 1 a 24, en el que dicha etapa de personalizar un aspecto de un servicio incluye seleccionar información relacionada con los intereses de dicho usuario (1).

26. El procedimiento según una de las reivindicaciones 1 a 25, en el que dicha etapa de personalizar un aspecto de un servicio incluye clasificar resultados de búsqueda según criterios del usuario.

27. El procedimiento según una de las reivindicaciones 1 a 26, en el que dicha etapa de personalizar un aspecto de un servicio comprende filtrar mensajes no deseados.

28. El procedimiento según una de las reivindicaciones 1 a 27, que comprende además la etapa de utilizar modelos acústicos de habla que dependen del usuario suministrados por dicho sistema de reconocimiento del habla para personalizar dicho aspecto de dicho servicio (4) no relacionado con el procesamiento de habla.

29. Un sistema de comunicaciones en una red de comunicaciones, que comprende:

: un sistema de reconocimiento del habla para generar una pluralidad de modelos de lenguaje que dependen del usuario;

: medios para almacenar dichos modelos de lenguaje que dependen del usuario;

: medios para obtener de dichos modelos de lenguaje que dependen del usuario una lista personalizada de expresiones semánticas; y

: medios para poner dicha lista a disposición de una aplicación que se ejecuta en un dispositivo de usuario y/o a disposición de proveedores de servicios externos, para personalizar un aspecto de un servicio (4) no relacionado con el procesamiento de habla.

\vskip1.000000\baselineskip

30. El sistema según la reivindicación 29, que comprende medios de almacenamiento para almacenar modelos de lenguaje que dependen del usuario y medios de sincronización para sincronizar dichos modelos de lenguaje que dependen del usuario con modelos de lenguaje almacenados en dispositivos de usuario (10, 11, 12, 13).

31. El sistema según una de las reivindicaciones 29 o 30, que almacena además una pluralidad de modelos acústicos de habla que dependen del usuario suministrados por dichos sistemas de reconocimiento del habla.