ES2330758T3 - Procedimiento para personalizar un servicio. - Google Patents
Procedimiento para personalizar un servicio. Download PDFInfo
- Publication number
- ES2330758T3 ES2330758T3 ES05111345T ES05111345T ES2330758T3 ES 2330758 T3 ES2330758 T3 ES 2330758T3 ES 05111345 T ES05111345 T ES 05111345T ES 05111345 T ES05111345 T ES 05111345T ES 2330758 T3 ES2330758 T3 ES 2330758T3
- Authority
- ES
- Spain
- Prior art keywords
- user
- models
- depend
- speech
- language
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000004891 communication Methods 0.000 claims abstract description 16
- 230000014509 gene expression Effects 0.000 claims description 60
- 239000000463 material Substances 0.000 claims description 15
- 230000001419 dependent effect Effects 0.000 claims description 8
- 238000001914 filtration Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 claims description 4
- 230000007613 environmental effect Effects 0.000 claims description 3
- 230000002650 habitual effect Effects 0.000 claims 1
- 230000003993 interaction Effects 0.000 description 23
- 241000585705 Alicia <angiosperm> Species 0.000 description 13
- 230000008901 benefit Effects 0.000 description 10
- 230000008569 process Effects 0.000 description 7
- 230000001360 synchronised effect Effects 0.000 description 5
- 230000007246 mechanism Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 2
- 238000007792 addition Methods 0.000 description 2
- 230000006399 behavior Effects 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 2
- 238000012217 deletion Methods 0.000 description 2
- 230000037430 deletion Effects 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 241000282326 Felis catus Species 0.000 description 1
- 240000005561 Musa balbisiana Species 0.000 description 1
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 1
- 239000013543 active substance Substances 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 210000004204 blood vessel Anatomy 0.000 description 1
- 239000003795 chemical substances by application Substances 0.000 description 1
- 235000009508 confectionery Nutrition 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008030 elimination Effects 0.000 description 1
- 238000003379 elimination reaction Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 230000002996 emotional effect Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000009474 immediate action Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 210000000554 iris Anatomy 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- ORQBXQOJMQIAOY-UHFFFAOYSA-N nobelium Chemical compound [No] ORQBXQOJMQIAOY-UHFFFAOYSA-N 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 210000001525 retina Anatomy 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000014616 translation Effects 0.000 description 1
- AXVOAMVQOCBPQT-UHFFFAOYSA-N triphos Chemical compound C=1C=CC=CC=1P(C=1C=CC=CC=1)CCP(C=1C=CC=CC=1)CCP(C=1C=CC=CC=1)C1=CC=CC=C1 AXVOAMVQOCBPQT-UHFFFAOYSA-N 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/28—Constructional details of speech recognition systems
- G10L15/30—Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
- G10L15/19—Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
- G10L15/197—Probabilistic grammars, e.g. word n-grams
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/183—Speech classification or search using natural language modelling using context dependencies, e.g. language models
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04M—TELEPHONIC COMMUNICATION
- H04M2250/00—Details of telephonic subscriber devices
- H04M2250/74—Details of telephonic subscriber devices with voice recognition means
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Multimedia (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- Strategic Management (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Accounting & Taxation (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Game Theory and Decision Science (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- Marketing (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Information Transfer Between Computers (AREA)
- Telephonic Communication Services (AREA)
- Telephone Function (AREA)
- Machine Translation (AREA)
Abstract
Un procedimiento en una red de comunicaciones para personalizar un servicio, que comprende las etapas de: generar modelos de lenguaje que dependen del usuario mediante un sistema de reconocimiento del habla; almacenar dichos modelos de lenguaje que dependen del usuario; obtener una lista personalizada de expresiones semánticas a partir de dichos modelos de lenguaje que dependen del usuario; poner dicha lista a disposición de una aplicación que se ejecuta en un dispositivo de usuario y/o que está a disposición de proveedores de servicios externos, para personalizar un aspecto de un servicio (4) no relacionado con el procesamiento del habla.
Description
Procedimiento para personalizar un servicio.
La presente invención se refiere a un
procedimiento para personalizar servicios en una red de
telecomunicaciones, y a una plataforma para personalizar servicios
de proveedores de servicios.
El éxito o el fracaso de muchos servicios de los
servicios de telecomunicaciones depende en gran medida de la
personalización de al menos algunos aspectos del servicio. Por
ejemplo, los servicios que utilizan algoritmos de reconocimiento
del habla funcionarán mejor con modelos de habla y de lenguaje que
dependan del usuario. Encontrar y clasificar información en motores
de búsqueda, periódicos electrónicos y otras fuentes de información
es más eficaz si el algoritmo tiene en cuenta los intereses y el
historial del usuario. La experiencia de navegar por una tienda web
puede mejorarse con sugerencias de artículos comprados por otros
usuarios que tengan intereses afines.
Por lo tanto, existe la necesidad de que muchos
proveedores de servicios, incluyendo los operadores de
telecomunicaciones, generen y mantengan perfiles de usuario que
siempre tengan más información relacionada con los intereses,
preferencias y costumbres de cada usuario. En muchos sistemas
existentes, la información de los perfiles de usuario se obtiene a
partir de cuestionarios, que muchos usuarios encuentran engorrosos
de rellenar, y del comportamiento de usuario.
El documento
US-B2-6.687.696 describe un sistema
y un procedimiento para un filtrado personalizado de información y
generación automática de recomendaciones específicas para el
usuario, en el que el filtrado y la generación de recomendaciones
dependen de un modelo estadístico y semántico de cada usuario. El
modelo de usuario se obtiene en base a datos de usuario recuperados
a partir de cuestionarios o deducidos a través de observaciones del
comportamiento del usuario, tales como los registros del historial
de Internet, información demográfica, etc. No se sugieren otros
usos del algoritmo para servicios distintos al filtrado de
información y la generación de recomendaciones. Además, aunque esta
solución puede ser apropiada para personalizar servicios para
usuarios de ordenadores personales, es menos apropiada para
personalizar servicios ofrecidos a usuarios de equipos telefónicos
y de otros dispositivos en los que la mayoría de las interacciones
del usuario se realizan con el habla.
El documento US 2005/033 582 desvela una
interfaz de lenguaje hablado que comprende un sistema automático de
reconocimiento del habla y un sistema de conversión texto a voz
controlado por un controlador de habla. El ASR (automatic speech
recognition) y el TTS (text to speech) están conectados a
un sistema de telefonía que recibe el habla del usuario a través de
un enlace de comunicaciones. Un gestor de diálogo está conectado al
controlador de habla y proporciona control de diálogo generado como
respuesta al habla del usuario. El gestor de diálogo está conectado
a gestores de aplicación, cada uno de los cuales proporciona una
interfaz a una aplicación con la que el usuario puede conversar. El
diálogo y las gramáticas se almacenan en una base de datos y se
recuperan bajo el control del gestor de diálogo y de un módulo de
aprendizaje adaptativo y de personalización. Un gestor de sesión y
de notificación registra los detalles de la sesión y permite la
reconexión de una conversación interrumpida en el momento en que la
conversión fue interrumpida.
Según la invención, un objetivo de la invención
es proporcionar un nuevo procedimiento y sistema para personalizar
servicios en una red de telecomunicaciones que estén mejor adaptados
a los usuarios de equipos telefónicos y otros dispositivos
controlados mediante el habla.
Otro objetivo de la invención es proporcionar un
nuevo procedimiento y sistema para personalizar servicios en una
red de telecomunicaciones que estén adaptados a una gran variedad de
servicios, incluyendo servicios proporcionados por proveedores de
servicios externos.
Otro objetivo de la invención es crear un nuevo
flujo de comunicación entre un usuario y un proveedor de servicios
externo, en el que el usuario pueda beneficiarse de una calidad de
interacción mejorada con su dispositivo y servicios solicitados, y
posiblemente de incentivos adicionales, y en el que los proveedores
de servicios, incluyendo el operador de telecomunicaciones, puedan
beneficiarse de una eficacia comercial mejorada.
Otro objetivo de la invención es crear un canal
de negocio multimodal entre usuarios, proveedores de servicio y
operadores de red.
Según la invención, estos objetivos, entre
otros, se consiguen mediante un procedimiento según la
reivindicación 1 y un sistema según la reivindicación 29.
Esto tiene la ventaja de que la personalización
del servicio depende no solamente de lo que ha escrito o leído el
usuario, sino también de lo que el usuario dice o escucha. Por lo
tanto, el procedimiento puede usarse con dispositivos que se
utilicen o se controlen principalmente mediante el habla, por
ejemplo dispositivos manuales que carezcan de un teclado
completo.
Según otro aspecto de la invención, los modelos
que dependen del usuario adaptados por el sistema de reconocimiento
del habla, y/o el perfil de usuario obtenido de esos modelos, se
ponen a disposición de una pluralidad de proveedores de servicios
externos de valor añadido. Por lo tanto, los perfiles personalizados
generados con el procedimiento inventivo no sólo beneficiarán al
sistema o a la entidad que recopila el material de habla del
usuario, sino también a los proveedores de servicios externos.
Según otro aspecto adicional de la invención, un
espacio de interacción multimodal está abierto permanentemente en
el dispositivo terminal del usuario y, posiblemente, en un servicio
web sincronizado. Este espacio de interacción puede utilizarse por
varios proveedores de servicios externos, por ejemplo para
visualizar o reproducir material publicitario y de información que
depende del usuario, mientras que el contenido visualizado o
reproducido puede depender del perfil de usuario obtenido a partir
de los modelos que dependen del usuario. Además, la interfaz de
usuario multimodal se adapta continuamente a través de la
información de entrada e interacciones del usuario a fin de mejorar
la calidad del reconocimiento del habla y de escritura en dicha
interfaz, para adaptar el contenido visualizado o hablado a las
preferencias del usuario, y para adaptar la interfaz a las
preferencias y costumbres del usuario. Finalmente, los modelos de
interacción personalizada pueden utilizarse para reforzar la
autenticación del usuario a través de, por ejemplo, una verificación
de usuario biométrica.
Según otra característica, posiblemente
independiente, de la invención, los modelos de lenguaje y de habla
que dependen del usuario están almacenados en el dispositivo del
usuario y están sincronizados de manera inteligente con modelos de
lenguaje y de habla que dependen del usuario y, a efectos prácticos,
almacenados permanentemente de manera central en una plataforma
genérica de una red de telecomunicaciones. Esto combina las ventajas
de modelos fácilmente disponibles por el sistema de reconocimiento
del habla del dispositivo de usuario con las ventajas de lenguaje
disponible fuera del dispositivo. Los modelos de lenguaje y de habla
que dependen del usuario almacenados de manera central pueden
copiarse o utilizarse después en otro dispositivo del usuario. Por
lo tanto, un usuario que cambie de dispositivo o que utilice
diferentes dispositivos con sistemas de reconocimiento del habla no
necesita entrenar los modelos de lenguaje y de habla con cada
dispositivo diferente. Los modelos de lenguaje y/o habla también
pueden ponerse a disposición de terceras partes, incluyendo
proveedores de servicios externos que utilicen estos modelos para
personalizar sus servicios para el usuario. Además, los modelos que
dependen del usuario pueden actualizarse en cualquier momento desde
la plataforma genérica central. Este mecanismo de sincronización de
modelos de lenguaje y/o de habla almacenados en dos lugares
diferentes incluso puede utilizarse de forma independiente respecto
de las características de la reivindicación 1 de la solicitud.
La invención se entenderá mejor con la ayuda de
la descripción de una realización proporcionada a modo de ejemplo e
ilustrada en las figuras, en las que:
La Fig. 1 ilustra un diagrama esquemático de un
sistema de telecomunicaciones en el que puede llevarse a cabo el
procedimiento de la invención.
La Fig. 2 muestra un dispositivo de usuario que
incluye un espacio de interacción multimodal según una
característica preferida de la invención.
La Fig. 3 muestra modelos de lenguaje que
dependen del tiempo y del usuario.
La presente invención se refiere en general a la
personalización de servicios en redes de comunicaciones. Los
servicios que pueden beneficiarse de la invención incluyen, por
ejemplo, servicios proporcionados por terceras partes remotas y
externas, servicios de un proveedor de telecomunicaciones, así como
servicios ofrecidos por aplicaciones que se ejecutan total o
parcialmente en dispositivos terminales de usuario. En particular,
la presente invención se refiere a la personalización de servicios
que utilizan modelos de lenguaje que dependen del hablante
adaptados mediante un sistema de reconocimiento del habla.
En el contexto de la invención, la expresión
"modelos de lenguaje" designa un conjunto de módulos que
representan todo el lenguaje que va a entender un sistema de
reconocimiento del habla. Los modelos de lenguaje pueden
describirse con una gramática; una gramática puede estar limitada
cuando no incluye todas y cada una de las posibles expresiones del
lenguaje del hablante; una gramática limitada limita por tanto el
conjunto de frases aceptables, pero es más fácil de crear y puede
mejorar la precisión global del reconocimiento del habla reduciendo
las confusiones. Una gramática puede expresarse utilizando un
conjunto de reglas, y/o enumerando todas y cada una de las posibles
expresiones permitidas en la gramática. Probabilidades absolutas o
dependientes del contexto pueden asociarse a la gramática (en los
modelos de lenguaje) con cada expresión de la lista.
Los modelos de lenguaje necesitan distinguirse
claramente de los modelos acústicos de habla, es decir, modelos
para los fonemas o trifonos de la señal de habla. El objetivo de los
modelos de lenguaje es únicamente definir expectativas relacionadas
con las expresiones, tales como palabras, grupos de palabras o
frases, que pueden pronunciarse en una fase dada de un diálogo de
habla. Por ejemplo, cuando el gestor de diálogo de un sistema
automático de directorios indica al usuario que introduzca el nombre
de una ciudad, esperará que el usuario conteste con el nombre de
una ciudad existente. Por lo tanto, el proceso de reconocimiento
mejorará enormemente limitando la comparación del dato pronunciado
a nombres de ciudades indicados en un léxico. Por ejemplo, si se
utiliza un descodificador de Viterbi para determinar el nombre que
es más probable que se haya pronunciado, la probabilidad de errores
y el tiempo de búsqueda se reducirán si la búsqueda se limita a
nombres que existan en el léxico.
Los modelos de lenguaje pueden crearse partiendo
de cero, utilizando por ejemplo una herramienta de desarrollo de
gramáticas, y/o pueden aprenderse y adaptarse de manera automática a
partir de material de habla existente recopilado a partir de un
hablante, o a partir de un grupo de varios hablantes. También es
posible generar o comprar modelos de lenguaje adaptados a grupos
específicos de usuarios, por ejemplo dependiendo de la profesión,
edad y aficiones de los usuarios. Además, debe observarse que los
modelos de lenguaje utilizados por un sistema de reconocimiento de
habla son específicos según el origen lingüístico del hablante.
Los modelos de lenguaje pueden almacenarse como
un archivo de datos que contenga el conjunto de reglas que
represente la gramática, y/o como un archivo de datos que contenga
una tabla u otra estructura de almacenamiento de datos para
almacenar todas las expresiones y probabilidades asociadas que
definan a los modelos.
El término "expresión" designa en el
contexto de esta invención una entrada específica en los modelos de
lenguaje. Una expresión puede ser por ejemplo una palabra
(unigrama), un par de palabras relacionadas (bigrama), tal como
<el gato>, un trigrama (por ejemplo "podría por favor"),
etc. Un conjunto de modelos de lenguaje que dependen del usuario
contendrá diferentes conjuntos de expresiones para cada usuario y
asociará diferentes probabilidades a cada expresión. Además, las
probabilidades asociadas con cada expresión pueden depender del
contexto.
El término "sistema de reconocimiento del
habla" designa una combinación de hardware y software, o
solamente software, que puede reconocer frases pronunciadas y
detectar expresiones conocidas en las frases.
El término "sincronización inteligente"
designa un mecanismo mediante el cual conjuntos de datos almacenados
en diferentes lugares no solamente se duplican, sino que también se
adaptan, convierten u optimizan de otro modo en al menos un lugar.
El conjunto de datos almacenados en los diferentes lugares pueden
ser diferentes.
El término "proveedor de servicios" o
"proveedor de servicios de valor añadido" designa en este
contexto cualquier entidad que proporcione servicios a usuarios a
través de la red de telecomunicaciones, incluyendo terceras partes,
el propio operador de red, el operador de servicios web, centros de
atención telefónica, etc.
El sistema de la invención comprende un usuario
1 que utiliza uno o varios dispositivos terminales de usuario tales
como, por ejemplo, un teléfono móvil 10, un ordenador personal 11,
un teléfono fijo 13 y/o cualquier equipo de comunicación
electrónico 13 de un coche para utilizar o acceder a varios
servicios proporcionados en el dispositivo terminal y/o mediante
proveedores de servicios remotos. Al menos algunos de los
dispositivos terminales pueden incluir medios de identificación y
autenticación de dispositivo y/o de usuario, incluyendo por ejemplo
medios de introducción de contraseñas, sensores biométricos y/o
tarjetas inteligentes de identificación de usuario. En una
realización preferida, la identificación o autenticación de usuario
biométrica se basa en una verificación de habla del hablante.
Además, al menos algunos dispositivos incluyen
un micrófono para capturar el habla pronunciada por los usuarios,
así como preferentemente software de reconocimiento del habla local
para reconocer el habla. En una realización preferida, al menos un
dispositivo permite una interacción multimodal con el usuario, en
base a una combinación de habla con entradas de usuario mediante
teclado, teclado numérico o almohadilla táctil.
El reconocimiento del habla se basa
preferentemente en tecnologías tales como, por ejemplo, modelos
ocultos de Markov (HMM) y/o redes neuronales, y preferentemente
depende del hablante. En el contexto de esta invención,
reconocimiento de habla que depende del hablante significa que el
reconocimiento utiliza modelos acústicos de habla (modelos
acústicos para los fonemas) y modelos de lenguaje que dependen de
cada usuario. Con el fin de mejorar la velocidad de interacción, el
reconocimiento del habla se realiza preferentemente de manera local
y en base a modelos de habla y de lenguaje almacenados de manera
local, es decir, en el dispositivo del usuario.
Una copia, o un conjunto más grande, de los
modelos de lenguaje, y posiblemente de habla, que dependen del
usuario también puede proporcionarse en una plataforma genérica 20
compartida por varios usuarios y a la que se accede a través de una
red de comunicaciones 2 tal como Internet. En este caso se
proporciona preferentemente un mecanismo de sincronización
inteligente para sincronizar cambios, adiciones o borrados en los
modelos del dispositivo terminal con cambios, adiciones o borrados
en la plataforma genérica, y/o para eliminar del dispositivo
terminal modelos de lenguaje no utilizados.
En una realización, un conjunto inicial de
modelos de lenguaje se carga en primer lugar en un dispositivo
terminal de usuario 10, 11, 12 o 13, por ejemplo cuando el usuario
se suscribe al servicio. El modelo de lenguaje seleccionado puede
ser completamente independiente del usuario, o puede depender
preferentemente de los datos demográficos y/o contextuales
relacionados con dicho usuario, incluyendo posiblemente datos
recuperados de cuestionarios y/o temas extraídos de manera
semántica de los diálogos de dicho usuario o de otras interacciones
con su dispositivo. Asimismo, un conjunto inicial de modelos
acústicos de habla independientes del hablante, o dependientes de
grupos, puede cargarse en un dispositivo terminal de usuario 10, 11,
12 o 13.
En una realización, los modelos de habla y/o de
lenguaje utilizados inicialmente para el reconocimiento de la habla
de un nuevo usuario se recuperan a partir de otros usuarios o a
partir de un conjunto de usuarios con perfiles similares, por
ejemplo acentos similares, orígenes similares, profesiones
similares, perfiles demográficos similares, etc. El conjunto
también puede comprarse a una tercera parte. Además, el conjunto
puede depender del contexto, por ejemplo de las aplicaciones y
servicios utilizados actualmente o recientemente por el usuario 1,
de la fecha, de la hora (diferentes conjuntos en casa o en el
trabajo), de la ubicación del usuario, etc. Los modelos acústicos
de habla se adaptan entonces con un nuevo material de habla
recopilado a partir del usuario, utilizando por ejemplo el
algoritmo de Baum-Welsch.
Después, esos modelos de habla y/o de lenguaje
iniciales se adaptan de manera local al habla y/o al lenguaje del
usuario utilizando datos de salida del sistema de reconocimiento del
habla de los dispositivos de usuario 10, 11, 12, 13. Los modelos de
lenguaje pueden completarse y adaptarse, por ejemplo, cada vez que
un usuario diga una nueva expresión. Los modelos de lenguaje del
dispositivo de usuario también pueden actualizarse en cualquier
momento desde la plataforma genérica, dependiendo, por ejemplo, del
contexto y de datos de entrada de otros usuarios. Además, las
expresiones no utilizadas pueden eliminarse de un modelo de lenguaje
o de la copia local de los modelos de lenguaje.
Después, los modelos de lenguaje pueden
actualizarse en la plataforma genérica 2 con el fin de guardarlos,
copiarlos en otros dispositivos del usuario, y/o ponerlos, a efectos
prácticos, permanentemente a disposición de proveedores de
servicios externos y de otros dispositivos del usuario.
Debe observarse que la plataforma genérica 20 no
almacena necesariamente una réplica exacta de los modelos de
lenguaje o de habla de los dispositivos del usuario. Por el
contrario, preferentemente, los modelos que dependen del hablante
se adaptan, convierten y/u optimizan de otro modo en la plataforma
genérica, por ejemplo para reducir sus requisitos de
almacenamiento, o para mejorarlos utilizando el conocimiento
disponible en la plataforma genérica, incluyendo posiblemente el
conocimiento recuperado a partir de modelos de otros usuarios. Por
lo tanto, la plataforma genérica no actúa simplemente como un
repositorio para el almacenamiento seguro de los modelos de
lenguaje y de habla que dependen del hablante, sino que procesa y/u
optimiza los modelos. Esto se denomina "aprendizaje máquina" y
la expresión "aprendizaje de colaboración" se utiliza cuando el
conocimiento recuperado a partir de otros usuarios se utiliza para
mejorar los modelos de un usuario.
Los modelos de lenguaje que dependen del usuario
almacenados en y utilizados por el dispositivo del usuario pueden
adaptarse además en cualquier momento, posiblemente justo al
comienzo de cada sesión que requiera reconocimiento del habla, con
modelos de lenguaje adicionales recuperados de la plataforma central
20 y/o de proveedores de servicios. Por ejemplo, los modelos de
lenguaje que dependen del contexto pueden descargarse, dependiendo
de la aplicación o del servicio utilizado actualmente por el usuario
1 o de los temas extraídos de manera semántica de diálogos
recientes o de otras interacciones del usuario. Además, la
plataforma genérica 20 también puede iniciar posiblemente la
eliminación de modelos raramente utilizados, o de modelos que
probablemente no sean útiles para las siguientes sesiones.
Asimismo, la plataforma genérica puede iniciar
en cualquier momento la actualización de los modelos de habla
almacenados en el dispositivo del usuario, por ejemplo al principio
de una sesión.
En una realización, los modelos se almacenan
como servicios web en la plataforma genérica 20 y una aplicación,
servicio o agente de la plataforma genérica y/o de los dispositivos
de usuario garantiza que un subconjunto apropiado de esos modelos
se almacene de manera local en los dispositivos terminales.
Diferentes subconjuntos de modelos de lenguaje pueden almacenarse
en los diferentes dispositivos terminales 10 y 11 de un mismo
usuario 1, dependiendo de la memoria disponible y/o del uso que
realice el usuario de sus dispositivos terminales. Todo el proceso
de sincronización de modelos de lenguaje es preferentemente
transparente para el usuario final y se controla mediante la
plataforma genérica 20. Además, este proceso es preferiblemente
gratis para el usuario 1, o se cobra en una tarifa plana, por
ejemplo como parte de la suscripción.
Además, también puede ser posible actualizar los
modelos acústicos de habla que dependen del usuario en la
plataforma genérica 20 para utilizarse posteriormente en otros
dispositivos de usuario.
Los modelos de lenguaje que dependen del usuario
cargados en la plataforma genérica central 20 pueden utilizarse
además para adaptar modelos de lenguaje independientes del usuario,
o dependientes de grupos, que se ponen a disposición de otros
usuarios.
El almacenamiento de los modelos de lenguaje en
la plataforma genérica 20 puede cobrarse al usuario, por ejemplo en
función del volumen requerido, la frecuencia de uso, etc. En una
realización preferida, este servicio se ofrece como una parte de
una suscripción del usuario a la red de telecomunicaciones o a un
servicio que utilice esos modelos de lenguaje. El almacenamiento
puede ser independiente de cualquier copia de seguridad central del
dispositivo de usuario o de una tarjeta SIM del dispositivo de
usuario 10, 11, 12, 13, lo que también puede realizarse; en
particular, la sincronización de los modelos de lenguaje del
dispositivo y de la plataforma central 20 se activa mediante otros
eventos y puede realizarse en diferentes momentos que cualquier
copia de seguridad del dispositivo del usuario. Además, tal y como
se ha mencionado anteriormente, los modelos de lenguaje y/o de
habla se convierten posiblemente en la plataforma central 20, y en
cualquier caso se almacenan en un formato independiente del
dispositivo, adecuado para su utilización en diferentes dispositivos
o por diferentes proveedores de servicios externos.
El almacenamiento de los modelos que dependen
del usuario, o de una copia o superconjunto de esos modelos, en la
plataforma genérica 2 también permite que esos modelos se utilicen
con diferentes dispositivos terminales del usuario. Esto tiene la
ventaja de una adaptación mejorada y más rápida de los modelos,
puesto que todas las interacciones del usuario 1 con cualquiera de
sus dispositivos 10 a 13 se utilizarán para adaptar los modelos.
Además, cualquier dispositivo de usuario con un sistema de
reconocimiento del habla compatible se beneficiará de los modelos
entrenados anteriormente con otros dispositivos; los modelos de
lenguaje que dependen del usuario se vuelven de este modo
genéricos, permanentes e independientes de cualquier dispositivo de
usuario.
En una realización preferida, los modelos de
lenguaje y/o de habla de una pluralidad de usuarios se almacenan en
una plataforma genérica común 20. En este caso deben proporcionarse
medios de identificación de usuario con el fin de asociar cada
dispositivo terminal conectado con el conjunto correspondiente de
modelos de lenguaje. La identificación de usuario puede basarse en
la identificación de línea de la persona que llama (CLI, caller
line identification), en la identificación internacional de
abonado móvil (IMSI, international mobile subscriber
identification) y/o en el IDSN de abonado móvil (MSISIDN,
mobile suscriber ISDN) almacenados en una tarjeta SIM del
dispositivo del usuario, en una identificación de usuario y/o una
contraseña introducida por el usuario, en su correo o dirección de
Internet, y/o en parámetros biométricos, etc. En una realización
preferida, la plataforma genérica 20 funciona mediante un operador
de red pública, por ejemplo, un operador de red móvil, y la
identificación del usuario se basa al menos en parte en los
mecanismos utilizados por este operador para el cobro de las
comunicaciones.
Otros datos que dependen del usuario pueden
estar asociados a cada usuario en la plataforma genérica 20,
incluyendo modelos acústicos que dependen del usuario, preferencias
del usuario para el lenguaje, el modo de interacción multimodal
preferido, modelos biométricos de voz, huellas dactilares, retina,
iris, vasos sanguíneos, cara, etc. Un perfil de usuario 200 puede
obtenerse en la plataforma genérica 20 a partir de los modelos de
lenguaje del usuario, posiblemente combinados con otros datos del
mismo usuario y/o de diferentes usuarios. En una realización, el
perfil del usuario comprende para cada usuario una lista
personalizada de expresiones semánticas, recuperada a partir de los
modelos de lenguaje y posiblemente de otras interacciones de usuario
con cualquier dispositivo terminal. Las expresiones semánticas que
dependen del usuario pueden recopilarse, por ejemplo, a partir de
frases del usuario cuando introduce comandos en su dispositivo y
cuando habla a otro interlocutor, a partir de frases del otro
interlocutor en un diálogo conversacional, etc. Además, puede ser
posible recopilar material de habla incluso si el usuario no está
hablando realmente a su dispositivo móvil; para este fin, el
micrófono y el sistema de reconocimiento del habla pueden activarse,
incluso si el usuario no está hablando a su dispositivo terminal,
para capturar y reconocer voces
ambientales.
ambientales.
Los modelos acústicos de habla también pueden
utilizarse para adaptar el perfil de usuario o para realizar una
acción; por ejemplo, los modelos de habla pueden revelar un acento
que indique un origen geográfico y/o sociodemográfico del hablante.
Otras indicaciones que pueden recuperarse de los modelos de habla
incluyen la edad, sexo, posible enfermedad, emociones, etc., del
hablante; estas características también pueden utilizarse por
proveedores de servicios externos para personalizar sus
servicios.
Además, las expresiones semánticas que dependen
del usuario pueden recopilarse a partir de cualquier texto
introducido por el usuario en cualquier aplicación ejecutada o
iniciada por su dispositivo terminal, incluyendo el procesamiento
de textos, hojas de cálculo, aplicaciones cliente de correo
electrónico o de mensajería instantánea, historial del registro
web, diccionarios de ortografía personales del usuario, por ejemplo,
y/o a partir de texto mostrado al usuario, por ejemplo, mediante su
navegador web, cliente de correo electrónico o de mensajería
instantánea, etc. Un applet o cualquier otro fragmento de
software en el dispositivo de usuario, en la red 2 y/o por
cualquier proveedor de servicios 4 puede utilizarse para extraer
este contenido del texto pronunciado, escrito, escuchado y/o leído
por el usuario. Además, la información demográfica y la información
recuperada a partir de cuestionarios o formularios web, por ejemplo
en la suscripción de cualquier servicio de un proveedor de
servicios 4, puede utilizarse como una fuente para recopilar
contenido semántico y para definir el perfil del usuario.
Pueden asignarse diferentes ponderaciones a
diferentes fuentes; por ejemplo, puede considerarse más importante
tener una expresión específica pronunciada realmente por un usuario
que simplemente leída en una página web larga. Además, cualquier
énfasis emocional para una expresión pronunciada específica y
cualquier estilo aplicado a la expresión en un documento, pueden
utilizarse para evaluar su importancia y ponderar la expresión.
Además, la lista de expresiones semánticas que
dependen del usuario pueden depender del tiempo; una expresión
específica puede tener un mayor impacto en el perfil del usuario si
se ha pronunciado recientemente. Además, puede tenerse en cuenta
cualquier cambio en la frecuencia de uso de las diferentes
expresiones; un cambio repentino en la frecuencia de utilización de
cualquier expresión puede indicar un cambio en los intereses del
usuario y llevar a cabo una adaptación del perfil del usuario, una
acción inmediata por parte de un proveedor de servicios (tal como
enviar un mensaje publicitario adaptado), o una actualización de los
modelos de lenguaje disponibles en el dispositivo del usuario.
La figura 3 ilustra una posible manera de
almacenar una lista de expresiones semánticas que depende del
usuario. En esta realización, los valores almacenados representan
la frecuencia de uso de todas las expresiones diferentes 1 a 7 de
una lista en diferentes instantes t0, t1, etc. Tal y como se indica,
la frecuencia es un valor incrementado por diferentes ponderaciones
cada vez que el usuario diga, escuche, escriba o lea la expresión
correspondiente. La lista de la figura 3 puede almacenarse, por
ejemplo, en una estructura de base de datos, como un archivo
separado por comas, como un archivo XML, etc., de la base de datos
200 y posiblemente en cualquier dispositivo de usuario 10 a
13.
13.
En una realización, la frecuencia de utilización
de diferentes expresiones en momentos diferentes del actual se
almacena solamente en la plataforma genérica 20, mientras que
solamente se almacenan los modelos de lenguaje actuales en los
dispositivos 10, 11, 12, 13. Esto permite que la plataforma genérica
20 y los proveedores de servicios obtengan cualquier información
requerida a partir de cambios en los diálogos de lenguaje, evitando
al mismo tiempo un incremento innecesario del requisito de
almacenamiento en el dispositivo del usuario.
La lista de expresiones almacenada en la
plataforma genérica 20 puede omitir expresiones muy comunes, tales
como "el", "la", "los", "las", "y",
"es", etc., y dar más importancia a palabras y expresiones poco
habituales, tomadas de expresiones del vocabulario, y a palabras
que contengan un alto contenido semántico incluyendo, por ejemplo,
nombres propios, nombres geográficos, en lugar de nombres más
comunes. Además, pueden tenerse en cuenta grandes diferencias en la
frecuencia de expresiones entre un usuario y el resto de usuarios;
una expresión que no sea habitual para la mayoría de usuarios, pero
muy frecuente en el lenguaje de un usuario específico, puede ser
muy útil para establecer el perfil del usuario y para relacionarlo
con un grupo de otros usuarios con perfiles conocidos que también
utilicen la misma expresión.
En una realización, la plataforma genérica 20 (o
cualquier otro módulo de software ejecutado en el dispositivo
terminal o por el proveedor de servicios) ejecuta algoritmos de
procesamiento de lenguaje natural (NLP, natural language
processing) y otros algoritmos para modelar de manera semántica
el contenido recuperado. La plataforma genérica puede, por ejemplo,
ejecutar algoritmos semánticos de extracción de temas para
"entender" el contenido recibido y extraer temas relevantes
que pueden utilizarse, por ejemplo, cuando se decide qué conjunto
pertinente de modelos de lenguaje utilizar, mantener o descargar, o
para determinar el perfil de usuario. La extracción de un tema
específico a partir del diálogo entre usuarios también puede activar
un evento, tal como enviar un mensaje publicitario relacionado
desde un proveedor de servicios.
Pueden utilizarse procedimientos ontológicos
para agrupar u organizar conceptualmente expresiones cerradas; la
ontología puede describirse, por ejemplo, con una representación
gráfica, posiblemente en formato XML, que define relaciones entre
palabras relacionadas. Por ejemplo, la expresión "sistema
antibloqueo" está relacionada con "ABS" y, hasta cierto
punto con los coches, pero mucho menos con otras expresiones tales
como "ordenador" o "plátano", por ejemplo. Agrupar de
manera semántica expresiones similares permite tener en cuenta, en
mayor grado, varios modos de expresar algunos conceptos e intereses
del usuario con varias expresiones. Por otro lado, los grupos
pueden utilizarse para distinguir diferentes significados de una
expresión particular, dependiendo del contexto.
Además, los algoritmos semánticos pueden
utilizarse para calcular la distancia semántica entre documentos o
extractos de diálogos, por ejemplo entre frases del usuario y
diálogos de referencia almacenados en la plataforma genérica y/o
con los proveedores de servicios. De nuevo, esta distancia puede
utilizarse, por ejemplo, para decidir si debe realizarse una acción
específica o si el perfil del usuario debe adaptarse.
En esta realización, la lista de expresiones
semánticas que depende del usuario se sustituye, o se completa, por
una lista de grupos semánticos y probabilidades asociadas.
De manera similar, la lista de expresiones
(incluidos los grupos) que depende del usuario puede tener en cuenta
diferentes lenguas habladas o utilizadas por un usuario, y utiliza
traducciones de palabras o expresiones.
Tal y como se ha indicado anteriormente, la
lista de expresiones semánticas de la figura 3 se pone a disposición
de varios proveedores de servicios externos 4 con el fin de que
procesen perfiles de usuario. Los perfiles recuperados por varios
proveedores pueden ser diferentes; como un ejemplo, un proveedor 4
de servicios de viajes puede buscar usuarios finales que utilicen
frecuentemente, o en un pasado reciente, expresiones tales como
"esquiar", "Matterhorn" o "vacaciones", mientras que
un vendedor de teléfonos móviles intentará atraer abonados con una
gran afinidad con los dispositivos tecnológicos.
En otra realización, un perfil de usuario se
obtiene a partir de las listas de expresiones semánticas, y
posiblemente a partir de modelos acústicos de habla, directamente
mediante la plataforma genérica 20, y se pone a disposición de los
proveedores de servicio. Esto tiene la ventaja de que el perfil sólo
necesita procesarse una vez y de que solamente se necesita una
infraestructura de software para esa finalidad; sin embargo, el
inconveniente es que la información del perfil no depende del
servicio. La plataforma genérica puede intentar clasificar los
usuarios en varias categorías que pueden ser útiles para varios
proveedores de servicios.
En una realización se ofrece un incentivo a los
usuarios 1 para que participen en el sistema y para que pongan
elementos de su perfil a disposición de terceras partes. Este
incentivo puede tomar la forma de, por ejemplo, una bonificación,
una reducción en las tasas de suscripción o en las tarifas de
comunicación con la red móvil y/o con el servicio, o de puntos en
un programa de seguro cada vez que un proveedor de servicios utilice
el perfil y/o cuando se haya suscrito el servicio.
La lista de expresiones semánticas y/o el perfil
obtenido de la misma pueden ponerse a disposición de terceras
partes 4 como, por ejemplo, servicios web, un fichero disponible a
través de un servidor web o FTP, o pueden ser enviados a una
pluralidad de proveedores de servicios 4 externos o internos (en la
plataforma 20) que los reciben, mediante cualquier protocolo
adecuado. La disponibilidad puede limitarse a proveedores de
servicio autenticados en la plataforma 20, con los que existe un
acuerdo válido; además, un usuario 1 puede decidir limitar la
disponibilidad de su perfil solamente a algunos proveedores
externos. En una realización, el acceso a todo el perfil, o a
partes determinadas del perfil, solo está permitido a proveedores de
servicio autorizados explícitamente por el usuario.
Tal y como se ha mencionado anteriormente, el
perfil recuperado a partir de los modelos de lenguaje y de habla
suministrados por el sistema de reconocimiento del habla en
cualquier dispositivo del usuario también puede utilizarse en el
dispositivo o en la red de área local del usuario, por ejemplo
mediante cualquier aplicación ejecutada por dicho dispositivo o en
dicha red local.
En una realización, esta información se hace
disponible a través de una plataforma de anonimización (no mostrada)
que elimina cualquier dato de identificación de usuario de los
perfiles puestos a disposición de terceras partes, o que sustituye
estos datos de identificación de usuario con un alias. La plataforma
de anonimización puede hacerse funcionar mediante otra parte
independiente del operador de la plataforma genérica 20 y del
proveedor de servicios 4.
Diferentes tipos de proveedores de servicios
pueden utilizar el sistema y procedimiento de la invención. En una
realización, un proveedor de servicios 4 utiliza el sistema para
transmitir material publicitario y de información personalizado 1 a
1 a los dispositivos terminales de usuario 10, 11, 12, 13. El
material publicitario y de información puede, por ejemplo,
visualizarse en una parte reservada multimodal 101 de la interfaz de
usuario 100, por ejemplo en una parte de una pantalla táctil 100.
El material publicitario también puede reproducirse de manera
acústica con los altavoces del dispositivo terminal del usuario. En
una realización preferida, el material publicitario y de
información que se ajusta a los intereses y necesidades del usuario
se selecciona mediante un proveedor de servicios 4 según el perfil
del usuario en la base de datos 200, y se transmite al dispositivo
del usuario, como por ejemplo, páginas web o servicios web, por
ejemplo a través de un canal GPRS, EDGE, UMTS o cualquier canal de
comunicaciones adecuado "siempre activado".
Preferentemente, la parte multimodal 101 también
está siempre activada, es decir, puede visualizar y posiblemente
reproducir imágenes fijas, vídeos y/o sonidos incluso cuando el
dispositivo de usuario 10 no esté utilizándose. Preferentemente, el
usuario 1 tiene la posibilidad de desactivar el servicio, por
ejemplo, durante las reuniones; tal y como se ha descrito
anteriormente, puede ofrecerse algún incentivo para incitarle a que
active el servicio lo antes posible.
Preferentemente, la parte reservada multimodal
101 permite que el usuario reaccione ante un mensaje recibido,
usando preferentemente varios modos. Por ejemplo, el usuario 1 puede
escribir una respuesta con el teclado 103 de su dispositivo, y/o
seleccionar o escribir directamente en la pantalla táctil 100, y/o
introducir comandos con su habla. En una realización preferida, el
reconocimiento de la escritura y/o el reconocimiento del habla se
realiza utilizando modelos que dependen del usuario que pueden estar
almacenados preferentemente de manera central, en la base de datos
200, y posiblemente sincronizados con modelos locales. El propio
proceso de reconocimiento de la escritura y/o de la habla puede
ejecutarse en el dispositivo de usuario 10 a 13 y/o de manera remota
en la plataforma genérica 20 o por el proveedor de servicios.
Además, puede ser posible identificar o al menos
autenticar al usuario 1 utilizando características biométricas,
incluyendo huellas dactilares recogidas durante la manipulación de
la pantalla táctil 100 u cualquier otro elemento táctil 102, y/o
características del habla. De nuevo, la identificación/autenticación
del usuario puede basarse en modelos de habla, huellas dactilares u
otra característica del usuario almacenada en el perfil de usuario
en la base de datos 200, y posiblemente sincronizados con los
modelos de usuario del dispositivo terminal. El propio proceso de
identificación/autenticación puede ejecutarse en el dispositivo
terminal del usuario, en una tarjeta con chip insertada en el
dispositivo, en la plataforma genérica 20 y/o en el lado del
proveedor de servicios 4.
A continuación se describirá un ejemplo de
interacción entre la usuaria 1 Alicia, su operador de
telecomunicaciones FreeCom y varios proveedores de servicios de
valor añado.
Durante varios años, Alicia ha utilizado la
interacción multimodal en su teléfono. Sus modelos de interacción
multimodal, utilizados para reconocer su habla y escritura, y para
identificarla o autenticarla, funcionan correctamente incluso en
entornos habitualmente ruidosos. Normalmente, ella envía SMS o
realiza una reserva de un viaje en el último momento. En algunos
SMS recientes, Alicia mencionó las islas del Caribe. Una agencia de
viajes 4 tiene un acuerdo con su operador de red FreeCom para tener
acceso al perfil de usuario de Alicia así como a los de otros
muchos usuarios. Puesto que el modelo de lenguaje se ha adaptado
recientemente con relación a las islas del Caribe, la agencia de
viajes ha decido enviar automáticamente un oferta con varias
alternativas. Alicia recibe el siguiente anuncio multimodal: en
primer lugar suena una dulce música de las islas del Caribe y
después se muestra en la pantalla un formulario con múltiples
opciones. Alicia decide comprar el paquete de viaje utilizando la
característica de compra multimodal; selecciona con el lápiz, dice
"deseo comprar esta oferta", y su voz se utiliza como firma
junto con la identidad ya conocida de Alicia.
Más específicamente, el diálogo puede parecerse
a lo siguiente:
Un proveedor de servicios decide unirse al
modelo de suscripción con el nuevo canal de negocio multimodal 1 a
1 ofrecido por el operador de telecomunicaciones FreeCom el cual
gestiona una plataforma genérica 20. Por lo tanto, el proveedor de
servicios 4 registra su servicio y el servicio del proveedor de
servicios 4 se registra en la plataforma genérica 20, con las
siguientes características:
- 1.
- Se garantiza el acceso a los metadatos de todos los abonados.
- 2.
- Se actualizan los modelos de lenguaje necesarios para el acceso multimodal al proveedor de servicios 4 (esto se lleva a cabo además diariamente).
- 3.
- Se permite la gestión de crédito (por ejemplo, modelo de compartición Revenue).
- 4.
- Se estable comunicación con el adaptador de patrones semánticos para cada generación de eventos.
- 5.
- Se definen las direcciones de cobro y el procedimiento de transacción.
\vskip1.000000\baselineskip
Entonces, Alicia rellena un formulario de
suscripción con el operador de red FreeCom para ganar incentivos,
por ejemplo acceso a una comunicación móvil gratis. A cambio, ella
accede a proporcionar su perfil a una selección de terceras partes
(puede seleccionar algunas de ellas en una lista). Otro muchos
ajustes de interacción también se definen en esta fase para mejorar
la oferta de servicios de FreeCom.
El entorno multimodal interactivo se inicializa
mediante el proveedor de servicios con modelos de interacción
personalizados directamente en los dispositivos terminales dados.
Esta configuración puede cargarse en otros varios dispositivos
terminales 10, 11, 12, 13 (PC, otros teléfonos).
La plataforma genérica 20 carga el entorno de
interacción multimodal en el dispositivo terminal de Alicia
incluyendo los modelos más afines, modelos de lenguaje (incluyendo
los nuevos modelos de lenguaje del proveedor de servicios), y otras
aplicaciones de terceras partes.
Alicia activa en su dispositivo terminal una
aplicación SMS de dictado. Esta aplicación utiliza los modelos
personalizados (acústico y de lenguaje). Ambos modelos se adaptan
continuamente al habla de Alicia y a la entrada de texto.
La sincronización con la plataforma genérica se
produce de manera transparente. El proveedor de servicio obtiene
acceso a la nueva información proporcionada por el modelo de
lenguaje actualizado a través de los servicios web. Como
alternativa, puesto que Alicia utilizó el concepto de las islas del
Caribe, que se detectó, se genera un evento (acierto de patrón
semántico / detección de temas) que se envía al proveedor de
servicios.
El proveedor de servicios obtiene el evento y
busca una posible correspondencia con la lista de ofertas de última
hora. Se encuentra una correspondencia, se prepara la aplicación y
se precarga en los dispositivos terminales de Alicia. En una
realización, nuevos modelos de lenguaje, que incluyen expresiones
que pueden requerirse para acceder a la oferta del proveedor de
servicios, se cargan en el dispositivo de Alicia. Los modelos de
lenguaje también pueden actualizar las probabilidades asociadas con
expresiones ya disponibles con el fin de anticipar respuestas
esperadas.
Después, se envía un objeto java o HTML de
información/publicidad multimodal que se visualiza en el dispositivo
terminal 10 de Alicia. Los modelos de lenguaje necesarios para
activar la sesión se sincronizan previamente a través de la
plataforma genérica 20.
En la parte de interacción multimodal reservada
101, un sonido de música caribeña anuncia la llegada de un anuncio.
En la pantalla se visualiza una lista de posibles opciones de última
hora. Se cargan todos los modelos de lenguaje principales para
hacer la experiencia del usuario lo más placentera posible y sin que
haya tiempo de demora de interacción.
Se envía un diálogo multimodal de iniciativa
mixta si Alicia puede elegir varias opciones sobre la marcha
mientras compra un paquete de viajes de la lista. Alicia marca con
un lápiz su opción preferida en el menú visualizado y dice "elijo
el que tiene la habitación doble y, por favor, cárguenlo a mi cuenta
de FreeCom". El proveedor de servicios 4 recibe la orden a
través de un evento de compra. Un agente activo de un centro de
atención telefónica se activa posiblemente si fuera necesario.
El proveedor de servicios emite un billete
electrónico para el vuelo de última hora que después se carga en
los dispositivos terminales de Alicia. Simultáneamente, se le regala
a Alicia un crédito de bonificación. La plataforma genérica 20
actualiza el interés de Alicia en sus metadatos. El operador de red
realiza el pago y se queda un porcentaje de esta transacción.
\newpage
El sistema y el procedimiento de la invención
pueden utilizarse para otros tipos de servicios de proveedores
externos, incluyendo pero no limitados a:
- -
- Búsqueda de pareja, para detectar automáticamente posibles parejas que compartan perfiles similares o compatibles según se determine, al menos en parte, a partir de los modelos de lenguaje adaptados por un sistema de reconocimiento del habla.
- -
- Entrega personalizada de información; periódicos personalizados, dependiendo de los intereses obtenidos a partir de dichos modelos de lenguaje.
- -
- Clasificación personalizada de resultados de búsqueda, mientras que el orden de los documentos recuperados, por ejemplo, por un motor de búsqueda, depende del perfil de cada usuario, obtenido a partir de lo que el usuario dice, oye, escribe y/o lee.
- -
- Delimitación automática de un resultado de búsqueda existente con el fin de conservar solamente los documentos que se adapten mejor a los intereses y al perfil del usuario.
- -
- Selección automática de audio, vídeo y/o contenido de texto enviados en modo de flujo al dispositivo del usuario, por ejemplo la selección automática de música reproducida para el usuario.
- -
- Selección automática de productos y servicios propuestos al cliente, dependiendo de lo que haya dicho el usuario y de lo que usuarios con perfiles similares en la base de datos 200 hayan seleccionado, examinado o comprado.
- -
- Filtro de mensajes no deseados que no se ajustan a los intereses y expresiones habituales de dicho usuario.
- -
- Servicios de subastas, en los que nuevas ofertas que pueden ajustarse al interés del usuario, determinado a partir de sus modelos de lenguaje y de habla, se envían de manera proactiva al espacio multimodal 101 de sus dispositivos terminales 10 a 13.
- -
- Bloc de notas, que permite al usuario realizar búsquedas en el historial de expresiones semánticas que ha utilizado o escuchado, por ejemplo durante un transcurso de tiempo específico, para ayudarle a recordar el nombre de una persona, lugar, etc.
- -
- Copia de seguridad central de modelos de lenguaje, así como de otros datos almacenados en la plataforma genérica 20, en un formato preferentemente independiente de los dispositivos terminales, permitiendo de este modo que el usuario utilice esos modelos entrenados con nuevos dispositivos.
- -
- Asistencia personalizada en un centro de atención telefónica, teniendo en cuanta el historial de interacciones multimodales y de habla del usuario.
Por lo tanto, la invención permite generar un
canal de negocio multimodal real entre los usuarios por un lado,
proveedores de servicios por otro lado, y el operador de red.
Claims (31)
1. Un procedimiento en una red de comunicaciones
para personalizar un servicio, que comprende las etapas de:
- generar modelos de lenguaje que dependen del usuario mediante un sistema de reconocimiento del habla;
- almacenar dichos modelos de lenguaje que dependen del usuario;
- obtener una lista personalizada de expresiones semánticas a partir de dichos modelos de lenguaje que dependen del usuario;
- poner dicha lista a disposición de una aplicación que se ejecuta en un dispositivo de usuario y/o que está a disposición de proveedores de servicios externos, para personalizar un aspecto de un servicio (4) no relacionado con el procesamiento del habla.
\vskip1.000000\baselineskip
2. El procedimiento según la reivindicación 1,
en el que al menos un subconjunto de dichos modelos de lenguaje que
dependen del usuario se almacenan de manera local en un dispositivo
de usuario (10, 11, 12, 13) y se sincronizan con modelos de
lenguaje que dependen del usuario almacenados en una plataforma
genérica (2).
3. El procedimiento según la reivindicación 2,
que comprende una etapa de realizar un reconocimiento del habla en
dicho dispositivo de usuario utilizando dichos modelos de lenguaje
que dependen del usuario almacenados de manera local,
y en el que dicho aspecto de un servicio se
personaliza utilizando dichos modelos de lenguaje que dependen del
usuario almacenados de manera central.
\vskip1.000000\baselineskip
4. El procedimiento según una de las
reivindicaciones 2 o 3, que comprende una etapa de cargar en dicho
dispositivo de usuario un conjunto inicial de modelos de
lenguaje,
adaptar dichos modelos de lenguaje a dicho
usuario,
sincronizar dichos modelos de lenguaje adaptados
que dependen del usuario con dichos modelos de lenguaje que
dependen del usuario almacenados de manera central,
descargar dichos modelos de lenguaje que
dependen del usuario almacenados de manera central en otro
dispositivo de dicho usuario (10, 11, 12, 13).
\vskip1.000000\baselineskip
5. El procedimiento según una de las
reivindicaciones 2 a 4, que comprende una etapa de cargar en dicho
dispositivo de usuario un conjunto de modelos de lenguaje que
depende de los datos demográficos y/o contextuales relacionados con
dicho usuario y/o de temas extraídos a partir de diálogos de dicho
usuario
adaptar dichos modelos de lenguaje en dicho
dispositivo de usuario,
cargar dichos modelos de lenguaje adaptados en
dicha plataforma.
\vskip1.000000\baselineskip
6. El procedimiento según una de las
reivindicaciones 2 a 5, en el que versiones anteriores de dichos
modelos de lenguaje que dependen del usuario están almacenadas en
dicha plataforma genérica.
7. El procedimiento según la reivindicación 1,
en el que dichas expresiones semánticas comprenden al menos uno de
lo siguiente:
- palabras,
- bigramas, trigramas y/o n-gramas,
- grupos semánticos y/u ontologías.
\vskip1.000000\baselineskip
8. El procedimiento según la reivindicación 1,
que comprende una etapa de determinar la frecuencia de utilización
de dichas expresiones semánticas por dicho usuario (1) y adaptar un
perfil de usuario (200) según dicha frecuencia.
9. El procedimiento según la reivindicación 1,
en el que un perfil de usuario depende del momento en el que dichas
expresiones semánticas se recopilaron o pronunciaron.
10. El procedimiento según la reivindicación 1,
en el que un perfil de usuario depende de la rareza de dichas
expresiones semánticas y/o del contexto del que se obtuvieron.
11. El procedimiento según la reivindicación 1,
que comprende las etapas de recopilar en un servidor de habla
remoto material de habla pronunciado por un usuario (1) cuando
accede a dicho servidor de habla remoto (20).
12. El procedimiento según la reivindicación 1,
que comprende las etapas de recopilar en un dispositivo terminal de
usuario (10, 11, 12, 13) material de habla pronunciado por un
usuario (1) cuando habla a dicho dispositivo terminal de usuario
(10, 11, 12, 13).
13. El procedimiento según una de las
reivindicaciones 1 a 12, que comprende las etapas de recopilar
material de habla de dicho usuario (1) durante conversaciones
telefónicas habituales con otros usuarios o dispositivos,
y utilizar dicho material de habla para adaptar
dichos modelos de lenguaje que dependen del usuario.
\vskip1.000000\baselineskip
14. El procedimiento según una de las
reivindicaciones 1 a 13, que comprende las etapas de utilizar un
micrófono de un dispositivo terminal de usuario (10, 11, 12, 13) de
dicho usuario (1) para recopilar material de habla ambiental fuera
del uso habitual de dicho dispositivo terminal de usuario (10, 11,
12, 13) para comunicaciones de habla o de datos con dispositivos
externos,
y utilizar dicho material de habla ambiental
para adaptar dichos modelos de lenguaje que dependen del
usuario.
\vskip1.000000\baselineskip
15. El procedimiento según una de las
reivindicaciones 1 a 14, que comprende además la etapa de poner
dichos modelos de lenguaje que dependen del usuario a disposición
de una pluralidad de sistemas de reconocimiento del habla en una
red de comunicaciones (2).
16. El procedimiento según una de las
reivindicaciones 1 a 15, en el que los perfiles de usuario
anonimizados se ponen a disposición de proveedores de servicios
externos de valor añadido (4).
17. El procedimiento según una de las
reivindicaciones 1 a 16, en el que los perfiles de usuario sólo se
ponen a disposición de proveedores de servicios externos de valor
añadido (4) autorizados por dicho usuario (1).
18. El procedimiento según una de las
reivindicaciones 1 a 17, en el que dicha etapa de personalizar un
aspecto de un servicio incluye enviar mensajes publicitarios
personalizados a dicho usuario (1).
19. El procedimiento según la reivindicación 18,
en el que dichos mensajes publicitarios se visualizan en una parte
reservada multimodal (101) de un dispositivo de usuario (10, 11, 12,
13).
20. El procedimiento según la reivindicación 19,
en el que nuevos mensajes se envían a dicho dispositivo de usuario
(10, 11, 12, 13) incluso fuera de comunicaciones iniciadas o
contestadas por dicho usuario (1).
21. El procedimiento según una de las
reivindicaciones 18 a 20, que comprende la etapa de proporcionar a
dicho usuario (1) un incentivo para recibir dichos mensajes
publicitarios.
22. El procedimiento según una de las
reivindicaciones 19 a 21, en el que dicho usuario (1) puede
contestar directamente dicho mensaje publicitario hablando y/o
haciendo clic y/o escribiendo en dicha parte multimodal (101).
23. El procedimiento según la reivindicación 22,
que comprende una etapa de autenticar dicho usuario (1) con su
habla y/o con sus huellas digitales y/o con su escritura cuando
contesta dicho mensaje publicitario.
24. El procedimiento según una de las
reivindicaciones 1 a 23, en el que dicha etapa de personalizar un
aspecto de un servicio incluye proponer a dicho usuario (1) nombres
o direcciones de usuarios con intereses o perfiles afines.
25. El procedimiento según una de las
reivindicaciones 1 a 24, en el que dicha etapa de personalizar un
aspecto de un servicio incluye seleccionar información relacionada
con los intereses de dicho usuario (1).
26. El procedimiento según una de las
reivindicaciones 1 a 25, en el que dicha etapa de personalizar un
aspecto de un servicio incluye clasificar resultados de búsqueda
según criterios del usuario.
27. El procedimiento según una de las
reivindicaciones 1 a 26, en el que dicha etapa de personalizar un
aspecto de un servicio comprende filtrar mensajes no deseados.
28. El procedimiento según una de las
reivindicaciones 1 a 27, que comprende además la etapa de utilizar
modelos acústicos de habla que dependen del usuario suministrados
por dicho sistema de reconocimiento del habla para personalizar
dicho aspecto de dicho servicio (4) no relacionado con el
procesamiento de habla.
29. Un sistema de comunicaciones en una red de
comunicaciones, que comprende:
- un sistema de reconocimiento del habla para generar una pluralidad de modelos de lenguaje que dependen del usuario;
- medios para almacenar dichos modelos de lenguaje que dependen del usuario;
- medios para obtener de dichos modelos de lenguaje que dependen del usuario una lista personalizada de expresiones semánticas; y
- medios para poner dicha lista a disposición de una aplicación que se ejecuta en un dispositivo de usuario y/o a disposición de proveedores de servicios externos, para personalizar un aspecto de un servicio (4) no relacionado con el procesamiento de habla.
\vskip1.000000\baselineskip
30. El sistema según la reivindicación 29, que
comprende medios de almacenamiento para almacenar modelos de
lenguaje que dependen del usuario y medios de sincronización para
sincronizar dichos modelos de lenguaje que dependen del usuario con
modelos de lenguaje almacenados en dispositivos de usuario (10, 11,
12, 13).
31. El sistema según una de las reivindicaciones
29 o 30, que almacena además una pluralidad de modelos acústicos de
habla que dependen del usuario suministrados por dichos sistemas de
reconocimiento del habla.
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP05111345A EP1791114B1 (en) | 2005-11-25 | 2005-11-25 | A method for personalization of a service |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2330758T3 true ES2330758T3 (es) | 2009-12-15 |
Family
ID=36153077
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES05111345T Active ES2330758T3 (es) | 2005-11-25 | 2005-11-25 | Procedimiento para personalizar un servicio. |
Country Status (5)
Country | Link |
---|---|
US (1) | US8005680B2 (es) |
EP (2) | EP2109097B1 (es) |
AT (1) | ATE439665T1 (es) |
DE (1) | DE602005015984D1 (es) |
ES (1) | ES2330758T3 (es) |
Families Citing this family (91)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7895076B2 (en) * | 1995-06-30 | 2011-02-22 | Sony Computer Entertainment Inc. | Advertisement insertion, profiling, impression, and feedback |
US9342588B2 (en) * | 2007-06-18 | 2016-05-17 | International Business Machines Corporation | Reclassification of training data to improve classifier accuracy |
US9058319B2 (en) * | 2007-06-18 | 2015-06-16 | International Business Machines Corporation | Sub-model generation to improve classification accuracy |
US8521511B2 (en) * | 2007-06-18 | 2013-08-27 | International Business Machines Corporation | Information extraction in a natural language understanding system |
US8285539B2 (en) * | 2007-06-18 | 2012-10-09 | International Business Machines Corporation | Extracting tokens in a natural language understanding application |
US20090064320A1 (en) * | 2007-06-27 | 2009-03-05 | Sharp Kabushiki Kaisha | Image processing apparatus and image processing system |
US9202243B2 (en) * | 2007-08-23 | 2015-12-01 | Dside Technologies, Llc | System, method, and computer program product for comparing decision options |
US8954367B2 (en) | 2007-08-23 | 2015-02-10 | Dside Technologies, Llc | System, method and computer program product for interfacing software engines |
US8279848B1 (en) * | 2007-09-27 | 2012-10-02 | Sprint Communications Company L.P. | Determining characteristics of a mobile user of a network |
WO2009050773A1 (ja) * | 2007-10-15 | 2009-04-23 | Comsquare Co., Ltd. | 広告情報管理方法、広告情報管理装置及び広告情報管理プログラム |
US8255224B2 (en) * | 2008-03-07 | 2012-08-28 | Google Inc. | Voice recognition grammar selection based on context |
US20090240539A1 (en) * | 2008-03-21 | 2009-09-24 | Microsoft Corporation | Machine learning system for a task brokerage system |
CA2665055C (en) * | 2008-05-23 | 2018-03-06 | Accenture Global Services Gmbh | Treatment processing of a plurality of streaming voice signals for determination of responsive action thereto |
US8577685B2 (en) * | 2008-10-24 | 2013-11-05 | At&T Intellectual Property I, L.P. | System and method for targeted advertising |
US8275623B2 (en) | 2009-03-06 | 2012-09-25 | At&T Intellectual Property I, L.P. | Method and apparatus for analyzing discussion regarding media programs |
JP2011033680A (ja) * | 2009-07-30 | 2011-02-17 | Sony Corp | 音声処理装置及び方法、並びにプログラム |
US11416214B2 (en) | 2009-12-23 | 2022-08-16 | Google Llc | Multi-modal input on an electronic device |
EP2339576B1 (en) | 2009-12-23 | 2019-08-07 | Google LLC | Multi-modal input on an electronic device |
US8612999B2 (en) * | 2010-08-20 | 2013-12-17 | Salesforce.Com, Inc. | System, method and computer program product for publishing an application-independent format event |
US8532994B2 (en) * | 2010-08-27 | 2013-09-10 | Cisco Technology, Inc. | Speech recognition using a personal vocabulary and language model |
US20120078635A1 (en) * | 2010-09-24 | 2012-03-29 | Apple Inc. | Voice control system |
US8352245B1 (en) | 2010-12-30 | 2013-01-08 | Google Inc. | Adjusting language models |
US8296142B2 (en) | 2011-01-21 | 2012-10-23 | Google Inc. | Speech recognition using dock context |
US8630860B1 (en) | 2011-03-03 | 2014-01-14 | Nuance Communications, Inc. | Speaker and call characteristic sensitive open voice search |
US20130066634A1 (en) * | 2011-03-16 | 2013-03-14 | Qualcomm Incorporated | Automated Conversation Assistance |
US9202465B2 (en) * | 2011-03-25 | 2015-12-01 | General Motors Llc | Speech recognition dependent on text message content |
US9760566B2 (en) | 2011-03-31 | 2017-09-12 | Microsoft Technology Licensing, Llc | Augmented conversational understanding agent to identify conversation context between two humans and taking an agent action thereof |
US9298287B2 (en) | 2011-03-31 | 2016-03-29 | Microsoft Technology Licensing, Llc | Combined activation for natural user interface systems |
US9244984B2 (en) | 2011-03-31 | 2016-01-26 | Microsoft Technology Licensing, Llc | Location based conversational understanding |
US9842168B2 (en) | 2011-03-31 | 2017-12-12 | Microsoft Technology Licensing, Llc | Task driven user intents |
US10642934B2 (en) | 2011-03-31 | 2020-05-05 | Microsoft Technology Licensing, Llc | Augmented conversational understanding architecture |
US9858343B2 (en) * | 2011-03-31 | 2018-01-02 | Microsoft Technology Licensing Llc | Personalization of queries, conversations, and searches |
US9064006B2 (en) | 2012-08-23 | 2015-06-23 | Microsoft Technology Licensing, Llc | Translating natural language utterances to keyword search queries |
US9454962B2 (en) | 2011-05-12 | 2016-09-27 | Microsoft Technology Licensing, Llc | Sentence simplification for spoken language understanding |
US8938391B2 (en) * | 2011-06-12 | 2015-01-20 | Microsoft Corporation | Dynamically adding personalization features to language models for voice search |
GB2493413B (en) * | 2011-07-25 | 2013-12-25 | Ibm | Maintaining and supplying speech models |
US9465368B1 (en) * | 2011-12-08 | 2016-10-11 | Navroop Pal Singh Mitter | Authentication system and method thereof |
US9620111B1 (en) * | 2012-05-01 | 2017-04-11 | Amazon Technologies, Inc. | Generation and maintenance of language model |
GB201208373D0 (en) * | 2012-05-14 | 2012-06-27 | Touchtype Ltd | Mechanism for synchronising devices,system and method |
US9195721B2 (en) | 2012-06-04 | 2015-11-24 | Apple Inc. | Mobile device with localized app recommendations |
US20140039893A1 (en) * | 2012-07-31 | 2014-02-06 | Sri International | Personalized Voice-Driven User Interfaces for Remote Multi-User Services |
US9786281B1 (en) * | 2012-08-02 | 2017-10-10 | Amazon Technologies, Inc. | Household agent learning |
US9460716B1 (en) * | 2012-09-11 | 2016-10-04 | Google Inc. | Using social networks to improve acoustic models |
US9043210B1 (en) * | 2012-10-02 | 2015-05-26 | Voice Security Systems, Inc. | Biometric voice command and control switching device and method of use |
US8983849B2 (en) * | 2012-10-17 | 2015-03-17 | Nuance Communications, Inc. | Multiple device intelligent language model synchronization |
US9137314B2 (en) * | 2012-11-06 | 2015-09-15 | At&T Intellectual Property I, L.P. | Methods, systems, and products for personalized feedback |
WO2014096506A1 (en) * | 2012-12-21 | 2014-06-26 | Nokia Corporation | Method, apparatus, and computer program product for personalizing speech recognition |
EP3039386A4 (en) * | 2013-03-15 | 2017-01-18 | Dside Technologies LLC | System, method, and computer program product for comparing decision options |
US9953630B1 (en) * | 2013-05-31 | 2018-04-24 | Amazon Technologies, Inc. | Language recognition for device settings |
US20140365225A1 (en) * | 2013-06-05 | 2014-12-11 | DSP Group | Ultra-low-power adaptive, user independent, voice triggering schemes |
CN103399906B (zh) * | 2013-07-29 | 2015-07-29 | 百度在线网络技术(北京)有限公司 | 在进行输入时基于社会关系提供候选词的方法和装置 |
US9530416B2 (en) | 2013-10-28 | 2016-12-27 | At&T Intellectual Property I, L.P. | System and method for managing models for embedded speech and language processing |
US9666188B2 (en) | 2013-10-29 | 2017-05-30 | Nuance Communications, Inc. | System and method of performing automatic speech recognition using local private data |
US9607081B2 (en) | 2013-11-15 | 2017-03-28 | Red Hat, Inc. | Ontology based categorization of users |
US20150161999A1 (en) * | 2013-12-09 | 2015-06-11 | Ravi Kalluri | Media content consumption with individualized acoustic speech recognition |
US20150161986A1 (en) * | 2013-12-09 | 2015-06-11 | Intel Corporation | Device-based personal speech recognition training |
US9842592B2 (en) | 2014-02-12 | 2017-12-12 | Google Inc. | Language models using non-linguistic context |
US9412365B2 (en) | 2014-03-24 | 2016-08-09 | Google Inc. | Enhanced maximum entropy models |
US9633649B2 (en) | 2014-05-02 | 2017-04-25 | At&T Intellectual Property I, L.P. | System and method for creating voice profiles for specific demographics |
US9564123B1 (en) * | 2014-05-12 | 2017-02-07 | Soundhound, Inc. | Method and system for building an integrated user profile |
US9997157B2 (en) * | 2014-05-16 | 2018-06-12 | Microsoft Technology Licensing, Llc | Knowledge source personalization to improve language models |
US9913100B2 (en) | 2014-05-30 | 2018-03-06 | Apple Inc. | Techniques for generating maps of venues including buildings and floors |
US9402161B2 (en) | 2014-07-23 | 2016-07-26 | Apple Inc. | Providing personalized content based on historical interaction with a mobile device |
US10073828B2 (en) * | 2015-02-27 | 2018-09-11 | Nuance Communications, Inc. | Updating language databases using crowd-sourced input |
US10134394B2 (en) | 2015-03-20 | 2018-11-20 | Google Llc | Speech recognition using log-linear model |
CN111552416A (zh) | 2015-04-13 | 2020-08-18 | 华为技术有限公司 | 启动任务管理界面的方法、装置及设备 |
US9922138B2 (en) * | 2015-05-27 | 2018-03-20 | Google Llc | Dynamically updatable offline grammar model for resource-constrained offline device |
US9529500B1 (en) | 2015-06-05 | 2016-12-27 | Apple Inc. | Application recommendation based on detected triggering events |
DE102015211101A1 (de) * | 2015-06-17 | 2016-12-22 | Volkswagen Aktiengesellschaft | Spracherkennungssystem sowie Verfahren zum Betreiben eines Spracherkennungssystems mit einer mobilen Einheit und einem externen Server |
US10008199B2 (en) | 2015-08-22 | 2018-06-26 | Toyota Motor Engineering & Manufacturing North America, Inc. | Speech recognition system with abbreviated training |
CN108604237B (zh) | 2015-12-01 | 2022-10-14 | 英特吉姆公司股份有限公司 | 个性化交互式智能搜索方法和系统 |
US9978367B2 (en) | 2016-03-16 | 2018-05-22 | Google Llc | Determining dialog states for language models |
WO2018049430A2 (en) * | 2016-08-11 | 2018-03-15 | Integem Inc. | An intelligent interactive and augmented reality based user interface platform |
US10832664B2 (en) | 2016-08-19 | 2020-11-10 | Google Llc | Automated speech recognition using language models that selectively use domain-specific model components |
US10181321B2 (en) | 2016-09-27 | 2019-01-15 | Vocollect, Inc. | Utilization of location and environment to improve recognition |
US10846779B2 (en) | 2016-11-23 | 2020-11-24 | Sony Interactive Entertainment LLC | Custom product categorization of digital media content |
US10860987B2 (en) | 2016-12-19 | 2020-12-08 | Sony Interactive Entertainment LLC | Personalized calendar for digital media content-related events |
KR20180070970A (ko) * | 2016-12-19 | 2018-06-27 | 삼성전자주식회사 | 음성 인식 방법 및 장치 |
US10311860B2 (en) | 2017-02-14 | 2019-06-04 | Google Llc | Language model biasing system |
CN107507612B (zh) * | 2017-06-30 | 2020-08-28 | 百度在线网络技术(北京)有限公司 | 一种声纹识别方法及装置 |
US10719592B1 (en) | 2017-09-15 | 2020-07-21 | Wells Fargo Bank, N.A. | Input/output privacy tool |
US10931991B2 (en) | 2018-01-04 | 2021-02-23 | Sony Interactive Entertainment LLC | Methods and systems for selectively skipping through media content |
US10719832B1 (en) | 2018-01-12 | 2020-07-21 | Wells Fargo Bank, N.A. | Fraud prevention tool |
CN112334975A (zh) * | 2018-06-29 | 2021-02-05 | 索尼公司 | 信息处理设备、信息处理方法和程序 |
CN109086273B (zh) * | 2018-08-14 | 2022-04-15 | 北京猿力未来科技有限公司 | 基于神经网络解答语法填空题的方法、装置和终端设备 |
US11232783B2 (en) * | 2018-09-12 | 2022-01-25 | Samsung Electronics Co., Ltd. | System and method for dynamic cluster personalization |
KR20200052612A (ko) * | 2018-11-07 | 2020-05-15 | 삼성전자주식회사 | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 |
RU2744063C1 (ru) | 2018-12-18 | 2021-03-02 | Общество С Ограниченной Ответственностью "Яндекс" | Способ и система определения говорящего пользователя управляемого голосом устройства |
US11727925B2 (en) * | 2020-10-13 | 2023-08-15 | Google Llc | Cross-device data synchronization based on simultaneous hotword triggers |
CN113177114B (zh) * | 2021-05-28 | 2022-10-21 | 重庆电子工程职业学院 | 一种基于深度学习的自然语言语义理解方法 |
CN115544994B (zh) * | 2022-12-01 | 2023-05-05 | 爱集微咨询(厦门)有限公司 | 数据推送方法、装置、电子设备以及可读存储介质 |
Family Cites Families (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5915001A (en) * | 1996-11-14 | 1999-06-22 | Vois Corporation | System and method for providing and using universally accessible voice and speech data files |
US6167377A (en) * | 1997-03-28 | 2000-12-26 | Dragon Systems, Inc. | Speech recognition language models |
US6418431B1 (en) * | 1998-03-30 | 2002-07-09 | Microsoft Corporation | Information retrieval and speech recognition based on language models |
US20050091057A1 (en) * | 1999-04-12 | 2005-04-28 | General Magic, Inc. | Voice application development methodology |
US6665644B1 (en) * | 1999-08-10 | 2003-12-16 | International Business Machines Corporation | Conversational data mining |
JP2001188784A (ja) * | 1999-12-28 | 2001-07-10 | Sony Corp | 会話処理装置および方法、並びに記録媒体 |
US20030078779A1 (en) * | 2000-01-04 | 2003-04-24 | Adesh Desai | Interactive voice response system |
US6510417B1 (en) * | 2000-03-21 | 2003-01-21 | America Online, Inc. | System and method for voice access to internet-based information |
US7096185B2 (en) * | 2000-03-31 | 2006-08-22 | United Video Properties, Inc. | User speech interfaces for interactive media guidance applications |
US20020046030A1 (en) * | 2000-05-18 | 2002-04-18 | Haritsa Jayant Ramaswamy | Method and apparatus for improved call handling and service based on caller's demographic information |
US6687696B2 (en) | 2000-07-26 | 2004-02-03 | Recommind Inc. | System and method for personalized search, information filtering, and for generating recommendations utilizing statistical latent class models |
EP1215661A1 (en) * | 2000-12-14 | 2002-06-19 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Mobile terminal controllable by spoken utterances |
GB2372864B (en) * | 2001-02-28 | 2005-09-07 | Vox Generation Ltd | Spoken language interface |
US6848542B2 (en) * | 2001-04-27 | 2005-02-01 | Accenture Llp | Method for passive mining of usage information in a location-based services system |
US7013275B2 (en) * | 2001-12-28 | 2006-03-14 | Sri International | Method and apparatus for providing a dynamic speech-driven control and remote service access system |
US20030171931A1 (en) * | 2002-03-11 | 2003-09-11 | Chang Eric I-Chao | System for creating user-dependent recognition models and for making those models accessible by a user |
US7099825B1 (en) * | 2002-03-15 | 2006-08-29 | Sprint Communications Company L.P. | User mobility in a voice recognition environment |
EP1400953B1 (en) * | 2002-09-12 | 2013-03-20 | me2me AG | Method for building speech and/or language recognition models |
US7584102B2 (en) * | 2002-11-15 | 2009-09-01 | Scansoft, Inc. | Language model for use in speech recognition |
-
2005
- 2005-11-25 EP EP09166619.8A patent/EP2109097B1/en active Active
- 2005-11-25 DE DE602005015984T patent/DE602005015984D1/de active Active
- 2005-11-25 ES ES05111345T patent/ES2330758T3/es active Active
- 2005-11-25 EP EP05111345A patent/EP1791114B1/en active Active
- 2005-11-25 AT AT05111345T patent/ATE439665T1/de active
-
2006
- 2006-11-21 US US11/602,524 patent/US8005680B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
ATE439665T1 (de) | 2009-08-15 |
DE602005015984D1 (de) | 2009-09-24 |
EP1791114A1 (en) | 2007-05-30 |
US8005680B2 (en) | 2011-08-23 |
US20070124134A1 (en) | 2007-05-31 |
EP2109097B1 (en) | 2014-03-19 |
EP1791114B1 (en) | 2009-08-12 |
EP2109097A1 (en) | 2009-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2330758T3 (es) | Procedimiento para personalizar un servicio. | |
US20220319517A1 (en) | Electronic personal interactive device | |
US9786281B1 (en) | Household agent learning | |
CN110998725B (zh) | 在对话中生成响应 | |
US9053096B2 (en) | Language translation based on speaker-related information | |
US20130144619A1 (en) | Enhanced voice conferencing | |
KR20190096304A (ko) | 대화 내용에 대한 요약문 생성 장치 및 방법 | |
US20220188361A1 (en) | Voice-based Auto-Completions and Auto-Responses for Assistant Systems | |
US11074916B2 (en) | Information processing system, and information processing method | |
US11562744B1 (en) | Stylizing text-to-speech (TTS) voice response for assistant systems | |
CN109829039A (zh) | 智能聊天方法、装置、计算机设备及存储介质 | |
US20080240379A1 (en) | Automatic retrieval and presentation of information relevant to the context of a user's conversation | |
KR20200059054A (ko) | 사용자 발화를 처리하는 전자 장치, 및 그 전자 장치의 제어 방법 | |
Neustein | Advances in speech recognition: mobile environments, call centers and clinics | |
US20220366904A1 (en) | Active Listening for Assistant Systems | |
Nadeak et al. | AN ANALYSIS OF ILLOCUTIONARY ACT AND PERLOCUTIONARY ACT OF JUDY HOPPS'UTTERANCES IN ZOOTOPIA MOVIE (2016) | |
US11381675B2 (en) | Command based interactive system and a method thereof | |
CN114155460A (zh) | 用户类型识别的方法、装置、计算机设备以及存储介质 | |
CN110390938A (zh) | 基于声纹的语音处理方法、装置和终端设备 | |
KR20240073991A (ko) | 음성 합성 서비스 제공 방법 및 그 시스템 | |
Cave | How People Living With Amyotrophic Lateral Sclerosis Use Personalized Automatic Speech Recognition Technology to Support Communication | |
CN117131191A (zh) | 互动账号评论方法及装置 | |
CN117275453A (zh) | 使用用户特定的语音模型呈现文本消息的方法 | |
CN114168706A (zh) | 智能对话能力测试方法、介质和测试设备 |