ES2323786T3 - Sistemas y metodos para buscar utilizando preguntas escritas en un conjunto de caracteres y/o idioma distinto al de las paginas objetivo. - Google Patents
Sistemas y metodos para buscar utilizando preguntas escritas en un conjunto de caracteres y/o idioma distinto al de las paginas objetivo. Download PDFInfo
- Publication number
- ES2323786T3 ES2323786T3 ES04783836T ES04783836T ES2323786T3 ES 2323786 T3 ES2323786 T3 ES 2323786T3 ES 04783836 T ES04783836 T ES 04783836T ES 04783836 T ES04783836 T ES 04783836T ES 2323786 T3 ES2323786 T3 ES 2323786T3
- Authority
- ES
- Spain
- Prior art keywords
- term
- format
- anchor text
- search
- given
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
- G06F16/24522—Translation of natural language queries to structured queries
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2452—Query translation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/958—Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
- G06F16/972—Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/02—Input arrangements using manually operated switches, e.g. using keyboards or dials
- G06F3/023—Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
- G06F3/0233—Character input methods
- G06F3/0237—Character input methods using prediction or retrieval techniques
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
-
- G—PHYSICS
- G06—COMPUTING OR CALCULATING; COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Information Transfer Between Computers (AREA)
- Input From Keyboards Or The Like (AREA)
- Telephonic Communication Services (AREA)
Abstract
Un método que comprende: la identificación (904) de un primer conjunto de texto de anclaje escrito en un primer formato y conteniendo un término dado; la identificación (906) de un conjunto de documentos hacia los cuales apunta el primer conjunto de texto de anclaje; la identificación (908) de un segundo conjunto de texto de anclaje escrito en un segundo formato, y apuntando al conjunto identificado de documentos; el análisis (910) del segundo conjunto de texto de anclaje para determinar que una representación del término dado en el primer formato se corresponde a la representación de un término dado en el segundo formato.
Description
Sistemas y métodos para buscar utilizando
preguntas escritas en un conjunto de caracteres y/o idioma distinto
al de las páginas objetivo.
La presente invención está relacionada en
general con la búsqueda y recuperación de información. Más
concretamente, se describen sistemas y métodos para realizar
búsquedas utilizando preguntas o consultas que están escritas en un
conjunto de caracteres o idioma que es distinto del conjunto de
caracteres o idioma de al menos alguno de los documentos que se
están buscando.
La mayor parte de los motores de búsqueda operan
bajo la suposición de que el usuario final está introduciendo las
preguntas o consultas de búsqueda, utilizando un teclado
convencional, en donde no es difícil la entrada de cadenas
alfanuméricas. Sin embargo, conforme llegan a ser ya comunes los
pequeños dispositivos, esta suposición no es siempre válida. Por
ejemplo, los usuarios pueden consultar motores de búsqueda con la
utilización de teléfonos radioeléctricos que soporten el sistema
WAP estándar (protocolo de aplicaciones radioeléctricas). Los
dispositivos tales como los teléfonos radioeléctricos tienen
típicamente una interfaz de entrada de datos, en donde una acción
en particular por parte del usuario (por ejemplo, la pulsación de
una tecla) puede corresponder a más de un carácter alfanumérico. La
descripción detallada de la arquitectura WAP se encuentra disponible
en
http://wwwl.wapforum.org/tech/documents/SPEC-WAPArch-19980439.pdf
("Especificación de la Arquitectura del protocolo de
aplicaciones radioeléctricas WAP 100").
En el caso usual, el usuario de WAP navega hacia
la página de consulta de búsqueda, y se le presenta un formato en
el cual se introduce su pregunta o consulta de búsqueda. Con los
métodos convencionales, se requiere al usuario que pulse múltiples
teclas para seleccionar una letra en particular. En el teclado de
un teléfono estándar, por ejemplo, el usuario seleccionaría la
letra "b" mediante la pulsación de la tecla "2" dos veces,
o bien seleccionaría la letra "s" por la pulsación de la
tecla "7" cuatro veces. En consecuencia, para introducir una
pregunta o consulta para "ben smith", el usuario necesitaría
normalmente la introducción de la siguiente cadena de pulsaciones
de las teclas:
223366077776444844, las cuales se
corresponderían con las letras según lo siguiente:
22 -> b
33 -> e
66 -> n
0 -> espacio
7777 -> s
6 -> m
444 -> i
8 -> t
44 -> h
\vskip1.000000\baselineskip
Después de que el usuario haya introducido su
pregunta o consulta de búsqueda, el motor de búsqueda recibe la
palabra o palabras procedentes del usuario, y procederá de la misma
forma que si recibiera la pregunta o consulta desde un navegador de
sobremesa, en donde el usuario hubiera utilizado un teclado
convencional.
Tal como puede observarse a partir del ejemplo
anterior, está forma de introducción de los datos es ineficiente
porque exige dieciocho pulsaciones de las teclas para poder
introducir los nueve caracteres alfanuméricos (incluyendo el
espacio) correspondientes a "ben smith".
Pueden surgir unas dificultades similares al
teclear preguntas o consultas con la utilización de teclados de
idiomas de no objetivo. Por ejemplo, el texto japonés puede ser
expresado con la utilización de una variedad de conjuntos de
caracteres distintos, con la inclusión de los caracteres haragana,
katakana, y kanji, en donde ninguno de los mismos pueden
introducirse fácilmente utilizando un teclado típico ASCII, que esté
basado en el alfabeto romano. En dicha situación, el usuario hará
uso frecuente de un procesador de textos tal como el Ichitaro,
producido por JustSystem Corporation de Tokushima City, Japón, que
es capaz de convertir el texto escrito en romaji (una
representación fonética del alfabeto romano del japonés) a katakana,
haragana, y kanji. Utilizando el procesador de textos, el usuario
puede teclear una pregunta o consulta en romaji, y después cortar y
pegar el texto traducido desde la pantalla del procesador de textos
a un recuadro de búsqueda en el navegador. Un inconveniente de esta
solución es que puede ser relativamente lenta y tediosa, y requiere
tener acceso a una copia del procesador de textos, la cual puede no
ser factible debido a las limitaciones de costo y/o memoria.
Queda pendiente, por tanto, la necesidad de
métodos y aparatos para proporcionar unos resultados de búsqueda
relevantes en respuesta a una pregunta o consulta de búsqueda
eficiente.
El documento
EP-A-597611 expone un sistema de
análisis de documentos que gestiona los documentos en dos
formatos.
La invención está expuesta en la reivindicación
1.
Los métodos y aparatos descritos aquí
ampliamente, proporcionan unos resultados relevantes de la búsqueda,
en respuesta a una pregunta o consulta de búsqueda ambigua. En
forma compatible con la invención, dicho método incluye la
recepción de una secuencia de componentes de información ambigua por
parte del usuario. El método obtiene información de correspondencia
que se corresponde con los componentes de información ambigua hacia
unos componentes de información menos ambigua. Esta información de
correspondencia se utiliza para traducir la secuencia de
componentes de información ambigua en una o más secuencias
correspondientes de componentes de información menos ambigua. Una o
más de estas secuencias de información menos ambigua se proporcionan
como una entrada a un motor de búsqueda. Los resultados de la
búsqueda se obtienen del motor de búsqueda y son presentados al
usuario.
Además de ello, se exponen sistemas y métodos
para realizar búsquedas utilizando preguntas o consultas que se
expresen en conjuntos de caracteres o idiomas que sean diferentes
del conjunto de caracteres o idiomas de al menos algunos de los
documentos en los que tenga que realizarse la búsqueda. Las
realizaciones de la presente invención permitir al usuario el poder
teclear las preguntas o consultas utilizando dispositivos estándar
de entrada (por ejemplo, teclados ASCII), en donde se obtienen las
consultadas traducidas a formatos relevantes en un servidor (por
ejemplo, traducir una pregunta o consulta escrita en romaji a
katakana, haragana, y/o kanji), y poder recibir los resultados de la
búsqueda basándose en los formatos convertidos.
Se observará que la presente invención puede ser
implementada de numerosas formas, incluyendo como un proceso, un
aparato, un sistema, un dispositivo, un método, o bien un medio
legible por ordenador, tal como un medio de almacenamiento legible
por ordenador, onda portadora, o una red de ordenadores en donde las
instrucciones del programa se envían a través de líneas de
comunicación ópticas o electrónicas. Se describen más adelante
varias realizaciones de la invención.
En una realización se describe un método para
traducir automáticamente los términos de la pregunta o consulta
desde un idioma y/o conjunto de caracteres a otro. Un primer
conjunto de texto de anclaje conteniendo un termino de pregunta o
consulta dado, son como un conjunto de documentos (por ejemplo,
páginas Web) al cual apunta el texto de anclaje. Un segundo
conjunto de texto de anclaje, escrito en un segundo formato y
apuntando al mismo conjunto de documentos, queda de esta forma
identificado. El segundo conjunto de texto de anclaje es entonces
analizado, para poder obtener una probabilidad en donde una
representación del término dado de la pregunta o consulta en el
primer formato pueda corresponder a una representación del término
dado de la pregunta o consulta en el segundo formato.
Incluso en otra realización, una pregunta o
consulta provista en un primer idioma o conjunto de caracteres es
traducida a una segunda lengua o conjunto de caracteres, mediante la
comparación del texto de anclaje que contiene uno o más de los
términos de la pregunta o consulta y que están escritos en el primer
idioma o conjunto de caracteres con el texto de anclaje que
corresponde al primer texto de anclaje y que está escrito en el
segundo idioma o conjunto de caracteres.
En otra realización, se proporciona un producto
de un programa de ordenador para traducir un término escrito en un
primer formato a un segundo formato. El producto del programa de
ordenador es operativo para provocar que un sistema de ordenadores
identifique el texto de anclaje alineado, y para determinar una
probabilidad de que una representación de un término dado en el
primer formato se corresponda con uno o más términos en el segundo
formato.
En otra realización, se proporciona un método
para ejecutar búsquedas utilizando preguntas o consultas
potencialmente ambiguas. Cuando un usuario introduzca una pregunta
o consulta en un primer formato, se traducirá a un grupo de una o
más variantes en un segundo formato. Se ejecuta entonces una
búsqueda utilizando las variantes traducidas, y retornando la
información sensible al usuario. Por ejemplo, el primer formato
podría comprender una secuencia de números introducidos utilizando
un teclado de teléfono, y el segundo formato podría comprender un
texto alfanumérico (por ejemplo, inglés, romaji, romaja, pinyin, o
similares). En algunas realizaciones, el grupo de una o más
variantes se selecciona, mediante el descarte de variantes
traducidas que no aparezcan en un léxico predefinido, y/o que
contienen combinaciones de caracteres predefinidos de baja
probabilidad. En algunas realizaciones, se utiliza un diccionario
probabilística para traducir adicionalmente el grupo de una o más
variantes en un tercer formato antes de ejecutar la búsqueda. Por
ejemplo, el diccionario probabilística puede ser utilizado para
traducir el grupo de una o más variantes desde el romaji, romaja, o
pinyin, a kanji, katakana, haragana, hangul, hanja, o caracteres
chinos tradicionales, y la búsqueda puede ejecutarse entonces
utilizando las variantes traducidas.
Estas y otras características y ventajas de la
presente invención se presentarán con más detalle en la siguiente
descripción detallada y en las figuras adjuntas, las cuales ilustran
a modo de ejemplo los principios de la invención.
Los dibujos adjuntos que se incorporan y que
constituyen una parte de esta memoria descriptiva, ilustran las
realizaciones de la invención, y que conjuntamente con la
descripción, sirven para explicar las ventajas y principios de la
invención. En los dibujos:
la figura 1 ilustra un diagrama de bloques de un
sistema en el cual pueden implementarse métodos y aparatos
compatibles con la presente invención;
la figura 2 ilustra un diagrama de bloques de un
dispositivo de cliente, compatible con la invención;
la figura 3 ilustra un diagrama que describe
tres documentos;
la figura 4a ilustra un índice alfanumérico
convencional;
la figura 4b ilustra un diagrama de flujo para
proporcionar los resultados de la búsqueda en respuesta a una
pregunta o consulta de búsqueda alfanumérica convencional;
la figura 5a ilustra un diagrama de flujo,
compatible con la invención, para proporcionar los resultados de la
búsqueda, en respuesta a una pregunta o consulta de búsqueda
ambigua;
la figura 5b ilustra un diagrama para la
correspondencia de información alfanumérica con la información
numérica; y
la figura 6 ilustra otro diagrama de flujo,
compatible con la invención, para proporcionar resultados de la
búsqueda en respuesta a una pregunta o consulta de búsqueda
ambigua.
La figura 7 ilustra un método para ejecutar una
búsqueda de acuerdo con las realizaciones de la presente
invención.
La figura 8 ilustra un diccionario
probabilística de traducciones de conjuntos de caracteres.
La figura 9 ilustra el uso de texto de anclaje
paralelo para construir un diccionario probabilístico.
La figura 10 ilustra una recolección de
documentos enlazados utilizando el texto de anclaje.
Las figuras 11A y 11B ilustran el cálculo de
traducciones probables basándose en el texto de anclaje mostrado en
la figura 10.
La figura 12 muestra una distribución de
probabilidad asociada con una traducción de palabras
ilustrativas.
Se hará ahora referencia con detalle a las
realizaciones de la presente invención según lo ilustrado en los
dibujos adjuntos. Los mismo números de referencia pueden utilizarse
a través de la totalidad de los dibujos y de la siguiente
descripción para referirse a las mismas partes o similares. La
siguiente descripción se presenta para permitir que cualquier
persona en la técnica pueda hacer realizar y utilizar el cuerpo
operativo de la invención. Las descripciones de las realizaciones
específicas y aplicaciones se proporcionan solamente como ejemplos,
y las distintas modificaciones podrán ser evidentes fácilmente para
los técnicos especializados en la técnica. Por ejemplo, aunque
muchos de los ejemplos se describen en el contexto de páginas Web de
Internet, se comprenderá que las realizaciones de la invención
presente podrían utilizarse para buscar otros tipos de documentos
y/o información, tales como libros, periódicos, revistas o
similares. De forma similar, aunque en aras de la ilustración
muchos de los ejemplos describen la traducción de texto japonés de
romaji a katakana, haragana, y/o kanji, los técnicos especializados
en la técnica apreciarán que los sistemas y métodos de la presente
invención podrán aplicarse a cualquier traducción adecuada. Por
ejemplo, sin limitación alguna, las realizaciones de la presente
invención podrían utilizarse para buscar texto escrito, por ejemplo,
con caracteres chinos tradicionales o caracteres coreanos en hangul
o hanja, basándose en las preguntas o consultas recibidas en algún
otro formato (por ejemplo, pinyin o romaja). Los principios
generales aquí descritos podrán aplicarse a otras realizaciones y
aplicaciones sin desviarse del espíritu y alcance de la invención.
Así pues, la presente invención tiene que estar de acuerdo con el
alcance más amplio, abarcando numerosas alternativas,
modificaciones y equivalentes compatibles con los principios y
características aquí expuestos. Con los fines de la claridad, los
detalles relacionados con el material técnico que es conocido en los
campos relacionados con la invención, no han sido descritos con
detalle, con el fin de no oscurecer innecesariamente la presente
invención.
Los métodos y aparatos compatibles con la
invención permiten a un usuario el proponer una pregunta o consulta
de búsqueda ambigua, y recibir unos resultados de búsqueda
potencialmente sin ambigüedad. En una realización, una secuencia de
números recibidos de un usuario de un teclado de teléfono estándar
se traduce a un conjunto de secuencias alfanuméricas potencialmente
correspondientes. Estas secuencias alfanuméricas correspondientes
se proporcionan como una entrada a un motor de búsqueda
convencional, utilizando una expresión booleriana "O". De esta
forma el motor de búsqueda se utiliza para ayudar a limitar los
resultados de la búsqueda en la cual se interesó probablemente el
usuario.
La figura 1 ilustra un sistema 100 en el cual
pueden ser implementados métodos y aparatos compatibles con la
presente invención. El sistema 100 puede incluir múltiples
dispositivos de cliente 110 conectados a múltiples servidores 120 y
130 por medio de una red 140. La red 140 puede incluir una red de
área local (LAN), una red de área amplia (WAN), una red telefónica,
tal como la red telefónica conmutada pública (PSTN), una intrared,
Internet., o una combinación de redes. Se han ilustrado dos
dispositivos 110 de cliente, y tres servidores 120 y 130,
conectados a la red 140 en aras de la simplicidad. En la práctica,
pueden existir más o menos dispositivos de clientes y servidores.
Así mismo, en algunos casos, un dispositivo de cliente puede
ejecutar las funciones de un servidor, y un servidor puede ejecutar
las funciones de un dispositivo de cliente.
Los dispositivos de cliente 110 pueden incluir
dispositivos, tales como grandes ordenadores, miniordenadores,
ordenadores personales, ordenadores portátiles, asistentes
personales digitales (PDA), o similares, capaces de conectar con la
red 140. Los dispositivos de cliente 110 pueden transmitir datos a
través de la red 140 o bien recibir datos de la red 140 a través de
una conexión cableada, radioeléctrica o bien de tipo óptico.
La figura 2 ilustra un dispositivo 110 de
cliente a modo de ejemplo, compatible con la presente invención. El
dispositivo de cliente 110 puede incluir un bus 210, un procesador
220, una memoria principal 230, una memoria de solo lectura (ROM)
240, un dispositivo de almacenamiento 250, un dispositivo de entrada
260, un dispositivo de salida 270 y una interfaz de comunicaciones
280.
El bus 210 puede incluir uno o más buses
convencionales que permitan la comunicación entre los componentes
del dispositivo de cliente 110. El procesador 220 puede incluir
cualquier tipo de procesador o microprocesador convencional que
interprete y ejecute instrucciones. La memoria principal 230 puede
incluir una memoria de acceso aleatorio (RAM) o bien otro tipo de
dispositivo de almacenamiento dinámico, que almacene información e
instrucciones para su ejecución por el procesador 220. La memoria
ROM 240 puede incluir un dispositivo ROM convencional o bien otro
tipo de dispositivo de almacenamiento estático, que almacene
información e instrucciones estáticas para su utilización por el
procesador 220. El dispositivo de almacenamiento 250 puede incluir
un medio de grabación magnético y/u óptico y su unidad operativa
correspondiente.
El dispositivo de entrada 260 puede incluir uno
o más mecanismos convencionales que permitan a un usuario el poder
introducir información en el dispositivo de cliente 110, tal como un
teclado, un ratón, un lápiz, mecanismos de reconocimiento de voz
y/o de tipo biométrico, etc. El dispositivo de salida 270 puede
incluir uno o más mecanismos convencionales que proporcionen salida
de la información hacia el usuario, incluyendo una pantalla, una
impresora, un altavoz, etc. La interfaz de comunicaciones 280 puede
incluir cualquier mecanismo similar a un transceptor que permita al
dispositivo de cliente 110 el poder comunicar con otros dispositivos
y/o sistemas. Por ejemplo, la interfaz de comunicaciones 280 puede
incluir mecanismos para la comunicación con otro dispositivo o
sistema a través de una red, tal como la red 140.
Tal como se describirá con detalle más adelante,
los dispositivos de cliente 110, compatibles con la presente
invención, ejecutan ciertas operaciones relacionadas con la
búsqueda. Los dispositivos 110 de cliente pueden ejecutar estas
operaciones en respuesta a un procesador 220 al ejecutar las
instrucciones de software contenidas en un medio legible por
ordenador, tal como la memoria 230. Un medio legible por ordenador
puede ser definido como uno o más dispositivos de memoria y/o bien
ondas portadoras. Las instrucciones de software pueden ser leídas
en la memoria 230 desde otro medio legible por ordenador, tal como
el dispositivo 250 de almacenamiento de datos, o desde otro
dispositivo a través del dispositivo 280 de comunicaciones. Las
instrucciones de software contenidas en la memoria 230 provocan que
el procesador 220 ejecute las actividades relacionadas con la
búsqueda descrita más adelante. Alternativamente, pueden utilizarse
circuitos físicos cableados en lugar o en combinación con las
instrucciones de software, para implementar procesos compatibles con
la presente invención. Así pues, la presente invención no está
limitada a cualquier combinación específica del circuito físico y
del software.
Los servidores 120 y 130 pueden incluir uno o
más tipos de sistemas de ordenadores, tal como un ordenador
central, miniordenador, o bien un ordenador personal, capaz de
conectar con la red 140, para habilitar a que los servidores 120 y
130 puedan comunicar con los dispositivos de cliente 110. En las
implementaciones alternativas, los servidores 120 y 130 pueden
incluir mecanismos para conectar directamente con uno o más
dispositivos de cliente 110. Los servidores 120 y 130 pueden
transmitir datos a través de la red 140, o bien recibir datos de la
red 140 a través de una conexión cableada, radioeléctrica ú
óptica.
Los servidores pueden estar configurados de una
forma similar a la descrita anteriormente con referencia a la
figura 2 par el dispositivo 110 de cliente. En una implementación
compatible con la presente invención, el servidor 120 puede incluir
un motor de búsqueda 125 utilizable por los dispositivos 110 de
cliente. Los servidores 130 pueden almacenar documentos (o páginas
Web) accesibles por los dispositivos 110 de cliente.
La figura 3 ilustra un diagrama que describe
tres documentos, los cuales pueden almacenarse por ejemplo en uno
de los servidores 130.
Un primer documento (Documento 1) contiene dos
entradas - -"reparación de coches"- - y que está
numerado con "3" en su parte inferior. Un segundo documento
(Documento 2) contiene la entrada "Alquiler de vídeos". Un
tercer documento (Documento 3) contiene tres entradas de
- -"vino", "champagne", y "artículos de
bar"- - que incluye un enlace (o referencia) al Documento
2.
En aras de la simplicidad ilustrativa, los
documentos mostrados en la figura 3 contienen solamente cadenas
alfanuméricas de información (por ejemplo, "coche",
"reparación", "vino", etc.). Los técnicos especializados
en la técnica reconocerán, sin embargo, que en otras situaciones los
documentos podrían contener otros tipos de información, tal como la
información de fonética, o bien audiovisual.
La figura 4a ilustra un índice alfanumérico
convencional, basado en los documentos mostrados en la figura 3. La
primera columna del índice contiene una lista de términos
alfanuméricos, y la segunda columna contiene una lista de los
documentos correspondiente a dichos términos. Algunos términos,
tales como el termino "3" alfanumérico, solo corresponde (por
ejemplo, aparece) en un documento, en este caso en el Documento 1.
Otros términos, tales como "alquiler", corresponde a múltiples
documentos, en este caso en los Documentos 1 y 2.
La figura 4b ilustra la forma en que un motor de
búsqueda convencional, tal como el motor de búsqueda 125,
utilizaría el índice ilustrado en la figura 4a para proporcionar
resultados de la búsqueda, en respuesta a una pregunta o consulta
de búsqueda alfanumérica. La pregunta o consulta alfanumérica puede
ser generada utilizando cualquier técnica convencional. Para los
fines de la ilustración, la figura 4b describe dos preguntas o
consultas alfanuméricas: "coche" y "vino". Bajo una
solución convencional, el motor de búsqueda 125 recibe una pregunta
o consulta alfanumérica, tal como "coche" (etapa 410), y
utiliza el índice alfanumérico para determinar cuales son los
documentos que corresponden a dicha pregunta o consulta (etapa 420).
En este ejemplo, un motor 125 de búsqueda convencional utilizaría
el índice ilustrado en la figura 4a, para determinar que
"coche" corresponderá al Documento 1, y retornaría el
Documento 1 (o una referencia al mismo) al usuario como un resultado
de la búsqueda. De forma similar, un motor de búsqueda convencional
determinaría que "vino" corresponderá al Documento 3 y
retornaría el Documento 3 (o una referencia al mismo) al usuario
(etapa 430).
La figura 5a ilustra un diagrama de flujo,
compatible con la invención, de una técnica preferida para
proporcionar resultados de búsquedas, en respuesta a una pregunta o
consulta de búsqueda numérica, basándose en los documentos y el
índice mostrados en las figuras 3 y 4a, respectivamente. En aras de
la claridad de exposición, la figura 5a describe una técnica en
particular para procesar una pregunta o consulta numérica, basándose
en la correspondencia o mapeado con un teléfono de mano estándar;
no obstante, los técnicos especializados en la técnica reconocerán
que pueden utilizarse otras técnicas compatibles con la
invención.
En la etapa 510, la secuencia "227"
(consistente en los componentes numéricos "2", "2" y
"7") es recibida procedente de un usuario. En la etapa 520, se
obtiene la información de cómo los componentes numéricos se
corresponden con letras. Suponiendo que el usuario introdujo la
información desde un teclado de teléfono estándar, esta información
de correspondencia o mapeado se muestra en la figura 5b. Tal como se
muestra en la figura 5b, las letras "a", "b", y "c"
se corresponden cada una con el numero "1", las letras
"p", "q", "r", y "s" se corresponden cada una
con el numero "7", y así sucesivamente.
En la etapa 530, utilizando esta información de
mapeado o correspondencia, la secuencia "227" se traduce a sus
equivalentes potenciales alfanuméricos. Basándose en la información
mostrada en la figura 5b, existen 36 combinaciones posibles de
letras, que corresponden a la secuencia "227", incluyendo las
siguientes: aap, bap, cap, abp,
bbp, ... bar ... coche ... ccs. Si los números están incluidos en las posibles combinaciones (por ejemplo, "aa7") entonces existirían 80 combinaciones posibles. En lugar de generar todos los posibles equivalentes alfanuméricos, puede ser deseable el limitar los equivalentes generados basándose en algún léxico. Por ejemplo, puede ser deseable generar solo aquellos equivalentes alfanuméricos que puedan aparecer en un diccionario, en un registro de motores de búsqueda de las preguntas o consultas de búsqueda previas, etc.; o bien por el contrario limitar los equivalentes alfanuméricos mediante la utilización de técnicas estadísticas conocidas (por ejemplo, la probabilidad de ciertas palabras que aparezcan conjuntamente).
bbp, ... bar ... coche ... ccs. Si los números están incluidos en las posibles combinaciones (por ejemplo, "aa7") entonces existirían 80 combinaciones posibles. En lugar de generar todos los posibles equivalentes alfanuméricos, puede ser deseable el limitar los equivalentes generados basándose en algún léxico. Por ejemplo, puede ser deseable generar solo aquellos equivalentes alfanuméricos que puedan aparecer en un diccionario, en un registro de motores de búsqueda de las preguntas o consultas de búsqueda previas, etc.; o bien por el contrario limitar los equivalentes alfanuméricos mediante la utilización de técnicas estadísticas conocidas (por ejemplo, la probabilidad de ciertas palabras que aparezcan conjuntamente).
En la etapa 540, estos equivalentes
alfanuméricos se proporcionan como una entrada al motor de búsqueda
convencional, tales como los descritos con referencia a las figuras
4a y 4b, utilizando una operación lógica "O". Por ejemplo, la
pregunta o consulta de búsqueda proporcionada al motor de búsqueda
podría ser "aap O bap O cap O abp ... O bar ... O coche".
Aunque pueden proporcionarse al motor de búsqueda todos los posibles
equivalentes alfanuméricos, un subconjunto puede en su lugar
utilizarse mediante el uso de técnicas convencionales, para eliminar
equivalentes improbables. Por ejemplo, se podría generar una lista
más estrecha de posibles combinaciones, mediante el uso de técnicas
que utilizaran la información probabilística sobre el uso de letras
o palabras: se podrían ignorar las combinaciones que empezaran con
"qt", pero incluyendo (y favoreciendo) las combinaciones que
comenzaran con "qu".
En la etapa 550, los resultados de búsqueda se
obtienen a partir del motor de búsqueda. Debido a que los términos
tales como "aap" y "abp" no aparecen en el índice del
motor de búsqueda, se ignorarán realmente. En realidad, los únicos
términos contenidos dentro del índice mostrado en la figura 4b son
"coche" y "bar", y por tanto los únicos resultados de la
búsqueda retornados son aquellos que hacen referencia a los
Documentos 1 y 3. En la etapa 560, estos resultados de búsqueda se
presentan ante el usuario. Los resultados de la búsqueda pueden
ser presentados en el mismo orden proporcionado por el motor de
búsqueda, o bien pueden reordenarse basándose en consideraciones
tales como el idioma del usuario. Suponiendo que el usuario fuera el
único interesado en los documentos que contuvieran el término
"bar", el usuario recibiría un resultado no deseable (Documento
3) además del resultado deseado (Documento 1). Este puede ser un
precio aceptable a pagar, no obstante, con la ventaja de que el
usuario tenga solo que pulsar tres teclas para formular la pregunta
o consulta de búsqueda.
La figura 6 ilustra otro diagrama de flujo,
compatible con la invención, de una técnica preferida para
proporcionar resultados de búsquedas, en respuesta a la pregunta o
consulta de búsqueda numérica, basándose en los documentos y en el
índice mostrados en las figuras 3 y 4a, respectivamente. Este
diagrama de flujo demuestra la forma en donde al incrementar la
dimensión de la secuencia recibida se puede ayudar a limitar los
resultados de la búsqueda a los deseados por el usuario. En aras de
la claridad de exposición ilustrativa, la figura 6 describe de
nuevo una técnica en particular para procesar una pregunta o
consulta numérica basándose en la correspondencia o mapeado de un
teléfono de mano estándar; aunque los técnicos especializados en la
técnica reconocerán que pueden utilizarse otras técnicas
compatibles con la invención.
En la etapa 610, la secuencia "227 48367"
(que consiste en los componentes numéricos "2", "2",
"7", "4", "8", "3", "6", "7") es
recibida procedente del usuario. En aras de la simplificación de la
explicación, la secuencia "227" se denominará como
"palabra numérica" y la secuencia completa "227 48367" se
denominará como "frase numérica". Los posibles equivalentes
alfanuméricos de una palabra numérica se denominarán como
"palabras de letras" y los equivalentes posibles alfanuméricos
de una frase numérica se denominarán como "frases de
letras".
En la etapa 620, la información se obtiene en
torno a como los componentes numéricos se corresponden o se mapean
con las letras. Suponiendo que la misma información de
correspondencia se utiliza tal como se muestra en la figura 5b, en
la etapa 630, la frase numérica "227 48367" se traduce en las
frases de letras potencialmente correspondientes. Basándose en la
información mostrada en la figura 5b, existen 11664 posibles frases
de letras que se corresponden con la secuencia "227 48367".
En la etapa 640, las frases de letras se
proporcionan como una entrada a un motor de búsqueda convencional,
tal como el descrito con referencia a las figuras 4a y 4b,
utilizando una operación lógica "O". Por ejemplo, la pregunta
o consulta de búsqueda que se proporciona al motor de búsqueda
podría ser "`aap gtdmp' O `aap htdmp' ... O `artículos de
bar'". Aunque todas las frases de letras posibles pueden ser
suministradas al motor de búsqueda, puede en su lugar utilizarse un
subconjunto mediante la utilización de técnicas convencionales para
eliminar las frases de letras que sean improbables.
En la etapa 650, los resultados de la búsqueda
se obtienen a partir del motor de búsqueda. Debido a que muchos
motores de búsqueda están diseñados para que tengan un alto rango
los documentos que contengan la frase exacta, el Documento 3 sería
probablemente el resultado de búsqueda de más alto rango (es decir,
debido a que contiene la frase exacta de "artículos de bar").
Ningún otro documento en el ejemplo contiene una de las demás frases
de letras generadas en la etapa 620. Además de ello, muchos motores
de búsqueda rebajan el rango (o lo eliminan) de los resultados de
búsqueda que contengan partes individuales de una frase pero no la
frase completa. Por ejemplo, el Documento 1 se rebajaría en su
rango o se eliminaría debido a que contiene la palabra de letras
"coche", la cual corresponde a la primera parte de la frase de
letras, aunque no contiene ninguna palabra de letras que se
corresponda con la segunda parte de la frase de letras. Finalmente,
las frases de letras tales como "aap htdmp" se ignoran
realmente porque no contienen palabras de letras que aparezcan en el
índice del motor de búsqueda.
En la etapa 660, los resultados de la búsqueda
se presentan ante el usuario. En el ejemplo mostrado, el primer
resultado mostrado ante el usuario sería el Documento 3, el cual es
probablemente el más relevante para la pregunta o consulta del
usuario. El Documento 1 puede ser eliminado conjuntamente, porque no
contiene una de las posibles frases de letras. De esta forma, el
usuario está provisto con los resultados de búsqueda más
relevantes.
Aunque las descripciones anteriores con
referencia a las figuras 5 y 6 se realizan con referencia a la
información numérica recibida, y en correspondencia con la
información alfanumérica, los técnicos especializados en la técnica
reconocerán que son posibles otras implementaciones compatibles con
la invención. Por ejemplo, en lugar de recibir una secuencia de
números correspondientes a las teclas pulsadas por un usuario, la
secuencia recibida puede comprender las primeras letras
correspondientes a las teclas pulsadas por el usuario. En otras
palabras, en lugar de recibir "227", la secuencia recibida
puede ser "aap". En forma compatible con la invención, las
secuencias de letras equivalentes generadas en las etapas 530 ó 630
podrían ser otras secuencias de letras (por ejemplo, "bar")
que correspondan a "aap". En realidad, la secuencia recibida
puede contener elementos fonéticos, audiovisuales, o bien cualquier
otro tipo de componentes de información.
Independientemente del formato en el cual se
reciba la secuencia, se prefiere en general que la secuencia
recibida sea traducida a una secuencia que corresponda l formato en
el cual la información se almacene en el índice del motor de
búsqueda. Por ejemplo, si el índice del motor de búsqueda se
almacena en el formato alfanumérico, la secuencia recibida se
traduciría a secuencias alfanuméricas.
Adicionalmente, se prefiere en general que la
técnica de correspondencia o mapeado que se utilice para traducir
la secuencia recibida de los componentes de información sea la misma
técnica que se utilice en el dispositivo de usuario para realizar
la correspondencia o mapeado de la entrada del usuario en la
información generada por el dispositivo. No obstante, pueden ser
casos en que sea preferible utilizar una técnica de correspondencia
o mapeado distinta a la utilizada para la entrada del usuario.
Las realizaciones de la presente invención
pueden habilitar a los usuarios para poder ejecutar búsquedas
introducidas utilizando teclados de idiomas que no sean del
objetivo perseguido. Por ejemplo, una página Web que contenga un
texto japonés podrá ser escrita en kanji, mientras que un usuario
que intente buscar dicha página puede solamente tener acceso a un
teclado ASCII estándar (o teléfono de mano) basado en el alfabeto
Romano.
La figura 7 ilustra un método para ejecutar
dicha búsqueda. Tal como se muestra en la figura 7, un usuario
teclea una pregunta o consulta, utilizando un dispositivo de entrada
estándar (por ejemplo, un teclado ASCII, un teléfono de mano,
etc.), y envía la pregunta o consulta al motor de búsqueda. La
pregunta o consulta puede escribirse en un conjunto de caracteres
(por ejemplo, romaji) que sea distinto del conjunto de caracteres
en el cual algunos de los documentos sensibles estén escritos (por
ejemplo, kanji). El motor de búsqueda recibe la pregunta o consulta
(bloque 702), traduce la misma al formato(s) relevante
(bloque 704), y ejecuta una búsqueda de los documentos sensibles a
la pregunta o consulta traducida, atizando por ejemplo las técnicas
de búsqueda convencionales (bloque 706). El motor de búsqueda
retorna entonces una lista de documentos sensibles (y/o copias de
los propios documentos) al usuario (bloque 708). Por ejemplo, los
resultados podrían ser retornados al usuario de una forma similar a
la descrita antes en relación con la figura 6.
Tal como se muestra en la figura 7, la pregunta
o consulta del usuario se traduce preferiblemente en el servidor
del motor de búsqueda, en oposición al cliente, liberando así al
usuario de la necesidad de obtener un software de propósito
especial para poder ejecutar la traducción. No obstante, se
observará que en otras realizaciones, una parte o todas las
traducciones podrían ser ejecutadas en el cliente. Además de ello,
en algunas realizaciones la pregunta o consulta puede introducirse
utilizando un dispositivo tal como un teclado de teléfono. En tales
realizaciones, la pregunta o consulta inicial numérica puede
convertirse primeramente a un formato alfanumérico (por ejemplo,
romaji), utilizando las técnicas de mapeado o correspondencia
anteriormente descritas en relación con las figuras 5 y 6,
incluyendo por ejemplo la aplicación de un léxico y/o técnicas
probabilísticas para descartar los mapeados o correspondencias de
baja probabilidad (por ejemplo, los mapeados que incluyan
combinaciones de letras que no tengan presencia en romaji). Una vez
que se haya obtenido una traducción alfanumérica de la pregunta o
consulta, podrían ser ejecutadas el resto de las etapas mostradas
en la figura 7 (es decir, 704, 706 y 708).
La traducción de la pregunta o consulta desde un
conjunto de caracteres a otro (es decir el bloque 704 en la figura
7) puede ejecutarse en distintas formas. Una técnica es utilizar un
diccionario convencional estático de significados o traducciones de
las palabras, para mapear o hacer corresponder cada término en la
pregunta o consulta en un término correspondiente en el idioma del
objetivo o conjunto de caracteres. No obstante, un problema
existente con esta solución es que generará frecuentemente
resultados no precisos, puesto que las palabras son frecuentemente
ambiguas, y las preguntas o consultas serán con frecuencia demasiado
cortas para poder proporcionar indicios contextuales adecuados para
poder resolver esta ambigüedad. Por ejemplo, la palabra
"banco" puede referirse a la orilla del río, o a una
institución financiera, o a una maniobra de un aeroplano, haciendo
así difícil el traducir con precisión en lo abstracto. Además de
ello, si el diccionario no es relativamente grande y/o actualizado
frecuentemente, podrá no contener entradas para todos los términos
que el motor de búsqueda pueda encontrar, tal como palabras apenas
utilizadas, argot, modismos, nombres propios o similares.
Las realizaciones de la presente invención
pueden utilizarse para solucionar o atenuar algunos o todos estos
problemas, mediante el uso de un diccionario probabilístico para
traducir los términos de la pregunta o consulta desde un idioma o
conjunto de caracteres (por ejemplo, ASCII) a otro (por ejemplo,
kanji). En una realización preferida, el diccionario probabilístico
mapea o hace corresponder un conjunto de términos a otro conjunto
de términos, y asocia una probabilidad con cada uno de los mapeados
o correspondencias. Por conveniencia, un "término" o
"señal" se referirá a palabras, frases, y/o (más en general) a
secuencias de uno o más caracteres que puedan incluir espacios.
La figura 8 muestra un ejemplo de un diccionario
probabilístico 800 tal como el descrito anteriormente. El
diccionario probabilístico 800 del ejemplo mostrado en la figura 8
mapea o hace corresponder las palabras escritas en romaji (una
representación alfabética del alfabeto Romano del Japonés) a
palabras escritas en kanji (un conjunto romano de caracteres
japoneses basado en ideogramas). Para facilitar la explicación, la
figura 8 representa términos en romaji como
"<término>_{romaji}", y términos kanji como
"<término>_{kanji}". Se observará que en un
diccionario actual de romaji a kanji, se usarían los términos
actuales de romaji y kanji, en lugar de las traducciones en Inglés
mostradas en la figura 8. Por tanto, se observará que la figura 8
está provista para facilitar una explicación de las realizaciones de
la presente invención, y no para ilustrar las características
actuales y el significado del texto japonés.
\newpage
El diccionario 800 contiene las entradas 808,
810, 812, 814 para varios términos romaji 802. El diccionario
contiene también las representaciones potenciales de cada uno de
estos términos en kanji 804, junto con la probabilidad
correspondiente 806 de cada representación es correcta. Por ejemplo,
el término romaji "banco" podría corresponderse o mapearse
con el término kanji de significado "pendiente escarpada" con
probabilidad 0,3, a un termino de significado "institución
financiera" con probabilidad 0,4, y a un termino de significado
"maniobra del aeroplano" con probabilidad 0,2. Con
probabilidad 0,1, el término podría corresponderse o mapearse con
"otro", lo cual es una forma genérica de permitir que cada
término se corresponda con los términos que puedan no estar en el
diccionario.
De nuevo, se observará que el ejemplo mostrado
en la figura 8 ha sido construido para ilustrar que un término dado
(por ejemplo, la palabra "banco") en un primer conjunto de
caracteres o idioma, puede mapearse o corresponderse con más de un
término en otro conjunto de caracteres o idioma. El técnico
especializado en la técnica observará, no obstante, que mientras
que en aras de la claridad el ejemplo particular de la figura 8
ilustra este principio, utilizando palabras y significados
ingleses, la representación en romaji actual de la palabra
"banco", por ejemplo, podría no ser ambigua en el mismo
formato que en el equivalente inglés (por ejemplo, puede no existir
ambigüedad en romaji entre la palabra para la institución financiera
y la palabra para la maniobra de aeroplano). Se observará que para
facilitar la explicación, el diccionario mostrado en la figura 8 se
ha simplificado en otros aspectos también. Por ejemplo, un
diccionario probabilístico actual podría contener muchas
correspondencias o mapeados potenciales para cada término, o podría
contener solo las correspondencias que excedieran de un umbral de
probabilidad predefinido.
Las realizaciones preferidas de la presente
invención utilizan dicho diccionario probabilístico para la
traducción de preguntas o consultas expresadas en un idioma 7/o
conjunto de caracteres, habilitando por tanto a los usuarios a
encontrar documentos escritos en un conjunto diferente de caracteres
y/o en un idioma distinto al de la pregunta o consulta original.
Por ejemplo, si el usuario introduce una pregunta o consulta para
"coches" en romaji, el diccionario probabilístico podrá ser
utilizado para la correspondencia del término romaji para
"coches", por ejemplo, para el término kanji para
"coches". De esta forma, los usuarios pueden encontrar
documentos relacionados con sus preguntas o consultas, incluso
aunque el conjunto de caracteres de las preguntas o consultas (por
ejemplo, romaji) y el conjunto de caracteres de los documentos
iguales (por ejemplo, kanji) no sean los mismos. Se observará que
en este ejemplo en particular, el idioma actual de la pregunta o
consulta no se ha cambiado (tanto el romaji como el kanji se
utilizan para expresar el Japonés), y si solo la codificación de
los caracteres.
Como otro ejemplo adicional, el término
"cansado" en inglés ASCII podría realizar la correspondencia o
mapeado con el término "müde" en Alemán, utilizando la
codificación de los caracteres de Latín 1, puesto que el carácter
umlaut-u no existe en ASCII. Se observará que en
este ejemplo el diccionario proporciona tanto una traducción a otro
idioma (Inglés a Alemán) y una traducción en otra codificación de
caracteres (ASCII a Latín 1).
El texto de anclaje comprende el texto asociado
con un hiperenlace entre las páginas Web (o lugares dentro
de una página Web dada). Por ejemplo, en el idioma de marcas de hipertexto (HTML), la orden:
"<A ref=``http://www.abc.com''>Bancos y Ahorros y Préstamos</A>" provoca que el texto "Bancos y Ahorros y Préstamos" sea visualizado como un hiperenlace que apunte a la página Web encontrada en http://www.abc.com. El texto "Bancos y Ahorros y Préstamos" se denomina como texto de anclaje, y típicamente proporciona una corta descripción de la pagina Web a la cual apunte (por ejemplo, www.abc.com). En realidad, el texto de anclaje proporcionará con frecuencia una descripción de mayor precisión de la página Web que la propia página en sí, y por tanto puede ser particularmente útil al determinar la naturaleza de la página Web a la cual apunte. Además de ello, el uso de la palabra y la distribución en el texto de anclaje está más cerca en el espíritu que el encontrado en las preguntas o consultas de usuario. Es también el caso de que muchos los anclajes que apuntan a una página dada pueden contener el mismo texto altamente similar. Por ejemplo, los anclajes que apunten a www.google.com mostrarán frecuentemente en forma simple "Google", o al menos utilizarán este término a lo largo de otros textos. Así pues, mediante el examen de todo ello, por ejemplo, katakana, los anclajes que apunten a www.google.com, la traducción en katakana de "Google" podrá inferirse con un grado relativamente alto de confianza, simplemente buscando el término que aparezca con la frecuencia más alta (posiblemente después de descartar ciertos anclajes de contenido de baja información, tal como aquellos que expresan sencillamente "hacer clic aquí"). Las realizaciones preferidas de la presente invención aprovechan la ventaja de estas características del texto de anclaje para proporcionar unas traducciones más precisas.
de una página Web dada). Por ejemplo, en el idioma de marcas de hipertexto (HTML), la orden:
"<A ref=``http://www.abc.com''>Bancos y Ahorros y Préstamos</A>" provoca que el texto "Bancos y Ahorros y Préstamos" sea visualizado como un hiperenlace que apunte a la página Web encontrada en http://www.abc.com. El texto "Bancos y Ahorros y Préstamos" se denomina como texto de anclaje, y típicamente proporciona una corta descripción de la pagina Web a la cual apunte (por ejemplo, www.abc.com). En realidad, el texto de anclaje proporcionará con frecuencia una descripción de mayor precisión de la página Web que la propia página en sí, y por tanto puede ser particularmente útil al determinar la naturaleza de la página Web a la cual apunte. Además de ello, el uso de la palabra y la distribución en el texto de anclaje está más cerca en el espíritu que el encontrado en las preguntas o consultas de usuario. Es también el caso de que muchos los anclajes que apuntan a una página dada pueden contener el mismo texto altamente similar. Por ejemplo, los anclajes que apunten a www.google.com mostrarán frecuentemente en forma simple "Google", o al menos utilizarán este término a lo largo de otros textos. Así pues, mediante el examen de todo ello, por ejemplo, katakana, los anclajes que apunten a www.google.com, la traducción en katakana de "Google" podrá inferirse con un grado relativamente alto de confianza, simplemente buscando el término que aparezca con la frecuencia más alta (posiblemente después de descartar ciertos anclajes de contenido de baja información, tal como aquellos que expresan sencillamente "hacer clic aquí"). Las realizaciones preferidas de la presente invención aprovechan la ventaja de estas características del texto de anclaje para proporcionar unas traducciones más precisas.
Con referencia a la figura 9, al recibir una
pregunta o consulta que contenga un término escrito en un primer
conjunto de caracteres (por ejemplo, ASCII) (bloque 902), el
servidor identifica un conjunto de texto de anclaje en donde el
término pueda aparecer (bloque 904). Por ejemplo, el servidor puede
examinar un índice de todos los anclajes conocidos, para
identificar dichos anclajes que contengan el término. A
continuación, las páginas Web para las cuales están identificados
los anclajes (bloque 906), serán los anclajes escritos en el idioma
de objetivo o conjunto de caracteres de objetivo (por ejemplo,
haragana, katakana, y/o kanji) que apunten a estas páginas (bloque
908). El sistema tendrá ahora dos conjuntos de documentos (en donde
el texto de anclaje se considere como un formato del documento). La
distribución del término de pregunta o consulta en un conjunto de
documentos (por ejemplo, los anclajes que contengan la pregunta o
consulta ASCII original) se utilizará entonces para identificar los
candidatos más probables para la frase traducida en el otro conjunto
de documentos (por ejemplo, los anclajes en paralelo). Las
estadísticas pueden ser calculadas con respecto a la frecuencia con
la que aparecen los términos de texto de anclaje, y estas
estadísticas pueden ser utilizadas para determinar las frecuencias
relativas o probabilidades de los términos encontrados en el texto
de anclaje que comprendan la traducción correcta de la pregunta o
consulta original (bloque 910). Para las preguntas o consultas de
múltiples palabras, el proceso descrito anteriormente podrá ser
repetido para cada palabra, o bien la pregunta o consulta completa
puede ser tratada simplemente como un único término, o podría
utilizarse una agrupación adecuada de las palabras. Por ejemplo, si
la pregunta o consulta es "casas grandes", podría construirse
unas posibles traducciones mediante la localización del texto de
anclaje alineado que contenga dicha frase(o al menos una de
las palabras en la frase). De forma similar, si la pregunta o
consulta contuviera más de dos términos, podrían construirse
experimentos para determinar cualquier mapeado o correspondencia,
mediante la selección de los subconjuntos apropiados de los
términos de la pregunta o consulta y generando los resultados de
dichos términos.
Una ventaja de la realización de una traducción
de la forma mostrada en la figura 9 es el sistema de traducción no
precise del conocimiento previo de las correspondencias o mapeados
entre los términos en un idioma o conjunto de caracteres y los
correspondientes en el conjunto de objetivo. En su lugar, las
correspondencias o mapeados pueden determinarse dinámicamente,
basándose en el cuerpo de datos que está disponible para ejecutar el
análisis estadístico. Así pues, por ejemplo, es posible descubrir
traducciones precisas de términos de argot, modismos, nombres
propios, y similares, sin incurrir en el esfuerzo o gastos (por
ejemplo, análisis lingüístico e investigación) del mantenimiento de
un diccionario estático convencional.
Se describirá a continuación una realización
ilustrativa de las técnicas de traducción anteriores en relación
con las figuras 10-12. En este ejemplo, se supondrá
que el usuario ha introducido el término de pregunta o consulta
"casa", y que desea obtener los resultados de la búsqueda
escritos en español (o simplemente una traducción del término de la
pregunta o consulta). El servidor intentará por tanto traducir el
término inglés "house" al español equivalente.
Con referencia a la figura 10, la variedad de
páginas Web 959, 961, 965 se enlazan por medio del texto de anclaje
960, 962, 964, 966 a las páginas 972 y 974. Algunas de estas
páginas, y su texto de anclaje asociado, están escritas en inglés
(es decir, las páginas 959a-e y
963a-t) y algunas están escritas en español (es
decir, las páginas 961a-e y 965a-j).
El servidor localiza primeramente todos los anclajes que utilicen el
término "house". Estos anclajes pueden estar situados, por
ejemplo, mediante la búsqueda de un índice del texto de anclaje
almacenado en el servidor. Utilizando dicho índice, el servidor
podría primero encontrar los cinco anclajes 960 que utilicen la
frase "big house" ("casa grande", y que apunten a la
página Web 972. el servidor determina a continuación que existen
también cinco anclajes 962 del idioma del objetivo (es decir,
español) que apunten a la página 972 también. En el ejemplo mostrado
en la figura 10, estos anclajes contienen el texto "casa
grande". Los anclajes que apuntan a la misma página (tales como
los anclajes 960 y anclajes 962) o a las páginas que soportan una
relación predefinida, se dice que están "alineados", en donde
en un sentido más general el alineamiento se refiere típicamente (o
una equivalencia probable) a la equivalencia de las unidades
alineadas.
La figura 11A muestra la frecuencia con la cual
aparece el termino en los anclajes 962 del idioma del objetivo. Tal
como se muestra en la figura 11A, los términos "casa" y
"grande" aparecen cada uno cinco veces (es decir, una vez en
cada anclaje 962). Así pues, aparte de los diez términos en total
que aparecen en los anclajes de objetivo 962 (es decir, dos
términos por anclaje en cada uno de los cinco anclajes), "casa"
cuenta por la mitad, y "grande" cuenta por la otra mitad. Así
pues, tal como se muestra en la figura 11A, en este punto el
término "house" podría mapearse o corresponderse bien con
"casa" o "grande" con igual probabilidad, puesto que
ambos términos aparecen con igual frecuencia.
No obstante, tal como se muestra en la figura
10, el sistema encuentra también veinte anclajes 964 ingleses que
contienen el término "house" y que apuntan a la pagina 974, y
diez anclajes españoles 966 que contienen el término "casa" y
que apuntan también a la página 974. Tal como se muestra en la
figura 11B, el término "house" se corresponderá o se mapeará
con "casa" con la probabilidad de 0,75 (es decir, 15/20), y con
"grande" con probabilidad de 0,25 (es decir, 5/20). Estas
probabilidades se calculan sencillamente dividiendo el numero total
de presencias de cada término en los anclajes del idioma del
objetivo (es decir, quince, en el caso de "casa") por el
numero total de términos, incluyendo los duplicados, en los anclajes
del idioma del objetivo (es decir, veinte términos: diez contenidos
en los anclajes 962, y diez contenidos en los anclajes 964).
Alternativamente, o adicionalmente, podrían utilizarse otras
técnicas para calcular y/o refinar las probabilidades de una
traducción o correspondencia dada. Por ejemplo, los técnicos
especializados en la técnica observarán que podrían utilizarse una
diversidad de técnicas bien conocidas para reducir el error de
variancia y las estimaciones de la probabilidad, tales como los
métodos Bayesianos, alisamiento de histogramas, alisamiento Kernel,
estimadores de contracción, y/o bien otras técnicas de
estimación.
En caso de encontrar disponible más texto, las
probabilidades podrían refinarse incluso adicionalmente. Por
ejemplo, una distribución de la probabilidad final podría ser
similar a la mostrada en la figura 12, en la cual el termino
"house" se mapea o se corresponde con una probabilidad
relativamente alta con respecto a "casa" y su forma diminutiva
"casita", y con una probabilidad algo menor con los términos
similares a "casino" y "mansión" (la palabra en español
para mansión), y con una probabilidad despreciable con los términos
similares a "grande". Así pues, puede obtenerse una
traducción correcta, así como también la identificación de sinónimos
probables, sin el conocimiento de los idiomas y/o conjuntos de
caracteres que estén traduciéndose.
Se observará que el ejemplo descrito en relación
con las figuras 10-12 se proporciona para los fines
de la ilustración, y no de limitación, y que pueden realizarse
muchos cambios en la metodología aquí descrita. Por ejemplo,
podrían utilizarse distintas técnicas estadísticas para alcanzar las
probabilidades, y/o modificaciones para las técnicas básicas
anteriormente descritas. Además de ello, aunque el ejemplo
precedente describe el proceso de traducción tal como tiene lugar
después de la recepción de la pregunta o consulta del usuario, se
observará en las otras realizaciones el proceso de mapeado o
correspondencia podría ejecutarse antes de que se reciba la
pregunta o consulta del usuario. Tales correspondencias o mapeados
pre-calculadas podrían almacenarse en un
diccionario tal como el descrito en la figura 8, el cual se
aplicaría entonces para traducir las preguntas o consultas de
usuario tal como pudieran recibirse. Finalmente, se comprenderá que
el texto distinto al texto de anclaje alineado podría utilizarse
par la traducción. Por ejemplo, las sentencias alineadas o bien
otros datos podrían utilizarse de una forma similar. En muchos
países existe más de un idioma oficial o reconocido, y los
periódicos y revistas contendrán con frecuencia el mismo artículo
escrito en cada uno de estos idiomas. Estas traducciones paralelas
pueden utilizarse de la misma manera que el texto de anclaje
previamente descrito, para preparar diccionarios probabilísticas de
traducciones de palabras.
Así pues, las realizaciones preferidas permiten
ventajosamente a que usuarios introduzcan preguntas o consultas de
búsqueda y/o peticiones de traducción de una forma conveniente (por
ejemplo, utilizando un teclado ASCII), y proporcionar una
traducción y búsqueda precisa y automática y su búsqueda. En algunas
realizaciones, pueden hacerse refinamientos adicionales con el
modelo básico anteriormente descrito. Por ejemplo, en algunas
realizaciones puede darse una preferencia (ponderación) a los
anclajes que contengan varios términos que sean similares al número
de términos en la pregunta o consulta original y/o en otros anclajes
alineados. Por ejemplo, en el sistema mostrado en la figura 10, l
preferencia podría darse a los anclajes que apunten a la página 974,
al igual que la pregunta o consulta original, conteniendo cada uno
un término único. De forma similar, si un anclaje que contenga el
texto "la casa grande" está apuntado también a la pagina 972,
su ponderación podría disminuir en un factor apropiado, puesto que
contendrá más términos (es decir, 3) que los demás anclajes con los
cuales esté alineado. Dicho esquema de ponderación podría estar
reflejado en el calculo de probabilidades mostrado en la figura
11B, por la multiplicación de las frecuencias asociadas con estos
términos de anclaje mediante un factor adecuado.
Tal como se ha descrito anteriormente, los
métodos y sistemas compatibles con la invención pueden utilizarse
para proporcionar los resultados de la búsqueda en respuesta a las
preguntas o consultas de búsqueda ambiguas y/o para traducir
términos en otro conjunto de caracteres y/o idiomas. Se han
descrito varias técnicas y sistemas de traducción y búsqueda. No
obstante, se observará que la descripción anterior se ha presentado
para los fines de la ilustración, y que son posibles muchas
modificaciones y variaciones a la luz de las descripciones
anteriores, o a través de la puesta en práctica de la invención.
Por ejemplo, aunque la descripción anterior está basada en una
arquitectura de cliente-servidor, los técnicos
especializados en la técnica reconocerán que puede utilizarse una
arquitectura de entidades pares (P2P), compatible con la invención.
Además de ello, aunque la implementación descrita incluye software,
la invención puede ser implementada como una combinación de
hardware y software o solo con hardware. Adicionalmente, aunque los
aspectos de la presente invención están descritos como almacenados
en la memoria, el técnico especializado en la técnica apreciará que
estos aspectos pueden ser almacenados también en otros tipos de
medios legibles por ordenador, tales como en dispositivos de
almacenamiento secundarios, similares a discos duros, discos
flexibles, o CD-ROM; una onda portadora de
Internet; o bien otras formas de RAM o ROM. El alcance de la
invención está definido por tanto por las reivindicaciones y sus
equivalentes.
Claims (17)
1. Un método que comprende:
- la identificación (904) de un primer conjunto de texto de anclaje escrito en un primer formato y conteniendo un término dado;
- la identificación (906) de un conjunto de documentos hacia los cuales apunta el primer conjunto de texto de anclaje;
- la identificación (908) de un segundo conjunto de texto de anclaje escrito en un segundo formato, y apuntando al conjunto identificado de documentos;
- el análisis (910) del segundo conjunto de texto de anclaje para determinar que una representación del término dado en el primer formato se corresponde a la representación de un término dado en el segundo formato.
2. El método de la reivindicación 1, en donde el
primer formato comprende un primer conjunto de caracteres, y el
segundo formato comprende un segundo conjunto de caracteres.
3. El método de la reivindicación 1, en donde el
primer formato comprende un primer idioma y el segundo formato
comprende un segundo idioma.
4. El método de la reivindicación 1, en donde el
análisis del segundo conjunto del texto de anclaje incluye la
identificación de un término que aparece en el segundo conjunto de
texto de anclaje, y la designación del termino más frecuente como
la representación del termino dado en el segundo formato.
5. El método de la reivindicación 1, en donde el
análisis del segundo conjunto del texto de anclaje comprende:
- calcular una probabilidad de que el termino dado corresponde a un término en el segundo conjunto de texto de anclaje.
6. El método de la reivindicación 5, en donde la
probabilidad se obtiene utilizando al menos unos medios Bayesianos,
alisamiento de histogramas, alisamiento Kernel, y estimadores de
contracción.
7. El método de la reivindicación 5, en donde la
probabilidad de que un termino dado corresponda a un término en el
segundo conjunto del texto de anclaje se obtiene por la división del
numero de presencias del término en el segundo conjunto del texto
de anclaje por el numero total de presencias de todos los términos
en el segundo conjunto del texto de anclaje.
8. El método de la reivindicación 1, en donde el
análisis del segundo conjunto del texto de anclaje comprende:
- el cálculo de un probabilidad de que el termino dado se corresponda con cada termino en el segundo conjunto del texto de anclaje.
9. El método de la reivindicación 1, en donde el
análisis del segundo conjunto de texto de anclaje comprende:
- la identificación de un término que aparece más frecuentemente en el segundo conjunto del texto de anclaje.
10. El método de la reivindicación 2, en donde
se selecciona el primer formato a partir del grupo que comprende:
formato, romaja y pinyin; y en donde el segundo conjunto de
caracteres se selecciona a partir del grupo que comprende:
katakana, haragana, kanji, hangul, hanja, y los caracteres chinos
tradicionales.
11. El método de la reivindicación 1, en donde
los documentos comprenden páginas Web.
12. El método de la reivindicación 1, que
comprende además:
- la obtención de una pregunta o consulta escrita en el primer formato y conteniendo el término dado;
- traducción de la pregunta o consulta en el segundo formato basándose al menos en parte del mencionado paso de análisis;
- búsqueda de una base de datos para la información escrita en el segundo formato que sea sensible a la pregunta o consulta traducida.
13. El método de la reivindicación 12, en donde
las etapas se ejecutan en el orden expuesto.
14. Un producto de un programa de ordenador
incluido en un medio legible por ordenador, en donde el programa de
ordenado incluye instrucciones, las cuales se ejecutan mediante un
sistema por ordenador, que son operativas para hacer que el sistema
por ordenador ejecute acciones, que comprenden:
- la identificación (904) de un primer conjunto de texto de anclaje escrito en un primer formato y conteniendo un término dado;
- la identificación (906) de un conjunto de páginas Web a las cuales apunta el primer conjunto de texto de anclaje;
- la identificación (908) de un segundo conjunto de texto de anclaje escrito en un segundo formato, y apuntando a un conjunto identificado de páginas Web;
- determinación de la probabilidad de que una representación de un término dado en el primer formato se corresponda a una representación de un término dado en el segundo formato.
15. El producto del programa de ordenador de la
reivindicación 14, que incluye además instrucciones, las cuales al
ejecutarse por el sistema de ordenador, son operativas para provocar
que el sistema de ordenador ejecute acciones que comprenden:
- modificar la probabilidad de que una representación del termino dado en el primer formato se corresponda con una representación del término dado en el segundo formato, basándose al menos en parte en un análisis de la selección del usuario de los resultados de la búsqueda.
16. El producto del programa de ordenador de la
reivindicación 14, que incluye además instrucciones, las cuales al
ser ejecutadas por el sistema de ordenador son operativas para hacer
que el sistema de ordenador ejecute acciones, que comprenden:
- modificar la probabilidad de que una representación del término dado en el primer formato se corresponda con una representación del término dado en el segundo formato, basándose al menos en parte, en un análisis de las preguntas o consultas previas del usuario.
17. El producto del programa de ordenador de la
reivindicación 14, en donde la probabilidad se determina al menos
en parte, utilizando al menos uno de los métodos Bayesianos,
alisamiento del histograma, alisamiento kernel, y estimadores de
contracción.
Applications Claiming Priority (2)
| Application Number | Priority Date | Filing Date | Title |
|---|---|---|---|
| US676724 | 1984-11-30 | ||
| US10/676,724 US8706747B2 (en) | 2000-07-06 | 2003-09-30 | Systems and methods for searching using queries written in a different character-set and/or language from the target pages |
Publications (1)
| Publication Number | Publication Date |
|---|---|
| ES2323786T3 true ES2323786T3 (es) | 2009-07-24 |
Family
ID=34422117
Family Applications (1)
| Application Number | Title | Priority Date | Filing Date |
|---|---|---|---|
| ES04783836T Expired - Lifetime ES2323786T3 (es) | 2003-09-30 | 2004-09-13 | Sistemas y metodos para buscar utilizando preguntas escritas en un conjunto de caracteres y/o idioma distinto al de las paginas objetivo. |
Country Status (12)
| Country | Link |
|---|---|
| US (3) | US8706747B2 (es) |
| EP (3) | EP2388709B1 (es) |
| JP (4) | JP4717821B2 (es) |
| KR (4) | KR101261158B1 (es) |
| CN (2) | CN102236702B (es) |
| AT (1) | ATE426206T1 (es) |
| DE (1) | DE602004020086D1 (es) |
| ES (1) | ES2323786T3 (es) |
| PL (1) | PL2388709T3 (es) |
| RU (1) | RU2363983C2 (es) |
| TR (1) | TR201816343T4 (es) |
| WO (1) | WO2005033967A2 (es) |
Families Citing this family (102)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US7136854B2 (en) * | 2000-07-06 | 2006-11-14 | Google, Inc. | Methods and apparatus for providing search results in response to an ambiguous search query |
| US8706747B2 (en) | 2000-07-06 | 2014-04-22 | Google Inc. | Systems and methods for searching using queries written in a different character-set and/or language from the target pages |
| US9009590B2 (en) * | 2001-07-31 | 2015-04-14 | Invention Machines Corporation | Semantic processor for recognition of cause-effect relations in natural language documents |
| CA2371731A1 (en) * | 2002-02-12 | 2003-08-12 | Cognos Incorporated | Database join disambiguation by grouping |
| US7720828B2 (en) * | 2004-06-29 | 2010-05-18 | Blake Bookstaff | Method and system for automated intelligent electronic advertising |
| US8055669B1 (en) | 2003-03-03 | 2011-11-08 | Google Inc. | Search queries improved based on query semantic information |
| US7917483B2 (en) * | 2003-04-24 | 2011-03-29 | Affini, Inc. | Search engine and method with improved relevancy, scope, and timeliness |
| BRPI0417636A (pt) * | 2003-12-16 | 2007-03-27 | Speechgear Inc | sistema, método, e, meio legìvel por computador |
| US20050138007A1 (en) * | 2003-12-22 | 2005-06-23 | International Business Machines Corporation | Document enhancement method |
| US20060047649A1 (en) * | 2003-12-29 | 2006-03-02 | Ping Liang | Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation |
| US8825591B1 (en) * | 2003-12-31 | 2014-09-02 | Symantec Operating Corporation | Dynamic storage mechanism |
| US8655904B2 (en) * | 2004-02-11 | 2014-02-18 | Ebay, Inc. | Method and system to enhance data integrity in a database |
| US7487145B1 (en) | 2004-06-22 | 2009-02-03 | Google Inc. | Method and system for autocompletion using ranked results |
| US7836044B2 (en) | 2004-06-22 | 2010-11-16 | Google Inc. | Anticipated query generation and processing in a search engine |
| US8972444B2 (en) | 2004-06-25 | 2015-03-03 | Google Inc. | Nonstandard locality-based text entry |
| US8392453B2 (en) | 2004-06-25 | 2013-03-05 | Google Inc. | Nonstandard text entry |
| US7895218B2 (en) | 2004-11-09 | 2011-02-22 | Veveo, Inc. | Method and system for performing searches for television content using reduced text input |
| US7499940B1 (en) | 2004-11-11 | 2009-03-03 | Google Inc. | Method and system for URL autocompletion using ranked results |
| US20060106769A1 (en) | 2004-11-12 | 2006-05-18 | Gibbs Kevin A | Method and system for autocompletion for languages having ideographs and phonetic characters |
| US8122034B2 (en) | 2005-06-30 | 2012-02-21 | Veveo, Inc. | Method and system for incremental search with reduced text entry where the relevance of results is a dynamically computed function of user input search string character count |
| US10735576B1 (en) * | 2005-07-14 | 2020-08-04 | Binj Laboratories, Inc. | Systems and methods for detecting and controlling transmission devices |
| US7737999B2 (en) | 2005-08-26 | 2010-06-15 | Veveo, Inc. | User interface for visual cooperation between text input and display device |
| US7788266B2 (en) | 2005-08-26 | 2010-08-31 | Veveo, Inc. | Method and system for processing ambiguous, multi-term search queries |
| US7779011B2 (en) | 2005-08-26 | 2010-08-17 | Veveo, Inc. | Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof |
| US7672831B2 (en) * | 2005-10-24 | 2010-03-02 | Invention Machine Corporation | System and method for cross-language knowledge searching |
| US7805455B2 (en) * | 2005-11-14 | 2010-09-28 | Invention Machine Corporation | System and method for problem analysis |
| US7644054B2 (en) | 2005-11-23 | 2010-01-05 | Veveo, Inc. | System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors |
| US7895223B2 (en) * | 2005-11-29 | 2011-02-22 | Cisco Technology, Inc. | Generating search results based on determined relationships between data objects and user connections to identified destinations |
| US7729901B2 (en) * | 2005-12-13 | 2010-06-01 | Yahoo! Inc. | System for classifying words |
| US8010523B2 (en) | 2005-12-30 | 2011-08-30 | Google Inc. | Dynamic search box for web browser |
| US7849144B2 (en) | 2006-01-13 | 2010-12-07 | Cisco Technology, Inc. | Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users |
| US7689554B2 (en) * | 2006-02-28 | 2010-03-30 | Yahoo! Inc. | System and method for identifying related queries for languages with multiple writing systems |
| WO2007103938A2 (en) | 2006-03-06 | 2007-09-13 | Veveo, Inc. | Methods and systems for selecting and presenting content based on learned user preferences |
| JP5057546B2 (ja) * | 2006-03-24 | 2012-10-24 | キヤノン株式会社 | 文書検索装置および文書検索方法 |
| US8073860B2 (en) | 2006-03-30 | 2011-12-06 | Veveo, Inc. | Method and system for incrementally selecting and providing relevant search engines in response to a user query |
| US8255376B2 (en) * | 2006-04-19 | 2012-08-28 | Google Inc. | Augmenting queries with synonyms from synonyms map |
| US8380488B1 (en) | 2006-04-19 | 2013-02-19 | Google Inc. | Identifying a property of a document |
| US8762358B2 (en) * | 2006-04-19 | 2014-06-24 | Google Inc. | Query language determination using query terms and interface language |
| US8442965B2 (en) | 2006-04-19 | 2013-05-14 | Google Inc. | Query language identification |
| EP3822819A1 (en) | 2006-04-20 | 2021-05-19 | Veveo, Inc. | User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content |
| US8732314B2 (en) * | 2006-08-21 | 2014-05-20 | Cisco Technology, Inc. | Generation of contact information based on associating browsed content to user actions |
| CA2663222C (en) | 2006-09-14 | 2018-01-16 | Veveo, Inc. | Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters |
| US7925986B2 (en) | 2006-10-06 | 2011-04-12 | Veveo, Inc. | Methods and systems for a linear character selection display interface for ambiguous text input |
| US7979425B2 (en) * | 2006-10-25 | 2011-07-12 | Google Inc. | Server-side match |
| US8078884B2 (en) | 2006-11-13 | 2011-12-13 | Veveo, Inc. | Method of and system for selecting and presenting content based on user identification |
| US8296294B2 (en) | 2007-05-25 | 2012-10-23 | Veveo, Inc. | Method and system for unified searching across and within multiple documents |
| US8549424B2 (en) | 2007-05-25 | 2013-10-01 | Veveo, Inc. | System and method for text disambiguation and context designation in incremental search |
| ITTO20070508A1 (it) * | 2007-07-11 | 2009-01-12 | Selex Communications Spa | Procedimento per la codifica di dati numerici in un elaboratore e procedimento per la codifica di strutture dati per la trasmissione in un sistema di telecomunicazioni, basato su detto procedimento di codifica di dati numerici |
| EP2201484A4 (en) * | 2007-09-21 | 2010-09-22 | Google Inc | INTERLANGUE RESEARCH |
| US8725756B1 (en) | 2007-11-12 | 2014-05-13 | Google Inc. | Session-based query suggestions |
| US8943539B2 (en) | 2007-11-21 | 2015-01-27 | Rovi Guides, Inc. | Enabling a friend to remotely modify user data |
| US8232973B2 (en) | 2008-01-09 | 2012-07-31 | Apple Inc. | Method, device, and graphical user interface providing word recommendations for text input |
| US20090287474A1 (en) * | 2008-05-16 | 2009-11-19 | Yahoo! Inc. | Web embedded language input arrangement |
| US8312032B2 (en) | 2008-07-10 | 2012-11-13 | Google Inc. | Dictionary suggestions for partial user entries |
| CN102439590A (zh) | 2009-03-13 | 2012-05-02 | 发明机器公司 | 用于自然语言文本的自动语义标注的系统和方法 |
| US8275604B2 (en) | 2009-03-18 | 2012-09-25 | Microsoft Corporation | Adaptive pattern learning for bilingual data mining |
| US8577910B1 (en) | 2009-05-15 | 2013-11-05 | Google Inc. | Selecting relevant languages for query translation |
| US8577909B1 (en) * | 2009-05-15 | 2013-11-05 | Google Inc. | Query translation using bilingual search refinements |
| US8572109B1 (en) | 2009-05-15 | 2013-10-29 | Google Inc. | Query translation quality confidence |
| US8996550B2 (en) | 2009-06-03 | 2015-03-31 | Google Inc. | Autocompletion for partially entered query |
| US8538957B1 (en) | 2009-06-03 | 2013-09-17 | Google Inc. | Validating translations using visual similarity between visual media search results |
| US20150261858A1 (en) * | 2009-06-29 | 2015-09-17 | Google Inc. | System and method of providing information based on street address |
| US9870572B2 (en) | 2009-06-29 | 2018-01-16 | Google Llc | System and method of providing information based on street address |
| KR101083540B1 (ko) * | 2009-07-08 | 2011-11-14 | 엔에이치엔(주) | 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법 |
| US9166714B2 (en) | 2009-09-11 | 2015-10-20 | Veveo, Inc. | Method of and system for presenting enriched video viewing analytics |
| US20110191330A1 (en) | 2010-02-04 | 2011-08-04 | Veveo, Inc. | Method of and System for Enhanced Content Discovery Based on Network and Device Access Behavior |
| US8577915B2 (en) | 2010-09-10 | 2013-11-05 | Veveo, Inc. | Method of and system for conducting personalized federated search and presentation of results therefrom |
| WO2012037726A1 (en) * | 2010-09-21 | 2012-03-29 | Google Inc. | Generating search query suggestions |
| US20120167009A1 (en) * | 2010-12-22 | 2012-06-28 | Apple Inc. | Combining timing and geometry information for typing correction |
| CN102737015A (zh) * | 2011-04-07 | 2012-10-17 | 英业达股份有限公司 | 具即时翻译的写作系统及其写作方法 |
| EP2518638A3 (en) * | 2011-04-27 | 2013-01-23 | Verint Systems Limited | System and method for keyword spotting using multiple character encoding schemes |
| TWI435226B (zh) * | 2011-04-28 | 2014-04-21 | Rakuten Inc | A method of reading a system, a terminal, an image server, a computer program product, a terminal, and an image server |
| US9779722B2 (en) * | 2013-11-05 | 2017-10-03 | GM Global Technology Operations LLC | System for adapting speech recognition vocabulary |
| US9313219B1 (en) * | 2014-09-03 | 2016-04-12 | Trend Micro Incorporated | Detection of repackaged mobile applications |
| RU2610280C2 (ru) | 2014-10-31 | 2017-02-08 | Общество С Ограниченной Ответственностью "Яндекс" | Способ авторизации пользователя в сети и сервер, используемый в нем |
| RU2580432C1 (ru) | 2014-10-31 | 2016-04-10 | Общество С Ограниченной Ответственностью "Яндекс" | Способ для обработки запроса от потенциального несанкционированного пользователя на доступ к ресурсу и серверу, используемый в нем |
| KR102244110B1 (ko) | 2015-02-17 | 2021-04-26 | 삼성전자주식회사 | 이종 언어간 동일성을 판단하는 전자 장치 및 방법 |
| US9762385B1 (en) | 2015-07-20 | 2017-09-12 | Trend Micro Incorporated | Protection of program code of apps of mobile computing devices |
| CN105069171B (zh) * | 2015-08-31 | 2018-07-13 | 百度在线网络技术(北京)有限公司 | 汉字查询方法和系统 |
| CN105335357B (zh) * | 2015-11-18 | 2018-07-06 | 成都优译信息技术有限公司 | 翻译系统中语料推荐方法 |
| US9916448B1 (en) | 2016-01-21 | 2018-03-13 | Trend Micro Incorporated | Detection of malicious mobile apps |
| US10169414B2 (en) | 2016-04-26 | 2019-01-01 | International Business Machines Corporation | Character matching in text processing |
| US9760627B1 (en) * | 2016-05-13 | 2017-09-12 | International Business Machines Corporation | Private-public context analysis for natural language content disambiguation |
| US10375576B1 (en) | 2016-09-09 | 2019-08-06 | Trend Micro Incorporated | Detection of malware apps that hijack app user interfaces |
| KR101800373B1 (ko) * | 2016-12-30 | 2017-11-22 | (주)엠더블유스토리 | 불법 콘텐츠 검색 시스템 및 그 방법 |
| US10614109B2 (en) * | 2017-03-29 | 2020-04-07 | International Business Machines Corporation | Natural language processing keyword analysis |
| EP3616048A4 (en) * | 2017-04-25 | 2020-12-02 | Hewlett-Packard Development Company, L.P. | INTERACTION OF AUTOMATIC LEARNING CONTROLS |
| US10831801B2 (en) | 2017-05-12 | 2020-11-10 | International Business Machines Corporation | Contextual-based high precision search for mail systems |
| US10387576B2 (en) * | 2017-11-30 | 2019-08-20 | International Business Machines Corporation | Document preparation with argumentation support from a deep question answering system |
| CN110111793B (zh) | 2018-02-01 | 2023-07-14 | 腾讯科技(深圳)有限公司 | 音频信息的处理方法、装置、存储介质及电子装置 |
| JP7247460B2 (ja) * | 2018-03-13 | 2023-03-29 | 富士通株式会社 | 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム |
| US10956669B2 (en) * | 2018-07-10 | 2021-03-23 | Beijing Didi Infinity Technology And Development Co., Ltd. | Expression recognition using character skipping |
| KR102637340B1 (ko) * | 2018-08-31 | 2024-02-16 | 삼성전자주식회사 | 문장 매핑 방법 및 장치 |
| US11250221B2 (en) * | 2019-03-14 | 2022-02-15 | Sap Se | Learning system for contextual interpretation of Japanese words |
| US11308096B2 (en) | 2019-03-29 | 2022-04-19 | Rovi Guides, Inc. | Bias quotient measurement and debiasing for recommendation engines |
| US11227101B2 (en) * | 2019-07-05 | 2022-01-18 | Open Text Sa Ulc | System and method for document translation in a format agnostic document viewer |
| CN111368557B (zh) * | 2020-03-06 | 2023-04-07 | 北京字节跳动网络技术有限公司 | 视频内容的翻译方法、装置、设备及计算机可读介质 |
| US11458409B2 (en) * | 2020-05-27 | 2022-10-04 | Nvidia Corporation | Automatic classification and reporting of inappropriate language in online applications |
| CN112765321A (zh) * | 2021-01-22 | 2021-05-07 | 中信银行股份有限公司 | 接口查询方法及装置、设备、计算机可读存储介质 |
| CN114139554B (zh) * | 2021-11-23 | 2024-07-12 | 成都飞机工业(集团)有限责任公司 | 一种基于计算机翻译用模糊查询系统的翻译方法 |
| US12517935B2 (en) | 2023-01-31 | 2026-01-06 | Walmart Apollo, Llc | System and method for performing cross-lingual product searches |
| US12517899B2 (en) * | 2023-01-31 | 2026-01-06 | Walmart Apollo, Llc | System and method for processing cross-lingual search queries |
Family Cites Families (168)
| Publication number | Priority date | Publication date | Assignee | Title |
|---|---|---|---|---|
| US4674112A (en) * | 1985-09-06 | 1987-06-16 | Board Of Regents, The University Of Texas System | Character pattern recognition and communications apparatus |
| US4754474A (en) * | 1985-10-21 | 1988-06-28 | Feinson Roy W | Interpretive tone telecommunication method and apparatus |
| DE69032576T2 (de) * | 1990-02-27 | 1999-04-15 | Oracle Corp | Dynamische Optimierung eines einzelnen relationalen Zugriffs |
| KR950008022B1 (ko) * | 1991-06-19 | 1995-07-24 | 가부시끼가이샤 히다찌세이사꾸쇼 | 문자처리방법 및 장치와 문자입력방법 및 장치 |
| RU2039376C1 (ru) | 1991-11-01 | 1995-07-09 | Сергей Станиславович Ковалевский | Устройство для информационного поиска |
| US5535119A (en) | 1992-06-11 | 1996-07-09 | Hitachi, Ltd. | Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same |
| US5337347A (en) * | 1992-06-25 | 1994-08-09 | International Business Machines Corporation | Method and system for progressive database search termination and dynamic information presentation utilizing telephone keypad input |
| US6760695B1 (en) * | 1992-08-31 | 2004-07-06 | Logovista Corporation | Automated natural language processing |
| GB2272091B (en) | 1992-10-30 | 1996-10-23 | Canon Europa Nv | Apparatus for use in aligning bilingual corpora |
| JP3919237B2 (ja) * | 1994-05-20 | 2007-05-23 | キヤノン株式会社 | 画像記録再生装置、画像再生装置、及びその方法 |
| US5543789A (en) * | 1994-06-24 | 1996-08-06 | Shields Enterprises, Inc. | Computerized navigation system |
| WO1996010795A1 (en) * | 1994-10-03 | 1996-04-11 | Helfgott & Karas, P.C. | A database accessing system |
| US5787230A (en) * | 1994-12-09 | 1998-07-28 | Lee; Lin-Shan | System and method of intelligent Mandarin speech input for Chinese computers |
| US5758145A (en) * | 1995-02-24 | 1998-05-26 | International Business Machines Corporation | Method and apparatus for generating dynamic and hybrid sparse indices for workfiles used in SQL queries |
| JP3571408B2 (ja) | 1995-03-31 | 2004-09-29 | 株式会社日立製作所 | 文書加工方法および装置 |
| US6070140A (en) * | 1995-06-05 | 2000-05-30 | Tran; Bao Q. | Speech recognizer |
| WO1996041281A1 (en) * | 1995-06-07 | 1996-12-19 | International Language Engineering Corporation | Machine assisted translation tools |
| US5701469A (en) | 1995-06-07 | 1997-12-23 | Microsoft Corporation | Method and system for generating accurate search results using a content-index |
| ATE191282T1 (de) * | 1995-07-26 | 2000-04-15 | Tegic Communications Inc | System zur unterdrückung der vieldeutigkeit in einer verringerten tastatur |
| US5818437A (en) * | 1995-07-26 | 1998-10-06 | Tegic Communications, Inc. | Reduced keyboard disambiguating computer |
| US5634053A (en) * | 1995-08-29 | 1997-05-27 | Hughes Aircraft Company | Federated information management (FIM) system and method for providing data site filtering and translation for heterogeneous databases |
| JP3819959B2 (ja) * | 1996-03-27 | 2006-09-13 | シャープ株式会社 | 音声による情報検索装置 |
| US5778157A (en) * | 1996-06-17 | 1998-07-07 | Yy Software Corporation | System and method for expert system analysis using quiescent and parallel reasoning and set structured knowledge representation |
| US5920859A (en) * | 1997-02-05 | 1999-07-06 | Idd Enterprises, L.P. | Hypertext document retrieval system and method |
| US5845273A (en) | 1996-06-27 | 1998-12-01 | Microsoft Corporation | Method and apparatus for integrating multiple indexed files |
| US5878386A (en) * | 1996-06-28 | 1999-03-02 | Microsoft Corporation | Natural language parser with dictionary-based part-of-speech probabilities |
| US5832480A (en) * | 1996-07-12 | 1998-11-03 | International Business Machines Corporation | Using canonical forms to develop a dictionary of names in a text |
| US5953073A (en) * | 1996-07-29 | 1999-09-14 | International Business Machines Corp. | Method for relating indexing information associated with at least two indexing schemes to facilitate the play-back of user-specified digital video data and a video client incorporating the same |
| US5745894A (en) * | 1996-08-09 | 1998-04-28 | Digital Equipment Corporation | Method for generating and searching a range-based index of word-locations |
| US5987446A (en) * | 1996-11-12 | 1999-11-16 | U.S. West, Inc. | Searching large collections of text using multiple search engines concurrently |
| US5953541A (en) * | 1997-01-24 | 1999-09-14 | Tegic Communications, Inc. | Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use |
| JPH10247201A (ja) * | 1997-03-05 | 1998-09-14 | Nippon Telegr & Teleph Corp <Ntt> | 情報評価値付き情報案内システム |
| US6278992B1 (en) * | 1997-03-19 | 2001-08-21 | John Andrew Curtis | Search engine using indexing method for storing and retrieving data |
| JP3143079B2 (ja) * | 1997-05-30 | 2001-03-07 | 松下電器産業株式会社 | 辞書索引作成装置と文書検索装置 |
| US6061718A (en) * | 1997-07-23 | 2000-05-09 | Ericsson Inc. | Electronic mail delivery system in wired or wireless communications system |
| US6055528A (en) | 1997-07-25 | 2000-04-25 | Claritech Corporation | Method for cross-linguistic document retrieval |
| JP2965010B2 (ja) * | 1997-08-30 | 1999-10-18 | 日本電気株式会社 | 関連情報検索方法及び装置並びにプログラムを記録した機械読み取り可能な記録媒体 |
| BR9814032A (pt) * | 1997-09-25 | 2001-11-20 | Tegic Communications Inc | Sistema de retirada de ambiguidade com tecladoreduzido |
| US6026411A (en) * | 1997-11-06 | 2000-02-15 | International Business Machines Corporation | Method, apparatus, and computer program product for generating an image index and for internet searching and querying by image colors |
| US6377965B1 (en) * | 1997-11-07 | 2002-04-23 | Microsoft Corporation | Automatic word completion system for partially entered data |
| US5945928A (en) * | 1998-01-20 | 1999-08-31 | Tegic Communication, Inc. | Reduced keyboard disambiguating system for the Korean language |
| KR100313462B1 (ko) * | 1998-01-23 | 2001-12-31 | 윤종용 | 웹검색엔진에서검색된정보를지역적으로근접한순서대로표시하는방법 |
| US6185558B1 (en) * | 1998-03-03 | 2001-02-06 | Amazon.Com, Inc. | Identifying the items most relevant to a current query based on items selected in connection with similar queries |
| US6421675B1 (en) * | 1998-03-16 | 2002-07-16 | S. L. I. Systems, Inc. | Search engine |
| US5974121A (en) * | 1998-05-14 | 1999-10-26 | Motorola, Inc. | Alphanumeric message composing method using telephone keypad |
| GB2337611A (en) * | 1998-05-20 | 1999-11-24 | Sharp Kk | Multilingual document retrieval system |
| US6144958A (en) * | 1998-07-15 | 2000-11-07 | Amazon.Com, Inc. | System and method for correcting spelling errors in search queries |
| US6470333B1 (en) * | 1998-07-24 | 2002-10-22 | Jarg Corporation | Knowledge extraction system and method |
| US6226635B1 (en) * | 1998-08-14 | 2001-05-01 | Microsoft Corporation | Layered query management |
| US6370518B1 (en) * | 1998-10-05 | 2002-04-09 | Openwave Systems Inc. | Method and apparatus for displaying a record from a structured database with minimum keystrokes |
| US7194679B1 (en) * | 1998-10-20 | 2007-03-20 | International Business Machines Corporation | Web-based file review system utilizing source and comment files |
| IE980941A1 (en) * | 1998-11-16 | 2000-05-17 | Buy Tel Innovations Ltd | A transaction processings system |
| JP2000163441A (ja) | 1998-11-30 | 2000-06-16 | Nippon Telegr & Teleph Corp <Ntt> | 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム |
| JP3842913B2 (ja) * | 1998-12-18 | 2006-11-08 | 富士通株式会社 | 文字通信方法及び文字通信システム |
| GB2347247A (en) * | 1999-02-22 | 2000-08-30 | Nokia Mobile Phones Ltd | Communication terminal with predictive editor |
| US20020038308A1 (en) * | 1999-05-27 | 2002-03-28 | Michael Cappi | System and method for creating a virtual data warehouse |
| US6421662B1 (en) * | 1999-06-04 | 2002-07-16 | Oracle Corporation | Generating and implementing indexes based on criteria set forth in queries |
| US6598039B1 (en) | 1999-06-08 | 2003-07-22 | Albert-Inc. S.A. | Natural language interface for searching database |
| US20010003184A1 (en) * | 1999-07-16 | 2001-06-07 | Ching Jamison K. | Methods and articles of manufacture for interfacing, advertising and navigating with internet television |
| CN1176432C (zh) | 1999-07-28 | 2004-11-17 | 国际商业机器公司 | 提供本国语言查询服务的方法和系统 |
| US6606486B1 (en) * | 1999-07-29 | 2003-08-12 | Ericsson Inc. | Word entry method for mobile originated short messages |
| US6601026B2 (en) * | 1999-09-17 | 2003-07-29 | Discern Communications, Inc. | Information retrieval by natural language querying |
| US6453315B1 (en) * | 1999-09-22 | 2002-09-17 | Applied Semantics, Inc. | Meaning-based information organization and retrieval |
| US6353820B1 (en) * | 1999-09-29 | 2002-03-05 | Bull Hn Information Systems Inc. | Method and system for using dynamically generated code to perform index record retrieval in certain circumstances in a relational database manager |
| US6484179B1 (en) | 1999-10-25 | 2002-11-19 | Oracle Corporation | Storing multidimensional data in a relational database management system |
| US7165019B1 (en) * | 1999-11-05 | 2007-01-16 | Microsoft Corporation | Language input architecture for converting one text form to another text form with modeless entry |
| US6633846B1 (en) * | 1999-11-12 | 2003-10-14 | Phoenix Solutions, Inc. | Distributed realtime speech recognition system |
| US6675165B1 (en) | 2000-02-28 | 2004-01-06 | Barpoint.Com, Inc. | Method for linking a billboard or signage to information on a global computer network through manual information input or a global positioning system |
| US7120574B2 (en) * | 2000-04-03 | 2006-10-10 | Invention Machine Corporation | Synonym extension of search queries with validation |
| US7177798B2 (en) * | 2000-04-07 | 2007-02-13 | Rensselaer Polytechnic Institute | Natural language interface using constrained intermediate dictionary of results |
| US6564213B1 (en) | 2000-04-18 | 2003-05-13 | Amazon.Com, Inc. | Search query autocompletion |
| US7107204B1 (en) * | 2000-04-24 | 2006-09-12 | Microsoft Corporation | Computer-aided writing system and method with cross-language writing wizard |
| US6604101B1 (en) * | 2000-06-28 | 2003-08-05 | Qnaturally Systems, Inc. | Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network |
| US6714905B1 (en) * | 2000-05-02 | 2004-03-30 | Iphrase.Com, Inc. | Parsing ambiguous grammar |
| JP2001325252A (ja) | 2000-05-12 | 2001-11-22 | Sony Corp | 携帯端末及びその情報入力方法、辞書検索装置及び方法、媒体 |
| US6456234B1 (en) | 2000-06-07 | 2002-09-24 | William J. Johnson | System and method for proactive content delivery by situation location |
| JP3686312B2 (ja) * | 2000-07-05 | 2005-08-24 | 日本電信電話株式会社 | 訳語検索方法、訳語検索装置及び訳語検索プログラムを記録した記録媒体 |
| US7136854B2 (en) * | 2000-07-06 | 2006-11-14 | Google, Inc. | Methods and apparatus for providing search results in response to an ambiguous search query |
| US8706747B2 (en) | 2000-07-06 | 2014-04-22 | Google Inc. | Systems and methods for searching using queries written in a different character-set and/or language from the target pages |
| US6529903B2 (en) * | 2000-07-06 | 2003-03-04 | Google, Inc. | Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query |
| WO2002009302A1 (en) | 2000-07-25 | 2002-01-31 | Cypus | Communication terminal capable for searching internet domain name, system and method for searching internet domain name using the same |
| US6968179B1 (en) | 2000-07-27 | 2005-11-22 | Microsoft Corporation | Place specific buddy list services |
| US20020021311A1 (en) * | 2000-08-14 | 2002-02-21 | Approximatch Ltd. | Data entry using a reduced keyboard |
| US20030217052A1 (en) * | 2000-08-24 | 2003-11-20 | Celebros Ltd. | Search engine method and apparatus |
| GB2366698A (en) * | 2000-09-01 | 2002-03-13 | Nokia Mobile Phones Ltd | Insertion of pre-stored text strings |
| JP2002092018A (ja) | 2000-09-18 | 2002-03-29 | Nec Software Hokkaido Ltd | 片仮名平仮名も含めた検索システム |
| CA2323856A1 (en) * | 2000-10-18 | 2002-04-18 | 602531 British Columbia Ltd. | Method, system and media for entering data in a personal computing device |
| US20060149686A1 (en) * | 2000-11-30 | 2006-07-06 | Allison Debonnett | Method of payment and settlement of goods and services via the INTERNET |
| US7028306B2 (en) | 2000-12-04 | 2006-04-11 | International Business Machines Corporation | Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers |
| EP1215659A1 (en) * | 2000-12-14 | 2002-06-19 | Nokia Corporation | Locally distibuted speech recognition system and method of its operation |
| EP1215661A1 (en) * | 2000-12-14 | 2002-06-19 | TELEFONAKTIEBOLAGET L M ERICSSON (publ) | Mobile terminal controllable by spoken utterances |
| JP2002215660A (ja) * | 2001-01-16 | 2002-08-02 | Mitsubishi Heavy Ind Ltd | 検索システム及びこれに用いられるソフトウェア |
| JP3768105B2 (ja) * | 2001-01-29 | 2006-04-19 | 株式会社東芝 | 翻訳装置、翻訳方法並びに翻訳プログラム |
| GB0103053D0 (en) * | 2001-02-07 | 2001-03-21 | Nokia Mobile Phones Ltd | A communication terminal having a predictive text editor application |
| US7027987B1 (en) * | 2001-02-07 | 2006-04-11 | Google Inc. | Voice interface for a search engine |
| JP2002251410A (ja) | 2001-02-26 | 2002-09-06 | Sharp Corp | 情報検索装置、情報検索プログラムおよび情報検索プログラムを記録したコンピュータ読取可能な記録媒体 |
| JP3764058B2 (ja) * | 2001-03-01 | 2006-04-05 | 株式会社東芝 | 翻訳装置、翻訳方法及び翻訳プログラム |
| JP3379090B2 (ja) * | 2001-03-02 | 2003-02-17 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム |
| US7231381B2 (en) * | 2001-03-13 | 2007-06-12 | Microsoft Corporation | Media content search engine incorporating text content and user log mining |
| US8744835B2 (en) * | 2001-03-16 | 2014-06-03 | Meaningful Machines Llc | Content conversion method and apparatus |
| US7103534B2 (en) * | 2001-03-31 | 2006-09-05 | Microsoft Corporation | Machine learning contextual approach to word determination for text input via reduced keypad keys |
| KR20020084739A (ko) | 2001-05-02 | 2002-11-11 | 이재원 | 숫자입력을 이용한 인터넷 검색 및 접속 방법 |
| GB0111012D0 (en) * | 2001-05-04 | 2001-06-27 | Nokia Corp | A communication terminal having a predictive text editor application |
| US7366712B2 (en) | 2001-05-31 | 2008-04-29 | Intel Corporation | Information retrieval center gateway |
| US6947770B2 (en) * | 2001-06-22 | 2005-09-20 | Ericsson, Inc. | Convenient dialing of names and numbers from a phone without alpha keypad |
| US20030035519A1 (en) * | 2001-08-15 | 2003-02-20 | Warmus James L. | Methods and apparatus for accessing web content from a wireless telephone |
| JP3895955B2 (ja) * | 2001-08-24 | 2007-03-22 | 株式会社東芝 | 情報検索方法および情報検索システム |
| US20030054830A1 (en) * | 2001-09-04 | 2003-03-20 | Zi Corporation | Navigation system for mobile communication devices |
| US6944609B2 (en) * | 2001-10-18 | 2005-09-13 | Lycos, Inc. | Search results using editor feedback |
| KR100501079B1 (ko) | 2001-11-12 | 2005-07-18 | 주식회사 아이니드 | 네트워크 기반의 유사어 검색기술 응용시스템 및 방법 |
| US7533093B2 (en) | 2001-11-13 | 2009-05-12 | Koninklijke Philips Electronics N.V. | Method and apparatus for evaluating the closeness of items in a recommender of such items |
| US7149550B2 (en) * | 2001-11-27 | 2006-12-12 | Nokia Corporation | Communication terminal having a text editor application with a word completion feature |
| US7283992B2 (en) * | 2001-11-30 | 2007-10-16 | Microsoft Corporation | Media agent to suggest contextually related media content |
| US6785654B2 (en) * | 2001-11-30 | 2004-08-31 | Dictaphone Corporation | Distributed speech recognition system with speech recognition engines offering multiple functionalities |
| US20030125947A1 (en) * | 2002-01-03 | 2003-07-03 | Yudkowsky Michael Allen | Network-accessible speaker-dependent voice models of multiple persons |
| US7565367B2 (en) * | 2002-01-15 | 2009-07-21 | Iac Search & Media, Inc. | Enhanced popularity ranking |
| US6952691B2 (en) | 2002-02-01 | 2005-10-04 | International Business Machines Corporation | Method and system for searching a multi-lingual database |
| US7167831B2 (en) * | 2002-02-04 | 2007-01-23 | Microsoft Corporation | Systems and methods for managing multiple grammars in a speech recognition system |
| ATE295567T1 (de) | 2002-03-22 | 2005-05-15 | Sony Ericsson Mobile Comm Ab | Texteingabe in ein elektronisches kommunikationsgerät |
| US20030187658A1 (en) * | 2002-03-29 | 2003-10-02 | Jari Selin | Method for text-to-speech service utilizing a uniform resource identifier |
| US7089178B2 (en) * | 2002-04-30 | 2006-08-08 | Qualcomm Inc. | Multistream network feature processing for a distributed speech recognition system |
| JP2004054918A (ja) * | 2002-05-30 | 2004-02-19 | Osaka Industrial Promotion Organization | 情報処理システム、情報表示装置、コンピュータプログラム、及び記録媒体 |
| US7013154B2 (en) * | 2002-06-27 | 2006-03-14 | Motorola, Inc. | Mapping text and audio information in text messaging devices and methods therefor |
| US7103854B2 (en) * | 2002-06-27 | 2006-09-05 | Tele Atlas North America, Inc. | System and method for associating text and graphical views of map information |
| WO2004003721A2 (en) * | 2002-07-01 | 2004-01-08 | Sony Ericsson Mobile Communications Ab | Entering text into an electronic communications device |
| US7386442B2 (en) * | 2002-07-03 | 2008-06-10 | Word Data Corp. | Code, system and method for representing a natural-language text in a form suitable for text manipulation |
| US7016895B2 (en) * | 2002-07-05 | 2006-03-21 | Word Data Corp. | Text-classification system and method |
| ATE449382T1 (de) | 2002-07-23 | 2009-12-15 | Research In Motion Ltd | Systeme und verfahren zur erstellung und verwendung von angepassten wörterlisten |
| US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
| US20040163032A1 (en) * | 2002-12-17 | 2004-08-19 | Jin Guo | Ambiguity resolution for predictive text entry |
| GB2396529B (en) * | 2002-12-20 | 2005-08-10 | Motorola Inc | Location-based mobile service provision |
| BR0215994A (pt) * | 2002-12-27 | 2005-11-01 | Nokia Corp | Terminal móvel, e, método de compressão de dados e de entrada de texto preditivo em um terminal móvel |
| US7076428B2 (en) * | 2002-12-30 | 2006-07-11 | Motorola, Inc. | Method and apparatus for selective distributed speech recognition |
| US7369988B1 (en) * | 2003-02-24 | 2008-05-06 | Sprint Spectrum L.P. | Method and system for voice-enabled text entry |
| FI116168B (fi) * | 2003-03-03 | 2005-09-30 | Flextronics Odm Luxembourg Sa | Datan syöttö |
| US7729913B1 (en) | 2003-03-18 | 2010-06-01 | A9.Com, Inc. | Generation and selection of voice recognition grammars for conducting database searches |
| KR100563787B1 (ko) | 2003-04-03 | 2006-03-30 | 주식회사 시티기술단 | 단위 옹벽판넬에 설치된 고강도 철근을 커플러로상호연결하여 단면력에 저항토록하면서, 프리스트레스를도입한 단위 옹벽판넬로 이루어진 옹벽조립체 및 이의조립시공방법 |
| KR100515641B1 (ko) | 2003-04-24 | 2005-09-22 | 우순조 | 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법 |
| US7395203B2 (en) * | 2003-07-30 | 2008-07-01 | Tegic Communications, Inc. | System and method for disambiguating phonetic input |
| US8200865B2 (en) * | 2003-09-11 | 2012-06-12 | Eatoni Ergonomics, Inc. | Efficient method and apparatus for text entry based on trigger sequences |
| GB2433002A (en) * | 2003-09-25 | 2007-06-06 | Canon Europa Nv | Processing of Text Data involving an Ambiguous Keyboard and Method thereof. |
| US7240049B2 (en) * | 2003-11-12 | 2007-07-03 | Yahoo! Inc. | Systems and methods for search query processing using trend analysis |
| US20050114312A1 (en) * | 2003-11-26 | 2005-05-26 | Microsoft Corporation | Efficient string searches using numeric keypad |
| US20050188330A1 (en) * | 2004-02-20 | 2005-08-25 | Griffin Jason T. | Predictive text input system for a mobile communication device |
| US7293019B2 (en) | 2004-03-02 | 2007-11-06 | Microsoft Corporation | Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics |
| US8676830B2 (en) | 2004-03-04 | 2014-03-18 | Yahoo! Inc. | Keyword recommendation for internet search engines |
| US7218249B2 (en) | 2004-06-08 | 2007-05-15 | Siemens Communications, Inc. | Hand-held communication device having navigation key-based predictive text entry |
| US8595687B2 (en) | 2004-06-23 | 2013-11-26 | Broadcom Corporation | Method and system for providing text information in an application framework for a wireless device |
| US8972444B2 (en) | 2004-06-25 | 2015-03-03 | Google Inc. | Nonstandard locality-based text entry |
| US8392453B2 (en) | 2004-06-25 | 2013-03-05 | Google Inc. | Nonstandard text entry |
| US20060212441A1 (en) * | 2004-10-25 | 2006-09-21 | Yuanhua Tang | Full text query and search systems and methods of use |
| US7737999B2 (en) | 2005-08-26 | 2010-06-15 | Veveo, Inc. | User interface for visual cooperation between text input and display device |
| US7779011B2 (en) | 2005-08-26 | 2010-08-17 | Veveo, Inc. | Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof |
| US7788266B2 (en) * | 2005-08-26 | 2010-08-31 | Veveo, Inc. | Method and system for processing ambiguous, multi-term search queries |
| US9471925B2 (en) * | 2005-09-14 | 2016-10-18 | Millennial Media Llc | Increasing mobile interactivity |
| US20070061211A1 (en) * | 2005-09-14 | 2007-03-15 | Jorey Ramer | Preventing mobile communication facility click fraud |
| US7647228B2 (en) | 2005-11-03 | 2010-01-12 | Apptera, Inc. | Method and apparatus for speech processing incorporating user intent |
| JP2007141123A (ja) * | 2005-11-22 | 2007-06-07 | Internatl Business Mach Corp <Ibm> | 異なるファイルの同一文字列のリンク |
| US7644054B2 (en) * | 2005-11-23 | 2010-01-05 | Veveo, Inc. | System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors |
| ATE480827T1 (de) * | 2005-11-23 | 2010-09-15 | Dun & Bradstreet Inc | System und verfahren zum durchsuchen und vergleichen von daten mit ideogrammatischem inhalt |
| US20070195063A1 (en) * | 2006-02-21 | 2007-08-23 | Wagner Paul T | Alphanumeric data processing in a telephone |
| WO2007103938A2 (en) | 2006-03-06 | 2007-09-13 | Veveo, Inc. | Methods and systems for selecting and presenting content based on learned user preferences |
| EP3822819A1 (en) | 2006-04-20 | 2021-05-19 | Veveo, Inc. | User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content |
| CA2663222C (en) * | 2006-09-14 | 2018-01-16 | Veveo, Inc. | Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters |
| US7979425B2 (en) * | 2006-10-25 | 2011-07-12 | Google Inc. | Server-side match |
| KR20100041145A (ko) * | 2008-10-13 | 2010-04-22 | 삼성전자주식회사 | 쿼티 키패드를 갖는 휴대 단말기의 발신 방법 및 전화번호 저장 방법 |
| US20100306249A1 (en) * | 2009-05-27 | 2010-12-02 | James Hill | Social network systems and methods |
| US20130304818A1 (en) * | 2009-12-01 | 2013-11-14 | Topsy Labs, Inc. | Systems and methods for discovery of related terms for social media content collection over social networks |
-
2003
- 2003-09-30 US US10/676,724 patent/US8706747B2/en not_active Expired - Fee Related
-
2004
- 2004-09-13 AT AT04783836T patent/ATE426206T1/de not_active IP Right Cessation
- 2004-09-13 DE DE602004020086T patent/DE602004020086D1/de not_active Expired - Lifetime
- 2004-09-13 EP EP11172796.2A patent/EP2388709B1/en not_active Expired - Lifetime
- 2004-09-13 ES ES04783836T patent/ES2323786T3/es not_active Expired - Lifetime
- 2004-09-13 CN CN2011101331474A patent/CN102236702B/zh not_active Expired - Fee Related
- 2004-09-13 WO PCT/US2004/029772 patent/WO2005033967A2/en not_active Ceased
- 2004-09-13 CN CNA2004800285354A patent/CN1860473A/zh active Pending
- 2004-09-13 KR KR1020117020833A patent/KR101261158B1/ko not_active Expired - Fee Related
- 2004-09-13 KR KR1020117020834A patent/KR20110117219A/ko not_active Abandoned
- 2004-09-13 KR KR1020067006282A patent/KR101140187B1/ko not_active Expired - Fee Related
- 2004-09-13 PL PL11172796T patent/PL2388709T3/pl unknown
- 2004-09-13 RU RU2006114696/09A patent/RU2363983C2/ru active
- 2004-09-13 EP EP09151235A patent/EP2043003A3/en not_active Ceased
- 2004-09-13 TR TR2018/16343T patent/TR201816343T4/tr unknown
- 2004-09-13 KR KR1020127005744A patent/KR101242961B1/ko not_active Expired - Fee Related
- 2004-09-13 EP EP04783836A patent/EP1676211B1/en not_active Expired - Lifetime
- 2004-09-13 JP JP2006533909A patent/JP4717821B2/ja not_active Expired - Fee Related
-
2010
- 2010-07-15 JP JP2010161104A patent/JP5231491B2/ja not_active Expired - Fee Related
-
2011
- 2011-02-07 JP JP2011024457A patent/JP5425820B2/ja not_active Expired - Fee Related
-
2013
- 2013-01-30 JP JP2013015114A patent/JP5608766B2/ja not_active Expired - Fee Related
-
2014
- 2014-03-06 US US14/199,249 patent/US9734197B2/en not_active Expired - Fee Related
-
2017
- 2017-08-08 US US15/671,968 patent/US20170351673A1/en not_active Abandoned
Also Published As
Similar Documents
| Publication | Publication Date | Title |
|---|---|---|
| ES2323786T3 (es) | Sistemas y metodos para buscar utilizando preguntas escritas en un conjunto de caracteres y/o idioma distinto al de las paginas objetivo. | |
| US8386237B2 (en) | Automatic correction of user input based on dictionary | |
| US9418158B2 (en) | Providing multi-lingual searching of mono-lingual content | |
| KR20100029221A (ko) | 명칭 엔터티와 신규 단어를 검출하는 것 | |
| KR20100009520A (ko) | 쿼리 확장을 위한 음역 | |
| WO2006010163A2 (en) | User interface and database structure for chinese phrasal stroke and phonetic text input | |
| CN101727195B (zh) | 汉语语音码多样信息输入方法 | |
| KR102471032B1 (ko) | 외국어 번역 및 학습 서비스 제공 장치, 방법 및 프로그램 | |
| Mohanraj et al. | Bridging the Language Barrier: Document Access Across Languages | |
| HK1163858B (en) | Systems and methods for searching using queries written in a different character-set and/or language from the target pages | |
| HK1163858A (en) | Systems and methods for searching using queries written in a different character-set and/or language from the target pages | |
| KR20010008135A (ko) | 컴퓨터로 실행 가능한 한영 번역 서비스 방법 | |
| Hayashi | SriShell Primo: A Predictive Sinhala Text Input System | |
| Chaware et al. | EVALUATION OF PHONETIC MATCHING APPROACHES FOR HINDI AND MARATHI: INFORMATION RETRIEVAL | |
| HK1163846B (en) | A computer-implemented method and a system and device for performing searches using queries |