ES2323786T3 - Sistemas y metodos para buscar utilizando preguntas escritas en un conjunto de caracteres y/o idioma distinto al de las paginas objetivo. - Google Patents

Sistemas y metodos para buscar utilizando preguntas escritas en un conjunto de caracteres y/o idioma distinto al de las paginas objetivo. Download PDF

Info

Publication number
ES2323786T3
ES2323786T3 ES04783836T ES04783836T ES2323786T3 ES 2323786 T3 ES2323786 T3 ES 2323786T3 ES 04783836 T ES04783836 T ES 04783836T ES 04783836 T ES04783836 T ES 04783836T ES 2323786 T3 ES2323786 T3 ES 2323786T3
Authority
ES
Spain
Prior art keywords
term
format
anchor text
search
given
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES04783836T
Other languages
English (en)
Inventor
Vibhu Mittal
Jay M. Ponte
Mehran Sahami
Sanjay Ghemawat
John A. Bauer
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Application granted granted Critical
Publication of ES2323786T3 publication Critical patent/ES2323786T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • G06F16/24522Translation of natural language queries to structured queries
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2452Query translation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • G06F16/972Access to data in other repository systems, e.g. legacy data or dynamic Web page generation
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/02Input arrangements using manually operated switches, e.g. using keyboards or dials
    • G06F3/023Arrangements for converting discrete items of information into a coded form, e.g. arrangements for interpreting keyboard generated codes as alphanumeric codes, operand codes or instruction codes
    • G06F3/0233Character input methods
    • G06F3/0237Character input methods using prediction or retrieval techniques
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Information Transfer Between Computers (AREA)
  • Input From Keyboards Or The Like (AREA)
  • Telephonic Communication Services (AREA)

Abstract

Un método que comprende: la identificación (904) de un primer conjunto de texto de anclaje escrito en un primer formato y conteniendo un término dado; la identificación (906) de un conjunto de documentos hacia los cuales apunta el primer conjunto de texto de anclaje; la identificación (908) de un segundo conjunto de texto de anclaje escrito en un segundo formato, y apuntando al conjunto identificado de documentos; el análisis (910) del segundo conjunto de texto de anclaje para determinar que una representación del término dado en el primer formato se corresponde a la representación de un término dado en el segundo formato.

Description

Sistemas y métodos para buscar utilizando preguntas escritas en un conjunto de caracteres y/o idioma distinto al de las páginas objetivo.
Antecendentes de la invención 1. Campo de la invención
La presente invención está relacionada en general con la búsqueda y recuperación de información. Más concretamente, se describen sistemas y métodos para realizar búsquedas utilizando preguntas o consultas que están escritas en un conjunto de caracteres o idioma que es distinto del conjunto de caracteres o idioma de al menos alguno de los documentos que se están buscando.
2. Descripción de la técnica relacionada
La mayor parte de los motores de búsqueda operan bajo la suposición de que el usuario final está introduciendo las preguntas o consultas de búsqueda, utilizando un teclado convencional, en donde no es difícil la entrada de cadenas alfanuméricas. Sin embargo, conforme llegan a ser ya comunes los pequeños dispositivos, esta suposición no es siempre válida. Por ejemplo, los usuarios pueden consultar motores de búsqueda con la utilización de teléfonos radioeléctricos que soporten el sistema WAP estándar (protocolo de aplicaciones radioeléctricas). Los dispositivos tales como los teléfonos radioeléctricos tienen típicamente una interfaz de entrada de datos, en donde una acción en particular por parte del usuario (por ejemplo, la pulsación de una tecla) puede corresponder a más de un carácter alfanumérico. La descripción detallada de la arquitectura WAP se encuentra disponible en http://wwwl.wapforum.org/tech/documents/SPEC-WAPArch-19980439.pdf ("Especificación de la Arquitectura del protocolo de aplicaciones radioeléctricas WAP 100").
En el caso usual, el usuario de WAP navega hacia la página de consulta de búsqueda, y se le presenta un formato en el cual se introduce su pregunta o consulta de búsqueda. Con los métodos convencionales, se requiere al usuario que pulse múltiples teclas para seleccionar una letra en particular. En el teclado de un teléfono estándar, por ejemplo, el usuario seleccionaría la letra "b" mediante la pulsación de la tecla "2" dos veces, o bien seleccionaría la letra "s" por la pulsación de la tecla "7" cuatro veces. En consecuencia, para introducir una pregunta o consulta para "ben smith", el usuario necesitaría normalmente la introducción de la siguiente cadena de pulsaciones de las teclas:
223366077776444844, las cuales se corresponderían con las letras según lo siguiente:
22 -> b
33 -> e
66 -> n
0 -> espacio
7777 -> s
6 -> m
444 -> i
8 -> t
44 -> h
\vskip1.000000\baselineskip
Después de que el usuario haya introducido su pregunta o consulta de búsqueda, el motor de búsqueda recibe la palabra o palabras procedentes del usuario, y procederá de la misma forma que si recibiera la pregunta o consulta desde un navegador de sobremesa, en donde el usuario hubiera utilizado un teclado convencional.
Tal como puede observarse a partir del ejemplo anterior, está forma de introducción de los datos es ineficiente porque exige dieciocho pulsaciones de las teclas para poder introducir los nueve caracteres alfanuméricos (incluyendo el espacio) correspondientes a "ben smith".
Pueden surgir unas dificultades similares al teclear preguntas o consultas con la utilización de teclados de idiomas de no objetivo. Por ejemplo, el texto japonés puede ser expresado con la utilización de una variedad de conjuntos de caracteres distintos, con la inclusión de los caracteres haragana, katakana, y kanji, en donde ninguno de los mismos pueden introducirse fácilmente utilizando un teclado típico ASCII, que esté basado en el alfabeto romano. En dicha situación, el usuario hará uso frecuente de un procesador de textos tal como el Ichitaro, producido por JustSystem Corporation de Tokushima City, Japón, que es capaz de convertir el texto escrito en romaji (una representación fonética del alfabeto romano del japonés) a katakana, haragana, y kanji. Utilizando el procesador de textos, el usuario puede teclear una pregunta o consulta en romaji, y después cortar y pegar el texto traducido desde la pantalla del procesador de textos a un recuadro de búsqueda en el navegador. Un inconveniente de esta solución es que puede ser relativamente lenta y tediosa, y requiere tener acceso a una copia del procesador de textos, la cual puede no ser factible debido a las limitaciones de costo y/o memoria.
Queda pendiente, por tanto, la necesidad de métodos y aparatos para proporcionar unos resultados de búsqueda relevantes en respuesta a una pregunta o consulta de búsqueda eficiente.
El documento EP-A-597611 expone un sistema de análisis de documentos que gestiona los documentos en dos formatos.
La invención está expuesta en la reivindicación 1.
Los métodos y aparatos descritos aquí ampliamente, proporcionan unos resultados relevantes de la búsqueda, en respuesta a una pregunta o consulta de búsqueda ambigua. En forma compatible con la invención, dicho método incluye la recepción de una secuencia de componentes de información ambigua por parte del usuario. El método obtiene información de correspondencia que se corresponde con los componentes de información ambigua hacia unos componentes de información menos ambigua. Esta información de correspondencia se utiliza para traducir la secuencia de componentes de información ambigua en una o más secuencias correspondientes de componentes de información menos ambigua. Una o más de estas secuencias de información menos ambigua se proporcionan como una entrada a un motor de búsqueda. Los resultados de la búsqueda se obtienen del motor de búsqueda y son presentados al usuario.
Además de ello, se exponen sistemas y métodos para realizar búsquedas utilizando preguntas o consultas que se expresen en conjuntos de caracteres o idiomas que sean diferentes del conjunto de caracteres o idiomas de al menos algunos de los documentos en los que tenga que realizarse la búsqueda. Las realizaciones de la presente invención permitir al usuario el poder teclear las preguntas o consultas utilizando dispositivos estándar de entrada (por ejemplo, teclados ASCII), en donde se obtienen las consultadas traducidas a formatos relevantes en un servidor (por ejemplo, traducir una pregunta o consulta escrita en romaji a katakana, haragana, y/o kanji), y poder recibir los resultados de la búsqueda basándose en los formatos convertidos.
Se observará que la presente invención puede ser implementada de numerosas formas, incluyendo como un proceso, un aparato, un sistema, un dispositivo, un método, o bien un medio legible por ordenador, tal como un medio de almacenamiento legible por ordenador, onda portadora, o una red de ordenadores en donde las instrucciones del programa se envían a través de líneas de comunicación ópticas o electrónicas. Se describen más adelante varias realizaciones de la invención.
En una realización se describe un método para traducir automáticamente los términos de la pregunta o consulta desde un idioma y/o conjunto de caracteres a otro. Un primer conjunto de texto de anclaje conteniendo un termino de pregunta o consulta dado, son como un conjunto de documentos (por ejemplo, páginas Web) al cual apunta el texto de anclaje. Un segundo conjunto de texto de anclaje, escrito en un segundo formato y apuntando al mismo conjunto de documentos, queda de esta forma identificado. El segundo conjunto de texto de anclaje es entonces analizado, para poder obtener una probabilidad en donde una representación del término dado de la pregunta o consulta en el primer formato pueda corresponder a una representación del término dado de la pregunta o consulta en el segundo formato.
Incluso en otra realización, una pregunta o consulta provista en un primer idioma o conjunto de caracteres es traducida a una segunda lengua o conjunto de caracteres, mediante la comparación del texto de anclaje que contiene uno o más de los términos de la pregunta o consulta y que están escritos en el primer idioma o conjunto de caracteres con el texto de anclaje que corresponde al primer texto de anclaje y que está escrito en el segundo idioma o conjunto de caracteres.
En otra realización, se proporciona un producto de un programa de ordenador para traducir un término escrito en un primer formato a un segundo formato. El producto del programa de ordenador es operativo para provocar que un sistema de ordenadores identifique el texto de anclaje alineado, y para determinar una probabilidad de que una representación de un término dado en el primer formato se corresponda con uno o más términos en el segundo formato.
En otra realización, se proporciona un método para ejecutar búsquedas utilizando preguntas o consultas potencialmente ambiguas. Cuando un usuario introduzca una pregunta o consulta en un primer formato, se traducirá a un grupo de una o más variantes en un segundo formato. Se ejecuta entonces una búsqueda utilizando las variantes traducidas, y retornando la información sensible al usuario. Por ejemplo, el primer formato podría comprender una secuencia de números introducidos utilizando un teclado de teléfono, y el segundo formato podría comprender un texto alfanumérico (por ejemplo, inglés, romaji, romaja, pinyin, o similares). En algunas realizaciones, el grupo de una o más variantes se selecciona, mediante el descarte de variantes traducidas que no aparezcan en un léxico predefinido, y/o que contienen combinaciones de caracteres predefinidos de baja probabilidad. En algunas realizaciones, se utiliza un diccionario probabilística para traducir adicionalmente el grupo de una o más variantes en un tercer formato antes de ejecutar la búsqueda. Por ejemplo, el diccionario probabilística puede ser utilizado para traducir el grupo de una o más variantes desde el romaji, romaja, o pinyin, a kanji, katakana, haragana, hangul, hanja, o caracteres chinos tradicionales, y la búsqueda puede ejecutarse entonces utilizando las variantes traducidas.
Estas y otras características y ventajas de la presente invención se presentarán con más detalle en la siguiente descripción detallada y en las figuras adjuntas, las cuales ilustran a modo de ejemplo los principios de la invención.
Breve descripción de los dibujos
Los dibujos adjuntos que se incorporan y que constituyen una parte de esta memoria descriptiva, ilustran las realizaciones de la invención, y que conjuntamente con la descripción, sirven para explicar las ventajas y principios de la invención. En los dibujos:
la figura 1 ilustra un diagrama de bloques de un sistema en el cual pueden implementarse métodos y aparatos compatibles con la presente invención;
la figura 2 ilustra un diagrama de bloques de un dispositivo de cliente, compatible con la invención;
la figura 3 ilustra un diagrama que describe tres documentos;
la figura 4a ilustra un índice alfanumérico convencional;
la figura 4b ilustra un diagrama de flujo para proporcionar los resultados de la búsqueda en respuesta a una pregunta o consulta de búsqueda alfanumérica convencional;
la figura 5a ilustra un diagrama de flujo, compatible con la invención, para proporcionar los resultados de la búsqueda, en respuesta a una pregunta o consulta de búsqueda ambigua;
la figura 5b ilustra un diagrama para la correspondencia de información alfanumérica con la información numérica; y
la figura 6 ilustra otro diagrama de flujo, compatible con la invención, para proporcionar resultados de la búsqueda en respuesta a una pregunta o consulta de búsqueda ambigua.
La figura 7 ilustra un método para ejecutar una búsqueda de acuerdo con las realizaciones de la presente invención.
La figura 8 ilustra un diccionario probabilística de traducciones de conjuntos de caracteres.
La figura 9 ilustra el uso de texto de anclaje paralelo para construir un diccionario probabilístico.
La figura 10 ilustra una recolección de documentos enlazados utilizando el texto de anclaje.
Las figuras 11A y 11B ilustran el cálculo de traducciones probables basándose en el texto de anclaje mostrado en la figura 10.
La figura 12 muestra una distribución de probabilidad asociada con una traducción de palabras ilustrativas.
Descripción de realizaciones específicas
Se hará ahora referencia con detalle a las realizaciones de la presente invención según lo ilustrado en los dibujos adjuntos. Los mismo números de referencia pueden utilizarse a través de la totalidad de los dibujos y de la siguiente descripción para referirse a las mismas partes o similares. La siguiente descripción se presenta para permitir que cualquier persona en la técnica pueda hacer realizar y utilizar el cuerpo operativo de la invención. Las descripciones de las realizaciones específicas y aplicaciones se proporcionan solamente como ejemplos, y las distintas modificaciones podrán ser evidentes fácilmente para los técnicos especializados en la técnica. Por ejemplo, aunque muchos de los ejemplos se describen en el contexto de páginas Web de Internet, se comprenderá que las realizaciones de la invención presente podrían utilizarse para buscar otros tipos de documentos y/o información, tales como libros, periódicos, revistas o similares. De forma similar, aunque en aras de la ilustración muchos de los ejemplos describen la traducción de texto japonés de romaji a katakana, haragana, y/o kanji, los técnicos especializados en la técnica apreciarán que los sistemas y métodos de la presente invención podrán aplicarse a cualquier traducción adecuada. Por ejemplo, sin limitación alguna, las realizaciones de la presente invención podrían utilizarse para buscar texto escrito, por ejemplo, con caracteres chinos tradicionales o caracteres coreanos en hangul o hanja, basándose en las preguntas o consultas recibidas en algún otro formato (por ejemplo, pinyin o romaja). Los principios generales aquí descritos podrán aplicarse a otras realizaciones y aplicaciones sin desviarse del espíritu y alcance de la invención. Así pues, la presente invención tiene que estar de acuerdo con el alcance más amplio, abarcando numerosas alternativas, modificaciones y equivalentes compatibles con los principios y características aquí expuestos. Con los fines de la claridad, los detalles relacionados con el material técnico que es conocido en los campos relacionados con la invención, no han sido descritos con detalle, con el fin de no oscurecer innecesariamente la presente invención.
A. Generalidades
Los métodos y aparatos compatibles con la invención permiten a un usuario el proponer una pregunta o consulta de búsqueda ambigua, y recibir unos resultados de búsqueda potencialmente sin ambigüedad. En una realización, una secuencia de números recibidos de un usuario de un teclado de teléfono estándar se traduce a un conjunto de secuencias alfanuméricas potencialmente correspondientes. Estas secuencias alfanuméricas correspondientes se proporcionan como una entrada a un motor de búsqueda convencional, utilizando una expresión booleriana "O". De esta forma el motor de búsqueda se utiliza para ayudar a limitar los resultados de la búsqueda en la cual se interesó probablemente el usuario.
B. Arquitectura
La figura 1 ilustra un sistema 100 en el cual pueden ser implementados métodos y aparatos compatibles con la presente invención. El sistema 100 puede incluir múltiples dispositivos de cliente 110 conectados a múltiples servidores 120 y 130 por medio de una red 140. La red 140 puede incluir una red de área local (LAN), una red de área amplia (WAN), una red telefónica, tal como la red telefónica conmutada pública (PSTN), una intrared, Internet., o una combinación de redes. Se han ilustrado dos dispositivos 110 de cliente, y tres servidores 120 y 130, conectados a la red 140 en aras de la simplicidad. En la práctica, pueden existir más o menos dispositivos de clientes y servidores. Así mismo, en algunos casos, un dispositivo de cliente puede ejecutar las funciones de un servidor, y un servidor puede ejecutar las funciones de un dispositivo de cliente.
Los dispositivos de cliente 110 pueden incluir dispositivos, tales como grandes ordenadores, miniordenadores, ordenadores personales, ordenadores portátiles, asistentes personales digitales (PDA), o similares, capaces de conectar con la red 140. Los dispositivos de cliente 110 pueden transmitir datos a través de la red 140 o bien recibir datos de la red 140 a través de una conexión cableada, radioeléctrica o bien de tipo óptico.
La figura 2 ilustra un dispositivo 110 de cliente a modo de ejemplo, compatible con la presente invención. El dispositivo de cliente 110 puede incluir un bus 210, un procesador 220, una memoria principal 230, una memoria de solo lectura (ROM) 240, un dispositivo de almacenamiento 250, un dispositivo de entrada 260, un dispositivo de salida 270 y una interfaz de comunicaciones 280.
El bus 210 puede incluir uno o más buses convencionales que permitan la comunicación entre los componentes del dispositivo de cliente 110. El procesador 220 puede incluir cualquier tipo de procesador o microprocesador convencional que interprete y ejecute instrucciones. La memoria principal 230 puede incluir una memoria de acceso aleatorio (RAM) o bien otro tipo de dispositivo de almacenamiento dinámico, que almacene información e instrucciones para su ejecución por el procesador 220. La memoria ROM 240 puede incluir un dispositivo ROM convencional o bien otro tipo de dispositivo de almacenamiento estático, que almacene información e instrucciones estáticas para su utilización por el procesador 220. El dispositivo de almacenamiento 250 puede incluir un medio de grabación magnético y/u óptico y su unidad operativa correspondiente.
El dispositivo de entrada 260 puede incluir uno o más mecanismos convencionales que permitan a un usuario el poder introducir información en el dispositivo de cliente 110, tal como un teclado, un ratón, un lápiz, mecanismos de reconocimiento de voz y/o de tipo biométrico, etc. El dispositivo de salida 270 puede incluir uno o más mecanismos convencionales que proporcionen salida de la información hacia el usuario, incluyendo una pantalla, una impresora, un altavoz, etc. La interfaz de comunicaciones 280 puede incluir cualquier mecanismo similar a un transceptor que permita al dispositivo de cliente 110 el poder comunicar con otros dispositivos y/o sistemas. Por ejemplo, la interfaz de comunicaciones 280 puede incluir mecanismos para la comunicación con otro dispositivo o sistema a través de una red, tal como la red 140.
Tal como se describirá con detalle más adelante, los dispositivos de cliente 110, compatibles con la presente invención, ejecutan ciertas operaciones relacionadas con la búsqueda. Los dispositivos 110 de cliente pueden ejecutar estas operaciones en respuesta a un procesador 220 al ejecutar las instrucciones de software contenidas en un medio legible por ordenador, tal como la memoria 230. Un medio legible por ordenador puede ser definido como uno o más dispositivos de memoria y/o bien ondas portadoras. Las instrucciones de software pueden ser leídas en la memoria 230 desde otro medio legible por ordenador, tal como el dispositivo 250 de almacenamiento de datos, o desde otro dispositivo a través del dispositivo 280 de comunicaciones. Las instrucciones de software contenidas en la memoria 230 provocan que el procesador 220 ejecute las actividades relacionadas con la búsqueda descrita más adelante. Alternativamente, pueden utilizarse circuitos físicos cableados en lugar o en combinación con las instrucciones de software, para implementar procesos compatibles con la presente invención. Así pues, la presente invención no está limitada a cualquier combinación específica del circuito físico y del software.
Los servidores 120 y 130 pueden incluir uno o más tipos de sistemas de ordenadores, tal como un ordenador central, miniordenador, o bien un ordenador personal, capaz de conectar con la red 140, para habilitar a que los servidores 120 y 130 puedan comunicar con los dispositivos de cliente 110. En las implementaciones alternativas, los servidores 120 y 130 pueden incluir mecanismos para conectar directamente con uno o más dispositivos de cliente 110. Los servidores 120 y 130 pueden transmitir datos a través de la red 140, o bien recibir datos de la red 140 a través de una conexión cableada, radioeléctrica ú óptica.
Los servidores pueden estar configurados de una forma similar a la descrita anteriormente con referencia a la figura 2 par el dispositivo 110 de cliente. En una implementación compatible con la presente invención, el servidor 120 puede incluir un motor de búsqueda 125 utilizable por los dispositivos 110 de cliente. Los servidores 130 pueden almacenar documentos (o páginas Web) accesibles por los dispositivos 110 de cliente.
C. Operación de la arquitectura de configuración
La figura 3 ilustra un diagrama que describe tres documentos, los cuales pueden almacenarse por ejemplo en uno de los servidores 130.
Un primer documento (Documento 1) contiene dos entradas - -"reparación de coches"- - y que está numerado con "3" en su parte inferior. Un segundo documento (Documento 2) contiene la entrada "Alquiler de vídeos". Un tercer documento (Documento 3) contiene tres entradas de - -"vino", "champagne", y "artículos de bar"- - que incluye un enlace (o referencia) al Documento 2.
En aras de la simplicidad ilustrativa, los documentos mostrados en la figura 3 contienen solamente cadenas alfanuméricas de información (por ejemplo, "coche", "reparación", "vino", etc.). Los técnicos especializados en la técnica reconocerán, sin embargo, que en otras situaciones los documentos podrían contener otros tipos de información, tal como la información de fonética, o bien audiovisual.
La figura 4a ilustra un índice alfanumérico convencional, basado en los documentos mostrados en la figura 3. La primera columna del índice contiene una lista de términos alfanuméricos, y la segunda columna contiene una lista de los documentos correspondiente a dichos términos. Algunos términos, tales como el termino "3" alfanumérico, solo corresponde (por ejemplo, aparece) en un documento, en este caso en el Documento 1. Otros términos, tales como "alquiler", corresponde a múltiples documentos, en este caso en los Documentos 1 y 2.
La figura 4b ilustra la forma en que un motor de búsqueda convencional, tal como el motor de búsqueda 125, utilizaría el índice ilustrado en la figura 4a para proporcionar resultados de la búsqueda, en respuesta a una pregunta o consulta de búsqueda alfanumérica. La pregunta o consulta alfanumérica puede ser generada utilizando cualquier técnica convencional. Para los fines de la ilustración, la figura 4b describe dos preguntas o consultas alfanuméricas: "coche" y "vino". Bajo una solución convencional, el motor de búsqueda 125 recibe una pregunta o consulta alfanumérica, tal como "coche" (etapa 410), y utiliza el índice alfanumérico para determinar cuales son los documentos que corresponden a dicha pregunta o consulta (etapa 420). En este ejemplo, un motor 125 de búsqueda convencional utilizaría el índice ilustrado en la figura 4a, para determinar que "coche" corresponderá al Documento 1, y retornaría el Documento 1 (o una referencia al mismo) al usuario como un resultado de la búsqueda. De forma similar, un motor de búsqueda convencional determinaría que "vino" corresponderá al Documento 3 y retornaría el Documento 3 (o una referencia al mismo) al usuario (etapa 430).
La figura 5a ilustra un diagrama de flujo, compatible con la invención, de una técnica preferida para proporcionar resultados de búsquedas, en respuesta a una pregunta o consulta de búsqueda numérica, basándose en los documentos y el índice mostrados en las figuras 3 y 4a, respectivamente. En aras de la claridad de exposición, la figura 5a describe una técnica en particular para procesar una pregunta o consulta numérica, basándose en la correspondencia o mapeado con un teléfono de mano estándar; no obstante, los técnicos especializados en la técnica reconocerán que pueden utilizarse otras técnicas compatibles con la invención.
En la etapa 510, la secuencia "227" (consistente en los componentes numéricos "2", "2" y "7") es recibida procedente de un usuario. En la etapa 520, se obtiene la información de cómo los componentes numéricos se corresponden con letras. Suponiendo que el usuario introdujo la información desde un teclado de teléfono estándar, esta información de correspondencia o mapeado se muestra en la figura 5b. Tal como se muestra en la figura 5b, las letras "a", "b", y "c" se corresponden cada una con el numero "1", las letras "p", "q", "r", y "s" se corresponden cada una con el numero "7", y así sucesivamente.
En la etapa 530, utilizando esta información de mapeado o correspondencia, la secuencia "227" se traduce a sus equivalentes potenciales alfanuméricos. Basándose en la información mostrada en la figura 5b, existen 36 combinaciones posibles de letras, que corresponden a la secuencia "227", incluyendo las siguientes: aap, bap, cap, abp,
bbp, ... bar ... coche ... ccs. Si los números están incluidos en las posibles combinaciones (por ejemplo, "aa7") entonces existirían 80 combinaciones posibles. En lugar de generar todos los posibles equivalentes alfanuméricos, puede ser deseable el limitar los equivalentes generados basándose en algún léxico. Por ejemplo, puede ser deseable generar solo aquellos equivalentes alfanuméricos que puedan aparecer en un diccionario, en un registro de motores de búsqueda de las preguntas o consultas de búsqueda previas, etc.; o bien por el contrario limitar los equivalentes alfanuméricos mediante la utilización de técnicas estadísticas conocidas (por ejemplo, la probabilidad de ciertas palabras que aparezcan conjuntamente).
En la etapa 540, estos equivalentes alfanuméricos se proporcionan como una entrada al motor de búsqueda convencional, tales como los descritos con referencia a las figuras 4a y 4b, utilizando una operación lógica "O". Por ejemplo, la pregunta o consulta de búsqueda proporcionada al motor de búsqueda podría ser "aap O bap O cap O abp ... O bar ... O coche". Aunque pueden proporcionarse al motor de búsqueda todos los posibles equivalentes alfanuméricos, un subconjunto puede en su lugar utilizarse mediante el uso de técnicas convencionales, para eliminar equivalentes improbables. Por ejemplo, se podría generar una lista más estrecha de posibles combinaciones, mediante el uso de técnicas que utilizaran la información probabilística sobre el uso de letras o palabras: se podrían ignorar las combinaciones que empezaran con "qt", pero incluyendo (y favoreciendo) las combinaciones que comenzaran con "qu".
En la etapa 550, los resultados de búsqueda se obtienen a partir del motor de búsqueda. Debido a que los términos tales como "aap" y "abp" no aparecen en el índice del motor de búsqueda, se ignorarán realmente. En realidad, los únicos términos contenidos dentro del índice mostrado en la figura 4b son "coche" y "bar", y por tanto los únicos resultados de la búsqueda retornados son aquellos que hacen referencia a los Documentos 1 y 3. En la etapa 560, estos resultados de búsqueda se presentan ante el usuario. Los resultados de la búsqueda pueden ser presentados en el mismo orden proporcionado por el motor de búsqueda, o bien pueden reordenarse basándose en consideraciones tales como el idioma del usuario. Suponiendo que el usuario fuera el único interesado en los documentos que contuvieran el término "bar", el usuario recibiría un resultado no deseable (Documento 3) además del resultado deseado (Documento 1). Este puede ser un precio aceptable a pagar, no obstante, con la ventaja de que el usuario tenga solo que pulsar tres teclas para formular la pregunta o consulta de búsqueda.
La figura 6 ilustra otro diagrama de flujo, compatible con la invención, de una técnica preferida para proporcionar resultados de búsquedas, en respuesta a la pregunta o consulta de búsqueda numérica, basándose en los documentos y en el índice mostrados en las figuras 3 y 4a, respectivamente. Este diagrama de flujo demuestra la forma en donde al incrementar la dimensión de la secuencia recibida se puede ayudar a limitar los resultados de la búsqueda a los deseados por el usuario. En aras de la claridad de exposición ilustrativa, la figura 6 describe de nuevo una técnica en particular para procesar una pregunta o consulta numérica basándose en la correspondencia o mapeado de un teléfono de mano estándar; aunque los técnicos especializados en la técnica reconocerán que pueden utilizarse otras técnicas compatibles con la invención.
En la etapa 610, la secuencia "227 48367" (que consiste en los componentes numéricos "2", "2", "7", "4", "8", "3", "6", "7") es recibida procedente del usuario. En aras de la simplificación de la explicación, la secuencia "227" se denominará como "palabra numérica" y la secuencia completa "227 48367" se denominará como "frase numérica". Los posibles equivalentes alfanuméricos de una palabra numérica se denominarán como "palabras de letras" y los equivalentes posibles alfanuméricos de una frase numérica se denominarán como "frases de letras".
En la etapa 620, la información se obtiene en torno a como los componentes numéricos se corresponden o se mapean con las letras. Suponiendo que la misma información de correspondencia se utiliza tal como se muestra en la figura 5b, en la etapa 630, la frase numérica "227 48367" se traduce en las frases de letras potencialmente correspondientes. Basándose en la información mostrada en la figura 5b, existen 11664 posibles frases de letras que se corresponden con la secuencia "227 48367".
En la etapa 640, las frases de letras se proporcionan como una entrada a un motor de búsqueda convencional, tal como el descrito con referencia a las figuras 4a y 4b, utilizando una operación lógica "O". Por ejemplo, la pregunta o consulta de búsqueda que se proporciona al motor de búsqueda podría ser "`aap gtdmp' O `aap htdmp' ... O `artículos de bar'". Aunque todas las frases de letras posibles pueden ser suministradas al motor de búsqueda, puede en su lugar utilizarse un subconjunto mediante la utilización de técnicas convencionales para eliminar las frases de letras que sean improbables.
En la etapa 650, los resultados de la búsqueda se obtienen a partir del motor de búsqueda. Debido a que muchos motores de búsqueda están diseñados para que tengan un alto rango los documentos que contengan la frase exacta, el Documento 3 sería probablemente el resultado de búsqueda de más alto rango (es decir, debido a que contiene la frase exacta de "artículos de bar"). Ningún otro documento en el ejemplo contiene una de las demás frases de letras generadas en la etapa 620. Además de ello, muchos motores de búsqueda rebajan el rango (o lo eliminan) de los resultados de búsqueda que contengan partes individuales de una frase pero no la frase completa. Por ejemplo, el Documento 1 se rebajaría en su rango o se eliminaría debido a que contiene la palabra de letras "coche", la cual corresponde a la primera parte de la frase de letras, aunque no contiene ninguna palabra de letras que se corresponda con la segunda parte de la frase de letras. Finalmente, las frases de letras tales como "aap htdmp" se ignoran realmente porque no contienen palabras de letras que aparezcan en el índice del motor de búsqueda.
En la etapa 660, los resultados de la búsqueda se presentan ante el usuario. En el ejemplo mostrado, el primer resultado mostrado ante el usuario sería el Documento 3, el cual es probablemente el más relevante para la pregunta o consulta del usuario. El Documento 1 puede ser eliminado conjuntamente, porque no contiene una de las posibles frases de letras. De esta forma, el usuario está provisto con los resultados de búsqueda más relevantes.
Aunque las descripciones anteriores con referencia a las figuras 5 y 6 se realizan con referencia a la información numérica recibida, y en correspondencia con la información alfanumérica, los técnicos especializados en la técnica reconocerán que son posibles otras implementaciones compatibles con la invención. Por ejemplo, en lugar de recibir una secuencia de números correspondientes a las teclas pulsadas por un usuario, la secuencia recibida puede comprender las primeras letras correspondientes a las teclas pulsadas por el usuario. En otras palabras, en lugar de recibir "227", la secuencia recibida puede ser "aap". En forma compatible con la invención, las secuencias de letras equivalentes generadas en las etapas 530 ó 630 podrían ser otras secuencias de letras (por ejemplo, "bar") que correspondan a "aap". En realidad, la secuencia recibida puede contener elementos fonéticos, audiovisuales, o bien cualquier otro tipo de componentes de información.
Independientemente del formato en el cual se reciba la secuencia, se prefiere en general que la secuencia recibida sea traducida a una secuencia que corresponda l formato en el cual la información se almacene en el índice del motor de búsqueda. Por ejemplo, si el índice del motor de búsqueda se almacena en el formato alfanumérico, la secuencia recibida se traduciría a secuencias alfanuméricas.
Adicionalmente, se prefiere en general que la técnica de correspondencia o mapeado que se utilice para traducir la secuencia recibida de los componentes de información sea la misma técnica que se utilice en el dispositivo de usuario para realizar la correspondencia o mapeado de la entrada del usuario en la información generada por el dispositivo. No obstante, pueden ser casos en que sea preferible utilizar una técnica de correspondencia o mapeado distinta a la utilizada para la entrada del usuario.
Las realizaciones de la presente invención pueden habilitar a los usuarios para poder ejecutar búsquedas introducidas utilizando teclados de idiomas que no sean del objetivo perseguido. Por ejemplo, una página Web que contenga un texto japonés podrá ser escrita en kanji, mientras que un usuario que intente buscar dicha página puede solamente tener acceso a un teclado ASCII estándar (o teléfono de mano) basado en el alfabeto Romano.
La figura 7 ilustra un método para ejecutar dicha búsqueda. Tal como se muestra en la figura 7, un usuario teclea una pregunta o consulta, utilizando un dispositivo de entrada estándar (por ejemplo, un teclado ASCII, un teléfono de mano, etc.), y envía la pregunta o consulta al motor de búsqueda. La pregunta o consulta puede escribirse en un conjunto de caracteres (por ejemplo, romaji) que sea distinto del conjunto de caracteres en el cual algunos de los documentos sensibles estén escritos (por ejemplo, kanji). El motor de búsqueda recibe la pregunta o consulta (bloque 702), traduce la misma al formato(s) relevante (bloque 704), y ejecuta una búsqueda de los documentos sensibles a la pregunta o consulta traducida, atizando por ejemplo las técnicas de búsqueda convencionales (bloque 706). El motor de búsqueda retorna entonces una lista de documentos sensibles (y/o copias de los propios documentos) al usuario (bloque 708). Por ejemplo, los resultados podrían ser retornados al usuario de una forma similar a la descrita antes en relación con la figura 6.
Tal como se muestra en la figura 7, la pregunta o consulta del usuario se traduce preferiblemente en el servidor del motor de búsqueda, en oposición al cliente, liberando así al usuario de la necesidad de obtener un software de propósito especial para poder ejecutar la traducción. No obstante, se observará que en otras realizaciones, una parte o todas las traducciones podrían ser ejecutadas en el cliente. Además de ello, en algunas realizaciones la pregunta o consulta puede introducirse utilizando un dispositivo tal como un teclado de teléfono. En tales realizaciones, la pregunta o consulta inicial numérica puede convertirse primeramente a un formato alfanumérico (por ejemplo, romaji), utilizando las técnicas de mapeado o correspondencia anteriormente descritas en relación con las figuras 5 y 6, incluyendo por ejemplo la aplicación de un léxico y/o técnicas probabilísticas para descartar los mapeados o correspondencias de baja probabilidad (por ejemplo, los mapeados que incluyan combinaciones de letras que no tengan presencia en romaji). Una vez que se haya obtenido una traducción alfanumérica de la pregunta o consulta, podrían ser ejecutadas el resto de las etapas mostradas en la figura 7 (es decir, 704, 706 y 708).
La traducción de la pregunta o consulta desde un conjunto de caracteres a otro (es decir el bloque 704 en la figura 7) puede ejecutarse en distintas formas. Una técnica es utilizar un diccionario convencional estático de significados o traducciones de las palabras, para mapear o hacer corresponder cada término en la pregunta o consulta en un término correspondiente en el idioma del objetivo o conjunto de caracteres. No obstante, un problema existente con esta solución es que generará frecuentemente resultados no precisos, puesto que las palabras son frecuentemente ambiguas, y las preguntas o consultas serán con frecuencia demasiado cortas para poder proporcionar indicios contextuales adecuados para poder resolver esta ambigüedad. Por ejemplo, la palabra "banco" puede referirse a la orilla del río, o a una institución financiera, o a una maniobra de un aeroplano, haciendo así difícil el traducir con precisión en lo abstracto. Además de ello, si el diccionario no es relativamente grande y/o actualizado frecuentemente, podrá no contener entradas para todos los términos que el motor de búsqueda pueda encontrar, tal como palabras apenas utilizadas, argot, modismos, nombres propios o similares.
Las realizaciones de la presente invención pueden utilizarse para solucionar o atenuar algunos o todos estos problemas, mediante el uso de un diccionario probabilístico para traducir los términos de la pregunta o consulta desde un idioma o conjunto de caracteres (por ejemplo, ASCII) a otro (por ejemplo, kanji). En una realización preferida, el diccionario probabilístico mapea o hace corresponder un conjunto de términos a otro conjunto de términos, y asocia una probabilidad con cada uno de los mapeados o correspondencias. Por conveniencia, un "término" o "señal" se referirá a palabras, frases, y/o (más en general) a secuencias de uno o más caracteres que puedan incluir espacios.
La figura 8 muestra un ejemplo de un diccionario probabilístico 800 tal como el descrito anteriormente. El diccionario probabilístico 800 del ejemplo mostrado en la figura 8 mapea o hace corresponder las palabras escritas en romaji (una representación alfabética del alfabeto Romano del Japonés) a palabras escritas en kanji (un conjunto romano de caracteres japoneses basado en ideogramas). Para facilitar la explicación, la figura 8 representa términos en romaji como "<término>_{romaji}", y términos kanji como "<término>_{kanji}". Se observará que en un diccionario actual de romaji a kanji, se usarían los términos actuales de romaji y kanji, en lugar de las traducciones en Inglés mostradas en la figura 8. Por tanto, se observará que la figura 8 está provista para facilitar una explicación de las realizaciones de la presente invención, y no para ilustrar las características actuales y el significado del texto japonés.
\newpage
El diccionario 800 contiene las entradas 808, 810, 812, 814 para varios términos romaji 802. El diccionario contiene también las representaciones potenciales de cada uno de estos términos en kanji 804, junto con la probabilidad correspondiente 806 de cada representación es correcta. Por ejemplo, el término romaji "banco" podría corresponderse o mapearse con el término kanji de significado "pendiente escarpada" con probabilidad 0,3, a un termino de significado "institución financiera" con probabilidad 0,4, y a un termino de significado "maniobra del aeroplano" con probabilidad 0,2. Con probabilidad 0,1, el término podría corresponderse o mapearse con "otro", lo cual es una forma genérica de permitir que cada término se corresponda con los términos que puedan no estar en el diccionario.
De nuevo, se observará que el ejemplo mostrado en la figura 8 ha sido construido para ilustrar que un término dado (por ejemplo, la palabra "banco") en un primer conjunto de caracteres o idioma, puede mapearse o corresponderse con más de un término en otro conjunto de caracteres o idioma. El técnico especializado en la técnica observará, no obstante, que mientras que en aras de la claridad el ejemplo particular de la figura 8 ilustra este principio, utilizando palabras y significados ingleses, la representación en romaji actual de la palabra "banco", por ejemplo, podría no ser ambigua en el mismo formato que en el equivalente inglés (por ejemplo, puede no existir ambigüedad en romaji entre la palabra para la institución financiera y la palabra para la maniobra de aeroplano). Se observará que para facilitar la explicación, el diccionario mostrado en la figura 8 se ha simplificado en otros aspectos también. Por ejemplo, un diccionario probabilístico actual podría contener muchas correspondencias o mapeados potenciales para cada término, o podría contener solo las correspondencias que excedieran de un umbral de probabilidad predefinido.
Las realizaciones preferidas de la presente invención utilizan dicho diccionario probabilístico para la traducción de preguntas o consultas expresadas en un idioma 7/o conjunto de caracteres, habilitando por tanto a los usuarios a encontrar documentos escritos en un conjunto diferente de caracteres y/o en un idioma distinto al de la pregunta o consulta original. Por ejemplo, si el usuario introduce una pregunta o consulta para "coches" en romaji, el diccionario probabilístico podrá ser utilizado para la correspondencia del término romaji para "coches", por ejemplo, para el término kanji para "coches". De esta forma, los usuarios pueden encontrar documentos relacionados con sus preguntas o consultas, incluso aunque el conjunto de caracteres de las preguntas o consultas (por ejemplo, romaji) y el conjunto de caracteres de los documentos iguales (por ejemplo, kanji) no sean los mismos. Se observará que en este ejemplo en particular, el idioma actual de la pregunta o consulta no se ha cambiado (tanto el romaji como el kanji se utilizan para expresar el Japonés), y si solo la codificación de los caracteres.
Como otro ejemplo adicional, el término "cansado" en inglés ASCII podría realizar la correspondencia o mapeado con el término "müde" en Alemán, utilizando la codificación de los caracteres de Latín 1, puesto que el carácter umlaut-u no existe en ASCII. Se observará que en este ejemplo el diccionario proporciona tanto una traducción a otro idioma (Inglés a Alemán) y una traducción en otra codificación de caracteres (ASCII a Latín 1).
El texto de anclaje comprende el texto asociado con un hiperenlace entre las páginas Web (o lugares dentro
de una página Web dada). Por ejemplo, en el idioma de marcas de hipertexto (HTML), la orden:
"<A ref=``http://www.abc.com''>Bancos y Ahorros y Préstamos</A>" provoca que el texto "Bancos y Ahorros y Préstamos" sea visualizado como un hiperenlace que apunte a la página Web encontrada en http://www.abc.com. El texto "Bancos y Ahorros y Préstamos" se denomina como texto de anclaje, y típicamente proporciona una corta descripción de la pagina Web a la cual apunte (por ejemplo, www.abc.com). En realidad, el texto de anclaje proporcionará con frecuencia una descripción de mayor precisión de la página Web que la propia página en sí, y por tanto puede ser particularmente útil al determinar la naturaleza de la página Web a la cual apunte. Además de ello, el uso de la palabra y la distribución en el texto de anclaje está más cerca en el espíritu que el encontrado en las preguntas o consultas de usuario. Es también el caso de que muchos los anclajes que apuntan a una página dada pueden contener el mismo texto altamente similar. Por ejemplo, los anclajes que apunten a www.google.com mostrarán frecuentemente en forma simple "Google", o al menos utilizarán este término a lo largo de otros textos. Así pues, mediante el examen de todo ello, por ejemplo, katakana, los anclajes que apunten a www.google.com, la traducción en katakana de "Google" podrá inferirse con un grado relativamente alto de confianza, simplemente buscando el término que aparezca con la frecuencia más alta (posiblemente después de descartar ciertos anclajes de contenido de baja información, tal como aquellos que expresan sencillamente "hacer clic aquí"). Las realizaciones preferidas de la presente invención aprovechan la ventaja de estas características del texto de anclaje para proporcionar unas traducciones más precisas.
Con referencia a la figura 9, al recibir una pregunta o consulta que contenga un término escrito en un primer conjunto de caracteres (por ejemplo, ASCII) (bloque 902), el servidor identifica un conjunto de texto de anclaje en donde el término pueda aparecer (bloque 904). Por ejemplo, el servidor puede examinar un índice de todos los anclajes conocidos, para identificar dichos anclajes que contengan el término. A continuación, las páginas Web para las cuales están identificados los anclajes (bloque 906), serán los anclajes escritos en el idioma de objetivo o conjunto de caracteres de objetivo (por ejemplo, haragana, katakana, y/o kanji) que apunten a estas páginas (bloque 908). El sistema tendrá ahora dos conjuntos de documentos (en donde el texto de anclaje se considere como un formato del documento). La distribución del término de pregunta o consulta en un conjunto de documentos (por ejemplo, los anclajes que contengan la pregunta o consulta ASCII original) se utilizará entonces para identificar los candidatos más probables para la frase traducida en el otro conjunto de documentos (por ejemplo, los anclajes en paralelo). Las estadísticas pueden ser calculadas con respecto a la frecuencia con la que aparecen los términos de texto de anclaje, y estas estadísticas pueden ser utilizadas para determinar las frecuencias relativas o probabilidades de los términos encontrados en el texto de anclaje que comprendan la traducción correcta de la pregunta o consulta original (bloque 910). Para las preguntas o consultas de múltiples palabras, el proceso descrito anteriormente podrá ser repetido para cada palabra, o bien la pregunta o consulta completa puede ser tratada simplemente como un único término, o podría utilizarse una agrupación adecuada de las palabras. Por ejemplo, si la pregunta o consulta es "casas grandes", podría construirse unas posibles traducciones mediante la localización del texto de anclaje alineado que contenga dicha frase(o al menos una de las palabras en la frase). De forma similar, si la pregunta o consulta contuviera más de dos términos, podrían construirse experimentos para determinar cualquier mapeado o correspondencia, mediante la selección de los subconjuntos apropiados de los términos de la pregunta o consulta y generando los resultados de dichos términos.
Una ventaja de la realización de una traducción de la forma mostrada en la figura 9 es el sistema de traducción no precise del conocimiento previo de las correspondencias o mapeados entre los términos en un idioma o conjunto de caracteres y los correspondientes en el conjunto de objetivo. En su lugar, las correspondencias o mapeados pueden determinarse dinámicamente, basándose en el cuerpo de datos que está disponible para ejecutar el análisis estadístico. Así pues, por ejemplo, es posible descubrir traducciones precisas de términos de argot, modismos, nombres propios, y similares, sin incurrir en el esfuerzo o gastos (por ejemplo, análisis lingüístico e investigación) del mantenimiento de un diccionario estático convencional.
Se describirá a continuación una realización ilustrativa de las técnicas de traducción anteriores en relación con las figuras 10-12. En este ejemplo, se supondrá que el usuario ha introducido el término de pregunta o consulta "casa", y que desea obtener los resultados de la búsqueda escritos en español (o simplemente una traducción del término de la pregunta o consulta). El servidor intentará por tanto traducir el término inglés "house" al español equivalente.
Con referencia a la figura 10, la variedad de páginas Web 959, 961, 965 se enlazan por medio del texto de anclaje 960, 962, 964, 966 a las páginas 972 y 974. Algunas de estas páginas, y su texto de anclaje asociado, están escritas en inglés (es decir, las páginas 959a-e y 963a-t) y algunas están escritas en español (es decir, las páginas 961a-e y 965a-j). El servidor localiza primeramente todos los anclajes que utilicen el término "house". Estos anclajes pueden estar situados, por ejemplo, mediante la búsqueda de un índice del texto de anclaje almacenado en el servidor. Utilizando dicho índice, el servidor podría primero encontrar los cinco anclajes 960 que utilicen la frase "big house" ("casa grande", y que apunten a la página Web 972. el servidor determina a continuación que existen también cinco anclajes 962 del idioma del objetivo (es decir, español) que apunten a la página 972 también. En el ejemplo mostrado en la figura 10, estos anclajes contienen el texto "casa grande". Los anclajes que apuntan a la misma página (tales como los anclajes 960 y anclajes 962) o a las páginas que soportan una relación predefinida, se dice que están "alineados", en donde en un sentido más general el alineamiento se refiere típicamente (o una equivalencia probable) a la equivalencia de las unidades alineadas.
La figura 11A muestra la frecuencia con la cual aparece el termino en los anclajes 962 del idioma del objetivo. Tal como se muestra en la figura 11A, los términos "casa" y "grande" aparecen cada uno cinco veces (es decir, una vez en cada anclaje 962). Así pues, aparte de los diez términos en total que aparecen en los anclajes de objetivo 962 (es decir, dos términos por anclaje en cada uno de los cinco anclajes), "casa" cuenta por la mitad, y "grande" cuenta por la otra mitad. Así pues, tal como se muestra en la figura 11A, en este punto el término "house" podría mapearse o corresponderse bien con "casa" o "grande" con igual probabilidad, puesto que ambos términos aparecen con igual frecuencia.
No obstante, tal como se muestra en la figura 10, el sistema encuentra también veinte anclajes 964 ingleses que contienen el término "house" y que apuntan a la pagina 974, y diez anclajes españoles 966 que contienen el término "casa" y que apuntan también a la página 974. Tal como se muestra en la figura 11B, el término "house" se corresponderá o se mapeará con "casa" con la probabilidad de 0,75 (es decir, 15/20), y con "grande" con probabilidad de 0,25 (es decir, 5/20). Estas probabilidades se calculan sencillamente dividiendo el numero total de presencias de cada término en los anclajes del idioma del objetivo (es decir, quince, en el caso de "casa") por el numero total de términos, incluyendo los duplicados, en los anclajes del idioma del objetivo (es decir, veinte términos: diez contenidos en los anclajes 962, y diez contenidos en los anclajes 964). Alternativamente, o adicionalmente, podrían utilizarse otras técnicas para calcular y/o refinar las probabilidades de una traducción o correspondencia dada. Por ejemplo, los técnicos especializados en la técnica observarán que podrían utilizarse una diversidad de técnicas bien conocidas para reducir el error de variancia y las estimaciones de la probabilidad, tales como los métodos Bayesianos, alisamiento de histogramas, alisamiento Kernel, estimadores de contracción, y/o bien otras técnicas de estimación.
En caso de encontrar disponible más texto, las probabilidades podrían refinarse incluso adicionalmente. Por ejemplo, una distribución de la probabilidad final podría ser similar a la mostrada en la figura 12, en la cual el termino "house" se mapea o se corresponde con una probabilidad relativamente alta con respecto a "casa" y su forma diminutiva "casita", y con una probabilidad algo menor con los términos similares a "casino" y "mansión" (la palabra en español para mansión), y con una probabilidad despreciable con los términos similares a "grande". Así pues, puede obtenerse una traducción correcta, así como también la identificación de sinónimos probables, sin el conocimiento de los idiomas y/o conjuntos de caracteres que estén traduciéndose.
Se observará que el ejemplo descrito en relación con las figuras 10-12 se proporciona para los fines de la ilustración, y no de limitación, y que pueden realizarse muchos cambios en la metodología aquí descrita. Por ejemplo, podrían utilizarse distintas técnicas estadísticas para alcanzar las probabilidades, y/o modificaciones para las técnicas básicas anteriormente descritas. Además de ello, aunque el ejemplo precedente describe el proceso de traducción tal como tiene lugar después de la recepción de la pregunta o consulta del usuario, se observará en las otras realizaciones el proceso de mapeado o correspondencia podría ejecutarse antes de que se reciba la pregunta o consulta del usuario. Tales correspondencias o mapeados pre-calculadas podrían almacenarse en un diccionario tal como el descrito en la figura 8, el cual se aplicaría entonces para traducir las preguntas o consultas de usuario tal como pudieran recibirse. Finalmente, se comprenderá que el texto distinto al texto de anclaje alineado podría utilizarse par la traducción. Por ejemplo, las sentencias alineadas o bien otros datos podrían utilizarse de una forma similar. En muchos países existe más de un idioma oficial o reconocido, y los periódicos y revistas contendrán con frecuencia el mismo artículo escrito en cada uno de estos idiomas. Estas traducciones paralelas pueden utilizarse de la misma manera que el texto de anclaje previamente descrito, para preparar diccionarios probabilísticas de traducciones de palabras.
Así pues, las realizaciones preferidas permiten ventajosamente a que usuarios introduzcan preguntas o consultas de búsqueda y/o peticiones de traducción de una forma conveniente (por ejemplo, utilizando un teclado ASCII), y proporcionar una traducción y búsqueda precisa y automática y su búsqueda. En algunas realizaciones, pueden hacerse refinamientos adicionales con el modelo básico anteriormente descrito. Por ejemplo, en algunas realizaciones puede darse una preferencia (ponderación) a los anclajes que contengan varios términos que sean similares al número de términos en la pregunta o consulta original y/o en otros anclajes alineados. Por ejemplo, en el sistema mostrado en la figura 10, l preferencia podría darse a los anclajes que apunten a la página 974, al igual que la pregunta o consulta original, conteniendo cada uno un término único. De forma similar, si un anclaje que contenga el texto "la casa grande" está apuntado también a la pagina 972, su ponderación podría disminuir en un factor apropiado, puesto que contendrá más términos (es decir, 3) que los demás anclajes con los cuales esté alineado. Dicho esquema de ponderación podría estar reflejado en el calculo de probabilidades mostrado en la figura 11B, por la multiplicación de las frecuencias asociadas con estos términos de anclaje mediante un factor adecuado.
D. Conclusión
Tal como se ha descrito anteriormente, los métodos y sistemas compatibles con la invención pueden utilizarse para proporcionar los resultados de la búsqueda en respuesta a las preguntas o consultas de búsqueda ambiguas y/o para traducir términos en otro conjunto de caracteres y/o idiomas. Se han descrito varias técnicas y sistemas de traducción y búsqueda. No obstante, se observará que la descripción anterior se ha presentado para los fines de la ilustración, y que son posibles muchas modificaciones y variaciones a la luz de las descripciones anteriores, o a través de la puesta en práctica de la invención. Por ejemplo, aunque la descripción anterior está basada en una arquitectura de cliente-servidor, los técnicos especializados en la técnica reconocerán que puede utilizarse una arquitectura de entidades pares (P2P), compatible con la invención. Además de ello, aunque la implementación descrita incluye software, la invención puede ser implementada como una combinación de hardware y software o solo con hardware. Adicionalmente, aunque los aspectos de la presente invención están descritos como almacenados en la memoria, el técnico especializado en la técnica apreciará que estos aspectos pueden ser almacenados también en otros tipos de medios legibles por ordenador, tales como en dispositivos de almacenamiento secundarios, similares a discos duros, discos flexibles, o CD-ROM; una onda portadora de Internet; o bien otras formas de RAM o ROM. El alcance de la invención está definido por tanto por las reivindicaciones y sus equivalentes.

Claims (17)

1. Un método que comprende:
la identificación (904) de un primer conjunto de texto de anclaje escrito en un primer formato y conteniendo un término dado;
la identificación (906) de un conjunto de documentos hacia los cuales apunta el primer conjunto de texto de anclaje;
la identificación (908) de un segundo conjunto de texto de anclaje escrito en un segundo formato, y apuntando al conjunto identificado de documentos;
el análisis (910) del segundo conjunto de texto de anclaje para determinar que una representación del término dado en el primer formato se corresponde a la representación de un término dado en el segundo formato.
2. El método de la reivindicación 1, en donde el primer formato comprende un primer conjunto de caracteres, y el segundo formato comprende un segundo conjunto de caracteres.
3. El método de la reivindicación 1, en donde el primer formato comprende un primer idioma y el segundo formato comprende un segundo idioma.
4. El método de la reivindicación 1, en donde el análisis del segundo conjunto del texto de anclaje incluye la identificación de un término que aparece en el segundo conjunto de texto de anclaje, y la designación del termino más frecuente como la representación del termino dado en el segundo formato.
5. El método de la reivindicación 1, en donde el análisis del segundo conjunto del texto de anclaje comprende:
calcular una probabilidad de que el termino dado corresponde a un término en el segundo conjunto de texto de anclaje.
6. El método de la reivindicación 5, en donde la probabilidad se obtiene utilizando al menos unos medios Bayesianos, alisamiento de histogramas, alisamiento Kernel, y estimadores de contracción.
7. El método de la reivindicación 5, en donde la probabilidad de que un termino dado corresponda a un término en el segundo conjunto del texto de anclaje se obtiene por la división del numero de presencias del término en el segundo conjunto del texto de anclaje por el numero total de presencias de todos los términos en el segundo conjunto del texto de anclaje.
8. El método de la reivindicación 1, en donde el análisis del segundo conjunto del texto de anclaje comprende:
el cálculo de un probabilidad de que el termino dado se corresponda con cada termino en el segundo conjunto del texto de anclaje.
9. El método de la reivindicación 1, en donde el análisis del segundo conjunto de texto de anclaje comprende:
la identificación de un término que aparece más frecuentemente en el segundo conjunto del texto de anclaje.
10. El método de la reivindicación 2, en donde se selecciona el primer formato a partir del grupo que comprende: formato, romaja y pinyin; y en donde el segundo conjunto de caracteres se selecciona a partir del grupo que comprende: katakana, haragana, kanji, hangul, hanja, y los caracteres chinos tradicionales.
11. El método de la reivindicación 1, en donde los documentos comprenden páginas Web.
12. El método de la reivindicación 1, que comprende además:
la obtención de una pregunta o consulta escrita en el primer formato y conteniendo el término dado;
traducción de la pregunta o consulta en el segundo formato basándose al menos en parte del mencionado paso de análisis;
búsqueda de una base de datos para la información escrita en el segundo formato que sea sensible a la pregunta o consulta traducida.
13. El método de la reivindicación 12, en donde las etapas se ejecutan en el orden expuesto.
14. Un producto de un programa de ordenador incluido en un medio legible por ordenador, en donde el programa de ordenado incluye instrucciones, las cuales se ejecutan mediante un sistema por ordenador, que son operativas para hacer que el sistema por ordenador ejecute acciones, que comprenden:
la identificación (904) de un primer conjunto de texto de anclaje escrito en un primer formato y conteniendo un término dado;
la identificación (906) de un conjunto de páginas Web a las cuales apunta el primer conjunto de texto de anclaje;
la identificación (908) de un segundo conjunto de texto de anclaje escrito en un segundo formato, y apuntando a un conjunto identificado de páginas Web;
determinación de la probabilidad de que una representación de un término dado en el primer formato se corresponda a una representación de un término dado en el segundo formato.
15. El producto del programa de ordenador de la reivindicación 14, que incluye además instrucciones, las cuales al ejecutarse por el sistema de ordenador, son operativas para provocar que el sistema de ordenador ejecute acciones que comprenden:
modificar la probabilidad de que una representación del termino dado en el primer formato se corresponda con una representación del término dado en el segundo formato, basándose al menos en parte en un análisis de la selección del usuario de los resultados de la búsqueda.
16. El producto del programa de ordenador de la reivindicación 14, que incluye además instrucciones, las cuales al ser ejecutadas por el sistema de ordenador son operativas para hacer que el sistema de ordenador ejecute acciones, que comprenden:
modificar la probabilidad de que una representación del término dado en el primer formato se corresponda con una representación del término dado en el segundo formato, basándose al menos en parte, en un análisis de las preguntas o consultas previas del usuario.
17. El producto del programa de ordenador de la reivindicación 14, en donde la probabilidad se determina al menos en parte, utilizando al menos uno de los métodos Bayesianos, alisamiento del histograma, alisamiento kernel, y estimadores de contracción.
ES04783836T 2003-09-30 2004-09-13 Sistemas y metodos para buscar utilizando preguntas escritas en un conjunto de caracteres y/o idioma distinto al de las paginas objetivo. Expired - Lifetime ES2323786T3 (es)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US676724 1984-11-30
US10/676,724 US8706747B2 (en) 2000-07-06 2003-09-30 Systems and methods for searching using queries written in a different character-set and/or language from the target pages

Publications (1)

Publication Number Publication Date
ES2323786T3 true ES2323786T3 (es) 2009-07-24

Family

ID=34422117

Family Applications (1)

Application Number Title Priority Date Filing Date
ES04783836T Expired - Lifetime ES2323786T3 (es) 2003-09-30 2004-09-13 Sistemas y metodos para buscar utilizando preguntas escritas en un conjunto de caracteres y/o idioma distinto al de las paginas objetivo.

Country Status (12)

Country Link
US (3) US8706747B2 (es)
EP (3) EP2388709B1 (es)
JP (4) JP4717821B2 (es)
KR (4) KR101261158B1 (es)
CN (2) CN102236702B (es)
AT (1) ATE426206T1 (es)
DE (1) DE602004020086D1 (es)
ES (1) ES2323786T3 (es)
PL (1) PL2388709T3 (es)
RU (1) RU2363983C2 (es)
TR (1) TR201816343T4 (es)
WO (1) WO2005033967A2 (es)

Families Citing this family (102)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7136854B2 (en) * 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US9009590B2 (en) * 2001-07-31 2015-04-14 Invention Machines Corporation Semantic processor for recognition of cause-effect relations in natural language documents
CA2371731A1 (en) * 2002-02-12 2003-08-12 Cognos Incorporated Database join disambiguation by grouping
US7720828B2 (en) * 2004-06-29 2010-05-18 Blake Bookstaff Method and system for automated intelligent electronic advertising
US8055669B1 (en) 2003-03-03 2011-11-08 Google Inc. Search queries improved based on query semantic information
US7917483B2 (en) * 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
BRPI0417636A (pt) * 2003-12-16 2007-03-27 Speechgear Inc sistema, método, e, meio legìvel por computador
US20050138007A1 (en) * 2003-12-22 2005-06-23 International Business Machines Corporation Document enhancement method
US20060047649A1 (en) * 2003-12-29 2006-03-02 Ping Liang Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US8825591B1 (en) * 2003-12-31 2014-09-02 Symantec Operating Corporation Dynamic storage mechanism
US8655904B2 (en) * 2004-02-11 2014-02-18 Ebay, Inc. Method and system to enhance data integrity in a database
US7487145B1 (en) 2004-06-22 2009-02-03 Google Inc. Method and system for autocompletion using ranked results
US7836044B2 (en) 2004-06-22 2010-11-16 Google Inc. Anticipated query generation and processing in a search engine
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US8392453B2 (en) 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US7895218B2 (en) 2004-11-09 2011-02-22 Veveo, Inc. Method and system for performing searches for television content using reduced text input
US7499940B1 (en) 2004-11-11 2009-03-03 Google Inc. Method and system for URL autocompletion using ranked results
US20060106769A1 (en) 2004-11-12 2006-05-18 Gibbs Kevin A Method and system for autocompletion for languages having ideographs and phonetic characters
US8122034B2 (en) 2005-06-30 2012-02-21 Veveo, Inc. Method and system for incremental search with reduced text entry where the relevance of results is a dynamically computed function of user input search string character count
US10735576B1 (en) * 2005-07-14 2020-08-04 Binj Laboratories, Inc. Systems and methods for detecting and controlling transmission devices
US7737999B2 (en) 2005-08-26 2010-06-15 Veveo, Inc. User interface for visual cooperation between text input and display device
US7788266B2 (en) 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7672831B2 (en) * 2005-10-24 2010-03-02 Invention Machine Corporation System and method for cross-language knowledge searching
US7805455B2 (en) * 2005-11-14 2010-09-28 Invention Machine Corporation System and method for problem analysis
US7644054B2 (en) 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
US7895223B2 (en) * 2005-11-29 2011-02-22 Cisco Technology, Inc. Generating search results based on determined relationships between data objects and user connections to identified destinations
US7729901B2 (en) * 2005-12-13 2010-06-01 Yahoo! Inc. System for classifying words
US8010523B2 (en) 2005-12-30 2011-08-30 Google Inc. Dynamic search box for web browser
US7849144B2 (en) 2006-01-13 2010-12-07 Cisco Technology, Inc. Server-initiated language translation of an instant message based on identifying language attributes of sending and receiving users
US7689554B2 (en) * 2006-02-28 2010-03-30 Yahoo! Inc. System and method for identifying related queries for languages with multiple writing systems
WO2007103938A2 (en) 2006-03-06 2007-09-13 Veveo, Inc. Methods and systems for selecting and presenting content based on learned user preferences
JP5057546B2 (ja) * 2006-03-24 2012-10-24 キヤノン株式会社 文書検索装置および文書検索方法
US8073860B2 (en) 2006-03-30 2011-12-06 Veveo, Inc. Method and system for incrementally selecting and providing relevant search engines in response to a user query
US8255376B2 (en) * 2006-04-19 2012-08-28 Google Inc. Augmenting queries with synonyms from synonyms map
US8380488B1 (en) 2006-04-19 2013-02-19 Google Inc. Identifying a property of a document
US8762358B2 (en) * 2006-04-19 2014-06-24 Google Inc. Query language determination using query terms and interface language
US8442965B2 (en) 2006-04-19 2013-05-14 Google Inc. Query language identification
EP3822819A1 (en) 2006-04-20 2021-05-19 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
US8732314B2 (en) * 2006-08-21 2014-05-20 Cisco Technology, Inc. Generation of contact information based on associating browsed content to user actions
CA2663222C (en) 2006-09-14 2018-01-16 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
US7925986B2 (en) 2006-10-06 2011-04-12 Veveo, Inc. Methods and systems for a linear character selection display interface for ambiguous text input
US7979425B2 (en) * 2006-10-25 2011-07-12 Google Inc. Server-side match
US8078884B2 (en) 2006-11-13 2011-12-13 Veveo, Inc. Method of and system for selecting and presenting content based on user identification
US8296294B2 (en) 2007-05-25 2012-10-23 Veveo, Inc. Method and system for unified searching across and within multiple documents
US8549424B2 (en) 2007-05-25 2013-10-01 Veveo, Inc. System and method for text disambiguation and context designation in incremental search
ITTO20070508A1 (it) * 2007-07-11 2009-01-12 Selex Communications Spa Procedimento per la codifica di dati numerici in un elaboratore e procedimento per la codifica di strutture dati per la trasmissione in un sistema di telecomunicazioni, basato su detto procedimento di codifica di dati numerici
EP2201484A4 (en) * 2007-09-21 2010-09-22 Google Inc INTERLANGUE RESEARCH
US8725756B1 (en) 2007-11-12 2014-05-13 Google Inc. Session-based query suggestions
US8943539B2 (en) 2007-11-21 2015-01-27 Rovi Guides, Inc. Enabling a friend to remotely modify user data
US8232973B2 (en) 2008-01-09 2012-07-31 Apple Inc. Method, device, and graphical user interface providing word recommendations for text input
US20090287474A1 (en) * 2008-05-16 2009-11-19 Yahoo! Inc. Web embedded language input arrangement
US8312032B2 (en) 2008-07-10 2012-11-13 Google Inc. Dictionary suggestions for partial user entries
CN102439590A (zh) 2009-03-13 2012-05-02 发明机器公司 用于自然语言文本的自动语义标注的系统和方法
US8275604B2 (en) 2009-03-18 2012-09-25 Microsoft Corporation Adaptive pattern learning for bilingual data mining
US8577910B1 (en) 2009-05-15 2013-11-05 Google Inc. Selecting relevant languages for query translation
US8577909B1 (en) * 2009-05-15 2013-11-05 Google Inc. Query translation using bilingual search refinements
US8572109B1 (en) 2009-05-15 2013-10-29 Google Inc. Query translation quality confidence
US8996550B2 (en) 2009-06-03 2015-03-31 Google Inc. Autocompletion for partially entered query
US8538957B1 (en) 2009-06-03 2013-09-17 Google Inc. Validating translations using visual similarity between visual media search results
US20150261858A1 (en) * 2009-06-29 2015-09-17 Google Inc. System and method of providing information based on street address
US9870572B2 (en) 2009-06-29 2018-01-16 Google Llc System and method of providing information based on street address
KR101083540B1 (ko) * 2009-07-08 2011-11-14 엔에이치엔(주) 통계적인 방법을 이용한 한자에 대한 자국어 발음열 변환 시스템 및 방법
US9166714B2 (en) 2009-09-11 2015-10-20 Veveo, Inc. Method of and system for presenting enriched video viewing analytics
US20110191330A1 (en) 2010-02-04 2011-08-04 Veveo, Inc. Method of and System for Enhanced Content Discovery Based on Network and Device Access Behavior
US8577915B2 (en) 2010-09-10 2013-11-05 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
WO2012037726A1 (en) * 2010-09-21 2012-03-29 Google Inc. Generating search query suggestions
US20120167009A1 (en) * 2010-12-22 2012-06-28 Apple Inc. Combining timing and geometry information for typing correction
CN102737015A (zh) * 2011-04-07 2012-10-17 英业达股份有限公司 具即时翻译的写作系统及其写作方法
EP2518638A3 (en) * 2011-04-27 2013-01-23 Verint Systems Limited System and method for keyword spotting using multiple character encoding schemes
TWI435226B (zh) * 2011-04-28 2014-04-21 Rakuten Inc A method of reading a system, a terminal, an image server, a computer program product, a terminal, and an image server
US9779722B2 (en) * 2013-11-05 2017-10-03 GM Global Technology Operations LLC System for adapting speech recognition vocabulary
US9313219B1 (en) * 2014-09-03 2016-04-12 Trend Micro Incorporated Detection of repackaged mobile applications
RU2610280C2 (ru) 2014-10-31 2017-02-08 Общество С Ограниченной Ответственностью "Яндекс" Способ авторизации пользователя в сети и сервер, используемый в нем
RU2580432C1 (ru) 2014-10-31 2016-04-10 Общество С Ограниченной Ответственностью "Яндекс" Способ для обработки запроса от потенциального несанкционированного пользователя на доступ к ресурсу и серверу, используемый в нем
KR102244110B1 (ko) 2015-02-17 2021-04-26 삼성전자주식회사 이종 언어간 동일성을 판단하는 전자 장치 및 방법
US9762385B1 (en) 2015-07-20 2017-09-12 Trend Micro Incorporated Protection of program code of apps of mobile computing devices
CN105069171B (zh) * 2015-08-31 2018-07-13 百度在线网络技术(北京)有限公司 汉字查询方法和系统
CN105335357B (zh) * 2015-11-18 2018-07-06 成都优译信息技术有限公司 翻译系统中语料推荐方法
US9916448B1 (en) 2016-01-21 2018-03-13 Trend Micro Incorporated Detection of malicious mobile apps
US10169414B2 (en) 2016-04-26 2019-01-01 International Business Machines Corporation Character matching in text processing
US9760627B1 (en) * 2016-05-13 2017-09-12 International Business Machines Corporation Private-public context analysis for natural language content disambiguation
US10375576B1 (en) 2016-09-09 2019-08-06 Trend Micro Incorporated Detection of malware apps that hijack app user interfaces
KR101800373B1 (ko) * 2016-12-30 2017-11-22 (주)엠더블유스토리 불법 콘텐츠 검색 시스템 및 그 방법
US10614109B2 (en) * 2017-03-29 2020-04-07 International Business Machines Corporation Natural language processing keyword analysis
EP3616048A4 (en) * 2017-04-25 2020-12-02 Hewlett-Packard Development Company, L.P. INTERACTION OF AUTOMATIC LEARNING CONTROLS
US10831801B2 (en) 2017-05-12 2020-11-10 International Business Machines Corporation Contextual-based high precision search for mail systems
US10387576B2 (en) * 2017-11-30 2019-08-20 International Business Machines Corporation Document preparation with argumentation support from a deep question answering system
CN110111793B (zh) 2018-02-01 2023-07-14 腾讯科技(深圳)有限公司 音频信息的处理方法、装置、存储介质及电子装置
JP7247460B2 (ja) * 2018-03-13 2023-03-29 富士通株式会社 対応関係生成プログラム、対応関係生成装置、対応関係生成方法、及び翻訳プログラム
US10956669B2 (en) * 2018-07-10 2021-03-23 Beijing Didi Infinity Technology And Development Co., Ltd. Expression recognition using character skipping
KR102637340B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 문장 매핑 방법 및 장치
US11250221B2 (en) * 2019-03-14 2022-02-15 Sap Se Learning system for contextual interpretation of Japanese words
US11308096B2 (en) 2019-03-29 2022-04-19 Rovi Guides, Inc. Bias quotient measurement and debiasing for recommendation engines
US11227101B2 (en) * 2019-07-05 2022-01-18 Open Text Sa Ulc System and method for document translation in a format agnostic document viewer
CN111368557B (zh) * 2020-03-06 2023-04-07 北京字节跳动网络技术有限公司 视频内容的翻译方法、装置、设备及计算机可读介质
US11458409B2 (en) * 2020-05-27 2022-10-04 Nvidia Corporation Automatic classification and reporting of inappropriate language in online applications
CN112765321A (zh) * 2021-01-22 2021-05-07 中信银行股份有限公司 接口查询方法及装置、设备、计算机可读存储介质
CN114139554B (zh) * 2021-11-23 2024-07-12 成都飞机工业(集团)有限责任公司 一种基于计算机翻译用模糊查询系统的翻译方法
US12517935B2 (en) 2023-01-31 2026-01-06 Walmart Apollo, Llc System and method for performing cross-lingual product searches
US12517899B2 (en) * 2023-01-31 2026-01-06 Walmart Apollo, Llc System and method for processing cross-lingual search queries

Family Cites Families (168)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4674112A (en) * 1985-09-06 1987-06-16 Board Of Regents, The University Of Texas System Character pattern recognition and communications apparatus
US4754474A (en) * 1985-10-21 1988-06-28 Feinson Roy W Interpretive tone telecommunication method and apparatus
DE69032576T2 (de) * 1990-02-27 1999-04-15 Oracle Corp Dynamische Optimierung eines einzelnen relationalen Zugriffs
KR950008022B1 (ko) * 1991-06-19 1995-07-24 가부시끼가이샤 히다찌세이사꾸쇼 문자처리방법 및 장치와 문자입력방법 및 장치
RU2039376C1 (ru) 1991-11-01 1995-07-09 Сергей Станиславович Ковалевский Устройство для информационного поиска
US5535119A (en) 1992-06-11 1996-07-09 Hitachi, Ltd. Character inputting method allowing input of a plurality of different types of character species, and information processing equipment adopting the same
US5337347A (en) * 1992-06-25 1994-08-09 International Business Machines Corporation Method and system for progressive database search termination and dynamic information presentation utilizing telephone keypad input
US6760695B1 (en) * 1992-08-31 2004-07-06 Logovista Corporation Automated natural language processing
GB2272091B (en) 1992-10-30 1996-10-23 Canon Europa Nv Apparatus for use in aligning bilingual corpora
JP3919237B2 (ja) * 1994-05-20 2007-05-23 キヤノン株式会社 画像記録再生装置、画像再生装置、及びその方法
US5543789A (en) * 1994-06-24 1996-08-06 Shields Enterprises, Inc. Computerized navigation system
WO1996010795A1 (en) * 1994-10-03 1996-04-11 Helfgott & Karas, P.C. A database accessing system
US5787230A (en) * 1994-12-09 1998-07-28 Lee; Lin-Shan System and method of intelligent Mandarin speech input for Chinese computers
US5758145A (en) * 1995-02-24 1998-05-26 International Business Machines Corporation Method and apparatus for generating dynamic and hybrid sparse indices for workfiles used in SQL queries
JP3571408B2 (ja) 1995-03-31 2004-09-29 株式会社日立製作所 文書加工方法および装置
US6070140A (en) * 1995-06-05 2000-05-30 Tran; Bao Q. Speech recognizer
WO1996041281A1 (en) * 1995-06-07 1996-12-19 International Language Engineering Corporation Machine assisted translation tools
US5701469A (en) 1995-06-07 1997-12-23 Microsoft Corporation Method and system for generating accurate search results using a content-index
ATE191282T1 (de) * 1995-07-26 2000-04-15 Tegic Communications Inc System zur unterdrückung der vieldeutigkeit in einer verringerten tastatur
US5818437A (en) * 1995-07-26 1998-10-06 Tegic Communications, Inc. Reduced keyboard disambiguating computer
US5634053A (en) * 1995-08-29 1997-05-27 Hughes Aircraft Company Federated information management (FIM) system and method for providing data site filtering and translation for heterogeneous databases
JP3819959B2 (ja) * 1996-03-27 2006-09-13 シャープ株式会社 音声による情報検索装置
US5778157A (en) * 1996-06-17 1998-07-07 Yy Software Corporation System and method for expert system analysis using quiescent and parallel reasoning and set structured knowledge representation
US5920859A (en) * 1997-02-05 1999-07-06 Idd Enterprises, L.P. Hypertext document retrieval system and method
US5845273A (en) 1996-06-27 1998-12-01 Microsoft Corporation Method and apparatus for integrating multiple indexed files
US5878386A (en) * 1996-06-28 1999-03-02 Microsoft Corporation Natural language parser with dictionary-based part-of-speech probabilities
US5832480A (en) * 1996-07-12 1998-11-03 International Business Machines Corporation Using canonical forms to develop a dictionary of names in a text
US5953073A (en) * 1996-07-29 1999-09-14 International Business Machines Corp. Method for relating indexing information associated with at least two indexing schemes to facilitate the play-back of user-specified digital video data and a video client incorporating the same
US5745894A (en) * 1996-08-09 1998-04-28 Digital Equipment Corporation Method for generating and searching a range-based index of word-locations
US5987446A (en) * 1996-11-12 1999-11-16 U.S. West, Inc. Searching large collections of text using multiple search engines concurrently
US5953541A (en) * 1997-01-24 1999-09-14 Tegic Communications, Inc. Disambiguating system for disambiguating ambiguous input sequences by displaying objects associated with the generated input sequences in the order of decreasing frequency of use
JPH10247201A (ja) * 1997-03-05 1998-09-14 Nippon Telegr & Teleph Corp <Ntt> 情報評価値付き情報案内システム
US6278992B1 (en) * 1997-03-19 2001-08-21 John Andrew Curtis Search engine using indexing method for storing and retrieving data
JP3143079B2 (ja) * 1997-05-30 2001-03-07 松下電器産業株式会社 辞書索引作成装置と文書検索装置
US6061718A (en) * 1997-07-23 2000-05-09 Ericsson Inc. Electronic mail delivery system in wired or wireless communications system
US6055528A (en) 1997-07-25 2000-04-25 Claritech Corporation Method for cross-linguistic document retrieval
JP2965010B2 (ja) * 1997-08-30 1999-10-18 日本電気株式会社 関連情報検索方法及び装置並びにプログラムを記録した機械読み取り可能な記録媒体
BR9814032A (pt) * 1997-09-25 2001-11-20 Tegic Communications Inc Sistema de retirada de ambiguidade com tecladoreduzido
US6026411A (en) * 1997-11-06 2000-02-15 International Business Machines Corporation Method, apparatus, and computer program product for generating an image index and for internet searching and querying by image colors
US6377965B1 (en) * 1997-11-07 2002-04-23 Microsoft Corporation Automatic word completion system for partially entered data
US5945928A (en) * 1998-01-20 1999-08-31 Tegic Communication, Inc. Reduced keyboard disambiguating system for the Korean language
KR100313462B1 (ko) * 1998-01-23 2001-12-31 윤종용 웹검색엔진에서검색된정보를지역적으로근접한순서대로표시하는방법
US6185558B1 (en) * 1998-03-03 2001-02-06 Amazon.Com, Inc. Identifying the items most relevant to a current query based on items selected in connection with similar queries
US6421675B1 (en) * 1998-03-16 2002-07-16 S. L. I. Systems, Inc. Search engine
US5974121A (en) * 1998-05-14 1999-10-26 Motorola, Inc. Alphanumeric message composing method using telephone keypad
GB2337611A (en) * 1998-05-20 1999-11-24 Sharp Kk Multilingual document retrieval system
US6144958A (en) * 1998-07-15 2000-11-07 Amazon.Com, Inc. System and method for correcting spelling errors in search queries
US6470333B1 (en) * 1998-07-24 2002-10-22 Jarg Corporation Knowledge extraction system and method
US6226635B1 (en) * 1998-08-14 2001-05-01 Microsoft Corporation Layered query management
US6370518B1 (en) * 1998-10-05 2002-04-09 Openwave Systems Inc. Method and apparatus for displaying a record from a structured database with minimum keystrokes
US7194679B1 (en) * 1998-10-20 2007-03-20 International Business Machines Corporation Web-based file review system utilizing source and comment files
IE980941A1 (en) * 1998-11-16 2000-05-17 Buy Tel Innovations Ltd A transaction processings system
JP2000163441A (ja) 1998-11-30 2000-06-16 Nippon Telegr & Teleph Corp <Ntt> 辞書作成方法及び装置及び辞書作成プログラムを格納した記憶媒体及び検索要求作成方法及び装置及び検索要求作成プログラムを格納した記憶媒体及び多言語対応情報検索システム
JP3842913B2 (ja) * 1998-12-18 2006-11-08 富士通株式会社 文字通信方法及び文字通信システム
GB2347247A (en) * 1999-02-22 2000-08-30 Nokia Mobile Phones Ltd Communication terminal with predictive editor
US20020038308A1 (en) * 1999-05-27 2002-03-28 Michael Cappi System and method for creating a virtual data warehouse
US6421662B1 (en) * 1999-06-04 2002-07-16 Oracle Corporation Generating and implementing indexes based on criteria set forth in queries
US6598039B1 (en) 1999-06-08 2003-07-22 Albert-Inc. S.A. Natural language interface for searching database
US20010003184A1 (en) * 1999-07-16 2001-06-07 Ching Jamison K. Methods and articles of manufacture for interfacing, advertising and navigating with internet television
CN1176432C (zh) 1999-07-28 2004-11-17 国际商业机器公司 提供本国语言查询服务的方法和系统
US6606486B1 (en) * 1999-07-29 2003-08-12 Ericsson Inc. Word entry method for mobile originated short messages
US6601026B2 (en) * 1999-09-17 2003-07-29 Discern Communications, Inc. Information retrieval by natural language querying
US6453315B1 (en) * 1999-09-22 2002-09-17 Applied Semantics, Inc. Meaning-based information organization and retrieval
US6353820B1 (en) * 1999-09-29 2002-03-05 Bull Hn Information Systems Inc. Method and system for using dynamically generated code to perform index record retrieval in certain circumstances in a relational database manager
US6484179B1 (en) 1999-10-25 2002-11-19 Oracle Corporation Storing multidimensional data in a relational database management system
US7165019B1 (en) * 1999-11-05 2007-01-16 Microsoft Corporation Language input architecture for converting one text form to another text form with modeless entry
US6633846B1 (en) * 1999-11-12 2003-10-14 Phoenix Solutions, Inc. Distributed realtime speech recognition system
US6675165B1 (en) 2000-02-28 2004-01-06 Barpoint.Com, Inc. Method for linking a billboard or signage to information on a global computer network through manual information input or a global positioning system
US7120574B2 (en) * 2000-04-03 2006-10-10 Invention Machine Corporation Synonym extension of search queries with validation
US7177798B2 (en) * 2000-04-07 2007-02-13 Rensselaer Polytechnic Institute Natural language interface using constrained intermediate dictionary of results
US6564213B1 (en) 2000-04-18 2003-05-13 Amazon.Com, Inc. Search query autocompletion
US7107204B1 (en) * 2000-04-24 2006-09-12 Microsoft Corporation Computer-aided writing system and method with cross-language writing wizard
US6604101B1 (en) * 2000-06-28 2003-08-05 Qnaturally Systems, Inc. Method and system for translingual translation of query and search and retrieval of multilingual information on a computer network
US6714905B1 (en) * 2000-05-02 2004-03-30 Iphrase.Com, Inc. Parsing ambiguous grammar
JP2001325252A (ja) 2000-05-12 2001-11-22 Sony Corp 携帯端末及びその情報入力方法、辞書検索装置及び方法、媒体
US6456234B1 (en) 2000-06-07 2002-09-24 William J. Johnson System and method for proactive content delivery by situation location
JP3686312B2 (ja) * 2000-07-05 2005-08-24 日本電信電話株式会社 訳語検索方法、訳語検索装置及び訳語検索プログラムを記録した記録媒体
US7136854B2 (en) * 2000-07-06 2006-11-14 Google, Inc. Methods and apparatus for providing search results in response to an ambiguous search query
US8706747B2 (en) 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US6529903B2 (en) * 2000-07-06 2003-03-04 Google, Inc. Methods and apparatus for using a modified index to provide search results in response to an ambiguous search query
WO2002009302A1 (en) 2000-07-25 2002-01-31 Cypus Communication terminal capable for searching internet domain name, system and method for searching internet domain name using the same
US6968179B1 (en) 2000-07-27 2005-11-22 Microsoft Corporation Place specific buddy list services
US20020021311A1 (en) * 2000-08-14 2002-02-21 Approximatch Ltd. Data entry using a reduced keyboard
US20030217052A1 (en) * 2000-08-24 2003-11-20 Celebros Ltd. Search engine method and apparatus
GB2366698A (en) * 2000-09-01 2002-03-13 Nokia Mobile Phones Ltd Insertion of pre-stored text strings
JP2002092018A (ja) 2000-09-18 2002-03-29 Nec Software Hokkaido Ltd 片仮名平仮名も含めた検索システム
CA2323856A1 (en) * 2000-10-18 2002-04-18 602531 British Columbia Ltd. Method, system and media for entering data in a personal computing device
US20060149686A1 (en) * 2000-11-30 2006-07-06 Allison Debonnett Method of payment and settlement of goods and services via the INTERNET
US7028306B2 (en) 2000-12-04 2006-04-11 International Business Machines Corporation Systems and methods for implementing modular DOM (Document Object Model)-based multi-modal browsers
EP1215659A1 (en) * 2000-12-14 2002-06-19 Nokia Corporation Locally distibuted speech recognition system and method of its operation
EP1215661A1 (en) * 2000-12-14 2002-06-19 TELEFONAKTIEBOLAGET L M ERICSSON (publ) Mobile terminal controllable by spoken utterances
JP2002215660A (ja) * 2001-01-16 2002-08-02 Mitsubishi Heavy Ind Ltd 検索システム及びこれに用いられるソフトウェア
JP3768105B2 (ja) * 2001-01-29 2006-04-19 株式会社東芝 翻訳装置、翻訳方法並びに翻訳プログラム
GB0103053D0 (en) * 2001-02-07 2001-03-21 Nokia Mobile Phones Ltd A communication terminal having a predictive text editor application
US7027987B1 (en) * 2001-02-07 2006-04-11 Google Inc. Voice interface for a search engine
JP2002251410A (ja) 2001-02-26 2002-09-06 Sharp Corp 情報検索装置、情報検索プログラムおよび情報検索プログラムを記録したコンピュータ読取可能な記録媒体
JP3764058B2 (ja) * 2001-03-01 2006-04-05 株式会社東芝 翻訳装置、翻訳方法及び翻訳プログラム
JP3379090B2 (ja) * 2001-03-02 2003-02-17 インターナショナル・ビジネス・マシーンズ・コーポレーション 機械翻訳システム、機械翻訳方法、及び機械翻訳用プログラム
US7231381B2 (en) * 2001-03-13 2007-06-12 Microsoft Corporation Media content search engine incorporating text content and user log mining
US8744835B2 (en) * 2001-03-16 2014-06-03 Meaningful Machines Llc Content conversion method and apparatus
US7103534B2 (en) * 2001-03-31 2006-09-05 Microsoft Corporation Machine learning contextual approach to word determination for text input via reduced keypad keys
KR20020084739A (ko) 2001-05-02 2002-11-11 이재원 숫자입력을 이용한 인터넷 검색 및 접속 방법
GB0111012D0 (en) * 2001-05-04 2001-06-27 Nokia Corp A communication terminal having a predictive text editor application
US7366712B2 (en) 2001-05-31 2008-04-29 Intel Corporation Information retrieval center gateway
US6947770B2 (en) * 2001-06-22 2005-09-20 Ericsson, Inc. Convenient dialing of names and numbers from a phone without alpha keypad
US20030035519A1 (en) * 2001-08-15 2003-02-20 Warmus James L. Methods and apparatus for accessing web content from a wireless telephone
JP3895955B2 (ja) * 2001-08-24 2007-03-22 株式会社東芝 情報検索方法および情報検索システム
US20030054830A1 (en) * 2001-09-04 2003-03-20 Zi Corporation Navigation system for mobile communication devices
US6944609B2 (en) * 2001-10-18 2005-09-13 Lycos, Inc. Search results using editor feedback
KR100501079B1 (ko) 2001-11-12 2005-07-18 주식회사 아이니드 네트워크 기반의 유사어 검색기술 응용시스템 및 방법
US7533093B2 (en) 2001-11-13 2009-05-12 Koninklijke Philips Electronics N.V. Method and apparatus for evaluating the closeness of items in a recommender of such items
US7149550B2 (en) * 2001-11-27 2006-12-12 Nokia Corporation Communication terminal having a text editor application with a word completion feature
US7283992B2 (en) * 2001-11-30 2007-10-16 Microsoft Corporation Media agent to suggest contextually related media content
US6785654B2 (en) * 2001-11-30 2004-08-31 Dictaphone Corporation Distributed speech recognition system with speech recognition engines offering multiple functionalities
US20030125947A1 (en) * 2002-01-03 2003-07-03 Yudkowsky Michael Allen Network-accessible speaker-dependent voice models of multiple persons
US7565367B2 (en) * 2002-01-15 2009-07-21 Iac Search & Media, Inc. Enhanced popularity ranking
US6952691B2 (en) 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7167831B2 (en) * 2002-02-04 2007-01-23 Microsoft Corporation Systems and methods for managing multiple grammars in a speech recognition system
ATE295567T1 (de) 2002-03-22 2005-05-15 Sony Ericsson Mobile Comm Ab Texteingabe in ein elektronisches kommunikationsgerät
US20030187658A1 (en) * 2002-03-29 2003-10-02 Jari Selin Method for text-to-speech service utilizing a uniform resource identifier
US7089178B2 (en) * 2002-04-30 2006-08-08 Qualcomm Inc. Multistream network feature processing for a distributed speech recognition system
JP2004054918A (ja) * 2002-05-30 2004-02-19 Osaka Industrial Promotion Organization 情報処理システム、情報表示装置、コンピュータプログラム、及び記録媒体
US7013154B2 (en) * 2002-06-27 2006-03-14 Motorola, Inc. Mapping text and audio information in text messaging devices and methods therefor
US7103854B2 (en) * 2002-06-27 2006-09-05 Tele Atlas North America, Inc. System and method for associating text and graphical views of map information
WO2004003721A2 (en) * 2002-07-01 2004-01-08 Sony Ericsson Mobile Communications Ab Entering text into an electronic communications device
US7386442B2 (en) * 2002-07-03 2008-06-10 Word Data Corp. Code, system and method for representing a natural-language text in a form suitable for text manipulation
US7016895B2 (en) * 2002-07-05 2006-03-21 Word Data Corp. Text-classification system and method
ATE449382T1 (de) 2002-07-23 2009-12-15 Research In Motion Ltd Systeme und verfahren zur erstellung und verwendung von angepassten wörterlisten
US7249012B2 (en) * 2002-11-20 2007-07-24 Microsoft Corporation Statistical method and apparatus for learning translation relationships among phrases
US20040163032A1 (en) * 2002-12-17 2004-08-19 Jin Guo Ambiguity resolution for predictive text entry
GB2396529B (en) * 2002-12-20 2005-08-10 Motorola Inc Location-based mobile service provision
BR0215994A (pt) * 2002-12-27 2005-11-01 Nokia Corp Terminal móvel, e, método de compressão de dados e de entrada de texto preditivo em um terminal móvel
US7076428B2 (en) * 2002-12-30 2006-07-11 Motorola, Inc. Method and apparatus for selective distributed speech recognition
US7369988B1 (en) * 2003-02-24 2008-05-06 Sprint Spectrum L.P. Method and system for voice-enabled text entry
FI116168B (fi) * 2003-03-03 2005-09-30 Flextronics Odm Luxembourg Sa Datan syöttö
US7729913B1 (en) 2003-03-18 2010-06-01 A9.Com, Inc. Generation and selection of voice recognition grammars for conducting database searches
KR100563787B1 (ko) 2003-04-03 2006-03-30 주식회사 시티기술단 단위 옹벽판넬에 설치된 고강도 철근을 커플러로상호연결하여 단면력에 저항토록하면서, 프리스트레스를도입한 단위 옹벽판넬로 이루어진 옹벽조립체 및 이의조립시공방법
KR100515641B1 (ko) 2003-04-24 2005-09-22 우순조 모빌적 형상 개념을 기초로 한 구문 분석방법 및 이를이용한 자연어 검색 방법
US7395203B2 (en) * 2003-07-30 2008-07-01 Tegic Communications, Inc. System and method for disambiguating phonetic input
US8200865B2 (en) * 2003-09-11 2012-06-12 Eatoni Ergonomics, Inc. Efficient method and apparatus for text entry based on trigger sequences
GB2433002A (en) * 2003-09-25 2007-06-06 Canon Europa Nv Processing of Text Data involving an Ambiguous Keyboard and Method thereof.
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US20050114312A1 (en) * 2003-11-26 2005-05-26 Microsoft Corporation Efficient string searches using numeric keypad
US20050188330A1 (en) * 2004-02-20 2005-08-25 Griffin Jason T. Predictive text input system for a mobile communication device
US7293019B2 (en) 2004-03-02 2007-11-06 Microsoft Corporation Principles and methods for personalizing newsfeeds via an analysis of information novelty and dynamics
US8676830B2 (en) 2004-03-04 2014-03-18 Yahoo! Inc. Keyword recommendation for internet search engines
US7218249B2 (en) 2004-06-08 2007-05-15 Siemens Communications, Inc. Hand-held communication device having navigation key-based predictive text entry
US8595687B2 (en) 2004-06-23 2013-11-26 Broadcom Corporation Method and system for providing text information in an application framework for a wireless device
US8972444B2 (en) 2004-06-25 2015-03-03 Google Inc. Nonstandard locality-based text entry
US8392453B2 (en) 2004-06-25 2013-03-05 Google Inc. Nonstandard text entry
US20060212441A1 (en) * 2004-10-25 2006-09-21 Yuanhua Tang Full text query and search systems and methods of use
US7737999B2 (en) 2005-08-26 2010-06-15 Veveo, Inc. User interface for visual cooperation between text input and display device
US7779011B2 (en) 2005-08-26 2010-08-17 Veveo, Inc. Method and system for dynamically processing ambiguous, reduced text search queries and highlighting results thereof
US7788266B2 (en) * 2005-08-26 2010-08-31 Veveo, Inc. Method and system for processing ambiguous, multi-term search queries
US9471925B2 (en) * 2005-09-14 2016-10-18 Millennial Media Llc Increasing mobile interactivity
US20070061211A1 (en) * 2005-09-14 2007-03-15 Jorey Ramer Preventing mobile communication facility click fraud
US7647228B2 (en) 2005-11-03 2010-01-12 Apptera, Inc. Method and apparatus for speech processing incorporating user intent
JP2007141123A (ja) * 2005-11-22 2007-06-07 Internatl Business Mach Corp <Ibm> 異なるファイルの同一文字列のリンク
US7644054B2 (en) * 2005-11-23 2010-01-05 Veveo, Inc. System and method for finding desired results by incremental search using an ambiguous keypad with the input containing orthographic and typographic errors
ATE480827T1 (de) * 2005-11-23 2010-09-15 Dun & Bradstreet Inc System und verfahren zum durchsuchen und vergleichen von daten mit ideogrammatischem inhalt
US20070195063A1 (en) * 2006-02-21 2007-08-23 Wagner Paul T Alphanumeric data processing in a telephone
WO2007103938A2 (en) 2006-03-06 2007-09-13 Veveo, Inc. Methods and systems for selecting and presenting content based on learned user preferences
EP3822819A1 (en) 2006-04-20 2021-05-19 Veveo, Inc. User interface methods and systems for selecting and presenting content based on user navigation and selection actions associated with the content
CA2663222C (en) * 2006-09-14 2018-01-16 Veveo, Inc. Methods and systems for dynamically rearranging search results into hierarchically organized concept clusters
US7979425B2 (en) * 2006-10-25 2011-07-12 Google Inc. Server-side match
KR20100041145A (ko) * 2008-10-13 2010-04-22 삼성전자주식회사 쿼티 키패드를 갖는 휴대 단말기의 발신 방법 및 전화번호 저장 방법
US20100306249A1 (en) * 2009-05-27 2010-12-02 James Hill Social network systems and methods
US20130304818A1 (en) * 2009-12-01 2013-11-14 Topsy Labs, Inc. Systems and methods for discovery of related terms for social media content collection over social networks

Also Published As

Publication number Publication date
US9734197B2 (en) 2017-08-15
JP2013084306A (ja) 2013-05-09
KR101140187B1 (ko) 2012-05-02
WO2005033967A2 (en) 2005-04-14
US20170351673A1 (en) 2017-12-07
EP2388709B1 (en) 2018-08-08
JP5608766B2 (ja) 2014-10-15
RU2363983C2 (ru) 2009-08-10
RU2006114696A (ru) 2007-11-10
JP2007507796A (ja) 2007-03-29
KR20060090689A (ko) 2006-08-14
KR101242961B1 (ko) 2013-03-12
EP1676211A2 (en) 2006-07-05
JP4717821B2 (ja) 2011-07-06
JP5425820B2 (ja) 2014-02-26
WO2005033967A3 (en) 2005-10-13
TR201816343T4 (tr) 2018-11-21
KR101261158B1 (ko) 2013-05-09
CN1860473A (zh) 2006-11-08
CN102236702B (zh) 2013-08-14
KR20120039755A (ko) 2012-04-25
US20040261021A1 (en) 2004-12-23
EP2388709A1 (en) 2011-11-23
KR20110117218A (ko) 2011-10-26
EP2043003A2 (en) 2009-04-01
EP1676211B1 (en) 2009-03-18
EP2043003A3 (en) 2009-06-03
JP2011090718A (ja) 2011-05-06
CN102236702A (zh) 2011-11-09
US20140188454A1 (en) 2014-07-03
KR20110117219A (ko) 2011-10-26
HK1163846A1 (en) 2012-09-14
US8706747B2 (en) 2014-04-22
JP5231491B2 (ja) 2013-07-10
JP2010282639A (ja) 2010-12-16
DE602004020086D1 (de) 2009-04-30
ATE426206T1 (de) 2009-04-15
PL2388709T3 (pl) 2018-12-31

Similar Documents

Publication Publication Date Title
ES2323786T3 (es) Sistemas y metodos para buscar utilizando preguntas escritas en un conjunto de caracteres y/o idioma distinto al de las paginas objetivo.
US8386237B2 (en) Automatic correction of user input based on dictionary
US9418158B2 (en) Providing multi-lingual searching of mono-lingual content
KR20100029221A (ko) 명칭 엔터티와 신규 단어를 검출하는 것
KR20100009520A (ko) 쿼리 확장을 위한 음역
WO2006010163A2 (en) User interface and database structure for chinese phrasal stroke and phonetic text input
CN101727195B (zh) 汉语语音码多样信息输入方法
KR102471032B1 (ko) 외국어 번역 및 학습 서비스 제공 장치, 방법 및 프로그램
Mohanraj et al. Bridging the Language Barrier: Document Access Across Languages
HK1163858B (en) Systems and methods for searching using queries written in a different character-set and/or language from the target pages
HK1163858A (en) Systems and methods for searching using queries written in a different character-set and/or language from the target pages
KR20010008135A (ko) 컴퓨터로 실행 가능한 한영 번역 서비스 방법
Hayashi SriShell Primo: A Predictive Sinhala Text Input System
Chaware et al. EVALUATION OF PHONETIC MATCHING APPROACHES FOR HINDI AND MARATHI: INFORMATION RETRIEVAL
HK1163846B (en) A computer-implemented method and a system and device for performing searches using queries