ES2378653T3 - Sistemas, métodos y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales. - Google Patents

Sistemas, métodos y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales. Download PDF

Info

Publication number
ES2378653T3
ES2378653T3 ES02799974T ES02799974T ES2378653T3 ES 2378653 T3 ES2378653 T3 ES 2378653T3 ES 02799974 T ES02799974 T ES 02799974T ES 02799974 T ES02799974 T ES 02799974T ES 2378653 T3 ES2378653 T3 ES 2378653T3
Authority
ES
Spain
Prior art keywords
name
names
candidate
document
terms
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES02799974T
Other languages
English (en)
Inventor
Christopher C. Dozier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Thomson Global Resources AG
Thomson Reuters Global Resources ULC
Original Assignee
Thomson Global Resources AG
Thomson Reuters Global Resources ULC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Thomson Global Resources AG, Thomson Reuters Global Resources ULC filed Critical Thomson Global Resources AG
Application granted granted Critical
Publication of ES2378653T3 publication Critical patent/ES2378653T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • G06F16/94Hypermedia
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9558Details of hyperlinks; Management of linked annotations
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

Método implementado en ordenador, que comprende: identificar uno o más nombres en un documento; seleccionar del o de los nombres identificados en el documento un nombre candidato en el documento correlacionando un modelo descriptivo predefinido de términos no referidos a personas con texto de alrededor de los nombres identificados en el documento, estando el modelo descriptivo basado en un conjunto de ejemplos de fragmentos de oración que contienen descripciones de profesionales mencionados; definir una plantilla de nombre para el nombre candidato identificando uno o más términos no referidos a personas que aparezcan conjuntamente con el nombre candidato en el documento e incluyendo en la plantilla de nombre para el nombre candidato el o los términos no referidos a personas identificados; determinar un indicador de rareza para el nombre candidato, siendo el indicador de rareza una cantidad basada en una probabilidad de sacar como mínimo una parte de palabra del nombre al azar de un conjunto de nombres de muestra representativos de una población humana pertinente; identificar uno o más registros candidatos en una base de datos, basándose en como mínimo una parte de palabra del nombre candidato; comparar los términos no referidos a personas para cada uno de los registros candidatos con los términos no referidos a personas que aparecen en la plantilla de nombre definida para el nombre candidato; calcular una o más cantidades, basada cada una en el indicador de rareza del nombre candidato y la comparación de los términos no referidos a personas para uno de los registros candidatos; y definir un hipervínculo para el nombre candidato basándose en la o las cantidades calculadas.

Description

Sistemas, métodos, y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales.
La presente invención se refiere a sistemas, métodos y software para establecer hipervínculos de nombres en documentos.
En los últimos años, el fantástico crecimiento de Internet y otras redes informáticas ha provocado un crecimiento igualmente fantástico en los datos accesibles a través de estas redes. Uno de los modos seminales de interaccionar con estos datos es mediante el uso de hipervínculos dentro de documentos electrónicos.
Los hipervínculos son elementos seleccionabas por el usuario, tales como texto resaltado o iconos, que vinculan una parte de un documento electrónico a otra parle del mismo documento o a otros documentos de una base de datos o red informática. Con un equipo informático y un acceso a la red adecuados, un usuario puede seleccionar o invocar un hipervínculo y ver casi instantáneamente el otro documento, que puede hallarse en casi cualquier parte del mundo. Además, el otro documento mismo puede incluir hipervínculos a otros documentos más que incluyan hipervínculos, permitiendo al usuario "brincar" por todo el mundo de documento en documento en documento buscando la información pertinente a voluntad.
Más recientemente se ha despertado el interés en establecer hipervínculos de unos documentos a otros basándose en los nombres de personas que aparecen en los documentos. Por ejemplo, para facilitar las investigaciones legales, la West Publishing Company de St. Paul, Minnesota, proporciona miles de resoluciones judiciales electrónicas con hipervínculos de los nombres de abogados y jueces a sus entradas biográficas en línea en el West Legal Directory, un directorio registrado de aproximadamente 1.000.000 de abogados estadounidenses y 20.000 jueces. Estos hipervínculos permiten a los usuarios acceder a resoluciones judiciales para lograr rápidamente el contacto y otra información específica de letrados y jueces mencionados en las resoluciones.
Los hipervínculos de estas resoluciones judiciales se generan automáticamente, utilizando un sistema que maneja nombres de pila, segundos nombres de pila y apellidos; nombre, ciudad y estado del bufete de abogados; e información del tribunal como indicaciones para vincular los abogados y jueces mencionados a sus correspondientes entradas en el directorio profesional. Véase Christopher Dozier y Robert Haschart, "Automatic Extraction and Linking of Person Names in Legal Text" (Proceedings of RIAO 2000: Content Based Multimedia Information Access. París, Francia. Páginas 1.305-1.321. Abril de 2000).
Aunque el sistema automatizado es muy eficaz, el presente inventor percibió que adolece de como mínimo dos limitaciones. En primer lugar, el sistema aprovecha características estructurales (organizativas) de las resoluciones judiciales, tales como los encabezamientos de caso, que no son comunes a otros documentos y limitan así su aplicación general a otros tipos de nombres y documentos. En segundo lugar, el sistema trata todos los nombres como igualmente ambiguos, o igualmente comunes, cuando, de hecho, algunos nombres son más o menos ambiguos que otros. Por ejemplo, el nombre David Smith es más común que el nombre Seven Drake y por lo tanto más ambiguo, o tiene mayor probabilidad de identificar a más de una persona.
Por consiguiente, el presente inventor ha identificado una necesidad de otros métodos para generar hipervínculos para nombres, o más en general de asociar datos que incluyan nombres.
Para abordar ésta y otras necesidades, el inventor ha ideado sistemas, métodos y software que facilitan el establecimiento de hipervínculos, o la asociación, de nombres que aparecen en documentos, tales como artículos informativos, a nombres que aparecen en otras estructuras de datos, tales como registros en directorios profesionales.
De acuerdo con un aspecto de la presente invención, se proporciona un método implementado en ordenador según lo reivindicado en la reivindicación 1.
De acuerdo con otro aspecto de la invención, se proporciona un sistema para añadir un hipervínculo a un documento según lo reivindicado en la reivindicación 8.
Un ejemplo de sistema incluye un módulo de descriptores y un módulo de vinculación. El módulo de descriptores desarrolla modelos descriptivos para seleccionar información que aparezca conjuntamente en el documento, útil para reconocer asociaciones entre nombres y categorías profesionales. El módulo de vinculación etiqueta nombres en un documento de entrada, extrae información que aparece conjuntamente utilizando los modelos descriptivos, clasifica cada nombre como perteneciente a una profesión concreta e intenta encontrar entradas correspondientes en directorios profesionales.
Para encontrar las entradas correspondientes, el módulo de vinculación determina una calificación en cuanto a la rareza (singularidad o ambigüedad) de cada nombre e introduce en una red de inferencia bayesiana esta calificación junto con el nombre y la información que aparece conjuntamente en el documento seleccionada. La red de inferencia mide las probabilidades de que el nombre se refiera a registros (o entradas) candidatos(as) concretos(as) en un directorio profesional determinado. El módulo de vinculación clasifica los registros candidatos basándose en las mediciones de probabilidad y define un hipervínculo (u otra asociación lógica) basándose en el registro clasificado en la posición más elevada que sobrepase un umbral determinado.
El inventor ha ideado también sistemas, métodos y software que facilitan la búsqueda de datos que incluyan términos potencialmente ambiguos, tales como nombres de personas u otras entidades. Por ejemplo, un método implica recibir una consulta de un usuario, identificar uno o más nombres en la consulta, evaluar la ambigüedad o singularidad de los nombres y, si la ambigüedad es suficientemente grande, obtener información adicional y actualizar o complementar la consulta para ayudar a resolver o reducir la ambigüedad. La información adicional, que por ejemplo incluye un título profesional, una localización o una organización, puede obtenerse directamente del usuario o mediante una búsqueda suplementaria automática.
Breve descripción de los dibujos
La figura 1 es un diagrama de bloques de un ejemplo de un sistema 100 que incorpora enseñanzas de la presente invención.
La figura 2 es un organigrama de un ejemplo de un método para operar el sistema 100 con el fin de definir expresiones o descriptores para el uso en la clasificación y vinculación de nombres.
La figura 3 es un organigrama de un ejemplo de un método para operar el sistema 100 con el fin de definir un hipervínculo entre nombres que aparecen en un documento y nombres que aparecen en una base de datos, basado en la red de inferencia bayesiana formada según la figura 5.
La figura 4 es un diagrama de bloques de un ejemplo de un sistema de inferencia bayesiana utilizado para operar el sistema 100 con el fin de definir hipervínculos.
La figura 5 es un organigrama de un ejemplo de un método para operar el sistema 100 con el fin de formar una red de inferencia bayesiana para el uso en la medición de la probabilidad de que un nombre que aparece en un documento y un nombre que aparece en una base de datos se refieran a la misma persona.
La figura 6 es un organigrama de un ejemplo de un método de búsqueda que incorpora enseñanzas de la presente invención.
La siguiente descripción detallada, que alude a las figuras 1-6 y las incorpora, describe e ilustra uno o más ejemplos de realización de la invención. Estas realizaciones, ofrecidas no para limitar sino sólo para ejemplificar y enseñar la invención, se muestran y describen con un detalle suficiente para permitir a los técnicos en la materia llevar a cabo y utilizar la invención. Así, cuando resulte apropiado para no ofuscar la invención, la descripción puede omitir cierta información ya conocida por el técnico en la materia.
La descripción incluye muchos términos con significados derivados de su uso en la técnica o de su uso dentro del contexto de la descripción. Como ayuda adicional se ofrecen las siguientes definiciones de términos.
Los términos "un" y "una" se refieren a como mínimo uno o una.
El término "o" se utiliza en su sentido lógico booleano, a no ser que se utilice junto con "bien".
El término "documento" se refiere a todo conjunto lógico o disposición lógica de datos legibles por máquina con un nombre de archivo.
El término "base de datos" incluye todo conjunto lógico o disposición lógica de documentos legibles por máquina.
El término "hipervínculo" incluye todo testigo en un documento que se ajuste estructural o funcionalmente a cualquier norma pasada, presente o futura relativa al Uniform Resource Locator (URL) (localizador uniforme de recursos). También incluye todo testigo que incluya información que identifique un sistema informático o dispositivo en red específico.
El término "nombre" incluye una o más palabras mediante las cuales una entidad, tal como una persona, un animal, un lugar, una cosa, un grupo, una organización o una entidad legal, se denomine y se distinga de otras.
El término "módulos de programa" incluye rutinas, programas, objetos, componentes, estructuras de datos e instrucciones o series de instrucciones, etc., que realicen tareas concretas o implementen tipos abstractos de datos concretos. El término no está limitado en cuanto a un soporte concreto.
Ejemplo de sistema informático para la realización de la invención
La figura 1 muestra un diagrama de un ejemplo de un sistema informático 100 que incorpora un sistema, un método y un software para el marcado automático de una o más partes de un documento y la definición de uno o más hipervínculos correspondientes para cada parte marcada. Aunque el ejemplo del sistema se presenta como un conjunto interconectado de componentes separados, algunas otras realizaciones implementan su funcionalidad empleando un número mayor o menor de componentes. Además, algunas realizaciones interconectan uno o más componentes mediante redes de área local o redes de gran amplitud por cable o inalámbricas. Algunas realizaciones implementan una o más partes del sistema 100 utilizando uno o más servidores u ordenadores centrales. Así pues, la presente invención no está limitada a ninguna partición funcional en concreto.
En general, un sistema 100 incluye una base de datos de documentos de entrada 110, un subsistema de vinculación de nombres 120, directorios profesionales 130, una base de datos de documentos de salida 140 y dispositivos de acceso 150.
La base de datos de documentos de entrada 110 incluye uno o más documentos electrónicos, de los cuales se muestra como representante un documento 112. El documento 112 incluye uno o más nombres de personas, lugares, cosas o entidades legales (más en general nombres propios), tales como N1, N2, N3, N4 y N5, repartidos por todo el documento. En el ejemplo de realización, el documento 112 es una versión electrónica de un artículo informativo escrito u otro documento de texto, por ejemplo una resolución judicial u otro tipo de documento legal. Sin embargo, en otras realizaciones el documento 112 incluye una o más imágenes o datos multimedia que contienen uno o más nombres.
La base de datos 110 tiene conectado un sistema informatizado de vinculación de nombres 120. El sistema 120 incluye uno o más procesadores convencionales 121, un dispositivo de visualización 122, dispositivos de interfaz 123, dispositivos de comunicación en red 124, dispositivos de memoria 125, un software de procesamiento de documentos 126 y un software de marcado y vinculación 127. El software 126 y 127 incluye diversos componentes de software y de datos que pueden adoptar diversas formas, tales como instrucciones o datos codificados en un soporte eléctrico, magnético y/u óptico, y que pueden instalarse en el sistema 120 por separado o en combinación a través de una descarga de la red o a través de otros métodos de transferencia de software.
Entre los ejemplos de software de procesamiento de documentos se incluyen programas de procesamiento de texto, programas de edición de HTML, programas de hoja de cálculo, programas de correo electrónico, programas de desarrollo de presentaciones, programas de navegación, programas de gestión de documentos y programas de copia de seguridad de archivos. Así pues, la invención no está limitada a ningún género o especie de software de procesamiento de documentos en concreto.
En el ejemplo de realización, el software 127 es una herramienta adicional a un software de procesamiento de documentos 126. Sin embargo, en otras realizaciones funciona como un programa de aplicación independiente, tal como un programa accesible por red, o como parte del kernel o el shell de un sistema operativo. Más en concreto, el software 127 incluye un módulo de descriptores 1271, un módulo de vinculación 1272 y un módulo de formación 1273, descritos todos ellos más abajo con mayor detalle.
El sistema 120 está conectado a directorios profesionales 130 y a una base de datos de documentos de salida 140.
Los directorios profesionales 130 incluyen uno o más directorios profesionales, tales como un directorio de abogados 132, un directorio de jueces 134, una base de datos de expertos 136 y un directorio de otros profesionales 138. Cada directorio (o más en general base de datos) incluye un juego de registros u otras estructuras de datos que contienen información asociada a una o más entidades nominadas o identificadas, tales como personas, lugares, cosas o entidades legales. Por ejemplo, un directorio de abogados 132 incluye cierto número de registros de abogados, tales como el ejemplo de registro de abogados A1; el directorio de jueces 134 incluye cierto número de registros de jueces, tales como el ejemplo de registro de jueces J1; el directorio de expertos 136 incluye cierto número de registros de expertos, tales como el ejemplo de registro de expertos E1; y el directorio de otros incluye cierto número de registros que contienen información asociada a otros individuos, tales como médicos, profesores, contables, profesores, celebridades, etc. Algunas realizaciones pueden incluir bases de datos de teléfonos y direcciones de correo electrónico, informes crediticios, informes fiscales, antecedentes penales, información médica, registros escolares, etc.
La base de datos de documentos de salida 140 incluye uno o más documentos procesados, tales como el ejemplo de documento 142. El documento 142 incluye nombres marcados N1, N2, N3, N4, N5 y los hipervínculos respectivos 1421, 1422, 1423, 1424 y 1425, que se refieren cada uno a un registro biográfico u otra estructura de datos dentro de como mínimo uno de los directorios profesionales 130, o a uno de los directorios profesionales sin indicar un registro concreto del directorio, o a un subconjunto de registros dentro de un directorio. Los hipervínculos 1421-1425, generados por el procesador de vinculación de nombres 120 e incrustados en el documento o asociados de otra manera al mismo, pueden seleccionarse para vincular las respectivas partes de nombre marcado N1, N2, N3, N4, N5 del documento 140 a bases de datos 130, 132 y 134 a través de una red de área local o una red de gran amplitud pública o privada o a través de una vía de transmisión dedicada (no mostrada). El ejemplo de realización presenta los nombres marcados en un color o una fuente que haga contraste, o de otro modo que pueda percibir el usuario, para indicar su asociación con un hipervínculo existente. A los documentos incluidos en la base de datos de salida 140 puede accederse a través de una red de área local o una red de gran amplitud por medio de los dispositivos de acceso 150.
El ejemplo de realización prevé la base de datos de salida 140 como una parte de un servidor web, por ejemplo un Microsoft Internet Information Server 4.0, que funcione en una red de varios servidores con procesadores y memoria extendida y configuraciones de disco. La base de datos 140 puede tomar cualquier número de formas en diversas plataformas informáticas. Además, en algunas realizaciones, la base de datos 140 incluye un contenido redundante para permitir a más de un dispositivo, como los dispositivos de acceso 150, acceder simultáneamente a múltiples copias del mismo documento.
Los dispositivos de acceso 150 incluyen los ejemplos de dispositivo de acceso 152, 154, 156 y 158. Cada dispositivo de acceso incluye una pantalla, un procesador (uP) y software (SW). El término "dispositivo de acceso", tal y como se utiliza en el presente documento, abarca ordenadores personales equipados con navegador, equipos de red, asistentes digitales personales (PDA), teléfonos, teléfonos móviles, teléfonos web, televisores, televisión web, etc. También incluye monitores y equipos de otro tipo que puedan dar salida a datos en una forma con la que los usuarios u otros ordenadores puedan interaccionar. Así pues, la presente invención no está limitada a ninguna clase o forma concreta de dispositivo de acceso.
Ejemplo de operación del sistema 100
En general, el ejemplo de operación del sistema 100 implica la operación del módulo de descriptores 1271, el módulo de vinculación 1272 y el módulo de formación 1273. El módulo de descriptores 1271 genera una(o) o más estructuras o módulos de descriptores de nombres profesionales para su uso en la identificación de nombres con probabilidad de referirse a individuos dentro de una o más categorías profesionales concretas (o de satisfacer otros criterios predeterminados). El módulo de vinculación 1272 recibe un documento de entrada, por ejemplo el documento 110, y establece hipervínculos de uno o más nombres que aparecen en el documento de entrada a uno o más directorios profesionales, basándose en estructuras de descriptores de nombres profesionales y/u otros datos extraídos del documento 110 e introducidos en una red de inferencia bayesiana. El módulo de formación 1273 define las probabilidades condicionales en diversos nodos de la red de inferencia bayesiana utilizada por el módulo de vinculación 1272.
A. Estructura y funcionamiento del módulo de descriptores
Más en particular, la figura 2 muestra un organigrama 200 que ilustra un ejemplo de un método para operar el módulo de descriptores 1271 con el fin de generar descriptores de nombre para una profesión determinada. Una premisa del ejemplo de realización es que algunos nombres personales tienen una probabilidad mucho mayor de pertenecer a un único individuo que otros nombres y que, si tales nombres están también asociados a una profesión (u otra clasificación) común, es posible identificar automáticamente el lenguaje descriptivo común a los miembros de la profesión (o clasificación). Este lenguaje podría emplearse entonces para identificar a la mayoría de los miembros de la profesión (o clasificación) mencionados en el cuerpo.
El organigrama 200 incluye los bloques de proceso 210-260. Aunque estos bloques (y los de otros organigramas de este documento) están dispuestos en serie en el ejemplo de realización, otras realizaciones pueden reorganizar los bloques, omitir uno o más bloques y/o ejecutar dos o más bloques en paralelo empleando múltiples procesadores o un único procesador organizado como dos o más máquinas o subprocesadores virtuales. Además, otras realizaciones incluso implementan los bloques como uno o más módulos específicos de circuitos integrados o de hardware interconectados, con un control relacionado y señales de datos comunicadas entre y a través de los módulos. Así pues, éste y otros ejemplos de flujo de proceso de este documento son aplicables a software, firmware, hardware y otros tipos de implementación.
El bloque 210 implica identificar nombres que aparezcan en un conjunto de documentos (o cuerpos) que coincidan con nombres que aparezcan en un directorio profesional y nombres que no coincidan. La identificación de nombres coincidentes y no coincidentes, es decir nombres "en directorio" y nombres "fuera de directorio", implica identificar todos los nombres que aparecen en el conjunto empleando un programa de etiquetado de nombres y ejecutando a continuación una búsqueda en un directorio profesional, tal como uno de los directorios profesionales 130. Aunque la presente invención no está limitada a ningún género o especie de etiquetadores de nombres, entre los ejemplos de etiquetadores de nombres adecuados se incluye el software de análisis sintáctico NetOwl de IsoQuest, Inc. de Fairfax, Virginia. (El inventor considera un etiquetador de nombres basado en un modelo de entropía máxima para algunas realizaciones).
Una vez ejecutada la búsqueda, el ejemplo de realización identifica un subconjunto de los nombres "en directorio" como nombres "en directorio" poco comunes o únicos. Esto implica calcular una probabilidad de singularidad de nombre para cada nombre "en directorio", basándose la probabilidad de singularidad de nombre en un modelo de lenguaje para los nombres que aparecen en el directorio. El ejemplo de modelo de lenguaje se define en términos de probabilidad de nombre de pila y probabilidad de apellido, basándose la probabilidad de nombre de pila y la probabilidad de apellido en cada caso en la relación del número total de apariciones del nombre de pila y el apellido con respecto al número total de nombres que aparecen en una lista de nombres sacada de la población general.
La lista de nombres debería ser suficientemente grande para representar con precisión la distribución de nombres en la población general. Si el directorio profesional, u otra base de datos, es suficientemente grande, puede utilizarse como base para el modelo de lenguaje. Si el directorio profesional es pequeño, el modelo de lenguaje debería estar basado en alguna otra lista, tal como la lista de profesionales autorizados enumerados en registros públicos de los Estados Unidos. La descripción siguiente supone que el directorio profesional (o base de datos) en cuestión es suficientemente grande para ser representativo de los nombres que aparecen en la población general.
Una vez definido el modelo de lenguaje, se calcula la calificación de probabilidad de coincidencia de nombre para cada nombre "en directorio" empleando
1
donde P(nombre de pila) significa la probabilidad de sacar el nombre de pila al azar de entre todos los nombres de pila que aparecen en el directorio y P(apellido) significa análogamente la probabilidad de sacar el apellido al azar de entre todos los apellidos que aparecen en el directorio. Una probabilidad de singularidad o rareza de nombre se calcula entonces como
2
donde H significa el tamaño de la población humana con probabilidad de ser citada en el cuerpo. Por ejemplo, para un cuerpo consistente en artículos del Wall Street Journal, H se supone que es 300 millones, la población aproximada de los Estados Unidos. A continuación se utilizan como base todos los nombres "en directorio" con una probabilidad de singularidad de nombre que sobrepase un valor umbral, por ejemplo 0,07, junto con los nombres "fuera de directorio" para el procesamiento ulterior en el bloque 220.
\vskip1.000000\baselineskip
El bloque 220 extrae información que aparece conjuntamente en el documento o asociada de otra manera a uno o más de los nombres "en directorio" identificados y uno o más de los nombres "fuera de directorio". En el ejemplo de realización, esto implica extraer texto o información dentro de cierto intervalo de texto (o región del documento) alrededor de cada uno de los nombres "en directorio" poco comunes y alrededor de todos los nombres "fuera de directorio".
Más en concreto, el ejemplo de extracción implica extraer unigramas y bigramas que aparezcan dentro de un intervalo de texto que se extiende ocho palabras antes y ocho palabras después de cada aparición de nombres "en directorio" y nombres "fuera de directorio" poco comunes identificados en el cuerpo. (Otras realizaciones utilizan otros tamaños y formas de intervalos de texto, tales como estructuras gramaticales u organizativas de documentos. Por ejemplo, algunas realizaciones definen el intervalo basándose en el número de caracteres, oraciones o subdivisiones). Los unigramas y bigramas asociados a nombres "en directorio" se definen como unigramas y bigramas "en directorio" de aparición conjunta, mientras que los asociados a nombres "fuera de directorio" se denominan unigramas y bigramas "fuera de directorio" de aparición conjunta. La ejecución continúa en el bloque 230.
El bloque 230 determina una probabilidad de que la información extraída aparezca con un nombre "en directorio" en lugar de con un nombre "fuera de directorio". En el ejemplo de realización, esto implica calcular la probabilidad de que cada unigrama y bigrama "en directorio" aparezca dentro de un intervalo de ocho palabras antes y después de los nombres "fuera de directorio" y la probabilidad de que cada unigrama y bigrama "fuera de directorio" aparezca dentro de un intervalo de ocho palabras antes y después de los nombres "en directorio". Estas probabilidades de aparición conjunta se calculan de la siguiente manera:
3
donde EU = número de veces que un unigrama aparece en el intervalo con un nombre poco común "en directorio" y NE = número de nombres poco comunes "en directorio".
4
donde FU significa el número de veces que un unigrama aparece en el intervalo con un nombre "fuera de directorio" y NF significa el número de nombres "fuera de directorio".
5
donde EB significa el número de veces que un bigrama aparece en el intervalo con un nombre poco común "en directorio" y NE el número de nombres poco comunes "en directorio".
6
donde FB significa el número de veces que un bigrama aparece en el intervalo con un nombre "fuera de directorio" y NF significa el número de nombres "fuera de directorio".
\vskip1.000000\baselineskip
Para determinar la probabilidad de que los unigramas y bigramas aparezcan conjuntamente con un nombre poco común "en directorio" en lugar de un nombre "fuera de directorio", el ejemplo de realización divide la probabilidad de aparición conjunta con un nombre poco común "en directorio" por la respectiva probabilidad de aparición conjunta "fuera de directorio". Estas fórmulas de probabilidad se expresan como
7
donde P(unigrama) es la probabilidad de que un determinado unigrama aparezca conjuntamente con un nombre poco común "en directorio" y P(bigrama) es la probabilidad de que un determinado bigrama aparezca conjuntamente con un nombre poco común "en directorio".
\vskip1.000000\baselineskip
El bloque 240 clasifica la información extraída basándose en las probabilidades de aparición conjunta de unigramas y bigramas anteriores y posteriores. Con este fin, el ejemplo de realización clasifica u ordena los unigramas y bigramas de aparición conjunta "en directorio" en orden descendente según sus probabilidades de aparición conjunta con nombres poco comunes "en directorio" (otras realizaciones pueden calcular y usar probabilidades de aparición conjunta). En las dos tablas siguientes se muestran ejemplos de listas clasificadas de unigramas y bigramas anteriores y posteriores para profesionales legales, junto con sus calificaciones de probabilidad.
\vskip1.000000\baselineskip
TABLA 1 Ejemplos de unigramas anteriores y posteriores
8
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
TABLA 2 Ejemplos de bigramas anteriores y posteriores
9
El bloque 250 implica seleccionar uno o más conjuntos de la información extraída, basándose en las clasificaciones. En el ejemplo de realización, éste es un proceso de selección manual; sin embargo, otras realizaciones pueden aplicar criterios de selección automática basados, por ejemplo, en una clasificación mínima específica o una clasificación mínima específica en combinación con un umbral mínimo.
Más en concreto, el ejemplo de realización selecciona dos conjuntos de términos, denominados términos ancla. El primer conjunto de términos ancla incluye términos que tienen una gran probabilidad de aparecer antes de un nombre poco común "en directorio" y el segundo conjunto de términos ancla incluye términos que tienen una gran probabilidad de aparecer después de tal nombre. En muchos casos, los términos ancla son los nombres en oraciones o cláusulas apositivas que aparecen antes o después de un nombre determinado. El ejemplo de realización agrupa también términos en minúsculas que son sinónimos entre sí. Por ejemplo, los términos como "lawyer", "counsel" y "prosecutor" se consideran sinónimos de "attorney" y, por lo tanto, se agrupan para formar un único término ancla con el fin de reducir el número de expresiones o descriptores regulares generados en el bloque 260.
El bloque 260 implica generar automáticamente modelos (o expresiones) de descriptor de profesión que estén en correlación con la membresía en la profesión. Los ejemplos de descriptores representan modelos gramaticales en fragmentos del cuerpo que están delimitados por nombres poco comunes "en directorio" y los términos ancla seleccionados.
El ejemplo de realización genera los modelos de la siguiente manera: Para cada fragmento de oración delimitado por un término ancla y un nombre poco común, el ejemplo de realización deriva un modelo (o estructura) generalizado(a) dividiendo el fragmento en testigos separados de acuerdo con los espacios y las comas y normalizando a continuación cada testigo basándose en su categoría gramatical más comúnmente asociada en un diccionario de inglés. Los testigos no incluidos en el diccionario se clasifican como "otros" y las formas del verbo "to be" se clasifican como "is" para distinguirlos de otros verbos. Los signos de puntuación que no sean comas se clasifican como "otros". El ejemplo de realización utiliza un diccionario de inglés públicamente disponible de aproximadamente 90.000 palabras, estando cada palabra asociada a una o más categorías gramaticales, enumeradas por orden de frecuencia dentro de un cuerpo. En la tabla 3 se muestra un ejemplo de vocabulario para los modelos descriptivos.
\vskip1.000000\baselineskip
TABLA 3 Ejemplo de vocabulario para modelos descriptivos
10
\vskip1.000000\baselineskip
A continuación, el ejemplo de realización crea una lista combinada de modelos únicos y cuenta la frecuencia con que cada uno se repite en el cuerpo. Después se ordenan los modelos basándose en sus recuentos de aparición y se desechan los modelos singulares. Los modelos restantes se toman entonces como indicativo de membresía en la profesión en cuestión.
El recuadro 260' muestra que un ejemplo de estructura de modelo incluye una estructura de nombre 261, estructuras gramaticales 262, una estructura de términos ancla 263 y datos de posición relativa 264 y 265. La estructura de nombre 261 es un marcador de posición para un nombre en un fragmento. Las estructuras gramaticales 262 incluyen la puntuación, identificadores de categoría gramatical e información posicional asociada indicativa de cualesquiera modelos estructurales gramaticales existentes entre el nombre y la estructura de términos ancla 263. La estructura de términos ancla 263 representa e incluye uno o más términos ancla.
Los datos de posición relativa 264 y 265 indican en cada caso la posición relativa de la estructura de nombre 261 y las estructuras gramaticales 262, y de la estructura gramatical 262 y los términos ancla 263. Aunque el ejemplo de realización implementa los datos de posición relativa implícitamente por lo que se refiere al orden de los datos dentro de la estructura de modelo, otras realizaciones indican explícitamente la posición relativa como "antes" o "después". Algunas realizaciones omiten la estructura de nombre y/o las estructuras gramaticales que intervienen y definen modelos en cuanto a distancia en palabras o caracteres entre los términos ancla y una estructura de nombre implícita.
En la tabla siguiente se muestran ejemplos de modelos descriptivos de profesión para identificar abogados (attorneys) en el cuerpo de artículos informativos. También se muestran fragmentos de oración correspondientes extraídos de un documento mediante el empleo de estos modelos.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
TABLA 4 Ejemplos de modelos descriptivos de abogados y fragmentos de oración
11
\vskip1.000000\baselineskip
En esencia, el ejemplo de realización utiliza nombres poco comunes o menos ambiguos como etiquetas virtuales para identificar o extraer mediante filtrado un conjunto de ejemplos de fragmentos de oración que contienen descripciones de profesionales mencionados y que pueden emplearse como base para definir modelos gramaticalmente descriptivos. El filtro de rareza sirve para identificar buenos ejemplos con mucha más eficacia que la búsqueda de fragmentos de oración alrededor de nombres personales en general. A continuación se utilizan estos modelos como ayuda para la generación automática de hipervínculos en el módulo de vinculación 1272.
B. Estructura y funcionamiento del módulo de vinculación
En general, el módulo de vinculación 1272 (en la figura 1) recibe un documento de entrada, como el documento 110, y establece hipervínculos de uno o más nombres que aparecen en el documento de entrada a uno o más directorios profesionales, basándose en las estructuras de descriptores de nombres profesionales definidas por el módulo de descriptores 1271.
La figura 3 muestra un organigrama 300 de un ejemplo de un método realizado en el módulo de vinculación 1272. El organigrama 300 incluye los bloques de proceso 310-370.
La ejecución del ejemplo del método se inicia en el bloque 310, que implica recibir un documento, como por ejemplo un documento 112, de la base de datos de documentos de entrada 110. En algunas realizaciones, el módulo de vinculación 1272 ejecuta en el contexto de una o más sesiones iniciadas por el software de procesamiento de documentos 126 y el documento de entrada representa un documento completo hospedado por el software de procesamiento de documentos o una o más partes seleccionadas del documento dentro de una ventana de procesamiento activa en un programa de procesamiento de documentos. Sin embargo, en otras realizaciones el documento o la parte del documento se recibe o se recupera de una ventana de procesamiento actualmente activa en un programa de procesamiento de documentos. En algunas otras realizaciones el módulo de vinculación es una aplicación autónoma que interacciona con una o más bases de datos conectadas a un sistema informático central, como una estación de trabajo. La ejecución continúa en el bloque 320.
En el bloque 320, el módulo de vinculación utiliza un etiquetador genérico para etiquetar o marcar cada nombre de persona, lugar u organización en los documentos de entrada. El ejemplo de realización emplea el mismo etiquetador que el utilizado en el módulo de descriptores. En el ejemplo de realización, el etiquetado de nombres implica también resolver correferencias claras al mismo nombre dentro del documento de entrada.
Con este fin, el ejemplo de realización vincula de forma conjunta las referencias dentro de un documento al mismo nombre, utilizando una serie de reglas de comparación de nombres. Estos vínculos se califican de cadenas de correferencias "en documento", o cadenas de nombre. Durante el proceso de etiquetado, el apellido de cada nuevo nombre encontrado se compara con los apellidos de los nombres ya encontrados. Si no se hallan coincidencias, el nuevo nombre encontrado se trata como nombre único en el documento. Si el nuevo apellido encontrado coincide con un apellido ya existente, el nombre de pila que acompaña al nuevo apellido encontrado se compara con el nombre de pila que acompaña a los apellidos coincidentes. Si un nombre de pila coincide o es compatible, se supone que los nombres son iguales. Si el nombre de pila es incompatible con el nombre de pila de cualquiera de los apellidos coincidentes, el nombre se trata como único en el documento. Si el nuevo nombre encontrado no tiene un nombre de pila claramente asociado, el nombre se trata como referencia al nombre encontrado más recientemente que tenga el mismo apellido. Otras realizaciones pueden utilizar otras técnicas para resolver correferencias "en documento".
\newpage
En el bloque 330, el módulo de vinculación determina cuál de la o las cadenas de nombre etiquetadas es probable que esté asociada a uno o más directorios profesionales. En el ejemplo de realización, esto implica aplicar uno o más modelos descriptivos de profesión generados por el módulo de descriptores 1271. Al aplicar los modelos descriptivos, el ejemplo de realización trata de emparejar o correlacionar cada modelo descriptivo para una profesión determinada con el texto que rodea a cada aparición de un nombre etiquetado en el documento de entrada. Si se correlaciona con éxito el modelo descriptivo con una aparición de un nombre, el nombre (y sus correferencias "en documento") se considera un profesional candidato y se añade a una lista de profesionales candidatos de un tipo determinado. (Otras realizaciones aprovechan la estructura regular o características clave de los documentos como evidencia adicional por lo que respecta a la naturaleza de los nombres en los documentos. Por ejemplo: las resoluciones judiciales (jurisprudencia) incluyen encabezamientos de caso, frases de abogados, resoluciones coincidentes y fechas que pueden utilizarse para identificar y/o distinguir abogados y jueces). La lista de cadenas de nombre candidato se envía a su procesamiento posterior en el bloque 340.
El bloque 340 implica definir una o más plantillas de nombre u otras estructuras de datos basadas en las cadenas de nombre etiquetado de profesionales candidatos y el texto de aparición conjunta relacionado u otra información del documento. En el ejemplo de realización, definir las plantillas de nombre implica formar, para cada cadena de nombre etiquetado, un conjunto de oraciones del documento que contienen un nombre de la cadena y un conjunto de párrafos del documento que contienen un nombre de la cadena. En algunas realizaciones, los conjuntos de oraciones o párrafos son indicadores de posición en documento que denotan el principio y/o final de oraciones y párrafos.
Una vez formados los conjuntos de oraciones y párrafos, el módulo de vinculación define una plantilla para cada cadena de nombre, teniendo cada plantilla la forma del ejemplo de plantilla de nombre 340'. La plantilla de nombre 340' incluye un registro de nombre 341, un registro de datos de descriptor 342, un registro de datos de lugar 343, un registro de organización 344 y un registro de singularidad (o rareza) de nombre 345.
El registro de nombre 341 incluye un campo de nombre de pila (first), un campo de segundo nombre de pila (mid), un campo de apellido (last) y un campo de sufijo (suffix). Otras realizaciones incluyen otros datos relacionados con el nombre, tales como sobrenombres extraídos de una tabla de consulta u ortografías alternativas comunes. Y otras realizaciones excluyen uno o más de los campos utilizados en el ejemplo de realización, tales como el sufijo.
El registro de datos de descriptor 342 incluye uno o más campos de descriptor, tales como D1, D2, D3... Dn. En el ejemplo de realización, cada campo de descriptor incluye fragmentos de oraciones extraídos del documento de entrada mediante el empleo de uno o más de los modelos descriptivos de profesión generados por el módulo de descriptores 1271 para una profesión determinada. Para un documento en el que un nombre se repita o tenga correferencias en múltiples puntos, las estructuras de descriptor se aplican a cada aparición del nombre para montar el conjunto de campos de descriptor. Algunas realizaciones pueden aplicar incluso los modelos de descriptor a referencias a un nombre determinado hechas mediante pronombres (en otras realizaciones, los descriptores incluyen también verbos que aparecen conjuntamente dentro de cierto intervalo de distancia con respecto a los nombres).
La aplicación de los modelos implica alinear la parte del nombre de cada modelo con los nombres que aparecen en el conjunto de oraciones y determinar si la gramática de la parte (el fragmento) adyacente de la oración concuerda con la gramática del modelo. Si existe concordancia, el ejemplo de módulo de vinculación copia una o más partes del fragmento de oración correspondiente, por ejemplo el término ancla, en un campo de descriptor respectivo del registro de datos de descriptor 342.
El registro de datos de lugar 343 incluye un campo de "misma oración" y un campo de "mismo párrafo". El campo de "misma oración" incluye subcampos LS1, LS2,..., LSj, incluyendo cada subcampo LS un nombre de lugar que aparece conjuntamente en una oración con una referencia al nombre que aparece en el registro de datos de nombre 341. El campo de "mismo párrafo" incluye subcampos LP1, LP2,..., LPk. Cada subcampo LP incluye un nombre de lugar que aparece conjuntamente en un párrafo que contiene una referencia al nombre que aparece en el registro de datos 341. En el ejemplo de realización, la construcción de este registro implica buscar lugares en los conjuntos de oraciones y párrafos para un nombre determinado y copiar los lugares encontrados en los subcampos respectivos.
El registro de datos de organización 344 incluye un campo de "misma oración" y un campo de "mismo párrafo". El campo de "misma oración" incluye subcampos OS1, OS2,..., OSj, incluyendo cada subcampo una organización que aparece conjuntamente en una oración con una referencia al nombre que aparece en el registro de datos de nombre 341. El campo de "mismo párrafo" incluye subcampos OP1, OP2,..., OPk. Cada subcampo OP incluye una organización que aparece conjuntamente en un párrafo que contiene una referencia al nombre que aparece en el registro de datos 341.
En el ejemplo de realización se entiende que el concepto de oración incluye tanto oraciones gramaticales como oraciones tipográficas y que el concepto de párrafo incluye cualquier grupo de una o más oraciones delimitado o separado de otro grupo de una o más oraciones por signos de puntuación u otro recurso o técnica de señalización. Además, en el ejemplo de realización no es necesario que los lugares y organizaciones de "misma oración" y de "mismo párrafo" se excluyan mutuamente. Es decir que si un término aparece en una oración con la aparición de un nombre, también aparece dentro del mismo párrafo que contiene la oración. Sin embargo, en otras realizaciones los lugares de "misma oración" y "mismo párrafo" podrían definirse como mutuamente excluyentes.
Aunque el ejemplo de realización prevé información posicional implícita para los lugares y organizaciones a través de la estructura de los campos de "misma oración" y "mismo párrafo", otras realizaciones pueden utilizar otras técnicas para incorporar información de posición relativa a un nombre determinado en la plantilla de nombre. Por ejemplo: algunas realizaciones utilizan el desplazamiento de carácter, palabra, oración, párrafo o página a partir del nombre, o más exactamente la aparición de un nombre determinado. Otras realizaciones prevén información posicional en forma de un conjunto de códigos binarios o banderas, indicando cada bandera si un lugar o una organización lógicamente asociado(a) o correspondiente aparece dentro de una oración o párrafo con su nombre asociado. Otras realizaciones más prevén banderas que indican si los sitios se hallan dentro o fuera de cierto intervalo de texto o región del documento con relación al nombre. Y otras realizaciones prevén una posición relativa en documento o una posición absoluta en documento para cada organización o sitio.
El registro de singularidad (o rareza) de nombre 345 incluye un campo de calificación que contiene un indicador de singularidad o rareza de su nombre asociado. En el ejemplo de realización, este indicador es un indicativo numérico de cantidad de una probabilidad a priori de que un nombre coincida con un registro candidato sacado de un directorio en particular. Más en concreto, el ejemplo de realización define la cantidad como la probabilidad de singularidad de un nombre y la calcula mediante
13
donde H' significa el tamaño de la categoría profesional indicada por la coincidencia de descriptor y P(nombre) se define como
14
donde P(nombre de pila) significa la probabilidad de sacar el nombre de pila al azar de entre todos los nombres de pila que aparecen en una lista de nombres representativa de la población general y P(apellido) significa análogamente la probabilidad de sacar el apellido al azar de entre todos los apellidos que aparecen en una lista de nombres representativa de la población general.
\vskip1.000000\baselineskip
Aunque el ejemplo de realización utiliza una plantilla como la plantilla de nombre 340' para múltiples tipos de profesiones, algunas realizaciones pueden suprimir o añadir otras características de plantilla. Por ejemplo: las plantillas para jueces pueden omitir la información de lugar separada, dado que la información de la organización, por ejemplo el nombre del tribunal, contiene implícitamente información del lugar. Otras realizaciones pueden omitir información totalmente en lugar de sólo su forma explícita.
El bloque 350, que se ejecuta una vez definidas las plantillas de nombre en el bloque 340, recupera un conjunto de entradas candidatas de uno o más directorios profesionales 130. Con este fin, el ejemplo de realización busca entradas de directorio que tengan el mismo apellido que uno de los nombres profesionales candidatos. A continuación recupera el nombre completo, el título, la organización, el lugar y la información de identificación de entrada para estas entradas de directorio candidatas, para un procesamiento ulterior en el bloque 360.
El bloque 360 implica comparar y calificar la semejanza de cada plantilla de nombre con uno o más de los registros candidatos o estructuras de datos candidatas recuperados(as). En el ejemplo de realización, esto implica utilizar uno o más sistemas de inferencia bayesiana, tales como el mostrado en la figura 4.
La figura 4 muestra un ejemplo de un sistema de inferencia 400 que incluye una plantilla de nombre de entrada 410, un registro candidato de entrada 420 y uno o más motores de inferencia bayesiana, tales como el motor de inferencia bayesiana 430.
La plantilla de nombre de entrada 410 incluye datos de nombre 411, datos de descriptor 412, datos de lugar 413, datos de organización 414 y datos de singularidad de nombre 415. El registro candidato de entrada 420 incluye datos de nombre 421, datos de título 422, datos de lugar 423, datos de organización 424 y datos de identificación de registro 425.
El motor de inferencia 430 incluye los módulos de comparación de evidencia 431-434 y el módulo de cálculo 435. Los módulos de comparación 431-434 incluyen estructuras de datos y de reglas lógicas respectivas que definen diversos estados de comparación y probabilidades asociadas. En el ejemplo de realización, cada motor de inferencia está adaptado a un directorio profesional específico u otra base de datos específica. Además, el ejemplo de realización implementa cada motor empleando un módulo de software reconfigurable, con opciones de configuración para definir la lógica y los cálculos de comparación. Sin embargo, otras realizaciones pueden utilizar estructuras de motor de inferencia totalmente distintas.
Cada módulo de comparación incluye por lo general dos o más estados mutuamente excluyentes que indican un resultado potencial de comparación entre un ítem de datos candidato y un ítem de datos de entrada respectivo. Cada estado está asociado a una lógica de comparación específica y probabilidades condicionales para el estado suponiendo la coincidencia de un registro candidato con la plantilla de nombre de entrada y suponiendo la no coincidencia de los registros candidatos con la plantilla de nombre de entrada (algunas realizaciones incluyen múltiples conjuntos de estados, lógica y probabilidades condicionales, estando cada conjunto asociado a un directorio profesional o una profesión en concreto). Entre los ejemplos de estados se incluyen: una coincidencia exacta, una coincidencia muy aproximada, una coincidencia poco aproximada, una coincidencia desconocida (o no especificada) y una falta de coincidencia.
Una coincidencia exacta se produce cuando los ítems o elementos de datos coinciden exactamente. Una coincidencia muy aproximada se produce cuando los elementos no llegan a coincidir exactamente, pero son muy compatibles. Una coincidencia poco aproximada se produce cuando los elementos no llegan a coincidir exactamente y son poco compatibles. Una coincidencia desconocida se produce cuando no hay suficiente información para determinar si los datos coinciden o no. Y una falta de coincidencia se produce cuando los ítems no presentan compatibilidad.
Más exactamente, el ejemplo de realización define cada uno de los estados para cada módulo de comparación de evidencia de la siguiente manera: El módulo de comparación 431 tiene tres estados: un estado de coincidencia exacta (EX), un estado de coincidencia muy aproximada (SF) y un estado de coincidencia poco aproximada (WF). Para que se produzca una coincidencia exacta, todos los componentes de un nombre extraído deben coincidir exactamente con los de un registro candidato. Por ejemplo: Abraham Lincoln coincide exactamente con Abraham Lincoln, pero no con Abe Lincoln, Abraham Lincoln, Jr. o Abraham S. Lincoln. Para una coincidencia muy aproximada, el nombre de pila y el apellido que aparecen en el documento etiquetado deben coincidir con el nombre de pila y el apellido del registro, con todos los demás componentes del registro sin especificar o en blanco. Así pues, Abraham Lincoln es una coincidencia muy aproximada con Abraham Lincoln, Jr. y Abraham S. Lincoln. Para una coincidencia poco aproximada sólo coincide el apellido, mientras que todos los demás componentes quedan sin especificar o tienen formas variantes de coincidencia tales como sobrenombres. Así pues, Abraham Lincoln es una coincidencia poco aproximada con Abe Lincoln. (Aunque no se muestra en las figuras, la comparación 431 incluye o tiene acceso, por ejemplo, a una base de datos de nombres y sobrenombres o variantes comunes, a la que accede cuando la comparación de nombres revela que los nombres de pila no coinciden exactamente. Sin embargo, otras realizaciones pueden incluir tales sobrenombres en la plantilla de nombre misma o incluso omitir por completo la consideración del
sobrenombre).
El módulo de comparación 432 incluye cuatro estados: un estado de coincidencia exacta (EX), un estado de coincidencia muy aproximada (SF), un estado de coincidencia poco aproximada (WF) y un estado de no coincidencia (NO). Una coincidencia exacta se produce cuando coinciden todos los elementos de un descriptor completamente especificado. Por ejemplo: el descriptor "Tribunal Supremo de Justicia de los EE.UU." coincide exactamente con el título "Tribunal Supremo de Justicia de los EE.UU.". Una coincidencia muy aproximada se produce cuando coinciden algunos de los elementos de un descriptor y un título, pero no todos ellos. Por ejemplo: el descriptor "Tribunal Supremo de Justicia" es una coincidencia muy aproximada con el título "Tribunal Supremo de Justicia de los EE.UU.". Un estado desconocido se produce cuando el descriptor identifica una profesión general que concuerda con la o las profesiones cubiertas por el directorio. Por ejemplo: si el descriptor es "juez" y el título en la entrada del directorio es "juez del 8º Tribunal Superior de los EE.UU.", la coincidencia se considera desconocida o no especificada. Un estado de falta de coincidencia o "no coincidencia" se produce cuando el descriptor está en conflicto o no concuerda con lo especificado en el registro. Por ejemplo: si el descriptor es "juez del Distrito de Nueva York" y el título en la entrada del directorio es "juez del 8º Tribunal Superior de los EE.UU.", el estado de coincidencia es una falta de coincidencia.
El módulo de comparación 433, que compara la evidencia de lugar, tiene cinco estados de coincidencia: un estado de coincidencia exacta (EX), un estado de coincidencia muy aproximada (SF), un estado de coincidencia poco aproximada (WF), un estado desconocido o no especificado (UN) y un estado de no coincidencia (NO). Una coincidencia exacta se produce cuando la evidencia de lugar de ciudad y estado que está explícitamente vinculada dentro del documento al nombre extraído coincide con la ciudad y el estado de un registro del directorio. Una vinculación explícita se produce, por ejemplo, cuando el lugar aparece conjuntamente en la misma oración. Una coincidencia muy aproximada se produce cuando la ciudad o el estado que aparecen en el mismo párrafo con el nombre extraído coinciden con la ciudad o el estado correspondientes en un directorio candidato. Una coincidencia poco aproximada se produce cuando la ciudad o el estado que aparecen en el mismo documento, pero fuera del mismo párrafo, que el nombre extraído coinciden con la ciudad o el estado que figuran en una entrada del directorio. El estado desconocido, o no especificado, se produce cuando el nombre extraído no está vinculado explícitamente a una ciudad o un estado en concreto y ninguno de los lugares que aparecen en el texto coincide con la información sobre la ciudad o el estado que aparece en el registro candidato. Una falta de coincidencia se produce cuando el nombre extraído está vinculado explícitamente a un nombre de ciudad o estado que no coincide con la información sobre la ciudad o el estado que aparece en el registro candidato.
El módulo de comparación 434, que compara datos de organizaciones, tiene cinco estados: un estado de coincidencia exacta (EX), un estado de coincidencia muy aproximada (SF), un estado de coincidencia poco aproximada (WF), un estado desconocido o no especificado (UN) y un estado de no coincidencia (NO). Una coincidencia exacta se produce cuando un nombre extraído está vinculado explícitamente a una organización concreta en el texto y dicha organización coincide con la organización que aparece en el registro candidato. Una vinculación explícita se produce, por ejemplo, cuando el lugar aparece conjuntamente en la misma oración. Por ejemplo: existe una coincidencia exacta si el texto describe a un abogado que trabaja en el bufete de Smith & Jones y en la entrada del directorio figura Smith & Jones como un bufete de abogados u otra organización asociado(a). Una coincidencia muy aproximada se produce si el nombre extraído aparece en el mismo párrafo que la organización extraída y la organización extraída coincide con la organización que aparece en un registro candidato. Una coincidencia poco aproximada se produce si el nombre extraído aparece en el mismo documento, pero fuera del párrafo, y la organización extraída coincide con la organización del candidato. Una coincidencia desconocida se produce cuando el nombre extraído no está vinculado explícitamente a una organización concreta y ninguno de los nombres de organización que aparecen en el texto coincide con la información sobre la organización que aparece en el registro candidato. Y una falta de coincidencia se produce cuando el nombre extraído está vinculado explícitamente a un nombre de organización y dicho nombre de organización no coincide con el nombre de organización que aparece en el registro candidato.
La tabla siguiente resume los diversos estados vigentes para cada uno de los módulos de comparación de evidencia en el ejemplo de motor de inferencia bayesiana.
15
Los módulos de comparación de evidencia 431-434 llevan a cabo sus respectivas comparaciones y transmiten sus resultados al módulo de cálculo 435 en forma de ocho probabilidades condicionales.
El módulo de cálculo 435 calcula una calificación de semejanza o probabilidad de coincidencia basándose en estas probabilidades condicionales y los datos de singuralidad o rareza del nombre para la plantilla de nombre de entrada. El ejemplo de cálculo utiliza la siguiente forma de la regla de Bayes:
16
donde P(M|E) significa la probabilidad de que una plantilla coincida con un registro candidato dado cierto conjunto de evidencias, tales como una plantilla de nombre de entrada y un registro candidato. P(M) significa la probabilidad a priori de que una plantilla y un registro biográfico coincidan (es decir que se refieran a la misma persona) y P(-M) significa la probabilidad a priori de que una plantilla y un registro biográfico no coincidan. El ejemplo de realización define P(M) como la probabilidad de singuralidad o rareza del nombre dentro de la población profesional y P(-M) como
17
P(E_{i}|M) es la probabilidad condicional de que E_{i} adopte un estado en particular suponiendo que la plantilla de nombre de entrada coincida con el registro candidato. Por ejemplo, si E_{3} significa evidencia de coincidencia de lugar, entonces P(E_{3}|M) significa la probabilidad de que la información sobre el lugar que aparece en la plantilla de nombre y el registro candidato tenga el estado de coincidencia determinado por el módulo de comparación 433 (coincidencia exacta, coincidencia muy aproximada, coincidencia poco aproximada, coincidencia desconocida o falta de coincidencia), suponiendo que una plantilla de nombre y un registro candidato coincidan. P(E_{i}|-,M) significa la probabilidad condicional de que E_{i} adopte un estado en particular suponiendo que una plantilla de nombre no coincida con ningún registro del directorio profesional. Por ejemplo: P(E_{3}|-,M) significa la probabilidad de que la información sobre el lugar que aparece en una plantilla de persona y el registro candidato coincida, suponiendo que la plantilla y el candidato no coincidan (otras realizaciones incluyen un menor o mayor número de estados, así como otros tipos de información de aparición conjunta).
\vskip1.000000\baselineskip
La calificación de cada comparación entre un registro candidato y una plantilla de nombre está asociada con una Identificación de registro candidato 425 para el registro candidato. En la figura 4, esta asociación está representada por la línea punteada entre la calificación 440 y la identificación de registro candidato 425. En la figura 3, la ejecución continúa en el bloque 370.
\newpage
En el bloque 370, el módulo de vinculación vincula uno o más de los nombres profesionales etiquetados en el documento de entrada a uno o más de los directorios profesionales candidatos basándose en las calificaciones de comparación. En el ejemplo de realización, esto implica ejecutar los bloques de proceso 371-375 mostrados en el recuadro 370'.
El bloque 371 selecciona el mejor registro candidato entre los registros candidatos para una plantilla de nombre en particular. En concreto, esto implica seleccionar el candidato que tenga la mayor calificación de comparación. Si no hay un único candidato que tenga la calificación más alta, el ejemplo de realización avanza al bloque 372 sin seleccionar un candidato para la plantilla de nombre. Sin embargo, otras realizaciones podrían emplear algún tipo de "desempate" (por ejemplo uno basado en la cronología), o construir vínculos a cada uno de los registros candidatos con mayor puntuación con un mensaje que matice la incertidumbre en la precisión del vínculo, o construir un vínculo que presente al usuario un menú de los candidatos con mayor puntuación.
El bloque 372 determina si el registro candidato seleccionado cumple otros criterios. Con este fin, el ejemplo de realización determina si la calificación del registro candidato seleccionado satisface un determinado criterio umbral, por ejemplo mayor o igual que 0,05. Sin embargo, otras realizaciones utilizan criterios adicionales, tales como la relación comercial o cronológica con el directorio profesional que contiene el registro candidato. Si el registro candidato satisface la ejecución de los criterios de vinculación, continúa en el bloque 373.
El bloque 373 implica construir un hipervínculo que vincule como mínimo una aparición del nombre en cuestión en el documento de entrada a la entrada que aparece en el directorio profesional que hospeda el registro candidato. En el ejemplo de realización, esto incluye el marcado de todas las apariciones del nombre en el documento y la incrustación en el documento de un URL (uniform resource locator) que identifique el registro candidato (en algunas realizaciones, la identificación de referencia de candidato y un número de identificación de documento para el documento de entrada se escriben en un índice que puede utilizarse para facilitar la búsqueda basada en nombres y la posterior vinculación de un documento entre los directorios profesionales y las bases de datos de documentos). El marcado puede adoptar cualquier número de formas, tales como un cambio de fuente con relación al resto del texto en el documento. Otras realizaciones pueden insertar un hipervínculo que remita al directorio profesional, en lugar de a un registro concreto del directorio. Otras plantillas incluyen información del desplazamiento de carácter para el uso en el establecimiento de hipervínculos en el punto correcto dentro de una determinada oración, párrafo o documento. Y otras realizaciones pueden definir el hipervínculo en términos de uno o más destinos intermedios que remiten o encaminan de otro modo al directorio o al registro del directorio para lograr la vinculación deseada.
Una vez construido el vínculo en el bloque 373 (o después de determinar que no se cumplen los criterios de vinculación en el bloque 372), la ejecución pasa al bloque 374. El bloque 374 determina si el documento de entrada contiene otro nombre para una posible vinculación. Una determinación afirmativa devuelve la ejecución al bloque 371 para la selección de un registro candidato para otra plantilla de nombre y una determinación negativa deriva la ejecución al bloque 375. El bloque 375 devuelve la ejecución al bloque 310 para recibir otro documento de entrada para su posterior procesamiento.
C. Estructura y funcionamiento del módulo de formación
La figura 5 muestra un organigrama 500, que ilustra un ejemplo de estructura y funcionamiento del módulo de formación 1273 para definir las probabilidades condicionales utilizadas en el motor de inferencia bayesiana de la figura 4. El organigrama 500 incluye los bloques de proceso 510-560.
En el bloque 510, la ejecución comienza con la recepción de un conjunto de documentos de formación, que tienen nombres etiquetados de los cuales se sabe que coinciden con nombres que aparecen en un directorio profesional. En el ejemplo de realización, los documentos de formación están etiquetados manualmente; sin embargo, en otras realizaciones los documentos pueden etiquetarse automáticamente. Los documentos pueden guardarse en una base de datos local o remota y comunicarse al módulo de formación a través de diversas técnicas de transmisión.
El bloque 520 implica extraer datos de los documentos de formación basándose en los nombres etiquetados. Con este fin, el ejemplo de realización genera una plantilla de nombre, utilizando el módulo de extracción del módulo de vinculación 1272, para cada nombre etiquetado, incluyendo cada plantilla un nombre extraído, un texto de descriptor extraído, una lista de lugar extraída y una lista de organización extraída. La plantilla de nombre tiene una estructura similar a la de la plantilla de nombre 340' de la figura 3.
El bloque 530 implica buscar uno o más directorios profesionales, basándose en los nombres que aparecen en las estructuras de datos de formación. En el ejemplo de realización, esto implica buscar uno o más de los directorios profesionales y recuperar las entradas de directorio con apellidos que coincidan con los apellidos que aparecen en las plantillas de nombre para su posterior procesamiento.
El bloque 540 implica determinar las probabilidades condicionales para cada estado de cada variable de evidencia. En el ejemplo de realización, esta determinación implica determinar los recuentos de frecuencia para cada estado de comparación, basándose en las plantillas de nombre para el conjunto de documentos etiquetado manualmente. En concreto, para los casos en que un nombre etiquetado se haya emparejado manualmente con un registro candidato, la realización cuenta el número de veces que cada estado de evidencia concreto aparece para cada una de las variables de evidencia: nombre, descriptor, lugar y organización. A continuación, la realización divide el recuento para cada estado de evidencia por el número total de coincidencias para obtener P(E_{i}|M), es decir los valores de probabilidad condicional para cada estado suponiendo una coincidencia. Más exactamente, el ejemplo de realización determina las probabilidades condicionales utilizando una fórmula como
18
donde x significa el número de estados de evidencia para la variable de evidencia E_{i}, por ejemplo tres estados para el nombre; y significa el número de registros de directorio para los cuales se ha producido el estado en particular, por ejemplo coincidencia exacta; z significa el número total de pares coincidentes de abogados; a es una constante de uniformidad, por ejemplo 0,999999.
\vskip1.000000\baselineskip
Igualmente, el ejemplo de realización cuenta el número de veces que aparece cada estado de evidencia cuando el nombre candidato no coincide con el nombre de plantilla y lo divide por el número total de faltas de coincidencia para obtener P(E_{i}|-,M) para cada estado, es decir la probabilidad de una coincidencia de estado de evidencia en particular suponiendo una falta de coincidencia en los nombres. Para reducir los cálculos, algunas realizaciones pueden muestrear los registros candidatos coincidentes y/o no coincidentes, por ejemplo, seleccionando uno de cada diez registros.
Otras aplicaciones
La figura 6 muestra que las enseñanzas de la presente revelación tienen aplicaciones más allá de facilitar la generación de hipervínculos para nombres. En particular, la figura 6 muestra un organigrama 600 de un ejemplo de un método para operar un sistema de recuperación de datos que incorpora enseñanzas de la presente revelación. El organigrama 600 incluye los bloques de proceso 610-670.
En el bloque 610, el ejemplo de método comienza con la recepción de una consulta de información. En el ejemplo de método, la consulta tiene una forma booleana o de lenguaje natural e incluye el nombre de una entidad, por ejemplo una persona. En algunos ejemplos, la consulta la efectúa el usuario de un ordenador cliente o un dispositivo de acceso, tal como uno de los dispositivos de acceso 150 de la figura 1, a un servidor, tal como el servidor de base de datos 140 de la figura 1, en un entorno cliente-servidor. En estos casos, el ejemplo de método se incorpora al software en un servidor. Sin embargo, en otros ejemplos, la consulta puede ser recibida y procesada (de acuerdo con este ejemplo de método) en el lado del cliente antes de la transmisión a un servidor para su ejecución. En tales casos, el ejemplo de método puede incorporarse a un navegador, un componente adicional para un navegador, un sistema operativo del lado del cliente o un software de búsqueda.
El bloque 620 implica determinar la ambigüedad de la consulta o de uno o más términos de la misma. En el ejemplo de método, esto implica identificar como mínimo un nombre en la consulta y calcular una probabilidad de singularidad del nombre según
19
donde H significa el tamaño estimado de la población humana con probabilidad de ser citada en el cuerpo o en la base de datos al o a la que va dirigida la consulta. Una manera de estimar H es tomar el tamaño del cuerpo de la colectividad con probabilidad de ser citada y aumentarlo proporcionalmente en un tanto por ciento para prever las inevitables referencias a personas fuera de la colectividad citada. P(nombre) se define como
20
donde P(nombre de pila) significa la probabilidad de sacar el nombre de pila al azar de entre todos los nombres de pila que aparecen en un universo de búsqueda pertinente, por ejemplo un directorio profesional, y P(apellido) significa análogamente la probabilidad de sacar el apellido al azar de entre todos los apellidos que aparecen en el universo.
\vskip1.000000\baselineskip
El bloque 630 determina si pedir información adicional como ayuda para responder a la consulta, basándose en la ambigüedad determinada de un nombre (u otra parte) de la consulta. En el ejemplo de método, esto implica comparar la probabilidad calculada de singularidad de un nombre con respecto a un umbral. Si la probabilidad de singularidad del nombre está por debajo del umbral, la ejecución avanza al bloque 640, en caso contrario la ejecución continúa en el bloque 660.
El bloque 640 implica obtener información adicional en relación con la consulta. En un ejemplo de método, la obtención de la información adicional implica pedir al usuario información adicional relacionada con una o más partes ambiguas de la consulta, por ejemplo un nombre que aparece en la consulta. La petición, en algunos ejemplos, se presenta como una ventana de diálogo que pide información relacionada con una profesión, un lugar y/o una organización asociada(o) al nombre.
En otro ejemplo, la obtención de información adicional implica formular automáticamente una o más consultas basadas en una o más partes ambiguas de la consulta recibida, tales como el nombre identificado o una parte del nombre, y realizar la consulta en una o más bases de datos, por ejemplo directorios profesionales u otras bases de datos que incluyan nombres asociados a otros datos. Por ejemplo: una consulta puede pedir registros o partes de registros que tengan apellidos que coincidan con el apellido de un nombre identificado en la consulta recibida. La partes de los registros, en un ejemplo, incluyen información sobre el lugar, la organización y/o el título profesional. Una vez obtenida la información adicional, la ejecución avanza al bloque 650.
El bloque 650 implica cambiar la consulta basándose en la información adicional. En un ejemplo que pide información adicional al usuario, el cambio de la consulta incluye añadir a la consulta una o más partes de la información adicional, por ejemplo en forma de una o más cadenas de texto añadidas. Sin embargo, algunos otros ejemplos cambian la consulta añadiendo un operador de búsqueda, por ejemplo un operador Y, y una o más partes de la información adicional. En otros ejemplos, en particular en algunos que obtienen la información adicional mediante el uso de subconsultas automáticas, el cambio de la consulta incluye añadir una o más subconsultas utilizando la información adicional, como por ejemplo una ciudad, un estado, una organización o un título profesional, obtenida en el bloque 650. Y en algunos otros ejemplos, el cambio de la consulta incluye cambiar el alcance de la búsqueda, por ejemplo añadiendo o borrando una o más bases de datos destino para la consulta, basándose en la información adicional.
El bloque 660 lleva a cabo una búsqueda basándose en la consulta original o la consulta cambiada. En un ejemplo de método, la búsqueda basada en la consulta cambiada implica realizar la búsqueda en una base de datos destino original y/u otra u otras bases de datos. La ejecución continúa en el bloque 670.
El bloque 670 implica emitir los resultados de las consultas. En el ejemplo de método, esto implica presentar los resultados en una pantalla. En un ejemplo que cambia la consulta recibida añadiendo subconsultas sobre la base de la información adicional, la emisión de los resultados incluye visualizar los resultados de la consulta recibida original y los resultados de las subconsultas en zonas separadas de una pantalla de visualización. En algunas variantes de este ejemplo, los resultados de ambas zonas están clasificados según su relevancia.
Entre otras aplicaciones más de las enseñanzas de la presente revelación se incluyen generar nuevos directorios de nombres para bases de datos sobre la base de nombres famosos, figuras políticas, celebridades, llenar lagunas en directorios actuales, identificar o descubrir lagunas en directorios. Otras aplicaciones incluyen la generación automática de expedientes y la referencia cruzada de individuos, empresas, bienes y registros públicos y privados.
Conclusión
Para permitir un avance de la técnica, el inventor ha presentado diversos ejemplos de sistemas, métodos y software que facilitan la asociación lógica de nombres en documentos u otras estructuras de datos a estructuras de datos, tales como registros, en directorios profesionales o bases de datos de otro tipo. Adicionalmente, el inventor ha presentado diversos sistemas, métodos y software para procesar y aumentar las consultas basadas en términos de consulta ambiguos, tales como nombres de entidades.
Las realizaciones arriba descritas están destinadas sólo a ilustrar y enseñar una o más maneras de poner en práctica o implementar la presente invención, no a restringir su amplitud o alcance. El alcance actual de la invención, que abarca todas las maneras de poner en práctica o implementar las enseñanzas de la invención, está definido sólo por las reivindicaciones siguientes.

Claims (9)

1. Método implementado en ordenador, que comprende:
identificar uno o más nombres en un documento;
seleccionar del o de los nombres identificados en el documento un nombre candidato en el documento correlacionando un modelo descriptivo predefinido de términos no referidos a personas con texto de alrededor de los nombres identificados en el documento, estando el modelo descriptivo basado en un conjunto de ejemplos de fragmentos de oración que contienen descripciones de profesionales mencionados;
definir una plantilla de nombre para el nombre candidato identificando uno o más términos no referidos a personas que aparezcan conjuntamente con el nombre candidato en el documento e incluyendo en la plantilla de nombre para el nombre candidato el o los términos no referidos a personas identificados;
determinar un indicador de rareza para el nombre candidato, siendo el indicador de rareza una cantidad basada en una probabilidad de sacar como mínimo una parte de palabra del nombre al azar de un conjunto de nombres de muestra representativos de una población humana pertinente;
identificar uno o más registros candidatos en una base de datos, basándose en como mínimo una parte de palabra del nombre candidato;
comparar los términos no referidos a personas para cada uno de los registros candidatos con los términos no referidos a personas que aparecen en la plantilla de nombre definida para el nombre candidato;
calcular una o más cantidades, basada cada una en el indicador de rareza del nombre candidato y la comparación de los términos no referidos a personas para uno de los registros candidatos; y
definir un hipervínculo para el nombre candidato basándose en la o las cantidades calculadas.
\vskip1.000000\baselineskip
2. Método implementado en ordenador según la reivindicación 1, en el que el indicador de rareza es una cantidad basada en un tamaño de una población humana, una probabilidad de sacar una primera parte de palabra del nombre al azar y una probabilidad de sacar una segunda parte de palabra del nombre al azar del conjunto de nombres de muestra representativos de una población humana pertinente.
3. Método implementado en ordenador según la reivindicación 2, en el que la primera parte es una parte de nombre de pila del nombre y la segunda parte es una parte de apellido del nombre.
4. Método implementado en ordenador según la reivindicación 1, en el que el cálculo de una o más cantidades, basada cada una en el indicador de rareza del nombre de persona candidato y la comparación de los términos no referidos a personas para uno de los registros candidatos, incluye la utilización de un motor de inferencia bayesiana.
5. Método implementado en ordenador según la reivindicación 1, en el que la definición del hipervínculo basándose en la o las cantidades calculadas comprende:
comparar las cantidades con un umbral; y
definir el hipervínculo basándose en la mayor de las cantidades que sobrepasen el umbral.
\vskip1.000000\baselineskip
6. Método implementado en ordenador según la reivindicación 5, en el que la definición del hipervínculo basándose en la mayor de las cantidades que sobrepasan el umbral comprende definir un hipervínculo para designar el registro candidato correspondiente a la mayor de las cantidades.
7. Medio legible por máquina que comprende instrucciones ejecutables por máquina para llevar a cabo el método implementado en ordenador según la reivindicación 1.
8. Sistema para añadir un hipervínculo a un documento que incluye un nombre de persona, comprendiendo el sistema:
como mínimo un procesador;
una memoria conectada al procesador, incluyendo la memoria instrucciones para:
identificar uno o más nombres en un documento;
seleccionar del o de los nombres identificados en el documento un nombre candidato en el documento correlacionando un modelo descriptivo predefinido de términos no referidos a personas con texto de alrededor de los nombres identificados en el documento, estando el modelo descriptivo basado en un conjunto de ejemplos de fragmentos de oración que contienen descripciones de profesionales mencionados;
definir una plantilla de nombre para el nombre candidato identificando uno o más términos no referidos a personas que aparezcan conjuntamente con el nombre candidato en el documento e incluyendo en la plantilla de nombre para el nombre candidato el o los términos no referidos a personas identificados;
determinar un indicador de rareza para el nombre candidato, siendo el indicador de rareza una cantidad basada en una probabilidad de sacar como mínimo una parte de palabra del nombre al azar de un conjunto de nombres de muestra representativos de una población humana pertinente;
identificar uno o más registros candidatos en una base de datos, basándose en como mínimo una parte de palabra del nombre candidato;
comparar los términos no referidos a personas para cada uno de los registros candidatos con los términos no referidos a personas que aparecen en la plantilla de nombre definida para el nombre candidato;
calcular una o más cantidades, basada cada una en el indicador de rareza del nombre candidato y la comparación de los términos no referidos a personas para uno de los registros candidatos; y
definir un hipervínculo para el nombre candidato basándose en la o las cantidades calculadas.
\vskip1.000000\baselineskip
9. Sistema según la reivindicación 8, en el que el indicador de rareza es una cantidad basada en un tamaño de una población humana, una probabilidad de sacar una primera parte de palabra del nombre al azar y una probabilidad de sacar una segunda parte de palabra del nombre al azar del conjunto de nombres de muestra representativos de una población humana pertinente.
ES02799974T 2001-12-21 2002-12-20 Sistemas, métodos y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales. Expired - Lifetime ES2378653T3 (es)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US34295601P 2001-12-21 2001-12-21
US342956P 2001-12-21
US10/171,170 US7333966B2 (en) 2001-12-21 2002-06-13 Systems, methods, and software for hyperlinking names
US171170 2002-06-13
PCT/US2002/041144 WO2003060767A2 (en) 2001-12-21 2002-12-20 System, method and software for automatic hyperlinking of persons’ names in documents to professional directories

Publications (1)

Publication Number Publication Date
ES2378653T3 true ES2378653T3 (es) 2012-04-16

Family

ID=26866803

Family Applications (1)

Application Number Title Priority Date Filing Date
ES02799974T Expired - Lifetime ES2378653T3 (es) 2001-12-21 2002-12-20 Sistemas, métodos y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales.

Country Status (10)

Country Link
US (2) US7333966B2 (es)
EP (3) EP1474759B1 (es)
JP (2) JP4436909B2 (es)
CN (1) CN1623146B (es)
AT (1) ATE530989T1 (es)
AU (3) AU2002364593B2 (es)
CA (3) CA2924140A1 (es)
ES (1) ES2378653T3 (es)
NZ (3) NZ534222A (es)
WO (1) WO2003060767A2 (es)

Families Citing this family (67)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003719B1 (en) * 1999-01-25 2006-02-21 West Publishing Company, Dba West Group System, method, and software for inserting hyperlinks into documents
US7333966B2 (en) * 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
US6856679B2 (en) * 2002-05-01 2005-02-15 Sbc Services Inc. System and method to provide automated scripting for customer service representatives
US20040205484A1 (en) * 2002-05-01 2004-10-14 Pennington Stanford E. System and method for dynamically generating customized pages
US7766743B2 (en) * 2002-08-29 2010-08-03 Douglas Schoellkopf Jebb Methods and apparatus for evaluating a user's affinity for a property
EP2544101A1 (en) 2002-11-28 2013-01-09 Nuance Communications Austria GmbH Method to assign word class information
US7792827B2 (en) * 2002-12-31 2010-09-07 International Business Machines Corporation Temporal link analysis of linked entities
US7917483B2 (en) 2003-04-24 2011-03-29 Affini, Inc. Search engine and method with improved relevancy, scope, and timeliness
NZ548804A (en) * 2003-12-31 2008-11-28 Thomson Global Resources Systems, methods, interfaces and software for automated collection and integration of entity data into online databases and professional directories
US20050149851A1 (en) * 2003-12-31 2005-07-07 Google Inc. Generating hyperlinks and anchor text in HTML and non-HTML documents
AU2011204902B2 (en) * 2003-12-31 2015-01-15 Thomson Reuters Enterprise Centre Gmbh Systems, Methods, Interfaces And Software For Automated Collection And Integration Of Entity Data Into Online Databases And Professional Directories
US7574409B2 (en) * 2004-11-04 2009-08-11 Vericept Corporation Method, apparatus, and system for clustering and classification
JP5011129B2 (ja) * 2005-01-28 2012-08-29 トムソン ルーターズ グローバル リソーシーズ オンラインの法律上のリサーチシステムおよび方法
US7424472B2 (en) * 2005-05-27 2008-09-09 Microsoft Corporation Search query dominant location detection
BRPI0616809B1 (pt) * 2005-10-04 2018-10-23 Thomson Global Resources sistemas, métodos e software para determinar ambigüidade de termos médicos
US7810021B2 (en) * 2006-02-24 2010-10-05 Paxson Dana W Apparatus and method for creating literary macramés
US8091017B2 (en) * 2006-07-25 2012-01-03 Paxson Dana W Method and apparatus for electronic literary macramé component referencing
US8689134B2 (en) 2006-02-24 2014-04-01 Dana W. Paxson Apparatus and method for display navigation
US8595245B2 (en) * 2006-07-26 2013-11-26 Xerox Corporation Reference resolution for text enrichment and normalization in mining mixed data
AR062635A1 (es) * 2006-09-01 2008-11-19 Thomson Global Resources Sistema, metodos, software e interfases para dar formato a citas de legislacion
US9026514B2 (en) * 2006-10-13 2015-05-05 International Business Machines Corporation Method, apparatus and article for assigning a similarity measure to names
US10635455B2 (en) * 2007-02-13 2020-04-28 Oracle International Corporation Simplifying understanding of procedure dependencies in a form definition
US20110179344A1 (en) * 2007-02-26 2011-07-21 Paxson Dana W Knowledge transfer tool: an apparatus and method for knowledge transfer
US20140257939A9 (en) * 2007-06-05 2014-09-11 Mark Britton Rating system that characterizes attorneys based on attributes
US7912767B1 (en) * 2007-10-29 2011-03-22 Intuit Inc. Tax preparation system facilitating remote assistance
WO2009070931A1 (en) * 2007-12-06 2009-06-11 Google Inc. Cjk name detection
US9501467B2 (en) 2007-12-21 2016-11-22 Thomson Reuters Global Resources Systems, methods, software and interfaces for entity extraction and resolution and tagging
WO2009086312A1 (en) * 2007-12-21 2009-07-09 Kondadadi, Ravi, Kumar Entity, event, and relationship extraction
US8788523B2 (en) * 2008-01-15 2014-07-22 Thomson Reuters Global Resources Systems, methods and software for processing phrases and clauses in legal documents
JP4693065B2 (ja) * 2008-01-29 2011-06-01 日本電信電話株式会社 人名表現同定装置、その方法、プログラム及び記録媒体
WO2009097558A2 (en) * 2008-01-30 2009-08-06 Thomson Reuters Global Resources Financial event and relationship extraction
US8423882B2 (en) * 2008-02-27 2013-04-16 International Business Machines Corporation Online navigation of choice data sets
US20090248595A1 (en) * 2008-03-31 2009-10-01 Yumao Lu Name verification using machine learning
US8843522B2 (en) * 2008-09-15 2014-09-23 Thomson Reuters (Markets) Llc Systems and methods for rapid delivery of tiered metadata
US10346835B1 (en) * 2008-10-07 2019-07-09 United Services Automobile Association (Usaa) Systems and methods for presenting recognizable bank account transaction descriptions compiled through customer collaboration
US8234274B2 (en) * 2008-12-18 2012-07-31 Nec Laboratories America, Inc. Systems and methods for characterizing linked documents using a latent topic model
US8250124B2 (en) * 2009-01-29 2012-08-21 Hewlett-Packard Development Company, L.P. Assigning content to an entry in directory
US8190538B2 (en) 2009-01-30 2012-05-29 Lexisnexis Group Methods and systems for matching records and normalizing names
US8949241B2 (en) * 2009-05-08 2015-02-03 Thomson Reuters Global Resources Systems and methods for interactive disambiguation of data
US8930383B2 (en) * 2010-01-29 2015-01-06 The Dun & Bradstreet Corporation System and method for aggregation and association of professional affiliation data with commercial data content
JP5182960B2 (ja) * 2010-03-15 2013-04-17 日本電信電話株式会社 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体
EP2558988A4 (en) * 2010-04-14 2016-12-21 The Dun And Bradstreet Corp ASSIGNMENT OF ACTIONABLE ATTRIBUTES TO DATA DESCRIBING A PERSONAL IDENTITY
US11386510B2 (en) 2010-08-05 2022-07-12 Thomson Reuters Enterprise Centre Gmbh Method and system for integrating web-based systems with local document processing applications
US10089390B2 (en) * 2010-09-24 2018-10-02 International Business Machines Corporation System and method to extract models from semi-structured documents
US9104979B2 (en) * 2011-06-16 2015-08-11 Microsoft Technology Licensing, Llc Entity recognition using probabilities for out-of-collection data
US8706723B2 (en) * 2011-06-22 2014-04-22 Jostle Corporation Name-search system and method
US9361131B1 (en) * 2011-06-24 2016-06-07 Amazon Technologies, Inc. Network resource access via a mobile shell
US9454528B2 (en) * 2011-10-17 2016-09-27 Xerox Corporation Method and system for creating ordered reading lists from unstructured document sets
US8812496B2 (en) * 2011-10-24 2014-08-19 Xerox Corporation Relevant persons identification leveraging both textual data and social context
US11455350B2 (en) 2012-02-08 2022-09-27 Thomson Reuters Enterprise Centre Gmbh System, method, and interfaces for work product management
JP5870776B2 (ja) * 2012-03-09 2016-03-01 大日本印刷株式会社 リンク付与装置、リンク付与方法、およびプログラム
CN103365831B (zh) * 2012-03-29 2017-07-21 深圳市世纪光速信息技术有限公司 一种为文本添加超级链接的方法和装置
JP5770753B2 (ja) * 2013-01-15 2015-08-26 グーグル・インコーポレーテッド Cjk名前検出
US10089697B2 (en) * 2013-01-25 2018-10-02 Capital One Services, Llc Systems and methods for extracting information from a transaction description
US9286291B2 (en) * 2013-02-15 2016-03-15 International Business Machines Corporation Disambiguation of dependent referring expression in natural language processing
US9110869B2 (en) * 2013-09-27 2015-08-18 Nokia Technologies Oy Visual representation of a character identity and a location identity
GB201320334D0 (en) 2013-11-18 2014-01-01 Microsoft Corp Identifying a contact
US10628411B2 (en) * 2013-11-20 2020-04-21 International Business Machines Corporation Repairing a link based on an issue
US9990340B2 (en) 2014-02-03 2018-06-05 Bluebeam, Inc. Batch generation of links to documents based on document name and page content matching
JP5723472B1 (ja) * 2014-08-07 2015-05-27 廣幸 田中 データリンク生成装置、データリンク生成方法、データリンク構造および電子ファイル
US10409909B2 (en) * 2014-12-12 2019-09-10 Omni Ai, Inc. Lexical analyzer for a neuro-linguistic behavior recognition system
US9535903B2 (en) 2015-04-13 2017-01-03 International Business Machines Corporation Scoring unfielded personal names without prior parsing
AU2016298790A1 (en) 2015-06-11 2017-11-23 Financial & Risk Organisation Limited Risk identification and risk register generation system and engine
CN106709318B (zh) * 2017-01-24 2019-05-03 腾云天宇科技(北京)有限公司 一种用户设备唯一性的识别方法、装置和计算设备
US10599129B2 (en) * 2017-08-04 2020-03-24 Duro Labs, Inc. Method for data normalization
US11176156B2 (en) * 2019-05-10 2021-11-16 Salesforce.Com, Inc. Efficiently and accurately assessing the number of identifiable records for creating personal profiles
US11861296B2 (en) * 2021-09-08 2024-01-02 Google Llc People suggestion in collaborative online text editors

Family Cites Families (185)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US174105A (en) * 1876-02-29 Improvement in jig-saws
US3872448A (en) * 1972-12-11 1975-03-18 Community Health Computing Inc Hospital data processing system
US4384288A (en) * 1980-12-31 1983-05-17 Walton Charles A Portable radio frequency emitting identifier
US4799258A (en) 1984-02-13 1989-01-17 National Research Development Corporation Apparatus and methods for granting access to computers
US4575621A (en) * 1984-03-07 1986-03-11 Corpra Research, Inc. Portable electronic transaction device and system therefor
US4817050A (en) * 1985-11-22 1989-03-28 Kabushiki Kaisha Toshiba Database system
US4893270A (en) * 1986-05-12 1990-01-09 American Telephone And Telegraph Company, At&T Bell Laboratories Medical information system
US4887212A (en) 1986-10-29 1989-12-12 International Business Machines Corporation Parser for natural language text
US4958283A (en) 1987-07-08 1990-09-18 Kabushiki Kaisha Toshiba Method and system for storing and communicating medical image data
US4864501A (en) 1987-10-07 1989-09-05 Houghton Mifflin Company Word annotation system
US4878175A (en) 1987-11-03 1989-10-31 Emtek Health Care Systems Method for generating patient-specific flowsheets by adding/deleting parameters
US5157783A (en) 1988-02-26 1992-10-20 Wang Laboratories, Inc. Data base system which maintains project query list, desktop list and status of multiple ongoing research projects
US4994966A (en) * 1988-03-31 1991-02-19 Emerson & Stern Associates, Inc. System and method for natural language parsing by initiating processing prior to entry of complete sentences
US5146439A (en) 1989-01-04 1992-09-08 Pitney Bowes Inc. Records management system having dictation/transcription capability
US5408655A (en) * 1989-02-27 1995-04-18 Apple Computer, Inc. User interface system and method for traversing a database
US5860136A (en) * 1989-06-16 1999-01-12 Fenner; Peter R. Method and apparatus for use of associated memory with large key spaces
US5842224A (en) 1989-06-16 1998-11-24 Fenner; Peter R. Method and apparatus for source filtering data packets between networks of differing media
US5418942A (en) * 1989-07-06 1995-05-23 Krawchuk; Kenneth V. System and method for storing and managing information
US5065315A (en) 1989-10-24 1991-11-12 Garcia Angela M System and method for scheduling and reporting patient related services including prioritizing services
US5233513A (en) * 1989-12-28 1993-08-03 Doyle William P Business modeling, software engineering and prototyping method and apparatus
US5253362A (en) 1990-01-29 1993-10-12 Emtek Health Care Systems, Inc. Method for storing, retrieving, and indicating a plurality of annotations in a data cell
US5218697A (en) * 1990-04-18 1993-06-08 Microsoft Corporation Method and system for networking computers having varying file architectures
US5291399A (en) * 1990-07-27 1994-03-01 Executone Information Systems, Inc. Method and apparatus for accessing a portable personal database as for a hospital environment
US5317729A (en) * 1990-10-24 1994-05-31 International Business Machines Corporation Method for the storage of multi-versioned data with retrieval based on searched query
US5297249A (en) * 1990-10-31 1994-03-22 International Business Machines Corporation Hypermedia link marker abstract and search services
US5204947A (en) * 1990-10-31 1993-04-20 International Business Machines Corporation Application independent (open) hypermedia enablement services
US5581460A (en) 1990-11-06 1996-12-03 Kabushiki Kaisha Toshiba Medical diagnostic report forming apparatus capable of attaching image data on report
US5414838A (en) * 1991-06-11 1995-05-09 Logical Information Machine System for extracting historical market information with condition and attributed windows
CA2066559A1 (en) * 1991-07-29 1993-01-30 Walter S. Rosenbaum Non-text object storage and retrieval
US5377323A (en) 1991-09-13 1994-12-27 Sun Microsytems, Inc. Apparatus and method for a federated naming system which can resolve a composite name composed of names from any number of disparate naming systems
US5488725A (en) * 1991-10-08 1996-01-30 West Publishing Company System of document representation retrieval by successive iterated probability sampling
US5265065A (en) * 1991-10-08 1993-11-23 West Publishing Company Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query
JP3300391B2 (ja) * 1991-10-11 2002-07-08 株式会社東芝 画像処理装置
US5283884A (en) * 1991-12-30 1994-02-01 International Business Machines Corporation CKD channel with predictive track table
US5490250A (en) * 1991-12-31 1996-02-06 Amdahl Corporation Method and apparatus for transferring indication of control error into data path of data switcher
US5361346A (en) 1992-01-15 1994-11-01 Santa Monica Pioneer Research Inc. Portable tester (qualifier) for evaluating and testing SCSI interface magnetic disc drives in accordance with ANSI SCSI-A and SCSI-2 definitions
US5434974A (en) * 1992-03-30 1995-07-18 International Business Machines Corporation Name resolution for a multisystem network
US5319711A (en) * 1992-08-19 1994-06-07 Gte Laboratories Incorporated Wireless device for verifying identification
US5515534A (en) * 1992-09-29 1996-05-07 At&T Corp. Method of translating free-format data records into a normalized format based on weighted attribute variants
US5459860A (en) 1992-10-05 1995-10-17 International Business Machines Corporation Computerized system and process for managing a distributed database system
US5558638A (en) 1993-04-30 1996-09-24 Healthdyne, Inc. Patient monitor and support system
US5544352A (en) 1993-06-14 1996-08-06 Libertech, Inc. Method and apparatus for indexing, searching and displaying data
US5361202A (en) 1993-06-18 1994-11-01 Hewlett-Packard Company Computer display system and method for facilitating access to patient data records in a medical information system
US5506984A (en) * 1993-06-30 1996-04-09 Digital Equipment Corporation Method and system for data retrieval in a distributed system using linked location references on a plurality of nodes
US5438655A (en) * 1993-07-29 1995-08-01 Hewlett-Packard Company Methods and apparatus for updating and antialiasing waveforms
US5477215A (en) * 1993-08-02 1995-12-19 At&T Corp. Arrangement for simultaneously interrogating a plurality of portable radio frequency communication devices
US6339767B1 (en) 1997-06-02 2002-01-15 Aurigin Systems, Inc. Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing
US5806079A (en) 1993-11-19 1998-09-08 Smartpatents, Inc. System, method, and computer program product for using intelligent notes to organize, link, and manipulate disparate data objects
US5497317A (en) * 1993-12-28 1996-03-05 Thomson Trading Services, Inc. Device and method for improving the speed and reliability of security trade settlements
US5822720A (en) 1994-02-16 1998-10-13 Sentius Corporation System amd method for linking streams of multimedia data for reference material for display
US5560005A (en) 1994-02-25 1996-09-24 Actamed Corp. Methods and systems for object-based relational distributed databases
US6141663A (en) 1994-03-18 2000-10-31 Unimax Systems Corporation Automatic external data synchronization method
DE69408439T2 (de) * 1994-03-22 1998-09-17 Agfa Gevaert Nv Verfahren zur Identifizierung eines Strahlungsbildes
CA2125300C (en) * 1994-05-11 1999-10-12 Douglas J. Ballantyne Method and apparatus for the electronic distribution of medical information and patient services
US5557539A (en) 1994-06-13 1996-09-17 Centigram Communications Corporation Apparatus and method for testing an interactive voice messaging system
US5608900A (en) * 1994-06-21 1997-03-04 Internationl Business Machines Corp. Generation and storage of connections between objects in a computer network
US5535372A (en) * 1994-07-06 1996-07-09 International Business Machines Corporation Method and apparatus for efficient updating of CKD data stored on fixed block architecture devices
US5623652A (en) 1994-07-25 1997-04-22 Apple Computer, Inc. Method and apparatus for searching for information in a network and for controlling the display of searchable information on display devices in the network
US5434932A (en) * 1994-07-28 1995-07-18 West Publishing Company Line alignment apparatus and process
US5603025A (en) * 1994-07-29 1997-02-11 Borland International, Inc. Methods for hypertext reporting in a relational database management system
US5629981A (en) * 1994-07-29 1997-05-13 Texas Instruments Incorporated Information management and security system
US5715445A (en) * 1994-09-02 1998-02-03 Wolfe; Mark A. Document retrieval system employing a preloading procedure
US5659676A (en) * 1994-09-20 1997-08-19 International Business Machines Corporation Systems and methods for creating and refreshing compound documents
EP0792493B1 (en) 1994-11-08 1999-08-11 Vermeer Technologies, Inc. An online service development tool with fee setting capabilities
US5630852A (en) * 1994-11-23 1997-05-20 Fmc Corporation Organophosphorus additives for improved fuel lubricity
US5617565A (en) * 1994-11-29 1997-04-01 Hitachi America, Ltd. Broadcast interactive multimedia system
US5642502A (en) 1994-12-06 1997-06-24 University Of Central Florida Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text
FR2728088A1 (fr) 1994-12-13 1996-06-14 Inst Nat Rech Inf Automat Procede d'echange d'informations en mode client/serveur, entre stations reliees par un reseau de communication
US5530852A (en) 1994-12-20 1996-06-25 Sun Microsystems, Inc. Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics
GB9426165D0 (en) 1994-12-23 1995-02-22 Anthony Andre C Method of retrieving and displaying data
US5794050A (en) * 1995-01-04 1998-08-11 Intelligent Text Processing, Inc. Natural language understanding system
US5873077A (en) * 1995-01-13 1999-02-16 Ricoh Corporation Method and apparatus for searching for and retrieving documents using a facsimile machine
WO1996023265A1 (en) 1995-01-23 1996-08-01 British Telecommunications Public Limited Company Methods and/or systems for accessing information
JP2947111B2 (ja) 1995-02-17 1999-09-13 日本電気株式会社 交換機のデータ引き継ぎ方法およびシステム
US5708825A (en) * 1995-05-26 1998-01-13 Iconovex Corporation Automatic summary page creation and hyperlink generation
US5963205A (en) 1995-05-26 1999-10-05 Iconovex Corporation Automatic index creation for a word processor
US5870770A (en) * 1995-06-07 1999-02-09 Wolfe; Mark A. Document research system and method for displaying citing documents
US5664109A (en) 1995-06-07 1997-09-02 E-Systems, Inc. Method for extracting pre-defined data items from medical service records generated by health care providers
US5740549A (en) * 1995-06-12 1998-04-14 Pointcast, Inc. Information and advertising distribution system and method
JP3700733B2 (ja) * 1995-06-12 2005-09-28 富士ゼロックス株式会社 文書管理装置及び文書管理方法
US5878421A (en) * 1995-07-17 1999-03-02 Microsoft Corporation Information map
US5860073A (en) * 1995-07-17 1999-01-12 Microsoft Corporation Style sheets for publishing system
US5644720A (en) * 1995-07-31 1997-07-01 West Publishing Company Interprocess communications interface for managing transaction requests
US5942986A (en) * 1995-08-09 1999-08-24 Cedars-Sinai Medical Center System and method for automatic critical event notification
US5745360A (en) * 1995-08-14 1998-04-28 International Business Machines Corp. Dynamic hypertext link converter system and process
US5963940A (en) 1995-08-16 1999-10-05 Syracuse University Natural language information retrieval system and method
US6026388A (en) * 1995-08-16 2000-02-15 Textwise, Llc User interface and other enhancements for natural language information retrieval system and method
WO1997012334A1 (en) 1995-09-25 1997-04-03 International Compu Research, Inc. Matching and ranking legal citations
US5740252A (en) * 1995-10-13 1998-04-14 C/Net, Inc. Apparatus and method for passing private demographic information between hyperlink destinations
US5764906A (en) * 1995-11-07 1998-06-09 Netword Llc Universal electronic resource denotation, request and delivery system
US5822539A (en) 1995-12-08 1998-10-13 Sun Microsystems, Inc. System for adding requested document cross references to a document by annotation proxy configured to merge and a directory generator and annotation server
US5754857A (en) * 1995-12-08 1998-05-19 Sun Microsystems, Inc. Distributed asynchronous workflow on the net
US5781900A (en) * 1996-01-02 1998-07-14 Sofmap Future Design, Inc. Flexible hyperlink association system
US5751961A (en) * 1996-01-31 1998-05-12 Bell Communications Research, Inc. Integrated internet system for translating logical addresses of internet documents to physical addresses using integrated service control point
US5862325A (en) * 1996-02-29 1999-01-19 Intermind Corporation Computer-based communication system and method using metadata defining a control structure
US5926811A (en) 1996-03-15 1999-07-20 Lexis-Nexis Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching
US5875431A (en) 1996-03-15 1999-02-23 Heckman; Frank Legal strategic analysis planning and evaluation control system and method
US5745908A (en) * 1996-03-29 1998-04-28 Systems Focus International Method for converting a word processing file containing markup language tags and conventional computer code
US5867562A (en) * 1996-04-17 1999-02-02 Scherer; Gordon F. Call processing system with call screening
US5905866A (en) * 1996-04-30 1999-05-18 A.I. Soft Corporation Data-update monitoring in communications network
JP4481370B2 (ja) * 1996-05-06 2010-06-16 アドビ システムズ, インコーポレイテッド インターネットハイパーリンクドラッグ及びドロップ
DE69719858T2 (de) 1996-05-13 2003-12-24 Oki Electric Ind Co Ltd Dokumentanzeigesystem und elektronisches Wörterbuch
US5794236A (en) * 1996-05-29 1998-08-11 Lexis-Nexis Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy
US5742181A (en) * 1996-06-04 1998-04-21 Hewlett-Packard Co. FPGA with hierarchical interconnect structure and hyperlinks
US5724595A (en) * 1996-06-19 1998-03-03 Sun Microsystems, Inc. Simple method for creating hypertext links
US5907680A (en) 1996-06-24 1999-05-25 Sun Microsystems, Inc. Client-side, server-side and collaborative spell check of URL's
US5963950A (en) 1996-06-26 1999-10-05 Sun Microsystems, Inc. Method and system for facilitating access to selectable elements on a graphical user interface
US5761436A (en) * 1996-07-01 1998-06-02 Sun Microsystems, Inc. Method and apparatus for combining truncated hyperlinks to form a hyperlink aggregate
US6308171B1 (en) 1996-07-30 2001-10-23 Carlos De La Huerga Method and system for automated data storage and retrieval
US5903889A (en) * 1997-06-09 1999-05-11 Telaric, Inc. System and method for translating, collecting and archiving patient records
US6345268B1 (en) * 1997-06-09 2002-02-05 Carlos De La Huerga Method and system for resolving temporal descriptors of data records in a computer system
US6434567B1 (en) 1996-07-30 2002-08-13 Carlos De La Huerga Method for specifying enterprise-wide database address formats
US5895461A (en) * 1996-07-30 1999-04-20 Telaric, Inc. Method and system for automated data storage and retrieval with uniform addressing scheme
US6516321B1 (en) * 1996-07-30 2003-02-04 Carlos De La Huerga Method for database address specification
US6272505B1 (en) * 1998-07-07 2001-08-07 Carlos De La Huerga Document modification based hyperlink limiting method and apparatus
US6353822B1 (en) * 1996-08-22 2002-03-05 Massachusetts Institute Of Technology Program-listing appendix
JP3773602B2 (ja) 1996-09-18 2006-05-10 株式会社東芝 ハイパーテキスト処理装置及びその方法
US5764916A (en) * 1996-09-27 1998-06-09 Ichat, Inc. Method and apparatus for real time communication over a computer network
US6037944A (en) * 1996-11-07 2000-03-14 Natrificial Llc Method and apparatus for displaying a thought network from a thought's perspective
US5836771A (en) * 1996-12-02 1998-11-17 Ho; Chi Fai Learning method and system based on questioning
US6216141B1 (en) * 1996-12-06 2001-04-10 Microsoft Corporation System and method for integrating a document into a desktop window on a client computer
EP0848337A1 (en) 1996-12-12 1998-06-17 SONY DEUTSCHLAND GmbH Server with automatic document assembly
AUPO489297A0 (en) 1997-01-31 1997-02-27 Aunty Abha's Electronic Publishing Pty Ltd A system for electronic publishing
JPH10228473A (ja) * 1997-02-13 1998-08-25 Ricoh Co Ltd 文書画像処理方法、文書画像処理装置および記憶媒体
US5875446A (en) * 1997-02-24 1999-02-23 International Business Machines Corporation System and method for hierarchically grouping and ranking a set of objects in a query context based on one or more relationships
AU2002301438B2 (en) 1997-03-18 2006-09-21 Trade Me Limited Vehicle Information System Part 1
US5970505A (en) 1997-03-31 1999-10-19 Sun Mirosystems, Inc. Linking related data in a document set including a plurality of books written by different groups of authors in a computer network
US6038573A (en) * 1997-04-04 2000-03-14 Avid Technology, Inc. News story markup language and system and process for editing and processing documents
US5987454A (en) 1997-06-09 1999-11-16 Hobbs; Allen Method and apparatus for selectively augmenting retrieved text, numbers, maps, charts, still pictures and/or graphics, moving pictures and/or graphics and audio information from a network resource
US6025844A (en) * 1997-06-12 2000-02-15 Netscape Communications Corporation Method and system for creating dynamic link views
US5974413A (en) 1997-07-03 1999-10-26 Activeword Systems, Inc. Semantic user interface
US6073140A (en) 1997-07-29 2000-06-06 Acxiom Corporation Method and system for the creation, enhancement and update of remote data using persistent keys
US5905991A (en) * 1997-08-21 1999-05-18 Reynolds; Mark L System and method providing navigation between documents by creating associations based on bridges between combinations of document elements and software
US6356922B1 (en) * 1997-09-15 2002-03-12 Fuji Xerox Co., Ltd. Method and system for suggesting related documents
US6009428A (en) 1997-09-15 1999-12-28 International Business Machines Corporation System and method for providing a single application program interface for heterogeneous databases
US6256631B1 (en) * 1997-09-30 2001-07-03 International Business Machines Corporation Automatic creation of hyperlinks
US6091412A (en) * 1997-09-30 2000-07-18 The United States Of America As Represented By The Secretary Of The Navy Universal client device permitting a computer to receive and display information from several special applications
US5940843A (en) * 1997-10-08 1999-08-17 Multex Systems, Inc. Information delivery system and method including restriction processing
US6014662A (en) * 1997-11-26 2000-01-11 International Business Machines Corporation Configurable briefing presentations of search results on a graphical interface
US6094649A (en) * 1997-12-22 2000-07-25 Partnet, Inc. Keyword searches of structured databases
US6289342B1 (en) 1998-01-05 2001-09-11 Nec Research Institute, Inc. Autonomous citation indexing and literature browsing using citation context
US6151624A (en) 1998-02-03 2000-11-21 Realnames Corporation Navigating network resources based on metadata
US6092074A (en) * 1998-02-10 2000-07-18 Connect Innovations, Inc. Dynamic insertion and updating of hypertext links for internet servers
US6263212B1 (en) * 1998-02-17 2001-07-17 Alcatel Usa Sourcing, L.P. Short message service center
US6457028B1 (en) 1998-03-18 2002-09-24 Xerox Corporation Method and apparatus for finding related collections of linked documents using co-citation analysis
JP3744676B2 (ja) * 1998-03-20 2006-02-15 沖電気工業株式会社 情報抽出装置及びその方法
US6122647A (en) 1998-05-19 2000-09-19 Perspecta, Inc. Dynamic generation of contextual links in hypertext documents
US6529911B1 (en) 1998-05-27 2003-03-04 Thomas C. Mielenhausen Data processing system and method for organizing, analyzing, recording, storing and reporting research results
US6205576B1 (en) * 1998-06-05 2001-03-20 Nortel Networks Limited Method and apparatus for identifying indirect messaging relationships between software entities
US6263121B1 (en) * 1998-09-16 2001-07-17 Canon Kabushiki Kaisha Archival and retrieval of similar documents
US7003719B1 (en) * 1999-01-25 2006-02-21 West Publishing Company, Dba West Group System, method, and software for inserting hyperlinks into documents
EP1224572A1 (en) 1999-03-08 2002-07-24 Alexander Sann Computerized research system and methods for processing and displaying scientific, technical, academic, and professional information
WO2000067162A1 (en) 1999-05-05 2000-11-09 West Publishing Company Document-classification system, method and software
AU5490000A (en) 1999-06-15 2001-01-02 Kanisa Inc. System and method for document management based on a plurality of knowledge taxonomies
US6591261B1 (en) 1999-06-21 2003-07-08 Zerx, Llc Network search engine and navigation tool and method of determining search results in accordance with search criteria and/or associated sites
US6341306B1 (en) * 1999-08-13 2002-01-22 Atomica Corporation Web-based information retrieval responsive to displayed word identified by a text-grabbing algorithm
JP2001075959A (ja) * 1999-08-31 2001-03-23 Matsushita Electric Ind Co Ltd 文書処理装置
WO2001022285A2 (en) 1999-09-21 2001-03-29 Borthwick Andrew E A probabilistic record linkage model derived from training data
AU1356301A (en) 1999-11-01 2001-05-14 Lockheed Martin Corporation System and method for the storage and access of electronic data in a web-based computer system
US7216115B1 (en) 1999-11-10 2007-05-08 Fastcase.Com, Inc. Apparatus and method for displaying records responsive to a database query
WO2001035714A2 (en) 1999-11-15 2001-05-25 Openpark Limited A graphic language representation and communication method/system and its application to a graphic navigation method for retrieving information in a computer database and an internet search engine
US6731802B1 (en) * 2000-01-14 2004-05-04 Microsoft Corporation Lattice and method for identifying and normalizing orthographic variations in Japanese text
US6738760B1 (en) 2000-03-23 2004-05-18 Albert Krachman Method and system for providing electronic discovery on computer databases and archives using artificial intelligence to recover legally relevant data
US20010037380A1 (en) * 2000-04-24 2001-11-01 Communityiq.Com Web site hosting model
US20010037332A1 (en) 2000-04-27 2001-11-01 Todd Miller Method and system for retrieving search results from multiple disparate databases
WO2001093655A2 (en) * 2000-06-05 2001-12-13 Shiman Associates, Inc. Method and apparatus for managing documents in a centralized document repository system
US6507837B1 (en) * 2000-06-08 2003-01-14 Hyperphrase Technologies, Llc Tiered and content based database searching
AR029290A1 (es) 2000-06-28 2003-06-18 American Express Travel Relate Sistema y metodo para integrar datos publicos y privados
US6654758B1 (en) * 2000-07-21 2003-11-25 Unisys Corporation Method for searching multiple file types on a CD ROM
US6778986B1 (en) 2000-07-31 2004-08-17 Eliyon Technologies Corporation Computer method and apparatus for determining site type of a web site
CN1253815C (zh) * 2000-09-08 2006-04-26 百度在线网络技术(北京)有限公司 计算机在中文数据中识别中文姓名的方法
JP4200645B2 (ja) 2000-09-08 2008-12-24 日本電気株式会社 情報処理装置、情報処理方法および記録媒体
TW548557B (en) * 2000-09-13 2003-08-21 Intumit Inc A method and system for electronic document to have fast-search category and mutual link
AU2002224333A1 (en) * 2000-09-20 2002-04-02 A2I, Inc. Method and apparatus for structuring, maintaining, and using families of data
WO2002029623A1 (en) 2000-10-03 2002-04-11 Goldspirit Invest Pty Ltd Method of locating web-pages by utilising visual images
CA2734080C (en) 2000-10-11 2015-02-24 Healthtrio Llc System for communication of health care data
JP2002140339A (ja) 2000-10-31 2002-05-17 Tonfuu:Kk 法律等検索システムおよび法律等検索装置ならびに法律等検索プログラム
US20020087469A1 (en) * 2000-12-28 2002-07-04 Ravi Ganesan Technique of registration for and direction of electronic payments in real-time
US6766316B2 (en) * 2001-01-18 2004-07-20 Science Applications International Corporation Method and system of ranking and clustering for document indexing and retrieval
US6694331B2 (en) 2001-03-21 2004-02-17 Knowledge Management Objects, Llc Apparatus for and method of searching and organizing intellectual property information utilizing a classification system
US20020165856A1 (en) 2001-05-04 2002-11-07 Gilfillan Lynne E. Collaborative research systems
US20030041305A1 (en) * 2001-07-18 2003-02-27 Christoph Schnelle Resilient data links
US7333966B2 (en) 2001-12-21 2008-02-19 Thomson Global Resources Systems, methods, and software for hyperlinking names
JP4255239B2 (ja) 2002-03-29 2009-04-15 富士通株式会社 文書検索方法
NZ548804A (en) 2003-12-31 2008-11-28 Thomson Global Resources Systems, methods, interfaces and software for automated collection and integration of entity data into online databases and professional directories

Also Published As

Publication number Publication date
CA2754006C (en) 2016-05-31
AU2008212267A1 (en) 2008-10-02
EP1474759B1 (en) 2011-10-26
JP4436909B2 (ja) 2010-03-24
CA2471592C (en) 2011-12-13
NZ534222A (en) 2007-05-31
WO2003060767A2 (en) 2003-07-24
AU2008212604A1 (en) 2008-10-02
CN1623146A (zh) 2005-06-01
WO2003060767A3 (en) 2004-08-26
NZ552575A (en) 2008-06-30
CA2471592A1 (en) 2003-07-24
ATE530989T1 (de) 2011-11-15
JP2009259252A (ja) 2009-11-05
AU2002364593A1 (en) 2003-07-30
EP1474759A2 (en) 2004-11-10
CN1623146B (zh) 2014-04-02
NZ567455A (en) 2009-06-26
EP2328101A1 (en) 2011-06-01
CA2754006A1 (en) 2003-07-24
US20030135826A1 (en) 2003-07-17
JP2005539283A (ja) 2005-12-22
US7333966B2 (en) 2008-02-19
CA2924140A1 (en) 2003-07-24
JP5252725B2 (ja) 2013-07-31
US9002764B2 (en) 2015-04-07
EP2336903A1 (en) 2011-06-22
AU2002364593B2 (en) 2008-10-02
US20080301074A1 (en) 2008-12-04

Similar Documents

Publication Publication Date Title
ES2378653T3 (es) Sistemas, métodos y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales.
Liu et al. Mining data records in web pages
JP5390840B2 (ja) 情報分析装置
CN102236640B (zh) 命名实体的消歧
Zhou et al. Resolving surface forms to wikipedia topics
US20080147641A1 (en) Method for prioritizing search results retrieved in response to a computerized search query
Christen et al. A probabilistic geocoding system based on a national address file
CN112347270A (zh) 一种法律知识图谱构建系统及方法
US20090157619A1 (en) System and method for creating a database
WO2015065719A1 (en) Computerized systems and methods for identifying a character string for a point of interest
Tabarcea et al. Framework for location-aware search engine
Efremova et al. A geo-tagging framework for address extraction from web pages
CN109408713A (zh) 一种基于用户反馈信息的软件需求检索系统
AU2011253680B2 (en) Systems, methods, and software for hyperlinking names
AU2011253689B2 (en) Systems, methods, and software for hyperlinking names
Mazieres et al. Toward Google Borders
Guermazi et al. GeoRoBERTa: A Transformer-based Approach for Semantic Address Matching
Ullah et al. Semantic Space Expansion and Refinement
Hua The development of the Chinese Social Sciences Citation Index
Krayushkin et al. Complex Data Mining Algorithm, Based on Logical Deduction Rules.