ES2378653T3 - Sistemas, métodos y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales. - Google Patents
Sistemas, métodos y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales. Download PDFInfo
- Publication number
- ES2378653T3 ES2378653T3 ES02799974T ES02799974T ES2378653T3 ES 2378653 T3 ES2378653 T3 ES 2378653T3 ES 02799974 T ES02799974 T ES 02799974T ES 02799974 T ES02799974 T ES 02799974T ES 2378653 T3 ES2378653 T3 ES 2378653T3
- Authority
- ES
- Spain
- Prior art keywords
- name
- names
- candidate
- document
- terms
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Lifetime
Links
- 238000000034 method Methods 0.000 title claims abstract description 54
- 239000012634 fragment Substances 0.000 claims description 13
- 230000008569 process Effects 0.000 abstract description 10
- 239000000284 extract Substances 0.000 abstract description 3
- 230000008520 organization Effects 0.000 description 38
- 238000012545 processing Methods 0.000 description 10
- 238000012549 training Methods 0.000 description 9
- 238000012937 correction Methods 0.000 description 5
- 238000012797 qualification Methods 0.000 description 5
- 230000005540 biological transmission Effects 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000014509 gene expression Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 241001379910 Ephemera danica Species 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000006073 displacement reaction Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000011084 recovery Methods 0.000 description 1
- 230000011664 signaling Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/93—Document management systems
- G06F16/94—Hypermedia
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3338—Query expansion
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9558—Details of hyperlinks; Management of linked annotations
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10—TECHNICAL SUBJECTS COVERED BY FORMER USPC
- Y10S—TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y10S707/00—Data processing: database and file management or data structures
- Y10S707/99931—Database or file accessing
- Y10S707/99932—Access augmentation or optimizing
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Business, Economics & Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Transfer Between Computers (AREA)
Abstract
Método implementado en ordenador, que comprende: identificar uno o más nombres en un documento; seleccionar del o de los nombres identificados en el documento un nombre candidato en el documento correlacionando un modelo descriptivo predefinido de términos no referidos a personas con texto de alrededor de los nombres identificados en el documento, estando el modelo descriptivo basado en un conjunto de ejemplos de fragmentos de oración que contienen descripciones de profesionales mencionados; definir una plantilla de nombre para el nombre candidato identificando uno o más términos no referidos a personas que aparezcan conjuntamente con el nombre candidato en el documento e incluyendo en la plantilla de nombre para el nombre candidato el o los términos no referidos a personas identificados; determinar un indicador de rareza para el nombre candidato, siendo el indicador de rareza una cantidad basada en una probabilidad de sacar como mínimo una parte de palabra del nombre al azar de un conjunto de nombres de muestra representativos de una población humana pertinente; identificar uno o más registros candidatos en una base de datos, basándose en como mínimo una parte de palabra del nombre candidato; comparar los términos no referidos a personas para cada uno de los registros candidatos con los términos no referidos a personas que aparecen en la plantilla de nombre definida para el nombre candidato; calcular una o más cantidades, basada cada una en el indicador de rareza del nombre candidato y la comparación de los términos no referidos a personas para uno de los registros candidatos; y definir un hipervínculo para el nombre candidato basándose en la o las cantidades calculadas.
Description
Sistemas, métodos, y software para hipervínculos
automáticos de nombres de personas en documentos para directorios
profesionales.
La presente invención se refiere a sistemas,
métodos y software para establecer hipervínculos de nombres en
documentos.
En los últimos años, el fantástico crecimiento
de Internet y otras redes informáticas ha provocado un crecimiento
igualmente fantástico en los datos accesibles a través de estas
redes. Uno de los modos seminales de interaccionar con estos datos
es mediante el uso de hipervínculos dentro de documentos
electrónicos.
Los hipervínculos son elementos seleccionabas
por el usuario, tales como texto resaltado o iconos, que vinculan
una parte de un documento electrónico a otra parle del mismo
documento o a otros documentos de una base de datos o red
informática. Con un equipo informático y un acceso a la red
adecuados, un usuario puede seleccionar o invocar un hipervínculo y
ver casi instantáneamente el otro documento, que puede hallarse en
casi cualquier parte del mundo. Además, el otro documento mismo
puede incluir hipervínculos a otros documentos más que incluyan
hipervínculos, permitiendo al usuario "brincar" por todo el
mundo de documento en documento en documento buscando la información
pertinente a voluntad.
Más recientemente se ha despertado el interés en
establecer hipervínculos de unos documentos a otros basándose en los
nombres de personas que aparecen en los documentos. Por ejemplo,
para facilitar las investigaciones legales, la West Publishing
Company de St. Paul, Minnesota, proporciona miles de resoluciones
judiciales electrónicas con hipervínculos de los nombres de abogados
y jueces a sus entradas biográficas en línea en el West Legal
Directory, un directorio registrado de aproximadamente 1.000.000 de
abogados estadounidenses y 20.000 jueces. Estos hipervínculos
permiten a los usuarios acceder a resoluciones judiciales para
lograr rápidamente el contacto y otra información específica de
letrados y jueces mencionados en las resoluciones.
Los hipervínculos de estas resoluciones
judiciales se generan automáticamente, utilizando un sistema que
maneja nombres de pila, segundos nombres de pila y apellidos;
nombre, ciudad y estado del bufete de abogados; e información del
tribunal como indicaciones para vincular los abogados y jueces
mencionados a sus correspondientes entradas en el directorio
profesional. Véase Christopher Dozier y Robert Haschart,
"Automatic Extraction and Linking of Person Names in Legal
Text" (Proceedings of RIAO 2000: Content Based Multimedia
Information Access. París, Francia. Páginas
1.305-1.321. Abril de 2000).
Aunque el sistema automatizado es muy eficaz, el
presente inventor percibió que adolece de como mínimo dos
limitaciones. En primer lugar, el sistema aprovecha características
estructurales (organizativas) de las resoluciones judiciales, tales
como los encabezamientos de caso, que no son comunes a otros
documentos y limitan así su aplicación general a otros tipos de
nombres y documentos. En segundo lugar, el sistema trata todos los
nombres como igualmente ambiguos, o igualmente comunes, cuando, de
hecho, algunos nombres son más o menos ambiguos que otros. Por
ejemplo, el nombre David Smith es más común que el nombre Seven
Drake y por lo tanto más ambiguo, o tiene mayor probabilidad de
identificar a más de una persona.
Por consiguiente, el presente inventor ha
identificado una necesidad de otros métodos para generar
hipervínculos para nombres, o más en general de asociar datos que
incluyan nombres.
Para abordar ésta y otras necesidades, el
inventor ha ideado sistemas, métodos y software que facilitan el
establecimiento de hipervínculos, o la asociación, de nombres que
aparecen en documentos, tales como artículos informativos, a nombres
que aparecen en otras estructuras de datos, tales como registros en
directorios profesionales.
De acuerdo con un aspecto de la presente
invención, se proporciona un método implementado en ordenador según
lo reivindicado en la reivindicación 1.
De acuerdo con otro aspecto de la invención, se
proporciona un sistema para añadir un hipervínculo a un documento
según lo reivindicado en la reivindicación 8.
Un ejemplo de sistema incluye un módulo de
descriptores y un módulo de vinculación. El módulo de descriptores
desarrolla modelos descriptivos para seleccionar información que
aparezca conjuntamente en el documento, útil para reconocer
asociaciones entre nombres y categorías profesionales. El módulo de
vinculación etiqueta nombres en un documento de entrada, extrae
información que aparece conjuntamente utilizando los modelos
descriptivos, clasifica cada nombre como perteneciente a una
profesión concreta e intenta encontrar entradas correspondientes en
directorios profesionales.
Para encontrar las entradas correspondientes, el
módulo de vinculación determina una calificación en cuanto a la
rareza (singularidad o ambigüedad) de cada nombre e introduce en una
red de inferencia bayesiana esta calificación junto con el nombre y
la información que aparece conjuntamente en el documento
seleccionada. La red de inferencia mide las probabilidades de que el
nombre se refiera a registros (o entradas) candidatos(as)
concretos(as) en un directorio profesional determinado. El
módulo de vinculación clasifica los registros candidatos basándose
en las mediciones de probabilidad y define un hipervínculo (u otra
asociación lógica) basándose en el registro clasificado en la
posición más elevada que sobrepase un umbral determinado.
El inventor ha ideado también sistemas, métodos
y software que facilitan la búsqueda de datos que incluyan términos
potencialmente ambiguos, tales como nombres de personas u otras
entidades. Por ejemplo, un método implica recibir una consulta de un
usuario, identificar uno o más nombres en la consulta, evaluar la
ambigüedad o singularidad de los nombres y, si la ambigüedad es
suficientemente grande, obtener información adicional y actualizar o
complementar la consulta para ayudar a resolver o reducir la
ambigüedad. La información adicional, que por ejemplo incluye un
título profesional, una localización o una organización, puede
obtenerse directamente del usuario o mediante una búsqueda
suplementaria automática.
La figura 1 es un diagrama de bloques de un
ejemplo de un sistema 100 que incorpora enseñanzas de la presente
invención.
La figura 2 es un organigrama de un ejemplo de
un método para operar el sistema 100 con el fin de definir
expresiones o descriptores para el uso en la clasificación y
vinculación de nombres.
La figura 3 es un organigrama de un ejemplo de
un método para operar el sistema 100 con el fin de definir un
hipervínculo entre nombres que aparecen en un documento y nombres
que aparecen en una base de datos, basado en la red de inferencia
bayesiana formada según la figura 5.
La figura 4 es un diagrama de bloques de un
ejemplo de un sistema de inferencia bayesiana utilizado para operar
el sistema 100 con el fin de definir hipervínculos.
La figura 5 es un organigrama de un ejemplo de
un método para operar el sistema 100 con el fin de formar una red de
inferencia bayesiana para el uso en la medición de la probabilidad
de que un nombre que aparece en un documento y un nombre que aparece
en una base de datos se refieran a la misma persona.
La figura 6 es un organigrama de un ejemplo de
un método de búsqueda que incorpora enseñanzas de la presente
invención.
La siguiente descripción detallada, que alude a
las figuras 1-6 y las incorpora, describe e ilustra
uno o más ejemplos de realización de la invención. Estas
realizaciones, ofrecidas no para limitar sino sólo para ejemplificar
y enseñar la invención, se muestran y describen con un detalle
suficiente para permitir a los técnicos en la materia llevar a cabo
y utilizar la invención. Así, cuando resulte apropiado para no
ofuscar la invención, la descripción puede omitir cierta información
ya conocida por el técnico en la materia.
La descripción incluye muchos términos con
significados derivados de su uso en la técnica o de su uso dentro
del contexto de la descripción. Como ayuda adicional se ofrecen las
siguientes definiciones de términos.
Los términos "un" y "una" se refieren
a como mínimo uno o una.
El término "o" se utiliza en su sentido
lógico booleano, a no ser que se utilice junto con "bien".
El término "documento" se refiere a todo
conjunto lógico o disposición lógica de datos legibles por máquina
con un nombre de archivo.
El término "base de datos" incluye todo
conjunto lógico o disposición lógica de documentos legibles por
máquina.
El término "hipervínculo" incluye todo
testigo en un documento que se ajuste estructural o funcionalmente a
cualquier norma pasada, presente o futura relativa al Uniform
Resource Locator (URL) (localizador uniforme de recursos). También
incluye todo testigo que incluya información que identifique un
sistema informático o dispositivo en red específico.
El término "nombre" incluye una o más
palabras mediante las cuales una entidad, tal como una persona, un
animal, un lugar, una cosa, un grupo, una organización o una entidad
legal, se denomine y se distinga de otras.
El término "módulos de programa" incluye
rutinas, programas, objetos, componentes, estructuras de datos e
instrucciones o series de instrucciones, etc., que realicen tareas
concretas o implementen tipos abstractos de datos concretos. El
término no está limitado en cuanto a un soporte concreto.
La figura 1 muestra un diagrama de un ejemplo de
un sistema informático 100 que incorpora un sistema, un método y un
software para el marcado automático de una o más partes de un
documento y la definición de uno o más hipervínculos
correspondientes para cada parte marcada. Aunque el ejemplo del
sistema se presenta como un conjunto interconectado de componentes
separados, algunas otras realizaciones implementan su funcionalidad
empleando un número mayor o menor de componentes. Además, algunas
realizaciones interconectan uno o más componentes mediante redes de
área local o redes de gran amplitud por cable o inalámbricas.
Algunas realizaciones implementan una o más partes del sistema 100
utilizando uno o más servidores u ordenadores centrales. Así pues,
la presente invención no está limitada a ninguna partición funcional
en concreto.
En general, un sistema 100 incluye una base de
datos de documentos de entrada 110, un subsistema de vinculación de
nombres 120, directorios profesionales 130, una base de datos de
documentos de salida 140 y dispositivos de acceso 150.
La base de datos de documentos de entrada 110
incluye uno o más documentos electrónicos, de los cuales se muestra
como representante un documento 112. El documento 112 incluye uno o
más nombres de personas, lugares, cosas o entidades legales (más en
general nombres propios), tales como N1, N2, N3, N4 y N5, repartidos
por todo el documento. En el ejemplo de realización, el documento
112 es una versión electrónica de un artículo informativo escrito u
otro documento de texto, por ejemplo una resolución judicial u otro
tipo de documento legal. Sin embargo, en otras realizaciones el
documento 112 incluye una o más imágenes o datos multimedia que
contienen uno o más nombres.
La base de datos 110 tiene conectado un sistema
informatizado de vinculación de nombres 120. El sistema 120 incluye
uno o más procesadores convencionales 121, un dispositivo de
visualización 122, dispositivos de interfaz 123, dispositivos de
comunicación en red 124, dispositivos de memoria 125, un software de
procesamiento de documentos 126 y un software de marcado y
vinculación 127. El software 126 y 127 incluye diversos componentes
de software y de datos que pueden adoptar diversas formas, tales
como instrucciones o datos codificados en un soporte eléctrico,
magnético y/u óptico, y que pueden instalarse en el sistema 120 por
separado o en combinación a través de una descarga de la red o a
través de otros métodos de transferencia de software.
Entre los ejemplos de software de procesamiento
de documentos se incluyen programas de procesamiento de texto,
programas de edición de HTML, programas de hoja de cálculo,
programas de correo electrónico, programas de desarrollo de
presentaciones, programas de navegación, programas de gestión de
documentos y programas de copia de seguridad de archivos. Así pues,
la invención no está limitada a ningún género o especie de software
de procesamiento de documentos en concreto.
En el ejemplo de realización, el software 127 es
una herramienta adicional a un software de procesamiento de
documentos 126. Sin embargo, en otras realizaciones funciona como un
programa de aplicación independiente, tal como un programa accesible
por red, o como parte del kernel o el shell de un sistema operativo.
Más en concreto, el software 127 incluye un módulo de descriptores
1271, un módulo de vinculación 1272 y un módulo de formación 1273,
descritos todos ellos más abajo con mayor detalle.
El sistema 120 está conectado a directorios
profesionales 130 y a una base de datos de documentos de salida
140.
Los directorios profesionales 130 incluyen uno o
más directorios profesionales, tales como un directorio de abogados
132, un directorio de jueces 134, una base de datos de expertos 136
y un directorio de otros profesionales 138. Cada directorio (o más
en general base de datos) incluye un juego de registros u otras
estructuras de datos que contienen información asociada a una o más
entidades nominadas o identificadas, tales como personas, lugares,
cosas o entidades legales. Por ejemplo, un directorio de abogados
132 incluye cierto número de registros de abogados, tales como el
ejemplo de registro de abogados A1; el directorio de jueces 134
incluye cierto número de registros de jueces, tales como el ejemplo
de registro de jueces J1; el directorio de expertos 136 incluye
cierto número de registros de expertos, tales como el ejemplo de
registro de expertos E1; y el directorio de otros incluye cierto
número de registros que contienen información asociada a otros
individuos, tales como médicos, profesores, contables, profesores,
celebridades, etc. Algunas realizaciones pueden incluir bases de
datos de teléfonos y direcciones de correo electrónico, informes
crediticios, informes fiscales, antecedentes penales, información
médica, registros escolares, etc.
La base de datos de documentos de salida 140
incluye uno o más documentos procesados, tales como el ejemplo de
documento 142. El documento 142 incluye nombres marcados N1, N2, N3,
N4, N5 y los hipervínculos respectivos 1421, 1422, 1423, 1424 y
1425, que se refieren cada uno a un registro biográfico u otra
estructura de datos dentro de como mínimo uno de los directorios
profesionales 130, o a uno de los directorios profesionales sin
indicar un registro concreto del directorio, o a un subconjunto de
registros dentro de un directorio. Los hipervínculos
1421-1425, generados por el procesador de
vinculación de nombres 120 e incrustados en el documento o asociados
de otra manera al mismo, pueden seleccionarse para vincular las
respectivas partes de nombre marcado N1, N2, N3, N4, N5 del
documento 140 a bases de datos 130, 132 y 134 a través de una red de
área local o una red de gran amplitud pública o privada o a través
de una vía de transmisión dedicada (no mostrada). El ejemplo de
realización presenta los nombres marcados en un color o una fuente
que haga contraste, o de otro modo que pueda percibir el usuario,
para indicar su asociación con un hipervínculo existente. A los
documentos incluidos en la base de datos de salida 140 puede
accederse a través de una red de área local o una red de gran
amplitud por medio de los dispositivos de acceso 150.
El ejemplo de realización prevé la base de datos
de salida 140 como una parte de un servidor web, por ejemplo un
Microsoft Internet Information Server 4.0, que funcione en una red
de varios servidores con procesadores y memoria extendida y
configuraciones de disco. La base de datos 140 puede tomar cualquier
número de formas en diversas plataformas informáticas. Además, en
algunas realizaciones, la base de datos 140 incluye un contenido
redundante para permitir a más de un dispositivo, como los
dispositivos de acceso 150, acceder simultáneamente a múltiples
copias del mismo documento.
Los dispositivos de acceso 150 incluyen los
ejemplos de dispositivo de acceso 152, 154, 156 y 158. Cada
dispositivo de acceso incluye una pantalla, un procesador (uP) y
software (SW). El término "dispositivo de acceso", tal y como
se utiliza en el presente documento, abarca ordenadores personales
equipados con navegador, equipos de red, asistentes digitales
personales (PDA), teléfonos, teléfonos móviles, teléfonos web,
televisores, televisión web, etc. También incluye monitores y
equipos de otro tipo que puedan dar salida a datos en una forma con
la que los usuarios u otros ordenadores puedan interaccionar. Así
pues, la presente invención no está limitada a ninguna clase o forma
concreta de dispositivo de acceso.
En general, el ejemplo de operación del sistema
100 implica la operación del módulo de descriptores 1271, el módulo
de vinculación 1272 y el módulo de formación 1273. El módulo de
descriptores 1271 genera una(o) o más estructuras o módulos
de descriptores de nombres profesionales para su uso en la
identificación de nombres con probabilidad de referirse a individuos
dentro de una o más categorías profesionales concretas (o de
satisfacer otros criterios predeterminados). El módulo de
vinculación 1272 recibe un documento de entrada, por ejemplo el
documento 110, y establece hipervínculos de uno o más nombres que
aparecen en el documento de entrada a uno o más directorios
profesionales, basándose en estructuras de descriptores de nombres
profesionales y/u otros datos extraídos del documento 110 e
introducidos en una red de inferencia bayesiana. El módulo de
formación 1273 define las probabilidades condicionales en diversos
nodos de la red de inferencia bayesiana utilizada por el módulo de
vinculación 1272.
Más en particular, la figura 2 muestra un
organigrama 200 que ilustra un ejemplo de un método para operar el
módulo de descriptores 1271 con el fin de generar descriptores de
nombre para una profesión determinada. Una premisa del ejemplo de
realización es que algunos nombres personales tienen una
probabilidad mucho mayor de pertenecer a un único individuo que
otros nombres y que, si tales nombres están también asociados a una
profesión (u otra clasificación) común, es posible identificar
automáticamente el lenguaje descriptivo común a los miembros de la
profesión (o clasificación). Este lenguaje podría emplearse entonces
para identificar a la mayoría de los miembros de la profesión (o
clasificación) mencionados en el cuerpo.
El organigrama 200 incluye los bloques de
proceso 210-260. Aunque estos bloques (y los de
otros organigramas de este documento) están dispuestos en serie en
el ejemplo de realización, otras realizaciones pueden reorganizar
los bloques, omitir uno o más bloques y/o ejecutar dos o más bloques
en paralelo empleando múltiples procesadores o un único procesador
organizado como dos o más máquinas o subprocesadores virtuales.
Además, otras realizaciones incluso implementan los bloques como uno
o más módulos específicos de circuitos integrados o de hardware
interconectados, con un control relacionado y señales de datos
comunicadas entre y a través de los módulos. Así pues, éste y otros
ejemplos de flujo de proceso de este documento son aplicables a
software, firmware, hardware y otros tipos de implementación.
El bloque 210 implica identificar nombres que
aparezcan en un conjunto de documentos (o cuerpos) que coincidan con
nombres que aparezcan en un directorio profesional y nombres que no
coincidan. La identificación de nombres coincidentes y no
coincidentes, es decir nombres "en directorio" y nombres
"fuera de directorio", implica identificar todos los nombres
que aparecen en el conjunto empleando un programa de etiquetado de
nombres y ejecutando a continuación una búsqueda en un directorio
profesional, tal como uno de los directorios profesionales 130.
Aunque la presente invención no está limitada a ningún género o
especie de etiquetadores de nombres, entre los ejemplos de
etiquetadores de nombres adecuados se incluye el software de
análisis sintáctico NetOwl de IsoQuest, Inc. de Fairfax, Virginia.
(El inventor considera un etiquetador de nombres basado en un modelo
de entropía máxima para algunas realizaciones).
Una vez ejecutada la búsqueda, el ejemplo de
realización identifica un subconjunto de los nombres "en
directorio" como nombres "en directorio" poco comunes o
únicos. Esto implica calcular una probabilidad de singularidad de
nombre para cada nombre "en directorio", basándose la
probabilidad de singularidad de nombre en un modelo de lenguaje para
los nombres que aparecen en el directorio. El ejemplo de modelo de
lenguaje se define en términos de probabilidad de nombre de pila y
probabilidad de apellido, basándose la probabilidad de nombre de
pila y la probabilidad de apellido en cada caso en la relación del
número total de apariciones del nombre de pila y el apellido con
respecto al número total de nombres que aparecen en una lista de
nombres sacada de la población general.
La lista de nombres debería ser suficientemente
grande para representar con precisión la distribución de nombres en
la población general. Si el directorio profesional, u otra base de
datos, es suficientemente grande, puede utilizarse como base para el
modelo de lenguaje. Si el directorio profesional es pequeño, el
modelo de lenguaje debería estar basado en alguna otra lista, tal
como la lista de profesionales autorizados enumerados en registros
públicos de los Estados Unidos. La descripción siguiente supone que
el directorio profesional (o base de datos) en cuestión es
suficientemente grande para ser representativo de los nombres que
aparecen en la población general.
Una vez definido el modelo de lenguaje, se
calcula la calificación de probabilidad de coincidencia de nombre
para cada nombre "en directorio" empleando
donde P(nombre de pila)
significa la probabilidad de sacar el nombre de pila al azar de
entre todos los nombres de pila que aparecen en el directorio y
P(apellido) significa análogamente la probabilidad de sacar
el apellido al azar de entre todos los apellidos que aparecen en el
directorio. Una probabilidad de singularidad o rareza de nombre se
calcula entonces
como
donde H significa el tamaño de la
población humana con probabilidad de ser citada en el cuerpo. Por
ejemplo, para un cuerpo consistente en artículos del Wall Street
Journal, H se supone que es 300 millones, la población aproximada de
los Estados Unidos. A continuación se utilizan como base todos los
nombres "en directorio" con una probabilidad de singularidad de
nombre que sobrepase un valor umbral, por ejemplo 0,07, junto con
los nombres "fuera de directorio" para el procesamiento
ulterior en el bloque
220.
\vskip1.000000\baselineskip
El bloque 220 extrae información que aparece
conjuntamente en el documento o asociada de otra manera a uno o más
de los nombres "en directorio" identificados y uno o más de los
nombres "fuera de directorio". En el ejemplo de realización,
esto implica extraer texto o información dentro de cierto intervalo
de texto (o región del documento) alrededor de cada uno de los
nombres "en directorio" poco comunes y alrededor de todos los
nombres "fuera de directorio".
Más en concreto, el ejemplo de extracción
implica extraer unigramas y bigramas que aparezcan dentro de un
intervalo de texto que se extiende ocho palabras antes y ocho
palabras después de cada aparición de nombres "en directorio" y
nombres "fuera de directorio" poco comunes identificados en el
cuerpo. (Otras realizaciones utilizan otros tamaños y formas de
intervalos de texto, tales como estructuras gramaticales u
organizativas de documentos. Por ejemplo, algunas realizaciones
definen el intervalo basándose en el número de caracteres, oraciones
o subdivisiones). Los unigramas y bigramas asociados a nombres "en
directorio" se definen como unigramas y bigramas "en
directorio" de aparición conjunta, mientras que los asociados a
nombres "fuera de directorio" se denominan unigramas y bigramas
"fuera de directorio" de aparición conjunta. La ejecución
continúa en el bloque 230.
El bloque 230 determina una probabilidad de que
la información extraída aparezca con un nombre "en directorio"
en lugar de con un nombre "fuera de directorio". En el ejemplo
de realización, esto implica calcular la probabilidad de que cada
unigrama y bigrama "en directorio" aparezca dentro de un
intervalo de ocho palabras antes y después de los nombres "fuera
de directorio" y la probabilidad de que cada unigrama y bigrama
"fuera de directorio" aparezca dentro de un intervalo de ocho
palabras antes y después de los nombres "en directorio". Estas
probabilidades de aparición conjunta se calculan de la siguiente
manera:
donde EU = número de veces que un
unigrama aparece en el intervalo con un nombre poco común "en
directorio" y NE = número de nombres poco comunes "en
directorio".
donde FU significa el número de
veces que un unigrama aparece en el intervalo con un nombre "fuera
de directorio" y NF significa el número de nombres "fuera de
directorio".
donde EB significa el número de
veces que un bigrama aparece en el intervalo con un nombre poco
común "en directorio" y NE el número de nombres poco comunes
"en
directorio".
donde FB significa el número de
veces que un bigrama aparece en el intervalo con un nombre "fuera
de directorio" y NF significa el número de nombres "fuera de
directorio".
\vskip1.000000\baselineskip
Para determinar la probabilidad de que los
unigramas y bigramas aparezcan conjuntamente con un nombre poco
común "en directorio" en lugar de un nombre "fuera de
directorio", el ejemplo de realización divide la probabilidad de
aparición conjunta con un nombre poco común "en directorio" por
la respectiva probabilidad de aparición conjunta "fuera de
directorio". Estas fórmulas de probabilidad se expresan como
donde P(unigrama) es la
probabilidad de que un determinado unigrama aparezca conjuntamente
con un nombre poco común "en directorio" y P(bigrama) es
la probabilidad de que un determinado bigrama aparezca conjuntamente
con un nombre poco común "en
directorio".
\vskip1.000000\baselineskip
El bloque 240 clasifica la información extraída
basándose en las probabilidades de aparición conjunta de unigramas y
bigramas anteriores y posteriores. Con este fin, el ejemplo de
realización clasifica u ordena los unigramas y bigramas de aparición
conjunta "en directorio" en orden descendente según sus
probabilidades de aparición conjunta con nombres poco comunes "en
directorio" (otras realizaciones pueden calcular y usar
probabilidades de aparición conjunta). En las dos tablas siguientes
se muestran ejemplos de listas clasificadas de unigramas y bigramas
anteriores y posteriores para profesionales legales, junto con sus
calificaciones de probabilidad.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
El bloque 250 implica seleccionar uno o más
conjuntos de la información extraída, basándose en las
clasificaciones. En el ejemplo de realización, éste es un proceso de
selección manual; sin embargo, otras realizaciones pueden aplicar
criterios de selección automática basados, por ejemplo, en una
clasificación mínima específica o una clasificación mínima
específica en combinación con un umbral mínimo.
Más en concreto, el ejemplo de realización
selecciona dos conjuntos de términos, denominados términos ancla. El
primer conjunto de términos ancla incluye términos que tienen una
gran probabilidad de aparecer antes de un nombre poco común "en
directorio" y el segundo conjunto de términos ancla incluye
términos que tienen una gran probabilidad de aparecer después de tal
nombre. En muchos casos, los términos ancla son los nombres en
oraciones o cláusulas apositivas que aparecen antes o después de un
nombre determinado. El ejemplo de realización agrupa también
términos en minúsculas que son sinónimos entre sí. Por ejemplo, los
términos como "lawyer", "counsel" y "prosecutor" se
consideran sinónimos de "attorney" y, por lo tanto, se agrupan
para formar un único término ancla con el fin de reducir el número
de expresiones o descriptores regulares generados en el bloque
260.
El bloque 260 implica generar automáticamente
modelos (o expresiones) de descriptor de profesión que estén en
correlación con la membresía en la profesión. Los ejemplos de
descriptores representan modelos gramaticales en fragmentos del
cuerpo que están delimitados por nombres poco comunes "en
directorio" y los términos ancla seleccionados.
El ejemplo de realización genera los modelos de
la siguiente manera: Para cada fragmento de oración delimitado por
un término ancla y un nombre poco común, el ejemplo de realización
deriva un modelo (o estructura) generalizado(a) dividiendo el
fragmento en testigos separados de acuerdo con los espacios y las
comas y normalizando a continuación cada testigo basándose en su
categoría gramatical más comúnmente asociada en un diccionario de
inglés. Los testigos no incluidos en el diccionario se clasifican
como "otros" y las formas del verbo "to be" se clasifican
como "is" para distinguirlos de otros verbos. Los signos de
puntuación que no sean comas se clasifican como "otros". El
ejemplo de realización utiliza un diccionario de inglés públicamente
disponible de aproximadamente 90.000 palabras, estando cada palabra
asociada a una o más categorías gramaticales, enumeradas por orden
de frecuencia dentro de un cuerpo. En la tabla 3 se muestra un
ejemplo de vocabulario para los modelos descriptivos.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
A continuación, el ejemplo de realización crea
una lista combinada de modelos únicos y cuenta la frecuencia con que
cada uno se repite en el cuerpo. Después se ordenan los modelos
basándose en sus recuentos de aparición y se desechan los modelos
singulares. Los modelos restantes se toman entonces como indicativo
de membresía en la profesión en cuestión.
El recuadro 260' muestra que un ejemplo de
estructura de modelo incluye una estructura de nombre 261,
estructuras gramaticales 262, una estructura de términos ancla 263 y
datos de posición relativa 264 y 265. La estructura de nombre 261 es
un marcador de posición para un nombre en un fragmento. Las
estructuras gramaticales 262 incluyen la puntuación, identificadores
de categoría gramatical e información posicional asociada indicativa
de cualesquiera modelos estructurales gramaticales existentes entre
el nombre y la estructura de términos ancla 263. La estructura de
términos ancla 263 representa e incluye uno o más términos
ancla.
Los datos de posición relativa 264 y 265 indican
en cada caso la posición relativa de la estructura de nombre 261 y
las estructuras gramaticales 262, y de la estructura gramatical 262
y los términos ancla 263. Aunque el ejemplo de realización
implementa los datos de posición relativa implícitamente por lo que
se refiere al orden de los datos dentro de la estructura de modelo,
otras realizaciones indican explícitamente la posición relativa como
"antes" o "después". Algunas realizaciones omiten la
estructura de nombre y/o las estructuras gramaticales que
intervienen y definen modelos en cuanto a distancia en palabras o
caracteres entre los términos ancla y una estructura de nombre
implícita.
En la tabla siguiente se muestran ejemplos de
modelos descriptivos de profesión para identificar abogados
(attorneys) en el cuerpo de artículos informativos. También se
muestran fragmentos de oración correspondientes extraídos de un
documento mediante el empleo de estos modelos.
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
\vskip1.000000\baselineskip
En esencia, el ejemplo de realización utiliza
nombres poco comunes o menos ambiguos como etiquetas virtuales para
identificar o extraer mediante filtrado un conjunto de ejemplos de
fragmentos de oración que contienen descripciones de profesionales
mencionados y que pueden emplearse como base para definir modelos
gramaticalmente descriptivos. El filtro de rareza sirve para
identificar buenos ejemplos con mucha más eficacia que la búsqueda
de fragmentos de oración alrededor de nombres personales en general.
A continuación se utilizan estos modelos como ayuda para la
generación automática de hipervínculos en el módulo de vinculación
1272.
En general, el módulo de vinculación 1272 (en la
figura 1) recibe un documento de entrada, como el documento 110, y
establece hipervínculos de uno o más nombres que aparecen en el
documento de entrada a uno o más directorios profesionales,
basándose en las estructuras de descriptores de nombres
profesionales definidas por el módulo de descriptores 1271.
La figura 3 muestra un organigrama 300 de un
ejemplo de un método realizado en el módulo de vinculación 1272. El
organigrama 300 incluye los bloques de proceso
310-370.
La ejecución del ejemplo del método se inicia en
el bloque 310, que implica recibir un documento, como por ejemplo un
documento 112, de la base de datos de documentos de entrada 110. En
algunas realizaciones, el módulo de vinculación 1272 ejecuta en el
contexto de una o más sesiones iniciadas por el software de
procesamiento de documentos 126 y el documento de entrada representa
un documento completo hospedado por el software de procesamiento de
documentos o una o más partes seleccionadas del documento dentro de
una ventana de procesamiento activa en un programa de procesamiento
de documentos. Sin embargo, en otras realizaciones el documento o la
parte del documento se recibe o se recupera de una ventana de
procesamiento actualmente activa en un programa de procesamiento de
documentos. En algunas otras realizaciones el módulo de vinculación
es una aplicación autónoma que interacciona con una o más bases de
datos conectadas a un sistema informático central, como una estación
de trabajo. La ejecución continúa en el bloque 320.
En el bloque 320, el módulo de vinculación
utiliza un etiquetador genérico para etiquetar o marcar cada nombre
de persona, lugar u organización en los documentos de entrada. El
ejemplo de realización emplea el mismo etiquetador que el utilizado
en el módulo de descriptores. En el ejemplo de realización, el
etiquetado de nombres implica también resolver correferencias claras
al mismo nombre dentro del documento de entrada.
Con este fin, el ejemplo de realización vincula
de forma conjunta las referencias dentro de un documento al mismo
nombre, utilizando una serie de reglas de comparación de nombres.
Estos vínculos se califican de cadenas de correferencias "en
documento", o cadenas de nombre. Durante el proceso de
etiquetado, el apellido de cada nuevo nombre encontrado se compara
con los apellidos de los nombres ya encontrados. Si no se hallan
coincidencias, el nuevo nombre encontrado se trata como nombre único
en el documento. Si el nuevo apellido encontrado coincide con un
apellido ya existente, el nombre de pila que acompaña al nuevo
apellido encontrado se compara con el nombre de pila que acompaña a
los apellidos coincidentes. Si un nombre de pila coincide o es
compatible, se supone que los nombres son iguales. Si el nombre de
pila es incompatible con el nombre de pila de cualquiera de los
apellidos coincidentes, el nombre se trata como único en el
documento. Si el nuevo nombre encontrado no tiene un nombre de pila
claramente asociado, el nombre se trata como referencia al nombre
encontrado más recientemente que tenga el mismo apellido. Otras
realizaciones pueden utilizar otras técnicas para resolver
correferencias "en documento".
\newpage
En el bloque 330, el módulo de vinculación
determina cuál de la o las cadenas de nombre etiquetadas es probable
que esté asociada a uno o más directorios profesionales. En el
ejemplo de realización, esto implica aplicar uno o más modelos
descriptivos de profesión generados por el módulo de descriptores
1271. Al aplicar los modelos descriptivos, el ejemplo de realización
trata de emparejar o correlacionar cada modelo descriptivo para una
profesión determinada con el texto que rodea a cada aparición de un
nombre etiquetado en el documento de entrada. Si se correlaciona con
éxito el modelo descriptivo con una aparición de un nombre, el
nombre (y sus correferencias "en documento") se considera un
profesional candidato y se añade a una lista de profesionales
candidatos de un tipo determinado. (Otras realizaciones aprovechan
la estructura regular o características clave de los documentos como
evidencia adicional por lo que respecta a la naturaleza de los
nombres en los documentos. Por ejemplo: las resoluciones judiciales
(jurisprudencia) incluyen encabezamientos de caso, frases de
abogados, resoluciones coincidentes y fechas que pueden utilizarse
para identificar y/o distinguir abogados y jueces). La lista de
cadenas de nombre candidato se envía a su procesamiento posterior en
el bloque 340.
El bloque 340 implica definir una o más
plantillas de nombre u otras estructuras de datos basadas en las
cadenas de nombre etiquetado de profesionales candidatos y el texto
de aparición conjunta relacionado u otra información del documento.
En el ejemplo de realización, definir las plantillas de nombre
implica formar, para cada cadena de nombre etiquetado, un conjunto
de oraciones del documento que contienen un nombre de la cadena y un
conjunto de párrafos del documento que contienen un nombre de la
cadena. En algunas realizaciones, los conjuntos de oraciones o
párrafos son indicadores de posición en documento que denotan el
principio y/o final de oraciones y párrafos.
Una vez formados los conjuntos de oraciones y
párrafos, el módulo de vinculación define una plantilla para cada
cadena de nombre, teniendo cada plantilla la forma del ejemplo de
plantilla de nombre 340'. La plantilla de nombre 340' incluye un
registro de nombre 341, un registro de datos de descriptor 342, un
registro de datos de lugar 343, un registro de organización 344 y un
registro de singularidad (o rareza) de nombre 345.
El registro de nombre 341 incluye un campo de
nombre de pila (first), un campo de segundo nombre de pila (mid), un
campo de apellido (last) y un campo de sufijo (suffix). Otras
realizaciones incluyen otros datos relacionados con el nombre, tales
como sobrenombres extraídos de una tabla de consulta u ortografías
alternativas comunes. Y otras realizaciones excluyen uno o más de
los campos utilizados en el ejemplo de realización, tales como el
sufijo.
El registro de datos de descriptor 342 incluye
uno o más campos de descriptor, tales como D1, D2, D3... Dn. En el
ejemplo de realización, cada campo de descriptor incluye fragmentos
de oraciones extraídos del documento de entrada mediante el empleo
de uno o más de los modelos descriptivos de profesión generados por
el módulo de descriptores 1271 para una profesión determinada. Para
un documento en el que un nombre se repita o tenga correferencias en
múltiples puntos, las estructuras de descriptor se aplican a cada
aparición del nombre para montar el conjunto de campos de
descriptor. Algunas realizaciones pueden aplicar incluso los modelos
de descriptor a referencias a un nombre determinado hechas mediante
pronombres (en otras realizaciones, los descriptores incluyen
también verbos que aparecen conjuntamente dentro de cierto intervalo
de distancia con respecto a los nombres).
La aplicación de los modelos implica alinear la
parte del nombre de cada modelo con los nombres que aparecen en el
conjunto de oraciones y determinar si la gramática de la parte (el
fragmento) adyacente de la oración concuerda con la gramática del
modelo. Si existe concordancia, el ejemplo de módulo de vinculación
copia una o más partes del fragmento de oración correspondiente, por
ejemplo el término ancla, en un campo de descriptor respectivo del
registro de datos de descriptor 342.
El registro de datos de lugar 343 incluye un
campo de "misma oración" y un campo de "mismo párrafo". El
campo de "misma oración" incluye subcampos LS1, LS2,..., LSj,
incluyendo cada subcampo LS un nombre de lugar que aparece
conjuntamente en una oración con una referencia al nombre que
aparece en el registro de datos de nombre 341. El campo de "mismo
párrafo" incluye subcampos LP1, LP2,..., LPk. Cada subcampo LP
incluye un nombre de lugar que aparece conjuntamente en un párrafo
que contiene una referencia al nombre que aparece en el registro de
datos 341. En el ejemplo de realización, la construcción de este
registro implica buscar lugares en los conjuntos de oraciones y
párrafos para un nombre determinado y copiar los lugares encontrados
en los subcampos respectivos.
El registro de datos de organización 344 incluye
un campo de "misma oración" y un campo de "mismo párrafo".
El campo de "misma oración" incluye subcampos OS1, OS2,...,
OSj, incluyendo cada subcampo una organización que aparece
conjuntamente en una oración con una referencia al nombre que
aparece en el registro de datos de nombre 341. El campo de "mismo
párrafo" incluye subcampos OP1, OP2,..., OPk. Cada subcampo OP
incluye una organización que aparece conjuntamente en un párrafo que
contiene una referencia al nombre que aparece en el registro de
datos 341.
En el ejemplo de realización se entiende que el
concepto de oración incluye tanto oraciones gramaticales como
oraciones tipográficas y que el concepto de párrafo incluye
cualquier grupo de una o más oraciones delimitado o separado de otro
grupo de una o más oraciones por signos de puntuación u otro recurso
o técnica de señalización. Además, en el ejemplo de realización no
es necesario que los lugares y organizaciones de "misma
oración" y de "mismo párrafo" se excluyan mutuamente. Es
decir que si un término aparece en una oración con la aparición de
un nombre, también aparece dentro del mismo párrafo que contiene la
oración. Sin embargo, en otras realizaciones los lugares de "misma
oración" y "mismo párrafo" podrían definirse como mutuamente
excluyentes.
Aunque el ejemplo de realización prevé
información posicional implícita para los lugares y organizaciones a
través de la estructura de los campos de "misma oración" y
"mismo párrafo", otras realizaciones pueden utilizar otras
técnicas para incorporar información de posición relativa a un
nombre determinado en la plantilla de nombre. Por ejemplo: algunas
realizaciones utilizan el desplazamiento de carácter, palabra,
oración, párrafo o página a partir del nombre, o más exactamente la
aparición de un nombre determinado. Otras realizaciones prevén
información posicional en forma de un conjunto de códigos binarios o
banderas, indicando cada bandera si un lugar o una organización
lógicamente asociado(a) o correspondiente aparece dentro de
una oración o párrafo con su nombre asociado. Otras realizaciones
más prevén banderas que indican si los sitios se hallan dentro o
fuera de cierto intervalo de texto o región del documento con
relación al nombre. Y otras realizaciones prevén una posición
relativa en documento o una posición absoluta en documento para cada
organización o sitio.
El registro de singularidad (o rareza) de nombre
345 incluye un campo de calificación que contiene un indicador de
singularidad o rareza de su nombre asociado. En el ejemplo de
realización, este indicador es un indicativo numérico de cantidad de
una probabilidad a priori de que un nombre coincida con un
registro candidato sacado de un directorio en particular. Más en
concreto, el ejemplo de realización define la cantidad como la
probabilidad de singularidad de un nombre y la calcula mediante
donde H' significa el tamaño de la
categoría profesional indicada por la coincidencia de descriptor y
P(nombre) se define
como
donde P(nombre de pila)
significa la probabilidad de sacar el nombre de pila al azar de
entre todos los nombres de pila que aparecen en una lista de nombres
representativa de la población general y P(apellido)
significa análogamente la probabilidad de sacar el apellido al azar
de entre todos los apellidos que aparecen en una lista de nombres
representativa de la población
general.
\vskip1.000000\baselineskip
Aunque el ejemplo de realización utiliza una
plantilla como la plantilla de nombre 340' para múltiples tipos de
profesiones, algunas realizaciones pueden suprimir o añadir otras
características de plantilla. Por ejemplo: las plantillas para
jueces pueden omitir la información de lugar separada, dado que la
información de la organización, por ejemplo el nombre del tribunal,
contiene implícitamente información del lugar. Otras realizaciones
pueden omitir información totalmente en lugar de sólo su forma
explícita.
El bloque 350, que se ejecuta una vez definidas
las plantillas de nombre en el bloque 340, recupera un conjunto de
entradas candidatas de uno o más directorios profesionales 130. Con
este fin, el ejemplo de realización busca entradas de directorio que
tengan el mismo apellido que uno de los nombres profesionales
candidatos. A continuación recupera el nombre completo, el título,
la organización, el lugar y la información de identificación de
entrada para estas entradas de directorio candidatas, para un
procesamiento ulterior en el bloque 360.
El bloque 360 implica comparar y calificar la
semejanza de cada plantilla de nombre con uno o más de los registros
candidatos o estructuras de datos candidatas recuperados(as).
En el ejemplo de realización, esto implica utilizar uno o más
sistemas de inferencia bayesiana, tales como el mostrado en la
figura 4.
La figura 4 muestra un ejemplo de un sistema de
inferencia 400 que incluye una plantilla de nombre de entrada 410,
un registro candidato de entrada 420 y uno o más motores de
inferencia bayesiana, tales como el motor de inferencia bayesiana
430.
La plantilla de nombre de entrada 410 incluye
datos de nombre 411, datos de descriptor 412, datos de lugar 413,
datos de organización 414 y datos de singularidad de nombre 415. El
registro candidato de entrada 420 incluye datos de nombre 421, datos
de título 422, datos de lugar 423, datos de organización 424 y datos
de identificación de registro 425.
El motor de inferencia 430 incluye los módulos
de comparación de evidencia 431-434 y el módulo de
cálculo 435. Los módulos de comparación 431-434
incluyen estructuras de datos y de reglas lógicas respectivas que
definen diversos estados de comparación y probabilidades asociadas.
En el ejemplo de realización, cada motor de inferencia está adaptado
a un directorio profesional específico u otra base de datos
específica. Además, el ejemplo de realización implementa cada motor
empleando un módulo de software reconfigurable, con opciones de
configuración para definir la lógica y los cálculos de comparación.
Sin embargo, otras realizaciones pueden utilizar estructuras de
motor de inferencia totalmente distintas.
Cada módulo de comparación incluye por lo
general dos o más estados mutuamente excluyentes que indican un
resultado potencial de comparación entre un ítem de datos candidato
y un ítem de datos de entrada respectivo. Cada estado está asociado
a una lógica de comparación específica y probabilidades
condicionales para el estado suponiendo la coincidencia de un
registro candidato con la plantilla de nombre de entrada y
suponiendo la no coincidencia de los registros candidatos con la
plantilla de nombre de entrada (algunas realizaciones incluyen
múltiples conjuntos de estados, lógica y probabilidades
condicionales, estando cada conjunto asociado a un directorio
profesional o una profesión en concreto). Entre los ejemplos de
estados se incluyen: una coincidencia exacta, una coincidencia muy
aproximada, una coincidencia poco aproximada, una coincidencia
desconocida (o no especificada) y una falta de coincidencia.
Una coincidencia exacta se produce cuando los
ítems o elementos de datos coinciden exactamente. Una coincidencia
muy aproximada se produce cuando los elementos no llegan a coincidir
exactamente, pero son muy compatibles. Una coincidencia poco
aproximada se produce cuando los elementos no llegan a coincidir
exactamente y son poco compatibles. Una coincidencia desconocida se
produce cuando no hay suficiente información para determinar si los
datos coinciden o no. Y una falta de coincidencia se produce cuando
los ítems no presentan compatibilidad.
Más exactamente, el ejemplo de realización
define cada uno de los estados para cada módulo de comparación de
evidencia de la siguiente manera: El módulo de comparación 431 tiene
tres estados: un estado de coincidencia exacta (EX), un estado de
coincidencia muy aproximada (SF) y un estado de coincidencia poco
aproximada (WF). Para que se produzca una coincidencia exacta, todos
los componentes de un nombre extraído deben coincidir exactamente
con los de un registro candidato. Por ejemplo: Abraham Lincoln
coincide exactamente con Abraham Lincoln, pero no con Abe Lincoln,
Abraham Lincoln, Jr. o Abraham S. Lincoln. Para una coincidencia muy
aproximada, el nombre de pila y el apellido que aparecen en el
documento etiquetado deben coincidir con el nombre de pila y el
apellido del registro, con todos los demás componentes del registro
sin especificar o en blanco. Así pues, Abraham Lincoln es una
coincidencia muy aproximada con Abraham Lincoln, Jr. y Abraham S.
Lincoln. Para una coincidencia poco aproximada sólo coincide el
apellido, mientras que todos los demás componentes quedan sin
especificar o tienen formas variantes de coincidencia tales como
sobrenombres. Así pues, Abraham Lincoln es una coincidencia poco
aproximada con Abe Lincoln. (Aunque no se muestra en las figuras, la
comparación 431 incluye o tiene acceso, por ejemplo, a una base de
datos de nombres y sobrenombres o variantes comunes, a la que accede
cuando la comparación de nombres revela que los nombres de pila no
coinciden exactamente. Sin embargo, otras realizaciones pueden
incluir tales sobrenombres en la plantilla de nombre misma o incluso
omitir por completo la consideración del
sobrenombre).
sobrenombre).
El módulo de comparación 432 incluye cuatro
estados: un estado de coincidencia exacta (EX), un estado de
coincidencia muy aproximada (SF), un estado de coincidencia poco
aproximada (WF) y un estado de no coincidencia (NO). Una
coincidencia exacta se produce cuando coinciden todos los elementos
de un descriptor completamente especificado. Por ejemplo: el
descriptor "Tribunal Supremo de Justicia de los EE.UU."
coincide exactamente con el título "Tribunal Supremo de Justicia
de los EE.UU.". Una coincidencia muy aproximada se produce cuando
coinciden algunos de los elementos de un descriptor y un título,
pero no todos ellos. Por ejemplo: el descriptor "Tribunal Supremo
de Justicia" es una coincidencia muy aproximada con el título
"Tribunal Supremo de Justicia de los EE.UU.". Un estado
desconocido se produce cuando el descriptor identifica una profesión
general que concuerda con la o las profesiones cubiertas por el
directorio. Por ejemplo: si el descriptor es "juez" y el título
en la entrada del directorio es "juez del 8º Tribunal Superior de
los EE.UU.", la coincidencia se considera desconocida o no
especificada. Un estado de falta de coincidencia o "no
coincidencia" se produce cuando el descriptor está en conflicto o
no concuerda con lo especificado en el registro. Por ejemplo: si el
descriptor es "juez del Distrito de Nueva York" y el título en
la entrada del directorio es "juez del 8º Tribunal Superior de los
EE.UU.", el estado de coincidencia es una falta de
coincidencia.
El módulo de comparación 433, que compara la
evidencia de lugar, tiene cinco estados de coincidencia: un estado
de coincidencia exacta (EX), un estado de coincidencia muy
aproximada (SF), un estado de coincidencia poco aproximada (WF), un
estado desconocido o no especificado (UN) y un estado de no
coincidencia (NO). Una coincidencia exacta se produce cuando la
evidencia de lugar de ciudad y estado que está explícitamente
vinculada dentro del documento al nombre extraído coincide con la
ciudad y el estado de un registro del directorio. Una vinculación
explícita se produce, por ejemplo, cuando el lugar aparece
conjuntamente en la misma oración. Una coincidencia muy aproximada
se produce cuando la ciudad o el estado que aparecen en el mismo
párrafo con el nombre extraído coinciden con la ciudad o el estado
correspondientes en un directorio candidato. Una coincidencia poco
aproximada se produce cuando la ciudad o el estado que aparecen en
el mismo documento, pero fuera del mismo párrafo, que el nombre
extraído coinciden con la ciudad o el estado que figuran en una
entrada del directorio. El estado desconocido, o no especificado, se
produce cuando el nombre extraído no está vinculado explícitamente a
una ciudad o un estado en concreto y ninguno de los lugares que
aparecen en el texto coincide con la información sobre la ciudad o
el estado que aparece en el registro candidato. Una falta de
coincidencia se produce cuando el nombre extraído está vinculado
explícitamente a un nombre de ciudad o estado que no coincide con la
información sobre la ciudad o el estado que aparece en el registro
candidato.
El módulo de comparación 434, que compara datos
de organizaciones, tiene cinco estados: un estado de coincidencia
exacta (EX), un estado de coincidencia muy aproximada (SF), un
estado de coincidencia poco aproximada (WF), un estado desconocido o
no especificado (UN) y un estado de no coincidencia (NO). Una
coincidencia exacta se produce cuando un nombre extraído está
vinculado explícitamente a una organización concreta en el texto y
dicha organización coincide con la organización que aparece en el
registro candidato. Una vinculación explícita se produce, por
ejemplo, cuando el lugar aparece conjuntamente en la misma oración.
Por ejemplo: existe una coincidencia exacta si el texto describe a
un abogado que trabaja en el bufete de Smith & Jones y en la
entrada del directorio figura Smith & Jones como un bufete de
abogados u otra organización asociado(a). Una coincidencia
muy aproximada se produce si el nombre extraído aparece en el mismo
párrafo que la organización extraída y la organización extraída
coincide con la organización que aparece en un registro candidato.
Una coincidencia poco aproximada se produce si el nombre extraído
aparece en el mismo documento, pero fuera del párrafo, y la
organización extraída coincide con la organización del candidato.
Una coincidencia desconocida se produce cuando el nombre extraído no
está vinculado explícitamente a una organización concreta y ninguno
de los nombres de organización que aparecen en el texto coincide con
la información sobre la organización que aparece en el registro
candidato. Y una falta de coincidencia se produce cuando el nombre
extraído está vinculado explícitamente a un nombre de organización y
dicho nombre de organización no coincide con el nombre de
organización que aparece en el registro candidato.
La tabla siguiente resume los diversos estados
vigentes para cada uno de los módulos de comparación de evidencia en
el ejemplo de motor de inferencia bayesiana.
Los módulos de comparación de evidencia
431-434 llevan a cabo sus respectivas comparaciones
y transmiten sus resultados al módulo de cálculo 435 en forma de
ocho probabilidades condicionales.
El módulo de cálculo 435 calcula una
calificación de semejanza o probabilidad de coincidencia basándose
en estas probabilidades condicionales y los datos de singuralidad o
rareza del nombre para la plantilla de nombre de entrada. El ejemplo
de cálculo utiliza la siguiente forma de la regla de Bayes:
donde P(M|E) significa la
probabilidad de que una plantilla coincida con un registro candidato
dado cierto conjunto de evidencias, tales como una plantilla de
nombre de entrada y un registro candidato. P(M) significa la
probabilidad a priori de que una plantilla y un registro
biográfico coincidan (es decir que se refieran a la misma persona) y
P(-M) significa la probabilidad a priori de que una plantilla
y un registro biográfico no coincidan. El ejemplo de realización
define P(M) como la probabilidad de singuralidad o rareza del
nombre dentro de la población profesional y P(-M)
como
P(E_{i}|M) es la
probabilidad condicional de que E_{i} adopte un estado en
particular suponiendo que la plantilla de nombre de entrada coincida
con el registro candidato. Por ejemplo, si E_{3} significa
evidencia de coincidencia de lugar, entonces P(E_{3}|M)
significa la probabilidad de que la información sobre el lugar que
aparece en la plantilla de nombre y el registro candidato tenga el
estado de coincidencia determinado por el módulo de comparación 433
(coincidencia exacta, coincidencia muy aproximada, coincidencia poco
aproximada, coincidencia desconocida o falta de coincidencia),
suponiendo que una plantilla de nombre y un registro candidato
coincidan. P(E_{i}|-,M) significa la probabilidad
condicional de que E_{i} adopte un estado en particular suponiendo
que una plantilla de nombre no coincida con ningún registro del
directorio profesional. Por ejemplo: P(E_{3}|-,M)
significa la probabilidad de que la información sobre el lugar que
aparece en una plantilla de persona y el registro candidato
coincida, suponiendo que la plantilla y el candidato no coincidan
(otras realizaciones incluyen un menor o mayor número de estados,
así como otros tipos de información de aparición
conjunta).
\vskip1.000000\baselineskip
La calificación de cada comparación entre un
registro candidato y una plantilla de nombre está asociada con una
Identificación de registro candidato 425 para el registro candidato.
En la figura 4, esta asociación está representada por la línea
punteada entre la calificación 440 y la identificación de registro
candidato 425. En la figura 3, la ejecución continúa en el bloque
370.
\newpage
En el bloque 370, el módulo de vinculación
vincula uno o más de los nombres profesionales etiquetados en el
documento de entrada a uno o más de los directorios profesionales
candidatos basándose en las calificaciones de comparación. En el
ejemplo de realización, esto implica ejecutar los bloques de proceso
371-375 mostrados en el recuadro 370'.
El bloque 371 selecciona el mejor registro
candidato entre los registros candidatos para una plantilla de
nombre en particular. En concreto, esto implica seleccionar el
candidato que tenga la mayor calificación de comparación. Si no hay
un único candidato que tenga la calificación más alta, el ejemplo de
realización avanza al bloque 372 sin seleccionar un candidato para
la plantilla de nombre. Sin embargo, otras realizaciones podrían
emplear algún tipo de "desempate" (por ejemplo uno basado en la
cronología), o construir vínculos a cada uno de los registros
candidatos con mayor puntuación con un mensaje que matice la
incertidumbre en la precisión del vínculo, o construir un vínculo
que presente al usuario un menú de los candidatos con mayor
puntuación.
El bloque 372 determina si el registro candidato
seleccionado cumple otros criterios. Con este fin, el ejemplo de
realización determina si la calificación del registro candidato
seleccionado satisface un determinado criterio umbral, por ejemplo
mayor o igual que 0,05. Sin embargo, otras realizaciones utilizan
criterios adicionales, tales como la relación comercial o
cronológica con el directorio profesional que contiene el registro
candidato. Si el registro candidato satisface la ejecución de los
criterios de vinculación, continúa en el bloque 373.
El bloque 373 implica construir un hipervínculo
que vincule como mínimo una aparición del nombre en cuestión en el
documento de entrada a la entrada que aparece en el directorio
profesional que hospeda el registro candidato. En el ejemplo de
realización, esto incluye el marcado de todas las apariciones del
nombre en el documento y la incrustación en el documento de un URL
(uniform resource locator) que identifique el registro candidato (en
algunas realizaciones, la identificación de referencia de candidato
y un número de identificación de documento para el documento de
entrada se escriben en un índice que puede utilizarse para facilitar
la búsqueda basada en nombres y la posterior vinculación de un
documento entre los directorios profesionales y las bases de datos
de documentos). El marcado puede adoptar cualquier número de formas,
tales como un cambio de fuente con relación al resto del texto en el
documento. Otras realizaciones pueden insertar un hipervínculo que
remita al directorio profesional, en lugar de a un registro concreto
del directorio. Otras plantillas incluyen información del
desplazamiento de carácter para el uso en el establecimiento de
hipervínculos en el punto correcto dentro de una determinada
oración, párrafo o documento. Y otras realizaciones pueden definir
el hipervínculo en términos de uno o más destinos intermedios que
remiten o encaminan de otro modo al directorio o al registro del
directorio para lograr la vinculación deseada.
Una vez construido el vínculo en el bloque 373
(o después de determinar que no se cumplen los criterios de
vinculación en el bloque 372), la ejecución pasa al bloque 374. El
bloque 374 determina si el documento de entrada contiene otro nombre
para una posible vinculación. Una determinación afirmativa devuelve
la ejecución al bloque 371 para la selección de un registro
candidato para otra plantilla de nombre y una determinación negativa
deriva la ejecución al bloque 375. El bloque 375 devuelve la
ejecución al bloque 310 para recibir otro documento de entrada para
su posterior procesamiento.
La figura 5 muestra un organigrama 500, que
ilustra un ejemplo de estructura y funcionamiento del módulo de
formación 1273 para definir las probabilidades condicionales
utilizadas en el motor de inferencia bayesiana de la figura 4. El
organigrama 500 incluye los bloques de proceso
510-560.
En el bloque 510, la ejecución comienza con la
recepción de un conjunto de documentos de formación, que tienen
nombres etiquetados de los cuales se sabe que coinciden con nombres
que aparecen en un directorio profesional. En el ejemplo de
realización, los documentos de formación están etiquetados
manualmente; sin embargo, en otras realizaciones los documentos
pueden etiquetarse automáticamente. Los documentos pueden guardarse
en una base de datos local o remota y comunicarse al módulo de
formación a través de diversas técnicas de transmisión.
El bloque 520 implica extraer datos de los
documentos de formación basándose en los nombres etiquetados. Con
este fin, el ejemplo de realización genera una plantilla de nombre,
utilizando el módulo de extracción del módulo de vinculación 1272,
para cada nombre etiquetado, incluyendo cada plantilla un nombre
extraído, un texto de descriptor extraído, una lista de lugar
extraída y una lista de organización extraída. La plantilla de
nombre tiene una estructura similar a la de la plantilla de nombre
340' de la figura 3.
El bloque 530 implica buscar uno o más
directorios profesionales, basándose en los nombres que aparecen en
las estructuras de datos de formación. En el ejemplo de realización,
esto implica buscar uno o más de los directorios profesionales y
recuperar las entradas de directorio con apellidos que coincidan con
los apellidos que aparecen en las plantillas de nombre para su
posterior procesamiento.
El bloque 540 implica determinar las
probabilidades condicionales para cada estado de cada variable de
evidencia. En el ejemplo de realización, esta determinación implica
determinar los recuentos de frecuencia para cada estado de
comparación, basándose en las plantillas de nombre para el conjunto
de documentos etiquetado manualmente. En concreto, para los casos en
que un nombre etiquetado se haya emparejado manualmente con un
registro candidato, la realización cuenta el número de veces que
cada estado de evidencia concreto aparece para cada una de las
variables de evidencia: nombre, descriptor, lugar y organización. A
continuación, la realización divide el recuento para cada estado de
evidencia por el número total de coincidencias para obtener
P(E_{i}|M), es decir los valores de probabilidad
condicional para cada estado suponiendo una coincidencia. Más
exactamente, el ejemplo de realización determina las probabilidades
condicionales utilizando una fórmula como
donde x significa el número de
estados de evidencia para la variable de evidencia E_{i}, por
ejemplo tres estados para el nombre; y significa el número de
registros de directorio para los cuales se ha producido el estado en
particular, por ejemplo coincidencia exacta; z significa el número
total de pares coincidentes de abogados; a es una constante de
uniformidad, por ejemplo
0,999999.
\vskip1.000000\baselineskip
Igualmente, el ejemplo de realización cuenta el
número de veces que aparece cada estado de evidencia cuando el
nombre candidato no coincide con el nombre de plantilla y lo divide
por el número total de faltas de coincidencia para obtener
P(E_{i}|-,M) para cada estado, es decir la probabilidad
de una coincidencia de estado de evidencia en particular suponiendo
una falta de coincidencia en los nombres. Para reducir los cálculos,
algunas realizaciones pueden muestrear los registros candidatos
coincidentes y/o no coincidentes, por ejemplo, seleccionando uno de
cada diez registros.
La figura 6 muestra que las enseñanzas de la
presente revelación tienen aplicaciones más allá de facilitar la
generación de hipervínculos para nombres. En particular, la figura 6
muestra un organigrama 600 de un ejemplo de un método para operar un
sistema de recuperación de datos que incorpora enseñanzas de la
presente revelación. El organigrama 600 incluye los bloques de
proceso 610-670.
En el bloque 610, el ejemplo de método comienza
con la recepción de una consulta de información. En el ejemplo de
método, la consulta tiene una forma booleana o de lenguaje natural e
incluye el nombre de una entidad, por ejemplo una persona. En
algunos ejemplos, la consulta la efectúa el usuario de un ordenador
cliente o un dispositivo de acceso, tal como uno de los dispositivos
de acceso 150 de la figura 1, a un servidor, tal como el servidor de
base de datos 140 de la figura 1, en un entorno
cliente-servidor. En estos casos, el ejemplo de
método se incorpora al software en un servidor. Sin embargo, en
otros ejemplos, la consulta puede ser recibida y procesada (de
acuerdo con este ejemplo de método) en el lado del cliente antes de
la transmisión a un servidor para su ejecución. En tales casos, el
ejemplo de método puede incorporarse a un navegador, un componente
adicional para un navegador, un sistema operativo del lado del
cliente o un software de búsqueda.
El bloque 620 implica determinar la ambigüedad
de la consulta o de uno o más términos de la misma. En el ejemplo de
método, esto implica identificar como mínimo un nombre en la
consulta y calcular una probabilidad de singularidad del nombre
según
donde H significa el tamaño
estimado de la población humana con probabilidad de ser citada en el
cuerpo o en la base de datos al o a la que va dirigida la consulta.
Una manera de estimar H es tomar el tamaño del cuerpo de la
colectividad con probabilidad de ser citada y aumentarlo
proporcionalmente en un tanto por ciento para prever las inevitables
referencias a personas fuera de la colectividad citada.
P(nombre) se define
como
donde P(nombre de pila)
significa la probabilidad de sacar el nombre de pila al azar de
entre todos los nombres de pila que aparecen en un universo de
búsqueda pertinente, por ejemplo un directorio profesional, y
P(apellido) significa análogamente la probabilidad de sacar
el apellido al azar de entre todos los apellidos que aparecen en el
universo.
\vskip1.000000\baselineskip
El bloque 630 determina si pedir información
adicional como ayuda para responder a la consulta, basándose en la
ambigüedad determinada de un nombre (u otra parte) de la consulta.
En el ejemplo de método, esto implica comparar la probabilidad
calculada de singularidad de un nombre con respecto a un umbral. Si
la probabilidad de singularidad del nombre está por debajo del
umbral, la ejecución avanza al bloque 640, en caso contrario la
ejecución continúa en el bloque 660.
El bloque 640 implica obtener información
adicional en relación con la consulta. En un ejemplo de método, la
obtención de la información adicional implica pedir al usuario
información adicional relacionada con una o más partes ambiguas de
la consulta, por ejemplo un nombre que aparece en la consulta. La
petición, en algunos ejemplos, se presenta como una ventana de
diálogo que pide información relacionada con una profesión, un lugar
y/o una organización asociada(o) al nombre.
En otro ejemplo, la obtención de información
adicional implica formular automáticamente una o más consultas
basadas en una o más partes ambiguas de la consulta recibida, tales
como el nombre identificado o una parte del nombre, y realizar la
consulta en una o más bases de datos, por ejemplo directorios
profesionales u otras bases de datos que incluyan nombres asociados
a otros datos. Por ejemplo: una consulta puede pedir registros o
partes de registros que tengan apellidos que coincidan con el
apellido de un nombre identificado en la consulta recibida. La
partes de los registros, en un ejemplo, incluyen información sobre
el lugar, la organización y/o el título profesional. Una vez
obtenida la información adicional, la ejecución avanza al bloque
650.
El bloque 650 implica cambiar la consulta
basándose en la información adicional. En un ejemplo que pide
información adicional al usuario, el cambio de la consulta incluye
añadir a la consulta una o más partes de la información adicional,
por ejemplo en forma de una o más cadenas de texto añadidas. Sin
embargo, algunos otros ejemplos cambian la consulta añadiendo un
operador de búsqueda, por ejemplo un operador Y, y una o más partes
de la información adicional. En otros ejemplos, en particular en
algunos que obtienen la información adicional mediante el uso de
subconsultas automáticas, el cambio de la consulta incluye añadir
una o más subconsultas utilizando la información adicional, como por
ejemplo una ciudad, un estado, una organización o un título
profesional, obtenida en el bloque 650. Y en algunos otros ejemplos,
el cambio de la consulta incluye cambiar el alcance de la búsqueda,
por ejemplo añadiendo o borrando una o más bases de datos destino
para la consulta, basándose en la información adicional.
El bloque 660 lleva a cabo una búsqueda
basándose en la consulta original o la consulta cambiada. En un
ejemplo de método, la búsqueda basada en la consulta cambiada
implica realizar la búsqueda en una base de datos destino original
y/u otra u otras bases de datos. La ejecución continúa en el bloque
670.
El bloque 670 implica emitir los resultados de
las consultas. En el ejemplo de método, esto implica presentar los
resultados en una pantalla. En un ejemplo que cambia la consulta
recibida añadiendo subconsultas sobre la base de la información
adicional, la emisión de los resultados incluye visualizar los
resultados de la consulta recibida original y los resultados de las
subconsultas en zonas separadas de una pantalla de visualización. En
algunas variantes de este ejemplo, los resultados de ambas zonas
están clasificados según su relevancia.
Entre otras aplicaciones más de las enseñanzas
de la presente revelación se incluyen generar nuevos directorios de
nombres para bases de datos sobre la base de nombres famosos,
figuras políticas, celebridades, llenar lagunas en directorios
actuales, identificar o descubrir lagunas en directorios. Otras
aplicaciones incluyen la generación automática de expedientes y la
referencia cruzada de individuos, empresas, bienes y registros
públicos y privados.
Para permitir un avance de la técnica, el
inventor ha presentado diversos ejemplos de sistemas, métodos y
software que facilitan la asociación lógica de nombres en documentos
u otras estructuras de datos a estructuras de datos, tales como
registros, en directorios profesionales o bases de datos de otro
tipo. Adicionalmente, el inventor ha presentado diversos sistemas,
métodos y software para procesar y aumentar las consultas basadas en
términos de consulta ambiguos, tales como nombres de entidades.
Las realizaciones arriba descritas están
destinadas sólo a ilustrar y enseñar una o más maneras de poner en
práctica o implementar la presente invención, no a restringir su
amplitud o alcance. El alcance actual de la invención, que abarca
todas las maneras de poner en práctica o implementar las enseñanzas
de la invención, está definido sólo por las reivindicaciones
siguientes.
Claims (9)
1. Método implementado en ordenador, que
comprende:
- identificar uno o más nombres en un documento;
- seleccionar del o de los nombres identificados en el documento un nombre candidato en el documento correlacionando un modelo descriptivo predefinido de términos no referidos a personas con texto de alrededor de los nombres identificados en el documento, estando el modelo descriptivo basado en un conjunto de ejemplos de fragmentos de oración que contienen descripciones de profesionales mencionados;
- definir una plantilla de nombre para el nombre candidato identificando uno o más términos no referidos a personas que aparezcan conjuntamente con el nombre candidato en el documento e incluyendo en la plantilla de nombre para el nombre candidato el o los términos no referidos a personas identificados;
- determinar un indicador de rareza para el nombre candidato, siendo el indicador de rareza una cantidad basada en una probabilidad de sacar como mínimo una parte de palabra del nombre al azar de un conjunto de nombres de muestra representativos de una población humana pertinente;
- identificar uno o más registros candidatos en una base de datos, basándose en como mínimo una parte de palabra del nombre candidato;
- comparar los términos no referidos a personas para cada uno de los registros candidatos con los términos no referidos a personas que aparecen en la plantilla de nombre definida para el nombre candidato;
- calcular una o más cantidades, basada cada una en el indicador de rareza del nombre candidato y la comparación de los términos no referidos a personas para uno de los registros candidatos; y
- definir un hipervínculo para el nombre candidato basándose en la o las cantidades calculadas.
\vskip1.000000\baselineskip
2. Método implementado en ordenador según la
reivindicación 1, en el que el indicador de rareza es una cantidad
basada en un tamaño de una población humana, una probabilidad de
sacar una primera parte de palabra del nombre al azar y una
probabilidad de sacar una segunda parte de palabra del nombre al
azar del conjunto de nombres de muestra representativos de una
población humana pertinente.
3. Método implementado en ordenador según la
reivindicación 2, en el que la primera parte es una parte de nombre
de pila del nombre y la segunda parte es una parte de apellido del
nombre.
4. Método implementado en ordenador según la
reivindicación 1, en el que el cálculo de una o más cantidades,
basada cada una en el indicador de rareza del nombre de persona
candidato y la comparación de los términos no referidos a personas
para uno de los registros candidatos, incluye la utilización de un
motor de inferencia bayesiana.
5. Método implementado en ordenador según la
reivindicación 1, en el que la definición del hipervínculo basándose
en la o las cantidades calculadas comprende:
- comparar las cantidades con un umbral; y
- definir el hipervínculo basándose en la mayor de las cantidades que sobrepasen el umbral.
\vskip1.000000\baselineskip
6. Método implementado en ordenador según la
reivindicación 5, en el que la definición del hipervínculo basándose
en la mayor de las cantidades que sobrepasan el umbral comprende
definir un hipervínculo para designar el registro candidato
correspondiente a la mayor de las cantidades.
7. Medio legible por máquina que comprende
instrucciones ejecutables por máquina para llevar a cabo el método
implementado en ordenador según la reivindicación 1.
8. Sistema para añadir un hipervínculo a un
documento que incluye un nombre de persona, comprendiendo el
sistema:
- como mínimo un procesador;
- una memoria conectada al procesador, incluyendo la memoria instrucciones para:
- identificar uno o más nombres en un documento;
- seleccionar del o de los nombres identificados en el documento un nombre candidato en el documento correlacionando un modelo descriptivo predefinido de términos no referidos a personas con texto de alrededor de los nombres identificados en el documento, estando el modelo descriptivo basado en un conjunto de ejemplos de fragmentos de oración que contienen descripciones de profesionales mencionados;
- definir una plantilla de nombre para el nombre candidato identificando uno o más términos no referidos a personas que aparezcan conjuntamente con el nombre candidato en el documento e incluyendo en la plantilla de nombre para el nombre candidato el o los términos no referidos a personas identificados;
- determinar un indicador de rareza para el nombre candidato, siendo el indicador de rareza una cantidad basada en una probabilidad de sacar como mínimo una parte de palabra del nombre al azar de un conjunto de nombres de muestra representativos de una población humana pertinente;
- identificar uno o más registros candidatos en una base de datos, basándose en como mínimo una parte de palabra del nombre candidato;
- comparar los términos no referidos a personas para cada uno de los registros candidatos con los términos no referidos a personas que aparecen en la plantilla de nombre definida para el nombre candidato;
- calcular una o más cantidades, basada cada una en el indicador de rareza del nombre candidato y la comparación de los términos no referidos a personas para uno de los registros candidatos; y
- definir un hipervínculo para el nombre candidato basándose en la o las cantidades calculadas.
\vskip1.000000\baselineskip
9. Sistema según la reivindicación 8, en el que
el indicador de rareza es una cantidad basada en un tamaño de una
población humana, una probabilidad de sacar una primera parte de
palabra del nombre al azar y una probabilidad de sacar una segunda
parte de palabra del nombre al azar del conjunto de nombres de
muestra representativos de una población humana pertinente.
Applications Claiming Priority (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US34295601P | 2001-12-21 | 2001-12-21 | |
US342956P | 2001-12-21 | ||
US10/171,170 US7333966B2 (en) | 2001-12-21 | 2002-06-13 | Systems, methods, and software for hyperlinking names |
US171170 | 2002-06-13 | ||
PCT/US2002/041144 WO2003060767A2 (en) | 2001-12-21 | 2002-12-20 | System, method and software for automatic hyperlinking of persons’ names in documents to professional directories |
Publications (1)
Publication Number | Publication Date |
---|---|
ES2378653T3 true ES2378653T3 (es) | 2012-04-16 |
Family
ID=26866803
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
ES02799974T Expired - Lifetime ES2378653T3 (es) | 2001-12-21 | 2002-12-20 | Sistemas, métodos y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales. |
Country Status (10)
Country | Link |
---|---|
US (2) | US7333966B2 (es) |
EP (3) | EP1474759B1 (es) |
JP (2) | JP4436909B2 (es) |
CN (1) | CN1623146B (es) |
AT (1) | ATE530989T1 (es) |
AU (3) | AU2002364593B2 (es) |
CA (3) | CA2924140A1 (es) |
ES (1) | ES2378653T3 (es) |
NZ (3) | NZ534222A (es) |
WO (1) | WO2003060767A2 (es) |
Families Citing this family (67)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7003719B1 (en) * | 1999-01-25 | 2006-02-21 | West Publishing Company, Dba West Group | System, method, and software for inserting hyperlinks into documents |
US7333966B2 (en) * | 2001-12-21 | 2008-02-19 | Thomson Global Resources | Systems, methods, and software for hyperlinking names |
US6856679B2 (en) * | 2002-05-01 | 2005-02-15 | Sbc Services Inc. | System and method to provide automated scripting for customer service representatives |
US20040205484A1 (en) * | 2002-05-01 | 2004-10-14 | Pennington Stanford E. | System and method for dynamically generating customized pages |
US7766743B2 (en) * | 2002-08-29 | 2010-08-03 | Douglas Schoellkopf Jebb | Methods and apparatus for evaluating a user's affinity for a property |
EP2544101A1 (en) | 2002-11-28 | 2013-01-09 | Nuance Communications Austria GmbH | Method to assign word class information |
US7792827B2 (en) * | 2002-12-31 | 2010-09-07 | International Business Machines Corporation | Temporal link analysis of linked entities |
US7917483B2 (en) | 2003-04-24 | 2011-03-29 | Affini, Inc. | Search engine and method with improved relevancy, scope, and timeliness |
NZ548804A (en) * | 2003-12-31 | 2008-11-28 | Thomson Global Resources | Systems, methods, interfaces and software for automated collection and integration of entity data into online databases and professional directories |
US20050149851A1 (en) * | 2003-12-31 | 2005-07-07 | Google Inc. | Generating hyperlinks and anchor text in HTML and non-HTML documents |
AU2011204902B2 (en) * | 2003-12-31 | 2015-01-15 | Thomson Reuters Enterprise Centre Gmbh | Systems, Methods, Interfaces And Software For Automated Collection And Integration Of Entity Data Into Online Databases And Professional Directories |
US7574409B2 (en) * | 2004-11-04 | 2009-08-11 | Vericept Corporation | Method, apparatus, and system for clustering and classification |
JP5011129B2 (ja) * | 2005-01-28 | 2012-08-29 | トムソン ルーターズ グローバル リソーシーズ | オンラインの法律上のリサーチシステムおよび方法 |
US7424472B2 (en) * | 2005-05-27 | 2008-09-09 | Microsoft Corporation | Search query dominant location detection |
BRPI0616809B1 (pt) * | 2005-10-04 | 2018-10-23 | Thomson Global Resources | sistemas, métodos e software para determinar ambigüidade de termos médicos |
US7810021B2 (en) * | 2006-02-24 | 2010-10-05 | Paxson Dana W | Apparatus and method for creating literary macramés |
US8091017B2 (en) * | 2006-07-25 | 2012-01-03 | Paxson Dana W | Method and apparatus for electronic literary macramé component referencing |
US8689134B2 (en) | 2006-02-24 | 2014-04-01 | Dana W. Paxson | Apparatus and method for display navigation |
US8595245B2 (en) * | 2006-07-26 | 2013-11-26 | Xerox Corporation | Reference resolution for text enrichment and normalization in mining mixed data |
AR062635A1 (es) * | 2006-09-01 | 2008-11-19 | Thomson Global Resources | Sistema, metodos, software e interfases para dar formato a citas de legislacion |
US9026514B2 (en) * | 2006-10-13 | 2015-05-05 | International Business Machines Corporation | Method, apparatus and article for assigning a similarity measure to names |
US10635455B2 (en) * | 2007-02-13 | 2020-04-28 | Oracle International Corporation | Simplifying understanding of procedure dependencies in a form definition |
US20110179344A1 (en) * | 2007-02-26 | 2011-07-21 | Paxson Dana W | Knowledge transfer tool: an apparatus and method for knowledge transfer |
US20140257939A9 (en) * | 2007-06-05 | 2014-09-11 | Mark Britton | Rating system that characterizes attorneys based on attributes |
US7912767B1 (en) * | 2007-10-29 | 2011-03-22 | Intuit Inc. | Tax preparation system facilitating remote assistance |
WO2009070931A1 (en) * | 2007-12-06 | 2009-06-11 | Google Inc. | Cjk name detection |
US9501467B2 (en) | 2007-12-21 | 2016-11-22 | Thomson Reuters Global Resources | Systems, methods, software and interfaces for entity extraction and resolution and tagging |
WO2009086312A1 (en) * | 2007-12-21 | 2009-07-09 | Kondadadi, Ravi, Kumar | Entity, event, and relationship extraction |
US8788523B2 (en) * | 2008-01-15 | 2014-07-22 | Thomson Reuters Global Resources | Systems, methods and software for processing phrases and clauses in legal documents |
JP4693065B2 (ja) * | 2008-01-29 | 2011-06-01 | 日本電信電話株式会社 | 人名表現同定装置、その方法、プログラム及び記録媒体 |
WO2009097558A2 (en) * | 2008-01-30 | 2009-08-06 | Thomson Reuters Global Resources | Financial event and relationship extraction |
US8423882B2 (en) * | 2008-02-27 | 2013-04-16 | International Business Machines Corporation | Online navigation of choice data sets |
US20090248595A1 (en) * | 2008-03-31 | 2009-10-01 | Yumao Lu | Name verification using machine learning |
US8843522B2 (en) * | 2008-09-15 | 2014-09-23 | Thomson Reuters (Markets) Llc | Systems and methods for rapid delivery of tiered metadata |
US10346835B1 (en) * | 2008-10-07 | 2019-07-09 | United Services Automobile Association (Usaa) | Systems and methods for presenting recognizable bank account transaction descriptions compiled through customer collaboration |
US8234274B2 (en) * | 2008-12-18 | 2012-07-31 | Nec Laboratories America, Inc. | Systems and methods for characterizing linked documents using a latent topic model |
US8250124B2 (en) * | 2009-01-29 | 2012-08-21 | Hewlett-Packard Development Company, L.P. | Assigning content to an entry in directory |
US8190538B2 (en) | 2009-01-30 | 2012-05-29 | Lexisnexis Group | Methods and systems for matching records and normalizing names |
US8949241B2 (en) * | 2009-05-08 | 2015-02-03 | Thomson Reuters Global Resources | Systems and methods for interactive disambiguation of data |
US8930383B2 (en) * | 2010-01-29 | 2015-01-06 | The Dun & Bradstreet Corporation | System and method for aggregation and association of professional affiliation data with commercial data content |
JP5182960B2 (ja) * | 2010-03-15 | 2013-04-17 | 日本電信電話株式会社 | 店舗名曖昧性解消装置、その方法、プログラム及び記録媒体 |
EP2558988A4 (en) * | 2010-04-14 | 2016-12-21 | The Dun And Bradstreet Corp | ASSIGNMENT OF ACTIONABLE ATTRIBUTES TO DATA DESCRIBING A PERSONAL IDENTITY |
US11386510B2 (en) | 2010-08-05 | 2022-07-12 | Thomson Reuters Enterprise Centre Gmbh | Method and system for integrating web-based systems with local document processing applications |
US10089390B2 (en) * | 2010-09-24 | 2018-10-02 | International Business Machines Corporation | System and method to extract models from semi-structured documents |
US9104979B2 (en) * | 2011-06-16 | 2015-08-11 | Microsoft Technology Licensing, Llc | Entity recognition using probabilities for out-of-collection data |
US8706723B2 (en) * | 2011-06-22 | 2014-04-22 | Jostle Corporation | Name-search system and method |
US9361131B1 (en) * | 2011-06-24 | 2016-06-07 | Amazon Technologies, Inc. | Network resource access via a mobile shell |
US9454528B2 (en) * | 2011-10-17 | 2016-09-27 | Xerox Corporation | Method and system for creating ordered reading lists from unstructured document sets |
US8812496B2 (en) * | 2011-10-24 | 2014-08-19 | Xerox Corporation | Relevant persons identification leveraging both textual data and social context |
US11455350B2 (en) | 2012-02-08 | 2022-09-27 | Thomson Reuters Enterprise Centre Gmbh | System, method, and interfaces for work product management |
JP5870776B2 (ja) * | 2012-03-09 | 2016-03-01 | 大日本印刷株式会社 | リンク付与装置、リンク付与方法、およびプログラム |
CN103365831B (zh) * | 2012-03-29 | 2017-07-21 | 深圳市世纪光速信息技术有限公司 | 一种为文本添加超级链接的方法和装置 |
JP5770753B2 (ja) * | 2013-01-15 | 2015-08-26 | グーグル・インコーポレーテッド | Cjk名前検出 |
US10089697B2 (en) * | 2013-01-25 | 2018-10-02 | Capital One Services, Llc | Systems and methods for extracting information from a transaction description |
US9286291B2 (en) * | 2013-02-15 | 2016-03-15 | International Business Machines Corporation | Disambiguation of dependent referring expression in natural language processing |
US9110869B2 (en) * | 2013-09-27 | 2015-08-18 | Nokia Technologies Oy | Visual representation of a character identity and a location identity |
GB201320334D0 (en) | 2013-11-18 | 2014-01-01 | Microsoft Corp | Identifying a contact |
US10628411B2 (en) * | 2013-11-20 | 2020-04-21 | International Business Machines Corporation | Repairing a link based on an issue |
US9990340B2 (en) | 2014-02-03 | 2018-06-05 | Bluebeam, Inc. | Batch generation of links to documents based on document name and page content matching |
JP5723472B1 (ja) * | 2014-08-07 | 2015-05-27 | 廣幸 田中 | データリンク生成装置、データリンク生成方法、データリンク構造および電子ファイル |
US10409909B2 (en) * | 2014-12-12 | 2019-09-10 | Omni Ai, Inc. | Lexical analyzer for a neuro-linguistic behavior recognition system |
US9535903B2 (en) | 2015-04-13 | 2017-01-03 | International Business Machines Corporation | Scoring unfielded personal names without prior parsing |
AU2016298790A1 (en) | 2015-06-11 | 2017-11-23 | Financial & Risk Organisation Limited | Risk identification and risk register generation system and engine |
CN106709318B (zh) * | 2017-01-24 | 2019-05-03 | 腾云天宇科技(北京)有限公司 | 一种用户设备唯一性的识别方法、装置和计算设备 |
US10599129B2 (en) * | 2017-08-04 | 2020-03-24 | Duro Labs, Inc. | Method for data normalization |
US11176156B2 (en) * | 2019-05-10 | 2021-11-16 | Salesforce.Com, Inc. | Efficiently and accurately assessing the number of identifiable records for creating personal profiles |
US11861296B2 (en) * | 2021-09-08 | 2024-01-02 | Google Llc | People suggestion in collaborative online text editors |
Family Cites Families (185)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US174105A (en) * | 1876-02-29 | Improvement in jig-saws | ||
US3872448A (en) * | 1972-12-11 | 1975-03-18 | Community Health Computing Inc | Hospital data processing system |
US4384288A (en) * | 1980-12-31 | 1983-05-17 | Walton Charles A | Portable radio frequency emitting identifier |
US4799258A (en) | 1984-02-13 | 1989-01-17 | National Research Development Corporation | Apparatus and methods for granting access to computers |
US4575621A (en) * | 1984-03-07 | 1986-03-11 | Corpra Research, Inc. | Portable electronic transaction device and system therefor |
US4817050A (en) * | 1985-11-22 | 1989-03-28 | Kabushiki Kaisha Toshiba | Database system |
US4893270A (en) * | 1986-05-12 | 1990-01-09 | American Telephone And Telegraph Company, At&T Bell Laboratories | Medical information system |
US4887212A (en) | 1986-10-29 | 1989-12-12 | International Business Machines Corporation | Parser for natural language text |
US4958283A (en) | 1987-07-08 | 1990-09-18 | Kabushiki Kaisha Toshiba | Method and system for storing and communicating medical image data |
US4864501A (en) | 1987-10-07 | 1989-09-05 | Houghton Mifflin Company | Word annotation system |
US4878175A (en) | 1987-11-03 | 1989-10-31 | Emtek Health Care Systems | Method for generating patient-specific flowsheets by adding/deleting parameters |
US5157783A (en) | 1988-02-26 | 1992-10-20 | Wang Laboratories, Inc. | Data base system which maintains project query list, desktop list and status of multiple ongoing research projects |
US4994966A (en) * | 1988-03-31 | 1991-02-19 | Emerson & Stern Associates, Inc. | System and method for natural language parsing by initiating processing prior to entry of complete sentences |
US5146439A (en) | 1989-01-04 | 1992-09-08 | Pitney Bowes Inc. | Records management system having dictation/transcription capability |
US5408655A (en) * | 1989-02-27 | 1995-04-18 | Apple Computer, Inc. | User interface system and method for traversing a database |
US5860136A (en) * | 1989-06-16 | 1999-01-12 | Fenner; Peter R. | Method and apparatus for use of associated memory with large key spaces |
US5842224A (en) | 1989-06-16 | 1998-11-24 | Fenner; Peter R. | Method and apparatus for source filtering data packets between networks of differing media |
US5418942A (en) * | 1989-07-06 | 1995-05-23 | Krawchuk; Kenneth V. | System and method for storing and managing information |
US5065315A (en) | 1989-10-24 | 1991-11-12 | Garcia Angela M | System and method for scheduling and reporting patient related services including prioritizing services |
US5233513A (en) * | 1989-12-28 | 1993-08-03 | Doyle William P | Business modeling, software engineering and prototyping method and apparatus |
US5253362A (en) | 1990-01-29 | 1993-10-12 | Emtek Health Care Systems, Inc. | Method for storing, retrieving, and indicating a plurality of annotations in a data cell |
US5218697A (en) * | 1990-04-18 | 1993-06-08 | Microsoft Corporation | Method and system for networking computers having varying file architectures |
US5291399A (en) * | 1990-07-27 | 1994-03-01 | Executone Information Systems, Inc. | Method and apparatus for accessing a portable personal database as for a hospital environment |
US5317729A (en) * | 1990-10-24 | 1994-05-31 | International Business Machines Corporation | Method for the storage of multi-versioned data with retrieval based on searched query |
US5297249A (en) * | 1990-10-31 | 1994-03-22 | International Business Machines Corporation | Hypermedia link marker abstract and search services |
US5204947A (en) * | 1990-10-31 | 1993-04-20 | International Business Machines Corporation | Application independent (open) hypermedia enablement services |
US5581460A (en) | 1990-11-06 | 1996-12-03 | Kabushiki Kaisha Toshiba | Medical diagnostic report forming apparatus capable of attaching image data on report |
US5414838A (en) * | 1991-06-11 | 1995-05-09 | Logical Information Machine | System for extracting historical market information with condition and attributed windows |
CA2066559A1 (en) * | 1991-07-29 | 1993-01-30 | Walter S. Rosenbaum | Non-text object storage and retrieval |
US5377323A (en) | 1991-09-13 | 1994-12-27 | Sun Microsytems, Inc. | Apparatus and method for a federated naming system which can resolve a composite name composed of names from any number of disparate naming systems |
US5488725A (en) * | 1991-10-08 | 1996-01-30 | West Publishing Company | System of document representation retrieval by successive iterated probability sampling |
US5265065A (en) * | 1991-10-08 | 1993-11-23 | West Publishing Company | Method and apparatus for information retrieval from a database by replacing domain specific stemmed phases in a natural language to create a search query |
JP3300391B2 (ja) * | 1991-10-11 | 2002-07-08 | 株式会社東芝 | 画像処理装置 |
US5283884A (en) * | 1991-12-30 | 1994-02-01 | International Business Machines Corporation | CKD channel with predictive track table |
US5490250A (en) * | 1991-12-31 | 1996-02-06 | Amdahl Corporation | Method and apparatus for transferring indication of control error into data path of data switcher |
US5361346A (en) | 1992-01-15 | 1994-11-01 | Santa Monica Pioneer Research Inc. | Portable tester (qualifier) for evaluating and testing SCSI interface magnetic disc drives in accordance with ANSI SCSI-A and SCSI-2 definitions |
US5434974A (en) * | 1992-03-30 | 1995-07-18 | International Business Machines Corporation | Name resolution for a multisystem network |
US5319711A (en) * | 1992-08-19 | 1994-06-07 | Gte Laboratories Incorporated | Wireless device for verifying identification |
US5515534A (en) * | 1992-09-29 | 1996-05-07 | At&T Corp. | Method of translating free-format data records into a normalized format based on weighted attribute variants |
US5459860A (en) | 1992-10-05 | 1995-10-17 | International Business Machines Corporation | Computerized system and process for managing a distributed database system |
US5558638A (en) | 1993-04-30 | 1996-09-24 | Healthdyne, Inc. | Patient monitor and support system |
US5544352A (en) | 1993-06-14 | 1996-08-06 | Libertech, Inc. | Method and apparatus for indexing, searching and displaying data |
US5361202A (en) | 1993-06-18 | 1994-11-01 | Hewlett-Packard Company | Computer display system and method for facilitating access to patient data records in a medical information system |
US5506984A (en) * | 1993-06-30 | 1996-04-09 | Digital Equipment Corporation | Method and system for data retrieval in a distributed system using linked location references on a plurality of nodes |
US5438655A (en) * | 1993-07-29 | 1995-08-01 | Hewlett-Packard Company | Methods and apparatus for updating and antialiasing waveforms |
US5477215A (en) * | 1993-08-02 | 1995-12-19 | At&T Corp. | Arrangement for simultaneously interrogating a plurality of portable radio frequency communication devices |
US6339767B1 (en) | 1997-06-02 | 2002-01-15 | Aurigin Systems, Inc. | Using hyperbolic trees to visualize data generated by patent-centric and group-oriented data processing |
US5806079A (en) | 1993-11-19 | 1998-09-08 | Smartpatents, Inc. | System, method, and computer program product for using intelligent notes to organize, link, and manipulate disparate data objects |
US5497317A (en) * | 1993-12-28 | 1996-03-05 | Thomson Trading Services, Inc. | Device and method for improving the speed and reliability of security trade settlements |
US5822720A (en) | 1994-02-16 | 1998-10-13 | Sentius Corporation | System amd method for linking streams of multimedia data for reference material for display |
US5560005A (en) | 1994-02-25 | 1996-09-24 | Actamed Corp. | Methods and systems for object-based relational distributed databases |
US6141663A (en) | 1994-03-18 | 2000-10-31 | Unimax Systems Corporation | Automatic external data synchronization method |
DE69408439T2 (de) * | 1994-03-22 | 1998-09-17 | Agfa Gevaert Nv | Verfahren zur Identifizierung eines Strahlungsbildes |
CA2125300C (en) * | 1994-05-11 | 1999-10-12 | Douglas J. Ballantyne | Method and apparatus for the electronic distribution of medical information and patient services |
US5557539A (en) | 1994-06-13 | 1996-09-17 | Centigram Communications Corporation | Apparatus and method for testing an interactive voice messaging system |
US5608900A (en) * | 1994-06-21 | 1997-03-04 | Internationl Business Machines Corp. | Generation and storage of connections between objects in a computer network |
US5535372A (en) * | 1994-07-06 | 1996-07-09 | International Business Machines Corporation | Method and apparatus for efficient updating of CKD data stored on fixed block architecture devices |
US5623652A (en) | 1994-07-25 | 1997-04-22 | Apple Computer, Inc. | Method and apparatus for searching for information in a network and for controlling the display of searchable information on display devices in the network |
US5434932A (en) * | 1994-07-28 | 1995-07-18 | West Publishing Company | Line alignment apparatus and process |
US5603025A (en) * | 1994-07-29 | 1997-02-11 | Borland International, Inc. | Methods for hypertext reporting in a relational database management system |
US5629981A (en) * | 1994-07-29 | 1997-05-13 | Texas Instruments Incorporated | Information management and security system |
US5715445A (en) * | 1994-09-02 | 1998-02-03 | Wolfe; Mark A. | Document retrieval system employing a preloading procedure |
US5659676A (en) * | 1994-09-20 | 1997-08-19 | International Business Machines Corporation | Systems and methods for creating and refreshing compound documents |
EP0792493B1 (en) | 1994-11-08 | 1999-08-11 | Vermeer Technologies, Inc. | An online service development tool with fee setting capabilities |
US5630852A (en) * | 1994-11-23 | 1997-05-20 | Fmc Corporation | Organophosphorus additives for improved fuel lubricity |
US5617565A (en) * | 1994-11-29 | 1997-04-01 | Hitachi America, Ltd. | Broadcast interactive multimedia system |
US5642502A (en) | 1994-12-06 | 1997-06-24 | University Of Central Florida | Method and system for searching for relevant documents from a text database collection, using statistical ranking, relevancy feedback and small pieces of text |
FR2728088A1 (fr) | 1994-12-13 | 1996-06-14 | Inst Nat Rech Inf Automat | Procede d'echange d'informations en mode client/serveur, entre stations reliees par un reseau de communication |
US5530852A (en) | 1994-12-20 | 1996-06-25 | Sun Microsystems, Inc. | Method for extracting profiles and topics from a first file written in a first markup language and generating files in different markup languages containing the profiles and topics for use in accessing data described by the profiles and topics |
GB9426165D0 (en) | 1994-12-23 | 1995-02-22 | Anthony Andre C | Method of retrieving and displaying data |
US5794050A (en) * | 1995-01-04 | 1998-08-11 | Intelligent Text Processing, Inc. | Natural language understanding system |
US5873077A (en) * | 1995-01-13 | 1999-02-16 | Ricoh Corporation | Method and apparatus for searching for and retrieving documents using a facsimile machine |
WO1996023265A1 (en) | 1995-01-23 | 1996-08-01 | British Telecommunications Public Limited Company | Methods and/or systems for accessing information |
JP2947111B2 (ja) | 1995-02-17 | 1999-09-13 | 日本電気株式会社 | 交換機のデータ引き継ぎ方法およびシステム |
US5708825A (en) * | 1995-05-26 | 1998-01-13 | Iconovex Corporation | Automatic summary page creation and hyperlink generation |
US5963205A (en) | 1995-05-26 | 1999-10-05 | Iconovex Corporation | Automatic index creation for a word processor |
US5870770A (en) * | 1995-06-07 | 1999-02-09 | Wolfe; Mark A. | Document research system and method for displaying citing documents |
US5664109A (en) | 1995-06-07 | 1997-09-02 | E-Systems, Inc. | Method for extracting pre-defined data items from medical service records generated by health care providers |
US5740549A (en) * | 1995-06-12 | 1998-04-14 | Pointcast, Inc. | Information and advertising distribution system and method |
JP3700733B2 (ja) * | 1995-06-12 | 2005-09-28 | 富士ゼロックス株式会社 | 文書管理装置及び文書管理方法 |
US5878421A (en) * | 1995-07-17 | 1999-03-02 | Microsoft Corporation | Information map |
US5860073A (en) * | 1995-07-17 | 1999-01-12 | Microsoft Corporation | Style sheets for publishing system |
US5644720A (en) * | 1995-07-31 | 1997-07-01 | West Publishing Company | Interprocess communications interface for managing transaction requests |
US5942986A (en) * | 1995-08-09 | 1999-08-24 | Cedars-Sinai Medical Center | System and method for automatic critical event notification |
US5745360A (en) * | 1995-08-14 | 1998-04-28 | International Business Machines Corp. | Dynamic hypertext link converter system and process |
US5963940A (en) | 1995-08-16 | 1999-10-05 | Syracuse University | Natural language information retrieval system and method |
US6026388A (en) * | 1995-08-16 | 2000-02-15 | Textwise, Llc | User interface and other enhancements for natural language information retrieval system and method |
WO1997012334A1 (en) | 1995-09-25 | 1997-04-03 | International Compu Research, Inc. | Matching and ranking legal citations |
US5740252A (en) * | 1995-10-13 | 1998-04-14 | C/Net, Inc. | Apparatus and method for passing private demographic information between hyperlink destinations |
US5764906A (en) * | 1995-11-07 | 1998-06-09 | Netword Llc | Universal electronic resource denotation, request and delivery system |
US5822539A (en) | 1995-12-08 | 1998-10-13 | Sun Microsystems, Inc. | System for adding requested document cross references to a document by annotation proxy configured to merge and a directory generator and annotation server |
US5754857A (en) * | 1995-12-08 | 1998-05-19 | Sun Microsystems, Inc. | Distributed asynchronous workflow on the net |
US5781900A (en) * | 1996-01-02 | 1998-07-14 | Sofmap Future Design, Inc. | Flexible hyperlink association system |
US5751961A (en) * | 1996-01-31 | 1998-05-12 | Bell Communications Research, Inc. | Integrated internet system for translating logical addresses of internet documents to physical addresses using integrated service control point |
US5862325A (en) * | 1996-02-29 | 1999-01-19 | Intermind Corporation | Computer-based communication system and method using metadata defining a control structure |
US5926811A (en) | 1996-03-15 | 1999-07-20 | Lexis-Nexis | Statistical thesaurus, method of forming same, and use thereof in query expansion in automated text searching |
US5875431A (en) | 1996-03-15 | 1999-02-23 | Heckman; Frank | Legal strategic analysis planning and evaluation control system and method |
US5745908A (en) * | 1996-03-29 | 1998-04-28 | Systems Focus International | Method for converting a word processing file containing markup language tags and conventional computer code |
US5867562A (en) * | 1996-04-17 | 1999-02-02 | Scherer; Gordon F. | Call processing system with call screening |
US5905866A (en) * | 1996-04-30 | 1999-05-18 | A.I. Soft Corporation | Data-update monitoring in communications network |
JP4481370B2 (ja) * | 1996-05-06 | 2010-06-16 | アドビ システムズ, インコーポレイテッド | インターネットハイパーリンクドラッグ及びドロップ |
DE69719858T2 (de) | 1996-05-13 | 2003-12-24 | Oki Electric Ind Co Ltd | Dokumentanzeigesystem und elektronisches Wörterbuch |
US5794236A (en) * | 1996-05-29 | 1998-08-11 | Lexis-Nexis | Computer-based system for classifying documents into a hierarchy and linking the classifications to the hierarchy |
US5742181A (en) * | 1996-06-04 | 1998-04-21 | Hewlett-Packard Co. | FPGA with hierarchical interconnect structure and hyperlinks |
US5724595A (en) * | 1996-06-19 | 1998-03-03 | Sun Microsystems, Inc. | Simple method for creating hypertext links |
US5907680A (en) | 1996-06-24 | 1999-05-25 | Sun Microsystems, Inc. | Client-side, server-side and collaborative spell check of URL's |
US5963950A (en) | 1996-06-26 | 1999-10-05 | Sun Microsystems, Inc. | Method and system for facilitating access to selectable elements on a graphical user interface |
US5761436A (en) * | 1996-07-01 | 1998-06-02 | Sun Microsystems, Inc. | Method and apparatus for combining truncated hyperlinks to form a hyperlink aggregate |
US6308171B1 (en) | 1996-07-30 | 2001-10-23 | Carlos De La Huerga | Method and system for automated data storage and retrieval |
US5903889A (en) * | 1997-06-09 | 1999-05-11 | Telaric, Inc. | System and method for translating, collecting and archiving patient records |
US6345268B1 (en) * | 1997-06-09 | 2002-02-05 | Carlos De La Huerga | Method and system for resolving temporal descriptors of data records in a computer system |
US6434567B1 (en) | 1996-07-30 | 2002-08-13 | Carlos De La Huerga | Method for specifying enterprise-wide database address formats |
US5895461A (en) * | 1996-07-30 | 1999-04-20 | Telaric, Inc. | Method and system for automated data storage and retrieval with uniform addressing scheme |
US6516321B1 (en) * | 1996-07-30 | 2003-02-04 | Carlos De La Huerga | Method for database address specification |
US6272505B1 (en) * | 1998-07-07 | 2001-08-07 | Carlos De La Huerga | Document modification based hyperlink limiting method and apparatus |
US6353822B1 (en) * | 1996-08-22 | 2002-03-05 | Massachusetts Institute Of Technology | Program-listing appendix |
JP3773602B2 (ja) | 1996-09-18 | 2006-05-10 | 株式会社東芝 | ハイパーテキスト処理装置及びその方法 |
US5764916A (en) * | 1996-09-27 | 1998-06-09 | Ichat, Inc. | Method and apparatus for real time communication over a computer network |
US6037944A (en) * | 1996-11-07 | 2000-03-14 | Natrificial Llc | Method and apparatus for displaying a thought network from a thought's perspective |
US5836771A (en) * | 1996-12-02 | 1998-11-17 | Ho; Chi Fai | Learning method and system based on questioning |
US6216141B1 (en) * | 1996-12-06 | 2001-04-10 | Microsoft Corporation | System and method for integrating a document into a desktop window on a client computer |
EP0848337A1 (en) | 1996-12-12 | 1998-06-17 | SONY DEUTSCHLAND GmbH | Server with automatic document assembly |
AUPO489297A0 (en) | 1997-01-31 | 1997-02-27 | Aunty Abha's Electronic Publishing Pty Ltd | A system for electronic publishing |
JPH10228473A (ja) * | 1997-02-13 | 1998-08-25 | Ricoh Co Ltd | 文書画像処理方法、文書画像処理装置および記憶媒体 |
US5875446A (en) * | 1997-02-24 | 1999-02-23 | International Business Machines Corporation | System and method for hierarchically grouping and ranking a set of objects in a query context based on one or more relationships |
AU2002301438B2 (en) | 1997-03-18 | 2006-09-21 | Trade Me Limited | Vehicle Information System Part 1 |
US5970505A (en) | 1997-03-31 | 1999-10-19 | Sun Mirosystems, Inc. | Linking related data in a document set including a plurality of books written by different groups of authors in a computer network |
US6038573A (en) * | 1997-04-04 | 2000-03-14 | Avid Technology, Inc. | News story markup language and system and process for editing and processing documents |
US5987454A (en) | 1997-06-09 | 1999-11-16 | Hobbs; Allen | Method and apparatus for selectively augmenting retrieved text, numbers, maps, charts, still pictures and/or graphics, moving pictures and/or graphics and audio information from a network resource |
US6025844A (en) * | 1997-06-12 | 2000-02-15 | Netscape Communications Corporation | Method and system for creating dynamic link views |
US5974413A (en) | 1997-07-03 | 1999-10-26 | Activeword Systems, Inc. | Semantic user interface |
US6073140A (en) | 1997-07-29 | 2000-06-06 | Acxiom Corporation | Method and system for the creation, enhancement and update of remote data using persistent keys |
US5905991A (en) * | 1997-08-21 | 1999-05-18 | Reynolds; Mark L | System and method providing navigation between documents by creating associations based on bridges between combinations of document elements and software |
US6356922B1 (en) * | 1997-09-15 | 2002-03-12 | Fuji Xerox Co., Ltd. | Method and system for suggesting related documents |
US6009428A (en) | 1997-09-15 | 1999-12-28 | International Business Machines Corporation | System and method for providing a single application program interface for heterogeneous databases |
US6256631B1 (en) * | 1997-09-30 | 2001-07-03 | International Business Machines Corporation | Automatic creation of hyperlinks |
US6091412A (en) * | 1997-09-30 | 2000-07-18 | The United States Of America As Represented By The Secretary Of The Navy | Universal client device permitting a computer to receive and display information from several special applications |
US5940843A (en) * | 1997-10-08 | 1999-08-17 | Multex Systems, Inc. | Information delivery system and method including restriction processing |
US6014662A (en) * | 1997-11-26 | 2000-01-11 | International Business Machines Corporation | Configurable briefing presentations of search results on a graphical interface |
US6094649A (en) * | 1997-12-22 | 2000-07-25 | Partnet, Inc. | Keyword searches of structured databases |
US6289342B1 (en) | 1998-01-05 | 2001-09-11 | Nec Research Institute, Inc. | Autonomous citation indexing and literature browsing using citation context |
US6151624A (en) | 1998-02-03 | 2000-11-21 | Realnames Corporation | Navigating network resources based on metadata |
US6092074A (en) * | 1998-02-10 | 2000-07-18 | Connect Innovations, Inc. | Dynamic insertion and updating of hypertext links for internet servers |
US6263212B1 (en) * | 1998-02-17 | 2001-07-17 | Alcatel Usa Sourcing, L.P. | Short message service center |
US6457028B1 (en) | 1998-03-18 | 2002-09-24 | Xerox Corporation | Method and apparatus for finding related collections of linked documents using co-citation analysis |
JP3744676B2 (ja) * | 1998-03-20 | 2006-02-15 | 沖電気工業株式会社 | 情報抽出装置及びその方法 |
US6122647A (en) | 1998-05-19 | 2000-09-19 | Perspecta, Inc. | Dynamic generation of contextual links in hypertext documents |
US6529911B1 (en) | 1998-05-27 | 2003-03-04 | Thomas C. Mielenhausen | Data processing system and method for organizing, analyzing, recording, storing and reporting research results |
US6205576B1 (en) * | 1998-06-05 | 2001-03-20 | Nortel Networks Limited | Method and apparatus for identifying indirect messaging relationships between software entities |
US6263121B1 (en) * | 1998-09-16 | 2001-07-17 | Canon Kabushiki Kaisha | Archival and retrieval of similar documents |
US7003719B1 (en) * | 1999-01-25 | 2006-02-21 | West Publishing Company, Dba West Group | System, method, and software for inserting hyperlinks into documents |
EP1224572A1 (en) | 1999-03-08 | 2002-07-24 | Alexander Sann | Computerized research system and methods for processing and displaying scientific, technical, academic, and professional information |
WO2000067162A1 (en) | 1999-05-05 | 2000-11-09 | West Publishing Company | Document-classification system, method and software |
AU5490000A (en) | 1999-06-15 | 2001-01-02 | Kanisa Inc. | System and method for document management based on a plurality of knowledge taxonomies |
US6591261B1 (en) | 1999-06-21 | 2003-07-08 | Zerx, Llc | Network search engine and navigation tool and method of determining search results in accordance with search criteria and/or associated sites |
US6341306B1 (en) * | 1999-08-13 | 2002-01-22 | Atomica Corporation | Web-based information retrieval responsive to displayed word identified by a text-grabbing algorithm |
JP2001075959A (ja) * | 1999-08-31 | 2001-03-23 | Matsushita Electric Ind Co Ltd | 文書処理装置 |
WO2001022285A2 (en) | 1999-09-21 | 2001-03-29 | Borthwick Andrew E | A probabilistic record linkage model derived from training data |
AU1356301A (en) | 1999-11-01 | 2001-05-14 | Lockheed Martin Corporation | System and method for the storage and access of electronic data in a web-based computer system |
US7216115B1 (en) | 1999-11-10 | 2007-05-08 | Fastcase.Com, Inc. | Apparatus and method for displaying records responsive to a database query |
WO2001035714A2 (en) | 1999-11-15 | 2001-05-25 | Openpark Limited | A graphic language representation and communication method/system and its application to a graphic navigation method for retrieving information in a computer database and an internet search engine |
US6731802B1 (en) * | 2000-01-14 | 2004-05-04 | Microsoft Corporation | Lattice and method for identifying and normalizing orthographic variations in Japanese text |
US6738760B1 (en) | 2000-03-23 | 2004-05-18 | Albert Krachman | Method and system for providing electronic discovery on computer databases and archives using artificial intelligence to recover legally relevant data |
US20010037380A1 (en) * | 2000-04-24 | 2001-11-01 | Communityiq.Com | Web site hosting model |
US20010037332A1 (en) | 2000-04-27 | 2001-11-01 | Todd Miller | Method and system for retrieving search results from multiple disparate databases |
WO2001093655A2 (en) * | 2000-06-05 | 2001-12-13 | Shiman Associates, Inc. | Method and apparatus for managing documents in a centralized document repository system |
US6507837B1 (en) * | 2000-06-08 | 2003-01-14 | Hyperphrase Technologies, Llc | Tiered and content based database searching |
AR029290A1 (es) | 2000-06-28 | 2003-06-18 | American Express Travel Relate | Sistema y metodo para integrar datos publicos y privados |
US6654758B1 (en) * | 2000-07-21 | 2003-11-25 | Unisys Corporation | Method for searching multiple file types on a CD ROM |
US6778986B1 (en) | 2000-07-31 | 2004-08-17 | Eliyon Technologies Corporation | Computer method and apparatus for determining site type of a web site |
CN1253815C (zh) * | 2000-09-08 | 2006-04-26 | 百度在线网络技术(北京)有限公司 | 计算机在中文数据中识别中文姓名的方法 |
JP4200645B2 (ja) | 2000-09-08 | 2008-12-24 | 日本電気株式会社 | 情報処理装置、情報処理方法および記録媒体 |
TW548557B (en) * | 2000-09-13 | 2003-08-21 | Intumit Inc | A method and system for electronic document to have fast-search category and mutual link |
AU2002224333A1 (en) * | 2000-09-20 | 2002-04-02 | A2I, Inc. | Method and apparatus for structuring, maintaining, and using families of data |
WO2002029623A1 (en) | 2000-10-03 | 2002-04-11 | Goldspirit Invest Pty Ltd | Method of locating web-pages by utilising visual images |
CA2734080C (en) | 2000-10-11 | 2015-02-24 | Healthtrio Llc | System for communication of health care data |
JP2002140339A (ja) | 2000-10-31 | 2002-05-17 | Tonfuu:Kk | 法律等検索システムおよび法律等検索装置ならびに法律等検索プログラム |
US20020087469A1 (en) * | 2000-12-28 | 2002-07-04 | Ravi Ganesan | Technique of registration for and direction of electronic payments in real-time |
US6766316B2 (en) * | 2001-01-18 | 2004-07-20 | Science Applications International Corporation | Method and system of ranking and clustering for document indexing and retrieval |
US6694331B2 (en) | 2001-03-21 | 2004-02-17 | Knowledge Management Objects, Llc | Apparatus for and method of searching and organizing intellectual property information utilizing a classification system |
US20020165856A1 (en) | 2001-05-04 | 2002-11-07 | Gilfillan Lynne E. | Collaborative research systems |
US20030041305A1 (en) * | 2001-07-18 | 2003-02-27 | Christoph Schnelle | Resilient data links |
US7333966B2 (en) | 2001-12-21 | 2008-02-19 | Thomson Global Resources | Systems, methods, and software for hyperlinking names |
JP4255239B2 (ja) | 2002-03-29 | 2009-04-15 | 富士通株式会社 | 文書検索方法 |
NZ548804A (en) | 2003-12-31 | 2008-11-28 | Thomson Global Resources | Systems, methods, interfaces and software for automated collection and integration of entity data into online databases and professional directories |
-
2002
- 2002-06-13 US US10/171,170 patent/US7333966B2/en not_active Expired - Lifetime
- 2002-12-20 AT AT02799974T patent/ATE530989T1/de not_active IP Right Cessation
- 2002-12-20 EP EP02799974A patent/EP1474759B1/en not_active Expired - Lifetime
- 2002-12-20 CN CN02828266.3A patent/CN1623146B/zh not_active Expired - Lifetime
- 2002-12-20 CA CA2924140A patent/CA2924140A1/en not_active Abandoned
- 2002-12-20 NZ NZ534222A patent/NZ534222A/en not_active IP Right Cessation
- 2002-12-20 ES ES02799974T patent/ES2378653T3/es not_active Expired - Lifetime
- 2002-12-20 NZ NZ567455A patent/NZ567455A/en not_active IP Right Cessation
- 2002-12-20 EP EP10012722A patent/EP2328101A1/en not_active Ceased
- 2002-12-20 CA CA2471592A patent/CA2471592C/en not_active Expired - Lifetime
- 2002-12-20 JP JP2003560793A patent/JP4436909B2/ja not_active Expired - Fee Related
- 2002-12-20 EP EP10012705A patent/EP2336903A1/en not_active Ceased
- 2002-12-20 CA CA2754006A patent/CA2754006C/en not_active Expired - Lifetime
- 2002-12-20 AU AU2002364593A patent/AU2002364593B2/en not_active Expired
- 2002-12-20 WO PCT/US2002/041144 patent/WO2003060767A2/en active Application Filing
-
2007
- 2007-01-12 NZ NZ552575A patent/NZ552575A/en not_active IP Right Cessation
- 2007-12-19 US US11/960,054 patent/US9002764B2/en not_active Expired - Fee Related
-
2008
- 2008-09-10 AU AU2008212267A patent/AU2008212267A1/en not_active Abandoned
- 2008-09-10 AU AU2008212604A patent/AU2008212604A1/en not_active Abandoned
-
2009
- 2009-04-23 JP JP2009105735A patent/JP5252725B2/ja not_active Expired - Lifetime
Also Published As
Publication number | Publication date |
---|---|
CA2754006C (en) | 2016-05-31 |
AU2008212267A1 (en) | 2008-10-02 |
EP1474759B1 (en) | 2011-10-26 |
JP4436909B2 (ja) | 2010-03-24 |
CA2471592C (en) | 2011-12-13 |
NZ534222A (en) | 2007-05-31 |
WO2003060767A2 (en) | 2003-07-24 |
AU2008212604A1 (en) | 2008-10-02 |
CN1623146A (zh) | 2005-06-01 |
WO2003060767A3 (en) | 2004-08-26 |
NZ552575A (en) | 2008-06-30 |
CA2471592A1 (en) | 2003-07-24 |
ATE530989T1 (de) | 2011-11-15 |
JP2009259252A (ja) | 2009-11-05 |
AU2002364593A1 (en) | 2003-07-30 |
EP1474759A2 (en) | 2004-11-10 |
CN1623146B (zh) | 2014-04-02 |
NZ567455A (en) | 2009-06-26 |
EP2328101A1 (en) | 2011-06-01 |
CA2754006A1 (en) | 2003-07-24 |
US20030135826A1 (en) | 2003-07-17 |
JP2005539283A (ja) | 2005-12-22 |
US7333966B2 (en) | 2008-02-19 |
CA2924140A1 (en) | 2003-07-24 |
JP5252725B2 (ja) | 2013-07-31 |
US9002764B2 (en) | 2015-04-07 |
EP2336903A1 (en) | 2011-06-22 |
AU2002364593B2 (en) | 2008-10-02 |
US20080301074A1 (en) | 2008-12-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
ES2378653T3 (es) | Sistemas, métodos y software para hipervínculos automáticos de nombres de personas en documentos para directorios profesionales. | |
Liu et al. | Mining data records in web pages | |
JP5390840B2 (ja) | 情報分析装置 | |
CN102236640B (zh) | 命名实体的消歧 | |
Zhou et al. | Resolving surface forms to wikipedia topics | |
US20080147641A1 (en) | Method for prioritizing search results retrieved in response to a computerized search query | |
Christen et al. | A probabilistic geocoding system based on a national address file | |
CN112347270A (zh) | 一种法律知识图谱构建系统及方法 | |
US20090157619A1 (en) | System and method for creating a database | |
WO2015065719A1 (en) | Computerized systems and methods for identifying a character string for a point of interest | |
Tabarcea et al. | Framework for location-aware search engine | |
Efremova et al. | A geo-tagging framework for address extraction from web pages | |
CN109408713A (zh) | 一种基于用户反馈信息的软件需求检索系统 | |
AU2011253680B2 (en) | Systems, methods, and software for hyperlinking names | |
AU2011253689B2 (en) | Systems, methods, and software for hyperlinking names | |
Mazieres et al. | Toward Google Borders | |
Guermazi et al. | GeoRoBERTa: A Transformer-based Approach for Semantic Address Matching | |
Ullah et al. | Semantic Space Expansion and Refinement | |
Hua | The development of the Chinese Social Sciences Citation Index | |
Krayushkin et al. | Complex Data Mining Algorithm, Based on Logical Deduction Rules. |