ES2386540T3 - Reglas de asociación ponderadas de enlaces directo - inverso de una base de datos expertos - Google Patents

Reglas de asociación ponderadas de enlaces directo - inverso de una base de datos expertos Download PDF

Info

Publication number
ES2386540T3
ES2386540T3 ES03726811T ES03726811T ES2386540T3 ES 2386540 T3 ES2386540 T3 ES 2386540T3 ES 03726811 T ES03726811 T ES 03726811T ES 03726811 T ES03726811 T ES 03726811T ES 2386540 T3 ES2386540 T3 ES 2386540T3
Authority
ES
Spain
Prior art keywords
associations
expert
elements
reverse link
users
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
ES03726811T
Other languages
English (en)
Inventor
Benjamin Hosken
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Microsoft International Holdings BV
Original Assignee
Microsoft International Holdings BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Microsoft International Holdings BV filed Critical Microsoft International Holdings BV
Application granted granted Critical
Publication of ES2386540T3 publication Critical patent/ES2386540T3/es
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99932Access augmentation or optimizing
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99934Query formulation, input preparation, or translation
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99936Pattern matching access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Computing Systems (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Evolutionary Computation (AREA)
  • Game Theory and Decision Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Fuzzy Systems (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Devices For Executing Special Programs (AREA)
  • Exchange Systems With Centralized Control (AREA)

Abstract

Un procedimiento de generación de una base de datos expertos para su consulta por un sistema derecomendación de contenido para generar recomendaciones de contenido, estando constituida la base de datosexpertos por un conjunto de reglas de asociación, generadas mediante el análisis de un conjunto de registros dedatos que describen unas transacciones que implican a unos usuarios con respecto a un conjunto predeterminadode elementos, comprendiendo el procedimiento:la selección de un procedimiento de generación de enlaces directos entre un conjunto de usuariosidentificados por un conjunto de registros de datos de transacción, de subpoblaciones de usuarios expertospara unos elementos de referencia respectivos; yla construcción de una estructura de datos de enlace directo de asociaciones de enlace directo entre loselementos de referencia y los elementos relacionados, en los que las asociaciones de enlace directo sedefinen con respecto a las subpoblaciones de usuarios expertos, y en el que cada una de las asociacionesde enlace directo tiene una primera ponderación; yel cálculo, en un análisis de enlace inverso, de las asociaciones de enlace inverso dentro de la estructura dedatos de enlace directo, reflejando las asociaciones de enlace inverso la profundidad y la consideración delenlace inverso, y en el que cada una de las asociaciones de enlace inverso tiene una segunda ponderación,yla generación de una regla de asociación para cada una de las asociaciones de enlace directo, siendo lasreglas de asociación indicativas de relaciones verificadas entre los elementos de referencia y los elementosrelacionados, y cada una de las reglas de asociación comprende una tercera ponderación calculada sobrela base de la primera ponderación tal como ha sido modificada por la segunda ponderación;y en el que el procedimiento comprende así mismo:la generación de la base de datos expertos mediante la población de una base de datos con las reglas deasociación generadas, de tal manera que las recomendaciones de contenido son generadas sobre la basede una consulta y de las reglas de asociación generada

Description

Reglas de asociación ponderadas de enlaces directo -inverso de una base de datos expertos
Antecedentes de la invención
Campo de la invención:
La presente invención se refiere, en general, al campo de los sistemas y procedimientos de análisis de la información de las bases de datos transaccionales respecto de las reglas de asociación de elementos de minería de datos y, en particular, a un sistema y a un procedimiento de análisis de refuerzo del enlace inverso de datos transaccionales para establecer unas normas emergentes de asociación ponderadas.
Descripción de la técnica relacionada:
Los sistemas y herramientas de minería de datos son utilizados para determinar las relaciones asociativas dentro de los datos tal y como se contienen en las típicas bases de datos de informaciones a gran escala. Cuando la información de fuente representa, por ejemplo, las transacciones comerciales conducidas con respecto a elementos específicos, las relaciones de asociación entre los diferentes elementos pueden ser determinadas mediante análisis con unos grados de precisión y confianza relativos. Estas relaciones de asociación pueden, a continuación, ser utilizadas con diversos fines incluyendo, en particular, la predicción de comportamientos probables del consumidor con respecto al conjunto de elementos cubiertos por los datos de transacción. En términos prácticos la presentación y sustancia de los diseños de los productos, de las campañas de comercialización y circunstancias similares pueden, a continuación, ser personalizadas de manera eficiente para reflejar el interés y la demanda de los consumidores.
Tradicionalmente, las relaciones minadas a partir de las bases de datos de informaciones transaccionales son recogidas como reglas de asociación dentro de una base de datos de referencia, en general designada como base de datos expertos. Cada regla de asociación es calificada, con respecto a los elementos relacionados, con una ponderación que representa la significación o la cohesión de la asociación entre los elementos. Un conjunto agrupado de reglas de asociación puede entonces ser utilizado para proporcionar soluciones a los diversos problemas presentados como afirmaciones de consulta contra la base de datos expertos. En una implementación convencional, una traza relacional a través de la base de datos expertos, que discrimina entre las diversas ramificaciones de relaciones en base a las ponderaciones relativas asociadas, hace posible que se resuelva una consulta en un conjunto de soluciones extremadamente relacionadas de elementos correlacionados. La consulta propiamente dicha puede ser representada como un elemento identificado, un conjunto de elementos o unos atributos que estén asociados con los elementos identificados dentro de la base de datos expertos.
Las técnicas de minería de asociación automáticas, por oposición a los procedimientos manuales de ingeniería del conocimiento utilizados para crear bases de datos expertos, son preferentes, en particular cuando el volumen de datos que va a ser evaluado es considerable y cuando la utilidad de las asociaciones minadas se degrada rápidamente con el tiempo. Las técnicas de análisis de minería de asociación automáticas convencionales, sin embargo, están sometidas a una serie de limitaciones. En particular, las técnicas automáticas tienden a identificar las asociaciones de manera exponencial con la pluralidad de elementos identificados dentro de los datos de transacción. La realización de consultas contra una base de datos expertos se degrada de forma natural al incrementarse el tamaño de la base de datos. Así mismo, muchas de las reglas de asociación generadas pueden ser irrelevantes para ser definidas o incluso probablemente las consultas que serán afirmadas contra la base de datos expertos.
Otro problema es que las variaciones de los datos transaccionales subyacentes pueden afectar a la calidad relativa de las asociaciones potenciales. La consistencia determinada del análisis de las asociaciones identificadas puede resultar distorsionada por el número de veces en las que los elementos concretos son identificados en los datos transaccionales y por la distribución de los elementos del conjunto de mayor amplitud de las transacciones. De esta manera, la confianza en las consideraciones determinadas de las relaciones identificadas por el análisis automático puede variar de manera considerable.
En sistemas convencionales, las reglas de asociación son generadas a través de un procesamiento algorítmico de un conjunto de registros de datos de transacciones que represente, por ejemplo, una serie de transacciones comerciales. Dependiendo de la naturaleza de los datos transaccionales de fuente, las asociaciones de elementos son inicialmente identificadas en base a la tasa de aparición de los emparejamientos únicos de elementos o, cuando una transacción implique múltiples elementos, conjuntos de elementos. La frecuencia de aparición para un conjunto de elementos específico dentro del conjunto de registros de datos de transacción se designa tradicionalmente como el soporte de los conjuntos de elementos. Tal y como se describe en el artículo “Reglas de Asociación de Minería entre Conjuntos de Elementos en Grandes Bases de Datos” [“Mining Association Rules between Sets of Items in Large Databases”] de Agrawal, Imielinski y Swami, Actas de la Conferencia ACM SigMod de 1993 sobre Gestión de Datos, mayo 1993, pp 207 a 216, un umbral de soporte mínimo puede ser establecido para discriminar dejando fuera conjuntos de elementos insignificantes. Tal y como se describe en el citado artículo, el valor del soporte de umbral se selecciona de forma empírica para presentar una significación estadística determinada por razones comerciales.
En un ejemplo suministrado, el valor del soporte mínimo de umbral se fijó en un 1%. Las reglas de asociación que presentan un soporte inferior al del valor del soporte de umbral, que representen asociaciones inferiores a la significación mínima son descartadas.
El artículo de Agrawal, describe, así mismo, el uso de restricciones sintácticas para reducir el tamaño de la base de datos expertos generados. Los elementos que son de interés para consultas o, al contrario, los elementos que no son de interés pueden ser conocidos antes de la generación de las reglas. Una correspondiente restricción respecto de la generación de reglas de asociación es implementada en el examen algorítmico de los registros de datos de las transacciones con el resultado de que solo las reglas de asociación de interés son generadas y almacenadas en la base de datos expertos.
Por último, el artículo de Agrawal describe una técnica para evaluar la confianza de la consistencia de las reglas de asociación. La técnica presume que, en el descubrimiento del conjunto de soluciones para una consulta, la validez relativa de las consistencias de las reglas dentro de las trayectorias de las soluciones puede ser normalizada en base a la representación relativa de las reglas de asociación existentes dentro del conjunto de datos de las transacciones. El cálculo convencional de confianza para una regla de asociación determinada, tal y como se representa por parte de Agrawal, es la fracción de los registros de datos de transacciones de fuente que soportan la regla de asociación, esto es, la confianza C de una regla de asociación X -I, donde X es un conjunto de elementos identificado dentro de un conjunto de datos de transacción T e I es un elemento único no en X, es la relación del soporte de X -I dividido por el soporte de X.
La confianza determinada para una regla de asociación tal y como se utiliza en el artículo de Agrawal, puede ser utilizada como un valor de umbral para la calificación de las reglas de asociación generadas para su inclusión en la base de datos expertos. Las reglas de asociación con un nivel que sobrepasa un determinado valor mínimo definido son, en efecto, consideradas mínimamente fiable. La determinación del nivel de confianza de umbral es de nuevo empírica, basada generalmente en una evaluación de la insignificancia estadística de las reglas excluidas.
Los valores de soporte y confianza determinados para las reglas de asociación mínimamente relevantes y fiables son tradicionalmente almacenadas con las reglas correspondientes dentro de las bases de datos expertos. La evaluación subsecuentes de las consultas contra la base de datos expertos puede utilizar estos valores de soporte y confianza, en parte, para determinar los conjuntos de soluciones óptimas. La patente estadounidense 6,272,478, expedida a Obata et al., describe la aplicación genéricamente similar de valores de evaluación asignados para reglas de asociación. De modo específico, los valores de coste y ventas son asignados como atributos a las reglas de asociación para permitir la evaluación de criterios adicionales en la determinación de un conjunto óptimo de reglas de asociación para su uso en la obtención de un conjunto de soluciones para una consulta aplicada. La evaluación de estos criterios adicionales permite, por ejemplo, la selección de conjuntos de soluciones que potencien al máximo la rentabilidad. Cuando se especifican múltiples elementos en los términos antecedentes y consecuentes de una regla de asociación, las fórmulas matemáticas correspondientes a los conjuntos de los elementos incluidos son utilizadas en la evaluación de la regla de asociación. Aunque los valores y las fórmulas de evaluación pueden ser almacenadas en un diccionario de elementos provisto de la base de datos expertos, los valores y fórmulas de evaluación son derivados con independencia de los valores de soporte y confianza.
La generación de una base de datos expertos con asociaciones que tengan una relevancia y una fiabilidad mínimas definidas hace posible que unas aseveraciones de consultas amplias sean adecuadamente resueltas para solucionar conjuntos de al menos una relevancia y una fiabilidad mínimas iguales. Cualquier evaluación progresiva de los valores de soporte y confianza de las reglas de asociación aplicadas en la determinación de un conjunto de soluciones puede ser utilizada para elevar y modificar la relevancia y la fiabilidad mínimas del conjunto de soluciones alcanzado. Así mismo, la consideración adicional de criterios de evaluación independientes hace posible que los factores elegidos como objetivo sean considerados en la determinación del conjunto de soluciones últimas para una consulta aplicada.
La evaluación de informaciones adicionales, suministradas de forma separada, correlacionadas con los elementos de transacción permite así que el conjunto de reglas y asociación generadas sean evaluadas para una finalidad específica. La precisión y fiabilidad de cualquier conjunto de soluciones generado, sin embargo, permanece limitado en gran medida a la precisión y fiabilidad de las reglas de asociación subyacentes como conjunto. Las relaciones potencialmente reflejadas en los datos de transacción y que satisfacen los criterios mínimos de soporte y confianza utilizados por las técnicas de minería convencionales pueden no diferenciarse sustancialmente mediante las reglas de asociación tradicionalmente derivadas de cualquier manera significativa. Por consiguiente, las bases de datos expertos generadas tradicionalmente están por lo tanto limitadas en cuanto a la calidad y la extensión de la información que se puede derivar de las bases de datos.
La publicación de Patente WO 99/26180A divulga un sistema para la generación de un perfil de usuario estático dinámico para su uso en la generación de recomendaciones bajo la supervisión de una persona experta.
En consecuencia, se necesita contar con una generación automática de bases de datos expertos que soporten grados de precisión y fiabilidad satisfactoriamente discriminadas más allá de los límites de los soportes mínimos de fiabilidad y confianza utilizados por técnicas de minería convencionales.
Sumario de la invención
Por lo tanto, un propósito general de la presente invención consiste en proporcionar un sistema y unos procedimientos eficientes de generación de unas bases de datos expertos que puedan ser utilizadas para soportar unos procesos de decisión con un grado de precisión y fiabilidad considerables y satisfactoriamente discriminados.
Esto se consigue en la presente invención mediante un sistema y un procedimiento que proporcionan la evaluación de los registros de los datos de transacción para, en primer término, determinar las asociaciones de enlaces directos entre elementos como elementos de referencia y relacionados identificados por los correspondientes usuarios “expertos” como base para el establecimiento de unas reglas de asociación de elementos de bases de datos expertos. Las asociaciones de enlace directo son, a continuación, evaluadas para identificar las asociaciones de enlace inverso entre los elementos de referencia y relacionados. Las ponderaciones de los enlaces inversos correspondientes a las respectivas asociaciones de enlace inverso que reflejan la profundidad y la consistencia de las asociaciones de enlace inverso están determinadas y asociadas con las asociaciones de enlace directo para proporcionar una base aumentada para evaluar a continuación las reglas de asociación recogidas dentro de una base de datos expertos.
Una ventaja de la presente invención es que las reglas de asociación utilizadas para construir una base de datos expertos proporcionan un mayor grado de fiabilidad y precisión en los conjuntos de soluciones obtenidas a partir de las consultas contra la base de datos expertos. Los expertos son identificados, de modo preferente, sobre una base de elementos por referencia, que permiten directamente la identificación de las asociaciones de gran significación predictiva.
Otra ventaja de la presente invención es que la identificación de las relaciones de enlace inverso mediante cadenas de subpoblaciones relevantes de usuarios “expertos” permite un refuerzo directo de asociaciones de gran significación predictiva. El esfuerzo relativo de las asociaciones se utiliza para incrementar la ponderación predictiva de las reglas de asociación correspondientes de la base de datos expertos.
Una ventaja adicional de la presente invención es que el sistema y los procesos de generación conjuntos de reglas de asociación de bases de datos expertos son autónomos y están basados en un conjunto establecido de parámetros analíticos. De modo preferente, estos parámetros analíticos establecen unos umbrales para un procedimiento analítico detallado basado en gran medida en exámenes empíricos relativamente no críticos de los registros de los datos de transacciones de fuente, en la naturaleza de los elementos negociados y en el número de usuarios identificaos existentes en las mayoría de registros de los datos de la transacciones.
La finalidad que la invención persigue se consigue mediante las características distintivas de las reivindicaciones adjuntas.
Breve descripción de los dibujos
Estas y otras ventajas y características distintivas de la presente invención se comprenderán de una forma más acabada tras el examen de la descripción detallada subsecuente apreciada en conexión con los dibujos que se acompañan, en los cuales las mismas referencias numerales designan idénticas partes a lo largo de sus figuras, y en los que:
La Figura 1 es un diagrama de red que muestra un entorno preferente para la práctica de la presente invención;
la Figura 2 es un diagrama de bloques que detalla la generación y el uso de una base de datos expertos, de acuerdo con una forma de realización preferente de la presente invención;
la Figura 3 es un diagrama de flujo del proceso preferente de generación de una base de datos expertos de acuerdo con una forma de realización preferente de la presente invención;
la Figura 4 es un diagrama de una red de nodos que representa una estructura de enlaces hacia delante definidas mediante las relaciones entre los conjuntos de elementos de usuario de acuerdo con una forma de realización preferente de la presente invención;
la Figura 5 es un diagrama de la red de nodos de la Figura 4 que detalla de forma más acabada la identificación de los enlaces inversos como base para la verificación de las asociaciones de elementos de acuerdo con una forma de realización preferente de la presente invención; y
la Figura 6 proporciona una representación ilustrativa de una base de datos expertos generada de acuerdo con una forma de realización preferente de la presente invención.
Descripción detallada de la invención
La presente invención se utiliza, de modo preferente, para generar unas bases de datos expertos mediante un proceso automático por computadora que opera a partir de recopilaciones de registros de datos transaccionales. Estos registros de origen son típicamente representativos o están relacionados con transacciones comerciales, aunque, en un sentido más amplio, son especificaciones de acciones cuantificables adoptadas por usuarios contra elementos de identidad diferenciada. Para las formas de realización preferentes de la presente invención, los registros de datos de transacción reflejan acciones relacionadas con el comercio electrónico por parte de los usuarios conectados a la red, como por ejemplo el muestreo de diversos contenidos multimedia, la lectura de publicaciones y recomendaciones del contenido, y la com0pra de los contenidos.
Tal y como se muestra en la Figura 1, un entorno típico y preferente 10 de aplicación de la presente invención implica un sitio 12 de comercio electrónico que soporta la exploración y compra de contenidos multimedia, como por ejemplo pistas de sonido y albúmes convecionales. El sitio 12 de comercio electrónico es, de modo preferente, implementado como un sistema de servidor de red que ejecuta una aplicación de recomendaciones automática de contenido informático, como por ejemplo la descrita en la Solicitud pendiente con la actual con el título “Procedimientos y Sistema para la Generación de Recomendaciones de Contenido Alternativo Automático” [“Methods and Systems for Generating automated Alternative Content Recommendations”], de Benjamin E. Hosken, con el número de Serie 09/616,474, y transferida al Cesionario de la presente solicitud. El sistema de recomendaciones de contenidos permite a los usuarios, que operan los sistemas 14 de computadora cliente, conectar mediante una red 16 de comunicaciones, como por ejemplo Internet, para explorar el contenido multimedia almacenado directa o indirectamente mediante un almacenamiento 18 de contenidos al que se puede acceder mediante un sitio 12 de comercio electrónico. En las formas de realización preferentes de la presente invención, el almacén 18 de contenidos incluye un archivo de publicaciones, una información de antecedentes e histórica, material gráfico, clips de muestra y copias adquiribles de contenidos audio.
Las actividades de transacciones de los usuarios de exploradores son captadas típicamente en tiempo real en una base de datos 20 de las transacciones. Las transacciones captadas pueden reflejar cualquier acción identificable relacionada con el contenido adoptada por los usuarios y que puede consistir desde pinchar los enlaces asociados con el contenido concreto, la escucha de las muestras de los contenidos de la transmisión de flujos, y la ejecución de las compras de los contenidos en el comercio electrónico. En conexión genérica con el reconocimiento de muchas de estas actividades, la aplicación de las recomendaciones respecto de los contenidos es invocada para sugerir un contenido alternativo que pueda ser de interés colateral para el usuario. Estas recomendaciones son generadas, de modo preferente, mediante al análisis sintáctico de la acción del usuario para establecer una consulta aplicable a las reglas de asociación de una base de datos expertos 22. El conjunto de soluciones de las recomendaciones de contenido alternativo identificadas por la evaluación de la consulta contra la base de datos expertos 22 es, a continuación, presentado al usuario.
De acuerdo con la presente invención, las bases de datos expertos 22 son generadas mediante un análisis automático de los registros de las transacciones acumulados mediante el funcionamiento del sitio 12 de comercio electrónico. Los registros de datos transaccionales pueden ser obtenidos de modo preferente a través de otras fuentes de información transaccional similar, como por ejemplo sitios de portales Web y ventas al público convencionales, ventas por correo electrónico y contenidos al por mayor, información, y sitios de distribución de mercancías. Los registros de datos de las transacciones son transferidos, típicamente por tandas, a un almacenamiento 24 de datos asociado con un sistema 26 de servidor de minería de datos. Después del análisis llevado a cabo por el programa de aplicación de minería de datos ejecutado por el sistema 26 de servidor de minería de datos, se genera un conjunto de reglas de asociación, constitutivas de una nueva base de datos expertos 22 y es retornado al sitio 12 de comercio electrónico.
Tal y como se detalla con mayor detenimiento en el proceso 30 a nivel del sistema mostrado en la Figura 2, los datos de registros de transacciones son, de modo preferente, almacenados en una base de datos 32 de transacciones, dentro del almacén 24 de datos, para su acceso por parte del programa de análisis. De acuerdo con la presente invención, el programa de análisis 34 implementa un análisis de enlace inverso para distinguir las reglas de asociación de valor relacional sustancial entre los elementos accionables identificados dentro de los registros de datos de las transacciones. El objetivo del análisis 34 de enlace inverso es generar las reglas 36 de asociación que representen las relaciones verificadas entre los elementos transaccionados. Esto es, el análisis de enlace inverso no discrimina las reglas de asociación que no tienen simplemente una repercusión potencial, sino que más bien persigue distinguir reglas de asociación que sean probatorias en gran medida de las relaciones de elementos y, por consiguiente, representan un análisis más experto, por oposición al análisis simplemente mecánico, de los registros de los datos de las transacciones. La base de datos expertos 36 resultante puede, de esta forma, proporcionar una base más autorizada para el funcionamiento de un sistema 38 de generación de recomendaciones. El enfoque y la extensión de la discriminación respecto de relaciones verificadas y probatorias, se determina, de modo preferente, mediante parámetros analíticos suministrados al programa 34 de análisis de enlace inverso.
El proceso preferente 40 de análisis de enlace inverso se muestra en la Figura 3. Los registros de los datos de las transacciones se corresponden o están en general conformados, a una forma de presentación de datos coherente, como por ejemplo el registro de datos de Transacciones de Usuario preferente detallado en la Tabla 1.
Tabla 1 Registros de Transacciones de Usuario
UserTransactions { userID// identificador de un usuario / entidad únicos itemID// identificador de un elemento único actionID// por ejemplo: compra, descarga, pulsación con
} ratón
El identificador de usuario userID está típicamente asignado a entidades de transacción individuales por el sitio 12 de comercio electrónico pero puede, así mismo, representar un identificador colectivo de las entidades de 5 transacción de interés. El identificador de elementos itemID es, de modo similar, un sitio 12 de comercio electrónico asignado a un identificador típicamente de un elemento transaccionable concreto. El elemento propiamente dicho puede corresponder a algún contenido o información específico o a un artículo de fabricación, ya sea entregado de manera digital o físicamente. Alternativamente, el elemento especificado mediante un registro de datos de transacciones puede representar un factor de un elemento colectivo, como por ejemplo pistas de contenidos de un
10 album o atribuido a un artista.
Un registro de especificación de elementos, tal y como se detalla en la Tabla 2, se proporciona, de modo preferente, en conexión con los registros de datos de transacciones para asociar los atributos de elementos con elementos concretos (itemIDs). Además de identificar los factores del elemento, los atributos del elemento pueden ser utilizados a continuación para discernir además las relaciones entre las acciones adoptadas con respecto a los elementos
15 identificados en los registros de los datos de las transacciones.
En último término, el identificador de la acción actionID es utilizado para especificar el elemento y la acción adoptada específica del usuario. La naturaleza de la acción dependerá de la naturaleza de los elementos accionables presentados por el sitio 12 de comercio electrónico. Cuando el propósito del sitio 12 de comercio electrónico consiste en proporcionar recomendaciones alternativas de contenidos, las acciones de interés incluyen, de modo preferente,
20 la exploración de las publicaciones de contenidos y la información de antecedentes, visualizaciones de gráficos y arte relacionados con el contenido, descargas de contenido y muestras de contenido, y la adquisición del contenido.
Tabla 2 Registro de Especificación de Elementos
Items { itemID// identificador de un elemento único Description// descripción de texto del elemento attribute_1 …attribute_N // elemento
categorizes / qualifiers }
A partir de los registros de datos de las Transacciones del Usuario, son generados 42 unos conjuntos de elementos de usuario, de modo preferente presentados en forma de registros UserItems tal y como se detalla en la Tabla 3. Se 25 determina un valor de ponderación cumulativo para cada combinación única de usuario y elemento identificados en los registros de los datos de las transacciones.
Tabla 3 Registro de Asociaciones Ponderadas de los UserItems
UserItems{ userID// identificador de un usuario / entidad únicos itemID // identificador de un elemento único weight// valor de ponderación calculado cumulativo
}
De modo preferente, el valor de ponderación contribuido a partir de cada registro de los datos de las transacciones se determina a partir de una tabla de traducción action/base_weight, la cual define las relacione entre la transacción 30 actionIDs y el aditivo base_weight, sometidos a la aplicación de una función computacional identificada por un valor de regla. Un registro de traducción preferente de acción / ponderación se detalla en la Tabla 4.
Tabla 4 Registro de Traducción de Ponderación de Acción / Base ActionWeightTranslation { actionID// por ejemplo: compra, descarga, pulsación de ratón rule// función de cálculo definida base_weight// pulsación = 0.1, reproducción = 0.25, compra = 1.0 }
Los registros de traducción acción / ponderación son, de modo preferente, generados utilizado valores base_weight y rules. En las formas de realización preferentes de la presente invención, el valor base_weight oscila entre 0 y 1, y
5 se asigna para reflejar la significación probable de la acción correspondiente. De esta manera, para un sitio 12 de comercio electrónico que soporta adquisiciones electrónicas de contenido, las actividades accionables del usuario son distribuidas a lo largo del rango asignándose, por ejemplo, la extracción de una página de publicación de conteido asignada a un valor base_weight bajo mientras que se asigna la adquisición efectiva del contenido al valor base_weight máximo.
10 La generación de los conjuntos de los datos de los elementos de usuario se lleva, de modo preferente, a cabo mediante un procesamiento progresivo de los registros de datos de las Transacciones de Usuario coherente con el procedimiento de pseudocódigo presentado en la Tabla 5. Este procedimiento opera para consolidar los registros de los datos de las Transacciones de Usuario para producir una ponderación cumulativa final para cada combinación única de usuario y elemento.
Tabla 5 Generación de Asociaciones Ponderadas de Elementos de Usuario
For each Transaction T in UserTransactions Lookup userItem UI in UserItems using T.itemID and T.userID Lookup actionID in ActionWeightTranslation Apply Rule Function and generate new cumulative weight W Insert or Update UI Record with weight W
End for
La función de la regla aplicada en ejecución del procedimiento puede ser simple o compleja, fijada de manera empírica en base a una evaluación de la naturaleza del elemento y de la acción. En el caso más sencillo, la regla puede definir una función de suma lineal. Una regla más elaborada puede definir unos valores de techo respecto de 20 las porciones de la ponderación atribuibles a las diferentes acciones identificadas en proporción a otras acciones, como por ejemplo compras efectivas. Con referencia a las formas de realización preferentes de la presente invención, una función rule puede ser asignada a acciones que impliquen un artista musical identificado. La contribución a la ponderación acumulada W para una acción actual puede ser definida como la igualación de una constante de cambio de escala k multiplicada por el número total de pistas de contenido musical adquiridas por el 25 usuario, multiplicada a su vez por el valor base_weight para la acción. Una regla más compleja podría implicar acciones de revaloración selectiva en base a las acciones posteriores tomadas por un usuario. Por ejemplo, si las acciones del usuario incluyen tanto el muestreo como la adquisición de una pista de contenido musical, entonces la contribución de ponderación atribuible a la acción de muestreo es descontada. Cuando también se adquiere una entrada para un espectáculo, la contribución de ponderación debida al número total de pistas de contenido musical
30 adquiridas por el usuario se incrementa mediante la utilización de una constante de cambio de escala mayor k1.
Para la presente invención, la acumulación de los valores weight para los diferentes elementos de los conjuntos de los datos de los elementos de usuario proporciona una base precisa para discernir un conjunto de usuarios “expertos” entre la comunidad de usuarios representados en los registros de los datos de las transacciones 35 originales. Aunque los valores base_weight y las funciones regla asignadas deben, en general, representar la significación relativa de los comportamientos del usuario con respecto a las regla de interés de asociación últimas, los valores base_weight y las funciones regla no necesitan generar diferencias discretas extremadamente pequeñas dentro de las ponderaciones cumulativas determinadas. Por el contrario, los intervalos amplios de los valores de ponderación acumulados contra los elementos colectivos, son capaces de proporcionar una base precisa para
40 discernir el conjunto deseado de usuarios “expertos”. En particular, en las formas de realización preferentes de la presente invención, la acumulación de las ponderaciones contra los elementos que representan colecciones de trabajos de varios artistas es suficiente para discernir los usuarios “expertos” con respecto a diferentes artistas con el propósito último de proporcionar unas recomendaciones alternativas de los contenidos.
45 Un análisis de enlace directo de los conjuntos de los datos de los elementos de usuario se lleva a cabo, a continuación, en la etapa 44. El análisis del enlace directo utiliza, de modo preferente, un registro de datos ForwardLinks tal y como se detalla en la Tabla 6, para almacenar una representación de una estructura de datos de enlaces directos.
Tabla 6 Registro ForwardLinks
ForwardLinks { itemID// identificador de un elemento de referencia itemIDRel// identificador de un elemento relacionado count // contador de soportes de relación
}
Los registros de datos ForwardLinks son generados mediante la ejecución del análisis de enlaces de elementos de los registros de datos UserItems coherente con el procedimiento de pseudocódigo presentado en la Tabla 7. Este procedimiento de generación de enlaces directos opera para, en primer lugar, identificar los “expertos” usuarios con respecto a los diferentes elementos y, a continuación, determinar el soporte mediante estos “expertos” usuarios para los elementos relacionados de los conjuntos de los elementos de usuario.
Tabla 7 Generación de ForwardLinks
For each I.itemID in Items I
Look up top A UserId from UserItems UL who have UI.itemID == I.itemID and UI.weight > Weight B
For each user U in top a userID Ordered by UI.weight + For each UI.userItem for U.userID
Look Up ForwardLinks FL where I.itemID == FL.itemID and UI.itemID == FL.itemIDrel
If found Update ForwardLinks set FL.count == FL.count + 1 Else Insert into ForwardLinks (I.itemID, UI.itemID, 1) End If End For End For End For
Delete from ForwardsLinks all records where FL.count < count C // poda de umbral de enlaces directos
En el procedimiento de generación de enlaces directos, en primer término, se determina, de modo preferente, un conjunto de usuarios “expertos” con respecto a un elemento designado mediante la identificación de los usuarios que ofrecen la mayor actividad reconocida con respecto al elemento. Los usuarios A de nivel superior mediante el valor de ponderación cumulativo respecto al elemento actual son seleccionados entre la tabla UserItems. De modo
15 preferente, la selección de los usuarios A de nivel superior se lleva a cabo en base a la especificación de un valor de ponderación B de umbral de expertos suministrado como un parámetro de análisis al proceso 40 de análisis de enlace inverso.
Aunque un valor A de nivel superior determinado de modo empírico de 30 ha proporcionado resultados operativos satisfactorios en las formas de realización preferentes de la presente invención, un valor A de nivel superior elegido 20 como objetivo es seleccionado, de modo preferente, como un porcentaje de la población de usuarios en el supuesto general. Este porcentaje puede ser determinado mediante el análisis estadístico de la distribución de los valores weight con respecto a la población de usuarios o mediante la evaluación sucesiva de la calidad de las bases de datos producidas en último término incrementando al tiempo de modo progresivo el porcentaje de la población de usuarios utilizado en la generación de la base de datos. El porcentaje elegido como objetivo utilizado, sin embargo,
25 es, de modo preferente, inferior al 50% de la población de usuarios y será típicamente inferior al 30% para un elemento determinado. Aunque depende de la naturaleza específica de la información representada en los registros de datos de las transacciones, las subpoblaciones de usuarios “expertos” que representen menos del 10% de la población de usuarios sobre una base por elemento, de acuerdo con la presente invención, proporcionan una base robusta para la generación última de bases de datos expertos 36.
30 El procedimiento de generación de enlaces directos, a continuación, determina una cuenta de soporte para los pares de elementos de referencia / relacionados que se producen dentro de los conjuntos de los datos de los elementos de
usuario de los usuarios “expertos”. El valor de cuenta de la cuenta de soporte se determina como el número de veces que la subpoblación de usuarios “expertos” para un elemento de referencia ha ejecutado una transacción respecto de un elemento relacionado concreto. Los emparejamientos de los elementos de referencia / relacionados y los respectivos valores de las cuentas de soporte son acumulados en la tabla de registro ForwardLinks. Una vez que 5 las cuentas de soporte han sido acumuladas, se impone la condición de umbral de soporte mínimo. Los registros de los datos de enlace directo que presenten una cuenta de soporte inferior a un umbral de soporte mínimo definido son eliminados de la tabla de registros ForwardLinks. Esta condición de soporte de umbral mínimo, suministrada como un parámetro de análisis al proceso 40 de análisis de enlace inverso define, en efecto, el nivel mínimo de acuerdo de la conexidad de los elementos de enlace directo por parte de la comunidad de los usuarios “expertos”. El umbral de 10 soporte mínimo preferente es una cuenta de dos. Aunque puede ser utilizado un umbral de soporte mínimo fijo establecido de forma empírica, de modo preferente, el umbral de soporte mínimo está basado de forma adaptativa en el número A de nivel superior de usuarios “expertos” identificado para cada elemento de referencia, sometido a un límite fijo, el cual puede ser empíricamente establecido en consideración al número total de elementos de referencia. De esta manera, por ejemplo, para un catálogo de 10,000 elementos, el límite de umbral de soporte 15 mínimo puede establecerse en 500 para subpoblaciones “expertas” de al menos 100 usuarios. Cuando la subpoblación de usuarios “expertos” A de nivel superior para un elemento de referencia es inferior a 100, el límite del umbral de soporte mínimo se reduce a prorrata hasta el límite de dos de la cuenta de soporte mínimo preferente. La Figura 4 proporciona una ilustración general de la estructura 60 de datos generada por el procedimiento de enlaces directos. La estructura 60 de datos es una estructura de nodos enlazados, en la que los enlaces de elementos están
20 definidos por las cuentas de soporte relativas de los elementos.
Un análisis de enlace inverso, de la estructura 60 de datos de enlace directo se lleva entonces a cabo en la etapa
46. El análisis de enlace inverso opera, de modo preferente, sobre la tabla de datos ForwardLinks para generar registros de datos de enlace inverso de una forma detallada en la Tabla 8.
Tabla 8 Registro de BackLinks
BackLinks { ItemID// identificador de un elemento de referencia itemIDRel// identificador de un elemento relacionado strength// métrica de las distancias de las relaciones
depth// cuenta de recorrido de los nodos }
25 Los registros de datos BackLinks son generados mediante la ejecución de la operación de análisis de enlaces inversos coherente con el procedimiento de pseudocódigo presentado en la Tabla 9. Este procedimiento de generación de enlaces inversos opera para identificar y cuantificar las relaciones de refuerzo que pueden existir entre elementos nominalmente no relacionados mediante el análisis de enlaces directos. En efecto, el análisis de enlace inverso opera para identificar las relaciones entre los elementos sobre los que existe acuerdo, al menos por
30 inferencia, por parte de las diferentes subpoblaciones de usuarios “expertos”.
Tabla 9 Generación de BackLinks
For each I.itemID in Items I
Do a depth-first search over ForwardLinks FL Looking for I.itemID == FL.itemIDRel If found
Insert into BackLinks (I.itemID, FL.itemID, func (FL.count), depth) Break depth-first search End If While the search depth < depth D End For
Una primera búsqueda de la profundidad se lleva a cabo, de modo preferente, sobre los registros de la tabla de datos de enlaces directos utilizando el catálogo de elementos suministrado por la tabla de especificación de elementos para identificar de manera secuencial los elementos de referencia. La primera búsqueda de profundidad 35 opera recorriendo cada ramificación de enlaces directos para identificar, sometido a una limitación de profundidad de recursión D, un primer registro de enlace directo que especifica el elemento de referencia de la raíz de la ramificación como el elemento relacionado con el enlace directo. El valor de limitación de profundidad D se suministra, de modo preferente, como otro parámetro de análisis al proceso 40 de análisis de enlace inverso. La primera búsqueda de profundidad de una ramificación se termina siempre que se encuentre un enlace inverso. Se 40 descubrirá cualquier enlace inverso subsecuente potencial sobre una ramificación, si dentro de la cuenta de limitación de profundidad D tras la progresión subsecuente del nodo de raíz de ramificación seleccionado por todos
los nodos de la ramificación. Cuando se encuentra un enlace inverso, un registro de datos de enlace inverso que contenga el par de elementos de referencia / relacionados, un valor de strength de relaciones calculados, y la depth relativa de la red de nodos del registro de datos de enlace inverso encontrado, es almacenada en la tabla de datos de BackLinks.
5 De acuerdo con la presente invención, un enlace inverso encontrado es reconocido como reforzador de la significación de la asociación de elementos de referencia / relacionados de enlace directo identificada por el enlace inverso. La presente invención reconoce así mismo que cuando más cerca está el enlace inverso al nodo de raíz de la ramificación relevante que represente un grado progresivamente mayor de acuerdo a lo largo de una cadena de subpoblaciones relevantes de usuarios “expertos”, tanto mayor será la significación del enlace inverso. Por tanto, la
10 significación de los enlaces inversos con respecto a la efectividad de la base de datos expertos 36 se espera que disminuya con la profundidad incrementada relativa de los nodos de los enlaces inversos. La utilización de los valores de gran volumen para el valor de limitación de profundidad D, por consiguiente, no se considera que sea particularmente beneficiosa. El incremento del valor de la limitación de profundidad D, sin embargo, incrementa el tiempo de procesamiento de análisis. Para las formas de realización preferentes de la presente invención, deben ser
15 evitados unos valores D excesivamente grandes. De modo preferente, la cuenta D de limitación de la profundidad está en el intervalo de dos a ocho, encontrándose de forma empírica que un valor de cuatro proporciona un equilibro razonable entre la eficacia de la base de datos expertos 36 generada y el tiempo de procesamiento del análisis de los enlaces.
El valor depth se determina con respecto al nodo de raíz seleccionado durante cada primera búsqueda de la
20 profundidad. Una estructura representativa 70 de nodos enlazados directos con relaciones ilustrativas de enlaces inversos se muestra en la Figura 5. Las relaciones de enlace inverso encontradas a partir de las primeras búsquedas de la profundidad de la estructura 70 empezando por el nodo que representa un elemento A incluye los elementos B, F, y J en las respectivas depths de los nodos de 1, 2 y 3. En el avance sobre la raíz de ramificación hacia los elementos C y D, son encontrados los respectivos enlaces inversos depth con respecto a los elementos H e I.
25 El parámetro strength asociado con el enlace inverso es computado como una función de la cuenta de soporte del enlace inverso y, de manera equivalente, de la count de soporte del registro de datos terminales ForwardLinks que establece un enlace inverso. De modo preferente, el parámetro strenght refleja el soporte del porcentaje de la relación identificada por el enlace inverso por parte de los usuarios “expertos” como una función de la prevalencia de los usuarios “expertos” del enlace directo de raíz dentro de la batería de usuarios. De esta manera, para formas de
30 realización preferentes de la presente invención, el parámetro strenght es computado como
CountBL ExpertsRFL StrenghtBL = m • Ec. 1 ExpertsBL Users
en la que m es una constante del cambio de escala empírico, CountBL es la cuenta de soporte de enlace inverso, ExpertsBL es el número de usuarios que son “expertos” en la relación de los elementos de enlace inverso, ExpertsRFL es el número de usuarios que son “expertos ” en la relación de elementos de enlace directo de la raíz de ramificación
35 relevante, y Users es el número de usuarios identificados en la batería de registro de datos de transacciones. El valor de intensidad computado para un enlace inverso es almacenado en el correspondiente registro BackLinks, tal y como se representa en términos generales en la Figura 6.
Los registros BackLinks son, a continuación, evaluados para suprimir la aparición de autorreferencias. Una autoreferencia se produce cuando la referencia y el par de elementos relacionados se refieren al mismo elemento.
40 De modo preferente, las autorreferencias son suprimidas en una operación analítica con el procedimiento de pseudocódigo presentado en la Tabla 10.
Tabla 10 Supresión de Autorreferencias For each Link BL in BackLinks If BL.itemID == BL.itemIDRel// es una autorreferencia Delete BL from BackLinks End If End For
Finalmente, las reglas de asociación que representan la base de datos expertos 36 son generadas en correspondencia con las asociaciones de pares de elementos referencia / relacionados identificadas por los registros 45 de datos ForwardLinks y almacenadas por los registros de AssociationRules de una forma detallada en la Tabla 11.
Tabla 11 Registros de Reglas de Asociación
AssociatioRules { ItemID// identificador de un elemento de referencia itemIDRel// identificador de un elemento relacionado count// contador de soporte de relación confidence// métrica de confianza de la regla computada strength// métrica de la distancia de las relaciones depth // cuenta de desplazamiento de los nodos
}
De modo preferente, las reglas de asociación generadas transportan hacia delante las counts de soporte desde los correspondientes registros de datos de ForwardLinks y, de manera opcional, los valores de confidence calculados. Para las formas de realización preferentes de la presente invención, el valor de confidence puede ser calculado de
5 antemano y normalizado de acuerdo con lo requerido de forma convencional. Por ejemplo, un valor de confidence puede ser computado como la relación del soporte para un par de elementos de referencia / relacionado con respecto al número total de las asociaciones que incluyen el elemento de referencia. Cuando el valor de confidence no es calculado de antemano para las reglas de asociación, se incluye una información suficiente para los registros de AssociationRules para permitir la computación posterior.
10 De acuerdo con la presente invención, el registro de AssociationRules incluye, así mismo, los valores de strength y depth para el par de elementos asociados referencia / relacionado directamente, como un componente del valor de confidence calculado, o como un valor derivativo computado a partir de los valores de strenght y depth. La inclusión directa de los valores de strength y depth permite una flexibilidad en la utilización de la base de datos expertos 36. La incorporación de los valores de strength y depth en el valor de confidence calculado de antemano permite la
15 generación de una base de datos expertos 36 compatible en grado sumo con los usos convencionales de las bases de datos expertos. La inclusión de un valor combinado para los valores de strenght y depth proporciona una métrica que puede ser más fácil de utilizar sin perder la ventaja de los valores de strength y depth.
De acuerdo con la presente invención, la por otro parte existente confianza de una asociación de elementos referencia / relacionado se incrementa por el valor strength y el inverso del valor depth en cualquier correspondiente
20 enlace inverso. Como entre los valores de strenght y depth el valor depth se percibe como el valor significativo de mayor fiabilidad. El valor strength determinado por los valores inversos es reconocido como extremadamente dependiente del número de usuarios identificado en la batería de registro de datos de transacciones. Así mismo, la contribución global del valor confidence por los valores strenght y depth dependerá de la naturaleza fundamental del elemento asociado a lo largo de la base de datos expertos 36. La contribución a la confianza en una asociación
25 de elementos se determina como
pAddedConributiontBL = q StrengtBL * Ec. 2 DepthBL
donde p y q son constantes de cambios de escala empíricos.
De esta manera, se ha descrito un sistema y unos procedimientos eficientes de generación de una base de datos expertos que puede ser utilizada para soportar unos procesos de decisión con un grado de precisión y fiabilidad
30 elevados y suficientemente discriminados. A la vista de la descripción expuesta de las formas de realización preferentes de la presente invención, los expertos en la materia apreciarán sin dificultad la posibilidad de realizacón modificaciones y variantes respecto de las formas de realización divulgadas. Por consiguiente, debe entenderse que, dentro del alcance de las reivindicaciones adjuntas, la invención puede llevarse a la práctica de un modo distinto al descrito de manera específica en las líneas anteriores.

Claims (16)

  1. REIVINDICACIONES
    1.-Un procedimiento de generación de una base de datos expertos para su consulta por un sistema de recomendación de contenido para generar recomendaciones de contenido, estando constituida la base de datos expertos por un conjunto de reglas de asociación, generadas mediante el análisis de un conjunto de registros de datos que describen unas transacciones que implican a unos usuarios con respecto a un conjunto predeterminado de elementos, comprendiendo el procedimiento:
    la selección de un procedimiento de generación de enlaces directos entre un conjunto de usuarios identificados por un conjunto de registros de datos de transacción, de subpoblaciones de usuarios expertos para unos elementos de referencia respectivos; y
    la construcción de una estructura de datos de enlace directo de asociaciones de enlace directo entre los elementos de referencia y los elementos relacionados, en los que las asociaciones de enlace directo se definen con respecto a las subpoblaciones de usuarios expertos, y en el que cada una de las asociaciones de enlace directo tiene una primera ponderación; y
    el cálculo, en un análisis de enlace inverso, de las asociaciones de enlace inverso dentro de la estructura de datos de enlace directo, reflejando las asociaciones de enlace inverso la profundidad y la consideración del enlace inverso, y en el que cada una de las asociaciones de enlace inverso tiene una segunda ponderación, y
    la generación de una regla de asociación para cada una de las asociaciones de enlace directo, siendo las reglas de asociación indicativas de relaciones verificadas entre los elementos de referencia y los elementos relacionados, y cada una de las reglas de asociación comprende una tercera ponderación calculada sobre la base de la primera ponderación tal como ha sido modificada por la segunda ponderación;
    y en el que el procedimiento comprende así mismo:
    la generación de la base de datos expertos mediante la población de una base de datos con las reglas de asociación generadas, de tal manera que las recomendaciones de contenido son generadas sobre la base de una consulta y de las reglas de asociación generadas.
  2. 2.-El procedimiento de la Reivindicación 1, en el que cada una de las subpoblaciones de usuarios expertos presenta al menos un nivel predeterminado de experiencia, definido por unos criterios predeterminados, con respecto a un elemento de referencia correspondiente.
  3. 3.-El procedimiento de la Reivindicación 2, en el que el nivel predeterminado de experiencia limita una subpoblación predeterminada de usuarios expertos a menos del 50% del conjunto de usuarios.
  4. 4.-El procedimiento de la Reivindicación 3, en el que la estructura de datos de enlace directo excluye asociaciones que presenten un nivel inferior a un nivel predeterminado de soporte por las correspondientes subpoblaciones de usuarios expertos.
  5. 5.-El procedimiento de la Reivindicación 4, en el que las segundas ponderaciones son inversamente proporcionales al número respectivo de asociaciones entre elementos de referencia y relacionados necesario para establecer los enlaces inversos.
  6. 6.-El procedimiento de la Reivindicación 5, en el que las segundas ponderaciones son, así mismo, proporcionales a la intensidad de las asociaciones de cada una de las respectivas asociaciones de enlaces inversos.
  7. 7.-Un sistema para generar reglas de asociación para las bases de datos expertos una computadora, de implementación, comprendiendo el sistema:
    a) una primera base de datos que almacena un conjunto de datos de transacción;
    b) una segunda base de datos suministrada para almacenar un conjunto de reglas de asociación, en el que cada regla de asociación define una ponderación de asociación; y
    c) una computadora acoplada entre las primera y segunda bases de datos, implementando la computadora un programa de generación analítica selectiva para generar un conjunto de reglas de asociación a partir del conjunto de registros de datos de transacción, en el que
    el programa de transacción analítica selectiva proporciona la identificación de un conjunto de asociaciones de enlaces inversos dentro de un conjunto de asociaciones de enlace directo definido por el conjunto de registros de datos de transacción; y
    la generación de unas ponderaciones de enlace inverso para el conjunto de asociaciones de enlace inverso; y la generación de unas ponderaciones de asociaciones para cada una de las reglas de asociación sobre la base de una ponderación de enlace inverso tal como ha sido modificada por la ponderación de enlace inverso y la población de la segunda base de datos con las reglas de asociación y las correspondientes ponderaciones de asociación.
  8. 8.-El sistema de la Reivindicación 7, en el que el conjunto de transacciones define unas acciones realizadas por unos usuarios con respecto a unos elementos y en el que la computadora está así mismo acoplada para recibir unos parámetros de análisis predeterminados para controlar el funcionamiento del programa de generación analítica selectiva que incluye un primer parámetro que define unas subpoblaciones de usuarios cuyas acciones con respecto a los elementos determinan el soporte de las reglas de asociación correspondientes de los elementos y un segundo parámetro que define un nivel mínimo de soporte requerido para cada regla de asociación que debe ser incluida en la segunda base de datos.
  9. 9.-El sistema de la Reivindicación 7, en el que el programa de generación analítica selectiva proporciona la identificación de subpoblaciones de usuarios expertos respectivos de los elementos a partir de las cuales el conjunto de asociaciones de enlace directo son identificadas de manera selectiva entre el conjunto de registros de datos de transacción.
  10. 10.-El sistema de la Reivindicación 9, en el que las subpoblaciones de usuarios expertos incluyen unas subpoblaciones de usuarios que son inferiores al 50% de la población de usuarios identificada dentro del conjunto de registros de datos de transacción.
  11. 11.-El sistema de la Reivindicación 10, en el que el conjunto de asociaciones de enlace directo está restringida a las asociaciones de enlace directo que presentan un soporte definido determinado en relación con las respectivas subpoblaciones de expertos de los elementos.
  12. 12.-El sistema de la Reivindicación 11, en el que las ponderaciones de enlace inverso para el conjunto de asociaciones de enlace inverso se determina con respecto a un soporte de umbral definido para el enlace inverso correspondiente a las asociaciones de enlace directo del conjunto de asociaciones de enlace directo.
  13. 13.-El sistema de la Reivindicación 12, en el que las ponderaciones respectivas de enlace inverso para el conjunto de asociaciones de enlace inverso son, así mismo, inversamente proporcionales a la profundidad de los enlaces inversos en las respectivas series de asociaciones de enlace directo.
  14. 14.-El sistema de la Reivindicación 13, en el que las ponderaciones de enlace inverso respectivas para el conjunto de asociaciones de enlace inverso son, así mismo, proporcionales al tamaño relativo de las subpoblaciones de usuarios expertos específicos de los elementos correspondientes a las asociaciones de enlace inverso y a la población de usuarios identificados dentro del conjunto de registros de datos de transacción.
  15. 15.-El sistema de la Reivindicación 14, en el que el programa de generación analítica selectiva responde a unos parámetros de análisis predeterminados que incluyen un primer parámetro que controla el tamaño de las subpoblaciones de usuarios expertos específicos de los elementos y un segundo parámetro que determina el soporte de umbral definido.
  16. 16.-Un sistema de recomendación de contenido, dispuesto para generar recomendaciones de contenido, comprendiendo el sistema:
    una base de datos expertos generada de acuerdo con el procedimiento de las Reivindicaciones 1 a 6; y
    un medio de consulta por un usuario dispuesto para permitir la entrada de la consulta del usuario dentro del sistema por parte del usuario; y en el que
    el sistema está dispuesto para consultar a la base de datos expertos, estando constituida la base de datos expertos por unas reglas de asociación que representan las relaciones verificadas entre los elementos de referencia y los elementos relacionados, para generar las recomendaciones de contenido sobre la base de la consulta y de las reglas de asociación.
    DATOS ENLACES INVERSOS
ES03726811T 2002-05-10 2003-05-09 Reglas de asociación ponderadas de enlaces directo - inverso de una base de datos expertos Expired - Lifetime ES2386540T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US10/143,381 US6763354B2 (en) 2002-05-10 2002-05-10 Mining emergent weighted association rules utilizing backlinking reinforcement analysis
US143381 2002-05-10
PCT/US2003/014884 WO2003096232A1 (en) 2002-05-10 2003-05-09 Expert database forward back link weighted association rules

Publications (1)

Publication Number Publication Date
ES2386540T3 true ES2386540T3 (es) 2012-08-22

Family

ID=29400116

Family Applications (1)

Application Number Title Priority Date Filing Date
ES03726811T Expired - Lifetime ES2386540T3 (es) 2002-05-10 2003-05-09 Reglas de asociación ponderadas de enlaces directo - inverso de una base de datos expertos

Country Status (8)

Country Link
US (1) US6763354B2 (es)
EP (1) EP1508103B1 (es)
JP (1) JP5368665B2 (es)
AT (1) ATE557354T1 (es)
AU (1) AU2003229030A1 (es)
DK (1) DK1508103T3 (es)
ES (1) ES2386540T3 (es)
WO (1) WO2003096232A1 (es)

Families Citing this family (39)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20010053991A1 (en) * 2000-03-08 2001-12-20 Bonabeau Eric W. Methods and systems for generating business models
WO2003038749A1 (en) * 2001-10-31 2003-05-08 Icosystem Corporation Method and system for implementing evolutionary algorithms
US7134082B1 (en) * 2001-12-04 2006-11-07 Louisiana Tech University Research Foundation As A Division Of The Louisiana Tech University Foundation Method and apparatus for individualizing and updating a directory of computer files
US7636709B1 (en) * 2002-10-03 2009-12-22 Teradata Us, Inc. Methods and systems for locating related reports
US7065532B2 (en) * 2002-10-31 2006-06-20 International Business Machines Corporation System and method for evaluating information aggregates by visualizing associated categories
WO2004090692A2 (en) * 2003-04-04 2004-10-21 Icosystem Corporation Methods and systems for interactive evolutionary computing (iec)
US7146361B2 (en) 2003-05-30 2006-12-05 International Business Machines Corporation System, method and computer program product for performing unstructured information management and automatic text analysis, including a search operator functioning as a Weighted AND (WAND)
US7243100B2 (en) * 2003-07-30 2007-07-10 International Business Machines Corporation Methods and apparatus for mining attribute associations
US7333960B2 (en) * 2003-08-01 2008-02-19 Icosystem Corporation Methods and systems for applying genetic operators to determine system conditions
US7356518B2 (en) * 2003-08-27 2008-04-08 Icosystem Corporation Methods and systems for multi-participant interactive evolutionary computing
US7707220B2 (en) * 2004-07-06 2010-04-27 Icosystem Corporation Methods and apparatus for interactive searching techniques
WO2007035848A2 (en) 2005-09-21 2007-03-29 Icosystem Corporation System and method for aiding product design and quantifying acceptance
US9047269B2 (en) * 2005-10-28 2015-06-02 Openconnect Systems Incorporated Modeling interactions with a computer system
US8577732B1 (en) 2005-11-16 2013-11-05 Sprint Spectrum L.P. Method and system for providing custom background-downloads
US7711806B1 (en) 2005-11-16 2010-05-04 Sprint Spectrum L.P. Method for dynamically adjusting frequency of content transmissions to a communication device
US8095642B1 (en) 2005-11-16 2012-01-10 Sprint Spectrum L.P. Method and apparatus for dynamically adjusting frequency of background-downloads
US7668867B2 (en) 2006-03-17 2010-02-23 Microsoft Corporation Array-based discovery of media items
WO2008002906A2 (en) * 2006-06-26 2008-01-03 Icosystem Corporation Methods and systems for interactive customization of avatars and other animate or inanimate items in video games
JP4240096B2 (ja) * 2006-09-21 2009-03-18 ソニー株式会社 情報処理装置および方法、プログラム並びに記録媒体
US7792816B2 (en) * 2007-02-01 2010-09-07 Icosystem Corporation Method and system for fast, generic, online and offline, multi-source text analysis and visualization
JP4983401B2 (ja) * 2007-05-25 2012-07-25 富士ゼロックス株式会社 情報処理装置及び制御プログラム
US8107399B2 (en) * 2007-06-08 2012-01-31 Alcatel-Lucent Usa Inc. Methods and devices for providing robust nomadic wireless mesh networks using directional antennas
US20090016355A1 (en) * 2007-07-13 2009-01-15 Moyes William A Communication network initialization using graph isomorphism
US9088615B1 (en) * 2008-07-31 2015-07-21 Pulse Secure, Llc Determining a reduced set of remediation actions for endpoint integrity
US8280899B2 (en) * 2009-10-14 2012-10-02 Microsoft Corporation Abstracting events for data mining
TW201115582A (en) * 2009-10-29 2011-05-01 Acer Inc Method for determining data correlation and data processing method for memory
AU2010202901B2 (en) * 2010-07-08 2016-04-14 Patent Analytics Holding Pty Ltd A system, method and computer program for preparing data for analysis
US8589244B2 (en) * 2011-10-05 2013-11-19 Cellco Partnership Instant, accurate, and efficient product recommendations to client endpoint
US9110969B2 (en) * 2012-07-25 2015-08-18 Sap Se Association acceleration for transaction databases
US10593003B2 (en) * 2013-03-14 2020-03-17 Securiport Llc Systems, methods and apparatuses for identifying person of interest
CN105022761B (zh) * 2014-04-30 2020-11-03 腾讯科技(深圳)有限公司 群组查找方法和装置
US10102308B1 (en) * 2015-06-30 2018-10-16 Groupon, Inc. Method and apparatus for identifying related records
US10885047B2 (en) * 2016-07-01 2021-01-05 Oracle International Corporation System and method providing association rule aggregates
CN107622409B (zh) * 2016-07-15 2020-05-15 北京车慧科技有限公司 购车能力的预测方法和预测装置
JP6804763B2 (ja) * 2017-03-16 2020-12-23 国立研究開発法人情報通信研究機構 対話システム、対話装置及びそのためのコンピュータプログラム
CN111260138B (zh) * 2020-01-18 2023-05-26 湖南大学 加权和自适应并行关联规则的火电机组能耗动态优化方法
CN113033175A (zh) * 2021-04-07 2021-06-25 芜湖市标准化研究院 一种标准有效性评估方法及系统
CN112989026B (zh) * 2021-04-14 2023-08-01 华南理工大学 一种基于关联规则的文本推荐方法
CN113468245B (zh) * 2021-07-19 2023-05-05 金陵科技学院 面向轨道交通应用的动态最小支持度计算方法

Family Cites Families (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4719571A (en) 1986-03-05 1988-01-12 International Business Machines Corporation Algorithm for constructing tree structured classifiers
US5515534A (en) * 1992-09-29 1996-05-07 At&T Corp. Method of translating free-format data records into a normalized format based on weighted attribute variants
US5704018A (en) 1994-05-09 1997-12-30 Microsoft Corporation Generating improved belief networks
US5794209A (en) 1995-03-31 1998-08-11 International Business Machines Corporation System and method for quickly mining association rules in databases
US5615341A (en) 1995-05-08 1997-03-25 International Business Machines Corporation System and method for mining generalized association rules in databases
US5704017A (en) 1996-02-16 1997-12-30 Microsoft Corporation Collaborative filtering utilizing a belief network
US5854630A (en) * 1996-07-01 1998-12-29 Sun Microsystems, Inc. Prospective view for web backtrack
US5933818A (en) * 1997-06-02 1999-08-03 Electronic Data Systems Corporation Autonomous knowledge discovery system and method
US6282548B1 (en) 1997-06-21 2001-08-28 Alexa Internet Automatically generate and displaying metadata as supplemental information concurrently with the web page, there being no link between web page and metadata
JPH1115842A (ja) * 1997-06-24 1999-01-22 Mitsubishi Electric Corp データマイニング装置
US6061682A (en) * 1997-08-12 2000-05-09 International Business Machine Corporation Method and apparatus for mining association rules having item constraints
US5983224A (en) 1997-10-31 1999-11-09 Hitachi America, Ltd. Method and apparatus for reducing the computational requirements of K-means data clustering
US6236978B1 (en) * 1997-11-14 2001-05-22 New York University System and method for dynamic profiling of users in one-to-one applications
US6094645A (en) 1997-11-21 2000-07-25 International Business Machines Corporation Finding collective baskets and inference rules for internet or intranet mining for large data bases
US6212526B1 (en) 1997-12-02 2001-04-03 Microsoft Corporation Method for apparatus for efficient mining of classification models from databases
US6249773B1 (en) * 1998-03-26 2001-06-19 International Business Machines Corp. Electronic commerce with shopping list builder
US6049797A (en) 1998-04-07 2000-04-11 Lucent Technologies, Inc. Method, apparatus and programmed medium for clustering databases with categorical attributes
US6324533B1 (en) * 1998-05-29 2001-11-27 International Business Machines Corporation Integrated database and data-mining system
US6240411B1 (en) 1998-06-15 2001-05-29 Exchange Applications, Inc. Integrating campaign management and data mining
US6567814B1 (en) * 1998-08-26 2003-05-20 Thinkanalytics Ltd Method and apparatus for knowledge discovery in databases
US6175830B1 (en) * 1999-05-20 2001-01-16 Evresearch, Ltd. Information management, retrieval and display system and associated method
JP4743740B2 (ja) * 1999-07-16 2011-08-10 マイクロソフト インターナショナル ホールディングス ビー.ブイ. 自動化された代替コンテンツ推奨を作成する方法及びシステム
NL1013997C2 (nl) 1999-12-30 2001-07-03 Cons Health Entrepreneurs Bv Werkwijze voor het verzamelen en leveren van informatie.

Also Published As

Publication number Publication date
JP2005525642A (ja) 2005-08-25
EP1508103B1 (en) 2012-05-09
US6763354B2 (en) 2004-07-13
US20030212651A1 (en) 2003-11-13
JP5368665B2 (ja) 2013-12-18
WO2003096232A1 (en) 2003-11-20
AU2003229030A1 (en) 2003-11-11
DK1508103T3 (da) 2012-06-25
ATE557354T1 (de) 2012-05-15
EP1508103A1 (en) 2005-02-23
EP1508103A4 (en) 2008-10-29

Similar Documents

Publication Publication Date Title
ES2386540T3 (es) Reglas de asociación ponderadas de enlaces directo - inverso de una base de datos expertos
CN110188208B (zh) 一种基于知识图谱的信息资源查询推荐方法和系统
CN109559208B (zh) 一种信息推荐方法、服务器及计算机可读介质
US10242103B2 (en) Dynamic faceted search
Sahoo et al. An efficient approach for mining association rules from high utility itemsets
CN104412265B (zh) 更新用于促进应用搜索的搜索索引
US7930262B2 (en) System and method for the longitudinal analysis of education outcomes using cohort life cycles, cluster analytics-based cohort analysis, and probabilistic data schemas
US7870039B1 (en) Automatic product categorization
CN109685635A (zh) 金融业务的风险评估方法、风控服务端及存储介质
US20110010324A1 (en) Systems and methods for making contextual recommendations
CN107077486A (zh) 情感评价系统和方法
WO1999023577A1 (en) Online database mining
CN104899229A (zh) 基于群体智能的行为聚类系统
Corradini et al. Defining and detecting k-bridges in a social network: the yelp case, and more
Lin Association rule mining for collaborative recommender systems.
CN109408643A (zh) 基金相似度计算方法、系统、计算机设备和存储介质
Negre et al. Cold-start recommender system problem within a multidimensional data warehouse
Kenekayoro et al. Clustering research group website homepages
US20060005121A1 (en) Discretization of dimension attributes using data mining techniques
CN112765469B (zh) 一种从Web点击流数据中挖掘代表序列模式的方法
Chehreghani et al. Density link-based methods for clustering web pages
CN113342995B (zh) 一种基于路径语义和特征提取的负样本提取方法
Alam et al. Developing a framework for analyzing social networks to identify human behaviours
US8489645B2 (en) Techniques for estimating item frequencies in large data sets
CN113268683B (zh) 一种基于多维度的学术文献推荐方法