ES2461562T3 - Procedimiento para el tratamiento de datos en vistas a la extracción de los atributos principales de un producto - Google Patents

Procedimiento para el tratamiento de datos en vistas a la extracción de los atributos principales de un producto Download PDF

Info

Publication number
ES2461562T3
ES2461562T3 ES06709460.7T ES06709460T ES2461562T3 ES 2461562 T3 ES2461562 T3 ES 2461562T3 ES 06709460 T ES06709460 T ES 06709460T ES 2461562 T3 ES2461562 T3 ES 2461562T3
Authority
ES
Spain
Prior art keywords
word
words
description
glossary
given
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
ES06709460.7T
Other languages
English (en)
Inventor
Franck Bigalet
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sight Up SARL
Original Assignee
Sight Up SARL
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sight Up SARL filed Critical Sight Up SARL
Application granted granted Critical
Publication of ES2461562T3 publication Critical patent/ES2461562T3/es
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

Procedimiento para el tratamiento de datos, puestos en ejecución mediante ordenador, en vistas a la determinación de los atributos principales de un producto, para su indexación y su acceso mediante motores de búsqueda, con una pertinencia incrementada, definido mediante una descripción que incluye un pluralidad de palabras, en el cual: - para cada palabra, se determina si ésta pertenece a un glosario predeterminado; - para cada palabra que pertenece a un glosario: - se asigna, a la citada palabra, una pluralidad de codificaciones elaborados en función del glosario predeterminado, al cual pertenece la citada palabra y los glosarios a los cuales pertenecen las otras palabras de descripción, - se analiza, con un categorizador bi-clase, el conjunto de codificaciones elaborados para la citada palabra, para determinar el hecho de si, la citada palabra, es un atributo principal del producto retenido, con el fin de mejorar la pertinencia de indexación

Description

Procedimiento para el tratamiento de datos en vistas a la extracción de los atributos principales de un producto
5 Sector técnico
La presente invención, se refiere a un procedimiento para el tratamiento de datos representativos de un producto, en vistas a su acceso mediante motores de búsqueda (buscadores), con una pertinencia acrecentada.
10 La invención, encuentra aplicación, de una forma particular, aunque no de una forma limitativa, en el tratamiento de datos representativos de los productos puestos a la venta, mediante sitios comerciales, en la red de Internet. Mediante “producto”, se entenderá, por supuesto, no únicamente los productos fabricados, sino, igualmente, los servicios que puedan ser objeto de una oferta comercial y en donde, la compra, pueda igualmente realizarse por vía telemática.
15 En la parte que sigue de la descripción, la invención, se describirá en relación con los ejemplos ligados a esta aplicación específica, sin encontrarse no obstante limitada.
Técnicas correspondientes al arte anterior
20 El documento “Extracting salient keywords in a document that belong to a specific context”, - “Palabras clave destacadas en un documento que pertenece a un contexto específico” -, RESEARCH DISCLOSURE, KENNET MASON PUBLICATIONS WESTBOURNE, GB, volumen 465, nº 13, Enero del 2003 (2003 –01), describe un procedimiento para extraer palabras clave principales de un documento, utilizando glosarios específicos para
25 contextos diferentes.
Hoy en día, los sitos comerciales que proponen la venta de productos y de servicios, en la red de Internet, encuentran un interés en cuanto al hecho de relevar sus ofertas, mediante motores de búsqueda especializados, puestos a disposición mediante sitos de referencia. Estos motores de búsqueda o buscadores, especializados,
30 proponen, al comprador, diferentes categorías de productos y servicios, y permiten, al comprador potencial, el efectuar una búsqueda, a partir de las palabras clave correspondientes a las características del producto.
Con objeto de realizar este cometido, el sitio de referencia, recolecta los datos representativos de los productos comercializados por los diferentes sitos comerciales, y determina las características principales que podrán ser
35 objeto de búsqueda mediante la palabra clave.
Se concibe el hecho de que, este tratamiento, es una operación relativamente compleja, debido a que, ésta, depende eminentemente de la lengua empleada para la descripción del producto, del vocabulario relativo a una categoría de artículos, así como de la sintaxis empleada.
40 Así, de este modo, hoy en día, la extracción de los atributos o características de un producto, se realizan mediante un análisis manual y sistemático del conjunto de ofertas. Este tratamiento, permite caracterizar cada producto mediante los atributos, permitiendo la clasificación de estos productos, en diferentes categorías. Los diferentes productos, se catalogan, a continuación, en las bases de datos que permiten su acceso mediante la selección de los
45 diferentes campos de la base de datos.
De una forma más precisa, algunos sitios comerciales que explotan bases de datos particulares, permiten afinar la elección del comprador, autorizando la elección de los criterios opcionales dependientes de los criterios ya recolectados.
50 Se concibe el hecho de que, estas técnicas de extracción de las características, son particularmente fastidiosos, puesto que, éstas, necesitan un análisis individual y manual de cada uno de los productos cuya oferta se expone, por parte del sitio comercial. Adicionalmente, además, la clasificación de los diferentes productos, en las bases de datos, no es técnicamente realmente satisfactoria. En efecto, la estructuración de las ofertas en las bases de datos,
55 se adapta, de una forma relativa, a los productos de carácter técnico, como por ejemplo, en el sector informático, debido al hecho de que, cada producto presenta unas características, en un número limitado, las cuales pueden declinarse o no reconocerse, en una elección relativamente limitada.
Como contraste de ello, esta clasificación en bases de datos, no es susceptible de poderse adaptar a los productos
60 que pertenezcan a sectores en donde, la oferta, sea extremadamente variada y difusa. Se puede citar, de una forma particular y a título de ejemplo, el sector del vestir. La estructuración en bases de datos que estereotipan, de algún modo, las características potenciales de un producto, no convierten a este mecanismo en adaptable a los mercados en gran evolución.
Así, de este modo, en la siguiente descripción: “couverture 75 x 100, en laine polaire uni, livrée dans un sac PVC
5 100% poliéster”, - “manta de 75 x 100 en lana polar uniforme (de un solo color), suministrada en un saco de PVC 100% de poliéster” -, los términos “cobertura” y “saco”, corresponden, ambos, a una definición potencial del tipo de artículos. El producto de esta forma descrito, se considera, por lo tanto, mediante las técnicas actuales, como siendo, a la vez, una “manta”, o un “saco”. Este resultado, no es por supuesto pertinente, ya que, el artículo de este modo descrito, es una manta y no un saco, el cual constituye un accesorio de la venta. Se obtiene el mismo tipo de
10 razonamiento, mediante la descripción de artículos tales como “vestido negro con un cinturón rojo”, en la cual, los procedimientos actuales, determinan como palabras clave, los términos “cinturón” y “rojo”, los cuales corresponden a características de un accesorio del artículo principal, la cual es un “vestido negro”.
Dicho de otro modo, las técnicas existentes, presentan una deficiencia en términos de pertinencia.
15 Un objeto de la invención, es el de permitir la mejora de la pertinencia de indexación, procediendo a tratar, de la forma más apropiada, los casos de las figuras en donde, la descripción de un producto, comprende varias palabras, las cuales pertenecen a un mismo tipo de atributo, y en el cual, únicamente una de estas palabras, es representativa de una característica importante del producto.
20 Otro objeto de la invención, es la de proporcionar un procedimiento que pueda adaptarse de una forma sencilla a las diferentes lenguas que conciernen a la descripción de los productos.
Exposición de la invención
25 La presente invención, se refiere, por lo tanto, a un procedimiento para la determinación de las características principales de un producto definido por una descripción que combina una pluralidad de palabras.
Este procedimiento, combina una pluralidad de etapas sucesivas.
30 En primer lugar, para cada palabra de la descripción, se determina el hecho de si, ésta, pertenece a un glosario predeterminado. Adicionalmente, además, para cada una de estas palabras que pertenecen a un glosario, se efectúan las siguientes operaciones.
35 En una primera etapa, se asignan, a esta palabra, una pluralidad de codificaciones. Estas codificaciones, se elaboran en función del glosario predeterminado, al cual pertenece la palabra considerada, así como, eventualmente y dado el caso, los glosarios a los cuales pertenecen las otras palabras de la descripción.
En una segunda etapa, se procede a analizar, mediante un categorizador bi-clase, el conjunto de estas
40 codificaciones elaboradas para la palabra en cuestión, de forma que se determine el hecho de si la palabra considerada, es un atributo principal del producto.
Así, de este modo, la extracción de los atributos o características de un producto, se realiza mediante comparación de las palabras de su descripción, con los glosarios. Estos glosarios, son conjuntos de palabras relativos al tipo de
45 características del producto. Cada categoría de artículos, posee, por lo tanto, unas características particulares. Así, de este modo, a título de ejemplo, en la categoría de los artículos de vestir, existen diferentes glosarios que reagrupan cada uno de los tipos de ropa, el color, la materia, u otras características específicas para un artículo de vestir.
50 El procedimiento puesto en ejecución mediante la presente invención, necesita el empleo de los glosarios, los cuales resultan de un inventario manual, los más exhaustivo que sea posible, de los términos relativos a la calidad del glosario considerado, en una muestra representativa lo más reducida posible.
De una forma global, el conjunto de las descripciones de los productos, se somete a una comparación con estos
55 diferentes glosarios. En el caso de una concordancia de un término de la descripción, con una de las palabras de uno de los glosarios, el término de esta forma identificado, se considera, entonces, como definiendo un atributo potencial, correspondiente al glosario al cual éste pertenece.
Dicho de otro modo, la invención, consiste en proceder a efectuar un tratamiento, sobre cada descripción, el cual no
60 se limita a la simple búsqueda en concordancia con los términos de un glosario, sino que, adicionalmente, además, éste efectúa un conjunto de operaciones destinadas a eliminar los casos no pertinentes de pertenencia a un glosario. De una forma más precisa, a cada uno de los términos susceptibles de constituir un atributo esencial del producto, puesto que éstos pertenecen a un glosario, se asocia un cierto número de codificaciones. Estas codificaciones, se elaboran en función de los otros términos de la descripción que pertenecen a glosarios. Así, de A título de ejemplo, la presencia, en la descripción, de dos palabras susceptibles de representar un tipo de artículo,
5 es un riesgo de error, en la determinación del atributo “tipo” de artículo. Así, de este modo, en la expresión “Vestido negro con un cinturón rojo”, los términos “Vestido” y “cinturón” son, ambos, representativos del tipo de ropa, aunque únicamente el término “vestido”, corresponda al tipo de artículo real en cuestión. La determinación de la posición, en el interior de la descripción de cada una de las palabras relativas a un tipo de artículo, puede permitir discriminar el caso de figuras, y afectar al atributo “tipo”, el término que es efectivamente pertinente, y en la especie, la palabra “vestido”.
El análisis de las diferentes codificaciones asignadas a una palabra determinada, permite así, de este modo, mediante técnicas de autoaprendizaje, el confirmar el hecho de que, la palabra en cuestión, se trata efectivamente de una característica del producto, para el tipo de glosario al cual ésta pertenece. Y a la inversa, éste permite
15 eliminar los casos, en donde, ésta, corresponda a una característica de un accesorio del artículo, o bien, otra vez, a una característica auxiliar.
En la práctica, el tratamiento en conformidad con la invención, puede pasar, de una forma ventajosa, por una primera etapa consistente en sustituir, en la descripción, las palabras pretendientes a un glosario, por el nombre del citado glosario, de tal forma que se elaboren las codificaciones características, mediante el análisis de esta descripción, después de la sustitución.
En otros términos, el tratamiento en conformidad con la invención, puede realizarse sobre una descripción, en la cual, los términos pertenecientes a un glosario, se han reemplazado por el nombre del mismo glosario. En esta
25 descripción sustituida, los términos característicos, ya no se encuentran presentes, y su pertinencia, se determina, por lo tanto, en función de la posición con relación a los otros términos de la descripción, los cuales, en sí mismos, puedan haberse sustituido.
Con objeto de atender al nivel más elevado de prestaciones, puede ser ventajoso el hecho de generar codificaciones suplementarias. Así, de este modo, para cada una de las palabras pertenecientes a un glosario determinado, se puede asignar, a la citada palabra, una pluralidad de codificaciones complementarias, las cuales se elaboran en función del glosario predeterminado, al cual pertenece la palabra considerada y, así como otras palabras de la descripción.
35 Estas codificaciones complementarias, se elaboran, por lo tanto, en función de las otras palabras de la descripción, y no únicamente en función de los glosarios a los cuales pertenecen estas palabras. Estas codificaciones complementarias, se efectúan, por lo tanto, teniendo en cuenta la descripción, antes de las operaciones de sustitución mencionadas anteriormente, arriba.
En la práctica, pueden emplearse múltiples codificaciones, más o menos complejas. Estas codificaciones, pueden combinarse entre ellas, según una lógica específica de la invención.
En efecto, el procedimiento, puede comportar una etapa de selección de un número limitado de codificaciones, elegidas de entre un grupo de codificaciones potenciales. En efecto, puede ser útil el proceder a no retener más que
45 ciertas codificaciones particulares, los cuales permitan discriminar ciertos casos más pertinentes.
En la práctica, la selección de estas diferentes codificaciones, puede depender del glosario al cual pertenece la palabra para la cual se busca la adaptación de las codificaciones. En otros términos, se retendrán ciertas codificaciones particulares, para tratar las palabras que pertenezcan a un glosario específico. Estas codificaciones, pueden ser diferentes, según el glosario considerado, pero también, según la categoría del producto, o bien, también, la lengua de la descripción.
En la práctica, existe una casi infinidad de codificaciones posibles, entre las cuales, algunas de ellas, se detallan en la parte que sigue de esta descripción.
55 Así, de este modo, ciertas codificaciones, pueden tener en consideración las palabras situadas antes o después de la palabra para la cual se elaborado la codificación. De una forma más precisa, una primera codificación, puede consistir en identificar las palabras o los glosarios a los cuales pertenecen las palabras que se encuentran hasta en un número de emplazamientos determinados, antes o después de la palabra para la cual se ha elaborado la codificación. Dicho de otro modo, se observa cuáles son las palabras próximas a un término que pertenece a un glosario, para sacar conclusiones sobre el grado de pertinencia del término considerado, en calidad de característica del artículo.
Una codificación más sofisticada, puede consistir en combinar la codificación anteriormente mencionada, arriba, 65 simultáneamente, para las palabras que se encuentren antes y después del término estudiado.
5 En este caso, esta codificación, permite detectar el hecho de si, varias palabras de la descripción, corresponden al mismo tipo de característica, como, por ejemplo, a un color o a una forma. En este caso, puede resultar útil la combinación con otra codificación.
Otro tipo de codificación, puede consistir en asignar, a una palabra dada, una codificación correspondiente al
10 número de coincidencias o casos de la palabra dada en la descripción del producto. Dicho de otro modo, esta codificación, permite detectar el hecho de si, un mismo término, interviene varias veces en la descripción, lo cual puede significar que ésta es, mucho más probablemente, una de las características principales del artículo.
En otro tipo de codificación, puede asignarse, a una palabra dada, la posición en la descripción de esta palabra, con
15 relación a las otras palabras pertenecientes al mismo glosario, pero que son diferentes. Dicho de otro modo, en una descripción en la cual aparecen dos términos que pertenecen al mismo glosario, estos dos términos diferentes, no serán por lo tanto objeto de asignación de la misma codificación, lo cual permite discriminar diferentes casos de figuras. Es también posible el diferenciar el caso, en donde, un término, corresponde a una característica principal del artículo, o a un accesorio o auxiliar.
20 A título de ejemplo, en la descripción, “vestido negro con un cinturón rojo”, los términos “negro” y “rojo”, que pertenecen al mismo glosario de colores, no recibirán la misma codificación.
Otro tipo de codificación asignada a una palabra dada, puede consistir en identificar las palabras (o los glosarios a
25 los cuales pertenecen las palabras), situadas entre la palabra considerada, y la primera palabra que pertenece al mismo glosario, situada después de la palabra dada, en la descripción.
Dicho de otro modo, en el caso en donde, varias palabras pertenecen al mismo glosario, esta codificación, es sensible a los términos que se encuentran situados entre estas dos palabras que pertenecen al mismo glosario. De
30 una forma más precisa, esta codificación, permite detectar el hecho de si, entre estas dos palabras que pertenecen al mismo glosario, se encuentran presentes términos de lenguaje no característicos para el producto, o por el contrario, que correspondan a una característica de otra naturaleza.
Así, de este modo, en la expresión “azul o rojo o verde”, los términos azul, rojo, verde, corresponden a
35 características potenciales de color, entre las cuales se encuentra una conjunción de coordinación, significando el hecho de que, los términos, se encuentran sobre el mismo plano de igualdad, en términos de pertinencia.
De forma inversa, en la expresión “un vestido negro con un cinturón rojo”, los términos “vestido” y “cinturón”, pertenecen al mismo glosario del tipo de artículo. La presencia de los términos “negro”, la cual es, en sí misma, una
40 característica potencial del color y del término “o” son representativos de un cierto caso de figura, en donde se puede suponer el hecho de que, el segundo término representativo de las características del artículo, es decir, “cinturón”, corresponde a un accesorio del artículo principal, es decir, “vestido”.
En la práctica, pueden imaginarse múltiples codificaciones, conservando, al mismo tiempo, el principio de la 45 invención.
En la práctica, el procedimiento, necesita una etapa de aprendizaje inicial, mediante el tratamiento manual de un cierto número de ejemplos, que permitan programar el categorizador bi-clase.
50 Descripción resumida de las figuras
La forma de realizar la invención, así como las ventajas que se desprenden de ella, resaltarán, de una forma evidente, a raíz de la descripción del modo de realización que se facilita abajo, a continuación, y con el apoyo de la figura anexa, en la cual:
55 La figura 1, la cual comporta una tabla que ilustra el tratamiento en conformidad con la invención, de una descripción de producto.
Forma de realizar la invención
60 Tal y como se ha mencionado ya, anteriormente, arriba, la presente invención, se refiere a un procedimiento para el tratamiento de datos que describen a productos y, de una forma más general, a toda oferta comercial, con la finalidad de extraer los atributos principales y permitir, así, de este modo, una búsqueda pertinente.
Así, de este modo, en una primera etapa, la descripción, se analiza con el fin de determinar el hecho de si, cada una
5 de estas palabras, pertenece a glosarios predeterminados. Esta descripción, puede seguir un tratamiento previo, por mediación de un lematizador, consistente en sustituir las palabras susceptibles de declinarse, en género y en número, mediante su forma en masculino y en singular.
Cada una de estas palabras, se compara, con el contenido de diferentes glosarios, de tal forma que, en el ejemplo
10 de la figura 1, los términos “vestido” y “cinturón”, se identifican como perteneciendo al glosario “ARTÍCULO”, definido como el conjunto de artículos de vestir.
Del mismo modo, los términos “rojo” y “negro”, se identifican como perteneciendo al glosario “COLOR”, que reagrupa los colores de productos de vestir.
15 En un primer tiempo, se procede a realizar una descripción sustituida, reemplazando cada una de las palabras pertenecientes a un glosario, por el nombre del glosario correspondiente, de tal modo que, la frase “el vestido rojo con un cinturón negro”, se sustituya por la descripción siguiente “el artículo color con un artículo color”
20 A continuación, las codificaciones características, se elaboran para cada uno de los términos pertenecientes a un glosario. Tal y como ya se ha mencionado anteriormente, arriba, pueden construirse una infinidad de codificaciones y, la descripción que sigue, no retendrá más que un número limitado, por cuestiones de simplificación.
Así, de este modo, un primer tipo de codificación, consiste en definir los términos situados antes y después de la 25 palabra considerada.
De una forma más precisa, puede revelarse como ventajoso, en la categoría de los artículos de vestir, en lengua francesa, el hecho de identificar los términos que pueden situarse hasta cuatro posiciones antes de la palabra estudiada, tomando en consideración el hecho de que, la palabra, puede situarse en el inicio de la descripción, y ser
30 precedida por un número de palabras inferiores a cuatro. Las líneas referenciadas Z4antes, en la tabla de la figura 1, recuperan, para cada uno de los términos pertenecientes a un glosario, las cuatro codificaciones correspondientes.
Se elabora el mismo tipo de codificación, pera determinar los términos que se sitúan en una o dos posiciones después de la palabra considerada. Estas codificaciones, se reagrupan en las líneas Z2después de la tabla de la figura
35 1.
La línea P de la tabla de la figura 1, ilustra otro tipo de codificación elaborado para cada uno de los temas pertenecientes a un glosario. De una forma más precisa, esta codificación, consiste en identificar la posición del término considerado, con relación a las otras palabras pertenecientes al mismo glosario, en la descripción. Así, de
40 este modo, el término “vestido”, que pertenece al glosario “ARTÍCULO”, es el primer término de la descripción que pertenece a este glosario, siendo, el término “cinturón”, el segundo. Se encuentra el mismo orden, comparando el término “rojo”, con relación al término “negro”.
La línea X de la tabla de la figura 1, identifica otro tipo de codificación, consistente en enumerar el número de veces
45 que la palabra considerada aparece en la descripción. En el ejemplo preciso de la tabla de la figura 1, cada uno de los términos pertenecientes a un glosario, no aparece más que una vez, en la descripción.
La línea N de la tabla de la figura 1, ilustra otro tipo de codificación, considerado como pertinente, únicamente para las palabras que pertenecen al glosario “ARTÍCULO”. Así, de este modo, esta codificación, no es representativa para
50 las palabras de otro glosario y, de una forma más particular, para el glosario “COLOR”. Así, de este modo, en cuanto a lo concerniente a término “vestido”, que pertenece al glosario “ARTÍCULO”, un segundo término, a saber, eltérmino “cinturón”, pertenece al mismo glosario “ARTÍCULO”, de tal forma que, la codificación N, adopta el valor 2, para la palabra “vestido”.
55 Lo mismo sucede, para todos los otros términos del glosario “ARTÍCULO” y, especialmente, para el término “cinturón”.
En la frase de aprendizaje, el ejemplo de la figura 1, se analiza para conducir a la conclusión de que, los términos “vestido” y “rojo”, deben retenerse, para definir los atributos de artículo y de color, mientras que, la inversa, los
60 términos “cinturón” y “negro”, se desestimarán. Este ejemplo, participa, por lo tanto, en la programación del categorizador bi-clase, destinado a analizar el resultado de la codificación.
En el bien entendido, el ejemplo simplificado, con la finalidad de ilustraciones de la figura 1, puede tomar una forma más compleja, para corresponder a los casos de figura reales y, ello, funcionando mediante el mismo principio.
· su adaptabilidad a diferentes lenguas, resultante de la capacidad del procedimiento, para analizar la estructura de
· una pertinencia muy grande, con una eliminación casi completa del ruido, ya que, la precisión, se encuentra
cercana al 100%.

Claims (8)

  1. REIVINDICACIONES
    1.- Procedimiento para el tratamiento de datos, puestos en ejecución mediante ordenador, en vistas a la determinación de los atributos principales de un producto, para su indexación y su acceso mediante motores de 5 búsqueda, con una pertinencia incrementada, definido mediante una descripción que incluye un pluralidad de palabras, en el cual:
    -
    para cada palabra, se determina si ésta pertenece a un glosario predeterminado;
    -
    para cada palabra que pertenece a un glosario: 10
    · se asigna, a la citada palabra, una pluralidad de codificaciones elaborados en función del glosario predeterminado, al cual pertenece la citada palabra y los glosarios a los cuales pertenecen las otras palabras de descripción,
    · se analiza, con un categorizador bi-clase, el conjunto de codificaciones elaborados para la citada palabra, para 15 determinar el hecho de si, la citada palabra, es un atributo principal del producto retenido, con el fin de mejorar la pertinencia de indexación.
  2. 2.- Procedimiento, según la reivindicación 1, el cual comporta una etapa consistente en sustituir, en la descripción, las palabras pertenecientes a un glosario, por el nombre del citado glosario y, a continuación, la elaboración de las 20 codificaciones mediante el análisis de la descripción, después de la sustitución.
    .3.- Procedimiento, según la reivindicación 1, en el cual, para cada palabra que pertenece a uno o varios glosarios: · se asigna, a la citada palabra, una pluralidad de codificaciones complementarias, elaboradas en función del glosario predeterminado, al cual pertenece la citada palabra, y las otras palabras de la descripción, 25 · se analiza, con un categorizador bi-clase, el conjunto de codificaciones complementarias elaboradas para la citada palabra, para determinar si la citada palabra, es un atributo principal del producto.
  3. 4.- Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, éste, comporta una etapa de 30 selección de un número restringido de codificaciones, entre un grupo de codificaciones principales.
  4. 5.- Procedimiento, según la reivindicación 4, en el cual, las codificaciones seleccionadas, dependen del glosario al cual pertenece la citada palabra.
    35 6.- Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, el categorizador bi-clase, se programa mediante autoaprendizaje.
  5. 7.- Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (Zn), asignada a una palabra dada, consiste en identificar las palabras o los glosarios a los cuales pertenecen las palabras que 40 encuentran hasta n emplazamientos después o antes de la citada palabra dada, en la descripción.
  6. 8.- Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (Znm), asignada a una palabra dada, consiste en identificar las palabras o los glosarios a los cuales pertenecen las palabras que encuentran hasta n emplazamientos después de la citada palabra dada, y las palabras o los glosarios a los cuales
    45 pertenecen las palabras que se encuentran hasta m emplazamientos, antes de la citada palabra dada, en la descripción.
  7. 9.- Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (A), asignada a una palabra dada, consiste en identificar las palabras o los glosarios a los cuales pertenecen las palabras que 50 encuentran situadas entre la citada palabra dada, y la primera palabra que pertenece al mismo glosario, situada después de la palabra dada en la descripción.
  8. 10.- Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (X), asignada a una palabra dada, consiste en enumerar el número de casos de la palabra dada, en la descripción del producto.
    55 11.- Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (N), asignada a una palabra dada, consiste en enumerar el número de palabras en la descripción que pertenece al mismo glosario que aquél al que pertenece la citada palabra dada, y que son diferentes de la citada palabra dada.
    60 12.- Procedimiento, según la reivindicación 1, caracterizado por el hecho de que, una codificación (P), asignada a una palabra dada, consiste en identificar la posición, en la descripción de la citada palabra dada, con relación a las otra palabras que pertenecen al mismo glosario, en la descripción.
    Descripción
    El vestido rojo con un cinturón negro
    Descripción sustituida
    El ARTÍCULO COLOR con un ARTÍCULO COLOR
    Codificaciones
    Z4antes
    El El ARTÍCULO COLOR
    ARTÍCULO
    COLOR con
    con
    un
    un
    ARTÍCULO
    A4después
    COLOR con COLOR Ø
    con
    un
    P
    1 1 2 2
    X
    1 1 1 1
    N
    2 No representativo 2 No representativo
    Resultado
    RETENIDO RETENIDO RECHAZADO RECHAZADO
    Atributos retenidos
    VESTIDO ROJO
    FIGURA 1
ES06709460.7T 2005-03-07 2006-01-31 Procedimiento para el tratamiento de datos en vistas a la extracción de los atributos principales de un producto Active ES2461562T3 (es)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0550596 2005-03-07
FR0550596A FR2882838B1 (fr) 2005-03-07 2005-03-07 Procede de traitement de donnees en vue de l'extraction des attributs principaux d'un produit
PCT/FR2006/050076 WO2006095102A1 (fr) 2005-03-07 2006-01-31 Procede de traitement de donnees en vue de l'extraction des attributs principaux d'un produit

Publications (1)

Publication Number Publication Date
ES2461562T3 true ES2461562T3 (es) 2014-05-20

Family

ID=34980031

Family Applications (1)

Application Number Title Priority Date Filing Date
ES06709460.7T Active ES2461562T3 (es) 2005-03-07 2006-01-31 Procedimiento para el tratamiento de datos en vistas a la extracción de los atributos principales de un producto

Country Status (5)

Country Link
EP (1) EP1856633B1 (es)
ES (1) ES2461562T3 (es)
FR (1) FR2882838B1 (es)
TW (1) TW200703045A (es)
WO (1) WO2006095102A1 (es)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8156154B2 (en) * 2007-02-05 2012-04-10 Microsoft Corporation Techniques to manage a taxonomy system for heterogeneous resource domain

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7260571B2 (en) * 2003-05-19 2007-08-21 International Business Machines Corporation Disambiguation of term occurrences

Also Published As

Publication number Publication date
WO2006095102A1 (fr) 2006-09-14
FR2882838A1 (fr) 2006-09-08
TW200703045A (en) 2007-01-16
EP1856633A1 (fr) 2007-11-21
FR2882838B1 (fr) 2007-04-13
EP1856633B1 (fr) 2014-04-16

Similar Documents

Publication Publication Date Title
CN107944283A (zh) 一种数据敏感性识别方法及装置
Hawkes et al. The potatoes of Argentina, Brazil, Paraguay and Uruguay. A biosystematic study.
JP3781696B2 (ja) イメージ検索方法及び検索装置
CN106104519B (zh) 短语对收集装置以及计算机可读取的存储介质
US20020184211A1 (en) System and method for organizing data
CN105938495A (zh) 实体关系识别方法及装置
CN105282123B (zh) 一种网络协议识别方法和装置
CN107688831A (zh) 一种基于聚类下采样的不平衡数据分类方法
Bell Tree-based methods: The use of classification trees to predict species distributions
CN104462143B (zh) 连锁品牌词词库、类别词词库建立方法和装置
CN107832444A (zh) 基于搜索日志的事件发现方法及装置
Yelizaveta et al. Analysis and retrieval of paintings using artistic color concepts
Arief et al. Application of a dendrogram seriation algorithm to extract pattern from plant breeding data
ES2461562T3 (es) Procedimiento para el tratamiento de datos en vistas a la extracción de los atributos principales de un producto
US20060212287A1 (en) Method for data processing with a view to extracting the main attributes of a product
CN107153776A (zh) 一种y单倍群检测方法
Dezaki et al. Automated material properties extraction for enhanced beauty product discovery and makeup virtual try-on
Jin et al. Jigsaw puzzle image retrieval via pairwise compatibility measurement
Oh et al. Nongastric marginal zone B-cell lymphoma: a prognostic model from a retrospective multicenter study
US20080021649A1 (en) Color sample clustering
Fonkou et al. Identification keys of seven Cassia species from the (Caesalpinioideae: Fabaceae)
Abe et al. Applications of computerized pattern recognition: A survey of correlations between pharmacological activities and mass spectra
KR102279490B1 (ko) 정보처리장치, 정보처리 방법 및 이를 이용한 프로그램을 저장하는 저장매체
Thompson et al. A proposed structure for displayed information to minimize search time through a data base
Farmer Data mining technology across academic disciplines