ES2933625A1 - Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios - Google Patents

Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios Download PDF

Info

Publication number
ES2933625A1
ES2933625A1 ES202230942A ES202230942A ES2933625A1 ES 2933625 A1 ES2933625 A1 ES 2933625A1 ES 202230942 A ES202230942 A ES 202230942A ES 202230942 A ES202230942 A ES 202230942A ES 2933625 A1 ES2933625 A1 ES 2933625A1
Authority
ES
Spain
Prior art keywords
cognitive
dimension
vector space
cvs
entities
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
ES202230942A
Other languages
English (en)
Inventor
Prieto Raul Alvarez
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kallisto Ai Sl
Original Assignee
Kallisto Ai Sl
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kallisto Ai Sl filed Critical Kallisto Ai Sl
Priority to ES202230942A priority Critical patent/ES2933625A1/es
Publication of ES2933625A1 publication Critical patent/ES2933625A1/es
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Machine Translation (AREA)

Abstract

Método y sistema utilizando técnicas de inteligencia artificial general para la segmentación de entidades. Método y sistema de segmentación de entidades (personas, grupos, publicaciones, páginas web, etc.) mediante la utilización de técnicas de Inteligencia Artificial, procesamiento del lenguaje natural (NLP) en el nivel pragmático del análisis lingüístico, Automatización Cognitiva, Psicografía y Comunicación.

Description

DESCRIPCIÓN
MÉTODO Y SISTEMA UTILIZANDO TÉCNICAS DE INTELIGENCIA ARTIFICIAL
GENERAL PARA LA SEGMENTACIÓN DE USUARIOS
SECTOR DE LA TÉCNICA
Esta invención se encuadra dentro de los campos del procesamiento del lenguaje natural ( NLP, Natural Language Processing), la Inteligencia Artificial General o Fuerte ( AGI, Artificial General Intelligence), la Automatización Cognitiva ( CA, Cognitive Automation, también denominada Automatización Inteligente), la Psicografía (en inglés "psychographics”), la Comunicación (especialmente en textos, internet y redes sociales), el Marketing Contextual, la Publicidad Personalizada y la Inteligencia de Medios (MI, Media Intelligence en inglés).
La Automatización Cognitiva o Inteligente (CA) podemos definirla como la combinación de la Inteligencia Artificial y las técnicas de Automatización de procesos para mejorar las resultados de una actividad empresarial.
La Inteligencia Artificial General (AGI) sería la inteligencia de una máquina que puede realizar con éxito cualquier tarea intelectual propia de un ser humano. Estos sistemas tienen capacidades de computación cognitiva cuyo desempeño es indistinguible del de un humano.
La psicografía es el campo de la técnica que se dedica al estudio y clasificación de las personas según sus actitudes, aspiraciones y otros criterios psicológicos, y es utilizada para encontrar rasgos comunes en grupos de consumidores o usuarios que permitan efectuar una segmentación del mercado sobre la base, principalmente, de algunos de sus aspectos psicológicos. La psicografía se aplica también al estudio de la personalidad, los valores, opiniones, actitudes e intereses de las personas.
El marketing contextual es el área del Marketing que toma información del usuario en su contexto en tiempo real y lo combina con una variedad de fuentes de información para entregar el contenido preciso, relevante, a la medida, a las personas adecuadas y en el momento adecuado. La publicidad personalizada es un tipo de publicidad segmentada que se dirige a una audiencia con ciertas características según el producto o la persona que el anunciante promociona. Estos rasgos pueden ser demográficos, centrados en la raza, la situación económica, el sexo, la edad, la generación, el nivel de educación, el nivel de ingresos y el empleo, o psicográficos centrados en los valores, la personalidad, la actitud, la opinión, el estilo de vida y el interés del consumidor. Este enfoque también puede incluir variables de comportamiento, como el historial de navegación, el historial de compras y otras actividades en línea recientes.
La inteligencia de medios (MI, Media Intelligence) utiliza la minería de datos (Data Mining) y la ciencia de datos (Data Science) para analizar el contenido publicado en los medios de comunicación públicos, redes sociales, editoriales y otros. Es decir, las técnicas de Inteligencia de Medios se centran y diseñan sistemas que sintetizan miles de millones de conversaciones en línea para producir información relevante y conocimiento. Esto permite a las organizaciones medir y administrar el rendimiento de los contenidos publicados, comprender las tendencias e impulsar las comunicaciones y la estrategia comercial y de marketing.
En concreto se presenta un método y sistema que permiten la segmentación (agrupación en función de necesidades, actitudes o ciertas características comunes) de entidades (personas, grupos, publicaciones, páginas web, etc.) basándose en información textual (ya sea procedente de documentos, de los medios de comunicación, de las redes sociales, o de cualquier otro tipo de fuente de información que pueda transcribirse a texto) mediante el uso de técnicas avanzadas en los campos mencionados en los párrafos anteriores. La invención presentada pretende sentar las bases para desarrollar sistemas de análisis lingüístico de nivel pragmático como medio para acercarnos a métodos de Inteligencia Artificial General (AGI). Este tipo de métodos están enfocados a que una máquina tenga la capacidad para entender una tarea intelectual de una forma similar a como lo hace un humano.
ANTECEDENTES DE LA INVENCIÓN
En la automatización de procesos estándar (RPA), los desarrolladores pueden crear robots de software (también denominados “bots”) que pueden aprender, imitar y ejecutar procesos empresariales basados en reglas. Para ello el primer paso es la observación de las acciones digitales de los humanos para que sean posteriormente los bots los que las realicen ya que estos bots pueden interactuar con cualquier aplicación o sistema de la misma forma que lo hacen las personas. Por ejemplo, los bots pueden extraer datos de una web, hacer cálculos, abrir y guardar archivos, analizar correos electrónicos, generar informes, registrar facturas, o conversar con un cliente a través de un bot conversacional. La Automatización Cognitiva (CA, por sus siglas en inglés), o Automatización Inteligente, es un campo de la tecnología basado principalmente en técnicas de Inteligencia Artificial (IA), Aprendizaje Automático (ML, Machine Learning) y el Procesamiento de Lenguaje Natural (PLN o NLP en lengua inglesa). A diferencia de la Automatización Robótica de Procesos (RPA, Robotic Process Automation), la Automatización Cognitiva funciona a un nivel semántico y trata de comprender los datos subyacentes, aprendiendo del trabajo humano de forma continua lo que permite evolucionar con el tiempo para mejorar los resultados gracias a los modelos de aprendizaje automático utilizados. Por otra parte para avanzar en el camino de la automatización cognitiva se hace necesario un mayor grado de personalización dependiente de la complejidad del proceso que se desea automatizar, siempre intentando evitar los sesgos inherentes a los sistemas y algoritmos de inteligencia artificial que definen y gobiernan al Bot o robot cognitivo (sistema robot software que utiliza la automatización cognitiva) así como manteniendo la privacidad, anonimización y seguridad de las personas que se relacionen o trabajen con dichos Bots. La Automatización Cognitiva extiende las posibilidades de la automatización de los procesos empresariales para incluir situaciones donde los bots cognitivos pueden tomar decisiones y aprender sobre la marcha, con lo que podríamos hablar de la necesidad de un razonamiento más propio de las técnicas de Inteligencia Artificial Fuerte o General que de las técnicas de Inteligencia Artificial Débil utilizadas en la actualidad.
En cuanto a la Psicografía, esta es una metodología cualitativa utilizada para encontrar rasgos comunes en grupos de usuarios que permitan efectuar una segmentación del mercado sobre la base de algunos de sus aspectos psicológicos. La psicografía se ha aplicado al estudio de la personalidad, los valores, las opiniones, las actitudes, los intereses y los estilos de vida y nos permite clasificar a las personas según sus actitudes, aspiraciones y otros criterios psicológicos. La psicografía y la psicología del lenguaje, junto con algoritmos de análisis de datos, permiten analizar contenidos textuales de entrada devolviendo un perfil de personalidad para el autor de dichos textos. Algunas soluciones comerciales en el mercado deducen las características de personalidad basándose en modelos como el de las cinco grandes características de personalidad (“five personality traits”) que incluye cinco dimensiones primarias que caracterizan a un individuo (Simpatía, Responsabilidad, Extraversión, Rango emocional, Apertura), o modelos basados en “Necesidades” que describen los aspectos de un producto con los que se identifica una persona, o modelos de “Valores” que describe los factores de motivación que influyen en la toma de decisiones de una persona.
La segmentación psicográfica es un enfoque utilizado en la investigación de mercado para agrupar a clientes de acuerdo con las características únicas de su personalidad. Al utilizar la psicografía como base para la segmentación, los especialistas en marketing pueden comprender el razonamiento detrás del comportamiento del consumidor y reconocer mejor lo que impulsa inconscientemente a los consumidores a comprar un producto. Las soluciones actuales de segmentación psicográfica utilizan algoritmos y sistemas de inteligencia artificial (principalmente de NLP) para identificar automáticamente los rasgos de personalidad y los estilos de comunicación de los clientes a partir del texto que producen en diferentes canales, proporcionando una visión profunda de la motivación detrás del comportamiento del consumidor. Un aspecto interesante es que los rasgos de personalidad de una persona se mantienen relativamente estables a lo largo del tiempo, siendo esta una ventaja del uso de la psicografía como base para la segmentación de usuarios. Algunas empresas como Symanto, ofrecen soluciones comerciales de inteligencia artificial que combinan tecnologías de procesamiento de texto y algoritmos psicolingüísticos lo que permite predecir los rasgos de la personalidad y el estilo de comunicación de dicha persona. Mediante la carga de conjuntos de datos disponibles (“datasets” en lengua inglesa) o rastreando información de diferentes fuentes (como redes sociales, sitios de revisión de opiniones en internet o encuestas online), los sistemas de Symanto analizan los datos y proporcionan información cualitativa sobre el autor de dichos textos.
En la actualidad, la mayoría de las soluciones de Automatización Cognitiva (bots cognitivos), de Marketing Contextual y Publicidad Personalizada, de Inteligencia de Medios y de Psicografía utilizan principalmente técnicas de Procesamiento de Lenguaje Natural (NLP). Las soluciones existentes sin embargo no son capaces de aprovechar toda la riqueza existente en el discurso humano al no existir soluciones técnicas que profundicen suficientemente en el análisis lingüístico de nivel semántico ni pragmático (retórico). En general, los sistemas de procesamiento del lenguaje natural (NLP) trabajan en varios niveles de análisis lingüístico:
• Aná lis is m orfo lóg ico y léxico: Análisis interno de las palabras que forman oraciones para extraer lemas, rasgos flexivos y unidades léxicas compuestas.
• Aná lis is sin táctico : Análisis de la estructura de las oraciones de acuerdo con el modelo gramatical empleado.
• Aná lis is sem ántico: Proporciona la interpretación de las oraciones una vez eliminadas las ambigüedades morfosintácticas presentes.
• Aná lis is pragm ático: Incorpora el análisis del contexto de uso a la interpretación final. En este nivel de análisis se incluye tanto el tratamiento del lenguaje figurado (metáfora e ironía) como el conocimiento del campo específico (economía, política, deporte, etc.) necesario para entender un texto tal y como una persona lo haría.
La pragmática es, por lo tanto, la interpretación del lenguaje en su uso real tal y como las personas lo utilizan. Para interpretar el lenguaje en el nivel pragmático se necesitan datos que interpreten los signos verbales y no verbales, lingüísticos y extralingüísticos, presentes y latentes en una situación de comunicación. La mayoría de estos datos son producto del aprendizaje, de la socialización de las personas y son almacenados en nuestra memoria de forma que estén listos para ser utilizados en la comunicación humana. La conjunción de estos datos con las palabras nos permite interpretar correctamente los discursos y todos los elementos extralingüísticos que comprenden la comunicación. El campo de la retórica extrae todos estos datos estudiados en el nivel pragmático para a partir de ellos conformar discursos capaces de convencer a un auditorio.
La mayoría de los algoritmos y soluciones avanzadas utilizadas en la actualidad en el campo del Procesamiento del Lenguaje Natural (NLP) como ELMo, BERT, Word2vec, GloVe, GPT-3, Transformadores (Transformers), etc., están basadas en técnicas de “ Incrustación de Palabras "o "Word Embedding” dónde las palabras, conjuntos de palabras o frases del lenguaje natural son representadas como vectores de números reales, y cuantifican y categorizan las semejanzas semánticas entre elementos lingüísticos basándose en sus propiedades distribucionales en grandes muestras de textos incluyendo en algunos casos información acerca del contexto de dichas palabras. Es decir, en estos algoritmos la similitud semántica está basada en las asociaciones entre palabras aprendidas a partir de grandes colecciones de textos (corpus) donde las palabras o conjuntos de palabras que se comparan aparecen mayoritariamente juntas (o dentro de una ventana de palabras) dentro de un corpus de textos.
Es por lo tanto razonable aducir que las soluciones actuales en el campo del procesamiento del lenguaje natural (NLP) no están diseñados para utilizar la información compleja y desconocida por dichos sistemas propia del nivel pragmático del análisis lingüístico, información que es necesaria para responder a preguntas, gestionar diálogos o implementar sistemas de bots conversacionales (chatbots) que podamos calificar como de Inteligencia Artificial General (AGI). En nuestro conocimiento, el estado de la técnica actual no permite hacer coincidir una respuesta con una pregunta al igual que lo haría una persona debido a un análisis pragmático insuficiente por parte de los sistemas existentes de NLP. El nivel pragmático estudia la porción de significado que no es convencional o gramatical, es decir, que no está codificado por reglas, mientras que las soluciones NLP actuales basadas en estadísticas no están diseñadas ni pueden abordar el nivel lingüístico pragmático ya que las soluciones basadas en estadísticas no consideran en absoluto la estructura pragmática/retórica de un texto ni por supuesto de una pregunta y su respuesta. Sin un análisis retórico suficiente, las preguntas, que pueden tener una estructura retórica arbitraria, no pueden hacerse coincidir con las respuestas adecuadas (las cuales también pueden tener una estructura retórica arbitraria). Es más, esta falta de análisis en el nivel pragmático hace que las soluciones actuales (bots conversacionales, sistemas de Automatización Robótica de Procesos, sistemas comerciales de segmentación y psicografía) no puedan analizar textos con “ruido” como son aquellos con errores gramaticales, coloquialismos, jergas o atajos utilizados en las conversaciones entre personas (especialmente aquellas conversaciones online que se desarrollan en redes sociales).
Varios estudios académicos, como por ejemplo “Leivada, E., Murphy, E., & Marcus, G. (2022). DALL-E 2 Fails to Reliably Capture Common Syntactic Processes. arXiv preprint arXiv:2210.12889” comparten, si no completamente al menos parcialmente, esta visión. Para estos autores, los chatbots de Inteligencia Artificial que son vistos como sistemas que comprenden el lenguaje, realmente tienen muchos problemas cuando pretenden ir más allá de la comprensión léxica de un texto y llegar al significado de frases complejas, revelándose una falta de compresión de como los significados abstractos de una palabra se relacionan con otras palabras para constituir el contexto del discurso. Para ellos los sistemas actuales (DALLE 2 en su estudio) presentan serias deficiencias en aspectos como el principio de composicionalidad del significado, un principio según el cual el significado de las expresiones complejas está completamente determinado por su estructura y el significado de sus expresiones componentes. Para estos autores, lo que se necesita es “algún mapeo de estructuras lingüísticas en algún sistema conceptual independiente, que tenga sus propios conjuntos de reglas de composición e inferencia, junto con nociones como verdad/falso, y realidad/ficción, y modelos cognitivos del mundo; sintetizar texto por sí solo no está necesariamente al servicio directo de la construcción de un modelo realista de sintaxis y semántica humanas. Desde nuestro punto de vista, toda la atención reciente que se ha puesto en predecir secuencias de palabras ha venido a expensas del desarrollo de una teoría de cómo tales procesos pueden culminar en modelos cognitivos del mundo, y cómo la sintaxis sirve para regular los mapeos forma-significado".
Es más, estos autores no dudan en mencionar que “Los déficits semánticos más generales se convierten en notorios aquí, son cada vez más discutidos en la literatura, relacionados con la (in)-capacidad de los modelos Transformadores y los modelos de lenguaje con gran número de parámetros para evaluar las entradas léxicas en algún modelo cognitivo general del mundo . Para tener una noción de realidad, uno podría argumentar que también necesitamos tener una noción de verdad/falso y hechos/ficción, a partir de la cual comparar. Además, es necesario abordar la sutil relación entre la gramática y la semántica más general y las reglas y estrategias de comprensión apelando a la pragmática y al conocimiento del mundo", para finalmente concluir que “Dada la asombrosa cantidad de datos con los que se ha entrenado DALL E 2, sugerimos que las fallas gramaticales que exhibe no se deben simplemente a detalles de implementación técnica, sino que reflejan una diferencia cualitativa entre la base computacional del procesamiento orgánico del lenguaje humano y el principios computacionales subyacentes a los sistemas de IA actuales".
Es decir, las soluciones actuales de Inteligencia Artificial y NLP no parecen permitir acercarnos a los fundamentos del procesamiento del lenguaje tal y como lo hace un ser humano, lo que hace difícil que estos sistemas se acerquen o se conviertan en sistemas de Inteligencia Artificial General (AGI). Podemos mencionar múltiples sistemas y patentes en diferentes sectores de la técnica que siguen sin abordar dicha problemática a pesar de utilizar soluciones basadas en NLP, entre otras US20220114616 (DIGITAL ANTHROPOLOGY AND ETHNOGRAPHY SYSTEM), US20200410166 (ENABLING CHATBOTS BY DETECTING AND SUPPORTING AFFECTIVE ARGUMENTATION), US20180357221 (Utilizing discourse structure of noisy user-generated content for chatbot learning), etc.
.EXPLICACIÓN DE LA INVENCIÓN
Con objeto de solucionar los inconvenientes anteriormente mencionados la presente invención describe y se refiere a un método y a un sistema de segmentación de entidades (personas, grupos, publicaciones, páginas web, etc.) mediante la utilización de técnicas de Inteligencia Artificial, procesamiento del lenguaje natural (NLP), Automatización Cognitiva, Psicografía y Comunicación.
Nuestra invención presenta un método que permite incorporar a las técnicas existentes de NLP elementos de análisis lingüístico pragmático tales como el tratamiento del lenguaje figurado (metáfora, símil, metonimia) y el conocimiento del campo específico del conocimiento humano (economía, política, deporte, etc.), elementos que son necesarios para entender un texto tal y como una persona lo haría y que son propios del nivel pragmático de análisis lingüístico. Así pues, el sistema presentado podría definirse como un sistema de procesamiento del lenguaje natural en el nivel pragmático del análisis lingüístico. Esto nos permite presentar en nuestra invención un sistema de segmentación de entidades (personas, usuarios, clientes, etc.) que está más cerca de una Inteligencia Artificial General (AGI) que los sistemas actuales.
Las fases o bloques básicos que definen a nuestro método y sistema según una de sus realizaciones serían:
1. Selección de dimensiones para definir un Espacio Vectorial Cognitivo (EVC) multidimensional.
2. Selección de los datos de entrenamiento para cada dimensión del espacio vectorial cognitivo (EVC) y creación de conjuntos de datos anotados de entrenamiento (Datasets) para cada dimensión.
3. Entrenamiento de los múltiples clasificadores de texto para cada dimensión del Espacio Vectorial Cognitivo (EVC).
4. Clasificación y ubicación de las entidades bajo estudio (personas, grupos, publicaciones, etc.) en todos los ejes del Espacio Vectorial Cognitivo (EVC) a partir de Datasets de Entrada creados para cada entidad.
5. Segmentación de entidades bajo estudio. Agrupación de entidades partir de la ubicación de todas las entidades bajo estudio en el Espacio Vectorial Cognitivo (EVC).
La figura 1 representa los bloques básicos del método presentado en la invención, según una de sus realizaciones, donde se realiza en primer lugar una selección de dimensiones para definir un Espacio Vectorial Cognitivo (EVC) multidimensional. Para cada una de dichas dimensiones se definen los dos extremos (positivo y negativo).
Es difícil definir qué características y dimensiones identifican a una mente humana dentro de todas las potenciales dimensiones (que podrían estar en el orden de millones) para definir una “maquinaria” tan compleja como es la mente humana. Sin embargo, esta es la primera fase de nuestro método, es decir, se selecciona un conjunto de dimensiones de interés caracterizando a una entidad (ya sea persona o grupo). Estas dimensiones definen un espacio euclidiano al que en el ámbito de esta invención denominaremos “Espacio Vectorial Cognitivo” (EVC).
Para cada caso de estudio o área de negocio se podrá utilizar un conjunto de dimensiones diferentes. En nuestro caso el área de la técnica es el de la segmentación de usuarios a partir de textos para su utilización en campos como por ejemplo el marketing y la inteligencia de mercados o la creación de bots conversacionales. La ubicación de una mente humana a lo largo de dichas dimensiones es el resultado de las interacciones personales, sociales, físicas y psicológicas que una persona adquiere a lo largo de su vida y que forman y conforman su mente. La ubicación a lo largo de dichas dimensiones contiene en sí misma multitud de experiencias y vivencias que una persona ha acumulado a lo largo de su vida referidas a un tema de interés. En una de sus realizaciones cada dimensión se define de forma que puedan ubicarse en cada extremo de la misma elementos contrapuestos, estando uno de ellos en el extremo positivo de la dimensión o eje, y el otro en el extremo negativo de la misma dimensión o eje. Esta definición y estudio de los dos elementos a contraponer en cada dimensión es realizada por equipos multidisciplinares expertos en los diferentes ámbitos de cada dimensión (por ejemplo deporte, política, preferencias culinarias, etc.) y nos permite diferenciar y segmentar entidades a lo largo de dicho eje mediante el uso de clasificadores de texto como se definirá a continuación. En otra realización no se utilizan elementos contrapuestos ubicados en cada extremo del eje si no que cada dimensión está definida por un único elemento de estudio.
Por poner un ejemplo, podríamos definir una dimensión en el ámbito deportivo del futbol que nos permita segmentar a los seguidores del Real Madrid C.F. y del F.C. Barcelona denominada “Deporte-Futbol-MAD-BCN” para ubicar a una persona, grupo o entidad (por ejemplo un periódico o una página de internet) a lo largo del eje que define dicha dimensión. En un extremo del eje de coordenadas que define esta dimensión (por ejemplo en el extremo positivo denominado “Deporte-Futbol-MAD”) estarían situadas las entidades que definiríamos como “Madridistas”. En el extremo contrario del eje (extremo negativo denominado “Deporte-Futbol-BCN” en nuestro ejemplo) estarían aquellas entidades definidas como “culés” o “Barcelonistas (en lo que a futbol se refiere). En el centro del eje (origen de coordenadas o intersección con otros ejes) estarían aquellas entidades que no tuvieran ninguna preferencia respecto a ambos clubes de futbol (por ejemplo un seguidor del equipo de futbol británico Manchester United que no siga ni tenga interés en la liga de futbol española ni prefiera al Real Madrid sobre el F.C. Barcelona). A lo largo del eje positivo se ubicarían todas las entidades y personas que se definieran como madridistas (por ejemplo el diario deportivo “Marca”), y cuanto más “madridista” fuera esa entidad o persona, más lejos del centro de coordenadas se ubicaría (valor más positivo).
En otra realización, la dimensión denominada “Deporte-Futbol-MAD” estaría únicamente definida en el ámbito deportivo del futbol para permitir distinguir a los seguidores del Real Madrid C.F. y así poder ubicar a una persona, grupo o entidad (por ejemplo un periódico o una página de internet) a lo largo del eje que define dicha dimensión. En un extremo del eje de coordenadas que define esta dimensión (por ejemplo en el extremo positivo denominado “Deporte-Futbol-MAD”) estarían situadas las entidades que definiríamos como “Madridistas”. En el centro del eje (origen de coordenadas o intersección con otros ejes) estarían aquellas entidades que no sigan ni tengan interés en el Real Madrid y por lo tanto no puedan ser clasificadas como “Madridistas” . En esta realización en la parte del eje negativa no habría ninguna entidad ubicada.
Las personas adquieren y construyen a lo largo de sus vidas toda una serie de filtros o marcos mentales emocionales que utilizan para darle sentido al mundo, que están fuertemente influenciados por la cultura y la sociedad en la que esas personas se desarrollan, y que son los esquemas de interpretación en los que se basan los individuos para entender y responder a la información y estímulos que reciben en el día a día mediante, entre otros métodos, la comunicación hablada y escrita. La utilización de un conjunto de dimensiones como se presenta en esta invención es una forma de reducir la complejidad de la mente humana para su estudio. Es decir, realizando una selección de dimensiones vamos a “comprimir” y reducir la complejidad (tanto para un individuo como para un grupo, o para cualquier entidad incluida una sociedad en su conjunto) de una personalidad. Cuanto mayor sea el número de dimensiones utilizadas en nuestro espacio vectorial cognitivo (EVC), mayor será la información acerca de la entidad bajo estudio (persona, grupo, publicación, etc.) y mayor la capacidad de segmentación de nuestro sistema. Esto es además una ventaja frente a la mayoría de las técnicas y soluciones comerciales psicográficas o de segmentación de clientes que utilizan un conjunto limitado e incluso fijo de dimensiones. Un conjunto de dimensiones seleccionadas para formar el EVC en una de sus realizaciones (en particular para el idioma castellano y el área geográfica de España) seria:
1. Deporte-Futbol-MAD-BCN: Dimensión Cognitiva dentro del área del Deporte, en particular del Fútbol, y que está definida por dos extremos, siendo “Deporte-Futbol-MAD” (seguidor del club de futbol Real Madrid) el extremo positivo y “ Deporte-Futboi-BCN’ (seguidor del Barcelona Futbol Club) el extremo negativo del eje.
2. Política-Posición_Ideológica-DER-IZQ: Dimensión Cognitiva dentro del área de la Política, en particular de la “Posición Ideológica”, y que está definida por dos extremos, siendo “Política-Posición_Ideológica-DER” (posición política conservadora o “de derechas”) el extremo positivo y “Política-Posición_Ideológica-IZQ” (posición política progresista o “de izquierdas”) el extremo negativo del eje.
3. Política-Organización_Territorial_del_Estado-CEN-IND: Dimensión Cognitiva dentro del área de la Política, en particular de la “Organización Territorial del Estado”, y que está definida por dos extremos, siendo “Política-Organización_Territorial_del_Estado-CEN” (posición que defiende un estado centralizado) el extremo positivo y “Política-Organización_Territorial_del_Estado-IND” (posición que defiende la secesión y que partes del estado se declaren independientes) el extremo negativo del eje.
4. Política-Integración_en_UE-EUR-ESC: Dimensión Cognitiva dentro del área de la Política, en particular de la “Integración del Estado Español en una entidad Supranacional como es la Unión Europea”, y que está definida por dos extremos, siendo “Política-Integración_en_UE-EUR” (posición que defiende un estado totalmente integrado en la UE) el extremo positivo y “Política-Integración_en_UE-ESC” (posición del euroescepticismo que defiende la salida del Estado Español de la UE) el extremo negativo del eje.
Siguiendo con la figura 1 que representa los bloques básicos del método presentado en la invención, según una de sus realizaciones, en segundo lugar se realizaría la selección de los datos de entrenamiento para cada dimensión del espacio vectorial cognitivo (EVC) y la creación de los conjuntos de datos anotados de entrenamiento (Datasets) correspondientes (uno o dos correspondientes a cada extremo del eje definido por dicha dimensión) .
En nuestro caso de ejemplo se crearía un Dataset denominado “DS-Madridista” y otro Dataset denominado “DS-Barcelonista” correspondientes a los dos extremos de la Dimensión o Eje denominado “Deporte-Futbol-MAD-BCN”. Los datos seleccionados para cada Dataset son textos representativos de los que un seguidor madridista o barcelonista escribe, publica en redes sociales o expresa de forma verbal o cualquier otra que pueda ser transcrita a texto. En esta fase es donde podemos atribuir a nuestro método y sistema la utilización del nivel pragmático del análisis lingüístico ya que entre los textos recogidos están todos aquellos que tanto figuradamente como de una forma directa indiquen que una entidad o persona se pueda definir y ubicar como “Madridista” en esta dimensión del EVC. Además de recogerse textos publicados por entidades y personas relativos al campo específico de conocimiento o tema seleccionado (Deporte-Fútbol-Real Madrid y Deporte-Fútbol-Barcelona en nuestro caso de ejemplo), se recogerán aquellos que utilicen figuras retoricas como la metáfora, el símil, la hipérbole, la personificación, etc., y se recogerán otros que utilicen frases irónicas, coloquialismos, jergas, atajos propios de textos en redes sociales, etc. El objetivo de la creación de estos Datasets es incorporar en ellos aquellos textos que expresan las experiencias y emociones que una persona ha ido incorporando a lo largo de su vida y la definen como “Madridista” o “Barcelonista” en nuestro ejemplo. Es decir, estamos ajustando estos Datasets a cada una de las dimensiones de nuestro Espacio Vectorial Cognitivo (EVC). En nuestro ejemplo, podríamos recoger en Twitter un conjunto de 10.000 tuits procedentes de diferentes cuentas (@MadridismoreaI, @realmadrid, @FurorMadridista, @RMadridistaReal, @tweetGalactico7, @madridismosport, etc.). Algunos de los textos (tuits en este caso) seleccionados para formar parte del Dataset “DS-Madridista”, y por lo tanto anotados como “Deporte-Futbol-MAD” (seguidor del club de futbol Real Madrid) en una de sus realizaciones serían:
El mundo entero se rindió a los pies del Madrid.
• ¿Por qué el Madrid es el mejor equipo del mundo?
• El gol de Karim curó las heridas del Real Madrid.
• A por la décima!
• Echar de menos al Real Madrid. A l mejor equipo del mundo. Echar de menos una pasión, un sentimiento, unos colores.
• Siempre yo te quiero y por siempre HALA MADRID. Hagamos que HALAMADRID sea TT !!
• "Noventa minutis en el Bernabeú son molto longos".
• Miedo escénico 3.0 en el Bernabéu. Exjugadores y analistas tratan de encontrar una explicación a las inexplicables remontadas del Madrid.
Es en este tipo de datasets donde se incluyen (indirectamente podríamos decir) las características de la personalidad que una persona expresa mediante el lenguaje. Las metáforas, lemas compartidos (por la mayoría los madridistas en el ejemplo anterior), las figuras retoricas y frases irónicas, todos estos recursos lingüísticos que una persona expresa en sus diálogos transcritos o en los textos que publica (en redes sociales por ejemplo) son la capa exterior que muestra las creencias, vivencias, experiencias, dudas, emociones que dicha persona ha ido acumulando y almacenando en su mente a lo largo de su vida y que son propias del nivel lingüístico pragmático. Son estos elementos lingüísticos los que nos permiten ubicar a dicha persona y permiten entender (a quien tenga conocimiento del entorno social y deportivo) todo lo que hay detrás de una simple frase. Una frase tan simple como "Hala Madrid!” sintetiza todos estos elementos y claramente permiten ubicar a una persona en la dimensión del EVC denominada “Deporte-Futbol-MAD-BCN” en el extremo positivo denominado “Deporte-Futbol-MAD”. Los sistemas de procesamiento de lenguaje natural existentes son en su mayoría como hemos comentado del tipo probabilístico y/o distribucional, es decir, buscan las relaciones entre las palabras y frases con las palabras y frases con las que aparecen en un texto, pero nunca llegar a cuantificar y entender la carga semántica y pragmática detrás de esas palabras o frases. En nuestro sistema sin embargo, la conjunción de una serie de dimensiones del Espacio Vectorial Cognitivo (EVC) junto con los datasets de entrenamiento así definidos nos permiten trabajar en el nivel pragmático y de alguna manera, acercarnos a una nueva era de sistemas de Inteligencia General Artificial (AGI) donde estaremos dotando a los sistemas de Inteligencia Artificial de capacidades para detectar "rasgos” de la personalidad asociados a un contexto social y personal.
Siguiendo con la figura 1 que representa los bloques básicos del método presentado en la invención, según una de sus realizaciones, en tercer lugar se realizaría el entrenamiento de los clasificadores de texto para cada dimensión del Espacio Vectorial Cognitivo (uno o dos clasificadores por cada dimensión según diferentes realizaciones). En el campo de la Inteligencia artificial y del aprendizaje automático supervisado, un clasificador clasifica un documento en clases predefinidas y proporciona etiquetas que representan clases asignadas al documento. El conjunto de clases en que los documentos se clasifican se define proporcionando datos de entrenamiento, que son un conjunto de documentos que tienen etiquetas correctas. Para cada una de las dimensiones del EVC se realiza el entrenamiento de los sistemas clasificadores de texto correspondientes a cada dimensión del EVC con el Dataset de entrada correspondiente. La arquitectura, algoritmos y procesos internos de dichos clasificadores pueden ser cualesquiera: en una de sus realizaciones sería una red neuronal densa, en otra una solución basada en Transformadores (Transformers), en otra máquinas de soporte vectorial (SVM del inglés Support Vector Machines), en otra clasificadores Bayesianos como Naive Bayes, en otra Bosques Aleatorios (random forests), y en otra incluso una combinación de varias o todas las anteriores. En una realización podría utilizarse un único clasificador multiclase para cada dimensión del EVC, mientras que en otra se utilizarían dos clasificadores diferentes, uno para cada extremo del eje.
En nuestro caso de ejemplo para el eje 1 (Dimensión "Deporte-Futbol-MAD-BCN”), se entrenaría al Clasificador denominado "CL-Deporte-Futbol-MAD” con el Dataset de entrenamiento denominado "DS-Madridista” y se entrenaría al Clasificador denominado "CL-Deporte-Futbol-BCN” con el Dataset de entrenamiento denominado "DS-Barcelonista” según las técnicas, algoritmos y propiedades del tipo de clasificador seleccionado. En una de sus realizaciones se realizaría el entrenamiento de una red neuronal densa mediante técnicas de "Propagación hacia atrás de errores” ("backpropagation” en lengua inglesa).
Siguiendo con la figura 1 que representa los bloques básicos del método presentado en la invención, según una de sus realizaciones, el cuarto paso sería la clasificación de las entidades bajo estudio (usuarios, grupos, publicaciones, documentos, páginas web, etc.), para su posterior segmentación, es decir se realizará para cada entidad una predicción para cada dimensión del Espacio Vectorial Cognitivo (EVC), y la ubicación de cada entidad a lo largo del eje o dimensión. Para ello se utilizan textos generados por las entidades bajo estudio (ya sean documentos, tuits, posts en redes sociales, transcripciones de audios, etc.) para crear un Dataset de Entrada para cada entidad que alimentarán como datos de entrada a todos los clasificadores de todas las dimensiones que forman el Espacio Vectorial Cognitivo (EVC). El resultado de la evaluación por parte de dichos clasificadores nos permite ubicar a cada entidad en dicho Espacio Vectorial Cognitivo (EVC).
La ubicación, en cada dimensión del espacio vectorial, de cada entidad podría hacerse, según una realización, generando por ejemplo un Dataset de datos creado a partir de 1.000 tuits recuperados de la cuenta de Twitter del diario "Marca” (@marca) denominado "DS-Marca”. Se ubica al diario "Marca” en el Espacio Vectorial Cognitivo (EVC) a partir del número máximo de textos de esa entidad evaluados por los clasificadores en cada una de las clases posibles o "polaridad máxima” (por ejemplo el número de tuits del diario "Marca” que el clasificador denominado "CL-Deporte-Futbol-MAD” clasifica como "Madridista” ya que este número será mayor que el número de tuits del diario "Marca” que el clasificador denominado "CL-Deporte-Futbol-BCN” clasifica como "Barcelonista”), en otra realización según su "polaridad relativa” (número de tuits del diario "Marca” que el clasificador denominado "CL-Deporte-Futbol-MAD” clasifica como "Madridista” menos el número de tuits del diario "Marca” que el clasificador denominado "CL-Deporte-Futbol-BCN” clasifica como "Barcelonista”), en otra realización según su "polaridad neta” (número real resultado de la sustracción del resultado del clasificador para el extremo de un eje menos el resultado del clasificador en el extremo opuesto de dicho eje dividido entre el número total de textos en el dataset de entrada), o en otra realización su "vector de polaridad” (vector con origen en el número real resultado del clasificador para un extremo del eje y fin en el número real resultado del clasificador para el extremo opuesto del eje) si queremos mantener la información de polaridad respecto a ambos extremos del eje.
En nuestro caso de ejemplo, en una de sus realizaciones podríamos generar una selección de entidades a estudiar que incluyera todos los periódicos españoles que tengan cuenta en Twitter (El País, ABC, Marca, As, Sport, etc.). Para cada uno de estos periódicos online se extraerían todos los tuits publicados en una fecha o intervalo de fechas dado para crear los Dataset correspondientes a cada periódico ("DS-El_País” , "DS-ABC”, "DS-Marca”, "DS-As” , "DS-Sport” , etc.). Una vez generados estos Datasets, estos se proporcionarían como datos de entrada a cada Clasificador el cual nos devolvería un resultado que indica la ubicación de cada periódico online en cada dimensión. Por ejemplo, en una realización en la que se extraigan de Twitter los últimos 1.000 tuits publicados por cada periódico, el diario "Marca” se ubicaría según su "polaridad máxima” en el extremo positivo de la dimensión "Deporte-Futbol-MAD-BCN”, es decir, en el extremo denominado "Deporte-Futbol-MAD” en el valor 257 (número de tuits que en una realización dicho clasificador evalúa como "Madridista”), mientras que el diario "Sport” se ubicaría por su parte en el extremo negativo de la dimensión "Deporte-Futbol-MAD-BCN”, es decir, en el extremo denominado "Deporte-Futbol-BCN” en el valor -321 (número de tuits que en la realización el clasificador "CL-Deporte-Futbol-BCN” evalúa como "Barcelonista”). En el caso de que se utilizara la métrica "polaridad relativa” el diario "Marca” se ubicaría según su "polaridad relativa” en el extremo positivo de la dimensión "Deporte-Futbol-MAD-BCN”, es decir, en el extremo denominado "Deporte-Futbol-MAD” en el valor 257-34 = 223 (número de tuits que en una realización el clasificador "CL-Deporte-Futbol-MAD” evalúa como "Madridista” , es decir 257 tuits, menos el número de tuits que el clasificador "CL-Deporte-Futbol-BCN” evalúa como "Barcelonista” , 34 tuits), mientras que el diario "Sport” se ubicaría por su parte en el extremo negativo de la dimensión "Deporte-Futbol-MAD-BCN”, es decir, en el extremo denominado "Deporte-Futbol-BCN” en el valor -301 = -(321-20) (número de tuits que en la realización el clasificador "CL-Deporte-Futbol-BCN” evalúa como "Barcelonista”, es decir, 321 tuits, menos el número de tuis que el clasificador "CL-Deporte-Futbol-MAD” evalúa como "Madridista”, al diario "Sport” , es decir 20 tuits ). Nótese que los resultados para cada realización y para cada ejecución del sistema serán diferentes al variar las condiciones internas de los clasificadores, sus algoritmos y parámetros utilizados, los datos de entrada seleccionados, etc.
Siguiendo con la figura 1 que representa los bloques básicos del método presentado en la invención, según una de sus realizaciones, el quinto paso sería la segmentación o agrupación de entidades a partir de la ubicación de todas las entidades bajo estudio en el EVC. En algunas realizaciones sería una segmentación en función de cualquier atributo o atributos seleccionados de las entidades, utilizando cualquier método propia de la Minería de Datos o del Marketing. Por ejemplo, podríamos realizar una segmentación de las entidades que agrupara a aquellas seguidoras del Real Madrid C.F (ubicadas en el extremo positivo “Deporte-Futbol-MAD” , de la dimensión “Deporte-Futbol-MAD-BCN” ) y que al mismo tiempo fueran partidarias de un estado centralizado (que en nuestro ejemplo estarían ubicadas en el extremo positivo, “Política-Organización_Territorial_del_Estado-CEN, de la dimensión “Política-Organización_Territorial_del_Estado-CEN-IND” ). En otras realizaciones se utilizarían técnicas de la inteligencia artificial para agrupar y segmentar a las entidades bajo estudio lo que ofrece una serie de ventajas sobre la segmentación tradicional como la eliminación de prejuicios humanos ya que los algoritmos de IA evalúan los datos sin ninguna presuposición, prejuicio ni parcialidad. Estos sistemas son también capaces de encontrar patrones ocultos en datos que un humano puede ser incapaz de detectar. La arquitectura, algoritmos y procesos internos de dichas soluciones de segmentación o agrupación para dividir el conjunto de entidades en un número de grupos mediante Inteligencia Artificial pueden ser cualesquiera: en una de sus realizaciones sería una solución de clustering K-Means (el clustering es una forma de aprendizaje no supervisado en aprendizaje automático donde no hay entrenamiento ni etiquetado), en otra realización clustering jerárquico (Hierarchical Clustering), en otra realización Modelos de Mezcla Gaussianos (Gaussian Mixture Models, GMM), etc.
Por lo tanto, las fases que definen a nuestro sistema según una de sus realizaciones serían:
1. Selección de dimensiones para definir un Espacio Vectorial Cognitivo (EVC) multidimensional. Cada dimensión se define de forma que puedan ubicarse en cada extremo de la misma elementos contrapuestos, estando uno de ellos en el extremo positivo de la dimensión o eje, y el otro en el extremo negativo de la misma dimensión o eje, o en otra realización la dimensión se define en función de un único elemento a lo largo de todo el eje.
2. Selección de los datos de entrenamiento para cada dimensión del espacio vectorial cognitivo (EVC) y creación de los conjuntos de datos anotados de entrenamiento (Datasets) correspondientes a cada dimensión (uno o dos para cada dimensión).
3. Entrenam iento de los m últip les clasificadores de texto para cada d im ensión del Espacio Vectoria l Cognitivo (dos clasificadores por cada dimensión, cada uno correspondiente a un extremo del eje o dimensión, o únicamente un clasificador por dimensión).
4. C lasificación y ubicación de las entidades bajo estudio en todos los ejes del Espacio Vectoria l C ognitivo (EVC) a partir de Datasets de Entrada creados para cada entidad bajo estudio.
5. Segmentación de entidades bajo estudio. Agrupación de entidades partir de la ubicación de todas las entidades bajo estudio en el EVC. En algunas realizaciones sería una segmentación en función de cualquier atributo o atributos seleccionados de las entidades, utilizando cualquier método propia de la Minería de Datos o del Marketing mientras que en otras realizaciones se utilizarían técnicas de la inteligencia artificial.
Como principales ventajas de nuestra invención destacan:
1. La utilización de un m étodo que perm ite reducir la com ple jidad de la mente humana (entendida como el conjunto de emociones, creencias, vivencias generadas a lo largo de la vida que se almacenan en dicha mente humana y que las personas transmiten a través del lenguaje). Dicha reducción se consigue mediante la utilización de un número finito de dimensiones que forman un Espacio Vectorial Cognitivo (EVC) y que permiten la segmentación de entidades a partir de los textos que generan.
2. La inc lus ión de elementos del nivel pragm ático del anális is lingü ístico en tareas de segm entación. El nivel pragmático estudia la porción de significado que no es convencional o gramatical, es decir, que no está codificado por reglas. Se incorpora el conocimiento del mundo y del contexto de uso ya que cada dimensión está definida en un contexto definido y concreto (Política-Ideología, Deportes-Futbol por ejemplo). En la creación de los conjuntos de datos (datasets) de entrenamiento del sistema se incluyen elementos propios de la Pragmática tales como términos y frases que utilicen el lenguaje figurado (metáfora e ironía) y el conocimiento del campo específico (economía, política, deporte, etc.).
3. Se automatiza la segm entación de entidades a través de textos, perm itiéndose la inc lus ión de nuevos elementos de segm entación y la reutilización de los elementos existentes. A diferencia de las técnicas y sistemas existentes en psicografía, marketing, investigación de mercados, etc., la inclusión de una nueva dimensión de análisis y segmentación en nuestra invención se realiza mediante la inclusión de una nueva dimensión en el Espacio Vectorial Cognitivo (EVC) y su clasificador o clasificadores correspondientes, reutilizándose todos los conjuntos de datos, valoraciones, ubicaciones y segmentaciones realizadas anteriormente para otras dimensiones del EVC. Las soluciones actuales en psicografía, marketing, etc., deducen las características de la personalidad basándose en modelos con un número fijo y definido de características o dimensiones de personalidad que caracterizan a un individuo, no permitiendo representar la complejidad de una mente humana ni el escalado de los sistemas desarrollados para incluir nuevas dimensiones de personalidad.
. Se automatiza la seguridad en las redes sociales y ante la desinformación al permitirse la ubicación y segmentación de cuentas y perfiles en redes sociales que emitan mensajes similares (granjas de bots), ya que dichos perfiles aparecen generalmente en unas pocas dimensiones del EVC y están ubicados en áreas definidas de dicho EVC.
BREVE DESCRIPCIÓN DE LOS DIBUJOS
Para complementar la descripción que se está realizando y con objeto de ayudar a una mejor comprensión de las características de la invención, se acompaña como parte integrante de dicha descripción un juego de dibujos en donde, con carácter ilustrativo y no limitativo, se ha representado lo siguiente:
Figura 1.- La figura 1 representa los bloques básicos de la invención, según una de sus realizaciones, donde en el bloque 101 se selecciona un conjunto de dimensiones que forman el Espacio Vectorial Cognitivo (EVC) para las cuales se definen a su vez los dos extremos (positivo y negativo). En el bloque 102 se seleccionan los datos de entrenamiento para cada dimensión del espacio vectorial cognitivo (EVC) y se crean los conjuntos de datos anotados de entrenamiento (Datasets). En el bloque 103 se realiza el entrenamiento de los múltiples clasificadores de texto para cada dimensión del Espacio Vectorial Cognitivo (EVC) con su Dataset de entrenamiento correspondiente. En el bloque 104 se realiza para cada entidad bajo estudio una evaluación mediante cada clasificador de cada dimensión del Espacio Vectorial Cognitivo (EVC). Para realizar dicha evaluación se utilizan Datasets creados para cada entidad que se utilizan como datos de entrada a los clasificadores. El resultado de la evaluación por parte de dichos clasificadores nos permite ubicar a cada entidad en el Espacio Vectorial Cognitivo. En el bloque 105 se realiza la segmentación o agrupación de entidades bajo estudio partir de la ubicación de dichas entidades en el EVC.
Figura 2.- La Figura 2 representa una realización del entrenamiento de los dos clasificadores definidos para la dimensión del Espacio Vectorial Cognitivo (EVC) denominada “Deporte-Futbol-MAD-BCN” con textos de entrenamiento etiquetados para ambos extremos de la dimensión. En ella se presentan los conjuntos de datos de entrenamiento o dataset 201 “DS-Madridista”, 202 “DS-Barcelonista” , así como los clasificadores 203 “CL-Deporte-Futbol-MAD” y 204 “CL-Deporte-Futbol-BCN”.
Figura 3.- La Figura 3 representa una realización del entrenamiento del único clasificador definido para la dimensión del Espacio Vectorial Cognitivo (EVC) denominada “Deporte-Futbol-MAD-BCN” con textos de entrenamiento etiquetados para ambos extremos de la dimensión. En ella se presentan los conjuntos de datos de entrenamiento o dataset 301 “DS-Madridista”, 302 “DS-Barcelonista”, así como el clasificador 303 “CL-Deporte-Futbol-MAD-BCN”.
Figura 4.- La Figura 4 representa una realización de la evaluación con dos clasificadores 402 “CL-Deporte-Futbol-MAD” y 403 “CL-Deporte-Futbol-BCN” definidos para la dimensión del Espacio Vectorial Cognitivo (EVC) denominada “Deporte-Futbol-MAD-BCN” . Dicha evaluación se realiza para una entidad, en este caso el diario deportivo con presencia en redes sociales e internet “Marca”. Para dicha entidad se han recogido una serie de textos de entrada (1.000 tuits en esta realización) no etiquetados para crear el dataset 401 “DS-Marca” que se utiliza para evaluar ambos extremos de la dimensión mediante ambos clasificadores. En esta figura se presentan también los resultados de una realización de dicha evaluación por ambos clasificadores, representando el recuadro 404 el número de tuits evaluados como “Madridista” por el primer clasificador “CL-Deporte-Futbol-MAD” (257 tuits) y el recuadro 405 el número de tuits evaluados como “Barcelonista” por el segundo clasificador “CL-Deporte-Futbol-BCN” (34 tuits). Se presenta también en el recuadro 406 una realización del resultado de la evaluación del diario “Marca” por el conjunto de la solución, presentándose el cálculo de varias métricas como la “Polaridad Máxima” , la “Polaridad Neta” , “Polaridad Relativa” y el “Vector de Polaridad”.
Figura 5.- La Figura 5 representa una realización de la evaluación con un único clasificador 502 “CL-Deporte-Futbol-MAD-BCN” definido para la dimensión del Espacio Vectorial Cognitivo (EVC) denominada “Deporte-Futbol-MAD-BCN” . Dicha evaluación se realiza para una entidad, en este caso el diario deportivo con presencia en redes sociales e internet “Marca”. Para dicha entidad se han recogido una serie de textos de entrada (1.000 tuits en esta realización) no etiquetados para crear el dataset 501 “DS-Marca” que se utiliza para evaluar ambos extremos de la dimensión mediante un único clasificador. En esta figura se presentan también los resultados de una realización de dicha evaluación por ambos clasificadores, representando el recuadro 503 el número de tuits evaluados como “Madridista” por el primer clasificador “CL-Deporte-Futbol-MAD” (257 tuits) y el recuadro 504 el número de tuits evaluados como “Barcelonista” por el segundo clasificador “CL-Deporte-Futbol-BCN” (34 tuits). Se presenta también en el recuadro 505 una realización del resultado de la evaluación del diario “Marca” por el conjunto de la solución, presentándose el cálculo de varias métricas como la “Polaridad Máxima”, la “Polaridad Neta”, “Polaridad Relativa” y el "Vector de Polaridad” .
Figura 6.- La Figura 6 representa una realización de la invención, siendo 601 una representación general de la mente humana como conjunto de experiencias, vivencias, recuerdos, creencias, ideología, emociones, etc., la cual aproximamos a un espacio vectorial con un número de dimensiones infinitas, 602 una representación del sistema objeto de esta invención que realiza una selección de dimensiones para crear 603, una realización del Espacio Vectorial Cognitivo (EVC) con 3 dimensiones, así como la reducción de dimensiones de la mente humana a un número finito de dimensiones (tres en esta realización) lo que nos permite realizar las tareas de ubicación y posterior segmentación para tres entidades, 604, ubicadas en el espacio vectorial cognitivo tridimensional.
REALIZACIÓN PREFERENTE DE LA INVENCIÓN
En la figura 1 se explican de manera gráfica el método utilizado en una realización preferente de nuestra invención:
• 101, Selección de dimensiones para definir un Espacio Vectorial Cognitivo (EVC) multidimensional utilizando en los dos extremos de cada dimensión elementos contrapuestos.
• 102, Selección de los datos de entrenamiento para cada dimensión del espacio vectorial cognitivo (EVC) y creación de dos conjuntos de datos anotados de entrenamiento (Datasets) correspondientes a cada extremo de la dimensión que incluyan elementos del nivel pragmático del lenguaje y textos del campo de conocimiento propio de cada dimensión.
• 103, Entrenamiento de los dos clasificadores de texto utilizados en cada dimensión del Espacio Vectorial Cognitivo mediante sistemas de aprendizaje automático supervisado (Figura 2). La realización preferente de dichos clasificadores estará basada en Transformadores (Transformers) con una etapa final de clasificación lineal.
• 104, Clasificación y ubicación de entidades (personas, grupos, etc.) en todos los ejes del Espacio Vectorial Cognitivo (EVC) a partir de Datasets de Entrada creados para cada entidad bajo estudio (Figura 4).
• 105, Segmentación de las entidades bajo estudio. Ubicación en el EVC (Figura 6, 604) y agrupación/segmentación de todas las entidades bajo estudio mediante técnicas de aprendizaje automático no supervisado.
En cuanto a la aplicación Industrial de nuestra invención, ésta es de aplicación en sistemas que necesiten identificar y segmentar a entidades que generen texto, entre otros:
Sistemas de detección de cuentas falsas empleadas en campañas de desinformación en redes sociales y medios. Las denominadas cuentas fake y granjas de bots en redes tienen perfiles similares al ser ubicadas mediante nuestro sistema, suelen concentrarse en unas pocas dimensiones del EVC y en las mismas zonas de dichas dimensiones con lo que puede realizarse una localización y segmentación de usuarios que las detecte automáticamente.
Sistemas de bots cognitivos que utilicen la segmentación de usuarios para ofrecer servicios personalizados basados en sus preferencias y en su ubicación en las diferentes dimensiones del EVC. En una realización podría crearse un chatbot que estuviera entrenado únicamente con datasets propios de un área concreta del EVC y por lo tanto mejor adaptado al trato con personas con las que coincida en dicha área del EVC. Este es un campo que podríamos calificar como más cercano a la Inteligencia General Artificial (AGI) que los sistemas existentes en la actualidad al poderse argumentar que estamos dando una “personalidad” a dicho chatbot.
Sistemas de marketing contextual y publicidad personalizada al permitir nuestro sistema la entrega de contenido y publicidad precisa, relevante y a la medida de un segmento de personas sin restringirnos al uso de rasgos demográficos, económicos, de nivel de educación o psicográficos estándar, si no que mediante la utilización de varios sistemas de marketing y publicidad personalizada, cada uno entrenado para estar ubicado en un área concreta del EVC, podemos disponer de una versión adaptada a cada segmento de clientes ubicado en dicho EVC.

Claims (5)

REIVINDICACIONES
1. Método para segmentar a entidades (personas, grupos de personas, publicaciones, páginas web u otros) a partir de textos generados por dichas entidades (ya sean documentos, tuits, posts en redes sociales, transcripciones de audios, u otros) que comprende:
a. Creación de un Espacio Vectorial Cognitivo (EVC) de una o varias dimensiones.
b. Selección de los datos de entrenamiento para cada dimensión del espacio vectorial cognitivo (EVC) y creación del conjunto o conjuntos de datos anotados de entrenamiento (Datasets de Entrenamiento) correspondientes a las dimensiones del Espacio Vectorial Cognitivo (EVC) que incluyan elementos del nivel pragmático del lenguaje y textos del campo de conocimiento propio de cada dimensión.
c. Selección y entrenamiento de sistemas clasificadores de texto con los Datasets de Entrenamiento correspondientes para cada dimensión del Espacio Vectorial Cognitivo.
d. Clasificación y ubicación de las entidades bajo estudio en todos los ejes del Espacio Vectorial Cognitivo (EVC) a partir de los Datasets de Entrada creados para cada entidad bajo estudio.
e. Segmentación de las entidades bajo estudio mediante cualquier método.
2. Método según reivindicación (1) que comprende:
a. Dimensiones del EVC definidas por un valor que define el extremo positivo del eje de la dimensión y otro valor que define el extremo negativo y que está contrapuesto al valor del extremo positivo. b. Selección de los datos de entrenamiento para cada extremo de cada dimensión del espacio vectorial cognitivo (EVC) y creación de dos conjuntos de datos anotados de entrenamiento (Datasets de Entrenamiento) correspondientes al extremo negativo y al extremo positivo que incluyan elementos del nivel pragmático del lenguaje y textos del campo de conocimiento propio de cada dimensión. c. Selección y entrenamiento de los clasificadores de texto con los Datasets de Entrenamiento correspondientes para cada uno de los dos extremos de cada dimensión del Espacio Vectorial Cognitivo.
d. Clasificación y ubicación de las entidades bajo estudio en todos los ejes del Espacio Vectorial Cognitivo (EVC) a partir de los Datasets de Entrada creados para cada entidad bajo estudio.
e. Segmentación de las entidades bajo estudio mediante cualquier método.
3. Método según cualquiera de las reivindicaciones 1 ó 2 que comprende:
a. Sistemas Clasificadores de texto basados en Transformadores (Transformers).
4. Método según cualquiera de las reivindicaciones 1,2 ó 3 que comprende: a. Segmentación de las entidades bajo estudio mediante técnicas de aprendizaje automático no supervisado.
5. Sistema configurado para implementar el método según cualquiera de las reivindicaciones anteriores caracterizado por que el sistema comprende: a. Una conexión de datos para recoger textos de internet, bases de datos o cualquier otro medio externo de almacenamiento.
b. Al menos un dispositivo de memoria.
c. Al menos un procesador.
d. Un programa informático que cuando es ejecutado en al menos un procesador realice el método según cualquiera de las reivindicaciones 1, 2, 3 ó 4.
e. Un dispositivo externo de procesamiento de textos para identificar y seleccionar textos de interés y generar conjuntos de datos (Datasets) en base a las dimensiones del Espacio Vectorial Cognitivo (EVC) antes definido.
ES202230942A 2022-10-29 2022-10-29 Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios Pending ES2933625A1 (es)

Priority Applications (1)

Application Number Priority Date Filing Date Title
ES202230942A ES2933625A1 (es) 2022-10-29 2022-10-29 Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
ES202230942A ES2933625A1 (es) 2022-10-29 2022-10-29 Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios

Publications (1)

Publication Number Publication Date
ES2933625A1 true ES2933625A1 (es) 2023-02-10

Family

ID=85158942

Family Applications (1)

Application Number Title Priority Date Filing Date
ES202230942A Pending ES2933625A1 (es) 2022-10-29 2022-10-29 Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios

Country Status (1)

Country Link
ES (1) ES2933625A1 (es)

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130041652A1 (en) * 2006-10-10 2013-02-14 Abbyy Infopoisk Llc Cross-language text clustering
US20150199333A1 (en) * 2014-01-15 2015-07-16 Abbyy Infopoisk Llc Automatic extraction of named entities from texts
US20180032508A1 (en) * 2016-07-28 2018-02-01 Abbyy Infopoisk Llc Aspect-based sentiment analysis using machine learning methods
CN111666373A (zh) * 2020-05-07 2020-09-15 华东师范大学 一种基于Transformer的中文新闻分类方法
WO2021114840A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 基于语义分析的评分方法、装置、终端设备及存储介质
CN113191160A (zh) * 2021-05-25 2021-07-30 新疆大学 一种知识感知的情感分析方法
CN113901219A (zh) * 2021-10-11 2022-01-07 国网电子商务有限公司 一种基于意图识别的数据分析方法及系统
CN114860930A (zh) * 2022-04-25 2022-08-05 桂林电子科技大学 一种文本分类方法、装置以及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20130041652A1 (en) * 2006-10-10 2013-02-14 Abbyy Infopoisk Llc Cross-language text clustering
US20150199333A1 (en) * 2014-01-15 2015-07-16 Abbyy Infopoisk Llc Automatic extraction of named entities from texts
US20180032508A1 (en) * 2016-07-28 2018-02-01 Abbyy Infopoisk Llc Aspect-based sentiment analysis using machine learning methods
CN111666373A (zh) * 2020-05-07 2020-09-15 华东师范大学 一种基于Transformer的中文新闻分类方法
WO2021114840A1 (zh) * 2020-05-28 2021-06-17 平安科技(深圳)有限公司 基于语义分析的评分方法、装置、终端设备及存储介质
CN113191160A (zh) * 2021-05-25 2021-07-30 新疆大学 一种知识感知的情感分析方法
CN113901219A (zh) * 2021-10-11 2022-01-07 国网电子商务有限公司 一种基于意图识别的数据分析方法及系统
CN114860930A (zh) * 2022-04-25 2022-08-05 桂林电子科技大学 一种文本分类方法、装置以及存储介质

Similar Documents

Publication Publication Date Title
Thorstad et al. Predicting future mental illness from social media: A big-data approach
Lin et al. Lexical based automated teaching evaluation via students’ short reviews
Preotiuc-Pietro et al. Studying the Dark Triad of personality through Twitter behavior
Berger et al. Using natural language processing to understand people and culture.
Stern et al. The liberal illusion of uniqueness
Xia Liu et al. Assessing the Unacquainted: Inferred Reviewer Personality and Review Helpfulness.
Han et al. A review on sentiment discovery and analysis of educational big‐data
Bellot et al. INEX Tweet Contextualization task: Evaluation, results and lesson learned
Ding et al. Interpreting social media-based substance use prediction models with knowledge distillation
Alamsyah et al. Ontology modelling approach for personality measurement based on social media activity
Lin et al. Neural topic modeling of psychotherapy sessions
Bhavya et al. Personality identification from social media using deep learning: a review
Berger et al. Marketing insights from text analysis
Berger et al. Wisdom from words: marketing insights from text
Kakar et al. Value-based retweet prediction on Twitter
Mazzuca et al. Gender is conceptualized in different ways across cultures
Azzam et al. A model for generating a user dynamic profile on social media
Kocielnik et al. Reciprocity and donation: how article topic, quality and dwell time predict banner donation on wikipedia
ES2933625A1 (es) Metodo y sistema utilizando tecnicas de inteligencia artificial general para la segmentacion de usuarios
Kovács et al. The Stickiness of Category Labels: Audience Perception and Evaluation of Change in Creative Markets
Khanam Sentiment Analysis of user reviews in an Online Learning Environment: Analyzing the Methods and Future Prospects
Menk et al. Predicting the human curiosity from users' profiles on facebook
MacNiven et al. The language of marketing hyperbole and consumer perception–The case of Glasgow
Chopra et al. Semantic Topic Chains for Modeling Temporality of Themes in Online Student Discussion Forums.
Sayed et al. Predict student learning styles and suitable assessment methods using click stream

Legal Events

Date Code Title Description
BA2A Patent application published

Ref document number: 2933625

Country of ref document: ES

Kind code of ref document: A1

Effective date: 20230210

FC2A Grant refused

Effective date: 20240306