FR2979156A1 - Method for processing data captured on e.g. mobile telephone, in computer system, involves determining sorting algorithm by computer device based on data received by device and iterations of definition algorithm executed in device - Google Patents

Method for processing data captured on e.g. mobile telephone, in computer system, involves determining sorting algorithm by computer device based on data received by device and iterations of definition algorithm executed in device Download PDF

Info

Publication number
FR2979156A1
FR2979156A1 FR1157375A FR1157375A FR2979156A1 FR 2979156 A1 FR2979156 A1 FR 2979156A1 FR 1157375 A FR1157375 A FR 1157375A FR 1157375 A FR1157375 A FR 1157375A FR 2979156 A1 FR2979156 A1 FR 2979156A1
Authority
FR
France
Prior art keywords
data
categories
classification
algorithm
computing device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1157375A
Other languages
French (fr)
Other versions
FR2979156B1 (en
Inventor
Gael Rosset
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Myriad Group AG
Original Assignee
Myriad Group AG
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Myriad Group AG filed Critical Myriad Group AG
Priority to FR1157375A priority Critical patent/FR2979156B1/en
Priority to PCT/EP2012/050308 priority patent/WO2012095420A1/en
Priority to US13/979,472 priority patent/US10116730B2/en
Publication of FR2979156A1 publication Critical patent/FR2979156A1/en
Application granted granted Critical
Publication of FR2979156B1 publication Critical patent/FR2979156B1/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • G06Q30/0256User search
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Abstract

The method involves executing a sorting algorithm (20) for sorting into categories, which is stored in a computer device (14) e.g. mobile telephone, and determining category among the categories for each batch of data. An action is selectively triggered based on the category, where the algorithm is obtained in advance by a data sample generated for each category. The algorithm is determined by another computer device (12) i.e. computer server, based on the data received by the latter device for the sample and consecutive iterations of a definition algorithm (18) executed in the latter device. Independent claims are also included for the following: (1) a computer system comprising computer resources (2) a computer program comprising instructions for implementing steps of a method for processing data captured on a user terminal.

Description

Procédé de traitement, dispositifs informatiques, système informatique comprenant de tels dispositifs, et programme d'ordinateur associé La présente invention concerne le domaine des systèmes informatiques comprenant un premier et un deuxième dispositifs informatiques reliés par une liaison de données. Selon un premier mode de réalisation, les dispositifs informatiques sont des serveurs informatiques. Plus particulièrement, l'invention concerne les techniques de classification de lots de données reçus par le deuxième dispositif informatique. Selon un deuxième mode de réalisation, le premier dispositif est un serveur et le deuxième dispositif est un terminal utilisateur parmi des terminaux utilisateurs adaptés pour communiquer avec une plate-forme de services par l'intermédiaire d'un réseau de télécommunications. Plus particulièrement, l'invention concerne les techniques de classification des terminaux utilisateurs ou des utilisateurs de ces terminaux par analyse de l'ensemble des données saisies sur ces terminaux, en vue notamment d'adapter des caractéristiques des services fournis par la plate-forme en fonction de la classification effectuée. Ci-dessous, il sera fait référence à la classification des terminaux utilisateurs, toutefois l'invention s'applique de façon indifférenciée à la classification des utilisateurs de ces terminaux. Un mode opératoire de classification connu est décrit ci-dessous en référence à la figure 1. Les terminaux utilisateurs U1 à Uk sont par exemple des téléphones mobiles. Ils ont accès via un réseau de radiocommunications 3G ou WIFI à une plate-forme de services S1, S2, ... Ss. Ces services, délivrés par des fournisseurs de services, comprennent par exemple des applications, sites ou pages Web. Les téléphones mobiles sont munis d'une application logicielle de type « mouchard », qui copie les éléments saisis ou sélectionnés par l'utilisateur lors de son utilisation opérationnelle du téléphone pour requérir ou utiliser des services délivrés par la plate-forme, mais aussi des services ou applications qui sont locaux au terminal ou extérieurs à la plate-forme. L'application logicielle transmet ces éléments au moteur d'analyse 2. The present invention relates to the field of computer systems comprising a first and a second computing device connected by a data link. According to a first embodiment, the computing devices are computer servers. More particularly, the invention relates to techniques for classifying data batches received by the second computing device. According to a second embodiment, the first device is a server and the second device is a user terminal among user terminals adapted to communicate with a service platform via a telecommunications network. More particularly, the invention relates to the classification techniques of user terminals or users of these terminals by analyzing all the data entered on these terminals, in particular in order to adapt the characteristics of the services provided by the platform. according to the classification carried out. Below, reference will be made to the classification of the user terminals, however the invention applies in an undifferentiated manner to the classification of the users of these terminals. A known classification procedure is described below with reference to FIG. 1. The user terminals U1 to Uk are, for example, mobile telephones. They have access via a 3G or WIFI radio network to a service platform S1, S2, ... Ss These services, delivered by service providers, comprise, for example, applications, sites or Web pages. Mobile phones are provided with a software application type "cookie", which copies the items entered or selected by the user during its operational use of the phone to require or use services delivered by the platform, but also services or applications that are local to the terminal or outside the platform. The software application transmits these elements to the analysis engine 2.

Ainsi, lorsque les utilisateurs des terminaux utilisateurs U1 à Uk écrivent des emails, des SMS, des mots-clefs dans un moteur de recherche, sélectionnent des liens internet, renseignent les pages « Facebook », naviguent sur des pages web sélectionnées, l'ensemble de ces éléments sont transmis à destination de la plate-forme de services pour rendre le service concerné, respectivement l'acheminement des emails, des SMS (« short message service »), MMS (« multimedia message service »), la fourniture du résultat de la recherche sur la base des mots-clefs, l'affichage des pages Web sélectionnées, la mise à jour de la page « Facebook ». En outre, ces éléments associés à un identifiant du dispositif (ou similairement un identifiant de l'utilisateur) sont transmis en parallèle au moteur d'analyse 2. Lorsque le moteur d'analyse 2 reçoit ces éléments de format, de contenu et de nature variés et inconnus, il détermine en fonction de l'identifiant associé aux éléments la recherche de classification, ou les recherches de classification, à réaliser sur les différents éléments. Les recherches de classification sont donc effectuées à partir de données dont la forme, la nature et la signification sont inconnues. Ces recherches peuvent être diverses et peuvent avoir pour but de caractériser l'âge, le sexe, les centres d'intérêt, les attentes de l'utilisateur en terme de qualité/rapidité de service, les contraintes techniques rencontrées etc. Dans un exemple, une première recherche de classification a pour fonction de sélectionner une classe parmi les classes suivantes : « enfant », « adultes », « sénior ». Une autre recherche de classification a par exemple pour fonction de sélectionner une classe parmi les classes suivantes : « amateur de foot », « amateur de golf », « amateur de cyclisme », « amateur de tennis >>. Une fois que la recherche de classification, nommée RCA, à mener sur les éléments associés à un identifiant est déterminée, le moteur d'analyse 2 analyse ces éléments à l'aide de règles, mots-clés, algorithmes, dictionnaires, grammaires, présents dans la base de données 3 en vue de sélectionner la classe pertinente parmi les différentes classes, nommées CRCA1, CRCA2,-, CRCAn associées à cette recherche de classification. Thus, when the users of the user terminals U1 to Uk write emails, SMS, keywords in a search engine, select web links, fill the "Facebook" pages, navigate on selected web pages, the whole of these elements are transmitted to the service platform to make the service concerned, respectively the routing of emails, SMS ("short message service"), MMS ("multimedia message service"), the provision of the result search on the basis of the keywords, the display of the selected web pages, the update of the "Facebook" page. In addition, these elements associated with an identifier of the device (or similarly an identifier of the user) are transmitted in parallel to the analysis engine 2. When the analysis engine 2 receives these elements of format, content and nature varied and unknown, it determines according to the identifier associated with the elements the classification search, or classification searches to be performed on the various elements. Classification searches are therefore performed from data whose shape, nature and meaning are unknown. This research can be diverse and may aim to characterize the age, gender, interests, the expectations of the user in terms of quality / speed of service, technical constraints encountered, etc. In one example, a first classification search has the function of selecting a class among the following classes: "child", "adults", "senior". Another function of classification research is, for example, to select a class among the following classes: "football lover", "golf lover", "cycling lover", "tennis lover". Once the classification search, named RCA, to conduct on the elements associated with an identifier is determined, the analysis engine 2 analyzes these elements using rules, keywords, algorithms, dictionaries, grammars, present in the database 3 in order to select the relevant class among the different classes, named CRCA1, CRCA2, -, CRCAn associated with this classification search.

Une ou plusieurs actions sont alors déclenchées à destination du terminal utilisateur considéré, en fonction de la classe sélectionnée pour ce terminal utilisateur. On connaît par ailleurs l'Outil Google analytics. Par ailleurs, le document WO 01/20481 décrit un système pour déterminer des profils d'utilisateurs utilisant des terminaux utilisateurs pour la navigation Web. Selon ce document, un serveur P.O.P (en anglais « Point Of Presence ») distant donnant accès à Internet, collecte et stocke les requêtes d'adresses URL (en anglais « Uniform Resource Locator ») émises par les terminaux en correspondance avec les identifiants des utilisateurs. Un moteur d'analyse (« client profiling component ») du serveur P.O.P détermine ensuite un profil des utilisateurs, ou l'actualise, en fonction des données collectées et d'informations d'une base de données contenant une copie d'une base de données d'un serveur dit serveur-maître. Ces informations contiennent des caractéristiques démographiques affectées à des adresses URL, telles que celles correspondant au service « Nielsen Net Ratings ». La base de données « Nielsen Net Ratings » est établie en observant un échantillon de population et en notant les sites qu'ils visitent : des profils sont associés à des sites web particuliers. Ces techniques présentent cependant un certain nombre d'inconvénients. One or more actions are then triggered to the user terminal considered, depending on the class selected for this user terminal. We also know the Google Analytics Tool. In addition, WO 01/20481 discloses a system for determining user profiles using user terminals for web browsing. According to this document, a remote POP ("Point Of Presence") server giving access to the Internet, collects and stores the requests of URLs (in English "Uniform Resource Locator") issued by the terminals in correspondence with the identifiers of the users. A client profiling component of the POP server then determines a user profile, or updates it, based on the collected data and information of a database containing a copy of a database. data from a server called master server. This information contains demographic characteristics assigned to URLs, such as those for the "Nielsen Net Ratings" service. The Nielsen Net Ratings database is compiled by observing a sample of the population and noting the sites they visit: profiles are associated with particular websites. These techniques, however, have a number of disadvantages.

Tout d'abord, les éléments saisis par l'utilisateur pendant un usage opérationnel du téléphone mobile sont transmis à un serveur distant, en association avec son identifiant, ce qui pose de gros problème de sécurité et de confidentialité, puisque ces éléments peuvent comporter des informations que l'utilisateur ne souhaite pas voir ainsi divulguées. Crypter la transmission n'empêche pas la possibilité d'utilisation frauduleuse des éléments au niveau du serveur d'analyse, d'autant plus que ces éléments y sont fréquemment stockés un certain temps en vue d'être réutilisés par le serveur pour affiner la classification effectuée à un premier stade. Une telle transmission d'éléments sans consentement préalable des utilisateurs est également préjudiciable. First, the items entered by the user during operational use of the mobile phone are transmitted to a remote server, in association with its identifier, which poses a major problem of security and confidentiality, since these elements may include information that the user does not wish to see as disclosed. Encrypting the transmission does not prevent the possibility of fraudulent use of the elements at the level of the analysis server, especially since these elements are frequently stored there for some time in order to be reused by the server to refine the classification. carried out at a first stage. Such transmission of elements without the prior consent of users is also detrimental.

Par ailleurs, le traitement réalisé par le moteur d'analyse nécessite un volume de ressources de calcul très important et le volume de la base de données est lui aussi très conséquent. Le but de l'invention est de proposer un procédé de traitement permettant de résoudre les problèmes précités. Furthermore, the processing performed by the analysis engine requires a very large amount of computing resources and the volume of the database is also very significant. The object of the invention is to provide a method of treatment for solving the aforementioned problems.

A cet effet, l'invention a pour objet un procédé de traitement dans un système comprenant un premier et un deuxième dispositifs informatiques reliés par une liaison de données, le deuxième dispositif recevant des lots de données à classer parmi N catégories, selon lequel : - un algorithme de classification selon N catégories, mémorisé dans le deuxième dispositif, est exécuté dans le deuxième dispositif et détermine, pour chaque lot de données, une catégorie respective parmi les N catégories ; - une action est déclenchée sélectivement en fonction de la catégorie respectivement déterminée pour lesdits lots de données reçus; l'algorithme de classification selon les N catégories ayant été préalablement obtenu selon les étapes suivantes : - i/ un échantillon de données est constitué pour chacune des N catégories ; - ii/ en fonction des données reçues par le premier dispositif pour les échantillons de données, un algorithme de classification selon les N catégories est déterminé par le premier dispositif en fonction d'itérations successives d'un algorithme de définition exécuté dans le premier dispositif. For this purpose, the subject of the invention is a processing method in a system comprising a first and a second computing device connected by a data link, the second device receiving batches of data to be classified among N categories, according to which: a classification algorithm according to N categories, stored in the second device, is executed in the second device and determines, for each batch of data, a respective category among the N categories; an action is triggered selectively according to the category respectively determined for said batches of data received; the classification algorithm according to the N categories having previously been obtained according to the following steps: i / a sample of data is constituted for each of the N categories; ii / according to the data received by the first device for the data samples, a classification algorithm according to the N categories is determined by the first device as a function of successive iterations of a definition algorithm executed in the first device.

Suivant d'autres aspects avantageux de l'invention, le procédé de traitement comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toutes les combinaisons techniquement possibles : - l'algorithme de classification comporte des règles de classification, chaque règle de classification étant associée à une parmi la pluralité de catégories, chaque règle de classification comportant au moins une séquence logique visant à associer sélectivement au moins un élément-clé déterminé à une catégorie donnée ; - lors de l'étape ii/, un élément-clé est retiré des données reçues lorsque le nombre M d'inclusions dudit élément-clé dans un ensemble de plusieurs règles de classification déterminées lors des itérations précédentes est supérieur ou égal à 2, de préférence égal à 3 ou 4 ; - lors de l'étape ii/, chaque règle de classification est évaluée à partir d'exemplaires de test pour chaque catégorie, et l'évaluation est pondérée en fonction du nombre d'exemplaires de test dans chaque catégorie ; - le premier dispositif informatique est un serveur et le deuxième dispositif informatique est un terminal utilisateur parmi une pluralité de terminaux utilisateurs reliés à une plate-forme de services par un réseau de télécommunications, les lots de données reçus sont des données saisies sur les terminaux utilisateurs et transmises sur le réseau à destination de la plate-forme de services et transmises en outre à destination du serveur, l'algorithme de classification détermine, pour chaque terminal utilisateur, une catégorie respective parmi les N catégories, en fonction des données saisies sur le terminal utilisateur et transmises sur le réseau à destination de la plate-forme de services, l'action est déclenchée sélectivement à destination d'au moins certains desdits terminaux en fonction de la catégorie respectivement déterminée pour lesdits terminaux, lors de l'étape i/, l'échantillon de données est un échantillon de terminaux utilisateurs constitué pour chacune des N catégories, les données saisies sur les terminaux utilisateurs et transmises sur le réseau par le terminal utilisateur à destination de la plate-forme de services étant transmises en outre à destination du serveur. Un tel procédé permet d'accroître considérablement la sécurité et la confidentialité d'usage des données saisies librement par l'opérateur lors de l'utilisation opérationnelle «espionnée » par l'algorithme de classification. According to other advantageous aspects of the invention, the treatment method comprises one or more of the following characteristics, taken in isolation or in any technically possible combination: the classification algorithm comprises classification rules, each rule classification being associated with one of the plurality of categories, each classification rule including at least one logical sequence for selectively associating at least one determined key-element with a given category; in step ii /, a key element is removed from the data received when the number M of inclusions of said key element in a set of several classification rules determined during the previous iterations is greater than or equal to 2, of preferably equal to 3 or 4; in step ii /, each classification rule is evaluated from test copies for each category, and the evaluation is weighted according to the number of test copies in each category; the first computing device is a server and the second computing device is a user terminal among a plurality of user terminals connected to a service platform by a telecommunications network, the data batches received are data entered on the user terminals. and transmitted over the network to the service platform and transmitted further to the server, the classification algorithm determines, for each user terminal, a respective category among the N categories, based on the data entered on the server. user terminal and transmitted on the network to the service platform, the action is triggered selectively to at least some of said terminals according to the category respectively determined for said terminals, during step i / , the sample of data is a sample of user terminals consisting of for each of the N categories, the data entered on the user terminals and transmitted over the network by the user terminal to the service platform is further transmitted to the server. Such a method makes it possible to considerably increase the security and the confidentiality of use of the data entered freely by the operator during the operational use "spied on" by the classification algorithm.

En effet, il ne donne lieu à la copie et la transmission à des fins d'analyse pour classification des données saisies que dans une phase, limitée temporellement, de définition de l'algorithme de classification. De plus cette phase de définition ne concerne qu'un nombre très restreint d'utilisateurs puisqu'elle ne concerne qu'un échantillon de terminaux utilisateurs pour chaque catégorie. Le procédé selon l'invention permet ainsi de classer les terminaux, et le cas échéant de réaliser des actions déterminées en fonction de cette classification, tout en présentant l'avantage de ne pas nécessiter, pour réaliser cette classification, une transmission spécifique, dédiée, des données saisies sur un terminal utilisateur, ni une analyse ou un stockage de ces données en-dehors du terminal utilisateur, en-dehors de la phase d'obtention de l'algorithme de classification. Suivant d'autres aspects avantageux de l'invention, le procédé de traitement comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toutes les combinaisons techniquement possibles : - l'algorithme de classification a été téléchargé dans les terminaux utilisateurs par l'intermédiaire du réseau ; - l'action est commandée par la plate-forme de services en réponse à la transmission par le terminal utilisateur d'une indication de la catégorie déterminée à la plate-forme de services ; - l'action comporte une requête pour transmettre au terminal utilisateur un algorithme de classification au sein de sous-catégories de la catégorie déterminée pour ledit terminal utilisateur ; - les étapes i, ii et iii ayant été réitérées, si l'algorithme de classification selon les N catégories alors obtenu est distinct de l'algorithme de classification selon lesdites N catégories mémorisé dans le deuxième dispositif, l'algorithme de classification selon les N catégories alors obtenu est téléchargé et mémorisé dans le deuxième dispositif ; - l'analyse de données réalisée par l'algorithme de classification est constituée exclusivement de détection de mots et de combinaisons logiques de mots détectés. L'invention a également pour objet un premier dispositif informatique doté d'une mémoire et d'une unité centrale, et propre à recevoir des données pour des échantillons constitués pour chacune des N catégories, dans lequel un algorithme de classification selon les N catégories est déterminé par le premier dispositif en fonction d'itérations successives d'un algorithme de définition exécuté dans le premier dispositif. Indeed, it gives rise to the copy and transmission for analysis purposes for classification of data entered only in a phase, limited in time, definition of the classification algorithm. In addition, this definition phase only concerns a very limited number of users since it concerns only a sample of user terminals for each category. The method according to the invention thus makes it possible to classify the terminals, and if necessary to carry out actions determined according to this classification, while having the advantage of not requiring, in order to carry out this classification, a specific, dedicated transmission. data entered on a user terminal, or an analysis or storage of these data outside the user terminal, outside the phase of obtaining the classification algorithm. According to other advantageous aspects of the invention, the processing method comprises one or more of the following characteristics, taken in isolation or in any technically possible combination: the classification algorithm has been downloaded into the user terminals by through the network; the action is commanded by the service platform in response to the transmission by the user terminal of an indication of the determined category to the service platform; the action comprises a request to transmit to the user terminal a classification algorithm within subcategories of the category determined for said user terminal; steps i, ii and iii having been repeated, if the classification algorithm according to the N categories then obtained is distinct from the classification algorithm according to said N categories stored in the second device, the classification algorithm according to the N categories then obtained is downloaded and stored in the second device; the data analysis carried out by the classification algorithm consists exclusively of detection of words and logical combinations of detected words. The invention also relates to a first computing device having a memory and a central unit, and able to receive data for samples constituted for each of the N categories, in which a classification algorithm according to the N categories is determined by the first device as a function of successive iterations of a definition algorithm executed in the first device.

L'invention a également pour objet un deuxième dispositif informatique doté d'une mémoire et d'une unité centrale, et propre à recevoir des lots de données à classer parmi N catégories, dans lequel un algorithme de classification selon les N catégories, stocké dans la mémoire et exécutable sur l'unité centrale, est adapté pour déterminer, pour chaque lot de données reçu, une catégorie respective parmi N catégories; ledit algorithme de classification selon les N catégories ayant été préalablement obtenu selon les étapes suivantes : - i/ un échantillon de données est constitué pour chacune des N catégories ; - ii/ en fonction des données reçues par un premier dispositif informatique pour les échantillons de données, l'algorithme de classification selon les N catégories est déterminé par le premier dispositif informatique en fonction d'itérations successives d'un algorithme de définition exécuté dans le premier dispositif informatique. Suivant d'autres aspects avantageux de l'invention, le deuxième dispositif informatique comprend une ou plusieurs des caractéristiques suivantes, prise(s) isolément ou suivant toutes les combinaisons techniquement possibles : - le deuxième dispositif informatique est un terminal utilisateur parmi une pluralité de terminaux utilisateurs reliés à une plate-forme de services par un réseau de télécommunications, les lots de données reçus sont des données saisies sur les terminaux utilisateurs et transmises sur le réseau à destination de la plate-forme de services et transmises en outre à destination du premier dispositif informatique, l'algorithme de classification adapté pour déterminer, pour chaque terminal utilisateur, une catégorie respective parmi les N catégories, en fonction des données saisies sur le terminal utilisateur et transmises sur le réseau à destination de la plate-forme de services, lors de l'étape i/, l'échantillon de données est un échantillon de terminaux utilisateurs constitué pour chacune des N catégories, les données saisies sur les terminaux utilisateurs et transmises sur le réseau par le terminal utilisateur à destination de la plate-forme de services étant transmises en outre à destination du premier dispositif informatique ; - le deuxième dispositif est adapté en outre pour transmettre sur le réseau de télécommunications une indication de la catégorie déterminée pour ledit terminal utilisateur ; - le deuxième dispositif est adapté pour, en fonction de la catégorie déterminée, transmettre une requête relative à un algorithme de classification au sein de sous-catégories de la catégorie déterminée pour ledit terminal utilisateur. The invention also relates to a second computing device having a memory and a central unit, and adapted to receive batches of data to be classified among N categories, in which a classification algorithm according to the N categories, stored in the memory and executable on the central unit, is adapted to determine, for each batch of data received, a respective category among N categories; said classification algorithm according to the N categories having previously been obtained according to the following steps: i / a sample of data is constituted for each of the N categories; ii / according to the data received by a first computing device for the data samples, the classification algorithm according to the N categories is determined by the first computing device as a function of successive iterations of a definition algorithm executed in the first computing device. According to other advantageous aspects of the invention, the second computing device comprises one or more of the following characteristics, taken separately or in any technically possible combination: the second computing device is a user terminal among a plurality of terminals users connected to a service platform by a telecommunications network, the data batches received are data entered on the user terminals and transmitted over the network to the service platform and transmitted further to the first service provider. computing device, the classification algorithm adapted to determine, for each user terminal, a respective category among the N categories, according to the data entered on the user terminal and transmitted on the network to the service platform, when of step i /, the data sample is a sample of user terminals constituted for each of the N categories, the data entered on the user terminals and transmitted over the network by the user terminal to the service platform being further transmitted to the first computing device; the second device is further adapted to transmit on the telecommunications network an indication of the category determined for said user terminal; the second device is adapted to, depending on the determined category, transmit a request relating to a classification algorithm within subcategories of the category determined for said user terminal.

L'invention a également pour objet un système informatique comprenant un premier et un deuxième dispositifs informatiques tels que considérés ci-dessus et reliés par une liaison de données. L'invention a également pour objet un programme d'ordinateur à installer dans un deuxième dispositif informatique doté d'une mémoire et d'une unité centrale, comprenant des instructions pour mettre en oeuvre les étapes suivantes lors d'une exécution du programme par l'unité centrale du deuxième dispositif informatique, le deuxième dispositif recevant des lots de données à classer parmi N catégories, le deuxième dispositif étant relié à un premier dispositif informatique par une liaison de données, ledit programme d'ordinateur comprenant un algorithme de classification selon N catégories : - exécuter l'algorithme de classification selon N catégories, stocké dans la mémoire et exécutable sur l'unité centrale, adapté pour déterminer pour chaque lot de données, une catégorie respective parmi N catégories ; ledit algorithme de classification selon les N catégories ayant été préalablement obtenu selon les étapes suivantes : - i/ un échantillon de données est constitué pour chacune des N catégories ; - ii/ en fonction des données reçues par le premier dispositif pour les échantillons de données, l'algorithme de classification selon les N catégories est déterminé par le premier dispositif en fonction d'itérations successives d'un algorithme de définition exécuté dans le premier dispositif. Suivant un autre aspect avantageux de l'invention, le programme d'ordinateur comprend la caractéristique suivante : - le premier dispositif informatique est un serveur et le deuxième dispositif informatique est un terminal utilisateur parmi une pluralité de terminaux utilisateurs reliés à une plate-forme de services par un réseau de télécommunications, les lots de données reçus sont des données saisies sur les terminaux utilisateurs et transmises sur le réseau à destination de la plate-forme de services et transmises en outre à destination du serveur, l'algorithme de classification détermine, pour chaque terminal utilisateur, une catégorie respective parmi les N catégories, en fonction des données saisies sur le terminal utilisateur et transmises sur le réseau à destination de la plate-forme de services, lors de l'étape i/, l'échantillon de données est un échantillon de terminaux utilisateurs constitué pour chacune des N catégories, les données saisies sur les terminaux utilisateurs et transmises sur le réseau par le terminal utilisateur à destination de la plate-forme de services étant transmises en outre à destination du serveur. D'autres caractéristiques et avantages de l'invention apparaîtront encore à la lecture de la description qui va suivre. Celle-ci est purement illustrative et doit être lue en en regard des dessins annexés sur lesquels : - la figure 1 est une vue d'un mode de classification de l'art antérieur ; - la figure 2 est une vue schématique du système informatique selon l'invention ; - la figure 3 est une vue détaillée selon un premier mode de réalisation de l'invention ; - la figure 4 est un organigramme d'un procédé selon le premier mode de réalisation de l'invention - la figure 5 est une vue analogue à celle de la figure 3 selon un deuxième mode de réalisation de l'invention ; - la figure 6 est une vue d'un terminal utilisateur selon le deuxième mode de réalisation de l'invention ; - la figure 7 est une vue analogue à celle de la figure 5 selon le deuxième mode de réalisation de l'invention. Sur la figure 2, un système informatique 10 comprend un premier dispositif informatique 12, 107 et un deuxième dispositif informatique 14, 100 reliés par une liaison de données 16, 101. The invention also relates to a computer system comprising first and second computing devices as considered above and connected by a data link. The invention also relates to a computer program to be installed in a second computer device with a memory and a central unit, comprising instructions for implementing the following steps during a program execution by the central unit of the second computing device, the second device receiving batches of data to be classified among N categories, the second device being connected to a first computing device by a data link, said computer program comprising a classification algorithm according to N categories: - executing the classification algorithm according to N categories, stored in the memory and executable on the central unit, adapted to determine for each batch of data, a respective category among N categories; said classification algorithm according to the N categories having previously been obtained according to the following steps: i / a sample of data is constituted for each of the N categories; ii / according to the data received by the first device for the data samples, the classification algorithm according to the N categories is determined by the first device as a function of successive iterations of a definition algorithm executed in the first device . According to another advantageous aspect of the invention, the computer program comprises the following characteristic: the first computing device is a server and the second computing device is a user terminal among a plurality of user terminals connected to a platform of services via a telecommunications network, the batches of data received are data entered on the user terminals and transmitted on the network to the service platform and transmitted further to the server, the classification algorithm determines, for each user terminal, a respective category among the N categories, according to the data entered on the user terminal and transmitted on the network to the service platform, in step i /, the data sample is a sample of user terminals constituted for each of the N categories, the data entered on the s user terminals and transmitted over the network by the user terminal to the service platform being further transmitted to the server. Other features and advantages of the invention will become apparent on reading the description which follows. This is purely illustrative and should be read in conjunction with the accompanying drawings in which: - Figure 1 is a view of a classification mode of the prior art; FIG. 2 is a schematic view of the computer system according to the invention; FIG. 3 is a detailed view according to a first embodiment of the invention; FIG. 4 is a flowchart of a method according to the first embodiment of the invention; FIG. 5 is a view similar to that of FIG. 3 according to a second embodiment of the invention; FIG. 6 is a view of a user terminal according to the second embodiment of the invention; - Figure 7 is a view similar to that of Figure 5 according to the second embodiment of the invention. In FIG. 2, a computer system 10 comprises a first computing device 12, 107 and a second computing device 14, 100 connected by a data link 16, 101.

Le premier dispositif informatique 12, 107 est propre à effectuer des itérations successives d'un algorithme de définition 18, 109 pour déterminer un algorithme de classification 20, 108, l'algorithme de classification 20, 108 étant destiné à être mémorisé dans le deuxième dispositif informatique 14, 100 en vue de son exécution par le deuxième dispositif informatique 14, 100. The first computing device 12, 107 is capable of performing successive iterations of a definition algorithm 18, 109 to determine a classification algorithm 20, 108, the classification algorithm 20, 108 being intended to be stored in the second device computer 14, 100 for execution by the second computing device 14, 100.

Selon un premier mode de réalisation, visible sur la figure 3, le premier dispositif informatique 12 comprend une première base de données 22 et une première unité de traitement d'informations 24, la première unité de traitement d'informations comportant un premier microprocesseur 26 et une première mémoire 28. La première mémoire 28 est apte à stocker l'algorithme de définition 18. According to a first embodiment, visible in FIG. 3, the first computing device 12 comprises a first database 22 and a first information processing unit 24, the first information processing unit comprising a first microprocessor 26 and a first memory 28. The first memory 28 is able to store the definition algorithm 18.

Le deuxième dispositif informatique 14 comprend une deuxième base de données 30, une deuxième unité de traitement d'informations 32 et une unité 34 d'exploitation du résultat de la classification. La deuxième unité de traitement d'information 32 comporte un deuxième microprocesseur 36 et une deuxième mémoire 38 apte à stocker l'algorithme de classification 20. Dans l'exemple de réalisation de la figure 3, le premier dispositif informatique 12 et le deuxième dispositif informatique 14 sont deux serveurs informatiques distincts. En variante non représentée, le premier dispositif informatique et le deuxième dispositif informatique forment un unique serveur informatique. La liaison de données 16 est, par exemple, une liaison filaire, telle qu'une fibre optique. En variante, la liaison de données 16 est une liaison radioélectrique. The second computing device 14 comprises a second database 30, a second information processing unit 32 and a unit 34 for exploiting the result of the classification. The second information processing unit 32 comprises a second microprocessor 36 and a second memory 38 able to store the classification algorithm 20. In the embodiment of FIG. 3, the first computing device 12 and the second computing device 14 are two separate computer servers. In variant not shown, the first computing device and the second computing device form a single computer server. The data link 16 is, for example, a wired link, such as an optical fiber. Alternatively, the data link 16 is a radio link.

Les algorithmes de définition 18 et de classification 20 seront plus en détails par al suite en regard de la figure 4. La première base de données 22 est destinée à recevoir des données, en particulier des flux de données, tels que des flux RSS (de l'anglais Really Simple Syndication). Les flux de données sont mis à jour régulièrement, et les données stockées dans la première base de données 22 sont mises à jour régulièrement. Le premier microprocesseur 26 est propre à exécuter, par itérations successives, l'algorithme de définition 18 enregistré dans la première mémoire 28, pour déterminer l'algorithme de classification 20 en fonction des données reçues et stockées dans la première base de données 22. The definition and classification algorithms 20 will be described in greater detail with respect to FIG. 4. The first database 22 is intended to receive data, in particular data streams, such as RSS feeds (from English Really Simple Syndication). The data streams are updated regularly, and the data stored in the first database 22 is updated regularly. The first microprocessor 26 is capable of executing, by successive iterations, the definition algorithm 18 recorded in the first memory 28, to determine the classification algorithm 20 as a function of the data received and stored in the first database 22.

La deuxième base de données 30 est destinée à recevoir des lots de données à classer parmi N catégories, N étant un nombre entier supérieur ou égal à 2. L'unité d'exploitation du résultat de la classification 34 comporte une interface homme-machine 40, et est adaptée pour déclencher sélectivement une action en fonction de la catégorie respectivement déterminée pour les lots de données reçus. The second database 30 is intended to receive batches of data to be classified among N categories, N being an integer greater than or equal to 2. The operating unit of the result of the classification 34 comprises a human-machine interface 40 , and is adapted to selectively trigger an action based on the category respectively determined for the batches of data received.

Le deuxième microprocesseur 36 est propre à exécuter l'algorithme de classification 20 enregistré dans la deuxième mémoire 38, pour déterminer la catégorie parmi les N catégories de chacun des lots de données reçus et stockés dans la deuxième base de données 30. L'interface homme-machine 40 est adaptée pour afficher le résultat de la classification, par exemple sous forme de graphiques. Le procédé de traitement selon le premier mode de réalisation est décrit ci-dessous, en référence à la figure 3 et également à l'organigramme de la figure 4. Considérons N catégories déterminées cati ni, cat2 cLi, ..., catNcLi d'une classification CL1. The second microprocessor 36 is capable of executing the classification algorithm stored in the second memory 38, to determine the category among the N categories of each of the batches of data received and stored in the second database 30. The human interface -machine 40 is adapted to display the result of the classification, for example in the form of graphics. The processing method according to the first embodiment is described below, with reference to FIG. 3 and also to the flowchart of FIG. 4. Consider N categories determined cat, cat2 cLi, ... catNcLi of CL1 classification.

Par exemple, la classification CL1 comprend les N=3 catégories suivantes : « enfant », « adultes », « sénior ». Dans un autre exemple, la classification CL1 comprend les N=6 catégories suivantes : « amateur de foot », « amateur de golf », « amateur de cyclisme », « amateur de tennis », « amateur d'autres sports », « pas amateur de sport ».Dans un autre exemple, la classification CL1 comprend les N=4 catégories suivantes : « amateur de foot », « amateur de golf», «amateur de cyclisme», « amateur de tennis ». Lorsqu'on veut déterminer si chacun des lots de données reçus et stockés dans la deuxième base de données 30 est dans une catégorie déterminée parmi ces N catégories, une première phase est engagée. Dans une étape 60, pour chacune des catégories cati CL1, Cat2C1-1 CatNCI-1 on constitue un échantillon de flux de donnés identifiés comme appartenant à cette catégorie. Par exemple, le nombre de flux de donnés dans chaque échantillon est supérieur à 100. Lors de l'étape 60, les données de chaque flux de données sont mises à jour régulièrement. Dans une étape 70, à partir de chacune de ces données collectées au fil de l'eau et de la catégorie, connue, du terminal utilisateur dont elle provient, l'algorithme de définition 18 modélise l'algorithme de classification 20 selon les catégories catiCL1, cat2 CatNCL1. For example, the CL1 classification includes the N = 3 categories: "child", "adults", "senior". In another example, the classification CL1 comprises the following N = 6 categories: "football lover", "golf lover", "cycling lover", "tennis lover", "other sports lover", "no In another example, the classification CL1 includes the following N = 4 categories: "amateur of football", "amateur of golf", "amateur of cycling", "amateur of tennis". When it is desired to determine whether each of the batches of data received and stored in the second database 30 is in a given category among these N categories, a first phase is engaged. In a step 60, for each of the categories cati CL1, Cat2C1-1 CatNCI-1, a sample of data streams identified as belonging to this category is constituted. For example, the number of data streams in each sample is greater than 100. In step 60, the data of each data stream is updated regularly. In a step 70, from each of these data collected over the water and from the known category of the user terminal from which it comes, the definition algorithm 18 models the classification algorithm 20 according to the catiCL1 categories. cat2 CatNCL1.

L'algorithme de définition 18 construit ainsi l'algorithme de classification 20 à l'aide d'un mécanisme d'apprentissage à partir de ces données issues de flux de données dont la catégorie est connue. L'algorithme de définition 18 est par exemple de type programmation génétique, ou méthode de propagation inverse, classificateurs à logique floue (en anglais « fuzzy classifiers »), réseaux bayésiens, réseaux neuronaux (voir par exemple McCallum, A. and Nigam K. "A Comparison of Event Models for Naive Bayes Text Classification". In AAAI/ICML-98 Workshop on Learning for Text Categorization, pp. 41-48. Technical Report WS-98-05. AAAI Press. 1998 ; Prinzie, A., Van den Poel, D. (2008). Random Forests for multiclass classification: Random MultiNomial Logit, Expert Systems with Applications, 34(3), 1721-1732)... Au fur et à mesure de la collecte de nouvelles données, l'algorithme de définition 18 est réitéré en affinant et complétant les règles définissant l'algorithme de classification 20 en fonction notamment de ces nouvelles données et éventuellement de données précédemment collectées, et ce, par exemple tant que l'algorithme de classification 20 affecte des données collectées correspondant à une catégorie donnée par les N catégories, à une catégorie différente de la catégorie donnée (ou tant que le taux d'erreur de classification des données par l'algorithme de classification 20 est supérieur à un seuil déterminé). L'algorithme de classification 20 est donc construit itérativement, de façon dynamique, au fur et à mesure de nouvelles données collectées. The definition algorithm 18 thus constructs the classification algorithm 20 using a learning mechanism based on these data from data streams whose category is known. The definition algorithm 18 is for example of genetic programming type, or inverse propagation method, fuzzy classifiers, Bayesian networks, neural networks (see for example McCallum, A. and Nigam K. "A Comparison of Event Models for Naive Bayes Text Classification." In AAAI / ICML-98 Workshop on Learning for Text Categorization, pp. 41-48, Technical Report WS-98-05, AAAI Press, 1998, Prinzie, A., Van den Poel, D. (2008) Random Forests for Multiclass Classification: Random MultiNomial Logit, Expert Systems with Applications, 34 (3), 1721-1732) ... As new data are collected, definition algorithm 18 is reiterated by refining and completing the rules defining the classification algorithm 20 based in particular on these new data and possibly previously collected data, and this, for example, as long as the classification algorithm 20 assigns data are collected corresponding to a category given by the N categories, to a category different from the given category (or as the classification error rate of the data by the classification algorithm 20 is greater than a determined threshold). The classification algorithm 20 is therefore built iteratively, dynamically, as new data is collected.

Cet algorithme est adapté pour déterminer, en fonction de données qui lui sont fournies comme données d'entrée, si les données proviennent d'un lot de données relevant d'une catégorie parmi les catégories cati CL1, Cat2CL1, ..., catNcLi, et pour indiquer quelle est cette catégorie. Les règles comprises dans l'algorithme de classification 20 comportent par exemple la détection de certains mots ciblés et des arbres de décisions combinant des mots détectés et/ou la non-détection de mots par des fonctions logiques (ET, OU, ET NON, PROCHE DE, etc.) Par exemple, un arbre de décision pour déterminer si les données font référence au football pourrait être « SI (LE MOT but) ET ((LE MOT attaquant) ou (LE MOT corner)) EST DANS LES DONNEES => ALORS LES DONNES FONT REFERENCE AU FOOTBALL ». Un tel procédé donne ainsi lieu à un programme de classification de petite taille, exécutable sur des dispositifs avec des ressources de calcul et de mémoire réduites, et qui est néanmoins très efficace. This algorithm is adapted to determine, based on data supplied to it as input data, whether the data comes from a data set falling within one of the categories cati CL1, Cat2CL1, ..., catNcLi, and to indicate what is this category. The rules included in the classification algorithm 20 comprise, for example, the detection of certain targeted words and decision trees combining detected words and / or the non-detection of words by logical functions (AND, OR, AND NOT, CLOSE DE, etc.) For example, a decision tree to determine if the data refers to football could be "IF (THE WORD goal) AND ((THE WRITTING WORD) or (THE WORD corner)) IS IN THE DATA => THEN THE DATA GIVE REFERENCE TO FOOTBALL ". Such a method thus gives rise to a small classification program, executable on devices with reduced computing and memory resources, and which is nonetheless very effective.

Par exemple, une centaine de règles d'algorithmes capables de détecter un texte de football ne vont requérir que 100*(50 bytes)=5000 bytes, soit un peu moins de 5kB par catégorie. ce qui est dérisoire en termes de taille. Ces algorithmes permettent une évaluation de classification quasi-instantanée sur les dispositifs informatiques actuels. For example, a hundred rules of algorithms capable of detecting a football text will only require 100 * (50 bytes) = 5000 bytes, or a little less than 5kB per category. which is derisory in terms of size. These algorithms allow for near instantaneous classification evaluation on current computing devices.

Dans un mode de réalisation, l'analyse de données réalisée par l'algorithme de classification 20 est très simple et constituée exclusivement de détection de mots et de combinaisons logiques de mots détectés. Autrement dit, l'algorithme de classification 20 comporte des règles de classification, chaque règle de classification étant associée à une parmi la pluralité N de catégories, chaque règle de classification comportant au moins une séquence logique visant à associer sélectivement au moins un élément-clé déterminé à une catégorie donnée. Si un élément-clé, tel que 'but, 'attaquant' et 'corner' dans l'exemple précédent, apparaît M fois dans un ensemble de plusieurs règles de classification déterminées lors des itérations précédentes, par exemple les règles de classification correspondant à une catégorie donnée, M étant un nombre entier supérieur ou égal à 2, de préférence égal à 3 ou 4, alors cet élément-clé est retiré des données reçues et stockées dans la première base de données 22. Autrement dit, lorsque le nombre M d'inclusions de l'élément-clé dans un ensemble de plusieurs règles de classification déterminées lors des itérations précédentes est supérieur ou égal à 2, de préférence égal à 3 ou 4, alors l'élément-clé est retiré des données stockées dans la première base de données 22, c'est -à-dire du dictionnaire servant à l'apprentissage des règles de classification. Ceci permet de garantir que cet élément-clé ne figurera pas dans les prochaines règles de classification, et d'obtenir alors une plus grande diversité de règles de classification. Le retrait d'un élément-clé apparaissant trop souvent de la première base de données 22 permet donc d'améliorer l'algorithme de classification 20 obtenu à l'issue de l'étape 70. Lors de l'étape 70, chaque règle de classification est évaluée à partir d'exemplaires de test pour chaque catégorie, et l'évaluation est pondérée en fonction du nombre d'exemplaires de test dans chaque catégorie. Cette pondération permet d'avoir une évaluation qui ne dépende pas du nombre d'exemplaires de test dans chaque catégorie. Ceci permet alors d'évaluer l'algorithme de classification 20 de manière uniforme d'une catégorie à l'autre quel que soit le nombre d'exemplaires de test dans chaque catégorie. In one embodiment, the data analysis performed by the classification algorithm 20 is very simple and consists exclusively of word detection and logical combinations of detected words. In other words, the classification algorithm 20 comprises classification rules, each classification rule being associated with one of the plurality N of categories, each classification rule comprising at least one logical sequence designed to selectively associate at least one key element. determined to a given category. If a key-element, such as 'goal', 'attacker' and 'corner' in the previous example, appears M times in a set of several classification rules determined during the previous iterations, for example the classification rules corresponding to a given category, M being an integer greater than or equal to 2, preferably equal to 3 or 4, then this key element is removed from the data received and stored in the first database 22. In other words, when the number M d key element inclusions in a set of several classification rules determined during the previous iterations is greater than or equal to 2, preferably equal to 3 or 4, then the key element is removed from the data stored in the first database 22, that is to say the dictionary used to learn the classification rules. This ensures that this key element will not be included in the next classification rules, resulting in a greater variety of classification rules. The removal of a key element appearing too often from the first database 22 thus makes it possible to improve the classification algorithm obtained at the end of step 70. In step 70, each rule of Classification is evaluated from test copies for each category, and the assessment is weighted according to the number of test copies in each category. This weighting allows for an evaluation that does not depend on the number of test copies in each category. This then makes it possible to evaluate the classification algorithm in a uniform manner from one category to another irrespective of the number of test copies in each category.

Une fois cette phase de définition de l'algorithme de classification 20 réalisée, dans une étape 80, l'algorithme de classification 20 est fourni au deuxième dispositif informatique 14. Il est téléchargé dans la deuxième mémoire 38 de la deuxième unité de traitement d'information par l'intermédiaire de la liaison de données 16 depuis le premier dispositif informatique 12. Once this definition phase of the classification algorithm 20 has been performed, in a step 80, the classification algorithm 20 is provided to the second computing device 14. It is downloaded to the second memory 38 of the second processing unit. information via the data link 16 from the first computing device 12.

L'algorithme de classification 20 s'exécute à l'aide du deuxième micro- processeur 36. L'algorithme de classification 20 a comme données d'entrée les lots de données à classer reçus simultanément ou successivement par le deuxième dispositif 14 et stockés dans la deuxième base de données 30. The classification algorithm 20 executes with the aid of the second microprocessor 36. The classification algorithm 20 has, as input data, the batches of data to be classified received simultaneously or successively by the second device 14 and stored in the second database 30.

L'algorithme de classification 20 détermine ainsi si chaque lot de données relève d'une des catégories cati ni, cat2cLi , -.., catNcLi, et dans le cas positif l'algorithme de classification 20 détermine cette catégorie. Dans une étape 90, est alors déclenchée une action correspondante qui est ciblée par rapport à la catégorie déterminée. The classification algorithm 20 thus determines whether each batch of data falls within one of the categories cati ni, cat2cLi, -, catNcLi, and in the positive case the classification algorithm 20 determines this category. In a step 90, a corresponding action is triggered that is targeted with respect to the determined category.

Dans un mode de réalisation, à chaque catégorie sont associés des mots qui permettent d'exécuter la classification sur tous types de données, et pas uniquement des sites Web comme dans des solutions de l'art antérieur exploitant la base de données « Nielsen Net Ratings ». La classification est donc en outre affinée. Le volume des ressources nécessaires (16alculs et des bases de données) est également nettement réduit par rapport à l'art antérieur. In one embodiment, each category is associated with words that make it possible to perform the classification on all types of data, and not only websites as in prior art solutions exploiting the "Nielsen Net Ratings" database. ". The classification is therefore further refined. The volume of resources required (16calculations and databases) is also significantly reduced compared to the prior art.

Un procédé selon l'invention permet en outre de suivre fidèlement et rapidement les évolutions des données à classer, dont les échantillons sont représentatifs. En effet, les étapes 60 et 70 de définition d'un algorithme de classification selon les catégories cati ni, cat2cLi, ..., datNcLi peuvent être réitérées régulièrement à partir des mêmes échantillons ou d'autres échantillons. A method according to the invention also makes it possible to follow faithfully and rapidly the evolutions of the data to be classified, the samples of which are representative. Indeed, the steps 60 and 70 of defining a classification algorithm according to categories cati ni, cat2cLi,..., DatNcLi can be repeated regularly from the same samples or other samples.

La mise à jour régulière des échantillons, tels que les flux RSS, permet une mise à jour des règles de classification de l'algorithme de classification tout en réitérant les étapes 60 et 70 à partir des mêmes échantillons. Si l'algorithme de classification fourni à l'issue de cette réitération des étapes 60 et 70 est différent de celui déterminé précédemment, ce qui traduit une évolution des données à classer, ce nouvel algorithme de classification est fourni au deuxième dispositif 14, par exemple par téléchargement, en remplacement de l'algorithme précédent. Par exemple, lors d'un pic de popularité des personnages « pokémon » chez les enfants, il pourra être déterminé par l'algorithme de définition en fonction des données collectées que la survenue du mot « pokémon » caractérise la catégorie des enfants et donc qu'il est utile d'ajouter une règle portant sur la détection du mot « pokémon » pour déterminer si un terminal utilisateur est utilisé par un « enfant », un « adulte » ou un « sénior ». Un procédé selon l'invention peut bâtir des algorithmes de classification en un nombre de catégories quelconques et pour toutes sortes de catégories. Les figures 5 à 7 illustrent un deuxième mode de réalisation de l'invention. Sur la figure 5, le système 10 comporte des terminaux utilisateurs 100, un réseau de télécommunications 101 et une plate-forme de services 102. Les terminaux utilisateurs 100 sont par exemple des téléphones mobiles, des assistants numériques personnels (« personal digital assistant » en anglais, ou PDA), des téléviseurs, des boîtiers adaptateurs (en anglais « set top box ») associés aux téléviseurs pour assurer diverses fonctions non remplies par le téléviseur, telles que la réception d'un programme audiovisuel à accès conditionnel, l'accès à des services interactifs, la réception de programmes numériques, etc. The regular update of the samples, such as the RSS feeds, makes it possible to update classification rules of the classification algorithm while repeating steps 60 and 70 from the same samples. If the classification algorithm provided at the end of this reiteration of steps 60 and 70 is different from that determined previously, which reflects an evolution of the data to be classified, this new classification algorithm is provided to the second device 14, for example by download, replacing the previous algorithm. For example, during a peak in the popularity of "pokemon" characters in children, it may be determined by the algorithm of definition according to the data collected that the occurrence of the word "pokémon" characterizes the category of children and therefore that it is useful to add a rule on the detection of the word "pokemon" to determine if a user terminal is used by a "child", an "adult" or a "senior". A method according to the invention can build classification algorithms in any number of categories and for all kinds of categories. Figures 5 to 7 illustrate a second embodiment of the invention. In FIG. 5, the system 10 comprises user terminals 100, a telecommunications network 101 and a services platform 102. The user terminals 100 are, for example, mobile phones, personal digital assistants ("personal digital assistants"). English, or PDA), televisions, set-top boxes associated with televisions for various functions not fulfilled by the television, such as the reception of an audiovisual program with conditional access, access interactive services, receiving digital programs, etc.

Le terminal utilisateur 100, représenté en figures 5 et 6, comporte : - une interface homme/machine (IHM) 110 adaptée notamment pour capturer des données fournies par leur utilisateur, par exemple un clavier, un micro etc., notamment dans le cadre de la requête ou de l'utilisation de services fournis à l'utilisateur ; - un module d'interface réseau 104 adapté pour la transmission de données sur le réseau 101, et éventuellement pour la réception de données transmises au terminal utilisateur sur le réseau 101 ; - une mémoire 105 ; - un microprocesseur 106. The user terminal 100, represented in FIGS. 5 and 6, comprises: a human / machine interface (HMI) 110 adapted in particular for capturing data supplied by their user, for example a keyboard, a microphone, etc., especially in the context of the request or use of services provided to the user; a network interface module 104 adapted for the transmission of data on the network 101, and possibly for the reception of data transmitted to the user terminal on the network 101; a memory 105; a microprocessor 106.

Les services requis par l'utilisateur comprennent par exemple des services exécutés localement au terminal utilisateur, à l'aide d'applications exécutables dans les terminaux et/ou des services délivrés par des fournisseurs de services 1031, 1032, ...103r, dotés de serveurs reliés au réseau de télécommunications 101 et qui sont par exemple éléments de la plate-forme de services 102. The services required by the user include, for example, services executed locally at the user terminal, using applications executable in the terminals and / or services delivered by service providers 1031, 1032,. servers connected to the telecommunications network 101 and which are for example elements of the service platform 102.

Dans les cas où les services ne sont pas accessibles localement au terminal 100, les données saisies par l'utilisateur à l'aide de l'IHM 110 définissant des requêtes de services ou d'utilisation de services sont transmises par le module d'interface réseau 104 du terminal à destination des serveurs de fournisseurs de services concernés. In cases where the services are not accessible locally to the terminal 100, the data entered by the user using the HMI 110 defining requests for services or use of services are transmitted by the interface module. network 104 of the terminal to the servers of service providers concerned.

Les serveurs des fournisseurs de services 1031, 1032, _103, sont adaptés pour recevoir les données qui leur sont transmises par les terminaux utilisateurs et pour fournir des services en fonction de ces données. Ces services sont fournis par l'intermédiaire du réseau 101 ou par d'autres voies. Dans l'exemple considéré, les terminaux utilisateurs 100 sont par exemple des téléphones mobiles. Le réseau 101 leur fournit un service de téléphonie mobile avec appels téléphoniques, SMS, MMS et permet en outre l'accès aux services d'Internet : navigation Internet, moteurs de recherche, emails, sélection de liens Internet, accès aux réseaux sociaux de type Facebook, Twitter, téléchargement de fichiers etc. The servers of the service providers 1031, 1032, _103 are adapted to receive the data transmitted to them by the user terminals and to provide services based on these data. These services are provided through Network 101 or other means. In the example considered, the user terminals 100 are for example mobile phones. The network 101 provides them with a mobile service with telephone calls, SMS, MMS and also allows access to Internet services: Internet browsing, search engines, emails, selection of Internet links, access to social networks of the type Facebook, Twitter, file download etc.

Le procédé de traitement selon le deuxième mode de réalisation est décrit ci-dessous, en référence aux figures 5 et 6 et en référence également à l'organigramme de la figure 7. Considérons N catégories déterminées cati ni, cat2 cLi, ..., catNcLi d'une classification CL1 de manière analogue au premier mode de réalisation. The processing method according to the second embodiment is described below, with reference to FIGS. 5 and 6 and also with reference to the flowchart of FIG. 7. Consider N categories determined cati ni, cat2 cLi, ..., catNcLi CL1 classification in a similar manner to the first embodiment.

Lorsqu'on veut déterminer si chacun des terminaux utilisateurs 100 (ou d'un sous-ensemble de ces terminaux) est dans une catégorie déterminée parmi ces N catégories, une première phase est engagée. Dans une étape 130, pour chacune des catégories cati CL1, Cat2CL1 , CatNCL1, on constitue un échantillon de terminaux utilisateurs identifiés comme appartenant à cette catégorie. Par exemple, le nombre de terminaux dans chaque échantillon est par exemple compris entre 200 et 500. Le nombre de terminaux utilisés dans la phase d'apprentissage est par exemple dans un rapport compris entre 1/1000 à 1/100, voire encore moins pour des populations analysées très denses. Ainsi, on peut imaginer suivre une population de 1000 personnes (4*250 pour chaque catégorie) pour ensuite analyser une population de 100000 personnes. On fournit à chacun terminal faisant partie des échantillons, par exemple par téléchargement via le réseau 101, une application logicielle de type « mouchard », pour stockage dans la mémoire 105. Cette application logicielle «mouchard», s'exécutant alors sur le micro-processeur 106, a pour but de copier les données saisies ou sélectionnées par l'utilisateur lors de son utilisation opérationnelle de son terminal utilisateur pour requérir ou utiliser des services délivrés par la plate-forme 102 ou des services ou applications qui sont locaux au terminal ou extérieurs à la plate-forme. Ces données sont transmises le cas échéant sur le réseau à destination de la plate-forme 102 dans le cadre de l'utilisation opérationnelle des services. Ainsi, lorsque les utilisateurs des terminaux utilisateurs des échantillons écrivent des emails, des SMS, des mots-clefs dans un moteur de recherche, sélectionnent des liens internet, renseignent les pages «Facebook», naviguent sur des pages web sélectionnées, l'ensemble de ces données saisies ou sélectionnées sont transmises avec un identifiant du terminal utilisateur (ou de l'utilisateur) à destination de la plate-forme de services 102 pour rendre le service concerné, respectivement l'acheminement des emails, des SMS, la fourniture du résultat de la recherche sur la base des mots-clefs, l'affichage des pages Web sélectionnées, la mise à jour de la page «Facebook». Dans un mode de réalisation, l'application « mouchard » peut capturer tous les textes saisis par l'utilisateur sur le terminal. L'application logicielle « mouchard » fournit en outre une copie de ces données à un serveur de définition d'algorithmes 107, par l'intermédiaire du réseau 101 (ou par d'autres voies). When it is desired to determine whether each of the user terminals 100 (or a subset of these terminals) is in a given category among these N categories, a first phase is engaged. In a step 130, for each of the categories cati CL1, Cat2CL1, CatNCL1, a sample of user terminals identified as belonging to this category is constituted. For example, the number of terminals in each sample is for example between 200 and 500. The number of terminals used in the learning phase is for example in a ratio between 1/1000 to 1/100, or even less for analyzed populations very dense. Thus, one can imagine following a population of 1000 people (4 * 250 for each category) to then analyze a population of 100000 people. Each sample terminal is provided with samples, for example by downloading via the network 101, a software application of the "cookie" type, for storage in the memory 105. This software application "cookie", then executing on the micro- processor 106, is intended to copy the data entered or selected by the user during its operational use of its user terminal to require or use services delivered by the platform 102 or services or applications that are local to the terminal or outside the platform. This data is transmitted if necessary on the network to the platform 102 as part of the operational use of the services. Thus, when the users of the user terminals of the samples write emails, SMS, keywords in a search engine, select web links, fill the "Facebook" pages, navigate on selected web pages, the set of these data entered or selected are transmitted with an identifier of the user terminal (or the user) to the service platform 102 to make the service concerned, respectively the routing of emails, SMS, the provision of the result search on the basis of the keywords, the display of the selected web pages, the update of the "Facebook" page. In one embodiment, the "cookie" application can capture all text entered by the user on the terminal. The "cookie" software application further provides a copy of this data to an algorithm definition server 107 via the network 101 (or by other means).

Ainsi dans une étape 131, les données copiées dans les terminaux utilisateurs des échantillons sont collectées et traitées au fil de l'eau par le serveur de définition d'algorithme 107. Autrement dit, le serveur de définition d'algorithme 107 forme le premier dispositif informatique, et chacun des terminaux utilisateurs 100 est un deuxième dispositif informatique, le réseau 101 formant la liaison de données entre les premier et deuxièmes dispositifs. Dans une étape 132, à partir de chacune de ces données collectées au fil de l'eau et de la catégorie, connue, du terminal utilisateur dont elle provient, un algorithme de définition 109 modélise un algorithme de classification 108 selon les catégories cati ca CL13 t2 CL1 ... , catNcLi. L'algorithme de définition 109 construit ainsi l'algorithme de classification 108 à l'aide d'un mécanisme d'apprentissage à partir de ces données issues de terminaux utilisateurs dont la catégorie est connue. Thus, in a step 131, the data copied to the user terminals of the samples are collected and processed on the fly by the algorithm definition server 107. In other words, the algorithm definition server 107 forms the first device computer, and each of the user terminals 100 is a second computing device, the network 101 forming the data link between the first and second devices. In a step 132, from each of these data collected over the water and the category, known, of the user terminal from which it comes, a definition algorithm 109 models a classification algorithm 108 according to the categories Cati ca CL13 t2 CL1 ..., catNcLi. The definition algorithm 109 thus constructs the classification algorithm 108 using a learning mechanism from these data from user terminals whose category is known.

L'algorithme de définition 109 est analogue à l'algorithme de définition 18 du premier mode de réalisation, et réitéré de la même façon. L'algorithme de classification 108 est donc analogue à l'algorithme de classification 20 du premier mode de réalisation, et construit itérativement, de façon dynamique, au fur et à mesure de nouvelles données collectées. The definition algorithm 109 is analogous to the definition algorithm 18 of the first embodiment, and reiterated in the same way. The classification algorithm 108 is therefore analogous to the classification algorithm 20 of the first embodiment, and iteratively builds dynamically as new data is collected.

Cet algorithme est adapté pour déterminer, en fonction de données qui lui sont fournies comme données d'entrée, si les données proviennent d'un dispositif utilisateur relevant d'une catégorie parmi les catégories cati CL1, Cat2CL1, -- -, catNcLi, et pour indiquer quelle est cette catégorie. Les règles comprises dans l'algorithme de classification 108 sont analogues aux règles de classification de l'algorithme de classification 20 du premier mode de réalisation. Ces algorithmes permettent une évaluation de classification quasi-instantanée sur les terminaux actuels. Une fois cette phase de définition de l'algorithme de classification 108 réalisée, dans une étape 133, l'algorithme de classification 108 est fourni à l'ensemble des dispositifs utilisateurs 100 à classer. Il est par exemple téléchargé dans les terminaux utilisateurs par l'intermédiaire du réseau de communication 101 depuis le serveur de définition d'algorithmes 107 ou depuis un autre module. Il peut par exemple entre fourni par SMS ou USSD (en anglais « Unstructured Supplementary Service Data ») L'algorithme de classification 108 est mémorisé dans la mémoire 105 des terminaux à classer. This algorithm is adapted to determine, based on data supplied to it as input data, whether the data comes from a user device falling into one of the categories cati CL1, Cat2CL1, - -, catNcLi, and to indicate what is this category. The rules included in the classification algorithm 108 are analogous to the classification rules of the classification algorithm 20 of the first embodiment. These algorithms allow a quasi-instantaneous classification evaluation on current terminals. Once this definition phase of the classification algorithm 108 has been performed, in a step 133, the classification algorithm 108 is provided to all the user devices 100 to be classified. It is for example downloaded to the user terminals via the communication network 101 from the algorithm definition server 107 or from another module. It may for example be provided by SMS or USSD (English Unstructured Supplementary Service Data) The classification algorithm 108 is stored in the memory 105 of the terminals to be classified.

L'algorithme de classification 108 s'exécute à l'aide du micro-processeur 106. Dans chaque terminal utilisateur, l'algorithme de classification 108 a comme données d'entrée les données successivement saisies par l'utilisateur sur le terminal utilisateur et destinées à la requête ou à l'utilisation opérationnelle de services. L'algorithme de classification 108 détermine ainsi à l'aide des données successivement saisies par l'utilisateur sur le terminal utilisateur si le terminal utilisateur relève d'une des catégories cati CL1 3 Cat2C1-1 3 - - - , Cat Na-1 3 et dans le cas positif l'algorithme de classification 108 détermine cette catégorie. Plusieurs options, éventuellement cumulables, sont alors possibles dans une étape 134, de manière à déclencher une action à destination du terminal utilisateur qui est ciblée par rapport à la catégorie déterminée. Selon une option, l'algorithme de classification 108 comporte une instruction qui commande d'envoyer l'identifiant du terminal utilisateur et la catégorie correspondante à un serveur déterminé, par exemple un serveur de la plate-forme de services 102, ou autre, pour que des actions respectives sélectionnées en fonction de la catégorie déterminée y soient générées à destination de l'utilisateur, de façon ciblée par rapport à son profil déterminé par la classification. The classification algorithm 108 executes using the microprocessor 106. In each user terminal, the classification algorithm 108 has as input data the data successively entered by the user on the user terminal and destined the request or the operational use of services. The classification algorithm 108 thus determines using data successively entered by the user on the user terminal if the user terminal falls into one of the categories cati CL1 3 Cat2C1-1 3 - - -, Cat Na-1 3 and in the positive case the classification algorithm 108 determines this category. Several options, possibly cumulative, are then possible in a step 134, so as to trigger an action to the user terminal that is targeted with respect to the determined category. According to one option, the classification algorithm 108 comprises an instruction that commands the user terminal identifier and the corresponding category to be sent to a specific server, for example a server of the service platform 102, or the like, for that respective actions selected according to the category determined there are generated for the user, in a targeted manner with respect to its profile determined by the classification.

Les actions ciblées peuvent être la transmission à certains terminaux d'informations ciblées, la fourniture d'applications logicielles ciblées en fonction de la catégorie déterminée, la redirection de requêtes de certains utilisateurs sur des sites spécialisés etc. Des actions peuvent encore être la fourniture d'IHM adaptées en fonction de la classification (par exemple des IHM simplifiées pour les jeunes enfants et les senior, des IHM avec des fonctions spécialisées, la restriction de contenus notamment pour des personnes mineures etc.). Selon une autre option, l'algorithme de classification 108 comporte des instructions définissant des actions respectives en fonction de la catégorie déterminée, par exemple qui commande d'envoyer l'identifiant du terminal utilisateur à des adresses URL respectives déterminées en fonction de la catégorie, pour générer des actions spécifiques à destination de l'utilisateur, ciblées par rapport à son profil déterminé par la classification. Selon une autre option, une fois la catégorie déterminée parmi cati CL1 3 Cat2C1-1 - - - , catNcLi, l'algorithme de classification 108 effectue une requête via le réseau 101, par exemple auprès du serveur de définition d'algorithmes 107, pour télécharger un algorithme de sous-classification dans la catégorie déterminée, afin de traiter les données déjà traitées par l'algorithme de classification 108 selon les catégories cati CL1, Cat2CL1, ..., CatNcLi ou de nouvelles données saisies par l'utilisateur du terminal utilisateur pour déterminer de quelle sous-catégorie le terminal utilisateur fait partie. Par exemple, si la catégorie déterminée était «adultes», l'algorithme requis peut permettre la classification en les deux catégories «hommes», «femmes». Ainsi les données saisies par les utilisateurs, pouvant comporter des informations sensibles telles que âge, sexe, identifiants de moyens de paiement, salaires, maladies, etc..., ne sont copiées et transmises pour analyse en vue d'une classification que pendant la phase de définition de l'algorithme de classification, donc pendant un temps limité. En outre, cette transmission concerne uniquement les terminaux utilisateurs des échantillons, qui sont en nombre très restreint par rapport aux terminaux utilisateurs à classer. Ensuite, la détermination de la classe à laquelle les terminaux appartiennent a lieu localement au téléphone ; seule l'indication de la classe est éventuellement transmise sur le réseau, mais plus les données elles-mêmes. Donc un procédé selon l'invention d'exploration de données («data m in i ng >>) saisies sur un terminal en vue de déterminer une classification accroît nettement la sécurité des terminaux utilisateurs. The targeted actions may be the transmission to certain terminals of targeted information, the provision of targeted software applications according to the determined category, the redirection of requests from certain users to specialized sites, etc. Actions can still be the provision of adapted HMI according to the classification (for example simplified HMI for young children and senior, HMI with specialized functions, restriction of content especially for minors etc.). According to another option, the classification algorithm 108 comprises instructions defining respective actions according to the determined category, for example which command to send the identifier of the user terminal to respective URLs determined according to the category, to generate specific actions for the user, targeted with respect to his profile determined by the classification. According to another option, once the category determined from cati CL1 3 Cat2C1-1 - - -, catNcLi, the classification algorithm 108 makes a request via the network 101, for example from the algorithm definition server 107, for download a sub-classification algorithm in the determined category, in order to process the data already processed by the classification algorithm 108 according to the cati categories CL1, Cat2CL1, ..., CatNcLi or new data entered by the user of the terminal user to determine which subcategory the user terminal belongs to. For example, if the category determined was "adult", the required algorithm can allow classification into the two categories "men", "women". Thus the data entered by users, which may include sensitive information such as age, sex, payment method identifiers, salaries, illnesses, etc ..., are copied and transmitted for analysis for classification only during the definition phase of the classification algorithm, so for a limited time. In addition, this transmission concerns only the user terminals of the samples, which are in very limited number compared to the user terminals to be classified. Next, the determination of the class to which the terminals belong takes place locally on the telephone; only the indication of the class is possibly transmitted on the network, but the data itself. Thus, a method according to the invention of data mining ("data m in i ng") entered on a terminal in order to determine a classification clearly increases the security of the user terminals.

Dans un mode de réalisation, à chaque catégorie sont associés des mots qui permettent d'exécuter la classification sur tous types de données, et pas uniquement des sites Web comme dans des solutions de l'art antérieur exploitant la base de données «Nielsen Net Ratings». La classification est donc en outre affinée. En outre, étant donné le faible nombre des terminaux utilisateurs des échantillons, il est réalisable de les contacter et de leur faire signer un accord sur le fait que leurs données seront copiées et exploitées à des fins de détermination d'algorithmes de classification. Cette utilisation se fera ainsi avec leur accord et non à leur insu, limitant ainsi la sensibilité de certaines données. Le volume des ressources nécessaires (calculs et bases de données) est également nettement réduit par rapport à l'art antérieur. Dans le mode de réalisation considéré, le serveur 107 est connecté au réseau de communication 101, mais d'autres modes de réalisation sont possibles. Un procédé selon l'invention permet en outre de suivre fidèlement et rapidement les évolutions des profils et comportements des utilisateurs. En effet, les étapes 130 à 132 de définition d'un algorithme de classification selon les catégories cati CL1, Cat2cLi , ..., catNcLi peuvent être réitérées régulièrement à partir des mêmes échantillons ou d'autres échantillons. Si l'algorithme de classification fourni à l'issue de cette réitération des étapes 130 à 132 est différent de celui déterminé précédemment, ce qui traduit une évolution du comportement des utilisateurs, ce nouvel algorithme de classification est fourni aux terminaux utilisateurs à classer, par exemple par téléchargement, en remplacement de l'algorithme précédent. Un procédé selon l'invention peut bâtir des algorithmes de classification en un nombre de catégories quelconques et pour toutes sortes de catégories. In one embodiment, each category is associated with words that make it possible to perform the classification on all types of data, and not only websites as in prior art solutions exploiting the "Nielsen Net Ratings" database. ". The classification is therefore further refined. In addition, given the small number of user terminals of the samples, it is feasible to contact them and have them sign an agreement that their data will be copied and exploited for the purpose of determining classification algorithms. This use will be done with their agreement and not without their knowledge, thus limiting the sensitivity of certain data. The volume of resources required (calculations and databases) is also significantly reduced compared to the prior art. In the embodiment considered, the server 107 is connected to the communication network 101, but other embodiments are possible. A method according to the invention also makes it possible to follow faithfully and quickly the evolutions of the profiles and behaviors of the users. Indeed, the steps 130 to 132 of defining a classification algorithm according to the categories cati CL1, Cat2cLi, ..., catNcLi can be repeated regularly from the same samples or other samples. If the classification algorithm provided at the end of this reiteration of steps 130 to 132 is different from that determined previously, which reflects an evolution of the behavior of the users, this new classification algorithm is provided to the user terminals to be classified by example by download, replacing the previous algorithm. A method according to the invention can build classification algorithms in any number of categories and for all kinds of categories.

Dans un mode de réalisation, l'algorithme de classification est intégré dans le système d'exploitation des terminaux, ce qui permet à l'algorithme d'avoir accès à toutes les données saisies par l'utilisateur. In one embodiment, the classification algorithm is integrated into the operating system of the terminals, which allows the algorithm to have access to all the data entered by the user.

Claims (18)

REVENDICATIONS1. Procédé de traitement dans un système (10) comprenant un premier (12 ; 107) et un deuxième (14 ; 100) dispositifs informatiques reliés par une liaison de données (16 ; 101), le deuxième dispositif (14 ; 100) recevant des lots de données à classer parmi N catégories, selon lequel : - un algorithme de classification (20 ; 108) selon N catégories, mémorisé dans le deuxième dispositif (14 ; 100), est exécuté dans le deuxième dispositif (14 ; 100) et détermine, pour chaque lot de données, une catégorie respective parmi les N catégories ; - une action est déclenchée sélectivement en fonction de la catégorie respectivement déterminée pour lesdits lots de données reçus; l'algorithme de classification selon les N catégories ayant été préalablement obtenu selon les étapes suivantes : - i/ un échantillon de données est constitué pour chacune des N catégories ; - ii/ en fonction des données reçues par le premier dispositif (12 ; 107) pour les échantillons de données, un algorithme de classification (20; 108) selon les N catégories est déterminé par le premier dispositif (12 ; 107) en fonction d'itérations successives d'un algorithme de définition (18 ; 109) exécuté dans le premier dispositif (12 ; 107). REVENDICATIONS1. A method of processing in a system (10) comprising a first (12; 107) and a second (14; 100) computer devices connected by a data link (16; 101), the second device (14; 100) receiving batches of data to be classified among N categories, according to which: - a classification algorithm (20; 108) according to N categories, stored in the second device (14; 100), is executed in the second device (14; 100) and determines, for each batch of data, a respective category among the N categories; an action is triggered selectively according to the category respectively determined for said batches of data received; the classification algorithm according to the N categories having previously been obtained according to the following steps: i / a sample of data is constituted for each of the N categories; ii / based on the data received by the first device (12; 107) for the data samples, a classification algorithm (20; 108) according to the N categories is determined by the first device (12; 107) as a function of Successive iterations of a definition algorithm (18; 109) executed in the first device (12; 107). 2. Procédé de traitement selon la revendication 1, selon lequel l'algorithme de classification (20 ; 108) comporte des règles de classification, chaque règle de classification étant associée à une parmi la pluralité de catégories, chaque règle de classification comportant au moins une séquence logique visant à associer sélectivement au moins un élément-clé déterminé à une catégorie donnée. A method of processing according to claim 1, wherein the classification algorithm (20; 108) includes classification rules, each classification rule being associated with one of the plurality of categories, each classification rule comprising at least one logical sequence for selectively associating at least one determined key-element with a given category. 3. Procédé de traitement selon la revendication 2, selon lequel, lors de l'étape ii/, un élément-clé est retiré des données reçues lorsque le nombre M d'inclusions dudit élément-clé dans un ensemble de plusieurs règles de classification déterminées lors des itérations précédentes est supérieur ou égal à 2, de préférence égal à 3 ou 3. Processing method according to claim 2, wherein, in step ii /, a key element is removed from the received data when the number M of inclusions of said key element in a set of several classification rules determined. during the previous iterations is greater than or equal to 2, preferably equal to 3 or 4. 4. Procédé de traitement selon la revendication 2 ou 3, selon lequel, lors de l'étape ii/, chaque règle de classification est évaluée à partir d'exemplaires de test pour chaque catégorie, et l'évaluation est pondérée en fonction du nombre d'exemplaires de test dans chaque catégorie. 4. The treatment method according to claim 2 or 3, wherein, in step ii /, each classification rule is evaluated from test copies for each category, and the evaluation is weighted according to the number of test copies in each category. 5. Procédé de traitement selon l'une quelconque des revendications précédentes, selon lequel le premier dispositif informatique est un serveur (107) et le deuxième dispositif informatique est un terminal utilisateur (100) parmi une pluralité de terminaux utilisateurs (100) reliés à une plate-forme de services (102) par un réseau detélécommunications (101), les lots de données reçus sont des données saisies sur les terminaux utilisateurs et transmises sur le réseau à destination de la plate-forme de services et transmises en outre à destination du serveur (107), l'algorithme de classification détermine, pour chaque terminal utilisateur, une catégorie respective parmi les N catégories, en fonction des données saisies sur le terminal utilisateur et transmises sur le réseau à destination de la plate-forme de services, l'action est déclenchée sélectivement à destination d'au moins certains desdits terminaux en fonction de la catégorie respectivement déterminée pour lesdits terminaux, lors de l'étape i/, l'échantillon de données est un échantillon de terminaux utilisateurs constitué pour chacune des N catégories, les données saisies sur les terminaux utilisateurs et transmises sur le réseau par le terminal utilisateur à destination de la plate-forme de services (102) étant transmises en outre à destination du serveur (107). A method of processing according to any one of the preceding claims, wherein the first computing device is a server (107) and the second computing device is a user terminal (100) among a plurality of user terminals (100) connected to a service platform (102) via a telecommunications network (101), the data batches received are data entered on the user terminals and transmitted over the network to the service platform and transmitted further to the service terminal. server (107), the classification algorithm determines, for each user terminal, a respective category among the N categories, according to the data entered on the user terminal and transmitted on the network to the service platform, the action is selectively triggered to at least some of said terminals according to the category respectively determined for said terminals, during step i /, the data sample is a sample of user terminals constituted for each of the N categories, the data entered on the user terminals and transmitted over the network by the user terminal to the terminal. service platform (102) being further forwarded to the server (107). 6. Procédé de traitement selon la revendication 5, selon lequel l'algorithme de classification (108) a été téléchargé dans les terminaux utilisateurs (100) par l'intermédiaire du réseau (101). The processing method according to claim 5, wherein the classification algorithm (108) has been downloaded to the user terminals (100) via the network (101). 7. Procédé de traitement selon la revendication 5 ou 6, selon lequel l'action est commandée par la plate-forme de services (102) en réponse à la transmission par le terminal utilisateur (100) d'une indication de la catégorie déterminée à la plate-forme de services. The processing method according to claim 5 or 6, wherein the action is commanded by the service platform (102) in response to the user terminal (100) transmitting an indication of the determined category to the service platform. 8. Procédé de traitement selon l'une quelconque des revendications 5 à 7, selon lequel l'action comporte une requête pour transmettre au terminal utilisateur (100) un algorithme de classification (108) au sein de sous-catégories de la catégorie déterminée pour ledit terminal utilisateur. 8. Processing method according to any one of claims 5 to 7, wherein the action comprises a request to transmit to the user terminal (100) a classification algorithm (108) within subcategories of the category determined for said user terminal. 9. Procédé de traitement selon l'une quelconque des revendications précédentes, selon lequel les étapes i, ii et iii ayant été réitérées, si l'algorithme de classification (20 ; 108) selon les N catégories alors obtenu est distinct de l'algorithme de classification (20 ; 108) selon lesdites N catégories mémorisé dans le deuxième dispositif (14 ; 100), l'algorithme de classification (20 ; 108) selon les N catégories alors obtenu est téléchargé et mémorisé dans le deuxième dispositif (14 ; 100) 9. Processing method according to any one of the preceding claims, wherein steps i, ii and iii having been repeated, if the classification algorithm (20; 108) according to the N categories then obtained is distinct from the algorithm. classification (20; 108) according to said N categories stored in the second device (14; 100), the classification algorithm (20; 108) according to the N categories then obtained is downloaded and stored in the second device (14; ) 10. Procédé de traitement selon l'une quelconque des revendications précédentes, selon lequel l'analyse de données réalisée par l'algorithme declassification (20 ; 108) est constituée exclusivement de détection de mots et de combinaisons logiques de mots détectés. A method of processing according to any one of the preceding claims, wherein the data analysis performed by the declassification algorithm (20; 108) consists exclusively of word detection and logical combinations of detected words. 11. Premier dispositif informatique (12 ; 107) doté d'une mémoire et d'une unité centrale, et propre à recevoir des données pour des échantillons constitués pour chacune des N catégories, dans lequel un algorithme de classification (20 ; 108) selon les N catégories est déterminé par le premier dispositif (12 ; 107) en fonction d'itérations successives d'un algorithme de définition (18 ; 109) exécuté dans le premier dispositif (12 ; 107). 11. First computing device (12; 107) having a memory and a central unit, and adapted to receive data for samples constituted for each of the N categories, wherein a classification algorithm (20; 108) according to the N categories are determined by the first device (12; 107) as a function of successive iterations of a definition algorithm (18; 109) executed in the first device (12; 107). 12. Deuxième dispositif informatique (14 ; 100) doté d'une mémoire (38 ; 105) et d'une unité centrale (36 ; 106), et propre à recevoir des lots de données à classer parmi N catégories, dans lequel un algorithme de classification (20 ; 108) selon les N catégories, stocké dans la mémoire et exécutable sur l'unité centrale, est adapté pour déterminer, pour chaque lot de données reçu, une catégorie respective parmi N catégories; ledit algorithme de classification selon les N catégories ayant été préalablement obtenu selon les étapes suivantes : - i/ un échantillon de données est constitué pour chacune des N catégories ; - ii/ en fonction des données reçues par un premier dispositif informatique (12 ; 107) pour les échantillons de données, l'algorithme de classification (20 ; 1 0 8) selon les N catégories est déterminé par le premier dispositif informatique en fonction d'itérations successives d'un algorithme de définition (18 ; 109) exécuté dans le premier dispositif informatique (12 ; 107). 12. Second computing device (14; 100) having a memory (38; 105) and a central unit (36; 106), and adapted to receive data batches to be classified among N categories, in which an algorithm classifying (20; 108) according to the N categories, stored in the memory and executable on the central unit, is adapted to determine, for each batch of data received, a respective category among N categories; said classification algorithm according to the N categories having previously been obtained according to the following steps: i / a sample of data is constituted for each of the N categories; ii / based on the data received by a first computing device (12; 107) for the data samples, the classification algorithm (20; 1 0 8) according to the N categories is determined by the first computing device as a function of Successive iterations of a definition algorithm (18; 109) executed in the first computing device (12; 107). 13. Deuxième dispositif informatique (100) selon la revendication 12, dans lequel le deuxième dispositif informatique est un terminal utilisateur (100) parmi une pluralité de terminaux utilisateurs (100) reliés à une plate-forme de services (102) par un réseau de télécommunications (101), les lots de données reçus sont des données saisies sur les terminaux utilisateurs et transmises sur le réseau à destination de la plate-forme de services et transmises en outre à destination du premier dispositif informatique (107), l'algorithme de classification adapté pour déterminer, pour chaque terminal utilisateur, une catégorie respective parmi les N catégories, en fonction des données saisies sur le terminal utilisateur (100) et transmises sur le réseau à destination de la plate-forme de services (102), lors de l'étape i/, l'échantillon de données est un échantillon de terminaux utilisateurs (100) constitué pour chacune des N catégories, les données saisies sur les terminaux utilisateurs et transmises sur le réseau par le terminal utilisateur àdestination de la plate-forme de services (102) étant transmises en outre à destination du premier dispositif informatique (107). The second computing device (100) according to claim 12, wherein the second computing device is a user terminal (100) among a plurality of user terminals (100) connected to a service platform (102) by a network of telecommunications (101), the batches of data received are data entered on the user terminals and transmitted over the network to the service platform and transmitted further to the first computing device (107), the classification adapted to determine, for each user terminal, a respective one of the N categories, based on data entered on the user terminal (100) and transmitted over the network to the service platform (102), when step i /, the sample of data is a sample of user terminals (100) constituted for each of the N categories, the data entered on the t end users and transmitted over the network by the user terminal at destination of the service platform (102) being further transmitted to the first computing device (107). 14. Deuxième dispositif informatique (100) selon la revendication 13, adapté en outre pour transmettre sur le réseau de télécommunications (101) une indication de la catégorie déterminée pour ledit terminal utilisateur. 14. Second computing device (100) according to claim 13, further adapted to transmit on the telecommunications network (101) an indication of the category determined for said user terminal. 15. Deuxième dispositif informatique (100) selon la revendication 13 ou 14, adapté pour, en fonction de la catégorie déterminée, transmettre une requête relative à un algorithme de classification au sein de sous-catégories de la catégorie déterminée pour ledit terminal utilisateur. The second computing device (100) according to claim 13 or 14, adapted to, depending on the category determined, transmit a request relating to a classification algorithm within subcategories of the category determined for said user terminal. 16. Système informatique (10) comprenant un premier (12 ; 107) et un deuxième (14 ; 100) dispositifs informatiques reliés par une liaison de données (16 ; 101), dans lequel le premier dispositif informatique (12 ; 107) est conforme à la revendication 11, et le deuxième dispositif informatique (14 ; 100) est conforme à l'une quelconque des revendications 12 à 15. A computer system (10) comprising a first (12; 107) and a second (14; 100) computer device connected by a data link (16; 101), wherein the first computing device (12; 107) is compliant in claim 11, and the second computing device (14; 100) is according to any one of claims 12 to 15. 17. Programme d'ordinateur (20) à installer dans un deuxième dispositif informatique (14 ; 100) doté d'une mémoire (38 ; 105) et d'une unité centrale (36 ; 106), comprenant des instructions pour mettre en oeuvre les étapes suivantes lors d'une exécution du programme par l'unité centrale du deuxième dispositif informatique (14 ; 100), le deuxième dispositif recevant des lots de données à classer parmi N catégories, le deuxième dispositif étant relié à un premier dispositif informatique (12 ; 107) par une liaison de données (16 ; 101), ledit programme d'ordinateur comprenant un algorithme de classification selon N catégories - exécuter l'algorithme de classification selon N catégories, stocké dans la mémoire et exécutable sur l'unité centrale, adapté pour déterminer pour chaque lot de données, une catégorie respective parmi N catégories ; ledit algorithme de classification (20 ; 108) selon les N catégories ayant été préalablement obtenu selon les étapes suivantes : - i/ un échantillon de données est constitué pour chacune des N catégories ; - ii/ en fonction des données reçues par le premier dispositif pour les échantillons de données, l'algorithme de classification selon les N catégories est déterminé par le premier dispositif en fonction d'itérations successives d'un algorithme de définition (18 ; 109) exécuté dans le premier dispositif. 17. Computer program (20) to be installed in a second computing device (14; 100) having a memory (38; 105) and a central unit (36; 106) including instructions for implementing the following steps during a program execution by the central unit of the second computing device (14; 100), the second device receiving batches of data to be classified among N categories, the second device being connected to a first computing device ( 12; 107) by a data link (16; 101), said computer program comprising a classification algorithm according to N categories - executing the classification algorithm according to N categories, stored in the memory and executable on the central unit adapted to determine for each batch of data a respective one of N categories; said classification algorithm (20; 108) according to the N categories having previously been obtained according to the following steps: i / a data sample is constituted for each of the N categories; ii / according to the data received by the first device for the data samples, the classification algorithm according to the N categories is determined by the first device as a function of successive iterations of a definition algorithm (18; 109) executed in the first device. 18. Programme d'ordinateur (20) selon la revendication 17, dans lequel le premier dispositif informatique est un serveur (107) et le deuxième dispositif informatiqueest un terminal utilisateur (100) parmi une pluralité de terminaux utilisateurs (100) reliés à une plate-forme de services (102) par un réseau de télécommunications (101), les lots de données reçus sont des données saisies sur les terminaux utilisateurs et transmises sur le réseau à destination de la plate-forme de services et transmises en outre à destination du serveur (107), l'algorithme de classification détermine, pour chaque terminal utilisateur, une catégorie respective parmi les N catégories, en fonction des données saisies sur le terminal utilisateur et transmises sur le réseau à destination de la plate-forme de services, lors de l'étape i/, l'échantillon de données est un échantillon de terminaux utilisateurs constitué pour chacune des N catégories, les données saisies sur les terminaux utilisateurs et transmises sur le réseau par le terminal utilisateur à destination de la plate-forme de services (102) étant transmises en outre à destination du serveur (107). The computer program (20) of claim 17, wherein the first computing device is a server (107) and the second computing device is a user terminal (100) among a plurality of user terminals (100) connected to a flat form (102) by a telecommunications network (101), the data batches received are data entered on the user terminals and transmitted over the network to the service platform and transmitted further to the service terminal. server (107), the classification algorithm determines, for each user terminal, a respective category among the N categories, according to the data entered on the user terminal and transmitted on the network to the service platform, when of step i /, the sample of data is a sample of user terminals constituted for each of the N categories, the data entered on the terminals u users and transmitted over the network by the user terminal to the service platform (102) being further transmitted to the server (107).
FR1157375A 2011-01-13 2011-08-17 PROCESSING METHOD, COMPUTER DEVICES, COMPUTER SYSTEM COMPRISING SUCH DEVICES, AND COMPUTER PROGRAM Expired - Fee Related FR2979156B1 (en)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR1157375A FR2979156B1 (en) 2011-08-17 2011-08-17 PROCESSING METHOD, COMPUTER DEVICES, COMPUTER SYSTEM COMPRISING SUCH DEVICES, AND COMPUTER PROGRAM
PCT/EP2012/050308 WO2012095420A1 (en) 2011-01-13 2012-01-10 Processing method, computer devices, computer system including such devices, and related computer program
US13/979,472 US10116730B2 (en) 2011-01-13 2012-01-10 Processing method, computer devices, computer system including such devices, and related computer program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
FR1157375A FR2979156B1 (en) 2011-08-17 2011-08-17 PROCESSING METHOD, COMPUTER DEVICES, COMPUTER SYSTEM COMPRISING SUCH DEVICES, AND COMPUTER PROGRAM

Publications (2)

Publication Number Publication Date
FR2979156A1 true FR2979156A1 (en) 2013-02-22
FR2979156B1 FR2979156B1 (en) 2013-09-20

Family

ID=45422243

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1157375A Expired - Fee Related FR2979156B1 (en) 2011-01-13 2011-08-17 PROCESSING METHOD, COMPUTER DEVICES, COMPUTER SYSTEM COMPRISING SUCH DEVICES, AND COMPUTER PROGRAM

Country Status (1)

Country Link
FR (1) FR2979156B1 (en)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253169B1 (en) * 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
US20050262039A1 (en) * 2004-05-20 2005-11-24 International Business Machines Corporation Method and system for analyzing unstructured text in data warehouse
US20070050388A1 (en) * 2005-08-25 2007-03-01 Xerox Corporation Device and method for text stream mining
EP1975813A1 (en) * 2007-03-31 2008-10-01 Sony Deutschland Gmbh Method for content recommendation
US20100049585A1 (en) * 2008-08-21 2010-02-25 Eastman Kodak Company Concierge - shopping widget - method for user managed profile and selective transmission thereof
US20100100607A1 (en) * 2008-10-22 2010-04-22 Scholz Martin B Adjusting Content To User Profiles

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6253169B1 (en) * 1998-05-28 2001-06-26 International Business Machines Corporation Method for improvement accuracy of decision tree based text categorization
US20050262039A1 (en) * 2004-05-20 2005-11-24 International Business Machines Corporation Method and system for analyzing unstructured text in data warehouse
US20070050388A1 (en) * 2005-08-25 2007-03-01 Xerox Corporation Device and method for text stream mining
EP1975813A1 (en) * 2007-03-31 2008-10-01 Sony Deutschland Gmbh Method for content recommendation
US20100049585A1 (en) * 2008-08-21 2010-02-25 Eastman Kodak Company Concierge - shopping widget - method for user managed profile and selective transmission thereof
US20100100607A1 (en) * 2008-10-22 2010-04-22 Scholz Martin B Adjusting Content To User Profiles

Also Published As

Publication number Publication date
FR2979156B1 (en) 2013-09-20

Similar Documents

Publication Publication Date Title
WO2012095420A1 (en) Processing method, computer devices, computer system including such devices, and related computer program
Cao et al. Mining smartphone data for app usage prediction and recommendations: A survey
Jin et al. Why are they collecting my data? inferring the purposes of network traffic in mobile apps
Viswanath et al. Towards detecting anomalous user behavior in online social networks
Rahman et al. Efficient and scalable socware detection in online social networks
Delany et al. SMS spam filtering: Methods and data
Adewole et al. SMSAD: a framework for spam message and spam account detection
US20140282493A1 (en) System for replicating apps from an existing device to a new device
US10430718B2 (en) Automatic social media content timeline summarization method and apparatus
US11580222B2 (en) Automated malware analysis that automatically clusters sandbox reports of similar malware samples
US20170270122A1 (en) Computerized system and method for high-quality and high-ranking digital content discovery
Dewan et al. Facebook Inspector (FbI): Towards automatic real-time detection of malicious content on Facebook
Tian et al. What and how long: Prediction of mobile app engagement
CN111966920B (en) Method, device and equipment for predicting stable condition of public opinion propagation
Pu et al. Beyond artificial reality: Finding and monitoring live events from social sensors
Unger et al. Inferring contextual preferences using deep encoder-decoder learners
US11909725B2 (en) Automatic privacy-aware machine learning method and apparatus
WO2023160446A1 (en) Method and apparatus for identifying malicious website, and storage medium and electronic device
Guan et al. The design and implementation of a multidimensional and hierarchical web anomaly detection system
Yang et al. Android malware detection method based on permission complement and api calls
CN113904837A (en) Attack detection method, device, electronic equipment and medium
Graf et al. Neural network-based technique for android smartphone applications classification
FR2979156A1 (en) Method for processing data captured on e.g. mobile telephone, in computer system, involves determining sorting algorithm by computer device based on data received by device and iterations of definition algorithm executed in device
de la Torre-Abaitua et al. A compression based framework for the detection of anomalies in heterogeneous data sources
FR2970578A1 (en) Method for processing data entered into e.g. user terminal, for classification of user terminal, involves selectively triggering action for respective user terminals according to categories determined for user terminals

Legal Events

Date Code Title Description
PLFP Fee payment

Year of fee payment: 5

CA Change of address

Effective date: 20160425

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7

PLFP Fee payment

Year of fee payment: 8

PLFP Fee payment

Year of fee payment: 10

ST Notification of lapse

Effective date: 20220405