FR3072485A1 - Procede de creation d'un modele predictif a partir d'un ensemble de donnees contextuelles - Google Patents

Procede de creation d'un modele predictif a partir d'un ensemble de donnees contextuelles Download PDF

Info

Publication number
FR3072485A1
FR3072485A1 FR1759570A FR1759570A FR3072485A1 FR 3072485 A1 FR3072485 A1 FR 3072485A1 FR 1759570 A FR1759570 A FR 1759570A FR 1759570 A FR1759570 A FR 1759570A FR 3072485 A1 FR3072485 A1 FR 3072485A1
Authority
FR
France
Prior art keywords
quantitative variable
contextual data
attribute
data
environment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
FR1759570A
Other languages
English (en)
Other versions
FR3072485B1 (fr
Inventor
Raphael Cherrier
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Qucit
Original Assignee
Qucit
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Qucit filed Critical Qucit
Priority to FR1759570A priority Critical patent/FR3072485B1/fr
Priority to EP18779704.8A priority patent/EP3695364A1/fr
Priority to PCT/EP2018/077134 priority patent/WO2019072713A1/fr
Publication of FR3072485A1 publication Critical patent/FR3072485A1/fr
Application granted granted Critical
Publication of FR3072485B1 publication Critical patent/FR3072485B1/fr
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Procédé de création d'un modÚle prédictif mis en œuvre par un calculateur pour estimer une variable quantitative correspondant à une caractéristique d'un environnement, l'estimation de ladite variable quantitative par ledit modÚle prédictif étant réalisée à partir de données contextuelles, caractérisé en qu'il comporte une étape de collecte des données contextuelles dans l'environnement, une étape de mesure de la variable quantitative dans l'environnement, une étape de détermination d'un attribut lié à la mesure de la variable quantitative, et des étapes d'implémentation, de calibrage et de validation d'un modÚle d'apprentissage automatique permettant l'estimation de la variable quantitative à partir de l'attribut et des données contextuelles.

Description

Procédé de création d’un modèle prédictif à partir d’un ensemble de données contextuelles
DOMAINE TECHNIQUE
La présente invention appartient au domaine général de l’analyse prédictive et concerne plus particulièrement les modèles de prédiction par apprentissage automatique (ou Machine Learningen terminologie anglo-saxonne).
Plus particulièrement encore, l’invention concerne une méthode d’élaboration d’un modèle prédictif à partir d’un sondage mettant en œuvre des données contextuelles.
ÉTAT DE L’ART
Il est connu de réaliser des analyses prédictives à partir d’observations fournies sous la forme de données en utilisant un modèle appelé « modèle prédictif ». Un tel modèle est un algorithme mathématique codé sous la forme d’un programme d’ordinateur, mis en œuvre par un calculateur, qui fournit en sortie le ou les évènements les plus probables de se produire à partir d’hypothèses prédictives relatives à un contexte ou un environnement prédéterminé. De tels évènements sont appelés de manière connue « scores prédictifs ». Un tel modèle prédictif peut être généré à partir d’un ensemble de données dites données d’apprentissage puis, une fois le modèle prédictif généré, le modèle est utilisé sur un ou plusieurs ensembles de données dites sources afin de calculer des scores prédictifs. À titre d’exemple, un ensemble de données sources peut comprendre des données relatives à des utilisateurs, des données de machines, des données météorologiques, ...etc.
Ces modèles sont très superficiels dans leur analyse de la situation de l’utilisateur, leurs conclusions étant directement liées à des informations brutes recueillies par un ou plusieurs capteur(s) sans aucune interprétation sémantique de ces informations.
PRÉSENTATION DE L’INVENTION
La présente invention a pour but principal de pallier les limitations de l’art antérieur et concerne un procédé de création d’un modèle prédictif mis en oeuvre par un ordinateur pour estimer une variable quantitative correspondant à une caractéristique d’un environnement, l’estimation de ladite variable quantitative par ledit modèle prédictif étant réalisée à partir de données contextuelles, ce procédé est remarquable en ce qu’il comporte :
- une étape de collecte des données contextuelles dans l’environnement ;
- une étape de mesure de la variable quantitative dans l’environnement ;
- une étape de détermination d’au moins un attribut lié à la mesure de la variable quantitative dans l’environnement ;
- une étape d’implémentation d’au moins un modèle initial d’apprentissage automatique permettant d’estimer ladite variable quantitative en fonction de l’au moins un attribut et des données contextuelles ;
- une étape de calibrage du modèle initial d’apprentissage automatique avec au moins une première mesure de la variable quantitative, au moins un attribut lié à ladite au moins une première mesure de la variable quantitative et les données contextuelles ;
- une étape de sélection d’un modèle final calibré d’apprentissage automatique ;
- une étape de validation du modèle final calibré d’apprentissage automatique avec au moins une deuxième mesure de la variable quantitative différente de ladite au moins une première mesure, au moins un attribut lié à ladite deuxième mesure de la variable quantitative et les données contextuelles.
Selon un mode de réalisation la variable quantitative dépend d’au moins deux variables d’intérêt, chacune desdites variables d’intérêt correspondant à une caractéristique particulière de l’environnement.
Plus particulièrement, les données contextuelles comportent des données dynamiques qui varient avec le temps et des données statiques constantes dans le temps, sur au moins un temps caractéristique.
Avantageusement, l’étape de collecte des données contextuelles dans l’environnement est caractérisée en ce que les données dynamiques sont collectées en temps réel.
De façon avantageuse, l’étape de mesure de la variable quantitative dans l’environnement comprend N mesures de ladite variable quantitative, et l’étape de détermination d’au moins un attribut comprend N déterminations d’au moins un attribut lié à chacune des N mesures de la variable quantitative, N étant un entier naturel supérieur ou égal à deux.
Par exemple, les N mesures de la variable quantitative et les N déterminations d’au moins un attribut lié à chacune des N mesures de la variable quantitative sont rangées en N couples (variable quantitative, au moins un attribut, données contextuelles).
Avantageusement, le modèle final calibré d’apprentissage automatique permet d’obtenir la variable quantitative correspondant à l’au moins un attribut et aux données contextuelles dans chaque couple d’une partie des N couples.
Plus particulièrement, l’étape de validation consiste à comparer une variable quantitative prédite par le modèle final calibré à partir de l’au moins un attribut et des données contextuelles dans chaque couple de l’autre partie des N couples avec la variable quantitative mesurée appartenant audit couple.
Selon un mode de réalisation, l’environnement est un espace public et la variable quantitative est mesurée par un sondage sur un échantillon d’usagers dudit espace public.
Selon un mode de réalisation, le procédé emploie deux attributs liés à chaque mesure de la variable quantitative, un attribut spatial et un attribut temporel, l’attribut spatial étant une position de la mesure dans l’environnement et l’attribut temporel étant une date de ladite mesure.
Selon un mode réalisation, la variable quantitative est un indice du confort ressenti par les usagers de l’espace public.
Les concepts fondamentaux de l’invention venant d’être exposés ci-dessus dans leur forme la plus élémentaire, d’autres détails et caractéristiques ressortiront plus clairement à la lecture de la description qui suit et en regard des dessins annexés, donnant à titre d’exemple non limitatif un mode de réalisation d’un procédé de création d’un modèle prédictif conforme aux principes de l’invention.
BRÈVE DESCRIPTION DES FIGURES
Les différentes figures ainsi que les éléments d’une même figure ne sont pas nécessairement représentés à la même échelle. Sur l’ensemble des figures, les éléments identiques portent le même repère.
Il est ainsi illustré en :
Figure 1 : un plan de la place de la Nation (Paris, France) dans laquelle est mis en œuvre le procédé selon un mode de réalisation de l’invention ;
Figure 2 : un schéma simplifié des principales étapes du procédé selon un mode de réalisation de l’invention ;
Figure 3a : une modélisation de la distribution des arbres sur la place de la Nation ;
Figure 3b : une carte de densité d’arbres sur la place de la Nation ;
Figures 4a et 4b : des cartes de densité de smartphones avec WiFi activé sur la place de la nation pendant un jour ordinaire à 6h00, figure 4a, et 18h00, figure 4b ; Figure 5 : un graphique d’un résultat partiel d’une enquête terrain selon un mode de réalisation de l’invention.
DESCRIPTION DÉTAILLÉE DE MODES DE RÉALISATION
Dans le mode de réalisation de l’invention décrit ci-après, on fait référence à un procédé de création d’un modèle prédictif destiné à l’aménagement des espaces publics. Cet exemple n’est nullement exclusif des applications de l’invention à d’autres domaines nécessitant une prise de décision en fonction d’un résultat extrait d’une grande quantité de données, ou une prédiction quelconque.
Il est utile de rappeler que l’aménagement d’un espace public doit principalement tenir compte de l’évolution des comportements des usagers et de la qualité de vie devant leur être garantie. Parmi les données nécessaires à la définition de modalités dans un projet d’aménagement d’un espace public, l’avis d’éventuels futurs usagers revêt un caractère fondamental. Cet avis peut simplement prendre la forme de réponses à des questions spécifiques et être recueilli par un sondage par exemple. Les données statistiques ainsi générées sont souvent biaisées par des facteurs contextuels non pris en compte dans l’étude, et pouvant influencer les réponses données par les personnes sondées. Les facteurs contextuels représentent une quantité conséquente de données qu’il est nécessaire d’inclure dans l’analyse statistique des résultats du sondage en vue d’une meilleure fiabilité. De ce fait, l’aménagement des espaces publics, tout comme d’autres disciplines de l’urbanisme, s’ouvre progressivement aux approches dites data driven, ou orientées par les données.
Une application de l’invention à un cas réel est exposée dans la suite de la description. Ce cas concerne un projet de réaménagement de la place de la Nation dans la ville de Paris.
La figure 1 représente un plan de la place de la Nation sur lequel on aperçoit l’anneau central correspondant et les voies y convergeant.
Le procédé de création d’un modèle prédictif a pour but d’estimer un indice du confort ressenti par les usagers se trouvant place de la Nation, en se basant sur des données contextuelles issues de la place de la Nation et décrivant par exemple l’environnement urbain, la météo, les espaces verts, etc.
Selon l’invention, le procédé de création d’un modèle prédictif du confort ressenti par les usagers dans un espace public comprend principalement les étapes suivantes, représentées schématiquement à la figure 2 :
- Une étape 110 de définition d’un indice du confort IC et de variables d’intérêt Y, permettant un calcul dudit indice du confort ;
- Une étape 120 de recensement et collecte de données contextuelles permettant de décrire le contexte naturel, humain et urbain de l’espace public ;
- Une étape 130 de définition d’attributs permettant d’établir un lien entre les données contextuelles collectées et les variables d’intérêt ;
- Une étape 200 de réalisation d’une enquête terrain permettant de mesurer sur un échantillon d’usagers de l’espace public les valeurs des variables d’intérêt Y, et des attributs ;
- Une étape 300 d’implémentation de modèles initiaux d’apprentissage automatique avec les variables d’intérêt et les attributs mesurés et les données contextuelles collectées pour estimer les variables d’intérêt à partir des attributs et d’au moins une partie des données contextuelles ;
- Une étape 400 de calibrage des modèles d’apprentissage automatique implémentés à l’aide des variables d’intérêt et des attributs mesurés et des données contextuelles collectées ;
- Une étape 500 de sélection du modèle d’apprentissage automatique présentant les meilleures estimations ;
- Une étape 600 de validation du modèle final d’apprentissage automatique choisi à l’étape précédente.
Dans la suite de la description, l’expression « espace public » et le terme « place » désigneront, sauf indication contraire, la place de la Nation.
L’étape 110 de définition de l’indice du confort IC et des variables Y, consiste à établir une formule de calcul d’un indicateur quantitatif du confort ressenti par les piétons dans un espace public en fonction de variables indépendantes Y,.
Dans un mode de réalisation de l’invention, la définition (le calcul) de l’indice du confort IC inclut six variables ΥΊ à Y6 qui représentent respectivement les critères suivants caractérisant l’espace public :
- le caractère agréable ;
- le stress ;
- la sécurité ;
- la beauté ;
- la propreté ; et
- la désorientation.
Les variables d’intérêt Y, sont des variables statistiques quantitatives.
Par exemple, l’indice du confort IC peut être obtenu par une combinaison linéaire des variables d’intérêt Y,, chacune desdites variables étant alors pondérée par un coefficient en fonction de son importance dans le calcul de l’indice en question.
En fonction de la nature des coefficients linéaires, l’indice du confort IC peut être un nombre réel compris entre 0 et 1 ou un entier naturel compris entre 0 et 10 par exemple.
L’étape 120 de recensement et collecte des données contextuelles consiste à répertorier des grandeurs dont peut éventuellement dépendre l’indice du confort IC, autrement dit, des grandeurs pouvant directement agir sur les valeurs prises par les variables d’intérêt Y,, lesdites grandeurs devant être mesurables. De telles données contextuelles sont par exemple des informations personnelles sur des usagers de l’espace public, des flux de piétons et/ou de véhicules mesurés sur l’espace public, des données météorologiques, la topologie urbaine, la distribution et la densité d’arbres dans l’espace public, etc.
Selon le mode de réalisation illustré, les variables d’intérêt Y, représentent des jugements subjectifs exprimant le ressenti des usagers de l’espace public quant aux critères spécifiques (stress, sécurité, etc.) sur lesquels est basé le calcul de l’indice du confort IC. De ce fait, les données contextuelles ont un rôle déterminant dans ces jugements subjectifs par un lien de causalité parfois implicite. Par exemple, le sentiment de stress ressenti par les usagers d’un espace public sera d’autant plus grand que les conditions météorologiques seront mauvaises ou que le niveau de bruit sera élevé. Il est donc avantageux de répertorier un maximum de données contextuelles pouvant avoir une influence sur les valeurs prises par les variables d’intérêt définissant l’indice du confort.
Les données contextuelles utilisées dans la présente invention seront classées dans deux catégories, les données dynamiques et les données statiques, selon leur dépendance au temps.
Les données dynamiques Uj représentent toute donnée contextuelle qui varie avec le temps comme par exemple le niveau de bruit dans l’espace public ou le nombre de voitures stationnées sur la place, et comprennent également les données personnelles des usagers de la place comme par exemple leurs âges et leurs catégories socioprofessionnelles.
Les données statiques vk représentent quant à elles toute donnée contextuelle constante dans le temps telle que le nombre d’arbres, de bancs, de commerces, ...etc. sur la place ou les données cartographiques de la place. Il est important de noter que toute donnée contextuelle constante pendant un temps de l’ordre du temps nécessaire à la collecte des données dans le procédé de création du modèle prédictif selon l’invention sera considérée comme donnée statique.
Les données contextuelles peuvent soit provenir de plusieurs sources libres d’accès (Open Data) disponibles, soit être directement relevables ou mesurables dans l’espace public en question. Ces données contextuelles sont donc des données multi sources hétérogènes et nécessitent une analyse préliminaire et un prétraitement avant leur incorporation dans le modèle prédictif.
Selon un mode de réalisation de l’invention, 73 données contextuelles, dynamiques et statiques, ont été définies pour l’élaboration du modèle prédictif du confort ressenti par les usagers de la place de la Nation.
Dans la suite, quelques exemples de données contextuelles utilisées seront décrits à titre indicatif et nullement exhaustif.
La position et la densité des arbres dans l’anneau central de la place de la Nation sont par exemple des données contextuelles statiques qui peuvent être obtenues via des sources Open Data, telles que OpenStreetMap ou Open Data de Paris, disponibles sur Internet.
La figure 3a représente la distribution des arbres sur la place, chaque point noir correspondant à un arbre. Cette distribution permet par exemple de connaître exactement le nombre d’arbres dans un rayon déterminé autour d’un usager se trouvant sur la place, générant ainsi une donnée contextuelle dérivée qui permettra ensuite de quantifier l’effet des arbres à proximité sur le ressenti d’un usager en matière de confort.
À partir des mêmes sources Open Data, il peut être obtenu, outre la position des arbres sur la place, la densité d’arbres dans ladite place comme illustré sur la figure 3b. La densité d’arbres cartographiée dans ce cas particulier correspond au nombre d’arbres par unité de surface, ladite densité est représentée en niveaux de gris, la valeur de la densité étant croissante en allant des tons clairs aux tons foncés. Par exemple, la zone 10 est une zone de grande densité tandis que la zone 20 est une zone de faible densité.
Chaque donnée contextuelle, dynamique ou statique, peut être rattachée à un facteur contextuel plus général dont peuvent dériver plusieurs données contextuelles du même type. Par exemple, les données contextuelles distribution des arbres et densité d’arbres dans l’espace public peuvent être rattachées à un facteur contextuel « arbre >>. De ce fait, selon un mode de réalisation d’un procédé de création du modèle prédictif du confort ressenti par les usagers de la place de la Nation, les données contextuelles statiques peuvent par exemple être rattachées aux 35 facteurs contextuels statiques énumérés ci-dessous :
Boulangerie Traversée Parcmètre Route primaire
Banc Piste cyclable Place de stationnement Gare
Location de vélos Fast food Pharmacie Restaurant
Poubelle Passage piéton Jardinière Route tertiaire
Borne vélo Espace vert Route secondaire Ecole
Arrêt de bus Eclairage Poteau Boite aux lettres
Café Rue animée Poteau vélo Abri
Boutique Marches Entrée du métro Autre route
Feux de circulation Arbre Route résidentielle
De la même façon, des facteurs contextuels dynamiques peuvent être définis.
Avantageusement, les sources Open Data précitées permettent un accès simple à une multitude de données contextuelles à partir des facteurs contextuels énumérés ci-dessus. Pour le facteur contextuel « arbre » par exemple, on dispose, outre leurs positions et leur densité, de données telles que la circonférence, la hauteur, le type botanique et l’année de plantation. En outre, les données contextuelles disponibles ne seront pas nécessairement toutes utilisées avec une même importance dans le modèle prédictif du confort.
En complément des données statiques disponibles en majeure partie sur les sources Open Data ou pouvant être relevées simplement par une action humaine, les données dynamiques sont principalement recueillies via des capteurs installés sur la place de la Nation tels que des capteurs de flux de piétons, différentes caméras, des capteurs de bruit, de qualité d’air, etc.
Selon un mode de réalisation du procédé de création du modèle du confort, des données issues de capteurs WiFi et de caméras de comptage ont été utilisées.
Les capteurs WiFi précités sont des bornes WiFi installées sur la place de la Nation permettant la collecte de données de connexion des appareils de télécommunication sans fil se trouvant sur la place de la Nation et dont la fonctionnalité WiFi est activée.
Lorsqu’un appareil, tel qu’un smartphone, cherche une connexion à un réseau WiFi, il envoie un signal qui est alors collecté par le réseau de capteurs WiFi installé. L’intensité et le décalage temporel de ce signal émis sont ensuite analysés par le réseau de capteurs qui permet de retrouver approximativement la position de l’appareil émetteur sur la place. En outre, l’adresse MAC de l’appareil est également collectée par le réseau de capteur, ce qui lui permet d’analyser la récurrence de passage dudit appareil sur la place à plusieurs heures ou jours d’intervalle.
Les figures 4a et 4b représentent la densité de smartphones présents sur la place de la Nation en une journée ordinaire à 6h00 et à 18h00 respectivement, les données ayant été préalablement traitées en vue de limiter tout bruit indésirable. On constate en effet une forte concentration de smartphones au centre de la place à 18h00, ce qui correspond aux usagers qui se dirigent vers les entrées de métro après leur travail et aux usagers profitant de l’espace vert situé à cet endroit.
Les caméras de comptage permettent de compter les objets qui traversent des lignes virtuelles en distinguant des familles desdits objets comme par exemple des vélos, des voitures et des piétons. Les caméras peuvent opérer des comptages indépendants suivant le sens de traversée des lignes virtuelles. Les lignes de comptage peuvent être disposées en des endroits pour lesquels les données de passage sont jugées utiles tels que des passages piétons, des entrées de métros, des voies stratégiques, etc.
Selon un mode de réalisation de l’invention, les caméras de comptage disposées sur la place de la Nation permettent de collecter des données contextuelles dynamiques telles que les flux de piétons et les flux de véhicules dans différentes zones de la place.
Il ressort clairement de la description de l’étape 120 de recensement et collecte des données contextuelles que les exemples donnés sont susceptibles d’être complétés et/ou modifiés. De manière générale, les données contextuelles représentent une quantité très conséquente de données nécessitant l’utilisation de techniques spécifiques au domaine des mégadonnées (ou Big data) en vue de leur analyse et de leur traitement. Ainsi, il est par exemple fait appel aux techniques dites de réseaux de neurones, connues dans le domaine de l’intelligence artificielle, pour l’exploration de tels volumes de données.
De ce fait, le modèle prédictif obtenu par le procédé objet de la présente invention est un modèle d’apprentissage automatique mettant en oeuvre un volume important de données contextuelles dans le but de comprendre leur influence sur l’indice du confort IC introduit plus haut, pour pouvoir ensuite prédire ledit indice sur la base desdites données contextuelles uniquement.
L’étape 130 de définition des attributs consiste à déterminer des paramètres qui permettront d’établir un lien entre les données contextuelles collectées et les variables d’intérêt mesurées. Selon le mode de réalisation décrit, les attributs sont les positions (en coordonnées géographiques) dans l’espace public des personnes sondées et les dates auxquelles les sondages sont réalisés.
Par exemple, la position d’une personne sondée permet, à partir de la donnée statique de la densité d’arbres, de déterminer le nombre d’arbres entourant ladite personne dans un rayon donné, et la date permet d’estimer par exemple, à partir de la donnée dynamique du flux de piétons, le flux de piétons instantané au voisinage de la personne durant le sondage. Ces attributs permettent donc d’établir un lien entre données contextuelles et variables d’intérêt dans la mesure où les valeurs prises par les variables d’intérêt (réponses aux questions du sondage) dépendent des données contextuelles dérivées conditionnées par ces attributs.
L’étape 200 de réalisation d’une enquête terrain consiste à collecter un ensemble de valeurs des variables d’intérêt Y,, des attributs ainsi que des données contextuelles définies, pour entraîner le modèle d’apprentissage automatique qui sera établi.
Selon un mode de réalisation de l’invention, l’ensemble de valeurs des variables, des attributs et des données contextuelles est recueilli sur un échantillon de N usagers de la place de la Nation et comprend donc N séries de données rangées comme suit :
Avec n et m les nombres de données dynamiques et statiques respectivement, et (x,y,t) les attributs de position et de date.
On obtient alors N séries de (n+m+9) éléments, ou (n+m+6)-uplets, qui peuvent être rangées dans une matrice N x (n+m+9), ou dans plusieurs matrices blocs.
Autrement dit, pour chaque usager de la place de la Nation pris dans l’échantillon d’étude, il est nécessaire de connaître les valeurs des variables d’intérêt, et par là même la valeur de l’indice du confort calculée à partir desdites valeurs des variables d’intérêt, ainsi que toutes les valeurs des attributs et des données contextuelles définies afin de permettre au modèle d’apprentissage automatique de comprendre au mieux les liens entres variables d’intérêt et données contextuelles.
Selon un mode de réalisation de l’invention, les variables d’intérêt ainsi que les données personnelles des usagers sont collectées par sondage.
Selon un mode de réalisation de l’invention, les attributs de position et de date peuvent être relevés par un terminal mobile servant à la réalisation du sondage, par l’intermédiaire des données GPS par exemple.
Les autres données contextuelles sont relevées par des mesures comme décrit plus haut.
En raison du caractère qualitatif des variables d’intérêt précitées, une échelle de valeurs de 1 à 4 a été choisie afin de quantifier le ressenti des usagers de la place par rapport auxdites variables, la valeur 1 correspondant à « Pas du tout » et la valeur 4 à « Complètement ». Par exemple un piéton qui se trouve sur la place et qui estime que la place n’est pas du tout agréable répondrait « 1 » à la question « trouvez-vous que la place de la Nation est agréable ? » qui lui serait posée. Ainsi, les variables Y, correspondent à des niveaux normalisés des critères qu’elles désignent, et une manière simple de recueillir ces niveaux chez un usager d’un espace public serait de lui poser des questions du type « Pourriez vous noter sur une échelle de 1 à 4, 1 correspondant à Pas du tout et 4 à Complètement, le niveau de propreté de cet espace public ? >>.
La figure 5 représente par exemple les notes obtenues pour la variable « Beauté » avec un échantillon représentatif de 1200 usagers de la place de la Nation.
L’étape 300 d’implémentation d’un ensemble de modèles d’apprentissage automatique consiste à tester des modèles de calcul des variables d’intérêt Y, en fonction des données contextuelles, dynamique Uj et statiques vr, et des attributs. Ces modèles initiaux implémentent des algorithmes développés spécialement pour tenir compte au mieux de la dépendance des variables d’intérêt vis-à-vis des données contextuelles et des attributs.
Les variables d’intérêt Y, vont permettre le calcul de l’indice du confort IC et représentent donc les sorties des modèles prédictifs, les données contextuelles ainsi que les attributs représentent les entrées desdits modèles prédictifs.
Les modèles initiaux établis seront ensuite entraînés avec des ensembles de variables d’intérêt, de données contextuelles et d’attributs réellement relevées sur le terrain comme décrit à l’étape 200.
L’étape de calibrage 400 des modèles initiaux d’apprentissage automatique permet de régler des paramètres desdits modèles de sorte que pour des entrées données, les modèles prédictifs puissent générer les sorties correspondant auxdites entrées reproduisant ainsi, moyennant une marge d’erreur minimum, les séries de variables, d’attributs et de données telles qu’elles ont été injectées dans lesdits modèles.
L’étape 500 de sélection du modèle final d’apprentissage automatique consiste à choisir, parmi les modèles testés, le modèle présentant les meilleures estimations, autrement dit, le modèle avec le moins de marge d’erreur globale.
Enfin, l’étape 600 de validation du modèle prédictif consiste à vérifier si ledit modèle reproduit pour des entrées données des sorties qui sont des bonnes approximations des sorties réelles relevées sur le terrain, la validation étant effectuée sur un ensemble de valeurs des variables et données contextuelles non injecté dans le modèle prédictif. Par exemple, la validation peut être une validation croisée, ou cross-validation, selon l’une des techniques bien connues de ce type de validations.
Le procédé de création d’un modèle prédictif de l’indice du confort dans un espace public selon l’invention permet alors d’obtenir un modèle prédictif capable d’estimer l’indice du confort dans un espace public donné et transposable à d’autres espaces publics similaires, dans lesquels des données contextuelles 5 similaires peuvent être recueillies. Le modèle prédictif permet d’estimer l’indice du confort dans un espace public sans recourir à un quelconque sondage des usagers dudit espace offrant ainsi une alternative viable et économique aux acteurs de l’aménagement et de l’urbanisme.
Cependant, les principes de l’invention tels que venant d’être exposés peuvent s’appliquer à d’autres cas dans d’autres domaines d’activités.

Claims (11)

1. Procédé de création d’un modèle prédictif mis en œuvre par un calculateur pour estimer une variable quantitative correspondant à une caractéristique d’un environnement, l’estimation de ladite variable quantitative par ledit modèle prédictif étant réalisée à partir de données contextuelles, caractérisé en qu’il comporte :
- une étape de collecte des données contextuelles dans l’environnement ;
- une étape de mesure de la variable quantitative dans l’environnement ;
- une étape de détermination d’au moins un attribut lié à la mesure de la variable quantitative dans l’environnement ;
- une étape d’implémentation d’au moins un modèle initial d’apprentissage automatique permettant d’estimer ladite variable quantitative en fonction de l’au moins un attribut et des données contextuelles ;
- une étape de calibrage dudit au moins un modèle initial d’apprentissage automatique avec au moins une première mesure de la variable quantitative, au moins un attribut lié à ladite au moins une première mesure de la variable quantitative et les données contextuelles ;
- une étape de sélection d’un modèle final calibré d’apprentissage automatique ;
- une étape de validation du modèle final calibré d’apprentissage automatique avec au moins une deuxième mesure de la variable quantitative différente de ladite au moins une première mesure, au moins un attribut lié à ladite deuxième mesure de la variable quantitative et les données contextuelles.
2. Procédé selon la revendication 1, dans lequel la variable quantitative dépend d’au moins deux variables d’intérêt, chacune desdites variables d’intérêt correspondant à une caractéristique particulière de l’environnement.
3. Procédé selon la revendication 1 ou la revendication 2, dans lequel les données contextuelles comportent des données dynamiques qui varient avec le temps et des données statiques constantes dans le temps, sur au moins un temps caractéristique.
4. Procédé selon la revendication 3, dans lequel l’étape de collecte des données contextuelles dans l’environnement est caractérisée en ce que les données dynamiques sont collectées en temps réel.
5. Procédé selon l’une quelconque des revendications précédentes, dans lequel l’étape de mesure de la variable quantitative dans l’environnement comprend N mesures de ladite variable quantitative et dans lequel l’étape de détermination d’au moins un attribut comprend N déterminations d’au moins un attribut lié à chacune des N mesures de la variable quantitative, N étant un entier naturel supérieur ou égal à deux.
6. Procédé selon la revendication 5, dans lequel les N mesures de la variable quantitative et les N déterminations d’au moins un attribut lié à chacune des N mesures de la variable quantitative sont rangées en N couples (variable quantitative, au moins un attribut, données contextuelles).
7. Procédé selon la revendication 6, dans lequel le modèle final calibré d’apprentissage automatique permet d’obtenir la variable quantitative correspondant à l’au moins un attribut et aux données contextuelles dans chaque couple d’une partie des N couples.
8. Procédé selon la revendication 7, dans lequel l’étape de validation consiste à comparer une variable quantitative prédite par le modèle final calibré à partir de l’au moins un attribut et des données contextuelles dans chaque couple de l’autre partie des N couples avec la variable quantitative mesurée appartenant audit couple.
9. Procédé selon l’une quelconque des revendications précédentes, dans lequel l’environnement est un espace public et dans lequel la variable quantitative est mesurée par un sondage sur un échantillon d’usagers dudit espace public.
10. Procédé selon l’une quelconque des revendications précédentes, caractérisé en ce qu’il comporte deux attributs liés à chaque mesure de la variable quantitative, un attribut spatial et un attribut temporel, l’attribut spatial étant une position de la mesure dans l’environnement et l’attribut temporel étant une date de ladite mesure.
11. Procédé selon la revendication 9 et la revendication 10, dans lequel la variable quantitative est un indice du confort ressenti par les usagers de l’espace public.
1 /4
Place de la Nation (Paris, France)
Fig. 1
2/4
3/4
Fig. 3a
Fig. 3b
4/4
Fig. 4a Fig. 4b
Nombre d'observations
Beauté
Notes
Fig. 5
RÉPUBLIQUE FRANÇAISE
N° d'enregistrement national
FA 843559
FR 1759570 irai — I INSTITUT NATIONAL
DE LA PROPRIÉTÉ
INDUSTRIELLE
RAPPORT DE RECHERCHE PRÉLIMINAIRE établi sur la base des dernières revendications déposées avant le commencement de la recherche
EPO FORM 1503 12.99 (P04C14)
DOCUMENTS CONSIDÉRÉS COMME PERTINENTS Revend ication(s) concernée(s) Classement attribué à l'invention par ΙΊΝΡΙ Catégorie Citation du document avec indication, en cas de besoin, des parties pertinentes X X ALSHAWISH RAJA A ET AL: Big data applications in smart cities, 2016 INTERNATIONAL CONFERENCE ON ENGINEERING & MIS (ICEMIS), IEEE, 22 septembre 2016 (2016-09-22), pages 1-7, XP033004876, D0I: 10.1109/ICEMIS.2016.7745338 [extrait le 2016-11-15] * abrégé; figures 1-4 * * page 4 * Piyushimita Thakuriah ET AL: Big data and urban Informatics: innovations and challenges to urban planning and knowledge di scovery, Proc, of NSF Workshop on Big Data and Urban Informatics, 1 janvier 2016 (2016-01-01), pages 4-32, XP055462463, Extrait de l'Internet: URL:https://pdfs.semanticscholar.org/2bfd/ 3dfa47806996f370d330b03fec599977a606.pdf * abrégé; figure 1; tableau 1 * * pages 1-3 * * Point 2.2.3; pages 6-7 * * Point 2.2.6; pages 7-8 * * Point 3.3; page 13 * 1-11 1-11 G06Q50/26 G06Q30/02 G06F17/18 G06F17/40 DOMAINES TECHNIQUES RECHERCHÉS (IPC) G06Q Date d'achèvement de la recherche Examinateur 23 mars 2018 Bauer, Rodolphe CATÉGORIE DES DOCUMENTS CITÉS T : théorie ou principe à la base de l'invention E : document de brevet bénéficiant d'une date antérieure X : particulièrement pertinent à lui seul à la date de dépôt et qui n'a été publié qu'à cette date Y : particulièrement pertinent en combinaison avec un de dépôt ou qu'à une date postérieure. autre document de la même catégorie D ; cité dans la demande A : arrière-plan technologique L : cité pour d'autres raisons O : divulaation non-écrite P : document intercalaire & : membre de la même famille, document correspondant
FR1759570A 2017-10-12 2017-10-12 Procede de creation d'un modele predictif a partir d'un ensemble de donnees contextuelles Active FR3072485B1 (fr)

Priority Applications (3)

Application Number Priority Date Filing Date Title
FR1759570A FR3072485B1 (fr) 2017-10-12 2017-10-12 Procede de creation d'un modele predictif a partir d'un ensemble de donnees contextuelles
EP18779704.8A EP3695364A1 (fr) 2017-10-12 2018-10-05 Procédé de création d'un modèle prédictif à partir d'un ensemble de données contextuelles
PCT/EP2018/077134 WO2019072713A1 (fr) 2017-10-12 2018-10-05 Procédé de création d'un modèle prédictif à partir d'un ensemble de données contextuelles

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1759570A FR3072485B1 (fr) 2017-10-12 2017-10-12 Procede de creation d'un modele predictif a partir d'un ensemble de donnees contextuelles
FR1759570 2017-10-12

Publications (2)

Publication Number Publication Date
FR3072485A1 true FR3072485A1 (fr) 2019-04-19
FR3072485B1 FR3072485B1 (fr) 2022-09-09

Family

ID=60302366

Family Applications (1)

Application Number Title Priority Date Filing Date
FR1759570A Active FR3072485B1 (fr) 2017-10-12 2017-10-12 Procede de creation d'un modele predictif a partir d'un ensemble de donnees contextuelles

Country Status (3)

Country Link
EP (1) EP3695364A1 (fr)
FR (1) FR3072485B1 (fr)
WO (1) WO2019072713A1 (fr)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3032286A1 (fr) * 2015-02-03 2016-08-05 Easy Comptage Procede et systeme d'estimation d'une population

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR3032286A1 (fr) * 2015-02-03 2016-08-05 Easy Comptage Procede et systeme d'estimation d'une population

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
ALSHAWISH RAJA A ET AL: "Big data applications in smart cities", 2016 INTERNATIONAL CONFERENCE ON ENGINEERING & MIS (ICEMIS), IEEE, 22 September 2016 (2016-09-22), pages 1 - 7, XP033004876, DOI: 10.1109/ICEMIS.2016.7745338 *
PIYUSHIMITA THAKURIAH ET AL: "Big data and urban Informatics: innovations and challenges to urban planning and knowledge discovery", PROC. OF NSF WORKSHOP ON BIG DATA AND URBAN INFORMATICS, 1 January 2016 (2016-01-01), pages 4 - 32, XP055462463, Retrieved from the Internet <URL:https://pdfs.semanticscholar.org/2bfd/3dfa47806996f370d330b03fec599977a606.pdf> *
ZHENG YIXIAN ET AL: "Visual Analytics in Urban Computing: An Overview", IEEE TRANSACTIONS ON BIG DATA, IEEE, vol. 2, no. 3, 1 September 2016 (2016-09-01), pages 276 - 296, XP011626504, DOI: 10.1109/TBDATA.2016.2586447 *

Also Published As

Publication number Publication date
WO2019072713A1 (fr) 2019-04-18
FR3072485B1 (fr) 2022-09-09
EP3695364A1 (fr) 2020-08-19

Similar Documents

Publication Publication Date Title
US9082014B2 (en) Methods and apparatus to estimate demography based on aerial images
US20160358190A1 (en) Methods and apparatus to estimate a population of a consumer segment in a geographic area
US20130226667A1 (en) Methods and apparatus to analyze markets based on aerial images
Bravo-Moncayo et al. A machine learning approach for traffic-noise annoyance assessment
US20090073033A1 (en) Learning a user&#39;s activity preferences from gps traces and known nearby venues
Livingston et al. Predicting cycling volumes using crowdsourced activity data
Farahmand et al. A spatial–temporal graph deep learning model for urban flood nowcasting leveraging heterogeneous community features
CN112668375B (zh) 景区内游客分布分析系统及方法
US20220292154A1 (en) Automated sentiment analysis and/or geotagging of social network posts
Ferrari et al. Identifying and understanding urban sport areas using Nokia Sports Tracker
CN115456695A (zh) 一种店铺选址的分析方法、装置、系统及介质
Srirutchataboon et al. Stacking ensemble learning for housing price prediction: a case study in Thailand
FR3112398A1 (fr) Procédé de caractérisation d’un trajet parcouru par un utilisateur
Brown et al. Estimating per‐pixel thematic uncertainty in remote sensing classifications
Groff Measuring a place’s exposure to facilities using geoprocessing models: An illustration using drinking places and crime
Torkko et al. How to best map greenery from a human perspective? Comparing computational measurements with human perception
Gong et al. Spatio-temporal parking occupancy forecasting integrating parking sensing records and street-level images
Ki et al. A novel walkability index using google street view and deep learning
Dimitriou et al. Exploring the temporal stability of global road safety statistics
Dai et al. Street view imagery-based built environment auditing tools: a systematic review
Yang et al. From intangible to tangible: The role of big data and machine learning in walkability studies
Zhao et al. Evaluation method for pedestrian level of service on sidewalks based on fuzzy neural network model
FR3072485A1 (fr) Procede de creation d&#39;un modele predictif a partir d&#39;un ensemble de donnees contextuelles
Silva et al. More than the sum of their parts: Valuing environmental quality by combining life satisfaction surveys and GIS data
CN113282842A (zh) 一种基于智能手机的出行调查和人工神经网络粒子群优化算法的出行目的识别方法

Legal Events

Date Code Title Description
PLSC Publication of the preliminary search report

Effective date: 20190419

PLFP Fee payment

Year of fee payment: 3

PLFP Fee payment

Year of fee payment: 4

PLFP Fee payment

Year of fee payment: 5

PLFP Fee payment

Year of fee payment: 6

PLFP Fee payment

Year of fee payment: 7