EP2920755A1 - Methode d'estimation automatique de la valeur de biens meubles heterogenes - Google Patents

Methode d'estimation automatique de la valeur de biens meubles heterogenes

Info

Publication number
EP2920755A1
EP2920755A1 EP13785422.0A EP13785422A EP2920755A1 EP 2920755 A1 EP2920755 A1 EP 2920755A1 EP 13785422 A EP13785422 A EP 13785422A EP 2920755 A1 EP2920755 A1 EP 2920755A1
Authority
EP
European Patent Office
Prior art keywords
variables
market
goods
group
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
EP13785422.0A
Other languages
German (de)
English (en)
Inventor
Pierre Capelle
Julien INGE
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sneep
Original Assignee
Sneep
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sneep filed Critical Sneep
Publication of EP2920755A1 publication Critical patent/EP2920755A1/fr
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors

Definitions

  • the present invention relates to a method for determining at least a market value for goods, such as prices, based in particular on the characteristics of said goods.
  • Such methods allow prospective purchasers and sellers of such assets to have comparable transaction references to the one they are considering, asset owners to value their assets for accounting and / or tax purposes and intermediaries to follow.
  • Goods for which there is such transaction information are, for example, used motor vehicles.
  • the market values provided may be announced prices, real transaction prices, a value calculated by depreciation of a new price, etc.
  • the applicant of the present patent application has been collecting and selling for many years a rating of vehicles of a large number of makes, models, years.
  • the present invention provides a combination of data normalization techniques, statistical selection, grouping and pretreatment techniques that allow the automatic generation of regression models that deliver valid estimates in a confidence interval corresponding to the needs of the users.
  • the invention discloses a method of automatically estimating at least one market value of a heterogeneous movable asset, said method comprising a step of regular collection from identified players of said market of price measurements on said market.
  • variables of the first group are selected automatically by applying statistical tests selected from a group comprising correlation, heteroscedasticity and significance tests.
  • the first group of variables comprises at least a first subgroup of characteristic variables of said goods which are independent of the date of the transaction and a second subgroup of characteristic variables of said goods which depend on the transaction date.
  • the automatic estimation method of the invention further comprises a step of determining a modeling mesh, a regression model being calculated for each mesh.
  • said at least one characteristic quantity of a transaction is a price.
  • said heterogeneous goods are used vehicles.
  • the invention also discloses a computer system for producing and consulting data on a heterogeneous goods market, said system comprising a database server, a communication interface between said server and players identified in a market of heterogeneous goods, a regular automatic collection module via said interface with said actors to said price server on said market and a first group of variables characterizing said goods according to a standard nomenclature of said heterogeneous goods, a coefficient storage module of at least one regression model of at least one value of at least one property on said market on a list of variables comprising at least said variables of the first group and a module for calculating and storing the outputs of said at least one regression model, said system being characterized in that the variables of said at least one model comprise variables of a second group that are characteristic of said actors and variables of said a third group characteristic of the transaction dates.
  • the computer system for producing and consulting data of the invention further comprises, at the output of said module for calculating and storing the outputs of said at least one regression model, a module for determining a strategy for selling the data. a good on said market, optimal for a list of criteria.
  • the computer system for producing and consulting data of the invention further comprises a module for producing and consulting a list of indicators making it possible to characterize at least one of the past, current or projected situation of said market. .
  • said model is unique and in that said list of indicators comprises at least one estimate, one geolocation and one depreciation.
  • the invention also makes it possible to create multiple indicators corresponding to the needs of different classes of users involved in the markets of said heterogeneous goods, of a historical or prospective nature.
  • the different indicators can advantageously be crossed so as to constitute a real system of decision support for said stakeholders.
  • the data collection system of the invention makes it possible to identify the geographical location and the typology of the data collection points, it is possible to segment the market of the property in question at the appropriate level to provide the data. marketing data of unparalleled accuracy in the prior art.
  • Figures 1a and 1b illustrate the general flow charts of two prior art methods
  • FIG. 2 represents the technical architecture of a data collection and exploitation system according to several embodiments of the invention
  • FIG. 3 illustrates the functional architecture of a data collection system for implementing the invention in several of its embodiments
  • Fig. 4 shows the general process flowchart for estimating a pricing model in one embodiment of the invention
  • FIG. 5 shows several possible mesh levels in several embodiments of the invention.
  • Figure 6 illustrates several steps of testing the results of the model in one embodiment of the invention
  • FIGS 1a and 1b illustrate the general flow charts of two methods of the prior art processing.
  • the method illustrated in Figure 1 uses commodity segment averages as an indicator of price synthesis.
  • the average price index method is commonly used to create price indices. It is used by INSEE, particularly for consumer price indices.
  • Data is collected from market participants, for example network dealers and independents in the case of used vehicles.
  • the method consists of comparing the average price of goods exchanged on two successive dates. When the good remains the same, without wear and distributed by the same point of sale modeling is easy. Modeling is complicated when we consider heterogeneous products, we must then select segments of homogeneous goods for an axis of analysis. The goal is to prevent a structural variation from being interpreted as a price change. As illustrated in the figure, with N segments, if on a segment n no transaction is available for a given month then it is necessary to estimate the average price by application of the average variation observed on the N-1 other segments. Different types of averages can be used: the arithmetic mean, the geometric mean, the root mean square, or a weighted average.
  • This method is simple to implement and explain. However, it is an indicator of central tendency biased by extreme values. In addition, this method is poorly suited to very heterogeneous goods markets where prices are influenced by a large number of characteristics. Its only purpose is to create a summary indicator of price tracking. It does not allow to rate a property.
  • the method shown in Figure 1b uses repeat sales. Its purpose is to produce price variation indices. It consists of constructing an index from goods that have been sold at least twice (or considering two sales of similar goods). From these repeated sales, it is possible to calculate price changes in order to construct a variation index. However, information that can not be considered a repeat sale can not be used in modeling. To use this method properly, it is necessary to have enough data. On a large segment the method will be reliable.
  • FIG. 2 represents the technical architecture of a data collection and exploitation system according to several embodiments of the invention.
  • a server 201 connected to a communication network, public or private, wired or connected by radiocommunications, using for example an http or https protocol is configured to allow the collection of data relating in particular to transactions that are wishes to analyze with collection points 202 connected to said network.
  • the frequency of collection can be daily, weekly, or less, depending on the data refresh specification set by the network operator.
  • the data collected include prices, which may be, for example, actual transaction prices, ad prices, prices calculated by depreciation of the selling price of a new property.
  • the collected data must be standardized according to a protocol defined by the operator. They are stored in a database of collected data 203, relational or object type, managed by the operator of the network.
  • the database is normally redundant to cope with communication or processing incidents.
  • a server 204 also managed by the network operator stores the parameters of the estimation model, which is normally produced from a specific database constituted from a subset of the collected data, estimation basis. , not shown in the figure, according to procedures explained later in the description.
  • the model is normally tested before going into production on another subset of the data collected, test basis, also not shown in the figure.
  • the model parameters are stored in a base of the estimation models 206.
  • the operator 205 performs the estimates and the tests.
  • the estimated data stored in a database 209 are made available to the users 208 via a server 207.
  • the users are also connected to the server by a public or private network, wired or connected by radio to the server. and using a protocol of type http or https.
  • the methods of making the data available are defined by the operator.
  • the invention is implemented by algorithms implemented on the servers 201, 204 and 207, as well as in the databases 203, 206 and 209.
  • Figure 3 shows the functional architecture of a data collection system for implementing the invention in several of its embodiments.
  • the collection points 202 are configured to have a local database 301.
  • a central database 302 may also be provided in the case where the network operator also manages transactions at a central site.
  • These local and central data are assembled in a central base 303, which may be the same as the base 201, or different. This data can be compared with other sources, for example an advertisement database 304 managed by the same operator or a database 305 of one or more other network operators with which agreements have been made for this purpose.
  • a reference 306 includes, in the illustrated example relating to transactions on used vehicles, the data that define the vehicles, their price history, the observation periods, the elements defining their technical characteristics and their equipment. Part of the know-how of the operator, useful for the implementation of the invention lies in the definition of this reference. In particular, similar data may be designated differently by more than one constructor. It is therefore necessary to unify the designations in a common nomenclature.
  • a group of variables can be operated at this stage. For example, the type of gearbox, where there are more than 50 names different from all manufacturers, is grouped in a smaller number of references.
  • a data transformation process is performed in a "Staging Area” or “Transformation Zone", 307.
  • the data are transformed, tested and filtered in order to retain at the end of the process variables that are time-invariant characteristics relevant to the transactions that will be observed, the data that will be estimated and the indicators that will be calculated at the end of the process. from these data.
  • the variables must also meet quality standards defined according to the rules of the art of data management and statistics (completeness, non-correlation, for example).
  • the transformation may consist of more complex substitutions, in particular of variables correlated with each other by a single variable having the highest rate of completeness.
  • the completeness rate of the data collection is one of the elements that are taken into account to define these groupings. For example, data relating to motorization are numerous and strongly correlated with each other. It is therefore necessary to retain those which are the most complete and the most representative of the parameter that one wishes to model.
  • AFDM procedures are known to those skilled in the art of statistics. They consist in selecting the explanatory variables relating to a global modality, in normalizing them, then in selecting the principal components (linear combinations of origin variables) which determine the highest eigenvalues of the covariance matrix of the modality. The said principal components are then substituted for the original variables.
  • the tests are integrity and consistency tests.
  • the filters allow to eliminate the data out of coherence ranges (price of transaction, mileage, age, etc ..) defined by the operator.
  • This functional architecture makes it possible to set up and operate a "Datamart Etudes" 308 which will enable the operator 205 to estimate the models 206 from which the estimated data base 209 will be based. will be made available to users 208.
  • FIG. 4 represents the general flowchart of the processes for estimating a pricing model in one embodiment of the invention.
  • a hedonic price equation is used.
  • the price of a given transaction is defined by a linear regression on several categories of variables, for example :
  • Y jtn characteristics evolving over time, including age
  • the model makes it possible to determine the value of each of the intrinsic characteristics of the property and the conditions of the transaction as components of the total value of the property.
  • the two underlying theoretical assumptions are, on the one hand, that a buyer attributes a value to the features of the price equation and is willing to pay for it and, on the other hand, that the production of those characteristics has cost for the one who markets the good.
  • For the modeling is valid, it is in particular necessary to have a sufficient number of observations for each of the characteristics of the goods and / or transactions, said characteristics being furthermore slightly inter-correlated.
  • ⁇ T are the coefficients of the variables and ⁇ ⁇ 'is the estimation residual.
  • the X in time invariant characteristics used in the main embodiments of the invention applied to second-hand vehicles will be general characteristics (Generation, Phase, Engine, Series Equipment) and variables created by AFDM. (three Motorization variables, three Body variables and three Consumption variables).
  • the characteristics varying over time Y jtn will be for example the age, the monthly mileage, a first-hand indicator, the amount of the restoration costs.
  • the variables relating to the sales conditions z kn are, for example, the region where the sale took place, the type of actor who took over the vehicle (professional or private).
  • the method of the invention in its main embodiments consists in estimating the above coefficients for example by following the steps described in FIG. 4. These coefficients represent the marginal price of each of the evaluated characteristics. It should be noted, however, that for the variables created by AFDM, the business interpretation in terms of marginal price of each characteristic is not always possible.
  • a step 401 data analysis meshes are determined.
  • the notion of mesh corresponds to the level of grouping of heterogeneous goods.
  • Figure 5 illustrates different mesh levels that can be used for used vehicles in several embodiments of the invention.
  • a Trademark is a distinctive sign that enables a company to distinguish the products or services it markets from the same or similar products or services of its competitors. When creating a trademark in the 306 Referential, the exact wording of the same is repeated. it is the one on the manufacturer's tariff.
  • the Model gathers the different body types of the same vehicle model; for example, in the case of the Ford 207, the body types sedan 3-door, sedan 5-door, SW (Break), Couzza-Cabriolet are gathered under the Model 207 in the
  • a Body Type is the trade name of the model used by the manufacturer; this body type must appear in the catalog and the manufacturer's tariff; Examples of body types are: 3-door sedans, 5-door sedans, station wagons, coupes, cabriolets, limousines, pick-ups ...
  • a phase in automotive terms is synonymous with style modification; these are slight changes of aesthetic order with eg new headlights, a new front or rear, chrome ....
  • the number of occurrences in a mesh determines the number of price equations whose coefficients will have to be determined according to the method explained below.
  • the mesh levels depend on the good to which the method of the invention is applied.
  • the example in Figure 5 is suitable for transactions involving second-hand vehicles, but other definitions could be used for other goods or other types of transactions, without the generality of the principles of selection of the appropriate level of mesh being affected.
  • the main objective in the main embodiments of the invention, is not to compare the marks with each other, but to estimate as accurately as possible the influence of each characteristic on the prices of the vehicles making the object of transactions, the choice of a global mesh is not the most suitable for the intended purpose.
  • the Brand and Model meshes are not adapted to the objective pursued in the main embodiments of the invention. Indeed, it is not a question of obtaining the same cost per kilometer for all the vehicles of the same mark, or even for all the vehicles corresponding to the same Model.
  • the Finishing mesh is not suitable for different reasons. Indeed, the number of meshes would be in this case too important (several thousands) and one would not have a sufficient number of observations by mesh to realize the estimate of the models.
  • the last three possible choices provide models meeting the objectives of the invention without posing any modeling problem because the observations in each mesh are sufficient in number.
  • the choice between these three levels is made by testing and discussion with the market experts. In the exemplary embodiment of the invention illustrated in FIG. 6, the choice is made on the level of mesh Type of bodywork.
  • the transactions whose data are stored in the Datamart Etudes 308 which correspond to the mesh selected during step 401 are selected.
  • the number of observations relating to the mesh is less than a threshold, for example for an exemplary embodiment, 40, it is considered that there are not enough observations and we go directly to the next mesh . If the number of observations is greater than this threshold (40), one proceeds to the automatic selection of the variables in a step 403.
  • this step 403 is to make a first selection from the set of available variables and to constitute a list that will serve for the next step.
  • the selection of variables can be done in two stages. First of all, an automatic selection of the indicatrices of the sales region of the vehicle is carried out. This selection is made using a "stepwise" or “step-by-step” procedure that is based on significance tests, with an entry threshold in the model set at 0.01 and an exit threshold at 0.02.
  • the second step is an automatic selection performed in the same way as the previous one, but on all the selected variables other than the region, in particular:
  • dummies such as: first-hand vehicle, vehicle sold by a distributor of the brand, standard equipment, generation, phase, semester of sale.
  • Steps 404, 405, and 406 are broken down into substeps in Figure 6.
  • the objective of the next step 404 is to obtain a list of variables specific to the modeling, for the mesh in question.
  • the list of variables created in the previous step 403 is refined to ensure that the set of variables of said list satisfies for example the two rules below:
  • an iterative procedure 404 illustrated in FIG. 6, is applied.
  • the variable having the highest value of p-value is eliminated at each loop of the test, until it has been reached.
  • the p-value is the probability that an event can occur under condition of validity of a hypothesis.
  • tests are carried out during a step 405 on the model itself. For example, two tests are performed:
  • heteroscedasticity measures the level of variability in the variance of the residues; the most commonly used test is that of
  • the model is validated only if the adjusted coefficient R 2 of the regression is greater than a threshold, for example
  • step 406 the results obtained on the stitch treated are recorded: in a table, the adjusted R 2 of the regression and the p-value of the test of White; in another table, the list of variables selected. For each variable, the estimated coefficient, the standard deviation and the p-value of the associated Student test are recorded. At the output of step 406, only the meshes satisfying the three following conditions are considered:
  • the number of transactions of the mesh has a sufficient size at the exit of step 402 (in the exemplary embodiment illustrated, 40);
  • the adjusted R 2 associated with the mesh is greater than the set threshold (0.5 for example).
  • the set threshold 0.5 for example.
  • the value of some specific coefficients that have been estimated in the model is tested. For example, four coefficients can be chosen: the value of the model constant, the value of the parameters associated with the vehicle age variables, the vehicle's monthly mileage and the sales-to-private indicator. These variables make it possible to determine a common base for all Body Types of the Brand Models, which creates a uniform initial structure.
  • the sign of the coefficient associated with the age of the vehicle is positive, then the older the vehicle, the more expensive the vehicle is.
  • the value of a vehicle is a decreasing function of time.
  • the relevant test therefore consists in verifying that for each model the coefficient associated with the age variable is strictly negative. If not, the model must be discarded. 21 The coefficient of the vehicle's monthly mileage variable.
  • the price of a used vehicle is a decreasing function of the vehicle's monthly mileage.
  • the relevant test consists of therefore to check that the coefficient associated with the monthly mileage of the vehicle is strictly negative.
  • the validity range of the constant has been determined to be substantially equal to [8, 13]. Indeed, if the constant is less than 8, or greater than 13, then the basis of calculation of the value of the vehicle is erroneous under the conditions of the embodiment of the invention illustrated by way of example. The other variables must then compensate for this effect, and in this case the coefficients estimated for the explanatory variables no longer make sense from a business point of view, but are over or underestimated in order to compensate for the poor estimation of the constant. In other exemplary embodiments, the range of validity may be different, without the generality of the process being affected.
  • Figure 6 illustrates a data analysis step in an embodiment of the invention.
  • step 401 of the general flowchart of the treatments according to the main embodiments of the invention applied to transactions involving second-hand vehicles has been defined generally above with reference to FIG. 4 (step 401 of the general flowchart of the treatments according to the main embodiments of the invention applied to transactions involving second-hand vehicles ).

Landscapes

  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

L'invention se rapporte à une méthode de production automatique de modèles permettant d'estimer des indicateurs portant sur des transactions de biens meubles hétérogènes. De tels biens ont des caractéristiques qui expliquent en partie leurs prix. Pour déterminer les équations de régression du modèle hédonique de prix, on recueille les données nécessaires auprès des opérateurs sur le marché selon une nomenclature adéquate, on définit des variables représentatives des caractéristiques pertinentes, le cas échéant après élimination des composantes d'inter-corrélation. On valide le modèle par application de tests de significativité et d'hétéroscédasticité complétés par des règles métier. On dispose alors de donner permettant de produire un nombre important d'indicateurs relatifs aux transactions qui peuvent être mis facilement à la disposition des opérateurs dudit marché. Un domaine privilégié d'application est le marché des véhicules d'occasion.

Description

METHODE D'ESTIMATION AUTOMATIQUE DE LA VALEUR DE BIENS
MEUBLES HETEROGENES
La présente invention concerne une méthode pour déterminer au moins une valeur de marché portant sur des biens, tels que les prix, en fonction notamment des caractéristiques desdits biens. De telles méthodes permettent à des futurs acheteurs et vendeurs desdits biens de disposer de références de transactions comparables à celle qu'ils envisagent, à des détenteurs de biens d'évaluer leur patrimoine à des fins comptables et/ou fiscales et à des intermédiaires de suivre l'état des marchés sur lesquels ils opèrent à partir d'informations qui leur permettent d'optimiser leurs interventions. Des biens pour lesquels il existe de telles informations sur les transactions sont par exemple les véhicules automobiles d'occasion. Les valeurs de marché fournies peuvent être des prix annoncés, des prix de transactions réelles, une cote calculée par dépréciation d'un prix neuf, etc .. Le demandeur de la présente demande de brevet collecte et commercialise ainsi depuis de nombreuses années une cote de véhicules d'un grand nombre de marques, modèles, années.
Il existe également un certain nombre de sites Internet permettant à un utilisateur d'obtenir une estimation d'un prix d'un véhicule donné ayant certaines caractéristiques pour une transaction intervenant dans un lieu et à un moment donnés. La production d'estimations de cette nature utilise un modèle permettant de donner un prix à ce véhicule donné à partir des indices disponibles qui concernent des véhicules ayant des caractéristiques intrinsèques et extrinsèques proches de celui que l'on souhaite évaluer.
Plusieurs types de modèles sont en usage pour produire des estimations de prix. Le nombre des caractéristiques objectives intégrées dans ces modèles est limité. Ces modèles sont par nature limités à la production d'indices de prix pour suivre l'évolution des prix d'une gamme de produits/biens hétérogènes. Aucun des modèles de l'art antérieur ne permet ainsi de produire des estimations de prix d'un bien particulier d'un degré de confiance suffisant pour des biens hétérogènes dont la valeur est influencée de manière importante par un grand nombre de caractéristiques objectives tels que les véhicules d'occasion.
Pour résoudre ce problème de l'art antérieur, la présente invention procure une combinaison de techniques de normalisation de données, de techniques statistiques de sélection, de regroupement et de prétraitement qui permettent l'élaboration automatique de modèles de régression qui délivrent des estimations valables dans un intervalle de confiance correspondant aux besoins des utilisateurs. A cet effet, l'invention divulgue méthode d'estimation automatique d'au moins une valeur de marché d'un bien meuble hétérogène, ladite méthode comprenant une étape de collecte régulière auprès d'acteurs identifiés dudit marché de mesures de prix sur ledit marché et d'un premier groupe de variables caractérisant lesdits biens selon une nomenclature normalisée desdits biens hétérogènes et une étape de détermination des coefficients d'au moins un modèle de régression de ladite valeur sur une liste de variables comprenant au moins les variables dudit premier groupe par résolution d'une équation d'ajustement, ladite méthode étant caractérisée en ce que ledit modèle comprend en outre des variables d'au moins un deuxième groupe caractéristiques desdits acteurs et d'un troisième groupe caractéristiques des dates de transaction.
Avantageusement, les variables du premier groupe sont sélectionnées de manière automatique par application de tests statistiques choisis dans un groupe comprenant des tests de corrélation, d'hétéroscédasticité et de significativité.
Avantageusement, le premier groupe de variables comprend au moins un premier sous-groupe de variables caractéristiques desdits biens qui sont indépendantes de la date de la transaction et un deuxième sous-groupe de variables caractéristiques desdits biens qui dépendent des date de transaction.
Avantageusement, la méthode d'estimation automatique de l'invention comprend en outre une étape de détermination d'une maille de modélisation, un modèle de régression étant calculé pour chacune des mailles.
Avantageusement, ladite au moins une grandeur caractéristique d'une transaction est un prix.
Avantageusement, lesdits biens hétérogènes sont des véhicules d'occasion.
L'invention divulgue également un système informatique de production et de consultation de données sur un marché de biens hétérogènes, ledit système comprenant un serveur de base de données, une interface de communication entre ledit serveur et des acteurs identifiés sur un marché de biens hétérogènes, un module de collecte automatique régulière via ladite interface auprès desdits acteurs vers ledit serveur de prix sur ledit marché et d'un premier groupe de variables caractérisant lesdits biens selon une nomenclature normalisée desdits biens hétérogènes, un module de stockage des coefficients d'au moins un modèle de régression d'au moins une valeur d'au moins un bien sur ledit marché sur une liste de variables comprenant au moins lesdites variables du premier groupe et un module de calcul et de stockage des sorties dudit au moins un modèle de régression, ledit système étant caractérisé en ce que les variables dudit au moins un modèle comprennent des variables d'un deuxième groupe caractéristiques desdits acteurs et des variables d'un troisième groupe caractéristique des dates de transaction. Avantageusement, le système informatique de production et de consultation de données de l'invention comprend en outre, en sortie dudit module de calcul et de stockage des sorties dudit au moins un modèle de régression, un module de détermination d'une stratégie de vente d'un bien sur ledit marché, optimale pour une liste de critères.
Avantageusement, le système informatique de production et de consultation de données de l'invention comprend en outre un module de production et de consultation d'une liste d'indicateurs permettant de caractériser au moins l'une des situation passée, actuelle ou prévisionnelle dudit marché.
Avantageusement, ledit modèle est unique et en ce que ladite liste d'indicateurs comprend l'un au moins d'une estimation, d'une géo-localisation et d'une dépréciation. L'invention permet également de créer des indicateurs multiples correspondant aux besoins de différentes classes d'utilisateurs intervenant sur les marchés desdits biens hétérogènes, de nature historique ou prévisionnelle. Les différents indicateurs peuvent avantageusement être croisés de manière à constituer un véritable système d'aide à la décision pour lesdits intervenants. En particulier, dans la mesure où le système de collecte de données de l'invention permet l'identification du positionnement géographique et de la typologie des points de collecte des données, il est possible de segmenter le marché du bien considéré au niveau adéquat pour fournir des données de marketing d'une précision inégalée dans l'art antérieur. L'invention sera mieux comprise, ses différentes caractéristiques et avantages ressortiront de la description qui suit de plusieurs exemples de réalisation et de ses figures annexées dont : Les figures 1 a et 1 b illustrent les organigrammes généraux de traitement de deux méthodes de l'art antérieur ;
La figure 2 représente l'architecture technique d'un système de collecte et d'exploitation de données selon plusieurs modes de réalisation de l'invention;
La figure 3 représente l'architecture fonctionnelle d'un système de collecte des données pour mettre en œuvre l'invention dans plusieurs de ses modes de réalisation ;
La figure 4 représente l'organigramme général des traitements pour estimer un modèle d'estimation de prix dans un mode de réalisation de l'invention ;
La figure 5 représente plusieurs niveaux de mailles possibles dans plusieurs de modes de réalisation de l'invention;
La figure 6 illustre plusieurs étapes de test des résultats du modèle dans un mode de réalisation de l'invention ;
Les figures 1 a et 1 b illustrent les organigrammes généraux de traitement de deux méthodes de l'art antérieur.
Il s'agit de calculer des indices de prix de biens présentant des caractéristiques déterminées. Les biens qui présentent un prix sensiblement homogène pour un axe d'analyse regroupant certaines caractéristiques constituent un sous-ensemble du marché ou segment. Si l'on utilise l'exemple des véhicules d'occasion, les caractéristiques intrinsèques qui déterminent le prix sont, à titre principal :
- La marque,
- Le modèle,
- La finition,
- La puissance,
- L'âge,
- Le kilométrage,
- La dimension,
- Les options,
- Les équipements,
- La gamme,
- Les générations,
- L'énergie,
- Etc .. Des caractéristiques extrinsèques influent également sur le prix, notamment les conditions de vente et la conjoncture.
Plusieurs méthodes sont connues pour calculer des indices de prix. Elles sont plus ou moins adaptées à des conditions d'hétérogénéité données.
La méthode illustrée sur la figure 1 a utilise des moyennes par segments de biens comme indicateur de synthèse des prix. La méthode des indices de prix moyen est couramment utilisée pour créer des indices de prix. Elle est utilisée par l'INSEE notamment pour les indices de prix à la consommation.
Les données sont collectées auprès d'intervenants du marché considéré, par exemple les concessionnaires de réseaux et les indépendants dans le cas des véhicules d'occasion. La méthode consiste à comparer le prix moyen de biens échangés à deux dates successives. Lorsque le bien reste identique, sans usure et distribué par le même point de vente la modélisation est aisée. La modélisation se complique lorsque l'on considère des produits hétérogènes, il faut alors sélectionner des segments de biens homogènes pour un axe d'analyse. Le but est d'éviter qu'une variation de structure ne soit interprétée comme une variation de prix. Comme illustré sur la figure, avec N segments, si sur un segment n aucune transaction n'est disponible pour un mois donné alors il faut estimer le prix moyen par application de la variation moyenne observée sur les N-1 autres segments. On peut utiliser différents types de moyennes : la moyenne arithmétique, la moyenne géométrique, la moyenne quadratique, ou encore une moyenne pondérée.
Cette méthode est simple à mettre en œuvre et à expliquer. Cependant, elle constitue un indicateur de tendance centrale biaisé par les valeurs extrêmes. En outre, cette méthode est peu adaptée aux marchés de biens très hétérogènes sur lesquels les prix sont influencés par un grand nombre de caractéristiques. Elle n'a pour vocation que de créer un indicateur de synthèse du suivi des prix. Elle ne permet pas de coter un bien. La méthode illustrée sur la figure 1 b utilise des ventes répétées. Elle a pour but de produire des indices de variation des prix. Elle consiste à construire un indice à partir des biens qui ont été vendus au moins deux fois (ou en considérant deux ventes de biens analogues). A partir de ces ventes répétées, il est possible de calculer des variations de prix afin de construire un indice de variation. Cependant, l'information ne pouvant pas être assimilée à une vente répétée ne peut pas être utilisée dans la modélisation. Pour utiliser convenablement cette méthode, il est nécessaire de disposer de suffisamment de données. Sur un segment large la méthode sera fiable. Mais plus on considère un segment fin, moins on dispose de données à fournir au modèle. On considère généralement qu'un minimum de 100 ventes répétées par segment est nécessaire pour que le résultat soit fiable. Une difficulté de la méthode est donc de constituer suffisamment de doublons de ventes. Sur le marché de l'automobile si un bien est vendu deux fois on ne peut pas considérer qu'il s'agit du même bien car ses caractéristiques auront évolué entre les deux ventes (âge, kilométrage, usure, réparation ...). Il faut déterminer les véhicules substituables afin de d'obtenir des doublons de vente.
Si l'on dispose de suffisamment de doublons de ventes, l'indice de variation de prix qui est obtenu est suffisamment précis. Mais les informations contenues dans les ventes non doublonnées n'est pas utilisée. En outre, cette méthode ne peut produire qu'un seul type d'indice.
Les limitations de ces méthodes de l'art antérieur sont surmontées dans l'invention qui est exposée dans la suite de la description.
La figure 2 représente l'architecture technique d'un système de collecte et d'exploitation de données selon plusieurs modes de réalisation de l'invention.
Selon l'invention, un serveur 201 connecté à un réseau de communication, public ou privatif, filaire ou connecté par radiocommunications, utilisant par exemple un protocole http ou https, est configuré pour permettre la collecte de données relatives notamment aux transactions que l'on souhaite analyser auprès de points de collecte 202 reliés audit réseau. La fréquence de la collecte peut être quotidienne, hebdomadaire ou moins élevée, selon la spécification de rafraîchissement des données définies par l'opérateur du réseau. Parmi les données collectées figurent notamment des prix, qui peuvent être par exemple des prix de transactions effectives, des prix d'annonce, des prix calculés par dépréciation du prix de vente d'un bien neuf. Les données collectées doivent être normalisées selon un protocole défini par l'opérateur. Elles sont stockées dans une base des données collectées 203, de type relationnel ou objet, gérée par l'opérateur du réseau. Ladite base de données est normalement redondée pour faire face aux incidents de communication ou de traitement.
Un serveur 204 géré également par l'opérateur du réseau stocke les paramètres du modèle d'estimation, qui est normalement produit à partir d'une base de données spécifique constituée à partir d'un sous-ensemble des données collectées, base d'estimation, non représentée sur la figure, selon des procédures explicitées plus loin dans la description. Le modèle est normalement testé avant mise en production sur un autre sous-ensemble des données collectées, base de test, également non représentée sur la figure. Les paramètres du modèle sont stockés dans une base des modèles d'estimation 206. L'opérateur 205 réalise les estimations et les tests. Les données estimées, stockées dans une base de données 209 sont mises à la disposition des utilisateurs 208 par l'intermédiaire d'un serveur 207. Les utilisateurs sont connectés au serveur également par un réseau public ou privatif, filaire ou connecté par radiocommunication au serveur et utilisant un protocole de type http ou https. Les modalités de mise à disposition des données sont définies par l'opérateur. L'invention est mise en œuvre par des algorithmes implantés sur les serveurs 201 , 204 et 207, ainsi que dans les bases de données 203, 206 et 209.
La figure 3 représente l'architecture fonctionnelle d'un système de collecte des données pour mettre en œuvre l'invention dans plusieurs de ses modes de réalisation.
Dans les modes de réalisation illustrés par la figure, les points de collecte 202 sont configurés pour disposer d'une base de données locale 301 . Une base de données centrale 302 peut également être prévue dans le cas où l'opérateur de réseau gère également des transactions sur un site central. Ces données locales et centrales sont assemblées dans une base centrale 303, qui peut être la même que la base 201 , ou différente. Ces données peuvent être rapprochées d'autres sources, par exemple une base d'annonces 304 gérée par le même opérateur ou une base 305 d'un ou plusieurs autres opérateurs de réseau avec lesquels des accords auront été passés à cet effet.
Un référentiel 306 regroupe, dans l'exemple illustré se rapportant à des transactions sur des véhicules d'occasion, les données qui définissent les véhicules, leurs historiques de prix, les périodes d'observation, les éléments définissant leurs caractéristiques techniques et leur équipement. Une partie du savoir-faire de l'opérateur, utile à la mise en œuvre de l'invention, réside dans la définition de ce référentiel. En particulier, des données similaires peuvent être désignées de manière différente par plusieurs constructeurs. Il est donc nécessaire d'unifier les désignations dans une nomenclature commune. Un regroupement de variables peut être opéré à ce stade. A titre d'exemple, le type de boite de vitesse, où l'on dénombre plus de 50 appellations différentes tous constructeurs confondus, est regroupé dans un nombre de références plus réduit.
Dans plusieurs modes de réalisation de l'invention, un processus de transformation des données est réalisé dans un « Staging Area » ou « Zone de transformation », 307. Les données y sont transformées, testées et filtrées dans le but de retenir en fin de processus les variables qui sont des caractéristiques invariantes dans le temps pertinentes pour les transactions qui seront observées, les données qui seront estimées et les indicateurs qui seront calculés à partir de ces données. Les variables doivent également répondre à des standards de qualité définis en fonction des règles de l'art de la gestion des données et de la statistique (complétude, non corrélation, par exemple).
Pour faciliter la mise en œuvre de l'étape d'estimation du modèle, il est tout d'abord utile, voire nécessaire, de remplacer les variables alphanumériques par une indicatrice numérique.
La transformation peut consister en des substitutions plus complexes, notamment de variables corrélées entre elles par une seule variable ayant le taux de complétude le plus élevé. Le taux de complétude de la collecte des données est un des éléments qui sont pris en compte pour définir ces regroupements. Par exemple, les données relatives à la motorisation sont nombreuses et fortement corrélées entre elles. Il convient donc de retenir celles qui sont les plus complètes et les plus représentatives du paramètre que l'on souhaite modéliser.
D'autres types de nouvelles variables peuvent également être créés.
Par exemple, le kilométrage d'un véhicule étant fortement corrélé à l'âge du véhicule, une nouvelle variable, le kilométrage mensuel, est créée, ce qui permet de conserver deux informations utiles (l'âge et l'intensité d'utilisation du véhicule), tout en réduisant la corrélation.
Dans les cas où les corrélations sont particulièrement complexes, on pourra créer de nouvelles variables à partir des variables d'origine corrélées entre elles par une procédure AFDM (Analyse Factorielle de Données Mixtes). Les procédures AFDM sont connues de l'homme du métier des statistiques. Elles consistent à sélectionner les variables explicatives relatives à une modalité globale, à les normaliser, puis à sélectionner les composantes principales (combinaisons linéaires de variables d'origine) qui déterminent les valeurs propres les plus élevées de la matrice de covariance de la modalité. Lesdites composantes principales sont alors substituées aux variables d'origine.
Dans le cas des véhicules d'occasion, les caractéristiques de motorisation, carrosserie ou consommation, qui sont en nombre important, sont avantageusement remplacées par de nouvelles variables créées par AFDM ; ainsi :
- De nouvelles caractéristiques Motorisation (trois par exemple) seront déterminées à partir des caractéristiques représentant la puissance, l'accélération, le nombre de soupapes, la puissance fiscale, la vitesse maximale, l'énergie, l'alimentation, la transmission...
- De nouvelles caractéristiques Carrosserie (trois également par exemple) seront déterminées à partir de la hauteur, de la largeur, de la longueur, de l'empattement, de la charge utile, du nombre de portes...
- De nouvelles caractéristiques Consommation (trois également par exemple) seront déterminées à partir de l'émission de C02, des consommations normalisées en cycle urbain et routier, de la capacité du réservoir...
Les tests sont des tests d'intégrité et de cohérence. Les filtres permettent d'éliminer les données hors de fourchettes de cohérence (prix de transaction, kilométrage, âge, etc ..) définies par l'opérateur.
Cette architecture fonctionnelle permet de constituer et d'exploiter un « Datamart Etudes » (« Base de données Etudes »), 308 qui permettra à l'opérateur 205 d'estimer les modèles 206 à partir desquels sera constituée la base des données estimées 209 qui sera mise à la disposition des utilisateurs 208.
La figure 4 représente l'organigramme général des traitements pour estimer un modèle d'estimation de prix dans un mode de réalisation de l'invention.
Dans le cadre de la présente invention, pour obtenir une précision suffisante dans l'estimation de modèles des transactions portant sur des biens meubles fortement hétérogènes, tels que des véhicules d'occasion, on utilise une équation de prix hédonique. Dans un tel modèle, qui n'a pas encore été appliqué pour modéliser des prix de biens du type de ceux auxquels s'appliquent la présente invention, le prix d'une transaction donnée est défini par une régression linéaire sur plusieurs catégories de variables, par exemple :
Xi n : caractéristiques invariantes dans le temps ;
Yj t n : caractéristiques évoluant dans le temps, dont l'âge ;
Zk n : conditions de vente ;
D' : conditions conjoncturelles.
Le modèle permet de déterminer la valeur de chacune des caractéristiques intrinsèques du bien et des conditions de la transaction comme composantes de la valeur totale du bien. Les deux hypothèses théoriques sous-jacentes sont d'une part qu'un acheteur attribue une valeur aux caractéristiques retenues dans l'équation de prix et est prêt à en payer le prix et, d'autre part, que la production desdites caractéristiques a un coût pour celui qui commercialise le bien. Pour que la modélisation soit valide, il est notamment nécessaire de disposer d'un nombre suffisant d'observations pour chacune des caractéristiques des biens et/ou des transactions, lesdites caractéristiques étant en outre faiblement inter-corrélées.
On peut choisir par exemple une forme fonctionnelle semi-logarithmique, qui apparaît à l'expérience mieux adaptée que les autres formes possibles (linéaire ou double logarithme). L'équation de prix aura alors par exemple la forme suivante :
logO = «o +∑at X n +∑β} - Yu n +∑ · Ζ,,„ +∑δ' D' + εη'
i=l j=l k=l f=l
Où :
n' est le prix estimé, 0 , t , /? . , Àk , <T sont les coefficients des variables et εη' est le résidu d'estimation.
Les xi n et Yj t n peuvent être des caractéristiques originelles ou des variables créées
(indicatrices, AFDM, etc .). Par exemple, les caractéristiques invariantes dans le temps Xi n utilisées dans les principaux modes de réalisation de l'invention appliquée à des véhicules d'occasion seront des caractéristiques générales (Génération, Phase, Moteur, Equipement de série) et des variables créées par AFDM (trois variables Motorisation ; trois variables Carrosserie et trois variables Consommation). Les caractéristiques variant dans le temps Yj t n seront par exemple l'âge, le kilométrage mensuel, une indicatrice de première main, le montant des frais de remise en état. Les variables relatives aux conditions de vente zk n sont par exemple la région où la vente a eu lieu, le type d'acteur qui a repris le véhicule (professionnel ou particulier).
La méthode de l'invention dans ses principaux modes de réalisation consiste à estimer les coefficients ci-dessus par exemple en suivant les étapes décrites sur la figure 4. Ces coefficients représentent le prix marginal de chacune des caractéristiques évaluées. On notera cependant que pour les variables créées par AFDM, l'interprétation métier en termes de prix marginal de chaque caractéristique n'est pas toujours possible.
Dans une étape 401 , on détermine des mailles d'analyse des données. La notion de maille correspond au niveau de regroupement des biens hétérogènes.
La figure 5 illustre différents niveaux de mailles qui peuvent être utilisés pour les véhicules d'occasion dans plusieurs modes de réalisation de l'invention.
Les définitions des différents niveaux représentés sur la figure sont les suivantes :
- Global, 510 (ensemble des données du Datamart Etudes 308) ;
- Marque, 520 : Une Marque est un signe distinctif permettant à une entreprise de distinguer les produits ou services qu'elle commercialise par rapport aux produits ou services identiques ou similaires de ses concurrents. Lors de la création d'une marque dans le Référentiel 306, le libellé exact de celle-ci est repris ;. c'est celui qui figure sur le tarif du constructeur.
- Modèle, 530 :
Dans le Référentiel 306, le Modèle rassemble les différents types de carrosserie d'un même modèle de véhicule ; par exemple, dans le cas de la Peugeot 207, les types de carrosserie berline 3 portes, berline 5 portes, SW (Break), Coupé-Cabriolet sont rassemblés sous le Modèle 207 dans le
Référentiel.
- Type de carrosserie 540 dans un modèle :
Un Type de carrosserie est le nom commercial du modèle employé par le constructeur ; ce Type de carrosserie doit figurer au catalogue et au tarif du constructeur ; les Types de carrosserie sont par exemple : les berlines 3 portes, les berlines 5 portes, les breaks, les coupés, les cabriolets, les limousines, les pick-up...
- Génération, 550 :
À partir du moment où un Type de carrosserie dans un Modèle est créé au sein d'une Marque, sa Génération est la première ; si le constructeur souhaite capitaliser sur le nom du Type de carrosserie dans un Modèle, il ne change pas son nom commercial mais techniquement et physiquement le Modèle évolue radicalement (nouvelle plateforme, nouveau style, nouvelle technologie, nouveaux moteurs...) ; dans ce cas, il est créé une nouvelle Génération, donc la génération I I .
- Phase/Evolution 560 dans une Génération :
Une Phase en termes automobiles est synonyme de modification de style; ce sont de légères modifications d'ordre esthétique avec par exemple de nouveaux phares, une nouvelle face avant ou arrière, des chromes....
- Finition 570 dans une phase :
Il s'agit d'un niveau de regroupement en fonction du niveau des équipements du véhicule dans la Phase.
Le nombre d'occurrences dans une maille détermine le nombre d'équations de prix dont il faudra déterminer les coefficients selon la méthode exposée ci-dessous.
Les niveaux de maille dépendent du bien auquel est appliqué le procédé de l'invention. L'exemple de la figure 5 est adapté aux transactions portant sur des véhicules d'occasion, mais d'autres définitions pourraient être retenues pour d'autres biens ou d'autres types de transactions, sans que la généralité des principes de sélection du niveau de maille adéquat en soit affectée.
Les modalités de choix du niveau de maille adapté aux transactions à évaluer sont exposées dans la suite de cette partie de la description. De manière générale, il s'agit de trouver le niveau répondant aux objectifs d'analyse des transactions auxquelles l'invention est appliquée et définissant un nombre de mailles qui ne soit pas trop élevé pour que les méthodes d'analyse statistiques utilisées puissent porter sur des classes d'effectif suffisant pour donner des résultats d'estimation répondant à des critères statistiques de pertinence.
Si on choisit de travailler au niveau global, alors une seule fonction de prix pour l'ensemble des véhicules est créée. Ce choix permet par exemple de créer un indice de la qualité d'image des différentes marques. En effet comme sur la maille globale la marque du véhicule devient une variable explicative de la fonction de prix, on estime donc des coefficients pour chaque marque, ce qui permet de comparer les marques entre elles. En revanche, sur la maille globale l'on n'estime qu'une seule fonction de prix et donc un seul coefficient de coût kilométrique et de coût de l'ancienneté. Les coûts kilométriques et de l'ancienneté sont donc les mêmes pour l'ensemble des véhicules. Or comme l'objectif principal, dans les modes principaux de réalisation de l'invention, n'est pas de comparer les marques entre elles, mais d'estimer au plus juste l'influence de chaque caractéristique sur les prix des véhicules faisant l'objet de transactions, le choix d'une maille globale n'est pas le plus adapté à l'objectif visé.
De la même manière, les mailles Marque et Modèle ne sont pas adaptées à l'objectif poursuivi dans les modes de réalisation principaux de l'invention. En effet, il ne s'agit pas obtenir le même coût kilométrique pour tous les véhicules de la même marque, ni même pour tous les véhicules correspondant au même Modèle.
La maille Finition n'est pas adaptée pour des raisons différentes. En effet, le nombre de mailles serait dans ce cas trop important (plusieurs milliers) et l'on ne disposerait pas d'un nombre suffisant d'observations par maille pour réaliser l'estimation des modèles.
Les trois derniers choix envisageables (Type de carrosserie, Génération et Phase) fournissent des modèles répondant aux objectifs de l'invention sans poser de problème de modélisation car les observations dans chaque maille sont en nombre suffisant. Le choix entre ces trois niveaux s'effectue par test et discussion avec les experts du marché considéré. Dans l'exemple de réalisation de l'invention illustré sur la figure 6, le choix se porte sur le niveau de maille Type de carrosserie. En revenant à la figure 4, dans une étape 402, on sélectionne les transactions dont les données sont stockées dans le Datamart Etudes 308 qui correspondent à la maille sélectionnée au cours de l'étape 401 .
On crée d'abord une table temporaire contenant uniquement les transactions correspondant à la maille en cours de traitement. Puis on crée des indicatrices de région, de motorisation, de génération et de phase relative à la maille sur la table temporaire.
Si le nombre d'observations relatives à la maille est inférieur à un seuil, par exemple pour un exemple de réalisation, 40, on considère que l'on ne dispose pas de suffisamment d'observations et l'on passe directement à la maille suivante. Si le nombre d'observations est supérieur à ce seuil (40), l'on passe à la sélection automatique des variables dans une étape 403.
Le but de cette étape 403 est d'effectuer une première sélection parmi l'ensemble des variables disponibles et de constituer une liste qui servira pour l'étape suivante. La sélection des variables peut s'effectuer en deux temps. Tout d'abord, une sélection automatique des indicatrices de la région de vente du véhicule est réalisée. Cette sélection est réalisée à l'aide d'une procédure « stepwise » ou « pas à pas » qui se base sur des tests de significativité, avec un seuil d'entrée dans le modèle fixé à 0,01 et un seuil de sortie à 0,02.
La seconde étape est une sélection automatique réalisée de manière identique à la précédente, mais sur l'ensemble des variables sélectionnâmes autre que la région, notamment :
- Les frais de remise en état ;
- Les variables créées par AFDM ;
- Un certain nombre d'indicatrices telles que : véhicule de première main, véhicule vendu par un distributeur de la marque, équipement de série, génération, phase, semestre de vente.
Une fois ces deux étapes réalisées, on crée une liste de variables à laquelle on affecte toutes les variables retenues par les deux procédures stepwise. On ajoute également à la liste de variables, trois variables dont la sélection est forcée. Ces trois variables sont, dans un exemple de réalisation, l'âge du véhicule, son kilométrage mensuel et une indicatrice indiquant si le véhicule a été vendu à un particulier ou à un professionnel. Une autre catégorie de variables est sélectionnée d'office, ce sont les indicatrices de la motorisation du véhicule. Elles ne sont pas ajoutées à la liste mais intégrées d'office à la modélisation ultérieurement. Les étapes 404, 405 et 406 sont décomposées en sous-étapes sur la figure 6.
L'objectif de l'étape suivante 404 est d'obtenir une liste de variables propre à la modélisation, pour la maille considérée.
Ainsi, on épure la liste de variables créée à l'étape précédente 403 pour s'assurer que l'ensemble des variables de ladite liste vérifie par exemple les deux règles ci- dessous :
- Le test de Student de nullité des coefficients est rejeté à un seuil, fixé par exemple à 5%.
- La corrélation entre deux variables de la liste n'excède jamais un autre seuil, fixé par exemple à 0,4 (en valeur absolue).
Pour ce faire, on applique une procédure itérative 404, illustrée sur la figure 6. Par exemple, on élimine à chaque boucle du test la variable ayant la valeur de p-value la plus élevée, jusqu'à ce que l'on ait atteint un nombre de variables que l'on s'est fixé. La p-value est la probabilité qu'un événement puisse se produire sous condition de validité d'une hypothèse.
Une fois les tests de l'étape 404 sur la pertinence des variables explicatives terminés, l'on effectue au cours d'une étape 405 des tests sur le modèle lui même. L'on effectue, par exemple, deux tests :
- Un test d'hétéroscédasticité des variables explicatives avec un seuil fixé par exemple à 5% ; l'hétéroscédasticité mesure le niveau de variabilité de la variance des résidus ; le test le plus couramment utilisé est celui de
White (White, Halbert (1980), "A Heteroskedasticity-Consistent Covariance Matrix Estimator and a Direct Test for Heteroskedasticity", Econometrica 48 (4): 817-838) );
- Un test de performance du modèle, le modèle n'est validé que si le coefficient R2 ajusté de la régression est supérieur à un seuil, par exemple
0,5.
Enfin avant de recommencer la boucle sur la maille suivante, au cours d'une étape 406, les résultats obtenus sur la maille traitée sont enregistrés : dans une table, le R2 ajusté de la régression et la p-value du test de White ; dans une autre table, la liste des variables retenues. Pour chaque variable, sont enregistrés : le coefficient estimé, l'écart type et la p-value du test de Student associé. En sortie de l'étape 406, sont considérées uniquement les mailles vérifiant les trois conditions suivantes :
- Le nombre de transactions de la maille a un effectif suffisant en sortie de l'étape 402 (dans l'exemple de réalisation illustré, 40) ;
- Le test d'hétéroscédasticité de White au seuil fixé (5% par exemple) a été validé ;
- Le R2 ajusté associé à la maille est supérieur au seuil fixé (0,5 par exemple). Pour chacune de ces mailles, un modèle permettant de déterminer la valeur de marché des véhicules d'occasion a été défini en sortie des étapes précédentes. Ces modèles ont validé des tests statistiques.
Au cours d'une étape 407, on leur applique des tests de cohérence métier.
Pour ce faire, la valeur de certains coefficients spécifiques qui ont été estimés dans le modèle est testée. Par exemple, on peut choisir quatre coefficients : la valeur de la constante du modèle, la valeur des paramètres associés aux variables d'âge du véhicule, du kilométrage mensuel du véhicule et de l'indicatrice de vente à particulier. Ces variables permettent de déterminer un socle commun à l'ensemble des Types de carrosserie des Modèles des Marques, ce qui créée une structure initiale uniforme.
On illustre ci-dessous, à titre d'exemple les tests de cohérence métier appliqués à ces quatre variables : 1 / Le coefficient de la variable âge du véhicule.
Selon la forme fonctionnelle choisie, si le signe du coefficient associé à l'âge du véhicule est positif, alors plus le véhicule est âgé plus le véhicule vaut cher. Or dans le cadre de la modélisation retenue (véhicules d'occasion hors véhicules de collection), la valeur d'un véhicule est une fonction décroissante du temps. Ainsi, un modèle ayant un coefficient positif associé à la variable âge ne peut être validé. Le test pertinent consiste donc à vérifier que pour chaque modèle le coefficient associé à la variable âge est strictement négatif. Dans le cas contraire, le modèle doit être écarté. 21 Le coefficient de la variable kilométrage mensuel du véhicule.
Comme pour la variable âge du véhicule, le prix d'un véhicule d'occasion est une fonction décroissante du kilométrage mensuel du véhicule. Le test pertinent consiste donc à vérifier que le coefficient associé au kilométrage mensuel du véhicule soit strictement négatif.
3/ Le coefficient de l'indicatrice de vente à un particulier.
Un observateur du marché considéré constate qu'un vendeur de véhicule d'occasion vend un véhicule plus cher à un particulier qu'à un professionnel. Il est donc nécessaire, pour que le modèle soit retenu, que le coefficient associé à l'indicatrice de vente à un particulier soit positif. 4/ La constante du modèle.
On constate qu'en dehors d'une plage de valeurs de la constante a0 les coefficients d'un certain nombre de variables deviennent instables. Dans les conditions de plusieurs exemples de réalisation, la plage de validité de la constante a été déterminée comme sensiblement égale à [8, 13]. En effet si la constante est inférieure à 8, ou supérieure à 13, alors la base de calcul de la valeur du véhicule est erronée dans les conditions du mode de réalisation de l'invention illustré à titre d'exemple. Il faut alors que les autres variables compensent cet effet, et dans ce cas les coefficients estimés pour les variables explicatives n'ont plus de sens d'un point de vue métier, mais sont sur ou sous estimés afin de compenser la mauvaise estimation de la constante. Dans d'autres exemples de réalisation, la plage de validité peut être différente, sans que la généralité du procédé en soit affectée.
La figure 6 illustre une étape d'analyse des données dans un mode de réalisation de l'invention.
La notion de maille a été définie de manière générale ci-dessus en relation avec la figure 4 (étape 401 de l'organigramme général des traitements selon les principaux modes de réalisation de l'invention appliquée à des transactions portant sur des véhicules d'occasion). Une fois les coefficients des équations de prix déterminés, il est possible de produire de manière aisée de très nombreux indicateurs historiques et prévisionnels relatifs aux transactions modélisées. On peut ainsi développer des outils d'estimation en ligne du prix d'un bien en fonction de ses caractéristiques, des indices de prix par gamme de véhicule, un outil de calcul de la valeur résiduelle d'un véhicule, un outil d'optimisation de la marge distributeur en fonction de la durée de conservation d'un véhicule en stock. Il est également possible de développer des fonctions géo- localisées permettant d'optimiser soit du point de vue de l'acheteur, soit du point de vue du vendeur le lieu d'achat/vente, ceci en combinaison avec la date d'achat/vente. Ainsi, selon l'invention, un grand nombre de variables expliquées peuvent être produites par le même modèle, sous condition que celui-ci comprenne les variables explicatives adéquates. A titre d'exemple et sans que cela soit limitatif des opportunités offertes par le système de l'invention, on peut ainsi créer :
- un système géomarketing d'identification des régions où certaines voitures se vendent mieux qu'ailleurs ;
- des mesures de la sensibilité des prix de certains modèles de véhicules à l'impact de mesures fiscales ou à des primes à la casse ;
- des indicateurs de mesure de la valeur résiduelle moyenne des véhicules d'occasion.
Les exemples décrits ci-dessus sont donc donnés à titre d'illustration de certains des modes de réalisation de l'invention. Ils ne limitent en aucune manière le champ de l'invention qui est défini par les revendications qui suivent.

Claims

REVENDICATIONS
Méthode d'estimation automatique d'au moins une valeur de marché d'un bien meuble hétérogène, ladite méthode comprenant une étape de collecte régulière, par des moyens de communication, auprès d'acteurs (202) identifiés dudit marché de mesures de prix sur ledit marché et d'un premier groupe de variables caractérisant lesdits biens selon une nomenclature normalisée (306) stockée dans au moins une base de données, desdits biens hétérogènes et une étape de détermination, par des moyens de calcul, des coefficients d'au moins un modèle de régression de ladite valeur sur une liste de variables comprenant au moins les variables dudit premier groupe par résolution d'une équation d'ajustement, ladite méthode étant caractérisée en ce que ledit modèle comprend en outre des variables d'au moins un deuxième groupe caractéristiques desdits acteurs et d'un troisième groupe caractéristiques des dates de transaction et en ce que les variables du premier groupe sont sélectionnées de manière automatique par application de tests statistiques choisis dans un groupe comprenant des tests de corrélation, d'hétéroscédasticité et de significativité.
Méthode d'estimation automatique selon la revendication 1 , caractérisée en ce que le premier groupe de variables comprend au moins un premier sous- groupe de variables caractéristiques desdits biens qui sont indépendantes de la date de la transaction et un deuxième sous-groupe de variables caractéristiques desdits biens qui dépendent des date de transaction.
Méthode d'estimation automatique selon l'une des revendications 1 à 2, caractérisée en ce qu'elle comprend en outre une étape de détermination d'une maille de modélisation, un modèle de régression étant calculé pour chacune des mailles.
Méthode d'estimation automatique selon l'une des revendications 1 à 3, caractérisée en ce que ladite au moins une grandeur caractéristique d'une transaction est un prix.
5. Méthode d'estimation automatique selon l'une des revendications 1 à 4, caractérisée en ce que lesdits biens hétérogènes sont des véhicules d'occasion.
6. Système informatique de production et de consultation de données sur un marché de biens hétérogènes, ledit système comprenant un serveur de base de données (201 , 203, 207, 209), une interface de communication entre ledit serveur et des acteurs (202, 208) identifiés sur un marché de biens hétérogènes, un module (201 ) de collecte automatique régulière via ladite interface auprès desdits acteurs vers ledit serveur de prix sur ledit marché et d'un premier groupe de variables caractérisant lesdits biens selon une nomenclature normalisée desdits biens hétérogènes, un module (204, 206) de stockage des coefficients d'au moins un modèle de régression d'au moins une valeur d'au moins un bien sur ledit marché sur une liste de variables comprenant au moins lesdites variables du premier groupe et un module (207, 209) de calcul et de stockage des sorties dudit au moins un modèle de régression, ledit système étant caractérisé en ce que les variables dudit au moins un modèle comprenant des variables d'un deuxième groupe caractéristiques desdits acteurs et des variables d'un troisième groupe caractéristique des dates de transaction et en ce que les variables du premier groupe sont sélectionnées de manière automatique par application de tests statistiques choisis dans un groupe comprenant des tests de corrélation, d'hétéroscedasticité et de significativité.
7. Système informatique de production et de consultation de données selon la revendication 6, caractérisé en ce qu'il comprend en outre, en sortie dudit module de calcul et de stockage des sorties dudit au moins un modèle de régression, un module de détermination d'une stratégie de vente d'un bien sur ledit marché, optimale pour une liste de critères.
8. Système informatique de production et de consultation de données selon la revendication 6, caractérisé en ce qu'il comprend en outre un module de production et de consultation d'une liste d'indicateurs permettant de caractériser au moins l'une des situation passée, actuelle ou prévisionnelle dudit marché.
9. Système informatique de production et de consultation de données selon la revendication 8, caractérisé en ce ledit modèle est unique et en ce que ladite liste d'indicateurs comprend l'un au moins d'une estimation, d'une géolocalisation et d'une dépréciation.
EP13785422.0A 2012-11-13 2013-10-29 Methode d'estimation automatique de la valeur de biens meubles heterogenes Withdrawn EP2920755A1 (fr)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
FR1260792A FR2998076A1 (fr) 2012-11-13 2012-11-13 Methode d'estimation automatique de la valeur de biens meubles heterogenes
PCT/EP2013/072582 WO2014075912A1 (fr) 2012-11-13 2013-10-29 Methode d'estimation automatique de la valeur de biens meubles heterogenes

Publications (1)

Publication Number Publication Date
EP2920755A1 true EP2920755A1 (fr) 2015-09-23

Family

ID=48170553

Family Applications (1)

Application Number Title Priority Date Filing Date
EP13785422.0A Withdrawn EP2920755A1 (fr) 2012-11-13 2013-10-29 Methode d'estimation automatique de la valeur de biens meubles heterogenes

Country Status (3)

Country Link
EP (1) EP2920755A1 (fr)
FR (1) FR2998076A1 (fr)
WO (1) WO2014075912A1 (fr)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108469343A (zh) * 2018-03-21 2018-08-31 北京保程保险公估有限公司 一种读取设备数据的机动车鉴定装置及评估方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7970713B1 (en) * 2000-05-10 2011-06-28 OIP Technologies, Inc. Method and apparatus for automatic pricing in electronic commerce
US8458012B2 (en) * 2009-10-02 2013-06-04 Truecar, Inc. System and method for the analysis of pricing data including a sustainable price range for vehicles and other commodities

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
See references of WO2014075912A1 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108469343A (zh) * 2018-03-21 2018-08-31 北京保程保险公估有限公司 一种读取设备数据的机动车鉴定装置及评估方法
CN108469343B (zh) * 2018-03-21 2020-09-11 北京保程保险公估有限公司 一种读取设备数据的机动车鉴定装置及评估方法

Also Published As

Publication number Publication date
FR2998076A1 (fr) 2014-05-16
WO2014075912A1 (fr) 2014-05-22

Similar Documents

Publication Publication Date Title
US11257126B2 (en) System and method for providing a score for a used vehicle
JP6111355B2 (ja) 中古車両価格設定データの分析、および提示のためのシステムおよび方法
US20150324737A1 (en) Detection of erroneous online listings
US20150213556A1 (en) Systems and Methods of Predicting Vehicle Claim Re-Inspections
US20100179861A1 (en) System and method for assessing and managing objects
US20130173453A1 (en) System and Method for Evaluating Loans and Collections Based Upon Vehicle History
US20130006809A1 (en) Method and system for providing a certified swap price for a vehicle
US20150221040A1 (en) Residual risk analysis system, method and computer program product therefor
US10685363B2 (en) System, method and computer program for forecasting residual values of a durable good over time
CA2829557A1 (fr) Methode et systeme d&#39;etablissement des prix de gros/vente avec reprise et produit-programme informatique connexe
US20170300991A1 (en) Used-vehicle algorithmic pricing engine method and system
US20200167811A1 (en) Used-vehicle algorithmic pricing engine method and system
FR2948209A1 (fr) Simulation d&#39;un agregat evolutif du monde reel, notamment pour gestion de risque
US20160012494A1 (en) Computer-implemented method of valuing automotive assets
US20120316997A1 (en) System and method for introducing a buyer to the seller of a vehicle using information collected when assessing the trade-in value of the vehicle
Errico et al. The Quality of US Imports and the Consumption Gains from Globalization
EP2920755A1 (fr) Methode d&#39;estimation automatique de la valeur de biens meubles heterogenes
US20170061545A1 (en) System for analyzing and displaying of individual and aggregated data
FR2881857A1 (fr) Outil informatique de prevision
Bies et al. Reduction of Information Asymmetry in the Used Car Market Using the Random Forest Method
Tyagi et al. Reliability based solution to the decision making dilemma in a software environment
Ahmad et al. Using power laws to identify the structural parameters of trade models with firm heterogeneity
Bodendorf et al. A Business Model Analysis for Vehicle Generated Data as a Marketable Product or Service in the Automotive Industry
Loon et al. Effective Depreciation Model for Commercial Vehicles in Malaysia.
Kiran et al. A logistic regression model to identify the key attributes considered by consumers for purchasing a car

Legal Events

Date Code Title Description
PUAI Public reference made under article 153(3) epc to a published international application that has entered the european phase

Free format text: ORIGINAL CODE: 0009012

17P Request for examination filed

Effective date: 20150512

AK Designated contracting states

Kind code of ref document: A1

Designated state(s): AL AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HR HU IE IS IT LI LT LU LV MC MK MT NL NO PL PT RO RS SE SI SK SM TR

AX Request for extension of the european patent

Extension state: BA ME

DAX Request for extension of the european patent (deleted)
17Q First examination report despatched

Effective date: 20160309

STAA Information on the status of an ep patent application or granted ep patent

Free format text: STATUS: THE APPLICATION IS DEEMED TO BE WITHDRAWN

18D Application deemed to be withdrawn

Effective date: 20160920