DE102020134974A1 - Automatisiertes rekursives divisives clustern - Google Patents

Automatisiertes rekursives divisives clustern Download PDF

Info

Publication number
DE102020134974A1
DE102020134974A1 DE102020134974.2A DE102020134974A DE102020134974A1 DE 102020134974 A1 DE102020134974 A1 DE 102020134974A1 DE 102020134974 A DE102020134974 A DE 102020134974A DE 102020134974 A1 DE102020134974 A1 DE 102020134974A1
Authority
DE
Germany
Prior art keywords
data set
feature
clustering
features
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102020134974.2A
Other languages
English (en)
Inventor
Chen Liang
Ye Liu
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ford Global Technologies LLC
Original Assignee
Ford Global Technologies LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ford Global Technologies LLC filed Critical Ford Global Technologies LLC
Publication of DE102020134974A1 publication Critical patent/DE102020134974A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/231Hierarchical techniques, i.e. dividing or merging pattern sets so as to obtain a dendrogram
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F9/00Arrangements for program control, e.g. control units
    • G06F9/06Arrangements for program control, e.g. control units using stored programs, i.e. using an internal store of processing equipment to receive or retain programs
    • G06F9/30Arrangements for executing machine instructions, e.g. instruction decode
    • G06F9/30003Arrangements for executing specific machine instructions
    • G06F9/3005Arrangements for executing specific machine instructions to perform operations for flow control
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0201Market modelling; Market analysis; Collecting market data
    • G06Q30/0206Price or cost determination based on market factors

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Economics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Mathematical Optimization (AREA)
  • Pure & Applied Mathematics (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Diese Offenbarung stellt automatisches rekursives divisives Clustern bereit. Techniken zum divisiven Clustern eines Datensatzes zum Identifizieren von Verbaucherwahlmustern sind in dieser Schrift beschrieben. Die Techniken beinhalten Zugreifen auf eine Datenquelle, die einen zu analysierenden Datensatz aufweist, und Erlangen einer Merkmalsliste, nach der der Datensatz geclustert wird. Der Datensatz wird unter Verwendung von divisivem Clustern durch Schätzen einer bedingten Bindungswahrscheinlichkeit für jedes Merkmal der Merkmalsliste innerhalb des Datensatzes hierarchisch geclustert. Das Merkmal, das die größte Bindungswahrscheinlichkeit aufweist, wird ausgewählt und verwendet, um den Datensatz auf Grundlage des Merkmals in Cluster aufzuteilen. Dann wird jedes Cluster oder jede Verzweigung des Datensatzes unter Verwendung der gleichen Technik zum Schätzen der Bindungswahrscheinlichkeit für jedes der verbleibenden Merkmale, Auswählen des Merkmals mit der höchsten Bindungswahrscheinlichkeit und Unterteilen des verbleibenden Datensatzes in Cluster auf Grundlage dieses Merkmals rekursiv geclustert. Ein verschachteltes Logit-Modell wird unter Verwendung des hierarchischen Clusterns erzeugt und verwendet, um Verbraucherwahlmuster zu identifizieren.

Description

  • GEBIET DER TECHNIK
  • Die Offenbarung betrifft im Allgemeinen die Erkennung von Verbraucherwahlmustern.
  • ALLGEMEINER STAND DER TECHNIK
  • Das Bestimmen von Verbraucherwahlmustern kann eine entscheidende Rolle beim Verständnis des Verbraucherverhaltens bei Kaufentscheidungen spielen. Das Verständnis von Verbraucherwahlmustern kann beim Identifizieren von Prioritäten behilflich sein, die der Verbraucher bei der Entscheidungsfindung abwägt, was dabei behilflich sein kann, die Produktwettbewerbsfähigkeit und Substitutionen zu identifizieren, die vorgenommen werden können. Dementsprechend ist die Erkennung von Verbraucherwahlmustern zu einem Hauptinstrument zum Lenken der Marktstrategie und Produktplanung geworden.
  • KURZDARSTELLUNG
  • In dieser Schrift sind Techniken zum Erzeugen von Modellen zum Identifizieren der Erkennung von Verbraucherwahlmustern beschrieben. Ein verschachteltes Logit-Modell des Verbraucherwahlverhaltens über einen Zeitraum wird unter Verwendung einer in dieser Schrift beschriebenen rekursiven divisiven Clustering-Technik entwickelt, die einen Datensatz von oben nach unten auf Grundlage von Merkmalen clustert, die zum Clustern des Datensatzes ausgewählt sind. Die rekursive Technik ermöglicht das Clustern über den Datensatz derart, dass jede Verzweigung des verschachtelten Logit-Modells auf unterschiedlichen Stufen unterschiedlich geclustert werden kann, wie nachstehend ausführlich beschrieben.
  • In einigen Ausführungsformen kann ein System von einem oder mehreren Computern dazu konfiguriert sein, bestimmte Vorgänge oder Handlungen durchzuführen, indem auf dem System Software, Firmware, Hardware oder eine Kombination daraus installiert sind, die im Betrieb das System dazu veranlasst oder veranlassen, die Handlungen durchzuführen. Ein oder mehrere Computerprogramme können dazu konfiguriert sein, bestimmte Vorgänge oder Handlungen durchzuführen, indem sie Anweisungen beinhalten, die bei Ausführung durch Datenverarbeitungseinrichtungen die Einrichtungen dazu veranlassen, die Handlungen durchzuführen. Ein allgemeiner Aspekt beinhaltet ein Verfahren zum Erzeugen eines verschachtelten Logit-Modells, das Verbraucherwahlmuster darstellt. Das Verfahren kann durch einen Server durchgeführt werden, sodass der Server auf eine Datenquelle zugreift, die einen Datensatz beinhaltet, und eine Merkmalsliste erlangt, nach der der Datensatz geclustert werden soll. Der Server kann den Datensatz durch Schätzen einer bedingten Bindungswahrscheinlichkeit für jedes der Merkmale auf Grundlage der Daten in dem Datensatz hierarchisch clustern. Der Server kann das Merkmal auswählen, das die größte Bindungswahrscheinlichkeit aufweist, um das erste Cluster des Datensatzes zu bilden. Der Server kann den verbleibenden Datensatz auf Grundlage jedes verbleibenden Merkmals rekursiv clustern und ein verschachteltes Logit-Modell auf Grundlage des hierarchischen Clusterns erzeugen. Andere Ausführungsformen dieses Aspekts beinhalten entsprechende Computersysteme, Einrichtungen und Computerprogramme, die auf einer oder mehreren Computerspeichervorrichtungen aufgezeichnet sind, die jeweils dazu konfiguriert sind, die Handlungen der Verfahren durchzuführen.
  • Umsetzungen können eines oder mehrere der folgenden Merkmale beinhalten. Optional beinhaltet rekursives Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale rekursives Clustern des Datensatzes in Verzweigungen auf Grundlage des ausgewählten Merkmals, Entfernen des ausgewählten Merkmals aus der Merkmalsliste, Schätzen der bedingten Bindungswahrscheinlichkeit für jedes der verbleibenden Merkmale in jeder der Verzweigungen unter Verwendung des damit assoziierten Datensatzes für die Verzweigung und Auswählen des nächsten Merkmals der verbleibenden Merkmale, das für den damit assoziierten Datensatz für die Verzweigung die größte Bindungswahrscheinlichkeit aufweist.
  • Optional beinhaltet der Datensatz historische Verkaufsdaten. Optional beinhaltet der Datensatz historische Fahrzeugverkaufsdaten. Optional erzeugt der Server ein Marktnachfragemodell auf Grundlage des verschachtelten Logit-Modells. Optional beinhaltet die Merkmalsliste Fahrzeugmarke, Fahrzeugsegment, Fahrzeugleistungstyp und/oder Fahrzeugklasse.
  • Optional handelt es sich bei dem Datensatz um historische Daten für einen ersten Zeitraum. Der Server kann einen zweiten Datensatz unter Verwendung der Merkmalsliste hierarchisch clustern, wobei es sich bei dem zweiten Datensatz um historische Daten für einen zweiten Zeitraum handelt. Der Server kann ein zweites verschachteltes Logit-Modell auf Grundlage des hierarchischen Clusterns des zweiten Datensatzes erzeugen. Der Server kann ferner eine Trendänderung zwischen dem ersten Zeitraum und dem zweiten Zeitraum auf Grundlage des ersten verschachtelten Logit-Modells und des zweiten verschachtelten Logit-Modells identifizieren. Optional kann der Server eine Preis- und Volumenprognose auf Grundlage des verschachtelten Logit-Modells erzeugen. Umsetzungen der beschriebenen Techniken können Hardware, ein Verfahren oder einen Prozess oder Computersoftware auf einem Medium beinhalten, auf das mit einem Computer zugegriffen werden kann.
  • Figurenliste
  • Ein weiteres Verständnis der Art und der Vorteile verschiedener Ausführungsformen kann unter Bezugnahme auf die folgenden Figuren realisiert werden. In den beigefügten Figuren können ähnliche Komponenten oder Merkmale das gleiche Bezugszeichen aufweisen. Ferner können verschiedene Komponenten des gleichen Typs dadurch unterschieden werden, dass auf das Bezugszeichen ein Strich und ein zweites Bezugszeichen folgen, das zwischen den ähnlichen Komponenten unterscheidet. Falls in der Beschreibung nur das erste Bezugszeichen verwendet wird, gilt die Beschreibung für eine beliebige der ähnlichen Komponenten, die das gleiche erste Bezugszeichen aufweisen, unabhängig von dem zweiten Bezugszeichen.
    • 1 veranschaulicht ein Clustering-System gemäß einigen Ausführungsformen.
    • 2 veranschaulicht ein Ablaufdiagramm gemäß einigen Ausführungsformen.
    • 3 veranschaulicht eine verschachtelte Logit-Struktur gemäß einigen Ausführungsformen.
    • 4 veranschaulicht ein Verfahren gemäß einigen Ausführungsformen.
    • 5 veranschaulicht ein Computersystem gemäß einigen Ausführungsformen.
    • 6 veranschaulicht ein Cloud-Computing-System gemäß einigen Ausführungsformen.
  • DETAILLIERTE BESCHREIBUNG
  • Das Identifizieren von Verbraucherwahlmustern ist zu einem Hauptinstrument zum Lenken der Marktstrategie und Produktplanung geworden. Ein verschachteltes Logit-Modell, das die Verbraucherwahlprozesse grafisch charakterisiert, kann die Produktsubstitutionsbeziehungen darstellen. Die Substitutionsbeziehung kann mehrstufig sein und die Prioritäten bei den Wahlprozessen von Verbrauchern angeben. Auf dem Automarkt können sich diese Stufen auf Fahrzeugmerkmale beziehen, wie etwa Karosserietyp, Kraftstofftyp, Marke und Modell. Die verschachtelten Logit-Strukturen können durch Forscher und Industrieverbände genutzt werden, um Marktnachfragemodelle für die Nachfrageprognose zu erstellen und die Nachfragevariabilität anzugehen.
  • In bestehenden Systemen wurde das Verbraucherwahlmuster auf Grundlage von Clustering-Verfahren bestimmt, die durch Domänenwissen unterstützt werden. Herkömmliche Clustering-Ansätze beinhalten K-Means-Clustering, bei dem es sich um einen partitionierenden Ansatz handelt, bei dem Variablen unter Verwendung einer schwerpunktorientierten Cluster-Zuweisung zu einer vorbestimmten Anzahl von Clustern gruppiert werden, dichtebasiertes räumliches Clustering von Anwendungen mit Rauschen (density-based spatial clustering of applications with noise - DBSCAN), bei dem es sich um einen dichtebasierten Ansatz handelt, bei dem Variablen auf einer Konzentrationsbasis verbunden werden, und hierarchisches Clustering, bei dem es sich um einen agglomerativen Ansatz handelt, bei dem kleine Gruppen von Variablen von unten nach oben zu einem einzelnen Cluster geclustert werden.
  • K-Means und DBSCAN sind weit verbreitet für die Signal- und Bildverarbeitung. Beim Anwenden auf die Erkennung von Verbraucherwahlmustern unterliegen diese Ansätze jedoch mehreren Einschränkungen. Bei K-Means ist die Einschränkung auf die Anzahl von Clustern zurückzuführen, die vordefiniert werden muss. Dies stellt Analytiker, die sich auf den Algorithmus selbst stützen, um das Clustering-Muster zu identifizieren, vor Herausforderungen. Obwohl keine Notwendigkeit besteht, Cluster für DBSCAN zu definieren, erzeugt dieses Verfahren einige große Cluster für die meisten Variablen und behandelt den Rest als Rauschen. Derartige Lösungen können nicht verwendet werden, um aufschlussreiche Schlussfolgerungen über die Kundenwahlen zu erzeugen.
  • Der populärste Ansatz beim Identifizieren des Auswahlmusters des Verbrauchers ist das hierarchische Clustering-Verfahren. Dieses Verfahren erzeugt ein Dendrogramm, das die Produktähnlichkeit in einer Baumstruktur darstellt. Analytiker müssen die Fahrzeugsubstitutionsbeziehung auf Grundlage von Abständen zwischen jedem Fahrzeugpaar identifizieren. Das hierarchische Clustering-Verfahren von unten nach oben zu einem einzelnen Cluster weist jedoch mehrere Nachteile beim Identifizieren des Verbraucherwahlmusters auf. Erstens ist es aufgrund des Mechanismus von unten nach oben äußerst schwierig, die Prioritäten der Verbraucher bei Kaufentscheidungen in frühen Phasen zu identifizieren. Zum Beispiel kann beobachtet werden, dass die benachbarten Fahrzeugmodelle stark substituierend sind, wenn Verbraucher die endgültige Entscheidung treffen. Es ist jedoch unklar, wie Verbraucher Merkmale wie etwa Fahrzeugsegment, Kraftstofftyp und Marke priorisieren, wenn sie Fahrzeugoptionen anfangs in Betracht ziehen. Zweitens steht diese Methodik aufgrund des Fehlens einer quantitativen Messung der Substitution über unterschiedliche Merkmale hinweg auch einem Hindernis beim Identifizieren der einzigartigen Wahlmuster für unterschiedliche Verbrauchertypen gegenüber. Drittens kann das resultierende Dendrogramm die Migration des Substitutionsmusters im Zeitverlauf nicht explizit erfassen. Zum Beispiel hat das Aufkommen von elektrifizierten Fahrzeugen in den letzten Jahren zur Substitution bei Fahrzeugen mit Brennkraftmaschine geführt, die langsam aber stetig zugenommen hat. Der Trend ist beim Bestimmen zukünftiger Substitutionsbeziehungen zur Unterstützung von Prognosen für elektrifizierte Fahrzeuge wichtig, er ist jedoch schwierig, unter Verwendung des Dendrogramms zu schätzen, das durch hierarchische Clustering-Verfahren erzeugt wurde. Folglich können Analytiker das Substitutionsmuster nur auf heuristische Weise identifizieren, was enorme Beurteilungsbias und menschliche Fehler einführt.
  • Um diese Herausforderungen zu bewältigen, muss eine quantitative Metrik die Merkmale bewerten, sie hierarchisch in einer Baumstruktur organisieren und diese Metriken explizit anzeigen, um den Trend im Zeitverlauf zu beurteilen. Die beschriebene probabilistische Metrik beruht auf der „Merkmalsbindung“, um den Substitutionsgrad zu messen. Ferner wird ein rekursiver Baumalgorithmus beschrieben, der automatisch eine hierarchische Struktur erzeugt, die das heterogene Substitutionsmuster darstellt.
  • Ein wesentlicher Fortschritt der in dieser Schrift beschriebenen rekursiven divisiven Clustering-Techniken besteht darin, dass die gesamte Substitutionshierarchie automatisch und erschöpfend ohne menschliches Eingreifen erzeugt wird. Ferner ist es nicht korrekt, davon auszugehen, dass sich die Verbrauchergruppen über Teilmengen von Daten hinweg konsistent verhalten werden. Dementsprechend wird jede Teilmenge des Datensatzes bei jedem Schritt unabhängig analysiert, um für diese Teilmenge das Merkmal mit dem größten bedingten Merkmalsbindungswert (d. h. der Messung der Merkmalsbindung für die verbleibenden Merkmale, die von dieser Teilmenge abhängig sind) zu identifizieren. Demnach wird durch den beschriebenen rekursiven Prozess das Verbraucherwahlmuster automatisch als Baumstruktur erzeugt und jede Verzweigung des Baums weist eine eindeutige Reihenfolge der Merkmale auf, die auf der probabilistischen Metrik der Merkmalsbindung beruht.
  • 1 veranschaulicht ein Clustering-System 100. Das Clustering-System 100 beinhaltet einen Server 110, eine Benutzervorrichtung 105 und eine Datenquelle 115. Das Clustering-System 100 kann mehr oder weniger Komponenten beinhalten und dennoch das Clustern wie in dieser Schrift beschrieben durchführen.
  • Die Benutzervorrichtung 105 beinhaltet einen Prozessor 140, ein Kommunikationsteilsystem 145, ein Anzeigeteilsystem 150 und einen Speicher 155. Die Benutzervorrichtung 105 kann eine beliebige Rechenvorrichtung sein, einschließlich zum Beispiel eines Laptop-Computers, eines Desktop-Computers, eines Tablets oder dergleichen, wie etwa die Rechenvorrichtung 500, wie sie in Bezug auf 5 beschrieben ist. Wenngleich eine einzelne Benutzervorrichtung 105 dargestellt ist, kann es mehr als eine Benutzervorrichtung 105 in dem Clustering-System 100 geben. Die Benutzervorrichtung 105 kann zusätzliche Komponenten beinhalten, als zur einfacheren Beschreibung dargestellt sind. Zum Beispiel kann die Benutzervorrichtung 105 Komponenten beinhalten, die in Bezug auf die Rechenvorrichtung 500 aus 5 beschrieben sind, wie zum Beispiel die E/A 525 und den Bus 505. Der Prozessor 140 kann in dem Speicher 155 gespeicherte Anweisungen ausführen, um die beschriebene Funktionalität durchzuführen. Der Speicher 155 kann eine Anwendung 157 einer Benutzerschnittstelle (user interface - UI) beinhalten. Die UI-Anwendung 157 kann eine grafische Benutzerschnittstelle zum Anzeigen der durch den Server 110 erzeugten Cluster und Modelle bereitstellen, die der UI-Anwendung 157 durch das Benutzerschnittstellenteilsystem 138 mittels der Kommunikationsteilsysteme 125 und 145 bereitgestellt werden. Das Anzeigeteilsystem 150 kann einen Anzeigebildschirm beinhalten, der verwendet wird, um die grafische Benutzerschnittstelle anzuzeigen, die zur Anzeige durch die UI-Anwendung 157 erzeugt werden kann, um die durch den Server 110 erzeugten Modelle und Cluster anzusehen.
  • Die Datenquelle 115 kann eine beliebige geeignete Speichervorrichtung sein, einschließlich zum Beispiel einer Datenbank. Die Datenquelle 115 beinhaltet mindestens einen Datensatz, der durch den Server 110 geclustert werden kann. Bei dem Datensatz kann es sich zum Beispiel um historische Verkaufsdaten handeln. Insbesondere kann es sich bei dem Datensatz als ein anderes Beispiel um historische Fahrzeugverkaufsdaten handeln. Der Datensatz beinhaltet Einträge, die verschiedene Merkmale beinhalten, die verwendet werden können, um den Datensatz zu clustern. Die Datenquelle 115 kann eine Merkmalsliste der Merkmale beinhalten, die verwendet werden können, um den Datensatz zu clustern. Als ein Beispiel kann der Datensatz Einträge für Fahrzeugverkäufe beinhalten, die Details des gekauften Fahrzeugs sowie Details eines beliebigen Fahrzeugs beinhalten, das ersetzt wird oder bereits im Besitz des Käufers ist. Zum Beispiel können die Kaufinformationen für das neue Fahrzeug das Fabrikat, das Modell, die Marke, den Kraftstofftyp (z. B. Hybridelektrofahrzeug, Vollelektrofahrzeug, Brennkraftmaschine), die Fahrzeugklasse (z. B. Luxus oder Nicht-Luxus), den Fahrzeugkarosserietyp (z. B. Truck, Kompaktfahrzeug, Geländelimousinen usw.), das Fahrzeugsegment und dergleichen beinhalten. Die gleichen Informationen für das Fahrzeug, das ersetzt wird und/oder bereits im Besitz des Käufers ist, können in Verbindung mit den Verkaufsdaten gespeichert werden. Die Merkmalsliste kann Merkmale zum Clustern beinhalten, die zum Beispiel Fabrikat, Modell, Leistungstyp, Fahrzeugklasse, Fahrzeugtyp und Fahrzeugsegment beinhalten. Wenngleich Fahrzeugverkäufe in dieser Beschreibung als Beispiele verwendet werden, sind die in dieser Schrift beschriebenen rekursiven divisiven Clustering-Techniken auf ein beliebiges Clustering-Problem anwendbar, bei dem ein Datensatz auf Grundlage von Merkmalen geclustert werden soll. Das beschriebene rekursive divisive Clustern ist insbesondere nützlich, um Verbraucherwahlmuster in historischen Verkaufsdaten zu finden. Ein Beispiel für einen Datensatz kann eine Kundenbefragung zu einem neuen Fahrzeug sein.
  • Der Server 110 kann ein beliebiger Server sein, der Komponenten zum Durchführen des rekursiven divisiven Clusterns aufweist, wie zum Beispiel die Rechenvorrichtung 500. Wenngleich ein einzelner Server 110 dargestellt ist, kann es mehr als einen Server 110 geben, wie zum Beispiel in einer verteilten Rechenumgebung oder einer Serverfarm. Der Server 110 kann sich in einer Cloud-Computing-Umgebung befinden, wie etwa der in 6 dargestellten. Der Server 110 beinhaltet einen Prozessor 120, ein Kommunikationsteilsystem 125 und einen Speicher 130. Der Server 110 kann zusätzliche Komponenten beinhalten, wie etwa die in der Rechenvorrichtung 500 dargestellten, die zur Vereinfachung der Beschreibung in dem Server 110 nicht gezeigt sind. Der Prozessor 120 kann in dem Speicher 130 gespeicherte Anweisungen ausführen, um die beschriebene Funktionalität in dieser Schrift durchzuführen. Das Kommunikationsteilsystem 125 kann Informationen unter Verwendung eines beliebigen geeigneten Kommunikationsprotokolls zum Beispiel an das Kommunikationsteilsystem 145 der Benutzervorrichtung 105 oder die Datenquelle 115 senden und von diesen empfangen.
  • Der Speicher 130 beinhaltet ein Datensammlungsteilsystem 132, ein Clustering-Teilsystem 134 und ein Modellierungsteilsystem 136 sowie das Benutzerschnittstellenteilsystem 138. Wenngleich zur Einfachheit der Beschreibung und zum leichteren Verständnis des Lesers spezifische Module beschrieben sind, kann die beschriebene Funktionalität in mehr oder weniger Modulen innerhalb des Speichers 130 und des Servers 110 bereitgestellt sein, ohne vom Umfang der Beschreibung abzuweichen.
  • Das Datensammlungsteilsystem 132 greift auf die Datenquelle 115 zu, um den Datensatz zu erlangen, der geclustert werden soll. In einigen Ausführungsformen erlangt das Datensammlungsteilsystem 132 die Merkmalsliste von der Datenquelle 115. In einigen Ausführungsformen kann das Datensammlungsteilsystem 132 die Merkmalsliste von einem Benutzer erlangen, der die Merkmalsliste über eine grafische Benutzerschnittstelle bereitstellt, die zum Beispiel durch das Benutzerschnittstellenteilsystem 138 bereitgestellt wird. In einigen Ausführungsformen kann der Benutzer den Datensatz in der Datenquelle 115 unter Verwendung der grafischen Benutzerschnittstelle identifizieren. Das Datensammlungsteilsystem 132 kann den Datensatz und die Merkmalsliste dem Clustering-Teilsystem 134 bereitstellen.
  • Das Clustering-Teilsystem 134 kann den Datensatz unter Verwendung der Merkmalsliste unter Verwendung von rekursivem divisivem Clustern hierarchisch clustern. Das Clustering-Teilsystem 134 identifiziert die Merkmalsbindung, die die Loyalität der Verbraucher gegenüber einem bestimmten Merkmal misst. Dies ist die Wahrscheinlichkeit dafür, dass das Merkmal des gekauften Fahrzeugs das gleiche wie das Merkmal des Fahrzeugs ist, das ersetzt wird. Falls zum Beispiel 80 von 100 Kunden ein kleines Nutzfahrzeug abgeschafft haben und ein anderes kleines Nutzfahrzeug gekauft haben, weist das Segmentmerkmal eine Merkmalsbindung von 0,8 auf. Wenn der Bindungswert für das Merkmal zunimmt, gibt dies den Widerwillen der Kunden an, dieses Merkmal zu wechseln. Ein derartiger Widerwille gibt eine schwächere Substitution innerhalb der Teilmengen dieses Merkmals an. Wenn der Datensatz unterteilt wird, misst die bedingte Merkmalsbindung zusätzlich die Bindung der verbleibenden Merkmale innerhalb der unterteilten Teilmenge des Datensatzes. Falls zum Beispiel 65 % der Verbraucher mit Nutzfahrzeugen, die einen Ford® abgeschafft haben, einen anderen Ford® gekauft haben, beträgt die Bindung für das durch Nutzfahrzeug bedingte Markenmerkmal, eine Teilmenge des Karosserietyps, 0,65.
  • Um den Datensatz unter Verwendung der Merkmalsliste und des rekursiven divisiven Clusterns hierarchisch zu clustern, beginnt das Clustering-Teilsystem 134 mit dem Schätzen einer Merkmalsbindung für den Datensatz für jedes Merkmal in der Merkmalsliste. Das Clustering-Teilsystems 134 wählt das Merkmal mit dem größten Merkmalsbindungswert aus und teilt den Datensatz auf Grundlage der Teilmenge des Merkmals auf. Unter Verwendung des beispielhaften Abschnitts des in 3 gezeigten verschachtelten Logit-Modells 300 ist das erste Merkmal, das wie in Element 310 gezeigt ausgewählt wird, der Kraftstofftyp, sodass der Datensatz so aufgeteilt worden ist, dass alle Einträge in dem Datensatz, die ein Hybridelektrofahrzeug gekauft haben, in das Element 310 geclustert werden. Die verbleibenden Einträge in dem Datensatz werden auf Grundlage ihres Kraftstofftyps (z. B. Brennkraftmaschine, Dieselmotor, Vollelektrofahrzeug und so weiter) in Cluster unterteilt. Für die Zwecke des in 3 dargestellten Abschnitts des verschachtelten Logit-Modells 300 ist nur das Cluster gezeigt, das sich auf die Käufer von Hybridelektrofahrzeugen bezieht. Wie durch Element 305 gezeigt, beträgt der Merkmalsbindungswert für den Kraftstofftyp 0,045, was der höchste Wert über alle Merkmale hinweg ist, die geschätzt wurden.
  • Nachdem das Clustering-Teilsystem 134 die erste Stufe von geclusterten Teilmengen des Datensatzes erstellt hat, fährt es rekursiv entlang jeder Verzweigung (d. h. jeder geclusterten Teilmenge) nach unten fort, um die Teilmengen für jede Verzweigung zu erzeugen. Demnach wird für jede Teilmenge das erste ausgewählte Merkmal aus der Merkmalsliste entfernt und der bedingte Merkmalsbindungswert für jedes verbleibende Merkmal in der Merkmalsliste für die Teilmenge von Daten berechnet. Der bedingte Merkmalsbindungswert, der den höchsten Wert aufweist, wird ausgewählt und die Teilmenge von Daten wird erneut in Cluster aufgeteilt. Zurück bei 3 wird die Teilmenge von Dateneinträgen für Kunden, die ein Hybridelektrofahrzeug kaufen, wie bei Element 310 gezeigt, nach dem Fahrzeugklassenmerkmal aufgeteilt. Wie in Element 310 gezeigt, weist das Fahrzeugklassenmerkmal einen bedingten Bindungswert von 0,085 auf, sodass die Teilmenge von Daten ferner in zwei Teilmengen aufgeteilt wird, wie bei Element 315, das die Nicht-Luxus-Kunden aufweist, und bei Element 320, das die Luxus-Kunden aufweist, gezeigt. Der Prozess wird rekursiv durch jede Verzweigung wiederholt, bis der Datensatz an jeder Verzweigung nach jedem Merkmal aufgeteilt worden ist. Der rekursive Baumalgorithmus, der durch das Clustering-Teilsystem 134 verwendet wird, ist in Bezug auf 2 ausführlicher gezeigt und beschrieben.
  • Es ist zu beachten, dass in dem verschachtelten Logit-Modell 300 jede Verzweigung anders aufgeteilt werden kann als andere auf der gleichen Stufe. Zum Beispiel wird die Teilmenge von Daten, die bei Element 330 geclustert wird, nach Fahrzeugfabrikat aufgeteilt, wie durch die Elemente 335, 340, 345 und 350 gezeigt. Auf der gleichen Stufe der benachbarten Verzweigung, die durch die Teilmenge von Daten gezeigt ist, die bei Element 325 geclustert wird, wird jedoch nach Fahrzeugsegment aufgeteilt, wie durch die Elemente 355, 360, 365 und 370 gezeigt. Der Ausgang des Clustering-Teilsystems 134 kann ein geclusterter Datensatz im Textformat sein. Das Clustering-Teilsystem 134 kann das Textformat des geclusterten Datensatzes dem Modellierungsteilsystem 136 bereitstellen.
  • Das Modellierungsteilsystem 136 kann das Textformat des geclusterten Datensatzes analysieren, um zum Beispiel ein verschachteltes Logit-Modell zu erzeugen, das für einen Benutzer leichter anzusehen und visuell zu verstehen sein kann. Das beispielhafte verschachtelte Logit-Modell 300 ist ein Abschnitt eines beispielhaften verschachtelten Logit-Modells, das durch das Modellierungsteilsystem 136 ausgegeben werden kann. Das Modellierungsteilsystem 136 kann eine beliebige visuelle Darstellung verwenden, um das durch das Clustering-Teilsystem 134 erstellte hierarchische Clustering anzuzeigen. Zum Beispiel kann der Benutzer über die Option verfügen, eine Visualisierung der Daten auszuwählen. Das Modellierungsteilsystem 136 kann die Visualisierung dem Benutzerschnittstellenteilsystem 138 bereitstellen.
  • Das Benutzerschnittstellenteilsystem 138 kann die grafische Benutzerschnittstelle erstellen, damit der Benutzer die durch das Modellierungsteilsystem 136 erzeugte Visualisierung ansehen kann. Zusätzlich kann das Benutzerschnittstellenteilsystem 138 eine grafische Benutzerschnittstelle bereitstellen, damit der Benutzer zum Beispiel eine Auswahl bei der Merkmalsliste, dem Datensatz, der bevorzugten Visualisierung und dergleichen treffen kann. Das Benutzerschnittstellenteilsystem 138 kann die grafische Benutzerschnittstelle auf einer Anzeige des Servers 110 (nicht gezeigt) bereitstellen oder indem sie die grafische Benutzerschnittstelle der UI-Anwendung 157 auf der Benutzervorrichtung 105 zur Anzeige in dem Anzeigeteilsystem 150 bereitstellt.
  • 2 veranschaulicht ein Ablaufdiagramm des rekursiven Baumalgorithmus 200, der durch das Clustering-Teilsystem 134 verwendet wird. Wenngleich das Ablaufdiagramm den Algorithmus auf eine spezifische Weise darstellt, können einige oder alle der beschriebenen Schritte in einer anderen Reihenfolge oder parallel durchgeführt werden. In einigen Ausführungsformen können Schritte, die an jeder Verzweigung durchgeführt werden, parallel an unterschiedlichen Verzweigungen des Datensatzes durchgeführt werden. Der rekursive Baumalgorithmus 200 kann zum Beispiel dadurch ausgeführt werden, dass der Prozessor 120 die Anweisungen in dem Clustering-Teilsystem 134 des Servers 110 ausführt.
  • Der rekursive Baumalgorithmus 200 beginnt bei Schritt 205 durch Extrahieren des Vergleichsdatensatzes mit den gleichen Merkmalen. Als ein Beispiel kann eine Kundenbefragung zu einem neuen Fahrzeug die Details und Merkmale des neuen Fahrzeugs zusätzlich zu den Details und Merkmalen des Fahrzeugs, das ersetzt wurde, bereitstellen. Der Datensatz weist daher Vergleichsmerkmale sowohl des abgeschafften als auch des neuen Fahrzeugs zum Berechnen des Merkmalsbindungswerts (d. h. der Wahrscheinlichkeit, dass der Verbraucher ein neues Fahrzeug mit dem gleichen Merkmal wie das alte Fahrzeug gekauft hat) für jedes relevante Merkmal auf. Die relevanten Merkmale (d. h. die Merkmalsliste) werden ebenfalls zur Verwendung beim Clustern des Datensatzes gesammelt.
  • Bei Schritt 210 berechnet das Clustering-Teilsystem 134 die Bindungswahrscheinlichkeit für jedes Merkmal und bewertet die Merkmale. Die Bindungswahrscheinlichkeit (d. h. der Merkmalsbindungswert) wird für jedes Merkmal auf Grundlage jedes Datenpunkts in dem Datensatz berechnet. Falls der Datensatz zum Beispiel Informationen über 5.000 Kundenkäufe (z. B. neue Fahrzeuge) enthält, einschließlich Informationen über das abgeschaffte Produkt der Kunden (z. B. abgeschaffte Fahrzeug), gibt es 5.000 Datenpunkte zum Berechnen des Merkmalsbindungswerts für jedes Merkmal. Die Merkmalsliste kann eine beliebige Anzahl von Merkmalen (z. B. 10, 25, 50, 100 und so weiter) beinhalten. Als ein Beispiel gibt es vielleicht 100 Merkmale, wobei es sich bei den Merkmalen um ein beliebiges Merkmal handeln kann, das von der Fahrzeugklasse (z. B. Luxus im Gegensatz zu Nicht-Luxus) bis zu Details, wie etwa, ob das Fahrzeug beheizte Sitze enthält oder nicht, reicht.
  • Bei Schritt 215 erstellt das Clustering-Teilsystem 134 einen Knoten für das Merkmal (F*), das die größte Bindungswahrscheinlichkeit aufweist (d. h. den größten Merkmalsbindungswert). Bei Schritt 220 teilt das Clustering-Teilsystem den Datensatz auf Grundlage der Teilmengen von F* auf. Falls zum Beispiel F* die Fahrzeugklasse ist, wird der Datensatz in zwei Teilmengen (d. h. Luxus und Nicht-Luxus) aufgeteilt. Falls als ein anderes Beispiel F* der Fahrzeugkraftstofftyp ist, wird der Datensatz in mehrere Teilmengen aufgeteilt (d. h. Hybridelektrofahrzeuge, Vollelektrofahrzeuge, Dieselmotoren, Ethanolkraftstoffmotoren und dergleichen). Jede Teilmenge beinhaltet die Teilmenge von Dateneinträgen, die den Datenpunkt auf Grundlage des Merkmals in die Teilmenge qualifizieren. Zum Beispiel befinden sich unter Verwendung des Beispiels der Fahrzeugklasse alle Kunden, die ein Luxusfahrzeug gekauft haben, in der Luxus-Teilmenge und jeder Kunde, der ein Nicht-Luxusfahrzeug gekauft hat, befindet sich in der Nicht-Luxus-Teilmenge.
  • Bei Schritt 225 erstellt das Clustering-Teilsystem 134 einen Knoten für jede Teilmenge von F* und bringt sie an dem Knoten von F* an. Wie vorstehend beschrieben, werden zum Beispiel zwei Knoten für die Fahrzeugklasse (Luxus und Nicht-Luxus) erstellt und die Knoten werden an dem vorstehenden Knoten angebracht. Die Datenteilmengen für jeden Knoten sind mit dem Knoten assoziiert.
  • Bei Entscheidungsblock 230 bestimmt das Clustering-Teilsystem 134, ob die verbleibende Merkmalsliste leer ist. Ist dies der Fall, zeichnet das Clustering-Teilsystem 134 bei Schritt 250 den Textbaum. Der textbasierte Baum kann dem Modellierungsteilsystem 136 zur Erstellung einer Visualisierung, wie etwa eines verschachtelten Logit-Modells (z. B. des verschachtelten Logit-Modells 300), bereitgestellt werden. Falls es in der Merkmalsliste verbleibende Merkmale gibt, entfernt das Clustering-Teilsystem 134 bei Schritt 235 F* aus der Merkmalsliste.
  • Bei Schritt 240 berechnet das Clustering-Teilsystem 134 die bedingte Bindungswahrscheinlichkeit für die verbleibenden Merkmale jeder Teilmenge. Falls es zum Beispiel zwei Teilmengen (Luxus und Nicht-Luxus) gibt, wird die bedingte Bindungswahrscheinlichkeit (d. h. der bedingte Merkmalsbindungswert) für jedes verbleibende Merkmal in jeder Teilmenge berechnet. Auf diese Weise wird jede Verzweigung angegangen.
  • Bei Schritt 245 identifiziert das Clustering-Teilsystem 134 jedes Merkmal F* mit dem größten bedingten Merkmalsbindungswert in dieser Teilmenge. Dementsprechend wird in Fortsetzung des Beispiels für die Luxus-Teilmenge ein Merkmal F* identifiziert und für die Nicht-Luxus-Teilmenge ein Merkmal F* identifiziert. Das Merkmal F* kann zwischen den beiden Teilmengen unterschiedlich sein.
  • Das Clustering-Teilsystem 134 kehrt zu Schritt 220 zurück, um den Datensatz (die Teilmenge) auf Grundlage der Teilmengen von F* für jede Teilmenge aufzuteilen. Dies ist in dem verschachtelten Logit-Modell 300 aus 3 visuell gezeigt. Zum Beispiel ist Element 315 die Nicht-Luxus-Teilmenge und Element 320 die Luxus-Teilmenge. Das Merkmal F* für die Nicht-Luxus-Teilmenge ist der Fahrzeugtyp und eine der Teilmengen ist bei Element 330 zu sehen (d. h. Geländelimousinen). Gleichermaßen ist das Merkmal F* für die Luxus-Teilmenge ebenfalls der Fahrzeugtyp und eine der Teilmengen ist bei Element 325 zu sehen (d. h. Pkw).
  • Das Clustering-Teilsystem 134 geht erneut zu Schritt 225 über und erstellt einen Knoten für jede Teilmenge von F* und bringt sie an dem Knoten von F* an. Wie in 3 gezeigt, wird ein Knoten für jede der Teilmengen von Fahrzeugtypen erstellt und an dem übergeordneten Knoten angebracht (d. h. Element 330 ist an Element 315 angebracht). Erneut bestimmt das Clustering-Teilsystem 134 bei Entscheidungsblock 230, ob die Merkmalsliste leer ist. Dies wird rekursiv fortgesetzt, bis jede Verzweigung abgeschlossen ist. Das verschachtelte Logit-Modell 300 stellt dar, dass der bedingte Merkmalsbindungswert für die Teilmenge von Kunden, die Hybridelektrofahrzeuge gewählt hat, die Nicht-Luxus-Geländelimousinen waren, dann das Merkmal des Fabrikats des Fahrzeugs am meisten bevorzugt hat (mit 53 % auf Grundlage der Informationen in Element 330). Die Kunden, die Hybridelektrofahrzeuge gewählt haben, die Luxusautos waren, bevorzugten jedoch das Merkmal des Segments am meisten (mit 53,5 % auf Grundlage der Informationen in Element 325).
  • 3 veranschaulicht einen beispielhaften Abschnitt eines verschachtelten Logit-Modells 300. Das verschachtelte Logit-Modell 300 ist vorstehend in Bezug auf das Clustering-Teilsystem 134 und den rekursiven Baumalgorithmus 200 beschrieben worden. Das verschachtelte Logit-Modell 300 ist ein Beispiel für die Visualisierung, die durch das Modellierungsteilsystem 136 bereitgestellt werden kann. Wie in dem verschachtelten Logit-Modell gezeigt, ist das erste Merkmal, das den größten Bindungswert aufweist, der Kraftstofftyp (wobei unter allen befragten Kunden das bevorzugte Merkmal, das beibehalten wird, mit 95,5 % der Kunden darin besteht, bei dem gleichen Kraftstofftyp zu bleiben). Knoten werden für jeden Kraftstofftyp erstellt, aber das Hybridelektrofahrzeug bei Element 310 ist zur Vereinfachung der Beschreibung und aus Platzgründen das einzige, das gezeigt ist. Kunden, die Hybridelektrofahrzeuge gewählt haben, haben dann das Beibehalten der Fahrzeugklasse von Luxus oder Nicht-Luxus als den höchsten Merkmalsbindungswert mit 91,5 % aller verbleibenden Merkmale bevorzugt. Die Verzweigung und Teilmengen setzen sich durch die Merkmale Fabrikat und Segment fort und können über diese Merkmale hinaus fortfahren, was nicht gezeigt ist.
  • Das verschachtelte Logit-Modell 300 kann verwendet werden, um zu identifizieren, welche Merkmale für bestimmte Käufer von Bedeutung sind, was dabei behilflich sein kann, Preis- und Modellinformationen zu prognostizieren, was dabei behilflich sein kann, Entscheidungen zu Preisgestaltung, Inventar und/oder Herstellung anzutreiben. Ferner können mehrere verschachtelte Logit-Modelle auf Grundlage des Ausführens eines rekursiven divisiven Clustering-Algorithmus, wie etwa des rekursiven Baumalgorithmus 200, an mehreren Datensätzen erzeugt werden, die unterschiedliche Zeiträume abdecken. Zum Beispiel stellen die für 2017 durchgeführte Kundenbefragung zu einem neuen Fahrzeug, die für 2018 durchgeführte Kundenbefragung zu einem neuen Fahrzeug und die für 2019 durchgeführte Kundenbefragung zu einem neuen Fahrzeug drei separate Datensätze über unterschiedliche Zeiträume bereit, die jeweils analysiert werden können. Drei verschachtelte Logit-Modelle können erzeugt werden und Trendänderungen im Zeitverlauf können durch Vergleichen der verschachtelten Logit-Modelle identifiziert werden. In einigen Ausführungsformen kann der Vergleich automatisch durch den Server 110 erfolgen.
  • 4 veranschaulicht ein Verfahren 400 zum Identifizieren von Verbraucherwahlmustern. Das Verfahren 400 kann durch den Server 110 aus 1 durchgeführt werden. Die Schritte aus 4 sind in einer spezifischen Reihenfolge dargestellt, doch die Schritte können in einigen Ausführungsformen in einer anderen Reihenfolge oder parallel durchgeführt werden. Das Verfahren 400 beginnt bei Schritt 405, wobei der Server 110 auf eine Datenquelle (z. B. die Datenquelle 115) zugreift, die einen Datensatz (z.B. einen Datensatz einer Kundenbefragung zu einem neuen Fahrzeug) beinhaltet.
  • Bei Schritt 410 erlangt der Server 110 eine Vielzahl von Merkmalen, nach denen der Datensatz geclustert werden soll. Zum Beispiel kann der Server 110 die Merkmale von dem Benutzer über eine grafische Benutzerschnittstelle erlangen. In einigen Ausführungsformen können die Merkmale aus der Datenquelle erlangt werden. In einigen Ausführungsformen kann die Merkmalsliste aus der Datenquelle oder einer anderen Quelle erlangt und dem Benutzer über die grafische Benutzerschnittstelle bereitgestellt werden, damit der Benutzer diejenigen relevanten Merkmale auswählen kann, die in die zum Clustern des Datensatzes verwendete Merkmalsliste aufgenommen werden sollen.
  • Bei Schritt 415 kann der Server 110 den Datensatz hierarchisch clustern. Der rekursive Baumalgorithmus 200 kann verwendet werden, um den Datensatz hierarchisch zu clustern. Der Server 110 kann den bedingten Merkmalsbindungswert für jedes der Vielzahl von Merkmalen in dem Datensatz schätzen. Der bedingte Merkmalsbindungswert für jedes Merkmal ist, wie vorstehend beschrieben, die Wahrscheinlichkeit, dass die Verbraucher in dem Datensatz ein neues Fahrzeug mit dem gleichen Merkmal kaufen, das ihr abgeschafftes Fahrzeug aufweist (z. B. Ersetzen eines Luxusfahrzeugs durch ein anderes Luxusfahrzeug). Der Server 110 kann das erste Merkmal, das den größten Merkmalsbindungswert aufweist, auswählen und den Datensatz auf Grundlage des ersten Merkmals clustern (d. h. aufteilen). Mit anderen Worten gilt, falls die Fahrzeugklasse ausgewählt ist, werden diejenigen, die ein Luxusfahrzeug gekauft haben, in eine Teilmenge aufgeteilt und diejenigen, die ein Nicht-Luxusfahrzeug gekauft haben, in die zweite Teilmenge aufgeteilt.
  • Bei Schritt 420 kann der Server 110 ein verschachteltes Logit-Modell auf Grundlage des hierarchischen Clusterns erzeugen. Zum Beispiel kann der in 3 dargestellte Abschnitt des verschachtelten Logit-Modells 300 erzeugt werden. Sobald es erzeugt ist, kann das verschachtelte Logit-Modell oder eine andere visuelle Darstellung dem Benutzer über eine grafische Benutzerschnittstelle bereitgestellt werden.
  • Beispiele für Rechenumgebungen zum Umsetzen bestimmter Ausführungsformen
  • Ein beliebiges geeignetes Rechensystem oder eine Gruppe von Rechensystemen kann zum Durchführen der in dieser Schrift beschriebenen Vorgänge verwendet werden. Zum Beispiel veranschaulicht 6 ein Cloud-Computing-System 600, durch das mindestens ein Teil der Funktionalität des Servers 110 angeboten werden kann. 5 stellt ein Beispiel für eine Rechenvorrichtung 500 dar, die mindestens ein Teil der Benutzervorrichtung 105 und/oder des Servers 110 sein kann. Die Umsetzung der Rechenvorrichtung 500 könnte für eines oder mehrere der in 1 dargestellten Teilsysteme verwendet werden. In einer Ausführungsform kombiniert eine einzelne Benutzervorrichtung 105 oder ein einzelner Server 110, die bzw. der Vorrichtungen aufweist, die den in 5 dargestellten ähnlich sind (z. B. einen Prozessor, einen Speicher usw.), den einen oder die mehreren Vorgänge und Datenspeicher, die in 1 als separate Teilsysteme dargestellt sind.
  • 5 veranschaulicht ein Blockdiagramm eines Beispiels für ein Computersystem 500. Das Computersystem 500 kann ein beliebiger der in dieser Schrift beschriebenen Computer sein, einschließlich zum Beispiel des Servers 110 oder der Benutzervorrichtung 105. Die Rechenvorrichtung 500 kann zum Beispiel ein integrierter Computer, ein Laptop-Computer, ein Desktop-Computer, ein Tablet, ein Server oder eine andere elektronische Vorrichtung sein oder diese beinhalten.
  • Die Rechenvorrichtung 500 kann einen Prozessor 540 beinhalten, der über einen Bus 505 mit anderer Hardware eine Schnittstelle bildet. Ein Speicher 510, der ein beliebiges geeignetes (und nichttransitorisches) computerlesbares Medium beinhalten kann, wie etwa RAM, ROM, EEPROM oder dergleichen, kann Programmkomponenten (z.B. Programmcode 515) verkörpern, die den Betrieb der Rechenvorrichtung 500 konfigurieren. Der Speicher 510 kann den Programmcode 515, die Programmdaten 517 oder beides speichern. In einigen Beispielen kann die Rechenvorrichtung 500 Eingabe-/Ausgabe-(„E/A“-)Schnittstellenkomponenten 525 (z. B. zum Bilden einer Schnittstelle mit einer Anzeige 545, einer Tastatur, einer Maus und dergleichen) und zusätzlichen Datenspeicher 530 beinhalten.
  • Die Rechenvorrichtung 500 führt den Programmcode 515 aus, der den Prozessor 540 dazu konfiguriert, einen oder mehrere der in dieser Schrift beschriebenen Vorgänge durchzuführen. Beispiele für den Programmcode 515 beinhalten in verschiedenen Ausführungsformen das Datensammlungsteilsystem 132, das Clustering-Teilsystem 134, das Modellierungsteilsystem 136, das Benutzerschnittstellenteilsystem 138 oder beliebige andere geeignete Systeme oder Teilsysteme, die einen oder mehrere in dieser Schrift beschriebene Vorgänge durchführen (z. B. ein oder mehrere Entwicklungssysteme zum Konfigurieren einer interaktiven Benutzerschnittstelle). Der Programmcode 515 kann sich in dem Speicher 510 oder einem beliebigen geeigneten computerlesbaren Medium befinden und kann durch den Prozessor 540 oder einen beliebigen anderen geeigneten Prozessor ausgeführt werden.
  • Die Rechenvorrichtung 500 kann die Programmdaten 517 durch Ausführen des Programmcodes 515 erzeugen oder empfangen. Zum Beispiel sind der Datensatz und die Teilmengen alle Beispiele für die Programmdaten 517, die durch die Rechenvorrichtung 500 während der Ausführung des Programmcodes 515 verwendet werden können.
  • Die Rechenvorrichtung 500 kann Netzkomponenten 520 beinhalten. Die Netzkomponenten 520 können eine oder mehrere von beliebigen Komponenten darstellen, die eine Netzverbindung erleichtern. In einigen Beispielen können die Netzkomponenten 520 eine drahtlose Verbindung erleichtern und drahtlose Schnittstellen wie etwa IEEE 802.11, Bluetooth oder Funkschnittstellen zum Zugreifen auf Mobiltelefonnetze (z. B. eine Sendeempfänger-Antenne zum Zugreifen auf CDMA, GSM, UMTS oder ein anderes mobiles Kommunikationsnetz) beinhalten. In anderen Beispielen können die Netzkomponenten 520 verdrahtet sein und Schnittstellen wie etwa Ethernet, USB oder IEEE 1394 beinhalten.
  • Obwohl 5 eine einzelne Rechenvorrichtung 500 mit einem einzelnen Prozessor 540 darstellt, kann das System eine beliebige Anzahl von Rechenvorrichtungen 500 und eine beliebige Anzahl von Prozessoren 540 beinhalten. Zum Beispiel können mehrere Rechenvorrichtungen 500 oder mehrere Prozessoren 540 über ein drahtgebundenes oder drahtloses Netz (z. B. ein Weitverkehrsnetz, ein lokales Netz oder das Internet) verteilt sein. Die mehreren Rechenvorrichtungen 500 oder die mehreren Prozessoren 540 können beliebige der Schritte der vorliegenden Offenbarung einzeln oder in Abstimmung miteinander durchführen.
  • In einigen Ausführungsformen kann die durch das Clustering-System 100 bereitgestellte Funktionalität durch einen Cloud-Dienstanbieter als Cloud-Dienste angeboten werden. Zum Beispiel stellt 6 ein Beispiel für ein Cloud-Computing-System 600 dar, das einen Clustering-Dienst anbietet, der durch eine Anzahl von Benutzerabonnenten unter Verwendung von Benutzervorrichtungen 625a, 625b und 625c über ein Datennetz 620 verwendet werden kann. Die Benutzervorrichtungen 625a, 625b und 625c könnten Beispiele für eine vorstehend beschriebene Benutzervorrichtung 105 sein. In dem Beispiel kann der Clustering-Dienst nach einem Software-as-a-Service-(SaaS-)Modell angeboten werden. Ein oder mehrere Benutzer können den Clustering-Dienst abonnieren und das Cloud-Computing-System führt die Verarbeitung durch, um Abonnenten den Clustering-Dienst bereitzustellen. Das Cloud-Computing-System kann einen oder mehrere entfernte Servercomputer 605 beinhalten.
  • Die entfernten Servercomputer 605 beinhalten ein beliebiges nichttransitorisches computerlesbares Medium zum Speichern von Programmcode (z.B. den Server 110) und Programmdaten 610 oder beidem, das durch das Cloud-Computing-System 600 zum Bereitstellen der Cloud-Dienste verwendet wird. Ein computerlesbares Medium kann eine beliebige elektronische, optische, magnetische oder andere Speichervorrichtung beinhalten, die dazu in der Lage ist, einem Prozessor computerlesbare Anweisungen oder anderen Programmcode bereitzustellen. Nicht einschränkende Beispiele für ein computerlesbares Medium beinhalten eine Magnetplatte, einen Speicherchip, einen ROM, einen RAM, einen ASIC, einen optischen Speicher, ein Magnetband oder einen anderen magnetischen Speicher oder ein beliebiges anderes Medium, von dem eine Verarbeitungsvorrichtung Anweisungen auslesen kann. Die Anweisungen können prozessorspezifische Anweisungen beinhalten, die durch einen Compiler oder einen Interpreter aus Code erzeugt werden, der in einer beliebigen geeigneten Computerprogrammiersprache geschrieben ist, einschließlich zum Beispiel C, C++, C#, Visual Basic, Java, Python, Perl, JavaScript und ActionScript. In verschiedenen Beispielen können die Servercomputer 605 flüchtigen Speicher, nichtflüchtigen Speicher oder eine Kombination daraus beinhalten.
  • Einer oder mehrere der Server 605 führen den Programmcode 610 aus, der einen oder mehrere Prozessoren der Servercomputer 605 dazu konfiguriert, einen oder mehrere der Vorgänge durchzuführen, die Clustering-Dienste bereitstellen, einschließlich der Fähigkeit, das Clustering-Teilsystem 134, das Modellierungsteilsystem 136 und so weiter zu nutzen, um Clustering-Dienste durchzuführen. Wie in der Ausführungsform in 6 dargestellt, stellen der eine oder die mehreren Server 605 die Dienste bereit, um Clustering-Dienste über den Server 110 durchzuführen. Beliebige andere geeignete Systeme oder Teilsysteme, die einen oder mehrere in dieser Schrift beschriebene Vorgänge durchführen (z. B. ein oder mehrere Entwicklungssysteme zum Konfigurieren einer interaktiven Benutzerschnittstelle), können ebenfalls durch das Cloud-Computing-System 600 umgesetzt werden.
  • In bestimmten Ausführungsformen kann das Cloud-Computing-System 600 die Dienste durch Ausführen von Programmcode und/oder Verwenden von Programmdaten 610 umsetzen, die sich in einer Speichervorrichtung der Servercomputer 605 oder einem beliebigen geeigneten computerlesbaren Medium befinden können und durch die Prozessoren der Servercomputer 605 oder einen beliebigen anderen geeigneten Prozessor ausgeführt werden können.
  • In einigen Ausführungsformen beinhalten die Programmdaten 610 einen bzw. ein oder mehrere in dieser Schrift beschriebene Datensätze und Modelle. Beispiele für diese Datensätze beinhalten Datensätze zu Verbrauchern mit neuen Fahrzeugen usw. In einigen Ausführungsformen sind ein bzw. eine oder mehrere Datensätze, Modelle und Funktionen in der gleichen Speichervorrichtung gespeichert. In zusätzlichen oder alternativen Ausführungsformen sind eines oder mehrere der Programme, Datensätze, Modelle und Funktionen, die in dieser Schrift beschrieben sind, in unterschiedlichen Speichervorrichtungen gespeichert, auf die über das Datennetz 615 zugegriffen werden kann.
  • Das Cloud-Computing-System 600 beinhaltet zudem eine Netzschnittstellenvorrichtung 615, die Kommunikation zu und von dem Cloud-Computing-System 600 ermöglicht. In bestimmten Ausführungsformen beinhaltet die Netzschnittstellenvorrichtung 615 eine beliebige Vorrichtung oder Gruppe von Vorrichtungen, die zum Herstellen einer drahtgebundenen oder drahtlosen Datenverbindung mit den Datennetzen 620 geeignet ist. Nicht einschränkende Beispiele für die Netzschnittstellenvorrichtung 615 beinhalten einen Ethernet-Netzadapter, ein Modem und/oder dergleichen. Der Server 110 ist dazu in der Lage, unter Verwendung der Netzschnittstellenvorrichtung 615 über das Datennetz 620 mit den Benutzervorrichtungen 625a, 625b und 625c zu kommunizieren.
  • Allgemeine Überlegungen
  • Wenngleich der vorliegende Gegenstand in Bezug auf spezifische Aspekte davon ausführlich beschrieben worden ist, versteht es sich, dass der Fachmann beim Erlangen eines Verständnisses des Vorstehenden ohne Weiteres Veränderungen an, Variationen von und Äquivalente für derartige Aspekte erzeugen kann. Zahlreiche spezifische Details sind in dieser Schrift dargelegt, um ein umfassendes Verständnis des beanspruchten Gegenstands bereitzustellen. Der Fachmann wird jedoch verstehen, dass der beanspruchte Gegenstand ohne diese spezifischen Details umgesetzt werden kann. In anderen Fällen sind Verfahren, Einrichtungen oder Systeme, die dem Durchschnittsfachmann bekannt wären, nicht ausführlich beschrieben worden, um den beanspruchten Gegenstand nicht undeutlich zu machen. Dementsprechend ist die vorliegende Offenbarung zu Beispielzwecken und nicht zur Einschränkung dargelegt worden und schließt die Einbeziehung derartiger Modifikationen, Variationen und/oder Hinzufügungen zum vorliegenden Gegenstand nicht aus, wie es für den Durchschnittsfachmann ohne Weiteres ersichtlich wäre.
  • Sofern nicht ausdrücklich etwas anderes angegeben ist, versteht es sich, dass sich in dieser Beschreibung Erörterungen, die Ausdrücke wie etwa „Verarbeiten“, „Ausrechnen“, „Berechnen“, „Bestimmen“ und „Identifizieren“ oder dergleichen nutzen, auf Handlungen oder Prozesse einer Rechenvorrichtung beziehen, wie etwa eines oder mehrerer Computer oder einer ähnlichen elektronischen Rechenvorrichtung oder ähnlicher elektronischer Rechenvorrichtungen, die Daten, die als physische elektronische oder magnetische Größen innerhalb von Speichern, Registern oder anderen Informationsspeichervorrichtungen, -übertragungsvorrichtungen oder -anzeigevorrichtungen der Rechenplattform dargestellt sind, manipulieren oder transformieren. Die Verwendung von „ausgelegt zu“ oder „konfiguriert zu“ soll in dieser Schrift eine offene und einschließende Formulierung sein, die keine Vorrichtungen ausschließt, die dazu ausgelegt oder konfiguriert sind, zusätzliche Aufgaben oder Schritte durchzuführen. Zusätzlich soll die Verwendung von „auf Grundlage von“ dahingehend offen und einschließend sein, dass ein Prozess, ein Schritt, eine Berechnung oder eine andere Handlung „auf Grundlage von“ einer oder mehreren genannten Bedingungen oder einem oder mehreren genannten Werten in der Praxis auf zusätzlichen Bedingungen oder Werten über die genannten hinaus beruhen kann. Überschriften, Aufzählungen und Nummerierungen, die in dieser Schrift enthalten sind, dienen lediglich der Vereinfachung der Erläuterung und sollen nicht einschränkend sein.
  • Aspekte der in dieser Schrift offenbarten Verfahren können beim Betrieb derartiger Rechenvorrichtungen durchgeführt werden. Das oder die in dieser Schrift erörterte System ist bzw. erörterten Systeme sind nicht auf eine bestimmte Hardware-Architektur oder -Konfiguration beschränkt. Eine Rechenvorrichtung kann eine beliebige geeignete Anordnung von Komponenten beinhalten, die ein Ergebnis bereitstellen, das durch eine oder mehrere Eingaben bedingt ist. Geeignete Rechenvorrichtungen beinhalten mikroprozessorbasierte Mehrzweck-Computersysteme, die auf gespeicherte Software zugreifen, die das Rechensystem von einer Universalrecheneinrichtung zu einer Spezialrecheneinrichtung programmiert oder konfiguriert, die einen oder mehrere Aspekte des vorliegenden Gegenstands umsetzt. Eine beliebige geeignete Programmierung, Skripterstellung oder ein anderer Sprachtyp oder Kombinationen von Sprachen können verwendet werden, um die in dieser Schrift enthaltenen Lehren in Software umzusetzen, die beim Programmieren oder Konfigurieren einer Rechenvorrichtung verwendet werden soll. Die Reihenfolge der in den vorstehenden Beispielen dargestellten Blöcke kann variiert werden - zum Beispiel können Blöcke neu angeordnet, kombiniert und/oder in Unterblöcke unterteilt werden. Bestimmte Blöcke oder Prozesse können parallel durchgeführt werden.
  • Gemäß der vorliegenden Erfindung beinhaltet ein Verfahren Folgendes: Zugreifen auf eine Datenquelle, die einen Datensatz umfasst; Erlangen einer Vielzahl von Merkmalen, nach denen der Datensatz geclustert werden soll; hierarchisches Clustern des Datensatzes, wobei das hierarchische Clustern Folgendes umfasst: Schätzen eines Merkmalsbindungswerts für jedes der Vielzahl von Merkmalen in dem Datensatz, Auswählen eines ersten Merkmals der Vielzahl von Merkmalen, das den größten Merkmalsbindungswert aufweist, Clustern des Datensatzes auf Grundlage des ersten Merkmals und rekursives Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale; und Erzeugen eines verschachtelten Logit-Modells auf Grundlage des hierarchischen Clusterns.
  • In einem Aspekt der Erfindung umfasst rekursives Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale rekursiv Folgendes: Clustern des Datensatzes in eine Vielzahl von Verzweigungen auf Grundlage des ersten Merkmals; Entfernen des ersten Merkmals aus der Vielzahl von Merkmalen; Schätzen einer bedingten Merkmalsbindung für jedes der verbleibenden Merkmale in jeder der Vielzahl von Verzweigungen unter Verwendung des damit assoziierten Datensatzes für die Verzweigung; und Auswählen des ersten Merkmals der verbleibenden Merkmale, das für den damit assoziierten Datensatz für die Verzweigung den größten Merkmalsbindungswert aufweist.
  • In einem Aspekt der Erfindung umfasst der Datensatz historische Verkaufsdaten.
  • In einem Aspekt der Erfindung beinhaltet das Verfahren Folgendes: Erzeugen eines Marktnachfragemodells auf Grundlage des verschachtelten Logit-Modells.
  • In einem Aspekt der Erfindung umfasst der Datensatz historische Fahrzeugverkaufsdaten.
  • In einem Aspekt der Erfindung umfasst die Vielzahl von Merkmalen mindestens eines von einer Fahrzeugmarke, einem Fahrzeugsegment, einem Fahrzeugleistungstyp, einem Fahrzeugkarosserietyp oder einer Fahrzeugklasse.
  • In einem Aspekt der Erfindung handelt es sich bei dem Datensatz um historische Daten für einen ersten Zeitraum, wobei das Verfahren Folgendes umfasst: hierarchisches Clustern eines zweiten Datensatzes unter Verwendung der Vielzahl von Merkmalen, wobei es sich bei dem zweiten Datensatz um historische Daten für einen zweiten Zeitraum handelt; Erzeugen eines zweiten verschachtelten Logit-Modells auf Grundlage des hierarchischen Clusterns des zweiten Datensatzes; und Identifizieren einer Trendänderung zwischen dem ersten Zeitraum und dem zweiten Zeitraum auf Grundlage des verschachtelten Logit-Modells und des zweiten verschachtelten Logit-Modells.
  • In einem Aspekt der Erfindung beinhaltet das Verfahren Folgendes: Erzeugen einer Preis- und Volumenprognose auf Grundlage des verschachtelten Logit-Modells.
  • Gemäß der vorliegenden Erfindung ist ein System bereitgestellt, das Folgendes aufweist: einen oder mehrere Prozessoren; und einen Speicher, auf dem Anweisungen gespeichert sind, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Zugreifen auf eine Datenquelle, die einen Datensatz umfasst; Erlangen einer Vielzahl von Merkmalen, nach denen der Datensatz geclustert werden soll; hierarchisches Clustern des Datensatzes, wobei die Anweisungen zum hierarchischen Clustern des Datensatzes Anweisungen umfassen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Schätzen eines Merkmalsbindungswerts für jedes der Vielzahl von Merkmalen in dem Datensatz, Auswählen eines ersten Merkmals der Vielzahl von Merkmalen, das den größten Merkmalsbindungswert aufweist, Clustern des Datensatzes auf Grundlage des ersten Merkmals und rekursives Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale; und Erzeugen eines verschachtelten Logit-Modells auf Grundlage des hierarchischen Clusterns.
  • Gemäß einer Ausführungsform umfassen die Anweisungen zum rekursiven Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale weitere Anweisungen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren rekursiv zu Folgendem veranlassen: Clustern des Datensatzes in eine Vielzahl von Verzweigungen auf Grundlage des ersten Merkmals; Entfernen des ersten Merkmals aus der Vielzahl von Merkmalen; Schätzen einer bedingten Merkmalsbindung für jedes der verbleibenden Merkmale in jeder der Vielzahl von Verzweigungen unter Verwendung des damit assoziierten Datensatzes für die Verzweigung; und Auswählen des ersten Merkmals der verbleibenden Merkmale, das für den damit assoziierten Datensatz für die Verzweigung den größten Merkmalsbindungswert aufweist.
  • Gemäß einer Ausführungsform umfasst der Datensatz historische Verkaufsdaten.
  • Gemäß einer Ausführungsform umfassen die Anweisungen weitere Anweisungen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Erzeugen eines Marktnachfragemodells auf Grundlage des verschachtelten Logit-Modells.
  • Gemäß einer Ausführungsform umfasst der Datensatz historische Fahrzeugverkaufsdaten.
  • Gemäß einer Ausführungsform umfasst die Vielzahl von Merkmalen mindestens eines von einer Fahrzeugmarke, einem Fahrzeugsegment, einem Fahrzeugleistungstyp, einem Fahrzeugkarosserietyp oder einer Fahrzeugklasse.
  • Gemäß einer Ausführungsform handelt es sich bei dem Datensatz um historische Daten für einen ersten Zeitraum, und wobei die Anweisungen weitere Anweisungen umfassen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: hierarchisches Clustern eines zweiten Datensatzes unter Verwendung der Vielzahl von Merkmalen, wobei es sich bei dem zweiten Datensatz um historische Daten für einen zweiten Zeitraum handelt; Erzeugen eines zweiten verschachtelten Logit-Modells auf Grundlage des hierarchischen Clusterns des zweiten Datensatzes; und Identifizieren einer Trendänderung zwischen dem ersten Zeitraum und dem zweiten Zeitraum auf Grundlage des verschachtelten Logit-Modells und des zweiten verschachtelten Logit-Modells.
  • Gemäß einer Ausführungsform umfassen die Anweisungen weitere Anweisungen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Erzeugen einer Preis- und Volumenprognose auf Grundlage des verschachtelten Logit-Modells.
  • Gemäß der vorliegenden Erfindung ist ein nichttransitorisches computerlesbares Medium bereitgestellt, das Anweisungen aufweist, die bei Ausführung durch einen oder mehrere Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Zugreifen auf eine Datenquelle, die einen Datensatz umfasst; Erlangen einer Vielzahl von Merkmalen, nach denen der Datensatz geclustert werden soll; hierarchisches Clustern des Datensatzes, wobei die Anweisungen zum hierarchischen Clustern des Datensatzes Anweisungen umfassen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Schätzen eines Merkmalsbindungswerts für jedes der Vielzahl von Merkmalen in dem Datensatz, Auswählen eines ersten Merkmals der Vielzahl von Merkmalen, das den größten Merkmalsbindungswert aufweist, Clustern des Datensatzes auf Grundlage des ersten Merkmals und rekursives Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale; und Erzeugen eines verschachtelten Logit-Modells auf Grundlage des hierarchischen Clusterns.
  • Gemäß einer Ausführungsform umfassen die Anweisungen zum rekursiven Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale weitere Anweisungen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren rekursiv zu Folgendem veranlassen: Clustern des Datensatzes in eine Vielzahl von Verzweigungen auf Grundlage des ersten Merkmals; Entfernen des ersten Merkmals aus der Vielzahl von Merkmalen; Schätzen einer bedingten Merkmalsbindung für jedes der verbleibenden Merkmale in jeder der Vielzahl von Verzweigungen unter Verwendung des damit assoziierten Datensatzes für die Verzweigung; und Auswählen des ersten Merkmals der verbleibenden Merkmale, das für den damit assoziierten Datensatz für die Verzweigung den größten Merkmalsbindungswert aufweist.
  • Gemäß einer Ausführungsform umfassen die Anweisungen weitere Anweisungen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Erzeugen eines Marktnachfragemodells auf Grundlage des verschachtelten Logit-Modells.
  • Gemäß einer Ausführungsform handelt es sich bei dem Datensatz um historische Daten für einen ersten Zeitraum, und wobei die Anweisungen weitere Anweisungen umfassen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: hierarchisches Clustern eines zweiten Datensatzes unter Verwendung der Vielzahl von Merkmalen, wobei es sich bei dem zweiten Datensatz um historische Daten für einen zweiten Zeitraum handelt; Erzeugen eines zweiten verschachtelten Logit-Modells auf Grundlage des hierarchischen Clusterns des zweiten Datensatzes; und Identifizieren einer Trendänderung zwischen dem ersten Zeitraum und dem zweiten Zeitraum auf Grundlage des verschachtelten Logit-Modells und des zweiten verschachtelten Logit-Modells.

Claims (15)

  1. Verfahren, umfassend: Zugreifen auf eine Datenquelle, die einen Datensatz umfasst; Erlangen einer Vielzahl von Merkmalen, nach denen der Datensatz geclustert werden soll; hierarchisches Clustern des Datensatzes, wobei das hierarchische Clustern Folgendes umfasst: Schätzen eines Merkmalsbindungswerts für jedes der Vielzahl von Merkmalen in dem Datensatz, Auswählen eines ersten Merkmals der Vielzahl von Merkmalen, das den größten Merkmalsbindungswert aufweist, Clustern des Datensatzes auf Grundlage des ersten Merkmals und rekursives Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale; und Erzeugen eines verschachtelten Logit-Modells auf Grundlage des hierarchischen Clusterns.
  2. Verfahren nach Anspruch 1, wobei rekursives Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale rekursiv Folgendes umfasst: Clustern des Datensatzes in eine Vielzahl von Verzweigungen auf Grundlage des ersten Merkmals; Entfernen des ersten Merkmals aus der Vielzahl von Merkmalen; Schätzen einer bedingten Merkmalsbindung für jedes der verbleibenden Merkmale in jeder der Vielzahl von Verzweigungen unter Verwendung des damit assoziierten Datensatzes für die Verzweigung; und Auswählen des ersten Merkmals der verbleibenden Merkmale, das für den damit assoziierten Datensatz für die Verzweigung den größten Merkmalsbindungswert aufweist.
  3. Verfahren nach Anspruch 1 oder 2, wobei der Datensatz historische Verkaufsdaten umfasst.
  4. Verfahren nach Anspruch 1 oder 2, ferner umfassend: Erzeugen eines Marktnachfragemodells auf Grundlage des verschachtelten Logit-Modells.
  5. Verfahren nach Anspruch 1 oder 2, wobei der Datensatz historische Fahrzeugverkaufsdaten umfasst.
  6. Verfahren nach Anspruch 5, wobei die Vielzahl von Merkmalen mindestens eines von einer Fahrzeugmarke, einem Fahrzeugsegment, einem Fahrzeugleistungstyp, einem Fahrzeugkarosserietyp oder einer Fahrzeugklasse umfasst.
  7. Verfahren nach Anspruch 1 oder 2, wobei es sich bei dem Datensatz um historische Daten für einen ersten Zeitraum handelt, wobei das Verfahren Folgendes umfasst: hierarchisches Clustern eines zweiten Datensatzes unter Verwendung der Vielzahl von Merkmalen, wobei es sich bei dem zweiten Datensatz um historische Daten für einen zweiten Zeitraum handelt; Erzeugen eines zweiten verschachtelten Logit-Modells auf Grundlage des hierarchischen Clusterns des zweiten Datensatzes; und Identifizieren einer Trendänderung zwischen dem ersten Zeitraum und dem zweiten Zeitraum auf Grundlage des verschachtelten Logit-Modells und des zweiten verschachtelten Logit-Modells.
  8. Verfahren nach Anspruch 1 oder 2, ferner umfassend: Erzeugen einer Preis- und Volumenprognose auf Grundlage des verschachtelten Logit-Modells.
  9. System, umfassend: einen oder mehrere Prozessoren; und einen Speicher, auf dem Anweisungen gespeichert sind, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Zugreifen auf eine Datenquelle, die einen Datensatz umfasst; Erlangen einer Vielzahl von Merkmalen, nach denen der Datensatz geclustert werden soll; hierarchisches Clustern des Datensatzes, wobei die Anweisungen zum hierarchischen Clustern des Datensatzes Anweisungen umfassen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Schätzen eines Merkmalsbindungswerts für jedes der Vielzahl von Merkmalen in dem Datensatz, Auswählen eines ersten Merkmals der Vielzahl von Merkmalen, das den größten Merkmalsbindungswert aufweist, Clustern des Datensatzes auf Grundlage des ersten Merkmals und rekursives Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale; und Erzeugen eines verschachtelten Logit-Modells auf Grundlage des hierarchischen Clusterns.
  10. System nach Anspruch 9, wobei die Anweisungen zum rekursiven Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale weitere Anweisungen umfassen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren rekursiv zu Folgendem veranlassen: Clustern des Datensatzes in eine Vielzahl von Verzweigungen auf Grundlage des ersten Merkmals; Entfernen des ersten Merkmals aus der Vielzahl von Merkmalen; Schätzen einer bedingten Merkmalsbindung für jedes der verbleibenden Merkmale in jeder der Vielzahl von Verzweigungen unter Verwendung des damit assoziierten Datensatzes für die Verzweigung; und Auswählen des ersten Merkmals der verbleibenden Merkmale, das für den damit assoziierten Datensatz für die Verzweigung den größten Merkmalsbindungswert aufweist.
  11. System nach Anspruch 9 oder 10, wobei die Anweisungen weitere Anweisungen umfassen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Erzeugen eines Marktnachfragemodells auf Grundlage des verschachtelten Logit-Modells.
  12. System nach Anspruch 9 oder 10, wobei der Datensatz historische Fahrzeugverkaufsdaten umfasst.
  13. System nach Anspruch 12, wobei die Vielzahl von Merkmalen mindestens eines von einer Fahrzeugmarke, einem Fahrzeugsegment, einem Fahrzeugleistungstyp, einem Fahrzeugkarosserietyp oder einer Fahrzeugklasse umfasst.
  14. Nichttransitorisches computerlesbares Medium, das Anweisungen umfasst, die bei Ausführung durch einen oder mehrere Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Zugreifen auf eine Datenquelle, die einen Datensatz umfasst; Erlangen einer Vielzahl von Merkmalen, nach denen der Datensatz geclustert werden soll; hierarchisches Clustern des Datensatzes, wobei die Anweisungen zum hierarchischen Clustern des Datensatzes Anweisungen umfassen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren zu Folgendem veranlassen: Schätzen eines Merkmalsbindungswerts für jedes der Vielzahl von Merkmalen in dem Datensatz, Auswählen eines ersten Merkmals der Vielzahl von Merkmalen, das den größten Merkmalsbindungswert aufweist, Clustern des Datensatzes auf Grundlage des ersten Merkmals und rekursives Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale; und Erzeugen eines verschachtelten Logit-Modells auf Grundlage des hierarchischen Clusterns.
  15. Nichttransitorisches computerlesbares Medium nach Anspruch 14, wobei die Anweisungen zum rekursiven Clustern des Datensatzes auf Grundlage der verbleibenden Merkmale weitere Anweisungen umfassen, die bei Ausführung durch den einen oder die mehreren Prozessoren den einen oder die mehreren Prozessoren rekursiv zu Folgendem veranlassen: Clustern des Datensatzes in eine Vielzahl von Verzweigungen auf Grundlage des ersten Merkmals; Entfernen des ersten Merkmals aus der Vielzahl von Merkmalen; Schätzen einer bedingten Merkmalsbindung für jedes der verbleibenden Merkmale in jeder der Vielzahl von Verzweigungen unter Verwendung des damit assoziierten Datensatzes für die Verzweigung; und Auswählen des ersten Merkmals der verbleibenden Merkmale, das für den damit assoziierten Datensatz für die Verzweigung den größten Merkmalsbindungswert aufweist.
DE102020134974.2A 2020-01-06 2020-12-28 Automatisiertes rekursives divisives clustern Pending DE102020134974A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US16/735,446 2020-01-06
US16/735,446 US20210209617A1 (en) 2020-01-06 2020-01-06 Automated recursive divisive clustering

Publications (1)

Publication Number Publication Date
DE102020134974A1 true DE102020134974A1 (de) 2021-07-08

Family

ID=76432373

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102020134974.2A Pending DE102020134974A1 (de) 2020-01-06 2020-12-28 Automatisiertes rekursives divisives clustern

Country Status (3)

Country Link
US (1) US20210209617A1 (de)
CN (1) CN113076968A (de)
DE (1) DE102020134974A1 (de)

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2003065170A2 (en) * 2002-02-01 2003-08-07 Manugistics Atlanta, Inc. Market response modeling
WO2004012679A2 (en) * 2002-08-06 2004-02-12 Blue Flame Data, Inc. System to quantify consumer preferences
US8682709B2 (en) * 2006-01-06 2014-03-25 Gregory M. Coldren System and method for modeling consumer choice behavior
US8195527B2 (en) * 2008-07-28 2012-06-05 International Business Machines Corporation Method and system for evaluating product substitutions along multiple criteria in response to a sales opportunity
US20140074553A1 (en) * 2012-09-13 2014-03-13 Truecar, Inc. System and method for constructing spatially constrained industry-specific market areas
US11443332B2 (en) * 2014-12-22 2022-09-13 Superior Integrated Solutions Llc System, method, and software for predicting the likelihood of selling automotive commodities
US20190180295A1 (en) * 2017-12-13 2019-06-13 Edwin Geoffrey Hartnell Method for applying conjoint analysis to rank customer product preference
US20200320548A1 (en) * 2019-04-03 2020-10-08 NFL Enterprises LLC Systems and Methods for Estimating Future Behavior of a Consumer

Also Published As

Publication number Publication date
US20210209617A1 (en) 2021-07-08
CN113076968A (zh) 2021-07-06

Similar Documents

Publication Publication Date Title
DE112019004260T5 (de) Analyse und korrektur der lieferketten-gestaltung durch maschinelles lernen
DE10311311A1 (de) Berechnung von Preiselastizität
DE102020126569A1 (de) Systeme und verfahren für die dynamische bedarfserfassung
DE102017207686A1 (de) Einblicke in die belegschaftsstrategie
DE112010004420T5 (de) Verfahren und System zur Verbesserung der Ausführungszeit von Software durch Optimierung elnes Leistungsmodells
DE112019004261T5 (de) Analyse und Korrektur der Lieferketten-Gestaltung durch maschinelles lernen
DE102020126568A1 (de) Systeme und verfahren für das feature-engineering
DE102021004591A1 (de) Für Graphen vorgesehene neuronale Netzwerke für Datensätze mit Heterophilie
DE112013005993T5 (de) Verfahren, Vorrichtung und computerlesbares Medium für eine optimale Bestimmung von Daten-Teilmengen
DE112018001290T5 (de) Verfahren zum Schätzen der Löschbarkeit von Datenobjekten
DE112020002684T5 (de) Ein Mehrfachverfahrenssystem für optimale Vorhersagemodellauswahl
DE102012220390A1 (de) Verwenden des geografischen Ortes zum Ermitteln von Element- und Gebietsdaten zum Bereitstellen an eine Datenverarbeitungseinheit
DE102020112531A1 (de) Operationelle metrische Berechnung für Arbeitsbelastungstyp
DE10239292A1 (de) Konflikterfassung und -lösung in Zusammenhang mit einer Datenzuweisung
DE60032258T2 (de) Bestimmen ob eine variable numerisch oder nicht numerisch ist
DE102018010163A1 (de) Automatisches Generieren sinnvoller Nutzersegmente
DE112021000645T5 (de) Verfahren und System zum Optimieren eines Ziels mit diskreten Bedingungen
DE112020002344T5 (de) Feature engineering zur optimierung von neuronalen netzwerken
DE112021000627T5 (de) Dynamische erkennung und korrektur von datenqualitätsproblemen
DE112021004234T5 (de) Einsetzen von metalernen zum optimieren der automatischen auswahl von pipelinesdes maschinellen lernens
DE112021004958T5 (de) Skalierbares modellieren bei grossen sammlungen von zeitreihen
DE102018000039A1 (de) Bündeln von Onlinecontentfragmenten zur Präsentation auf Grundlage von contentspezifischen Metriken und Intercontentrandbedingungen
DE102021124445A1 (de) Metamerkmal-trainingsmodelle für maschinenlernalgorithmen
DE102021122558A1 (de) Optimierung von scanketten-signalleitungslängen mit auf q- learning beruhendem bestärkendem lernen
DE102020215589A1 (de) Steuern eines deep-sequence-modells mit prototypen

Legal Events

Date Code Title Description
R082 Change of representative

Representative=s name: LORENZ SEIDLER GOSSEL RECHTSANWAELTE PATENTANW, DE