DE102018114598A1 - Verfahren und system zur analyse von extrahierten phrasen aus einem text - Google Patents

Verfahren und system zur analyse von extrahierten phrasen aus einem text Download PDF

Info

Publication number
DE102018114598A1
DE102018114598A1 DE102018114598.5A DE102018114598A DE102018114598A1 DE 102018114598 A1 DE102018114598 A1 DE 102018114598A1 DE 102018114598 A DE102018114598 A DE 102018114598A DE 102018114598 A1 DE102018114598 A1 DE 102018114598A1
Authority
DE
Germany
Prior art keywords
gram
phrases
phrase
relevance factor
vehicle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
DE102018114598.5A
Other languages
English (en)
Inventor
Prakash Mohan Peranandam
Soumen De
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GM Global Technology Operations LLC
Original Assignee
GM Global Technology Operations LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GM Global Technology Operations LLC filed Critical GM Global Technology Operations LLC
Publication of DE102018114598A1 publication Critical patent/DE102018114598A1/de
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/20Monitoring the location of vehicles belonging to a group, e.g. fleet of vehicles, countable or determined number of vehicles

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)
  • Traffic Control Systems (AREA)

Abstract

Ein System und Verfahren zum Extrahieren einer relevanten Phrase aus einem Text. Das System und Verfahren kann eine Vielzahl von n-Gramm-Phrasen unter Verwendung eines Keims aus einer Keimliste als Anfang, Mitte oder Ende jeder n-Gramm-Phrase aufbauen. Die Keimliste kann auf ein bestimmtes Fahrzeugsystem gerichtet sein, und jeder Keim kann ein Symptom, einen Teil oder eine Handlung anzeigen, um relevante Phrasen aus den Fahrzeuginformationen wortgetreu zu extrahieren. Die Vielzahl der n-Gramm-Phrasen kann gefiltert werden, um einen oder mehrere relevante Phrasen zu erhalten. Der Filterprozess kann das Berechnen eines externen Relevanzfaktors, eines internen Relevanzfaktors oder eines Kontextmuster-Relevanzfaktors beinhalten.

Description

  • EINLEITUNG
  • Das technische Gebiet bezieht sich auf die Textanalyse und insbesondere auf Systeme und Verfahren zum Erkennen relevanter Phrasen im Zusammenhang mit Fahrzeuginformationen.
  • Fahrzeuginformationen wie Serviceaufzeichnungen, Garantieanträge und Kundenmeinungsdaten können viele Formen annehmen, und eine große Anzahl von Dokumenten zu diesen Informationen kann in Bezug auf eine Fahrzeugflotte existieren. Eine effiziente Verarbeitung dieser Informationen kann eine Reduzierung irrelevanter oder unbrauchbarer Phrasen sowie eine Reduzierung der Verarbeitungszeit und des speicherintensiven Rechenaufwands ermöglichen.
  • KURZDARSTELLUNG
  • Gemäß einer Ausführungsform ist ein Verfahren zum Extrahieren einer relevanten Phrase aus einem Text vorgesehen, umfassend die Schritte des Zugreifens auf eine Fahrzeuginformation wörtlich aus einer Datenbank, des Tokenisierens der Fahrzeuginformation wortgetreu und des Aufbaus einer Vielzahl von n-Gramm-Phrasen aus der Fahrzeuginformation wörtlich. Die Vielzahl von n-Gramm-Phrasen beinhaltet ein Keim aus einer Keimliste als Anfang, Mitte oder Ende jeder n-Gramm-Phrase der Vielzahl von n-Gramm-Phrasen. Die Keimliste beinhaltet eine Vielzahl von Keimen, wobei jeder Seed auf eine fahrzeugbezogene Komponente oder eine fahrzeugbezogene Funktionalität gerichtet ist. Das Verfahren umfasst weiterhin das Filtern der Vielzahl von n-Gramm-Phrasen, um die entsprechende Phrase oder eine irrelevante Phrase zu erhalten.
  • In einer bestimmten Ausführungsform wird die Keimliste auf ein bestimmtes Fahrzeugsystem ausgerichtet.
  • In einer weiteren, spezielleren Ausführungsform identifizieren die Keime Symptome, Teile oder Handlungen.
  • In einer weiteren, spezielleren Ausführungsform beinhaltet der Filterschritt das Berechnen eines externen Relevanzfaktors.
  • In einer weiteren, spezielleren Ausführungsform werden eine Trainingsphase und eine Testphase durchgeführt, wobei der externe Relevanzfaktor eine Gesamtzahl von n-Gram Phrasen mit gleicher Länge in der Trainingsphase, die Gesamtzahl von n-Gram Phrasen mit gleicher Länge in der Testphase, eine Häufigkeit einer Wortfolge in der Trainingsphase und die Häufigkeit der Wortfolge in der Testphase berücksichtigt.
  • In einer weiteren, spezielleren Ausführungsform beinhaltet der Filterschritt das Berechnen eines internen Relevanzfaktors.
  • In einer weiteren, spezielleren Ausführungsform berücksichtigt der interne Relevanzfaktor eine Begriffshäufigkeit - Inverse Document Frequency (tf-idf) Analyse von Fahrzeuginformationen in der Datenbank.
  • In einer weiteren, spezielleren Ausführungsform beinhaltet der Filterschritt das Berechnen eines Kontextmuster-Relevanzfaktors.
  • In einer weiteren, spezielleren Ausführungsform ist der Kontextmuster-Relevanzfaktor ein binärer Wert, der davon abhängt, ob die n-Gramm-Phrase einen relevanten Teil der Sprache (POS-Tag-Sequenz) oder eine irrelevante POS-Tag-Sequenz aufweist.
  • In einer weiteren, spezielleren Ausführungsform beinhaltet der Filterschritt das Berechnen eines externen Relevanzfaktors, eines internen Relevanzfaktors und eines Kontextmuster -Relevanzfaktors.
  • In einer weiteren, spezielleren Ausführungsform wird ein schwacher Filterregelsatz verwendet, um den externen Relevanzfaktor, den internen Relevanzfaktor und den Kontextmuster-Relevanzfaktor konjunktiv zu berücksichtigen, sodass n-Gramm-Phrasen irrelevant sind, wenn für jeden der externen Relevanzfaktoren, den internen Relevanzfaktor und den Kontextmuster-Relevanzfaktor ein Irrelevanz-Schwellenwert erreicht wird.
  • In einer weiteren, spezielleren Ausführungsform wird ein starker Filterregelsatz verwendet, um den externen Relevanzfaktor, den internen Relevanzfaktor und den Kontextmuster-Relevanzfaktor trennend zu berücksichtigen, sodass n-Gramm-Phrasen irrelevant sind, wenn für einen der externen Relevanzfaktoren, den internen Relevanzfaktor oder den Kontextmuster-Relevanzfaktor ein Irrelevanz-Schwellenwert erreicht wird.
  • In einer weiteren, spezielleren Ausführungsform beinhaltet das Verfahren weiterhin den Schritt des Kategorisierens von Begriffen in der entsprechenden Phrase in einer Domäne nach einer Eigenschaft jedes Begriffs und einer Beziehung zwischen den Begriffen in einem Datenorganisationssystem.
  • Gemäß einer weiteren Ausführungsform ist ein Verfahren zum Extrahieren einer relevanten Phrase aus dem Text vorgesehen. Das Verfahren beinhaltet die Schritte des Zugreifens auf einen Wortlaut aus einer Datenbank, des Tokenisierens des Wortlauts und des Aufbaus einer Vielzahl von n-Gramm-Phrasen aus dem Wortlaut. Die Vielzahl von n-Gramm-Phrasen beinhaltet einen Samen aus einer Samenliste als Anfang, Mitte oder Ende jeder n-Gramm-Phrase der Vielzahl von n-Gramm-Phrasen. Die Keimliste beinhaltet eine Vielzahl von Keimen. Das Verfahren beinhaltet das Berechnen eines externen Relevanzfaktors für jede n-Gramm-Phrase der Vielzahl von n-Gramm-Phrasen, das Berechnen eines internen Relevanzfaktors für jede n-Gramm-Phrase der Vielzahl von n-Gramm-Phrasen, das Berechnen eines Kontextmuster-Relevanzfaktors für jede n-Gramm-Phrase der Vielzahl von n-Gramm-Phrasen, und unter Verwendung des externen Relevanzfaktors, des internen Relevanzfaktors, des Kontextmuster-Relevanzfaktors oder einer Kombination aus einem oder mehreren der externen Relevanzfaktoren, des internen Relevanzfaktors und des Kontextmuster-Relevanzfaktors, um die relevante Phrase oder eine irrelevante Phrase aus der Vielzahl von n-Gramm-Phrasen zu identifizieren.
  • In einer spezielleren Ausführungsform wird ein schwacher Filterregelsatz verwendet, um den externen Relevanzfaktor, den internen Relevanzfaktor und den Kontextmuster-Relevanzfaktor konjunktiv zu berücksichtigen, sodass n-Gramm-Phrasen irrelevant sind, wenn für jeden der externen Relevanzfaktoren, den internen Relevanzfaktor und den Kontextmuster-Relevanzfaktor ein Irrelevanz-Schwellenwert erreicht wird.
  • In einer spezielleren Ausführungsform wird ein starker Filterregelsatz verwendet, um den externen Relevanzfaktor, den internen Relevanzfaktor und den Kontextmuster-Relevanzfaktor trennend zu berücksichtigen, sodass n-Gramm-Phrasen irrelevant sind, wenn für einen der externen Relevanzfaktoren, den internen Relevanzfaktor oder den Kontextmuster-Relevanzfaktor ein Irrelevanz-Schwellenwert erreicht wird.
  • In einer spezielleren Ausführungsform ist der Wortlaut eine wortgetreue Fahrzeuginformation und die Keimliste ist auf ein bestimmtes Fahrzeugsystem gerichtet.
  • In einer spezielleren Ausführungsform identifizieren die Keime Symptome, Teile oder Handlungen.
  • Gemäß einer weiteren Ausführungsform ist ein System zum Extrahieren einer relevanten Phrase aus dem Text vorgesehen. Das System umfasst eine Datenbank, die eine wortgetreue Fahrzeuginformation und ein n-Gramm-Aufbauwerkzeug beinhaltet, das konfiguriert ist, um eine Vielzahl von n-Gramm-Phrasen aus den Fahrzeuginformationen wortgetreu zu bilden. Die Vielzahl von n-Gramm-Phrasen beinhaltet ein Keim aus einer Keimliste als Anfang, Mitte oder Ende jeder n-Gramm-Phrase der Vielzahl von n-Gramm-Phrasen. Die Keimliste beinhaltet eine Vielzahl von Keimen, wobei jeder Keim auf eine fahrzeugbezogene Komponente oder eine fahrzeugbezogene Funktionalität gerichtet ist. Das System umfasst weiterhin ein Filterwerkzeug, das konfiguriert ist, um die Vielzahl von n-Gramm-Phrasen zu filtern, um die entsprechende Phrase oder eine irrelevante Phrase zu erhalten.
  • In einer spezielleren Ausführungsform umfasst das System weiterhin ein Datenorganisationssystem, das konfiguriert ist, um Begriffe in der entsprechenden Phrase in einer Domäne nach einer Eigenschaft jedes Begriffs und einer Beziehung zwischen den Begriffen zu kategorisieren.
  • Figurenliste
  • Eine oder mehrere Ausführungsformen der Erfindung werden im Folgenden in Verbindung mit den beigefügten Zeichnungen beschrieben, worin gleiche Bezeichnungen gleiche Elemente bezeichnen, und worin gilt:
    • 1 ist ein Blockdiagramm, das eine Ausführungsform eines Systems abbildet, das in der Lage ist, die hierin offenbarten Verfahren anzuwenden;
    • 2 ist ein Flussdiagramm, das eine Ausführungsform eines Verfahrens zum Extrahieren einer relevanten Phrase aus einem Text darstellt;
    • 3 ist ein Blockdiagramm, das einen Prozess zum Aufbau von n-Gramm-Phrasen darstellt; und
    • 4 ist ein Blockdiagramm, das einen weiteren Prozess zum Aufbau von n-Gramm-Phrasen darstellt.
  • AUSFÜHRLICHE BESCHREIBUNG DER VERANSCHAULICHTEN AUSFÜHRUNGSFORMEN
  • Die nachfolgend beschriebenen Systeme und Verfahren können eine effiziente Extraktion der relevanten Phrasen aus dem Text ermöglichen. Die Systeme und Verfahren können einen Keim aus einer Keimliste verwenden, um eine n-Gramm-Phrase zu bilden. In einer Ausführungsform ist der Keim auf eine fahrzeugbezogene Komponente oder eine fahrzeugbezogene Funktionalität gerichtet. Nach dem Aufbau der n-Gramm-Phrasen können die n-Gramm-Phrasen gefiltert werden. In einer Ausführungsform beinhaltet der Filterprozess das Berechnen eines externen Relevanzfaktors für jede n-Gramm-Phrase, das Berechnen eines internen Relevanzfaktors für jede n-Gramm-Phrase und das Berechnen eines Kontextmuster-Relevanzfaktors für jede n-Gramm-Phrase. Ein Filterregelsatz kann verwendet werden, um den externen Relevanzfaktor, den internen Relevanzfaktor und/oder den Kontextmuster-Relevanzfaktor so zu gewichten, zu mitteln oder anderweitig zu kombinieren, dass eine relevante Phrase oder eine irrelevante Phrase aus der Vielzahl von n-Gramm-Phrasen identifiziert wird.
  • Die Textanalysesysteme und -verfahren können zum Verarbeiten von Fahrzeuginformationen verwendet werden, die eine Vielzahl von fahrzeugbezogenen Themen aus verschiedenen Quellen abdecken können. So können beispielsweise Fahrzeuginformationen wortgetreu Serviceaufzeichnungen zur Beschreibung von Fahrzeugreparaturen beinhalten, die von Fahrzeugservicezentren, wie beispielsweise Autohäusern, die Fahrzeugwartungs- und Diagnoseservices anbieten, bereitgestellt werden können. Fahrzeug-Serviceaufzeichnungen können auch von Call-Centern zur Verfügung gestellt werden, die dem Fahrzeug Telematikdienste anbieten und als Teil dieses Dienstes Rückmeldungen über die Symptome, Teile und Handlungen zum Anpassen des Fahrzeugbetriebs sammeln. Fahrzeuginformationen können auch wortgetreue Gewährleistungsaufzeichnungen, Kundenmeinungsdaten aus sozialen Medien oder anderen Quellen oder andere fahrzeugbezogene Daten beinhalten, wobei das Auffinden bestimmter Trends, Schlüsselwörter, relevanter Phasen usw. nützlich sein kann.
  • Mit Bezug auf 1 ist eine Betriebsumgebung dargestellt, die ein mobiles Fahrzeugkommunikationssystem 10 umfasst, das als Teil der Texterfassung zur Verwendung mit den hierin offenbarten Verfahren und Systemen implementiert werden kann. Das Kommunikationssystem 10 beinhaltet im Allgemeinen ein Fahrzeug 12, ein oder mehrere Drahtlosträgersysteme 14, ein Festnetz-Kommunikationsnetzwerk 16, einen Computer 18, ein Fahrzeug-Servicezentrum 19 und ein Call-Center 20. Es versteht sich, dass das offenbarte Verfahren mit einer beliebigen Anzahl an unterschiedlichen Systemen verwendet werden kann und nicht speziell auf die hierin gezeigte Betriebsumgebung einschränkt ist. Auch die Architektur, Konstruktion, Konfiguration und der Betrieb des Systems 10 und seiner einzelnen Komponenten sind in der Technik allgemein bekannt. Daher stellen die folgenden Absätze einfach eine Kurzübersicht eines solchen Kommunikationssystems 10 bereit; andere Systemkonfigurationen sind jedoch durchaus möglich, und auch andere Systeme, die hierin nicht gezeigt sind, könnten die offenbarten Verfahren einsetzen.
  • Fahrzeug 12 ist in der veranschaulichten Ausführungsform als ein Personenkraftwagen dargestellt, es sollte jedoch beachtet werden, dass jedes andere Fahrzeug, einschließlich Motorräder, Lastwagen, Geländewagen (SUV), Campingfahrzeuge (RV), Wasserfahrzeuge, Flugzeuge usw. ebenfalls verwendet werden kann. Ein Teil der Fahrzeugelektronik 28 wird im Allgemeinen in 1 gezeigt und beinhaltet eine Telematikeinheit 30, ein Mikrofon 32, eine oder mehrere Tasten oder andere Steuereingänge 34, ein Audiosystem 36, eine optische Anzeige 38, ein GPS-Modul 40 sowie eine Anzahl an Fahrzeugsystemmodulen (VSMs) 42. Einige dieser Vorrichtungen können direkt mit der Telematikeinheit, wie z. B. dem Mikrofon 32 und der/den Taste(n) 34, verbunden sein, während andere indirekt unter Verwendung einer oder mehrerer Netzwerkverbindungen, wie einem Kommunikationsbus 44 oder einem Entertainmentbus 46, verbunden sind. Beispiele geeigneter Netzwerkverbindungen beinhalten ein Controller Area Network (CAN), einen medienorientierten Systemtransfer (MOST), ein lokales Kopplungsstrukturnetzwerk (LIN), ein lokales Netzwerk (LAN) und andere geeignete Verbindungen, wie z. B. Ethernet, oder andere, die u. a. den bekannten ISO-, SAE- und IEEE-Standards und -Spezifikationen entsprechen.
  • Die Telematikeinheit 30 selbst ist ein Fahrzeugsystemmodul (VSM) und kann eine OEM-installierte (eingebettete) oder eine Aftermarketvorrichtung sein, die in dem Fahrzeug installiert ist, die eine drahtlose Sprach- und/oder Datenkommunikation über das drahtlose Trägersystem 14 und über eine drahtlose Vernetzung ermöglicht. Dies ermöglicht, dass das Fahrzeug mit Call-Center 20, anderen telematikfähigen Fahrzeugen oder einer anderen Entität oder Vorrichtung kommunizieren kann. Die Telematikeinheit verwendet vorzugsweise Funkübertragungen, um einen Kommunikationskanal (einen Sprachkanal und/oder einen Datenkanal) mit dem Drahtlosträgersystem 14 herzustellen, sodass Sprach- und/oder Datenübertragungen über den Kanal gesendet und erhalten werden können. Durch Bereitstellen von sowohl Sprach- als auch Datenkommunikation ermöglicht die Telematikeinheit 30, dass das Fahrzeug eine Anzahl an unterschiedlichen Diensten anbieten kann, die diejenigen beinhalten, die mit Navigation, Fernsprechen, Nothilfe, Diagnose, Infotainment usw., verbunden sind. Daten können entweder über eine Datenverbindung, wie Paketdatenübertragung über einen Datenkanal oder über einen Sprachkanal, unter Verwendung von auf dem Fachgebiet bekannten Techniken gesendet werden. Für kombinierte Dienste, die sowohl Sprachkommunikation (z. B. mit einem Live-Berater oder einer Sprachdialogeinheit im Call-Center 20) als auch Datenkommunikation (z. B. für die Bereitstellung von GPS-Ortsdaten oder Fahrzeugdiagnosedaten im Call-Center 20) einschließen, kann das System einen einzelnen Anruf über einen Sprachkanal verwenden und nach Bedarf zwischen Sprach- und Datenübertragung über den Sprachkanal umschalten, und dies kann unter Verwendung von Techniken erfolgen, die dem Fachmann bekannt sind.
  • Gemäß einer Ausführungsform verwendet die Telematikeinheit 30 Mobilfunkkommunikation gemäß entweder den GSM- oder CDMA-Standards und beinhaltet daher einen Mobilfunkstandardchipsatz 50 für die Sprachkommunikation, wie Freisprechen, ein drahtloses Modem für die Datenübertragung, eine elektronische Verarbeitungsvorrichtung 52, eine oder mehrere Digitalspeichervorrichtungen 54 und eine Dual-Antenne 56. Es versteht sich, dass das Modem entweder durch Software implementiert sein kann, die in der Telematikeinheit gespeichert und durch den Prozessor 52 ausgeführt wird, oder es kann eine separate Hardwarekomponente sein, die sich innerhalb oder außerhalb der Telematikeinheit 30 befinden kann. Das Modem kann mithilfe einer beliebigen Anzahl unterschiedlicher Standards oder Protokolle, wie z. B. EVDO, CDMA, GPRS und EDGE, betrieben werden. Die drahtlose Vernetzung zwischen dem Fahrzeug und den anderen vernetzten Vorrichtungen kann auch unter Verwendung der Telematikeinheit 30 erfolgen. Für diesen Zweck kann die Telematikeinheit 30 konfiguriert sein, gemäß einem oder mehreren Protokollen drahtlos zu kommunizieren, wie beispielsweise einem der IEEE 802.11-Protokolle, WiMAX oder Bluetooth. Wenn die Telematikeinheit für paketvermittelte Datenkommunikation, wie TCP/IP, verwendet wird, kann sie mit einer statischen IP-Adresse dazu konfiguriert oder eingerichtet sein, automatisch eine zugewiesene IP-Adresse von einer anderen Vorrichtung am Netzwerk, wie einem Router oder einem Netzwerkadressenserver, zu erhalten.
  • Der Prozessor 52 kann jede Geräteart sein, die fähig ist elektronische Befehle zu verarbeiten, einschließlich Mikroprozessoren, Mikrocontrollern, Hostprozessoren, Steuerungen, Fahrzeugkommunikationsprozessoren und anwendungsspezifische integrierte Schaltungen (ASICs). Er kann ein speziell dafür vorgesehener Prozessor sein, der nur für die Telematikeinheit 30 verwendet wird, oder er kann mit anderen Fahrzeugsystemen geteilt werden. Der Prozessor 52 führt verschiedene Arten von digital gespeicherten Befehlen aus, wie Software oder Firmwareprogramme, die im Speicher 54 gespeichert sind, welche der Telematikeinheit ermöglichen, eine große Vielfalt von Diensten bereitzustellen.
  • Die Telematikeinheit 30 kann verwendet werden, um eine vielfältige Palette von Fahrzeugdiensten bereitzustellen, die drahtlose Kommunikation zu und/oder vom Fahrzeug beinhalten. Derartige Dienste beinhalten: Wegbeschreibungen und andere navigationsbezogene Dienste, die in Verbindung mit dem GPS-basierten Fahrzeugnavigationsmodul 40 bereitgestellt sind; Benachrichtigung über die Airbagauslösung und andere mit Notruf oder Pannendienst verbundene Dienste, die in Verbindung mit einem oder mehreren Crashsensor-Schnittstellenmodulen, wie einem Fahrzeugbeherrschbarkeitsmodul (nicht gezeigt), bereitgestellt sind; Diagnosemeldungen unter Verwendung von einem oder mehreren Diagnosemodulen; und mit Infotainment verbundene Dienste, wobei Musik, Internetseiten, Filme, Fernsehprogramme, Videospiele und/oder andere Informationen durch ein Infotainmentmodul (nicht gezeigt) heruntergeladen und für die gegenwärtige oder spätere Wiedergabe gespeichert werden. Die vorstehend aufgelisteten Dienste sind keineswegs eine vollständige Liste aller Fähigkeiten der Telematikeinheit 30, sondern sie sind einfach eine Aufzählung von einigen der Dienste, welche die Telematikeinheit anbieten kann. Des Weiteren versteht es sich, dass mindestens einige der vorstehend genannten Module in der Form von Softwarebefehlen implementiert sein könnten, die innerhalb oder außerhalb der Telematikeinheit 30 gespeichert sind, sie könnten Hardwarekomponenten sein, die sich innerhalb oder außerhalb der Telematikeinheit 30 befinden, oder sie könnten integriert sein und/oder miteinander oder mit anderen Systemen geteilt zu sein, die sich im Fahrzeug befinden, um nur einige Möglichkeiten zu nennen. Für den Fall, dass die Module als VSM 42 implementiert sind, die sich außerhalb der Telematikeinheit 30 befinden, könnten sie den Fahrzeugbus 44 verwenden, um Daten und Befehle mit der Telematikeinheit auszutauschen.
  • Das GPS-Modul 40 empfängt Funksignale von einer Konstellation 60 von GPS-Satelliten. Von diesen Signalen kann das Modul 40 die Fahrzeugposition ermitteln, die verwendet wird, um Navigation und andere mit der Position verbundene Dienste an den Fahrzeugführer bereitzustellen. Navigationsinformationen können auf der Anzeige 38 (oder einer anderen Anzeige innerhalb des Fahrzeugs) dargestellt oder in verbaler Form präsentiert werden, wie es beispielsweise bei der Wegbeschreibungsnavigation der Fall ist. Die Navigationsdienste können unter Verwendung von einem zugehörigen Fahrzeugnavigationsmodul (das Teil des GPS-Moduls 40 sein kann) bereitgestellt werden, oder einige oder alle Navigationsdienste können über die Telematikeinheit 30 erfolgen, wobei die Positionsinformationen zum Zweck des Ausstattens des Fahrzeugs mit Navigationskarten, Kartenanmerkungen (Sehenswürdigkeiten, Restaurants usw.), Routenberechnungen und dergleichen zu einem entfernten Standort gesendet werden. Die Positionsinformationen können an das Call-Center 20 oder ein anderes Remotecomputersystem, wie Computer 18, für andere Zwecke, wie Flottenmanagement, bereitgestellt werden. Außerdem können neue oder aktualisierte Kartendaten zum GPS-Modul 40 vom Call-Center 20 über die Telematikeinheit 30 heruntergeladen werden.
  • Abgesehen vom Audiosystem 36 und dem GPS-Modul 40 kann das Fahrzeug 12 andere Fahrzeugsystemmodule (VSM) 42 in der Form von elektronischen Hardwarekomponenten beinhalten, die sich im Fahrzeug befinden und typischerweise eine Eingabe von einem oder mehreren Sensoren erhalten und die erfassten Eingaben verwenden, um Diagnose, Überwachung, Steuerung, Berichterstattung und/oder andere Funktionen auszuführen. Jedes der VSMs 42 ist vorzugsweise durch den Kommunikationsbus 44 mit den anderen VSM sowie der Telematikeinheit 30 verbunden und kann darauf programmiert sein, Fahrzeugsystem- und Subsystemdiagnosetests auszuführen. So kann beispielsweise ein VSM 42 ein Motorsteuergerät (ECM) sein, das verschiedene Aspekte des Motorbetriebs, wie z. B. Kraftstoffzündung und Zündzeitpunkt, steuert, ein weiteres VSM 42 kann ein Antriebsstrangsteuermodul sein, das den Betrieb von einer oder mehreren Komponenten des Fahrzeugantriebsstrangs reguliert, und ein weiteres VSM 42 kann ein Chassis-Steuermodul sein, das verschiedene im Fahrzeug befindliche elektrische Komponente, wie beispielsweise die Zentralverriegelung des Fahrzeugs und die Scheinwerfer, verwaltet. Gemäß einer Ausführungsform ist das Motorsteuergerät mit integrierten Diagnose (OBD)-Funktionen ausgestattet, die unzählige Echtzeitdaten, wie z. B. die von verschiedenen Sensoren, einschließlich Fahrzeugemissionssensoren, erhaltenen Daten bereitstellen und eine standardisierte Reihe von Diagnosefehlercodes (DTCs) liefern, die einem Techniker ermöglichen, Fehlfunktionen innerhalb des Fahrzeugs schnell zu identifizieren und zu beheben. Fachleute auf dem Fachgebiet werden erkennen, dass es sich bei den vorgenannten VSMs nur um Beispiele von einigen der Module handelt, die im Fahrzeug 12 verwendet werden können, zahlreiche andere Module jedoch ebenfalls möglich sind.
  • Die Fahrzeugelektronik 28 beinhaltet auch eine Anzahl an Fahrzeugbenutzeroberflächen, die Fahrzeuginsassen mit einem Mittel zum Bereitstellen und/oder das Erhalten von Informationen ausstattet, einschließlich Mikrofon 32, Taste(n) 34, Audiosystem 36, und optischer Anzeige 38. Wie hierin verwendet, beinhaltet der Begriff „Fahrzeugbenutzeroberfläche“ weitgehend jede geeignete Form von elektronischer Vorrichtung, die sowohl die im Fahrzeug befindlichen Hardware- als auch Softwarekomponenten beinhaltet und einem Fahrzeugbenutzer ermöglicht, mit einer oder durch eine Komponente des Fahrzeugs zu kommunizieren. Das Mikrofon 32 stellt eine Audioeingabe an die Telematikeinheit bereit, um dem Fahrer oder anderen Insassen zu ermöglichen, Sprachsteuerungen bereitzustellen und Freisprechen über das Drahtlosträgersystem 14 auszuführen. Für diesen Zweck kann es mit einer integrierten automatischen Sprachverarbeitungseinheit verbunden sein, welche die unter Fachleuten auf dem Gebiet bekannte Mensch-Maschinen-Schnittstellen (HMI)-Technologie verwendet. Die Taste(n) 34 ermöglichen eine manuelle Benutzereingabe in die Telematikeinheit 30, um drahtlose Telefonanrufe zu initiieren und andere Daten, Antworten oder eine Steuereingabe bereitzustellen. Separate Tasten können zum Initiieren von Notrufen gegenüber regulären Dienstunterstützungsanrufen beim Call-Center 20 verwendet werden. Das Audiosystem 36 stellt eine Audioausgabe an einen Fahrzeuginsassen bereit und kann ein zugehöriges selbstständiges System oder Teil des primären Fahrzeugaudiosystems sein. Gemäß der bestimmten Ausführungsform, die hierin gezeigt ist, ist das Audiosystem 36 operativ sowohl mit dem Fahrzeugbus 44 als auch mit dem Entertainmentbus 46 gekoppelt und kann AM-, FM- und Satellitenradio, CD-, DVD- und andere Multimediafunktionalität bereitstellen. Diese Funktionalität kann in Verbindung mit dem vorstehend beschriebenen Infotainmentmodul oder davon unabhängig bereitgestellt werden. Die optische Anzeige 38 ist vorzugsweise eine Grafikanzeige, wie z. B. ein Touchscreen am Armaturenbrett oder eine Warnanzeige, die von der Frontscheibe reflektiert wird, und verwendet werden kann, um eine Vielzahl von Eingabe- und Ausgabefunktionen bereitzustellen. Verschiedene andere Fahrzeugbenutzeroberflächen können ebenfalls verwendet werden, denn die Schnittstellen von 1 dienen lediglich als Beispiel für eine bestimmte Implementierung.
  • Das Drahtlosträgersystem 14 ist vorzugsweise ein Smartphonesystem, das eine Vielzahl von Mobilfunkmasten 70 (nur einer gezeigt), eine oder mehrere mobile Vermittlungszentrale Einrichtung (MSC) 72 sowie irgendwelche anderen Netzwerkkomponenten beinhaltet, die erforderlich sind, um das Drahtlosträgersystem 14 mit dem Festnetz 16 zu verbinden. Jeder Mobilfunkturm 70 beinhaltet Sende- und Empfangsantennen und eine Basisstation, wobei die Basisstationen von unterschiedlichen Mobilfunktürmen mit der MSC 72 entweder direkt oder über zwischengeschaltete Geräte, wie z. B. eine Basisstationssteuereinheit, verbunden sind. Das Mobilfunksystem 14 kann jede geeignete Kommunikationstechnik implementieren, einschließlich beispielsweise analoge Technologien, wie AMPS, oder die neueren Digitaltechnologien, wie CDMA (z. B. CDMA2000) oder GSM/GPRS. Der Fachmann wird erkennen, dass verschiedene Zellenturm-/Basisstation/MSC-Anordnungen möglich sind und mit dem drahtlosen System 14 verwendet werden könnten. Zum Beispiel könnten sich Basisstation und Zellentürme an derselben Stelle oder entfernt voneinander befinden, jede Basisstation könnte für einen einzelnen Zellenturm zuständig sein oder eine einzelne Basisstation könnte verschiedene Zellentürme bedienen und verschiedene Basisstationen könnten mit einer einzigen MSC gekoppelt werden, um nur einige der möglichen Anordnungen zu nennen.
  • Abgesehen vom Verwenden des Drahtlosträgersystems 14 kann ein unterschiedliches Drahtlosträgersystem in der Form von Satellitenkommunikation verwendet werden, um unidirektionale oder bidirektionale Kommunikation mit dem Fahrzeug bereitzustellen. Dies kann unter Verwendung von einem oder mehreren Fernmeldesatelliten 62 und einer aufwärtsgerichteten Sendestation 64 erfolgen. Bei der unidirektionalen Kommunikation kann es sich beispielsweise um Satellitenradiodienste handeln, worin programmierte Inhaltsdaten (Nachrichten, Musik usw.) von der Sendestation 64 erhalten werden, für das Hochladen gepackt und anschließend zum Satelliten 62 gesendet werden, der die Programmierung an die Teilnehmer sendet. Bidirektionale Kommunikation kann beispielsweise Satellitentelefoniedienste unter Verwendung der Satelliten 62 sein, um Telefonkommunikationen zwischen dem Fahrzeug 12 und der Station 64 weiterzugeben. Bei Verwendung kann dieses Satellitenfernsprechen entweder zusätzlich zum oder anstatt des Drahtlosträgersystems 14 verwendet werden.
  • Eine mobile Vorrichtung 57 eines Fahrzeuginsassen kann mit dem Fahrzeug 12 interagieren, beispielsweise über die Telematikeinheit 30 oder mit dem Drahtlosträgersystem 14. Die mobile Vorrichtung 57 kann Computerverarbeitungsfähigkeit, einen Sender-Empfänger, der über ein Protokoll mit kurzer Reichweite kommunizieren kann und eine visuelle Anzeige einer mobilen Vorrichtung beinhalten. Das Mobilgerät 57 beinhaltet auch einen oder mehrere Mikroprozessoren, die Maschinencode ausführen, um eine logische Ausgabe zu generieren. Beispiele des Mobilgeräts 57 beinhalten das iPhone, hergestellt von Apple, und das Galaxy, das von Samsung hergestellt wird, sowie andere. Obwohl das Mobilgerät 57 die Fähigkeit zum Kommunizieren über drahtlose Verbindungen unter Verwendung des Drahtlosträgersystems 14 besitzt, ist dies nicht immer der Fall. Beispielsweise stellt Apple Vorrichtungen her, wie die verschiedenen Modelle des iPad und iPod Touch, die Verarbeitungsvermögen, das Display 59 und die Möglichkeit zu Kurzbereichs-Drahtloskommunikationsverbindungen beinhalten. Jedoch haben die iPod Touch™ und einige iPads™ keine Mobilfunk-Kommunikationsfähigkeiten. Dennoch können diese und ähnliche Vorrichtungen für die Zwecke der Texterzeugung, die über die hierin beschriebenen Systeme und Verfahren analysiert werden sollen, verwendet oder als eine Art von drahtloser Vorrichtung, wie beispielsweise die mobile Vorrichtung 57, angesehen werden.
  • Das Festnetz 16 kann ein konventionelles landgebundenes Telekommunikationsnetzwerk sein, das mit einem oder mehreren Festnetztelefonen verbunden ist und das Drahtlosträgersystem 14 mit dem Call-Center 20 verbindet. So kann beispielsweise das Festnetz 16 ein Fernsprechnetz (PSTN) wie jenes sein, das verwendet wird, um festverdrahtetes Fernsprechen, paketvermittelte Datenkommunikationen und die Internetinfrastruktur bereitzustellen. Ein oder mehrere Segmente des Festnetzes 16 könnten durch Verwenden eines normalen drahtgebundenen Netzwerks, eines Lichtleiter- oder eines anderen optischen Netzwerks, eines Kabelnetzes, von Stromleitungen, anderen drahtlosen Netzwerken, wie drahtlose lokale Netzwerke (WLANs) oder Netzwerke, die drahtlosen Breitbandzugang (BWA) bereitstellen oder jeder Kombination davon, implementiert sein. Des Weiteren muss das Call-Center 20 nicht über das Festnetz 16 verbunden sein, sondern könnte Funktelefonieausrüstung beinhalten, sodass direkt mit einem drahtlosen Netzwerk, wie dem Drahtlosträgersystem 14, kommuniziert werden kann.
  • Der Computer 18 kann einer von einer Anzahl an Computern sein, die über ein privates oder öffentliches Netzwerk, wie das Internet, zugänglich sind. Jeder dieser Computer 18 kann für einen oder mehrere Zwecke, wie einen Webserver verwendet werden, der vom Fahrzeug über die Telematikeinheit 30 und das Drahtlosträgersystem 14 zugänglich ist. Andere derartige zugängliche Computer 18 können beispielsweise sein: ein Kundendienstzentrumcomputer, wo Diagnoseinformationen und andere Fahrzeugdaten vom Fahrzeug über die Telematikeinheit 30 hochgeladen werden können; ein Clientcomputer, der vom Fahrzeugbesitzer oder einem anderen Teilnehmer für solche Zwecke, wie das Zugreifen auf oder das Erhalten von Fahrzeugdaten oder zum Einstellen oder Konfigurieren von Teilnehmerpräferenzen oder Steuern von Fahrzeugfunktionen, verwendet wird; oder ein Drittparteispeicherort, zu dem oder von dem Fahrzeugdaten oder andere Informationen entweder durch Kommunizieren mit dem Fahrzeug 12 oder dem Call-Center 20 oder beiden bereitgestellt werden. Ein Computer 18 kann auch für das Bereitstellen von Internetkonnektivität, wie DNS-Dienste oder als ein Netzwerkadressenserver, verwendet werden, der DHCP oder ein anderes geeignetes Protokoll verwendet, um dem Fahrzeug 12 eine IP-Adresse zuzuweisen.
  • Das Servicezentrum 19 ist ein Ort, an dem Fahrzeughalter das Fahrzeug 12 zur routinemäßigen Wartung oder Behebung von Fahrzeugstörungen anliefern. Dort kann das Fahrzeug-Servicepersonal das Fahrzeug beobachten und mit verschiedenen Werkzeugen analysieren, beispielsweise mit computergestützten Scantools, die im Fahrzeug 12 gespeicherte Diagnose-Fehlercodes (DTCs) auslesen. Im Rahmen der Wartung des Fahrzeugs 12 oder der Analyse von Fahrzeugstörungen können Fahrzeugtechniker die Analyse in einem Servicebericht festhalten, der die beobachteten oder gemeldeten Symptome, die betroffenen Teile und die von den Fahrzeugtechnikern durchgeführten Handlungen beinhalten kann. Die Serviceaufzeichnungen für Fahrzeuge, die von der Servicezentrale 19 gewartet werden, können in der Zentrale 19 gespeichert oder über das Drahtlosträgersystem 14 und/oder das Festnetz 16 an eine zentrale Einrichtung, wie beispielsweise das Call-Center 20, übermittelt werden. Das Servicezentrum 19 kann auch Aufzeichnungen über Gewährleistungsansprüche speichern oder übermitteln.
  • Das Call-Center 20 ist konzipiert, die Fahrzeugelektronik 28 mit einer Anzahl an unterschiedlichen System-Back-End-Funktionen bereitzustellen, und beinhaltet nach dem hierin gezeigten Ausführungsbeispiel im Allgemeinen einen oder mehrere Switches 80, Server 82, Datenbanken 84, Live-Berater 86 sowie ein automatisiertes Sprachausgabesystem (VRS) 88, die alle auf dem Fachgebiet bekannt sind. Diese verschiedenen Komponenten des Call-Centers sind vorzugsweise miteinander über ein verdrahtetes oder drahtloses lokales Netzwerk 90 gekoppelt. Der Switch 80, der ein Nebenstellenanlagen (PBX)-Switch sein kann, leitet eingehende Signale weiter, sodass Sprachübertragungen gewöhnlich entweder zum Live-Berater 86 über das reguläre Telefon oder automatisiert zum Sprachdialogsystem 88 unter Verwendung von VoIP gesendet werden. Das Live-Berater-Telefon kann auch VoIP verwenden, wie durch die gestrichelte Linie in 1 angezeigt. VoIP und andere Datenkommunikation durch den Switch 80 werden über ein Modem (nicht gezeigt) implementiert, das zwischen dem Switch 80 und Netzwerk 90 verbunden ist. Datenübertragungen werden über das Modem an den Server 82 und/oder die Datenbank 84 weitergegeben. Datenübertragungen können zudem durch drahtlose Systeme, wie z. B. 802.11x, GPRS und dergleichen, erfolgen. Obwohl die veranschaulichte Ausführungsform beschrieben wurde, als ob sie in Verbindung mit einem bemannten Call-Center 20 verwendet werden würde, das den Live-Berater 86 einsetzt, ist es offensichtlich, dass das Call-Center stattdessen VRS 88 als einen automatisierten Berater verwenden kann, oder eine Kombination von VRS 88 und dem Live-Berater 86 verwendet werden kann.
  • Der Server 82 kann ein Software-Framework zur Aufnahme eines n-Gramm-Aufbauwerkzeugs 92 und eines Filterwerkzeugs 94 beinhalten. Während diese Werkzeuge in 1 schematisch getrennt dargestellt sind, ist es möglich, dass ein Software-Framework oder eine Plattform sowohl einen n-Gramm-Aufbau als auch eine Filterung durchführt und dementsprechend das n-Gramm-Aufbauwerkzeug 92 und das Filterwerkzeug 94 über dieselbe Plattform ausgeführt werden. Ebenso ist es möglich, das n-gram-Aufbauwerkzeug 92 und das Filterwerkzeug 94 über separate Server oder Verarbeitungsvorrichtungen auszuführen, auch wenn diese vom Call-Center 20 entfernt sind. Es ist beispielsweise möglich, dass das n-gram-Aufbauwerkzeug 92 oder das Filterwerkzeug 94 Cloud- oder Webbasierte Systeme sind oder in einem anderen bedienbaren Format implementiert sind.
  • Die Datenbank 84 kann eine Fahrzeuginformationsdatenbank sein, die fahrzeugbezogene Textinformationen zur Verwendung mit den vorliegenden Systemen und Verfahren speichert. Die Datenbank 84 kann Kontoinformationen, wie Teilnehmerauthentisierungsinformationen, Fahrzeugbezeichner, Profilaufzeichnungen, Verhaltensmuster und andere entsprechende Fahrzeuginformationen, speichern. Wie beim Server 82 ist es auch hier möglich, die Datenbank 84 in anderen bedienbaren Modi zu implementieren, wie beispielsweise in einem Cloud- oder Web-basierten System, das nicht direkt mit dem Call-Center 20 verbunden ist. Darüber hinaus ist es den hierin aufgeführten Verfahren und Systemen möglich, Text aus einer Reihe von diskreten Datenbanken zu extrahieren. In einer Ausführungsform ist die Fahrzeuginformationsdatenbank eine beliebige Speicherimplementierung oder -quelle, die fahrzeugbezogene Informationen beinhaltet.
  • Der Server 82 und seine Datenbank 84 können in bekannter Weise unter Verwendung eines elektronischen Prozessors mit einem nicht-flüchtigen, computerlesbaren Speicher implementiert werden, der Programmcode speichert, der beim Ausführen durch den Prozessor die hierin beschriebenen Verfahren ausführt, und mit demselben Speicher oder einem separaten, nicht-flüchtigen, computerlesbaren Speicher, der als Datenbank 84 zum Speichern der in den hierin beschriebenen Verfahren verwendeten Daten, wie beispielsweise der Dienstaufzeichnungen (zu analysierender Text), der Liste der Wortlaute, der Keimliste und der n-Gramm-Phrasen, die alle im Folgenden näher beschrieben werden, verwendet wird. Der Server 82 kann somit als ein spezieller Textanalysator konfiguriert werden, der das Aufbauwerkzeug 92 und das Filterwerkzeug 94 beinhaltet, die beide mit dem Prozessor implementiert werden können, der unter der Steuerung des Programmcodes arbeitet, um ein System bereitzustellen, das einige oder alle der nachstehend beschriebenen Schritte der Verfahren 200, 300 und 400 ausführt.
  • Nun zu 2: Es ist eine exemplarische Implementierung eines Verfahrens 200 zur Extraktion einer relevanten Phrase aus dem Text dargestellt. Das Verfahren 200 kann verwendet werden, um relevante Phrasen, beispielsweise diejenigen, die sich auf bestimmte Teile, Symptome und Handlungen im Zusammenhang mit Fahrzeugen beziehen, effizienter zu extrahieren. Weiterhin kann das Verfahren automatisch und effektiv Phrasen aus unstrukturiertem Text extrahieren und die Anzahl der irrelevanten oder unbrauchbaren Phrasen reduzieren. Die Effizienzsteigerung kann mit einer Reduzierung des zeit- und speicherintensiven Rechenaufwands bei der Textanalyse einhergehen. Darüber hinaus kann das Verfahren angepasst werden, um mehrsprachige Anwendungsfähigkeiten zu ermöglichen. Die Verwendung von spezifischen Keimen in der Textanalyse kann eine gezieltere Analyse ermöglichen, indem der benötigte Suchraum reduziert wird. Das Hinzufügen einer filterbasierten Kritikalitätsbewertung kann die Textanalyse weiter verbessern.
  • Das Verfahren 200 beinhaltet eine Trainingsphase 202 und eine Testphase 204. Die Trainingsphase 202 kann je nach gewünschter Implementierung nur einmal durchgeführt werden. Das Verfahren 200 kann ganz oder teilweise über das Kommunikationssystem 10 von 1 durchgeführt werden; beispielsweise durch verschiedene Schritte über das Call-Center 20. Alternativ kann das Verfahren 200 auch mit jedem anderen bedienbaren System implementiert werden. Die zur Durchführung der Trainingsphase 202 und der Testphase 204 fähige Rechnerhardware konnte an einer Vielzahl von gemeinsamen oder diskreten Standorten eingesetzt werden.
  • Die Trainingsphase 202 beginnt mit einer ausgewählten Liste von Wortlauten 206. Gemäß einer Ausführungsform ist der Wortlaut eine wortgetreue Fahrzeuginformation, die, wie zuvor beschrieben, jeden fahrzeugbezogenen Text beinhalten kann, der Gegenstand der Analyse sein könnte. Die ausgewählte Liste des Wortlauts 206 wird in Schritt 208 der Trainingsphase 202 tokenisiert. Die Tokenisierung kann auf beliebige Weise mit einem oder mehreren Algorithmen durchgeführt werden. In einer Ausführungsform erfolgt die Tokenisierung durch Trennung des Wortlauts, basierend auf der Platzierung von Zwischenräumen, wobei die Tokenisierung auf einer beliebigen Zeichenfolge durchgeführt werden kann.
  • Schritt 210 der Trainingsphase 202 beinhaltet den Aufbau von n-Gramm-Phrasen in einem Standardprozess. Die n-Gramme können Bi-Gramme, Tri-Gramme oder mehr sein.
  • 3 veranschaulicht schematisch einen standardmäßigen n-Gramm-Aufbauprozess 300 mit einem tokenisierten Wortlaut 302-314, wobei jeder Block ein Token oder einen Begriff, Bi-Gramm 316-322 und Tri-Gramm 324-330 darstellt. Es sollte jedoch verstanden werden, dass mehr n-Gramme aufgebaut werden können, und dass der tokenisierte Wortlaut viel mehr Begriffe aufweisen kann. Der standardmäßige n-Gramm-Aufbauprozess kann, abhängig von der Anzahl der Begriffe oder Token, sehr zeit- und speicherintensiv sein.
  • Schritt 212 der Trainingsphase 202 beinhaltet Teile der Sprache (POS), die jeden der n-Gramm-Phrasen kennzeichnen. POS-Tags können in einigen Beispielen dabei helfen, zwischen relevanten und irrelevanten Phrasen zu unterscheiden. Um ein Beispiel zu nennen, kann ein Substantiv-Verb-Bi-Gramm als relevanter angesehen werden als ein Verb-Verb-Verb-Tri-Gramm. Bestimmte relevante POS-Tag-Sequenzen können zusammen mit bestimmten irrelevanten POS-Tag-Sequenzen in einer Datenbank gespeichert werden, und die mit einem POS-Tag versehenen n-Gramm-Phrasen können mit den gespeicherten Sequenzen verglichen werden. Eine verkürzte Beispielliste von relevanten und irrelevanten POS-Tag-Sequenzen finden Sie nachstehend in Tabelle 1. Verschiedene und zahlreichere Beispiele für relevante und irrelevante POS-Tag-Sequenzen sind den Fachkundigen ersichtlich. Werden mehrsprachige Wortlaute analysiert, müssen unter Umständen Anpassungen am POS-Tagger vorgenommen werden, um anderen gängigen sprachlichen Phraseologien Rechnung zu tragen. Tabelle 1
    Relevante POS-Tag-Sequenz Irrelevante POS-Tag-Sequenz
    Bestimmungswort, Substantiv, Präposition, Substantiv Substantiv, Konjunktion, Bestimmungswort
    Substantiv, Substantiv, Substantiv Substantiv, Adjektiv
    Substantiv, Präposition, Substantiv Substantiv, Substantiv, Substantiv
    Adjektiv, Substantiv Verb, Verb, Verb
    ••• •••
  • Schritt 214 der Trainingsphase 202 beinhaltet die manuelle Identifizierung relevanter Phrasen. Abhängig von den zu analysierenden Fahrzeuginformationen oder dem zu analysierenden Text variieren die relevanten Phrasen. Wenn beispielsweise Garantieanspruchsinformationen für Probleme mit einem Infotainment-Modul analysiert werden, können relevante Phrasen „Unplugged Radio“, „Hook-up-Problem“ und „keine Codes im System“ sein, während irrelevante Phrasen „gescanntes Radio“, „Radio-Display für beliebige“ und „gescannte Probleme“ beinhalten können.
  • Schritt 216 der Trainingsphase 202 schließt das getrennte Sammeln der relevanten und irrelevanten POS-Tag-Sequenzen ein. Daraus ergibt sich eine relevante und irrelevante Sammlung von POS-Tags und Trainingsbegriffen 218, die in der Testphase 204 verwendet werden kann, wie im Folgenden näher beschrieben wird. Diese Sammlung 218 kann in einer beliebigen Datenbank oder einem beliebigen Speicherort gespeichert werden.
  • Während der Testphase 204, in welcher der größte Teil des Textes verarbeitet werden kann, werden in Schritt 220 wortgetreue Fahrzeuginformationen aus der Fahrzeuginformationsdatenbank 84 gesammelt. In einem Beispiel beinhaltet die Fahrzeuginformationsdatenbank 84 Fahrzeuginformationen, die sich auf die Garantieleistung nach Region, Geschäftsbereich, Einheit, Montagewerk, Programm und/oder Ingenieurteam beziehen. Weitere Wortarten sind selbstverständlich möglich.
  • Schritt 222 der Testphase 204 beinhaltet die Tokenisierung des Wortlauts, die auf beliebige Weise mit einem oder mehreren Algorithmen durchgeführt werden kann. In einer Ausführungsform ist der Wortlaut zu Begriffen zusammengefasst. Wie bei Schritt 210 der Trainingsphase 202 erfolgt die Tokenisierung durch das Trennen des Wortlauts, basierend auf der Platzierung der Zwischenräume, wobei die Tokenisierung auf einer beliebigen Zeichenfolge durchgeführt werden kann.
  • Schritt 224 der Testphase 204 beinhaltet das Identifizieren eines Keims im tokenisierten Wortlaut. Dieser Schritt kann unter Verwendung einer Keimliste 226 durchgeführt werden. In einer Ausführungsform ist jeder Keim ein wichtiger Begriff oder Schlüsselwort, obwohl andere Keimformen durchaus möglich sind, wie beispielsweise eine Liste von Zeichen, um nur ein Beispiel zu nennen. Die Keime in dieser Ausführungsform können aus einer fahrzeugbezogenen Komponente oder einer fahrzeugbezogenen Funktionalität, wie beispielsweise einem Symptom, einer Handlung oder einem Teil, bestehen. In einer bestimmten Ausführungsform ist die Keimliste spezifisch für die zu analysierenden Fahrzeuginformationen, d. h. die Keimliste ist auf ein bestimmtes Fahrzeugsystem ausgerichtet. So könnte beispielsweise eine Keimliste des Bordnetzsteuergeräts existieren, die Keime wie Dimmen (Symptom), Kurbeln (Aktion) und Lampe (Teil) beinhaltet. In einem weiteren Beispiel könnte eine Keimliste für den Antriebsstrang existieren, die Keime wie Ziehen (Symptom), Anziehen (Aktion) und Kupplung (Teil) beinhaltet. Es könnte eine motorbezogene Keimliste existieren, die Keime wie Klopfen (Symptom), Ersetzen (Aktion), Einstecken (Teil) beinhaltet. Weitere Keime und exemplarische Keime sind selbstverständlich möglich.
  • Nachdem ein Keim in Schritt 224 identifiziert wurde, werden in Schritt 228 n-Gramm-Phrasen gebildet, die den Seed als Anfang, Ende oder Mitte der n-Gramm-Phrase verwenden. In einer Ausführungsform kann dieser Schritt mit dem n-Gramm-Aufbauwerkzeug 92 durchgeführt werden. Die n-Gramme können je nach gewünschter Implementierung Bi-Gramme, Tri-Gramme, 4-Gramme, 5-Gramme usw. sein. Gemäß einer Ausführungsform, die insbesondere in 4 veranschaulicht wird, werden in Schritt 228 sowohl Bi-Gramme als auch Tri-Gramme aufgebaut. In 4 bezeichnen die Kennziffern 402, 410 und 414 die Seed-Begriffe, während die Kennziffern 404, 406 und 408 die Nicht-Seed-Begriffe bezeichnen. Gemäß Schritt 224 werden die Bi-Gramme 416 und 418 mit dem Seed 402 als Anfang des Bi-Gramms 416 und dem Seed 410 als Ende des Bi-Gramms 418 aufgebaut. Das Bi-Gramm 420 wird mit dem Seed 414 als Ende aufgebaut. Die Tri-Gramme 422 und 424 werden mit dem Seed 402 als Anfang des Tri-Gramms 422 und dem Seed 410 als Ende des Tri-Gramms 424 aufgebaut. Es ist auch möglich, einen Seed als Mitte des Tri-Gramms oder eines anderen n-Gramms vorzusehen.
  • In einem konkreten Beispiel kann eine Fahrzeuginformation wortgetreu für einen Servicedatensatz eines Fahrzeug-Infotainmentsystems gelesen werden: „Radioanzeige INOP Navigation INOP. Radio aus- und wieder einstecken, um sicherzustellen, dass es sich nicht um ein Verbindungsproblem handelt, gescannte Funkanzeige nach beliebigen Codes und keine CODes im System. Versucht, die aktuellsten Updates auszuführen, aber nichts für U16-Radio.“ In diesem Beispiel können Keime Radio, Problem und Codes beinhalten. Die nachstehende Tabelle 2 beinhaltet einige (aber nicht alle) der n-Gramm-Phrasen, die gemäß Schritt 228 erstellt wurden. Tabelle 2
    N-Gramm Phrasen
    2-Gramm UNPLUGGED RADIO
    2-Gramm RADIO GESCANNT
    3-Gramm BIS ZUM PROBLEM GESCANNT
    3-Gramm HOOK-UP-PROBLEM
    4-Gramm FUNKANZEIGE FÜR ALLES
    4-Gramm KEINE CODES IM SYSTEM
    ••• •••
  • Der Aufbau der n-Gramm-Phrasen gemäß Schritt 228, in dem ein Keim als Anfang, Mitte oder Ende der n-Gramm-Phrase verwendet wird, kann zu einer Reduzierung der irrelevanten Phrasen um etwa 65 % führen, was zu einer effektiven Zeit-, Speicher- und Verarbeitungsverwaltung führt. In einem Beispiel, wenn man Bi-, Tri- und Vier-Gramm-Phrasen in 10.000 Wörtern mit einer durchschnittlichen Größe von 40 Wörtern betrachtet, ergibt die Standard n-Gramm-Aufbautechnik (3) über eine Million Phrasen, während es bei der n-Gramm-Aufbautechnik von Schritt 228 (4) nur etwa 0,36 Millionen Phrasen für ein ähnlich großes Wort mit etwa 4 Seed-Begriffen gibt. Dementsprechend kann diese gezielte Erweiterungstechnik den hohen Rechenaufwand in der Text- und Datenanalyse reduzieren. Darüber hinaus kann die Anpassung von Keimlisten 226, so dass sie bestimmten Trends oder Informationen von besonderem Interesse entsprechen, die Phrasenaufbautechnik in einigen Ausführungsformen weiter verbessern.
  • Die Testphase 204 des Verfahrens 200 filtert dann die Vielzahl der n-Gramm-Phrasen, um relevante Phrasen zu erhalten. Dies kann mit einem Filterwerkzeug 94 erfolgen, das sich in einer einzigen Plattform oder zwischen mehreren diskreten Computerplattformen befinden kann. In einer Ausführungsform beinhaltet die Filterstufe des Verfahrens drei Schritte oder die Berechnung von drei Faktoren, die dann gewichtet, kombiniert oder anderweitig verwendet werden, um die Kritikalität der Phrasen zu bewerten. Obwohl die Filterstufe des Verfahrens im Rahmen dieser Drei-Filter-Kritikalitätsbewertung beschrieben wird, sind andere Filterverfahren durchaus möglich.
  • Schritt 230 beinhaltet das Berechnen eines externen Relevanzfaktors für jede n-Gramm-Phrase aus der Vielzahl der in Schritt 228 erhaltenen n-Gramm-Phrasen. Der externe Relevanzfaktor berücksichtigt die Relevanz der Begriffe und die Reihenfolge in Bezug auf den externen Text. So können beispielsweise die n-Gramm-Phrasen mit einem ausgewählten Dokument, beispielsweise einer Bedienungsanleitung oder einem anderen technischen Dokument, verglichen werden, wenn eine Fahrzeuginformation wortgetreu analysiert wird. Im Allgemeinen gibt der externe Relevanzfaktor an, wie nahe die n-Gramm-Phrasen am ausgewählten Vergleichsdokument liegen. Wie bei der Keimliste kann sich das ausgewählte Vergleichsdokument auf ein bestimmtes Fahrzeugsystem oder dergleichen beziehen, und das ausgewählte Vergleichsdokument kann geändert oder bearbeitet werden, um eine gewünschte Genauigkeit zu erzielen.
  • In einer Ausführungsform kann der externe Relevanzfaktor die in der Testphase 202 erhaltenen relevanten und irrelevanten Trainingsbegriffe 218 als Vergleichsmaßstab verwenden. Um den externen Relevanzfaktor zu erhalten, kann eine externe Relevanzabstandsberechnung verwendet werden, deren Beispiel nachstehend als Gleichung 1 aufgeführt ist. A b s t a n d ( W S e q i ) = N G L ( W S e q i ) × f S L ( W S e q i ) ( 1 + f G L ( W S e q i ) ) × N S L ( W S e q i )
    Figure DE102018114598A1_0001
    wobei NGL die Gesamtanzahl der Phrasen gleicher Länge aus der Trainingsphase, NSL die Gesamtanzahl der Phrasen gleicher Länge aus der Testphase, fSL die Häufigkeit der Wortfolge aus der Testphase und fGL die Häufigkeit der Wortfolge aus der Trainingsphase ist. In Fortführung des vorangegangenen und in den Tabellen 1 und 2 dargestellten Infotainment-Beispiels können die folgenden externen Relevanzfaktoren berechnet werden, wobei ein niedrigerer externer Relevanzfaktor eine wahrscheinlich relevantere Phrase angibt, wie nachstehend in Tabelle 3 angegeben. Gemäß einer Ausführungsform wird ein externer Relevanzfaktor bevorzugt, der kleiner oder gleich 0,5 ist und typischerweise eher eine relevante Phrase angibt. Tabelle 3
    Phrasen Externer Abstandsfaktor
    UNPLUGGED RADIO 0,30
    HOOK-UP-PROBLEM 0,42
    KEINE CODES IM SYSTEM 0,21
    RADIO GESCANNT 0,65
    RADIOANZEIGE FÜR ALLES 0,78
    ••• •••
  • Wie in Bezug auf Tabelle 3 zu sehen ist, sind die Phrasen UNPLUGGED RADIO, HOOK-UP-Problem und KEINE CODES IM SYSTEM eher relevant, da der externe Relevanzfaktor für jede Phrase kleiner oder gleich bis 0,5 ist. Auch hier sind andere Möglichkeiten zum Berechnen des externen Relevanzfaktors und damit der Schwellenwert zum Bestimmen der Relevanz basierend auf dem berechneten externen Relevanzfaktor durchaus möglich.
  • Schritt 232 beinhaltet das Berechnen eines internen Relevanzfaktors für jede n-Gramm-Phrase aus der Vielzahl der in Schritt 228 erhaltenen n-Gramm-Phrasen. Der interne Relevanzfaktor analysiert die Relevanz der Begriffe und die Reihenfolge in Bezug auf den Korpustext bzw. in einer Ausführungsform in Bezug auf alle zu analysierenden Fahrzeuginformationen in der Datenbank 84. In einer Ausführungsform berücksichtigt der interne Relevanzfaktor den Begriff Frequenz - inverse Dokumentfrequenz (tf-idf), der erkennen kann, dass manchmal eine häufig vorkommende Phrase wie UNPLUGGED RADIO relevant sein kann, während eine Phrase wie JEDES VON, das noch häufiger vorkommt, nicht relevant sein kann. Der interne Relevanzfaktor kann gemäß den Gleichungen 2 und 3 berechnet werden: t f i d f ( W s e q , d , D ) = t f ( W s e q , d ) × i d f ( W s e q , D )
    Figure DE102018114598A1_0002
    i d f ( W s e q , D ) = l o g N | { d D : W s e q d } |
    Figure DE102018114598A1_0003
    wobei N die Gesamtanzahl der Dokumente im Korpus oder die Gesamtanzahl der in der Testphase 204 analysierten Dokumente ist, |{d ∈ D: Wseq ∈ d}| die Anzahl der Dokumente ist, in denen die Wortfolge (Wseq) erscheint, und tf(Wseq, d) die Anzahl der Male ist, in denen die Wortfolge (Wseq) im Dokument (d) erscheint.
  • In dieser besonderen Ausführungsform des Berechnens des internen Relevanzfaktors kann bei Verwendung der Gleichungen 2 und 3 ein interner Relevanzfaktor, der größer oder gleich 0,4 ist, eine relevante Phrase anzeigen. In Fortsetzung des vorstehenden Beispiels des Infotainmentsystems können in Schritt 232 die folgenden internen Relevanzfaktoren berechnet werden. Tabelle 4
    N-Gramm N-Gramm-Phrase Interner Relevanzfaktor
    2-Gramm UNPLUGGED RADIO 0,6
    3-Gramm HOOK-UP-PROBLEM 0,7
    3-Gramm BIS ZUM PROBLEM GESCANNT 0,3
    4-Gramm KEINE CODES IM SYSTEM 0,4
    ••• ••• •••
  • Dementsprechend können, basierend auf dem berechneten internen Relevanzfaktor, die Phrasen UNPLUGGED RADIO, HOOK-UP-PROBLEM und KEINE CODES IM SYSTEM relevant sein, während die Phrase UP PROBLEM GESCANNT möglicherweise nicht relevant ist. Wie beim externen Relevanzfaktor sind natürlich auch andere Möglichkeiten zum Berechnen des internen Relevanzfaktors möglich, sodass der Schwellenwert zum Bestimmen der Relevanz basierend auf dem berechneten internen Relevanzfaktor je nach gewünschter Implementierung variieren kann.
  • Schritt 234 beinhaltet das Berechnen eines Kontextmuster-Relevanzfaktors für jede n-Gramm-Phrase aus der Vielzahl der in Schritt 228 erhaltenen n-Gramm-Phrasen. Im Allgemeinen dient der Kontextmuster-Relevanzfaktor zur quantitativen Analyse der grammatikalischen Relevanz der Wortfolge in jeder n-Gramm-Phrase und kann die Phrase disambiguieren. In diesem Schritt können die entsprechenden Phrasen-POS-Tags und die irrelevanten Phrasen-POS-Tags 218 aus Schritt 216 der Trainingsphase 202 verwendet werden, deren Beispiele in Tabelle 1 aufgeführt sind. In diesem speziellen Beispiel zum Berechnen des Kontextmuster-Relevanzfaktors, da eine Entweder-Oder-Analyse durchgeführt wird, kann jeder n-Gramm-Phrase ein binärer Wert wie 1 oder 0 für den Kontextmuster-Relevanzfaktor gegeben werden, je nachdem, ob das POS-Tag relevant oder irrelevant ist. In Fortsetzung des Beispiels des Infotainmentsystems können die folgenden n-Gramm-Phrasen mit der folgenden POS-Tag-Sequenz (Tabelle 5) und dem folgenden Kontextmuster-Relevanzfaktor (Tabelle 6) gegeben werden. Tabelle 5
    N-Gramm N-Gramm-Phrase POS-Tag-Sequenz
    2-Gramm UNPLUGGED RADIO Adjektiv, Substantiv
    3-Gramm HOOK-UP-PROBLEM Substantiv, Präposition, Substantiv
    4-Gramm KEINE CODES IM SYSTEM Bestimmungswort, Substantiv, Präposition, Substantiv
    ••• ••• •••
    Tabelle 6
    N-Gramm N-Gramm-Phrase Kontextmuster-Relevanzfaktor
    (Re=0/1 | Ir=0/1)
    2-Gramm UNPLUGGED RADIO Re=1 | Ir=0
    3-Gramm HOOK-UP-PROBLEM Re=1 | Ir=0
    4-Gramm KEINE CODES IM SYSTEM Re=1 | Ir=0
    4-Gramm FUNKANZEIGE FÜR ALLES Re=0 | Ir= 1
    ••• ••• •••
  • In Anbetracht der POS-Tag-Sequenzen in Tabelle 5 zeigen beispielsweise die Kontextmuster-Relevanzfaktoren in Tabelle 6, dass die Phrasen UNPLUGGED RADIO, HOOK-UP-PROBLEM und KEINE CODES IM SYSTEM relevant sind, während die Phrase FUNKANZEIGE FÜR ALLE nicht relevant ist. Wie beim externen Relevanzfaktor und dem internen Relevanzfaktor sind natürlich auch andere Möglichkeiten zum Berechnen des Kontextmuster-Relevanzfaktors möglich, sodass der Schwellenwert oder Wert zum Bestimmen der Relevanz basierend auf dem berechneten Kontextmuster-Relevanzfaktor je nach gewünschter Implementierung variieren kann.
  • Schritt 236 des Verfahrens besteht darin, relevante Phrasen unter Verwendung eines Filterregelsatzes zu identifizieren, der den in Schritt 230 berechneten externen Relevanzfaktor, den in Schritt 232 berechneten internen Relevanzfaktor und/oder den in Schritt 236 berechneten Kontextmuster-Relevanzfaktor berücksichtigt. Der Filterregelsatz kann jedes betreibbare Verfahren zum Gewichten, Mitteln, Kombinieren usw. des externen Relevanzfaktors, des internen Relevanzfaktors und/oder des Kontextmuster-Relevanzfaktors beinhalten. Weiterhin kann der Filterregelsatz zwischen schwach (d. h. mehr Phrasen werden berücksichtigt) und stark (d. h. weniger Phrasen werden berücksichtigt) variieren. Bei der Betrachtung des externen Relevanzfaktors, des internen Relevanzfaktors und des Kontextmuster-Relevanzfaktors kann es beispielsweise erforderlich sein, dass eine Phrase nur dann ignoriert wird, wenn alle drei Faktoren anzeigen, dass die n-Gramm-Phrase irrelevant ist (d. h. konjunktiv), wohingegen ein starker Regelsatz das Ignorieren einer Phrase erfordern kann, wenn einer oder mehrere der drei Faktoren anzeigen, dass die n-Gramm-Phrase irrelevant ist (d. h. disjunktiv). Dementsprechend kann der Filterregelsatz basierend auf einem irrelevanten Schwellenwert für einen oder mehrere der Faktoren filtern. Wie im Infotainment-Beispiel ausgeführt, können n-Gramm-Phrasen ignoriert werden, wodurch relevante Phrasen übrig bleiben, wenn der externe Abstandsfaktor größer als 0,5 ist, der interne Abstandsfaktor kleiner als 0,4 ist, und/oder wenn der Kontextmuster-Relevanzfaktor Re=0 | Ir=1 ist. Dieser Regelsatz zeigt an, dass die relevanten Phrasen UNPLUGGED RADIO, HOOK-UP-PROBLEM und KEINE CODES IM SYSTEM sind. Auch hier können die Schwellenwerte und Filterregeln experimentell überprüft und an die gewünschte Implementierung angepasst werden.
  • Die Schritte 238 und 240 des Verfahrens sind optionale Verarbeitungsschritte. Schritt 238 beinhaltet die weitere Verfeinerung der Liste der relevanten Phrasen und Schritt 240 die Kategorisierung von Begriffen oder Objekten in einem Thema oder einer Domäne, die ihre Eigenschaften und die Beziehungen zwischen ihnen in einem Datenorganisationssystem zeigen. So können beispielsweise die extrahierten Phrasen identifiziert oder auf eine erforderliche Domäne beschränkt werden. Insbesondere können in Schritt 238 oder Schritt 240 nur Karosserie-, Fahrwerks- und/oder motorbezogene Phrasen angegeben werden. Weitere Bearbeitungsschritte sind selbstverständlich möglich.
  • Es versteht sich, dass das Vorstehende eine Beschreibung einer oder mehrerer Ausführungsformen der Erfindung ist. Die Erfindung ist nicht auf die besondere(n) hierin offenbarte(n) Ausführungsform(en) beschränkt, sondern ausschließlich durch die folgenden Patentansprüche definiert. Darüber hinaus beziehen sich die in der vorstehenden Beschreibung gemachten Aussagen auf bestimmte Ausführungsformen und sind nicht als Einschränkungen des Umfangs der Erfindung oder der Definition der in den Patentansprüchen verwendeten Begriffe zu verstehen, außer dort, wo ein Begriff oder Ausdruck ausdrücklich vorstehend definiert wurde. Verschiedene andere Ausführungsformen und verschiedene Änderungen und Modifikationen an der/den ausgewiesenen Ausführungsform(en) sind für Fachleute offensichtlich. Alle diese anderen Ausführungsformen, Änderungen und Modifikationen sollten im Geltungsbereich der angehängten Patentansprüche verstanden werden.
  • Wie in dieser Beschreibung und den Ansprüchen verwendet, sind die Begriffe „zum Beispiel“, „beispielsweise“, „z. B.“, „wie“ und „gleich“ und die Verben „umfassen“, „aufweisen“, „beinhalten“ und ihre anderen Verbformen, wenn sie in Verbindung mit einer Auflistung einer oder mehrerer Komponenten oder anderen Gegenständen verwendet werden, jeweils als offen auszulegen, was bedeutet, dass die Auflistung nicht so berücksichtigt wird, als dass sie andere, zusätzliche Komponenten oder Elemente ausschließt. Andere Begriffe sind in deren weitesten vernünftigen Sinn auszulegen, es sei denn, diese werden in einem Kontext verwendet, der eine andere Auslegung erfordert.

Claims (10)

  1. Verfahren zum Extrahieren einer relevanten Phrase aus einem Text, umfassend die Schritte: Zugreifen auf eine Fahrzeuginformation wörtlich aus einer Datenbank; Tokenisieren der Fahrzeuginformationen wörtlich; Aufbauen einer Vielzahl von n-Gramm-Phrasen aus den Fahrzeuginformationen wörtlich, worin die Vielzahl von n-Gramm-Phrasen ein Keim aus einer Keimliste als Anfang, eine Mitte oder ein Ende jeder n-Gramm-Phrase der Vielzahl von n-Gramm-Phrasen beinhaltet, worin die Keimliste eine Vielzahl von Keimen beinhaltet, wobei jeder Keim auf eine fahrzeugbezogene Komponente oder eine fahrzeugbezogene Funktionalität gerichtet ist; und Filtern der Vielzahl von n-Gramm-Phrasen, um die entsprechende Phrase oder eine irrelevante Phrase zu erhalten.
  2. Verfahren nach Anspruch 1, worin die Keimliste auf ein bestimmtes Fahrzeugsystem gerichtet ist.
  3. Verfahren nach Anspruch 2, worin die Keime Symptome, Teile oder Handlungen identifizieren.
  4. Verfahren nach Anspruch 1, worin der Filterschritt das Berechnen eines externen Relevanzfaktors beinhaltet.
  5. Verfahren nach Anspruch 4, worin eine Trainingsphase und eine Testphase durchgeführt, wobei der externe Relevanzfaktor eine Gesamtzahl von n-Gramm-Phrasen mit gleicher Länge in der Trainingsphase, die Gesamtzahl von n-Gramm-Phrasen mit gleicher Länge in der Testphase, eine Häufigkeit einer Wortfolge in der Trainingsphase und die Häufigkeit der Wortfolge in der Testphase berücksichtigt.
  6. Verfahren nach Anspruch 1, worin der Filterschritt das Berechnen eines internen Relevanzfaktors beinhaltet.
  7. Verfahren nach Anspruch 6, worin der interne Relevanzfaktor eine Begriffsfrequenz - inverse Dokumentenfrequenz (tf-idf) Analyse von Fahrzeuginformationen in der Datenbank berücksichtigt.
  8. Verfahren nach Anspruch 1, worin der Filterschritt das Berechnen eines Kontextmuster-Relevanzfaktors beinhaltet.
  9. Verfahren zum Extrahieren einer relevanten Phrase aus einem Text, umfassend die Schritte: Zugriff auf eine Wortfolge aus einer Datenbank; Tokenisieren der Wortfolge; Aufbauen einer Vielzahl von n-Gramm-Phrasen aus dem Wortlaut, worin die Vielzahl von n-Gramm-Phrasen ein Keim aus einer Keimliste als einen Anfang, eine Mitte oder ein Ende jedes n-Gramm-Phrasen aus der Vielzahl von n-Gramm-Phrasen beinhaltet, worin die Keimliste eine Vielzahl von Keimen beinhaltet; Berechnen eines externen Relevanzfaktors für jede n-Gramm-Phrase der Vielzahl von n-Gramm -Phrasen; Berechnen eines internen Relevanzfaktors für jede n-Gramm-Phrase aus der Vielzahl der n-Gramm-Phrasen; Berechnen eines Kontextmuster-Relevanzfaktors für jede n-Gramm-Phrase aus der Vielzahl der n-Gramm-Phrasen; und Verwenden des externen Relevanzfaktors, des internen Relevanzfaktors, des Kontextmuster-Relevanzfaktors oder einer Kombination aus einem oder mehreren der externen Relevanzfaktoren, des internen Relevanzfaktors und des Kontextmuster-Relevanzfaktors, um die relevante Phrase oder eine irrelevante Phrase aus der Vielzahl von n-Gramm-Phrasen zu identifizieren.
  10. System zum Extrahieren einer relevanten Phrase aus einem Text, umfassend: eine Datenbank, die wörtlich eine Fahrzeuginformation enthält; ein n-Gramm-Aufbauwerkzeug, das konfiguriert ist, um eine Vielzahl von n-Gramm-Phrasen aus den Fahrzeuginformationen wortgetreu aufzubauen, worin die Vielzahl von n-Gramm-Phrasen ein Keim aus einer Keimliste als Anfang, eine Mitte oder ein Ende jeder n-Gramm-Phrase der Vielzahl von n-Gramm-Phrasen beinhaltet, worin die Keimliste eine Vielzahl von Keimen beinhaltet, wobei jeder Keim auf eine fahrzeugbezogene Komponente oder eine fahrzeugbezogene Funktionalität gerichtet ist; und ein Filterwerkzeug, das konfiguriert ist, um die Vielzahl von n-Gramm-Phrasen zu filtern, um die entsprechende Phrase zu erhalten.
DE102018114598.5A 2017-06-19 2018-06-18 Verfahren und system zur analyse von extrahierten phrasen aus einem text Pending DE102018114598A1 (de)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US15/627,380 US10325021B2 (en) 2017-06-19 2017-06-19 Phrase extraction text analysis method and system
US15/627,380 2017-06-19

Publications (1)

Publication Number Publication Date
DE102018114598A1 true DE102018114598A1 (de) 2018-12-20

Family

ID=64457566

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102018114598.5A Pending DE102018114598A1 (de) 2017-06-19 2018-06-18 Verfahren und system zur analyse von extrahierten phrasen aus einem text

Country Status (3)

Country Link
US (1) US10325021B2 (de)
CN (1) CN109145285B (de)
DE (1) DE102018114598A1 (de)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9576039B2 (en) 2014-02-19 2017-02-21 Snowflake Computing Inc. Resource provisioning systems and methods
US11163953B2 (en) 2019-06-12 2021-11-02 International Business Machines Corporation Natural language processing and candidate response evaluation
US11429789B2 (en) 2019-06-12 2022-08-30 International Business Machines Corporation Natural language processing and candidate response identification
EP3848848A1 (de) * 2020-01-13 2021-07-14 Tata Consultancy Services Limited Verfahren und systeme zur automatischen extraktion von selbstberichteten aktivitäten einer person

Family Cites Families (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7764231B1 (en) * 1996-09-09 2010-07-27 Tracbeam Llc Wireless location using multiple mobile station location techniques
US20050033567A1 (en) * 2002-11-28 2005-02-10 Tatsuya Sukehiro Alignment system and aligning method for multilingual documents
US7092937B2 (en) 2003-04-07 2006-08-15 General Motors Corporation Vehicle diagnostic knowledge delivery
US20050120011A1 (en) * 2003-11-26 2005-06-02 Word Data Corp. Code, method, and system for manipulating texts
US20050193004A1 (en) 2004-02-03 2005-09-01 Cafeo John A. Building a case base from log entries
US7444216B2 (en) * 2005-01-14 2008-10-28 Mobile Productivity, Inc. User interface for display of task specific information
WO2006110684A2 (en) * 2005-04-11 2006-10-19 Textdigger, Inc. System and method for searching for a query
JP5538898B2 (ja) * 2007-01-04 2014-07-02 シンキング ソリューションズ ピーティーワイ リミテッド 言語分析
US7627551B2 (en) 2007-01-23 2009-12-01 Gm Global Technology Operations, Inc. Retrieving case-based reasoning information from archive records
US7818320B2 (en) * 2007-05-31 2010-10-19 Yahoo! Inc. Enhanced search results based on user feedback relating to search result abstracts
US8010567B2 (en) 2007-06-08 2011-08-30 GM Global Technology Operations LLC Federated ontology index to enterprise knowledge
US9443010B1 (en) * 2007-09-28 2016-09-13 Glooip Sarl Method and apparatus to provide an improved voice over internet protocol (VOIP) environment
US20090265364A1 (en) 2008-04-16 2009-10-22 Gm Global Technology Operations, Inc. Method and process for automatic generation of symptom codes from textual problem descriptions to enable problem classification, early warning trend prediction, and fast recall of prognostic/diagnostic solutions
US8676732B2 (en) * 2008-05-01 2014-03-18 Primal Fusion Inc. Methods and apparatus for providing information of interest to one or more users
DE102008040461A1 (de) * 2008-07-16 2010-01-21 Robert Bosch Gmbh Verfahren zum Bestimmen fehlerhafter Komponenten in einem System
US8190423B2 (en) 2008-09-05 2012-05-29 Trigent Software Ltd. Word sense disambiguation using emergent categories
US8170743B2 (en) 2009-01-29 2012-05-01 GM Global Technology Operations LLC Integrated diagnosis and prognosis system as part of the corporate value chain
US20100250522A1 (en) 2009-03-30 2010-09-30 Gm Global Technology Operations, Inc. Using ontology to order records by relevance
US20100287174A1 (en) 2009-05-11 2010-11-11 Yahoo! Inc. Identifying a level of desirability of hyperlinked information or other user selectable information
CN101937438B (zh) * 2009-06-30 2013-06-05 富士通株式会社 网页内容提取方法和装置
US20110015967A1 (en) 2009-07-17 2011-01-20 Gm Global Technology Operations, Inc. Methodology to identify emerging issues based on fused severity and sensitivity of temporal trends
US8176048B2 (en) 2009-11-10 2012-05-08 GM Global Technology Operations LLC Method and system for maximum-informativeness information extraction using a domain-specific ontology
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US8219519B2 (en) 2010-02-23 2012-07-10 GM Global Technology Operations LLC Text extraction for determining emerging issues in vehicle warranty reporting
US8489601B2 (en) 2010-07-08 2013-07-16 GM Global Technology Operations LLC Knowledge extraction methodology for unstructured data using ontology-based text mining
US8423546B2 (en) * 2010-12-03 2013-04-16 Microsoft Corporation Identifying key phrases within documents
EP2469421A1 (de) * 2010-12-23 2012-06-27 British Telecommunications Public Limited Company Verfahren und Vorrichtung zur elektronischen Datenverarbeitung
IN2012KO01022A (de) * 2012-09-05 2015-06-05 Indian Inst Technology Kharagpur
US9454602B2 (en) * 2013-08-29 2016-09-27 Accenture Global Services Limited Grouping semantically related natural language specifications of system requirements into clusters
US20150081729A1 (en) * 2013-09-19 2015-03-19 GM Global Technology Operations LLC Methods and systems for combining vehicle data
US9342489B2 (en) * 2014-04-03 2016-05-17 GM Global Technology Operations LLC Automatic linking of requirements using natural language processing
US9317596B2 (en) * 2014-04-03 2016-04-19 GM Global Technology Operations LLC Function-based method for classifying and fusing system behavior information in product development
US10394953B2 (en) * 2015-07-17 2019-08-27 Facebook, Inc. Meme detection in digital chatter analysis
US10482146B2 (en) * 2016-05-10 2019-11-19 Massachusetts Institute Of Technology Systems and methods for automatic customization of content filtering
CN106202518B (zh) * 2016-07-22 2019-07-30 桂林电子科技大学 基于chi和分类别关联规则算法的短文本分类方法

Also Published As

Publication number Publication date
CN109145285B (zh) 2023-01-31
CN109145285A (zh) 2019-01-04
US10325021B2 (en) 2019-06-18
US20180365222A1 (en) 2018-12-20

Similar Documents

Publication Publication Date Title
DE102018114598A1 (de) Verfahren und system zur analyse von extrahierten phrasen aus einem text
DE112009005365B4 (de) Verfahren und systeme zum weiterleiten von anrufen an ein call-center basierend auf gesprochenen sprachen
US10109115B2 (en) Modifying vehicle fault diagnosis based on statistical analysis of past service inquiries
DE102009017176A1 (de) Navigationsanordnung für ein Kraftfahrzeug
DE102017100750A1 (de) Verfahren und vorrichtung für over-the-air-updates
DE102018113034A1 (de) Stimmenerkennungssystem und stimmenerkennungsverfahren zum analysieren eines befehls, welcher mehrere absichten hat
DE102011079845A1 (de) Vorrichtung, verfahren und systeme zum prüfen angeschlossener dienste in einem fahrzeug
DE112013006463T5 (de) Zielvorhersagevorrichtung, Zielvorhersageverfahren und Zielanzeigeverfahren
DE102012109829A1 (de) Verfahren und Vorrichtung zum Steuern von Straßenlampen
DE102012209376A1 (de) Systeme und Verfahren zum Bestimmen von zum Austauschen zwischen Fahrzeugen empfohlenen Medieninhalten
DE102007059475A1 (de) Mechanismus eines konfigurierbaren Fahrzeugbus-Speicher-Cache
DE102019104496A1 (de) Verfahren und system zur verwaltung von fahrzeugbenutzerprofilen
DE102011013336A1 (de) System und Verfahren zum Konfigurieren von Softwareanwendungen bei einem Kraftfahrzeug
DE102017125655A1 (de) Anonymisierung von streaming-daten
DE112020000004T5 (de) Informationsbereitstellungssystem und Informationsbereitstellungsverfahren
DE102016102186A1 (de) Verfahren und Vorrichtung zur Fahrzeugwarnlichtbehandlung
DE102019100557A1 (de) Carsharing-system und verfahren
DE102018209773A1 (de) Verfahren zur rechnergestützten Bestimmung einer Fehlerdiagnose eines Fahrzeugs
DE102015117380A1 (de) Selektive Geräuschunterdrückung während automatischer Spracherkennung
DE102018126520A1 (de) Steuerung der Verteilung von Inhalten in einem Fahrzeug
DE102018119875A1 (de) Viele-an-viele-dateiverteilungsprotokoll für fahrzeugnetzwerke
DE102013114763A1 (de) Sprachsteuerungsverfahren sowie Computerprogrammprodukt und Vorrichtung zur Durchführung des Verfahrens
US10062222B2 (en) Analyzing multilingual diagnostic records
DE102017109097A1 (de) Disambiguierung von spracherkennungsbefehlen für ein fahrzeug
DE102017111163A1 (de) Verfügbarkeit von mitfahrgelegenheiten unter verwendung der fahrzeugtelematik

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R082 Change of representative

Representative=s name: MANITZ FINSTERWALD PATENT- UND RECHTSANWALTSPA, DE

Representative=s name: MANITZ FINSTERWALD PATENTANWAELTE PARTMBB, DE

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017270000

Ipc: G06F0040200000