DE102007036277A1 - Verfahren und Vorrichtung zur automatischen Mustererkennung - Google Patents

Verfahren und Vorrichtung zur automatischen Mustererkennung Download PDF

Info

Publication number
DE102007036277A1
DE102007036277A1 DE102007036277A DE102007036277A DE102007036277A1 DE 102007036277 A1 DE102007036277 A1 DE 102007036277A1 DE 102007036277 A DE102007036277 A DE 102007036277A DE 102007036277 A DE102007036277 A DE 102007036277A DE 102007036277 A1 DE102007036277 A1 DE 102007036277A1
Authority
DE
Germany
Prior art keywords
data
sequence
model data
electronic data
parameterized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
DE102007036277A
Other languages
English (en)
Inventor
Clemens Prof. Dr.-Ing. Gühmann
Steffen Dipl.-Ing. Kühn
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Technische Universitaet Berlin
Original Assignee
Technische Universitaet Berlin
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Technische Universitaet Berlin filed Critical Technische Universitaet Berlin
Priority to DE102007036277A priority Critical patent/DE102007036277A1/de
Priority to EP08801094A priority patent/EP2174267A2/de
Priority to US12/671,248 priority patent/US20100217572A1/en
Priority to PCT/DE2008/001256 priority patent/WO2009015655A2/de
Publication of DE102007036277A1 publication Critical patent/DE102007036277A1/de
Ceased legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • G06V10/763Non-hierarchical techniques, e.g. based on statistics of modelling distributions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Software Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Databases & Information Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • General Health & Medical Sciences (AREA)
  • Image Processing (AREA)
  • Image Analysis (AREA)
  • Complex Calculations (AREA)

Abstract

Die Erfindung betrifft ein Verfahren zur automatischen Mustererkennung in einer Sequenz elektronischer Daten mittels elektronischer Datenverarbeitung in einem Datenverarbeitungssystem, bei dem in einer Analyse die Sequenz elektronischer Daten mit parametrisierten Modelldaten verglichen wird, die wenigstens eine Mustersequenz repräsentieren, und bei dem die wenigstens eine Mustersequenz erkannt wird, wenn bei der Analyse ermittelt wird, dass von den parametrisierten Modelldaten umfasste Modelldaten, welche der wenigstens einen Mustersequenz zugeordnet sind, mit einem eine Ähnlichkeitsmaßschwelle überschreitenden Ähnlichkeitsmaß auftreten, wobei beim Bilden der parametrisierten Modelldaten Trainingsdaten mittels eines Dynamic-Time-Warping-Verfahrens zu einem Satz von Merkmalsvektoren gleicher Länge und mit einem gleichen Informationsgehalt wie die Trainingsdaten verarbeitet werden, aus denen die parametrisierten Modelldaten abgeleitet werden. Ferner betrifft die Erfindung eine Vorrichtung zur automatischen Mustererkennung in einer Sequenz elektronischer Daten mittels elektronischer Datenverarbeitung mit einem Datenverarbeitungssystem.

Description

  • Die Erfindung betrifft ein Verfahren und eine Vorrichtung zur automatischen Mustererkennung in einer Sequenz elektronischer Daten mittels elektronischer Datenverarbeitung in einem Datenverarbeitungssystem.
  • Hintergrund der Erfindung
  • Allgemein ist es das Ziel solcher Mustererkennung, das Auftreten von Sequenzen oder Folgen von Eigenschaften in sequentiell gebildeten elektronischen Daten herauszufinden. In einer Vielzahl praktischer Anwendungen sind die zu findenden Muster nicht exakt definierbar, da sie in ihrer Form und in ihrer Ausdehnung variieren können. Als Beispiel ist das Problem der maschinellen Spracherkennung zu nennen, da wesentliche Standardverfahren aus dem Stand der Technik im Kontext dieser Aufgabenstellung entwickelt wurden. Eine weitere Anwendung betrifft das Auffinden von Fehlermustern in Maschinensignalen. Zum Beispiel gehört hierzu das Erkennen von klopfenden Verbrennungen in Otto-Motoren anhand von Körperschallsignalen, bei dem sich ein sehr ähnliches Problem stellt (Lachmann et al.: Erkennung klopfender Verbrennungen aus gestörten Klopfsensorsignalen mittels Signaltrennung, Sensorik im Kraftfahrzeug, Expert Verlag, 114–123). Die entwickelten Verfahren werden aber zum Beispiel auch beim Durchsuchen von KfZ-CAN-Bus-Daten nach Fehlermustern erforderlich (Isernhagen et al.: Intelligent signal processing in an automated measurement dato analysis system. In Proceedings of the 2007 IEEE Symposium an Computational Intelligence in Image and Signal Processing (CHSP 2007), Seiten 83–87, 2007) oder beim Vergleich von Ist- und Sollwertkurvenverläufen bei der Spezifikationsüberprüfung (Rebeschieß et al.: Automatisierter closed-loop-Softwaretest eingebetteter Motorsteuerfunktionen, 11. Software & Systems Quality Conferences 2006, 7. ICS Test, 2006).
  • Im Bereich der Spracherkennung haben sich als Lösung für das Problem der Sequenzklassifikation die so genannten Hidden-Markov-Modelle (HMM) etabliert und stellen den Stand der Technik dar (Gernot: Mustererkennung mit Markov-Modellen, Teubner, 2003). Die grundlegende Idee besteht hierbei darin, eine Sequenz oder Folge als das Ergebnis einer Kette von Wahrscheinlichkeitsdichteverteilungen zu beschreiben. Weiterhin wird auch der Übergang von einer Verteilung zu nachfolgenden Verteilungen statistisch modelliert. HMMs werden daher auch als zweistufige stochastische Prozesse im Rahmen der Mustererkennung bezeichnet. Sie sind recht leistungsfähig, haben aber auch Nachteile.
  • Die Klassifikation und das Erkennen von Sequenzen oder Folgen unterscheidet sich scheinbar grundsätzlich von konventionellen Mustererkennungsaufgaben, bei denen Merkmalsvektoren fester Dimension analysiert werden. Solche Verfahren und Geräte zur Musterkennung sind beispielsweise aus den Dokumenten DE 694 25 166 T2 , DE 697 04 201 T2 und DE 10 2006 045 218 A1 , und darüber hinaus umfassend aus der Fachliteratur bekannt (vgl. zum Beispiel Duda et al.: Pattern Classification, John Wiley & Sons, 2000). Sie alle haben gemeinsam, dass sie auf der Schätzung einer Wahrscheinlichkeitsverteilung pro Klasse oder wenigstens auf der Schätzung von Klassengrenzen aufbauen. HMMs sind deutlich anders, was durch die Verschiedenheit der zu analysierenden Datenstruktur bedingt ist. HMMs analysieren Sequenzen, das heißt Folgen von Merkmalen, Zahlenwerten, Symbolen oder Vektoren. Ein Problem besteht hierbei darin, dass die Mustersequenzen oder -folgen in der Regel in ihrer Länge variieren, wobei zwei verschieden lange Mustersequenzen oder -folgen der gleichen Klasse angehören können. Sequenzen sind somit keine Vektoren, das heißt, es existiert kein Merkmalsraum und es kann keine Wahrscheinlichkeitsverteilung bestimmt werden. Der Einsatz merkmalsvektorbasierter Klassifikatoren wird so verhindert.
  • Der Lösungsansatz von HMMs besteht darin, dass eine beobachtete Sequenz O = {x1, ..., xn} – die im Fachterminus der HMMs Observationsfolge genannt wird – die Realisierung einer Folge von Zufallsvariablen S1, S2, ..., Sm darstellt. Das impliziert eine zusätzliche verborgene Stufe, denn eine deterministische Zuordnung einer konkreten Observation xt mit t ∈ [1, n] zu einer Zufallsvariablen Sτ mit τ ∈ [1, m] ist nicht möglich. Aus diesem Grund wird sie durch einen stochastischen Prozess beschrieben, welcher den Übergang von einer Zustandsvariablen zu einer anderen durch Übergangswahrscheinlichkeiten modelliert. Der speziellen Form der Daten ist damit Rechnung getragen. Aus dieser Architektur folgen aber auch einige Nachteile, denn die Zweistufigkeit erhöht die Komplexität gegenüber merkmalsvektorbasierten Klassifikatoren deutlich. Die Modellparameter müssen daher numerisch optimiert werden, was einerseits nicht immer zu guten Parameterwerten führen muss und auch aufwendig ist.
  • Eine weitere Einschränkung von HMMs besteht darin, dass es sich um parametrische Modelle handelt, das heißt, sie geben einen einschränkenden Rahmen vor, der nicht immer zu den Da ten passen muss. Parametrische Modelle sind daher oft gleichzeitig von Unter- und Überanpassung an die Beispieldaten betroffen. Als Beispiel wird an dieser Stelle darauf hingewiesen, dass HMMs grundsätzlich voraussetzen, dass die Markov-Eigenschaft erfüllt ist. Ein anderes Beispiel ist die Annahme der zeitlichen Invarianz innerhalb eines Zustandes. Beide Annahmen sind in der Regel niemals vollständig erfüllt, was eine grundsätzliche strukturbedingte Unteranpassung zur Folge hat.
  • Ein Mustererkennungsverfahren, welches sich mit der Erkennung von Merkmalssequenzenkonkret mit der Erkennung von Sprache – beschäftigt, ist in DE 697 11 392 T2 beschrieben. Ein weiteres Anwendungsgebiet der Mustererkennung von Merkmalssequenzen oder -folgen betrifft die Klopferkennung im Zusammenhang mit Motoren. Hierauf wird im Folgenden näher eingegangen.
  • Bei klopfenden Verbrennungen handelt es sich um ungewollte Abweichungen von der Normalverbrennung. Normale Verbrennungen werden durch den Funken der Zündkerze ausgelöst und sind mit einem moderaten Druckanstieg im Zylinder verbunden. Klopfende Verbrennungen hingegen erzeugen hohe Druckspitzen und können so zu einer Beschädigung des Motors führen. Sie treten häufig dann auf, wenn die Zündung zu früh erfolgt. Eine spätere Zündung kann Abhilfe schaffen, führt jedoch zu einer Verringerung der Motorleistung, und damit zu einer Erhöhung des Kraftstoffverbrauches. Es ist daher sinnvoll, den Zündzeitpunkt so zu wählen, dass gerade noch kein Klopfen auftritt. Da die Klopfneigung eines Motors von äußeren Einflüssen abhängt, wird eine klopfabhängige Regelung des Zündzeitpunktes erforderlich. Eine sichere Erkennung klopfender Verbrennungen ist dafür unabdingbar.
  • Prinzipiell kann eine klopfende Verbrennung anhand des Druckverlaufes im Inneren des Zylinders festgestellt werden. Sensoren zum Erfassen dieser Messgröße sind jedoch teuer und verschleißen schnell, so dass für den Serienbetrieb andere Messgrößen verwendet werden müssen. Am Motorblock befestigte Körperschallsensoren sind preiswert und liefern indirekte Informationen über die Verbrennung, die im Inneren des Motors stattfindet. Insbesondere lassen sich klopfende Verbrennungen über Schallspitzen detektieren. Die Vorteile der Verwendung von Körperschall anstelle des Druckes werden mit einer komplizierteren und fehleranfälligeren Auswertung erkauft, denn auch andere Effekte können sich im Körperschall bemerkbar machen.
  • Für die Detektierung klopfender Verbrennungen anhand von Körperschallsignalen sind digitale Filter zum Erkennen klopftypischer Frequenzen (vgl. DE 101 38 110 A1 ) oder einfache merkmalsvektorbasierte Klassifikatoren (vgl. DE 103 52 860 A1 ) auf Basis bestimmter Kennwerte oder Merkmale bekannt, die durch Mittelwertbildung, Integration oder dergleichen gewonnen werden (vgl. EP 1 309 841 B1 oder EP 1 184 651 A2 ). Solche Methoden sind prinzipbedingt fehleranfällig, da bei der Merkmalsbildung meist viel relevante Information verloren geht, insbesondere zeitliche Abhängigkeiten. In dem Dokument DE 103 00 204 A1 soll mittels Bildung von Zeitfenstern dieser Nachteil abgemildert werden. Die dabei entstehende Struktur kann als ein einfacher Zustandsautomat interpretiert werden.
  • Andere Verfahren versuchen, mit Hilfe des Körperschallsignals ein virtuelles Drucksignal zu erzeugen. In dem Dokument DE 197 41 884 C2 wird dafür beispielsweise ein Neuronales Netz verwendet. Neuronale Netze sind allerdings schwierig in der Anwendung und führen nicht immer zu reproduzierbaren Ergebnissen, da viele Parameter (Netzstruktur, Transferfunktionen) a priori vorzugeben sind. Die Gewichte des Netzes müssen aufwendig numerisch optimiert werden, wobei oft nur Suboptima gefunden werden.
  • HMMs sind ein alternativer Ansatz. Hierbei wird anhand eines gegebenen Beispiel- oder Trainingsdatensatzes die zeitliche und die spektrale Variabilität der Signale in Form eines stochastischen Automaten beschrieben. Dazu werden die eigentlichen Körperschallsignale mittels STFT („Short Time Fourier Transform") in Zeitfolgen von Spektralvektoren gewandelt. Das zeitliche Muster der Spektralvektoren – die Merkmalssequenzen – lassen sich durch ein HMM modellieren.
  • Trotz der prinzipiellen Eignung von HMMs können diese nur bedingt für die Klopferkennung eingesetzt werden, da HMMs kurze Sequenzen aufgrund von Mittelungseigenschaften der Zustände nur verhältnismäßig schlecht modellieren können. Weiterhin weisen sie ähnliche Nachteile wie Neuronale Netze auf.
  • Zusammenfassung der Erfindung
  • Aufgabe der Erfindung ist es, ein Verfahren und eine Vorrichtung zur automatischen Mustererkennung in einer Sequenz elektronischer Daten mittels elektronischer Datenverarbeitung in einem Datenverarbeitungssystem anzugeben, mit denen auf vereinfachte Art und Weise eine zuverlässige Erkennung von Muster in der Sequenz elektronischer Daten ausführbar ist.
  • Erfindungsgemäß wird die Aufgabe durch ein Verfahren zur automatischen Mustererkennung nach dem unabhängigen Anspruch 1 und eine Vorrichtung zur automatischen Mustererkennung nach dem unabhängigen Anspruch 5 gelöst.
  • Die Erfindung umfasst den Gedanken eines Verfahrens zur automatischen Mustererkennung in einer Sequenz elektronischer Daten mittels elektronischer Datenverarbeitung in einem Datenverarbeitungssystem, bei dem zur automatischen Mustererkennung in einer Sequenz elektronischer Daten mittels elektronischer Datenverarbeitung in einem Datenverarbeitungssystem, bei dem in einer Analyse die Sequenz elektronischer Daten mit parametrisierten Modelldaten verglichen wird, die wenigstens eine Mustersequenz repräsentieren, und bei dem die wenigstens eine Mustersequenz erkannt wird, wenn bei der Analyse ermittelt wird, dass von den parametrisierten Modelldaten umfasste Modelldaten, welche der wenigstens einen Mustersequenz zugeordnet sind, mit einem eine Ähnlichkeitsmaßschwelle überschreitenden Ähnlichkeitsmaß auftreten, wobei beim Bilden der parametrisierten Modelldaten Trainingsdaten mittels eines Dynamic-Time-Warping-Verfahrens zu einem Satz von Merkmalsvektoren gleicher Länge und mit einem gleichen Informationsgehalt wie die Trainingsdaten verarbeitet werden, aus denen die parametrisierten Modelldaten abgeleitet werden.
  • Nach einem weiteren Aspekt der Erfindung ist eine Vorrichtung zur automatischen Mustererkennung in einer Sequenz elektronischer Daten mittels elektronischer Datenverarbeitung, mit einem Datenverarbeitungssystem geschaffen, welches die folgenden Merkmale aufweist:
    • – Mustererkennungsmittel, die konfiguriert sind, in einer Analyse die Sequenz elektronischer Daten mit parametrisierten Modelldaten zu vergleichen, die wenigstens eine Mustersequenz repräsentieren, und die wenigstens eine Mustersequenz zu erkennen, wenn bei der Analyse ermittelt wird, dass von den parametrisierten Modelldaten umfasste Modelldaten, welche der wenigstens einen Mustersequenz zugeordnet sind, mit einem eine Ähnlichkeitsmaßschwelle überschreitenden Ähnlichkeitsmaß auftreten, und
    • – Modeldatenerzeugungsmittel, die konfiguriert sind, die parametrisierten Modelldaten unter Verwendung der Trainingsdaten zu erzeugen und hierbei die Trainingsdaten mittels eines Dynamic-Time-Warping-Verfahrens zu einem Satz von Merkmalsvektoren gleicher Länge und mit einem gleichen Informationsgehalt wie die Trainingsdaten zu verarbeiten, aus denen die parametrisierten Modelldaten abgeleitet werden, und
    • – Bereitstellungsmittel, die konfiguriert sind, eine elektronisch auswertbare Erkennungsinformation über das Erkennen der wenigstens einen Mustersequenz für eine Ausgabe bereitzustellen.
  • Mit Hilfe der Umwandlung der Trainings- oder Beispieldaten unter Anwendung eines Dynamic-Time-Warping-Verfahrens (Myers et al.: A comparative study of several dynamic timewarping algorithms for connected Word recognition. The Bell System Technical Journal, 60(7): 1389–1409, September 1981) zu dem Satz von Merkmalsvektoren gleicher Länge und mit einem gleichen Informationsgehalt wie die Trainingsdaten wird erreicht, dass bei der Mustererkennung ein komponentenweiser Vergleich möglich ist. Sequenzen oder Folgen, die in ihrer Länge variieren, erlauben dieses nicht. Aus den Trainingsdaten entstehen so Merkmalsvektoren fester Dimension und zu den Trainings- oder Beispieldaten gleichen Informationsgehaltes. Die Umwandlung in Merkmalsvektoren gleichen Informationsgehaltes bedeutet, dass eine Rekonstruktion der Trainingsdaten aus dem Satz von Merkmalsvektoren ohne zusätzliche Informationen möglich ist. Insbesondere bleibt eine zeitliche Verzerrungsinformation erhalten, die den Trainingsdaten zu eigen ist. Es existiert dann ein Satz von Merkmalsvektoren, welcher anschließend mittels beliebiger klassischer merkmalsvektorbasierter Klassifikatoren ausgewertet werden kann. Das Problem der Mustererkennung wird auf eine als solche bekannte Klassifikationsaufgabe zurückgeführt. Es werden keine zweistufigen stochastischen Prozesse benötigt, wie dieses bei den HMMs der Fall ist.
  • Eine bevorzugte Weiterbildung der Erfindung sieht vor, dass die parametrisierten Modelldaten aus dem Satz von Merkmalsvektoren abgeleitet werden, indem ein merkmalsvektorbasierter Klassifikator parametrisiert wird.
  • Bei einer zweckmäßigen Ausgestaltung der Erfindung kann vorgesehen sein, dass als merkmalsvektorbasierter Klassifikator ein Bayes-Klassifikator mit Parzen-Window-Dichteschätzung verwendet wird.
  • Eine zweckmäßige Weiterbildung der Erfindung sieht vor, dass das Ähnlichkeitsmaß für eine zum Zeitpunkt j der Analyse untersuchte Teilsequenz elektronischer Daten aus der Sequenz elektronischer Daten wie folgt ermittelt wird:
    Figure 00070001
    wobei xj die Elemente der Sequenz elektronischer Daten, pt,i(·) und pe,i(·) die i-ten Elemente von insgesamt N Elementen der parametrisierten Modelldaten und c und am empirisch zu wählende Konstanten sind. Das gesuchte Ähnlichkeitsmaß zum Zeitpunkt j ist L(N, j).
  • Das Verfahren kann in Verbindung mit verschiedenen Technologien zur automatischen Mustererkennung genutzt werden, wozu insbesondere eine Maschinensignalanalyse wie zum Beispiel eine Klopfanalyse bei einem Motor, eine Signalanalyse von EKG-Signalen, einer Spracherkennung, eine Gensequenzanalyse und eine Bildanalyse gehören. Es liegen dann jeweils die zu analysierenden Daten und die Beispiel- und Trainingsdaten in elektronischer Form und entsprechende Mess- oder Analysegrößen repräsentierend vor.
  • Beschreibung bevorzugter Ausführungsbeispiele der Erfindung
  • Im Folgenden wird die Erfindung anhand von Ausführungsbeispielen unter Bezugnahme auf Figuren einer Zeichnung näher erläutert. Hierbei zeigen:
  • 1 eine schematische Darstellung eines Aufbaus einer Klopfregelung für einen Motor,
  • 2 ein Beispiel für die bei der Klopfregelung zu verarbeitenden Daten und
  • 3 eine schematische Darstellung, welche den Zusammenhang zwischen gemessenen Körperschallsignalen und sequenziell angeordneten elektronischen Daten beschreibt.
  • Das Verfahren zur Mustererkennung umfasst drei Teilaspekte, die getrennt betrachtet werden können, nämlich (i) eine Datensatztransformation, (ii) eine Parameterbestimmung eines Modells und (iii) die Anwendung des parametrisierten Modells zum Erkennen von Sequenzen oder Folgen in sequenziell angeordneten elektronischen Daten, welche ihrerseits verschiedensten Informationsgehalt repräsentieren können.
  • In einem ersten Schritt findet eine Transformation eines Beispiel- oder Trainingsdatensatzes in Merkmalsvektoren statt, wodurch versteckte Zufallsvariablen zugänglich werden und eine direkte Vergleichbarkeit ermöglicht wird. Es sei angenommen, dass drei Trainings- oder Beispielsequenzen für die Parameterbestimmung gegeben sind: S1 = {a, a, b, b, b, d, d, d, e, f, g} S2 = {a, a, a, b, b, c, c, d, d, e, e, f, f, f, g, g} S3 = {a, b, b, b, c, d, d, e, f, f, g, g}. (1)
  • Um die Erklärung einfach zu halten, wurden Symbolsequenzen verwendet. Anstelle von Symbolen können aber auch reelle Zahlen oder Vektoren verwendet werden. Für diese wird dann lediglich ein Vergleichskriterium benötigt: Bei reellen Zahlen beispielsweise der Absolutbetrag der Differenz und bei Vektoren ein Distanzmaß, wie der Euklidische Abstand. Bei Symbolen ist das Vergleichskriterium insofern entartet, als dass der Abstand Null ist, wenn zwei Symbole gleich sind, andernfalls ist der Abstand Eins.
  • In den verschiedenen Anwendungsfällen repräsentiert der Beispiel- oder Trainingsdatensatz jeweils elektronisch auswertbare Information über ein oder mehrere Muster einer messbaren Größe, welche später erkannt werden sollen.
  • Es ist zu erkennen, dass die drei Sequenzen (1) nichtlineare Verzerrungen enthalten. Diese können kompensiert werden. Eine Entzerrung ergibt: S1 = {a, a, *, b, b, b, *, *, d, d, d, e, *, f, *, *, g, *} S2 = {a, a, a, b, b, *, c, c, d, d, *, e, e, f, f, f, g, g} S3 = {a, *, *, b, b, b, c, *, d, d, *, e, *, f, f, *, g, g} (2)
  • Damit die Sequenzen gleich werden, wurden Sterne eingefügt, welche eine erforderliche Wiederholung des Vorgängersymbols kennzeichnen. Bei Sequenzen von reellen Zahlen oder Vektoren kann mittels einer Entzerrung keine vollständige Gleichheit erreicht werden. Hier lässt sich jedoch immer eine Entzerrung finden, die den Abstand zwischen den Sequenzen minimiert. Ein Verfahren, welches das leistet, ist das Dynamic-Time-Warping Verfahren.
  • Die erforderlichen Dehnungen pro Beispielsequenz lassen sich mit Hilfe binärer Vektoren beschreiben δ1 = {1, 1,0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0} δ2 = {1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1} δ3 = {1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1}, (3)welche immer eine Eins enthalten, wenn in der ursprünglichen Sequenz an dieser Stelle ein Symbol vorhanden war. Ansonsten ist der Eintrag Null. Die entzerrten Sequenzen (2) und die Verzerrungsvektoren (3) werden zu m'1 = {a, a, *, b, b, b, *, *, d, d, d, e, *, f, *, *, g, *, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0} m'2 = {a, a, a, b, b, *, c, c, d, d, *, e, e, f, f, f, g, g, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1} m'3 = {a, *, *, b, b, b, c, *, d, d, *, e, *, f, f, *, g, g, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1}kombiniert. Die Sternsymbole können dabei ohne Informationsverlust durch die Vorgängersymbole ersetzt werden, da immer eine Rücktransformation durch die angehängten binären Vektoren möglich wäre und es entstehen die Merkmalsvektoren m1 = {a, a, a, b, b, b, b, b, d, d, d, e, e, f, f, f, g, g, 1, 1, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0} m2 = {a, a, a, b, b, b, c, c, d, d, d, e, e, f, f, f, g, g, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1} m3 = {a, a, a, b, b, b, c, c, d, d, d, e, e, f, f, f, g, g, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1}. (4)
  • Es wird angemerkt, dass die vorderen Hälften der Vektoren nahezu gleich sind. Dieser Effekt tritt jedoch nur bei Symbolsequenzen auf. Bei Sequenzen von reellen Zahlen oder Vektoren würden sich die Einträge lediglich ähneln. Der entscheidende Vorteil dieser Datensatztransformation besteht darin, dass die anin den Trainingsdaten an sich versteckten Verzerrungen explizit werden und dass Merkmalsvektoren entstanden sind. Die Verzerrungsinformation ist im Übrigen jedoch gleich in den ursprünglichen Trainingsdaten und den erzeugten Merkmalsvektoren. Als Folge dieser Anpassung ist nun ein komponentenweiser Vergleich möglich. Sequenzen, die in ihrer Länge variieren, erlauben das nicht.
  • Im nun folgenden Teilaspekt erfolgt die Parameterbestimmung des Modells.
  • Mit Hilfe des Beispiel- oder Trainingsdatensatzes (4) lässt sich eine Wahrscheinlichkeitsdichte p(m) schätzen. Diese beschreibt Struktur und Zufälligkeit der Daten sowohl in der Zeit, als auch in der Amplitude. Für die Modellierung der Wahrscheinlichkeitsdichte lässt sich ein Parzen-Ansatz verwenden (Parzen: On estimation of a probability density and mode. Annals of Mathematical Statistics, Vol 33: 1065–1076, 1962):
    Figure 00100001
  • Hierbei ist n die Anzahl an Merkmalsvektoren, d die Dimension der Merkmalsvektoren, s = (s1, ..., sn)T ein zu schätzender Glättungsparameter und mk = (mk1, ..., mkn)T der k-te Merkmalsvektor des Datensatzes. Der einzige offene Parameter s kann mit Hilfe einer Fixpunktiteration so bestimmt werden, sodass die Vorhersagefähigkeit der Dichteschätzung p ~(m) maximal wird (Duin: On the choice of the smoothing Parameters for parzen estimators of probability density functions. IEEE Transactions an Computers, Vol. C-25, No. 11: 1175–1179, 1976).
  • Zur Verringerung der Datenmenge, werden anschließend solche Gaußfunktionen ϕ(m – mi, s) und ϕ(m – mj, s) mit i ≠ j zu einer einzigen Gaußfunktion α'iϕ(m – m'i, s'i) zusammengefasst, deren Ähnlichkeit groß genug ist. Dabei treten durch die Umformung die neuen Parameter α'i, s'i und m'i auf. Das resultierende Modell der Verteilung lautet nach der Zusammenfassung
    Figure 00100002
    wobei q sehr viel kleiner als n sein kann. Die Formeln für die Parameter α'i, s'i und m'i sind
    Figure 00100003
  • Der Ausdruck (mi – mj)2 ist dabei komponentenweise zu verstehen, d. h. jede Komponente des Vektors mi – mj wird einzeln quadriert. Vor der Zusammenfassung gilt si = s und αi = 1 für alle i = 1, ..., n. Als Kriterium für die Ähnlichkeit zweier Gaußfunktionen ϕ(m – mi, si) und ϕ(m – mj, sj) eignet sich
    Figure 00110001
  • Das Modell p ~(m) der Wahrscheinlichkeitsverteilung besteht nach der Kompression aus einer Summe von q Gaußverteilungen ϕ(m – m'k, s'k) gewichtet mit den Faktoren α'k mit k = 1, ..., q. Die Vektordimension d kann anschließend auf die gleiche Weise verringert werden.
  • Jede der entstandenen q Gaußfunktionen ϕ(m – m'k, s'k) ist Spezialist für einen Teilbereich der Daten und besteht aus einem Produkt skalarer Gaußfunktionen. Die skalaren Gaußfunktionen modellieren dabei entweder eine lokale Wahrscheinlichkeitsdichte in der Zeit oder aber in der Amplitude, je nach der Komponente des Merkmalsvektors m, der aus einer Sequenz S und einem binären Verzerrungsvektor δ besteht. Jede der q Gaußfunktion
    Figure 00110002
    kann nach rückgängig machen der Merkmalsvektorcodierung als
    Figure 00110003
    interpretiert werden. Dabei bestimmen die Anteile von s'k und m'k die aus den Verzerrungsvektoren δ herrühren, die Parameter für die Übergangsdichten pt,i(δ) und die Anteile die direkt aus den Sequenzen S stammen die Parameter für die Emissionsdichten pe,i(x). Die Emissionsdichten und die Übergangsdichten sind lediglich die Faktoren des Produktes (9) in umkodierter Form. Die Parametrisierungsphase ist damit beendet. Der folgende Teil beschreibt, wie das Modell effizient angewendet werden kann.
  • Es folgt nun der Teilaspekt betreffend die Anwendung des Modells zur tatsächlichen Mustererkennung.
  • Während der Anwendungsphase wird eine Sequenz S dahingehend untersucht, ob irgendwo Muster auftreten, die zu den Sequenzen des Beispieldatensatzes ähnlich sind. Dabei muss die Transformation, die während der Parametrisierungsphase durchgeführt wurde, implizit auch für die beobachtete Sequenz S erfolgen. Das mit der nachfolgenden Formel (11) angegebene Verfahren ist hierzu in effizienter Weise in der Lage.
  • Prinzipiell arbeitet das Verfahren wie ein digitaler Filter, d. h. zu jedem Element der zu untersuchenden Sequenz S wird ein Maß ausgegeben, welches Auskunft über die momentane Ähnlichkeit gibt. Überschreitet dieses Ähnlichkeitsmaß eine gegebene Schwelle, so kann eine geeignet erscheinende Reaktion erfolgen. Die Auswertung der Sequenz S ist auch synchron zu einer Messung möglich, denn es wird immer nur der aktuelle Messwert benötigt.
  • Intern arbeitet der Filter folgendermaßen: Für jedes der q Modelle (Siehe Formel (6)) wird eine Matrix L angelegt und mit –∞ initialisiert. Sie wird pro Zeitschritt j für alle i = 1, ..., N mit Hilfe der Formel
    Figure 00120001
    aktualisiert. Die Wahrscheinlichkeitsverteilungen px,i(·) und pt,i(·) ergeben sich aus der Beziehung (10). Der Parameter αm ist dabei mindestens so groß zu wählen, so dass für alle pt,im) ≈ 0 gilt. Der Parameter c dient der Gewichtung und muss empirisch ermittelt werden. Im einfachsten Fall kann c = 1 gewählt werden. Der Wert L(N, j) ist das gesuchte Ähnlichkeitsmaß zum Zeitpunkt j, welches angibt, wie stark die momentan beobachtete Sequenz einer der Sequenzen aus der Parametrisierungsphase ähnelt. Insgesamt existieren q dieser Werte. Der größte davon ist relevant und wird mit der Erkennungsschwelle verglichen, um bei deren Überschreitung ein Erkennungsereignis zu signalisieren. Eine Implementierung von L(i, j) in Form eines Ringpuffers ist möglich.
  • Das vorangehend beschriebene Verfahren beschreibt in allgemeiner Weise den vorgeschlagenen Prozess der Mustererkennung, wie es in verschiedenen Anwendungsfällen genutzt werden kann. Im Folgenden werden nun Anwendungsbeispiele für die Nutzung des Mustererkennungsverfahrens näher beschrieben.
  • Beispiel 1
  • Eine Anwendung des Mustererkennungsverfahrens ist die Klopferkennung bei Motoren, auf die im Folgenden noch näher eingegangen wird. 1 zeigt eine schematische Darstellung eines Aufbaus einer Klopfregelung für einen Motor.
  • Es wird davon ausgegangen, dass mit Hilfe eines geeigneten Sensors ein Körperschallsignal kontinuierlich aufgenommen und mittels einer Analog-Digital-Wandlung mit hinreichend hoher Abtastrate digitalisiert wird. Das Zeitsignal wird damit zu einer Sequenz von Skalaren. Im nächsten Schritt wird diese Sequenz mittels einer STFT in eine Sequenz von Spektralvektoren (Spektrogramm: Amplitudenspektrum oder Leistungsdichtespektrum) gewandelt, welche die Ausprägung bestimmter Frequenzanteile über die Zeit beschreiben. Die Spektralvektoren können anschließend logarithmiert und mittels einer Diskreten Kosinustransformation in Cepstralvektoren gewandelt werden. Dieser Schritt ist jedoch nicht zwingend erforderlich. Die Vektorsequenzen werden im Weiteren als Merkmalsvektorsequenzen bezeichnet, um von der konkreten Art der Vorverarbeitung zu abstrahieren, die damit abgeschlossen ist. Die eigentliche Erkennung erfolgt ausschließlich auf Basis dieser Merkmalsvektorsequenzen wie sie oben allgemein erläutert wurden.
  • Bevor die Klopferkennung eingesetzt werden kann, muss eine Parametrisierung stattfinden. Dazu müssen mit Hilfe eines Motorenteststandes Beispiel- oder Trainingsdaten aufgenommen werden. Hierbei wird der zu regelnde Motorentyp bei verschiedenen Drehzahlen und für jeden Zylinder in den klopfenden und nichtklopfenden Bereich gebracht. Zusätzlich wird neben den Körperschallsignalen mit geeigneten Sensoren der Zylinderinnendruck gemessen. Diese Daten sind erforderlich, um eindeutig beurteilen zu können, ob ein konkret gemessenes Körperschallsignal einer klopfenden oder einer nichtklopfenden Verbrennung entspricht (vgl. 2).
  • Anschließend werden die aufgezeichneten Körperschalldaten aufbereitet, indem alle Bereiche ausgeschnitten werden, bei denen im gleichzeitig gemessenen Drucksignal ein Überdruck vorliegt. Zusätzlich wird anhand des Drucksignals die Klopfstärke eines jeden Körperschallfragmentes ermittelt und mit diesem verbunden (gelabelt). Die Drucksignale werden dazu bandpassgefiltert und gleichgerichtet. Die verbleibende Maximalamplitude stellt ein Maß für die aktuelle Stärke des Klopfens dar. Nach diesem Schritt steht ein Datensatz von Körperschallfragmenten zur Verfügung, mit dem die Klopferkennung parametrisiert werden kann. Die Drucksignale werden anschließend nicht länger benötigt.
  • Für die Klopferkennung werden zwei Modelle parametrisiert. Das erste Modell dient der Erkennung klopfender Verbrennungen, das zweite zur Erkennung nicht klopfender Verbrennungen. Auf diese Weise kann die Aufgabenstellung auf ein einfaches Klassifikationsproblem zurückgeführt werden. Ausgangspunkt für die Parametrisierung sind die aus dem kontinuierlichen Körperschallsignal ausgeschnittenen und mit der Klopfstärke gelabelten Körperschallfragmente.
  • Das Modell für die nichtklopfenden Verbrennungen wird nur mit solchen Körperschallfragmenten parametrisiert, deren Klopfstärke unterhalb einer zuvor definierten Schwelle ε1 liegt. Entsprechend wird das Modell für die klopfenden Verbrennungen mit Hilfe eindeutig klopfender Körperschallfragmente parametrisiert. Die Klopfstärke muss dazu eine Schwelle ε2 überschreiten. Beide Schwellen ε1 und ε2 können gleich sein. Es ist jedoch praktisch sinnvoll ε2 etwas größer als ε1 zu wählen. Bis auf die verwendete Datenbasis sind beide Modelle ansonsten vollkommen identisch. Ebenso unterscheidet sich die Parametrisierungsphase nicht voneinander, sodass es ausreichend ist, diese anhand eines einzigen Modells zu beschreiben.
  • In aller Regel ist es für die Mustererkennung günstiger, nicht direkt die Körperschallsignale zu analysieren, sondern daraus abgeleitete Merkmalsvektorsequenzen, also Folgen von Merkmalsvektoren. Bei diesem konkreten Beispiel ist es, wie bereits beschrieben, sinnvoll, Körperschallsignale zunächst in kurze überlappende gleichlange Zeitfenster zu unterteilen und von diesen jeweils die Amplituden oder Leistungsdichtespektren zu berechnen. Jedes dieser Spektren kann als Merkmalsvektor fester Dimension aufgefasst werden. Ein Körperschallfragment wird so zu einer Merkmalsvektorsequenz (vgl. 3).
  • Da sich die Körperschallfragmente in ihrer Länge unterscheiden, unterscheiden sich auch die durch die Vorverarbeitung erzeugten Merkmalsvektorsequenzen in ihrer Länge. Ein direkter Vergleich ist so nicht möglich. Ebenso ist eine Behandlung des Klassifikationsproblems mit klassischen merkmalsvektorbasierten Mustererkennungsverfahren unmöglich, da diese voraussetzen, dass ein in sich abgeschlossener Merkmalsraum existiert und somit eine implizite Schätzung der Wahrscheinlichkeitsverteilung des Beispieldatensatzes möglich ist.
  • Gemäß dem oben beschriebenen Verfahren werden nun Merkmalsvektoren gebildet, die anschließend zur Parametrisierung des Modells genutzt werden, wie dieses oben erläutert ist. Anschließend kann das Modell zur Mustererkennung in der vorangehend erläuterten Art und Weise verwendet werden. Da während der Parametrisierungsphase zwei Modelle erzeugt wurden, nämlich einmal für klopfende und einmal für nichtklopfende Verbrennungen, existieren zwei dieser Werte. Je nachdem welcher dieser Werte größer ist, liegt entweder eine klopfende oder eine nichtklopfende Verbrennung vor. Sind beide Werte niedrig, findet momentan entweder keine Verbrennung statt, oder der Sensor ist beschädigt. Das Motorsteuergerät hat damit die Möglichkeit, einen Ausfall der Klopferkennung zu detektieren, was wichtig ist, um eine Beschädigung des Motors zu vermeiden.
  • Das beschriebene Verfahren ermöglicht ein zeitkontinuierliches Suchen nach klopfenden Verbrennungen. Darunter ist zu verstehen, dass das Verfahren, ähnlich einem digitalen Filter, zu jedem Abtastzeitpunkt ein Kriterium für die momentane Klopfstärke zur Verfügung stellen kann. Überdies sind keine a priori Vorgaben erforderlich und die Bestimmung der Parameter erfolgt weitgehend konstruktiv, d. h. ohne numerische Optimierung.
  • Wie vorangehend in Verbindung mit der Klopferkennung erläutert, können auch andere Problemstellungen in Verbindung mit einer Mustererkennung auf ein Sequenzerkennungsproblem zurückgeführt werden, was nachfolgend näher erläutert wird.
  • Beispiel 2
  • Einige der Anwendungen basieren auf Zeitsignalen. Bei diesen Anwendungen ist es relativ offensichtlich, an welcher Stelle das Verfahren zur Sequenzerkennung nutzbringend einge setzt werden kann. Beispielsweise kann bei der Signalanalyse von EKG-Signalen (EKG-Elektrokardiogramm) direkt das Zeitsignal verwendet werden. Es handelt sich dann um eine Verwendung des oben beschriebenen Verfahrens für eine automatische Mustererkennung bei einer Signalanalyse von EKG-Signalen. Auf diese Weise können Sequenzen in den EKG-Signalen ermittelt werden, die gegebenenfalls auf Rhythmusstörungen hindeuten.
  • Beispiel 3
  • Auch die Anwendung der automatischen Mustererkennung in Verbindung mit Spracherkennung basiert auf Zeitsignalen. Beim Erkennen von Sprache ist es jedoch sinnvoll, eine Vorverarbeitung der Zeitsignale, bei welchen es sich in diesem konkreten Fall um Audiosignale handelt, durchzuführen. Hierzu werden äquivalent zur oben beschriebenen Vorgehensweise bei der Klopferkennung die Schallsignale in Folgen von Spektralvektoren gewandelt. Der Vorteil dieser Transformation besteht darin, dass sich die aus physikalischen Gründen irrelevanten Phasen aus den Signalen so leicht entfernen lassen. 3 trifft daher auch für den Anwendungsfall der maschinellen Spracherkennung zu.
  • Die einfachste Anwendung einer maschinellen Spracherkennung besteht darin, einzelne vordefinierte Kommandowörter zu erkennen. Dazu ist mindestens ein Mikrophon und ein Mikroprozessor erforderlich, welcher zusätzlich in der Lage sein muss, die analogen Audiosignale digital einzulesen. Um zur Kommandoworterkennung das oben beschriebene Verfahren einzusetzen, ist es zunächst erforderlich, einen Beispieldatensatz mit dieser Messvorrichtung aufzunehmen. Für jedes Kommandowort müssen mindestens einige Beispiele aufgezeichnet werden. Anschließend werden diese aufbereitet und gelabelt, d. h. es wird maschinenlesbar gekennzeichnet, um welches Kommandowort es sich bei jedem konkreten Beispiel handelt.
  • Für jedes Kommandowort wird nun ein Modell erzeugt. Dazu werden die entsprechenden Beispiele vorverarbeitet und in Spektralvektorfolgen gewandelt. Dieses sind die eigentlichen Sequenzen, aus denen dann in der bereits beschriebenen Weise (Formeln (1) bis (4)) Merkmalsvektoren gleicher Länge erzeugt werden. Mit Hilfe der beschriebenen Parametrisierung (Formeln (5) bis (10)) werden anschließend die Modelle erzeugt. Die Beziehung (11) ermöglicht dann die Nutzung der erzeugten Modelle zur Analyse eines kontinuierlichen Audiosignals. Falls das für jedes Modell ständig berechnete Ähnlichkeitsmaß zu einem bestimmten Zeitpunkt die vordefinierte Schwelle überschreitet, kann davon ausgegangen werden, dass das kontinuierlich untersuchte Audiosignal aktuell eine Äußerung enthalten hat, welche zu den Kommandowörtern ähnlich war, welche bei der Parametrisierung des entsprechenden Modells verwendet wurden. Eine Meldung des damit verbundenen Labels erscheint dem Benutzer des Systems als Erkennung seiner gesprochenen Äußerung und kann zur Triggerung bestimmter nützlicher Aktionen genutzt werden.
  • Beispiel 4
  • Bei einem Virenscanner bestehen die zu suchenden Muster aus bestimmten signifikanten Codefragmenten, also Folgen oder Sequenzen von Bytes die das Verhalten des Codes beschreiben. Damit Viren nicht so leicht zu finden sind, werden häufig Variationen an bestimmten Teilen des Codes eingefügt, die zwar das eigentliche Verhalten nicht verändern, aber zu einer geänderten Bytefolge führen. Beispielsweise können an beliebigen Stellen des Codes NOP-Maschinenbefehle (No Operation) eingefügt werden. Auch andere Codesequenzen, die letztlich nichts bewirken, lassen sich einfügen.
  • Die Vorgehensweise zum Auffinden schädlichen Programmcodes mit Hilfe des oben beschriebenen Verfahrens besteht darin, die Bytefolgen verschiedener veränderter Versionen durch ein gemeinsames Modell zu beschreiben und mit diesem nach dem Auftreten des Virus zu suchen. Dazu werden die Bytefolgen den Formeln (1) bis (4) entsprechend in Merkmalsvektoren fester Länge transformiert. Darauf anschließend erfolgt die Parametrisierung des Modells. Es handelt sich dann um eine Verwendung des oben beschriebenen Verfahrens für eine automatische Mustererkennung beim Virenscannen.
  • Beispiel 5
  • Ein sehr ähnlicher Problemkreis ist die Suche nach Genen oder ähnlichen Genen in DNA-Sequenzen. Hierbei wird anstelle von Byte-Sequenzen nach Aminosäure-Sequenzen gesucht. Es handelt sich dann um eine Verwendung des oben beschriebenen Verfahrens für eine automatische Mustererkennung (Gensequenzen) bei der Gensequenzanalyse, wobei die Sequenz elektronischer Daten eine Gensequenz repräsentiert.
  • Beispiel 6
  • Nicht ganz so offensichtlich ist die Anwendung in der Bildanalyse, da hier zweidimensionale Datenstrukturen vorliegen. Einige dieser Aufgabenstellungen lassen sich auf ein Sequenzanalyseproblem zurückführen. Ein handschriftlich geschriebener Text beispielsweise, kann als eine Sequenz oder Folge von X-Y-Koordinaten interpretiert werden. Infolge variabler Schreibgeschwindigkeiten können diese Sequenzen jedoch nicht direkt verglichen werden. Die Erfindung bietet jedoch eine direkte Möglichkeit zur Verarbeitung solcher Daten. Beispielsweise könnte die Aufgabenstellung darin bestehen, die Unterschrift oder Signatur einer Person zu überprüfen um z. B. eine Authentifizierung eines Laptops durchzuführen. Die notwendige Hardware, ein Touchpad und ein Computer für die Auswertung ist in den Geräten bereits enthalten.
  • Jede Sequenz beginnt, wenn eine Berührung auf dem Touchpad registriert wird und endet, wenn für eine gewisse Zeit keine Berührung mehr empfangen wurde. Damit die Position, an der die Unterschrift oder Signatur geschrieben wird, keinen Einfluss ausübt, kann die erste Koordinate der Sequenz von allen restlichen Koordinaten der Sequenz subtrahiert werden. Dadurch wird sichergestellt, dass jede Koordinatensequenz am Ursprung (0, 0) beginnt.
  • Um nun die Unterschrift oder Signatur einer Person erkennen zu können, werden einige Beispiele benötigt, aus denen entsprechend den Formeln (1) bis (4) die Merkmalsvektoren fester Länge erzeugt werden. Darauf aufbauend wird anschließend das Modell parametrisiert (Formeln (5) bis (10)). Nachdem das Modell fertig parametrisiert ist, kann es dazu verwendet werden, alle empfangenen Koordinatensequenzen entweder ständig oder nur auf Anforderung mit dem gespeicherten Modell zu vergleichen. Hierzu kann die Formel (11) eingesetzt werden.
  • Beispiel 7
  • Bei der Maschinensignalanalyse werden häufig Zeitsignale verwendet, die sich direkt als Sequenzen interpretieren lassen, nämlich Strom- oder Spannungsverläufe. Andere Sensordaten, bei denen eine Störung durch Übertragungsfunktionen stattfindet, können in Form von Spek trogrammen untersucht werden (vgl. Klopferkennung oben). In der Regel existieren beim Maschinen- und Anlagenbau ausgesprochen viele Anwendungen, bei denen sich die beschriebene Sequenzerkennung sinnvoll einsetzen lässt. Typisch hierbei ist jedoch, dass es sich fast immer um Detailprobleme handelt, zum Beispiel einen Teil einer Steuerung, einen Teil einer Prozessüberwachung oder dergleichen. Es handelt sich dann um eine Verwendung des oben beschriebenen Verfahrens für eine automatische Mustererkennung bei der Steuerung oder der Prozessüberwachung einer Maschine oder einer Anlage, wobei die Sequenz elektronischer Daten für die Steuerung oder die Prozessüberwachung erfasste Daten repräsentieren, wobei zuvor zugehörige Beispiel- oder Trainingsdaten erfasst wurden.
  • Insgesamt ist vorangehend ein Verfahren zur automatischen Mustererkennung beschrieben, welches in vielfältigen Anwendungen eingesetzt werden kann, indem entsprechende elektronische Daten, die eine dem jeweiligen Anwendungsfall zugeordnete Information umfassen, in der oben erläuterten Art und Weise analysiert werden. Ausgangspunkt des Verfahrens ist hierbei zunächst die Erzeugung eines Satzes von Merkmalsvektoren gleicher Länge oder Dimension aus Trainings- oder Beispieldaten mittels eines Dynamic-Time-Warping-Verfahrens. Auf diese Weise werden Merkmalsvektoren erzeugt, die anschließend prinzipiell mit Hilfe beliebiger Klassifikatoren zur Mustererkennung untersucht werden können. Beispielsweise könnte auch ein Neuronales Netz (z. B. ein Multilagen-Perzeptron) Verwendung finden (Bishop: Neural networks für Pattern Recognition, Clarendon Press, Oxford, 1995). Zahlreiche andere Klassifikatoren wie Support-Vector-Machines, Polynomklassifikatoren oder Entscheidungsbaumverfahren sind ebenfalls möglich (Niemann: Klassifikation von Muster, 1995). Allerdings müssen dazu alle Klassifikatoren das Problem lösen, die während der Anwendungsphase notwendige Entzerrung der beobachteten Sequenzen effizient durchzuführen. In ihrer Grundform ist keines der genannten Verfahren dazu in der Lage.
  • Unabhängig von der anschließenden Ausführung des Klassifikationsverfahrens stellt die Erzeugung des Satzes von Merkmalsvektoren einen selbstständigen Aspekt der Erfindung dar, welcher seine Vorteile unabhängig von der anschließenden Wahl des Klassifikators und somit im Zusammenhang mit verschiedensten Klassifikatoren entfaltet.
  • Das beschriebene Verfahren zur automatischen Mustererkennung kann vorteilhafter Weise insbesondere im Zusammenhang mit den folgenden Anwendungen genutzt werden: maschi nelle Spracherkennung, Handschrifterkennung, Gensequenzanalyse, Suche nach schädlichem Programmcode (Virenscanner), Medizintechnikanwendungen wie Herzschrittmacher oder Elektrokardiogramm und maschinelle Diagnoseanwendungen wie Klopferkennung.
  • Die in der vorstehenden Beschreibung, den Ansprüchen und der Zeichnung offenbarten Merkmale der Erfindung können sowohl einzeln als auch in beliebiger Kombination für die Verwirklichung der Erfindung in ihren verschiedenen Ausführungsformen von Bedeutung sein.
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Patentliteratur
    • - DE 69425166 T2 [0004]
    • - DE 69704201 T2 [0004]
    • - DE 102006045218 A1 [0004]
    • - DE 69711392 T2 [0007]
    • - DE 10138110 A1 [0010]
    • - DE 10352860 A1 [0010]
    • - EP 1309841 B1 [0010]
    • - EP 1184651 A2 [0010]
    • - DE 10300204 A1 [0010]
    • - DE 19741884 C2 [0011]
  • Zitierte Nicht-Patentliteratur
    • - Lachmann et al.: Erkennung klopfender Verbrennungen aus gestörten Klopfsensorsignalen mittels Signaltrennung, Sensorik im Kraftfahrzeug, Expert Verlag, 114–123 [0002]
    • - Isernhagen et al.: Intelligent signal processing in an automated measurement dato analysis system. In Proceedings of the 2007 IEEE Symposium an Computational Intelligence in Image and Signal Processing (CHSP 2007), Seiten 83–87, 2007 [0002]
    • - Rebeschieß et al.: Automatisierter closed-loop-Softwaretest eingebetteter Motorsteuerfunktionen, 11. Software & Systems Quality Conferences 2006, 7. ICS Test, 2006 [0002]
    • - Gernot: Mustererkennung mit Markov-Modellen, Teubner, 2003 [0003]
    • - Duda et al.: Pattern Classification, John Wiley & Sons, 2000 [0004]
    • - Myers et al.: A comparative study of several dynamic timewarping algorithms for connected Word recognition. The Bell System Technical Journal, 60(7): 1389–1409, September 1981 [0018]
    • - Parzen: On estimation of a probability density and mode. Annals of Mathematical Statistics, Vol 33: 1065–1076, 1962 [0036]
    • - Duin: On the choice of the smoothing Parameters for parzen estimators of probability density functions. IEEE Transactions an Computers, Vol. C-25, No. 11: 1175–1179, 1976 [0037]
    • - Bishop: Neural networks für Pattern Recognition, Clarendon Press, Oxford, 1995 [0069]
    • - Niemann: Klassifikation von Muster, 1995 [0069]

Claims (5)

  1. Verfahren zur automatischen Mustererkennung in einer Sequenz elektronischer Daten mittels elektronischer Datenverarbeitung in einem Datenverarbeitungssystem, bei dem in einer Analyse die Sequenz elektronischer Daten mit parametrisierten Modelldaten verglichen wird, die wenigstens eine Mustersequenz repräsentieren, und bei dem die wenigstens eine Mustersequenz erkannt wird, wenn bei der Analyse ermittelt wird, dass von den parametrisierten Modelldaten umfasste Modelldaten, welche der wenigstens einen Mustersequenz zugeordnet sind, mit einem eine Ähnlichkeitsmaßschwelle überschreitenden Ähnlichkeitsmaß auftreten, wobei beim Bilden der parametrisierten Modelldaten Trainingsdaten mittels eines Dynamic-Time-Warping-Verfahrens zu einem Satz von Merkmalsvektoren gleicher Länge und mit einem gleichen Informationsgehalt wie die Trainingsdaten verarbeitet werden, aus denen die parametrisierten Modelldaten abgeleitet werden.
  2. Verfahren nach Anspruch 1, dadurch gekennzeichnet, dass die parametrisierten Modelldaten aus dem Satz von Merkmalsvektoren abgeleitet werden, indem ein merkmalsvektorbasierter Klassifikator parametrisiert wird.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass als merkmalsvektorbasierter Klassifikator ein Bayes-Klassifikator mit Parzen-Window-Dichteschätzung verwendet wird.
  4. Verfahren nach mindestens einem der vorangehenden Ansprüche, dadurch gekennzeichnet, dass das Ähnlichkeitsmaß L(N, j) für eine zum Zeitpunkt j der Analyse untersuchte Teilsequenz elektronischer Daten aus der Sequenz elektronischer Daten wie folgt ermittelt wird:
    Figure 00210001
    wobei xj die Elemente der Sequenz elektronischer Daten, pt,i(·) und pe,i(·) die i-ten Elemente von insgesamt N Elementen der parametrisierten Modelldaten und c und αm empirisch zu wählende Konstanten sind.
  5. Vorrichtung zur automatischen Mustererkennung in einer Sequenz elektronischer Daten mittels elektronischer Datenverarbeitung, mit einem Datenverarbeitungssystem, welches die folgenden Merkmale aufweist: – Mustererkennungsmittel, die konfiguriert sind, in einer Analyse die Sequenz elektronischer Daten mit parametrisierten Modelldaten zu vergleichen, die wenigstens eine Mustersequenz repräsentieren, und die wenigstens eine Mustersequenz zu erkennen, wenn bei der Analyse ermittelt wird, dass von den parametrisierten Modelldaten umfasste Modelldaten, welche der wenigstens einen Mustersequenz zugeordnet sind, mit einem eine Ähnlichkeitsmaßschwelle überschreitenden Ähnlichkeitsmaß auftreten, und – Modeldatenerzeugungsmittel, die konfiguriert sind, die parametrisierten Modelldaten unter Verwendung der Trainingsdaten zu erzeugen und hierbei die Trainingsdaten mittels eines Dynamic-Time-Warping-Verfahrens zu einem Satz von Merkmalsvektoren gleicher Länge und mit einem gleichen Informationsgehalt wie die Trainingsdaten zu verarbeiten, aus denen die parametrisierten Modelldaten abgeleitet werden, und – Bereitstellungsmittel, die konfiguriert sind, eine elektronisch auswertbare Erkennungsinformation über das Erkennen der wenigstens einen Mustersequenz für eine Ausgabe bereitzustellen.
DE102007036277A 2007-07-31 2007-07-31 Verfahren und Vorrichtung zur automatischen Mustererkennung Ceased DE102007036277A1 (de)

Priority Applications (4)

Application Number Priority Date Filing Date Title
DE102007036277A DE102007036277A1 (de) 2007-07-31 2007-07-31 Verfahren und Vorrichtung zur automatischen Mustererkennung
EP08801094A EP2174267A2 (de) 2007-07-31 2008-07-31 Verfahren und vorrichtung zur automatischen mustererkennung
US12/671,248 US20100217572A1 (en) 2007-07-31 2008-07-31 Method and device for automatic pattern recognition
PCT/DE2008/001256 WO2009015655A2 (de) 2007-07-31 2008-07-31 Verfahren und vorrichtung zur automatischen mustererkennung

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102007036277A DE102007036277A1 (de) 2007-07-31 2007-07-31 Verfahren und Vorrichtung zur automatischen Mustererkennung

Publications (1)

Publication Number Publication Date
DE102007036277A1 true DE102007036277A1 (de) 2009-02-05

Family

ID=40175840

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102007036277A Ceased DE102007036277A1 (de) 2007-07-31 2007-07-31 Verfahren und Vorrichtung zur automatischen Mustererkennung

Country Status (4)

Country Link
US (1) US20100217572A1 (de)
EP (1) EP2174267A2 (de)
DE (1) DE102007036277A1 (de)
WO (1) WO2009015655A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015204208A1 (de) * 2015-03-10 2016-09-15 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Steuereinheit zur Überwachung einer Kommunikationsverbindung

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101743689B (zh) * 2007-07-13 2013-04-10 杜比实验室特许公司 用于平滑信号的随时间变化的水平的方法和装置
CN110634050B (zh) * 2019-09-06 2023-04-07 北京无限光场科技有限公司 一种鉴别房源类型的方法、装置、电子设备及存储介质
US11281917B2 (en) * 2019-10-31 2022-03-22 Aptiv Technologies Limited Multi-domain neighborhood embedding and weighting of point cloud data
CN111694331B (zh) * 2020-05-11 2021-11-02 杭州睿疆科技有限公司 生产工艺参数调整的系统、方法和计算机设备

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19741884C2 (de) 1997-09-23 2000-12-21 Daimler Chrysler Ag Verfahren zur Bestimmung relevanter Größen, die den Zylinderdruck in den Zylindern einer Brennkraftmaschine repräsentieren
DE69425166T2 (de) 1993-02-26 2001-03-15 Canon K.K., Tokio/Tokyo Verfahren und Gerät zur Mustererkennung
DE69704201T2 (de) 1996-07-05 2001-10-11 Osmetech Plc, Crewe Mustererkennung mittels neuronalen netzes
EP1184651A2 (de) 2000-09-01 2002-03-06 Robert Bosch Gmbh Verfahren zur Klopferkennung bei Brennkraftmaschinen
DE10138110A1 (de) 2000-08-11 2002-03-21 Bosch Gmbh Robert Verfahren zur Klopferkennung bei Brennkraftmaschinen
DE69711392T2 (de) 1996-07-29 2003-01-16 British Telecommunications P.L.C., London Mustererkennung
DE10300204A1 (de) 2003-01-08 2004-07-22 Robert Bosch Gmbh Verfahren und Vorrichtung zur Klopferkennung
DE10352860A1 (de) 2003-11-10 2005-06-09 Iav Gmbh Ingenieurgesellschaft Auto Und Verkehr Verfahren zur Auswertung miteinander korrelierender Messdaten
DE102006045218A1 (de) 2005-11-02 2007-05-03 Lear Corporation, Southfield Unterscheidungseingabesystem für einen Entscheidungsalgorithmus

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02263275A (ja) * 1989-04-03 1990-10-26 Kiyadeitsukusu:Kk 手書き文字の登録パターン作成方式
DE19650541C2 (de) * 1996-12-05 1999-05-12 Siemens Ag Verfahren zur Ermittlung eines ersten Referenzschriftzugs anhand mehrerer Musterschriftzüge
KR100580618B1 (ko) * 2002-01-23 2006-05-16 삼성전자주식회사 생리 신호의 단시간 모니터링을 통한 사용자 정서 인식장치 및 방법
US8346482B2 (en) * 2003-08-22 2013-01-01 Fernandez Dennis S Integrated biosensor and simulation system for diagnosis and therapy
US7223234B2 (en) * 2004-07-10 2007-05-29 Monitrix, Inc. Apparatus for determining association variables

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69425166T2 (de) 1993-02-26 2001-03-15 Canon K.K., Tokio/Tokyo Verfahren und Gerät zur Mustererkennung
DE69704201T2 (de) 1996-07-05 2001-10-11 Osmetech Plc, Crewe Mustererkennung mittels neuronalen netzes
DE69711392T2 (de) 1996-07-29 2003-01-16 British Telecommunications P.L.C., London Mustererkennung
DE19741884C2 (de) 1997-09-23 2000-12-21 Daimler Chrysler Ag Verfahren zur Bestimmung relevanter Größen, die den Zylinderdruck in den Zylindern einer Brennkraftmaschine repräsentieren
DE10138110A1 (de) 2000-08-11 2002-03-21 Bosch Gmbh Robert Verfahren zur Klopferkennung bei Brennkraftmaschinen
EP1309841B1 (de) 2000-08-11 2005-09-14 Robert Bosch Gmbh Klopferkennung bei brennkraftmaschinen mit modifizierung bei änderung einer filtercharakteristik oder zylinderindividueller änderung
EP1184651A2 (de) 2000-09-01 2002-03-06 Robert Bosch Gmbh Verfahren zur Klopferkennung bei Brennkraftmaschinen
DE10300204A1 (de) 2003-01-08 2004-07-22 Robert Bosch Gmbh Verfahren und Vorrichtung zur Klopferkennung
DE10352860A1 (de) 2003-11-10 2005-06-09 Iav Gmbh Ingenieurgesellschaft Auto Und Verkehr Verfahren zur Auswertung miteinander korrelierender Messdaten
DE102006045218A1 (de) 2005-11-02 2007-05-03 Lear Corporation, Southfield Unterscheidungseingabesystem für einen Entscheidungsalgorithmus

Non-Patent Citations (12)

* Cited by examiner, † Cited by third party
Title
Bishop: Neural networks für Pattern Recognition, Clarendon Press, Oxford, 1995
Duda et al.: Pattern Classification, John Wiley & Sons, 2000
Duin: On the choice of the smoothing Parameters for parzen estimators of probability density functions. IEEE Transactions an Computers, Vol. C-25, No. 11: 1175-1179, 1976
Gernot: Mustererkennung mit Markov-Modellen, Teubner, 2003
Isernhagen et al.: Intelligent signal processing in an automated measurement dato analysis system. In Proceedings of the 2007 IEEE Symposium an Computational Intelligence in Image and Signal Processing (CHSP 2007), Seiten 83-87, 2007
Lachmann et al.: Erkennung klopfender Verbrennungen aus gestörten Klopfsensorsignalen mittels Signaltrennung, Sensorik im Kraftfahrzeug, Expert Verlag, 114-123
Myers et al.: A comparative study of several dynamic timewarping algorithms for connected Word recognition. The Bell System Technical Journal, 60(7): 1389-1409, September 1981
Niemann: Klassifikation von Muster, 1995
Parzen: On estimation of a probability density and mode. Annals of Mathematical Statistics, Vol 33: 1065-1076, 1962
RAMACHANDRAN, R.P., FARRELL, K.R.; RAMACHANDRAN, R .; MAMMONE, R.J.: Speaker recognition - general cl assifier approaches and data fusion methods. In: P attern Recognition. ISSN 0031-3203, 2002, Vol.35, S. 2801-2821
RAMACHANDRAN, R.P., FARRELL, K.R.; RAMACHANDRAN, R.; MAMMONE, R.J.: Speaker recognition - general classifier approaches and data fusion methods. In: Pattern Recognition. ISSN 0031-3203, 2002, Vol.35, S. 2801-2821; *
Rebeschieß et al.: Automatisierter closed-loop-Softwaretest eingebetteter Motorsteuerfunktionen, 11. Software & Systems Quality Conferences 2006, 7. ICS Test, 2006

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE102015204208A1 (de) * 2015-03-10 2016-09-15 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Steuereinheit zur Überwachung einer Kommunikationsverbindung
DE102015204208B4 (de) 2015-03-10 2024-09-26 Bayerische Motoren Werke Aktiengesellschaft Verfahren und Steuereinheit zur Überwachung einer Kommunikationsverbindung

Also Published As

Publication number Publication date
US20100217572A1 (en) 2010-08-26
WO2009015655A3 (de) 2009-03-26
WO2009015655A2 (de) 2009-02-05
EP2174267A2 (de) 2010-04-14

Similar Documents

Publication Publication Date Title
EP3938807B1 (de) Verfahren zur detektion von hindernisobjekten durch ein sensor system mittels neuronaler netze
DE69126730T2 (de) Sprachdetektor mit vermindertem Einfluss von Engangssignalpegel und Rauschen
DE69319982T2 (de) Verfahren und Vorrichtung zur Messung der Ähnlichkeit von Sprachmusten
DE69332721T2 (de) Dynamisches hochpräzisions-on-line-unterschriftprüfungssystem
EP0780002B1 (de) Verfahren und vorrichtung zur rekonstruktion von in rasterform vorliegenden linienstrukturen
DE202017102235U1 (de) Trainingssystem
EP1733223B1 (de) Vorrichtung und verfahren zur beurteilung einer güteklasse eines zu prüfenden objekts
DE102018200724A1 (de) Verfahren und Vorrichtung zum Verbessern der Robustheit gegen "Adversarial Examples"
EP1193688A2 (de) Verfahren zur Ermittlung eines Eigenraums zur Darstellung einer Mehrzahl von Trainingssprechern
DE102007036277A1 (de) Verfahren und Vorrichtung zur automatischen Mustererkennung
DE112020003343T5 (de) System und verfahren mit einem robusten tiefen generativen modell
CN105865784A (zh) 基于局部均值分解和灰色关联的滚动轴承检测方法
DE202022100822U1 (de) Ein hybrides System zur automatischen Entfernung von Augenblinzel-Artefakten aus Elektroenzephalogrammsignalen
DE69805280T2 (de) Gerät und verfahren zur mustererkennung.
DE10047724A1 (de) Verfahren zur Ermittlung eines Eigenraumes zur Darstellung einer Mehrzahl von Trainingssprechern
DE102018222294A1 (de) Verfahren, Computerprogramm, maschinenlesbares Speichermedium sowie Vorrichtung zur Datenvorhersage
EP1193687A2 (de) Sprecheradaption für die Spracherkennung
DE102010028845A1 (de) Verfahren und Vorrichtung zur Aufpralldetektion in Fahrzeugen
EP3857455A1 (de) Maschinelles lernsystem, sowie ein verfahren, ein computerprogramm und eine vorrichtung zum erstellen des maschinellen lernsystems
CN115563480A (zh) 基于峭度比系数筛选辛几何模态分解的齿轮故障辨识方法
EP1281157A1 (de) Verfahren und anordnung zum ermitteln eines objekts in einem bild
DE102021208885A1 (de) Ein System und Verfahren zum Verbessern der Messungen eines Systems zur Erkennung des Eindringens durch Umwandeln eindimensionaler Messungen in mehrdimensionale Bilder
DE102021204040A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Erstellung von Trainingsdaten im Fahrzeug
EP0965088B1 (de) Sichere identifikation mit vorauswahl und rückweisungsklasse
EP3701428B1 (de) Verfahren und vorrichtung zum verbessern der robustheit eines maschinellen lernsystems

Legal Events

Date Code Title Description
OP8 Request for examination as to paragraph 44 patent law
8131 Rejection