-
Die
Erfindung betrifft die Charakterisierung von Multimedia-Gegenständen und
insbesondere die Techniken, um die Mehrdeutigkeiten der Erkennung
von Multimedia-Gegenständen zu
reduzieren.
-
Die
Erfindung betrifft somit insbesondere die Beschreibung des Inhalts
von den Gegenständen
zugeordneten Multimedia-Dateien.
-
Ziel
der Erfindung ist es insbesondere, ein Verfahren vorzuschlagen,
das es ermöglicht,
Gegenstände in
einem Unsicherheitskontext zu beschreiben und zu vergleichen.
-
Praktisch
zielt die Erfindung zum Beispiel darauf ab, Bild-, Musik-, Video-Dateien
oder andere Formen zu beschreiben und zu vergleichen.
-
Sie
ermöglicht
es, die Fragen folgender Art zu beantworten: Ich möchte Musikstücke finden,
die "meinem Geschmack" entsprechen. Ein
solcher Vorgang stellt vor zwei Probleme. Das erste Problem ist
die Modellbildung von Begriffen wie "mein Geschmack", die sehr subjektiv sind. Viele Studien
haben bereits dieses Problem für
den Fall bearbeitet, dass der Gegenstand von einem Textzusammenhang
profitiert. Der vorliegende Fall betrifft insbesondere die isolierten
Gegenstände
ohne Textzusammenhang. Es ist die zweite Schwierigkeit, deren Lösung vorgeschlagen
wird, d.h. aus einem isolierten Gegenstand Eigenschaften zu entnehmen, die
es ermöglichen,
ihn zu beschreiben und dem Vergleich zu unterziehen, wobei das Ziel
ist, von ihm eine semantische Charakterisierung (zum Beispiel in
Form von Schlüsselworten)
bezüglich
der Wahrscheinlichkeit zu erhalten.
-
Diese
Ziele werden im Rahmen der Erfindung mit Hilfe eines Verfahrens
zur automatischen Beschreibung eines unbekannten Multimedia-Gegenstands
erreicht, bei dem der unbekannte Gegenstand mehreren Typen von Bezugs-Multimedia-Gegenständen zugeordnet
wird, jedes Mal gemäß einer
Wahrscheinlichkeit der Zugehörigkeit
zu jedem betrachteten Typ, wobei das Verfahren einen Schritt enthält, der
darin besteht, zumindest eine physikalische Eigenschaft am unbekannten
Gegenstand zu messen und sie mit Maßen von Eigenschaften zu vergleichen,
die die Bezugstypen bestmöglich
repräsentieren,
wobei das Verfahren außerdem
den Schritt aufweist, für
jeden Typ mindestens eine Wahrscheinlichkeitsbeziehung zu verwenden,
die eine Wahrscheinlichkeit der Zugehörigkeit zum betrachteten Typ
in Abhängigkeit
vom Ergebnis des Vergleichs der Eigenschaften des unbekannten Gegenstands
und des Typs ergibt, wobei das Verfahren außerdem den Schritt aufweist,
die so erhaltenen Wahrscheinlichkeiten der Zugehörigkeit zu den verschiedenen
Typen in Kombination mit einer Reihe von Affinitätsbeziehungen zwischen Typen
zu verwenden, um Zugehörigkeiten
auszuwählen,
deren Wahrscheinlichkeiten am größten sind
und die sich durch ihre Affinitätsbeziehung
gemeinsam bezeichnen, und um Zugehörigkeiten auszuschließen, die
eine geringere Affinität
zu den ausgewählten
Typen haben.
-
Erfindungsgemäß wird ebenfalls
eine Vorrichtung zur automatischen Beschreibung eines unbekannten
Multimedia-Gegenstands vorgeschlagen, die Mittel zur Zuordnung des
unbekannten Gegenstands zu mehreren Typen von Bezugs-Multimedia-Gegenständen, jedes
Mal gemäß einer
Zugehörigkeitswahrscheinlichkeit zum
betrachteten Typ, aufweist, wobei die Vorrichtung Mittel enthält, um mindestens
eine physikalische Eigenschaft am unbekannten Gegenstand zu messen
und sie mit Maßen
zu vergleichen, die die Bezugstypen am besten repräsentieren,
wobei die Vorrichtung außerdem
Mittel aufweist, die für
jeden Typ mindestens eine Wahrscheinlichkeitsbeziehung verwenden,
die eine Wahrscheinlichkeit der Zugehörigkeit zum betrachteten Typ
in Abhängigkeit
vom Ergebnis des Vergleichs der Eigenschaften des unbekannten Gegenstands
und des Typs angibt, wobei die Vorrichtung außerdem Mittel aufweist, um
die so erhaltenen Wahrscheinlichkeiten der Zugehörigkeit zu den verschiedenen
Typen in Kombination mit einer Reihe von Affinitätsbeziehungen zwischen Typen
zu verwenden, um Zugehörigkeiten
auszuwählen,
deren Wahrscheinlichkeiten am größten sind und
die sich durch ihre Affinitätsbeziehung
gemeinsam bezeichnen, und um Zugehörigkeiten auszuschließen, die
eine geringere Affinität
zu den gewählten
Typen haben.
-
Weitere
Merkmale, Ziele und Vorteile der Erfindung gehen aus der nachfolgenden
ausführlichen
Beschreibung unter Bezugnahme auf die beiliegenden Figuren hervor.
Es zeigen:
-
die 1a und 1b schematisch
Zuordnungsmodi, den ersten Modus in einer "Typen"-Ebene, den zweiten Modus als Lernmodus,
-
2 eine
Schemadarstellung, die verschiedene in einer bevorzugten Variante
der Erfindung verwendete Schritte zeigt,
-
3 einen
Verlauf, der einen Zugehörigkeitswahrscheinlichkeitspegel
in Abhängigkeit
vom Gewichtungspegel einer gegebenen physikalischen Eigenschaft
zeigt,
-
4 einen
Verlauf, der eine Näherung
des vorhergehenden Verlaufs zeigt,
-
5 einen
Verlauf, der eine Zugehörigkeitswahrscheinlichkeit
in Abhängigkeit
von einem an Eingangsvariablen gemessenen Fehler zeigt,
-
6 einen
Verlauf der gleichen Art für
einen Fehler der Ausgangsvariablen,
-
7 und 8 je
einen Verlauf, der eine Zugehörigkeitswahrscheinlichkeit
in Abhängigkeit
von einem Fehler an einer Eigenschaft am Eingang darstellt (Schritt
4 von 2),
-
9 einen
Verlauf, der eine Zugehörigkeitswahrscheinlichkeit
in Abhängigkeit
von einem Fehlermittelwert darstellt, die an zwei Eigenschaften
gemessen werden.
-
Die
verwendete Methode ist äußerst anpassungsfähig. Nachfolgend
werden drei Aspekte dargelegt, nämlich
die assoziativen Netzwerke (semantische Bindeglieder zwischen Bezugsgegenständen), die Fuzzy-Logik
(Verwaltung der Unsicherheit) und ein Schritt, der hier "korrelative Inferenz" genannt wird (Begrenzen
der Mehrdeutigkeit durch Kreuzen von Informationen).
-
Im
Gegensatz zur üblichen
Vorgehensweise, die sehr weit vorne liegt und eher versucht, die
Präzision der
Modellbildung des Bilds, allgemeiner des Gegenstands, zu optimieren,
befindet man sich höher
in den Schichten. Man nimmt das Modell des unbearbeiteten Bilds
(des Tons, usw.), selbst wenn es von schlechter Qualität ist, und
man versucht, die Mehrdeutigkeit der Interpretation mit Hilfe von
Methoden der Unsicherheitsverwaltung (Überschneidung, Fuzzy-Logik)
zu reduzieren.
-
Der
Beschreibungsvorgang wird vorzugsweise durch. Vergleich unbekannter
Gegenstände
mit Gegenständen
mit bekannten Eigenschaften und durch Kreuzung durchgeführt und
führt zu
einem Eigenschaftsvektor, der einer Zugehörigkeitswahrscheinlichkeit
zugeordnet ist. Dieser Vektor drückt
die Beziehung zwischen physikalischen oder logischen Eigenheiten
und konzeptionellen Eigenheiten aus (siehe 1a, 1b).
-
Die
nachfolgend beschriebene Methode zielt auf die Charakterisierung
in einem Unsicherheitskontext ab und betrifft Gegenstände unabhängig von
ihrer Beschaffenheit (analog, digital, symbolisch usw.). Nach dieser
Feststellung werden aus Gründen
der Klarheit die folgenden Erläuterungen
auf die Dateien vom Typ Multimedia (zum Beispiel mp3, mpeg, wav,
jpg, usw.) beschränkt.
Diese Gegenstände
können
zum Beispiel durch bestimmte der physikalischen Eigenheiten der
darunter liegenden analogen Gegenstände (Frequenzen, Dauer, typische
Formen usw.) beschrieben werden. Außerdem können diese gleichen Gegenstände im konzeptionellen
Register durch eine geeignete Typologie (Popmusik, Jazz, Aktionfilm,
Autofoto) oder einen bevorzugten Typ beschrieben werden, ohne dass
er präzise
bezeichnet ist (zum Beispiel eine benutzerdefinierte Mischung aus
Jazz und klassischer Musik). Ein erstes Ziel ist es, eine assoziative
Entsprechung zwischen dem physikalischen Gebiet und dem konzeptionellen
Gebiet anzuwenden.
-
Die 1a und 1b zeigen
zwei Zuordnungsmodi. Der erste in der Ebene der Typen (1a)
ist eine klassische konzeptionelle Zuordnung (zum Beispiel zwischen
Themen des Lexikons, die durch gewichtete Beziehungen in Abhängigkeit
von ihren semantischen Nähen
verbunden sind). Der zweite Typ (1b) wird durch
einen Lernvorgang zwischen den Typen und den Bezugseigenschaften
erhalten. Dieser Architekturtyp ermöglicht es durch Überschneidung,
konzeptionelle Beziehungen zwischen physikalischen und logischen
Eigenschaften zu identifizieren.
-
Zum
Beispiel können
die Typen Wörter
sein, die Eigenschaften können
im Fall von Bildern Formen sein.
-
Die
Wahl der Eigenschaften sollte vorzugsweise ein für alle Mal für eine Einheit
von gegebenen Typen durchgeführt
werden, erfordert aber Sachverstand. Zum Beispiel sind ein Musiker
und ein Elektroniker in der Lage, die für die musikalische Typologie
repräsentativen
Größen (zum
Beispiel erlaubt die mittlere Frequenz der ersten 10 Sekunden eines
Musikstücks
die Unterscheidung zwischen Unterhaltungsmusik und einem Hardrockmusikstück) zu identifizieren.
In den nachfolgenden Beispielen werden nur vereinfachte Eigenschaften
verwendet, um unsere Methode zu beschreiben.
-
Ein
erstes Beispiel entsprechend dem Fall von Tondokumenten ermöglicht es,
das Prinzip zu verstehen.
-
Um
zu wissen, ob eine Musikdatei ein Flötenstück oder ein Hornstück (zwei
einfache konzeptionelle Typen) enthält, muss man auf das in der
Datei codierte akustische Signal zugreifen können (zum Beispiel wav, mp3).
-
Dies
wird durch klassische Decodieralgorithmen durchgeführt. Das
Signal wird mit geeigneten Signalverarbeitungswerkzeugen analysiert,
die seine Frequenz bestimmen können
(für das
Beispiel vereinfachte physikalische Eigenschaft). Wenn man Bezugsdateien
(mehrere Dateien vom Typ Horn, mehrere Dateien vom Typ Flöte) betrachtet,
kann man ihre mittlere Frequenz im Fall des Horns und im Fall der
Flöte bestimmen.
Man kann feststellen, dass die Frequenz A+delta f diejenige der
Flöte,
und die Frequenz B+delta f diejenige des Horns ist. Diese Frequenzen,
sowie die zugehörigen
Typen, sind das Bezugsmodell, das durch eine statistische Studie
an einer repräsentativen
Probe erhalten wird. Durch Berechnung der Frequenz fi einer bestimmten Anzahl
von Dateien, die Töne
unbekannter Instrumente enthalten, kann man ihre Zugehörigkeit
zur Kategorie Flöte
oder Horn in Abhängigkeit
von der Nähe
bestimmen (wenn fi-A < Schwelle, ist i
nahe der Flöte).
Es wird ebenfalls in Betracht gezogen, dass die Gesamtheit der Bezugsdateien
vom Typ "Horn" Dateien enthalten kann, die
kein Horn enthalten. Die Mittelfrequenz enthält dann einen inhärenten Fehlerspielraum,
und ihre Nähe
zur Frequenz einer zu analysierenden Datei wird in wahrscheinlicher
Weise analysiert, ebenfalls um die Tatsache zu berücksichtigen,
dass die Berechnung des Mittelwerts tatsächlich die Berechnung eines
wahrscheinlichen Mittelwerts ist (Erwartungswert).
-
Dieses
Beispiel ist stark vereinfacht, da eine Tondatei (für die Videodateien
ist es noch komplizierter) meist eine komplexe Aggregation von zeitlich
und räumlich
verschiedenen Frequenzen ist.
-
Um
dieses Problem der Komplexität
zu lösen,
wird vorzugsweise eine gewisse Anzahl von räumlichen und zeitlichen Frequenzeigenschaften
(festliegende und entwicklungsfähige)
identifiziert, die in der Lage sind, theoretisch ein beliebiges
Signal zu beschreiben. Nun folgt ein weiteres, präziseres
Beispiel einer Definition solcher Eigenschaften. Die Spektralanalyse
des Signals über
seine ganze Dauer ermöglicht
es, die Quote hoher und tiefer Frequenzen zu erfassen. Es werden
nur 10 Frequenzbereiche (f1 bis f10) betrachtet, die im hörbaren Spektrum
(20 Hz bis 20 kHz) verteilt sind, zum Beispiel df1 = 20 Hz – 500 Hz,
df2 = 500 Hz – 2
kHz, df3 = 2 kHz – 5
kHz usw. In der Praxis berücksichtigt
die Frequenzzerhackung die Grundfrequenz der Hauptinstrumente. Diese
Analyse kann in verschiedenen Perioden des Signals durchgeführt werden.
Zum Beispiel wird die Frequenzverteilung über Zeiträume von zehn Sekunden berechnet,
die bei einem Signal einer Dauer von drei Minuten einen Abstand
von dreißig
Sekunden haben. Die sechs Einheiten von zehn Frequenzbereichen (die
hier Proben genannt werden) werden als die physikalischen Eigenschaften
eines Signals des Musikstücks angesehen.
Wenn, wie im vorhergehenden Beispiel, ein Bezugsmusikstück bekannt
ist, das "uns gefällt" (ohne dass es unbedingt
auf der konzeptionellen Ebene beschrieben werden könnte – es ist
vielleicht Jazz oder Blues, usw.), kann die Bezugsprobe berechnet
und anschließend
an jedes Musikstück
die Berechnung der Probe angewendet werden, die mit der Bezugsprobe
verglichen wird. In Abhängigkeit
von der physikalischen Nähe
kann die konzeptionelle Nähe
bezüglich
dieses Typs "der
uns gefällt" abgeleitet werden.
Anders gesagt, je näher
die räumlichen,
frequentiellen und zeitlichen Eigenschaften des einzuordnenden Signals
und diejenigen des Bezugssignals beieinander liegen, desto sicherer
kann man sein, dass das einzuordnende Stück ein Stück vom Typ "der uns gefällt" ist.
-
Wenn
mehrere Typen von Stücken,
die uns gefallen, definiert wurden, berechnet man die Nähe der Eigenschaften
des unbekannten Stücks
bezüglich
der Eigenschaften jedes dieser Typen.
-
Man
erhält
dann eine Reihe von Zugehörigkeitswahrscheinlichkeiten
des unbekannten Stücks
für jeden
dieser Typen. Die Typen von Stücken,
die uns gefallen, haben selbst Kompatibilitäten oder Affinitäten. So sind
bestimmte dieser Typen musikalisch nahe in der Wahrnehmung, zum
Beispiel ein Typ "Rock" oder ein Typ "Hard-Rock".
-
Andere
Typen sind inkompatibel, wie zum Beispiel ein Typ "Kammermusik" und ein Typ "elektronische Musik".
-
Dieses
Netz von Wahrnehmungsaffinitäten
des Ohrs zwischen den verschiedenen Typen sowie die Zugehörigkeitswahrscheinlichkeiten
zu den verschiedenen Typen werden genutzt, um eine Zugehörigkeit
zu einer größeren Kategorie
abzuleiten, die nur einen Teil dieser Typen, die uns gefallen, umfasst.
Dieser Schritt wird hier "korrelative
Inferenz" genannt.
-
Diese
Zugehörigkeit
zu einer größeren Kategorie
beendet die automatisierte Beschreibung des ursprünglich unbekannten
Multimedia-Gegenstands.
-
In
anderen Worten werden die so erhaltenen Zugehörigkeitswahrscheinlichkeiten
zu den verschiedenen Typen in Kombination mit einer Reihe von Affinitätsbeziehungen
zwischen Typen, Affinitäten,
die für
die menschliche Wahrnehmung repräsentativ
sind, so verwendet, dass Zugehörigkeiten
ausgewählt
werden, deren Wahrscheinlichkeiten am größten sind und die sich durch
ihre Affinitätsbeziehung
gemeinsam bezeichnen, und dass Zugehörigkeiten ausgeschlossen werden,
die eine geringere Affinität
zu den gewählten
Typen haben.
-
Die
Wahl- und Ausschlussvorgänge,
von denen gesprochen wird, werden im vorliegenden Fall konkretisiert
durch die Tatsache, dass nur ein Teil der Typen, die uns gefallen,
identifiziert wird (hier eine "Kategorie").
-
Wenn
man mehrere Bezugsstücke, "die uns gefallen", verwendet, um die
mittleren Eigenschaften zu berechnen, führt man ebenfalls einen Lernvorgang
der Bezugseigenschaften durch. Diese Bezugseigenschaften sind ein
Mittelwert, der irrtümlich
angegebene Stücke
beinhalten kann, und somit ist dieser Mittelwert ein "wahrscheinlichster" Bezug, und die Nähe eines
betrachteten Stücks
bezüglich
dieser Eigenschaften wird verwendet, um eine "Wahrscheinlichkeit" zu ergeben, dass dieses Stück uns gefällt. Je
näher das
Stück bei
dem statistischen Bezug liegt, desto höher ist die Wahrscheinlichkeit,
dass es uns gefällt.
Die beste Wahrscheinlichkeit, dass es uns gefällt, entspricht einer totalen
Gleichartigkeit zwischen Eigenschaften des betrachteten Stücks und
dem statistischen Mittelwert der Eigenschaften der Bezugsstücke.
-
Bei
Sichtdokumenten (Bild und Video) beruht die Charakterisierung der
Sichtdokumente vorzugsweise auf dem gleichen Prinzip wie bei den
Tondokumenten. Es geht darum, die Nähe zu anderen Gegenstände gemäß einfacher Eigenschaften
zu messen. Ein Bild wird analysiert, um durch eine Suche von Umrissen
die isolierten komplexen Formen sowie ihre chromatischen Eigenschaften
zu identifizieren (Mittelwert, typische Abweichung von der Form).
Diese Vorgänge
sind im Stand der Technik der Bildverarbeitung klassisch.
-
Wie
oben beschrieben, wird eine Einheit von konzeptionellen Typen einer
Einheit von physikalischen Eigenschaften zugeordnet. Diese konzeptionellen
Typen sind zum Beispiel: Haus, Tier, Blume, usw. Die physikalischen
Eigenschaften entsprechen den einfachen Formen und ihren chromatischen
Beschreibungen.
-
Der
folgende Schritt besteht darin, die Nähen zwischen unbekannten Formen
und "statistisch" bekannten Formen
(siehe weiter unten) oder einen Mittelwert zu suchen, der eine "bessere Wahrscheinlichkeit" bildet, dass ein
Bild uns gefällt.
Hier sind die konzeptionellen Typen die den festen Bildern inhärenten (man
passt diese Einheit im Fall von Videos an: Aktion, Sport, ... Information
vom dynamischen Typ usw.). Wie im Fall von Tondaten wird das Video
als eine Abtastung von mehreren Bildern angesehen, die isoliert
verarbeitet wird und dann zu einer statistischen Charakterisierung
des Films beiträgt.
-
Hier
werden eine Unsicherheit und eine Mehrdeutigkeit der Analysen berücksichtigt.
Die Lebewesen fällen
ihre Entscheidungen in einem Unsicherheitskontext bezüglich der
Wahrscheinlichkeit. Selbst Entscheidungen, die uns als offensichtlich
erscheinen können,
entsprechen diesem Prinzip.
-
Wenn
wir eine Person von weitem sehen, mobilisiert unser Gehirn seine
kognitiven Funktionen, um das, was wir wahrnehmen, mit einer Gruppe
von Basiseigenschaften zu vergleichen, die wir in der Vergangenheit
gespeichert haben. Diese Vorgänge
führen
uns dazu, daraus zu schließen,
dass die betreffende Person wahrscheinlich ein Freund ist. Wenn
wir diese Person aus der Nähe
sehen, kommt uns ihre Identität
offensichtlich vor, aber die gleichen Mechanismen wie vorher haben
uns zu einer ebenso probabilistischen Antwort geführt. Der
Unterschied ist, dass im zweiten Fall die Wahrscheinlichkeit wesentlich
größer ist.
-
Nun
werden zwei Mechanismen beschrieben, die im bevorzugten Ausführungsbeispiel
der Erfindung verwendet werden.
-
Der
erste sind die Verarbeitung und die Zusammensetzung (die Berechnung)
von Näherungsvoraussetzungen
(vielleicht, möglicherweise,
usw.). Die Fuzzy-Logik bietet eine gewisse Anzahl von Werkzeugen,
die es ermöglichen,
mit ungewissen Elementen zu rechnen. Der andere Mechanismus beruht
auf der Kreuzung von Informationen. Wenn zum Beispiel die Analyse
eines Bilds eine Form ergibt, die zu 75% einem Lastwagen, zu 75%
einem Haus, zu 60% einem Bus und zu 10% einer Hütte nahe ist, wird angenommen,
dass die Form ein Fahrzeug ist, da semantisch die Kategorie Fahrzeug
(Lastwagen und Bus) stärker "gemeinsam bezeichnet" ist als die Kategorie
Wohngebäude
(Hütte
und Haus). Es ist ein besonderes Beispiel dessen, was hier als korrelative
Inferenz bezeichnet wird. Dies ist möglich, da die konzeptionellen
Typen ihr eigenes Zuordnungsnetz besitzen, das den sprachlichen
Eigenschaften entspricht (Baum, Blume und pflanzlich sind zugeordnet, aber
auf verschiedenen Weise). Zu Beginn erfolgen die Suche der Eigenschaften
und die Arbeit der Annäherung
zwischen diesen Eigenschaften und den konzeptionellen Typen ohne
Berücksichtigung
des internen Zuordnungspegels zwischen den konzeptionellen Typen.
Diese Zuordnung wird genutzt, um bestimmte Mehrdeutigkeiten bei
den physikalischen/konzeptionellen Zuordnungen zu beheben.
-
Auch
hier reflektieren die semantischen Überschneidungen Affinitäten zwischen
den verschiedenen Typen, Affinitäten,
die gemeinsam mit den Zugehörigkeitswahrscheinlichkeiten
zu jedem dieser Typen berücksichtigt
werden, und erlauben es, die vorhandene oder nicht vorhandene Zugehörigkeit
zu einer Kategorie festzustellen.
-
In
anderen Worten, um in diesem Beispiel eine allgemeine Zugehörigkeitskategorie
zu definieren, verwendet man die Zugehörigkeitswahrscheinlichkeiten
zu den verschiedenen so erhaltenen Typen in Kombination mit einer
Reihe von Affinitätsbeziehungen
zwischen Typen, Affinitäten,
die für
die menschliche Wahrnehmung repräsentativ
sind, um Zugehörigkeiten
auszuwählen,
die bezüglich
der Wahrscheinlichkeit am größten sind
und die sich gemeinsam durch ihre Affinitätsbeziehung bezeichnen, und
um Zugehörigkeiten
auszuschließen,
die eine geringere Affinität
mit den gewählten
Typen haben.
-
Zur
Erstellung der in diesem zweiten Schritt, hier "Schritt der korrelativen Inferenz" genannt, verwendeten
Affinitätsbeziehungen
wird hier eine vorhergehende Verarbeitung einer Vielzahl von Texten
verwendet, bei der das besonders häufige Vorkommen von zwei Begriffen
jedes Mal erfasst wird, wenn sie in diesen Texten in der Nähenposition
sind. So wird die semantische Beziehung zwischen "Haus" und "Hütte" einfach durch das häufige Vorhandensein dieser
beiden Begriffe nahe beieinander in einer Reihe von Texten identifiziert.
-
Die
Tatsache, dass die Begriffe "Lastwagen" und "Hütte" praktisch nie vorhanden und nahe beieinander
sind, ermöglicht
es dagegen festzustellen, dass keine Verbindung der semantischen
Nähe (Affinität) zwischen
diesen Worten existiert.
-
Das
Vorhandensein einer Affinität
wird zum Beispiel in Abhängigkeit
von der Überschreitung
einer Häufigkeitsschwelle
in den Texten von zwei Worten nahe beieinander erkannt (nahe, da
nur um eine vordefinierte Anzahl von Worten voneinander entfernt).
-
Eine
solche vorherige Verarbeitung einer Reihe von Texten ermöglicht es,
die Erstellung von Affinitäten zwischen
Typen zu automatisieren. Solche Affinitäten sind insofern repräsentativ
für die
menschliche Wahrnehmung, als die dem Affinitätsgefühl zwischen Typen entsprechen,
das eine Person empfinden kann, sei es die Affinität zwischen "Rock" und "Hard-Rock" für die Musik,
oder die Affinität
zwischen "Haus" und "Hütte" für Bilder.
-
Natürlich ermöglicht bei
anderen Ausführungsformen
die vorherige Verarbeitung einer Reihe von beschreibenden Gegenständen oder
einer Reihe von existierenden Gegenständen in gleicher Weise typische, da
statistisch stark repräsentierte,
Affinitäten
als eine semantische Beziehung zwischen zwei Begriffen oder zwei
Eigenschaften definierend zu identifizieren.
-
Die
Wahl- und Ausschlussvorgänge
von Typen bestehen hier einfach darin, einen Teil von ihnen zu identifizieren,
die zusammen die allgemeine Zugehörigkeitskategorie des Gegenstands
anzeigen.
-
Die
Bildung des assoziativen Netzes (1a, untere
Ebene) wird hier durch Lernen durchgeführt, wie es soeben ausgehend
von der Auswertung einer Reihe von Texten im vorliegenden Beispiel
beschrieben wurde. Nun geht es darum, die statistischen Eigenschaften
der Beziehung zwischen Eingang (physikalisch, obere Ebene) und Ausgang
(konzeptionell, untere Ebene) zu identifizieren. Diese Eigenschaften
werden verwendet, um das Fuzzy-Modell zu speisen. Wenn man eine
Einheit von z Beziehungen R zwischen jedem der p Bezugstypen und
einer oder mehreren der n Eigenschaften betrachtet, enthält jede
Beziehung Rij die statistische Repräsentation der Gesamtheit der
Beispiele dieser Beziehung, die von den Bezugsgegenständen geliefert werden.
Die Beziehung enthält
den Mittelwert, die mittlere Abweichung, min, max, n, usw. Zum Beispiel
ist bei hundert Bezugsgegenständen
die Eigenschaft i des Typs j sechzig Mal vorhanden, der Mittelwert
der Beziehung Rij liegt bei 0,6.
-
Zur
Verdeutlichung wird nun ein Anwendungsbeispiel einer Entscheidungstreffung
ausgehend von einer Fuzzy-Annäherung angegeben.
Die Bildinhaltserkennung ist hier das Anwendungsbeispiel.
-
Ziel
ist es, in einem assoziativen Netz Beziehungen zwischen Formen und
einem Typ, zum Beispiel dem Typ Fahrzeug, zu implementieren. Wir
begrenzen uns im Rahmen dieses Beispiels, aber in der Praxis kann
man mehr Eigenschaften als die Form und mehr Typen als den einfachen
Typ Fahrzeug nehmen.
-
In 2 entspricht
der Schritt A einer manuellen Identifizierung der Bezugseigenschaften
(zum Beispiel Formen, mittleres Spektrum über die ersten 10 Sekunden
eines Musikstücks)
und der zutreffenden Typen (Spezialistenarbeit).
-
Schritt
B ist eine automatische Erfassung (Suchmaschine und Internet-Sauger)
von statistisch zutreffenden Gegenständen (zum Beispiel Bild eines
Fahrzeugs), die einen gegebenen Typ beschreiben (gleiches gilt für alle definierten
Typen), ausgehend von Schlüsselworten
(Fahrzeug, Automobil, usw.).
-
Schritt
C ist ein Analyseschritt des Inhalts der Bezugsgegenstände: Messung
der Bezugseigenschaften, Analyse und Segmentierung der Ergebnisse
(Gruppen). Man verwendet eine klassische Technik der Kategorisierung
für die
Identifizierung der Gruppen.
-
Diese
drei Schritte werden für
mehrere Typen von Bezügen
durchgeführt,
die durch ein assoziatives Netz verbunden sind. Diese Vorgehensweise
ermöglicht
es in einem späteren
Schritt (Schritt H), durch Überschneidung
bestimmte Mehrdeutigkeiten zu regeln.
-
Schritt
D entspricht einer Fuzzifizierung, d.h. einer Identifizierung der
Eingangsvariablen (die Eigenschaften) und Ausgangsvariablen (die
Typen), der Funktionen und Zugehörigkeitsgrenzen,
wobei die aus den vorhergehenden Schritten stammenden Informationen
es ermöglichen,
diesen Schritt zu automatisieren.
-
Schritt
E entspricht einem Schritt der Definition der Inferenzregeln. Diese
Regeln sind generisch und entsprechen einer homogenen Zusammensetzung
von AND/OR-Funktionen,
die die Eingänge
mit den Ausgängen
verbinden.
-
Schritt
F ist ein Schritt der Messung der Eigenschaften am unbekannten Gegenstand.
-
Schritt
G ist ein Schritt der Defuzzifizierung: Schätzung des Pegels der Ausgangsvariablen.
Dieser Schritt, der hier im globalen Sinn präsentiert wird, entspricht der
Defuzzifizierung jedes der Ausgänge.
Das Ergebnis liegt in Form einer Zugehörigkeitswahrscheinlichkeit
des unbekannten Gegenstand zu jedem Typ vor.
-
Schritt
H ist ein Schritt der Kreuzung der Ergebnisse mit Hilfe eines assoziativen
Netzes, um die Mehrdeutigkeit zu begrenzen (zum Beispiel, wenn der
Gegenstand zu 50% ein Baum, zu 50% ein Fahrzeug und zu 50% ein Lastwagen
ist, dann ist er sicherlich kein Baum).
-
Nun
wird diese Schemadarstellung der 2 im Einzelnen
beschrieben. In einem ersten Schritt der Definition von Bezügen (Schritte
A bis C in 2) wird eine große Anzahl
von Bildern erfasst, die Fahrzeuge enthalten, und es werden die
Umrisse der Formen mit Hilfe von klassischen Softwarewerkzeugen
identifiziert. Diese Formen werden normalisiert (auf identische
Proportionen zurückgeführt) und
verglichen (kartesischer Bezugspunkt), um homogene Gruppen zu identifizieren
(übereinander
legbarer Umriss mit minimalem Fehler). Für jede dieser Gruppen werden
die Bezug genannte mittlere Form (die ein beliebiges Bild der Gruppe
sein kann, da die Segmentierung – Schritt C – gewährleistet,
dass die Mitglieder eine Gruppe eine starke Gleichartigkeit haben)
und die Anzahl von Kandidaten pro Gruppe identifiziert. Es wird
vorgegeben, dass die Bezugsformen, die die meisten Kandidaten zusammenfassen,
die Bezugstypen (Fahrzeug) am besten beschreiben. Man identifiziert
die optimale Anzahl von Gruppen mit klassischen Clustering-Techniken. Zum Beispiel
optimiert man das Verhältnis
zwischen mittlerem Fehler innerhalb der Gruppen und zwischen den
Gruppen. Der Clustering-Algorithmus wird von der Fehlermatrix Form
für Form
gespeist.
-
Für die Fortsetzung
des Beispiels wird angenommen, dass die ideale Zahl von Gruppen
zwei ist. Man verfügt
also über
zwei mittlere Formen, von denen jede einer Gleichartigkeitswahrscheinlichkeit
in Abhängigkeit
vom Formprozentsatz in der Gruppe bezüglich der Gesamtanzahl von
Formen zugeteilt ist.
-
Im
Gegensatz zur binären
Logik (ein Vorschlag ist richtig oder falsch) berücksichtigt
die Fuzzy-Logik den Charakter "möglich" eines Vorschlags,
indem sie ihm einen gewissen Likelihood-Pegel zuordnet. Zusätzlich zu
einem Konzept führt
die Fuzzy-Logik Methoden und eine geeignete Algebra ein, die es
ermöglicht,
unscharfe (annähernde)
Größen zu manipulieren.
-
Der
erste Schritt (Schritt D in 2), der
unscharfe Quantifizierung (oder "Fuzzifizierung") genannt wird, besteht
darin, ein Modell jedes Eingangs des Systems durch Kurven zu bilden,
die den Zugehörigkeitsgrad
zu den verschiedenen Zuständen
des Systems angeben, der möglicherweise
diesen Eingängen
zugeordnet ist. In unserem Fall sind die Eingänge die physikalischen Eigenschaften
und die Zustände
sind die konzeptionellen Typen (oder Zuordnungen von Typen), wobei
das System das Zuordnungsnetz (normalisierte Gewichtung) ist, das
zwischen den Eingängen
und Ausgängen
existiert (siehe 1a).
-
So
wird jeder Eingang in Abhängigkeit
von seinem Gewichtungspegel in einer Kurve vom sigmoiden Typ (3 oder
angenähert 4)
dargestellt, die seinen Zugehörigkeitspegel
zu einem gegebenen Typ erklärt.
-
Es
wird zum Beispiel ein Netz (1) angenommen,
in dem der maximale (normalisierte) Gewichtungspegel 100 ist. Eine
physikalische Eigenschaft, die mit einem konzeptionellen Typ mit
einer Gewichtung von 10 verbunden ist, wird als sie wenig wahrscheinlich
beschreibend angesehen. Eine Gewichtung von 80 wird dagegen als
eine sehr zutreffende Beschreibung angesehen.
-
In 4 liefern
die Werte min und max, die durch statistische Analyse erhalten werden,
die Schwellwerte, über
die hinaus die Eigenschaft als den Typ überhaupt nicht mehr beschreibend
(min) oder sehr gut beschreibend (max) betrachtet wird.
-
Die
in 5 gezeigte Zugehörigkeitsfunktion erstellt den
Zugehörigkeitspegel
zu jeder unscharfen Untereinheit in Abhängigkeit vom Pegel des Fehlers
zwischen den Bezugsformen (die beiden mittleren Formen) und den
im zu analysierenden Bild enthaltenen Formen.
-
In 5 stellt
das Symbol "–" eine wenig wahrscheinliche
Zugehörigkeit
dar. Das Symbol "=" stellt eine mögliche Zugehörigkeit
dar. Das Symbol "+" stellt eine sehr
wahrscheinliche Zugehörigkeit
dar.
-
Simmin bzw. Simmax bezeichnen
die minimale bzw. maximale Gleichartigkeit, die Form für Form in
jeder Gruppe beim Lernvorgang berechnet werden. Simmax ist
die Gleichartigkeit zwischen den beiden ähnlichsten Formen, und Simmin ist die Gleichartigkeit zwischen den
beiden unterschiedlichsten Formen innerhalb einer gegebenen Gruppe.
-
In
gleicher Weise wird die Zugehörigkeitsfunktion
für die
Ausgangsvariable (6) bestimmt.
-
Die
Werte Simmin und Simmax beschreiben
hier die minimale und maximale Unsicherheit für die Entscheidungstreffung.
Es wird festgelegt, dass unterhalb von Simmin die
Form nicht zum Typ gehört,
und dass sie oberhalb von Simmax zum Typ
gehört,
und dass sie zwischen diesen beiden Werten mit einem gewissen Wahrscheinlichkeitspegel
zum Typ gehört.
Zum Beispiel kann man annehmen, das unterhalb von 20% Sicherheit die
Person, die man in der Ferne sieht, nicht die Person ist, die man
sich vorstellt, während
man oberhalb von 75% meint, dass es die betreffende Person ist.
-
Die
Inferenzregeln (Schritte E und F in 2: Definition
der Inferenzregeln und Messung) setzen eine Folge von logischen
Vorgängen
und die Eingänge
und den Ausgang verbindende Bedingungen voraus, die man je nach
den zu verarbeitenden Fällen
mehr oder weniger fein anpassen kann. Die nachfolgende Tabelle gibt
die Zusammensetzungsmodi an, die die beiden Gruppen verbinden, um
die Entscheidung der Zugehörigkeit
oder Nicht-Zugehörigkeit
zum Bezugstyp zu treffen. Es ist hier daran zu erinnern, dass die
beiden Gruppen, die durch Segmentierung erhalten werden (Schritt
C), ungleichartige Gruppen sind. Eine Zugehörigkeit zu den beiden Gruppen
ermöglicht
es also nicht, die Mehrdeutigkeit bezüglich der Zugehörigkeit
zum Typ zu beheben. Aus diesem Grund wird ein "–" in der Gruppe zugeordnet,
wenn E1 und E2 auf + sind.
-
Die
Inferenzregeln zwischen den Eingängen
(der Zugehörigkeitspegel
zur Gruppe 1 oder 2) und dem Ausgang (Sicherheitspegel, dass es
sich um ein Fahrzeug handelt) sind wie folgt. Die beiden Eingänge sind mit
dem Ausgang über
eine Funktion OR (d.h. dem Maximum der beiden Werte in Fuzzy-Logik)
im Fall der schwachen Wahrscheinlichkeiten, und der Funktion AND
im Fall der starken verbunden.
Tabelle
1: Inferenzen, die die Eingänge
mit dem Ausgang verbinden.
-
Diese
Tabelle wird folgendermaßen
interpretiert:
Wenn gilt (E1+ und E2+) oder (E1– und E2–) oder
(E1– und
E2=) oder (E1= und E2–),
dann gilt S–.
-
Wenn
die Ähnlichkeit
mit der Form 1 und mit der Form 2 schwach ist, oder wenn die Ähnlichkeit
mit der Form 1 schwach und mit der Form 2 mittelmäßig ist,
oder wenn die Ähnlichkeit
mit der Form 1 mittelmäßig und
mit der Form 2 schwach ist, ist die unbekannte Form wenig wahrscheinlich
ein Fahrzeug.
-
Wenn
gilt (E1= und E2=) oder (E1+ und E2–) oder (E1– und E2+), dann gilt S=
-
Wenn
gilt (E1+ und E2=) oder (E1= et E2+), dann gilt S+
-
Nun
wird ein Beispiel eines Zusammensetzungsalgorithmus der Inferenzregeln
für eine
Anzahl von beliebigen Gruppen angegeben.
-
Jede
Eigenschaft kann drei Zustände
(+, –,
=) annehmen, d.h. für
n Eigenschaften sind 3n Kombinationen möglich.
-
In
diesem Schritt werden die Werte S+; S–; und S= auf 0 initialisiert.
-
Für jede der
3n Kombinationen:
- – werden
das Vorzeichen und der Wert der Elemente der Kombination identifiziert;
- – wird
Min als das Minimum aller Elemente der Kombination berechnet;
- – wird
in jeder Kombination die Anzahl + und die Anzahl – gezählt.
-
Die
Ergebnisse werden dann folgendermaßen ausgewertet:
- – wenn
die Anzahl von Elementen "+" geringer ist als
30% der Anzahl von Elementen der Kombination und mindestens gleich
1 Element, nimmt man den ganzen Wert, der 30% am nächsten liegt
(Beispiel: wenn 0,7, dann nimmt man 1), wenn dann Min größer ist
als der Wert S+, wird der Wert S+ als gleich Min definiert;
- – wenn
die Anzahl von Elementen über
70% liegt, wird dann, wenn Min über
dem Wert S= liegt, der Wert von S= als gleich min definiert;
- – wenn
die Anzahl von Elementen zwischen 30 und 70 liegt, wird dann, wenn
Min größer ist
als der Wert S=, der Wert von S= als gleich Min definiert.
-
Der
Ausgang dieses Systems (Schritte G und H: Defuzzifizierung und Kreuzung)
hat die folgende Form: der Gegenstand entspricht (zum Beispiel)
zu 80% dem Typ T1, zu 65% dem Typ T2, usw. In unserem Beispiel haben
wir uns auf einen einzigen Typ beschränkt T1 = Fahrzeug.
-
Die
Defuzzifizierung besteht darin, die Ausgangsgröße (hier die Zugehörigkeitswahrscheinlichkeit
zu einem gegebenen Typ) zu schätzen.
Dies wird durchgeführt,
indem der Zustand der Eingangsvariablen auf die Ausgangsvariablen
durch die Inferenzregeln hindurch projiziert wird. In der Praxis
reduziert (enthauptet) man die Zugehörigkeitsfunktionen der Ausgangsvariablen
gemäß den Ergebnissen,
die von den logischen (unscharfen) Vorgängen geliefert werden, die
von den Inferenzregeln diktiert werden. Der folgende Absatz gibt
ein veranschaulichtes Beispiel dieses Vorgangs an.
-
Nun
wird ein Anwendungsbeispiel angegeben. Es wird angenommen, dass
nach der Lernphase jede Gruppe die folgenden Eigenschaften hat (
7 und
8):
-
Man
nimmt an, dass ein Bild eine Form besitzt, die nach dem Vergleich
mit den zwei Bezugsformen die folgenden Fehler hat:
-
Wenn
gilt (E1+ und E2+) oder (E1– und
E2–) oder
(E1– und
E2=) oder (E1= und E2–),
dann gilt S–
S– = Max[Min(0,
0,25), Min(0,85, 0), Min(0,85, 0,7), Min(0,3, 0] = 0,7
-
Wenn
gilt (E1= und E2=) oder (E1+ und E2–) oder (E1– und E2+), dann gilt S=
S=
= Max[Min(0,3, 0,25), Min(0, 0), Min(0,85, 0,25)] = 0,25
-
Wenn
gilt (E1+ und E2+) (E1+ und E2=) oder (E1= und E2+), dann gilt S+
S+
= Max[Min(0, 0,7), Min(0,3, 0,25)] = 0,25
-
Das
Ergebnis 48 entspricht dem Schwerpunkt der drei Einheiten (–, +, =)
des Ausgangs, reduziert je auf à 0,7, 0,25, 0,25 (schraffierte
Fläche, 9).
-
Die
Antwort ist also: "es
ist zu 48% ein Fahrzeug".
Da wir uns in unserem Beispiel auf einen einzigen Typ beschränkt haben,
können
wir keine Kreuzungen ausführen.
-
In
Wirklichkeit wird zusätzlich
der Schritt angewendet, der darin besteht, die so erhaltenen Zugehörigkeitswahrscheinlichkeiten
zu den verschiedenen Typen in Kombination mit einer Reihe von Affinitätsbeziehungen
zwischen Typen zu verwenden, Affinitäten, die für die menschliche Wahrnehmung
repräsentativ
sind, um Zugehörigkeiten
auszuwählen,
deren Wahrscheinlichkeit am größten ist,
und die sich gemeinsam durch ihre Affinitätsbeziehung bezeichnen, und
um Zugehörigkeiten
auszuschließen,
die eine geringe Affinität
mit den ausgewählten
Typen haben.
-
Dieser
Schritt, in Kombination mit den vorhergehenden Schritten, ermöglicht es,
die Präzision
der Analyse deutlich zu vervielfachen. Global ist diese Methode
interessant, da sie ein Zusammensetzungsgesetz für Fuzzy-Eingänge bietet,
was umso schwerer zu verwalten ist, als es viele Eingänge gibt.