DE60309191T2 - System zum fuzzy-assoziativen beschreiben von multimedia-gegenständen - Google Patents

System zum fuzzy-assoziativen beschreiben von multimedia-gegenständen Download PDF

Info

Publication number
DE60309191T2
DE60309191T2 DE60309191T DE60309191T DE60309191T2 DE 60309191 T2 DE60309191 T2 DE 60309191T2 DE 60309191 T DE60309191 T DE 60309191T DE 60309191 T DE60309191 T DE 60309191T DE 60309191 T2 DE60309191 T2 DE 60309191T2
Authority
DE
Germany
Prior art keywords
type
types
probability
unknown
belonging
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
DE60309191T
Other languages
English (en)
Other versions
DE60309191D1 (de
Inventor
Luigi Lancieri
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Orange SA
Original Assignee
France Telecom SA
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by France Telecom SA filed Critical France Telecom SA
Publication of DE60309191D1 publication Critical patent/DE60309191D1/de
Application granted granted Critical
Publication of DE60309191T2 publication Critical patent/DE60309191T2/de
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/761Proximity, similarity or dissimilarity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/48Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Feedback Control In General (AREA)

Description

  • Die Erfindung betrifft die Charakterisierung von Multimedia-Gegenständen und insbesondere die Techniken, um die Mehrdeutigkeiten der Erkennung von Multimedia-Gegenständen zu reduzieren.
  • Die Erfindung betrifft somit insbesondere die Beschreibung des Inhalts von den Gegenständen zugeordneten Multimedia-Dateien.
  • Ziel der Erfindung ist es insbesondere, ein Verfahren vorzuschlagen, das es ermöglicht, Gegenstände in einem Unsicherheitskontext zu beschreiben und zu vergleichen.
  • Praktisch zielt die Erfindung zum Beispiel darauf ab, Bild-, Musik-, Video-Dateien oder andere Formen zu beschreiben und zu vergleichen.
  • Sie ermöglicht es, die Fragen folgender Art zu beantworten: Ich möchte Musikstücke finden, die "meinem Geschmack" entsprechen. Ein solcher Vorgang stellt vor zwei Probleme. Das erste Problem ist die Modellbildung von Begriffen wie "mein Geschmack", die sehr subjektiv sind. Viele Studien haben bereits dieses Problem für den Fall bearbeitet, dass der Gegenstand von einem Textzusammenhang profitiert. Der vorliegende Fall betrifft insbesondere die isolierten Gegenstände ohne Textzusammenhang. Es ist die zweite Schwierigkeit, deren Lösung vorgeschlagen wird, d.h. aus einem isolierten Gegenstand Eigenschaften zu entnehmen, die es ermöglichen, ihn zu beschreiben und dem Vergleich zu unterziehen, wobei das Ziel ist, von ihm eine semantische Charakterisierung (zum Beispiel in Form von Schlüsselworten) bezüglich der Wahrscheinlichkeit zu erhalten.
  • Diese Ziele werden im Rahmen der Erfindung mit Hilfe eines Verfahrens zur automatischen Beschreibung eines unbekannten Multimedia-Gegenstands erreicht, bei dem der unbekannte Gegenstand mehreren Typen von Bezugs-Multimedia-Gegenständen zugeordnet wird, jedes Mal gemäß einer Wahrscheinlichkeit der Zugehörigkeit zu jedem betrachteten Typ, wobei das Verfahren einen Schritt enthält, der darin besteht, zumindest eine physikalische Eigenschaft am unbekannten Gegenstand zu messen und sie mit Maßen von Eigenschaften zu vergleichen, die die Bezugstypen bestmöglich repräsentieren, wobei das Verfahren außerdem den Schritt aufweist, für jeden Typ mindestens eine Wahrscheinlichkeitsbeziehung zu verwenden, die eine Wahrscheinlichkeit der Zugehörigkeit zum betrachteten Typ in Abhängigkeit vom Ergebnis des Vergleichs der Eigenschaften des unbekannten Gegenstands und des Typs ergibt, wobei das Verfahren außerdem den Schritt aufweist, die so erhaltenen Wahrscheinlichkeiten der Zugehörigkeit zu den verschiedenen Typen in Kombination mit einer Reihe von Affinitätsbeziehungen zwischen Typen zu verwenden, um Zugehörigkeiten auszuwählen, deren Wahrscheinlichkeiten am größten sind und die sich durch ihre Affinitätsbeziehung gemeinsam bezeichnen, und um Zugehörigkeiten auszuschließen, die eine geringere Affinität zu den ausgewählten Typen haben.
  • Erfindungsgemäß wird ebenfalls eine Vorrichtung zur automatischen Beschreibung eines unbekannten Multimedia-Gegenstands vorgeschlagen, die Mittel zur Zuordnung des unbekannten Gegenstands zu mehreren Typen von Bezugs-Multimedia-Gegenständen, jedes Mal gemäß einer Zugehörigkeitswahrscheinlichkeit zum betrachteten Typ, aufweist, wobei die Vorrichtung Mittel enthält, um mindestens eine physikalische Eigenschaft am unbekannten Gegenstand zu messen und sie mit Maßen zu vergleichen, die die Bezugstypen am besten repräsentieren, wobei die Vorrichtung außerdem Mittel aufweist, die für jeden Typ mindestens eine Wahrscheinlichkeitsbeziehung verwenden, die eine Wahrscheinlichkeit der Zugehörigkeit zum betrachteten Typ in Abhängigkeit vom Ergebnis des Vergleichs der Eigenschaften des unbekannten Gegenstands und des Typs angibt, wobei die Vorrichtung außerdem Mittel aufweist, um die so erhaltenen Wahrscheinlichkeiten der Zugehörigkeit zu den verschiedenen Typen in Kombination mit einer Reihe von Affinitätsbeziehungen zwischen Typen zu verwenden, um Zugehörigkeiten auszuwählen, deren Wahrscheinlichkeiten am größten sind und die sich durch ihre Affinitätsbeziehung gemeinsam bezeichnen, und um Zugehörigkeiten auszuschließen, die eine geringere Affinität zu den gewählten Typen haben.
  • Weitere Merkmale, Ziele und Vorteile der Erfindung gehen aus der nachfolgenden ausführlichen Beschreibung unter Bezugnahme auf die beiliegenden Figuren hervor. Es zeigen:
  • die 1a und 1b schematisch Zuordnungsmodi, den ersten Modus in einer "Typen"-Ebene, den zweiten Modus als Lernmodus,
  • 2 eine Schemadarstellung, die verschiedene in einer bevorzugten Variante der Erfindung verwendete Schritte zeigt,
  • 3 einen Verlauf, der einen Zugehörigkeitswahrscheinlichkeitspegel in Abhängigkeit vom Gewichtungspegel einer gegebenen physikalischen Eigenschaft zeigt,
  • 4 einen Verlauf, der eine Näherung des vorhergehenden Verlaufs zeigt,
  • 5 einen Verlauf, der eine Zugehörigkeitswahrscheinlichkeit in Abhängigkeit von einem an Eingangsvariablen gemessenen Fehler zeigt,
  • 6 einen Verlauf der gleichen Art für einen Fehler der Ausgangsvariablen,
  • 7 und 8 je einen Verlauf, der eine Zugehörigkeitswahrscheinlichkeit in Abhängigkeit von einem Fehler an einer Eigenschaft am Eingang darstellt (Schritt 4 von 2),
  • 9 einen Verlauf, der eine Zugehörigkeitswahrscheinlichkeit in Abhängigkeit von einem Fehlermittelwert darstellt, die an zwei Eigenschaften gemessen werden.
  • Die verwendete Methode ist äußerst anpassungsfähig. Nachfolgend werden drei Aspekte dargelegt, nämlich die assoziativen Netzwerke (semantische Bindeglieder zwischen Bezugsgegenständen), die Fuzzy-Logik (Verwaltung der Unsicherheit) und ein Schritt, der hier "korrelative Inferenz" genannt wird (Begrenzen der Mehrdeutigkeit durch Kreuzen von Informationen).
  • Im Gegensatz zur üblichen Vorgehensweise, die sehr weit vorne liegt und eher versucht, die Präzision der Modellbildung des Bilds, allgemeiner des Gegenstands, zu optimieren, befindet man sich höher in den Schichten. Man nimmt das Modell des unbearbeiteten Bilds (des Tons, usw.), selbst wenn es von schlechter Qualität ist, und man versucht, die Mehrdeutigkeit der Interpretation mit Hilfe von Methoden der Unsicherheitsverwaltung (Überschneidung, Fuzzy-Logik) zu reduzieren.
  • Der Beschreibungsvorgang wird vorzugsweise durch. Vergleich unbekannter Gegenstände mit Gegenständen mit bekannten Eigenschaften und durch Kreuzung durchgeführt und führt zu einem Eigenschaftsvektor, der einer Zugehörigkeitswahrscheinlichkeit zugeordnet ist. Dieser Vektor drückt die Beziehung zwischen physikalischen oder logischen Eigenheiten und konzeptionellen Eigenheiten aus (siehe 1a, 1b).
  • Die nachfolgend beschriebene Methode zielt auf die Charakterisierung in einem Unsicherheitskontext ab und betrifft Gegenstände unabhängig von ihrer Beschaffenheit (analog, digital, symbolisch usw.). Nach dieser Feststellung werden aus Gründen der Klarheit die folgenden Erläuterungen auf die Dateien vom Typ Multimedia (zum Beispiel mp3, mpeg, wav, jpg, usw.) beschränkt. Diese Gegenstände können zum Beispiel durch bestimmte der physikalischen Eigenheiten der darunter liegenden analogen Gegenstände (Frequenzen, Dauer, typische Formen usw.) beschrieben werden. Außerdem können diese gleichen Gegenstände im konzeptionellen Register durch eine geeignete Typologie (Popmusik, Jazz, Aktionfilm, Autofoto) oder einen bevorzugten Typ beschrieben werden, ohne dass er präzise bezeichnet ist (zum Beispiel eine benutzerdefinierte Mischung aus Jazz und klassischer Musik). Ein erstes Ziel ist es, eine assoziative Entsprechung zwischen dem physikalischen Gebiet und dem konzeptionellen Gebiet anzuwenden.
  • Die 1a und 1b zeigen zwei Zuordnungsmodi. Der erste in der Ebene der Typen (1a) ist eine klassische konzeptionelle Zuordnung (zum Beispiel zwischen Themen des Lexikons, die durch gewichtete Beziehungen in Abhängigkeit von ihren semantischen Nähen verbunden sind). Der zweite Typ (1b) wird durch einen Lernvorgang zwischen den Typen und den Bezugseigenschaften erhalten. Dieser Architekturtyp ermöglicht es durch Überschneidung, konzeptionelle Beziehungen zwischen physikalischen und logischen Eigenschaften zu identifizieren.
  • Zum Beispiel können die Typen Wörter sein, die Eigenschaften können im Fall von Bildern Formen sein.
  • Die Wahl der Eigenschaften sollte vorzugsweise ein für alle Mal für eine Einheit von gegebenen Typen durchgeführt werden, erfordert aber Sachverstand. Zum Beispiel sind ein Musiker und ein Elektroniker in der Lage, die für die musikalische Typologie repräsentativen Größen (zum Beispiel erlaubt die mittlere Frequenz der ersten 10 Sekunden eines Musikstücks die Unterscheidung zwischen Unterhaltungsmusik und einem Hardrockmusikstück) zu identifizieren. In den nachfolgenden Beispielen werden nur vereinfachte Eigenschaften verwendet, um unsere Methode zu beschreiben.
  • Ein erstes Beispiel entsprechend dem Fall von Tondokumenten ermöglicht es, das Prinzip zu verstehen.
  • Um zu wissen, ob eine Musikdatei ein Flötenstück oder ein Hornstück (zwei einfache konzeptionelle Typen) enthält, muss man auf das in der Datei codierte akustische Signal zugreifen können (zum Beispiel wav, mp3).
  • Dies wird durch klassische Decodieralgorithmen durchgeführt. Das Signal wird mit geeigneten Signalverarbeitungswerkzeugen analysiert, die seine Frequenz bestimmen können (für das Beispiel vereinfachte physikalische Eigenschaft). Wenn man Bezugsdateien (mehrere Dateien vom Typ Horn, mehrere Dateien vom Typ Flöte) betrachtet, kann man ihre mittlere Frequenz im Fall des Horns und im Fall der Flöte bestimmen. Man kann feststellen, dass die Frequenz A+delta f diejenige der Flöte, und die Frequenz B+delta f diejenige des Horns ist. Diese Frequenzen, sowie die zugehörigen Typen, sind das Bezugsmodell, das durch eine statistische Studie an einer repräsentativen Probe erhalten wird. Durch Berechnung der Frequenz fi einer bestimmten Anzahl von Dateien, die Töne unbekannter Instrumente enthalten, kann man ihre Zugehörigkeit zur Kategorie Flöte oder Horn in Abhängigkeit von der Nähe bestimmen (wenn fi-A < Schwelle, ist i nahe der Flöte). Es wird ebenfalls in Betracht gezogen, dass die Gesamtheit der Bezugsdateien vom Typ "Horn" Dateien enthalten kann, die kein Horn enthalten. Die Mittelfrequenz enthält dann einen inhärenten Fehlerspielraum, und ihre Nähe zur Frequenz einer zu analysierenden Datei wird in wahrscheinlicher Weise analysiert, ebenfalls um die Tatsache zu berücksichtigen, dass die Berechnung des Mittelwerts tatsächlich die Berechnung eines wahrscheinlichen Mittelwerts ist (Erwartungswert).
  • Dieses Beispiel ist stark vereinfacht, da eine Tondatei (für die Videodateien ist es noch komplizierter) meist eine komplexe Aggregation von zeitlich und räumlich verschiedenen Frequenzen ist.
  • Um dieses Problem der Komplexität zu lösen, wird vorzugsweise eine gewisse Anzahl von räumlichen und zeitlichen Frequenzeigenschaften (festliegende und entwicklungsfähige) identifiziert, die in der Lage sind, theoretisch ein beliebiges Signal zu beschreiben. Nun folgt ein weiteres, präziseres Beispiel einer Definition solcher Eigenschaften. Die Spektralanalyse des Signals über seine ganze Dauer ermöglicht es, die Quote hoher und tiefer Frequenzen zu erfassen. Es werden nur 10 Frequenzbereiche (f1 bis f10) betrachtet, die im hörbaren Spektrum (20 Hz bis 20 kHz) verteilt sind, zum Beispiel df1 = 20 Hz – 500 Hz, df2 = 500 Hz – 2 kHz, df3 = 2 kHz – 5 kHz usw. In der Praxis berücksichtigt die Frequenzzerhackung die Grundfrequenz der Hauptinstrumente. Diese Analyse kann in verschiedenen Perioden des Signals durchgeführt werden. Zum Beispiel wird die Frequenzverteilung über Zeiträume von zehn Sekunden berechnet, die bei einem Signal einer Dauer von drei Minuten einen Abstand von dreißig Sekunden haben. Die sechs Einheiten von zehn Frequenzbereichen (die hier Proben genannt werden) werden als die physikalischen Eigenschaften eines Signals des Musikstücks angesehen. Wenn, wie im vorhergehenden Beispiel, ein Bezugsmusikstück bekannt ist, das "uns gefällt" (ohne dass es unbedingt auf der konzeptionellen Ebene beschrieben werden könnte – es ist vielleicht Jazz oder Blues, usw.), kann die Bezugsprobe berechnet und anschließend an jedes Musikstück die Berechnung der Probe angewendet werden, die mit der Bezugsprobe verglichen wird. In Abhängigkeit von der physikalischen Nähe kann die konzeptionelle Nähe bezüglich dieses Typs "der uns gefällt" abgeleitet werden. Anders gesagt, je näher die räumlichen, frequentiellen und zeitlichen Eigenschaften des einzuordnenden Signals und diejenigen des Bezugssignals beieinander liegen, desto sicherer kann man sein, dass das einzuordnende Stück ein Stück vom Typ "der uns gefällt" ist.
  • Wenn mehrere Typen von Stücken, die uns gefallen, definiert wurden, berechnet man die Nähe der Eigenschaften des unbekannten Stücks bezüglich der Eigenschaften jedes dieser Typen.
  • Man erhält dann eine Reihe von Zugehörigkeitswahrscheinlichkeiten des unbekannten Stücks für jeden dieser Typen. Die Typen von Stücken, die uns gefallen, haben selbst Kompatibilitäten oder Affinitäten. So sind bestimmte dieser Typen musikalisch nahe in der Wahrnehmung, zum Beispiel ein Typ "Rock" oder ein Typ "Hard-Rock".
  • Andere Typen sind inkompatibel, wie zum Beispiel ein Typ "Kammermusik" und ein Typ "elektronische Musik".
  • Dieses Netz von Wahrnehmungsaffinitäten des Ohrs zwischen den verschiedenen Typen sowie die Zugehörigkeitswahrscheinlichkeiten zu den verschiedenen Typen werden genutzt, um eine Zugehörigkeit zu einer größeren Kategorie abzuleiten, die nur einen Teil dieser Typen, die uns gefallen, umfasst. Dieser Schritt wird hier "korrelative Inferenz" genannt.
  • Diese Zugehörigkeit zu einer größeren Kategorie beendet die automatisierte Beschreibung des ursprünglich unbekannten Multimedia-Gegenstands.
  • In anderen Worten werden die so erhaltenen Zugehörigkeitswahrscheinlichkeiten zu den verschiedenen Typen in Kombination mit einer Reihe von Affinitätsbeziehungen zwischen Typen, Affinitäten, die für die menschliche Wahrnehmung repräsentativ sind, so verwendet, dass Zugehörigkeiten ausgewählt werden, deren Wahrscheinlichkeiten am größten sind und die sich durch ihre Affinitätsbeziehung gemeinsam bezeichnen, und dass Zugehörigkeiten ausgeschlossen werden, die eine geringere Affinität zu den gewählten Typen haben.
  • Die Wahl- und Ausschlussvorgänge, von denen gesprochen wird, werden im vorliegenden Fall konkretisiert durch die Tatsache, dass nur ein Teil der Typen, die uns gefallen, identifiziert wird (hier eine "Kategorie").
  • Wenn man mehrere Bezugsstücke, "die uns gefallen", verwendet, um die mittleren Eigenschaften zu berechnen, führt man ebenfalls einen Lernvorgang der Bezugseigenschaften durch. Diese Bezugseigenschaften sind ein Mittelwert, der irrtümlich angegebene Stücke beinhalten kann, und somit ist dieser Mittelwert ein "wahrscheinlichster" Bezug, und die Nähe eines betrachteten Stücks bezüglich dieser Eigenschaften wird verwendet, um eine "Wahrscheinlichkeit" zu ergeben, dass dieses Stück uns gefällt. Je näher das Stück bei dem statistischen Bezug liegt, desto höher ist die Wahrscheinlichkeit, dass es uns gefällt. Die beste Wahrscheinlichkeit, dass es uns gefällt, entspricht einer totalen Gleichartigkeit zwischen Eigenschaften des betrachteten Stücks und dem statistischen Mittelwert der Eigenschaften der Bezugsstücke.
  • Bei Sichtdokumenten (Bild und Video) beruht die Charakterisierung der Sichtdokumente vorzugsweise auf dem gleichen Prinzip wie bei den Tondokumenten. Es geht darum, die Nähe zu anderen Gegenstände gemäß einfacher Eigenschaften zu messen. Ein Bild wird analysiert, um durch eine Suche von Umrissen die isolierten komplexen Formen sowie ihre chromatischen Eigenschaften zu identifizieren (Mittelwert, typische Abweichung von der Form). Diese Vorgänge sind im Stand der Technik der Bildverarbeitung klassisch.
  • Wie oben beschrieben, wird eine Einheit von konzeptionellen Typen einer Einheit von physikalischen Eigenschaften zugeordnet. Diese konzeptionellen Typen sind zum Beispiel: Haus, Tier, Blume, usw. Die physikalischen Eigenschaften entsprechen den einfachen Formen und ihren chromatischen Beschreibungen.
  • Der folgende Schritt besteht darin, die Nähen zwischen unbekannten Formen und "statistisch" bekannten Formen (siehe weiter unten) oder einen Mittelwert zu suchen, der eine "bessere Wahrscheinlichkeit" bildet, dass ein Bild uns gefällt. Hier sind die konzeptionellen Typen die den festen Bildern inhärenten (man passt diese Einheit im Fall von Videos an: Aktion, Sport, ... Information vom dynamischen Typ usw.). Wie im Fall von Tondaten wird das Video als eine Abtastung von mehreren Bildern angesehen, die isoliert verarbeitet wird und dann zu einer statistischen Charakterisierung des Films beiträgt.
  • Hier werden eine Unsicherheit und eine Mehrdeutigkeit der Analysen berücksichtigt. Die Lebewesen fällen ihre Entscheidungen in einem Unsicherheitskontext bezüglich der Wahrscheinlichkeit. Selbst Entscheidungen, die uns als offensichtlich erscheinen können, entsprechen diesem Prinzip.
  • Wenn wir eine Person von weitem sehen, mobilisiert unser Gehirn seine kognitiven Funktionen, um das, was wir wahrnehmen, mit einer Gruppe von Basiseigenschaften zu vergleichen, die wir in der Vergangenheit gespeichert haben. Diese Vorgänge führen uns dazu, daraus zu schließen, dass die betreffende Person wahrscheinlich ein Freund ist. Wenn wir diese Person aus der Nähe sehen, kommt uns ihre Identität offensichtlich vor, aber die gleichen Mechanismen wie vorher haben uns zu einer ebenso probabilistischen Antwort geführt. Der Unterschied ist, dass im zweiten Fall die Wahrscheinlichkeit wesentlich größer ist.
  • Nun werden zwei Mechanismen beschrieben, die im bevorzugten Ausführungsbeispiel der Erfindung verwendet werden.
  • Der erste sind die Verarbeitung und die Zusammensetzung (die Berechnung) von Näherungsvoraussetzungen (vielleicht, möglicherweise, usw.). Die Fuzzy-Logik bietet eine gewisse Anzahl von Werkzeugen, die es ermöglichen, mit ungewissen Elementen zu rechnen. Der andere Mechanismus beruht auf der Kreuzung von Informationen. Wenn zum Beispiel die Analyse eines Bilds eine Form ergibt, die zu 75% einem Lastwagen, zu 75% einem Haus, zu 60% einem Bus und zu 10% einer Hütte nahe ist, wird angenommen, dass die Form ein Fahrzeug ist, da semantisch die Kategorie Fahrzeug (Lastwagen und Bus) stärker "gemeinsam bezeichnet" ist als die Kategorie Wohngebäude (Hütte und Haus). Es ist ein besonderes Beispiel dessen, was hier als korrelative Inferenz bezeichnet wird. Dies ist möglich, da die konzeptionellen Typen ihr eigenes Zuordnungsnetz besitzen, das den sprachlichen Eigenschaften entspricht (Baum, Blume und pflanzlich sind zugeordnet, aber auf verschiedenen Weise). Zu Beginn erfolgen die Suche der Eigenschaften und die Arbeit der Annäherung zwischen diesen Eigenschaften und den konzeptionellen Typen ohne Berücksichtigung des internen Zuordnungspegels zwischen den konzeptionellen Typen. Diese Zuordnung wird genutzt, um bestimmte Mehrdeutigkeiten bei den physikalischen/konzeptionellen Zuordnungen zu beheben.
  • Auch hier reflektieren die semantischen Überschneidungen Affinitäten zwischen den verschiedenen Typen, Affinitäten, die gemeinsam mit den Zugehörigkeitswahrscheinlichkeiten zu jedem dieser Typen berücksichtigt werden, und erlauben es, die vorhandene oder nicht vorhandene Zugehörigkeit zu einer Kategorie festzustellen.
  • In anderen Worten, um in diesem Beispiel eine allgemeine Zugehörigkeitskategorie zu definieren, verwendet man die Zugehörigkeitswahrscheinlichkeiten zu den verschiedenen so erhaltenen Typen in Kombination mit einer Reihe von Affinitätsbeziehungen zwischen Typen, Affinitäten, die für die menschliche Wahrnehmung repräsentativ sind, um Zugehörigkeiten auszuwählen, die bezüglich der Wahrscheinlichkeit am größten sind und die sich gemeinsam durch ihre Affinitätsbeziehung bezeichnen, und um Zugehörigkeiten auszuschließen, die eine geringere Affinität mit den gewählten Typen haben.
  • Zur Erstellung der in diesem zweiten Schritt, hier "Schritt der korrelativen Inferenz" genannt, verwendeten Affinitätsbeziehungen wird hier eine vorhergehende Verarbeitung einer Vielzahl von Texten verwendet, bei der das besonders häufige Vorkommen von zwei Begriffen jedes Mal erfasst wird, wenn sie in diesen Texten in der Nähenposition sind. So wird die semantische Beziehung zwischen "Haus" und "Hütte" einfach durch das häufige Vorhandensein dieser beiden Begriffe nahe beieinander in einer Reihe von Texten identifiziert.
  • Die Tatsache, dass die Begriffe "Lastwagen" und "Hütte" praktisch nie vorhanden und nahe beieinander sind, ermöglicht es dagegen festzustellen, dass keine Verbindung der semantischen Nähe (Affinität) zwischen diesen Worten existiert.
  • Das Vorhandensein einer Affinität wird zum Beispiel in Abhängigkeit von der Überschreitung einer Häufigkeitsschwelle in den Texten von zwei Worten nahe beieinander erkannt (nahe, da nur um eine vordefinierte Anzahl von Worten voneinander entfernt).
  • Eine solche vorherige Verarbeitung einer Reihe von Texten ermöglicht es, die Erstellung von Affinitäten zwischen Typen zu automatisieren. Solche Affinitäten sind insofern repräsentativ für die menschliche Wahrnehmung, als die dem Affinitätsgefühl zwischen Typen entsprechen, das eine Person empfinden kann, sei es die Affinität zwischen "Rock" und "Hard-Rock" für die Musik, oder die Affinität zwischen "Haus" und "Hütte" für Bilder.
  • Natürlich ermöglicht bei anderen Ausführungsformen die vorherige Verarbeitung einer Reihe von beschreibenden Gegenständen oder einer Reihe von existierenden Gegenständen in gleicher Weise typische, da statistisch stark repräsentierte, Affinitäten als eine semantische Beziehung zwischen zwei Begriffen oder zwei Eigenschaften definierend zu identifizieren.
  • Die Wahl- und Ausschlussvorgänge von Typen bestehen hier einfach darin, einen Teil von ihnen zu identifizieren, die zusammen die allgemeine Zugehörigkeitskategorie des Gegenstands anzeigen.
  • Die Bildung des assoziativen Netzes (1a, untere Ebene) wird hier durch Lernen durchgeführt, wie es soeben ausgehend von der Auswertung einer Reihe von Texten im vorliegenden Beispiel beschrieben wurde. Nun geht es darum, die statistischen Eigenschaften der Beziehung zwischen Eingang (physikalisch, obere Ebene) und Ausgang (konzeptionell, untere Ebene) zu identifizieren. Diese Eigenschaften werden verwendet, um das Fuzzy-Modell zu speisen. Wenn man eine Einheit von z Beziehungen R zwischen jedem der p Bezugstypen und einer oder mehreren der n Eigenschaften betrachtet, enthält jede Beziehung Rij die statistische Repräsentation der Gesamtheit der Beispiele dieser Beziehung, die von den Bezugsgegenständen geliefert werden. Die Beziehung enthält den Mittelwert, die mittlere Abweichung, min, max, n, usw. Zum Beispiel ist bei hundert Bezugsgegenständen die Eigenschaft i des Typs j sechzig Mal vorhanden, der Mittelwert der Beziehung Rij liegt bei 0,6.
  • Zur Verdeutlichung wird nun ein Anwendungsbeispiel einer Entscheidungstreffung ausgehend von einer Fuzzy-Annäherung angegeben. Die Bildinhaltserkennung ist hier das Anwendungsbeispiel.
  • Ziel ist es, in einem assoziativen Netz Beziehungen zwischen Formen und einem Typ, zum Beispiel dem Typ Fahrzeug, zu implementieren. Wir begrenzen uns im Rahmen dieses Beispiels, aber in der Praxis kann man mehr Eigenschaften als die Form und mehr Typen als den einfachen Typ Fahrzeug nehmen.
  • In 2 entspricht der Schritt A einer manuellen Identifizierung der Bezugseigenschaften (zum Beispiel Formen, mittleres Spektrum über die ersten 10 Sekunden eines Musikstücks) und der zutreffenden Typen (Spezialistenarbeit).
  • Schritt B ist eine automatische Erfassung (Suchmaschine und Internet-Sauger) von statistisch zutreffenden Gegenständen (zum Beispiel Bild eines Fahrzeugs), die einen gegebenen Typ beschreiben (gleiches gilt für alle definierten Typen), ausgehend von Schlüsselworten (Fahrzeug, Automobil, usw.).
  • Schritt C ist ein Analyseschritt des Inhalts der Bezugsgegenstände: Messung der Bezugseigenschaften, Analyse und Segmentierung der Ergebnisse (Gruppen). Man verwendet eine klassische Technik der Kategorisierung für die Identifizierung der Gruppen.
  • Diese drei Schritte werden für mehrere Typen von Bezügen durchgeführt, die durch ein assoziatives Netz verbunden sind. Diese Vorgehensweise ermöglicht es in einem späteren Schritt (Schritt H), durch Überschneidung bestimmte Mehrdeutigkeiten zu regeln.
  • Schritt D entspricht einer Fuzzifizierung, d.h. einer Identifizierung der Eingangsvariablen (die Eigenschaften) und Ausgangsvariablen (die Typen), der Funktionen und Zugehörigkeitsgrenzen, wobei die aus den vorhergehenden Schritten stammenden Informationen es ermöglichen, diesen Schritt zu automatisieren.
  • Schritt E entspricht einem Schritt der Definition der Inferenzregeln. Diese Regeln sind generisch und entsprechen einer homogenen Zusammensetzung von AND/OR-Funktionen, die die Eingänge mit den Ausgängen verbinden.
  • Schritt F ist ein Schritt der Messung der Eigenschaften am unbekannten Gegenstand.
  • Schritt G ist ein Schritt der Defuzzifizierung: Schätzung des Pegels der Ausgangsvariablen. Dieser Schritt, der hier im globalen Sinn präsentiert wird, entspricht der Defuzzifizierung jedes der Ausgänge. Das Ergebnis liegt in Form einer Zugehörigkeitswahrscheinlichkeit des unbekannten Gegenstand zu jedem Typ vor.
  • Schritt H ist ein Schritt der Kreuzung der Ergebnisse mit Hilfe eines assoziativen Netzes, um die Mehrdeutigkeit zu begrenzen (zum Beispiel, wenn der Gegenstand zu 50% ein Baum, zu 50% ein Fahrzeug und zu 50% ein Lastwagen ist, dann ist er sicherlich kein Baum).
  • Nun wird diese Schemadarstellung der 2 im Einzelnen beschrieben. In einem ersten Schritt der Definition von Bezügen (Schritte A bis C in 2) wird eine große Anzahl von Bildern erfasst, die Fahrzeuge enthalten, und es werden die Umrisse der Formen mit Hilfe von klassischen Softwarewerkzeugen identifiziert. Diese Formen werden normalisiert (auf identische Proportionen zurückgeführt) und verglichen (kartesischer Bezugspunkt), um homogene Gruppen zu identifizieren (übereinander legbarer Umriss mit minimalem Fehler). Für jede dieser Gruppen werden die Bezug genannte mittlere Form (die ein beliebiges Bild der Gruppe sein kann, da die Segmentierung – Schritt C – gewährleistet, dass die Mitglieder eine Gruppe eine starke Gleichartigkeit haben) und die Anzahl von Kandidaten pro Gruppe identifiziert. Es wird vorgegeben, dass die Bezugsformen, die die meisten Kandidaten zusammenfassen, die Bezugstypen (Fahrzeug) am besten beschreiben. Man identifiziert die optimale Anzahl von Gruppen mit klassischen Clustering-Techniken. Zum Beispiel optimiert man das Verhältnis zwischen mittlerem Fehler innerhalb der Gruppen und zwischen den Gruppen. Der Clustering-Algorithmus wird von der Fehlermatrix Form für Form gespeist.
  • Für die Fortsetzung des Beispiels wird angenommen, dass die ideale Zahl von Gruppen zwei ist. Man verfügt also über zwei mittlere Formen, von denen jede einer Gleichartigkeitswahrscheinlichkeit in Abhängigkeit vom Formprozentsatz in der Gruppe bezüglich der Gesamtanzahl von Formen zugeteilt ist.
  • Im Gegensatz zur binären Logik (ein Vorschlag ist richtig oder falsch) berücksichtigt die Fuzzy-Logik den Charakter "möglich" eines Vorschlags, indem sie ihm einen gewissen Likelihood-Pegel zuordnet. Zusätzlich zu einem Konzept führt die Fuzzy-Logik Methoden und eine geeignete Algebra ein, die es ermöglicht, unscharfe (annähernde) Größen zu manipulieren.
  • Der erste Schritt (Schritt D in 2), der unscharfe Quantifizierung (oder "Fuzzifizierung") genannt wird, besteht darin, ein Modell jedes Eingangs des Systems durch Kurven zu bilden, die den Zugehörigkeitsgrad zu den verschiedenen Zuständen des Systems angeben, der möglicherweise diesen Eingängen zugeordnet ist. In unserem Fall sind die Eingänge die physikalischen Eigenschaften und die Zustände sind die konzeptionellen Typen (oder Zuordnungen von Typen), wobei das System das Zuordnungsnetz (normalisierte Gewichtung) ist, das zwischen den Eingängen und Ausgängen existiert (siehe 1a).
  • So wird jeder Eingang in Abhängigkeit von seinem Gewichtungspegel in einer Kurve vom sigmoiden Typ (3 oder angenähert 4) dargestellt, die seinen Zugehörigkeitspegel zu einem gegebenen Typ erklärt.
  • Es wird zum Beispiel ein Netz (1) angenommen, in dem der maximale (normalisierte) Gewichtungspegel 100 ist. Eine physikalische Eigenschaft, die mit einem konzeptionellen Typ mit einer Gewichtung von 10 verbunden ist, wird als sie wenig wahrscheinlich beschreibend angesehen. Eine Gewichtung von 80 wird dagegen als eine sehr zutreffende Beschreibung angesehen.
  • In 4 liefern die Werte min und max, die durch statistische Analyse erhalten werden, die Schwellwerte, über die hinaus die Eigenschaft als den Typ überhaupt nicht mehr beschreibend (min) oder sehr gut beschreibend (max) betrachtet wird.
  • Die in 5 gezeigte Zugehörigkeitsfunktion erstellt den Zugehörigkeitspegel zu jeder unscharfen Untereinheit in Abhängigkeit vom Pegel des Fehlers zwischen den Bezugsformen (die beiden mittleren Formen) und den im zu analysierenden Bild enthaltenen Formen.
  • In 5 stellt das Symbol "–" eine wenig wahrscheinliche Zugehörigkeit dar. Das Symbol "=" stellt eine mögliche Zugehörigkeit dar. Das Symbol "+" stellt eine sehr wahrscheinliche Zugehörigkeit dar.
  • Simmin bzw. Simmax bezeichnen die minimale bzw. maximale Gleichartigkeit, die Form für Form in jeder Gruppe beim Lernvorgang berechnet werden. Simmax ist die Gleichartigkeit zwischen den beiden ähnlichsten Formen, und Simmin ist die Gleichartigkeit zwischen den beiden unterschiedlichsten Formen innerhalb einer gegebenen Gruppe.
  • In gleicher Weise wird die Zugehörigkeitsfunktion für die Ausgangsvariable (6) bestimmt.
  • Die Werte Simmin und Simmax beschreiben hier die minimale und maximale Unsicherheit für die Entscheidungstreffung. Es wird festgelegt, dass unterhalb von Simmin die Form nicht zum Typ gehört, und dass sie oberhalb von Simmax zum Typ gehört, und dass sie zwischen diesen beiden Werten mit einem gewissen Wahrscheinlichkeitspegel zum Typ gehört. Zum Beispiel kann man annehmen, das unterhalb von 20% Sicherheit die Person, die man in der Ferne sieht, nicht die Person ist, die man sich vorstellt, während man oberhalb von 75% meint, dass es die betreffende Person ist.
  • Die Inferenzregeln (Schritte E und F in 2: Definition der Inferenzregeln und Messung) setzen eine Folge von logischen Vorgängen und die Eingänge und den Ausgang verbindende Bedingungen voraus, die man je nach den zu verarbeitenden Fällen mehr oder weniger fein anpassen kann. Die nachfolgende Tabelle gibt die Zusammensetzungsmodi an, die die beiden Gruppen verbinden, um die Entscheidung der Zugehörigkeit oder Nicht-Zugehörigkeit zum Bezugstyp zu treffen. Es ist hier daran zu erinnern, dass die beiden Gruppen, die durch Segmentierung erhalten werden (Schritt C), ungleichartige Gruppen sind. Eine Zugehörigkeit zu den beiden Gruppen ermöglicht es also nicht, die Mehrdeutigkeit bezüglich der Zugehörigkeit zum Typ zu beheben. Aus diesem Grund wird ein "–" in der Gruppe zugeordnet, wenn E1 und E2 auf + sind.
  • Die Inferenzregeln zwischen den Eingängen (der Zugehörigkeitspegel zur Gruppe 1 oder 2) und dem Ausgang (Sicherheitspegel, dass es sich um ein Fahrzeug handelt) sind wie folgt. Die beiden Eingänge sind mit dem Ausgang über eine Funktion OR (d.h. dem Maximum der beiden Werte in Fuzzy-Logik) im Fall der schwachen Wahrscheinlichkeiten, und der Funktion AND im Fall der starken verbunden.
    Figure 00190001
    Tabelle 1: Inferenzen, die die Eingänge mit dem Ausgang verbinden.
  • Diese Tabelle wird folgendermaßen interpretiert:
    Wenn gilt (E1+ und E2+) oder (E1– und E2–) oder (E1– und E2=) oder (E1= und E2–), dann gilt S–.
  • Wenn die Ähnlichkeit mit der Form 1 und mit der Form 2 schwach ist, oder wenn die Ähnlichkeit mit der Form 1 schwach und mit der Form 2 mittelmäßig ist, oder wenn die Ähnlichkeit mit der Form 1 mittelmäßig und mit der Form 2 schwach ist, ist die unbekannte Form wenig wahrscheinlich ein Fahrzeug.
  • Wenn gilt (E1= und E2=) oder (E1+ und E2–) oder (E1– und E2+), dann gilt S=
  • Wenn gilt (E1+ und E2=) oder (E1= et E2+), dann gilt S+
  • Nun wird ein Beispiel eines Zusammensetzungsalgorithmus der Inferenzregeln für eine Anzahl von beliebigen Gruppen angegeben.
  • Jede Eigenschaft kann drei Zustände (+, –, =) annehmen, d.h. für n Eigenschaften sind 3n Kombinationen möglich.
  • In diesem Schritt werden die Werte S+; S–; und S= auf 0 initialisiert.
  • Für jede der 3n Kombinationen:
    • – werden das Vorzeichen und der Wert der Elemente der Kombination identifiziert;
    • – wird Min als das Minimum aller Elemente der Kombination berechnet;
    • – wird in jeder Kombination die Anzahl + und die Anzahl – gezählt.
  • Die Ergebnisse werden dann folgendermaßen ausgewertet:
    • – wenn die Anzahl von Elementen "+" geringer ist als 30% der Anzahl von Elementen der Kombination und mindestens gleich 1 Element, nimmt man den ganzen Wert, der 30% am nächsten liegt (Beispiel: wenn 0,7, dann nimmt man 1), wenn dann Min größer ist als der Wert S+, wird der Wert S+ als gleich Min definiert;
    • – wenn die Anzahl von Elementen über 70% liegt, wird dann, wenn Min über dem Wert S= liegt, der Wert von S= als gleich min definiert;
    • – wenn die Anzahl von Elementen zwischen 30 und 70 liegt, wird dann, wenn Min größer ist als der Wert S=, der Wert von S= als gleich Min definiert.
  • Der Ausgang dieses Systems (Schritte G und H: Defuzzifizierung und Kreuzung) hat die folgende Form: der Gegenstand entspricht (zum Beispiel) zu 80% dem Typ T1, zu 65% dem Typ T2, usw. In unserem Beispiel haben wir uns auf einen einzigen Typ beschränkt T1 = Fahrzeug.
  • Die Defuzzifizierung besteht darin, die Ausgangsgröße (hier die Zugehörigkeitswahrscheinlichkeit zu einem gegebenen Typ) zu schätzen. Dies wird durchgeführt, indem der Zustand der Eingangsvariablen auf die Ausgangsvariablen durch die Inferenzregeln hindurch projiziert wird. In der Praxis reduziert (enthauptet) man die Zugehörigkeitsfunktionen der Ausgangsvariablen gemäß den Ergebnissen, die von den logischen (unscharfen) Vorgängen geliefert werden, die von den Inferenzregeln diktiert werden. Der folgende Absatz gibt ein veranschaulichtes Beispiel dieses Vorgangs an.
  • Nun wird ein Anwendungsbeispiel angegeben. Es wird angenommen, dass nach der Lernphase jede Gruppe die folgenden Eigenschaften hat (7 und 8):
    Figure 00210001
  • Man nimmt an, dass ein Bild eine Form besitzt, die nach dem Vergleich mit den zwei Bezugsformen die folgenden Fehler hat:
    Figure 00210002
  • Wenn gilt (E1+ und E2+) oder (E1– und E2–) oder (E1– und E2=) oder (E1= und E2–), dann gilt S–
    S– = Max[Min(0, 0,25), Min(0,85, 0), Min(0,85, 0,7), Min(0,3, 0] = 0,7
  • Wenn gilt (E1= und E2=) oder (E1+ und E2–) oder (E1– und E2+), dann gilt S=
    S= = Max[Min(0,3, 0,25), Min(0, 0), Min(0,85, 0,25)] = 0,25
  • Wenn gilt (E1+ und E2+) (E1+ und E2=) oder (E1= und E2+), dann gilt S+
    S+ = Max[Min(0, 0,7), Min(0,3, 0,25)] = 0,25
  • Das Ergebnis 48 entspricht dem Schwerpunkt der drei Einheiten (–, +, =) des Ausgangs, reduziert je auf à 0,7, 0,25, 0,25 (schraffierte Fläche, 9).
  • Die Antwort ist also: "es ist zu 48% ein Fahrzeug". Da wir uns in unserem Beispiel auf einen einzigen Typ beschränkt haben, können wir keine Kreuzungen ausführen.
  • In Wirklichkeit wird zusätzlich der Schritt angewendet, der darin besteht, die so erhaltenen Zugehörigkeitswahrscheinlichkeiten zu den verschiedenen Typen in Kombination mit einer Reihe von Affinitätsbeziehungen zwischen Typen zu verwenden, Affinitäten, die für die menschliche Wahrnehmung repräsentativ sind, um Zugehörigkeiten auszuwählen, deren Wahrscheinlichkeit am größten ist, und die sich gemeinsam durch ihre Affinitätsbeziehung bezeichnen, und um Zugehörigkeiten auszuschließen, die eine geringe Affinität mit den ausgewählten Typen haben.
  • Dieser Schritt, in Kombination mit den vorhergehenden Schritten, ermöglicht es, die Präzision der Analyse deutlich zu vervielfachen. Global ist diese Methode interessant, da sie ein Zusammensetzungsgesetz für Fuzzy-Eingänge bietet, was umso schwerer zu verwalten ist, als es viele Eingänge gibt.

Claims (12)

  1. Verfahren zur automatischen Beschreibung eines unbekannten Multimedia-Gegenstands, bei dem der unbekannte Gegenstand mehreren Typen von Bezugs-Multimedia-Gegenständen zugeordnet wird, jedes Mal gemäß einer Wahrscheinlichkeit der Zugehörigkeit zu jedem betrachteten Typ (G), wobei das Verfahren einen Schritt enthält, der darin besteht, zumindest eine physikalische Eigenschaft am unbekannten Gegenstand (F) zu messen und sie mit Maßen von Eigenschaften zu vergleichen, die die Bezugstypen bestmöglich repräsentieren, wobei das Verfahren außerdem den Schritt (H) aufweist, für jeden Typ mindestens eine Wahrscheinlichkeitsbeziehung zu verwenden, die eine Wahrscheinlichkeit der Zugehörigkeit zum betrachteten Typ in Abhängigkeit vom Ergebnis des Vergleichs der Eigenschaften des unbekannten Gegenstands und des Typs ergibt, wobei das Verfahren außerdem den Schritt aufweist, die so erhaltenen Wahrscheinlichkeiten der Zugehörigkeit zu den verschiedenen Typen in Kombination mit einer Reihe von Affinitätsbeziehungen zwischen Typen zu verwenden, um Zugehörigkeiten auszuwählen, deren Wahrscheinlichkeiten am größten sind und die sich durch ihre Affinitätsbeziehung gemeinsam bezeichnen, und um Zugehörigkeiten auszuschließen, die eine geringere Affinität zu den ausgewählten Typen haben.
  2. Beschreibungsverfahren nach Anspruch 1, dadurch gekennzeichnet, dass es den einleitenden Schritt aufweist, die Bezugseigenschaften eines Typs ausgehend von einer Gruppe von Multimedia-Gegenständen zu definieren, von denen angenommen wird, dass sie diesen Typ (B) repräsentieren, indem eine Messung einer physikalischen Eigenschaft bei dieser ganzen Gruppe durchgeführt wird und indem aus dieser Reihe von Messungen mindestens ein Bezugswert für diese Eigenschaft gewonnen wird, der anschließend verwendet wird, um die Wahrscheinlichkeitsbeziehung der Zugehörigkeit zum Typ als Wert zu definieren, mit dem eine Messung an einem unbekannten Gegenstand verglichen wird, um die Wahrscheinlichkeit der Zugehörigkeit zum Typ abzuleiten.
  3. Verfahren nach Anspruch 2, dadurch gekennzeichnet, dass die Gruppe von Multimedia-Gegenständen mit Hilfe eines Schritts der automatischen Recherche in einem Informationssystem mit einem Internet-Sauger und mit einer Internet-Suchmaschine geliefert wird.
  4. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass es den einleitenden Schritt aufweist, an einer Einheit von beschreibenden Gegenständen eine Häufigkeit des gleichzeitigen Vorkommens der Typen in diesen Gegenständen zu messen und daraus die Existenz einer Affinität zwischen mindestens zwei Typen abzuleiten, wenn diese ein besonderes gleichzeitiges Vorkommen haben.
  5. Beschreibungsverfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass es den Schritt aufweist, eine Formerkennung am unbekannten Multimedia-Gegenstand (F) durchzuführen, wobei mindestens eine am unbekannten Gegenstand zu erkennende Bezugsform eine physikalische Eigenschaft bildet, die zur Definition eines der Typen gehört.
  6. Verfahren nach Anspruch 5, dadurch gekennzeichnet, dass die Formerkennung eine Messung der Ähnlichkeit zwischen einer vom Gegenstand entnommenen Form und der Bezugsform sowie ebenfalls die Verwendung einer vordefinierten Beziehung aufweist, die eine Wahrscheinlichkeit der Zugehörigkeit (G) zum Typ in Abhängigkeit von der durchgeführten Formähnlichkeitsmessung angibt.
  7. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass mindestens ein Typ mehrere Bezugseigenschaften (E1, E2) enthält, dass mindestens zwei Messungen am unbekannten Gegenstand durchgeführt werden, um ein Maß der Nähe zu jeder der beiden Bezugseigenschaften zu erstellen, und dass die Wahrscheinlichkeit der Zugehörigkeit zu diesem Typ unter Verwendung mindestens zweier Beziehungen erstellt wird, die je eine Wahrscheinlichkeit der Zugehörigkeit zum Typ in Abhängigkeit von der Nähe zu einer anderen Eigenschaft angeben, und dass die beiden Wahrscheinlichkeitsbeziehungen verwendet werden, um ein globales Ergebnis der Wahrscheinlichkeit der Zugehörigkeit des Gegenstands zum betrachteten Typ zu erstellen.
  8. Verfahren nach dem vorhergehenden Anspruch, dadurch gekennzeichnet, dass die mindestens zwei Wahrscheinlichkeitsbeziehungen der Zugehörigkeit zum Typ gemäß einer kombinatorischen Fuzzy-Logik-Technik kombiniert werden, um das Ergebnis der Wahrscheinlichkeit der Zugehörigkeit des Gegenstands zum betrachteten Typ zu liefern.
  9. Verfahren nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass eine Fuzzy-Logik-Technik eingesetzt wird, die aus einem Mechanismus besteht, der ausgehend von einer Kombination von Ähnlichkeits-Wahrscheinlichkeiten mit den verschiedenen Eigenschaften des Bezugstyps einen einzigen Wahrscheinlichkeitspegel der Zugehörigkeit zu einem Bezugstyp angibt.
  10. Vorrichtung zur automatischen Beschreibung eines unbekannten Multimedia-Gegenstands, die Mittel zur Assoziation des unbekannten Gegenstands zu mehreren Typen von Bezugs-Multimedia-Gegenständen, jedes Mal gemäß einer Zugehörigkeitswahrscheinlichkeit zum betrachteten Typ (G), aufweist, wobei die Vorrichtung Mittel enthält, um mindestens eine physikalische Eigenschaft am unbekannten Gegenstand (F) zu messen und sie mit Maßen zu vergleichen, die die Bezugstypen am besten repräsentieren, wobei die Vorrichtung außerdem Mittel aufweist, die für jeden Typ mindestens eine Wahrscheinlichkeitsbeziehung verwenden, die eine Wahrscheinlichkeit der Zugehörigkeit zum betrachteten Typ in Abhängigkeit vom Ergebnis des Vergleichs der Eigenschaften des unbekannten Gegenstands und des Typs angibt, wobei die Vorrichtung außerdem Mittel aufweist, um die so erhaltenen Wahrscheinlichkeiten der Zugehörigkeit zu den verschiedenen Typen in Kombination mit einer Reihe von Affinitätsbeziehungen zwischen Typen zu verwenden, um Zugehörigkeiten auszuwählen (H), deren Wahrscheinlichkeiten am größten sind und die sich durch ihre Affinitätsbeziehung gemeinsam bezeichnen, und um Zugehörigkeiten auszuschließen, die eine geringere Affinität zu den gewählten Typen haben.
  11. Vorrichtung nach Anspruch 10, dadurch gekennzeichnet, dass sie Verarbeitungsmittel aufweist, um mehrere Gruppen von Bezugs-Multimedia-Gegenständen (B, C) auszuwerten, wobei jede Gruppe ihren entsprechenden Typ bestmöglich repräsentiert, wobei diese Verarbeitungsmittel außerdem vorgesehen sind, um mindestens eine Messung einer physikalischen Eigenschaft an einer ganzen betrachteten Gruppe durchzuführen und daraus ein Bezugsmaß dieser Eigenschaft abzuleiten, wobei dieses Bezugsmaß anschließend bei der Definition der Beziehung, die eine Zugehörigkeitswahrscheinlichkeit zum betrachteten Typ angibt, als Maß verwendet wird, mit dem die Vorrichtung eine Messung an einem unbekannten Gegenstand vergleicht, um die Wahrscheinlichkeit der Zugehörigkeit zum betrachteten Typ (G) abzuleiten.
  12. Vorrichtung nach Anspruch 10 oder nach Anspruch 11, dadurch gekennzeichnet, dass sie Mittel aufweist, um einen einleitenden Schritt anzuwenden, an einer Einheit von beschreibenden Gegenständen eine Häufigkeit des Vorkommens der Typen in diesen Gegenständen zu messen und daraus die Existenz einer Affinität zwischen mindestens zwei Typen abzuleiten, wenn diese ein besonderes gleichzeitiges Vorkommen haben.
DE60309191T 2002-08-30 2003-08-27 System zum fuzzy-assoziativen beschreiben von multimedia-gegenständen Expired - Lifetime DE60309191T2 (de)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FR0210776 2002-08-30
FR0210776A FR2844079B1 (fr) 2002-08-30 2002-08-30 Systeme associatif flou de description d'objets multimedia
PCT/FR2003/002588 WO2004021265A2 (fr) 2002-08-30 2003-08-27 SystEme associatif flou de description d'objets multimEdia

Publications (2)

Publication Number Publication Date
DE60309191D1 DE60309191D1 (de) 2006-11-30
DE60309191T2 true DE60309191T2 (de) 2007-08-30

Family

ID=31503014

Family Applications (1)

Application Number Title Priority Date Filing Date
DE60309191T Expired - Lifetime DE60309191T2 (de) 2002-08-30 2003-08-27 System zum fuzzy-assoziativen beschreiben von multimedia-gegenständen

Country Status (8)

Country Link
US (1) US7460715B2 (de)
EP (1) EP1554687B1 (de)
AT (1) ATE343178T1 (de)
AU (1) AU2003276329A1 (de)
DE (1) DE60309191T2 (de)
ES (1) ES2276150T3 (de)
FR (1) FR2844079B1 (de)
WO (1) WO2004021265A2 (de)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2282285A3 (de) * 2009-07-30 2014-04-30 EADS Deutschland GmbH Einrichtung und Verfahren zur Transformation von Objektklassifikations-Ergebnissen

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2844079B1 (fr) * 2002-08-30 2005-08-26 France Telecom Systeme associatif flou de description d'objets multimedia
US10140553B1 (en) * 2018-03-08 2018-11-27 Capital One Services, Llc Machine learning artificial intelligence system for identifying vehicles

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6400996B1 (en) * 1999-02-01 2002-06-04 Steven M. Hoffberg Adaptive pattern recognition based control system and method
DE4407998C2 (de) * 1994-03-10 1996-03-14 Ibm Verfahren und Vorrichtung zur Erkennung eines Musters auf einem Beleg
US5970171A (en) * 1995-08-14 1999-10-19 Hughes Aircraft Company Apparatus and method of fusing the outputs of multiple intelligent character recognition (ICR) systems to reduce error rate
KR100671098B1 (ko) * 1999-02-01 2007-01-17 주식회사 팬택앤큐리텔 모양정보를 이용한 멀티미디어 데이터의 검색 방법 및 장치
US6751354B2 (en) * 1999-03-11 2004-06-15 Fuji Xerox Co., Ltd Methods and apparatuses for video segmentation, classification, and retrieval using image class statistical models
US20010044719A1 (en) * 1999-07-02 2001-11-22 Mitsubishi Electric Research Laboratories, Inc. Method and system for recognizing, indexing, and searching acoustic signals
CN1312615C (zh) * 1999-07-03 2007-04-25 纽约市哥伦比亚大学托管会 为媒体内容管理系统索引数字信息信号的方法和设备
US6847980B1 (en) * 1999-07-03 2005-01-25 Ana B. Benitez Fundamental entity-relationship models for the generic audio visual data signal description
US20030191682A1 (en) * 1999-09-28 2003-10-09 Allen Oh Positioning system for perception management
US20020183984A1 (en) * 2001-06-05 2002-12-05 Yining Deng Modular intelligent multimedia analysis system
US7327887B2 (en) * 2002-04-10 2008-02-05 National Instruments Corporation Increasing accuracy of discrete curve transform estimates for curve matching
FR2844079B1 (fr) * 2002-08-30 2005-08-26 France Telecom Systeme associatif flou de description d'objets multimedia
US7325735B2 (en) * 2004-04-02 2008-02-05 K-Nfb Reading Technology, Inc. Directed reading mode for portable reading machine
US7899253B2 (en) * 2006-09-08 2011-03-01 Mitsubishi Electric Research Laboratories, Inc. Detecting moving objects in video by classifying on riemannian manifolds

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2282285A3 (de) * 2009-07-30 2014-04-30 EADS Deutschland GmbH Einrichtung und Verfahren zur Transformation von Objektklassifikations-Ergebnissen

Also Published As

Publication number Publication date
WO2004021265A2 (fr) 2004-03-11
DE60309191D1 (de) 2006-11-30
EP1554687A2 (de) 2005-07-20
AU2003276329A1 (en) 2004-03-19
ATE343178T1 (de) 2006-11-15
WO2004021265A3 (fr) 2004-04-08
US7460715B2 (en) 2008-12-02
FR2844079A1 (fr) 2004-03-05
US20050249418A1 (en) 2005-11-10
FR2844079B1 (fr) 2005-08-26
EP1554687B1 (de) 2006-10-18
AU2003276329A8 (en) 2004-03-19
ES2276150T3 (es) 2007-06-16

Similar Documents

Publication Publication Date Title
DE602004009676T2 (de) Verfahren zur Musikklassifikation
DE60307224T2 (de) Computergestütztes verfahren zur entdeckung von mustern in unbekannten hochdimensionalen daten
DE69732904T2 (de) Verfahren und gerät zur extraktion gegenstände chakterisierender merkmale
DE112017005651T5 (de) Vorrichtung zur Klassifizierung von Daten
DE112016001796T5 (de) Feinkörnige bildklassifizierung durch erforschen von etiketten von einem bipartiten graphen
DE102017218889A1 (de) Unscharf parametriertes KI-Modul sowie Verfahren zum Betreiben
DE102018128531A1 (de) System und Verfahren zum Analysieren einer durch eine Punktwolke dargestellten dreidimensionalen Umgebung durch tiefes Lernen
EP3847578A1 (de) Verfahren und vorrichtung zur klassifizierung von objekten
DE102019127282A1 (de) System und Verfahren zum Analysieren einer dreidimensionalen Umgebung durch tiefes Lernen
DE102019209644A1 (de) Verfahren zum Trainieren eines neuronalen Netzes
DE112019006156T5 (de) Erkennung und behandlung von unsachgemässen eingaben durch neuronale netzwerke
DE102020210352A1 (de) Verfahren und Vorrichtung zum Transferlernen zwischen modifizierten Aufgaben
DE10131193A1 (de) Sitzungshistorien-basierte altersgerichtete natürlichsprachliche Dokumentensuche
WO2020061603A1 (de) Verfahren und vorrichtung zur analyse eines sensordatenstroms sowie verfahren zum führen eines fahrzeugs
WO2022037853A1 (de) Computerimplementiertes verfahren zur analyse des innenraums eines fahrzeugs
DE102018130004B3 (de) Auf einer support vector machine basierende intelligente fahrweise zum passieren von kreuzungen und intelligentes fahrsystem dafür
DE102013210771A1 (de) Detektion eines komplexen objekts unter verwendung einer kaskade von klassifizierungseinrichtungen
DE60309191T2 (de) System zum fuzzy-assoziativen beschreiben von multimedia-gegenständen
DE69915817T2 (de) Vorrichtung und verfahren zur spracherkennung
DE102020216188A1 (de) Vorrichtung und Verfahren zum Trainieren eines Klassifizierers
DE102021204040A1 (de) Verfahren, Vorrichtung und Computerprogramm zur Erstellung von Trainingsdaten im Fahrzeug
WO2001059609A1 (de) Vorrichtung, speichermedium und verfahren zum ermitteln von objekten mit grossen ähnlichkeit zu einem vorgegebenen objekt
DE102020208828A1 (de) Verfahren und Vorrichtung zum Erstellen eines maschinellen Lernsystems
DE19549300C1 (de) Verfahren zur rechnergestützten Ermittlung einer Bewertungsvariablen eines Bayesianischen Netzwerkgraphen
DE102019217952A1 (de) Verfahren und Vorrichtung zum Bereitstellen eines Trainingsdatensatzes zum Trainieren einer KI-Funktion auf eine unbekannte Datendomäne

Legal Events

Date Code Title Description
8364 No opposition during term of opposition