DE102008040163A1 - Vorrichtung und Verfahren zur Bereithaltung von Zuordnungsdaten, welche Audiodatensätze in Teilmengen aufteilen - Google Patents

Vorrichtung und Verfahren zur Bereithaltung von Zuordnungsdaten, welche Audiodatensätze in Teilmengen aufteilen Download PDF

Info

Publication number
DE102008040163A1
DE102008040163A1 DE102008040163A DE102008040163A DE102008040163A1 DE 102008040163 A1 DE102008040163 A1 DE 102008040163A1 DE 102008040163 A DE102008040163 A DE 102008040163A DE 102008040163 A DE102008040163 A DE 102008040163A DE 102008040163 A1 DE102008040163 A1 DE 102008040163A1
Authority
DE
Germany
Prior art keywords
audio data
subset
subsets
arithmetic unit
assignment
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
DE102008040163A
Other languages
English (en)
Inventor
Jan Wietse Balkema
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Robert Bosch GmbH
Original Assignee
Robert Bosch GmbH
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Robert Bosch GmbH filed Critical Robert Bosch GmbH
Priority to DE102008040163A priority Critical patent/DE102008040163A1/de
Publication of DE102008040163A1 publication Critical patent/DE102008040163A1/de
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/683Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content

Landscapes

  • Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

Die Erfindung betrifft eine Vorrichtung zur Bereithaltung von Zuordnungsdaten, welche Audiodatensätze einer Grundmenge in Teilmengen von Audiodatensätzen aufteilen.

Description

  • Stand der Technik
  • Die Erfindung geht aus von einer Vorrichtung oder Verfahren nach Gattung der unabhängigen Ansprüche.
  • Aus [1] sind bereits Verfahren zur Erzeugung von Listen von Musikstücken bekannt, wobei die Musikstücke Musik ähnlicher oder gleicher Art enthalten. Ferner ist es bekannt, dass ein Benutzer einen Musikstil oder ein einzelnes Musikstück vorgibt, sodass anhand von statistischen Datenmodellen eine derartige Liste erzeugt wird. Hierdurch wird es dem Nutzer ermöglicht, auf einfache Weise eine Vielzahl von Musikstücken, welche sich in der sich ergebenden Liste befinden, zur Wiedergabe auszuwählen, ohne diese Musikstücke jeweils einzeln auszuwählen.
  • Für die Generierung derartiger inhaltsbasierter Listen ist aus [1] bereits ein Verfahren bekannt, welches auf einer sogenannten Distanzmatrix beruht. In einer solchen Distanzmatrix finden sich Werte, welche Ausdruck der Ähnlichkeit der jeweiligen Musikstücke zueinander sind. Die Bestimmung derartiger Werte erfolgt derart, dass zunächst für jedes Musikstück ein Datenmodell in Form eines Gaussian Mixture Modells (GMM) berechnet wird, und dass anhand einer Distanzfunktion die Ähnlichkeit zwischen den jeweiligen Datenmodellen der jeweiligen Musikstücke bestimmt und als entsprechender Wert in der Distanzmatrix eingetragen wird. Anhand der sich in der Distanzmatrix befindlichen Werte ist somit eine Aussage über die Ähnlichkeit zweier Musikstücke zueinander möglich.
  • Wird nun durch einen Nutzer ein Musikstück vorgegeben, so lässt sich anhand der Distanzmatrix ermitteln, wie groß die Ähnlichkeit weiterer Musikstücke zu einem vorgegebenen Musikstück ist. Hierzu muss notwendigerweise die Ähnlichkeit des GMMs des vorgegebenen Musikstückes zu allen weiteren GMMs der weiteren Musikstücke zuvor bestimmt worden sein. Bei dem vorgegebenen Musikstück handelt es sich also um ein Musikstück, welches zuvor zur Erstellung der Distanzmatrix in Betracht gezogen wurde. Entnimmt man der Distanzmatrix die Werte, welche eine Aussage über die Ähnlichkeit des vorgegebenen Musikstückes zu den weiteren Musikstücken darstellen, so werden in eine Liste von Musikstücken ähnlicher Art jene Musikstücke aufgenommen, deren Ähnlichkeit zu dem vorgegebenen Musikstück durch einen hinreichenden Wert angezeigt wird. Es ist somit ferner zu entscheiden, ab welchem genauen Zahlenwert ein solcher Wert eine hinreichende Ähnlichkeit der Musikstücke zueinander indiziert. Hierzu ist ein entsprechender Schwellwert zu bestimmen. Die Bestimmung eines solchen Schwellwertes erfordert weitere Rechenkomplexität sowie in der Regel eine Berücksichtigung heuristischer Annahmen. Soll zu einem späteres Zeitpunkt ein weiteres Musikstück in die Distanzmatrix Eingang finden, so muss zur Bestimmung der Ähnlichkeitswerte dieses Musikstückes zu allen weiteren Musikstücken in der Distanzmatrix die Ähnlichkeit eines das neue Musikstück repräsentierende GMM zu allen weitere GMMs aller weiteren Musikstücke bestimmt werden. Hierzu müssen entweder alle GMMs aller zuvor berücksichtigten Musikstücke neu berechnet werden, oder diese GMMs müssen abgespeichert vorliegen.
  • Offenbarung der Erfindung
  • Vorteile der Erfindung
  • Die erfindungsgemäße Vorrichtung mit den Merkmalen des unabhängigen Anspruchs hat demgegenüber den Vorteil, dass Zuordnungsdaten, welche Audiodatensätze einer Grundmenge in Teilmengen von Audiodatensätzen aufteilen, dadurch bereitgehalten werden, dass unter Berücksichtigung von Wahrscheinlichkeitsfunktionen von Audiodatensätzen der Grundmenge für jede Teilmenge eine Wahrscheinlichkeitsfunktion berechnet wird, welche diese Teilmenge repräsentiert. Ferner bilden entweder die die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktionen die Zuordnungsdaten, oder die Zuordnungsdaten werden unter Verwendung der Wahrscheinlichkeitsfunktionen der Audiodaten der Grundmenge und jener Wahrscheinlichkeitsfunktionen, welche die Teilmengen repräsentieren, ermittelt. Dieses ist deshalb vorteilhaft, da jede Teilmenge, welche vorzugsweise einem Musikstil entspricht, durch jeweils eine Wahrscheinlichkeitsfunktion repräsentiert wird, welche die Zuordnungsdaten bilden. Um eine Grundmenge von Audiodatensätze in Teilmengen, bzw. Musikstile, aufzuteilen ist es somit nicht notwendig, die Ähnlichkeit von Audiodatensätzen, vorzugweise Musikstücken, durch einen Vergleich aller die Audiodatensätze repräsentierenden Wahrscheinlichkeitsfunktion untereinander vorzunehmen.
  • Vorzugweise erfolgt die Bestimmung einer Wahrscheinlichkeitsfunktion eines Audiodatensatzes, indem die Recheneinheit Merkmale aus dem Audiodatensatz extrahiert, und ferner dadurch, dass die Recheneinheit eine Verteilungsdichtefunktion der extrahierten Merkmale als die Wahrscheinlichkeitsfunktion des Audiodatensatzes bestimmt. Dieses ist vorteilhaft, da es sich bei Verteilungsdichtefunktion von aus Audiodatensätzen extrahierten Merkmalen um Wahrscheinlichkeitsfunktionen handelt, welche die charakteristischen akustischen Eigenschaften eines Audiodatensatzes in einfacher und kompakter Form modellieren.
  • Gemäß eines weiteren Ausführungsbeispieles bestimmt die Recheneinheit als die Wahrscheinlichkeitsfunktion eines Audiodatensatzes eine Verteilungsdichtefunktion in Form eines Gaussian Mixture Models (GMM), welches durch einen Parametersatz beschrieben wird. Anschließend bestimmt die Recheneinheit vorzugsweise die die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktion als Verteilungsdichtefunktionen in Form von Gaussian Mixture Modellen, deren Parametersätze durch die Recheneinheit in Abhängigkeit jener Parametersätze berechnet werden, welche durch die anhand von Audiodatensätzen gewonnenen Gaussian Mixture Modelle gegeben sind. Dieses ist vorteilhaft, da eine Repräsentation von Teilmengen, vorzugsweise von Musikstilen, durch jeweils einen einzelnen Satz an Parametern eines Gaussian Mixture Models realisiert werden kann.
  • Vorzugsweise initialisiert die Recheneinheit im Zuge der Berechnung der Parameter der Gaussian Mixture Modelle der Teilmengen diese Parameter mit Werten, ordnet anschließend jedem Gaussian Mixture Modellen einen Index zu, ordnet danach anhand eines Distanzmaßes ein Gaussian Mixture Model eines Audiodatensatz einem Gaussian Mixture Model einer Teilmenge zu und berechnet die Parameter des Gaussian Mixture Models der Teilmenge unter Verwendung der Parameter des ihm zugeordneten Gaussian Mitxture Models neu. Dieses ist vorteilhaft, da nach einer Initialisierung der Parameter der Gaussian Mixture Modelle der Teilmengen diese Parameter anhand von Parametern von GMM solcher Audiodatensätze neu berechnet werden, welche für die Teilmenge relevant sind. Die Relevanz eines GMMs eines Audiodatensatzes zur Neuberechnung eines GMMs einer Teilmenge wird hierbei vorteilhafterweise anhand eines Distanzmaßes bestimmt. Eine Zuordnung eines Audiodatensatzes zu einer Teilmenge bzw. eine Zuordnung eines GMMs eines Audiodatensatzes zu einem GMM einer Teilmenge durch einen Nutzer kann somit vorzugsweise entfallen. Statt dessen erfolgt eine derartige Zuordnung vorzugsweise anhand des Distanzmaßes mittels eines Vergleichs des GMMs des zuzuordnenden Audiodatensatzes mit jenen GMMs, welche die Teilmengen repräsentieren.
  • Vorteilhafterweise berechnet die Recheneinheit unter Berücksichtigung der den Teilmengen zugeordneten Indizes die Parameter von Gaussian Mixture Modellen mehrerer Teilmengen unter Verwendung der Parameter des einer Teilmenge zugeordneten Gaussian Mixture Models neu. Dieses ist vorteilhaft, da die Parameter eines GMMs eines Audiodatensatzes nicht nur in die Adaption der Parameter eines GMMs einer einzelnen Teilmenge Einfluss finden, sondern da eine Adaption von Parametern von solchen GMMs weiterer Teilmengen erfolgt, deren Relation zu der Teilmenge, welcher das GMM des Audiodatensatzes zugeordnet wurde, berücksichtigt wird.
  • Vorzugsweise ermittelt die Recheneinheit die Zuordnungsdaten zur Aufteilung einer Grundmenge von Audiodatensätzen in Teilmengen unter Verwendung der Wahrscheinlichkeitsfunktion der Audiodatensätze der Grundmenge und der die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktionen. Hierbei ermittelt die Recheneinheit als die Zuordnungsdaten eines Audiodatensatzes zu einer Teilmenge jenen Index, welcher jenem Gaussian Mixture Model einer Teilmenge entspricht, zu welchem das Gaussian Mixture Model des Audiodatensatzes zugeordnet wurde. Dieses ist vorteilhaft, da somit unter Verwendung von Gaussian Mixture Modellen von Audiodatensätzen als auch von Gaussian Mixture Modellen für Teilmengen Zuordnungsdaten zur Aufteilung von einer Grundmenge in Teilmengen in Form von Indizes ermittelt werden können.
  • Gemäß eines nebengeordneten Anspruchs wird eine Vorrichtung zur Ausgabe einer Teilmenge von Audiodatensätzen aus einer Grundmenge von Audiodatensätzen an einen Nutzer in Abhängigkeit eines durch einen Nutzer vorgegebenen Audiodatensatzes beansprucht. In eine solche Vorrichtung werden Zuordnungsdaten zur Zuordnung von Audiodatensätzen zu Teilmengen eingelesen, wobei die eingelesenen Zuordnungsdaten jeweilige Teilzuordnungsdatensätze aufweisen. Bei den jeweiligen Teilzuordnungsdaten handelt es sich hierbei um Wahrscheinlichkeitsfunktionen. Dieses ist vorteilhaft, da anhand von solchen Teilzuordnungsdaten in Form von Wahrscheinlichkeitsfunktionen nicht nur eine Zuordnung solcher. Audiodatensätze zu Teilmengen möglich ist, welche bei der Bestimmung der Wahrscheinlichkeitsfunktionen berücksichtigt wurden, sondern dass ferner auch weitere, zuvor nicht berücksichtigte Audiodatensätze einer Teilmenge zugeordnet werden können.
  • Vorteilhafterweise extrahiert die Recheneinheit Merkmale aus dem vorgegebenen Audiodatensatz zur Bestimmung einer Wahrscheinlichkeitsfunktion des vorgegebenen Audiodatensatzes, wobei als die Wahrscheinlichkeitsfunktion des vorgegebenen Audiodatensatzes eine Verteilungsdichtefunktion der extrahierten Merkmale bestimmt wird. Dieses ist vorteilhaft, da Verteilungsdichtefunktionen anhand von einer begrenzten Menge an Parametern beschreibbar sind.
  • Gemäß eines weiteren Ausführungsbeispieles ist die Vorrichtung zur Ausgabe einer Teilmenge von Audiodatensätzen dadurch gekennzeichnet, dass die Recheneinheit der Vorrichtung als die Wahrscheinlichkeitsfunktion des vorgegebenen Audiodatensatzes eine Verteilungsdichtefunktion in Form eines Gaussian Mixture Models bestimmt, wobei es sich ferner bei den eingelesenen Zuordnungsdaten ebenfalls um Wahrscheinlichkeitsfunktionen in Form von Gaussian Mixture Modellen handelt. Dieses ist vorteilhaft, da nach einer Aufteilung der Grundmenge von Audiodatensätzen in Teilmengen anhand der Zuordnungsdaten es ferner möglich ist, durch Verwendung des Gaussian Mixture Models des vorgegebenen Audiodatensatzes diesen vorgegebenen Audiodatensatz einem Gaussian Mixture Model einer Teilmenge und somit den vorgegebenen Audiodatensatz der Teilmenge zuzuordnen. Dieses ist insbesondere deshalb vorteilhaft, da eine Zuordnung eines vorgegebenen Audiodatensatzes zu einer Teilmenge von Audiodatensätzen auch dann möglich ist, wenn die eingelesenen Zuordnungsdaten in Form von Gaussian Mixture Modellen ohne Berücksichtigung des vorgegebenen Audiodatensatzes und des daraus resultierenden Gaussian Mixture Models bestimmt wurden.
  • Vorzugsweise nimmt die Recheneinheit der Vorrichtung zur Ausgabe einer Teilmenge von Audiodatensätzen die Zuordnung des vorgegebenen Audiodatensatzes zu einer Teilmenge anhand von Distanzmaßen zwischen dem Gaussian Mixture Model des vorgegebenen Audiodatensatzes und den Gaussian Mixture Modellen der Teilmengen vor. Dieses ist vorteilhaft, da eine Zuordnung des vorgegebenen Audiodatensatzes zu einer Teilmenge von Audiodatensätzen durch eine einfache Berechnung eines Distanzmaßes, vorzugsweise eines Skalarwertes als das Ergebnis eines Distanzmaßes, zwischen zwei Gaussian Mixture Modellen durchgeführt werden kann.
  • Gemäß eines nebengeordneten Anspruchs wird eine Vorrichtung zur Ausgabe einer Teilmenge von Audiodatensätzen aus einer Grundmenge von Audiodatensätzen beansprucht, welche mit einer Vorrichtung zur Bereithaltung von Zuordnungsdaten zum Zwecke eines Datenaustausches verknüpft ist Hierbei werden in die Vorrichtung zur Ausgabe einer Teilmenge von Audiodatensätzen Zuordnungsdaten eingelesen, welche von der Vorrichtung zur Bereithaltung von Zuordnungsdaten an die Vorrichtung zur Ausgabe einer Teilmenge von Audiodatensätzen übertragen werden. Hierbei sind ferner die ersten Zuordnungsdaten zur Zuordnung eines vorgegebenen Audiodatensatzes zu einer Teilmenge von Audiodatensätzen in den eingelesenen Zuordnungsdaten enthalten. Dieses ist vorteilhaft, da somit die ersten Zuordnungsdaten zur Zuordnung eines vorgegebenen Audiodatensatzes zu einer Teilmenge von Audiodatensätzen nicht durch die Vorrichtung zur Ausgabe einer Teilmenge von Audiodatensätzen bestimmt werden muss, sondern bereits durch die Vorrichtung zur Bereithaltung von Zuordnungsdaten bereitgestellt werden.
  • Gemäß eines nebengeordneten Patentanspruchs wird ein Verfahren zur Bereitstellung von Zuordnungsdaten beansprucht, wobei die Zuordnungsdaten Audiodatensätze einer Grundmenge in Teilmengen von Audiodatensätzen aufteilen. Hierbei wird für jeden der Audiodatensätze mindestens eine Wahrscheinlichkeitsfunktion bestimmt und ferner unter Berücksichtigung der Wahrscheinlichkeitsfunktionen der Audiodatensätze für jede Teilmenge eine Wahrscheinlichkeitsfunktion berechnet, welche diese Teilmenge repräsentiert. Hierbei bilden entweder die die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktionen die Zuordnungsdaten, oder die Zuordnungsdaten werden unter Verwendung der Wahrscheinlichkeitsfunktion der Audiodatensätze der Grundmenge und der die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktionen ermittelt. Das erfindungsgemäße Verfahren hat den Vorteil, dass Zuordnungsdaten zur Aufteilung von Audiodatensätzen in Teilmengen in Form von Wahrscheinlichkeitsfunktionen zu einem ersten Zeitpunkt gebildet werden, anhand derer zu einem späteren Zeitpunkt weitere Audiodatensätze, für welche zu einem zweiten, späteren Zeitpunkt weitere Wahrscheinlichkeitsfunktionen bestimmt werden. Dies erfolgt durch Vergleich der die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktionen mit den weiteren Wahrscheinlichkeitsfunktionen und einer anschließenden Zurodnung.
  • Gemäß eines nebengeordneten Patentanspruchs wird ein Verfahren zur Ausgabe einer Teilmenge von Audiodatensätzen aus einer Grundmenge von Audiodatensätzen an einen Nutzer in Abhängigkeit eines durch einen Nutzer vorgegebenen Audiodatensatzes beansprucht Die Ausgabe der Teilmenge erfolgt in Abhängigkeit einer Zuordnung des vorgegebenen Audiodatensatzes zu einer Teilmenge, wobei für diese Zuordnung für den vorgegebenen Audiodatensatz erste Zuordnungsdaten ermittelt werden, wobei ferner anhand von Zuordnungsdaten die Audiodatensätze der Grundmenge in Teilmengen aufgeteilt werden, wobei es sich bei den ersten Zuordnungsdaten und den eingelesenen Zuordnungsdaten um Wahrscheinlichkeitsfunktionen handelt. Dieses ist vorteilhaft, da eine Zuordnung eines vorgegebenen Audiodatensatzes zu einer Teilmenge von Audiodatensätzen auf einfache Weise durch einen Vergleich von Wahrscheinlichkeitsfunktionen erfolgen kann.
  • Kurze Beschreibung der Zeichnungen
  • Ausführungsbeispiele der Erfindung sind in den Zeichnungen dargestellt und in der nachfolgenden Beschreibung näher erläutert.
  • 1 zeigt eine Ausführungsform einer erfindungsgemäßen Vorrichtung zur Bereitstellung von Zuordnungsdaten.
  • 2 zeigt eine Aufteilung einer Grundmenge von Audiodatensätzen in Teilmengen.
  • 3 zeigt das Prinzip einer Bestimmung von Zuordnungsdaten zur Aufteilung von Audiodatensätzen einer Grundmenge in Teilmengen gemäß eines Ausführungsbeispiels.
  • 3b zeigt das Prinzip einer Bestimmung von Zuordnungsdaten zur Aufteilung von Audiodatensätzen einer Grundmenge in Teilmengen gemäß eines weiteren Ausführungsbeispiels.
  • 4 zeigt eine Bestimmung einer Wahrscheinlichkeitsfunktion eines Audiodatensatzes mittels einer Extraktion von Merkmalen aus dem Audiodatensatz gemäß eines Ausführungsbeispiels.
  • 5 zeigt ein eindimensionales Merkmal mit einer dazugehörigen, einfachen, eindimensionalen Gaussverteilung.
  • 6 zeigt ein Beispiel eines Gaussian Mixture Models (GMM) in Form einer zweifachen Gaussverteilung für eindimensionale Merkmale.
  • 7a zeigt ein zweidimensionales Merkmal, welches zwei Skalarwerte aufweist, zusammen mit einer Struktur eines Parametersatzes eines Gaussian Mixture Models.
  • 7b zeigt ein Beispiel eines GMM mit zwei Komponenten bzw. eine zweifache Gaußverteilung für zweidimensionale Merkmale.
  • 8 zeigt eine Bestimmung von Gaussian Mixture Modellen, welche jeweilige Teilmengen repräsentieren, in Abhängigkeit von Gaussian Mixture Modellen, welche aus jeweiligen Audiodatensätzen gewonnen werden gemäß eines Ausführungsbeispiels.
  • 9 zeigt eine Adaption von Parameter eines GMM einer Teilmenge von Audiodatensätzen unter Verwendung der Parameter eines GMM eines einzelnen Audiodatensatzes.
  • 10a sowie 10b zeigen die Zuordnung von Komponenten eines GMM einer Teilmenge zu Komponenten eines GMM eines Audiodatensatzes zum Zwecke der Adaption der Parameter des GMM der Teilmenge.
  • 11 zeigt die Berechnung von Parametern mehrerer GMMs unter Verwendung der Parameter eines GMMs eines Audiodatensatzes, welches einem GMM einer Teilmenge zugeordnet wird.
  • 12a sowie 12b zeigen die Ermittlung von Zuordnungsdaten eines Audiodatensatzes in Form jenes Index, welcher mit jenem Gaussian Mixture Model einer Teilmenge assoziiert ist, zu welchem das Gaussian Mixture Model des Audiodatensatzes zugeordnet wurde.
  • 13 zeigt ein Ausführungsbeispiel einer Vorrichtung zur Ausgabe einer Teilmenge von Audiodatensätzen aus einer Grundmenge von Audiodatensätzen.
  • 14 zeigt das Prinzip einer Ausgabe einer Teilmenge von Audiodatensätzen unter Verwendung von eingelesenen Zuordnungsdaten sowie aus einem vorgegebenen Audiodatensatz gewonnenen ersten Zuordnungsdaten.
  • 15 zeigt eine Zuordnung von ersten Zuordnungsdaten zu Teilzuordnungsdatensätzen, wobei es sich bei den ersten Zuordnungsdaten und den Teilzuordnungsdatensätzen gemäß des Ausführungsbeispieles um Wahrscheinlichkeitsfunktionen handelt
  • 16 zeigt eingelesene Zuordnungsdaten, welche Teilzuordnungsdatensätze sowie erste Zuordnungsdaten aufweisen.
  • 17 zeigt eine Vorrichtung zur Bereithaltung von Zuordnungsdaten, welche die Zuordnungsdaten an eine Vorrichtung zur Ausgabe einer Teilmenge von Audiodatensätzen überträgt.
  • 18 zeigt erste Zuordnungsdaten, welche eine Liste enthalten, anhand derer eine Zuordnung von Audiodatensätzen zu Teilmengen erfolgt
  • 19 zeigt eine Ausführungsform von eingelesenen Zuordnungsdaten, welche mindestens zwei Listen aufweisen, anhand derer Audiodatensätze zu Teilmengen von Audiodatensätzen zugeordnet werden.
  • Ausführungsformen der Erfindung
  • Anhand des folgenden Ausführungsbeispieles wird das Prinzip einer Aufteilung von Audiodatensätzen einer Grundmenge in Teilmengen von Audiodatensätzen unter Verwendung von Wahrscheinlichkeitsfunktionen näher erläutert.
  • 1 zeigt eine Vorrichtung zur Bereithaltung von Zuordnungsdaten, welche Audiodatensätze einer Grundmenge in Teilmengen von Audiodatensätzen aufteilen. Die Vorrichtung 101 weist eine Speichereinheit 102, eine Recheneinheit 103 sowie ferner eine Datenschnittstelle 104 zur Ausgabe der Zuordnungsdaten auf. Vorzugsweise sind die Speichereinheit 102, die Recheneinheit 103 sowie die Datenschnittstelle 104 über eine Datenbusleitung 105 bzw. ein Datenbussystem miteinander verbunden. Die Grundmenge von Audiodatensätzen ist in der Speichereinheit 102 abgespeichert Vorzugsweise werden die Audiodatensätze der Grundmenge über eine nicht gezeigte Datenschnittstelle in die Vorrichtung 101 eingelesen, um diese Audiodatensätze der Grundmenge in der Speichereinheit 102 abzuspeichern. Bei einer solchen weiteren Datenschnittstelle handelt es sich vorzugsweise um eine Serielle-, eine USB- oder eine weitere Datenschnittstelle, vorzugsweise in Form von Laufwerken zum Lesen von Speichermedien oder aber eine Datenschnittstelle, welche über Funk oder über das Internet kommuniziert. Die Recheneinheit 103 bestimmt für die jeweiligen Audiodatensätze jeweils mindestens eine Wahrscheinlichkeitsfunktion, welche somit mit dem Audiodatensatz assoziiert ist. Unter Berücksichtigung der Wahrscheinlichkeitsfunktionen der Audiodatensätze der Grundmenge berechnet die Recheneinheit 103 für jede Teilmenge eine Wahrscheinlichkeitsfunktion, welche diese Teilmenge repräsentiert Vorzugweise stehen diese Teilmengen von Audiodatensätzen nicht fest, sondern werden anhand der für sie berechneten Wahrscheinlichkeitsfunktionen unter Verwendung der Audiodatensätze der Grundmenge erstellt.
  • 2 zeigt eine Grundmenge 201 von Audiodatensätzen, welche in der Speichereinheit 102 abgespeichert sind. Die Grundmenge 201 enthält die Audiodatensätze 211 bis 214. Gemäß des Ausführungsbeispiels in 2 weist die Grundmenge 201 vier Audiodatensätze 211 bis 214 auf. Gemäß 2 erzeugt die Recheneinheit 103 Zuordnungsdaten 230. Anhand der Zuordnungsdaten 230 ist eine Aufteilung der Grundmenge 201 in eine erste Teilmenge 221 sowie eine zweite Teilmenge 222 möglich. Gemäß des Ausführungsbeispieles in 2 weist die erste Teilmenge 221 nach der Aufteilung der Grundmenge 201 den zweiten Audiodatensatz 212 sowie den dritten Audiodatensatz 213 auf. Ferner weist die zweite Teilmenge 222 gemäß des Ausführungsbeispieles den ersten Audiodatensatz 211 sowie den vierten Audiodatensatz 214 auf.
  • Die vorzunehmende Aufteilung der Grundmenge 201 in die Teilmengen 221, 222 wird im Folgenden näher erläutert.
  • 3a zeigt die Bestimmung der Zuordnungsdaten 330 durch die erfindungsgemäße Vorrichtung 101 gemäß eines ersten Ausführungsbeispieles. Gezeigt ist wiederum in 3a die Grundmenge 201, welche die vier Audiodatensätze 211 bis 214 aufweist Dem Fachmann ist es verständlich, dass die Grundmenge von Audiodatensätzen 201 eine beliebige Anzahl von Audiodatensätzen enthaften kann.
  • Die Audiodatensätze 211 bis 214 der Grundmenge 201 werden der Recheneinheit 103 zugeführt, welche für die Audiodatensätze 211 bis 214 jeweilige Wahrscheinlichkeitsfunktionen 321 bis 324 bestimmt. Gemäß des Ausführungsbeispieles werden darauf folgend unter Verwendung der aus den Audiodatensätzen 211 bis 214 gewonnenen Wahrscheinlichkeitsfunktionen 321 bis 324 weitere Wahrscheinlichkeitsfunktionen 331, 332 gewonnen. Diese weiteren Wahrscheinlichkeitsfunktionen 331, 332 sind Wahrscheinlichkeitsfunktionen, welche jeweilige Teilmengen von Audiodatensätzen repräsentieren. Gemäß des Ausführungsbeispieles wird eine erste Wahrscheinlichkeitsfunktion 331 bestimmt, die eine erste Teilmenge repräsentiert, sowie eine zweite Wahrscheinlichkeitsfunktion 332, welche eine zweite Teilmenge repräsentiert. Gemäß des Ausführungsbeispieles in 3a bilden die die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktionen 331, 332 die Zuordnungsdaten 330.
  • 3b zeigt das Prinzip einer Bestimmung von Zuordnungsdaten zur Aufteilung von Audiodatensätzen einer Grundmenge in Teilmengen von Audiodatensätzen anhand einer erfindungsgemäßen Vorrichtung 101 gemäß eines weiteren Ausführungsbeispieles.
  • Wie bereits gemäß 3a gezeigt, werden unter Verwendung der Audiodatensätze 211 bis 214 der Grundmenge 201 mittels einer Bestimmung von jeweiligen Wahrscheinlichkeitsfunktionen 321 bis 324, welche mit den jeweiligen Audiodatensätzen 211 bis 214 der Grundmenge 201 assoziiert sind, jeweilige Wahrscheinlichkeitsfunktionen 331, 332 bestimmt, welche jeweilige Teilmengen der Audiodatensätze 211 bis 214 repräsentieren. Gemäß des Ausführungsbeispieles in 3b ermittelt die Recheneinheit 103 Zuordnungsdaten 360 unter Verwendung der Wahrscheinlichkeitsfunktionen 331, 332 der Teilmengen sowie der Wahrscheinlichkeitsfunktionen 321 bis 324 der Audiodatensätze 211 bis 214. Mittels der Zuordnungsdaten 360 ist somit eine Aufteilung der Grundmenge 201 in jeweilige Teilmengen möglich. Die sich ergebenden Zuordnungsdaten 360 werden im Weiteren in ihrer genauen Struktur gemäß zwei Ausführungsbeispiele bezüglich der 18 und 19 naher erläutert.
  • 4 zeigt einen Audiodatensatz, vorzugweise den ersten Audiodatensatz 211, anhand dessen durch die Recheneinheit 103 eine mit dem Audiodatensatz 211 assoziierte Wahrscheinlichkeitsfunktion 321 bestimmt wird. Dieses erfolgt nach dem Prinzip der Merkmalsextraktion aus Abschnitten eines Audiodatensatzes sowie einer anschließenden Bestimmung einer Verteilungsdichtefunktion der extrahierten Merkmale als die Wahrscheinlichkeitsfunktion 321. Es ist dem Fachmann bekannt, einen Audiodatensatz 211 in aufeinanderfolgende Abschnitte 401 bis 404 zu unterteilen. Eine solche Unterteilung ergibt vorzugsweise Abschnitte 401 bis 404, welche direkt aneinander angrenzen. Ebenso ist es denkbar, Abschnitte 401 bis 404 zu definieren, welche sich zumindest teilweise überlappen. Gemäß des Ausführungsbeispieles in 4 weist der Audiodatensatz 211 vier Abschnitte 401 bis 404 auf. Für jeden der Abschnitte 401 bis 404 werden Merkmale 411 bis 414 extrahiert. Eine Merkmalsextraktion aus Abschnitten 401 bis 404 eines Audiodatensatzes 211 ist beispielsweise aus [2] bekannt. Die nun vorliegenden Merkmale 411 bis 414 werden durch die Recheneinheit 103 einem Algorithmus zugeführt, anhand dessen die Recheneinheit 103 eine Verteilungsdichtefunktion 321 der Merkmale 411 bis 414 bestimmt Die Bestimmung von Verteilungsdichtefunktionen von Merkmalen, insbesondere von Gaussverteilungen oder Gaussian Mixture Modellen (GMM) als Verteilungsdichtefunktionen von Merkmalen, ist dem Fachmann hinlänglich aus [3] oder [2] bekannt. Zur näheren Erläuterung des Zusammenhangs zwischen extrahierten Merkmalen und dazu bestimmten Wahrscheinlichkeitsfunktionen in Form von Gaussverteilungen oder GMMs seinen im Weiteren 5, 6, 7a sowie 7b betrachtet.
  • 5 zeigt ein eindimensionales Merkmal 501, welches einen ersten Skalarwert 511 aufweist Eine Verteilungsdichtefunktion 500 von eindimensionalen Merkmalen 501 in Form einer einfachen Gaussverteilung 530 wird im Weiteren detailliert erläutert. Gezeigt ist eine Abszisse 521, welche den Wertebereich des Skalarwertes 511 des Merkmales 501 darstellt. Ferner ist eine Ordinate 522 gezeigt, entlang derer der Wert der Verteilungsdichtefunktion p(x) aufgetragen ist Die Gaussverteilung 530 eines Merkmals x ist definiert durch zwei Parameter:
    Erstens durch ihren Mittelwert μ 531 und zweitens durch ihre Varianz σ2 532.
  • 6 zeigt ein Gaussian Mixture Model 600 mit N = 2 Komponenten.
  • Wiederum ist eine Abszisse 621 dargestellt, welche den Wertebereich eines eindimensionalen Merkmals x 501 darstellt Ebenso findet sich in 6 eine Ordinate 622, entlang derer der jeweilige Wert der Gaussverteilung p(x) 630 des GMM 600 aufgetragen ist. Gemäß des Ausführungsbeispieles besteht das GMM 630 aus einer Überlagerung einer ersten Gaussverteilung 631 sowie einer zweiten Gaussverteilung 632, welche jeweils mit gestrichelter Linie eingezeichnet sind. Die Summe dieser beiden einzelnen Gaussverteilungen 631, 632 ergibt die Gaussverteilung des GMM 630. Jede der einzelnen Gaussverteilungen 631, 632 ist durch jeweilige Parameter definiert. So weist die erste Gaussverteilung 631 einen ersten Mittelwert μ1 641 sowie eine erste Varianz σ21 642 auf. Die zweite Gaussverteilung 632 weist einen zweiten Mittelwert μ2 651 sowie eine zweite Varianz σ22 652 auf. Die sich aus den beiden Gaussverteilungen 631, 632 ergebende Gaussverteilung 630 wird durch Skalierung der ersten Gaussverteilung 631 w1·f(μ1, σ21 ) mit einem ersten skalaren Gewichtungswert w1 und einer anschließenden Summation der mit einem zweiten skalaren Gewichtungswert w2 skalierten zweiten Gaussverteilung 632 w2·f(μ2, σ22 ) gewonnen: p(x) = w1·f(μ1, σ21 ) + w2·f(μ2, σ22 ).
  • Gemäß des Ausführungsbeispieles in 6 liegt in diesem Fall ein Verhältnis der skalaren Gewichtungswerte von w1 > w2 vor. Zur Bildung eines GMM 630 aus zwei Gaussverteilungen 631, 632 gilt die Bedingung w1 + w2 = 1. Die Gaussverteilung des GMM 630 ist somit definiert durch die Parameter seiner einzelnen Gaussverteilungen 631, 632, welche in einem Parametersatz λ = {wi, μi, σ2i } mit dem Komponentenindex i = 1...N zusammengefasst werden. Gemäß des Ausführungsbeispieles gilt in diesem Fall N = 2. Gemäß des Ausführungsbeispiels in 7a ist ein mehrdimensionales Merkmal x = (x1, x2) 701 gegeben, welches einen ersten Skalarwert x1 711 sowie einen zweiten Skalarwert x2 712 aufweist. Für ein solches zweidimensionales Merkmal 701 lassen sich ebenfalls Verteilungsdichtefunktionen in Form eines GMM berechnet, welches anhand entsprechender Parameter definiert ist. Ein solches GMM 720 enthält mindestens einen ersten skalaren Gewichtungsfaktor w1 731, einen ersten Mittelwertvektor μi 732 sowie eine erste Kovarianzmatriz Σi 733.
  • In Abhängigkeit der Anzahl N der Komponenten des GMM ergibt sich die Anzahl der skalaren Gewichtungsfaktoren, der Mittelwertvektoren sowie der Kovarianzmatrizen. Es enthält somit das GMM 720 bis zu N Gewichtungsfaktoren wN 731, 741, Mittelwertvektoren μN 742 sowie Kovarianzmatrizen ΣN 743. Die sich ergebende Gaussverteilung eines solchen mehrdimensionalen GMM lässt sich wiederum durch einen Parametersatz λ = {wi, μi, Σi} zusammenfassen. Beispielhaft zeigt 7b ein Ausführungsbeispiel eines GMM 750 für zweidimensionale Merkmale 701 mit N = 2 Komponenten bzw. Gaussverteilungen. Für eine detaillierte Erläuterung zur Berechnung von GMMs, beispielsweise mittels des Expectation-Maximization-Algorithmus, anhand extrahierter Merkmale sei auf [3] sowie [4] verwiesen.
  • Vorzugsweise berechnet die Recheneinheit 103 als die Wahrscheinlichkeitsfunktion 321 bis 324 in 3a bzw. 3b eine Verteilungsdichtefunktion in Form eines GMM, welches durch einen entsprechenden Parametersatz λ = {wi, μi, σ2i } bzw. λ = {wi, μi, Σi} beschrieben wird. Ferner bestimmt die Recheneinheit 103 die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktionen 321, 322 aus 3a sowie 3b vorzugsweise als Verteilungsdichtefunktionen in Form von GMMs, deren Parametersätze durch die Recheneinheit in Abhängigkeit jener Parametersätze berechnet werden, welche durch die anhand der Audiodatensätze 211 bis 214 gewonnenen GMMs gegeben sind. Dies ist in 8 dargestellt. Für die jeweiligen Audiodatensätze 211 bis 214 werden jeweilige GMMs 801 bis 804 berechnet, anhand derer durch die Recheneinheit 103 vorzugsweise ein erstes GMM 811, welches eine erste Teilmenge repräsentiert, sowie ein zweites GMM 812, welches eine zweite Teilmenge repräsentiert, berechnet. Eine detaillierte Erläuterung der Berechnung der Parameter der GMMs 811, 812 der beiden Teilmengen wird bezüglich der 10a sowie 10b später näher erläutert.
  • Zunächst sei anhand von 9 erläutert, auf welche Weise die Recheneinheit 103 vorzugsweise im Zuge der Berechnung der Parameter der Gaussian Mixture Modelle der Teilmengen die Parameter dieser Gaussian Mixture Modelle unter Verwendung der Parameter eines Gaussian Mixture Models eines Audiodatensatzes berechnet. Gemäß 9 werden zunächst die GMMs 811, 812 der jeweiligen Teilmengen erstellt, wobei die Parameterwerte der GMMs 811, 812 der Teilmengen mit Initialwerten initialisiert werden. Vorzugsweise werden derartige Initialwerte aus GMM Parametern solcher GMMs gewonnen, welche zuvor für einzelne Audiodatensätze berechnet wurden. Den GMMs 811, 812 der Teilmengen werden jeweilige Indizes 921, 931 zugeordnet. Gemäß des Ausführungsbeispieles ergibt sich durch des erste GMM 811 der ersten Teilmenge und durch den ihm zugeordneten ersten Index 921 eine Einheit 911, welche als ein Neuron aufgefasst werden kann. Ebenso kann die Einheit 912 bestehend aus dem zweiten GMM 812 der zweiten Teilmenge und dem zweiten Index 931 als ein weiteres Neuron aufgefasst werden. Die Neuronen 911, 912 bilden eine sogenannte Self-Organizing-Map 901 deren Neuronen 911, 912, bzw. deren GMMs 811, 812 der Neuronen 911, 912 durch Verwendung von GMMs von Audiodatensätzen der Grundmenge trainiert werden. Dieses erfolgt derart, dass die Recheneinheit 103 anhand eines Distanzmaßes 950 ein GMM 940 eines Audiodatensatzes aus der Grundmenge einem GMM 811, 812 eines Neurons 911, 912 der Self-Organizing-Map 901 zuordnet. Gemäß des Ausführungsbeispiels in 9 erfolgt eine Zuordnung des GMMs 940 des Audiodatensatzes aus der Grundmenge zu dem ersten GMM 811 der ersten Teilmenge. Distanzmaße zur Verwendung von Zuordnung von GMMs zueinander sind beispielsweise die Kullback-Leibler-Distanz, die symmetrische Kullback-Leibler-Distanz oder weitere Distanzen, siehe [4, 5]. Als nächstes berechnet die Recheneinheit 103 die Parameter des GMMs 811 der Teilmenge unter Verwendung der Parameter des ihm zugeordneten GMMs 940 neu. Hierdurch ergibt sich ein adaptiertes GMM 923 der ersten Teilmenge. Die in 9 gezeigte Vorgehensweise einer Zuordnung eines GMMs 940 eines Audiodatensatzes aus der Grundmenge zu einem Neuron 911 bzw. dessen GMM 811 und eine anschließende Adaption der Parameter des GMM 811 der Teilmenge wird für eine insgesamte Adaption der Self-Organizing-Map 901 anhand mehrerer oder vorzugweise aller Audiodatensätze bzw. deren GMMs der Grundmenge durchgeführt. Die genaue Adaption der Parameter eines GMM 811 einer ersten Teilmenge anhand von Parametern eines GMM 940 eines ersten Audiodatensatzes wird nun in den 10a sowie 10b detailliert erläutert.
  • 10a zeigt ein GMM 1000 einer Teilmenge, welcher ein Index P zugeordnet wurde. Das GMM 1000 ist wiederum dargestellt durch eine Abszisse 1001 für den Wertebereich eines eindimensionalen Merkmals sowie einer Ordinate 1002, entlang derer der Wert der Verteilungsdichtefunktion des GMMs aufgetragen wird. Das GMM einer Teilmenge 1000 besteht gemäß des Ausführungsbeispieles aus einer ersten GMM-Komponente 1010 sowie einer zweiten GMM-Komponente 1020. Ferner gezeigt ist in 10a ein GMM 1050 eines Audiodatensatzes, der dem GMM 1000 einer Teilmenge zugeordnet wurde. Das GMM 1050 eines Audiodatensatzes ist dargestellt anhand einer Abszisse 1051 sowie einer Ordinate 1052. Das GMM 1050 des Audiodatensatzes weist eine erste GMM-Komponente 1060 sowie eine zweite GMM-Komponente 1070 auf. Die erste GMM-Komponente 1010 des GMMs 1000 einer Teilmenge ist unter anderem bestimmt durch einen Mittelwert μp=1 1011. Ebenso ist die zweite GMM-Komponente 1020 des GMM 1000 einer Teilmenge durch einen Mittelwert μp=2 1021 bestimmt. Der Index p steht hierbei für den Index des GMM 1000 einer Teilmenge. Der Index i = 1...N steht hierbei für die einzelnen Komponenten des GMM, wobei gemäß des Ausführungsbeispieles gilt N = 2 Der Index q zeigt hierbei an, dass es sich um einen Parameterwert eines GMM eines Audiodatensatzes, der dem GMM einer Teilmenge zugeordnet wurde, handelt. Der Index k = 1...M steht hierbei für die GMM-Komponenten 1060, 1070 des GMMs 1050 des Audiodatensatzes, wobei gemäß des Ausführungsbeispieles M = 2 gilt.
  • Eine Adaption der Parameter des GMMs 1000 der Teilmenge erfolgt nun zunächst für die Gewichtungsfaktoren wp,i der GMM-Komponenten 1010, 1020 unter Verwendung der Gewichtungsfaktoren wq,k der GMM-Komponenten 1060, 1070 des GMM 1050 des Audiodatensatzes. Nach einer Adaption der Gewichtungsfaktoren wp,i erfolgt anschließend eine Adaption der Mittelwerte, bzw. Mittelwertvektoren μp,i des GMM 1000 der Teilmenge unter Verwendung der Mittelwerte bzw. der Mittelwertvektoren μq,k der GMM-Komponenten 1060, 1070 des GMMs 1050 des Audiodatensatzes. Ebenso erfolgt vorzugsweise eine Adaption der Kovarianzen σ2p,i der GMM-Komponenten 1010, 1020 des GMMs 1000 einer Teilmenge mittels der Kovarianzen σ2q,k bzw. der Kovarianzmatrizen der GMM-Komponenten 1060, 1070 des GMMs 1050 des Audiodatensatzes. Vorzugsweise werden bei der Adaption der Mittelwerte bzw. der Mittelwertvektoren sowie der Kovarianzen bzw. der Kovarianzmatrizen bereits die zuvor adaptierten Gewichtungsfaktoren des GMM 1000 der Teilmenge berücksichtigt. Gemäß 10a erfolgt eine Zuordnung 1030, 1040 der GMM-Komponenten 1010, 1020 des GMMs 1000 einer Teilmenge zu GMM-Komponenten 1060, 1070 des GMMs 1050 des Audiodatensatzes. Zur Adaption der Parameter einer GMM-Komponente 1010, 1020 des GMMs 1000 einer Teilmenge finden vorzugsweise jeweils nur Parameter jener GMM-Komponenten 1060, 1070 des GMMs 1050 des Audiodatensatzes Einfluss, welche der jeweiligen GMM-Komponente 1010, 1020 des GMMs 1000 einer Teilmenge zugeordnet wurden. Gemäß des Ausführungsbeispieles liegt eine erste Zuordnung 1030 der ersten GMM-Komponente 1060 des GMMs 1050 des Audiodatensatzes zu der ersten GMM-Komponente 1010 des GMMs 1000 der Teilmenge vor. Ebenso liegt gemäß des Ausführungsbeispieles eine zweite Zuordnung 1040 der zweiten GMM-Komponenten 1020, 1070 der GMMs 1000, 1050 zueinander vor. Derartige Zuordnungen 1030, 1040 von GMM-Komponenten zueinander lassen sich anhand von Distanzmaßen, beispielsweise der Kullback-Leibler-Distanz, der Earth-Movers-Distance oder weiterer Distanzmaße finden [4, 5]. Die Adaption eines Gewichtungsfaktors wp,i einer GMM-Komponente 1010, 1020 des GMMs 1000 der Teilmenge erfolgt vorzugsweise anhand der Berechnung des adaptierten Gewichtungsfaktors ŵp,i mittels der Rechenvorschrift ŵp,i = wp,i + α·(wq,k – wp,i)
  • Hierbei stellt die Größe α einen Adaptionsfaktor mit einem Wertebereich 0 ≤ α ≤ 1 dar. An die Bestimmung der adaptierten Gewichtungsfaktoren ŵp,i der GMM-Komponenten 1010, 1020 des GMMs 1000 einer Teilmenge folgt eine Normierung dieser adaptierten Gewichtungsfaktoren vorzugsweise gemäß der Rechenvorschrift
    Figure 00180001
  • 10b stellt die Adaption der Mittelwerte und Varianzen des GMMs der Teilmenge nach der Adaption der Gewichtungsfaktoren des GMMs der Teilmenge dar. Dargestellt ist das GMM 1080 der Teilmenge, dessen erste GMM-Komponente 1090 vorzugsweise bereits anhand eines adaptierten Gewichtungsfaktors ŵp,i=1 definiert ist. Die erste GMM-Komponente 1090 weist in 10b vor der Adaption des Mittelwertes noch den gleichen Mittelwert μp=1 1011 wie gemäß 10a auf. Ebenso ist die zweite GMM-Komponente 1095 des GMMs 1080 der Teilmenge bereits durch einen adaptierten Gewichtungsfaktor ŵp,i=2 definiert Auch die zweite GMM-Komponente 1095 des GMMs 1080 der Teilmenge weist vor der Adaption des Mittelwertes noch den gleichen Mittelwert μp=2 1021 wie gemäß 10a auf. Unterhalb des GMMs 1080 der Teilmenge in 10b ist das GMM 1050 des Audiodatensatzes dargestellt, bei welchem es sich um das gleiche GMM des Audiodatensatzes wie in 10a gemäß des Ausführungsbeispieles handelt. Bevor eine Adaption der Mittelwerte und Varianzen der GMM-Komponenten 1090, 1095 des GMMs 1080 der Teilmenge vorgenommen wird, erfolgt vorzugsweise wiederum eine Zuordnung von GMM-Komponenten 1060, 1070 des GMMs 1050 des Audiodatensatzes zu den GMM-Komponenten 1090, 1095 des GMMs 1080 der Teilmenge. Gemäß des Ausführungsbeispieles in 10b ergibt sich eine erste Zuordnung 1098 der ersten GMM-Komponente 1060 des GMMs 1050 des Audiodatensatzes zu der ersten GMM-Komponente 1090 des GMMs 1080 der Teilmenge. Ebenso ergibt sich gemäß des Ausführungsbeispiels eine zweite Zuordnung 1099 der zweiten GMM-Komponenten 1070, 1095 der beiden GMMs 1050, 1080 zueinander. Derartige Zuordnungen 1098, 1099 von GMM-Komponenten 1060, 1070, 1090, 1095 von GMMs 1050, 1080 werden vorzugsweise über Distanzmaße bestimmt. Als Distanzmaße wird hier vorzugsweise die Earth-Mover's-Distanz [4] verwendet. Die Adaption einer GMM-Komponente 1090, 1095 des GMMs einer Teilmenge 1080 erfolgt vorzugweise unter Verwendung der Mittelwerte und Varianzen der ihm zugeordneten GMM-Komponente 1060, 1070 des GMMs 1050 des Audiodatensatzes. Vorzugsweise wird ein adaptierter Mittelwert μ ^p,i bestimmt gemäß der Rechenvorschrift μ ^p,i = μp,i + α·(μq,k).
  • Die Bestimmung der adaptierten Varianzwerte σ ^2p,i erfolgt vorzugsweise gemäß der Rechenvorschrift σ ^2p,i = σ2 2 p ,i + α·(σ2q,k – σ2 2 p ,i ).
  • Für den Fall mehrdimensionaler Merkmale und somit dem Übergang von Mittelwerten zu Mittelwertvektoren sowie dem Übergang von Varianzen zu Kovarianzmatrizen erfolgt die Bestimmung der adaptierten Mittelwertvektoren μ ^p,i sowie adaptierten Kovarianzmatrizen Σ ^p,i vorzugsweise gemäß der Rechenvorschriften μ ^p,i = μp,i + α·(μq,k – μp,i) Σ ^p,i = Σp,i + α·(Σq,k – Σp,i).
  • Gemäß eines Ausführungsbeispieles ermittelt die Recheneinheit die Zuordnungsdaten wie bereits gezeigt unter Verwendung der Wahrscheinlichkeitsfunktion der Audiodatensätze und der Grundmenge und der die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktionen, wobei vorzugsweise die Recheneinheit als die Zuordnungsdaten eines Audiodatensatzes jenen Index ermittelt, Welche mit jenem Gaussian Mixture Model einer Teilmenge assoziiert ist, zu welchem das Gaussian Mixture Modell des Audiodatensatzes zugeordnet wurde. Ein entsprechendes Ausführungsbeispiel ist in 11 dargestellt. Dargestellt ist eine Datenstruktur 1100, welche vorzugsweise vier Indizes 1101 bis 1104 aufweist. Die Datenstruktur 1100 der Indizes 1101 bis 1104 ist nicht auf die Anzahl von vier Indizes beschränkt. Vielmehr ist eine beliebige Anzahl an Indizes möglich. Die Anzahl der Indizes 1101 bis 1104 entspricht der Anzahl der Teilmengen, in welche die Audiodatensätze der Grundmenge aufgeteilt werden sollen. Die Indizes 1001 bis 1104 sind derart benachbart angeordnet, dass zu jedem der Indizes mindestens ein direkter Nachbar definiert ist. Vorzugsweise sind die Indizes in einer zweidimensionalen Ebene angeordnet, sodass in horizontaler oder vertikaler Richtung für einen Index jeweils Nachbarindizes bestimmt werden können. Gemäß des Ausführungsbeispieles liegt für den ersten Index 1101 ein erster Nachbar 1102 sowie ein zweiter Nachbar 1103 vor. Ebenso wäre es denkbar, in der zweidimensionalen Ebene Nachbarindizes für einen Index 1101 einen Nachbar in dieagonaler Richtung zu bestimmen, bei welchem es sich gemäß des Ausführungsbeispieles um den vierten Index 1104 handeln würde. Durch die vorgegebene benachbarte Anordnung von Indizes 1100 ergibt sich gemäß 11 ebenso eine benachbarte Anordnung von Neuronen 1121 bis 1124 einer Self-Organizing-Map 1190. Ein Neuron 1121 bis 1124 weist hierbei einen Index 1101 bis 1104 sowie ein GMM 1111 bis 1114 auf. Jedes Neuron 1121 bis 1124 repräsentiert eine Teilmenge von Audiodatensätzen. Sind wie bereits gemäß der 9 erläutert die Parameter der GMMs 1111 bis 1114 der Teilmengen mit Werten initialisiert, so erfolgt eine Adaption der Parameter der GMMs 1111 bis 1114 der Teilmengen unter Verwendung der Parameter der GMMs der Audiodatensätze, welche sich in der Grundmenge befinden. Vorzugsweise erfolgt die Adaption der Parameter der GMMs der Teilmengen unter Verwendung von GMMs aller Audiodatensätze aus der Grundmenge. Gemäß 11 liegt ein GMM 1130 eines Audiodatensatzes aus der Grundmenge vor. Dieses GMM 1130 wird mittels eines Distanzmaßes 1140 einem GMM 1111 bis 1114 der Self-Organizing-Map 1190 zugeordnet. Zur Zuordnung ist vorzugsweise eine Verwendung von Distanzmaßen in Form der Kullback-Leibler-Distanz oder anderer Distanzmaße möglich. Gemäß des Ausführungsbeispieles wird das GMM 1130 des Audiodatensatzes einem einzigen GMM 1111 einer Teilmenge direkt zugeordnet bzw. assoziiert Ferner wird vorzugsweise das GMM 1130 des Audiodatensatzes weiteren GMMs 1112, 1113 von weiteren Teilmengen indirekt zugeordnet. Diese indirekte Zuordnung erfolgt auf Grundlage der Relation des Index 1101 des direkt assoziierten GMMs 1111 und der Indizes 1102, 1103 der indirekt assoziierten GMMs 1112, 1113. Maßgeblich für die indirekte Zuordnung des GMMs 1130 des Audiodatensatzes zu weiteren GMMs 1112, 1113 ist somit die Anordnung von Indizes 1102, 1103 bzw. der GMMs 1112, 1113 aufgrund der Lage der Neuronen 1122, 1123 zu jenem Neuron 1121, welchem das GMM 1130 des Audiodatensatzes direkt zugeordnet wird. Gemäß des Ausführungsbeispieles in 11 erfolgt nun eine Adaption des GMMs 1111 einer Teilmenge, welchem das GMM 1130 des Audiodatensatzes direkt zugeordnet wurde, sodass sich das adaptierte GMM 1171 für diese Teilmenge ergibt. Eine derartige Adaption erfolgt wie bereits zuvor beschrieben in Abhängigkeit eines Adaptionsfaktors α.
  • Ferner erfolgt gemäß des Ausführungsbeispiels in 11 vorzugsweise eine Adaption der weiteren GMMs 1112, 1113 der weiteren Teilmengen, sodass sich weitere adaptierte GMMs 1172, 1173 unter Berücksichtigung des GMMs 1130 des Audiodatensatzes ergeben. Hierbei wird vorzugsweise der Adaptionsparameter α für eine Adaption des GMMs 1111, bei welchem das GMM 1130 des Audiodatensatzes direkt zugeordnet wurde, zu einem bestimmten Zahlenwert zwischen 0 und 1 gewählt, welcher sich von einem Adaptionsparameter α unterscheidet, der Einsatz bei der Adaption der weiteren GMMs 1112, 1113 findet, welchen das GMM 1130 des Audiodatensatzes indirekt zugeordnet wurde. Gemäß 12a erfolgt eine Zuordnung der Audiodatensätze 1201 bis 1208 der Grundmenge 1200 zu Teilmengen bzw. Neuronen 1121 bis 1124 einer Self-Organizing-Map 1190 anhand einer aus den Audiodatensätzen 1201 bis 1208 extrahierten GMMs zu GMMs der Neuronen 1121 bis 1124 der SOM 1190. Hieraus ergibt sich eine Self-Organizing-Map 1220, welche GMMs 1221 bis 1224 mit adaptierten Parametern enthält. Als Zuordnungsdaten wird vorzugsweise gemäß 12b eine Liste 1290 erzeugt. Diese Liste 1290 enthält für die Audiodatensätze 1201 bis 1208 jeweilige Audiodatensätze-Bezeichnungsdaten 1241 bis 1248. Zu jedem der Audiodatensätze-Bezeichnungsdaten 1241 bis 1248 weist die Liste 1290 ferner korrespondierende Indexdaten 1251 bis 1258 auf. Bei diesen Indexdaten 1251 bis 1258 um die Indizes der GMMs der Teilmengen der Self-Organizing-Map 1190, welchen der jeweilige Audiodatensatz 1201 bis 1280 anhand seines GMMs zugeordnet wurde. Die Indexdaten 1251 bis 1258 können vorzugsweise durch einen Integerwert, welcher einen entsprechenden Indexwert repräsentiert, gegeben sein. Weitere Formen und Datenstrukturen der Indexdaten 1251 bis 1258 in Form von Arraystrukturen oder weiteren Datenstrukturen sind ebenfalls denkbar. Die Anzahl der Audiodatensätze 1201 bis 1208 sowie die Anzahl der Audiodatensätze-Bezeichnungsdaten 1241 bis 1248 und deren korrespondierenden Indexdaten 1251 bis 1258 ist nicht auf die Anzahl 8 beschränkt.
  • Gemäß eines weiteren Ausführungsbeispieles in 12b ist wiederum wie gemäß in 12a zunächst die Self-Organizing-Map 1190 und die Grundmenge 1200 der Audiodatensätze gezeigt. Ebenso erfolgt eine Zuordnung 1210 der GMMs der Audiodatensätze 1201 bis 1208 der Grundmenge 1200 zu den GMMs 1111 bis 1114 der Neuronen 1121 bis 1124 der Self-Organizing-Map 1190. Hieraus ergibt sich, wie bereits zuvor beschrieben, eine Self-Organizing-Map 1220, deren Parameter der GMMs der Neuronen 1221 bis 1224 in zuvor beschriebener Weise adaptiert wurden. Vorzugsweise erfolgt die Bestimmung der Zuordnungsdaten in Form einer Liste 1290, indem durch eine Zuordnung 1280 die Audiodatensätze der Grundmenge 1200 den Neuronen 1221 bis 1224 der adaptierten Self-Organizing-Map 1220 zugeordnet werden. Die Struktur der Liste 1290 entspricht hierbei der Struktur der Liste 1230 aus 12a.
  • 13 zeigt eine Vorrichtung zur Ausgabe einer Teilmenge von Audiodatensätzen aus einer Grundmenge von Audiodatensätzen an einen Nutzer in Abhängigkeit eines durch einen Nutzer vorgegebenen Audiodatensatzes.
  • Eine derartige Vorrichtung 1301 weist eine Speichervorrichtung 1302 auf, in welcher die Grundmenge 1330 von Audiodaten gespeichert ist. Die Audiodatensätze der Grundmenge 1330 können über beliebige Datenschnittstellen wie bereits gemäß 1 ausgeführt in die Speichereinheit 1302 der Vorrichtung 1301 eingelesen werden. Die Vorrichtung 1301 weist ferner eine Recheneinheit 1303 auf. Zusätzlich weist die Vorrichtung 1301 eine Datenschnittstelle 1304 zum Einlesen von Zuordnungsdaten 1310 auf. Über eine Datenschnittstelle zur Ausgabe 1305 wird eine Teilmenge an Audiodatensätzen 1320 an einen Nutzer ausgegeben. Vorzugsweise weist die Vorrichtung 1301 eine Schnittstelle 1306 zur Eingabe eines Nutzers auf. Über eine derartige Schnittstelle 1306 zur Eingabe ist es möglich, dass ein Nutzer einen vorzugebenden Audiodatensatz vorgibt. Hierzu kann die Schnittstelle 1306 als eine Tastatur, ein Touchpanel oder eine Sprachschnittstelle ausgebildet sein, anhand derer der Nutzer einen Audiodatensatz aus der Grundmenge 1330 auswählt. Ebenso ist es möglich, dass die Schnittstelle 1306 zur Eingabe eines Nutzers eine Datenschnittstelle ist, über welche ein Nutzer einen Audiodatensatz vorgibt, indem dieser Audiodatensatz in die Vorrichtung 1301 eingelesen wird. Somit ist es vorzugsweise möglich, dass ein Nutzer einen Audiodatensatz in Form einer Datei, einer MP3-Datei oder weiterer Datenformate vorgibt.
  • Gemäß 14 ermittelt die Recheneinheit 1303 der Vorrichtung 1301 für den vorgegebenen Audiodatensatz 1410 erste Zuordnungsdaten 1411. Anhand der ersten Zuordnungsdaten 1411 und der in die Vorrichtung 1301 eingelesenen Zuordnungsdaten 1310 wird der vorgegebene Audiodatensatz 1410 einer Teilmenge 1320 der Grundmenge 1330 zugeordnet. Es wird jene Teilmenge 1320 ausgegeben, welcher der vorgegebene Audiodatensatz 1411 zugeordnet wurde. Ferner handelt es sich bei den ersten Zuordnungsdaten 1411 um eine Wahrscheinlichkeitsfunktion welche durch die Recheneinheit 1303 unter Verwendung des vorgegebenen Audiodatensatzes 1410 bestimmt wird. Die eingelesenen Zuordnungsdaten 1310 weisen jeweilige Teilzuordnungsdatensätze 1311, 1312 auf, welche jeweilige Teilmengen der Grundmenge repräsentieren. Bei den jeweiligen Teilzuordnungsdaten 1311, 1312 handelt es sich hierbei um Wahrscheinlichkeitsfunktionen.
  • Gemäß 15 werden die ersten Zuordnungsdaten 1411 vorzugsweise in Form einer Wahrscheinlichkeitsfunktion, welche aus dem vorgegebenen Audiodatensatz 1410 gewonnen wurde, mit den jeweiligen Teilzuordnungsdaten 1311, 1312, welches vorzugsweise ebenfalls Wahrscheinlichkeitsfunktionen sind, verglichen. Ein derartiger Vergleich kann auf die zuvor beschriebene Weise anhand von Distanzmaßen erfolgen. Vorzugsweise handelt es sich bei den eingelesenen Zuordnungsdaten 1310 um eine Self-Organizing-Map 1190 wie bereits gemäß 11 beschrieben. Somit handelt es sich vorzugweise bei den Teilzuordnungsdaten 1311, 1312 um jeweilige GMMs von Neuronen einer Self-Organizing-Map. Aufgrund der Zuordnung der Wahrscheinlichkeitsfunktion 1411 des vorgegebenen Audiodatensatzes 1410 zu einem GMM eines Neurons einer Self-Organizing-Map und somit einer Zuordnung des vorgegebenen Audiodatensatzes 1410 zu einer Teilmenge von Audiodatensätzen erfolgt eine Auswahl einer Teilmenge. Die Teilmenge 1320 wird somit ausgegeben. Eine Bestimmung einer Wahrscheinlichkeitsfunktion als erste Zuordnungsdaten 1411 in Form eines GMMs nach dem Prinzip der Merkmalsextraktion wurde bereits eingehend bezüglich der 4 sowie der 6 beschrieben.
  • Gemäß 16 handelt es sich bei den eingelesenen Zuordnungsdaten 1600 um Daten, welche sowohl Teilzuordnungsdaten 1611, 1612 enthalten, als auch die ersten Zuordnungsdaten 1620. Vorzugsweise ermittelt die Recheneinheit 1303 die ersten Zuordnungsdaten 1620 somit nicht durch eine Merkmalsextraktion und eine anschließende Bestimmung eines GMMs, sondern ermittelt die ersten Zuordnungsdaten 1620 anhand der Zuordnungsdaten 1600. In einem solchen Fall handelt es sich gemäß 18a vorzugsweise bei den eingelesenen Zuordnungsdaten 1620 um Daten, welche eine Liste 1230, wie bereits gemäß 12a beschrieben, enthalten. Ferner enthalten die eingelesenen Zuordnungsdaten 1620 gemäß eines weiteren Ausführungsbeispieles in 18b eine Liste 1290, wie gemäß 12b beschrieben. Derartige Listen 1230, 1290 weisen Audiodatensatz-Bezeichnungsdaten auf mit entsprechend dazu korrespondierenden Indizes, anhand derer die Audiodatensätze einer Grundmenge in Teilmengen aufgeteilt werden können. Ferner weisen die Listen 1230, 1290 vorzugsweise Audiodatensatz-Bezeichnungsdaten eines Audiodatensatzes auf, welcher in der Grundmenge enthalten ist, dem eine solche Teilmenge zugeordnet wird. Somit kann nach Vorgabe eines Audiodatensatzes aus der Grundmenge durch einen Nutzer eine Teilmenge bestimmt werden, welche anschließend aus der Vorrichtung 1301 ausgegeben wird.
  • Gemäß eines weiteren Ausführungsbeispieles in 19 enthalten die eingelesenen Zuordnungsdaten 1620 jeweilige Listen 1901, 1902 für jeweilige Teilmengen von Grundmengen von Audiodatensätzen. Gemäß des Ausführungsbeispiels in 19 handelt es sich hierbei um zwei Listen 1901, 1902 für zwei Teilmengen. Vorzugsweise weist die erste Liste 1901 Einträge 1911, 1912 fortfolgende auf, bei welchem es sich um Audiodatensatz-Bezeichnungsdaten handelt. Somit repräsentiert diese erste Liste 1901 vorzugsweise all jene Audiodatensätze, welche einer ersten Teilmenge angehören. Gemäß des ersten Ausführungsbeispieles ist eine zweite Liste gegeben 1902, welche ebenfalls Audiodatensatzbezeichnungsdaten 1921, 1922 fortfolgende enthält, anhand derer definiert ist, welche Audiodatensätze der Grundmenge einer zweiten Teilmenge angehören. Die Anzahl der Listen muß nicht notwendigerweise zwei sein, es ist eine beliebige Anzahl von Listen denkbar.
  • Gemäß eines nebengeordneten Patentanspruchs gibt gemäß 17 eine Vorrichtung 1701 zur Bereithaltung von Zuordnungsdaten 1600 diese Zuordnungsdaten an eine Vorrichtung 1702 zur Ausgabe von Teilmengen einer Grundmenge von Audiodatensätzen aus. Bei den Zuordnungsdaten 1600 handelt es sich hierbei um Zuordnungsdaten, welche, wie bereits gemäß 16, 18 sowie 19 beschrieben, erste Zuordnungsdaten 1411 zur Zuordnung eines vorgegebenen Audiodatensatzes 1410 aus in der Vorrichtung 1702 abgespeicherten Grundmenge von Audiodatensätzen enthalten. Die Zuordnungsdaten 1600 werden hierbei von der Vorrichtung zur Bereithaltung 1701 an die Vorrichtung zur Ausgabe 1702 über eine USB-Schnittstelle, eine Funkschnittstelle, eine Internetschnittstelle oder ein weiteres Datenübertragungsverfahren übertragen. Ebenso ist es möglich, dass die Zuordnungsdaten 1600 mittels eines Speichermediums in Form einer SD-Karte, einer CD oder eine DVD von der Vorrichtung zur Bereitstellung 1701 an die Vorrichtung zur Ausgabe 1702 übertragen werden.
    • [1] Märchen, Ultsch, Thies, and Löhken: Modeling timbre distance with temporal statistics from polyphonic music, IEEE Transactions on Speech and Audio Processing, January 2006, Volume 14, Pages 81–90
    • [2] Abu El-Yazeed, El Gamal and El Ayadi: On the Determination of Optimal Model Order for GMM-Based Text-Independent Speaker Identification, EURASIP Journal on Applied Signal Processing, Volume 2004, Nr 8, Pages 1078–1087}
    • [3] Mildner: Signalverarbeitungskonzepte zur robusten Sprechererkennung, Dissertation, Forschungsberichte aus dem Arbeitsbereich Nachrichtentechnik der Universität Bremen, Band 16, Kapitel 2 und 3, ISBDN 978-3-8322-6504-5, Shaker Verlag, 2007
    • [4] Rauber and Frühwirth: Automatically Analyzing and Organizing Music Archives, Proceedings of the 5th European Conference on Research and Advanced Technology for Digital Libraries (ECDL '01)}, September 2001
    • [5] Jensen, Ellis, Christensen, Jensen: Evaluation of distance measures between Gaussian mixture models of MFCCs, Proceedings of International Conf. on Music Information Retrieval, 2007
  • ZITATE ENTHALTEN IN DER BESCHREIBUNG
  • Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
  • Zitierte Nicht-Patentliteratur
    • - Märchen, Ultsch, Thies, and Löhken: Modeling timbre distance with temporal statistics from polyphonic music, IEEE Transactions on Speech and Audio Processing, January 2006, Volume 14, Pages 81–90 [0071]
    • - Abu El-Yazeed, El Gamal and El Ayadi: On the Determination of Optimal Model Order for GMM-Based Text-Independent Speaker Identification, EURASIP Journal on Applied Signal Processing, Volume 2004, Nr 8, Pages 1078–1087} [0071]
    • - Mildner: Signalverarbeitungskonzepte zur robusten Sprechererkennung, Dissertation, Forschungsberichte aus dem Arbeitsbereich Nachrichtentechnik der Universität Bremen, Band 16, Kapitel 2 und 3, ISBDN 978-3-8322-6504-5, Shaker Verlag, 2007 [0071]
    • - Rauber and Frühwirth: Automatically Analyzing and Organizing Music Archives, Proceedings of the 5th European Conference on Research and Advanced Technology for Digital Libraries (ECDL '01)}, September 2001 [0071]
    • - Jensen, Ellis, Christensen, Jensen: Evaluation of distance measures between Gaussian mixture models of MFCCs, Proceedings of International Conf. on Music Information Retrieval, 2007 [0071]

Claims (13)

  1. Vorrichtung (101) zur Bereithaltung von Zuordnungsdaten (23), welche Audiodatensätze (211, ..., 214) einer Grundmenge (201) in Teilmengen (221, ..., 224) von Audiodatensätzen aufteilen, aufweisend mindestens eine Speichereinheit (102), mindestens eine Recheneinheit (103) und mindestens eine Datenschnittstelle (104) zur Ausgabe der Zuordnungsdaten (230) aus der Vorrichtung (101), wobei in der Speichereinrichtung (102) die Grundmenge (201) von Audiodatensätzen abgespeichert ist, wobei durch die Recheneinheit (103) für die jeweiligen Audiodatensätze (211, ..., 214) jeweils mindestens eine Wahrscheinlichkeitsfunktion (321, ..., 324) bestimmt wird, dadurch gekennzeichnet, dass die Recheneinheit (103) unter Berücksichtigung der Wahrscheinlichkeitsfunktionen (321, ..., 324) der Audiodatensätze (211, ..., 214) der Grundmenge (201) für jede Teilmenge (221, ..., 222) eine Wahrscheinlichkeitsfunktion (321, ..., 324) berechnet, welche diese Teilmenge (221, ..., 222) repräsentiert, wobei die die Teilmengen (221, ..., 222) repräsentierenden Wahrscheinlichkeitsfunktionen (321, ..., 324) die Zuordnungsdaten (230, 330) bilden, oder wobei die Recheneinheit (103) die Zuordnungsdaten (360) unter Verwendung der Wahrscheinlichkeitsfunktionen (321, ..., 324) der Audiodatensätze (211, ..., 214) der Grundmenge (201) und der die Teilmengen (221, ..., 222) repräsentierenden Wahrscheinlichkeitsfunktionen (331, ..., 334) ermittelt.
  2. Vorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass im Zuge der Bestimmung einer Wahrscheinlichkeitsfunktion (221) eines Audiodatensatzes (211) die Recheneinheit (103) Merkmale (411, ..., 414) aus dem Audiodatensatz (211) extrahiert, und dass die Recheneinheit (103) als die Wahrscheinlichkeitsfunktion (321) des Audiodatensatzes (211) eine Verteilungsdichtefunktion der extrahierten Merkmale (411, ..., 414) bestimmt.
  3. Vorrichtung nach Anspruch 2, dadurch gekennzeichnet, dass die Recheneinheit (103) als die Wahrscheinlichkeitsfunktion (801) eines Audiodatensatzes (211) die Verteilungsdichtefunktion in Form eines Gaussian-Mixture-Modells (522) bestimmt, welches durch einen Parametersatz (720) beschrieben wird, und dass die Recheneinheit (103) die die Teilmengen (221, ..., 222) repräsentierenden Wahrscheinlichkeitsfunktionen (811, 812) als Verteilungsdichtefunktionen in Form von Gaussian-Mixture-Modellen bestimmt, deren Parametersätze (720) durch die Recheneinheit (103) in Abhängigkeit jener Parametersätze berechnet werden, welche durch die anhand der Audiodatensätze (211, ..., 214) gewonnenen Gaussian-Mixture-Modelle gegeben sind.
  4. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, dass die Recheneinheit (103) im Zuge der Berechnung der Parameter der Gaussian-Mixture-Modelle (1111, ... 1114) der Teilmengen diese Parameter mit Werten initialisiert, dass die Recheneinheit (103) jedem Gaussian-Mixture-Modell (1111, ... 1114) einer Teilmenge einen Index (1101, ... 1104) zuordnet, dass die Recheneinheit (103) anhand eines Distanzmaßes (1140) ein Gaussian-Mixture-Modell (1130) eines Audiodatensatzes zu einem Gaussian-Mixture-Modell (1111) einer Teilmenge zuordnet, und dass die Recheneinheit (103) die Parameter des Gaussian-Mixture-Modells (1111) der Teilmenge unter Verwendung der Parameter des zugeordneten Gaussian-Mixture-Modells (1130) des Audiodatensatzes neu berechnet.
  5. Vorrichtung nach Anspruch 4, dadurch gekennzeichnet, dass die Recheneinheit (103) unter Berücksichtigung der den Teilmengen zugeordneten Indizes (1101, ..., 1104) die Parameter von Gaussian-Mixture-Modellen (1111, ..., 1113) mehrerer Teilmengen unter Verwendung der Parameter des zugeordneten Gaussian-Mixture-Modells (1130) neu berechnet.
  6. Vorrichtung nach Anspruch 4 oder 5, dadurch gekennzeichnet, dass die Recheneinheit (103) die Zuordnungsdaten (1230) unter Verwendung der Wahrscheinlichkeitsfunktionen der Audiodatensätze (1201, ..., 1208) der Grundmenge (1200) und der die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktionen (1111, ..., 1114) ermittelt, und dass die Recheneinheit (103) als die Zuordnungsdaten (1290) eines Audiodatensatzes (1201, ..., 1208) jenen Index (1251, ..., 1258) ermittelt, welcher jenem Gaussian-Mixture-Modell (1111, ..., 1114) einer Teilmenge zugeordnet ist, zu welchem das Gaussian-Mixture-Modell des Audiodatensatzes (1201, 1208) zugeordnet wurde.
  7. Vorrichtung (1301) zur Ausgabe einer Teilmenge (1320) von Audiodatensätzen aus einer Grundmenge (1330) von Audiodatensätzen an einen Nutzer in Abhängigkeit eines durch einen Nutzer vorgegebenen Audiodatensatzes (1410), aufweisend mindestens eine Speichereinheit (1302), mindestens eine Recheneinheit (1303) und mindestens eine Datenschnittstelle (1304) zum Einlesen von Zuordnungsdaten (1310) in die Vorrichtung (1301), wobei in der Speichereinrichtung (1303) die Grundmenge von Audiodatensätzen gespeichert ist, wobei die eingelesenen Zuordnungsdaten (1310) jeweilige Teilzuordnungsdatensätze (1311, 1312) aufweisen, welche jeweilige Teilmengen der Grundmenge (1330) repräsentieren, wobei die Recheneinheit (1303) für den vorgegebenen Audiodatensatz (1410) erste Zuordnungsdaten (1411) ermittelt, wobei anhand der ersten Zuordnungsdaten (1411) und der eingelesenen Zuordnungsdaten (1310) der vorgegebene Audiodatensatz (1410) einer Teilmenge zugeordnet wird, wobei jene Teilmenge (1320) ausgegeben wird, der der vorgegebene Audiodatensatz (1410) zugeordnet wurde, dadurch gekennzeichnet, dass es sich bei den ersten Zuordnungsdaten (1411) um eine Wahrscheinlichkeitsfunktion handelt, welche durch die Recheneinheit (1303) unter Verwendung des vorgegebenen Audiodatensatzes (1410) bestimmt wird, und dass es sich bei den jeweiligen Teilzuordnungsdaten (1311, 1312) um Wahrscheinlichkeitsfunktionen handelt.
  8. Vorrichtung nach Anspruch 7, dadurch gekennzeichnet, dass die im Zuge der Bestimmung einer Wahrscheinlichkeitsfunktion des vorgegebenen Audiodatensatzes (1410) die Recheneinheit (1310) Merkmale aus dem vorgegebenen Audiodatensatz (1410) extrahiert, und dass die Recheneinheit (1303) als die Wahrscheinlichkeitsfunktion des vorgegebenen Audiodatensatzes (1410) eine Verteilungsdichtefunktion der extrahierten Merkmale bestimmt.
  9. Vorrichtung nach Anspruch 7 oder 8, dadurch gekennzeichnet, dass die Recheneinheit (1303) als die Wahrscheinlichkeitsfunktion des vorgegebenen Audiodatensatzes (1410) eine Verteilungsdichtefunktion in Form eines Gaussian-Mixture-Modells bestimmt, und dass es sich bei den eingelesenen Zuordnungsdaten (1310) um Wahrscheinlichkeitsfunktionen in Form von Gaussian-Mixture-Modellen handelt.
  10. Vorrichtung nach Anspruch 9, dadurch gekennzeichnet, dass die Recheneinheit (1303) die Zuordnung des vorgegebenen Audiodatensatzes (1410) zu einer der Teilmengen anhand von Distanzmaßen zwischen dem Gaussian-Mixture-Modell des vorgegebenen Audiodatensatzes (1410) und den Gaussian-Mixture-Modellen der Teilmengen vornimmt.
  11. Vorrichtung (1702) zur Ausgabe einer Teilmenge von Audiodatensätzen aus einer Grundmenge von Audiodatensätzen nach dem Oberbegriff gemäß Anspruch 7, dadurch gekennzeichnet, dass die ersten Zuordnungsdaten in den eingelesenen Zuordnungsdaten (1600) enthaften sind, und dass die Vorrichtung (1701) zur Ausgabe einer Teilmenge von Audiodatensätzen derart mit einer Vorrichtung zur Bereithaltung von Zuordnungsdaten gemäß Anspruch 6 zum Zwecke eines Datenaustausches verknüpft ist, dass die eingelesenen Zuordnungsdaten von der Vorrichtung zur Bereithaltung von Zuordnungsdaten an die Vorrichtung zur Ausgabe einer Teilmenge von Audiodatensätzen übertragen werden.
  12. Verfahren zur Bereitstellung von Zuordnungsdaten (1230), welche Audiodatensätze (1201, ..., 1208) einer Grundmenge (1200) in Teilmengen von Audiodatensätzen aufteilen, wobei für jeden der Audiodatensätze (1201, ..., 1208) mindestens eine Wahrscheinlichkeitsfunktion (1130) bestimmt wird, dadurch gekennzeichnet, dass unter Berücksichtigung der Wahrscheinlichkeitsfunktionen der Audiodatensätze der Grundmenge für jede Teilmenge eine Wahrscheinlichkeitsfunktion (1121, ..., 1124) berechnet wird, welche diese Teilmenge repräsentiert, wobei die die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktionen (1121, ..., 1124) die Zuordnungsdaten (1230) bilden, oder wobei die Zuordnungsdaten (1230) unter Verwendung der Wahrscheinlichkeitsfunktionen (1130) der Audiodatensätze der Grundmenge und der die Teilmengen repräsentierenden Wahrscheinlichkeitsfunktionen (1121, ..., 1124) ermittelt werden.
  13. Verfahren zur Ausgabe einer Teilmenge (1320) von Audiodatensätzen aus einer Grundmenge (1330) von Audiodatensätzen an einen Nutzer in Abhängigkeit eines durch einen Nutzer vorgegebenen Audiodatensatzes (1410), wobei anhand von eingelesenen Zuordnungsdaten (1310) die Audiodatensätze der Grundmenge (1330) Teilmengen zugeordnet werden, wobei für den vorgegebenen Audiodatensatz (1410) erste Zuordnungsdaten (1411) ermittelt werden, anhand derer der vorgegebene Audiodatensatz (1410) einer Teilmenge (1320) zugeordnet wird, wobei jene Teilmenge (1320) ausgegeben wird, der der vorgegebene Audiodatensatz (1410) zugeordnet wurde, dadurch gekennzeichnet, dass es sich bei den ersten Zuordnungsdaten (1411) um eine Wahrscheinlichkeitsfunktion handelt, welche unter Verwendung des vorgegebenen (1410) Audiodatensatzes bestimmt wird, und dass es sich bei den eingelesenen Zuordnungsdaten (1310) um Wahrscheinlichkeitsfunktionen handelt, welche die Teilmengen repräsentieren.
DE102008040163A 2008-07-04 2008-07-04 Vorrichtung und Verfahren zur Bereithaltung von Zuordnungsdaten, welche Audiodatensätze in Teilmengen aufteilen Withdrawn DE102008040163A1 (de)

Priority Applications (1)

Application Number Priority Date Filing Date Title
DE102008040163A DE102008040163A1 (de) 2008-07-04 2008-07-04 Vorrichtung und Verfahren zur Bereithaltung von Zuordnungsdaten, welche Audiodatensätze in Teilmengen aufteilen

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
DE102008040163A DE102008040163A1 (de) 2008-07-04 2008-07-04 Vorrichtung und Verfahren zur Bereithaltung von Zuordnungsdaten, welche Audiodatensätze in Teilmengen aufteilen

Publications (1)

Publication Number Publication Date
DE102008040163A1 true DE102008040163A1 (de) 2010-01-07

Family

ID=41396851

Family Applications (1)

Application Number Title Priority Date Filing Date
DE102008040163A Withdrawn DE102008040163A1 (de) 2008-07-04 2008-07-04 Vorrichtung und Verfahren zur Bereithaltung von Zuordnungsdaten, welche Audiodatensätze in Teilmengen aufteilen

Country Status (1)

Country Link
DE (1) DE102008040163A1 (de)

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
Abu El-Yazeed, El Gamal and El Ayadi: On the Determination of Optimal Model Order for GMM-Based Text-Independent Speaker Identification, EURASIP Journal on Applied Signal Processing, Volume 2004, Nr 8, Pages 1078-1087}
Jensen, Ellis, Christensen, Jensen: Evaluation of distance measures between Gaussian mixture models of MFCCs, Proceedings of International Conf. on Music Information Retrieval, 2007
Märchen, Ultsch, Thies, and Löhken: Modeling timbre distance with temporal statistics from polyphonic music, IEEE Transactions on Speech and Audio Processing, January 2006, Volume 14, Pages 81-90
Mildner: Signalverarbeitungskonzepte zur robusten Sprechererkennung, Dissertation, Forschungsberichte aus dem Arbeitsbereich Nachrichtentechnik der Universität Bremen, Band 16, Kapitel 2 und 3, ISBDN 978-3-8322-6504-5, Shaker Verlag, 2007
Rauber and Frühwirth: Automatically Analyzing and Organizing Music Archives, Proceedings of the 5th European Conference on Research and Advanced Technology for Digital Libraries (ECDL '01)}, September 2001

Similar Documents

Publication Publication Date Title
EP1405222B9 (de) Verfahren und vorrichtung zum erzeugen eines fingerabdrucks und verfahren und vorrichtung zum identifizieren eines audiosignals
EP1407446B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und zum erzeugen eines indexierten signals
EP1368805B1 (de) Verfahren und vorrichtung zum charakterisieren eines signals und verfahren und vorrichtung zum erzeugen eines indexierten signals
DE69908360T2 (de) Rechnersystem und verfahren zur erklärung des verhaltens eines modelles das eingangsdaten auf ausgangdaten abbildet
DE69925479T2 (de) Dynamisch konfigurierbares akustisches modell für spracherkennungssysteme
DE69726526T2 (de) Schema und Modelladaption bei Mustererkennung welche auf Taylorausdehnung basiert
DE102004049457B3 (de) Verfahren und Vorrichtung zur Extraktion einer einem Audiosignal zu Grunde liegenden Melodie
DE10232916B4 (de) Vorrichtung und Verfahren zum Charakterisieren eines Informationssignals
DE10313875B3 (de) Vorrichtung und Verfahren zum Analysieren eines Informationssignals
DE102019005423A1 (de) Raum-Zeit-Speicher- bzw. Ablagenetzwerk zum Lokalisieren eines Zielobjektes in Videocontent
DE2825110A1 (de) Verfahren zur erkennung kontinuierlicher sprachsignale
WO2005122136A1 (de) Vorrichtung und verfahren zum bestimmen eines akkordtyps, der einem testsignal zugrunde liegt
DE2825186A1 (de) Verfahren zur verringerung der falschanzeige in spracherkennungsverfahren fuer kontinuierliche sprachsignale
DE2825082A1 (de) Verfahren zur spracherkennung
DE2844156A1 (de) Verfahren zum verifizieren eines sprechers
EP1280138A1 (de) Verfahren zur Analyse von Audiosignalen
DE10297802T5 (de) Reduktion der Suchmehrdeutigkeit bei Mehrfachmedienbezügen
WO2006039992A1 (de) Extraktion einer einem audiosignal zu grunde liegenden melodie
DE60225190T2 (de) Merkmal-basierte audio-inhaltsidentifikation
DE102004049478A1 (de) Verfahren und Vorrichtung zur Glättung eines Melodieliniensegments
DE112018006438T5 (de) Clustering von facetten auf einem zweidimensionalen facettenwürfel für text-mining
DE102012025016B3 (de) Verfahren zur Ermittlung wenigstens zweier Einzelsignale aus wenigstens zwei Ausgangssignalen
CH695402A5 (de) Verfahren zur Bestimmung eines charakteristischen Datensatzes für ein Tonsignal.
DE102008040163A1 (de) Vorrichtung und Verfahren zur Bereithaltung von Zuordnungsdaten, welche Audiodatensätze in Teilmengen aufteilen
EP1377924B1 (de) VERFAHREN UND VORRICHTUNG ZUM EXTRAHIEREN EINER SIGNALKENNUNG, VERFAHREN UND VORRICHTUNG ZUM ERZEUGEN EINER DAZUGEHÖRIGEN DATABANK und Verfahren und Vorrichtung zum Referenzieren eines Such-Zeitsignals

Legal Events

Date Code Title Description
R012 Request for examination validly filed
R012 Request for examination validly filed

Effective date: 20150313

R079 Amendment of ipc main class

Free format text: PREVIOUS MAIN CLASS: G06F0017300000

Ipc: G06F0016000000

R119 Application deemed withdrawn, or ip right lapsed, due to non-payment of renewal fee