-
Die
vorliegende Erfindung bezieht sich auf eine Audiodatensegmentierungsvorrichtung
und ein Audiodatensegmentierungsverfahren zum Segmentieren von Audiodaten,
die die Merkmale der Oberbegriffe der unabhängigen Ansprüche 1 bzw.
19 aufweisen.
-
In
dem Internet und in einer Vielfalt von Speichermedien, z. B. digitalen
Videoplatten, ist eine wachsende Menge von Videodaten verfügbar. Die
Videodaten werden ferner durch eine riesige Zahl von Fernsehstationen
als ein analoges oder digitales Videosignal geliefert.
-
Die
Videodaten sind eine reiche multilaterale Informationsquelle, die
Sprache, Audio, Text, Farbmuster und eine Form von abgebildeten
Objekten und eine Bewegung dieser Objekte enthält.
-
Gegenwärtig besteht
ein Wunsch nach der Möglichkeit,
in den Videodaten nach interessierenden Segmenten (z. B. bestimmten
Themen, Personen, Ereignissen oder Handlungsabläufen etc.) zu suchen.
-
Prinzipiell
können
alle Videodaten hinsichtlich des allgemeinen Gegenstands derselben
primär klassifiziert
werden.
-
Der
allgemeine Gegenstand könnte
beispielsweise Nachrichten oder Sport sein, wenn die Videodaten
ein TV-Programm sind.
-
Bei
der vorliegenden Patentanmeldung wird auf den allgemeinen Gegenstand
der Videodaten als „Programm" Bezug genommen.
-
Üblicherweise
enthält
jedes Programm eine Mehrzahl von in sich abgeschlossenen Aktivitäten.
-
Wenn
das Programm beispielsweise Nachrichten ist, könnten die in sich abgeschlossenen
Aktivitäten
die in den Nachrichten erwähnten
unterschiedlichen Mitteilungen sein. Wenn das Programm beispielsweise
Fußball
ist, könnten
die in sich abgeschlossenen Aktivitäten Anstoß, Strafstoß, Einwurf etc. sein.
-
Im
Folgenden sind die in sich abgeschlossenen Aktivitäten, die
in einem Programm umfasst sind, „Inhalte" genannt.
-
Die
zu einem bestimmten Programm gehörenden
Videodaten können
daher hinsichtlich der Inhalte derselben weiter klassifiziert sein.
-
Der
herkömmliche
Videobandrekorder-Abtast-Wiedergabemodus zum Browsen bzw. Blättern in
und Skimmen bzw. Abschöpfen
von analogen Videodaten ist mühsam
und unflexibel. Der Grund für dieses
Problem besteht darin, dass die Videodaten als ein linearer Block
von Samples bzw. Abtastungen behandelt werden. Es ist keine Suchfunktionalität vorgesehen.
-
Um
sich diesem Problem zuzuwenden, weisen manche moderne Videobandrekorder
die Möglichkeit
auf, jedes Mal, wenn ein Aufzeichnungsbetrieb gestartet wird, entweder
manuell oder automatisch Indexe einzustellen, um eine automatische
Erkennung von bestimmten Sequenzen von Videodaten zu erlauben. Es
ist bei den Indexen ein Nachteil, dass die Indexe eine bestimmte
Sequenz von Videodaten nicht einzeln identifizieren können. Die
Indexe können
ferner eine bestimmte Sequenz von Videodaten nicht einzeln für jeden
Benutzer identifizieren.
-
Andererseits
weisen digitale Videoplatten digitalisierte Videodaten auf, wobei
während
der Erzeugung der digitalen Videoplatte Kapitel zu den Videodaten
hinzugefügt
werden.
-
Die
Kapitel erlauben normalerweise lediglich eine Identifizierung der
Handlung.
-
Eine
offensichtliche Lösung
für das
Problem der Handhabung großer
Mengen von Videodaten wäre,
die Videodaten gemäß den Inhalten
derselben manuell in Segmente zu teilen und detaillierte Segmentinformationen
zu liefern.
-
Aufgrund
der immensen Menge von Videosequenzen, die die verfügbaren Videodaten
in sich aufweisen, ist eine manuelle Segmentierung äußerst zeitaufwendig
und daher teuer. Dieser Lösungsansatz
ist daher nicht praktikabel, um eine riesige Menge von Videodaten
zu verarbeiten.
-
Um
das vorhergehende Problem zu lösen, wurden
kürzlich
Lösungsansätze zum
automatischen Indexieren von Videodaten vorgeschlagen.
-
Mögliche Anwendungsbereiche
für ein
solches automatisches Indexieren von Videodaten sind beispielsweise
digitale Videobibliotheken oder das Internet.
-
Da
Videodaten aus mindestens einem visuellen Kanal und einem oder mehreren
Audiokanälen bzw.
Tonkanälen
zusammengesetzt sind, könnte
sich ein automatisches Videosegmentierungsverfahren entweder auf
eine Analyse des visuellen Kanals oder der Audiokanäle oder
auf beides stützen.
-
Im
Folgenden ist ein Segmentierungsverfahren, das auf eine Analyse
des Audiokanals von Videodaten ausgerichtet ist, weiter erörtert. Es
ist offensichtlich, dass dieser Lösungsansatz nicht auf den Audiokanal
von Videodaten begrenzt ist, sondern für jede Art von Audiodaten außer physikalischem
Rauschen verwendet werden könnte.
Die allgemeinen Betrachtungen können
ferner auch auf andere Typen von Daten, z. B. eine Analyse des Videokanals
von Videodaten, angewandt werden.
-
Die
bekannten Lösungsansätze für das Segmentierungsverfahren
weisen ein Clipping bzw. Schneiden, eine automatische Klassifizierung
und eine automatische Segmentierung der in dem Audiokanal von Videodaten
enthaltenen Audiodaten auf.
-
Das
Clipping wird durchgeführt,
um die Audiodaten (und die entsprechenden Videodaten) in Audiostücke einer
vorbestimmten Länge
für ein
weiteres Verarbeiten zu teilen. Die Genauigkeit des Segmentierungsverfahrens
hängt daher
von der Länge der
Audiostücke
ab.
-
Die
Klassifizierung steht für
eine rohe Unterscheidung der Audiodaten hinsichtlich des Ursprungs der
Audiodaten (z. B. Sprache, Musik, Geräusche, Stille und Geschlecht
des Sprechers), die üblicherweise
durch Signalanalyseverfahren durchgeführt wird.
-
Die
Segmentierung steht für
ein Segmentieren der (Video-)Daten in einzelne Audio-Metamuster von zusammenhaltenden
Audiostücken.
Jedes Audio-Metamuster weist alle Audiostücke auf, die zu einem Inhalt
oder Ereignis (z. B. einem Tor, einem Strafstoß eines Fußballspiels oder unterschiedlichen Nachrichten
während
eines Nachrichtenmagazins) gehören,
die die Videodaten in sich aufweisen.
-
Ein
bei einer Klassifizierung von Audiodaten häufig verwendetes stochastisches
Signalmodell ist das HIDDEN-MARKOV-MODELL, das in dem in den Proceedings
der IEEE, Band 77, Nr. 2 vom Februar 1989 veröffentlichten Aufsatz von Lawrence
R. RABINER „A
Tutorial an Hidden Markov Models and Selected Applications in Speech
Recognition" detailliert erklärt ist.
-
Unterschiedliche
Lösungsansätze für eine Audioklassifizierungssegmentierung
hinsichtlich Sprache, Musik, Stille und Geschlecht sind in der durch
Lab. ICTT Dept. Mathematiques-Informatiques, ECOLE CENTRALE DE LYON,
36, avenue Guy de Collongue B. P. 163, 69131 ECULLY Cedex, Frankreich,
veröffentlichten
Abhandlung „Speech/Music/Silence
and Gender Detection Algorithm" von
Hadi HARB, Liming CHEN und Jean-Yves AULOGE offenbart.
-
Allgemein
ist die vorhergehende Abhandlung auf eine Unterscheidung eines Audiokanals
in Sprache/Musik/Stille/und Geräusche,
die hilft, eine Szenensegmentierung zu verbessern, gerichtet. Vier
Lösungsansätze für eine Audioklassenunterscheidung sind
vorgeschlagen: Ein modellbasierter Lösungsansatz, bei dem Modelle
für jede
Audioklasse erzeugt werden, wobei die Modelle auf Merkmalen der
Audiodaten einer niedrigen Ebene, wie etwa Cepstrum und MFCC, basieren.
Der metrikbasierte Segmentierungsansatz verwendet Entfernungen zwischen
benachbarten Fenstern für
eine Segmentierung. Der regelbasierte Lösungsansatz weist eine Erzeugung von
einzelnen Regeln für
jede Klasse auf, wobei die Regeln auf Merkmalen höherer und
niedriger Ebene basieren. Der dekodiererbasierte Lösungsansatz schließlich verwendet
das Hidden-Markov-Modell eines Spracherkennungssystems, wobei das
Hidden-Markov-Modell trainiert wird, die Klasse eines Audiosignals
anzugeben.
-
Diese
Abhandlung beschreibt ferner detailliert Sprach-, Musik- und Stille-Eigenschaften, um eine
Erzeugung von Regeln, die jede Klasse gemäß dem regelbasierten Lösungsansatz
beschreiben, sowie eine Geschlechtserfassung, um das Geschlecht eines
Sprachsignals zu erfassen, zu erlauben.
-
„Audio
Feature Extraction and Analysis for Scene Segmentation and Classification" ist von Zhu LIU
und Yao WANG von der Polytechnic University Brooklyn, USA, zusammen
mit Tsuhan CHEN von der Carnegie Mellon University, Pittsburgh,
USA, offenbart. Diese Abhandlung beschreibt die Verwendung von zugeordneten
Audioinformationen für
eine Videoszenenanalyse von Videodaten, um fünf Typen von TV-Programmen,
nämlich
Werbesendungen, Basketballspiele, Fußballspiele, Nachrichtenmeldung
und Wettervorhersage, zu unterscheiden.
-
Gemäß dieser
Abhandlung werden die Audiodaten in eine Mehrzahl von Clips bzw.
Schnitten geteilt, wobei jeder Clip eine Mehrzahl von Frames bzw. Rahmen
aufweist.
-
Ein
Satz von Audiomerkmalen einer niedrigen Ebene, der eine Analyse
von Lautstärkenverlauf-,
Tonhöhenverlauf-
und Frequenzbereichsmerkmalen, wie eine Bandbreite, aufweist, wird
für eine Klassifizierung
der Audiodaten, die jeder Clip in sich aufweist, vorgeschlagen.
-
Unter
Verwendung einer Clustering-Analyse bzw. Gruppierungsanalyse wird
die lineare Trennbarkeit von unterschiedlichen Klassen untersucht,
um die Videosequenz in die vorhergehenden fünf Typen von TV-Programmen
zu trennen.
-
Drei
Schichten eines Audioverständnisses werden
in dieser Abhandlung unterschieden: Bei einer Schicht von akustischen
Charakteristika auf niedriger Ebene werden generische Merkmale auf
einer niedrigen Ebene wie etwa Lautstärke, Tonhöhenperiode und Bandbreite eines
Audiosignals analysiert. Bei einer Schicht einer akustischen Signatur
einer Zwischenebene wird das Objekt, das einen besonderen Klang
erzeugt, durch ein Vergleichen des jeweiligen akustischen Signals
mit Signaturen, die in einer Datenbank gespeichert sind, bestimmt.
Bei einem semantischen Modell höherer
Ebene werden einige von vorher bekannte semantische Regeln über die Struktur
von Audio bei unterschiedlichen Szenentypen (z. B. lediglich Sprache
bei Nachrichtenmeldungen und Wettervorhersagen, jedoch Sprache mit
geräuschvollem
Hintergrund bei Werbesendungen) verwendet.
-
Um
die Audiodaten in Audio-Metamuster zu segmentieren, werden Sequenzen
von Audioklassen von aufeinander folgenden Audioclips verwendet.
-
Um
die Genauigkeit dieses bekannten Verfahrens weiter zu verbessern,
wird vorgeschlagen, die Analyse der Audiodaten von Videodaten mit
einer Analyse der visuellen Informationen, die die Videodaten in
sich aufweisen, (z. B. jeweilige Farbmuster und eine Form von abgebildeten
Objekten) zu kombinieren.
-
Das
Patent
US 6,185,527 ,
das die Oberbegriffe der Ansprüche
1 und 19 bildet, offenbart ein System und Verfahren zum Indexieren
eines Audio-Stroms für
eine anschließende
Informationswiedergewinnung und für ein Skimmen, Verwesentlichen und
Zusammenfassen des Audio-Stroms. Das System und Verfahren umfasst
eine Verwendung eines speziellen Audio-Vorfilterns, derart, dass
lediglich relevante Sprachsegmente, die durch eine Spracherkennungsmaschine
erzeugt werden, indexiert werden. Es werden spezifische indexierende
Merkmale offenbart, die die Präzision
und den Abruf eines Informationswiedergewinnungssystems, das nach
einem Indexieren zum Wortfinden verwendet wird, verbessern. Die
Erfindung umfasst ein Umsetzen des Audio-Stroms in Intervalle, wobei
jedes Intervall ein oder mehr Segmente aufweist. Für jedes
Segment eines Intervalls wird bestimmt, ob das Segment ein oder mehr
vorbestimmte Audiomerkmale, wie etwa einen besonderen Bereich von
Nulldurchgangsraten, einen besonderen Bereich von Energie und einen
besonderen Bereich einer spektralen Energiekonzentration, zeigt.
Die Audiomerkmale werden heuristisch bestimmt, um jeweilige Audioereignisse,
umfassend Stille, Musik, Sprache und Sprache in Musik, darzustellen.
Es wird ferner bestimmt, ob eine Gruppe von Intervallen mit einem
heuristisch vordefinierten Metamuster, wie etwa kontinuierliche
ununterbrochene Sprache, folgernde Ideen, Zögern und Betonung in der Sprache
usw., übereinstimmt,
und der Audio-Strom wird dann basierend auf der Intervallklassifizierung
und dem Metamusterübereinstimmen
indexiert, wobei lediglich relevante Merkmale indexiert werden,
um die anschließende
Präzision
der Informationswiedergewinnung zu verbessern. Es werden ferner
Alternativen für
längere
durch die Spracherkennungsmaschine erzeugte Ausdrücke zusammen mit
jeweiligen Gewichtungen indexiert, um einen anschließenden Abruf
zu verbessern.
-
Es
wird daher unter anderem vorgeschlagen, automatisch eine Zusammenfassung
eines Audio-Stroms zu liefern oder ein Verständnis des Wesentlichen eines
Audio-Stroms zu gewinnen.
-
Algorithmen,
die Indizes aus einer automatischen akustischen Segmentierung erzeugen,
sind in dem Aufsatz „Acoustic
Segmentation for Audio Browsers" von
Don KIMBER und Lynn WILCOX beschrieben. Diese Algorithmen verwenden
Hidden-Markov-Modelle,
um Audio in Segmente, die unterschiedlichen Sprechern oder akustischen
Klassen entsprechen, zu segmentieren. Typen von vorgeschlagenen
akustischen Klassen weisen Sprache, Stille, Gelächter, nichtsprachliche Klänge und
Abfall bzw. wertlose Daten auf, wobei Abfall als ein nichtsprachlicher
Klang, der nicht durch die anderen Klassenmodelle explizit modelliert
ist, definiert ist.
-
Eine
Implementierung der bekannten Verfahren wird von George TZANETAKIS
und Perry COOK in dem Aufsatz „MARSYAS:
A framework for audio analysis" vorgeschlagen,
in dem eine Client-Server-Architektur verwendet wird.
-
Wenn
Audiodaten in Audio-Metamuster segmentiert werden, ist es ein entscheidendes
Problem, dass eine bestimmte Sequenz von Audioklassen von aufeinander
folgenden Segmenten von Audiodaten gewöhnlich einer Vielfalt von Audio-Metamustern
zugeteilt werden kann.
-
Beispielsweise
könnte
die aufeinander folgende Sequenz von Audioklassen von aufeinander folgenden
Segmenten von Audiodaten für
ein Tor während
eines Fußballspiels
Sprache-Stille-Geräusche-Sprache
sein, und die aufeinander folgende Sequenz von Audioklassen von
aufeinander folgenden Segmenten von Audiodaten für eine Darstellung eines Videoclips
während
eines Nachrichtenmagazins könnte
ebenfalls Sprache-Stille-Geräusche-Sprache sein.
Bei dem vorliegenden Beispiel kann daher keine eindeutige Zuteilung
eines entsprechenden Audio-Metamusters durchgeführt werden.
-
Um
das vorhergehende Problem zu lösen, verwenden
bekannte Metamuster-Segmentierungsalgorithmen üblicherweise
einen regelbasierten Lösungsansatz
für die
Zuteilung von Metamustern zu einer bestimmten Sequenz von Audioklassen.
-
Es
sind daher verschiedene Regeln für
die Zuteilung der Audio-Metamuster erforderlich, um sich dem Problem
zuzuwenden, dass eine bestimmte Sequenz von Audioklassen von aufeinander
folgenden Segmenten von Audiodaten einer Vielfalt von Audio-Metamustern
zugeteilt werden kann. Das Bestimmungsverfahren, um eine annehmbare
Regel für
jedes Metamuster zu finden, ist üblicherweise
sehr schwierig, zeitaufwendig und subjektiv, da dasselbe von sowohl
den verwendeten Roh-Audiodaten
als auch der persönlichen
Erfahrung der Person, die das Bestimmungsverfahren ausführt, abhängig ist.
-
Es
ist folglich schwierig, mit bekannten Verfahren für die Segmentierung
von Audiodaten in Audio-Metamuster gute Resultate zu erreichen,
da die Regeln für
die Zuteilung der Audio-Metamuster unbefriedigend sind.
-
Es
ist die Aufgabe der vorliegenden Erfindung, die im Vorhergehenden
zitierten Nachteile zu überwinden
und ein System und Verfahren für
eine Segmentierung von Audiodaten in Metamuster zu schaffen, die
eine leichte und zuverlässige
Weise für die
Zuordnung von Metamustern zu jeweiligen Sequenzen von Audioklassen
verwendet.
-
Die
vorhergehende Aufgabe wird durch eine Audiodatensegmentierungsvorrichtung,
die die Merkmale des unabhängigen
Anspruchs 1 aufweist, gelöst.
-
Weitere
Entwicklungen sind in den abhängigen
Ansprüchen
dargelegt.
-
Gemäß der vorliegenden
Erfindung ist daher eine Mehrzahl von Programmdateneinheiten in
der Programmdatenbank gespeichert. Jede Programmdateneinheit weist
eine Zahl von Audio-Metamustern, die für ein bestimmtes Programm geeignet
sind, auf.
-
Bei
dem vorliegenden Dokument zeigt ein Programm den allgemeinen Gegenstand
an, den die Audiodaten, die noch nicht durch die Audiodaten-Clipping-Einrichtung
bzw. Audiodatenschneideeinrichtung in Audioclips geteilt sind, in
sich umfassen. In sich abgeschlossene Aktivitäten, die alle Audiodaten jedes
Programms in sich aufweisen, sind Inhalte genannt.
-
Die
vorliegende Erfindung basiert auf der Tatsache, das unterschiedliche
Programme üblicherweise
auch unterschiedliche Inhalte aufweisen.
-
Durch
ein Verwenden der jeweiligen Programmdateneinheit in Abhängigkeit
von dem Programm, zu dem die Audiodaten tatsächlich gehören, ist es daher möglich, eine
Zahl von Audio-Metamustern, die höchstwahrscheinlich für eine Segmentierung
der jeweiligen Audiodaten geeignet sind, zu definieren. Die Zuteilung
von Metamustern zu jeweiligen Sequenzen von Audioklassen ist daher
wesentlich erleichtert.
-
Gemäß der vorliegenden
Erfindung identifizieren die Audioklassen eine Art von Audiodaten.
Die Audioklassen sind daher angepasst/optimiert/trainiert, um eine
Art von Audiodaten zu identifizieren.
-
Durch
ein Verwenden von Wahrscheinlichkeitswerten für jede Audioklasse, die in
der Audioklassen-Wahrscheinlichkeitsdatenbank gespeichert sind,
ist es möglich,
die Signifikanz jeder Audioklasse hinsichtlich einer bestimmten
Zahl von vorhergehenden Audioklassen zu identifizieren und die Signifikanz
während
einer Segmentierung von Audiodaten in Audio-Metamuster zu berücksichtigen.
-
Wie
im Vorhergehenden gesagt ist, könnten mehrere
Audio-Metamuster durch dieselbe Sequenz von Audioklassen von aufeinander
folgenden Audioclips charakterisiert sein. Falls die Audio-Metamuster zu
derselben Programmdateneinheit gehören, kann durch die Segmentiereinrichtung
lediglich basierend auf der Programmdatenbank keine eindeutige Entscheidung
getroffen werden.
-
Durch
ein Verwenden von Wahrscheinlichkeitswerten für jedes Audio-Metamuster, die
in der Audio-Metamuster-Wahrscheinlichkeitsdatenbank gespeichert
sind, ist es möglich,
ein bestimmtes Audio-Metamuster aus der Mehrzahl von Audio-Metamustern, das
höchstwahrscheinlich
geeignet ist, um den Typ von Inhalten der Audiodaten hinsichtlich
der vorhergehenden Audio-Metamuster zu identifizieren, zu identifizieren.
-
Es
müssen
daher keine weiteren Regeln geliefert werden, um Probleme zu bewältigen,
bei denen mehr als ein Audio-Metamuster einer Programmdateneinheit
durch dieselbe Sequenz von Audioklassen von aufeinander folgenden
Audioclips charakterisiert ist.
-
Gemäß einem
bevorzugten Ausführungsbeispiel
der vorliegenden Erfindung segmentiert die Segmentiereinrichtung
die Audiodaten durch ein Berechnen von Wahrscheinlichkeitswerten
für alle
Audio-Metadaten für
jede Sequenz von Audioklassen von aufeinander folgenden Audioclips
basierend auf der Programmdatenbank und/oder der Audioklassen-Wahrscheinlichkeitsdatenbank
und/oder der Audio-Metamuster-Wahrscheinlichkeitsdatenbank in Audio-Metamuster.
-
Durch
ein Annehmen der gemeinsamen maximalen Wahrscheinlichkeit aller
Wissensquellen, die durch die Audiodaten geliefert sind, ohne eine
frühere
Entscheidung zu treffen, ist es möglich, eine Optimalität bei einer
Segmentierung von Audiodaten in Audio-Metamuster sicherzustellen,
da Fehler bei entweder der Klassenunterscheidungseinrichtung oder der
Segmentiereinrichtung oder einer der Datenbanken nicht notwendigerweise
zu einem Fehler der endgültigen
Segmentierung führen.
Die Vorrichtung gemäß der vorliegenden
Erfindung nutzt daher die statistischen Charakteristika der jeweiligen
Audiodaten, um die Genauigkeit derselben zu verbessern.
-
Die
Audiodatensegmentierungsvorrichtung weist ferner vorzugsweise eine
Programmerfassungseinrichtung auf, um die Art von Programm, zu dem
die Audiodaten gehören,
durch ein Verwenden der im Vorhergehenden segmentierten Audiodaten zu
identifizieren, wobei ferner die Segmentiereinrichtung die Segmentierung
der Audiodaten in Audio-Metamuster auf die Audio-Metamuster begrenzt,
die der Programmdateneinheit der Art von Programm, das durch die
Programmerfassungseinrichtung identifiziert wird, zugeteilt sind.
-
Durch
die Bereitstellung einer Programmerfassungseinrichtung ist es möglich, die
Zahl von potenziellen Audio-Metamustern, die durch die Segmentiereinrichtung
untersucht werden müssen,
wesentlich zu reduzieren und daher sowohl die Genauigkeit als auch
die Geschwindigkeit der erfinderischen Audiodatensegmentierungsvorrichtung
zu verbessern.
-
Es
ist nutzbringend, wenn die Klassenunterscheidungseinrichtung ferner
einen Klassenwahrscheinlichkeitswert für jede Audioklasse von jedem Audioclip
berechnet, wobei die Segmentiereinrichtung die Klassenwahrscheinlichkeitswerte,
die durch die Klassenunterscheidungseinrichtung berechnet werden,
für ein
Segmentieren der Audiodaten in entsprechende Audio-Metamuster verwendet.
-
Es
kann daher, wenn die Audiodaten in Audio-Metamuster segmentiert
werden, sogar die Genauigkeit der Klassenunterscheidungseinrichtung durch
die Segmentiereinrichtung in Betracht gezogen werden.
-
Die
Segmentierung der Audiodaten in Audio-Metamuster kann durch die
Segmentiereinrichtung auf eine sehr leichte Weise unter Verwendung eines
Viterbi-Algorithmus
durchgeführt
werden.
-
Die
Klassenunterscheidungseinrichtung verwendet vorzugsweise einen Satz
von vorbestimmten Audioklassenmodellen, die für jede Audioklasse zum Unterscheiden
der Audioclips in vorbestimmte Audioklassen vorgesehen sind.
-
Die
Klassenunterscheidungseinrichtung kann daher gut ausgeführte Klassenmodelle
zum Unterscheiden der Clips in vorbestimmte Audioklassen verwenden.
-
Die
vorbestimmten Audioklassenmodelle können durch eine empirische
Analyse von manuell klassifizierten Audiodaten erzeugt werden.
-
Gemäß einem
bevorzugten Ausführungsbeispiel
werden die Audioklassenmodelle als Hidden-Markov-Modelle geliefert.
-
Die
Klassenunterscheidungseinrichtung analysiert vorteilhaft akustische
Charakteristika der Audiodaten, die die Audioclips in sich aufweisen,
um die Audioclips in die jeweiligen Audioklassen zu unterscheiden.
-
Die
akustischen Charakteristika weisen vorzugsweise Energie/Lautstärke, Tonhöhenperiode, Bandbreite
und MFCC der jeweiligen Audiodaten auf. Weitere Charakteristika
könnten
verwendet sein.
-
Die
Audiodateneingabeeinrichtung ist ferner vorzugsweise angepasst,
um die Audiodaten zu digitalisieren. Daher können sogar analoge Audiodaten durch
die erfinderische Audiodatensegmentierungsvorrichtung verarbeitet
werden.
-
Gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung enthält
jeder Audioclip, der durch die Audiodaten-Clipping-Einrichtung erzeugt wird,
eine Mehrzahl von überlappenden
kurzen Intervallen von Audiodaten.
-
Um
eine annehmbare Segmentierung der Audiodaten in Metamuster zu erlauben,
ist es nützlich,
wenn die vorbestimmten Audioklassen mindestens eine Klasse für jeweils
Stille, Sprache, Musik, Beifallrufe und Klatschen aufweisen.
-
Gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung weist die Programmdatenbank Programmdateneinheiten
für mindestens
sowohl Sport, Nachrichten, Werbesendungen, Spielfilme als auch Reportagen
auf.
-
Vorzugsweise
werden Wahrscheinlichkeitswerte für jede Audioklasse und/oder
jedes Audio-Metamuster durch eine empirische Analyse von manuell klassifizierten
Audiodaten erzeugt.
-
Es
ist ferner nutzbringend, wenn die Audiodatensegmentierungsvorrichtung
ferner eine Ausgabedateierzeugungseinrichtung aufweist, um eine Ausgabedatei
zu erzeugen, wobei die Ausgabedatei die Anfangszeit, die Endzeit
und die Inhalte der Audiodaten, die einem jeweiligen Metamuster
zugeteilt sind, enthält.
-
Eine
solche Ausgabedatei kann durch Suchmaschinen und Datenverarbeitungseinrichtungen ohne
weiteres gehandhabt werden.
-
Es
wird bevorzugt, dass die Audiodaten ein Teil von Rohdaten sind,
die sowohl Audiodaten als auch Videodaten enthalten. Alternativ
könnten
Rohdaten, die lediglich Audiodaten enthalten, verwendet sein.
-
Die
vorhergehende Aufgabe ist ferner durch ein Verfahren zum Segmentieren
von Audiodaten, das die Merkmale von Anspruch 19 aufweist, gelöst.
-
Gemäß einem
bevorzugten Ausführungsbeispiel
weist der Schritt des Segmentieren der Audiodaten in Audio-Metamuster
eine Berechnung von Wahrscheinlichkeitswerten für alle Metadaten für jede Sequenz
von Audioklassen von aufeinander folgenden Audioclips basierend
auf der Programmdatenbank und/oder der Audioklassen-Wahrscheinlichkeitsdatenbank
und/oder der Audio-Metamuster-Wahrscheinlichkeitsdatenbank
auf.
-
Das
Verfahren zum Segmentieren von Audiodaten kann außerdem ferner
den Schritt eines Identifizieren der Art von Programm, zu dem die
Audiodaten gehören,
unter Verwendung der im Vorhergehenden segmentierten Audiodaten
aufweisen, wobei der Schritt des Segmentierens der Audiodaten in
Audio-Metamuster ein Begrenzen der Segmentierung der Audiodaten
in Audio-Metamuster auf die Audio-Metamuster, die der Programmdateneinheit
des identifizierten Programms zugeteilt sind, aufweist.
-
Es
ist nutzbringend, wenn der Schritt des Unterscheidens der Audioclips
in vorbestimmte Audioklassen eine Berechnung eines Klassenwahrscheinlichkeitswerts
für jede
Audioklasse von jedem Audioclip aufweist, wobei der Schritt des
Segmentierens der Audiodaten in Audio-Metamuster ferner die Verwendung
der Klassenwahrscheinlichkeitswerte, die durch die Klassenunterscheidungseinrichtung
zum Segmentieren der Audiodaten in entsprechende Audio-Metamuster
berechnet werden, aufweist.
-
Gemäß einem
Ausführungsbeispiel
der vorliegenden Erfindung weist der Schritt des Segmentieren der
Audiodaten in Audio-Metamuster die Verwendung eines Viterbi-Algorithmus auf,
um die Audiodaten in Audio-Metamuster zu segmentieren.
-
Es
wird bevorzugt, dass der Schritt des Unterscheidens der Audioclips
in vorbestimmte Audioklassen die Verwendung eines Satzes von vorbestimmten
Audioklassenmodellen, die für
jede Audioklasse zum Unterscheiden der Clips in vorbestimmte Audioklassen
vorgesehen sind, aufweist.
-
Das
Verfahren zum Segmentieren von Audiodaten weist vorteilhafterweise
ferner den Schritt eines Erzeugen der vorbestimmten Audioklassenmodelle
durch eine empirische Analyse von manuell klassifizierten Audiodaten
auf.
-
Es
ist nützlich,
wenn Hidden-Markov-Modelle verwendet sind, um die Audioklassen darzustellen.
-
Der
Schritt des Unterscheidens der Audioclips in vorbestimmte Audioklassen
weist vorzugsweise eine Analyse von akustischen Charakteristika der
Audiodaten, die die Audioclips in sich aufweisen, auf.
-
Die
akustischen Charakteristika weisen nützlicherweise Energie/Lautstärke, Tonhöhenperiode, Bandbreite
und MFCC der jeweiligen Audiodaten auf. Weitere akustische Charakteristika
könnten
verwendet werden.
-
Es
wird bevorzugt, dass das Verfahren zum Segmentieren von Audiodaten
ferner den Schritt eines Digitalisieren von Audiodaten aufweist.
-
Das
Verfahren zum Segmentieren von Audiodaten weist ferner vorteilhafterweise
den Schritt einer empirischen Analyse von manuell klassifizierten Audiodaten
auf, um Wahrscheinlichkeitswerte für jede Audioklasse und/oder
für jedes
Audio-Metamuster zu erzeugen.
-
Es
wird außerdem
bevorzugt, dass das Verfahren zum Segmentieren von Audiodaten ferner
den Schritt eines Erzeugen einer Ausgabedatei aufweist, wobei die Ausgabedatei
die Anfangszeit, die Endzeit und die Inhalte der Audiodaten, die
einem jeweiligen Metamuster zugeteilt sind, enthält.
-
In
der folgenden detaillierten Beschreibung ist die vorliegende Erfindung
durch Bezugnahme auf die beigefügten
Zeichnungen, in denen sich durch die Ansichten gleiche Bezugszeichen
auf gleiche Teile beziehen, erklärt,
wobei:
-
1 ein
Blockdiagramm einer Audiodatensegmentierungsvorrichtung gemäß der vorliegenden Erfindung
zeigt; und
-
2 die
Funktion des Verfahrens zum Segmentieren von Audiodaten gemäß der vorliegenden Erfindung
basierend auf einem schematischen Diagramm zeigt.
-
1 zeigt
eine Audiodatensegmentierungsvorrichtung gemäß der vorliegenden Erfindung.
-
Bei
dem einen Ausführungsbeispiel
ist die Audiodatensegmentierungsvorrichtung 1 in einem
digitalen Videorekorder umfasst, der in den Figuren nicht gezeigt
ist. Alternativ könnte
die Datensegmentierungsvorrichtung in einer anderen digitalen Audio-/Videovorrichtung,
wie einem Personalcomputer oder einer Arbeitsstation, umfasst sein,
oder könnte als
eine getrennte Ausrüstung
vorgesehen sein.
-
Die
Audiodatensegmentierungsvorrichtung 1 zum Segmentieren
von Audiodaten weist eine Audiodateneingabeeinrichtung 2 zum
Zuführen
von Audiodaten über
ein Audiodateneingangstor 12 auf.
-
Die
Audiodateneingabeeinrichtung 2 digitalisiert analoge Audiodaten,
die zu dem Dateneingangstor 12 geliefert werden.
-
Bei
dem vorliegenden Beispiel sind die analogen Audiodaten ein Teil
eines Audiokanals eines herkömmlichen
Fernsehkanals. Die Audiodaten sind daher ein Teil von Echtzeit-Rohdaten,
die sowohl Audiodaten als auch Videodaten enthalten.
-
Alternativ
könnten
Rohdaten, die lediglich Audiodaten enthalten, verwendet sein.
-
Stattdessen
wird, wenn digitale Audiodaten zu der Audiodateneingabeeinrichtung 2 geliefert
werden, kein weiteres Digitalisieren durchgeführt, sondern die Daten werden
lediglich durch die Audiodateneingabeeinrichtung 2 durchgelassen.
Die digitalen Audiodaten könnten
beispielsweise der Audiokanal einer digitalen Videoplatte sein.
-
Die
durch die Audiodateneingabeeinrichtung 2 zugeführten Audiodaten
werden zu einer Audiodaten-Clipping-Einrichtung 3 gesendet,
die zum Teilen der Audiodaten in Audioclips einer vorbestimmten Länge, bzw.
um die Audiodaten in Audioclips einer vorbestimmten Länge zu teilen,
angepasst ist.
-
Gemäß dem vorliegenden
Beispiel weist jeder Audioclip eine Sekunde von Audiodaten auf.
Alternativ kann jede andere geeignete Länge (z. B. eine Zahl von Sekunden
oder ein Bruchteil von Sekunden) gewählt sein.
-
Die
Audiodaten, die jeder Clip in sich aufweist, sind ferner in eine
Mehrzahl von Frames von 512 Samples geteilt, wobei aufeinander folgende Frames
hinsichtlich des jeweiligen vorhergehenden Frames um 180 Samples
verschoben sind. Diese Unterteilung der Audiodaten, die jeder Clip
in sich aufweist, erlaubt eine genaue und leichte Handhabung der
Audioclips.
-
Für einen
Fachmann ist offensichtlich, dass alternativ Unterteilungen der
Audiodaten in eine Mehrzahl von Frames, die mehr oder weniger als
512 Samples aufweisen, möglich
sind. Aufeinander folgende Frames könnten ferner um mehr oder weniger als
180 Samples hinsichtlich des jeweiligen vorhergehenden Frames verschoben
sein.
-
Jeder
Audioclip, der durch die Audiodaten-Clipping-Einrichtung 3 erzeugt
wird, enthält
daher eine Mehrzahl von überlappenden
kurzen Intervallen von Audiodaten, die Frames genannt sind.
-
Die
durch die Audiodaten-Clipping-Einrichtung 3 zugeführten Audioclips
werden ferner zu einer Klassenunterscheidungseinrichtung 4 gesendet.
-
Die
Klassenunterscheidungseinrichtung 4 unterscheidet die Audioclips
in vorbestimmte Audioklassen (ist angepasst, um die Audioclips in
vorbestimmte Audioklassen zu unterscheiden), wodurch jede Audioklasse
die Art von Audiodaten, die der jeweilige Audioclip in sich umfasst,
identifiziert. Die Audioklassen sind daher angepasst/optimiert/trainiert, um
eine Art von Audiodaten, die der jeweilige Audioclip in sich umfasst,
zu identifizieren.
-
Gemäß dem vorliegenden
Ausführungsbeispiel
ist eine Audioklasse für
sowohl Stille, Sprache, Musik, Beifallrufe als auch Klatschen vorgesehen.
Alternativ könnten
weitere Audioklassen, z. B. Geräusche
oder männliche/weibliche
Sprache, bestimmt sein.
-
Die
Unterscheidung der Audioclips in Audioklassen wird durch die Klassenunterscheidungseinrichtung 4 durch
Verwenden eines Satzes von vorbestimmten Audioklassenmodellen, die
durch eine empirische Analyse von manuell klassifizierten Audiodaten
erzeugt werden, durchgeführt.
Die Audioklassenmodelle sind für
jede vorbestimmte Audioklasse in der Form von Hidden-Markov-Modellen
vorgesehen und sind in der Klassenunterscheidungseinrichtung 4 gespeichert.
-
Die
Audioclips, die der Klassenunterscheidungseinrichtung 4 durch
die Audiodaten-Clipping-Einrichtung 3 zugeführt werden,
werden hinsichtlich von akustischen Charakteristika der Audiodaten,
die die Audioclips in sich aufweisen, z. B. Energie/Lautstärke, Tonhöhenperiode,
Bandbreite und MFCC (Mel-Frequenz-Cepstral-Koeffizienten) der jeweiligen
Audiodaten analysiert, um die Audioclips durch eine Verwendung der
Audioklassenmodelle in die jeweiligen Audioklassen zu unterscheiden.
-
Wenn
die Audioclips in die vorbestimmten Audioklassen unterschieden werden,
berechnet zusätzlich
die Klassenunterscheidungseinrichtung 4 ferner für jede Audioklasse
einen Klassenwahrscheinlichkeitswert.
-
Der
Klassenwahrscheinlichkeitswert zeigt die Wahrscheinlichkeit an,
ob für
einen jeweiligen Audioclip die korrekte Audioklasse ausgewählt wurde.
-
Bei
dem vorliegenden Beispiel wird der Wahrscheinlichkeitswert durch
ein Zählen,
wie vielen Charakteristika des jeweiligen Audioklassenmodells durch
den jeweiligen Audioclip gänzlich
entsprochen wird, erzeugt.
-
Für einen
Fachmann ist offensichtlich, dass der Klassenwahrscheinlichkeitswert
alternativ auf eine andere Weise als durch ein Zählen, wie vielen Charakteristika
des jeweiligen Audioklassenmodells durch den jeweiligen Audioclip
gänzlich
entsprochen wird, automatisch erzeugt/berechnet werden könnte.
-
Die
Audioclips, die durch die Klassenunterscheidungseinrichtung 4 in
Audioklassen unterschieden werden, werden zusammen mit den jeweiligen Klassenwahrscheinlichkeitswerten
einer Segmentiereinrichtung 11 zugeführt.
-
Da
die Segmentiereinrichtung 11 ein zentrales Element der
vorliegenden Erfindung ist, ist die Funktion derselben in einem
folgenden Absatz getrennt beschrieben.
-
Eine
Programmdatenbank 5, die Programmdateneinheiten aufweist,
ist mit der Segmentiereinrichtung 11 verbunden.
-
Die
Programmdateneinheiten identifizieren eine bestimmte Art von Programm
der Audiodaten (sind angepasst, um eine bestimmte Art von Programm
der Audiodaten zu identifizieren).
-
Ein
Programm zeigt den allgemeinen Gegenstand, den die Audiodaten, die
noch nicht durch die Audiodaten-Clipping-Einrichtung 3 in
Audioclips geteilt sind, in sich umfassen, an.
-
Das
Programm könnte
z. B. Spielfilm oder Sport sein, wenn der Ursprung für die Audiodaten
ein TV-Programm ist.
-
In
sich abgeschlossene Aktivitäten,
die die Audiodaten von jedem Programm in sich aufweisen, sind Inhalte
genannt.
-
Die
zeitliche Länge
der Inhalte, die die Audiodaten von jedem Programm in sich aufweisen,
unterscheidet sich üblicherweise.
Alle Inhalte weisen daher eine bestimmte Zahl von aufeinander folgenden
Audioclips auf.
-
Wenn
das Programm beispielsweise Nachrichten ist, sind die Inhalte die
unterschiedlichen Mitteilungen, die in den Nachrichten erwähnt sind.
Wenn das Programm beispielsweise Fußball ist, sind die Inhalte
Anstoß,
Strafstoß,
Einwurf etc.
-
Bei
dem vorliegenden Ausführungsbeispiel sind
Programmdateneinheiten für
sowohl Sport, Nachrichten, Werbesendungen, Spielfilme als auch Reportagen
in der Programmdatenbank 5 gespeichert.
-
Jeder
Programmdateneinheit ist eine Mehrzahl von jeweiligen Audio-Metamustern
zugeteilt.
-
Jedes
Audio-Metamuster ist durch eine Sequenz von Audioklassen von aufeinander
folgenden Audioclips charakterisiert.
-
Audio-Metamuster,
die unterschiedlichen Programmdateneinheiten zugeteilt sind, können durch
die identische Sequenz von Audioklassen von aufeinander folgenden
Audioclips charakterisiert sein.
-
In
diesem Zusammenhang muss betont werden, dass die Programmdateneinheiten
vorzugsweise nicht mehrere Audio-Metamuster, die durch dieselbe
Sequenz von Audioklassen von aufeinander folgenden Audioclips charakterisiert
sind, aufweisen sollten. Mindestens sollten die Programmdateneinheiten
nicht zu viele Audio-Metamuster,
die durch die gleiche Sequenz von Audioklassen von aufeinander folgenden
Audioclips charakterisiert sind, aufweisen.
-
Eine
Audioklassen-Wahrscheinlichkeitsdatenbank 6 ist ferner
mit der Segmentiereinrichtung 11 verbunden.
-
Wahrscheinlichkeitswerte
für jede
Audioklasse hinsichtlich einer bestimmten Zahl von vorhergehenden
Audioklassen für
eine Sequenz von aufeinander folgenden Audioclips sind in der Audioklassen-Wahrscheinlichkeitsdatenbank 6 gespeichert.
-
Die
Funktion der Audioklassen-Wahrscheinlichkeitsdatenbank 6 ist
nun durch ein Beispiel erklärt:
Wenn
die vorhergehende Sequenz von Audioklassen „Sprache", „Stille", „Sprache" ist, ist die Wahrscheinlichkeit
für die
Audioklassen „Sprache" und „Stille" höher als
die Wahrscheinlichkeit für
die Audioklassen „Musik" oder „Beifallrufe/Klatschen".
-
Bei
dem vorliegenden Beispiel sind die Wahrscheinlichkeitswerte, die
durch eine empirische Analyse von manuell klassifizierten Audiodaten
erzeugt werden, in der Audioklassen-Wahrscheinlichkeitsdatenbank 6 gespeichert.
-
Eine
Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 ist außerdem mit
der Segmentiereinrichtung 11 verbunden.
-
Wahrscheinlichkeitswerte
für jedes
Audio-Metamuster hinsichtlich einer bestimmten Zahl von vorhergehenden
Audio-Metamustern für
eine Sequenz von aufeinander folgenden Audioklassen sind in der
Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 gespeichert.
-
Die
Funktion der Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 wird
durch das folgende Beispiel offensichtlicher:
Wenn das Programm
Fußball
ist und das vorhergehende Audio-Metamuster zu dem Inhalt „Foul" gehört, ist
die Wahrscheinlichkeit für
die Audio-Metamuster, die zu den Inhalten „Freistoß" oder „rote Karte" gehören, höher als
die Wahrscheinlichkeit für
das Audio-Metamuster, das zu dem Inhalt „Anstoß" gehört.
-
Die
Wahrscheinlichkeitswerte werden durch eine empirische Analyse von
manuell klassifizierten Audiodaten erzeugt.
-
Eine
Programmerfassungseinrichtung 8 ist ferner mit sowohl der
Audiodateneingabeeinrichtung 2 als auch der Segmentiereinrichtung 11 verbunden.
-
Die
Programmerfassungseinrichtung 8 identifiziert durch ein
Verwenden von im Vorhergehenden segmentierten Audiodaten, die in
einer herkömmlichen
Speichereinrichtung (nicht gezeigt) gespeichert sind, die Art von
Programm, zu dem die Audiodaten tatsächlich gehören.
-
Die
herkömmliche
Speichereinrichtung könnte
beispielsweise eine Festplatte oder ein Speicher sein.
-
Gemäß dem vorliegenden
Ausführungsbeispiel
basiert die Funktionalität
der Programmerfassungseinrichtung 8 auf der Tatsache, dass
sich die Arten von Audiodaten (und daher die Audioldassen), die
für eine
bestimmte Art von Programm (z. B. TV-Show, Nachrichten, Fußball etc.)
wichtig sind, in Abhängigkeit
von dem Programm, zu dem die beobachteten Audiodaten gehören, unterscheiden.
-
Wenn
die Art von Programm beispielsweise „Fußball" ist, ist die Audioklasse „Beifallrufen/Klatschen" eine wichtige Audioklasse.
Wenn im Gegensatz dazu die Art von Programm beispielsweise „Rockkonzert" ist, ist die Audioklasse „Musik" die wichtigste Audioklasse.
-
Durch
ein Erfassen der Häufigkeit
des Auftretens von Audioklassen können daher die allgemeinen
Inhalte der beobachteten Audiodaten und daher die Art von Programm
identifiziert werden.
-
Schließlich ist
eine Ausgabedateierzeugungseinrichtung 9, die ein Datenausgabetor 13 aufweist,
mit der Segmentiereinrichtung 11 verbunden.
-
Die
Ausgabedateierzeugungseinrichtung 9 erzeugt eine Ausgabedatei,
die sowohl die Audiodaten, die der Audiodateneingabeeinrichtung
zugeführt werden,
als auch Daten, die sich auf die Anfangszeit, die Endzeit und die
Inhalte der Audiodaten, die einem jeweiligen Metamuster zugeteilt
sind, beziehen, enthält.
-
Die
Ausgabedateierzeugungseinrichtung 9 gibt ferner die Ausgabedatei über das
Datenausgabetor 13 aus.
-
Das
Datenausgabetor 13 kann mit einer Aufzeichnungsvorrichtung
(nicht gezeigt), die die Ausgabedatei zu einem Aufzeichnungsmedium
speichert, verbunden sein.
-
Die
Aufzeichnungsvorrichtung könnte
beispielsweise ein DVD-Schreiber sein.
-
Im
Folgenden ist die Funktion der Segmentiereinrichtung 11 unter
Bezugnahme auf 2 im Detail erklärt.
-
Die
Segmentiereinrichtung 11 segmentiert die Audiodaten, die
durch die Klassenunterscheidungseinrichtung 4 geliefert
werden, basierend auf einer Sequenz von Audioklassen von aufeinander folgenden
Audioclips in Audio-Metamuster.
-
Wie
im Vorhergehenden gesagt ist, sind die Inhalte, die die Audiodaten
in sich aufweisen, jeweils aus einer Sequenz von aufeinander folgenden
Audioclips zusammengesetzt. Da jeder Audioclip in eine Audioklasse
unterschieden werden kann, ist auch jeder Inhalt aus einer Sequenz
von entsprechenden Audioklassen von aufeinander folgenden Audioclips zusammengesetzt.
-
Daher
ist es durch ein Vergleichen der Sequenz von Audioklassen von aufeinander
folgenden Audioclips, die zu den Inhalten der jeweiligen Audiodaten
gehören,
mit der Sequenz von Audioklassen von aufeinander folgenden Audioclips,
die zu den Audio-Metamustern
gehören,
möglich,
Audio-Metamuster zu finden, die den jeweiligen Inhalt identifizieren könnten (die
angepasst sein könnten,
um den jeweiligen Inhalt zu identifizieren).
-
Wie
im Vorhergehenden erwähnt
ist, ist jedes Audio-Metamuster einer vorbestimmten Programmdateneinheit
zugeteilt und in der Programmdatenbank 5 gespeichert. Jedes
Audio-Metamuster ist daher auch einem bestimmten Programm zugeteilt.
-
Wenn
das Programm z. B. „Fußball" ist, sind beispielsweise
Audio-Metamuster zum Identifizieren von „Strafstoß", „Tor", „Einwurf" und „Foul" vorgesehen. Wenn
das Programm z. B. „Nachrichten" ist, gibt es Audio-Metamuster
für „Politik", „Katastrophen", „Wirtschaft" und „Wetter".
-
Obwohl
durch ein Vergleichen der Sequenz von Audioklassen, die zu den Inhalten
gehört,
mit der Sequenz von Audioklassen, die zu den Audio-Metamustern gehört, eine
große
Zahl von Audio-Metamustern gefunden werden könnte, werden die entsprechend
gefundenen Audio-Metamuster üblicherweise
zu unterschiedlichen Programmdateneinheiten gehören.
-
Die
vorliegende Erfindung basiert auf der Tatsache, dass Audiodaten
von unterschiedlichen Programmen normalerweise auch unterschiedliche Inhalte
aufweisen. Sobald daher das tatsächliche Programm
und die entsprechende Programmdateneinheit identifiziert sind, ist
es wahrscheinlicher, dass sogar die weiteren Audio-Metamuster zu
der Programmdateneinheit gehören.
-
Durch
ein Identifizieren der Art von Programm, zu dem die Audiodaten tatsächlich gehören, kann
daher die Zahl von möglichen
Audio-Metamustern, die den jeweiligen Inhalt identifizieren könnten (die
angepasst sein könnten,
um den jeweiligen Inhalt zu identifizieren), auf die Audio-Metamuster,
die zu der Programmdateneinheit, die dem jeweiligen Programm entspricht,
gehören,
reduziert werden.
-
Eine
Zuteilung von Metamustern zu jeweiligen Sequenzen von Audioklassen
ist daher durch eine Verwendung der Programmdatenbank 5 wesentlich
erleichtert.
-
Das
tatsächliche
Programm könnte
beispielsweise durch ein Bestimmen (Zählen), zu welcher Programmdateneinheit
die meisten der bereits segmentierten Audio-Metamuster gehören, durch die Segmentiereinrichtung 11 identifiziert
werden.
-
Alternativ
kann der Ausgabewert der Programmerfassungseinrichtung 8 verwendet
werden.
-
Das
Segmentieren von Audiodaten auf der Basis der Programmdatenbank
ist durch das folgende Beispiel weiter erklärt:
Ein Audio-Metamuster
für „Foul" ist einer Programmdateneinheit „Fußball", die in der Programmdatenbank
gespeichert ist, zugeteilt. Ein Audio-Metamuster für „Katastrophen" ist ferner einer
Programmdateneinheit „Nachrichten", die auch in der
Programmdatenbank gespeichert ist, zugeteilt.
-
Die
Sequenz von Audioklassen von aufeinander folgenden Audioclips, die
das Audio-Metamuster „Foul" charakterisieren,
könnte
zu der Sequenz von Audioklassen von aufeinander folgenden Audioclips,
die. das Audio-Metamuster „Katastrophen" charakterisieren,
identisch sein.
-
Sobald
entschieden ist, dass die Audiodaten zu dem Programm „Fußball" gehören, ist
das Audio-Metamuster „Foul", das in der Programmdateneinheit „Fußball" gespeichert ist,
mit einer höheren Wahrscheinlichkeit
korrekt als das Audio-Metamuster „Katastrophen", das in der Programmdateneinheit „Nachrichten" gespeichert ist.
-
Bei
dem vorliegenden Beispiel segmentiert daher die Segmentiereinrichtung 11 die
jeweiligen Audioclips in das Audio-Metamuster „Foul".
-
Die
Segmentiereinrichtung 11 verwendet außerdem zum Segmentieren der
Audiodaten in Audio-Metamuster Wahrscheinlichkeitswerte für jede Audioklasse,
die in der Audioklassen-Wahrscheinlichkeitsdatenbank 6 gespeichert
sind.
-
Durch
das Verwenden von Wahrscheinlichkeitswerten für jede Audioklasse ist es möglich, die Signifikanz
von jeder Audioklasse hinsichtlich einer bestimmten Zahl von vorhergehenden
Audioklassen zu identifizieren und die Signifikanz während der Segmentierung
von Audiodaten in Audio-Metamuster zu berücksichtigen.
-
Die
Segmentiereinrichtung 11 verwendet weiterhin zum Segmentieren
der Audiodaten in Audio-Metamuster Wahrscheinlichkeitswerte für jedes Audio-Metamuster,
die in der Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 gespeichert sind.
-
Wie
im Vorhergehenden gesagt ist, könnten mehrere
Audio-Metamuster durch dieselbe Sequenz von Audioklassen von aufeinander
folgenden Audioclips charakterisiert sein. Falls die Audio-Metamuster zu
derselben Programmdateneinheit gehören, kann durch die Segmentiereinrichtung 11 lediglich
basierend auf der Programmdatenbank 5 keine eindeutige Entscheidung
getroffen werden.
-
Durch
ein Verwenden von Wahrscheinlichkeitswerten für jedes Audio-Metamuster identifiziert die
Segmentiereinrichtung 11 ein bestimmtes Audio-Metamuster
aus der Mehrzahl von Audio-Metamustern, das höchstwahrscheinlich geeignet
ist, um den Typ von Inhalten der Audiodaten hinsichtlich der vorhergehenden
Audio-Metamuster zu identifizieren.
-
Es
müssen
daher keine weiteren Regeln vorgesehen werden, um sich mit Problemen
zu befassen, bei denen mehr als ein Audio-Metamuster einer Programmdateneinheit
durch dieselbe Sequenz von Audioklassen von aufeinander folgenden
Audioclips charakterisiert ist.
-
Die
Segmentiereinrichtung 11 verwendet außerdem zum Segmentieren der
Audiodaten in Audio-Metamuster Klassenwahrscheinlichkeitswerte, die
durch die Klassenunterscheidungseinrichtung 4 berechnet
werden.
-
Die
Klassenwahrscheinlichkeitswerte werden der Segmentiereinrichtung 11 zusammen
mit den jeweiligen Audioklassen durch die Klassenunterscheidungseinrichtung 4 zugeführt.
-
Wie
vorher gesagt wurde, zeigt der jeweilige Klassenwahrscheinlichkeitswert
die Wahrscheinlichkeit an, ob für
einen jeweiligen Audioclip die korrekte Audioklasse gewählt wurde.
-
Zusammenfassend
verwendet gemäß dem vorliegenden
Ausführungsbeispiel
die Segmentiereinrichtung 11 zum Segmentieren der Audiodaten
in entsprechende Audio-Metamuster
sowohl die Programmdatenbank 5 als auch die Audioklassen-Wahrscheinlichkeitsdatenbank 6 als
auch die Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 als
auch die Klassenwahrscheinlichkeitswerte, die durch die Klassenunterscheidungseinrichtung 4 berechnet
werden.
-
Dies
wird durch die Segmentiereinrichtung 11 durch ein Berechnen
von Wahrscheinlichkeitswerten für
jedes Audio-Metamuster für
jede Sequenz von Audioklassen von aufeinander folgenden Audioclips unter
Verwendung eines Viterbi-Algorithmus
durchgeführt.
-
Alternativ
könnte
lediglich die Programmdatenbank 5 oder könnten die
Programmdatenbank 5 und entweder die Audioklassen-Wahrscheinlichkeitsdatenbank 6 oder
die Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 zum
Segmentieren der Audiodaten in entsprechende Audio-Metamuster verwendet
werden. Die Klassenwahrscheinlichkeitswerte, die durch die Klassenunterscheidungseinrichtung 4 berechnet
werden, könnten
zusätzlich
auch verwendet werden.
-
Bei
dem vorliegenden Beispiel ist ferner die Segmentiereinrichtung 11 angepasst,
um die Segmentierung der Audiodaten in Audio-Metamuster auf die
Audio-Metamuster, die der Programmdateneinheit der Art von Programm,
das durch die Programmerfassungseinrichtung 8 identifiziert
ist, zugeteilt sind, zu begrenzen.
-
Die
Genauigkeit der erfinderischen Audiodatensegmentierungsvorrichtung 1 kann
daher verbessert werden, und die Komplexität einer Berechnung kann reduziert
werden.
-
Zusammenfassend
ist die Audiodatensegmentierungsvorrichtung 1 gemäß der vorliegenden Erfindung
fähig,
durch ein Definieren einer Zahl von Audio-Metamustern, die höchstwahrscheinlich für ein konkretes
Programm geeignet sind, Audiodaten in entsprechende Audio-Metamuster
zu segmentieren.
-
Die
Zuteilung von Metamustern zu jeweiligen Sequenzen von Audioklassen
ist daher wesentlich erleichtert.
-
Durch
ein Verwenden von bis zu drei Wahrscheinlichkeitswerten (Wahrscheinlichkeitswerte
für jede
Audioklasse, Wahrscheinlichkeitswerte für jedes Audio-Metamuster, Klassenwahrscheinlichkeitswerte)
und der Daten, die in der Programmdatenbank gespeichert sind, ist
die Segmentierung der Audiodaten sehr zuverlässig.
-
Fehler
in einer der Komponenten der erfinderischen Audiosegmentierungsvorrichtung
führen
weiterhin nicht notwendigerweise zu einem Fehler bei der endgültigen Segmentierung,
da die gemeinsame maximale Wahrscheinlichkeit aller Wissensquellen verwendet
wird, um eine Optimalität
bei der Segmentierung sicherzustellen.
-
Gemäß der vorliegenden
Erfindung nutzen die Klassenunterscheidungseinrichtung, die Audioklassen-Wahrscheinlichkeitsdatenbank
und die Audio-Metamuster-Wahrscheinlichkeitsdatenbank
die statistischen Charakteristika des entsprechenden Programms und
liefern daher eine bessere Leistung als die bekannten Lösungen.
-
Um
die Klarheit der 1 und 2 zu verbessern,
sind ergänzende
Einrichtungen wie eine Energieversorgung, Pufferspeicher etc. nicht
gezeigt.
-
Bei
dem Ausführungsbeispiel,
das in 1 gezeigt ist, sind für die Audiodaten-Clipping-Einrichtung 3,
die Klassenunterscheidungseinrichtung 4 und die Segmentiereinrichtung 11 getrennte
Mikroprozessoren verwendet.
-
Alternativ
könnte
ein einzelner Mikrocomputer verwendet sein, um die Audiodaten-Clipping-Einrichtung,
die Klassenunterscheidungseinrichtung und die Segmentiereinrichtung
aufzunehmen.
-
1 zeigt
weiterhin getrennte Speicher für die
Programmdatenbank 5, die Audioklassen-Wahrscheinlichkeitsdatenbank 6 und
die Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7.
-
Alternativ
könnte
sogar eine gemeinsame Speichereinrichtung (z. B. eine Festplatte)
verwendet sein, um mehrere oder alle dieser Datenbanken aufzunehmen.
-
Die
erfinderische Audiodatensegmentierungsvorrichtung könnte daher
durch eine Verwendung eines Personalcomputers oder einer Arbeitsstation
realisiert sein.
-
Gemäß einem
weiteren Ausführungsbeispiel der
vorliegenden Erfindung, das nicht im Detail gezeigt ist, weist die
Audiodatensegmentierungsvorrichtung keine Programmdatenbank auf.
-
Die
Segmentierung der Audiodaten in Audio-Metamuster basierend auf einer
Sequenz von Audioklassen von aufeinander folgenden Audioclips wird
daher durch die Segmentiereinrichtung lediglich auf der Basis der
Wahrscheinlichkeitswerte, die in der Audioklassen-Wahrscheinlichkeitsdatenbank und/oder
Audio-Metamuster-Wahrscheinlichkeitsdatenbank
gespeichert sind, durchgeführt.