DE60318450T2

DE60318450T2 - Vorrichtung und Verfahren zur Segmentation von Audiodaten in Metamustern

Info

Publication number: DE60318450T2
Application number: DE60318450T
Authority: DE
Inventors: Silke Sony International Goronzy (Europe) Gm; Thomas Sony International Kemp (Europe) G; Ralf Sony International Kompe (Europe) Gmb; Yin Hay Sony International Lam (Europe); Krzysztof Sony Int'l. Marasek (Europe) GmbH; Raquel. Sony Int'l. Tato (Europe) Gm
Original assignee: Sony Deutschland GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2003-11-12
Filing date: 2003-11-12
Publication date: 2008-12-11
Anticipated expiration: 2023-11-13
Also published as: DE60318450D1; US20050114388A1; EP1531457B1; US7680654B2; EP1531457A1

Description

Die vorliegende Erfindung bezieht sich auf eine Audiodatensegmentierungsvorrichtung und ein Audiodatensegmentierungsverfahren zum Segmentieren von Audiodaten, die die Merkmale der Oberbegriffe der unabhängigen Ansprüche 1 bzw. 19 aufweisen.
In dem Internet und in einer Vielfalt von Speichermedien, z. B. digitalen Videoplatten, ist eine wachsende Menge von Videodaten verfügbar. Die Videodaten werden ferner durch eine riesige Zahl von Fernsehstationen als ein analoges oder digitales Videosignal geliefert.
Die Videodaten sind eine reiche multilaterale Informationsquelle, die Sprache, Audio, Text, Farbmuster und eine Form von abgebildeten Objekten und eine Bewegung dieser Objekte enthält.
Gegenwärtig besteht ein Wunsch nach der Möglichkeit, in den Videodaten nach interessierenden Segmenten (z. B. bestimmten Themen, Personen, Ereignissen oder Handlungsabläufen etc.) zu suchen.
Prinzipiell können alle Videodaten hinsichtlich des allgemeinen Gegenstands derselben primär klassifiziert werden.
Der allgemeine Gegenstand könnte beispielsweise Nachrichten oder Sport sein, wenn die Videodaten ein TV-Programm sind.
Bei der vorliegenden Patentanmeldung wird auf den allgemeinen Gegenstand der Videodaten als „Programm" Bezug genommen.
Üblicherweise enthält jedes Programm eine Mehrzahl von in sich abgeschlossenen Aktivitäten.
Wenn das Programm beispielsweise Nachrichten ist, könnten die in sich abgeschlossenen Aktivitäten die in den Nachrichten erwähnten unterschiedlichen Mitteilungen sein. Wenn das Programm beispielsweise Fußball ist, könnten die in sich abgeschlossenen Aktivitäten Anstoß, Strafstoß, Einwurf etc. sein.
Im Folgenden sind die in sich abgeschlossenen Aktivitäten, die in einem Programm umfasst sind, „Inhalte" genannt.
Die zu einem bestimmten Programm gehörenden Videodaten können daher hinsichtlich der Inhalte derselben weiter klassifiziert sein.
Der herkömmliche Videobandrekorder-Abtast-Wiedergabemodus zum Browsen bzw. Blättern in und Skimmen bzw. Abschöpfen von analogen Videodaten ist mühsam und unflexibel. Der Grund für dieses Problem besteht darin, dass die Videodaten als ein linearer Block von Samples bzw. Abtastungen behandelt werden. Es ist keine Suchfunktionalität vorgesehen.
Um sich diesem Problem zuzuwenden, weisen manche moderne Videobandrekorder die Möglichkeit auf, jedes Mal, wenn ein Aufzeichnungsbetrieb gestartet wird, entweder manuell oder automatisch Indexe einzustellen, um eine automatische Erkennung von bestimmten Sequenzen von Videodaten zu erlauben. Es ist bei den Indexen ein Nachteil, dass die Indexe eine bestimmte Sequenz von Videodaten nicht einzeln identifizieren können. Die Indexe können ferner eine bestimmte Sequenz von Videodaten nicht einzeln für jeden Benutzer identifizieren.
Andererseits weisen digitale Videoplatten digitalisierte Videodaten auf, wobei während der Erzeugung der digitalen Videoplatte Kapitel zu den Videodaten hinzugefügt werden.
Die Kapitel erlauben normalerweise lediglich eine Identifizierung der Handlung.
Eine offensichtliche Lösung für das Problem der Handhabung großer Mengen von Videodaten wäre, die Videodaten gemäß den Inhalten derselben manuell in Segmente zu teilen und detaillierte Segmentinformationen zu liefern.
Aufgrund der immensen Menge von Videosequenzen, die die verfügbaren Videodaten in sich aufweisen, ist eine manuelle Segmentierung äußerst zeitaufwendig und daher teuer. Dieser Lösungsansatz ist daher nicht praktikabel, um eine riesige Menge von Videodaten zu verarbeiten.
Um das vorhergehende Problem zu lösen, wurden kürzlich Lösungsansätze zum automatischen Indexieren von Videodaten vorgeschlagen.
Mögliche Anwendungsbereiche für ein solches automatisches Indexieren von Videodaten sind beispielsweise digitale Videobibliotheken oder das Internet.
Da Videodaten aus mindestens einem visuellen Kanal und einem oder mehreren Audiokanälen bzw. Tonkanälen zusammengesetzt sind, könnte sich ein automatisches Videosegmentierungsverfahren entweder auf eine Analyse des visuellen Kanals oder der Audiokanäle oder auf beides stützen.
Im Folgenden ist ein Segmentierungsverfahren, das auf eine Analyse des Audiokanals von Videodaten ausgerichtet ist, weiter erörtert. Es ist offensichtlich, dass dieser Lösungsansatz nicht auf den Audiokanal von Videodaten begrenzt ist, sondern für jede Art von Audiodaten außer physikalischem Rauschen verwendet werden könnte. Die allgemeinen Betrachtungen können ferner auch auf andere Typen von Daten, z. B. eine Analyse des Videokanals von Videodaten, angewandt werden.
Die bekannten Lösungsansätze für das Segmentierungsverfahren weisen ein Clipping bzw. Schneiden, eine automatische Klassifizierung und eine automatische Segmentierung der in dem Audiokanal von Videodaten enthaltenen Audiodaten auf.
Das Clipping wird durchgeführt, um die Audiodaten (und die entsprechenden Videodaten) in Audiostücke einer vorbestimmten Länge für ein weiteres Verarbeiten zu teilen. Die Genauigkeit des Segmentierungsverfahrens hängt daher von der Länge der Audiostücke ab.
Die Klassifizierung steht für eine rohe Unterscheidung der Audiodaten hinsichtlich des Ursprungs der Audiodaten (z. B. Sprache, Musik, Geräusche, Stille und Geschlecht des Sprechers), die üblicherweise durch Signalanalyseverfahren durchgeführt wird.
Die Segmentierung steht für ein Segmentieren der (Video-)Daten in einzelne Audio-Metamuster von zusammenhaltenden Audiostücken. Jedes Audio-Metamuster weist alle Audiostücke auf, die zu einem Inhalt oder Ereignis (z. B. einem Tor, einem Strafstoß eines Fußballspiels oder unterschiedlichen Nachrichten während eines Nachrichtenmagazins) gehören, die die Videodaten in sich aufweisen.
Ein bei einer Klassifizierung von Audiodaten häufig verwendetes stochastisches Signalmodell ist das HIDDEN-MARKOV-MODELL, das in dem in den Proceedings der IEEE, Band 77, Nr. 2 vom Februar 1989 veröffentlichten Aufsatz von Lawrence R. RABINER „A Tutorial an Hidden Markov Models and Selected Applications in Speech Recognition" detailliert erklärt ist.
Unterschiedliche Lösungsansätze für eine Audioklassifizierungssegmentierung hinsichtlich Sprache, Musik, Stille und Geschlecht sind in der durch Lab. ICTT Dept. Mathematiques-Informatiques, ECOLE CENTRALE DE LYON, 36, avenue Guy de Collongue B. P. 163, 69131 ECULLY Cedex, Frankreich, veröffentlichten Abhandlung „Speech/Music/Silence and Gender Detection Algorithm" von Hadi HARB, Liming CHEN und Jean-Yves AULOGE offenbart.
Allgemein ist die vorhergehende Abhandlung auf eine Unterscheidung eines Audiokanals in Sprache/Musik/Stille/und Geräusche, die hilft, eine Szenensegmentierung zu verbessern, gerichtet. Vier Lösungsansätze für eine Audioklassenunterscheidung sind vorgeschlagen: Ein modellbasierter Lösungsansatz, bei dem Modelle für jede Audioklasse erzeugt werden, wobei die Modelle auf Merkmalen der Audiodaten einer niedrigen Ebene, wie etwa Cepstrum und MFCC, basieren. Der metrikbasierte Segmentierungsansatz verwendet Entfernungen zwischen benachbarten Fenstern für eine Segmentierung. Der regelbasierte Lösungsansatz weist eine Erzeugung von einzelnen Regeln für jede Klasse auf, wobei die Regeln auf Merkmalen höherer und niedriger Ebene basieren. Der dekodiererbasierte Lösungsansatz schließlich verwendet das Hidden-Markov-Modell eines Spracherkennungssystems, wobei das Hidden-Markov-Modell trainiert wird, die Klasse eines Audiosignals anzugeben.
Diese Abhandlung beschreibt ferner detailliert Sprach-, Musik- und Stille-Eigenschaften, um eine Erzeugung von Regeln, die jede Klasse gemäß dem regelbasierten Lösungsansatz beschreiben, sowie eine Geschlechtserfassung, um das Geschlecht eines Sprachsignals zu erfassen, zu erlauben.
„Audio Feature Extraction and Analysis for Scene Segmentation and Classification" ist von Zhu LIU und Yao WANG von der Polytechnic University Brooklyn, USA, zusammen mit Tsuhan CHEN von der Carnegie Mellon University, Pittsburgh, USA, offenbart. Diese Abhandlung beschreibt die Verwendung von zugeordneten Audioinformationen für eine Videoszenenanalyse von Videodaten, um fünf Typen von TV-Programmen, nämlich Werbesendungen, Basketballspiele, Fußballspiele, Nachrichtenmeldung und Wettervorhersage, zu unterscheiden.
Gemäß dieser Abhandlung werden die Audiodaten in eine Mehrzahl von Clips bzw. Schnitten geteilt, wobei jeder Clip eine Mehrzahl von Frames bzw. Rahmen aufweist.
Ein Satz von Audiomerkmalen einer niedrigen Ebene, der eine Analyse von Lautstärkenverlauf-, Tonhöhenverlauf- und Frequenzbereichsmerkmalen, wie eine Bandbreite, aufweist, wird für eine Klassifizierung der Audiodaten, die jeder Clip in sich aufweist, vorgeschlagen.
Unter Verwendung einer Clustering-Analyse bzw. Gruppierungsanalyse wird die lineare Trennbarkeit von unterschiedlichen Klassen untersucht, um die Videosequenz in die vorhergehenden fünf Typen von TV-Programmen zu trennen.
Drei Schichten eines Audioverständnisses werden in dieser Abhandlung unterschieden: Bei einer Schicht von akustischen Charakteristika auf niedriger Ebene werden generische Merkmale auf einer niedrigen Ebene wie etwa Lautstärke, Tonhöhenperiode und Bandbreite eines Audiosignals analysiert. Bei einer Schicht einer akustischen Signatur einer Zwischenebene wird das Objekt, das einen besonderen Klang erzeugt, durch ein Vergleichen des jeweiligen akustischen Signals mit Signaturen, die in einer Datenbank gespeichert sind, bestimmt. Bei einem semantischen Modell höherer Ebene werden einige von vorher bekannte semantische Regeln über die Struktur von Audio bei unterschiedlichen Szenentypen (z. B. lediglich Sprache bei Nachrichtenmeldungen und Wettervorhersagen, jedoch Sprache mit geräuschvollem Hintergrund bei Werbesendungen) verwendet.
Um die Audiodaten in Audio-Metamuster zu segmentieren, werden Sequenzen von Audioklassen von aufeinander folgenden Audioclips verwendet.
Um die Genauigkeit dieses bekannten Verfahrens weiter zu verbessern, wird vorgeschlagen, die Analyse der Audiodaten von Videodaten mit einer Analyse der visuellen Informationen, die die Videodaten in sich aufweisen, (z. B. jeweilige Farbmuster und eine Form von abgebildeten Objekten) zu kombinieren.
Das Patent US 6,185,527 , das die Oberbegriffe der Ansprüche 1 und 19 bildet, offenbart ein System und Verfahren zum Indexieren eines Audio-Stroms für eine anschließende Informationswiedergewinnung und für ein Skimmen, Verwesentlichen und Zusammenfassen des Audio-Stroms. Das System und Verfahren umfasst eine Verwendung eines speziellen Audio-Vorfilterns, derart, dass lediglich relevante Sprachsegmente, die durch eine Spracherkennungsmaschine erzeugt werden, indexiert werden. Es werden spezifische indexierende Merkmale offenbart, die die Präzision und den Abruf eines Informationswiedergewinnungssystems, das nach einem Indexieren zum Wortfinden verwendet wird, verbessern. Die Erfindung umfasst ein Umsetzen des Audio-Stroms in Intervalle, wobei jedes Intervall ein oder mehr Segmente aufweist. Für jedes Segment eines Intervalls wird bestimmt, ob das Segment ein oder mehr vorbestimmte Audiomerkmale, wie etwa einen besonderen Bereich von Nulldurchgangsraten, einen besonderen Bereich von Energie und einen besonderen Bereich einer spektralen Energiekonzentration, zeigt. Die Audiomerkmale werden heuristisch bestimmt, um jeweilige Audioereignisse, umfassend Stille, Musik, Sprache und Sprache in Musik, darzustellen. Es wird ferner bestimmt, ob eine Gruppe von Intervallen mit einem heuristisch vordefinierten Metamuster, wie etwa kontinuierliche ununterbrochene Sprache, folgernde Ideen, Zögern und Betonung in der Sprache usw., übereinstimmt, und der Audio-Strom wird dann basierend auf der Intervallklassifizierung und dem Metamusterübereinstimmen indexiert, wobei lediglich relevante Merkmale indexiert werden, um die anschließende Präzision der Informationswiedergewinnung zu verbessern. Es werden ferner Alternativen für längere durch die Spracherkennungsmaschine erzeugte Ausdrücke zusammen mit jeweiligen Gewichtungen indexiert, um einen anschließenden Abruf zu verbessern.
Es wird daher unter anderem vorgeschlagen, automatisch eine Zusammenfassung eines Audio-Stroms zu liefern oder ein Verständnis des Wesentlichen eines Audio-Stroms zu gewinnen.
Algorithmen, die Indizes aus einer automatischen akustischen Segmentierung erzeugen, sind in dem Aufsatz „Acoustic Segmentation for Audio Browsers" von Don KIMBER und Lynn WILCOX beschrieben. Diese Algorithmen verwenden Hidden-Markov-Modelle, um Audio in Segmente, die unterschiedlichen Sprechern oder akustischen Klassen entsprechen, zu segmentieren. Typen von vorgeschlagenen akustischen Klassen weisen Sprache, Stille, Gelächter, nichtsprachliche Klänge und Abfall bzw. wertlose Daten auf, wobei Abfall als ein nichtsprachlicher Klang, der nicht durch die anderen Klassenmodelle explizit modelliert ist, definiert ist.
Eine Implementierung der bekannten Verfahren wird von George TZANETAKIS und Perry COOK in dem Aufsatz „MARSYAS: A framework for audio analysis" vorgeschlagen, in dem eine Client-Server-Architektur verwendet wird.
Wenn Audiodaten in Audio-Metamuster segmentiert werden, ist es ein entscheidendes Problem, dass eine bestimmte Sequenz von Audioklassen von aufeinander folgenden Segmenten von Audiodaten gewöhnlich einer Vielfalt von Audio-Metamustern zugeteilt werden kann.
Beispielsweise könnte die aufeinander folgende Sequenz von Audioklassen von aufeinander folgenden Segmenten von Audiodaten für ein Tor während eines Fußballspiels Sprache-Stille-Geräusche-Sprache sein, und die aufeinander folgende Sequenz von Audioklassen von aufeinander folgenden Segmenten von Audiodaten für eine Darstellung eines Videoclips während eines Nachrichtenmagazins könnte ebenfalls Sprache-Stille-Geräusche-Sprache sein. Bei dem vorliegenden Beispiel kann daher keine eindeutige Zuteilung eines entsprechenden Audio-Metamusters durchgeführt werden.
Um das vorhergehende Problem zu lösen, verwenden bekannte Metamuster-Segmentierungsalgorithmen üblicherweise einen regelbasierten Lösungsansatz für die Zuteilung von Metamustern zu einer bestimmten Sequenz von Audioklassen.
Es sind daher verschiedene Regeln für die Zuteilung der Audio-Metamuster erforderlich, um sich dem Problem zuzuwenden, dass eine bestimmte Sequenz von Audioklassen von aufeinander folgenden Segmenten von Audiodaten einer Vielfalt von Audio-Metamustern zugeteilt werden kann. Das Bestimmungsverfahren, um eine annehmbare Regel für jedes Metamuster zu finden, ist üblicherweise sehr schwierig, zeitaufwendig und subjektiv, da dasselbe von sowohl den verwendeten Roh-Audiodaten als auch der persönlichen Erfahrung der Person, die das Bestimmungsverfahren ausführt, abhängig ist.
Es ist folglich schwierig, mit bekannten Verfahren für die Segmentierung von Audiodaten in Audio-Metamuster gute Resultate zu erreichen, da die Regeln für die Zuteilung der Audio-Metamuster unbefriedigend sind.
Es ist die Aufgabe der vorliegenden Erfindung, die im Vorhergehenden zitierten Nachteile zu überwinden und ein System und Verfahren für eine Segmentierung von Audiodaten in Metamuster zu schaffen, die eine leichte und zuverlässige Weise für die Zuordnung von Metamustern zu jeweiligen Sequenzen von Audioklassen verwendet.
Die vorhergehende Aufgabe wird durch eine Audiodatensegmentierungsvorrichtung, die die Merkmale des unabhängigen Anspruchs 1 aufweist, gelöst.
Weitere Entwicklungen sind in den abhängigen Ansprüchen dargelegt.
Gemäß der vorliegenden Erfindung ist daher eine Mehrzahl von Programmdateneinheiten in der Programmdatenbank gespeichert. Jede Programmdateneinheit weist eine Zahl von Audio-Metamustern, die für ein bestimmtes Programm geeignet sind, auf.
Bei dem vorliegenden Dokument zeigt ein Programm den allgemeinen Gegenstand an, den die Audiodaten, die noch nicht durch die Audiodaten-Clipping-Einrichtung bzw. Audiodatenschneideeinrichtung in Audioclips geteilt sind, in sich umfassen. In sich abgeschlossene Aktivitäten, die alle Audiodaten jedes Programms in sich aufweisen, sind Inhalte genannt.
Die vorliegende Erfindung basiert auf der Tatsache, das unterschiedliche Programme üblicherweise auch unterschiedliche Inhalte aufweisen.
Durch ein Verwenden der jeweiligen Programmdateneinheit in Abhängigkeit von dem Programm, zu dem die Audiodaten tatsächlich gehören, ist es daher möglich, eine Zahl von Audio-Metamustern, die höchstwahrscheinlich für eine Segmentierung der jeweiligen Audiodaten geeignet sind, zu definieren. Die Zuteilung von Metamustern zu jeweiligen Sequenzen von Audioklassen ist daher wesentlich erleichtert.
Gemäß der vorliegenden Erfindung identifizieren die Audioklassen eine Art von Audiodaten. Die Audioklassen sind daher angepasst/optimiert/trainiert, um eine Art von Audiodaten zu identifizieren.
Durch ein Verwenden von Wahrscheinlichkeitswerten für jede Audioklasse, die in der Audioklassen-Wahrscheinlichkeitsdatenbank gespeichert sind, ist es möglich, die Signifikanz jeder Audioklasse hinsichtlich einer bestimmten Zahl von vorhergehenden Audioklassen zu identifizieren und die Signifikanz während einer Segmentierung von Audiodaten in Audio-Metamuster zu berücksichtigen.
Wie im Vorhergehenden gesagt ist, könnten mehrere Audio-Metamuster durch dieselbe Sequenz von Audioklassen von aufeinander folgenden Audioclips charakterisiert sein. Falls die Audio-Metamuster zu derselben Programmdateneinheit gehören, kann durch die Segmentiereinrichtung lediglich basierend auf der Programmdatenbank keine eindeutige Entscheidung getroffen werden.
Durch ein Verwenden von Wahrscheinlichkeitswerten für jedes Audio-Metamuster, die in der Audio-Metamuster-Wahrscheinlichkeitsdatenbank gespeichert sind, ist es möglich, ein bestimmtes Audio-Metamuster aus der Mehrzahl von Audio-Metamustern, das höchstwahrscheinlich geeignet ist, um den Typ von Inhalten der Audiodaten hinsichtlich der vorhergehenden Audio-Metamuster zu identifizieren, zu identifizieren.
Es müssen daher keine weiteren Regeln geliefert werden, um Probleme zu bewältigen, bei denen mehr als ein Audio-Metamuster einer Programmdateneinheit durch dieselbe Sequenz von Audioklassen von aufeinander folgenden Audioclips charakterisiert ist.
Gemäß einem bevorzugten Ausführungsbeispiel der vorliegenden Erfindung segmentiert die Segmentiereinrichtung die Audiodaten durch ein Berechnen von Wahrscheinlichkeitswerten für alle Audio-Metadaten für jede Sequenz von Audioklassen von aufeinander folgenden Audioclips basierend auf der Programmdatenbank und/oder der Audioklassen-Wahrscheinlichkeitsdatenbank und/oder der Audio-Metamuster-Wahrscheinlichkeitsdatenbank in Audio-Metamuster.
Durch ein Annehmen der gemeinsamen maximalen Wahrscheinlichkeit aller Wissensquellen, die durch die Audiodaten geliefert sind, ohne eine frühere Entscheidung zu treffen, ist es möglich, eine Optimalität bei einer Segmentierung von Audiodaten in Audio-Metamuster sicherzustellen, da Fehler bei entweder der Klassenunterscheidungseinrichtung oder der Segmentiereinrichtung oder einer der Datenbanken nicht notwendigerweise zu einem Fehler der endgültigen Segmentierung führen. Die Vorrichtung gemäß der vorliegenden Erfindung nutzt daher die statistischen Charakteristika der jeweiligen Audiodaten, um die Genauigkeit derselben zu verbessern.
Die Audiodatensegmentierungsvorrichtung weist ferner vorzugsweise eine Programmerfassungseinrichtung auf, um die Art von Programm, zu dem die Audiodaten gehören, durch ein Verwenden der im Vorhergehenden segmentierten Audiodaten zu identifizieren, wobei ferner die Segmentiereinrichtung die Segmentierung der Audiodaten in Audio-Metamuster auf die Audio-Metamuster begrenzt, die der Programmdateneinheit der Art von Programm, das durch die Programmerfassungseinrichtung identifiziert wird, zugeteilt sind.
Durch die Bereitstellung einer Programmerfassungseinrichtung ist es möglich, die Zahl von potenziellen Audio-Metamustern, die durch die Segmentiereinrichtung untersucht werden müssen, wesentlich zu reduzieren und daher sowohl die Genauigkeit als auch die Geschwindigkeit der erfinderischen Audiodatensegmentierungsvorrichtung zu verbessern.
Es ist nutzbringend, wenn die Klassenunterscheidungseinrichtung ferner einen Klassenwahrscheinlichkeitswert für jede Audioklasse von jedem Audioclip berechnet, wobei die Segmentiereinrichtung die Klassenwahrscheinlichkeitswerte, die durch die Klassenunterscheidungseinrichtung berechnet werden, für ein Segmentieren der Audiodaten in entsprechende Audio-Metamuster verwendet.
Es kann daher, wenn die Audiodaten in Audio-Metamuster segmentiert werden, sogar die Genauigkeit der Klassenunterscheidungseinrichtung durch die Segmentiereinrichtung in Betracht gezogen werden.
Die Segmentierung der Audiodaten in Audio-Metamuster kann durch die Segmentiereinrichtung auf eine sehr leichte Weise unter Verwendung eines Viterbi-Algorithmus durchgeführt werden.
Die Klassenunterscheidungseinrichtung verwendet vorzugsweise einen Satz von vorbestimmten Audioklassenmodellen, die für jede Audioklasse zum Unterscheiden der Audioclips in vorbestimmte Audioklassen vorgesehen sind.
Die Klassenunterscheidungseinrichtung kann daher gut ausgeführte Klassenmodelle zum Unterscheiden der Clips in vorbestimmte Audioklassen verwenden.
Die vorbestimmten Audioklassenmodelle können durch eine empirische Analyse von manuell klassifizierten Audiodaten erzeugt werden.
Gemäß einem bevorzugten Ausführungsbeispiel werden die Audioklassenmodelle als Hidden-Markov-Modelle geliefert.
Die Klassenunterscheidungseinrichtung analysiert vorteilhaft akustische Charakteristika der Audiodaten, die die Audioclips in sich aufweisen, um die Audioclips in die jeweiligen Audioklassen zu unterscheiden.
Die akustischen Charakteristika weisen vorzugsweise Energie/Lautstärke, Tonhöhenperiode, Bandbreite und MFCC der jeweiligen Audiodaten auf. Weitere Charakteristika könnten verwendet sein.
Die Audiodateneingabeeinrichtung ist ferner vorzugsweise angepasst, um die Audiodaten zu digitalisieren. Daher können sogar analoge Audiodaten durch die erfinderische Audiodatensegmentierungsvorrichtung verarbeitet werden.
Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung enthält jeder Audioclip, der durch die Audiodaten-Clipping-Einrichtung erzeugt wird, eine Mehrzahl von überlappenden kurzen Intervallen von Audiodaten.
Um eine annehmbare Segmentierung der Audiodaten in Metamuster zu erlauben, ist es nützlich, wenn die vorbestimmten Audioklassen mindestens eine Klasse für jeweils Stille, Sprache, Musik, Beifallrufe und Klatschen aufweisen.
Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung weist die Programmdatenbank Programmdateneinheiten für mindestens sowohl Sport, Nachrichten, Werbesendungen, Spielfilme als auch Reportagen auf.
Vorzugsweise werden Wahrscheinlichkeitswerte für jede Audioklasse und/oder jedes Audio-Metamuster durch eine empirische Analyse von manuell klassifizierten Audiodaten erzeugt.
Es ist ferner nutzbringend, wenn die Audiodatensegmentierungsvorrichtung ferner eine Ausgabedateierzeugungseinrichtung aufweist, um eine Ausgabedatei zu erzeugen, wobei die Ausgabedatei die Anfangszeit, die Endzeit und die Inhalte der Audiodaten, die einem jeweiligen Metamuster zugeteilt sind, enthält.
Eine solche Ausgabedatei kann durch Suchmaschinen und Datenverarbeitungseinrichtungen ohne weiteres gehandhabt werden.
Es wird bevorzugt, dass die Audiodaten ein Teil von Rohdaten sind, die sowohl Audiodaten als auch Videodaten enthalten. Alternativ könnten Rohdaten, die lediglich Audiodaten enthalten, verwendet sein.
Die vorhergehende Aufgabe ist ferner durch ein Verfahren zum Segmentieren von Audiodaten, das die Merkmale von Anspruch 19 aufweist, gelöst.
Gemäß einem bevorzugten Ausführungsbeispiel weist der Schritt des Segmentieren der Audiodaten in Audio-Metamuster eine Berechnung von Wahrscheinlichkeitswerten für alle Metadaten für jede Sequenz von Audioklassen von aufeinander folgenden Audioclips basierend auf der Programmdatenbank und/oder der Audioklassen-Wahrscheinlichkeitsdatenbank und/oder der Audio-Metamuster-Wahrscheinlichkeitsdatenbank auf.
Das Verfahren zum Segmentieren von Audiodaten kann außerdem ferner den Schritt eines Identifizieren der Art von Programm, zu dem die Audiodaten gehören, unter Verwendung der im Vorhergehenden segmentierten Audiodaten aufweisen, wobei der Schritt des Segmentierens der Audiodaten in Audio-Metamuster ein Begrenzen der Segmentierung der Audiodaten in Audio-Metamuster auf die Audio-Metamuster, die der Programmdateneinheit des identifizierten Programms zugeteilt sind, aufweist.
Es ist nutzbringend, wenn der Schritt des Unterscheidens der Audioclips in vorbestimmte Audioklassen eine Berechnung eines Klassenwahrscheinlichkeitswerts für jede Audioklasse von jedem Audioclip aufweist, wobei der Schritt des Segmentierens der Audiodaten in Audio-Metamuster ferner die Verwendung der Klassenwahrscheinlichkeitswerte, die durch die Klassenunterscheidungseinrichtung zum Segmentieren der Audiodaten in entsprechende Audio-Metamuster berechnet werden, aufweist.
Gemäß einem Ausführungsbeispiel der vorliegenden Erfindung weist der Schritt des Segmentieren der Audiodaten in Audio-Metamuster die Verwendung eines Viterbi-Algorithmus auf, um die Audiodaten in Audio-Metamuster zu segmentieren.
Es wird bevorzugt, dass der Schritt des Unterscheidens der Audioclips in vorbestimmte Audioklassen die Verwendung eines Satzes von vorbestimmten Audioklassenmodellen, die für jede Audioklasse zum Unterscheiden der Clips in vorbestimmte Audioklassen vorgesehen sind, aufweist.
Das Verfahren zum Segmentieren von Audiodaten weist vorteilhafterweise ferner den Schritt eines Erzeugen der vorbestimmten Audioklassenmodelle durch eine empirische Analyse von manuell klassifizierten Audiodaten auf.
Es ist nützlich, wenn Hidden-Markov-Modelle verwendet sind, um die Audioklassen darzustellen.
Der Schritt des Unterscheidens der Audioclips in vorbestimmte Audioklassen weist vorzugsweise eine Analyse von akustischen Charakteristika der Audiodaten, die die Audioclips in sich aufweisen, auf.
Die akustischen Charakteristika weisen nützlicherweise Energie/Lautstärke, Tonhöhenperiode, Bandbreite und MFCC der jeweiligen Audiodaten auf. Weitere akustische Charakteristika könnten verwendet werden.
Es wird bevorzugt, dass das Verfahren zum Segmentieren von Audiodaten ferner den Schritt eines Digitalisieren von Audiodaten aufweist.
Das Verfahren zum Segmentieren von Audiodaten weist ferner vorteilhafterweise den Schritt einer empirischen Analyse von manuell klassifizierten Audiodaten auf, um Wahrscheinlichkeitswerte für jede Audioklasse und/oder für jedes Audio-Metamuster zu erzeugen.
Es wird außerdem bevorzugt, dass das Verfahren zum Segmentieren von Audiodaten ferner den Schritt eines Erzeugen einer Ausgabedatei aufweist, wobei die Ausgabedatei die Anfangszeit, die Endzeit und die Inhalte der Audiodaten, die einem jeweiligen Metamuster zugeteilt sind, enthält.
In der folgenden detaillierten Beschreibung ist die vorliegende Erfindung durch Bezugnahme auf die beigefügten Zeichnungen, in denen sich durch die Ansichten gleiche Bezugszeichen auf gleiche Teile beziehen, erklärt, wobei:
1 ein Blockdiagramm einer Audiodatensegmentierungsvorrichtung gemäß der vorliegenden Erfindung zeigt; und
2 die Funktion des Verfahrens zum Segmentieren von Audiodaten gemäß der vorliegenden Erfindung basierend auf einem schematischen Diagramm zeigt.
1 zeigt eine Audiodatensegmentierungsvorrichtung gemäß der vorliegenden Erfindung.
Bei dem einen Ausführungsbeispiel ist die Audiodatensegmentierungsvorrichtung 1 in einem digitalen Videorekorder umfasst, der in den Figuren nicht gezeigt ist. Alternativ könnte die Datensegmentierungsvorrichtung in einer anderen digitalen Audio-/Videovorrichtung, wie einem Personalcomputer oder einer Arbeitsstation, umfasst sein, oder könnte als eine getrennte Ausrüstung vorgesehen sein.
Die Audiodatensegmentierungsvorrichtung 1 zum Segmentieren von Audiodaten weist eine Audiodateneingabeeinrichtung 2 zum Zuführen von Audiodaten über ein Audiodateneingangstor 12 auf.
Die Audiodateneingabeeinrichtung 2 digitalisiert analoge Audiodaten, die zu dem Dateneingangstor 12 geliefert werden.
Bei dem vorliegenden Beispiel sind die analogen Audiodaten ein Teil eines Audiokanals eines herkömmlichen Fernsehkanals. Die Audiodaten sind daher ein Teil von Echtzeit-Rohdaten, die sowohl Audiodaten als auch Videodaten enthalten.
Alternativ könnten Rohdaten, die lediglich Audiodaten enthalten, verwendet sein.
Stattdessen wird, wenn digitale Audiodaten zu der Audiodateneingabeeinrichtung 2 geliefert werden, kein weiteres Digitalisieren durchgeführt, sondern die Daten werden lediglich durch die Audiodateneingabeeinrichtung 2 durchgelassen. Die digitalen Audiodaten könnten beispielsweise der Audiokanal einer digitalen Videoplatte sein.
Die durch die Audiodateneingabeeinrichtung 2 zugeführten Audiodaten werden zu einer Audiodaten-Clipping-Einrichtung 3 gesendet, die zum Teilen der Audiodaten in Audioclips einer vorbestimmten Länge, bzw. um die Audiodaten in Audioclips einer vorbestimmten Länge zu teilen, angepasst ist.
Gemäß dem vorliegenden Beispiel weist jeder Audioclip eine Sekunde von Audiodaten auf. Alternativ kann jede andere geeignete Länge (z. B. eine Zahl von Sekunden oder ein Bruchteil von Sekunden) gewählt sein.
Die Audiodaten, die jeder Clip in sich aufweist, sind ferner in eine Mehrzahl von Frames von 512 Samples geteilt, wobei aufeinander folgende Frames hinsichtlich des jeweiligen vorhergehenden Frames um 180 Samples verschoben sind. Diese Unterteilung der Audiodaten, die jeder Clip in sich aufweist, erlaubt eine genaue und leichte Handhabung der Audioclips.
Für einen Fachmann ist offensichtlich, dass alternativ Unterteilungen der Audiodaten in eine Mehrzahl von Frames, die mehr oder weniger als 512 Samples aufweisen, möglich sind. Aufeinander folgende Frames könnten ferner um mehr oder weniger als 180 Samples hinsichtlich des jeweiligen vorhergehenden Frames verschoben sein.
Jeder Audioclip, der durch die Audiodaten-Clipping-Einrichtung 3 erzeugt wird, enthält daher eine Mehrzahl von überlappenden kurzen Intervallen von Audiodaten, die Frames genannt sind.
Die durch die Audiodaten-Clipping-Einrichtung 3 zugeführten Audioclips werden ferner zu einer Klassenunterscheidungseinrichtung 4 gesendet.
Die Klassenunterscheidungseinrichtung 4 unterscheidet die Audioclips in vorbestimmte Audioklassen (ist angepasst, um die Audioclips in vorbestimmte Audioklassen zu unterscheiden), wodurch jede Audioklasse die Art von Audiodaten, die der jeweilige Audioclip in sich umfasst, identifiziert. Die Audioklassen sind daher angepasst/optimiert/trainiert, um eine Art von Audiodaten, die der jeweilige Audioclip in sich umfasst, zu identifizieren.
Gemäß dem vorliegenden Ausführungsbeispiel ist eine Audioklasse für sowohl Stille, Sprache, Musik, Beifallrufe als auch Klatschen vorgesehen. Alternativ könnten weitere Audioklassen, z. B. Geräusche oder männliche/weibliche Sprache, bestimmt sein.
Die Unterscheidung der Audioclips in Audioklassen wird durch die Klassenunterscheidungseinrichtung 4 durch Verwenden eines Satzes von vorbestimmten Audioklassenmodellen, die durch eine empirische Analyse von manuell klassifizierten Audiodaten erzeugt werden, durchgeführt. Die Audioklassenmodelle sind für jede vorbestimmte Audioklasse in der Form von Hidden-Markov-Modellen vorgesehen und sind in der Klassenunterscheidungseinrichtung 4 gespeichert.
Die Audioclips, die der Klassenunterscheidungseinrichtung 4 durch die Audiodaten-Clipping-Einrichtung 3 zugeführt werden, werden hinsichtlich von akustischen Charakteristika der Audiodaten, die die Audioclips in sich aufweisen, z. B. Energie/Lautstärke, Tonhöhenperiode, Bandbreite und MFCC (Mel-Frequenz-Cepstral-Koeffizienten) der jeweiligen Audiodaten analysiert, um die Audioclips durch eine Verwendung der Audioklassenmodelle in die jeweiligen Audioklassen zu unterscheiden.
Wenn die Audioclips in die vorbestimmten Audioklassen unterschieden werden, berechnet zusätzlich die Klassenunterscheidungseinrichtung 4 ferner für jede Audioklasse einen Klassenwahrscheinlichkeitswert.
Der Klassenwahrscheinlichkeitswert zeigt die Wahrscheinlichkeit an, ob für einen jeweiligen Audioclip die korrekte Audioklasse ausgewählt wurde.
Bei dem vorliegenden Beispiel wird der Wahrscheinlichkeitswert durch ein Zählen, wie vielen Charakteristika des jeweiligen Audioklassenmodells durch den jeweiligen Audioclip gänzlich entsprochen wird, erzeugt.
Für einen Fachmann ist offensichtlich, dass der Klassenwahrscheinlichkeitswert alternativ auf eine andere Weise als durch ein Zählen, wie vielen Charakteristika des jeweiligen Audioklassenmodells durch den jeweiligen Audioclip gänzlich entsprochen wird, automatisch erzeugt/berechnet werden könnte.
Die Audioclips, die durch die Klassenunterscheidungseinrichtung 4 in Audioklassen unterschieden werden, werden zusammen mit den jeweiligen Klassenwahrscheinlichkeitswerten einer Segmentiereinrichtung 11 zugeführt.
Da die Segmentiereinrichtung 11 ein zentrales Element der vorliegenden Erfindung ist, ist die Funktion derselben in einem folgenden Absatz getrennt beschrieben.
Eine Programmdatenbank 5, die Programmdateneinheiten aufweist, ist mit der Segmentiereinrichtung 11 verbunden.
Die Programmdateneinheiten identifizieren eine bestimmte Art von Programm der Audiodaten (sind angepasst, um eine bestimmte Art von Programm der Audiodaten zu identifizieren).
Ein Programm zeigt den allgemeinen Gegenstand, den die Audiodaten, die noch nicht durch die Audiodaten-Clipping-Einrichtung 3 in Audioclips geteilt sind, in sich umfassen, an.
Das Programm könnte z. B. Spielfilm oder Sport sein, wenn der Ursprung für die Audiodaten ein TV-Programm ist.
In sich abgeschlossene Aktivitäten, die die Audiodaten von jedem Programm in sich aufweisen, sind Inhalte genannt.
Die zeitliche Länge der Inhalte, die die Audiodaten von jedem Programm in sich aufweisen, unterscheidet sich üblicherweise. Alle Inhalte weisen daher eine bestimmte Zahl von aufeinander folgenden Audioclips auf.
Wenn das Programm beispielsweise Nachrichten ist, sind die Inhalte die unterschiedlichen Mitteilungen, die in den Nachrichten erwähnt sind. Wenn das Programm beispielsweise Fußball ist, sind die Inhalte Anstoß, Strafstoß, Einwurf etc.
Bei dem vorliegenden Ausführungsbeispiel sind Programmdateneinheiten für sowohl Sport, Nachrichten, Werbesendungen, Spielfilme als auch Reportagen in der Programmdatenbank 5 gespeichert.
Jeder Programmdateneinheit ist eine Mehrzahl von jeweiligen Audio-Metamustern zugeteilt.
Jedes Audio-Metamuster ist durch eine Sequenz von Audioklassen von aufeinander folgenden Audioclips charakterisiert.
Audio-Metamuster, die unterschiedlichen Programmdateneinheiten zugeteilt sind, können durch die identische Sequenz von Audioklassen von aufeinander folgenden Audioclips charakterisiert sein.
In diesem Zusammenhang muss betont werden, dass die Programmdateneinheiten vorzugsweise nicht mehrere Audio-Metamuster, die durch dieselbe Sequenz von Audioklassen von aufeinander folgenden Audioclips charakterisiert sind, aufweisen sollten. Mindestens sollten die Programmdateneinheiten nicht zu viele Audio-Metamuster, die durch die gleiche Sequenz von Audioklassen von aufeinander folgenden Audioclips charakterisiert sind, aufweisen.
Eine Audioklassen-Wahrscheinlichkeitsdatenbank 6 ist ferner mit der Segmentiereinrichtung 11 verbunden.
Wahrscheinlichkeitswerte für jede Audioklasse hinsichtlich einer bestimmten Zahl von vorhergehenden Audioklassen für eine Sequenz von aufeinander folgenden Audioclips sind in der Audioklassen-Wahrscheinlichkeitsdatenbank 6 gespeichert.
Die Funktion der Audioklassen-Wahrscheinlichkeitsdatenbank 6 ist nun durch ein Beispiel erklärt:
Wenn die vorhergehende Sequenz von Audioklassen „Sprache", „Stille", „Sprache" ist, ist die Wahrscheinlichkeit für die Audioklassen „Sprache" und „Stille" höher als die Wahrscheinlichkeit für die Audioklassen „Musik" oder „Beifallrufe/Klatschen".
Bei dem vorliegenden Beispiel sind die Wahrscheinlichkeitswerte, die durch eine empirische Analyse von manuell klassifizierten Audiodaten erzeugt werden, in der Audioklassen-Wahrscheinlichkeitsdatenbank 6 gespeichert.
Eine Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 ist außerdem mit der Segmentiereinrichtung 11 verbunden.
Wahrscheinlichkeitswerte für jedes Audio-Metamuster hinsichtlich einer bestimmten Zahl von vorhergehenden Audio-Metamustern für eine Sequenz von aufeinander folgenden Audioklassen sind in der Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 gespeichert.
Die Funktion der Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 wird durch das folgende Beispiel offensichtlicher:
Wenn das Programm Fußball ist und das vorhergehende Audio-Metamuster zu dem Inhalt „Foul" gehört, ist die Wahrscheinlichkeit für die Audio-Metamuster, die zu den Inhalten „Freistoß" oder „rote Karte" gehören, höher als die Wahrscheinlichkeit für das Audio-Metamuster, das zu dem Inhalt „Anstoß" gehört.
Die Wahrscheinlichkeitswerte werden durch eine empirische Analyse von manuell klassifizierten Audiodaten erzeugt.
Eine Programmerfassungseinrichtung 8 ist ferner mit sowohl der Audiodateneingabeeinrichtung 2 als auch der Segmentiereinrichtung 11 verbunden.
Die Programmerfassungseinrichtung 8 identifiziert durch ein Verwenden von im Vorhergehenden segmentierten Audiodaten, die in einer herkömmlichen Speichereinrichtung (nicht gezeigt) gespeichert sind, die Art von Programm, zu dem die Audiodaten tatsächlich gehören.
Die herkömmliche Speichereinrichtung könnte beispielsweise eine Festplatte oder ein Speicher sein.
Gemäß dem vorliegenden Ausführungsbeispiel basiert die Funktionalität der Programmerfassungseinrichtung 8 auf der Tatsache, dass sich die Arten von Audiodaten (und daher die Audioldassen), die für eine bestimmte Art von Programm (z. B. TV-Show, Nachrichten, Fußball etc.) wichtig sind, in Abhängigkeit von dem Programm, zu dem die beobachteten Audiodaten gehören, unterscheiden.
Wenn die Art von Programm beispielsweise „Fußball" ist, ist die Audioklasse „Beifallrufen/Klatschen" eine wichtige Audioklasse. Wenn im Gegensatz dazu die Art von Programm beispielsweise „Rockkonzert" ist, ist die Audioklasse „Musik" die wichtigste Audioklasse.
Durch ein Erfassen der Häufigkeit des Auftretens von Audioklassen können daher die allgemeinen Inhalte der beobachteten Audiodaten und daher die Art von Programm identifiziert werden.
Schließlich ist eine Ausgabedateierzeugungseinrichtung 9, die ein Datenausgabetor 13 aufweist, mit der Segmentiereinrichtung 11 verbunden.
Die Ausgabedateierzeugungseinrichtung 9 erzeugt eine Ausgabedatei, die sowohl die Audiodaten, die der Audiodateneingabeeinrichtung zugeführt werden, als auch Daten, die sich auf die Anfangszeit, die Endzeit und die Inhalte der Audiodaten, die einem jeweiligen Metamuster zugeteilt sind, beziehen, enthält.
Die Ausgabedateierzeugungseinrichtung 9 gibt ferner die Ausgabedatei über das Datenausgabetor 13 aus.
Das Datenausgabetor 13 kann mit einer Aufzeichnungsvorrichtung (nicht gezeigt), die die Ausgabedatei zu einem Aufzeichnungsmedium speichert, verbunden sein.
Die Aufzeichnungsvorrichtung könnte beispielsweise ein DVD-Schreiber sein.
Im Folgenden ist die Funktion der Segmentiereinrichtung 11 unter Bezugnahme auf 2 im Detail erklärt.
Die Segmentiereinrichtung 11 segmentiert die Audiodaten, die durch die Klassenunterscheidungseinrichtung 4 geliefert werden, basierend auf einer Sequenz von Audioklassen von aufeinander folgenden Audioclips in Audio-Metamuster.
Wie im Vorhergehenden gesagt ist, sind die Inhalte, die die Audiodaten in sich aufweisen, jeweils aus einer Sequenz von aufeinander folgenden Audioclips zusammengesetzt. Da jeder Audioclip in eine Audioklasse unterschieden werden kann, ist auch jeder Inhalt aus einer Sequenz von entsprechenden Audioklassen von aufeinander folgenden Audioclips zusammengesetzt.
Daher ist es durch ein Vergleichen der Sequenz von Audioklassen von aufeinander folgenden Audioclips, die zu den Inhalten der jeweiligen Audiodaten gehören, mit der Sequenz von Audioklassen von aufeinander folgenden Audioclips, die zu den Audio-Metamustern gehören, möglich, Audio-Metamuster zu finden, die den jeweiligen Inhalt identifizieren könnten (die angepasst sein könnten, um den jeweiligen Inhalt zu identifizieren).
Wie im Vorhergehenden erwähnt ist, ist jedes Audio-Metamuster einer vorbestimmten Programmdateneinheit zugeteilt und in der Programmdatenbank 5 gespeichert. Jedes Audio-Metamuster ist daher auch einem bestimmten Programm zugeteilt.
Wenn das Programm z. B. „Fußball" ist, sind beispielsweise Audio-Metamuster zum Identifizieren von „Strafstoß", „Tor", „Einwurf" und „Foul" vorgesehen. Wenn das Programm z. B. „Nachrichten" ist, gibt es Audio-Metamuster für „Politik", „Katastrophen", „Wirtschaft" und „Wetter".
Obwohl durch ein Vergleichen der Sequenz von Audioklassen, die zu den Inhalten gehört, mit der Sequenz von Audioklassen, die zu den Audio-Metamustern gehört, eine große Zahl von Audio-Metamustern gefunden werden könnte, werden die entsprechend gefundenen Audio-Metamuster üblicherweise zu unterschiedlichen Programmdateneinheiten gehören.
Die vorliegende Erfindung basiert auf der Tatsache, dass Audiodaten von unterschiedlichen Programmen normalerweise auch unterschiedliche Inhalte aufweisen. Sobald daher das tatsächliche Programm und die entsprechende Programmdateneinheit identifiziert sind, ist es wahrscheinlicher, dass sogar die weiteren Audio-Metamuster zu der Programmdateneinheit gehören.
Durch ein Identifizieren der Art von Programm, zu dem die Audiodaten tatsächlich gehören, kann daher die Zahl von möglichen Audio-Metamustern, die den jeweiligen Inhalt identifizieren könnten (die angepasst sein könnten, um den jeweiligen Inhalt zu identifizieren), auf die Audio-Metamuster, die zu der Programmdateneinheit, die dem jeweiligen Programm entspricht, gehören, reduziert werden.
Eine Zuteilung von Metamustern zu jeweiligen Sequenzen von Audioklassen ist daher durch eine Verwendung der Programmdatenbank 5 wesentlich erleichtert.
Das tatsächliche Programm könnte beispielsweise durch ein Bestimmen (Zählen), zu welcher Programmdateneinheit die meisten der bereits segmentierten Audio-Metamuster gehören, durch die Segmentiereinrichtung 11 identifiziert werden.
Alternativ kann der Ausgabewert der Programmerfassungseinrichtung 8 verwendet werden.
Das Segmentieren von Audiodaten auf der Basis der Programmdatenbank ist durch das folgende Beispiel weiter erklärt:
Ein Audio-Metamuster für „Foul" ist einer Programmdateneinheit „Fußball", die in der Programmdatenbank gespeichert ist, zugeteilt. Ein Audio-Metamuster für „Katastrophen" ist ferner einer Programmdateneinheit „Nachrichten", die auch in der Programmdatenbank gespeichert ist, zugeteilt.
Die Sequenz von Audioklassen von aufeinander folgenden Audioclips, die das Audio-Metamuster „Foul" charakterisieren, könnte zu der Sequenz von Audioklassen von aufeinander folgenden Audioclips, die. das Audio-Metamuster „Katastrophen" charakterisieren, identisch sein.
Sobald entschieden ist, dass die Audiodaten zu dem Programm „Fußball" gehören, ist das Audio-Metamuster „Foul", das in der Programmdateneinheit „Fußball" gespeichert ist, mit einer höheren Wahrscheinlichkeit korrekt als das Audio-Metamuster „Katastrophen", das in der Programmdateneinheit „Nachrichten" gespeichert ist.
Bei dem vorliegenden Beispiel segmentiert daher die Segmentiereinrichtung 11 die jeweiligen Audioclips in das Audio-Metamuster „Foul".
Die Segmentiereinrichtung 11 verwendet außerdem zum Segmentieren der Audiodaten in Audio-Metamuster Wahrscheinlichkeitswerte für jede Audioklasse, die in der Audioklassen-Wahrscheinlichkeitsdatenbank 6 gespeichert sind.
Durch das Verwenden von Wahrscheinlichkeitswerten für jede Audioklasse ist es möglich, die Signifikanz von jeder Audioklasse hinsichtlich einer bestimmten Zahl von vorhergehenden Audioklassen zu identifizieren und die Signifikanz während der Segmentierung von Audiodaten in Audio-Metamuster zu berücksichtigen.
Die Segmentiereinrichtung 11 verwendet weiterhin zum Segmentieren der Audiodaten in Audio-Metamuster Wahrscheinlichkeitswerte für jedes Audio-Metamuster, die in der Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 gespeichert sind.
Wie im Vorhergehenden gesagt ist, könnten mehrere Audio-Metamuster durch dieselbe Sequenz von Audioklassen von aufeinander folgenden Audioclips charakterisiert sein. Falls die Audio-Metamuster zu derselben Programmdateneinheit gehören, kann durch die Segmentiereinrichtung 11 lediglich basierend auf der Programmdatenbank 5 keine eindeutige Entscheidung getroffen werden.
Durch ein Verwenden von Wahrscheinlichkeitswerten für jedes Audio-Metamuster identifiziert die Segmentiereinrichtung 11 ein bestimmtes Audio-Metamuster aus der Mehrzahl von Audio-Metamustern, das höchstwahrscheinlich geeignet ist, um den Typ von Inhalten der Audiodaten hinsichtlich der vorhergehenden Audio-Metamuster zu identifizieren.
Es müssen daher keine weiteren Regeln vorgesehen werden, um sich mit Problemen zu befassen, bei denen mehr als ein Audio-Metamuster einer Programmdateneinheit durch dieselbe Sequenz von Audioklassen von aufeinander folgenden Audioclips charakterisiert ist.
Die Segmentiereinrichtung 11 verwendet außerdem zum Segmentieren der Audiodaten in Audio-Metamuster Klassenwahrscheinlichkeitswerte, die durch die Klassenunterscheidungseinrichtung 4 berechnet werden.
Die Klassenwahrscheinlichkeitswerte werden der Segmentiereinrichtung 11 zusammen mit den jeweiligen Audioklassen durch die Klassenunterscheidungseinrichtung 4 zugeführt.
Wie vorher gesagt wurde, zeigt der jeweilige Klassenwahrscheinlichkeitswert die Wahrscheinlichkeit an, ob für einen jeweiligen Audioclip die korrekte Audioklasse gewählt wurde.
Zusammenfassend verwendet gemäß dem vorliegenden Ausführungsbeispiel die Segmentiereinrichtung 11 zum Segmentieren der Audiodaten in entsprechende Audio-Metamuster sowohl die Programmdatenbank 5 als auch die Audioklassen-Wahrscheinlichkeitsdatenbank 6 als auch die Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 als auch die Klassenwahrscheinlichkeitswerte, die durch die Klassenunterscheidungseinrichtung 4 berechnet werden.
Dies wird durch die Segmentiereinrichtung 11 durch ein Berechnen von Wahrscheinlichkeitswerten für jedes Audio-Metamuster für jede Sequenz von Audioklassen von aufeinander folgenden Audioclips unter Verwendung eines Viterbi-Algorithmus durchgeführt.
Alternativ könnte lediglich die Programmdatenbank 5 oder könnten die Programmdatenbank 5 und entweder die Audioklassen-Wahrscheinlichkeitsdatenbank 6 oder die Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7 zum Segmentieren der Audiodaten in entsprechende Audio-Metamuster verwendet werden. Die Klassenwahrscheinlichkeitswerte, die durch die Klassenunterscheidungseinrichtung 4 berechnet werden, könnten zusätzlich auch verwendet werden.
Bei dem vorliegenden Beispiel ist ferner die Segmentiereinrichtung 11 angepasst, um die Segmentierung der Audiodaten in Audio-Metamuster auf die Audio-Metamuster, die der Programmdateneinheit der Art von Programm, das durch die Programmerfassungseinrichtung 8 identifiziert ist, zugeteilt sind, zu begrenzen.
Die Genauigkeit der erfinderischen Audiodatensegmentierungsvorrichtung 1 kann daher verbessert werden, und die Komplexität einer Berechnung kann reduziert werden.
Zusammenfassend ist die Audiodatensegmentierungsvorrichtung 1 gemäß der vorliegenden Erfindung fähig, durch ein Definieren einer Zahl von Audio-Metamustern, die höchstwahrscheinlich für ein konkretes Programm geeignet sind, Audiodaten in entsprechende Audio-Metamuster zu segmentieren.
Die Zuteilung von Metamustern zu jeweiligen Sequenzen von Audioklassen ist daher wesentlich erleichtert.
Durch ein Verwenden von bis zu drei Wahrscheinlichkeitswerten (Wahrscheinlichkeitswerte für jede Audioklasse, Wahrscheinlichkeitswerte für jedes Audio-Metamuster, Klassenwahrscheinlichkeitswerte) und der Daten, die in der Programmdatenbank gespeichert sind, ist die Segmentierung der Audiodaten sehr zuverlässig.
Fehler in einer der Komponenten der erfinderischen Audiosegmentierungsvorrichtung führen weiterhin nicht notwendigerweise zu einem Fehler bei der endgültigen Segmentierung, da die gemeinsame maximale Wahrscheinlichkeit aller Wissensquellen verwendet wird, um eine Optimalität bei der Segmentierung sicherzustellen.
Gemäß der vorliegenden Erfindung nutzen die Klassenunterscheidungseinrichtung, die Audioklassen-Wahrscheinlichkeitsdatenbank und die Audio-Metamuster-Wahrscheinlichkeitsdatenbank die statistischen Charakteristika des entsprechenden Programms und liefern daher eine bessere Leistung als die bekannten Lösungen.
Um die Klarheit der 1 und 2 zu verbessern, sind ergänzende Einrichtungen wie eine Energieversorgung, Pufferspeicher etc. nicht gezeigt.
Bei dem Ausführungsbeispiel, das in 1 gezeigt ist, sind für die Audiodaten-Clipping-Einrichtung 3, die Klassenunterscheidungseinrichtung 4 und die Segmentiereinrichtung 11 getrennte Mikroprozessoren verwendet.
Alternativ könnte ein einzelner Mikrocomputer verwendet sein, um die Audiodaten-Clipping-Einrichtung, die Klassenunterscheidungseinrichtung und die Segmentiereinrichtung aufzunehmen.
1 zeigt weiterhin getrennte Speicher für die Programmdatenbank 5, die Audioklassen-Wahrscheinlichkeitsdatenbank 6 und die Audio-Metamuster-Wahrscheinlichkeitsdatenbank 7.
Alternativ könnte sogar eine gemeinsame Speichereinrichtung (z. B. eine Festplatte) verwendet sein, um mehrere oder alle dieser Datenbanken aufzunehmen.
Die erfinderische Audiodatensegmentierungsvorrichtung könnte daher durch eine Verwendung eines Personalcomputers oder einer Arbeitsstation realisiert sein.
Gemäß einem weiteren Ausführungsbeispiel der vorliegenden Erfindung, das nicht im Detail gezeigt ist, weist die Audiodatensegmentierungsvorrichtung keine Programmdatenbank auf.
Die Segmentierung der Audiodaten in Audio-Metamuster basierend auf einer Sequenz von Audioklassen von aufeinander folgenden Audioclips wird daher durch die Segmentiereinrichtung lediglich auf der Basis der Wahrscheinlichkeitswerte, die in der Audioklassen-Wahrscheinlichkeitsdatenbank und/oder Audio-Metamuster-Wahrscheinlichkeitsdatenbank gespeichert sind, durchgeführt.

Claims

Audiodatensegmentierungsvorrichtung (1) zum Segmentieren von Audiodaten, mit: – einer Audiodateneingabeeinrichtung (2) zum Zuführen von Audiodaten; – einer Audiodaten-Clipping-Einrichtung (3) zum Teilen der Audiodaten, die durch die Audiodateneingabeeinrichtung (2) zugeführt werden, in Audioclips einer vorbestimmten Länge; – einer Klassenunterscheidungseinrichtung (4) zum Unterscheiden der Audioclips, die durch die Audiodaten-Clipping-Einrichtung (3) zugeführt werden, in vorbestimmte Audioklassen, wobei die Audioklassen eine Art von Audiodaten, die der jeweilige Audioclip in sich umfasst, identifizieren; und – einer Segmentiereinrichtung (11) zum Segmentieren der Audiodaten in Audio-Metamuster basierend auf einer Sequenz von Audioklassen von aufeinander folgenden Audioclips, wobei jedes Metamuster einem vorbestimmten Typ von Inhalten der Audiodaten zugeteilt ist; dadurch gekennzeichnet, dass die Audiodatensegmentierungsvorrichtung ferner folgende Merkmale aufweist: – eine Programmdatenbank (5), die Programmdateneinheiten aufweist, um eine bestimmt Art von Programm zu identifizieren, wobei jede Programmdateneinheit eine Zahl von Audio-Metamustern, die für ein bestimmtes Programm geeignet sind, aufweist; – eine Audioklassen-Wahrscheinlichkeitsdatenbank (6), die Wahrscheinlichkeitswerte für jede Audioklasse hinsichtlich einer bestimmten Zahl von vorhergehenden Audioklassen für eine Sequenz von aufeinander folgenden Audioclips aufweist; – eine Audio-Metamuster-Wahrscheinlichkeitsdatenbank (7), die Wahrscheinlichkeitswerte für jedes Audio-Metamuster hinsichtlich einer bestimmten Zahl von vorhergehenden Audio-Metamustern für eine Sequenz von Audioklassen aufweist; wobei die Segmentiereinrichtung (11) auf der Basis der Programmdateneinheiten der Programmdatenbank (5) unter Verwendung der Audioklassen-Wahrscheinlichkeitsdatenbank (6) als die Audio-Metamuster-Wahrscheinlichkeitsdatenbank (7) die Audiodaten in entsprechende Audio-Metamuster segmentiert.
Audiodatensegmentierungsvorrichtung nach Anspruch 1, dadurch gekennzeichnet, dass die Segmentiereinrichtung (11) durch ein Berechnen von Wahrscheinlichkeitswerten für jedes Audio-Metamuster für jede Sequenz von Audioklassen von aufeinander folgenden Audioclips basierend auf der Programmdatenbank (5) und/oder der Audioklassen-Wahrscheinlichkeitsdatenbank (6) und/oder der Audio-Metamuster-Wahrscheinlichkeitsdatenbank (7) die Audiodaten in die Audio-Metamuster segmentiert.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Audiodatensegmentierungsvorrichtung (1) ferner folgende Merkmale aufweist: – eine Programmerfassungseinrichtung (8) zum Identifizieren der Art von Programm, zu der die Audiodaten gehören, durch ein Verwenden von im Vorhergehenden segmentierten Audiodaten; wobei die Segmentiereinrichtung (11) ferner angepasst ist, um eine Segmentierung der Audiodaten in die Audio-Metamuster auf die Audio-Metamuster, die der Programmdateneinheit der Art von Programm, die durch die Programmerfassungseinrichtung identifiziert wird, zugeteilt sind, zu begrenzen.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Klassenunterscheidungseinrichtung (4) ferner angepasst ist, um einen Klassenwahrscheinlichkeitswert für jede Audioklasse von jedem Audioclip zu berechnen, wobei die Segmentiereinrichtung (11) ferner angepasst ist, um die Klassenwahrscheinlichkeitswerte, die durch die Klassenunterscheidungseinrichtung (4) berechnet werden, zum Segmentieren der Audiodaten in entsprechende Audio-Metamuster zu verwenden.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Segmentiereinrichtung (11) einen Viterbi-Algorithmus verwendet, um die Audiodaten in die Audio-Metamuster zu segmentieren.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Klassenunterscheidungseinrichtung (4) einen Satz von vorbestimmten Audioklassenmodellen, die für jede Audioklasse zum Unterscheiden der Clips in vorbestimmte Audioklassen vorgesehen sind, verwendet.
Audiodatensegmentierungsvorrichtung nach Anspruch 6, dadurch gekennzeichnet, dass die vorbestimmten Audioklassenmodelle durch eine empirische Analyse von manuell klassifizierten Audiodaten erzeugt sind.
Audiodatensegmentierungsvorrichtung nach Anspruch 6 oder 7, dadurch gekennzeichnet, dass die Audioklassenmodelle als Hidden-Markov-Modelle vorgesehen sind.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Klassenunterscheidungseinrichtung (4) akustische Charakteristika der Audiodaten, die die Audioclips in sich aufweisen, analysiert, um die Audioclips in die jeweiligen Audioklassen zu unterscheiden.
Audiodatensegmentierungsvorrichtung nach Anspruch 9, dadurch gekennzeichnet, dass die akustischen Charakteristika Energie/Lautstärke, Tonhöhenperiode, Bandbreite und MFCC der jeweiligen Audiodaten aufweisen.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Audiodateneingabeeinrichtung (2) ferner angepasst ist, um die Audiodaten zu digitalisieren.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass jeder Audioclip, der durch die Audiodaten-Clipping-Einrichtung (3) erzeugt wird, eine Mehrzahl von überlappenden kurzen Intervallen von Audiodaten enthält.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die vorbestimmten Audioklassen eine Klasse für mindestens sowohl Stille, Sprache, Musik, Beifallrufe als auch Klatschen aufweisen.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Programmdatenbank (5) Programmdateneinheiten für mindestens sowohl Sport, Nachrichten, Werbesendungen, Spielfilme als auch Reportagen aufweist.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Wahrscheinlichkeitswerte für jede Audioklasse durch eine empirische Analyse von manuell klassifizierten Audiodaten erzeugt werden.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass Wahrscheinlichkeitswerte für jedes Audio-Metamuster durch eine empirische Analyse von manuell klassifizierten Audiodaten erzeugt werden.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Audiodatensegmentierungsvorrichtung (1) ferner folgende Merkmale aufweist: – eine Ausgabedateierzeugungseinrichtung (9), um eine Ausgabedatei zu erzeugen; wobei die Ausgabedatei die Anfangszeit, die Endzeit und die Inhalte der Audiodaten, die einem jeweiligen Metamuster zugeteilt sind, enthält.
Audiodatensegmentierungsvorrichtung nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Audiodaten ein Teil von Rohdaten sind, die sowohl Audiodaten als auch Videodaten enthalten.
Verfahren zum Segmentieren von Audiodaten, das die folgenden Schritte aufweist: – Teilen von Audiodaten in Audioclips einer vorbestimmten Länge; – Unterscheiden der Audioclips in vorbestimmte Audioklassen, wobei die Audioklassen eine Art von Audiodaten, die der jeweilige Audioclip in sich umfasst, identifizieren; und – Segmentieren der Audiodaten in Audio-Metamuster basierend auf einer Sequenz von Audioklassen von aufeinander folgenden Audioclips, wobei jedes Metamuster einem vorbestimmten Typ von Inhalten der Audiodaten zugeteilt ist; dadurch gekennzeichnet, dass der Schritt des Segmentierens der Audiodaten in Audio-Metamuster ferner die Verwendung einer Programmdatenbank, die Programmdateneinheiten aufweist, aufweist, um eine bestimmte Art von Programm zu identifizieren, wobei jede Programmdateneinheit eine Zahl von Audio-Metamustern, die für ein bestimmtes Programm geeignet sind, aufweist; wobei der Schritt des Segmentierens der Audiodaten in Audio-Metamuster ferner die Verwendung einer Audioklassen-Wahrscheinlichkeitsdatenbank aufweist, die Wahrscheinlichkeitswerte für jede Audioklasse hinsichtlich einer bestimmten Zahl von vorhergehenden Audioklassen für eine Sequenz von aufeinander folgenden Audioclips aufweist, wobei der Schritt des Segmentierens der Audiodaten in Audio-Metamuster ferner die Verwendung einer Audio-Metamuster-Wahrscheinlichkeitsdatenbank aufweist, die Wahrscheinlichkeitswerte für jedes Audio-Metamuster hinsichtlich einer bestimmten Zahl von vorhergehenden Audio-Metamustern für eine Sequenz von Audioklassen aufweist; und wobei bei dem Schritt des Segmentierens der Audiodaten in Audio-Metamuster die Audiodaten auf der Basis der Programmdateneinheiten der Programmdatenbank unter Verwendung der Audioklassen-Wahrscheinlichkeitsdatenbank als die Audio-Metamuster-Wahrscheinlichkeitsdatenbank in entsprechende Audio-Metamuster segmentiert werden.
Verfahren zum Segmentieren von Audiodaten nach Anspruch 19, dadurch gekennzeichnet, dass der Schritt des Segmentierens der Audiodaten in die Audio-Metamuster eine Berechnung von Wahrscheinlichkeitswerten für alle Metadaten für jede Sequenz von Audioklassen von aufeinander folgenden Audioclips basierend auf der Programmdatenbank und/oder der Audioklassen-Wahrscheinlichkeitsdatenbank und/oder der Audio-Metamuster-Wahrscheinlichkeitsdatenbank aufweist.
Verfahren zum Segmentieren von Audiodaten nach Anspruch 19 oder 20, dadurch gekennzeichnet, dass das Verfahren zum Segmentieren von Audiodaten ferner folgenden Schritt aufweist: – Identifizieren der Art von Programm, zu dem die Audiodaten gehören, durch ein Verwenden der im Vorhergehenden segmentierten Audiodaten; wobei der Schritt des Segmentieren der Audiodaten in die Audio-Metamuster ein Begrenzen der Segmentierung der Audiodaten in Audio-Metamuster auf die Audio-Metamuster, die der Programmdateneinheit des identifizierten Programms zugeteilt sind, aufweist.
Verfahren zum Segmentieren von Audiodaten nach Anspruch 19, 20 oder 21, dadurch gekennzeichnet, dass der Schritt des Unterscheidens der Audioclips in vorbestimmte Audioklassen eine Berechnung eines Klassenwahrscheinlichkeitswerts für jede Audioklasse von jedem Audioclip aufweist, wobei der Schritt des Segmentierens der Audiodaten in die Audio-Metamuster ferner die Verwendung der Klassenwahrscheinlichkeitswerte, die durch die Klassenunterscheidungseinrichtung berechnet werden, zum Segmentieren der Audiodaten in entsprechende Audio-Metamuster aufweist.
Verfahren zum Segmentieren von Audiodaten nach einem der Ansprüche 19 bis 22, dadurch gekennzeichnet, dass der Schritt des Segmentierens der Audiodaten in die Audio-Metamuster die Verwendung eines Viterbi-Algorithmus aufweist, um die Audiodaten in Audio-Metamuster zu segmentieren.
Verfahren zum Segmentieren von Audiodaten nach einem der Ansprüche 19 bis 23, dadurch gekennzeichnet, dass der Schritt des Unterscheidens der Audioclips in vorbestimmte Audioklassen die Verwendung eines Satzes von vorbestimmten Audioklassenmodellen, die für jede Audioklasse zum Unterscheiden der Clips in vorbestimmte Audioklassen vorgesehen sind, aufweist.
Verfahren zum Segmentieren von Audiodaten nach Anspruch 24, dadurch gekennzeichnet, dass das Verfahren zum Segmentieren von Audiodaten ferner folgenden Schritt aufweist: – Erzeugen der vorbestimmten Audioklassenmodelle durch eine empirische Analyse von manuell klassifizierten Audiodaten.
Verfahren zum Segmentieren von Audiodaten nach einem der Ansprüche 19 bis 25, dadurch gekennzeichnet, dass Hidden-Markov-Modelle verwendet werden, um die Audioklassen darzustellen.
Verfahren zum Segmentieren von Audiodaten nach einem der Ansprüche 19 bis 26, dadurch gekennzeichnet, dass der Schritt des Unterscheidens der Audioclips in vorbestimmte Audioklassen eine Analyse von akustischen Charakteristika der Audiodaten, die die Audioclips in sich aufweisen, aufweist.
Verfahren zum Segmentieren von Audiodaten nach Anspruch 27, dadurch gekennzeichnet, dass die akustischen Charakteristika Energie/Lautstärke, Tonhöhenperiode, Bandbreite und MFCC der jeweiligen Audiodaten aufweisen.
Verfahren zum Segmentieren von Audiodaten nach einem der Ansprüche 19 bis 28, dadurch gekennzeichnet, dass das Verfahren zum Segmentieren von Audiodaten ferner folgenden Schritt aufweist: – Digitalisieren von Audiodaten.
Verfahren zum Segmentieren von Audiodaten nach einem der Ansprüche 19 bis 29, dadurch gekennzeichnet, dass das Verfahren zum Segmentieren von Audiodaten ferner folgenden Schritt aufweist: – empirische Analyse von manuell klassifizierten Audiodaten, um Wahrscheinlichkeitswerte für jede Audioklasse und/oder für jedes Audio-Metamuster zu erzeugen.
Verfahren zum Segmentieren von Audiodaten nach einem der Ansprüche 19 bis 30, dadurch gekennzeichnet, dass das Verfahren zum Segmentieren von Audiodaten ferner folgenden Schritt aufweist: – Erzeugen einer Ausgabedatei, wobei die Ausgabedatei die Anfangszeit, die Endzeit und die Inhalte der Audiodaten, die einem jeweiligen Metamuster zugeteilt sind, enthält.