DE60319710T2

DE60319710T2 - Verfahren und Vorrichtung zur automatischen Dissektion segmentierte Audiosignale

Info

Publication number: DE60319710T2
Application number: DE60319710T
Authority: DE
Inventors: Silke Sony International Goronzy (Europe) Gm; Thomas Sony International Kemp (Europe) G; Ralf Sony International Kompe (Europe) Gmb; Yin Hay Sony International Lam (Europe); Krzysztof Sony Int'l. Marasek (Europe) GmbH; Raquel Sony International Tato (Europe) G
Original assignee: Sony Deutschland GmbH
Current assignee: Sony Deutschland GmbH
Priority date: 2003-11-12
Filing date: 2003-11-12
Publication date: 2009-03-12
Anticipated expiration: 2023-11-13
Also published as: EP1531456B1; EP1531456A1; DE60319710D1; US7962330B2; US20050160449A1

Description

Die vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein Verfahren zur Dissektion (Zerlegung) segmentierter Audiosignale, welche die Merkmale der Oberbegriffe der unabhängigen Ansprüche 1 bzw. 17 aufweisen.
Es gibt eine wachsende Menge an Videodaten (einschließlich Abtast-Videosignale), welche im Internet und in einer Vielzahl von Speichermedien, beispielsweise digitalen Videoplatten verfügbar sind. Außerdem werden diese Videodaten durch eine riesige Anzahl von Fernsehstationen als analoges oder digitales Videosignal bereitgestellt.
Die Videodaten sind eine reiche multilaterale Informationsquelle, welche Sprache, Audio, Text, Farbmuster und Form von Abbildungsobjekten und Bewegung dieser Objekte enthält.
Aktuell besteht ein Wunsch nach der Möglichkeit, nach Segmenten von Interesse in den Videodaten zu suchen (beispielsweise bestimmte Themen, Personen, Ereignisse und Darstellungen usw.)
Im Prinzip kann jedes Videosignal primär in Bezug auf seinen allgemeinen Hauptgegenstand klassifiziert werden. Der allgemeine Hauptgegenstand wird häufig als "Kategorie" bezeichnet.
Wenn das Videosignal über Fernsehen gesendet wird, könnte beispielsweise die allgemeine Hauptsache (Kategorie) Nachrichten oder Sport oder Kinofilm oder Dokumentarfilm sein.
Im vorliegenden Dokument wird ein selbstständiges Videosignal, welches zu einer allgemeinen Hauptsachen (Kategorie) gehört, als "Programm" bezeichnet.
Beispielsweise wird jede einzelne Fernsehsendung, jeder einzelne Dokumentarfilm, jedes einzelne Nachrichtenmagazin und jedes einzelne Funkfernsehspiel als Programm bezeichnet.
Üblicherweise enthält jedes Programm selbstständige Aktivitäten (Ereignisse). In Hinblick darauf werden lediglich selbständige Aktivitäten (Ereignisse), welche eine bestimmte minimale Wichtigkeit haben, in Betracht gezogen.
Wenn die allgemeine Hauptsache (Kategorie) Nachrichten sind, und das Programm ein bestimmtes Nachrichtenmagazin beispielsweise ist, könnten die selbständigen Aktivitäten die verschiedenen Nachrichten, welche im Nachrichtenmagazin erwähnt sind, sein. Wenn die allgemeine Hauptsache (Kategorie) Sport ist und das Programm beispielsweise ein bestimmtes Fußballspiel ist, könnten die selbständigen Aktivitäten Abstoß, Strafstoß, Einwurf, usw. sein.
Nachfolgend werden die selbständigen Aktivitäten (Ereignisse), welche in einem bestimmten Programm enthalten sind und eine minimale Wichtigkeit erfüllen, als "Inhalte" bezeichnet.
Somit wird jedes Videosignal zunächst in Bezug auf dessen Kategorie (allgemeiner Hauptgegenstand) klassifiziert.
Innerhalb jeder Kategorie wird das Videosignal in Bezug auf sein Programm klassifiziert (selbständiges Videosignal, welches zu einer Kategorie gehört).
Die Programme werden weiter in Bezug auf ihre entsprechenden Inhalte (selbständige Aktivitäten (wichtige Ereignisse)) klassifiziert.
Der traditionelle Videobandrekorder-Abtastwiedergabemodus zum Browsen und zum Entfernen eines analogen Videosignals ist mühsam und nicht flexibel. Der Grund für dieses Problem ist der, dass das Videosignal wie ein geradliniger Block von Abtastungen behandelt wird. Es ist keine Suchfunktionalität (mit Ausnahme des schnellen Vorlaufs und des schnellen Rücklaufs) vorgesehen.
Um sich auf dieses Problem zu richten, umfassen einige moderne Videobandrekorder die Möglichkeit, Indexe entweder manuell oder automatisch zu setzen, jedes Mal dann, wenn ein Aufzeichnungsbetrieb begonnen wird, um eine automatische Erkennung bestimmter Sequenzen von Videosignalen zuzulassen. Mit diesen Indexen gibt es einen Nachteil, dass die Indexe nicht eingerichtet sind, um individuell eine bestimmte Sequenz an Videosignalen zu identifizieren.
Dagegen umfassen digitale Videoplatten Videodaten (digitalisierte Videosignale), wo Kapitel den Videodaten während der Herstellung der digitalen Videoplatte hinzugefügt sind. Diese Kapitel erlauben normalerweise die Identifizierung lediglich den Lauf einer Geschichte. Insbesondere erlauben diese Kapitel nicht die Identifizierung bestimmter Inhalte (selbständige Aktivitäten/Ereignisse, welche eine bestimmte minimale Wichtigkeit haben), welche in den Videodaten enthalten sind.
Außerdem wurden während der letzten Jahre elektronische Programmführungssysteme (EPG) entwickelt.
Eine elektronische Programmführung (EPG) ist eine Anwendung, welche bei digitalen Set-Top-Boxen und neueren Fernsehgeräten verwendet wird, um aktuelle und geplante Programme, welche auf jedem Kanal verfügbar sind oder werden, und eine kurze Zusammenfassung oder ein Kommentar für jedes Programm aufzulisten. EPG ist das elektronische Äquivalent der gedruckten Fernsehprogrammzeitung.
Üblicherweise wird auf eine EPG unter Verwendung einer Fernsteuerung zugegriffen. Es sind Menüs vorgesehen, welche es dem Benutzer erlauben, eine Liste an Programmen zu betrachten, welche für die nächsten wenigen Stunden bis zu den nächsten sieben Tagen geplant sind. Eine typische EPG umfasst Optionen, um verwandte Steuerungen, das Order von Bezahlprogrammen, die Suche nach Programmen auf der Basis des Themas oder Kategorie, und einen VCR einzurichten, die Programme aufzuzeichnen, zu setzen. Jeder digitale Fernsehanbieter (DTV) bietet seine eigene Benutzerschnittstelle und Inhalt für seine EPG. Das Format der EPG zu erkennen hängt stark vom jeweiligen Anbieter ab. Die Standards, die bis heute entwickelt wurden (beispielsweise MHP-Standard), sind bisher noch nicht geltend gemacht worden.
Somit bestehen Videodaten, welche für EPG geeignet sind, üblicherweise aus einem Audiosignal, einem Bildsignal und einem Informationssignal. Obwohl EPG die Identifizierung von Programmen zulasst, und von dem allgemeinen Hauptgegenstand (Kategorie), zu der die Programme gehören, erlaubt die EPG nicht die Identifizierung bestimmten Inhalts, der in den jeweiligen Programmen enthalten ist.
Die WO 02/25939 A2 offenbart eine Fernsehprogramm-Empfehlungseinrichtung, welche Änderungen beim Betrachten von Präferenzen automatisch identifiziert. Wenn das Ändern von Betrachtungspräferenzen identifiziert wird, kann die offenbarte Fernsehprogramm-Empfehlungseinrichtung die erzeugten Fernsehprogrammempfehlungen auf diese Änderungen beim Betrachten von Präferenzen anpassen, oder (effizienter) die Speicherung der Betrachtungsgeschichte verwalten. Für zyklische oder periodische Änderung bei den Betrachtungspräferenzen erzeugt die Fernsehprogramm-Empfehlungseinrichtung Fernsehpro grammempfehlungen unter Verwendung eines Hilfssatzes der Betrachtungshistorie von einem entsprechenden früheren Zeitpunkt aus. In gleicher Weise erzeugt für echte oder permanente Änderungen bei Zuschauerpräferenzen die Fernsehprogramm-Empfehlungseinrichtung optional Fernsehprogrammempfehlungen unter Verwendung des neuesten Hilfssatzes an Zuschauergeschichte, welche am wahrscheinlichsten die aktuellen Zuschauerpräferenzen reflektiert. Die Fernsehprogramm-Empfehlungseinrichtung kann bestätigen, dass Zuschauerpräferenzen signifikant nicht über der Zeit geändert wurden und danach Bereiche der Zuschauerhistorie löschen.
Es ist ein Nachteil bei der EPG, dass die Information, welche durch die EPG bereitgestellt wird, noch manuell durch den Anbieter der EPG erzeugt werden muss. Wie oben angemerkt ist dies sehr kostspielig und somit teuer. Außerdem umfasst die übliche EPG-Information Information über den Inhalt eines Films lediglich insgesamt. Eine weitere Hilfs-Unterteilung des entsprechenden Films in individuelle Inhalte (selbständige Aktivitäten/Darstellungen) ist nicht vorgesehen.
Eine naheliegende Lösung für das Problem zum Handhaben großer Videosignalmengen würde dies sein, die Videosignale jedes Programms in Segmente gemäß deren Inhalte manuell zu segmentieren und eine ausführliche Information in Bezug auf das Videosignal, welches in den Segmenten enthalten ist, bereitzustellen.
Aufgrund der immensen Videosignalmengen, welche in den verfügbaren Videosignalen enthalten sind, ist eine manuelle Segmentierung extrem zeitaufwendig und somit teuer. Daher ist dieser Versuch nicht praktikabel, eine riesige Menge an Videosignalen zu verarbeiten.
Um das obige Problem zu lösen, wurden Versuche zur automatischen Segmentierung von Videosignalen seit einiger Zeit vorgeschlagen.
Mögliche Anwendungsgebiete für eine derartige automatische Segmentierung von Videosignalen sind digitale Videobüchereien oder beispielsweise das Internet.
Da Videosignale aus zumindest einem Bildsignal und einem oder mehreren Audiosignalen zusammengesetzt sind, könnte ein automatischer Videosegmentierungsprozess sich entweder auf eine Analyse des Bildsignals oder der Audiosignale oder auf beide beziehen.
Nachfolgend wird ein Segmentierungsprozess, der sich auf eine Analyse des Audiosignals von Videosignalen spezialisiert, weiter erläutert.
Es ist deutlich, dass dieser Versuch nicht auf das Audiosignal von Videosignalen begrenzt ist, sondern für jegliche Art von Audiosignalen mit Ausnahme von physikalischem Rauschen verwendet werden könnte. Außerdem können allgemeine Erwägungen auf andere Arten von Signalen angewandt werden, beispielsweise auch auf die Analyse des Bildsignals von Videosignalen.
Die bekannten Versuche für den Segmentierungsprozess umfassen das Trennen, automatische Klassifizierung und automatische Segmentierung der Audiosignale, welche in den Videosignalen enthalten sind.
"Ausschneiden" wird durchgeführt, um die Audiosignale (und die entsprechenden Videosignale) in Audioclips (und entsprechende Videoclips) einer geeigneten Länge zur weiteren Verarbeitung zu teilen. Die Audioclips umfassen jeweils eine geeignete Menge an Audiosignalen. Somit hängt die Genauigkeit des Segmentierungsprozesses von der Länge der Audioclips ab.
"Klassifizierung" bedeutet eine grobe Unterscheidung der Audiosignale in Bezug auf den Ursprung der Audiosignale (beispielsweise Sprache, Musik, Geräusch, Stille und Geschlecht des Sprechers). Die Klassifizierung wird üblicherweise durch Signalanalysetechniken auf Basis von Audioklassen-Klassifizierungsregeln durchgeführt. Die Klassifizierung resultiert somit in einer Sequenz von Audiosignalen, welche in Bezug auf den Ursprung der Audiosignale unterteilt sind.
Audioklassen-Klassifizierungsregeln können explizit- oder implizit-codiert in statistischen oder neuronalen Netzwerken sein, wie Modelle.
"Segmentierung" bedeutet Segmentierung der Audiosignale (Videosignale) in individuelle Sequenzen von zusammenhängenden Audioclips, wobei jede Sequenz einen Inhalt (selbständige Aktivität einer minimalen Wichtigkeit) enthält, welche in den Audiosignalen (Videosignalen) dieser Sequenz enthalten sind. Die Segmentierung wird üblicherweise auf Basis von inhalts-klassifizierenden Regeln durchgeführt.
Jeder Inhalt umfasst alle Audioclips, welche zu der jeweiligen selbständigen Aktivität (wichtigem Ereignis) gehören, welche im Audiosignal vorhanden sind (beispielsweise ein Tor, ein Strafstoß eines Fußballspiels oder unterschiedliche Nachrichten während eines Nachrichtenmagazins).
Eine Segmentierungsvorrichtung 40 zur automatischen Segmentierung von Audiosignalen nach dem Stand der Technik ist in 4 gezeigt.
Die Wirkung der Segmentierungsvorrichtung 40 in Bezug auf ein Audiosignal 50 ist in 5 gezeigt.
Die Segmentierungsvorrichtung 40 umfasst eine Audiosignal-Eingabeeinrichtung 42 zum Zuführen eines nicht ausgewerteten Audiosignals 50 über einen Audiosignal-Eingangsanschluss 41.
Im vorliegenden Beispiel ist das nicht ausgewertete Audiosignal 50 Teil eines Videosignals, welches in einem geeigneten Videoformat auf einer Festplatte 48 gespeichert ist.
Alternativ kann das nicht ausgewertete Audiosignal ein Realzeitsignal beispielsweise sein (beispielsweise ein Audiosignal eines herkömmlichen Fernsehkanals).
Die Audiosignale 50, welche über die Audiosignal-Eingabeeinrichtung 42 zugeführt werden, werden zu einer Audiosignal-Ausschneideeinrichtung 43 übertragen. Die Audiosignal-Ausschneideeinrichtung 43 teilt die Audiosignale 50 (und die entsprechenden Videosignale) in Audioclips 51 (und die entsprechenden Videoclips) einer vorgegebenen Länge.
Die Audioclips 51, welche durch die Audiosignal-Ausschneideeinrichtung 43 erzeugt werden, werden weiter zu einer Klassenunterscheidungseinrichtung 44 übertragen.
Die Klassenunterscheidungseinrichtung 44 unterscheidet die Audioclips 51 in vorgegebene Audioklassen 52 auf Basis von vorgegebenen Audioklassen-Klassifizierungsregeln durch Analysieren akustischer Kenndaten des Audiosignals 50, welche in den Audioclips 51 umfasst sind, wodurch jede Audioklasse eine Art von Audiosignalen, welche in dem entsprechenden Audioclip enthalten sind, identifiziert wird.
Jede der Audioklassen-Klassifizierungsregeln teilt eine Kombination einer bestimmten akustischen Charakteristik eines Audiosignals einer bestimmten Art von Audiosignal zu.
Hier sind die akustischen Kenndaten für die Audioklassen-Klassifizierungsregeln, welche die Art der Audiosignale identifizieren "Stille", "Niedrigenergiepegel" und "Niedrig-Null-Durchgangsrate" des Audiosignals, welches beispielsweise im entsprechenden Audioclip vorhanden ist.
Im vorhandenen Beispiel sind eine Audioklasse und eine entsprechende Audioklassen-Klassifizierungsregel für jeweils Stille (Klasse 1), Sprache (Klasse 2) Beifall/Klatschen (Klasse 3) und Musik (Klasse 4) vorgesehen.
Diese Audioklassen-Klassifizierungsregeln sind in der Klassenunterscheidungseinrichtung gespeichert.
Die Audioclips 52, welche in Audioklassen durch die Klassenunterscheidungseinrichtung 44 unterschieden sind, werden zur Segmentierungseinrichtung 45 geliefert.
Mehrere vorgegebene inhalts-klassifizierende Regeln sind in der Segmentierungseinrichtung 45 gespeichert. Jede inhalts-klassifizierende Regel teilt eine bestimmte Sequenz an Audioklassen von aufeinanderfolgenden Audioclips einem bestimmten Inhalt zu.
Im vorhandenen Beispiel sind eine inhalts-klassifizierende Regel für jeweils einen "Freistoß" (Inhalt 1), ein Tor (Inhalt 2), ein "Foul" (Inhalt 3) und "Spielende" (Inhalt 4) vorgesehen.
Es wird deutlich, dass die Inhalte, welche in den Audiosignalen enthalten sind, aus jeweils einer Sequenz aufeinanderfolgender Audioclips zusammengesetzt sind. Dies ist durch das Element 53 von 5 gezeigt.
Da jeder Audioclip in eine Audioklasse unterschieden werden kann, ist jeder Inhalts, welcher in den Audiosignalen enthalten ist, auch aus einer Sequenz von entsprechenden Audioklassen aufeinanderfolgender Audioclips zusammengesetzt.
Daher ermittelt durch Vergleichen einer bestimmten Sequenz von Audioklassen von aufeinanderfolgenden Audioclips, welche zu den Audiosignalen mit den Sequenzen von Audioklassen aufeinanderfolgender Audioclips gehören, welche zu inhalts-klassifizierenden Regeln gehören, die Segmentierungseinrichtung 45 eine Regel, welche die jeweilige Sequenz von Audioklassen erfüllt.
Als Konsequenz wird der Inhalt, der dieser Regel zugeteilt ist, der entsprechenden Sequenz aufeinanderfolgender Audioclips zugeordnet, welche zu den Audiosignalen gehört.
Somit segmentiert auf Basis der inhalts-klassifizierenden Regeln die Segmentierungseinrichtung 45 die klassifizierten Audiosignale, welche durch die Unterscheidungseinrichtung 44 bereitgestellt werden, in eine Sequenz von Inhalten 53 (selbständige Aktivitäten).
Im vorhandenen Beispiel wird eine Ausgabedatei-Erzeugungseinrichtung 46 verwendet, eine Videoausgabedatei zu erzeugen, welche die Audiosignale 50, die entsprechenden Videosignale und ein Informationssignal enthält, welches die entsprechende Sequenz von Inhalten 53 betrifft.
Dieses Informationssignal zeigt die Startzeit, die Endzeit jedes Programms zusammen mit Information in Bezug auf das Programm. Außerdem umfasst das Informationssignal die Startzeit, die Endzeit jedes Inhalts, die in jedem Programm enthalten ist, zusammen mit Information, welche die selbständige Aktivität (wichtiges Ereignis), welche im Inhalt enthalten ist, identifiziert.
Diese Ausgangsdatei wird auf einer Festplatte 48 über einen Signalausgangsanschluss 47 gespeichert.
Unter Verwendung einer Videowiedergabevorrichtung 49 können die Videoausgangsdateien, welche auf der Festplatte 49 gespeichert sind, wiedergegeben werden.
Im vorliegenden Beispiel ist die Videowiedergabevorrichtung 49 ein digitaler Videorekorder, der außerdem in der Lage ist, individuelle Inhalte, welche in der Videoausgangsdatei umfasst sind, auf Basis der Information betreffend der Sequenz der Inhalte 53, welche in der Videoausgangsdatei umfasst sind, zu extrahieren oder auszuwählen. Der Videorekorder kann beispielsweise als Basis eine optische oder magnetische Platte haben.
Somit wird die Segmentierung von Audiosignalen in Bezug auf deren Inhalte durch die in 4 gezeigte Segmentierungsvorrichtung 40 durchgeführt.
Ein stochastisches Signalmodell, welches häufig bei Klassifizierung von Audiodaten verwendet wird, ist das HIDDEN MARKOV Modell, welches ausführlich im Artikel "A Tutorial on Hidden Karkov Models and Selcted Applications in Speech Recognition" von Lawrence R. RABINER erläutert ist, veröffentlicht in Proceedings von IEEE, Band 77, Nr. 2, Februar 1989.
Verschiedene Verfahren zur Audioklassifizierungs-Segmentierung in Bezug auf Sprache, Musik, Stille und Geschlecht sind im Aufsatz "Speech/Musik/Slience and Gender Detection Algorithm" von Hadi HARR, Liming CHEN an Jean-Yves AULOGE offenbart, veröffentlicht durch Lab. ICTT Dept. Mathematiques – Informatiques ECOLE CENTRALE DE LYON, 36, Avenue Guy Collongue B. P. 163, 69131 ECULLY Cedex, Frankreich.
Allgemein richtet sich der obige Aufsatz auf die Unterscheidung eines Audiokanals in Sprache, Musik/Stille/Geräusch, welche zur Verbesserung der Szenensegmentierung hilft. Vier Verfahren zur Audioklassenunterscheidung werden vorgeschlagen: ein "model-based approach", wobei Modelle für jede Audioklasse erzeugt werden, wobei die Modelle auf Niedrigpegelmerkmalen der Audiodaten basieren, beispielsweise Abbildung des logarithmischen Leistungsspektrums und MFCC. Ein Segmentierungsverfahren auf Metrik-Basis verwendet die Abstände zwischen benachbarten Fenstern zur Segmentierung. Ein Verfahren auf Regelbasis umfasst die Bildung individueller Regeln für jede Klasse, wo die Regeln auf hohen und niedrigen Merkmalen von Pegeln basieren. Schließlich verwendet das Verfahren auf Basis des Decoders das verborgene Markov-Modell eines Spracherkennungssystems, wobei das verborgene Markov-Modell trainiert wird, um die Klasse eines Audiosignals anzugeben.
Außerdem beschreibt dieser Aufsatz ausführlich Sprach-, Musik- und Stumm-Eigenschaften, um die Erzeugung von Regeln zuzulassen, welche jede Klasse beschreiben, gemäß dem Verfahren auf Regelbasis, sowie die Geschlechtsermittlung, um das Geschlecht eines Sprachsignals zu ermitteln.
"Audio Feature Extraction and Analysis for Scene Segmentation and Classification" ist in Zhu LIU und Yao WANG der Polytechnischen Universität Brooklyn, USA offenbart, zusammen mit Tsuhan CHEN der Carnegie Mellon Universität, Pittsburg, USA. Dieser Aufsatz beschreibt die Verwendung von verknüpfter Audioinformation zur Videoszenenanalyse von Videodaten, um fünf Arten von TV-Programmen zu unterscheiden, nämlich Werbesendungen, Basketballspiele, Fußballspiele, Nachrichtensendungen und Wettervorhersage.
Gemäß diesem Aufsatz sind die Audiodaten in mehrere Clips unterteilt, wobei jeder Clip mehrere Rahmen aufweist.
Ein Satz von Niedrigpegel-Audiomerkmalen umfasst die Analyse einer Volumenkontur, einer Teilungskontur und Frequenzdomänen-Merkmale als Bandbreite sind zur Klassifizierung der Audiodaten, welche in jedem Clip enthalten sind, vorgeschlagen.
Unter Verwendung der Cluster-Analyse wird die lineare Trennbarkeit unterschiedlicher Klassen geprüft, um die Videosequenz in die obigen fünf Arten von TV-Programmen zu trennen.
In diesem Aufsatz werden drei Ebenen an Audioverständnis unterschieden: in einer "Niedrigpegel-Akustik-Kenndatenebene" werden Niedrigpegel-Merkmale, beispielsweise Lautstärke, Teilperiode und Bandbreite eines Audiosignals analysiert. In der "Intermediatpegel-Akustiksignaturebene wird das Objekt, welches einen bestimmten Ton erzeugt, durch Vergleich des entsprechenden Akustiksignals mit Signaturen, welche in einer Datenbank gespeichert sind, bestimmt. Im Hochpegel- Semantik-Modell werden einige vorher bekannte Semantik-Regeln über die Struktur von Audio in unterschiedlichen Szenenarten (beispielsweise eine Sprache in einem Nachrichtenbericht und Wettervorhersage, jedoch Sprache mit Rauschhintergrund in Werbesendungen) verwendet.
Um die Audiodaten in Audio-Meta-Mustersequenzen von Audioklassen zu unterteilen, werden Mustersequenzen von Audioklassen aufeinanderfolgender Audioclips verwendet.
Um die Genauigkeit des oben beschriebenen Verfahrens weiter zu verbessern, wird vorgeschlagen, die Analyse der Audiodaten von Videodaten mit einer Analyse der visuellen Information, welche in den Videodaten umfasst ist, zu kombinieren (beispielsweise die jeweiligen Farbmuster und die Form von abgebildeten Objekten).
Das US-Patent US 6 185 527 offenbart ein System und ein Verfahren, um einen Audiostrom für nachfolgende Informationswiedergewinnung und zum Entfernen, zur Kernbildung und Summieren des Audiostroms zu indexieren. Das System und das Verfahren umfassen die Verwendung speziellen Audiovorfilterns, so dass lediglich relevante Sprachsegmente, welche durch eine Spracherkennungsmaschine erzeugt werden, mit Index versehen werden. Spezifische Indexmerkmale sind offenbart, welche die Genauigkeit und einen Abruf eines Informationsabrufsystems verbessern, nachdem Wortstücke mit Index versehen sind. Das beschriebene Verfahren umfasst das Bilden des Audiostroms zu Intervallen, wobei jedes Intervall ein oder mehrere Segmente aufweist. Für jedes Segment eines Intervalls wird bestimmt, ob das Segment ein oder mehrere vorgegebene Audiomerkmale zeigt, beispielsweise einen bestimmten Bereich von Nulldurchgangsraten, einen bestimmten Bereich von Energie, und einen bestimmten Bereich einer Spektralenergiekonzentration. Die Audiomerkmale werden heuristisch bestimmt, um entsprechende Audioereignisse einschließlich Stille, Musik, Sprache und Sprache bezüglich Musik zu bestimmen. Außerdem wird bestimmt, ob eine Gruppe von Intervallen zu einem heuristisch vorgegebenen Meta-Muster, beispielsweise zu einer fortlaufenden nichtunterbrochenen Sprache passt, einschließlich Ideen, Verzögerungen und Betonung der Sprache usw., und der Audiostrom dann auf Basis der Intervallklassifizierung und der Muster als Zusammenpassung mit Index versehen wird, wobei lediglich relevante Merkmale mit Index versehen sind, um nachfolgende Genauigkeit von Informationswiedergewinnung zu verbessern. Außerdem werden Alternativen für längere Begriffe, welche durch die Spracherkennungsmaschine erzeugt werden, mit der entsprechenden Wichtung mit Index versehen, um nachfolgenden Abruf zu verbessern.
Die US 2002/0093591 A1 offenbart ein System und ein Verfahren, um Videozusammenfassung über saumloses Integrieren von Bild-, Audio- und Text-Merkmalen zu bilden, welche von einem zugeführten Video extrahiert werden. Insbesondere werden zum Bilden einer Audiozusammenfassung Ton und Sprache getrennt und dann zu Einheiten segmentiert. Die Audioeinheiten werden dann klassifiziert, beispielsweise in Applaus, Sprache, Ausbruch und dgl.. In Abhängigkeit von der Klassifizierung für jede Einheit wird danach ein Vektor gebildet, der die Wichtigkeit der jeweiligen Einheit für den Überblick zeigt, d. h. es wird die Wahrscheinlichkeit berechnet, dass diese wichtig genug ist, in der Audiozusammenfassung enthalten zu sein. Die Wahrscheinlichkeit wird hier durch mit Verfahren auf Regelbasis berechnet. Wenn die Wahrscheinlichkeit für jede Audioeinheit berechnet ist, kann die Audiozusammenfassung gebildet werden, indem die Audioeinheiten in absteigender Reihenfolge ihrer Wahrscheinlichkeit ausgewählt werden, bis der Überblick die durch den Benutzer spezifizierte Länge erreicht.
Somit wird unter anderen Dingen vorgeschlagen, automatisch einen Überblick eines Audiostroms zu liefern oder um ein Verständnis des Kerns eines Audiostroms zu gewinnen.
Algorithmen, welche Indexe von automatischer akustischer Segmentierung erzeugen, sind im Aufsatz beschrieben "Acoustic Segmentation for Audio Browsers" von Don KIMBER und Lynn WILCOX. Diese Algorithmen verwenden verborgene Markov-Modelle, um Audio in Segmente entsprechend unterschiedlicher Sprecher oder akustischer Klassen zu segmentieren. Arten vorgeschlagener akustischer Klassen umfassen Sprache, Stille, Gelächter, Nicht-Sprachen-Töne und wertlose Daten, wobei "wertlose Daten" als Nicht-Sprach-Ton definiert ist, welches nicht durch andere Klassenmodelle moduliert sind.
Eine Ausführung der bekannten Verfahren wird vorgeschlagen durch George TZANETAKIS und Perry COOK in dem Bericht "MARSYAS: A framework for Audio analysis", wo eine Klienten-Server-Architektur verwendet wird.
Heutzutage ist es als Konsequenz der Globalisierung und der Vergrößerung des Wettbewerbs zwischen einer großen Anzahl von Fernseh-Rundfunk-Gesellschaften sehr wahrscheinlich, dass ein Benutzer mit der Situation konfrontiert wird, ein bestimmtes Programm unter vielen ähnlichen Programmen auszuwählen. Beispielsweise ist es sehr wahrscheinlich, dass der Benutzer 20 ähnliche Talkshows an einem Abend und/oder vier verschiedene Fußballspiele am gleichen Abend finden wird.
Obwohl es möglich ist, alle Talkshows und alle Fußballspiele auf einem geeigneten Aufzeichnungsmedium unter Verwendung beispielsweise eines digitalen Videorekorders aufzuzeichnen, wird ein Benutzer höchstwahrscheinlich nicht die Zeit haben, alle diese Programme tatsächlich zu beobachten.
Daher wird es durch den Benutzer äußerst gewünscht, dass er Information hat, welches Programm von mehreren Programmen, welche auf dem Speichermedium gespeichert sind, gemäß seinem vorhandenen Wunsch am meisten interessant ist.
Eine Empfehlungsmaschine (beispielsweise ein EPG-System), welches Verwendung von Kategorieinformation und Programminformation macht, ist nicht in der Lage, das am meisten interessante/aufregenste Programm einer bestimmten Kategorie auszuwählen.
Daher weiß der Benutzer nicht, ob beispielsweise ein Fußballspiel zwischen Brasilien und Deutschland oder ein Fußballspiel zwischen Italien und England (welche beide zur gleichen Kategorie gehören) interessanter ist.
Außerdem weiß der Benutzer nichts über einen unbekannten Film oder eine unbekannte Talkshow, ob diese seinen aktuellen Wunsch mehr erfüllt.
Zusammengefasst ist der Mangel an Unterscheidungsfähigkeit unter Programmen gleicher Kategorie für den Benutzer ein ernsthafter Nachteil des Standes der Technik.
Außerdem ist gemäß dem Stand der Technik eine automatische Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale nicht möglich. Dies ist ein weiterer Nachteil des oben beschriebenen Standes der Technik.
Es ist die Aufgabe der vorliegenden Erfindung, die oben angegebenen Nachteile zu überwinden und um eine Vorrichtung und ein Verfahren zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale bereitzustellen, welches in der Lage ist, Programme, welche in den Audiosignalen vorhanden sind, zu ordnen. Die obige Aufgabe wird bei einer Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung), Wichtung und Ordnungsbildung segmentierter Audiosignale durch die Kombination von Merkmalen des unabhängigen Patentanspruchs 1 gelöst.
Außerdem wird die obige Aufgabe durch ein Verfahren zur automatischen Dissektion (Zerlegung) (Zerlegung), Wichtung und Ordnungsbildung segmentierter Audiosignale gelöst, welche die Kombination von Merkmalen des unabhängigen Patentanspruchs 17 aufweisen.
Weitere Ausführungen sind in den unabhängigen Patentansprüchen aufgeführt.
Gemäß der vorliegenden Erfindung wird eine Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung), zur Wichtung und zum Ranking segmentierter Audiosignale offenbart, wobei die Vorrichtung aufweist:

– eine Inhaltserfassungseinrichtung zum Erfassen von Programmen und Inhalten, die zu den jeweiligen Programmen im segmentierten Audiosignal gehören; wobei die Inhalte wichtige Ereignisse sind, die in den Programmen enthalten sind;
– eine Programmwichtungseinrichtung zum Wichten jedes Programms, welches im Audiosignal enthalten ist, auf Basis der Inhalte des jeweiligen Programms, welche durch die Inhaltserfassungseinrichtung erfasst werden; und
– eine Programm-Ranking-Einrichtung zum Identifizieren von Programmen der gleichen Kategorie und zum Ranken der Programme auf Basis eines Wichtungsergebnisses für jedes Programm, welches durch die Programmwichtungseinrichtung bereitgestellt wird.

Im vorliegenden Dokument wird der Hauptgegenstand, der aus einem Audiosignal besteht, als "Kategorie" bezeichnet. Diese Kategorie könnte sein "Nachrichten" oder beispielsweise "Sport", wenn das Audiosignal von einer Rundfunkfernsehstation empfangen wird.
Selbständige Audiosignale, welche zur gleichen Kategorie gehören, werden als "Programm" bezeichnet. Beispielsweise wird jede einzelne Fernsehsendung, jeder einzelne Spielfilm, jedes einzelne Nachrichtenmagazin und jedes einzelne Funkspiel als Programm bei dem vorliegenden Dokument bezeichnet.
Jedes Programm enthält üblicherweise mehrere selbständige Aktivitäten (wichtige Ereignisse). In dieser Hinsicht werden lediglich Aktivitäten, welche eine bestimmte minimale Wichtigkeit haben, betrachtet. Wenn das Programm beispielsweise ein Nachrichtenmagazin ist, könnten die selbständigen Aktivitäten die verschiedenen Notizen sein, welche im Nachrichtenmagazin erwähnt werden. Wenn alternativ das Programm ein Fußballspiel ist, könnten die selbständigen Aktivitäten beispielsweise Abstoß, Strafstoß, Einwurf usw. sein.
Im vorliegenden Dokument werden die selbständigen Aktivitäten, welche eine minimale Wichtigkeit erfüllen und zu einem bestimmten Programm einer bestimmten Kategorie gehören, als "Inhalte" bezeichnet.
Damit werden gemäß dem vorliegenden Dokument die Audiosignale, welche zu einem bestimmten Programm einer bestimmten Kategorie gehören, außerdem mit ihren entsprechenden Inhalten klassifiziert.
Durch Wichtung jedes Programms, welches im Audiosignal ermittelt wird, ist es auf Basis von Inhalten, welche in dem jeweiligen Programm enthalten sind, möglich, eine Ordnung für jedes Programm zu berechnen.
Dieses "Ranking" (Ordnen) zeigt die Relevanz, welche das entsprechende Programm hat, in Abhängigkeit des umfassten Inhalts.
Somit ist es unter Verwendung der erfinderischen Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale möglich, Audiosignale zu ordnen und folglich es einem Benutzer zu erlauben, zu entscheiden, welches Programm von einer Vielzahl von Programmen zu seinem eigenen Wunsch am meisten passt.
Vorzugsweise ist zumindest ein Informationssignal zum Identifizieren von Programmen, welche in den Audiosignalen enthalten sind und zum Identifizieren von Inhalten, welche in den Programmen enthalten sind, vorgesehen.
Unter Verwendung des Informationssignals kann die Ermittlung von Programmen und Inhalten, welche zu dem jeweiligen Programm gehören, leicht durchgeführt werden.
Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung ermittelt die Inhaltsermittlungseinheit eine Verteilung von Inhalten in jedem Programm, wobei die Programmwichtungseinrichtung die Verteilung der Inhalte in jedem Programm verwendet, welche durch die Inhaltsermittlungseinrichtung ermittelt wird, um das jeweilige Programm zu Wichten.
Durch Identifizieren der Verteilung der Inhalte in jedem Programm und durch Verwendung der Verteilung, wenn die Programme gewichtet werden, kann das Auftreten von interessierenden und/oder wichtigen Ereignissen in jedem Programm leicht ermittelt werden.
Beispielsweise könnte ein Programm, welches eine gleiche Verteilung von Inhalten hat, jedoch lediglich eine kleine Anzahl von Inhalten, als ziemlich gleichmäßig jedoch sogar monoton eingeordnet werden.
Im Gegensatz dazu könnte ein Programm, welches eine Menge an Inhalten hat, und eine Verteilung der Inhalte, welche eine Akkumulation der Inhalte in Richtung des Endes des Programms zeigt, beispielsweise als Krimi-Programm eingeordnet werden.
Vorteilhafterweise ermittelt die Inhaltsermittlungseinrichtung für jeden Inhalt eines entsprechenden Programms eine Gesamtdauer und/oder eine Anzahl von Ereignissen und/oder eine Dauer, welche durch die Gesamtdauer des jeweiligen Programms normiert ist, wobei die Programmwichtungseinrichtung die Gesamtdauer jedes Inhalts und/oder die Zahl von Ereignissen jedes Inhalts und/oder die Dauer jedes Inhalts, welche durch die Gesamtdauer des jeweiligen Programms normiert ist, welche durch die Inhaltsermittlungseinrichtung ermittelt wird, um das jeweilige Programm zu Wichten, verwendet.
Die obigen Merkmale "Gesamtdauer jedes Inhalts", "Gesamtzahl der Ereignisse jedes Inhalts" und "Dauer jedes Inhalts, der durch eine Gesamtdauer des jeweiligen Programms normiert ist" sind sehr geeignet, um ein Programm in Bezug auf die Verteilung der Inhalte im Programm zu charakterisieren.
Außerdem können diese Merkmale leicht berechnet werden. Es wird bevorzugt, dass individuelle Wichtungsfaktoren für jeden Inhalt vorgesehen sind, wobei die Programmwichtungseinrichtung jeden Inhalt, der im jeweiligen Programm vorhanden ist, mit dem jeweiligen individuellen Wichtungsfaktor wichtet, um das entsprechende Programm zu Wichten.
Daher haben unterschiedliche Arten von Inhalten einen unterschiedlichen Einfluss auf das Wichtungsergebnis der Programmwichtungseinrichtung.
Wenn beispielsweise das Programm ein Fußballspiel ist, könnte der Wichtungsfaktor für den Inhalt "Tor" höher sein als der Wichtungsfaktor für den Inhalt "Einwurf".
Somit kann die unterschiedliche Signifikanz entsprechender Inhalte in betracht gezogen werden.
Außerdem ist es vorteilhaft, wenn die Wichtungsfaktoren allgemein heuristisch erzeugt werden.
Damit kann ein Satz vorgegebener Wichtungsfaktoren, welche die Erfordernisse eines typischen Benutzers erfüllen, bereitgestellt werden. Damit kann eine mühsame manuelle Definition von Wichtungsfaktoren vermieden werden, während dennoch sehr gute Ergebnisse in Bezug auf die gewichteten Programme empfangen werden.
Alternativ könnten die Wichtungsfaktoren manuell durch einen Benutzer definiert werden.
Daher können persönliche Wünsche eines Benutzers betrachtet werden. Außerdem sind Adaptionen in Bezug auf den aktuellen Aufbau und dem aktuellen Wunsch eines Benutzers möglich. Dies wird beispielsweise durch Beobachtung durchgeführt, welcher Inhalt von einem aufgezeichneten Programm vorzugsweise durch einen Benutzer beobachtet wird, und welcher Inhalt durch einen Benutzer (beispielsweise durch schnellen Vorlauf) übersprungen wird.
Wenn das Programm beispielsweise Fußball ist, könnte ein bestimmter Benutzer der Meinung sein, dass der Inhalt "Einwurf" nicht wichtig ist, während der Inhalt "Freistoß" so wichtig ist wie der Inhalt "Tor". Daher könnte der Benutzer den Wichtungsfaktor für den Inhalt "Einwurf" als Null definieren, während die Wichtungsfaktoren für die Inhalte "Freistoß" und "Tor" identisch eingestellt werden könnten.
Vorzugsweise erzeugt die Inhaltsermittlungseinrichtung einen Inhaltsvektor zum Identifizieren der Inhalte, welche in jedem Programm enthalten sind, und die Wichtungsfaktoren für jeden Inhalt sind als Wichtungsvektor vorgesehen, wobei die Programmwichtungseinrichtung jedes Programms durch Multiplizieren des Inhaltsvektors mit dem Wichtungsfaktor wichtet.
Somit kann das Wichten der Inhalte, welche in einem Programm vorhanden sind, durch einfache Multiplikation mit dem entsprechenden Wichtungsvektor durchgeführt werden.
Mit Programmen, welche zu unterschiedlichen Kategorien gehören, besteht ein Problem, dass die typische Verteilung von Inhalten in den Programmen in Abhängigkeit von der Kategorie eines entsprechenden Programms abhängt.
Wenn die Kategorie beispielsweise "Nachrichten" ist, muss eine ziemlich gleichmäßige Verteilung der Inhalte erwartet werden, da das typische Programm "Nachrichtenmagazin" üblicherweise aus einer aufeinanderfolgenden Notizfolge gleicher Wichtigkeit besteht. Wenn im Gegensatz dazu die Kategorie "Sport" ist und das Programm Fußball ist, muss beispielsweise eine ungleichmäßige Verteilung der Inhalte erwartet werden, da die Ereignisse "Foul", "Einwurf" und "Tor" in jedem Augenblick während des gesamten Programms sich ereignen könnten.
Um dieses Problem zu lösen umfasst gemäß einer weiteren bevorzugten Ausführungsform der vorliegenden Erfindung die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale außerdem eine Kreuzkategorie-Ordnungseinrichtung, um gewichtete Programme zu identifizieren, welche zu verschiedenen Kategorien gehören, um die gewichteten Programme zu normieren und um die normierten und gewichteten Programme auf Basis eines Normierungsergebnisses zu ordnen.
Somit werden die Programme, welche zu verschiedenen Kategorien gehören, normiert, um unterschiedliche typische Verteilungen von Inhalten in den jeweiligen Kategorien in betracht zu ziehen.
Daher liefert die erfinderische Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale noch gute Ergebnisse, wenn Programme, welche zu unterschiedlichen Kategorien gehören, geordnet werden.
Vorteilhafterweise wird die Normierung durch eine Kreuzkategorie-Ordnungseinrichtung gemäß der folgenden Formel durchgeführt:
normalised_ranking_score1(c,i) = function (W1)I(1)/F(c,1) + W(2)I(2)/F(c,2) + ... + W(N)I(N)/F(c,N); wobei
1, 2, ... N ein Index ist, der den Inhalt eines entsprechenden Programms identifiziert; W(N) ein Wichtungsvektor ist, der Wichtungsfaktoren für die Inhalte 1 bis N aufweist; I(N) ein Inhaltsvektor ist, der die Verteilung von Inhalten 1–N in dem jeweiligen Programm aufweist; c ein Kategorieindex ist; i ein Programmindex in der Kategorie c ist; und F(c,N) ein Normierungsfaktor ist, der dem Inhalt N in der Kategorie c entspricht, wobei der Normierungsfaktor F(c,N) als die Durchschnittsdauer oder das Vorkommnis des Inhalts N für Programme der Kategorie c definiert ist.
Durch Unterteilen der gewichteten Inhalte jedes Programms (Produkt des jeweiligen Inhalts und des jeweiligen Wichtungsfaktor) durch einen Normierungsfaktor entsprechend dem jeweiligen Inhalt in der entsprechenden Kategorie werden die unterschiedlichen Verteilungen der Inhalte in den Programmen unterschiedlicher Kategorien in betracht gezogen.
Alternativ wird die Normierung durch die folgende Formel durchgeführt:
normalised_ranking_score2(c,i) = Funktion((W(1)I(1) + W(2)I(2) + ... + W(N)I(N))/S(c), wobei
1, 2, ... N ein Index ist, der den Inhalt eines entsprechenden Programms identifiziert; W(N) ein Wichtungsfaktor ist, der Wichtungsfaktoren für die Inhalte 1–N enthält; I(N) ein Inhaltsvektor ist, der die Verteilung von Inhalten I–N im jeweiligen Programm enthält; c ein Kategorieindex ist; i ein Programmindex in der Kategorie c ist; und S(c) ein zweiter Normierungsfaktor in Abhängigkeit von der Kategorie c ist, wobei der zweite Normierungsfaktor S(c) als Durchschnittsmittelwert nicht normierter Ranking-Treffer für Programme in der Kategorie c definiert ist.
Vorteilhafterweise weist die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierte Audiosignale außerdem eine statistische Betrachtungsdatenbank auf, welche nicht ausgewertete Audiosignale aufweist, welche vorher durch einen Benutzer ausgewählt sind, und/oder akustische Merkmale, welche von Audiosignalen extrahiert sind, die vorher durch einen Benutzer ausgewählt wurden, wobei die Programmwichtungseinrichtung Information verwendet, welche in der statistischen Betrachtungsdatenbank gespeichert sind, um jedes Programm zu Wichten.
Unter Verwendung von Information, welche in einer statistischen Betrachtungsdatenbank gespeichert ist, um jedes Programm in Bezug auf die Inhalte des jeweiligen Programms zu Wichten, welches durch die Inhaltsermittlungseinrichtung ermittelt wird, wird eine automatische Personalisierung der erfinderischen Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale für einen individuellen Benutzer durchgeführt.
Daher ist keine manuelle Eingabe von Wichtungsfaktoren notwendig, um die Vorrichtung auf einen individuellen Wunsch eines Benutzers einzustellen.
In diesem Fall wird bevorzugt, dass die Information, welche in der statistischen Betrachtungsdatenbank gespeichert ist, durch die Spracherkennungseinrichtung analysiert wird, um Inhalte, welche in der Information enthalten sind, zu ermitteln, wobei die Programmwichtungseinrichtung alle Inhalte eines entsprechenden Programms wichtet, welche durch die Inhaltsermittlungseinrichtung ermittelt wird, auf Basis der Häufigkeit des Auftretens des Inhalts in der Information, welche in der statistischen Betrachtungsdatenbank gespeichert ist.
Durch Analysieren der Information, welche in der statistischen Betrachtungsdatenbank gespeichert ist, wobei die Spracherkennungseinrichtung verwendet wird, um Inhalte, welche in der Information enthalten sind, zu ermitteln, können Inhalte, welche durch einen Benutzer bevorzugt werden, leicht ermittelt werden.
Daher kann der Wichtungsfaktor für die Inhalte automatisch angepasst werden, um die Vorzüge des jeweiligen Benutzers in betracht zu ziehen.
Vorteilhafterweise weist die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale außerdem eine Schnittstelle auf, welche eine Anzeige aufweist, um Information in Bezug auf die geordneten Programme einem Benutzer anzuzeigen.
In diesem Fall ist es vorteilhaft, wenn die Benutzerschnittstelle weiter eine Eingabeeinrichtung aufweist, um eine manuelle Eingabe von Wichtungsfaktoren für die Programmwichtungseinrichtung durch einen Benutzer und/oder das Anfordern einer bestimmten Kategorieart und/oder einer bestimmten Anzahl von Ranking-Programmen, die anzuzeigen sind, zuzulassen.
Daher kann die Anzahl angezeigter Programme reduziert werden, während die Deutlichkeit der Information, welche auf der Anzeige angezeigt wird, verbessert wird.
Außerdem könnte der Benutzer Programme wünschen, welche am höchsten eingeordnet sind, unabhängig von der jeweiligen Kategorie, oder könnte beispielsweise die am meist interessierten Programme einer bestimmten Kategorie wünschen.
Vorteilhafterweise ist das Audiosignal Teil eines Videosignals, wobei das Videosignal aus zumindest einem Audiosignal, einem Bildsignal und einem Informationssignal besteht, wobei das Informationssignal Information bezüglich der Programme und entsprechender Inhalte, welche im Videosignal enthalten sind, aufweist.
Somit ist die erfinderische Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale nicht nur in der Lage, Audiosignale zu ordnen, sondern zusätzlich Videosignale in Verbindung mit den Audiosignale zu ordnen.
Gemäß der vorliegenden Erfindung wird ein Verfahren zur automatischen Dissektion (Zerlegung) (Zerlegung), zur Wichtung und zum Ranking segmentierter Audiosignale bereitgestellt, welches folgende Schritte aufweist:

– Erfassen von Programmen und Inhalte, welche zu den Programmen gehören, in einem segmentierten Audiosignal; wobei die Inhalte wichtige Ereignisse sind, welche in den Programmen enthalten sind;
– Wichten jedes Programms, welches im Audiosignal enthalten ist, auf Basis der Inhalte des entsprechenden Programms;
– Identifizieren von Programmen der gleichen Kategorie; und
– Ranken der Programme auf Basis eines Wichtungsergebnisses für jedes Programm, welches durch den Schritt zum Wichten jedes Programms bereitgestellt wird.

Vorteilhafterweise weist der Schritt zum Ermitteln zum Erfassen von Programmen und Inhalten, welche zu den Programmen in einem segmentierten Audiosignal gehören, das Erfassen einer Verteilung der Inhalte in jedem Programm auf;
wobei die Verteilung der Inhalte in jedem Programm im Schritt zum Wichten jedes Programms verwendet wird.
Es ist vorteilhaft, wenn der Schritt zum Erfassen von Programmen und Inhalten, welche zu den Programmen in einem segmentierten Audiosignal gehören, das Erfassen – für jeden Inhalt eines entsprechenden Programms – einer Gesamtdauer und/oder einer Anzahl von Vorkommnissen und/oder einer Dauer, welche mit der Gesamtdauer des entsprechenden Programms normiert ist, umfasst, wobei die Gesamtdauer jedes Inhalts und/oder die Anzahl von Vorkommnissen jedes Inhalts und/oder die Dauer jedes Inhalts, welche mit der Gesamtdauer des entsprechenden Programms normiert ist, im Schritt zum Wichten jedes Programms verwendet wird.
Vorteilhafterweise werden individuelle Wichtungsfaktoren für jeden Inhalt, die heuristisch erzeugt oder manuell durch einen Benutzer definiert werden, im Schritt zum Wichten jedes Programms verwendet.
Gemäß einer bevorzugten Ausführungsform der vorliegenden Erfindung weist das Verfahren außerdem folgende Schritte auf:

– Identifizieren gewichteter Programme, welche zu unterschiedlichen Kategorien gehören;
– Normieren der gewichteten Programme; und
– Ranken der normierten und gewichteten Programme.

Vorteilhafterweise umfasst der Schritt zum Wichten jedes Programms das Verwenden von Information, welche in einer statistischen Beobachtungsdatenbank gespeichert ist, auf, um jedes Programm zu Wichten, wobei die Information, welche in der statistischen Beobachtungsdatenbank gespeichert ist, nicht ausgewertete Audiosignale aufweist, die vorher durch einen Benutzer ausgewählt wurden, und/oder akustische Merkmale, welche von den Audiosignalen, welche vorher durch einen Benutzer ausgewählt wurden, extrahiert wurden.
In diesem Fall ist es vorteilhaft, wenn das Verfahren außerdem folgenden Schritt aufweist:

– Analysieren der Information, welche in der statistischen Beobachtungsdatenbank gespeichert ist, durch eine Spracherkennungseinrichtung, um Inhalte, welche in der Information enthalten sind, zu erfassen,

Vorteilhafterweise weist außerdem das Verfahren den Schritt auf, Information in Bezug auf die geordneten Programme einen Benutzer anzuzeigen.
Die vorliegende Erfindung richtet sich außerdem auf ein Softwareprodukt, welches eine Reihe von Zustandselementen umfasst, welche angepasst sind, durch eine Datenverarbeitungseinrichtung eines mobilen Endgeräts verarbeitet zu werden, so dass ein Verfahren nach einem der Ansprüche 17 bis 24 dafür ausgeführt werden kann.
In der folgenden Beschreibung wird die vorliegende Erfindung mit Hilfe der beiliegenden Zeichnungen erläutert, wobei gleiche Bezugszeichen sich durchwegs auf gleiche Teile in den Ansichten beziehen, wobei:
1 ein Blockdiagramm einer Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale gemäß einer ersten bevorzugten Ausführungsform der Erfindung zeigt;
2 ein Blockdiagramm einer Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale gemäß einer zweiten bevorzugten Ausführungsform der Erfindung zeigt;
3 ein Flussdiagramm eines Verfahrens zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale gemäß der vorliegenden Erfindung zeigt;
4 ein Blockdiagramm einer Segmentierungsvorrichtung gemäß dem Stand der Technik zeigt; und
5 schematisch die Wirkung der Segmentierungsvorrichtung gemäß dem Stand der Technik hinsichtlich Audiosignale zeigt.
1 zeigt eine Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale gemäß einer ersten bevorzugten Ausführungsform der Erfindung.
Die erfinderische Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 1 umfasst eine Inhaltsermittlungseinrichtung 2, eine Programmwichtungseinrichtung 3, eine Programmordnungseinrichtung 4 und eine Benutzerschnittstelle 5.
Die segmentierten Audiosignale werden zur Inhaltsermittlungseinrichtung 2 geliefert. Bei der vorliegenden Ausführungsform sind die segmentierten Audiosignale Teil segmentierter Videosignale.
Die genannten segmentierten Videosignale werden hauptsächlich in Bezug auf ihren allgemeinen Hauptgegenstand klassifiziert. Nachfolgend wird der allgemeine Hauptgegenstand als "Kategorie" bezeichnet.
Wenn die Videosignale über Fernsehen gesendet werden, beispielsweise, könnten die Kategorien (allgemeiner Hauptgegenstand) beispielsweise sein: "Nachrichten", "Sport", "Film", oder "Dokumentarfilm".
Selbständige Videosignale, welche zu der gleichen Kategorie gehören, werden als "Programm" bezeichnet.
Beispielsweise wird jeder einzelne Spielfilm und jedes einzelne Nachrichtenmagazin der jeweiligen Kategorie "Film" und "Nachrichten" als "Programm" bezeichnet.
Jedes Programm enthält mehrere selbständige Aktivitäten, welche eine bestimmte minimale Wichtigkeit (wichtige Ereignisse) haben. Nachfolgend werden die selbständigen Aktivitäten (Ereignisse), welche in einem bestimmten Programm enthalten sind und welche eine minimale Wichtigkeit erfüllen, als "Inhalte" bezeichnet.
Wenn die Kategorie "Sport" ist und das Programm ein bestimmtes Fußballspiel ist, könnten die Inhalte sein "Abstoß", "Strafstoß", "Einwurf", usw..
Somit sind die segmentierten Audiosignale, welche zur Inhaltsermittlungseinrichtung 2 geliefert werden, mit segmentierten Videosignalen verknüpft, die zuerst in Bezug auf ihre Kategorie klassifiziert sind. Innerhalb jeder Kategorie werden die segmentierten Videosignale in Bezug auf ihr Programm klassifiziert, wobei die Programme weiter in Bezug auf ihre jeweiligen Inhalte klassifiziert werden.
Im vorhandenen Beispiel sind die segmentierten Videosignale, welche zur Inhaltsermittlungseinrichtung 2 der erfinderischen Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 1 geliefert werden, aus zumindest einem Audiosignal, einem Bildsignal und einem Informationssignal zusammengesetzt.
Das Informationssignal ist als Meta-Datendatei vorgesehen, welche Information in Bezug auf die Programme und entsprechende Inhalte, welche im segmentierten Videosignal enthalten sind, aufweist.
Im Detail weist das Informationssignal eine Startzeit und eine Endzeit jedes Programms, einen Identifikationscode für jedes Programm, auf, wobei der Identifikationscode außerdem Information aufweist, zu welcher Kategorie das jeweilige Programm gehört, eine Startzeit und eine Endzeit jedes Inhalts, der in jedem Programm enthalten ist, zusammen mit Information, welche die aktuelle selbständige Aktivität (wichtiges Ereignis) identifiziert, welche im jeweiligen Inhalt enthalten ist.
Bei der vorliegenden Ausführungsform wird das segmentierte Videosignal durch eine herkömmliche Segmentierungsvorrichtung 40 erzeugt, welche in 4 gezeigt.
Die Inhaltsermittlungseinrichtung 2 ermittelt Programme und Inhalte, welche zu den jeweiligen Programmen im segmentierten Audiosignal gehören, welches im segmentierten Videosignal enthalten ist, unter Verwendung des Informationssignals, welches im segmentierten Videosignal enthalten ist.
Außerdem ermittelt die Inhaltsermittlungseinrichtung 2 eine Verteilung von Inhalten in jedem Programm, indem eine Dauer jedes Inhalts ermittelt wird, der mit einer gesamten Dauer des jeweiligen Programms normiert ist.
Alternativ könnte die Inhaltsermittlungseinrichtung 2 die Verteilung von Inhalten in jedem Programm ermitteln, indem eine Gesamtdauer jedes Inhalts und/oder einer Anzahl von Vorkommnissen jedes Inhalts ermittelt wird.
Die Inhaltsermittlungseinrichtung 2 ist mit einer Programmwichtungseinrichtung 3 verbunden.
Die Programmwichtungseinrichtung 3 wichtet jedes Programm, welches im Audiosignal enthalten ist, auf Basis der Verteilung von Inhalten des jeweiligen Programms, welche durch die Inhaltsermittlungseinrichtung 2 ermittelt werden.
Bei der vorliegenden Ausführungsform wird die Wichtung durch die Programmwichtungseinrichtung 3 unter Verwendung der Dauer jedes Inhalts durchgeführt, der durch die Gesamtdauer des jeweiligen Programms normiert wird, welches für jeden Inhalt eines jeden Programms durch die Inhaltsermittlungseinrichtung 2 bereitgestellt wird.
Alternativ kann das Wichten durch die Programmwichtungseinrichtung 3 unter Verwendung der Gesamtdauer aller Inhalte und/oder der Anzahl von Vorkommnissen jedes Inhalts durchgeführt werden, welche durch die Inhaltsermittlungseinrichtung geliefert werden.
Mehrere heuristisch-erzeugte individuelle Wichtungsfaktoren für jeden Inhalt sind in der Programmwichtungseinrichtung 3 gespeichert.
Daher haben unterschiedliche Arten an Inhalten unterschiedlichen Einfluss hinsichtlich eines Wichtungsergebnisse der Programmwichtungseinrichtung 3.
Wenn das Programm ein Fußballspiel beispielsweise ist, könnte der Wichtungsfaktor für den Inhalt "Tor" höher sein als der Wichtungsfaktor für den Inhalt "Einwurf".
Obwohl die Wichtungsfaktoren, welche durch die Programmwichtungseinrichtung 3 verwendet werden, heuristisch erzeugt werden, um eine mühsame manuelle Definition der Wichtungsfaktoren zu vermeiden, ist manuelle Adaption der Wichtungsfaktoren durch einen Benutzer unter Verwendung einer Benutzerschnittstelle 5 möglich.
Für diesen Zweck weist die Benutzerschnittstelle 5, welche mit der Programmwichtungseinrichtung 3 verbunden ist, eine Tastatur (nicht gezeigt) auf, welche eine manuelle Eingabe von Wichtungsfaktoren für die Programmwichtungseinrichtung 3 durch einen Benutzer zulasst.
Wenn beispielsweise das Programm Fußball ist, könnte ein bestimmter Benutzer der Meinung sein, dass der Inhalt "Einwurf" nicht wichtig ist, während der Inhalt "Freistoß" so wichtig ist wie der Inhalt "Tor". Daher könnte der Benutzer den Wichtungsfaktor für den Inhalt "Einwurf" als Null definieren, während er die Wichtungsfaktoren für die Inhalte "Freistoß" und "Tor" identisch einstellen könnte.
Somit werden die persönlichen Wünsche eines Benutzers in betracht gezogen.
Dies kann beispielsweise durch Beobachtung durchgeführt werden, welcher Inhalt von einem aufgezeichneten Programm vorzugsweise durch einen Benutzer betrachtet wird, und welcher Inhalt durch einen Benutzer übersprungen wird (beispielsweise durch schnellen Vorlauf).
Bei der vorliegenden Ausführungsform erzeugt die Inhaltsermittlungseinrichtung 2 einen Inhaltsvektor [I(1)I(2) ... I(N)] zum Identifizieren der Inhalte, welche in jedem Programm enthalten sind. Entsprechend sind die Wichtungsfaktoren für jeden Inhalt als Wichtungsvektor [W(1)W(2) ... W(N)] vorgesehen, welche Wichtungsfaktoren für jeden entsprechenden Inhalt 1 ... N aufweist. Bei dieser bevorzugten Ausführungsform werden die Elemente, welche im Wichtungsfaktor enthalten sind, in einer Weise ausgewählt, dass die Summe aller Elemente 1 ist.
In dieser Hinsicht muss betont werden, dass sogar negative Wichtungsfaktoren verwendet werden könnten.
Wenn ein Benutzer beispielsweise der Meinung ist, dass die Diskussion eines bestimmten Hauptthemas in einer Talkshow das Langweilen ist, wird das Vorhandensein eines Inhalts "Diskussion eines bestimmten Themas" in einem Programm durch einen negativen Wichtungsfaktor bestraft werden.
Ausführlicher ausgedrückt wird Wichtung der jeweiligen Programme, wenn durch die Programmwichtungseinrichtung 3 durchgeführt, durch Multiplizieren jedes Inhaltsvektors (einschließlich der Dauer jedes Inhalts, der durch die Gesamtdauer des jeweiligen Programms normiert wird) mit dem entsprechenden individuellen Wichtungsvektor durchgeführt.
Somit wird ein Wichtungswert in der Form eines Vektors [I(1)W(1) I(2)W(2)] ... [I(N)W(N)] für jedes Programm durch die Programmwichtungseinrichtung 3 berechnet.
Bei dem vorliegenden Beispiel umfasst der Wichtungswert zusätzlich Information, welche eine Identifikation des jeweiligen Programms in den segmentierten Audiosignalen zulässt.
Gemäß dieser ersten Ausführungsform speichert die Programmwichtungseinrichtung 3 den Wichtungswert für jedes Programm in einer Speichereinrichtung 48. Im vorliegenden Beispiel ist die Speichereinrichtung 48 eine herkömmliche Festplatte.
Durch Speichern des Wichtungswerts für jedes Programm in der Speichereinrichtung 48 ist es nicht notwendig, alle Audiosignale, welche in der Speichereinrichtung 48 gespeichert sind, zu Wichten, jedes Mal dann, wenn ein Benutzer nach einem Ordnen der Programme fragt, welche in den Audiosignalen enthalten sind, welche in der Speichereinrichtung 48 gespeichert sind. Damit wird die Komplexität der Berechnung reduziert, wenn zumindest einige Programme schon gewichtet wurden.
Die Programmwichtungseinrichtung 3 ist mit einer Programmordnungseinrichtung 4 verbunden.
Die Programmordnungseinrichtung 4 identifiziert Programme der gleichen Kategorie und ordnet die Programme auf Basis des Wichtungswerts, welche durch die Programmwichtungseinrichtung 3 erzeugt werden.
Ein Programm, welches beispielsweise eine gleiche Verteilung von Inhalten hat, jedoch eine kleine Anzahl von Inhalten, könnte als ziemlich gleichmäßig angesehen werden, sogar monoton und daher als ziemlich niedrig eingeordnet werden. Im Gegensatz dazu könnte ein Programm, welches eine Menge an Inhalten hat und eine Verteilung der Inhalte, welche eine Ansammlung von Inhalten in Richtung auf das Ende des Programms zeigen, als ein Krimi-Programm identifiziert werden, und daher ziemlich hoch eingeordnet werden.
Alternativ ordnet die Programmordnungseinrichtung 4 Wichtungswerte, welche in der Speichereinrichtung 38 gespeichert sind, welche vorher durch die Wichtungseinrichtung 3 erzeugt wurden.
Die geordneten Programme werden an die Benutzerschnittstelle 5 ausgegeben, welche eine Anzeige aufweist (nicht gezeigt).
Außerdem umfasst die Benutzerschnittstelle 5 eine Eingabeeinrichtung (nicht gezeigt), um eine bestimmte Art einer Kategorie und eine bestimmte Anzahl von geordneten Programmen, die anzuzeigen sind, anzufordern.
Wenn die Anzahl der Programme, welche angezeigt werden, beispielsweise "5" ist, werden die 5 Programme, welche an oberster Stelle angeordnet sind, durch die Benutzerschnittstelle 5 angezeigt.
Wenn die Kategorie beispielsweise "Sport" ist, werden lediglich die geordneten Programme, welche zur Kategorie "Sport" gehören, durch die Benutzerschnittstelle 5 angezeigt.
Daher ist es unter Verwendung der Benutzerschnittstelle 5 möglich, die Anzahl geordneter Programme bezüglich geordneter Programme zu begrenzen, welche eine minimale Ordnung erfüllen, wobei die minimale Ordnung manuell durch einen Benutzer eingegeben werden kann.
Im vorhandenen Beispiel ist die Benutzerschnittstelle 5 außerdem angepasst, eine Videosignal-Wiedergabevorrichtung 49 zu steuern.
Durch Steuern der Videosignal-Wiedergabevorrichtung 49 ist die Benutzerschnittstelle 5 angepasst, ein Videosignal, welches auf der Festplatte 48 gespeichert ist, welche mit der Videosignal-Wiedergabevorrichtung 49 verbunden ist, wiederzugeben.
Man bevorzugt, dass die erfinderische Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 1 in einem digitalen Videorekorder (der auf Basis optischer oder magnetischer Platten arbeiten könnte) enthalten ist, oder einem anderen digitalen Audio-/Videogerät, beispielsweise einem Personalcomputer, einer Arbeitsstation oder einem Heim-Server enthalten ist.
Alternativ könnte die erfinderische Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 1 als separates Gerät bereitgestellt werden.
In 1 werden separate Mikroprozessoren für die Inhaltsermittlungseinrichtung 2, die Programmwichtungseinrichtung 3 und die Programmordnungseinrichtung 4 verwendet.
Alternativ könne ein einziger Mikrocomputer verwendet werden, um die Inhaltsermittlungseinrichtung, die Programmwichtungseinrichtung und die Programmordnungseinrichtung zu beherbergen.
2 zeigt eine zweite Ausführungsform der erfinderischen Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 21 gemäß der vorliegenden Erfindung.
Gemäß der zweiten Ausführungsform werden die segmentierten Audiosignale, welche zur Inhaltsermittlungseinrichtung 2 der Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 21 geliefert werden, von einer Festplatte 48 gelesen.
Wie in 2 gezeigt ist, könnten die segmentierten Audiosignale, welche auf der Festplatte 1 enthalten sind, durch eine herkömmliche Segmentierungsvorrichtung 40 geliefert werden.
Alternativ könnten die segmentierten Audiosignale, welche auf der Festplatte 48 gespeichert sind, manuell segmentiert werden.
Zusätzlich zur ersten in 1 gezeigten Ausführungsform weist die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 21 gemäß der zweiten Ausführungsform außerdem eine Kreuzkategorie-Ordnungseinrichtung 6 auf, um Programme zu identifizieren, welche durch die Wichtungseinrichtung 3 gewichtet werden, welche zu unterschiedlichen Kategorien gehören.
Mit Programmen, welche zu unterschiedlichen Kategorien gehören, besteht eine Schwierigkeit, dass die typische Verteilung von Inhalten in den Programmen in Abhängigkeit von der Kategorie eines entsprechenden Programms variiert.
Wenn beispielsweise die Kategorie "Nachrichten" ist, muss eine ziemliche gleichmäßige Verteilung der Inhalte erwartet werden, da das typische Programm "Nachrichtenmagazin" üblicherweise aus aufeinanderfolgenden Notizen gleicher Wichtigkeit besteht. Wenn dagegen die Kategorie "Sport" ist und das Programm Fußball ist, muss eine nicht gerade Verteilung des Inhalts beispielsweise erwartet werden, da die Ereignisse "Foul", "Einwurf" und "Tor", in jedem Augenblick während des gesamten Programms sich ereignen könnten.
Daher hat das Ordnen von Programmen, welche zu unterschiedlichen Kategorien gehören, auf Basis der Verteilung der Inhalte in den Programmen nicht lediglich adäquat geordnete Programme zur Folge.
Um dieses Problem zu lösen, normiert die Kreuzkategorie-Ordnungseinrichtung 6 die gewichteten Programme und ordnet die normierten und gewichteten Programme auf Basis eines Normierungsergebnisses.
Daher ist die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 21 gemäß der zweiten Ausführungsform der vorliegenden Erfindung außerdem in der Lage, Programme, welche zu unterschiedlichen Kategorien gehören, zu ordnen.
Im vorliegenden Beispiel wird die Normierung durch die folgende Formel durchgeführt:
normalised_ranking_score1(c,i) = function(W1)I(1)/F(c,1) + W(2)I(2)/F(c,2) + ... + W(N)I(N)/F(c,N); wobei
1, 2, ... N ein Index ist, der den Inhalt eines entsprechenden Programms identifiziert; W(N) ein Wichtungsvektor ist, der Wichtungsfaktoren für die Inhalte 1 bis N aufweist; I(N) ein Inhaltsvektor ist, der die Verteilung von Inhalten 1–N in dem jeweiligen Programm aufweist; c ein Kategorieindex ist; i ein Programmindex in der Kategorie c ist; und F(c,N) ein Normierungsfaktor ist, der dem Inhalt N in der Kategorie c entspricht, wobei der Normierungsfaktor F(c,N) als die Durchschnittsdauer oder das Vorkommnis des Inhalts N für Programme der Kategorie c definiert ist.
Durch Unterteilen der gewichteten Inhalte jedes Programms (Produkt des jeweiligen Inhaltsvektors und des entsprechenden Wichtungsvektors) mit einem Normierungsfaktor entsprechend dem jeweiligen Inhalt in der entsprechenden Kategorie wird die unterschiedliche Verteilung von Inhalten in den Programmen unterschiedlicher Kategorien automatisch in betracht gezogen.
Alternativ könnte die Normierung durch die folgende Formel durchgeführt werden:
normalised_ranking_score2(c,i) = Funktion((W(1)I(1) + W(2)I(2) + ... + W(N)I(N))/S(c), wobei
1, 2, ... N ein Index ist, der den Inhalt eines entsprechenden Programms identifiziert; W(N) ein Wichtungsfaktor ist, der Wichtungsfaktoren für die Inhalte 1–N enthält; I(N) ein Inhaltsvektor ist, der die Verteilung von Inhalten I–N im jeweiligen Programm enthält; c ein Kategorieindex ist; i ein Programmindex in der Kategorie c ist; und S(c) ein zweiter Normierungsfaktor in Abhängigkeit von der Kategorie c ist, wobei der zweite Normierungsfaktor S(c) als Durchschnittsmittelwert nicht normierter Ranking-Treffer für Programme in der Kategorie c definiert ist.
Die Kreuzkategorie-Ordnungseinrichtung 6 ist sowohl mit der Programmwichtungseinrichtung 3 als auch mit der Programmordnungseinrichtung 4 verbunden.
Somit ist die Kreuzkategorie-Ordnungseinrichtung 6 in der Lage, sowohl Programme, welche durch die Programmwichtungseinrichtung 3 gewichtet wurden, als auch Programme, welche vorher durch die Programmwichtungseinrichtung 4 geordnet wurden, zu ordnen.
Außerdem sind sowohl die Programmordnungseinrichtung 4 als auch die Kreuzkategorie-Ordnungseinrichtung 6 in der Lage, eine Benutzerschnittstelle zu steuern. Bei der vorliegenden Ausführungsform ist die Benutzerschnittstelle in der Videosignal-Wiedergabevorrichtung 49 enthalten.
Die Benutzerschnittstelle, welche in der Videosignal-Wiedergabevorrichtung 49 enthalten ist, weist eine Anzeigeeinrichtung (nicht gezeigt) auf, um Information in Bezug auf die geordneten Programme einem Benutzer anzuzeigen, und eine Eingabeeinrichtung (nicht gezeigt), um eine bestimmte Art an Kategorie und eine bestimmte Anzahl geordneter Programme, die anzuzeigen sind, anzufordern.
Außerdem weist die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 21 gemäß der zweiten Ausführungsform eine statistische Betrachtungsdatenbank 7 auf, welche nicht ausgewertete Audiosignale, welche durch einen Benutzer ausgewählt wurden, aufweist.
Alternativ oder zusätzlich könnte die statistische Betrachtungsdatenbank akustische Merkmale aufweisen, welche von Audiosignalen, welche vorher durch einen Benutzer ausgewählt wurden, extrahiert.
Die statistische Betrachtungsdatenbank 7 ist mit der Programmwichtungseinrichtung 3 verbunden.
Im vorliegenden Beispiel wichtet die Programmwichtungseinrichtung 3 alle Inhalte eines entsprechenden Programms, welche durch den Inhaltsermittlungseinrichtung 2 ermittelt werden auf Basis der Frequenz einer Häufigkeit des Inhalts in der statistischen Betrachtungsdatenbank 7.
Bei der vorliegenden Ausführungsform werden die Audiosignale, welche in der statistischen Betrachtungsdatenbank 7 gespeichert sind, durch eine Spracherkennungseinrichtung (nicht gezeigt) analysiert, welche in der Programmwichtungseinrichtung 3 enthalten ist, um Inhalte, welche in den Audiosignalen enthalten sind, zu ermitteln.
Die Audiosignale, welche in der statistischen Betrachtungsdatenbank 7 gespeichert sind, könnten durch eine Videosignal-Wiedergabevorrichtung 49 bereitgestellt werden, welche mit der statistischen Betrachtungsdatenbank 7 verbunden ist.
Unter Verwendung von Information, welche in der statistischen Betrachtungsdatenbank 7 gespeichert ist, um alle Programme in Bezug auf die Inhalte des jeweiligen Programms zu Wichten, welche durch die Inhaltsermittlungseinrichtung 2 ermittelt werden, wird eine automatische Personalisierung der erfinderischen Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 21 für einen individuellen Benutzer durchgeführt.
Daher ist keine manuelle Eingabe für Wichtungsfaktoren notwendig, um die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 21 auf den individuellen Wunsch eines Benutzers einzustellen.
Gemäß der zweiten Ausführungsform ist die statistische Betrachtungsdatenbank 7 separat über eine Festplatte vorgesehen. Alternativ könnten die statistischen Betrachtungsdatenbanken in der Programmwichtungseinrichtung als Flash-Speicher beispielsweise enthalten sein.
Außerdem zeigt 2 sowohl eine Festplatte 48 zum Speichern segmentierter Audiosignale als auch eine separate statistische Betrachtungsdatenbank 7.
Alternativ könnte die statistische Betrachtungsdatenbank auf der Festplatte 48 gespeichert sein.
3 zeigt ein Flussdiagramm eines erfinderischen Verfahrens zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale.
In einem ersten Schritt S1 werden Programme und Inhalte, welche zu den Programmen gehören, in einem segmentierten Audiosignal zusammen mit einer Verteilung der Inhalte in jedem Programm ermittelt.
In der Zwischenzeit wird im Schritt S2 eine statistische Betrachtungsdatenbank bereitgestellt.
Die Information, welche in der statistischen Betrachtungsdatenbank gespeichert ist, umfasst nicht ausgewertete Audiosignale, welche vorher durch einen Benutzer ausgewählt wurden, und akustische Merkmale, welche von Audiosignalen extrahiert werden, welcher vorher durch einen Benutzer ausgewählt wurden.
Im folgenden Schritt S3 wird die Information, welche in der statistischen Betrachtungsdatenbank gespeichert ist, durch die Spracherkennungseinrichtung analysiert, um Inhalte, welche in der Information enthalten sind, zu ermitteln.
Im Schritt S4 wird jedes Programm, welches im Audiosignal enthalten ist, auf Basis der Inhalte des jeweiligen Programms gewichtet, wobei die Verteilung der Inhalte in jedem Programm verwendet wird, und auf Basis der Häufigkeit des Auftretens des Inhalts in der Information, welche in der statistischen Betrachtungsdatenbank gespeichert ist.
Danach wird im Schritt S5 entschieden, ob die Programme, die zu ordnen sind, zur gleichen Kategorie gehören.
Wenn bestimmt wird, dass die Programme, welche zu ordnen sind, zur gleichen Kategorie gehören, werden die Programme im Schritt S6 auf Basis eines Wichtungsergebnisses für jedes Programm, welches durch den Schritt S4 bereitgestellt wird, geordnet.
Wenn entschieden wird, dass die Programme, welche zu ordnen sind, nicht zur gleichen Kategorie gehören (Schritt S6), werden die gewichteten Programme im Schritt S7 normiert.
Danach werden die normierten und gewichteten Programme im Schritt S8 geordnet.
Im folgenden Schritt S9 wird die Information in Bezug auf die geordneten Programme einem Benutzer angezeigt.
Gemäß der vorliegenden Erfindung ist es durch Wichten jedes Programms, welches in den segmentierten Audiosignalen ermittelt wird, auf Basis von Inhalten, welche in den entsprechenden Programmen enthalten sind, möglich, eine Ordnung für jedes Programm zu berechnen.
Die Ordnung zeigt die Relevanz, welche das entsprechende Programm hat, in Abhängigkeit von den Inhalten, welche in den Programmen enthalten sind. Der Wunsch eines Benutzers wird in betracht gezogen durch Bereitstellen unterschiedlicher Wichtungsfaktoren für jeden Inhalt.
Somit ist es durch Verwendung der erfinderischen Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale möglich, Programme, welche in den segmentierten Audiosignale enthalten sind, zu ordnen, und daher es einem Benutzer zu erlauben, zu entscheiden, welches Programm von einer Vielzahl von Programmen zu seinem Wunsch am meisten passt.
Um die Übersichtlichkeit der 1 und 2 zu verbessern, sind ergänzende Einrichtungen, beispielsweise Spannungsversorgungen, Pufferspeicher usw. nicht gezeigt.
Gemäß den obigen Ausführungsformen sind segmentierte Audiosignale, segmentierte Videosignale und gewichtete Programme auf der Festplatte 48 gespeichert.
Es ist augenscheinlich, dass unterschiedliche Festplatten oder andere Arten an Speichern (Flash-Speicher, EPROMS, Disketten, beschreibbaren Compact Disc usw.) zum speichern der segmentierten Audiosignale, der segmentierten Videosignale und der gewichteten Programme verwendet werden können.
Obwohl die statistische Betrachtungsdatenbank in Bezug auf die zweite Ausführungsform beschrieben wurde, kann lediglich die statistische Betrachtungsdatenbank in der Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale auch gemäß der ersten Ausführungsform enthalten sein.
Es wird bevorzugt, dass die vorliegende Erfindung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale durch Verwendung eines Personalcomputers oder einer Arbeitsstation realisiert wird.
Alternativ kann die erfinderische Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale in einer Videosignal-Wiedergabevorrichtung enthalten sein, beispielsweise einem digitalen Videorekorder oder einem DVD-Schreibgerät.
Gemäß einer dritten Ausführungsform der Erfindung (welche in den Zeichnungen nicht gezeigt ist), wird die obige Aufgabe durch ein Softwareprodukt gelöst, welche eine Reihe an Zustandselementen aufweist, welches angepasst ist, durch eine Datenverarbeitungseinrichtung eines mobilen Endgeräts verarbeitet zu werden, so dass ein Verfahren nach einem der Ansprüche 17 bis 24 dafür ausgeführt werden kann.

Claims

Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1, 21), wobei die Vorrichtung aufweist: – eine Inhaltserfassungseinrichtung (2) zum Erfassen von Programmen und Inhalten, die zu den jeweiligen Programmen im segmentierten Audiosignal gehören; wobei die Inhalte wichtige Ereignisse sind, die in den Programmen enthalten sind; – eine Programmwichtungseinrichtung (3) zum Wichten jedes Programms, welches im Audiosignal enthalten ist, auf Basis der Inhalte des jeweiligen Programms, welche durch die Inhaltserfassungseinrichtung (2) erfasst werden; und – eine Programm-Ranking-Einrichtung (4) zum Identifizieren von Programmen der gleichen Kategorie und zum Ranken der Programme auf Basis eines Wichtungsergebnisses für jedes Programm, welches durch die Programmwichtungseinrichtung (3) bereitgestellt wird.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1, 21) nach Anspruch 1, dadurch gekennzeichnet, dass zumindest ein Informationssignal zum Identifizieren von Programmen, welche in den Audiosignalen enthalten sind, und zum Identifizieren von Inhalten, die in den Programmen enthalten sind, vorgesehen ist.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1, 21) nach Anspruch 1 oder 2, dadurch gekennzeichnet, dass die Inhaltserfassungseinrichtung (2) eine Verteilung der Inhalte in jedem Programm erfasst, wobei die Programmwichtungseinrichtung (3) die Verteilung der Inhalte in jedem Programm verwendet, die durch die Inhaltserfassungseinrichtung (2) erfasst werden, um das jeweilige Programm zu Wichten.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1, 21) nach Anspruch 1, 2 oder 3, dadurch gekennzeichnet, dass die Inhaltserfassungseinrichtung (2) für jeden Inhalt eines entsprechenden Programms eine Gesamtdauer und/oder einer Anzahl von Vorkommnissen und/oder eine Dauer, die mit einer Gesamtdauer des entsprechenden Programms normiert ist, erfasst, wobei die Programmwichtungseinrichtung (3) die Gesamtdauer jedes Inhalts und/oder die Anzahl von Vorkommnissen jedes Inhalts und/oder die Dauer jedes Inhalts, der mit der Gesamtdauer des entsprechenden Programms normiert ist, welcher durch die Inhaltserfassungseinrichtung (2) erfasst wird, verwendet, um das entsprechende Programm zu Wichten.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1, 21) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass individuelle Wichtungsfaktoren für jeden Inhalt vorgesehen sind, wobei die Programmwichtungseinrichtung (3) jeden Inhalt, der in dem jeweiligen Programm enthalten ist, mit dem entsprechenden individuellen Wichtungsfaktor wichtet, um das entsprechende Programm zu Wichten.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1, 21) nach Anspruch 5, dadurch gekennzeichnet, dass die Wichtungsfaktoren heuristisch erzeugt werden.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1, 21) nach Anspruch 5, dadurch gekennzeichnet, dass die Wichtungsfaktoren manuell durch einen Benutzer definiert sind.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1, 21) nach Anspruch 5, 6 oder 7, dadurch gekennzeichnet, dass die Inhaltserfassungseinrichtung (2) einen Inhaltsvektor ([I(1)I(2) ... I(N)]) zum Identifizieren der Inhalte (1, 2, ..., N) erzeugt, welche in jedem Programm enthalten sind; und die Wichtungsfaktoren für jeden Inhalt (1, 2, ..., N) als ein Wichtungsvektor ([W(1)W(2) ... W(N)]) vorgesehen sind, wobei die Programmwichtungseinrichtung (3) jedes Programm durch Multiplikation des Inhaltsvektors ([I(1)I(2) ... I(4)]) und des Wichtungsvektors ([W(1) W(2) ... W(4)]) wichtet.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1, 21) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Vorrichtung zur automatischen Dissektion segmentierter Audiosignale (21) außerdem aufweist: – eine Kreuzkategorie-Ranking-Einrichtung (6) zum Identifizieren gewichteter Programme, welche zu unterschiedlichen Kategorien gehören, Normieren der gewichteten Programme und Ranken der normierten und gewichteten Programme auf Basis eines Normierungsergebnisses.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1, 21) nach Anspruch 9, dadurch gekennzeichnet, dass die Normierung durch die Kreuzkategorie-Ranking-Einrichtung (6) gemäß der folgenden Formel durchgeführt wird: normalised_ranking_score1(c,i) = function(W1)I(1)/F(c,1) + W(2)I(2)/F(c,2) + ... + W(N)I(N)/F(c,N); wobei 1, 2, ... N ein Index ist, der den Inhalt eines entsprechenden Programms identifiziert; W(N) ein Wichtungsvektor ist, der Wichtungsfaktoren für die Inhalte 1 bis N aufweist; I(N) ein Inhaltsvektor ist, der die Verteilung von Inhalten 1–N in dem jeweiligen Programm aufweist; c ein Kategorieindex ist; i ein Programmindex in der Kategorie c ist; und F(c,N) ein Normierungsfaktor ist, der dem Inhalt N in der Kategorie c entspricht, wobei der Normierungsfaktor F(c,N) als die Durchschnittsdauer oder das Vorkommnis des Inhalts N für Programme der Kategorie c definiert ist.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (21) nach Anspruch 9, dadurch gekennzeichnet, dass die Normierung durch die folgende Formel durchgeführt wird: normalised_ranking_score2(c,i) = Funktion((W(1)I(1) + W(2)I(2) + ... + W(N)I(N))/S(c), wobei 1, 2, ... N ein Index ist, der den Inhalt eines entsprechenden Programms identifiziert; W(N) ein Wichtungsfaktor ist, der Wichtungsfaktoren für die Inhalte 1–N enthält; I(N) ein Inhaltsvektor ist, der die Verteilung von Inhalten I–N im jeweiligen Programm enthält; c ein Kategorieindex ist; i ein Programmindex in der Kategorie c ist; und S(c) ein zweiter Normierungsfaktor in Abhängigkeit von der Kategorie c ist, wobei der zweite Normierungsfaktor S(c) als Durchschnittsmittelwert nicht normierter Ranking-Treffer für Programme in der Kategorie c definiert ist.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (21) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Vorrichtung zur automatischen Dissektion segmentierter Audiosignale (21) außerdem aufweist: – eine statistische Beobachtungsdatenbank (7), welche grobe Audiosignale enthält, welche vorher durch einen Benutzer ausgewählt wurden, und/oder akustische Merkmale, welche von Audiosignalen extrahiert werden, die vorher durch einen Benutzer ausgewählt wurden; wobei die Programmwichtungseinrichtung (3) Information, welche in der statistischen Beobachtungsdatenbank (7) gespeichert ist, zum Wichten jedes Programms verwendet.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (21) nach Anspruch 12, dadurch gekennzeichnet, dass die Information, welche in der statistischen Beobachtungsdatenbank (7) gespeichert ist, durch eine Spracherkennungseinrichtung analysiert wird, um Inhalte, welche in der Information enthalten sind, zu erfassen, wobei die Programmwichtungseinrichtung (3) alle Inhalte eines entsprechenden Programms wichtet, welche durch die Inhaltserfassungseinrichtung (2) erfasst werden, auf Basis der Vorkommnishäufigkeit des Inhalts in der Information, welche in der statistischen Beobachtungsdatenbank (7) gespeichert ist.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1) nach einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass die Vorrichtung zur automatischen Dissektion segmentierter Audiosignale (1) außerdem aufweist: – eine Benutzerschnittstelle (5), welche eine Anzeige aufweist, um Information in Bezug auf die Ranking-Programme einem Benutzer anzuzeigen.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1) nach Anspruch 14, dadurch gekennzeichnet, dass die Benutzerschnittstelle (5) außerdem eine Eingabeeinrichtung aufweist, um eine manuelle Eingabe von Wichtungsfaktoren für die Programmwichtungseinrichtung (3) durch einen Benutzer und/oder das Anfordern einer bestimmten Kategorieart und/oder einer bestimmten Anzahl von Ranking-Programmen, die anzuzeigen sind, zuzulassen.
Vorrichtung zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale (1) gemäß einem der vorhergehenden Ansprüche, dadurch gekennzeichnet, dass das Audiosignal Teil eines Videosignals ist, wobei das Videosignal aus zumindest einem Audiosignal, einem Bildsignal und einem Informationssignal zusammengesetzt ist, wobei das Informationssignal Information in Bezug auf die Programme und entsprechende Inhalte, welche im Videosignal enthalten sind, umfasst.
Verfahren zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale, welches folgende Schritte aufweist: – (S1) Erfassen von Programmen und Inhalte, welche zu den Programmen gehören, in einem segmentierten Audiosignal; wobei die Inhalte wichtige Ereignisse sind, welche in den Programmen enthalten sind; – (S4) Wichten jedes Programms, welches im Audiosignal enthalten ist, auf Basis der Inhalte des entsprechenden Programms; – (S5) Identifizieren von Programmen der gleichen Kategorie; und – (S6) Ranken der Programme auf Basis eines Wichtungsergebnisses für jedes Programm, welches durch den Schritt zum Wichten jedes Programms bereitgestellt wird.
Verfahren zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale nach Anspruch 17, dadurch gekennzeichnet, dass der Schritt zum Erfassen von Programmen und Inhalten, welche zu den Programmen in einem segmentierten Audiosignal (S1) gehören, das Erfassen einer Verteilung der Inhalte in jedem Programm umfasst; wobei die Verteilung der Inhalte in jedem Programm im Schritt zum Wichten jedes Programms (S4) verwendet wird.
Verfahren zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale nach Anspruch 17 oder 18, dadurch gekennzeichnet, dass der Schritt zum Erfassen von Programmen und Inhalten, welche zu den Programmen in einem segmentierten Audiosignal (S1) gehören, das Erfassen – für jeden Inhalt eines entsprechenden Programms – einer Gesamtdauer und/oder einer Anzahl von Vorkommnissen und/oder einer Dauer, welche mit der Gesamtdauer des entsprechenden Programms normiert ist, umfasst, wobei die Gesamtdauer jedes Inhalts und/oder die Anzahl von Vorkommnissen jedes Inhalts und/oder die Dauer jedes Inhalts, welche mit der Gesamtdauer des entsprechenden Programms normiert ist, im Schritt zum Wichten jedes Programms (S4) verwendet wird.
Verfahren zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale nach Anspruch 17, 18 oder 19, dadurch gekennzeichnet, dass individuelle Wichtungsfaktoren für jeden Inhalt, die heuristisch erzeugt oder manuell durch einen Benutzer definiert werden, im Schritt zum Wichten jedes Programms verwendet werden (S4).
Verfahren zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale nach einem der Ansprüche 17 bis 20, dadurch gekennzeichnet, dass das Verfahren außerdem folgende Schritte aufweist: – (S5) Identifizieren gewichteter Programme, welche zu unterschiedlichen Kategorien gehören; – (S7) Normieren der gewichteten Programme; und – (S8) Ranken der normierten und gewichteten Programme.
Verfahren zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale nach einem der Ansprüche 17 bis 21, dadurch gekennzeichnet, dass der Schritt zum Wichten jedes Programms (S4) das Verwenden von Information, welche in einer statistischen Beobachtungsdatenbank (7) gespeichert ist, umfasst, um jedes Programm zu Wichten, wobei die Information, welche in der statistischen Beobachtungsdatenbank (7) gespeichert ist, grobe Audiosignale aufweist, die vorher durch einen Benutzer ausgewählt wurden, und/oder akustische Merkmale, welche von den Audiosignalen, welche vorher durch einen Benutzer ausgewählt wurden, extrahiert wurden.
Verfahren zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale nach Anspruch 22, dadurch gekennzeichnet, dass das Verfahren außerdem folgenden Schritt aufweist: – Analysieren der Information, welche in der statistischen Beobachtungsdatenbank (7) gespeichert ist, durch eine Spracherkennungseinrichtung, um Inhalte, welche in der Information enthalten sind, zu erfassen, wobei der Schritt zum Wichten jedes Programms (S4) das Wichten aller Inhalte eines entsprechenden Programms auf Basis der Vorkommnishäufigkeit des Inhalts in der Information, welche in der statistischen Beobachtungsdatenbank (7) gespeichert ist, umfasst.
Verfahren zur automatischen Dissektion, zur Wichtung und zum Ranking segmentierter Audiosignale nach einem der Ansprüche 17 bis 23, dadurch gekennzeichnet, dass das Verfahren außerdem folgenden Schritt aufweist: – (S9) Anzeigen von Information in Bezug auf die Ranking-Programme einem Benutzer.
Software-Produkt, welches eine Reihe von Instruktionen umfasst, die angepasst sind, durch eine Datenverarbeitungseinrichtung eines mobilen Endgeräts verarbeitet zu werden, so dass ein Verfahren nach einem der Ansprüche 17 bis 24 dafür ausgeführt wird.