-
Die
vorliegende Erfindung bezieht sich auf eine Vorrichtung und ein
Verfahren zur Dissektion (Zerlegung) segmentierter Audiosignale,
welche die Merkmale der Oberbegriffe der unabhängigen Ansprüche 1 bzw.
17 aufweisen.
-
Es
gibt eine wachsende Menge an Videodaten (einschließlich Abtast-Videosignale), welche
im Internet und in einer Vielzahl von Speichermedien, beispielsweise
digitalen Videoplatten verfügbar
sind. Außerdem
werden diese Videodaten durch eine riesige Anzahl von Fernsehstationen
als analoges oder digitales Videosignal bereitgestellt.
-
Die
Videodaten sind eine reiche multilaterale Informationsquelle, welche
Sprache, Audio, Text, Farbmuster und Form von Abbildungsobjekten
und Bewegung dieser Objekte enthält.
-
Aktuell
besteht ein Wunsch nach der Möglichkeit,
nach Segmenten von Interesse in den Videodaten zu suchen (beispielsweise
bestimmte Themen, Personen, Ereignisse und Darstellungen usw.)
-
Im
Prinzip kann jedes Videosignal primär in Bezug auf seinen allgemeinen
Hauptgegenstand klassifiziert werden. Der allgemeine Hauptgegenstand
wird häufig
als "Kategorie" bezeichnet.
-
Wenn
das Videosignal über
Fernsehen gesendet wird, könnte
beispielsweise die allgemeine Hauptsache (Kategorie) Nachrichten
oder Sport oder Kinofilm oder Dokumentarfilm sein.
-
Im
vorliegenden Dokument wird ein selbstständiges Videosignal, welches
zu einer allgemeinen Hauptsachen (Kategorie) gehört, als "Programm" bezeichnet.
-
Beispielsweise
wird jede einzelne Fernsehsendung, jeder einzelne Dokumentarfilm,
jedes einzelne Nachrichtenmagazin und jedes einzelne Funkfernsehspiel
als Programm bezeichnet.
-
Üblicherweise
enthält
jedes Programm selbstständige
Aktivitäten
(Ereignisse). In Hinblick darauf werden lediglich selbständige Aktivitäten (Ereignisse),
welche eine bestimmte minimale Wichtigkeit haben, in Betracht gezogen.
-
Wenn
die allgemeine Hauptsache (Kategorie) Nachrichten sind, und das
Programm ein bestimmtes Nachrichtenmagazin beispielsweise ist, könnten die
selbständigen
Aktivitäten
die verschiedenen Nachrichten, welche im Nachrichtenmagazin erwähnt sind,
sein. Wenn die allgemeine Hauptsache (Kategorie) Sport ist und das
Programm beispielsweise ein bestimmtes Fußballspiel ist, könnten die selbständigen Aktivitäten Abstoß, Strafstoß, Einwurf, usw.
sein.
-
Nachfolgend
werden die selbständigen
Aktivitäten
(Ereignisse), welche in einem bestimmten Programm enthalten sind
und eine minimale Wichtigkeit erfüllen, als "Inhalte" bezeichnet.
-
Somit
wird jedes Videosignal zunächst
in Bezug auf dessen Kategorie (allgemeiner Hauptgegenstand) klassifiziert.
-
Innerhalb
jeder Kategorie wird das Videosignal in Bezug auf sein Programm
klassifiziert (selbständiges
Videosignal, welches zu einer Kategorie gehört).
-
Die
Programme werden weiter in Bezug auf ihre entsprechenden Inhalte
(selbständige
Aktivitäten (wichtige
Ereignisse)) klassifiziert.
-
Der
traditionelle Videobandrekorder-Abtastwiedergabemodus zum Browsen
und zum Entfernen eines analogen Videosignals ist mühsam und
nicht flexibel. Der Grund für
dieses Problem ist der, dass das Videosignal wie ein geradliniger
Block von Abtastungen behandelt wird. Es ist keine Suchfunktionalität (mit Ausnahme
des schnellen Vorlaufs und des schnellen Rücklaufs) vorgesehen.
-
Um
sich auf dieses Problem zu richten, umfassen einige moderne Videobandrekorder
die Möglichkeit,
Indexe entweder manuell oder automatisch zu setzen, jedes Mal dann,
wenn ein Aufzeichnungsbetrieb begonnen wird, um eine automatische
Erkennung bestimmter Sequenzen von Videosignalen zuzulassen. Mit
diesen Indexen gibt es einen Nachteil, dass die Indexe nicht eingerichtet
sind, um individuell eine bestimmte Sequenz an Videosignalen zu
identifizieren.
-
Dagegen
umfassen digitale Videoplatten Videodaten (digitalisierte Videosignale),
wo Kapitel den Videodaten während
der Herstellung der digitalen Videoplatte hinzugefügt sind.
Diese Kapitel erlauben normalerweise die Identifizierung lediglich
den Lauf einer Geschichte. Insbesondere erlauben diese Kapitel nicht
die Identifizierung bestimmter Inhalte (selbständige Aktivitäten/Ereignisse,
welche eine bestimmte minimale Wichtigkeit haben), welche in den Videodaten
enthalten sind.
-
Außerdem wurden
während
der letzten Jahre elektronische Programmführungssysteme (EPG) entwickelt.
-
Eine
elektronische Programmführung
(EPG) ist eine Anwendung, welche bei digitalen Set-Top-Boxen und
neueren Fernsehgeräten
verwendet wird, um aktuelle und geplante Programme, welche auf jedem
Kanal verfügbar
sind oder werden, und eine kurze Zusammenfassung oder ein Kommentar
für jedes Programm
aufzulisten. EPG ist das elektronische Äquivalent der gedruckten Fernsehprogrammzeitung.
-
Üblicherweise
wird auf eine EPG unter Verwendung einer Fernsteuerung zugegriffen.
Es sind Menüs
vorgesehen, welche es dem Benutzer erlauben, eine Liste an Programmen
zu betrachten, welche für
die nächsten
wenigen Stunden bis zu den nächsten
sieben Tagen geplant sind. Eine typische EPG umfasst Optionen, um
verwandte Steuerungen, das Order von Bezahlprogrammen, die Suche
nach Programmen auf der Basis des Themas oder Kategorie, und einen
VCR einzurichten, die Programme aufzuzeichnen, zu setzen. Jeder
digitale Fernsehanbieter (DTV) bietet seine eigene Benutzerschnittstelle und
Inhalt für
seine EPG. Das Format der EPG zu erkennen hängt stark vom jeweiligen Anbieter
ab. Die Standards, die bis heute entwickelt wurden (beispielsweise
MHP-Standard), sind bisher noch nicht geltend gemacht worden.
-
Somit
bestehen Videodaten, welche für
EPG geeignet sind, üblicherweise
aus einem Audiosignal, einem Bildsignal und einem Informationssignal.
Obwohl EPG die Identifizierung von Programmen zulasst, und von dem
allgemeinen Hauptgegenstand (Kategorie), zu der die Programme gehören, erlaubt die
EPG nicht die Identifizierung bestimmten Inhalts, der in den jeweiligen
Programmen enthalten ist.
-
Die
WO 02/25939 A2 offenbart
eine Fernsehprogramm-Empfehlungseinrichtung,
welche Änderungen
beim Betrachten von Präferenzen
automatisch identifiziert. Wenn das Ändern von Betrachtungspräferenzen
identifiziert wird, kann die offenbarte Fernsehprogramm-Empfehlungseinrichtung
die erzeugten Fernsehprogrammempfehlungen auf diese Änderungen
beim Betrachten von Präferenzen anpassen,
oder (effizienter) die Speicherung der Betrachtungsgeschichte verwalten.
Für zyklische
oder periodische Änderung
bei den Betrachtungspräferenzen
erzeugt die Fernsehprogramm-Empfehlungseinrichtung Fernsehpro grammempfehlungen
unter Verwendung eines Hilfssatzes der Betrachtungshistorie von
einem entsprechenden früheren
Zeitpunkt aus. In gleicher Weise erzeugt für echte oder permanente Änderungen
bei Zuschauerpräferenzen
die Fernsehprogramm-Empfehlungseinrichtung
optional Fernsehprogrammempfehlungen unter Verwendung des neuesten
Hilfssatzes an Zuschauergeschichte, welche am wahrscheinlichsten
die aktuellen Zuschauerpräferenzen
reflektiert. Die Fernsehprogramm-Empfehlungseinrichtung
kann bestätigen,
dass Zuschauerpräferenzen
signifikant nicht über
der Zeit geändert wurden
und danach Bereiche der Zuschauerhistorie löschen.
-
Es
ist ein Nachteil bei der EPG, dass die Information, welche durch
die EPG bereitgestellt wird, noch manuell durch den Anbieter der
EPG erzeugt werden muss. Wie oben angemerkt ist dies sehr kostspielig
und somit teuer. Außerdem
umfasst die übliche
EPG-Information Information über
den Inhalt eines Films lediglich insgesamt. Eine weitere Hilfs-Unterteilung
des entsprechenden Films in individuelle Inhalte (selbständige Aktivitäten/Darstellungen)
ist nicht vorgesehen.
-
Eine
naheliegende Lösung
für das
Problem zum Handhaben großer
Videosignalmengen würde dies
sein, die Videosignale jedes Programms in Segmente gemäß deren
Inhalte manuell zu segmentieren und eine ausführliche Information in Bezug
auf das Videosignal, welches in den Segmenten enthalten ist, bereitzustellen.
-
Aufgrund
der immensen Videosignalmengen, welche in den verfügbaren Videosignalen
enthalten sind, ist eine manuelle Segmentierung extrem zeitaufwendig
und somit teuer. Daher ist dieser Versuch nicht praktikabel, eine
riesige Menge an Videosignalen zu verarbeiten.
-
Um
das obige Problem zu lösen,
wurden Versuche zur automatischen Segmentierung von Videosignalen
seit einiger Zeit vorgeschlagen.
-
Mögliche Anwendungsgebiete
für eine
derartige automatische Segmentierung von Videosignalen sind digitale
Videobüchereien
oder beispielsweise das Internet.
-
Da
Videosignale aus zumindest einem Bildsignal und einem oder mehreren
Audiosignalen zusammengesetzt sind, könnte ein automatischer Videosegmentierungsprozess
sich entweder auf eine Analyse des Bildsignals oder der Audiosignale
oder auf beide beziehen.
-
Nachfolgend
wird ein Segmentierungsprozess, der sich auf eine Analyse des Audiosignals
von Videosignalen spezialisiert, weiter erläutert.
-
Es
ist deutlich, dass dieser Versuch nicht auf das Audiosignal von
Videosignalen begrenzt ist, sondern für jegliche Art von Audiosignalen
mit Ausnahme von physikalischem Rauschen verwendet werden könnte. Außerdem können allgemeine
Erwägungen auf
andere Arten von Signalen angewandt werden, beispielsweise auch
auf die Analyse des Bildsignals von Videosignalen.
-
Die
bekannten Versuche für
den Segmentierungsprozess umfassen das Trennen, automatische Klassifizierung
und automatische Segmentierung der Audiosignale, welche in den Videosignalen
enthalten sind.
-
"Ausschneiden" wird durchgeführt, um
die Audiosignale (und die entsprechenden Videosignale) in Audioclips
(und entsprechende Videoclips) einer geeigneten Länge zur
weiteren Verarbeitung zu teilen. Die Audioclips umfassen jeweils
eine geeignete Menge an Audiosignalen. Somit hängt die Genauigkeit des Segmentierungsprozesses
von der Länge der
Audioclips ab.
-
"Klassifizierung" bedeutet eine grobe
Unterscheidung der Audiosignale in Bezug auf den Ursprung der Audiosignale
(beispielsweise Sprache, Musik, Geräusch, Stille und Geschlecht
des Sprechers). Die Klassifizierung wird üblicherweise durch Signalanalysetechniken
auf Basis von Audioklassen-Klassifizierungsregeln durchgeführt. Die
Klassifizierung resultiert somit in einer Sequenz von Audiosignalen,
welche in Bezug auf den Ursprung der Audiosignale unterteilt sind.
-
Audioklassen-Klassifizierungsregeln
können
explizit- oder implizit-codiert in statistischen oder neuronalen
Netzwerken sein, wie Modelle.
-
"Segmentierung" bedeutet Segmentierung der
Audiosignale (Videosignale) in individuelle Sequenzen von zusammenhängenden
Audioclips, wobei jede Sequenz einen Inhalt (selbständige Aktivität einer
minimalen Wichtigkeit) enthält,
welche in den Audiosignalen (Videosignalen) dieser Sequenz enthalten
sind. Die Segmentierung wird üblicherweise auf
Basis von inhalts-klassifizierenden Regeln durchgeführt.
-
Jeder
Inhalt umfasst alle Audioclips, welche zu der jeweiligen selbständigen Aktivität (wichtigem Ereignis)
gehören,
welche im Audiosignal vorhanden sind (beispielsweise ein Tor, ein
Strafstoß eines
Fußballspiels
oder unterschiedliche Nachrichten während eines Nachrichtenmagazins).
-
Eine
Segmentierungsvorrichtung 40 zur automatischen Segmentierung
von Audiosignalen nach dem Stand der Technik ist in 4 gezeigt.
-
Die
Wirkung der Segmentierungsvorrichtung 40 in Bezug auf ein
Audiosignal 50 ist in 5 gezeigt.
-
Die
Segmentierungsvorrichtung 40 umfasst eine Audiosignal-Eingabeeinrichtung 42 zum
Zuführen
eines nicht ausgewerteten Audiosignals 50 über einen
Audiosignal-Eingangsanschluss 41.
-
Im
vorliegenden Beispiel ist das nicht ausgewertete Audiosignal 50 Teil
eines Videosignals, welches in einem geeigneten Videoformat auf
einer Festplatte 48 gespeichert ist.
-
Alternativ
kann das nicht ausgewertete Audiosignal ein Realzeitsignal beispielsweise
sein (beispielsweise ein Audiosignal eines herkömmlichen Fernsehkanals).
-
Die
Audiosignale 50, welche über die Audiosignal-Eingabeeinrichtung 42 zugeführt werden,
werden zu einer Audiosignal-Ausschneideeinrichtung 43 übertragen.
Die Audiosignal-Ausschneideeinrichtung 43 teilt die Audiosignale 50 (und
die entsprechenden Videosignale) in Audioclips 51 (und
die entsprechenden Videoclips) einer vorgegebenen Länge.
-
Die
Audioclips 51, welche durch die Audiosignal-Ausschneideeinrichtung 43 erzeugt
werden, werden weiter zu einer Klassenunterscheidungseinrichtung 44 übertragen.
-
Die
Klassenunterscheidungseinrichtung 44 unterscheidet die
Audioclips 51 in vorgegebene Audioklassen 52 auf
Basis von vorgegebenen Audioklassen-Klassifizierungsregeln durch Analysieren
akustischer Kenndaten des Audiosignals 50, welche in den Audioclips 51 umfasst
sind, wodurch jede Audioklasse eine Art von Audiosignalen, welche
in dem entsprechenden Audioclip enthalten sind, identifiziert wird.
-
Jede
der Audioklassen-Klassifizierungsregeln teilt eine Kombination einer
bestimmten akustischen Charakteristik eines Audiosignals einer bestimmten
Art von Audiosignal zu.
-
Hier
sind die akustischen Kenndaten für
die Audioklassen-Klassifizierungsregeln,
welche die Art der Audiosignale identifizieren "Stille", "Niedrigenergiepegel" und "Niedrig-Null-Durchgangsrate" des Audiosignals,
welches beispielsweise im entsprechenden Audioclip vorhanden ist.
-
Im
vorhandenen Beispiel sind eine Audioklasse und eine entsprechende
Audioklassen-Klassifizierungsregel für jeweils Stille (Klasse 1),
Sprache (Klasse 2) Beifall/Klatschen (Klasse 3) und Musik (Klasse
4) vorgesehen.
-
Diese
Audioklassen-Klassifizierungsregeln sind in der Klassenunterscheidungseinrichtung
gespeichert.
-
Die
Audioclips 52, welche in Audioklassen durch die Klassenunterscheidungseinrichtung 44 unterschieden
sind, werden zur Segmentierungseinrichtung 45 geliefert.
-
Mehrere
vorgegebene inhalts-klassifizierende Regeln sind in der Segmentierungseinrichtung 45 gespeichert.
Jede inhalts-klassifizierende Regel teilt eine bestimmte Sequenz
an Audioklassen von aufeinanderfolgenden Audioclips einem bestimmten
Inhalt zu.
-
Im
vorhandenen Beispiel sind eine inhalts-klassifizierende Regel für jeweils
einen "Freistoß" (Inhalt 1), ein
Tor (Inhalt 2), ein "Foul" (Inhalt 3) und "Spielende" (Inhalt 4) vorgesehen.
-
Es
wird deutlich, dass die Inhalte, welche in den Audiosignalen enthalten
sind, aus jeweils einer Sequenz aufeinanderfolgender Audioclips
zusammengesetzt sind. Dies ist durch das Element 53 von 5 gezeigt.
-
Da
jeder Audioclip in eine Audioklasse unterschieden werden kann, ist
jeder Inhalts, welcher in den Audiosignalen enthalten ist, auch
aus einer Sequenz von entsprechenden Audioklassen aufeinanderfolgender
Audioclips zusammengesetzt.
-
Daher
ermittelt durch Vergleichen einer bestimmten Sequenz von Audioklassen
von aufeinanderfolgenden Audioclips, welche zu den Audiosignalen
mit den Sequenzen von Audioklassen aufeinanderfolgender Audioclips
gehören,
welche zu inhalts-klassifizierenden Regeln gehören, die Segmentierungseinrichtung 45 eine
Regel, welche die jeweilige Sequenz von Audioklassen erfüllt.
-
Als
Konsequenz wird der Inhalt, der dieser Regel zugeteilt ist, der
entsprechenden Sequenz aufeinanderfolgender Audioclips zugeordnet,
welche zu den Audiosignalen gehört.
-
Somit
segmentiert auf Basis der inhalts-klassifizierenden Regeln die Segmentierungseinrichtung 45 die
klassifizierten Audiosignale, welche durch die Unterscheidungseinrichtung 44 bereitgestellt
werden, in eine Sequenz von Inhalten 53 (selbständige Aktivitäten).
-
Im
vorhandenen Beispiel wird eine Ausgabedatei-Erzeugungseinrichtung 46 verwendet,
eine Videoausgabedatei zu erzeugen, welche die Audiosignale 50,
die entsprechenden Videosignale und ein Informationssignal enthält, welches
die entsprechende Sequenz von Inhalten 53 betrifft.
-
Dieses
Informationssignal zeigt die Startzeit, die Endzeit jedes Programms
zusammen mit Information in Bezug auf das Programm. Außerdem umfasst
das Informationssignal die Startzeit, die Endzeit jedes Inhalts,
die in jedem Programm enthalten ist, zusammen mit Information, welche
die selbständige Aktivität (wichtiges
Ereignis), welche im Inhalt enthalten ist, identifiziert.
-
Diese
Ausgangsdatei wird auf einer Festplatte 48 über einen
Signalausgangsanschluss 47 gespeichert.
-
Unter
Verwendung einer Videowiedergabevorrichtung 49 können die
Videoausgangsdateien, welche auf der Festplatte 49 gespeichert
sind, wiedergegeben werden.
-
Im
vorliegenden Beispiel ist die Videowiedergabevorrichtung 49 ein
digitaler Videorekorder, der außerdem
in der Lage ist, individuelle Inhalte, welche in der Videoausgangsdatei
umfasst sind, auf Basis der Information betreffend der Sequenz der
Inhalte 53, welche in der Videoausgangsdatei umfasst sind, zu
extrahieren oder auszuwählen.
Der Videorekorder kann beispielsweise als Basis eine optische oder
magnetische Platte haben.
-
Somit
wird die Segmentierung von Audiosignalen in Bezug auf deren Inhalte
durch die in 4 gezeigte Segmentierungsvorrichtung 40 durchgeführt.
-
Ein
stochastisches Signalmodell, welches häufig bei Klassifizierung von
Audiodaten verwendet wird, ist das HIDDEN MARKOV Modell, welches
ausführlich
im Artikel "A Tutorial
on Hidden Karkov Models and Selcted Applications in Speech Recognition" von Lawrence R.
RABINER erläutert
ist, veröffentlicht
in Proceedings von IEEE, Band 77, Nr. 2, Februar 1989.
-
Verschiedene
Verfahren zur Audioklassifizierungs-Segmentierung in Bezug auf Sprache,
Musik, Stille und Geschlecht sind im Aufsatz "Speech/Musik/Slience and Gender Detection
Algorithm" von Hadi
HARR, Liming CHEN an Jean-Yves AULOGE offenbart, veröffentlicht
durch Lab. ICTT Dept. Mathematiques – Informatiques ECOLE CENTRALE
DE LYON, 36, Avenue Guy Collongue B. P. 163, 69131 ECULLY Cedex,
Frankreich.
-
Allgemein
richtet sich der obige Aufsatz auf die Unterscheidung eines Audiokanals
in Sprache, Musik/Stille/Geräusch,
welche zur Verbesserung der Szenensegmentierung hilft. Vier Verfahren
zur Audioklassenunterscheidung werden vorgeschlagen: ein "model-based approach", wobei Modelle für jede Audioklasse
erzeugt werden, wobei die Modelle auf Niedrigpegelmerkmalen der
Audiodaten basieren, beispielsweise Abbildung des logarithmischen
Leistungsspektrums und MFCC. Ein Segmentierungsverfahren auf Metrik-Basis
verwendet die Abstände
zwischen benachbarten Fenstern zur Segmentierung. Ein Verfahren
auf Regelbasis umfasst die Bildung individueller Regeln für jede Klasse,
wo die Regeln auf hohen und niedrigen Merkmalen von Pegeln basieren.
Schließlich
verwendet das Verfahren auf Basis des Decoders das verborgene Markov-Modell
eines Spracherkennungssystems, wobei das verborgene Markov-Modell
trainiert wird, um die Klasse eines Audiosignals anzugeben.
-
Außerdem beschreibt
dieser Aufsatz ausführlich
Sprach-, Musik- und Stumm-Eigenschaften, um die Erzeugung von Regeln
zuzulassen, welche jede Klasse beschreiben, gemäß dem Verfahren auf Regelbasis,
sowie die Geschlechtsermittlung, um das Geschlecht eines Sprachsignals
zu ermitteln.
-
"Audio Feature Extraction
and Analysis for Scene Segmentation and Classification" ist in Zhu LIU und
Yao WANG der Polytechnischen Universität Brooklyn, USA offenbart,
zusammen mit Tsuhan CHEN der Carnegie Mellon Universität, Pittsburg, USA.
Dieser Aufsatz beschreibt die Verwendung von verknüpfter Audioinformation
zur Videoszenenanalyse von Videodaten, um fünf Arten von TV-Programmen
zu unterscheiden, nämlich
Werbesendungen, Basketballspiele, Fußballspiele, Nachrichtensendungen
und Wettervorhersage.
-
Gemäß diesem
Aufsatz sind die Audiodaten in mehrere Clips unterteilt, wobei jeder
Clip mehrere Rahmen aufweist.
-
Ein
Satz von Niedrigpegel-Audiomerkmalen umfasst die Analyse einer Volumenkontur,
einer Teilungskontur und Frequenzdomänen-Merkmale als Bandbreite
sind zur Klassifizierung der Audiodaten, welche in jedem Clip enthalten
sind, vorgeschlagen.
-
Unter
Verwendung der Cluster-Analyse wird die lineare Trennbarkeit unterschiedlicher
Klassen geprüft,
um die Videosequenz in die obigen fünf Arten von TV-Programmen
zu trennen.
-
In
diesem Aufsatz werden drei Ebenen an Audioverständnis unterschieden: in einer "Niedrigpegel-Akustik-Kenndatenebene" werden Niedrigpegel-Merkmale,
beispielsweise Lautstärke,
Teilperiode und Bandbreite eines Audiosignals analysiert. In der "Intermediatpegel-Akustiksignaturebene
wird das Objekt, welches einen bestimmten Ton erzeugt, durch Vergleich
des entsprechenden Akustiksignals mit Signaturen, welche in einer
Datenbank gespeichert sind, bestimmt. Im Hochpegel- Semantik-Modell werden
einige vorher bekannte Semantik-Regeln über die Struktur von Audio
in unterschiedlichen Szenenarten (beispielsweise eine Sprache in
einem Nachrichtenbericht und Wettervorhersage, jedoch Sprache mit
Rauschhintergrund in Werbesendungen) verwendet.
-
Um
die Audiodaten in Audio-Meta-Mustersequenzen von Audioklassen zu
unterteilen, werden Mustersequenzen von Audioklassen aufeinanderfolgender
Audioclips verwendet.
-
Um
die Genauigkeit des oben beschriebenen Verfahrens weiter zu verbessern,
wird vorgeschlagen, die Analyse der Audiodaten von Videodaten mit
einer Analyse der visuellen Information, welche in den Videodaten
umfasst ist, zu kombinieren (beispielsweise die jeweiligen Farbmuster
und die Form von abgebildeten Objekten).
-
Das
US-Patent US 6 185 527 offenbart
ein System und ein Verfahren, um einen Audiostrom für nachfolgende
Informationswiedergewinnung und zum Entfernen, zur Kernbildung und
Summieren des Audiostroms zu indexieren. Das System und das Verfahren
umfassen die Verwendung speziellen Audiovorfilterns, so dass lediglich
relevante Sprachsegmente, welche durch eine Spracherkennungsmaschine
erzeugt werden, mit Index versehen werden. Spezifische Indexmerkmale
sind offenbart, welche die Genauigkeit und einen Abruf eines Informationsabrufsystems
verbessern, nachdem Wortstücke
mit Index versehen sind. Das beschriebene Verfahren umfasst das
Bilden des Audiostroms zu Intervallen, wobei jedes Intervall ein
oder mehrere Segmente aufweist. Für jedes Segment eines Intervalls
wird bestimmt, ob das Segment ein oder mehrere vorgegebene Audiomerkmale
zeigt, beispielsweise einen bestimmten Bereich von Nulldurchgangsraten,
einen bestimmten Bereich von Energie, und einen bestimmten Bereich
einer Spektralenergiekonzentration. Die Audiomerkmale werden heuristisch
bestimmt, um entsprechende Audioereignisse einschließlich Stille,
Musik, Sprache und Sprache bezüglich
Musik zu bestimmen. Außerdem
wird bestimmt, ob eine Gruppe von Intervallen zu einem heuristisch
vorgegebenen Meta-Muster, beispielsweise zu einer fortlaufenden
nichtunterbrochenen Sprache passt, einschließlich Ideen, Verzögerungen
und Betonung der Sprache usw., und der Audiostrom dann auf Basis
der Intervallklassifizierung und der Muster als Zusammenpassung
mit Index versehen wird, wobei lediglich relevante Merkmale mit
Index versehen sind, um nachfolgende Genauigkeit von Informationswiedergewinnung
zu verbessern. Außerdem
werden Alternativen für
längere
Begriffe, welche durch die Spracherkennungsmaschine erzeugt werden,
mit der entsprechenden Wichtung mit Index versehen, um nachfolgenden
Abruf zu verbessern.
-
Die
US 2002/0093591 A1 offenbart
ein System und ein Verfahren, um Videozusammenfassung über saumloses
Integrieren von Bild-, Audio- und Text-Merkmalen zu bilden, welche von einem
zugeführten
Video extrahiert werden. Insbesondere werden zum Bilden einer Audiozusammenfassung
Ton und Sprache getrennt und dann zu Einheiten segmentiert. Die
Audioeinheiten werden dann klassifiziert, beispielsweise in Applaus,
Sprache, Ausbruch und dgl.. In Abhängigkeit von der Klassifizierung
für jede
Einheit wird danach ein Vektor gebildet, der die Wichtigkeit der
jeweiligen Einheit für
den Überblick zeigt,
d. h. es wird die Wahrscheinlichkeit berechnet, dass diese wichtig
genug ist, in der Audiozusammenfassung enthalten zu sein. Die Wahrscheinlichkeit wird
hier durch mit Verfahren auf Regelbasis berechnet. Wenn die Wahrscheinlichkeit
für jede
Audioeinheit berechnet ist, kann die Audiozusammenfassung gebildet
werden, indem die Audioeinheiten in absteigender Reihenfolge ihrer
Wahrscheinlichkeit ausgewählt
werden, bis der Überblick
die durch den Benutzer spezifizierte Länge erreicht.
-
Somit
wird unter anderen Dingen vorgeschlagen, automatisch einen Überblick
eines Audiostroms zu liefern oder um ein Verständnis des Kerns eines Audiostroms
zu gewinnen.
-
Algorithmen,
welche Indexe von automatischer akustischer Segmentierung erzeugen,
sind im Aufsatz beschrieben "Acoustic
Segmentation for Audio Browsers" von
Don KIMBER und Lynn WILCOX. Diese Algorithmen verwenden verborgene
Markov-Modelle, um Audio in Segmente entsprechend unterschiedlicher
Sprecher oder akustischer Klassen zu segmentieren. Arten vorgeschlagener
akustischer Klassen umfassen Sprache, Stille, Gelächter, Nicht-Sprachen-Töne und wertlose
Daten, wobei "wertlose
Daten" als Nicht-Sprach-Ton
definiert ist, welches nicht durch andere Klassenmodelle moduliert
sind.
-
Eine
Ausführung
der bekannten Verfahren wird vorgeschlagen durch George TZANETAKIS
und Perry COOK in dem Bericht "MARSYAS:
A framework for Audio analysis",
wo eine Klienten-Server-Architektur verwendet wird.
-
Heutzutage
ist es als Konsequenz der Globalisierung und der Vergrößerung des
Wettbewerbs zwischen einer großen
Anzahl von Fernseh-Rundfunk-Gesellschaften sehr wahrscheinlich,
dass ein Benutzer mit der Situation konfrontiert wird, ein bestimmtes
Programm unter vielen ähnlichen
Programmen auszuwählen.
Beispielsweise ist es sehr wahrscheinlich, dass der Benutzer 20 ähnliche
Talkshows an einem Abend und/oder vier verschiedene Fußballspiele
am gleichen Abend finden wird.
-
Obwohl
es möglich
ist, alle Talkshows und alle Fußballspiele
auf einem geeigneten Aufzeichnungsmedium unter Verwendung beispielsweise
eines digitalen Videorekorders aufzuzeichnen, wird ein Benutzer
höchstwahrscheinlich
nicht die Zeit haben, alle diese Programme tatsächlich zu beobachten.
-
Daher
wird es durch den Benutzer äußerst gewünscht, dass
er Information hat, welches Programm von mehreren Programmen, welche
auf dem Speichermedium gespeichert sind, gemäß seinem vorhandenen Wunsch
am meisten interessant ist.
-
Eine
Empfehlungsmaschine (beispielsweise ein EPG-System), welches Verwendung
von Kategorieinformation und Programminformation macht, ist nicht
in der Lage, das am meisten interessante/aufregenste Programm einer
bestimmten Kategorie auszuwählen.
-
Daher
weiß der
Benutzer nicht, ob beispielsweise ein Fußballspiel zwischen Brasilien
und Deutschland oder ein Fußballspiel
zwischen Italien und England (welche beide zur gleichen Kategorie gehören) interessanter
ist.
-
Außerdem weiß der Benutzer
nichts über
einen unbekannten Film oder eine unbekannte Talkshow, ob diese seinen
aktuellen Wunsch mehr erfüllt.
-
Zusammengefasst
ist der Mangel an Unterscheidungsfähigkeit unter Programmen gleicher
Kategorie für
den Benutzer ein ernsthafter Nachteil des Standes der Technik.
-
Außerdem ist
gemäß dem Stand
der Technik eine automatische Dissektion (Zerlegung) (Zerlegung)
segmentierter Audiosignale nicht möglich. Dies ist ein weiterer
Nachteil des oben beschriebenen Standes der Technik.
-
Es
ist die Aufgabe der vorliegenden Erfindung, die oben angegebenen
Nachteile zu überwinden
und um eine Vorrichtung und ein Verfahren zur automatischen Dissektion
(Zerlegung) (Zerlegung) segmentierter Audiosignale bereitzustellen,
welches in der Lage ist, Programme, welche in den Audiosignalen
vorhanden sind, zu ordnen. Die obige Aufgabe wird bei einer Vorrichtung
zur automatischen Dissektion (Zerlegung) (Zerlegung), Wichtung und
Ordnungsbildung segmentierter Audiosignale durch die Kombination
von Merkmalen des unabhängigen
Patentanspruchs 1 gelöst.
-
Außerdem wird
die obige Aufgabe durch ein Verfahren zur automatischen Dissektion
(Zerlegung) (Zerlegung), Wichtung und Ordnungsbildung segmentierter
Audiosignale gelöst,
welche die Kombination von Merkmalen des unabhängigen Patentanspruchs 17 aufweisen.
-
Weitere
Ausführungen
sind in den unabhängigen
Patentansprüchen
aufgeführt.
-
Gemäß der vorliegenden
Erfindung wird eine Vorrichtung zur automatischen Dissektion (Zerlegung)
(Zerlegung), zur Wichtung und zum Ranking segmentierter Audiosignale
offenbart, wobei die Vorrichtung aufweist:
- – eine Inhaltserfassungseinrichtung
zum Erfassen von Programmen und Inhalten, die zu den jeweiligen
Programmen im segmentierten Audiosignal gehören; wobei die Inhalte wichtige
Ereignisse sind, die in den Programmen enthalten sind;
- – eine
Programmwichtungseinrichtung zum Wichten jedes Programms, welches
im Audiosignal enthalten ist, auf Basis der Inhalte des jeweiligen Programms,
welche durch die Inhaltserfassungseinrichtung erfasst werden; und
- – eine
Programm-Ranking-Einrichtung zum Identifizieren von Programmen der
gleichen Kategorie und zum Ranken der Programme auf Basis eines Wichtungsergebnisses
für jedes
Programm, welches durch die Programmwichtungseinrichtung bereitgestellt
wird.
-
Im
vorliegenden Dokument wird der Hauptgegenstand, der aus einem Audiosignal
besteht, als "Kategorie" bezeichnet. Diese
Kategorie könnte
sein "Nachrichten" oder beispielsweise "Sport", wenn das Audiosignal
von einer Rundfunkfernsehstation empfangen wird.
-
Selbständige Audiosignale,
welche zur gleichen Kategorie gehören, werden als "Programm" bezeichnet. Beispielsweise
wird jede einzelne Fernsehsendung, jeder einzelne Spielfilm, jedes
einzelne Nachrichtenmagazin und jedes einzelne Funkspiel als Programm
bei dem vorliegenden Dokument bezeichnet.
-
Jedes
Programm enthält üblicherweise
mehrere selbständige
Aktivitäten
(wichtige Ereignisse). In dieser Hinsicht werden lediglich Aktivitäten, welche eine
bestimmte minimale Wichtigkeit haben, betrachtet. Wenn das Programm
beispielsweise ein Nachrichtenmagazin ist, könnten die selbständigen Aktivitäten die
verschiedenen Notizen sein, welche im Nachrichtenmagazin erwähnt werden.
Wenn alternativ das Programm ein Fußballspiel ist, könnten die selbständigen Aktivitäten beispielsweise
Abstoß, Strafstoß, Einwurf
usw. sein.
-
Im
vorliegenden Dokument werden die selbständigen Aktivitäten, welche
eine minimale Wichtigkeit erfüllen
und zu einem bestimmten Programm einer bestimmten Kategorie gehören, als "Inhalte" bezeichnet.
-
Damit
werden gemäß dem vorliegenden
Dokument die Audiosignale, welche zu einem bestimmten Programm einer
bestimmten Kategorie gehören, außerdem mit
ihren entsprechenden Inhalten klassifiziert.
-
Durch
Wichtung jedes Programms, welches im Audiosignal ermittelt wird,
ist es auf Basis von Inhalten, welche in dem jeweiligen Programm
enthalten sind, möglich,
eine Ordnung für
jedes Programm zu berechnen.
-
Dieses "Ranking" (Ordnen) zeigt die
Relevanz, welche das entsprechende Programm hat, in Abhängigkeit
des umfassten Inhalts.
-
Somit
ist es unter Verwendung der erfinderischen Vorrichtung zur automatischen
Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale möglich, Audiosignale
zu ordnen und folglich es einem Benutzer zu erlauben, zu entscheiden,
welches Programm von einer Vielzahl von Programmen zu seinem eigenen
Wunsch am meisten passt.
-
Vorzugsweise
ist zumindest ein Informationssignal zum Identifizieren von Programmen,
welche in den Audiosignalen enthalten sind und zum Identifizieren
von Inhalten, welche in den Programmen enthalten sind, vorgesehen.
-
Unter
Verwendung des Informationssignals kann die Ermittlung von Programmen
und Inhalten, welche zu dem jeweiligen Programm gehören, leicht durchgeführt werden.
-
Gemäß einer
bevorzugten Ausführungsform der
vorliegenden Erfindung ermittelt die Inhaltsermittlungseinheit eine
Verteilung von Inhalten in jedem Programm, wobei die Programmwichtungseinrichtung
die Verteilung der Inhalte in jedem Programm verwendet, welche durch
die Inhaltsermittlungseinrichtung ermittelt wird, um das jeweilige
Programm zu Wichten.
-
Durch
Identifizieren der Verteilung der Inhalte in jedem Programm und
durch Verwendung der Verteilung, wenn die Programme gewichtet werden, kann
das Auftreten von interessierenden und/oder wichtigen Ereignissen
in jedem Programm leicht ermittelt werden.
-
Beispielsweise
könnte
ein Programm, welches eine gleiche Verteilung von Inhalten hat,
jedoch lediglich eine kleine Anzahl von Inhalten, als ziemlich gleichmäßig jedoch
sogar monoton eingeordnet werden.
-
Im
Gegensatz dazu könnte
ein Programm, welches eine Menge an Inhalten hat, und eine Verteilung
der Inhalte, welche eine Akkumulation der Inhalte in Richtung des
Endes des Programms zeigt, beispielsweise als Krimi-Programm eingeordnet
werden.
-
Vorteilhafterweise
ermittelt die Inhaltsermittlungseinrichtung für jeden Inhalt eines entsprechenden
Programms eine Gesamtdauer und/oder eine Anzahl von Ereignissen
und/oder eine Dauer, welche durch die Gesamtdauer des jeweiligen
Programms normiert ist, wobei die Programmwichtungseinrichtung die
Gesamtdauer jedes Inhalts und/oder die Zahl von Ereignissen jedes
Inhalts und/oder die Dauer jedes Inhalts, welche durch die Gesamtdauer
des jeweiligen Programms normiert ist, welche durch die Inhaltsermittlungseinrichtung
ermittelt wird, um das jeweilige Programm zu Wichten, verwendet.
-
Die
obigen Merkmale "Gesamtdauer
jedes Inhalts", "Gesamtzahl der Ereignisse
jedes Inhalts" und "Dauer jedes Inhalts,
der durch eine Gesamtdauer des jeweiligen Programms normiert ist" sind sehr geeignet,
um ein Programm in Bezug auf die Verteilung der Inhalte im Programm
zu charakterisieren.
-
Außerdem können diese
Merkmale leicht berechnet werden. Es wird bevorzugt, dass individuelle Wichtungsfaktoren
für jeden
Inhalt vorgesehen sind, wobei die Programmwichtungseinrichtung jeden
Inhalt, der im jeweiligen Programm vorhanden ist, mit dem jeweiligen
individuellen Wichtungsfaktor wichtet, um das entsprechende Programm
zu Wichten.
-
Daher
haben unterschiedliche Arten von Inhalten einen unterschiedlichen
Einfluss auf das Wichtungsergebnis der Programmwichtungseinrichtung.
-
Wenn
beispielsweise das Programm ein Fußballspiel ist, könnte der
Wichtungsfaktor für
den Inhalt "Tor" höher sein
als der Wichtungsfaktor für den
Inhalt "Einwurf".
-
Somit
kann die unterschiedliche Signifikanz entsprechender Inhalte in
betracht gezogen werden.
-
Außerdem ist
es vorteilhaft, wenn die Wichtungsfaktoren allgemein heuristisch
erzeugt werden.
-
Damit
kann ein Satz vorgegebener Wichtungsfaktoren, welche die Erfordernisse
eines typischen Benutzers erfüllen,
bereitgestellt werden. Damit kann eine mühsame manuelle Definition von Wichtungsfaktoren
vermieden werden, während
dennoch sehr gute Ergebnisse in Bezug auf die gewichteten Programme
empfangen werden.
-
Alternativ
könnten
die Wichtungsfaktoren manuell durch einen Benutzer definiert werden.
-
Daher
können
persönliche
Wünsche
eines Benutzers betrachtet werden. Außerdem sind Adaptionen in Bezug
auf den aktuellen Aufbau und dem aktuellen Wunsch eines Benutzers
möglich.
Dies wird beispielsweise durch Beobachtung durchgeführt, welcher
Inhalt von einem aufgezeichneten Programm vorzugsweise durch einen
Benutzer beobachtet wird, und welcher Inhalt durch einen Benutzer (beispielsweise
durch schnellen Vorlauf) übersprungen
wird.
-
Wenn
das Programm beispielsweise Fußball ist,
könnte
ein bestimmter Benutzer der Meinung sein, dass der Inhalt "Einwurf" nicht wichtig ist,
während
der Inhalt "Freistoß" so wichtig ist wie
der Inhalt "Tor". Daher könnte der
Benutzer den Wichtungsfaktor für
den Inhalt "Einwurf" als Null definieren,
während
die Wichtungsfaktoren für
die Inhalte "Freistoß" und "Tor" identisch eingestellt
werden könnten.
-
Vorzugsweise
erzeugt die Inhaltsermittlungseinrichtung einen Inhaltsvektor zum
Identifizieren der Inhalte, welche in jedem Programm enthalten sind, und
die Wichtungsfaktoren für
jeden Inhalt sind als Wichtungsvektor vorgesehen, wobei die Programmwichtungseinrichtung
jedes Programms durch Multiplizieren des Inhaltsvektors mit dem
Wichtungsfaktor wichtet.
-
Somit
kann das Wichten der Inhalte, welche in einem Programm vorhanden
sind, durch einfache Multiplikation mit dem entsprechenden Wichtungsvektor
durchgeführt
werden.
-
Mit
Programmen, welche zu unterschiedlichen Kategorien gehören, besteht
ein Problem, dass die typische Verteilung von Inhalten in den Programmen
in Abhängigkeit
von der Kategorie eines entsprechenden Programms abhängt.
-
Wenn
die Kategorie beispielsweise "Nachrichten" ist, muss eine ziemlich
gleichmäßige Verteilung
der Inhalte erwartet werden, da das typische Programm "Nachrichtenmagazin" üblicherweise aus einer aufeinanderfolgenden
Notizfolge gleicher Wichtigkeit besteht. Wenn im Gegensatz dazu
die Kategorie "Sport" ist und das Programm
Fußball
ist, muss beispielsweise eine ungleichmäßige Verteilung der Inhalte
erwartet werden, da die Ereignisse "Foul", "Einwurf" und "Tor" in jedem Augenblick
während
des gesamten Programms sich ereignen könnten.
-
Um
dieses Problem zu lösen
umfasst gemäß einer
weiteren bevorzugten Ausführungsform
der vorliegenden Erfindung die Vorrichtung zur automatischen Dissektion
(Zerlegung) (Zerlegung) segmentierter Audiosignale außerdem eine
Kreuzkategorie-Ordnungseinrichtung, um gewichtete Programme zu identifizieren,
welche zu verschiedenen Kategorien gehören, um die gewichteten Programme
zu normieren und um die normierten und gewichteten Programme auf
Basis eines Normierungsergebnisses zu ordnen.
-
Somit
werden die Programme, welche zu verschiedenen Kategorien gehören, normiert,
um unterschiedliche typische Verteilungen von Inhalten in den jeweiligen
Kategorien in betracht zu ziehen.
-
Daher
liefert die erfinderische Vorrichtung zur automatischen Dissektion
(Zerlegung) (Zerlegung) segmentierter Audiosignale noch gute Ergebnisse,
wenn Programme, welche zu unterschiedlichen Kategorien gehören, geordnet
werden.
-
Vorteilhafterweise
wird die Normierung durch eine Kreuzkategorie-Ordnungseinrichtung gemäß der folgenden
Formel durchgeführt:
normalised_ranking_score1(c,i)
= function (W1)I(1)/F(c,1) + W(2)I(2)/F(c,2) + ... + W(N)I(N)/F(c,N);
wobei
1, 2, ... N ein Index ist, der den Inhalt eines entsprechenden
Programms identifiziert; W(N) ein Wichtungsvektor ist, der Wichtungsfaktoren
für die
Inhalte 1 bis N aufweist; I(N) ein Inhaltsvektor ist, der die Verteilung
von Inhalten 1–N
in dem jeweiligen Programm aufweist; c ein Kategorieindex ist; i
ein Programmindex in der Kategorie c ist; und F(c,N) ein Normierungsfaktor
ist, der dem Inhalt N in der Kategorie c entspricht, wobei der Normierungsfaktor
F(c,N) als die Durchschnittsdauer oder das Vorkommnis des Inhalts
N für Programme
der Kategorie c definiert ist.
-
Durch
Unterteilen der gewichteten Inhalte jedes Programms (Produkt des
jeweiligen Inhalts und des jeweiligen Wichtungsfaktor) durch einen
Normierungsfaktor entsprechend dem jeweiligen Inhalt in der entsprechenden
Kategorie werden die unterschiedlichen Verteilungen der Inhalte
in den Programmen unterschiedlicher Kategorien in betracht gezogen.
-
Alternativ
wird die Normierung durch die folgende Formel durchgeführt:
normalised_ranking_score2(c,i)
= Funktion((W(1)I(1) + W(2)I(2) + ... + W(N)I(N))/S(c), wobei
1,
2, ... N ein Index ist, der den Inhalt eines entsprechenden Programms
identifiziert; W(N) ein Wichtungsfaktor ist, der Wichtungsfaktoren
für die
Inhalte 1–N enthält; I(N)
ein Inhaltsvektor ist, der die Verteilung von Inhalten I–N im jeweiligen
Programm enthält;
c ein Kategorieindex ist; i ein Programmindex in der Kategorie c
ist; und S(c) ein zweiter Normierungsfaktor in Abhängigkeit
von der Kategorie c ist, wobei der zweite Normierungsfaktor S(c)
als Durchschnittsmittelwert nicht normierter Ranking-Treffer für Programme
in der Kategorie c definiert ist.
-
Vorteilhafterweise
weist die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierte
Audiosignale außerdem
eine statistische Betrachtungsdatenbank auf, welche nicht ausgewertete
Audiosignale aufweist, welche vorher durch einen Benutzer ausgewählt sind,
und/oder akustische Merkmale, welche von Audiosignalen extrahiert
sind, die vorher durch einen Benutzer ausgewählt wurden, wobei die Programmwichtungseinrichtung
Information verwendet, welche in der statistischen Betrachtungsdatenbank
gespeichert sind, um jedes Programm zu Wichten.
-
Unter
Verwendung von Information, welche in einer statistischen Betrachtungsdatenbank
gespeichert ist, um jedes Programm in Bezug auf die Inhalte des
jeweiligen Programms zu Wichten, welches durch die Inhaltsermittlungseinrichtung
ermittelt wird, wird eine automatische Personalisierung der erfinderischen
Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung)
segmentierter Audiosignale für
einen individuellen Benutzer durchgeführt.
-
Daher
ist keine manuelle Eingabe von Wichtungsfaktoren notwendig, um die
Vorrichtung auf einen individuellen Wunsch eines Benutzers einzustellen.
-
In
diesem Fall wird bevorzugt, dass die Information, welche in der
statistischen Betrachtungsdatenbank gespeichert ist, durch die Spracherkennungseinrichtung
analysiert wird, um Inhalte, welche in der Information enthalten
sind, zu ermitteln, wobei die Programmwichtungseinrichtung alle
Inhalte eines entsprechenden Programms wichtet, welche durch die
Inhaltsermittlungseinrichtung ermittelt wird, auf Basis der Häufigkeit
des Auftretens des Inhalts in der Information, welche in der statistischen
Betrachtungsdatenbank gespeichert ist.
-
Durch
Analysieren der Information, welche in der statistischen Betrachtungsdatenbank
gespeichert ist, wobei die Spracherkennungseinrichtung verwendet
wird, um Inhalte, welche in der Information enthalten sind, zu ermitteln,
können
Inhalte, welche durch einen Benutzer bevorzugt werden, leicht ermittelt
werden.
-
Daher
kann der Wichtungsfaktor für
die Inhalte automatisch angepasst werden, um die Vorzüge des jeweiligen
Benutzers in betracht zu ziehen.
-
Vorteilhafterweise
weist die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung) segmentierter
Audiosignale außerdem
eine Schnittstelle auf, welche eine Anzeige aufweist, um Information
in Bezug auf die geordneten Programme einem Benutzer anzuzeigen.
-
In
diesem Fall ist es vorteilhaft, wenn die Benutzerschnittstelle weiter
eine Eingabeeinrichtung aufweist, um eine manuelle Eingabe von Wichtungsfaktoren
für die
Programmwichtungseinrichtung durch einen Benutzer und/oder das Anfordern
einer bestimmten Kategorieart und/oder einer bestimmten Anzahl von
Ranking-Programmen,
die anzuzeigen sind, zuzulassen.
-
Daher
kann die Anzahl angezeigter Programme reduziert werden, während die
Deutlichkeit der Information, welche auf der Anzeige angezeigt wird,
verbessert wird.
-
Außerdem könnte der
Benutzer Programme wünschen,
welche am höchsten
eingeordnet sind, unabhängig
von der jeweiligen Kategorie, oder könnte beispielsweise die am
meist interessierten Programme einer bestimmten Kategorie wünschen.
-
Vorteilhafterweise
ist das Audiosignal Teil eines Videosignals, wobei das Videosignal
aus zumindest einem Audiosignal, einem Bildsignal und einem Informationssignal
besteht, wobei das Informationssignal Information bezüglich der
Programme und entsprechender Inhalte, welche im Videosignal enthalten
sind, aufweist.
-
Somit
ist die erfinderische Vorrichtung zur automatischen Dissektion (Zerlegung)
(Zerlegung) segmentierter Audiosignale nicht nur in der Lage, Audiosignale
zu ordnen, sondern zusätzlich
Videosignale in Verbindung mit den Audiosignale zu ordnen.
-
Gemäß der vorliegenden
Erfindung wird ein Verfahren zur automatischen Dissektion (Zerlegung) (Zerlegung),
zur Wichtung und zum Ranking segmentierter Audiosignale bereitgestellt,
welches folgende Schritte aufweist:
- – Erfassen
von Programmen und Inhalte, welche zu den Programmen gehören, in
einem segmentierten Audiosignal; wobei die Inhalte wichtige Ereignisse
sind, welche in den Programmen enthalten sind;
- – Wichten
jedes Programms, welches im Audiosignal enthalten ist, auf Basis
der Inhalte des entsprechenden Programms;
- – Identifizieren
von Programmen der gleichen Kategorie; und
- – Ranken
der Programme auf Basis eines Wichtungsergebnisses für jedes
Programm, welches durch den Schritt zum Wichten jedes Programms bereitgestellt
wird.
-
Vorteilhafterweise
weist der Schritt zum Ermitteln zum Erfassen von Programmen und
Inhalten, welche zu den Programmen in einem segmentierten Audiosignal
gehören,
das Erfassen einer Verteilung der Inhalte in jedem Programm auf;
wobei
die Verteilung der Inhalte in jedem Programm im Schritt zum Wichten
jedes Programms verwendet wird.
-
Es
ist vorteilhaft, wenn der Schritt zum Erfassen von Programmen und
Inhalten, welche zu den Programmen in einem segmentierten Audiosignal gehören, das
Erfassen – für jeden
Inhalt eines entsprechenden Programms – einer Gesamtdauer und/oder
einer Anzahl von Vorkommnissen und/oder einer Dauer, welche mit
der Gesamtdauer des entsprechenden Programms normiert ist, umfasst,
wobei die Gesamtdauer jedes Inhalts und/oder die Anzahl von Vorkommnissen
jedes Inhalts und/oder die Dauer jedes Inhalts, welche mit der Gesamtdauer des
entsprechenden Programms normiert ist, im Schritt zum Wichten jedes
Programms verwendet wird.
-
Vorteilhafterweise
werden individuelle Wichtungsfaktoren für jeden Inhalt, die heuristisch
erzeugt oder manuell durch einen Benutzer definiert werden, im Schritt
zum Wichten jedes Programms verwendet.
-
Gemäß einer
bevorzugten Ausführungsform der
vorliegenden Erfindung weist das Verfahren außerdem folgende Schritte auf:
- – Identifizieren
gewichteter Programme, welche zu unterschiedlichen Kategorien gehören;
- – Normieren
der gewichteten Programme; und
- – Ranken
der normierten und gewichteten Programme.
-
Vorteilhafterweise
umfasst der Schritt zum Wichten jedes Programms das Verwenden von
Information, welche in einer statistischen Beobachtungsdatenbank
gespeichert ist, auf, um jedes Programm zu Wichten, wobei die Information,
welche in der statistischen Beobachtungsdatenbank gespeichert ist, nicht
ausgewertete Audiosignale aufweist, die vorher durch einen Benutzer
ausgewählt
wurden, und/oder akustische Merkmale, welche von den Audiosignalen,
welche vorher durch einen Benutzer ausgewählt wurden, extrahiert wurden.
-
In
diesem Fall ist es vorteilhaft, wenn das Verfahren außerdem folgenden
Schritt aufweist:
- – Analysieren der Information,
welche in der statistischen Beobachtungsdatenbank gespeichert ist,
durch eine Spracherkennungseinrichtung, um Inhalte, welche in der
Information enthalten sind, zu erfassen,
wobei der Schritt
zum Wichten jedes Programms das Wichten aller Inhalte eines entsprechenden
Programms auf Basis der Vorkommnishäufigkeit des Inhalts in der
Information, welche in der statistischen Beobachtungsdatenbank gespeichert
ist, umfasst.
-
Vorteilhafterweise
weist außerdem
das Verfahren den Schritt auf, Information in Bezug auf die geordneten
Programme einen Benutzer anzuzeigen.
-
Die
vorliegende Erfindung richtet sich außerdem auf ein Softwareprodukt,
welches eine Reihe von Zustandselementen umfasst, welche angepasst sind,
durch eine Datenverarbeitungseinrichtung eines mobilen Endgeräts verarbeitet
zu werden, so dass ein Verfahren nach einem der Ansprüche 17 bis 24
dafür ausgeführt werden
kann.
-
In
der folgenden Beschreibung wird die vorliegende Erfindung mit Hilfe
der beiliegenden Zeichnungen erläutert,
wobei gleiche Bezugszeichen sich durchwegs auf gleiche Teile in
den Ansichten beziehen, wobei:
-
1 ein
Blockdiagramm einer Vorrichtung zur automatischen Dissektion (Zerlegung)
(Zerlegung) segmentierter Audiosignale gemäß einer ersten bevorzugten
Ausführungsform
der Erfindung zeigt;
-
2 ein
Blockdiagramm einer Vorrichtung zur automatischen Dissektion (Zerlegung)
(Zerlegung) segmentierter Audiosignale gemäß einer zweiten bevorzugten
Ausführungsform
der Erfindung zeigt;
-
3 ein
Flussdiagramm eines Verfahrens zur automatischen Dissektion (Zerlegung)
(Zerlegung) segmentierter Audiosignale gemäß der vorliegenden Erfindung
zeigt;
-
4 ein
Blockdiagramm einer Segmentierungsvorrichtung gemäß dem Stand
der Technik zeigt; und
-
5 schematisch
die Wirkung der Segmentierungsvorrichtung gemäß dem Stand der Technik hinsichtlich
Audiosignale zeigt.
-
1 zeigt
eine Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung)
segmentierter Audiosignale gemäß einer
ersten bevorzugten Ausführungsform
der Erfindung.
-
Die
erfinderische Vorrichtung zur automatischen Dissektion (Zerlegung)
(Zerlegung) segmentierter Audiosignale 1 umfasst eine Inhaltsermittlungseinrichtung 2,
eine Programmwichtungseinrichtung 3, eine Programmordnungseinrichtung 4 und eine
Benutzerschnittstelle 5.
-
Die
segmentierten Audiosignale werden zur Inhaltsermittlungseinrichtung 2 geliefert.
Bei der vorliegenden Ausführungsform
sind die segmentierten Audiosignale Teil segmentierter Videosignale.
-
Die
genannten segmentierten Videosignale werden hauptsächlich in
Bezug auf ihren allgemeinen Hauptgegenstand klassifiziert. Nachfolgend
wird der allgemeine Hauptgegenstand als "Kategorie" bezeichnet.
-
Wenn
die Videosignale über
Fernsehen gesendet werden, beispielsweise, könnten die Kategorien (allgemeiner
Hauptgegenstand) beispielsweise sein: "Nachrichten", "Sport", "Film", oder "Dokumentarfilm".
-
Selbständige Videosignale,
welche zu der gleichen Kategorie gehören, werden als "Programm" bezeichnet.
-
Beispielsweise
wird jeder einzelne Spielfilm und jedes einzelne Nachrichtenmagazin
der jeweiligen Kategorie "Film" und "Nachrichten" als "Programm" bezeichnet.
-
Jedes
Programm enthält
mehrere selbständige
Aktivitäten,
welche eine bestimmte minimale Wichtigkeit (wichtige Ereignisse)
haben. Nachfolgend werden die selbständigen Aktivitäten (Ereignisse),
welche in einem bestimmten Programm enthalten sind und welche eine
minimale Wichtigkeit erfüllen,
als "Inhalte" bezeichnet.
-
Wenn
die Kategorie "Sport" ist und das Programm
ein bestimmtes Fußballspiel
ist, könnten
die Inhalte sein "Abstoß", "Strafstoß", "Einwurf", usw..
-
Somit
sind die segmentierten Audiosignale, welche zur Inhaltsermittlungseinrichtung 2 geliefert werden,
mit segmentierten Videosignalen verknüpft, die zuerst in Bezug auf
ihre Kategorie klassifiziert sind. Innerhalb jeder Kategorie werden
die segmentierten Videosignale in Bezug auf ihr Programm klassifiziert,
wobei die Programme weiter in Bezug auf ihre jeweiligen Inhalte
klassifiziert werden.
-
Im
vorhandenen Beispiel sind die segmentierten Videosignale, welche
zur Inhaltsermittlungseinrichtung 2 der erfinderischen
Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung)
segmentierter Audiosignale 1 geliefert werden, aus zumindest
einem Audiosignal, einem Bildsignal und einem Informationssignal
zusammengesetzt.
-
Das
Informationssignal ist als Meta-Datendatei vorgesehen, welche Information
in Bezug auf die Programme und entsprechende Inhalte, welche im
segmentierten Videosignal enthalten sind, aufweist.
-
Im
Detail weist das Informationssignal eine Startzeit und eine Endzeit
jedes Programms, einen Identifikationscode für jedes Programm, auf, wobei der
Identifikationscode außerdem
Information aufweist, zu welcher Kategorie das jeweilige Programm gehört, eine
Startzeit und eine Endzeit jedes Inhalts, der in jedem Programm
enthalten ist, zusammen mit Information, welche die aktuelle selbständige Aktivität (wichtiges
Ereignis) identifiziert, welche im jeweiligen Inhalt enthalten ist.
-
Bei
der vorliegenden Ausführungsform
wird das segmentierte Videosignal durch eine herkömmliche
Segmentierungsvorrichtung 40 erzeugt, welche in 4 gezeigt.
-
Die
Inhaltsermittlungseinrichtung 2 ermittelt Programme und
Inhalte, welche zu den jeweiligen Programmen im segmentierten Audiosignal
gehören, welches
im segmentierten Videosignal enthalten ist, unter Verwendung des
Informationssignals, welches im segmentierten Videosignal enthalten
ist.
-
Außerdem ermittelt
die Inhaltsermittlungseinrichtung 2 eine Verteilung von
Inhalten in jedem Programm, indem eine Dauer jedes Inhalts ermittelt wird,
der mit einer gesamten Dauer des jeweiligen Programms normiert ist.
-
Alternativ
könnte
die Inhaltsermittlungseinrichtung 2 die Verteilung von
Inhalten in jedem Programm ermitteln, indem eine Gesamtdauer jedes
Inhalts und/oder einer Anzahl von Vorkommnissen jedes Inhalts ermittelt
wird.
-
Die
Inhaltsermittlungseinrichtung 2 ist mit einer Programmwichtungseinrichtung 3 verbunden.
-
Die
Programmwichtungseinrichtung 3 wichtet jedes Programm,
welches im Audiosignal enthalten ist, auf Basis der Verteilung von
Inhalten des jeweiligen Programms, welche durch die Inhaltsermittlungseinrichtung 2 ermittelt
werden.
-
Bei
der vorliegenden Ausführungsform
wird die Wichtung durch die Programmwichtungseinrichtung 3 unter
Verwendung der Dauer jedes Inhalts durchgeführt, der durch die Gesamtdauer
des jeweiligen Programms normiert wird, welches für jeden
Inhalt eines jeden Programms durch die Inhaltsermittlungseinrichtung 2 bereitgestellt
wird.
-
Alternativ
kann das Wichten durch die Programmwichtungseinrichtung 3 unter
Verwendung der Gesamtdauer aller Inhalte und/oder der Anzahl von Vorkommnissen
jedes Inhalts durchgeführt
werden, welche durch die Inhaltsermittlungseinrichtung geliefert
werden.
-
Mehrere
heuristisch-erzeugte individuelle Wichtungsfaktoren für jeden
Inhalt sind in der Programmwichtungseinrichtung 3 gespeichert.
-
Daher
haben unterschiedliche Arten an Inhalten unterschiedlichen Einfluss
hinsichtlich eines Wichtungsergebnisse der Programmwichtungseinrichtung 3.
-
Wenn
das Programm ein Fußballspiel
beispielsweise ist, könnte
der Wichtungsfaktor für
den Inhalt "Tor" höher sein
als der Wichtungsfaktor für den
Inhalt "Einwurf".
-
Obwohl
die Wichtungsfaktoren, welche durch die Programmwichtungseinrichtung 3 verwendet
werden, heuristisch erzeugt werden, um eine mühsame manuelle Definition der
Wichtungsfaktoren zu vermeiden, ist manuelle Adaption der Wichtungsfaktoren
durch einen Benutzer unter Verwendung einer Benutzerschnittstelle 5 möglich.
-
Für diesen
Zweck weist die Benutzerschnittstelle 5, welche mit der
Programmwichtungseinrichtung 3 verbunden ist, eine Tastatur
(nicht gezeigt) auf, welche eine manuelle Eingabe von Wichtungsfaktoren
für die
Programmwichtungseinrichtung 3 durch einen Benutzer zulasst.
-
Wenn
beispielsweise das Programm Fußball ist,
könnte
ein bestimmter Benutzer der Meinung sein, dass der Inhalt "Einwurf" nicht wichtig ist,
während
der Inhalt "Freistoß" so wichtig ist wie
der Inhalt "Tor". Daher könnte der
Benutzer den Wichtungsfaktor für
den Inhalt "Einwurf" als Null definieren,
während
er die Wichtungsfaktoren für
die Inhalte "Freistoß" und "Tor" identisch einstellen
könnte.
-
Somit
werden die persönlichen
Wünsche
eines Benutzers in betracht gezogen.
-
Dies
kann beispielsweise durch Beobachtung durchgeführt werden, welcher Inhalt
von einem aufgezeichneten Programm vorzugsweise durch einen Benutzer
betrachtet wird, und welcher Inhalt durch einen Benutzer übersprungen
wird (beispielsweise durch schnellen Vorlauf).
-
Bei
der vorliegenden Ausführungsform
erzeugt die Inhaltsermittlungseinrichtung 2 einen Inhaltsvektor
[I(1)I(2) ... I(N)] zum Identifizieren der Inhalte, welche in jedem
Programm enthalten sind. Entsprechend sind die Wichtungsfaktoren
für jeden
Inhalt als Wichtungsvektor [W(1)W(2) ... W(N)] vorgesehen, welche
Wichtungsfaktoren für
jeden entsprechenden Inhalt 1 ... N aufweist. Bei dieser bevorzugten
Ausführungsform
werden die Elemente, welche im Wichtungsfaktor enthalten sind, in
einer Weise ausgewählt,
dass die Summe aller Elemente 1 ist.
-
In
dieser Hinsicht muss betont werden, dass sogar negative Wichtungsfaktoren
verwendet werden könnten.
-
Wenn
ein Benutzer beispielsweise der Meinung ist, dass die Diskussion
eines bestimmten Hauptthemas in einer Talkshow das Langweilen ist, wird
das Vorhandensein eines Inhalts "Diskussion
eines bestimmten Themas" in
einem Programm durch einen negativen Wichtungsfaktor bestraft werden.
-
Ausführlicher
ausgedrückt
wird Wichtung der jeweiligen Programme, wenn durch die Programmwichtungseinrichtung 3 durchgeführt, durch
Multiplizieren jedes Inhaltsvektors (einschließlich der Dauer jedes Inhalts,
der durch die Gesamtdauer des jeweiligen Programms normiert wird)
mit dem entsprechenden individuellen Wichtungsvektor durchgeführt.
-
Somit
wird ein Wichtungswert in der Form eines Vektors [I(1)W(1) I(2)W(2)]
... [I(N)W(N)] für
jedes Programm durch die Programmwichtungseinrichtung 3 berechnet.
-
Bei
dem vorliegenden Beispiel umfasst der Wichtungswert zusätzlich Information,
welche eine Identifikation des jeweiligen Programms in den segmentierten
Audiosignalen zulässt.
-
Gemäß dieser
ersten Ausführungsform
speichert die Programmwichtungseinrichtung 3 den Wichtungswert
für jedes
Programm in einer Speichereinrichtung 48. Im vorliegenden
Beispiel ist die Speichereinrichtung 48 eine herkömmliche
Festplatte.
-
Durch
Speichern des Wichtungswerts für
jedes Programm in der Speichereinrichtung 48 ist es nicht
notwendig, alle Audiosignale, welche in der Speichereinrichtung 48 gespeichert
sind, zu Wichten, jedes Mal dann, wenn ein Benutzer nach einem Ordnen
der Programme fragt, welche in den Audiosignalen enthalten sind,
welche in der Speichereinrichtung 48 gespeichert sind.
Damit wird die Komplexität
der Berechnung reduziert, wenn zumindest einige Programme schon
gewichtet wurden.
-
Die
Programmwichtungseinrichtung 3 ist mit einer Programmordnungseinrichtung 4 verbunden.
-
Die
Programmordnungseinrichtung 4 identifiziert Programme der
gleichen Kategorie und ordnet die Programme auf Basis des Wichtungswerts,
welche durch die Programmwichtungseinrichtung 3 erzeugt
werden.
-
Ein
Programm, welches beispielsweise eine gleiche Verteilung von Inhalten
hat, jedoch eine kleine Anzahl von Inhalten, könnte als ziemlich gleichmäßig angesehen
werden, sogar monoton und daher als ziemlich niedrig eingeordnet
werden. Im Gegensatz dazu könnte
ein Programm, welches eine Menge an Inhalten hat und eine Verteilung
der Inhalte, welche eine Ansammlung von Inhalten in Richtung auf
das Ende des Programms zeigen, als ein Krimi-Programm identifiziert
werden, und daher ziemlich hoch eingeordnet werden.
-
Alternativ
ordnet die Programmordnungseinrichtung 4 Wichtungswerte,
welche in der Speichereinrichtung 38 gespeichert sind,
welche vorher durch die Wichtungseinrichtung 3 erzeugt
wurden.
-
Die
geordneten Programme werden an die Benutzerschnittstelle 5 ausgegeben,
welche eine Anzeige aufweist (nicht gezeigt).
-
Außerdem umfasst
die Benutzerschnittstelle 5 eine Eingabeeinrichtung (nicht
gezeigt), um eine bestimmte Art einer Kategorie und eine bestimmte Anzahl
von geordneten Programmen, die anzuzeigen sind, anzufordern.
-
Wenn
die Anzahl der Programme, welche angezeigt werden, beispielsweise "5" ist, werden die 5 Programme, welche
an oberster Stelle angeordnet sind, durch die Benutzerschnittstelle 5 angezeigt.
-
Wenn
die Kategorie beispielsweise "Sport" ist, werden lediglich
die geordneten Programme, welche zur Kategorie "Sport" gehören,
durch die Benutzerschnittstelle 5 angezeigt.
-
Daher
ist es unter Verwendung der Benutzerschnittstelle 5 möglich, die
Anzahl geordneter Programme bezüglich
geordneter Programme zu begrenzen, welche eine minimale Ordnung
erfüllen,
wobei die minimale Ordnung manuell durch einen Benutzer eingegeben
werden kann.
-
Im
vorhandenen Beispiel ist die Benutzerschnittstelle 5 außerdem angepasst,
eine Videosignal-Wiedergabevorrichtung 49 zu steuern.
-
Durch
Steuern der Videosignal-Wiedergabevorrichtung 49 ist die
Benutzerschnittstelle 5 angepasst, ein Videosignal, welches
auf der Festplatte 48 gespeichert ist, welche mit der Videosignal-Wiedergabevorrichtung 49 verbunden
ist, wiederzugeben.
-
Man
bevorzugt, dass die erfinderische Vorrichtung zur automatischen
Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 1 in
einem digitalen Videorekorder (der auf Basis optischer oder magnetischer
Platten arbeiten könnte)
enthalten ist, oder einem anderen digitalen Audio-/Videogerät, beispielsweise
einem Personalcomputer, einer Arbeitsstation oder einem Heim-Server
enthalten ist.
-
Alternativ
könnte
die erfinderische Vorrichtung zur automatischen Dissektion (Zerlegung)
(Zerlegung) segmentierter Audiosignale 1 als separates Gerät bereitgestellt
werden.
-
In 1 werden
separate Mikroprozessoren für
die Inhaltsermittlungseinrichtung 2, die Programmwichtungseinrichtung 3 und
die Programmordnungseinrichtung 4 verwendet.
-
Alternativ
könne ein
einziger Mikrocomputer verwendet werden, um die Inhaltsermittlungseinrichtung,
die Programmwichtungseinrichtung und die Programmordnungseinrichtung
zu beherbergen.
-
2 zeigt
eine zweite Ausführungsform
der erfinderischen Vorrichtung zur automatischen Dissektion (Zerlegung)
(Zerlegung) segmentierter Audiosignale 21 gemäß der vorliegenden
Erfindung.
-
Gemäß der zweiten
Ausführungsform
werden die segmentierten Audiosignale, welche zur Inhaltsermittlungseinrichtung 2 der
Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung)
segmentierter Audiosignale 21 geliefert werden, von einer
Festplatte 48 gelesen.
-
Wie
in 2 gezeigt ist, könnten die segmentierten Audiosignale,
welche auf der Festplatte 1 enthalten sind, durch eine
herkömmliche
Segmentierungsvorrichtung 40 geliefert werden.
-
Alternativ
könnten
die segmentierten Audiosignale, welche auf der Festplatte 48 gespeichert sind,
manuell segmentiert werden.
-
Zusätzlich zur
ersten in 1 gezeigten Ausführungsform
weist die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung)
segmentierter Audiosignale 21 gemäß der zweiten Ausführungsform
außerdem
eine Kreuzkategorie-Ordnungseinrichtung 6 auf,
um Programme zu identifizieren, welche durch die Wichtungseinrichtung 3 gewichtet
werden, welche zu unterschiedlichen Kategorien gehören.
-
Mit
Programmen, welche zu unterschiedlichen Kategorien gehören, besteht
eine Schwierigkeit, dass die typische Verteilung von Inhalten in
den Programmen in Abhängigkeit
von der Kategorie eines entsprechenden Programms variiert.
-
Wenn
beispielsweise die Kategorie "Nachrichten" ist, muss eine ziemliche
gleichmäßige Verteilung
der Inhalte erwartet werden, da das typische Programm "Nachrichtenmagazin" üblicherweise aus aufeinanderfolgenden
Notizen gleicher Wichtigkeit besteht. Wenn dagegen die Kategorie "Sport" ist und das Programm
Fußball
ist, muss eine nicht gerade Verteilung des Inhalts beispielsweise
erwartet werden, da die Ereignisse "Foul", "Einwurf" und "Tor", in jedem Augenblick
während
des gesamten Programms sich ereignen könnten.
-
Daher
hat das Ordnen von Programmen, welche zu unterschiedlichen Kategorien
gehören,
auf Basis der Verteilung der Inhalte in den Programmen nicht lediglich
adäquat
geordnete Programme zur Folge.
-
Um
dieses Problem zu lösen,
normiert die Kreuzkategorie-Ordnungseinrichtung 6 die
gewichteten Programme und ordnet die normierten und gewichteten
Programme auf Basis eines Normierungsergebnisses.
-
Daher
ist die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung)
segmentierter Audiosignale 21 gemäß der zweiten Ausführungsform
der vorliegenden Erfindung außerdem
in der Lage, Programme, welche zu unterschiedlichen Kategorien gehören, zu
ordnen.
-
Im
vorliegenden Beispiel wird die Normierung durch die folgende Formel
durchgeführt:
normalised_ranking_score1(c,i)
= function(W1)I(1)/F(c,1) + W(2)I(2)/F(c,2) + ... + W(N)I(N)/F(c,N);
wobei
1, 2, ... N ein Index ist, der den Inhalt eines entsprechenden
Programms identifiziert; W(N) ein Wichtungsvektor ist, der Wichtungsfaktoren
für die
Inhalte 1 bis N aufweist; I(N) ein Inhaltsvektor ist, der die Verteilung
von Inhalten 1–N
in dem jeweiligen Programm aufweist; c ein Kategorieindex ist; i
ein Programmindex in der Kategorie c ist; und F(c,N) ein Normierungsfaktor
ist, der dem Inhalt N in der Kategorie c entspricht, wobei der Normierungsfaktor
F(c,N) als die Durchschnittsdauer oder das Vorkommnis des Inhalts
N für Programme
der Kategorie c definiert ist.
-
Durch
Unterteilen der gewichteten Inhalte jedes Programms (Produkt des
jeweiligen Inhaltsvektors und des entsprechenden Wichtungsvektors)
mit einem Normierungsfaktor entsprechend dem jeweiligen Inhalt in
der entsprechenden Kategorie wird die unterschiedliche Verteilung
von Inhalten in den Programmen unterschiedlicher Kategorien automatisch in
betracht gezogen.
-
Alternativ
könnte
die Normierung durch die folgende Formel durchgeführt werden:
normalised_ranking_score2(c,i)
= Funktion((W(1)I(1) + W(2)I(2) + ... + W(N)I(N))/S(c), wobei
1,
2, ... N ein Index ist, der den Inhalt eines entsprechenden Programms
identifiziert; W(N) ein Wichtungsfaktor ist, der Wichtungsfaktoren
für die
Inhalte 1–N
enthält;
I(N) ein Inhaltsvektor ist, der die Verteilung von Inhalten I–N im jeweiligen
Programm enthält;
c ein Kategorieindex ist; i ein Programmindex in der Kategorie c
ist; und S(c) ein zweiter Normierungsfaktor in Abhängigkeit
von der Kategorie c ist, wobei der zweite Normierungsfaktor S(c)
als Durchschnittsmittelwert nicht normierter Ranking-Treffer für Programme
in der Kategorie c definiert ist.
-
Die
Kreuzkategorie-Ordnungseinrichtung 6 ist sowohl mit der
Programmwichtungseinrichtung 3 als auch mit der Programmordnungseinrichtung 4 verbunden.
-
Somit
ist die Kreuzkategorie-Ordnungseinrichtung 6 in der Lage,
sowohl Programme, welche durch die Programmwichtungseinrichtung 3 gewichtet
wurden, als auch Programme, welche vorher durch die Programmwichtungseinrichtung 4 geordnet wurden,
zu ordnen.
-
Außerdem sind
sowohl die Programmordnungseinrichtung 4 als auch die Kreuzkategorie-Ordnungseinrichtung 6 in
der Lage, eine Benutzerschnittstelle zu steuern. Bei der vorliegenden
Ausführungsform
ist die Benutzerschnittstelle in der Videosignal-Wiedergabevorrichtung 49 enthalten.
-
Die
Benutzerschnittstelle, welche in der Videosignal-Wiedergabevorrichtung 49 enthalten
ist, weist eine Anzeigeeinrichtung (nicht gezeigt) auf, um Information
in Bezug auf die geordneten Programme einem Benutzer anzuzeigen,
und eine Eingabeeinrichtung (nicht gezeigt), um eine bestimmte Art
an Kategorie und eine bestimmte Anzahl geordneter Programme, die
anzuzeigen sind, anzufordern.
-
Außerdem weist
die Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung)
segmentierter Audiosignale 21 gemäß der zweiten Ausführungsform
eine statistische Betrachtungsdatenbank 7 auf, welche nicht
ausgewertete Audiosignale, welche durch einen Benutzer ausgewählt wurden,
aufweist.
-
Alternativ
oder zusätzlich
könnte
die statistische Betrachtungsdatenbank akustische Merkmale aufweisen,
welche von Audiosignalen, welche vorher durch einen Benutzer ausgewählt wurden,
extrahiert.
-
Die
statistische Betrachtungsdatenbank 7 ist mit der Programmwichtungseinrichtung 3 verbunden.
-
Im
vorliegenden Beispiel wichtet die Programmwichtungseinrichtung 3 alle
Inhalte eines entsprechenden Programms, welche durch den Inhaltsermittlungseinrichtung 2 ermittelt
werden auf Basis der Frequenz einer Häufigkeit des Inhalts in der
statistischen Betrachtungsdatenbank 7.
-
Bei
der vorliegenden Ausführungsform
werden die Audiosignale, welche in der statistischen Betrachtungsdatenbank 7 gespeichert
sind, durch eine Spracherkennungseinrichtung (nicht gezeigt) analysiert,
welche in der Programmwichtungseinrichtung 3 enthalten
ist, um Inhalte, welche in den Audiosignalen enthalten sind, zu
ermitteln.
-
Die
Audiosignale, welche in der statistischen Betrachtungsdatenbank 7 gespeichert
sind, könnten durch
eine Videosignal-Wiedergabevorrichtung 49 bereitgestellt
werden, welche mit der statistischen Betrachtungsdatenbank 7 verbunden
ist.
-
Unter
Verwendung von Information, welche in der statistischen Betrachtungsdatenbank 7 gespeichert
ist, um alle Programme in Bezug auf die Inhalte des jeweiligen Programms
zu Wichten, welche durch die Inhaltsermittlungseinrichtung 2 ermittelt
werden, wird eine automatische Personalisierung der erfinderischen
Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung)
segmentierter Audiosignale 21 für einen individuellen Benutzer
durchgeführt.
-
Daher
ist keine manuelle Eingabe für
Wichtungsfaktoren notwendig, um die Vorrichtung zur automatischen
Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale 21 auf
den individuellen Wunsch eines Benutzers einzustellen.
-
Gemäß der zweiten
Ausführungsform
ist die statistische Betrachtungsdatenbank 7 separat über eine
Festplatte vorgesehen. Alternativ könnten die statistischen Betrachtungsdatenbanken
in der Programmwichtungseinrichtung als Flash-Speicher beispielsweise
enthalten sein.
-
Außerdem zeigt 2 sowohl
eine Festplatte 48 zum Speichern segmentierter Audiosignale
als auch eine separate statistische Betrachtungsdatenbank 7.
-
Alternativ
könnte
die statistische Betrachtungsdatenbank auf der Festplatte 48 gespeichert sein.
-
3 zeigt
ein Flussdiagramm eines erfinderischen Verfahrens zur automatischen
Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale.
-
In
einem ersten Schritt S1 werden Programme und Inhalte, welche zu
den Programmen gehören,
in einem segmentierten Audiosignal zusammen mit einer Verteilung
der Inhalte in jedem Programm ermittelt.
-
In
der Zwischenzeit wird im Schritt S2 eine statistische Betrachtungsdatenbank
bereitgestellt.
-
Die
Information, welche in der statistischen Betrachtungsdatenbank gespeichert
ist, umfasst nicht ausgewertete Audiosignale, welche vorher durch
einen Benutzer ausgewählt
wurden, und akustische Merkmale, welche von Audiosignalen extrahiert
werden, welcher vorher durch einen Benutzer ausgewählt wurden.
-
Im
folgenden Schritt S3 wird die Information, welche in der statistischen
Betrachtungsdatenbank gespeichert ist, durch die Spracherkennungseinrichtung
analysiert, um Inhalte, welche in der Information enthalten sind,
zu ermitteln.
-
Im
Schritt S4 wird jedes Programm, welches im Audiosignal enthalten
ist, auf Basis der Inhalte des jeweiligen Programms gewichtet, wobei
die Verteilung der Inhalte in jedem Programm verwendet wird, und
auf Basis der Häufigkeit
des Auftretens des Inhalts in der Information, welche in der statistischen Betrachtungsdatenbank
gespeichert ist.
-
Danach
wird im Schritt S5 entschieden, ob die Programme, die zu ordnen
sind, zur gleichen Kategorie gehören.
-
Wenn
bestimmt wird, dass die Programme, welche zu ordnen sind, zur gleichen
Kategorie gehören,
werden die Programme im Schritt S6 auf Basis eines Wichtungsergebnisses
für jedes
Programm, welches durch den Schritt S4 bereitgestellt wird, geordnet.
-
Wenn
entschieden wird, dass die Programme, welche zu ordnen sind, nicht
zur gleichen Kategorie gehören
(Schritt S6), werden die gewichteten Programme im Schritt S7 normiert.
-
Danach
werden die normierten und gewichteten Programme im Schritt S8 geordnet.
-
Im
folgenden Schritt S9 wird die Information in Bezug auf die geordneten
Programme einem Benutzer angezeigt.
-
Gemäß der vorliegenden
Erfindung ist es durch Wichten jedes Programms, welches in den segmentierten
Audiosignalen ermittelt wird, auf Basis von Inhalten, welche in
den entsprechenden Programmen enthalten sind, möglich, eine Ordnung für jedes
Programm zu berechnen.
-
Die
Ordnung zeigt die Relevanz, welche das entsprechende Programm hat,
in Abhängigkeit
von den Inhalten, welche in den Programmen enthalten sind. Der Wunsch
eines Benutzers wird in betracht gezogen durch Bereitstellen unterschiedlicher
Wichtungsfaktoren für
jeden Inhalt.
-
Somit
ist es durch Verwendung der erfinderischen Vorrichtung zur automatischen
Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale möglich, Programme,
welche in den segmentierten Audiosignale enthalten sind, zu ordnen,
und daher es einem Benutzer zu erlauben, zu entscheiden, welches
Programm von einer Vielzahl von Programmen zu seinem Wunsch am meisten
passt.
-
Um
die Übersichtlichkeit
der 1 und 2 zu verbessern, sind ergänzende Einrichtungen,
beispielsweise Spannungsversorgungen, Pufferspeicher usw. nicht
gezeigt.
-
Gemäß den obigen
Ausführungsformen
sind segmentierte Audiosignale, segmentierte Videosignale und gewichtete
Programme auf der Festplatte 48 gespeichert.
-
Es
ist augenscheinlich, dass unterschiedliche Festplatten oder andere
Arten an Speichern (Flash-Speicher, EPROMS, Disketten, beschreibbaren
Compact Disc usw.) zum speichern der segmentierten Audiosignale,
der segmentierten Videosignale und der gewichteten Programme verwendet
werden können.
-
Obwohl
die statistische Betrachtungsdatenbank in Bezug auf die zweite Ausführungsform
beschrieben wurde, kann lediglich die statistische Betrachtungsdatenbank
in der Vorrichtung zur automatischen Dissektion (Zerlegung) (Zerlegung)
segmentierter Audiosignale auch gemäß der ersten Ausführungsform
enthalten sein.
-
Es
wird bevorzugt, dass die vorliegende Erfindung zur automatischen
Dissektion (Zerlegung) (Zerlegung) segmentierter Audiosignale durch
Verwendung eines Personalcomputers oder einer Arbeitsstation realisiert
wird.
-
Alternativ
kann die erfinderische Vorrichtung zur automatischen Dissektion
(Zerlegung) (Zerlegung) segmentierter Audiosignale in einer Videosignal-Wiedergabevorrichtung
enthalten sein, beispielsweise einem digitalen Videorekorder oder
einem DVD-Schreibgerät.
-
Gemäß einer
dritten Ausführungsform
der Erfindung (welche in den Zeichnungen nicht gezeigt ist), wird
die obige Aufgabe durch ein Softwareprodukt gelöst, welche eine Reihe an Zustandselementen
aufweist, welches angepasst ist, durch eine Datenverarbeitungseinrichtung
eines mobilen Endgeräts
verarbeitet zu werden, so dass ein Verfahren nach einem der Ansprüche 17 bis
24 dafür
ausgeführt
werden kann.