-
Gebiet der Erfindung
-
Die
vorliegende Erfindung bezieht sich auf das Gebiet des Durchsuchens
(Browsens) von Musik.
-
Hintergrund der Erfindung
-
Die
Kosten einer digitalen Speicherung für Musik verringern
sich, während Internet-Musikdienste immer mehr zunehmen.
Demgemäß erfreuen sich Menschen in zunehmendem
Maße an Musik, die man sich von Internet-Musikdiensten
beschafft hat und die auf tragbaren Abspielgeräten mit
hoher Kapazität gespeichert wird. Und in dem Maße,
wie sich Menschen Musiksammlungen aneignen, werden die Musiksammlungen
immer größer und reichen von Hunderten von Songs
bis zu Zehntausenden von Songs. Außerdem ist die Musikerzeugung
aufgrund von digitalen Musikproduktionshilfsmitteln einfacher und
kostengünstiger geworden. Folglich erweitern viele neue
und weniger bekannte Künstler das Universum aufgezeichneter
Musik, die zur Auswahl zur Verfügung steht, auf drastische
Weise.
-
Aufgrund
dieser Tendenzen wird die Fähigkeit, Musiksammlungen und
vor allem große Sammlungen effizient zu durchsuchen, immer
wichtiger. Beispielsweise möchte jemand vielleicht seine
eigene Musiksammlung durchsuchen oder möchte Songs, die
ihm gefallen, aus einer unbekannten Musiksammlung entdecken. Oder
ein Musikdienstanbieter möchte verbesserte Hilfsmittel
liefern, die es seinen Kunden ermöglichen, die Musiksammlung
des Dienstanbieters zu durchsuchen.
-
Bekannte
Verfahren zum Durchsuchen von Musik umfassen Websites, die Musik
zum Verkauf anbieten und die es jemandem ermöglichen, Proben von
Songs abzuspielen. Jedoch kann dies in sofern etwas mühselig
sein, als die Person üblicherweise den gewünschten
Künstler, das gewünschte Album und den gewünschten
Song aus einer großen zum Verkauf angebotenen Sammlung
manuell auswählen muss. Kollaboratives Filtern ist ein
Verfahren eines Ableitens, aus einer Teilliste der Vorlieben dieser
Person und der Geschmäcker vieler Menschen, was einer bestimmten
Person gefallen könnte. Aufgrund eines Mangels an benötigten
Informationen von vielen Menschen funktioniert kollaboratives Filtern
bei neuen und weniger bekannten Künstlern nicht gut.
-
Zusammenfassung der Erfindung
-
Die
vorliegende Erfindung liefert ein Verfahren und System zum Durchsuchen
(Browsen) von Musik. Bei einem Ausführungsbeispiel umfasst
ein Verfahren zum Durchsuchen von aufgezeichneter Musik folgende
Schritte: Auswählen eines Songs aus einer Bibliothek; Abspielen
zumindest eines Ausschnitts des ausgewählten Songs für
einen Benutzer; während der Ausschnitt des ausgewählten
Songs abgespielt wird, Annehmen einer Eingabe von dem Benutzer,
wobei die Eingabe eine Angabe bezüglich des Gefallens,
das der Benutzer an dem zumindest einen Ausschnitt des ausgewählten
Songs findet, umfasst; Wiederholen der Schritte des Auswählens,
Abspielens und Annehmens, um eine Sequenz von Songausschnitten zu
erzeugen; und Erstellen einer Aufnahme, die eine Identifizierung
jedes. ausgewählten Songausschnitts und die Angabe für
den Songausschnitt umfasst.
-
Kurze Beschreibung der Zeichnungen
-
Die
vorliegende Erfindung wird unter Bezugnahme auf bestimmte exemplarische
Ausführungsbeispiele derselben be schrieben, und demgemäß wird
auf die Zeichnungen Bezug genommen, bei denen:
-
1 ein
Blockdiagramm eines Systems zum Durchsuchen von Musik gemäß einem
Ausführungsbeispiel der vorliegenden Erfindung veranschaulicht;
-
2 Informationen,
die in einer Songbibliothek gespeichert sind, gemäß einem
Ausführungsbeispiel der vorliegenden Erfindung veranschaulicht;
-
3 ein
Verfahren zum Durchsuchen von Musik gemäß einem
Ausführungsbeispiel der vorliegenden Erfindung veranschaulicht;
und
-
4A bis
C Aufzeichnungen von Musikdurchsuchungsinformatio nen, die erzeugt
wurden, gemäß Ausführungsbeispielen der
vorliegenden Erfindung veranschaulichen.
-
Ausführliche Beschreibung
der Erfindung
-
1 veranschaulicht
ein Blockdiagramm eines Systems 100 zum Durchsuchen von
Musik gemäß einem Ausführungsbeispiel
der vorliegenden Erfindung. Das System 100 umfasst eine
Musikbibliothek 102, ein Abspielgerät 104,
eine Benutzerschnittstelle 106, einen Nächster-Song-Selektor 108 und
eine Historienaufzeichnung 110.
-
Die
Musikbibliothek
102 speichert zumindest einen Ausschnitt
jedes Songs einer Sammlung von Songs, die durch das System
100 durchsucht
werden sollen, zusammen mit Informationen über jeden Song.
Es kann zwar jeder Song in seiner Gesamtheit in der Bibliothek
102 enthalten
sein, dies ist jedoch nicht notwendig. Der Ausschnitt jedes Songs
ist eine repräsentative exzerpierte Probe des Songs. Die Songs
oder Ausschnitte derselben können als Audiodateien gespeichert sein,
beispielsweise im MP3-Format. Die Probe eines Songs kann manuell aus
dem Song ausgewählt werden, z. B. indem sich ein Benutzer
den Song anhört und einen Ausschnitt des Songs, von dem
der Benutzer entscheidet, dass er für den Song repräsentativ
ist, auswählt. Alternativ dazu können die Proben
automatisch (d. h. anhand eines computerimplementierten Verfahrens)
ausgewählt werden. Beispielsweise beschreibt die
U.S.-Patentschrift Veröffentlichungsnr. 2004/0064209 ,
deren gesamter Inhalt durch Bezugnahme hiermit aufgenommen ist,
ein System und Verfahren zum Erzeugen eines Audio-Thumbnails einer
Tonspur, das dazu verwendet werden kann, die in der Bibliothek
102 gespeicherten
Proben zu erhalten. Gemäß der
U.S.-Patentschrift Veröffentlichungsnr. 2004/0064209 wird
ein erstes Inhaltsmerkmal, z. B. Gesang, als Charakteristik einer
Tonspur erfasst. Eine vorbestimmte Länge des erfassten
Ausschnitts der Tonspur, der dem ersten Inhaltsmerkmal entspricht,
wird aus der Tonspur extrahiert. Ein Glanzpunkt der Tonspur, z.
B. ein Ausschnitt der Tonspur, der eine plötzliche Zunahme
zeitlicher Energie innerhalb der Tonspur aufweist, wird erfasst;
und ein Ausschnitt der Tonspur, der dem Glanzpunkt entspricht, wird
aus der Tonspur extrahiert. Die zwei extrahierten Ausschnitte der
Tonspur werden als Thumbnail der Tonspur kombiniert.
-
Die
gespeicherten Informationen über jeden Song umfassen zumindest
eine Identifizierung des Songs, können aber zusätzliche
Informationen umfassen. Beispielsweise kann die Bibliothek 102 Metadaten über
den Song enthalten, die Sachinformationen wie z. B. den Namen des
Künstlers, den Titel des Songs, das Genre, die Stimmung,
die Rhythmusbeschreibung, den Stil, das Datum der Aufzeichnung, den
Titel des Albums usw. umfassen können. Ein spezifisches
Beispiel von Song-Metadaten sind ID3-Informationstags, die den Namen
des Künstlers und den Songtitel und möglicherweise
andere Informationen wie z. B. Datum, Spurnummer der CD, Albumtitel
usw. umfassen.
-
Die
in der Bibliothek
102 gespeicherten zusätzlichen
Informationen über jeden Song können Audiomerkmalsinformationen
umfassen, die aus der Tonspur selbst extrahiert oder verarbeitet
wurden. Beispielsweise beschreibt die
U.S.-Patentschrift
Nr. 6,995,309 , deren gesamter Inhalt durch Bezugnahme hiermit
aufgenommen ist, ein System und Verfahren zur Musikidentifikation,
bei dem für jeden Song in einer Datenbank ein Merkmalsvektor
berechnet wird. Ein derartiger Merkmalsvektor kann für
jeden zu durchsuchenden Song oder für jeden Ausschnitt
eines Songs in der Bibliothek
102 extrahiert und in der Bibliothek
102 gespeichert
werden. Gemäß der
U.S.-Patentschrift
Nr. 6,995,309 wird der Merkmalsvektor für einen
Song bestimmt, indem ein Spektrogramm eines verarbeiteten Zeitsignals
für den Song erzeugt wird und anschließend Merkmale
aus dem Spektrogramm extrahiert werden. Für die Zwecke der
vorliegenden Erfindung ist das verarbeitete Zeitsignal für
den Song ein digital abgetasteter Ausschnitt des Songs, z. B. ein
Audio-Thumbnail, oder der gesamte Song. Verschiedene Techniken,
die auf eine Verarbeitung von zeitdiskreten Signalen bezogen sind,
sind in der Technik bezüglich eines Erzeugen des Spektrogramms
hinreichend bekannt. Die Merkmale werden durch numerische Werte
dargestellt und stellen grob spezifische musikalische Wahrnehmungscharakteristika
wie z. B. Tonhöhe, Tempo und Reinheit dar. Bei einem Ausführungsbeispiel
umfasst der Merkmalsvektor für jeden Song fünf
Merkmalskomponenten, die aus der Projektion eines Spektrogramms
in der Zeit-(X-) und der Frequenzachse (Y-Achse) abgeleitet sind.
Das erste Merkmal ist der Michelson-Kontrast in der X-Richtung,
der das in einer Songprobe enthaltene „Beat"-Niveau darstellt.
Das zweite Merkmal stellt das Ausmaß an „Rauschen"
in der Y-Richtung oder die „Reinheit" des Spektrums dar.
Das dritte Merkmal ist die Entropie in der Y-Richtung, die berechnet
wird, indem zuerst die Y-Projektion des Spektrogramms dahin gehend
normiert wird, eine Wahrscheinlichkeitsverteilung zu sein, und indem
anschließend die Shannon-Entropie berechnet wird. Das vierte
und das fünfte Merkmal sind der Massenmittelpunkt bzw.
das Trägheitsmoment der drei höchsten spektralen
Spitzen in dem Y-projizierten Spektrogramm. Das vierte und das fünfte
Merkmal stellen grob die Toneigenschaften einer Songprobe dar. Merkmale,
die andere musikalische Charakteristika darstellen, können
bei den Merkmalsvektoren ebenfalls verwendet werden. Die Merkmalsvektoren
können aus dem vollständigen Song oder aus einem
Ausschnitt des Songs extrahiert werden.
-
2 veranschaulicht
in der Bibliothek 102 gespeicherte Informationen gemäß einem
Ausführungsbeispiel der vorliegenden Erfindung. Wie in 2 gezeigt
ist, können die gespeicherten Informationen. durch eine
Tabelle dargestellt werden, wobei jeder Songausschnitt durch eine
Zeile in der Tabelle dargestellt ist. Eine erste Spalte umfasst
die Identifizierung des Songs. Die zweite Spalte kann einen Verweis
auf die exzerpierte Probe des Songs umfassen. Wenn beispielsweise
der vollständige Song in der Bibliothek 102 gespeichert
ist, kann der Verweis den Start der Probe relativ zu dem Start der
Tonspur des Songs (Beginn z. B. zwanzig Sekunden nach Beginn des
Songs) und eine Dauer der Probe angeben. In 2 weisen
die Proben eine einheitliche Dauer von acht Sekunden auf, obwohl
die Dauern unterschiedlich sein können und nicht einheitlich
sein müssen. Bei einem Ausführungsbeispiel können
in der Bibliothek 102 zwei oder mehr verschiedene exzerpierte
Proben desselben Songs vorliegen. Dies ist in 2 dadurch
gezeigt, dass Song2 in der ersten Spalte
zweimal vorkommt. Jedoch erscheinen in der zweiten Spalte zwei verschiedene
Verweise für den Song2, wobei jeder
eine andere Position in dem Song angibt. Insbesondere beginnt die
erste Probe zehn Sekunden nach Beginn des Songs und ist acht Sekunden
lang. Die zweite Probe ist ebenfalls acht Sekunden lang, startet
jedoch dreißig Sekunden nach Beginn des Songs. Bei diesem
Ausführungsbeispiel identifizieren die Songidentifizierung
und der Verweis jeder Zeile zusammen jeden exzerpierten Ausschnitt auf
eindeutige Weise. Alternativ dazu kann die Tabelle die Probe selbst
oder einen Verweis auf den gesam ten Song umfassen. Eine dritte Spalte
in der Tabelle kann die Metadaten für den Song umfassen. Wie
in 2 gezeigt ist, können die Metadaten den Titel
des Songs und den Künstler umfassen. Eine vierte Spalte
kann die extrahierten Audioparameter umfassen. Wie in 2 gezeigt
ist, umfasst dies den Merkmalsvektor für jeden Song. Wie
ebenfalls in 2 gezeigt ist, kann der Merkmalsvektor
f für einen Song als f = f1, f2, ..., fk gegeben
sein, wobei der Merkmalsvektor k Komponenten oder Merkmale aufweist.
-
Unter
erneuter Bezugnahme auf 1 ist das Abspielgerät 104 funktional
mit der Bibliothek 102 gekoppelt, so dass die gespeicherten
Ausschnitte der Songs durch das Abspielgerät 104 selektiv
abgespielt werden können. Das Abspielgerät 104 ist
mit dem Format, in dem die Songausschnitte gespeichert sind, kompatibel.
Beispielsweise kann das Abspielgerät 104 ein MP3-Player
sein.
-
Die
Benutzerschnittstelle 106 verleiht einem Benutzer die Fähigkeit,
beim Durchsuchen von Musik mit dem System 100 zu interagieren.
Zum Hören von Audiodateien, die durch das Abspielgerät 104 abgespielt
werden, kann die Benutzerschnittstelle 106 eine oder mehrere
Klangausgabevorrichtungen, z. B. einen oder mehrere Lautsprecher,
einen Ohrhörer oder Kopfhörer umfassen. Die Benutzerschnittstelle 106 umfasst
auch eine Eingabevorrichtung wie z. B. eine Tastatur oder eine in
der Hand zu haltende Fernsteuerung zum Liefern einer Benutzereingabe
an das System 100. Ein Mikrophon kann als Eingabevorrichtung
verwendet werden und kann in Verbindung mit Spracherkennungssoftware
verwendet werden, um eine verbale Eingabe von dem Benutzer anzunehmen.
-
Ein
Songselektor 108 empfängt eine Eingabe von dem
Benutzer über die Schnittstelle 106 und hat auch
Zugang zu der Bibliothek 102. Auf der Basis der Benutzereingabe
und der Informationen in der Bibliothek 102 wählt
der Songselektor 108 den Song (oder Ausschnitt desselben),
der als Nächstes über das Abspielgerät 102 gespielt
werden soll, aus. Der Songselektor 108 kann auch das Abspielen
eines Songs (oder eines Ausschnitts desselben) auf der Basis einer
Eingabe (z. B. von dem Benutzer) an den Selektor 108 beenden.
Der Songselektor 108 führt einen Songauswahlalgorithmus
durch, wie hierin ausführlicher erläutert ist.
-
Eine
Historienaufzeichnung 110 kann durch das System 100 erzeugt
werden. Beispielsweise kann die Historienaufzeichnung 110 eine
Sequenz von Songs umfassen, die durch den Songselektor 108 ausgewählt
werden, während der Benutzer mit dem System 100 interagiert,
um Musik zu durchsuchen. Eine derartige Sequenz von Songs kann als Abspielliste
verwendet werden, um das Abspielgerät 104 oder
ein anderes Abspielgerät wie z. B. ein herkömmliches
Audioabspielgerät dahin gehend zu steuern, vollständige
Songs abzuspielen, nachdem der Benutzer eine Musiksammlung durchsucht
hat. Die Abspielliste, die mittels Filtern ausgehend von der Aufzeichnung 110 erzeugt
werden kann, umfasst lediglich diejenigen Songs, für die
der Benutzer eine positive Angabe bezüglich dessen machte,
dass der Song dem Benutzer gefallen hat. Zusätzlich oder
alternativ dazu kann die Historienaufzeichnung 110 Informationen
umfassen, die von der Benutzerschnittstelle 106 erhalten
wurden, z. B. Angaben für ausgewählte Songs in
Bezug darauf, ob ein Song dem Benutzer gefallen hat oder nicht.
Diese Informationen können durch den Songselektor 108 zur
späteren Verwendung oder als Eingabe in einen anderen Songselektor
oder Songauswahlalgorithmus, z. B. ein kollaboratives Filter, gesichert
werden.
-
Das
System 100 kann anhand einer Maschine implementiert sein,
beispielsweise durch ein entsprechend konfiguriertes und programmiertes
Mehrzweck-Computersystem. Die Bibliothek 102 und die Historienaufzeichnung 110 können
jeweils im Speicher und/oder Massenspeicher des Computers gespeichert
sein. Das Abspielgerät 104 und der Songselektor 108 können
jeweils anhand eines geeigneten Softwareprogramms, das in dem Computer
installiert ist, implementiert sein. Die Benutzerschnittstelle 106 kann
durch ein Display, eine Tastatur und Lautsprecher des Computersystems
implementiert sein. Die Schnittstelle 106 kann eine in
der Hand zu haltende Fernsteuerung umfassen, so dass ein Benutzer
eine Eingabe aus einer bequemen Entfernung oder Position tätigen
kann. Das System 100 kann eine Audioausrüstung
mit hoher Klangtreue umfassen, beispielsweise einen mit Leistung
versorgten Audioverstärker und Lautsprecher, um das Hörerlebnis
für den Benutzer zu verbessern.
-
3 veranschaulicht
ein Verfahren 200 zum Durchsuchen von Musik gemäß einem
Ausführungsbeispiel der vorliegenden Erfindung. Das Verfahren 200 der 3 kann
durch das System 100 der 1 implementiert
sein. Bei einem Schritt 202 wird ein erster Song aus denjenigen,
die zum Durchsuchen in der Bibliothek 102 zur Verfügung
stehen, ausgewählt. Der Songselektor 108 kann
diesen Schritt durchführen. Da noch keinerlei Benutzerpräferenzinformationen
zum Auswählen des ersten Songs verfügbar sind,
kann der erste Song zufällig ausgewählt werden.
Alternativ dazu kann der erste Song gemäß anderen
Kriterien ausgewählt werden, z. B. indem ein Song, der
einen repräsentativen oder durchschnittlichen Merkmalsvektor
aufweist, aus den Songs in der Bibliothek 102 ausgewählt
wird.
-
Bei
einem Schritt 204 wird zumindest ein Ausschnitt des Songs
abgespielt. Bei diesem Schritt beginnt der vollständige
Song oder zumindest der exzerpierte Ausschnitt des Songs zu spielen,
so dass der Benutzer ihn hören kann. Dieser Schritt kann durchgeführt
werden, indem der Ausschnitt des Songs aus der Bibliothek 102 abgerufen
wird und indem der Song durch das Abspielgerät 104 abgespielt wird.
-
Während
der zumindest eine Ausschnitt des ausgewählten Songs spielt,
wird bei Schritt 206 eine Eingabe von dem Benutzer angenommen.
Die Eingabe umfasst eine Angabe darüber, wie der Song dem
Benutzer gefällt. Beispielsweise kann die Angabe eine positive
Angabe sein, dass der Song dem Benutzer gefällt, oder eine
negative Angabe, dass der Song dem Benutzer nicht oder nicht besonders
gut gefällt. In diesem Fall kann der Benutzer eine Taste auf
der Computertastatur oder der in der Hand zu haltenden Fernbedienung
drücken, um die positive Angabe einzugeben, und eine andere
Taste, um die negative Angabe einzugeben. Alternativ dazu kann die Angabe
eine numerische Punktzahl sein, die angibt, ob und wie sehr der
Song dem Benutzer gefällt. Beispielsweise können
Tasten auf der Tastatur oder der in der Hand zu haltenden Fernbedienung
Werte von eins bis fünf zugewiesen sein, wobei eins bedeutet, dass
der Song dem Benutzer extrem gut gefällt, eine fünf
bedeutet, dass der Song dem Benutzer nicht oder nicht besonders
gut gefällt, und Werte zwischen null und fünf
verschiedenen Gefallensgraden zwischen diesen zwei Extremen zugewiesen
sind.
-
Bei
dem Schritt 206 könnte lediglich ein Ausschnitt
des Songs abgespielt werden. Beispielsweise kann der Ausschnitt
eine vorbestimmte Dauer (z. B. acht Sekunden) aufweisen. Falls der
Benutzer die Eingabe vor Ablauf der Zeitdauer tätigt, kann
das Abspielen des Ausschnitts beendet werden, bevor der vollständige
Ausschnitt gespielt wurde. Beispielsweise kann das Abspielen sofort
beendet werden. Falls der Benutzer keinerlei Eingabe liefert, während
der Ausschnitt gespielt wird, kann dies als Angabe bezüglich
des Gefallens des Benutzers an dem Song interpretiert und behandelt
werden. Beispielsweise kann dies als negative Angabe bezüglich
dessen interpretiert werden, dass der Song dem Benutzer nicht gefällt.
Wenn der Benutzer alternativ dazu keinerlei Eingabe tätigt,
während der Ausschnitt gespielt wird, kann dies ignoriert
werden, so als ob der Song nicht gespielt worden wäre.
-
Bei
einem Schritt 208 wird ein nächster zu spielender
Song durch den Songselektor 108 ausgewählt. Der
zumindest eine Ausschnitt des nächsten Songs beginnt zu
spielen, nachdem eine Benutzereingabe bezüglich des vorherigen
Songs empfangen wurde oder nachdem der Ausschnitt des vorherigen Songs ohne
Eingabe von dem Benutzer zu Ende gespielt wurde. Der nächste
Song kann unmittelbar nach Empfang der Benutzereingabe oder nach
Beendigung des vorherigen Songs zu spielen beginnen, so dass Songs
dem Benutzer in rascher Abfolge präsentiert werden, so
schnell wie der Benutzer in der Lage ist, Entscheidungen zu treffen
und eine Eingabe zu tätigen. Auf diese Weise kann eine
große Sammlung an Songs rasch und effizient durchsucht
werden.
-
Der
nächste Song wird auf der Basis der Angabe bezüglich
zumindest des zuvor ausgewählten Songs und von in der Bibliothek
102 gespeicherten Informationen
ausgewählt. Beispielsweise kann der nächste Song
auf der Basis der Angabe bezüglich des zuvor ausgewählten
Songs und auf einen Vergleich der extrahierten Audioparameter bezüglich des
zuvor ausgewählten Songs mit den extrahierten Audioparametern
für Songs in der Bibliothek hin ausgewählt werden.
Im Einzelnen können die Merkmalsvektoren aller Songs in
der Bibliothek
102 auf Punkte in einen mehrdimensionalen
Raum abgebildet werden. Falls beispielsweise n Parameter in den
Merkmalsvektoren vorliegen, kann jeder auf einen Punkt im n-dimensionalen
Raum abgebildet werden. Außerdem können euklidische
Abstände zwischen dem Punkt für jeden Song (vorzugsweise
ausschließlich der bereits ausgewählten) und dem
Punkt für den vorherigen Song berechnet werden. Der Abstand
d zwischen einem Merkmalsvektor
f 1 für Song
1 und
einem Merkmalsvektor
f 2 für einen Song
2 kann
als
gegeben sein. Statt euklidische
Abstände zu berechnen, kann alternativ dazu ein anderes
Distanzmaß verwendet werden, z. B. Mahalanobis-Abstand,
der auf Korrelationen zwischen Variablen beruht und skaleninvariant
ist.
-
Falls
der vorherige Song dem Benutzer gefallen hat, kann der nächste
auszuwählende Song einer mit einem geringen Abstand zu
dem vorherigen Song sein. Dies führt wahrscheinlich dazu,
dass der nächste ausgewählte Song ähnliche
Audiocharakteristika aufweist wie der vorherige Song. Als solches besteht
eine beträchtliche Wahrscheinlichkeit, dass der nächste
Song dem Benutzer gefallen wird. Der ausgewählte Song kann
der mit dem geringsten Abstand zu dem vorherigen Song sein, oder
er kann aus mehreren Songs, die einen relativ geringen Abstand aufweisen,
ausgewählt sein. Beispielsweise kann der ausgewählte
Song zufällig aus einer Gruppe von Songs ausgewählt
sein, die weniger als einen vorbestimmten Abstand aufweisen oder
die innerhalb eines gewissen Abstands-Perzentils (z. B. den nächstliegenden
zehn Prozent) liegen.
-
Alternativ
dazu kann, wenn der vorherige Song dem Benutzer nicht gefallen hat,
der nächste auszuwählende Song einer sein, der
einen großen Abstand von dem vorherigen Song aufweist.
Dies führt wahrscheinlich dazu, dass der nächste
ausgewählte Song Audiocharakteristika aufweist, die denen
des vorherigen Songs unähnlich sind. Diese Auswahl beruht
auf der Annahme, dass ein Song, der einem, der dem Benutzer missfallen
hat, unähnlich ist, eine beträchtliche Wahrscheinlichkeit
aufweist, dass er dem Benutzer gefallen wird. Der ausgewählte Song
kann derjenige mit dem größten Abstand zu dem
vorherigen Song sein, oder er kann zufällig aus mehreren
Songs, die einen relativ großen Abstand aufweisen, ausgewählt
sein. Beispielsweise kann der ausgewählte Song aus einer
Gruppe von Songs ausgewählt sein, die mehr als einen vorbestimmten
Abstand aufweisen oder die innerhalb eines bestimmten Abstands-Perzentils
(z. B. den am weitesten entfernten zehn Prozent) liegen.
-
Auf
diese Weise wird jeder nächste Song dahin gehend ausgewählt,
dass eine beträchtliche Wahrscheinlichkeit besteht, dass
er dem Benutzer gefallen wird. Dadurch wird die Menge an Songs reduziert,
die dem Benutzer missfallen, die dem Benutzer präsentiert
werden, die sich der Benutzer dann anhören müsste
und eine Rückmeldung geben müsste. Dies ermöglicht
auch, dass eine große Sammlung von Songs durchsucht wird
und dass diejenigen Songs, die einem Benutzer gefallen, rasch und
effizient identifiziert werden.
-
Es
können verschiedene Songauswahlalgorithmen eingesetzt werden,
die den die Angabe bezüglich zumindest des zuvor ausgewählten
Songs und bezüglich Informationen, die in der Bibliothek 102 gespeichert
sind, dazu verwenden, Songs auszuwählen, die eine beträchtliche
Wahrscheinlichkeit aufweisen, dass sie dem Benutzer gefallen werden. Statt
lediglich die Reaktion des Benutzers auf den vorherigen Song zu
berücksichtigen, kann der nächste Song beispielsweise
auf der Basis der Reaktion des Benutzers auf eine Mehrzahl von Songs
ausgewählt werden. Genauer gesagt können alle
oder manche der zuvor ausgewählten Songs, bezüglich derer
der Benutzer eine positive Angabe machte, gruppiert werden. Für
jeden Song in der Bibliothek 102 (vorzugsweise ausschließlich
der bereits ausgewählten) kann sein Abstand zu der Gruppe
berechnet werden, indem sein Abstand zu dem nächstliegenden
Song in der Gruppe bestimmt wird oder indem dessen Abstand zu einem
Durchschnitt der Merkmalsvektoren von Songs in der Gruppe bestimmt wird.
Der nächste Song kann anschließend aus denjenigen
in der Bibliothek ausgewählt werden, die einen geringen
Abstand zu der Gruppe aufweisen (z. B. den geringsten Abstand aufweisen
oder innerhalb eines bestimmten Abstands-Perzentils liegen).
-
Bei
einem alternativen Ausführungsbeispiel können
sowohl negative als auch positive Reaktionen berücksichtigt
werden. Insbesondere können alle oder manche der zuvor
ausgewählten Songs, bezüglich derer der Benutzer
eine positive Angabe lieferte, in eine erste Gruppe platziert werden,
während manche oder alle der zuvor ausgewählten
Songs, bezüglich derer der Benutzer eine negative Angabe machte,
in eine zweite Gruppe platziert werden. Dann können für
jeden Song in der Bibliothek 102 (vorzugsweise ausschließlich
der bereits ausgewählten) dessen Abstände zu beiden
Gruppen bestimmt werden. Der nächste Song kann derart ausgewählt werden,
dass sein Abstand zu der ersten Gruppe minimiert ist und sein Abstand
zu der zweiten Gruppe maximiert ist. Beispielsweise kann dort, wo
der Abstand eines Songs zu der ersten Gruppe als dja gegeben
ist und der Abstand des Songs zu der zweiten Gruppe als dnein gegeben ist, ein kombiniertes Abstandsmaß als:
dja/nein = (dja + ε)/(dnein + ε), wobei ε eine
Konstante ist, gegeben sein. Dann kann der nächste Song
als einer ausgewählt werden, der den größten
Wert dja/nein aufweist, oder dessen Wert
für dja/nein innerhalb eines bestimmten
Perzentils des größten liegt.
-
Wie
erwähnt wurde, kann die Benutzereingabe eine numerische
Punktzahl umfassen. Demgemäß kann der nächste
Song ausgewählt werden, indem die Punktzahlen für
manche oder alle der zuvor ausgewählten Songs berücksichtigt
werden. Beispielsweise können manche oder alle der zuvor
ausgewählten Songs, für die eine Punktzahl empfangen wurde,
in eine Gruppe platziert werden. Dann kann der Abstand zu der Gruppe
für jeden Song in der Bibliothek
102 (vorzugsweise
ausschließlich der bereits ausgewählten) berechnet
werden. Beispielsweise kann der Abstand zwischen einem Song k in
der Bibliothek
102 zu einer aus zuvor ausgewählten Songs
i = 1, 2, ..., n bestehenden Gruppe wie folgt berechnet werden:
wobei w
i die
numerische Punktzahl für den Song i ist und wobei eine
niedrige Punktzahl angibt, dass der Song gefallen hat, und eine
hohe Punktzahl angibt, dass der Song nicht gefallen hat. Demgemäß werden die
Abstände zwischen jedem Song in der Bibliothek und jedem
zuvor ausgewählten Song gemäß der durch
den zuvor ausgewählten Song empfangenen Punktzahl gewichtet.
Der Abstand für einen Song in der Bibliothek zu der Gruppe
wird anschließend als der kürzeste gewichtete
Abstand zu jeglichem Element der Gruppe berechnet. Überdies
kann sich der Abstand, auf dem die Auswahl des nächsten
Songs beruht, auf der Basis der Benutzereingabe mit der Zeit ändern.
Falls beispielsweise für einen oder mehrere ausgewählte
Songs keine Benutzereingabe oder eine negative Benutzereingabe vorliegt,
dann kann der Perzentilabstand allmählich zunehmen, was
zu einer breiteren Erkundung der Musikbibliothek führt. Wenn
Benutzereingaben erfasst oder positive Eingaben empfangen werden,
kann der Perzentilabstand allmählich abnehmen, was zu einer
Verschmälerung der Erkundung der Bibliothek führt.
-
Auch
können Metadaten, die in der Bibliothek 102 gespeichert
sind, durch den Songselektor 108 zum Auswählen
des nächsten Songs verwendet werden. In diesem Fall können
die Metadaten dazu verwendet werden, die Ähnlichkeit des
nächsten Songs mit dem vorherigen Song oder dem Satz von zuvor
ausgewählten Songs zu erhöhen. Falls die Benutzereingabe
für vorherige Songs beispielsweise angibt, dass der Benutzer
eher an einem Song Gefallen finden wird, wenn er in einem bestimmten
Genre ist, dann kann der Songauswahlalgorithmus Songs aus bestimmten
anderen Genres ausschließen, auch wenn ihre Merkmalsvektoren
angeben, dass sie eine beträchtliche Wahrscheinlichkeit
aufweisen, dass sie dem Benutzer gefallen werden. Alternativ dazu
können die Metadaten dazu verwendet werden, die Vielfalt
ausgewählter Songs zu erweitern. Wenn beispielsweise ein
ausgewählter Song von einem bestimmten Künstler
stammt, so können Songs dieses Künstlers für
den nächsten Song oder die mehreren nächsten Songs
aus einer Betrachtung ausgeschlossen werden, auch wenn ihre Merkmalsvektoren
angeben, dass sie aufgrund der vorherigen Reaktionen des Benutzers
eine beträchtliche Wahrscheinlichkeit haben, dass sie gefallen
werden.
-
Bei
einem Ausführungsbeispiel kann der Benutzer jederzeit dafür
optieren, dass ein nächster Song zufällig aus
der Sammlung von zu durchsuchenden Songs ausgewählt wird.
Beispielsweise kann eine zusätzliche Taste auf der Tastatur
oder der in der Hand zu haltenden Fernbedienung einer „Zufälligen-Song-Wählen"-Funktion
zugewiesen sein. Statt also auf der Basis der Benutzereingabe bezüglich
des vorherigen Songs oder der vorherigen Songs ein Durchsuchen von
durch den Songselektor 108 ausgewählten Songs
fortzusetzen, kann der nächste Song zufällig ausgewählt
werden. Dies hat den Effekt, zu Schritt 202 bei dem Verfahren
der 3 zurückzukehren. Dann, nachdem der Benutzer
eine Angabe bezüglich des Gefallens des Benutzers an diesem
zufällig ausgewählten Song tätigt, können
nachfolgende Songs durch den Songselektor 108 ausgewählt
werden, wie oben erläutert wurde. Die nachfolgenden Songauswahlen
berücksichtigen eventuell lediglich eine Eingabe, die von
dem Benutzer empfangen wurde, nachdem die „Zufälligen-Song-Wählen"-Auswahl
aufgerufen wurde. Alternativ dazu kann eine Eingabe berücksichtigt
werden, die von dem Benutzer in Bezug auf Songs empfangen wurde,
die gespielt wurden, bevor die „Zufälligen-Song-Wählen"-Auswahl
aufgerufen wurde.
-
Es
können zusätzliche Benutzereingabesteuerungen
geliefert werden. Beispielsweise kann die Dauer des Ausschnitts
der während des Durchsuchens gespielten Songs je nach Präferenz
des Benutzers einstellbar sein. Beispielsweise kann der Benutzer
die Dauer der zu spielenden Songausschnitte wählen und
kann auch zwischen einem Abspielen von Ausschnitten einer bestimmten
Dauer oder einem Abspielen der gesamten Songs wählen. Ferner kann
der Benutzer in der Lage sein, einen bestimmten Song oder Ausschnitt
desselben erneut abzuspielen oder eine längere Dauer eines
bestimmten Songs abzuspielen, falls der Benutzer beispielsweise nicht
sicher ist, ob der Song Gefallen findet oder nicht. Der Benutzer
kann auch die Lautstärke, mit der die Songs abgespielt
werden, steuern.
-
Bei
einem Ausführungsbeispiel kann ein Filterkriterium bzw.
können mehrere Filterkriterien auf Songs in der Bibliothek
angewendet werden, um die Bandbreite an Songs, die möglicherweise
durch den Songselektor 108 ausgewählt werden können,
zu begrenzen. Beispielsweise kann der Benutzer eine Abspielliste
von Songs mit langsamem Tempo erstellen wollen, die sich dafür
eignen, beim Einschlafen abgespielt zu werden. Eine derartige Abspielliste
kann als „Songs für die Schlafenszeit" bezeichnet
werden. Als weiteres Beispiel kann der Benutzer eine Abspielliste von
Songs mit schnellerem Tempo, die zum Tanzen geeignet sind, erstellen
wollen. Dies kann dadurch bewerkstelligt werden, dass der Benutzer
ein Filterkriterium festlegt, bevor er beginnt, die Songs zu durchsuchen.
Wenn der Benutzer beispielsweise eine „Songs-zum-Tanzen"-Abspielliste
erstellen möchte, kann der Benutzer festlegen, dass lediglich „Songs
mit einem Tempo im Bereich von 60 bis 120 und von ¾ Meter"
als mögliche Auswahlen durch den Songselektor 108 zur
Verfügung gestellt werden.
-
Bei
einem anderen Ausführungsbeispiel kann der Songselektor 108 Songs
auf der Basis eines Extrapolierens von Tendenzen in den Angaben des
Benutzers bezüglich zuvor ausgewählter Songs auswählen.
Dies beruht auf der Annahme, dass sich der Geschmack des Benutzers
verändern kann, während der Benutzer Songs durchsucht.
Wenn der Benutzer beispielsweise Gefallen an Songs mit langsamem
Tempo angibt und später Gefallen an Songs mit mittlerem
Tempo angibt, kann der Songselektor 108 einen nächsten
Song, der ein schnelles Tempo aufweist, als Form einer Unterstützung
des Benutzers bei der weiteren Erkundung der Bibliothek 102 auswählen.
-
Bei
einem Ausführungsbeispiel können Komponenten des
Merkmalsvektors für Songs in der Bibliothek unterschiedlich
zueinander gewichtet werden, um die Abstandsberechnungen durchzuführen. Dieses
Gewichten kann der Kontrolle des Benutzers unterliegen. Wenn der
Benutzer beispielsweise Interesse daran hat, eine Abspielliste von
Songs zu erstellen, die einen bezeichnenden „Beat" aufweisen, kann
das System den Michelson-Kontrast in der X-Richtung, der das in
einer Songprobe enthaltene „Beat"-Niveau darstellt, schwerer
gewichten als andere Komponenten. Wenn der Abstand zwischen Songausschnitten
berechnet wird, erscheinen dann diejenigen, die einen stärkeren „Beat"
aufweisen, näher.
-
Wie
oben beschrieben wurde, kann die Historienaufzeichnung 110 eine
Sequenz von Songs, die durch den Songselektor 108 ausgewählt
werden, umfassen, die gesichert und später verwendet werden
können, um eine Abspielliste zu erstellen, um das Abspielgerät 104 oder
ein anderes Abspielgerät dahin gehend zu steuern, die Songs
vollständig abzuspielen. Bei einem Ausführungsbeispiel
kann der Benutzer die Reihenfolge, in der die Songs abgespielt werden,
je nach den Präferenzen des Benutzers optional ändern,
oder die Songs können in zufälliger Reihenfolge
von der Abspielliste abgespielt werden. Außerdem kann der
Songselektor 108 dazu verwendet werden, neue Songs, bei
denen auf der Basis der bereits in der Abspielliste vorhandenen
Songs ermittelt wird, dass sie eine beträchtliche Wahrscheinlichkeit
haben, dass der Benutzer Gefallen an ihnen finden wird, in die Abspielliste
einzuschieben. Beispielsweise können die Merkmalsvektoren
für eingeschobene Songs einen geringen Abstand zu denen eines
oder mehrerer der bereits in der Abspielliste vorhandenen Songs
aufweisen. Der Anteil an eingeschobenen Songs kann durch den Benutzer
gesteuert werden, beispielsweise durch eine zusätzliche Taste
oder einen zusätzlichen Bedienungsknopf auf der Tastatur
oder der Fernsteuerung.
-
4A–C
veranschaulichen Aufzeichnungen 110 von Musikdurchsuchungsinformationen,
die gemäß Ausführungsbeispielen der vorliegenden
Erfindung erzeugt wurden. Insbesondere veranschaulichen 4A–C
jeweils eine Tabelle, in der ein ausgewählter Song (für
den zumindest ein Ausschnitt für den Benutzer gespielt
wird) eine Zeile in der Tabelle einnimmt und eine erste Spalte die
Identifizierung der ausgewählten Songs umfasst. Die Aufzeichnung
der 4A weist eine zweite Spalte auf, die eine positive oder
negative Angabe für jeden Song in der Tabelle umfasst.
Wie oben erläutert wurde, bedeutet die positive Angabe,
dass dem Benutzer der Song gefallen hat, und die negative Angabe
bedeutet, dass dem Benutzer der Song nicht gefallen hat. Die Aufzeichnung
der 4B weist eine zweite Spalte auf, die eine Punktzahl
für jeden Song in der Tabelle umfasst, die angibt, wie
sehr dem Benutzer der Song gefallen hat oder nicht. Wie bei den
obigen Beispielen liegen die Punkt zahlen zwischen eins und fünf,
wobei eine niedrigere Punktzahl einen größeren
Gefallen an dem Song angibt.
-
Ähnlich
wie 4B weist die Aufzeichnung der 4C eine
zweite Spalte auf, die eine Punktzahl für jeden Song in
der Tabelle umfasst, die angibt, wie sehr dem Benutzer der Song
gefallen hat oder nicht. Außerdem weist die Aufzeichnung
der 4C eine dritte Spalte auf, die angibt, wie viel
von der Probe des Songs gespielt wurde, bevor der Benutzer die Punktzahl
für den Song eingab. Bei diesem Beispiel umfasst die dritte
Spalte die Prozent der Probe an der Gesamtdauer. Falls die Probe
also acht Sekunden lang wäre und der Benutzer vier Sekunden
nach Beginn der Probe eine Punktzahl eingeben würde, würde
die gespielte Zeit 50 betragen. Falls man die gesamte Probe
ohne jegliche Benutzereingabe abspielen ließe, würde
die gespielte Zeit 100 betragen. Es wird einleuchten, dass
der Anteil der Probe, der gespielt wurde, auf andere Weise dargestellt
werden könnte (z. B. in Sekunden). Eine vierte Spalte in
der Aufzeichnung der 4C umfasst Datums- und Uhrzeitinformationen,
die jedem in der Tabelle dargestellten Song entsprechen. Bei diesem
Beispiel markieren das Datum und die Uhrzeit die Zeit der Benutzereingabe.
Falls jeder Song unmittelbar bei Empfang der Benutzereingabe für
den vorherigen Song zu spielen beginnt, so geben die Datums- und
Uhrzeitinformationen in der Tabelle für einen vorherigen Song
an, wann der nächste Song zu spielen begann. Somit wurde
unter Bezugnahme auf 4C die Benutzereingabe für
Song2 um 10:01 empfangen (als 10:01:00 dargestellt).
Dies ist auch der Zeitpunkt, zu dem der Song3 zu
spielen begann. Dann, um vier Sekunden nach 10:01 (als 10:01:04
dargestellt), wurde die Benutzereingabe für Song3 empfangen. Dies ist auch der Zeitpunkt,
zu dem Song4 zu spielen begann.
-
Die
Aufzeichnungen 110 können durch den Songselektor 108 verwendet
werden oder zur späteren Verwendung als Eingabe in einen
anderen Songselektor oder Songauswahlalgorithmus, z. B. ein kollaboratives
Filter, gesichert werden.
-
Die
vorstehende ausführliche Beschreibung der vorliegenden
Erfindung dient Veranschaulichungszwecken und soll nicht erschöpfend
sein oder die Erfindung auf die offenbarten Ausführungsbeispiele
beschränken. Demgemäß wird der Schutzumfang
der vorliegenden Erfindung durch die angehängten Patentansprüche
definiert.
-
Zusammenfassung
-
Die
vorliegende Erfindung liefert ein Verfahren und ein System zum Durchsuchen
von Musik. Bei einem Ausführungsbeispiel umfasst ein Verfahren zum
Durchsuchen von aufgezeichneter Musik folgenden Schritten: Auswählen
eines Songs aus einer Bibliothek (102); Abspielen zumindest
eines Ausschnitts des ausgewählten Songs für einen
Benutzer; während der Ausschnitt des ausgewählten
Songs abspielt, Annehmen einer Eingabe von dem Benutzer, wobei die
Eingabe eine Angabe des Gefallens des Benutzers an dem zumindest
einen Ausschnitt des ausgewählten Songs umfasst; Wiederholen
der Schritte des Auswählens, Abspielens und Annehmens,
um eine Sequenz von Songausschnitten zu erzeugen; und Erstellen
einer Aufzeichnung (110), die eine Identifizierung jedes
ausgewählten Songausschnitts und die Angabe bezüglich
der Songausschnitte umfasst.
-
ZITATE ENTHALTEN IN DER BESCHREIBUNG
-
Diese Liste
der vom Anmelder aufgeführten Dokumente wurde automatisiert
erzeugt und ist ausschließlich zur besseren Information
des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen
Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt
keinerlei Haftung für etwaige Fehler oder Auslassungen.
-
Zitierte Patentliteratur
-
- - US 2004/0064209 [0012, 0012]
- - US 6995309 [0014, 0014]