DE112007001774T5

DE112007001774T5 - Verfahren und System zum Dursuchen von Musik

Info

Publication number: DE112007001774T5
Application number: DE112007001774T
Authority: DE
Inventors: Ramin Palo Alto Samadani; Yu-Yao Palo Alto Chang; Tong Palo Alto Zhang; Ullas Palo Alto Gargi
Original assignee: Hewlett Packard Development Co LP
Current assignee: Hewlett Packard Development Co LP
Priority date: 2006-07-31
Filing date: 2007-07-31
Publication date: 2009-07-09
Anticipated expiration: 2027-08-01
Also published as: GB2454398A; KR20090035563A; DE112007001774B4; GB0902270D0; JP5039785B2; JP2009545833A; GB2454398B; US20080022846A1; WO2008016595A2; CN101496094B; CN101496094A; WO2008016595A3; US7521620B2; BRPI0714105A2; KR101143160B1

Abstract

Ein Verfahren zum Durchsuchen aufgezeichneter Musik mit folgenden Schritten:
Auswählen eines Songs aus einer Bibliothek;
Abspielen zumindest eines Ausschnitts des ausgewählten Songs für einen Benutzer;
während der Ausschnitt des ausgewählten Songs abspielt, Annehmen einer Eingabe von dem Benutzer, wobei die Eingabe eine Angabe des Gefallens des Benutzers an dem zumindest einen Ausschnitt des ausgewählten Songs umfasst;
Wiederholen der Schritte des Auswählens, Abspielens und Annehmens, um eine Sequenz von Songausschnitten zu erzeugen; und
Erstellen einer Aufzeichnung, die eine Identifizierung jedes ausgewählten Songausschnitts und die Angabe bezüglich des Songausschnitts umfasst.

Description

Gebiet der Erfindung
Die vorliegende Erfindung bezieht sich auf das Gebiet des Durchsuchens (Browsens) von Musik.
Hintergrund der Erfindung
Die Kosten einer digitalen Speicherung für Musik verringern sich, während Internet-Musikdienste immer mehr zunehmen. Demgemäß erfreuen sich Menschen in zunehmendem Maße an Musik, die man sich von Internet-Musikdiensten beschafft hat und die auf tragbaren Abspielgeräten mit hoher Kapazität gespeichert wird. Und in dem Maße, wie sich Menschen Musiksammlungen aneignen, werden die Musiksammlungen immer größer und reichen von Hunderten von Songs bis zu Zehntausenden von Songs. Außerdem ist die Musikerzeugung aufgrund von digitalen Musikproduktionshilfsmitteln einfacher und kostengünstiger geworden. Folglich erweitern viele neue und weniger bekannte Künstler das Universum aufgezeichneter Musik, die zur Auswahl zur Verfügung steht, auf drastische Weise.
Aufgrund dieser Tendenzen wird die Fähigkeit, Musiksammlungen und vor allem große Sammlungen effizient zu durchsuchen, immer wichtiger. Beispielsweise möchte jemand vielleicht seine eigene Musiksammlung durchsuchen oder möchte Songs, die ihm gefallen, aus einer unbekannten Musiksammlung entdecken. Oder ein Musikdienstanbieter möchte verbesserte Hilfsmittel liefern, die es seinen Kunden ermöglichen, die Musiksammlung des Dienstanbieters zu durchsuchen.
Bekannte Verfahren zum Durchsuchen von Musik umfassen Websites, die Musik zum Verkauf anbieten und die es jemandem ermöglichen, Proben von Songs abzuspielen. Jedoch kann dies in sofern etwas mühselig sein, als die Person üblicherweise den gewünschten Künstler, das gewünschte Album und den gewünschten Song aus einer großen zum Verkauf angebotenen Sammlung manuell auswählen muss. Kollaboratives Filtern ist ein Verfahren eines Ableitens, aus einer Teilliste der Vorlieben dieser Person und der Geschmäcker vieler Menschen, was einer bestimmten Person gefallen könnte. Aufgrund eines Mangels an benötigten Informationen von vielen Menschen funktioniert kollaboratives Filtern bei neuen und weniger bekannten Künstlern nicht gut.
Zusammenfassung der Erfindung
Die vorliegende Erfindung liefert ein Verfahren und System zum Durchsuchen (Browsen) von Musik. Bei einem Ausführungsbeispiel umfasst ein Verfahren zum Durchsuchen von aufgezeichneter Musik folgende Schritte: Auswählen eines Songs aus einer Bibliothek; Abspielen zumindest eines Ausschnitts des ausgewählten Songs für einen Benutzer; während der Ausschnitt des ausgewählten Songs abgespielt wird, Annehmen einer Eingabe von dem Benutzer, wobei die Eingabe eine Angabe bezüglich des Gefallens, das der Benutzer an dem zumindest einen Ausschnitt des ausgewählten Songs findet, umfasst; Wiederholen der Schritte des Auswählens, Abspielens und Annehmens, um eine Sequenz von Songausschnitten zu erzeugen; und Erstellen einer Aufnahme, die eine Identifizierung jedes. ausgewählten Songausschnitts und die Angabe für den Songausschnitt umfasst.
Kurze Beschreibung der Zeichnungen
Die vorliegende Erfindung wird unter Bezugnahme auf bestimmte exemplarische Ausführungsbeispiele derselben be schrieben, und demgemäß wird auf die Zeichnungen Bezug genommen, bei denen:
1 ein Blockdiagramm eines Systems zum Durchsuchen von Musik gemäß einem Ausführungsbeispiel der vorliegenden Erfindung veranschaulicht;
2 Informationen, die in einer Songbibliothek gespeichert sind, gemäß einem Ausführungsbeispiel der vorliegenden Erfindung veranschaulicht;
3 ein Verfahren zum Durchsuchen von Musik gemäß einem Ausführungsbeispiel der vorliegenden Erfindung veranschaulicht; und
4A bis C Aufzeichnungen von Musikdurchsuchungsinformatio nen, die erzeugt wurden, gemäß Ausführungsbeispielen der vorliegenden Erfindung veranschaulichen.
Ausführliche Beschreibung der Erfindung
1 veranschaulicht ein Blockdiagramm eines Systems 100 zum Durchsuchen von Musik gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. Das System 100 umfasst eine Musikbibliothek 102, ein Abspielgerät 104, eine Benutzerschnittstelle 106, einen Nächster-Song-Selektor 108 und eine Historienaufzeichnung 110.
Die Musikbibliothek 102 speichert zumindest einen Ausschnitt jedes Songs einer Sammlung von Songs, die durch das System 100 durchsucht werden sollen, zusammen mit Informationen über jeden Song. Es kann zwar jeder Song in seiner Gesamtheit in der Bibliothek 102 enthalten sein, dies ist jedoch nicht notwendig. Der Ausschnitt jedes Songs ist eine repräsentative exzerpierte Probe des Songs. Die Songs oder Ausschnitte derselben können als Audiodateien gespeichert sein, beispielsweise im MP3-Format. Die Probe eines Songs kann manuell aus dem Song ausgewählt werden, z. B. indem sich ein Benutzer den Song anhört und einen Ausschnitt des Songs, von dem der Benutzer entscheidet, dass er für den Song repräsentativ ist, auswählt. Alternativ dazu können die Proben automatisch (d. h. anhand eines computerimplementierten Verfahrens) ausgewählt werden. Beispielsweise beschreibt die U.S.-Patentschrift Veröffentlichungsnr. 2004/0064209 , deren gesamter Inhalt durch Bezugnahme hiermit aufgenommen ist, ein System und Verfahren zum Erzeugen eines Audio-Thumbnails einer Tonspur, das dazu verwendet werden kann, die in der Bibliothek 102 gespeicherten Proben zu erhalten. Gemäß der U.S.-Patentschrift Veröffentlichungsnr. 2004/0064209 wird ein erstes Inhaltsmerkmal, z. B. Gesang, als Charakteristik einer Tonspur erfasst. Eine vorbestimmte Länge des erfassten Ausschnitts der Tonspur, der dem ersten Inhaltsmerkmal entspricht, wird aus der Tonspur extrahiert. Ein Glanzpunkt der Tonspur, z. B. ein Ausschnitt der Tonspur, der eine plötzliche Zunahme zeitlicher Energie innerhalb der Tonspur aufweist, wird erfasst; und ein Ausschnitt der Tonspur, der dem Glanzpunkt entspricht, wird aus der Tonspur extrahiert. Die zwei extrahierten Ausschnitte der Tonspur werden als Thumbnail der Tonspur kombiniert.
Die gespeicherten Informationen über jeden Song umfassen zumindest eine Identifizierung des Songs, können aber zusätzliche Informationen umfassen. Beispielsweise kann die Bibliothek 102 Metadaten über den Song enthalten, die Sachinformationen wie z. B. den Namen des Künstlers, den Titel des Songs, das Genre, die Stimmung, die Rhythmusbeschreibung, den Stil, das Datum der Aufzeichnung, den Titel des Albums usw. umfassen können. Ein spezifisches Beispiel von Song-Metadaten sind ID3-Informationstags, die den Namen des Künstlers und den Songtitel und möglicherweise andere Informationen wie z. B. Datum, Spurnummer der CD, Albumtitel usw. umfassen.
Die in der Bibliothek 102 gespeicherten zusätzlichen Informationen über jeden Song können Audiomerkmalsinformationen umfassen, die aus der Tonspur selbst extrahiert oder verarbeitet wurden. Beispielsweise beschreibt die U.S.-Patentschrift Nr. 6,995,309 , deren gesamter Inhalt durch Bezugnahme hiermit aufgenommen ist, ein System und Verfahren zur Musikidentifikation, bei dem für jeden Song in einer Datenbank ein Merkmalsvektor berechnet wird. Ein derartiger Merkmalsvektor kann für jeden zu durchsuchenden Song oder für jeden Ausschnitt eines Songs in der Bibliothek 102 extrahiert und in der Bibliothek 102 gespeichert werden. Gemäß der U.S.-Patentschrift Nr. 6,995,309 wird der Merkmalsvektor für einen Song bestimmt, indem ein Spektrogramm eines verarbeiteten Zeitsignals für den Song erzeugt wird und anschließend Merkmale aus dem Spektrogramm extrahiert werden. Für die Zwecke der vorliegenden Erfindung ist das verarbeitete Zeitsignal für den Song ein digital abgetasteter Ausschnitt des Songs, z. B. ein Audio-Thumbnail, oder der gesamte Song. Verschiedene Techniken, die auf eine Verarbeitung von zeitdiskreten Signalen bezogen sind, sind in der Technik bezüglich eines Erzeugen des Spektrogramms hinreichend bekannt. Die Merkmale werden durch numerische Werte dargestellt und stellen grob spezifische musikalische Wahrnehmungscharakteristika wie z. B. Tonhöhe, Tempo und Reinheit dar. Bei einem Ausführungsbeispiel umfasst der Merkmalsvektor für jeden Song fünf Merkmalskomponenten, die aus der Projektion eines Spektrogramms in der Zeit-(X-) und der Frequenzachse (Y-Achse) abgeleitet sind. Das erste Merkmal ist der Michelson-Kontrast in der X-Richtung, der das in einer Songprobe enthaltene „Beat"-Niveau darstellt. Das zweite Merkmal stellt das Ausmaß an „Rauschen" in der Y-Richtung oder die „Reinheit" des Spektrums dar. Das dritte Merkmal ist die Entropie in der Y-Richtung, die berechnet wird, indem zuerst die Y-Projektion des Spektrogramms dahin gehend normiert wird, eine Wahrscheinlichkeitsverteilung zu sein, und indem anschließend die Shannon-Entropie berechnet wird. Das vierte und das fünfte Merkmal sind der Massenmittelpunkt bzw. das Trägheitsmoment der drei höchsten spektralen Spitzen in dem Y-projizierten Spektrogramm. Das vierte und das fünfte Merkmal stellen grob die Toneigenschaften einer Songprobe dar. Merkmale, die andere musikalische Charakteristika darstellen, können bei den Merkmalsvektoren ebenfalls verwendet werden. Die Merkmalsvektoren können aus dem vollständigen Song oder aus einem Ausschnitt des Songs extrahiert werden.
2 veranschaulicht in der Bibliothek 102 gespeicherte Informationen gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. Wie in 2 gezeigt ist, können die gespeicherten Informationen. durch eine Tabelle dargestellt werden, wobei jeder Songausschnitt durch eine Zeile in der Tabelle dargestellt ist. Eine erste Spalte umfasst die Identifizierung des Songs. Die zweite Spalte kann einen Verweis auf die exzerpierte Probe des Songs umfassen. Wenn beispielsweise der vollständige Song in der Bibliothek 102 gespeichert ist, kann der Verweis den Start der Probe relativ zu dem Start der Tonspur des Songs (Beginn z. B. zwanzig Sekunden nach Beginn des Songs) und eine Dauer der Probe angeben. In 2 weisen die Proben eine einheitliche Dauer von acht Sekunden auf, obwohl die Dauern unterschiedlich sein können und nicht einheitlich sein müssen. Bei einem Ausführungsbeispiel können in der Bibliothek 102 zwei oder mehr verschiedene exzerpierte Proben desselben Songs vorliegen. Dies ist in 2 dadurch gezeigt, dass Song₂ in der ersten Spalte zweimal vorkommt. Jedoch erscheinen in der zweiten Spalte zwei verschiedene Verweise für den Song₂, wobei jeder eine andere Position in dem Song angibt. Insbesondere beginnt die erste Probe zehn Sekunden nach Beginn des Songs und ist acht Sekunden lang. Die zweite Probe ist ebenfalls acht Sekunden lang, startet jedoch dreißig Sekunden nach Beginn des Songs. Bei diesem Ausführungsbeispiel identifizieren die Songidentifizierung und der Verweis jeder Zeile zusammen jeden exzerpierten Ausschnitt auf eindeutige Weise. Alternativ dazu kann die Tabelle die Probe selbst oder einen Verweis auf den gesam ten Song umfassen. Eine dritte Spalte in der Tabelle kann die Metadaten für den Song umfassen. Wie in 2 gezeigt ist, können die Metadaten den Titel des Songs und den Künstler umfassen. Eine vierte Spalte kann die extrahierten Audioparameter umfassen. Wie in 2 gezeigt ist, umfasst dies den Merkmalsvektor für jeden Song. Wie ebenfalls in 2 gezeigt ist, kann der Merkmalsvektor f für einen Song als f = f₁, f₂, ..., f_k gegeben sein, wobei der Merkmalsvektor k Komponenten oder Merkmale aufweist.
Unter erneuter Bezugnahme auf 1 ist das Abspielgerät 104 funktional mit der Bibliothek 102 gekoppelt, so dass die gespeicherten Ausschnitte der Songs durch das Abspielgerät 104 selektiv abgespielt werden können. Das Abspielgerät 104 ist mit dem Format, in dem die Songausschnitte gespeichert sind, kompatibel. Beispielsweise kann das Abspielgerät 104 ein MP3-Player sein.
Die Benutzerschnittstelle 106 verleiht einem Benutzer die Fähigkeit, beim Durchsuchen von Musik mit dem System 100 zu interagieren. Zum Hören von Audiodateien, die durch das Abspielgerät 104 abgespielt werden, kann die Benutzerschnittstelle 106 eine oder mehrere Klangausgabevorrichtungen, z. B. einen oder mehrere Lautsprecher, einen Ohrhörer oder Kopfhörer umfassen. Die Benutzerschnittstelle 106 umfasst auch eine Eingabevorrichtung wie z. B. eine Tastatur oder eine in der Hand zu haltende Fernsteuerung zum Liefern einer Benutzereingabe an das System 100. Ein Mikrophon kann als Eingabevorrichtung verwendet werden und kann in Verbindung mit Spracherkennungssoftware verwendet werden, um eine verbale Eingabe von dem Benutzer anzunehmen.
Ein Songselektor 108 empfängt eine Eingabe von dem Benutzer über die Schnittstelle 106 und hat auch Zugang zu der Bibliothek 102. Auf der Basis der Benutzereingabe und der Informationen in der Bibliothek 102 wählt der Songselektor 108 den Song (oder Ausschnitt desselben), der als Nächstes über das Abspielgerät 102 gespielt werden soll, aus. Der Songselektor 108 kann auch das Abspielen eines Songs (oder eines Ausschnitts desselben) auf der Basis einer Eingabe (z. B. von dem Benutzer) an den Selektor 108 beenden. Der Songselektor 108 führt einen Songauswahlalgorithmus durch, wie hierin ausführlicher erläutert ist.
Eine Historienaufzeichnung 110 kann durch das System 100 erzeugt werden. Beispielsweise kann die Historienaufzeichnung 110 eine Sequenz von Songs umfassen, die durch den Songselektor 108 ausgewählt werden, während der Benutzer mit dem System 100 interagiert, um Musik zu durchsuchen. Eine derartige Sequenz von Songs kann als Abspielliste verwendet werden, um das Abspielgerät 104 oder ein anderes Abspielgerät wie z. B. ein herkömmliches Audioabspielgerät dahin gehend zu steuern, vollständige Songs abzuspielen, nachdem der Benutzer eine Musiksammlung durchsucht hat. Die Abspielliste, die mittels Filtern ausgehend von der Aufzeichnung 110 erzeugt werden kann, umfasst lediglich diejenigen Songs, für die der Benutzer eine positive Angabe bezüglich dessen machte, dass der Song dem Benutzer gefallen hat. Zusätzlich oder alternativ dazu kann die Historienaufzeichnung 110 Informationen umfassen, die von der Benutzerschnittstelle 106 erhalten wurden, z. B. Angaben für ausgewählte Songs in Bezug darauf, ob ein Song dem Benutzer gefallen hat oder nicht. Diese Informationen können durch den Songselektor 108 zur späteren Verwendung oder als Eingabe in einen anderen Songselektor oder Songauswahlalgorithmus, z. B. ein kollaboratives Filter, gesichert werden.
Das System 100 kann anhand einer Maschine implementiert sein, beispielsweise durch ein entsprechend konfiguriertes und programmiertes Mehrzweck-Computersystem. Die Bibliothek 102 und die Historienaufzeichnung 110 können jeweils im Speicher und/oder Massenspeicher des Computers gespeichert sein. Das Abspielgerät 104 und der Songselektor 108 können jeweils anhand eines geeigneten Softwareprogramms, das in dem Computer installiert ist, implementiert sein. Die Benutzerschnittstelle 106 kann durch ein Display, eine Tastatur und Lautsprecher des Computersystems implementiert sein. Die Schnittstelle 106 kann eine in der Hand zu haltende Fernsteuerung umfassen, so dass ein Benutzer eine Eingabe aus einer bequemen Entfernung oder Position tätigen kann. Das System 100 kann eine Audioausrüstung mit hoher Klangtreue umfassen, beispielsweise einen mit Leistung versorgten Audioverstärker und Lautsprecher, um das Hörerlebnis für den Benutzer zu verbessern.
3 veranschaulicht ein Verfahren 200 zum Durchsuchen von Musik gemäß einem Ausführungsbeispiel der vorliegenden Erfindung. Das Verfahren 200 der 3 kann durch das System 100 der 1 implementiert sein. Bei einem Schritt 202 wird ein erster Song aus denjenigen, die zum Durchsuchen in der Bibliothek 102 zur Verfügung stehen, ausgewählt. Der Songselektor 108 kann diesen Schritt durchführen. Da noch keinerlei Benutzerpräferenzinformationen zum Auswählen des ersten Songs verfügbar sind, kann der erste Song zufällig ausgewählt werden. Alternativ dazu kann der erste Song gemäß anderen Kriterien ausgewählt werden, z. B. indem ein Song, der einen repräsentativen oder durchschnittlichen Merkmalsvektor aufweist, aus den Songs in der Bibliothek 102 ausgewählt wird.
Bei einem Schritt 204 wird zumindest ein Ausschnitt des Songs abgespielt. Bei diesem Schritt beginnt der vollständige Song oder zumindest der exzerpierte Ausschnitt des Songs zu spielen, so dass der Benutzer ihn hören kann. Dieser Schritt kann durchgeführt werden, indem der Ausschnitt des Songs aus der Bibliothek 102 abgerufen wird und indem der Song durch das Abspielgerät 104 abgespielt wird.
Während der zumindest eine Ausschnitt des ausgewählten Songs spielt, wird bei Schritt 206 eine Eingabe von dem Benutzer angenommen. Die Eingabe umfasst eine Angabe darüber, wie der Song dem Benutzer gefällt. Beispielsweise kann die Angabe eine positive Angabe sein, dass der Song dem Benutzer gefällt, oder eine negative Angabe, dass der Song dem Benutzer nicht oder nicht besonders gut gefällt. In diesem Fall kann der Benutzer eine Taste auf der Computertastatur oder der in der Hand zu haltenden Fernbedienung drücken, um die positive Angabe einzugeben, und eine andere Taste, um die negative Angabe einzugeben. Alternativ dazu kann die Angabe eine numerische Punktzahl sein, die angibt, ob und wie sehr der Song dem Benutzer gefällt. Beispielsweise können Tasten auf der Tastatur oder der in der Hand zu haltenden Fernbedienung Werte von eins bis fünf zugewiesen sein, wobei eins bedeutet, dass der Song dem Benutzer extrem gut gefällt, eine fünf bedeutet, dass der Song dem Benutzer nicht oder nicht besonders gut gefällt, und Werte zwischen null und fünf verschiedenen Gefallensgraden zwischen diesen zwei Extremen zugewiesen sind.
Bei dem Schritt 206 könnte lediglich ein Ausschnitt des Songs abgespielt werden. Beispielsweise kann der Ausschnitt eine vorbestimmte Dauer (z. B. acht Sekunden) aufweisen. Falls der Benutzer die Eingabe vor Ablauf der Zeitdauer tätigt, kann das Abspielen des Ausschnitts beendet werden, bevor der vollständige Ausschnitt gespielt wurde. Beispielsweise kann das Abspielen sofort beendet werden. Falls der Benutzer keinerlei Eingabe liefert, während der Ausschnitt gespielt wird, kann dies als Angabe bezüglich des Gefallens des Benutzers an dem Song interpretiert und behandelt werden. Beispielsweise kann dies als negative Angabe bezüglich dessen interpretiert werden, dass der Song dem Benutzer nicht gefällt. Wenn der Benutzer alternativ dazu keinerlei Eingabe tätigt, während der Ausschnitt gespielt wird, kann dies ignoriert werden, so als ob der Song nicht gespielt worden wäre.
Bei einem Schritt 208 wird ein nächster zu spielender Song durch den Songselektor 108 ausgewählt. Der zumindest eine Ausschnitt des nächsten Songs beginnt zu spielen, nachdem eine Benutzereingabe bezüglich des vorherigen Songs empfangen wurde oder nachdem der Ausschnitt des vorherigen Songs ohne Eingabe von dem Benutzer zu Ende gespielt wurde. Der nächste Song kann unmittelbar nach Empfang der Benutzereingabe oder nach Beendigung des vorherigen Songs zu spielen beginnen, so dass Songs dem Benutzer in rascher Abfolge präsentiert werden, so schnell wie der Benutzer in der Lage ist, Entscheidungen zu treffen und eine Eingabe zu tätigen. Auf diese Weise kann eine große Sammlung an Songs rasch und effizient durchsucht werden.
Der nächste Song wird auf der Basis der Angabe bezüglich zumindest des zuvor ausgewählten Songs und von in der Bibliothek 102 gespeicherten Informationen ausgewählt. Beispielsweise kann der nächste Song auf der Basis der Angabe bezüglich des zuvor ausgewählten Songs und auf einen Vergleich der extrahierten Audioparameter bezüglich des zuvor ausgewählten Songs mit den extrahierten Audioparametern für Songs in der Bibliothek hin ausgewählt werden. Im Einzelnen können die Merkmalsvektoren aller Songs in der Bibliothek 102 auf Punkte in einen mehrdimensionalen Raum abgebildet werden. Falls beispielsweise n Parameter in den Merkmalsvektoren vorliegen, kann jeder auf einen Punkt im n-dimensionalen Raum abgebildet werden. Außerdem können euklidische Abstände zwischen dem Punkt für jeden Song (vorzugsweise ausschließlich der bereits ausgewählten) und dem Punkt für den vorherigen Song berechnet werden. Der Abstand d zwischen einem Merkmalsvektor f ₁ für Song₁ und einem Merkmalsvektor f ₂ für einen Song₂ kann als
gegeben sein. Statt euklidische Abstände zu berechnen, kann alternativ dazu ein anderes Distanzmaß verwendet werden, z. B. Mahalanobis-Abstand, der auf Korrelationen zwischen Variablen beruht und skaleninvariant ist.
Falls der vorherige Song dem Benutzer gefallen hat, kann der nächste auszuwählende Song einer mit einem geringen Abstand zu dem vorherigen Song sein. Dies führt wahrscheinlich dazu, dass der nächste ausgewählte Song ähnliche Audiocharakteristika aufweist wie der vorherige Song. Als solches besteht eine beträchtliche Wahrscheinlichkeit, dass der nächste Song dem Benutzer gefallen wird. Der ausgewählte Song kann der mit dem geringsten Abstand zu dem vorherigen Song sein, oder er kann aus mehreren Songs, die einen relativ geringen Abstand aufweisen, ausgewählt sein. Beispielsweise kann der ausgewählte Song zufällig aus einer Gruppe von Songs ausgewählt sein, die weniger als einen vorbestimmten Abstand aufweisen oder die innerhalb eines gewissen Abstands-Perzentils (z. B. den nächstliegenden zehn Prozent) liegen.
Alternativ dazu kann, wenn der vorherige Song dem Benutzer nicht gefallen hat, der nächste auszuwählende Song einer sein, der einen großen Abstand von dem vorherigen Song aufweist. Dies führt wahrscheinlich dazu, dass der nächste ausgewählte Song Audiocharakteristika aufweist, die denen des vorherigen Songs unähnlich sind. Diese Auswahl beruht auf der Annahme, dass ein Song, der einem, der dem Benutzer missfallen hat, unähnlich ist, eine beträchtliche Wahrscheinlichkeit aufweist, dass er dem Benutzer gefallen wird. Der ausgewählte Song kann derjenige mit dem größten Abstand zu dem vorherigen Song sein, oder er kann zufällig aus mehreren Songs, die einen relativ großen Abstand aufweisen, ausgewählt sein. Beispielsweise kann der ausgewählte Song aus einer Gruppe von Songs ausgewählt sein, die mehr als einen vorbestimmten Abstand aufweisen oder die innerhalb eines bestimmten Abstands-Perzentils (z. B. den am weitesten entfernten zehn Prozent) liegen.
Auf diese Weise wird jeder nächste Song dahin gehend ausgewählt, dass eine beträchtliche Wahrscheinlichkeit besteht, dass er dem Benutzer gefallen wird. Dadurch wird die Menge an Songs reduziert, die dem Benutzer missfallen, die dem Benutzer präsentiert werden, die sich der Benutzer dann anhören müsste und eine Rückmeldung geben müsste. Dies ermöglicht auch, dass eine große Sammlung von Songs durchsucht wird und dass diejenigen Songs, die einem Benutzer gefallen, rasch und effizient identifiziert werden.
Es können verschiedene Songauswahlalgorithmen eingesetzt werden, die den die Angabe bezüglich zumindest des zuvor ausgewählten Songs und bezüglich Informationen, die in der Bibliothek 102 gespeichert sind, dazu verwenden, Songs auszuwählen, die eine beträchtliche Wahrscheinlichkeit aufweisen, dass sie dem Benutzer gefallen werden. Statt lediglich die Reaktion des Benutzers auf den vorherigen Song zu berücksichtigen, kann der nächste Song beispielsweise auf der Basis der Reaktion des Benutzers auf eine Mehrzahl von Songs ausgewählt werden. Genauer gesagt können alle oder manche der zuvor ausgewählten Songs, bezüglich derer der Benutzer eine positive Angabe machte, gruppiert werden. Für jeden Song in der Bibliothek 102 (vorzugsweise ausschließlich der bereits ausgewählten) kann sein Abstand zu der Gruppe berechnet werden, indem sein Abstand zu dem nächstliegenden Song in der Gruppe bestimmt wird oder indem dessen Abstand zu einem Durchschnitt der Merkmalsvektoren von Songs in der Gruppe bestimmt wird. Der nächste Song kann anschließend aus denjenigen in der Bibliothek ausgewählt werden, die einen geringen Abstand zu der Gruppe aufweisen (z. B. den geringsten Abstand aufweisen oder innerhalb eines bestimmten Abstands-Perzentils liegen).
Bei einem alternativen Ausführungsbeispiel können sowohl negative als auch positive Reaktionen berücksichtigt werden. Insbesondere können alle oder manche der zuvor ausgewählten Songs, bezüglich derer der Benutzer eine positive Angabe lieferte, in eine erste Gruppe platziert werden, während manche oder alle der zuvor ausgewählten Songs, bezüglich derer der Benutzer eine negative Angabe machte, in eine zweite Gruppe platziert werden. Dann können für jeden Song in der Bibliothek 102 (vorzugsweise ausschließlich der bereits ausgewählten) dessen Abstände zu beiden Gruppen bestimmt werden. Der nächste Song kann derart ausgewählt werden, dass sein Abstand zu der ersten Gruppe minimiert ist und sein Abstand zu der zweiten Gruppe maximiert ist. Beispielsweise kann dort, wo der Abstand eines Songs zu der ersten Gruppe als d_ja gegeben ist und der Abstand des Songs zu der zweiten Gruppe als d_nein gegeben ist, ein kombiniertes Abstandsmaß als: d_ja/nein = (d_ja + ε)/(d_nein + ε), wobei ε eine Konstante ist, gegeben sein. Dann kann der nächste Song als einer ausgewählt werden, der den größten Wert d_ja/nein aufweist, oder dessen Wert für d_ja/nein innerhalb eines bestimmten Perzentils des größten liegt.
Wie erwähnt wurde, kann die Benutzereingabe eine numerische Punktzahl umfassen. Demgemäß kann der nächste Song ausgewählt werden, indem die Punktzahlen für manche oder alle der zuvor ausgewählten Songs berücksichtigt werden. Beispielsweise können manche oder alle der zuvor ausgewählten Songs, für die eine Punktzahl empfangen wurde, in eine Gruppe platziert werden. Dann kann der Abstand zu der Gruppe für jeden Song in der Bibliothek 102 (vorzugsweise ausschließlich der bereits ausgewählten) berechnet werden. Beispielsweise kann der Abstand zwischen einem Song k in der Bibliothek 102 zu einer aus zuvor ausgewählten Songs i = 1, 2, ..., n bestehenden Gruppe wie folgt berechnet werden:
wobei w_i die numerische Punktzahl für den Song i ist und wobei eine niedrige Punktzahl angibt, dass der Song gefallen hat, und eine hohe Punktzahl angibt, dass der Song nicht gefallen hat. Demgemäß werden die Abstände zwischen jedem Song in der Bibliothek und jedem zuvor ausgewählten Song gemäß der durch den zuvor ausgewählten Song empfangenen Punktzahl gewichtet. Der Abstand für einen Song in der Bibliothek zu der Gruppe wird anschließend als der kürzeste gewichtete Abstand zu jeglichem Element der Gruppe berechnet. Überdies kann sich der Abstand, auf dem die Auswahl des nächsten Songs beruht, auf der Basis der Benutzereingabe mit der Zeit ändern. Falls beispielsweise für einen oder mehrere ausgewählte Songs keine Benutzereingabe oder eine negative Benutzereingabe vorliegt, dann kann der Perzentilabstand allmählich zunehmen, was zu einer breiteren Erkundung der Musikbibliothek führt. Wenn Benutzereingaben erfasst oder positive Eingaben empfangen werden, kann der Perzentilabstand allmählich abnehmen, was zu einer Verschmälerung der Erkundung der Bibliothek führt.
Auch können Metadaten, die in der Bibliothek 102 gespeichert sind, durch den Songselektor 108 zum Auswählen des nächsten Songs verwendet werden. In diesem Fall können die Metadaten dazu verwendet werden, die Ähnlichkeit des nächsten Songs mit dem vorherigen Song oder dem Satz von zuvor ausgewählten Songs zu erhöhen. Falls die Benutzereingabe für vorherige Songs beispielsweise angibt, dass der Benutzer eher an einem Song Gefallen finden wird, wenn er in einem bestimmten Genre ist, dann kann der Songauswahlalgorithmus Songs aus bestimmten anderen Genres ausschließen, auch wenn ihre Merkmalsvektoren angeben, dass sie eine beträchtliche Wahrscheinlichkeit aufweisen, dass sie dem Benutzer gefallen werden. Alternativ dazu können die Metadaten dazu verwendet werden, die Vielfalt ausgewählter Songs zu erweitern. Wenn beispielsweise ein ausgewählter Song von einem bestimmten Künstler stammt, so können Songs dieses Künstlers für den nächsten Song oder die mehreren nächsten Songs aus einer Betrachtung ausgeschlossen werden, auch wenn ihre Merkmalsvektoren angeben, dass sie aufgrund der vorherigen Reaktionen des Benutzers eine beträchtliche Wahrscheinlichkeit haben, dass sie gefallen werden.
Bei einem Ausführungsbeispiel kann der Benutzer jederzeit dafür optieren, dass ein nächster Song zufällig aus der Sammlung von zu durchsuchenden Songs ausgewählt wird. Beispielsweise kann eine zusätzliche Taste auf der Tastatur oder der in der Hand zu haltenden Fernbedienung einer „Zufälligen-Song-Wählen"-Funktion zugewiesen sein. Statt also auf der Basis der Benutzereingabe bezüglich des vorherigen Songs oder der vorherigen Songs ein Durchsuchen von durch den Songselektor 108 ausgewählten Songs fortzusetzen, kann der nächste Song zufällig ausgewählt werden. Dies hat den Effekt, zu Schritt 202 bei dem Verfahren der 3 zurückzukehren. Dann, nachdem der Benutzer eine Angabe bezüglich des Gefallens des Benutzers an diesem zufällig ausgewählten Song tätigt, können nachfolgende Songs durch den Songselektor 108 ausgewählt werden, wie oben erläutert wurde. Die nachfolgenden Songauswahlen berücksichtigen eventuell lediglich eine Eingabe, die von dem Benutzer empfangen wurde, nachdem die „Zufälligen-Song-Wählen"-Auswahl aufgerufen wurde. Alternativ dazu kann eine Eingabe berücksichtigt werden, die von dem Benutzer in Bezug auf Songs empfangen wurde, die gespielt wurden, bevor die „Zufälligen-Song-Wählen"-Auswahl aufgerufen wurde.
Es können zusätzliche Benutzereingabesteuerungen geliefert werden. Beispielsweise kann die Dauer des Ausschnitts der während des Durchsuchens gespielten Songs je nach Präferenz des Benutzers einstellbar sein. Beispielsweise kann der Benutzer die Dauer der zu spielenden Songausschnitte wählen und kann auch zwischen einem Abspielen von Ausschnitten einer bestimmten Dauer oder einem Abspielen der gesamten Songs wählen. Ferner kann der Benutzer in der Lage sein, einen bestimmten Song oder Ausschnitt desselben erneut abzuspielen oder eine längere Dauer eines bestimmten Songs abzuspielen, falls der Benutzer beispielsweise nicht sicher ist, ob der Song Gefallen findet oder nicht. Der Benutzer kann auch die Lautstärke, mit der die Songs abgespielt werden, steuern.
Bei einem Ausführungsbeispiel kann ein Filterkriterium bzw. können mehrere Filterkriterien auf Songs in der Bibliothek angewendet werden, um die Bandbreite an Songs, die möglicherweise durch den Songselektor 108 ausgewählt werden können, zu begrenzen. Beispielsweise kann der Benutzer eine Abspielliste von Songs mit langsamem Tempo erstellen wollen, die sich dafür eignen, beim Einschlafen abgespielt zu werden. Eine derartige Abspielliste kann als „Songs für die Schlafenszeit" bezeichnet werden. Als weiteres Beispiel kann der Benutzer eine Abspielliste von Songs mit schnellerem Tempo, die zum Tanzen geeignet sind, erstellen wollen. Dies kann dadurch bewerkstelligt werden, dass der Benutzer ein Filterkriterium festlegt, bevor er beginnt, die Songs zu durchsuchen. Wenn der Benutzer beispielsweise eine „Songs-zum-Tanzen"-Abspielliste erstellen möchte, kann der Benutzer festlegen, dass lediglich „Songs mit einem Tempo im Bereich von 60 bis 120 und von ¾ Meter" als mögliche Auswahlen durch den Songselektor 108 zur Verfügung gestellt werden.
Bei einem anderen Ausführungsbeispiel kann der Songselektor 108 Songs auf der Basis eines Extrapolierens von Tendenzen in den Angaben des Benutzers bezüglich zuvor ausgewählter Songs auswählen. Dies beruht auf der Annahme, dass sich der Geschmack des Benutzers verändern kann, während der Benutzer Songs durchsucht. Wenn der Benutzer beispielsweise Gefallen an Songs mit langsamem Tempo angibt und später Gefallen an Songs mit mittlerem Tempo angibt, kann der Songselektor 108 einen nächsten Song, der ein schnelles Tempo aufweist, als Form einer Unterstützung des Benutzers bei der weiteren Erkundung der Bibliothek 102 auswählen.
Bei einem Ausführungsbeispiel können Komponenten des Merkmalsvektors für Songs in der Bibliothek unterschiedlich zueinander gewichtet werden, um die Abstandsberechnungen durchzuführen. Dieses Gewichten kann der Kontrolle des Benutzers unterliegen. Wenn der Benutzer beispielsweise Interesse daran hat, eine Abspielliste von Songs zu erstellen, die einen bezeichnenden „Beat" aufweisen, kann das System den Michelson-Kontrast in der X-Richtung, der das in einer Songprobe enthaltene „Beat"-Niveau darstellt, schwerer gewichten als andere Komponenten. Wenn der Abstand zwischen Songausschnitten berechnet wird, erscheinen dann diejenigen, die einen stärkeren „Beat" aufweisen, näher.
Wie oben beschrieben wurde, kann die Historienaufzeichnung 110 eine Sequenz von Songs, die durch den Songselektor 108 ausgewählt werden, umfassen, die gesichert und später verwendet werden können, um eine Abspielliste zu erstellen, um das Abspielgerät 104 oder ein anderes Abspielgerät dahin gehend zu steuern, die Songs vollständig abzuspielen. Bei einem Ausführungsbeispiel kann der Benutzer die Reihenfolge, in der die Songs abgespielt werden, je nach den Präferenzen des Benutzers optional ändern, oder die Songs können in zufälliger Reihenfolge von der Abspielliste abgespielt werden. Außerdem kann der Songselektor 108 dazu verwendet werden, neue Songs, bei denen auf der Basis der bereits in der Abspielliste vorhandenen Songs ermittelt wird, dass sie eine beträchtliche Wahrscheinlichkeit haben, dass der Benutzer Gefallen an ihnen finden wird, in die Abspielliste einzuschieben. Beispielsweise können die Merkmalsvektoren für eingeschobene Songs einen geringen Abstand zu denen eines oder mehrerer der bereits in der Abspielliste vorhandenen Songs aufweisen. Der Anteil an eingeschobenen Songs kann durch den Benutzer gesteuert werden, beispielsweise durch eine zusätzliche Taste oder einen zusätzlichen Bedienungsknopf auf der Tastatur oder der Fernsteuerung.
4A–C veranschaulichen Aufzeichnungen 110 von Musikdurchsuchungsinformationen, die gemäß Ausführungsbeispielen der vorliegenden Erfindung erzeugt wurden. Insbesondere veranschaulichen 4A–C jeweils eine Tabelle, in der ein ausgewählter Song (für den zumindest ein Ausschnitt für den Benutzer gespielt wird) eine Zeile in der Tabelle einnimmt und eine erste Spalte die Identifizierung der ausgewählten Songs umfasst. Die Aufzeichnung der 4A weist eine zweite Spalte auf, die eine positive oder negative Angabe für jeden Song in der Tabelle umfasst. Wie oben erläutert wurde, bedeutet die positive Angabe, dass dem Benutzer der Song gefallen hat, und die negative Angabe bedeutet, dass dem Benutzer der Song nicht gefallen hat. Die Aufzeichnung der 4B weist eine zweite Spalte auf, die eine Punktzahl für jeden Song in der Tabelle umfasst, die angibt, wie sehr dem Benutzer der Song gefallen hat oder nicht. Wie bei den obigen Beispielen liegen die Punkt zahlen zwischen eins und fünf, wobei eine niedrigere Punktzahl einen größeren Gefallen an dem Song angibt.
Ähnlich wie 4B weist die Aufzeichnung der 4C eine zweite Spalte auf, die eine Punktzahl für jeden Song in der Tabelle umfasst, die angibt, wie sehr dem Benutzer der Song gefallen hat oder nicht. Außerdem weist die Aufzeichnung der 4C eine dritte Spalte auf, die angibt, wie viel von der Probe des Songs gespielt wurde, bevor der Benutzer die Punktzahl für den Song eingab. Bei diesem Beispiel umfasst die dritte Spalte die Prozent der Probe an der Gesamtdauer. Falls die Probe also acht Sekunden lang wäre und der Benutzer vier Sekunden nach Beginn der Probe eine Punktzahl eingeben würde, würde die gespielte Zeit 50 betragen. Falls man die gesamte Probe ohne jegliche Benutzereingabe abspielen ließe, würde die gespielte Zeit 100 betragen. Es wird einleuchten, dass der Anteil der Probe, der gespielt wurde, auf andere Weise dargestellt werden könnte (z. B. in Sekunden). Eine vierte Spalte in der Aufzeichnung der 4C umfasst Datums- und Uhrzeitinformationen, die jedem in der Tabelle dargestellten Song entsprechen. Bei diesem Beispiel markieren das Datum und die Uhrzeit die Zeit der Benutzereingabe. Falls jeder Song unmittelbar bei Empfang der Benutzereingabe für den vorherigen Song zu spielen beginnt, so geben die Datums- und Uhrzeitinformationen in der Tabelle für einen vorherigen Song an, wann der nächste Song zu spielen begann. Somit wurde unter Bezugnahme auf 4C die Benutzereingabe für Song₂ um 10:01 empfangen (als 10:01:00 dargestellt). Dies ist auch der Zeitpunkt, zu dem der Song₃ zu spielen begann. Dann, um vier Sekunden nach 10:01 (als 10:01:04 dargestellt), wurde die Benutzereingabe für Song₃ empfangen. Dies ist auch der Zeitpunkt, zu dem Song₄ zu spielen begann.
Die Aufzeichnungen 110 können durch den Songselektor 108 verwendet werden oder zur späteren Verwendung als Eingabe in einen anderen Songselektor oder Songauswahlalgorithmus, z. B. ein kollaboratives Filter, gesichert werden.
Die vorstehende ausführliche Beschreibung der vorliegenden Erfindung dient Veranschaulichungszwecken und soll nicht erschöpfend sein oder die Erfindung auf die offenbarten Ausführungsbeispiele beschränken. Demgemäß wird der Schutzumfang der vorliegenden Erfindung durch die angehängten Patentansprüche definiert.
Zusammenfassung
Die vorliegende Erfindung liefert ein Verfahren und ein System zum Durchsuchen von Musik. Bei einem Ausführungsbeispiel umfasst ein Verfahren zum Durchsuchen von aufgezeichneter Musik folgenden Schritten: Auswählen eines Songs aus einer Bibliothek (102); Abspielen zumindest eines Ausschnitts des ausgewählten Songs für einen Benutzer; während der Ausschnitt des ausgewählten Songs abspielt, Annehmen einer Eingabe von dem Benutzer, wobei die Eingabe eine Angabe des Gefallens des Benutzers an dem zumindest einen Ausschnitt des ausgewählten Songs umfasst; Wiederholen der Schritte des Auswählens, Abspielens und Annehmens, um eine Sequenz von Songausschnitten zu erzeugen; und Erstellen einer Aufzeichnung (110), die eine Identifizierung jedes ausgewählten Songausschnitts und die Angabe bezüglich der Songausschnitte umfasst.
ZITATE ENTHALTEN IN DER BESCHREIBUNG
Diese Liste der vom Anmelder aufgeführten Dokumente wurde automatisiert erzeugt und ist ausschließlich zur besseren Information des Lesers aufgenommen. Die Liste ist nicht Bestandteil der deutschen Patent- bzw. Gebrauchsmusteranmeldung. Das DPMA übernimmt keinerlei Haftung für etwaige Fehler oder Auslassungen.
Zitierte Patentliteratur

- US 2004/0064209 [0012, 0012]
- US 6995309 [0014, 0014]

Claims

Ein Verfahren zum Durchsuchen aufgezeichneter Musik mit folgenden Schritten: Auswählen eines Songs aus einer Bibliothek; Abspielen zumindest eines Ausschnitts des ausgewählten Songs für einen Benutzer; während der Ausschnitt des ausgewählten Songs abspielt, Annehmen einer Eingabe von dem Benutzer, wobei die Eingabe eine Angabe des Gefallens des Benutzers an dem zumindest einen Ausschnitt des ausgewählten Songs umfasst; Wiederholen der Schritte des Auswählens, Abspielens und Annehmens, um eine Sequenz von Songausschnitten zu erzeugen; und Erstellen einer Aufzeichnung, die eine Identifizierung jedes ausgewählten Songausschnitts und die Angabe bezüglich des Songausschnitts umfasst.
Das Verfahren gemäß Anspruch 1, das ferner ein Erzeugen einer Abspielliste aus der Aufzeichnung, wobei die Abspielliste Identifizierungen der Songausschnitte in der Aufzeichnung, die dem Benutzer gefallen haben, umfasst, und ein Abspielen vollständiger Songs in der Abspielliste umfasst.
Das Verfahren gemäß Anspruch 2, das ferner ein Einschieben neuer Songs in die Abspielliste während eines Abspielens der vollständigen Songs in der Abspielliste umfasst, wobei die Songs auf der Basis der für die Songs in der Abspielliste empfangenen Angaben dazu ausgewählt sind, eingeschoben zu werden.
Das Verfahren gemäß Anspruch 1, das ferner ein Beenden des Abspielens des zumindest einen Ausschnitts des ausgewählten Songs unmittelbar nachdem der Benutzer die Angabe macht, umfasst.
Das Verfahren gemäß Anspruch 1, bei dem jeder Song der Sequenz nach einem ersten Song der Sequenz auf der Basis der Angabe bezüglich des zuvor ausgewählten Songs ausgewählt wird.
Das Verfahren gemäß Anspruch 5, bei dem die Bibliothek extrahierte Audioparameter für jeden Song umfasst und bei dem jeder Song der Sequenz nach einem ersten Song der Sequenz auf der Basis eines Vergleichs der extrahierten Audioparameter für den ausgewählten Song mit den extrahierten Audioparametern für den zuvor ausgewählten Song und der Angabe bezüglich zumindest des zuvor ausgewählten Songs ausgewählt wird.
Das Verfahren gemäß Anspruch 6, bei dem der Vergleich durchgeführt wird, indem ein Abstand zwischen einem Vektor der extrahierten Audioparameter für den ausgewählten Song und einem Vektor der extrahierten Audioparameter für zumindest den zuvor ausgewählten Song berechnet wird.
Das Verfahren gemäß Anspruch 7, bei dem der ausgewählte Song dahin gehend ausgewählt wird, den Abstand zwischen dem ausgewählten Song und einem oder mehreren zuvor ausgewählten Songs, für die die Angabe positiv ist, zu minimieren, und den Abstand zwischen dem aus gewählten Song und einem oder mehreren zuvor ausgewählten Songs, für die die Angabe negativ ist, zu maximieren.
Das Verfahren gemäß Anspruch 5, bei dem für den ausgewählten Song zwei Alternativen berechnet werden, bevor die Angabe von dem Benutzer empfangen wird, und anschließend der zumindest eine Ausschnitt der geeigneten der zwei Alternativen unmittelbar nach Empfang der Angabe gespielt wird.
Ein System zum Durchsuchen von Musik mit: einer Bibliothek, die eine Mehrzahl von Einträgen für zu durchsuchende Songs umfasst, wobei jeder Eintrag eine Identifizierung zumindest eines spielbaren Ausschnitts des Songs, der dem Eintrag entspricht, und Informationen über den Song umfasst; ein Abspielgerät zum selektiven Abspielen der Ausschnitte der Songs; eine Benutzerschnittstelle zum Annehmen einer Eingabe von dem Benutzer, während ein Ausschnitt eines ausgewählten der Songs spielt, wobei die Eingabe eine Angabe bezüglich des Gefallens des Benutzers an dem ausgewählten Song umfasst; und einen Songselektor, der auf der Basis der von dem Benutzer angenommenen Angabe und auf der Basis der Informationen über die Songs in der Bibliothek einen nächsten spielbaren Ausschnitt eines Songs aus der Bibliothek dafür auswählt, als Nächstes durch das Abspielgerät gespielt zu werden.