DE102016209771A1

DE102016209771A1 - Karaoke-System und Verfahren zum Betreiben eines Karaoke-Systems

Info

Publication number: DE102016209771A1
Application number: DE102016209771.7A
Authority: DE
Inventors: Sascha Grollmisch; Estefanía Cano Cerón; Steffen Holly
Original assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Current assignee: Fraunhofer Gesellschaft zur Forderung der Angewandten Forschung eV
Priority date: 2016-06-03
Filing date: 2016-06-03
Publication date: 2017-12-07
Also published as: WO2017207348A1

Abstract

Vorgeschlagen wird ein Karaoke-System mit: einer Datenschnittstelle zum Empfangen eines Mediendatenstreams, welcher einen Audiostream mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz; einem Puffer zum Zwischenspeichern des empfangenen Audiostreams; einem Referenzmelodiebereitsteller zum Ermitteln einer digital notierten Referenzmelodie, welche mit dem Audiostream korrespondiert; einer Synchronisierstufe zum Synchronisieren des zuvor zwischengespeicherten Audiostreams und der Referenzmelodie, um so einen synchronisierten Audiostream bereitzustellen; einer Wiedergabeeinrichtung zum Wiedergeben des synchronisierten Audiostreams als Schallsignal; einer Aufnahmeeinrichtung zum Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges; und einer Bewertungsstufe zum Erstellen einer Bewertung des wenigstens einen Nutzergesangs anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs mit der synchronisierten Referenzmelodie, wobei die Bewertung durch die Wiedereingabeeinrichtung als Bewertungsausgabe ausgebbar ist.

Description

Bei bekannten Karaoke-Systemen wird eine auf einem Nutzerendgerät lokal vorhandene Mediendatei, welche beispielsweise auf einer Festplatte oder einem anderen Datenträger gespeichert ist, über eine Wiedergabeeinrichtung wiedergegeben. Die Mediendatei enthält oder verlinkt dabei lokal gespeicherte Audiodaten und in vielen Fällen auch lokal gespeicherte Videodaten. Die Mediendatei ist dabei in der Regel speziell für Karaoke-Anwendungen aufbereitet. So enthält oder verlinkt die Mediendatei typischerweise auch lokal gespeicherte Textdaten, welche gleichzeitig mit den Audiodaten und, falls vorhanden, den Videodaten wiedergegeben werden können. Dem Nutzer des Karaoke-Systems wird so das Mitsingen synchron zur wiedergegebenen Mediendatei erleichtert.
Bei einer aus der Praxis bekannten Karaoke-Anwendung, welche auf dem Markt unter dem Namen „SingStar” für die Sony PlayStation angeboten wird, ist darüber hinaus eine Funktionalität vorgesehen, welche eine Bewertung des Gesangs des Nutzers ermöglicht. Dabei wird dieser Nutzergesang mit einer Referenzmelodie verglichen, welche ebenfalls in der Mediendatei enthalten oder durch Sie verlinkt und lokal gespeichert ist. Die Bewertung kann dann als Bewertungsausgabe ausgegeben werden, so dass beispielsweise Gesangswettbewerbe mit mehreren Teilnehmern ausgetragen werden können.
Aufgabe der vorliegenden Erfindung ist es, ein verbessertes Karaoke-System und ein verbessertes Verfahren zum Betreiben eines Karaoke-Systems bereitzustellen.
Die Aufgabe wird gelöst durch ein Karaoke-System mit:
einer Datenschnittstelle zum Empfangen eines Mediendatenstreams, welcher einen Audiostream mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz;
einem Puffer zum Zwischenspeichern des empfangenen Audiostreams;
einem Referenzmelodiebereitsteller zum Ermitteln einer digital notierten Referenzmelodie, welche mit dem Audiostream korrespondiert;
einer Synchronisierstufe zum Synchronisieren des zuvor zwischengespeicherten Audiostreams und der Referenzmelodie, um so einen synchronisierten Audiostream bereitzustellen;
einer Wiedergabeeinrichtung zum Wiedergeben des synchronisierten Audiostreams als Schallsignal;
einer Aufnahmeeinrichtung zum Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges, umso einen digitalisierten Nutzergesang bereitzustellen; und
einer Bewertungsstufe zum Erstellen einer Bewertung des wenigstens einen Nutzergesangs anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs mit der synchronisierten Referenzmelodie, wobei die Bewertung durch die Wiedereingabeeinrichtung als Bewertungsausgabe ausgebbar ist.
Allgemein wird unter einem Mediendatenstream eine über ein Netzwerk übertragbare und bereits während der Übertragung wiedergebbare Mediendatei verstanden, welche Mediendaten enthält. Ein Mediendatenstream muss also nicht vollständig lokal gespeichert werden, bevor mit der Wiedergabe der medialen Inhalte begonnen werden kann. Unter einem Audiostream wird dabei ein solcher Stream verstanden, der Audiodaten enthält, welche dafür vorgesehen sind, als Schallsignal wiedergegeben zu werden.
Bei dem Weitverkehrsnetz kann es sich prinzipiell um jedes Weitverkehrsdatennetz handeln, welches die erforderliche Bandbreite zur Übertragung des Mediendatenstreams aufweist. Insbesondere kann es sich um das Internet handeln.
Ein Puffer ist ein derartiger Speicher, der es ermöglicht zumindest Teile des Mediendatenstreams einschließlich des Audiostreams vorübergehend zu speichern, so dass die gespeicherten Teile des Mediendatenstreams zu einer späteren Zeit wieder ausgelesen werden können, wobei gespeicherten Teile des Mediendatenstreams nach dem Auslesen in aller Regel nicht erneut ausgelesen werden können.
Unter einem Referenzmelodiebereitsteller wird ein solcher Hardware und/oder Software enthaltender Funktionsblock verstanden, welcher zum internen Bestimmen oder externen Beschaffen einer digital notierten Referenzmelodie, welche mit dem Audiostream korrespondiert, ausgebildet ist. Typischerweise korrespondiert die Referenzmelodie mit einer Gesangsstimme im Audiostream. Grundsätzlich ist es aber auch möglich, dass die Referenzmelodie mit einer Instrumentenstimme korrespondiert, nämlich dann, wenn von dem Nutzer erwartet wird, mit dem Nutzergesang ein Instrument nachzuahmen.
Der Begriff Synchronisierstufe bezieht sich auf einen Hardware und/oder Software enthaltenden Funktionsblock, der dazu ausgebildet ist, die Referenzmelodie und den zuvor zwischen gespeicherten Audiostream zeitlich abzugleichen, so dass ein synchronisierter Audiostream bereitstellbar ist, der in einer festen zeitlicher Beziehung zur Referenzmelodie steht.
Beispielsweise kann die Synchronisierstufe zur Überwachung und Steuerung des Puffers und/oder des Referenzmelodiebereitstellers ausgebildet sein. So kann die Synchronisierstufe überwachen, ob ein Audiostream zwischengespeichert wird. Hierauf kann die Synchronisierstufe den Referenzmelodiebereitsteller dazu veranlassen, die Referenzmelodie zu ermitteln. Stellt die Synchronisierstufe dann fest, dass die Referenzmelodie zur Verfügung steht, so kann die Synchronisierstufe den Referenzmelodiebereitsteller so ansteuern dass dieser die Referenzmelodie zur weiteren Verarbeitung weiterleitet, wobei zeitgleich der Puffer derart angesteuert wird, dass der zuvor gespeicherte Audiostream wieder ausgelesen wird, umso den synchronisierten Audiostream zu erzeugen und für die weitere Verarbeitung weiterzuleiten. Durch dieses Zusammenwirken des Puffers, des Referenzmelodiebereitstellers und der Synchronisierstufe kann also gewährleistet werden, dass der Referenzmelodiebereitsteller genügend Zeit zum Ermitteln der Referenzmelodie erhält, und dass die Referenzmelodie und der synchronisierte Audiostream synchron weiterverarbeitet werden können.
Die Wiedergabeeinrichtung kann einen oder mehrere Lautsprecher sowie die zum Ansteuern des oder der Lautsprecher erforderlichen Baugruppen umfassen, so dass der synchronisierte Audiostream in ein hörbares Schallsignal umgewandelt werden kann. Festzustellen ist hier, dass das Schaltsignal mit der Referenzmelodie synchronisiert ist, da es ja auf dem synchronisierte Audiostream beruht.
Die Aufnahmeeinrichtung kann einen oder mehrere Kanäle umfassen, wobei jeder Kanal dazu ausgebildet ist, um einen Nutzergesang aufzunehmen und zu digitalisieren. Jeder Kanal kann hierzu ein Mikrofon mit nachgeschalteten Analog-Digital-Wandler umfassen. Mehrkanalige Aufnahmeeinrichtungen ermöglichen es, gleichzeitig mehrere digitalisierte Nutzergesänge bereitzustellen, so dass parallel ablaufende Gesangswettbewerbe möglich sind. Der eine oder mehrere digitalisierte Nutzergesang steht dabei in einer bekannten zeitlichen Beziehung zur Referenzmelodie, da er ja durch den Nutzer auf der Basis des Schallsignals erzeugt wird.
Die Bewertungsstufe, welche Hardware und/oder Software aufweisen kann, kann nun den oder die digitalisierten Nutzergesänge mit der Referenzmelodie vergleichen und so für den oder die digitalisierten Nutzergesänge eine Bewertung erstellen. Hierzu kann je digitalisiertem Nutzergesang in kurzen zeitlichen Abständen, welche beispielsweise im Bereich zwischen 1 ms und 100 ms liegen können, die Frequenz und/oder die Lautstärke des jeweiligen digitale Nutzergesangs mit der Referenzmelodie verglichen werden. Je nach Grad der Übereinstimmung kann dann für jeden Vergleich eine Vergabe von Punkten erfolgen, wobei die Punkte von mehreren Vergleichen zusammengefasst werden können, umso eine Gesamtpunktzahl zu erhalten, welche als Bewertung mit der Qualität des jeweiligen Nutzergesangs korrespondiert. Diese Bewertung kann dann mittels der Wiedergabeeinrichtung als Bewertungsausgabe ausgegeben werden, so dass der oder die Nutzer die Bewertung erfassen können. Die Bewertungsausgabe kann dabei beispielsweise optisch oder akustisch erfolgen.
Das erfindungsgemäße Karaoke-System ermöglicht es dem Nutzer, die von öffentlichen zugänglichen Musikstreamingdiensten, wie beispielsweise Spotify, angebotenen Mediendatenstreams für Karaoke zu nutzen. Damit erhält er Zugriff auf eine wesentlich höhere Anzahl von Musikstücken und auch auf aktuellere Musikstücke als dies bei den gängigen Karaoke-Systemen der Fall ist, welche nur mit vom Anbieter des jeweiligen Karaoke-Systems vorbereiteten und gelieferten Musikdateien funktionstüchtig sind. Die Verwendung von Mediendatenstreams macht die lokale Speicherung der Mediendateien entbehrlich, so dass das erfindungsgemäße Karaoke-System weniger Speicher benötigt, als herkömmliche Karaoke-Systeme. Zudem ergibt sich für den Nutzer ein Zeitvorteil im Vergleich zu solchen Karaoke-Systemen, bei denen Mediendateien aus einem Weitverkehrsnetz zuerst herunter geladen werden müssen, bevor sie verwendet werden können, da beim erfindungsgemäße Karaoke-System der Karaoke-Betrieb schon nach einer Pufferzeit aufgenommen werden kann, welche im Allgemeinen deutlich unter der Zeit liegt, welche zum Herunterladen einer kompletten Mediendatei erforderlich ist.
Gemäß einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle empfangbare Mediendatenstream zusätzlich einen mit dem Audiostream korrespondierenden Videostream, wobei der Puffer zum Zwischenspeichern des empfangenen Videostreams ausgebildet ist, wobei die Synchronisierstufe zum Synchronisieren des zwischengespeicherten Videostreams mit der Referenzmelodie ausgebildet ist, um so einen synchronisierten Videostream bereitzustellen, und wobei die Wiedergabeeinrichtung zum Wiedergeben des synchronisierten Videostreams als Videodarstellung ausgebildet ist.
Unter einem Videostream wird dabei ein solcher Stream verstanden, der Videodaten enthält, welche dafür vorgesehen sind, als Videodarstellung, also einer Darstellung von bewegten Bildern, wiedergegeben zu werden. Die Videodarstellung kann beispielsweise auf einem Display der Wiedergabeeinrichtung erfolgen. Die zusätzliche Wiedergabe der Videodarstellung kann den Nutzer bei seinem Nutzergesang unterstützen, wenn die synchronisierte Videodarstellung Bilder zeigt, welche in Zusammenhang mit dem Schallsignal stehen. Dies kann dann der Fall sein, wenn etwa Musiker gezeigt werden, die das dem Schallsignal zu Grunde liegende Musikstück aufführen.
Gemäß einer zweckmäßigen Weiterbildung der Erfindung umfasst das Karaoke-System einen Textbereitsteller, welcher zum Ermitteln eines mit dem Audiostream korrespondierenden Gesangstextes ausgebildet ist, wobei die Synchronisierstufe zum Synchronisieren der Referenzmelodie und des Gesangstextes ausgebildet ist, und wobei die Wiedergabeeinrichtung zum Wiedergeben des synchronisierten Gesangstextes als Textdarstellung ausgebildet ist.
Unter einer Textdarstellung wird dabei eine alphanumerische Darstellung des Gesangstextes verstanden. Die Darstellung des Gesangstextes als Textdarstellung dient der Unterstützung des Nutzers bei seinem Nutzergesang. Grundsätzlich kann aber auf die Textdarstellung auch verzichtet werden, wenn dem Nutzer der Gesangstext anderweitig bekannt ist.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Textbereitsteller zum Ermitteln des Gesangstextes mittels einer Analyse des Audiostreams ausgebildet.
Hierbei kann beispielsweise eine automatische Spracherkennungssoftware zu Einsatz kommen. Das Karaoke-System ist so unabhängig von externen Textquellen.
Nach einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle empfangbare Mediendatenstream zusätzlich einen mit dem Audiostream korrespondierenden Metadatenstream, wobei der Textbereitsteller zum Extrahieren des Gesangstextes aus dem Metadatenstream ausgebildet ist.
Unter einem Metadatenstream wird grundsätzlich ein Stream verstanden, der Metadaten, also ergänzende Angaben, zu einem originären Datenstream, insbesondere zu einem Audiostream oder einem Videostream, enthält. Im Falle eines Audiostreams können beispielsweise ein Titel oder ein Interpret eines im Audiostream enthaltenen Musikstücks als Metadaten in dem Metadatenstream übertragen werden. Ebenso kann in einem Metadatenstream auch der zum Audiostream gehörige Gesangstext enthalten sein. Liegen nun derartige Metadaten vor, so können diese durch die Weiterbildung der Erfindung in einfacher Weise in eine Textdarstellung umgewandelt werden.
Nach einer zweckmäßigen Weiterbildung der Erfindung ist der Textbereitsteller zum Auslesen des Gesangstextes aus einer Textdatenbank mittels einer Datenbankabfrage ausgebildet.
Bei der Textdatenbank kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk zugegriffen werden kann. Beispielsweise steht im Internet eine öffentlich zugängliche Textdatenbank des Anbieters Musixmatch bereit. Zur Formulierung der Datenbankabfrage können beispielsweise Metadaten aus einem mit dem Audiostream korrespondierenden Metadatenstream verwendet werden. Ebenso können so genannte Fingerprints des Audiostreams, also charakteristische Eigenschaften des Audiostreams, zur Formulierung der Datenbankabfrage hinzugezogen werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller zum Ermitteln der Referenzmelodie mittels einer Analyse des Audiostreams ausgebildet.
Zum Ermitteln der Referenzmelodie mittels einer Analyse eines Audiostreams kann beispielsweise eine in Referenz [1] beschriebene Methode herangezogen werden. Das erfindungsgemäße Karaoke-System wird hierdurch unabhängig von vorab existierenden Referenzmelodien.
Nach einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle empfangbare Mediendatenstream zusätzlich einen mit dem Audiostream korrespondierenden Metadatenstream, wobei der Referenzmelodiebereitsteller zum Extrahieren der Referenzmelodie aus dem Metadatenstream ausgebildet ist.
Ebenso kann in einem Metadatenstream auch die zum Audiostream gehörige Referenzmelodie enthalten sein. Liegen nun derartige Metadaten vor, so können diese durch die Weiterbildung der Erfindung in einfacher Weise in eine Referenzmelodie umgewandelt werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller zum Ermitteln der Referenzmelodie mittels einer Abfrage einer Referenzmelodiedatenbank ausgebildet.
Bei der Referenzmelodiedatenbank kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk zugegriffen werden kann. Zur Formulierung der Abfrage können beispielsweise Metadaten aus einem mit dem Audiostream korrespondierenden Metadatenstream verwendet werden. Ebenso können so genannte Fingerprints des Audiostreams, also charakteristische Eigenschaften des Audiostreams, zur Formulierung der Abfrage hinzugezogen werden.
Zur Synchronisierung der aus der Referenzmelodiedatenbank abgefragten Referenzmelodie mit dem Audiostream kann eine in Referenz [2] beschriebene Methode verwendet werden
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller zur Ermittlung wenigstens eines Gesangszeitraumes ausgebildet, während dessen die Gesangsstimme im Audiostream aktiv ist, wobei der Referenzmelodiebereitsteller die Referenzmelodie ausschließlich für den wenigstens einen Gesangszeitraum ermittelt.
Hierdurch kann der Rechenaufwand verringert werden, insbesondere wenn die Referenzmelodie mittels einer Analyse des Audiostreams ermittelt wird.
Nach einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Analyse des Audiostreams ausgebildet.
Hierzu kann eine automatische Gesang/Instrumentenklassifikation herangezogen werden, wie beispielsweise in Referenz [3] beschrieben ist.
Gemäß einer zweckmäßigen Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle empfangbare Mediendatenstream zusätzlich einen mit dem Audiostream korrespondierenden Metadatenstream, wobei der Referenzmelodiebereitsteller zum Extrahieren des wenigstens einen Gesangszeitraumes aus dem Metadatenstream ausgebildet ist.
Ebenso kann in einem Metadatenstream auch der zum Audiostream gehörige Gesangszeitraum enthalten sein. In diesem Fall kann der Gesang besonders einfach ermittelt werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Analyse des Gesangstextes ausgebildet.
Diesem Merkmal liegt die Überlegung zu Grunde, dass der Gesangstext nur dann angegeben ist, wenn die Gesangsstimme aktiv ist. Auf diese Weise kann der Gesangszeitraum besonders einfach ermittelt werden.
Nach einer zweckmäßigen Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Abfrage einer Gesangszeitraumdatenbank ausgebildet.
Bei der Gesangszeitraumdatenbank kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk zugegriffen werden kann. Zur Formulierung der Abfrage können beispielsweise Metadaten aus einem mit dem Audiostream korrespondierenden Metadatenstream verwendet werden. Ebenso können so genannte Fingerprints des Audiostreams, also charakteristische Eigenschaften des Audiostreams, zur Formulierung der Abfrage hinzugezogen werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist eine Dämpfungsstufe zur Dämpfung der Gesangsstimme in dem wiedergegebenen Schallsignal vorgesehen.
Die Dämpfungsstufe kann dabei so ausgebildet sein, dass die Gesangsstimme teilweise oder vollständig in dem wiedergegebenen Schallsignal unterdrückt ist. Auf diese Weise wird es dem Nutzer erschwert, eine gute Bewertung für seinen Nutzergesang zu erzielen. Die Dämpfung der Gesangsstimme kann durch eine automatische Quellentrennung, beispielsweise anhand des Stereosignals, oder anhand von Signalverarbeitungsalgorithmen erfolgen, die beispielsweise in den Referenzen [4] und [5] beschrieben sind.
Nach einer vorteilhaften Weiterbildung der Erfindung ist die Wiedergabeeinrichtung zum Wiedergeben des digitalisierten Nutzergesangs ausgebildet.
Auf diese Weise ist der Nutzergesang über den oder die Lautsprecher der Wiedergabeeinrichtung sowohl für den aktuellen Nutzer als auch für weitere Zuhörer hörbar.
Nach einer vorteilhaften Weiterbildung der Erfindung ist eine Datenbankschnittstelle zum Einschreiben von Metadaten, welche mit dem Audiostream korrespondieren, in eine Metadaten-Datenbank vorgesehen.
Bei der Metadaten-Datenbank kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk zugegriffen werden kann. Bei den Metadaten kann es sich insbesondere um solche Daten handeln, welche vor ab nicht zur Verfügung standen und erst durch das Karaoke-System erzeugt wurden. Dies kann die Referenzmelodie, den Gesamtzeitraum, den Gesangstext oder sonstige Metadaten betreffen. Auf diese Weise stehen die genannten Daten bei einem erneuten Aufruf des Musikstücks zum Abrufen verfügbaren müssen nicht erneut berechnet werden.
Nach einer vorteilhaften Weiterbildung der Erfindung ist die Bewertungsstufe zum Erkennen eines Textes in dem wenigstens einen digitalisierten Nutzergesang ausgebildet, wobei die Bewertungsstufe beim Erstellen der Bewertung des wenigstens einen digitalisierten Nutzergesangs zur zusätzlichen Berücksichtigung eines Vergleichs des erkannten Textes des wenigstens einen digitalisierten Nutzergesangs mit dem Gesangstext des Textbereitstellers, welcher mit dem Audiostream korrespondiert, ausgebildet ist.
Hierbei kann beispielsweise eine automatische Spracherkennungssoftware zu Einsatz kommen. Auf diese Weise kann zusätzlich die Texttreue des Nutzers als Kriterium bei der Erstellung der Bewertung für den Nutzergesang herangezogen werden.
In einem weiteren Aspekt wird die Aufgabe gelöst durch einen Verfahren zum Betreiben eines Karaoke-Systems mit den Schritten:
Empfangen eines Mediendatenstreams, welcher einen Audiostream mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz unter Verwendung einer Datenschnittstelle;
Zwischenspeichern des empfangenen Audiostreams unter Verwendung eines Puffers;
Ermitteln einer digital notierten Referenzmelodie, welche mit dem Audiostream korrespondiert;
Synchronisieren des zwischengespeicherten Audiostreams und der Referenzmelodie, um so einen synchronisierten Audiostream bereitzustellen;
Wiedergeben des synchronisierten Audiostreams unter Verwendung einer Wiedergabeeinrichtung als Schallsignal; und
Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges, um so einen digitalisierten Nutzergesang bereitzustellen;
Erstellen einer Bewertung für den wenigstens einen Nutzergesang anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs mit der synchronisierten Referenzmelodie; und
Wiedergeben der Bewertung als Bewertungsausgabe.
Es ergeben sich die oben anhand des erfindungsgemäßen Karaoke-Systems beschriebenen Vorteile.
Computerprogramm, welches ein erfindungsgemäßes Verfahren durchführt, sofern es auf einem Prozessor ausgeführt wird.
Es ergeben sich die Vorteile des erfindungsgemäßen Verfahrens.
Im Folgenden werden die vorliegende Erfindung und deren Vorteile anhand von Figuren näher beschrieben.
Es zeigen:
1 ein erstes Ausführungsbeispiel eines erfindungsgemäßen Karaoke-Systems in einer schematischen Darstellung;
2 eine Teildarstellung eines zweiten Ausführungsbeispiels eines erfindungsgemäßen Karaoke-Systems in einer schematischen Darstellung.
Gleiche oder gleichartige Elemente oder Elemente mit gleicher oder äquivalenter Funktion sind im Folgenden mit gleichen oder gleichartigen Bezugszeichen versehen.
In der folgenden Beschreibung werden Ausführungsbeispiele mit einer Vielzahl von Merkmalen der vorliegenden Erfindung näher beschrieben, um ein besseres Verständnis der Erfindung zu vermitteln. Es ist jedoch festzuhalten, dass die vorliegende Erfindung auch unter Auslassung einzelner der beschriebenen Merkmale umgesetzt werden kann. Es sei auch darauf hingewiesen, dass die in verschiedenen Ausführungsbeispielen gezeigten Merkmale auch in anderer Weise kombinierbar sind, sofern dies nicht ausdrücklich ausgeschlossen ist oder zu Widersprüchen führen würde.
1 zeigt ein erstes Ausführungsbeispiel eines erfindungsgemäßen Karaoke-Systems in einer schematischen Darstellung.
Das erfindungsgemäße Karaoke-System umfasst:
eine Datenschnittstelle 2 zum Empfangen eines Mediendatenstreams DS, welcher einen Audiostream AS mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz WN;
einen Puffer 3 zum Zwischenspeichern des empfangenen Audiostreams AS;
einen Referenzmelodiebereitsteller 4 zum Ermitteln einer digital notierten Referenzmelodie RM, welche mit dem Audiostream AS korrespondiert;
eine Synchronisierstufe 5 zum Synchronisieren des zwischengespeicherten Audiostreams AS und der Referenzmelodie RM, um so einen synchronisierten Audiostream SAS bereitzustellen;
eine Wiedergabeeinrichtung 6 zum Wiedergeben des synchronisierten Audiostreams SAS als Schallsignal SI;
eine Aufnahmeeinrichtung 7 zum Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges NG, um so einen digitalisierten Nutzergesang DNG bereitzustellen; und
eine Bewertungsstufe 8 zum Erstellen einer Bewertung BW des wenigstens einen Nutzergesangs NG anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs DNG mit der Referenzmelodie RM, wobei die Bewertung BW durch die Wiedereingabeeinrichtung 6 als Bewertungsausgabe BWD ausgebbar ist.
Allgemein wird unter einem Mediendatenstream DS eine über ein Netzwerk übertragbare und bereits während der Übertragung wiedergebbare Mediendatei verstanden, welche Mediendaten enthält. Ein Mediendatenstream DS muss also nicht vollständig lokal gespeichert werden, bevor mit der Wiedergabe der medialen Inhalte begonnen werden kann. Unter einem Audiostream AS wird dabei ein solcher Stream verstanden, der Audiodaten enthält, welche dafür vorgesehen sind, als Schallsignal SI wiedergegeben zu werden.
Bei dem Weitverkehrsnetz WN kann es sich prinzipiell um jedes Weitverkehrsdatennetz handeln, welches die erforderliche Bandbreite zur Übertragung des Mediendatenstreams DS aufweist. Insbesondere kann es sich um das Internet handeln.
Ein Puffer 3 ist ein derartiger Speicher, der es ermöglicht den Mediendatenstream DS einschließlich des Audiostreams AS vorübergehend zu speichern, so dass er zu einer späteren Zeit wieder ausgelesen werden kann.
Unter einem Referenzmelodiebereitsteller 4 wird ein solcher Hardware und/oder Software enthaltender Funktionsblock verstanden, welcher zum internen Bestimmen oder externen Beschaffen einer digital notierten Referenzmelodie RM, welche mit dem Audiostream AS korrespondiert, ausgebildet ist. Typischerweise korrespondiert die Referenzmelodie RM mit einer Gesangsstimme im Audiostream AS. Grundsätzlich ist es aber auch möglich, dass die Referenzmelodie RM mit einer Instrumentenstimme korrespondiert, nämlich dann, wenn von dem Nutzer erwartet wird, mit dem Nutzergesang NG ein Instrument nachzuahmen.
Der Begriff Synchronisierstufe 5 bezieht sich auf einen Hardware und/oder Software enthaltenden Funktionsblock, der dazu ausgebildet ist, die Referenzmelodie RM und den zuvor zwischen gespeicherten Audiostream AS zeitlich abzugleichen, so dass ein synchronisierter Audiostream SAS bereitstellbar ist, der in einer festen zeitlicher Beziehung zur Referenzmelodie RM steht.
Beispielsweise kann die Synchronisierstufe 5 zur Überwachung und Steuerung des Puffers 3 und/oder des Referenzmelodiebereitstellers 5 ausgebildet sein. So kann die Synchronisierstufe 5 überwachen, ob ein Audiostream AS zwischengespeichert wird. Hierauf kann die Synchronisierstufe 5 den Referenzmelodiebereitsteller 4 dazu veranlassen, die Referenzmelodie RM zu ermitteln. Stellt die Synchronisierstufe 5 dann fest, dass die Referenzmelodie RM zur Verfügung steht, so kann die Synchronisierstufe 5 den Referenzmelodiebereitsteller 4 so ansteuern dass dieser die Referenzmelodie RM zur weiteren Verarbeitung weiterleitet, wobei zeitgleich der Puffer 3 derart angesteuert wird, dass der zuvor gespeicherte Audiostream AS wieder ausgelesen wird, umso den synchronisierten Audiostream SAS zu erzeugen und zu weiteren Verarbeitung weiterzuleiten. Durch dieses Zusammenwirken des Puffers 3, des Referenzmelodiebereitstellers 4 und der Synchronisierstufe 5 kann also gewährleistet werden, dass der Referenzmelodiebereitsteller 4 genügend Zeit zum Ermitteln der Referenzmelodie RM erhält, und dass die Referenzmelodie RM und der synchronisierte Audiostream SAS synchron weiterverarbeitet werden können.
Die Wiedergabeeinrichtung 6 kann einen oder mehrere Lautsprecher sowie die zum Ansteuern des oder der Lautsprecher erforderlichen Baugruppen umfassen, so dass der synchronisierte Audiostream SAS in ein hörbares Schallsignal SI umgewandelt werden kann. Festzustellen ist hier, dass das Schaltsignal SI mit der Referenzmelodie RM synchronisiert ist, da es ja auf dem synchronisierte Audiostream SAS beruht.
Die Aufnahmeeinrichtung 7 kann einen oder mehrere Kanäle umfassen, wobei jeder Kanal dazu ausgebildet ist, um einen Nutzergesang NG aufzunehmen und zu digitalisieren. Jeder Kanal kann hierzu ein Mikrofon mit nachgeschalteten Analog-Digital-Wandler umfassen. Mehrkanalige Aufnahmeeinrichtungen 7 ermöglichen es, gleichzeitig mehrere digitalisierte Nutzergesänge DNG bereitzustellen, so dass parallel ablaufende Gesangswettbewerbe möglich sind. Der eine oder mehrere digitalisierte Nutzergesang DNG steht dabei in einer bekannten zeitlichen Beziehung zur Referenzmelodie RM, da er ja durch den Nutzer auf der Basis des Schallsignals SI erzeugt wird.
Die Bewertungsstufe 8, welche Hardware und/oder Software aufweisen kann, kann nun den oder die digitalisierten Nutzergesänge DNG mit der Referenzmelodie RM vergleichen und so für den oder die digitalisierten Nutzergesänge DNG eine Bewertung BW erstellen. Hierzu kann je digitalisiertem Nutzergesang DNG in kurzen zeitlichen Abständen, welche beispielsweise im Bereich zwischen 1 ms und 100 ms liegen können, die Frequenz und/oder die Lautstärke des jeweiligen digitalen Nutzergesangs DNG mit der Referenzmelodie RM verglichen werden. Je nach Grad der Übereinstimmung kann dann für jeden Vergleich eine Vergabe von Punkten erfolgen, wobei die Punkte von mehreren Vergleichen zusammengefasst werden können, umso eine Gesamtpunktzahl zu erhalten, welche als Bewertung BW mit der Qualität des jeweiligen Nutzergesangs NG korrespondiert. Diese Bewertung BW kann dann mittels der Wiedergabeeinrichtung 6 als Bewertungsausgabe BWD ausgegeben werden, so dass der oder die Nutzer die Bewertung BW erfassen können. Die Bewertungsausgabe BWD kann dabei beispielsweise optisch oder akustisch erfolgen.
Das erfindungsgemäße Karaoke-System 1 ermöglicht es dem Nutzer, die von öffentlichen zugänglichen Musikstreamingdiensten, wie beispielsweise Spotify oder YouTube, angebotenen Mediendatenstreams DS für Karaoke zu nutzen. Damit erhält er Zugriff auf eine wesentlich höhere Anzahl von Musikstücken als dies bei den gängigen Karaoke-Systemen der Fall ist, welche nur mit vom Anbieter des jeweiligen Karaoke-Systems vorbereiteten und gelieferten Musikdateien funktionstüchtig sind. Die Verwendung von Mediendatenstreams DS macht die lokale Speicherung der Mediendateien entbehrlich, so dass das erfindungsgemäße Karaoke-System 1 weniger Speicher benötigt, als herkömmliche Karaoke-Systeme. Zudem ergibt sich für den Nutzer ein Zeitvorteil im Vergleich zu solchen Karaoke-Systemen, bei denen Mediendateien aus einem Weitverkehrsnetz WN zuerst herunter geladen werden müssen, bevor sie verwendet werden können, da beim erfindungsgemäße Karaoke-System 1 der Karaoke-Betrieb schon nach einer Pufferzeit aufgenommen werden kann, welche im Allgemeinen deutlich unter der Zeit liegt, welche zum Herunterladen einer kompletten Mediendatei erforderlich ist.
Gemäß einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle 2 empfangbare Mediendatenstream DS zusätzlich einen mit dem Audiostream AS korrespondierenden Videostream VS, wobei der Puffer 3 zum Zwischenspeichern des empfangenen Videostreams VS ausgebildet ist, wobei die Synchronisierstufe 5 zum Synchronisieren des zwischengespeicherten Videostreams VS mit der Referenzmelodie RM ausgebildet ist, um so einen synchronisierten Videostream SVS bereitzustellen, und wobei die Wiedergabeeinrichtung 6 zum Wiedergeben des synchronisierten Videostreams SVS als Videodarstellung VD ausgebildet ist.
Unter einem Videostream VS wird dabei ein solcher Stream verstanden, der Videodaten enthält, welche dafür vorgesehen sind, als Videodarstellung VD, also einer Darstellung von bewegten Bildern, wiedergegeben zu werden. Die Videodarstellung VD kann beispielsweise auf einem Display der Wiedergabeeinrichtung erfolgen. Die zusätzliche Wiedergabe der Videodarstellung VD kann den Nutzer bei seinem Nutzergesang NG unterstützen, wenn die Videodarstellung VD Bilder zeigt, welche in Zusammenhang mit dem Schallsignal SI stehen. Dies kann dann der Fall sein, wenn etwa Musiker gezeigt werden, die das dem Schallsignal SI zu Grunde liegende Musikstück aufführen.
Gemäß einer zweckmäßigen Weiterbildung der Erfindung umfasst das Karaoke-System 1 einen Textbereitsteller 9, welcher zum Ermitteln eines mit dem Audiostream AS korrespondierenden Gesangstextes GT ausgebildet ist, wobei die Synchronisierstufe 5 zum Synchronisieren der Referenzmelodie RM und des Gesangstextes GT ausgebildet ist, und wobei die Wiedergabeeinrichtung 6 zum Wiedergeben des Gesangstextes GT als Textdarstellung TD ausgebildet ist.
Unter einer Textdarstellung TD wird dabei eine alphanumerische Darstellung des Gesangstextes GT verstanden. Die Darstellung des Gesangstextes GT als Textdarstellung TD dient der Unterstützung des Nutzers bei seinem Nutzergesang NG. Grundsätzlich kann aber auf die Textdarstellung TD auch verzichtet werden, wenn dem Nutzer der Gesangstext GT anderweitig bekannt ist.
Gemäß einer zweckmäßigen Weiterbildung der Erfindung ist der Textbereitsteller 9 zum Ermitteln des Gesangstextes GT mittels einer Analyse des Audiostreams AS ausgebildet.
Hierbei kann beispielsweise eine automatische Spracherkennungssoftware zu Einsatz kommen. Das Karaoke-System 1 ist so unabhängig von externen Textquellen.
Nach einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle 2 empfangbare Mediendatenstream DS zusätzlich einen mit dem Audiostream AS korrespondierenden Metadatenstream MS, und wobei der Textbereitsteller 9 zum Extrahieren des Gesangstextes GT aus dem Metadatenstream MS ausgebildet ist.
Unter einem Metadatenstream MS wird grundsätzlich ein Stream verstanden, der Metadaten, also ergänzende Angaben, zu einem originären Datenstream, insbesondere zu einem Audiostream AS oder einem Videostream VS, enthält. Im Falle eines Audiostreams AS können beispielsweise ein Titel oder ein Interpret eines im Audiostream AS enthaltenen Musikstücks als Metadaten in dem Metadatenstream MS übertragen werden. Ebenso kann in einem Metadatenstream MS auch der zum Audiostream AS gehörige Gesangstext GT enthalten sein. Dies ist beispielsweise im Falle des Musikstreamingdienstes Spotify zumindest für einige Musikstücke der Fall. Liegen nun derartige Metadaten vor, so können diese durch die Weiterbildung der Erfindung in einfacher Weise in eine Textdarstellung TD umgewandelt werden.
Nach einer zweckmäßigen Weiterbildung der Erfindung ist der Textbereitsteller 9 zum Auslesen des Gesangstextes GT aus einer Textdatenbank TDB mittels einer Datenbankabfrage DBA ausgebildet.
Bei der Textdatenbank TDB kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk WN zugegriffen werden kann. Beispielsweise steht im Internet eine öffentlich zugängliche Textdatenbank TDB des Anbieters Musixmatch bereit. Zur Formulierung der Datenbankabfrage DBA können beispielsweise Metadaten aus einem mit dem Audiostream AS korrespondierenden Metadatenstream MS verwendet werden. Ebenso können so genannte Fingerprints des Audiostreams AS, also charakteristische Eigenschaften des Audiostreams AS, zur Formulierung der Datenbankabfrage DBA hinzugezogen werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller 4 zum Ermitteln der Referenzmelodie RM mittels einer Analyse des Audiostreams AS ausgebildet.
Zum Ermitteln der Referenzmelodie RM mittels einer Analyse eines Audiostreams kann beispielsweise eine in Referenz [1] beschriebene Methode herangezogen werden. Das erfindungsgemäße Karaoke-System 1 wird hierdurch unabhängig von vorab existierenden Referenzmelodien RM.
Nach einer vorteilhaften Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle 2 empfangbare Mediendatenstream DS zusätzlich einen mit dem Audiostream AS korrespondierenden Metadatenstream MS, und wobei der Referenzmelodiebereitsteller 4 zum Extrahieren der Referenzmelodie RM aus dem Metadatenstream MS ausgebildet ist.
Ebenso kann in einem Metadatenstream MS auch die zum Audiostream AS gehörige Referenzmelodie RM enthalten sein. Dies ist beispielsweise im Falle des Musikstreamingdienstes Spotify zumindest für einige Musikstücke der Fall. Liegen nun derartige Metadaten vor, so können diese durch die Weiterbildung der Erfindung in einfacher Weise in eine Textdarstellung TD umgewandelt werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller 4 zum Ermitteln der Referenzmelodie RM mittels einer Abfrage AB einer Referenzmelodiedatenbank RDB ausgebildet.
Bei der Referenzmelodiedatenbank RDB kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk WN zugegriffen werden kann. Zur Formulierung der Abfrage AB können beispielsweise Metadaten aus einem mit dem Audiostream AS korrespondierenden Metadatenstream MS verwendet werden. Ebenso können so genannte Fingerprints des Audiostreams AS, also charakteristische Eigenschaften des Audiostreams AS, zur Formulierung der Abfrage AB hinzugezogen werden.
Zur Synchronisierung der aus der Referenzmelodiedatenbank RDB abgefragten Referenzmelodie RM mit dem Audiostream AS kann eine in Referenz [2] beschriebene Methode verwendet werden
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller 4 zur Ermittlung wenigstens eines Gesangszeitraumes ausgebildet, während dessen die Gesangsstimme im Audiostream AS aktiv ist, wobei der Referenzmelodiebereitsteller 4 die Referenzmelodie RM ausschließlich für den wenigstens einen Gesangszeitraum ermittelt.
Hierdurch kann der Rechenaufwand verringert werden, insbesondere wenn die Referenzmelodie RM mittels einer Analyse des Audiostreams AS ermittelt wird.
Nach einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller 4 zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Analyse des Audiostreams AS ausgebildet.
Hierzu kann eine automatische Gesang/Instrumentenklassifikation herangezogen werden, wie beispielsweise in Referenz [3] beschrieben ist.
Gemäß einer zweckmäßigen Weiterbildung der Erfindung enthält der mittels der Datenschnittstelle 2 empfangbare Mediendatenstream DS zusätzlich einen mit dem Audiostream AS korrespondierenden Metadatenstream MS, und wobei der Referenzmelodiebereitsteller 4 zum Extrahieren des wenigstens einen Gesangszeitraumes aus dem Metadatenstream MS ausgebildet ist.
Ebenso kann in einem Metadatenstream MS auch der zum Audiostream AS gehörige Gesangszeitraum GZ enthalten sein. In diesem Fall kann der Gesang besonders einfach ermittelt werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller 4 zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Analyse des Gesangstextes GT ausgebildet.
Diesem Merkmal liegt die Überlegung zu Grunde, dass der Gesangstext GT nur dann angegeben ist, wenn die Gesangsstimme aktiv ist. Auf diese Weise kann der Gesangszeitraum GZ besonders einfach ermittelt werden.
Nach einer zweckmäßigen Weiterbildung der Erfindung ist der Referenzmelodiebereitsteller 4 zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Abfrage AF einer Gesangszeitraumdatenbank GDB ausgebildet.
Bei der Gesangszeitraumdatenbank GDB kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk WN zugegriffen werden kann. Zur Formulierung der Abfrage AF können beispielsweise Metadaten aus einem mit dem Audiostream AS korrespondierenden Metadatenstream MS verwendet werden. Ebenso können so genannte Fingerprints des Audiostreams AS, also charakteristische Eigenschaften des Audiostreams AS, zur Formulierung der Abfrage hinzugezogen werden.
Gemäß einer vorteilhaften Weiterbildung der Erfindung ist eine Dämpfungsstufe 10 zur Dämpfung der Gesangsstimme in dem wiedergegebenen Schallsignal SI vorgesehen.
Die Dämpfungsstufe 10 kann dabei so ausgebildet sein, dass die Gesangsstimme teilweise oder vollständig in dem wiedergegebenen Schallsignal SI unterdrückt ist. Auf diese Weise wird es dem Nutzer erschwert, eine gute Bewertung BW für seinen Nutzergesang NG zu erzielen. Die Dämpfung der Gesangsstimme kann durch eine automatische Quellentrennung, beispielsweise anhand des Stereosignals, oder anhand von Signalverarbeitungsalgorithmen erfolgen, die beispielsweise in den Referenzen [4] und [5] beschrieben sind.
Nach einer vorteilhaften Weiterbildung der Erfindung ist die Wiedergabeeinrichtung 6 zum Wiedergeben des digitalisierten Nutzergesangs DNG ausgebildet.
Auf diese Weise ist der Nutzergesang NG über den oder die Lautsprecher der Wiedergabeeinrichtung 6 sowohl für den aktuellen Nutzer als auch für weitere Zuhörer hörbar.
Nach einer vorteilhaften Weiterbildung der Erfindung ist die Bewertungsstufe 8 zum Erkennen eines Textes in dem wenigstens einen digitalisierten Nutzergesang DNG ausgebildet, wobei die Bewertungsstufe 8 beim Erstellen der Bewertung BW des wenigstens einen digitalisierten Nutzergesangs DNG zur zusätzlichen Berücksichtigung eines Vergleichs des erkannten Textes des wenigstens einen digitalisierten Nutzergesangs DNG mit dem Gesangstext GT des Textbereitstellers 9, welcher mit dem Audiostream AS korrespondiert, ausgebildet ist.
Hierbei kann beispielsweise eine automatische Spracherkennungssoftware zu Einsatz kommen. Auf diese Weise kann zusätzlich die Texttreue des Nutzers als Kriterium bei der Erstellung der Bewertung BW für den Nutzergesang NG herangezogen werden.
2 zeigt eine Teildarstellung eines zweiten Ausführungsbeispiels eines erfindungsgemäßen Karaoke-Systems in einer schematischen Darstellung. Das zweite Ausführungsbeispiel beruht auf dem ersten Ausführungsbeispiel, so dass im Folgenden lediglich die Unterschiede zum ersten Ausführungsbeispiel erläutert sind.
Nach einer vorteilhaften Weiterbildung der Erfindung ist eine Datenbankschnittstelle 11 zum Einschreiben von Metadaten RM, GT, GZ welche mit dem Audiostream AS korrespondieren, in eine Meta-Datenbank MDB vorgesehen.
Bei der Metadaten-Datenbank MDB kann es sich sowohl um eine lokale Datenbank als auch um eine abgesetzte Datenbank handeln, auf welche über das Weitverkehrsnetzwerk WN zugegriffen werden kann. Bei den Metadaten kann es sich insbesondere um solche Daten handeln, welche vor ab nicht zur Verfügung standen und erst durch das Karaoke-System 1 erzeugt wurden. Dies kann die Referenzmelodie RM, den Gesamtzeitraum GZ, den Gesangstext GT oder sonstige Metadaten betreffen. Auf diese Weise stehen die genannten Daten bei einem erneuten Aufruf des Musikstücks zum Abrufen verfügbaren müssen nicht erneut berechnet werden.
Das erfindungsgemäße Karaoke-System 1 kann als eigene Plattform eine Schnittstelle zur Anwendungsprogrammierung, häufig nur kurz API genannt, der Streamingdienste nutzen oder als Plugin/Software-Bibliothek auch direkt in die Clients der Streaminganbieter integriert werden.
Das erfindungsgemäße Karaoke-System 1 ist anwendbar für Einzelstreaming, auch Individual Streaming oder On-Demand Streaming genannt, bei dem der Nutzer den Audiostream unter einer Vielzahl von vorab in dem Weitverkehrsnetz gespeicherten Audiostreams auswählt und für Event-Streaming, bei dem der Audiostream beispielsweise während eines Live-Events in Echtzeit erzeugt und zur Verfügung gestellt wird. Die Nutzer können sich dann einwählen, wobei alle eingewählten Nutzer auf dieselben Daten zugreifen. Das erfindungsgemäße Karaoke-System 1 kann auch für Mehrspielerpartien genutzt werden.
Das erfindungsgemäße Karaoke-System 1 ermöglicht ein interaktives Karaoke mit jedem Lied aus der Bibliothek eines Streaminganbieters. Die Lieder müssen nicht speziell für das erfindungsgemäße Karaoke-System 1 aufbereitet werden.
Das erfindungsgemäße Karaoke-System 1 kann in Karaoke-Software, in Clientsoftware von Streaminganbietern, in Musiklernsoftware, in Websites für/mit Karaoke-Inhalten, in mobilen Applikationen beispielsweise zum Live-Gesangs-Training oder zu Live-Gesangs-Wettbewerben eingesetzt werden.
Je nach bestimmten Implementierungsanforderungen können Ausführungsbeispiele der erfindungsgemäßen Vorrichtung zumindest teilweise in Hardware oder zumindest teilweise in Software implementiert sein. Die Implementierung kann unter Verwendung eines digitalen Speichermediums, beispielsweise einer Floppy-Disk, einer DVD, einer Blu-ray Disc, einer CD, eines ROM, eines PROM, eines EPROM, eines EEPROM oder eines FLASH-Speichers, einer Festplatte oder eines anderen magnetischen oder optischen Speichers durchgeführt werden, auf dem elektronisch lesbare Steuersignale gespeichert sind, die mit einem programmierbaren Computersystem derart zusammenwirken können, dass ein oder mehrere der funktionalen Elemente der erfindungsgemäßen Vorrichtung realisiert werden.
Bei manchen Ausführungsbeispielen kann ein programmierbares Logikbauelement (beispielsweise ein feldprogrammierbares Gatterarray, ein FPGA) dazu verwendet werden, manche oder alle Funktionalitäten der hierin beschriebenen Vorrichtung durchzuführen. Bei manchen Ausführungsbeispielen kann ein feldprogrammierbares Gatterarray mit einem Mikroprozessor zusammenwirken, um eine der hierin beschriebenen Vorrichtungen zu realisieren.
Ein weiteres Ausführungsbeispiel umfasst einen Computer, auf dem das Computerprogramm zum Durchführen eines der hierin beschriebenen Verfahren installiert ist.
Das erfindungsgemäße Verfahren zum Betreiben eines Karaoke-Systems 1 weist dabei folgende Schritte auf:
Empfangen eines Mediendatenstreams DS, welcher einen Audiostream AS mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz WN unter Verwendung einer Datenschnittstelle 2;
Zwischenspeichern des empfangenen Audiostreams AS unter Verwendung eines Puffers 3;
Ermitteln einer digital notierten Referenzmelodie RM, welche mit dem Audiostream AS korrespondiert;
Synchronisieren deszwischengespeicherten Audiostreams AS und der Referenzmelodie RM, um so einen synchronisierten Audiostream SAS bereitzustellen;
Wiedergeben des synchronisierten Audiostreams SAS unter Verwendung einer Wiedergabeeinrichtung 6 als Schalsignal SI;
Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges (NG), um so einen digitalisierten Nutzergesang (DNG) bereitzustellen;
Erstellen einer Bewertung BW für den wenigstens einen Nutzergesang NG anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs DNG mit der Referenzmelodie RM; und
Wiedergeben der Bewertung BW als Bewertungsausgabe BWD.
Aspekte der Erfindung, welche hierin im Kontext der erfindungsgemäßen Vorrichtung beschrieben sind, repräsentieren ebenso Aspekte des erfindungsgemäßen Verfahrens. Umgekehrt repräsentieren solche Aspekte der Erfindung, welche hierin im Kontext des erfindungsgemäßen Verfahrens beschrieben sind, ebenso Aspekte der erfindungsgemäßen Vorrichtung.
Allgemein werden die Verfahren bei einigen Ausführungsbeispielen seitens einer beliebigen Hardwarevorrichtung durchgeführt. Diese kann eine universell einsetzbare Hardware wie ein Computerprozessor (CPU) sein oder für das Verfahren spezifische Hardware, wie beispielsweise ein ASIC.
Ebenfalls betrifft die Erfindung ein Computerprogramm, welches ein erfindungsgemäßes Verfahren, sofern es auf einem Prozessor ausgeführt wird.
Allgemein können Ausführungsbeispiele der vorliegenden Erfindung als Computerprogramm mit einem Programmcode implementiert sein, wobei der Programmcode dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogramm auf einem Computer abläuft. Der Programmcode kann beispielsweise auch auf einem maschinenlesbaren Träger gespeichert sein.
Manche Ausführungsbeispiele der Erfindung umfassen einen, vorzugsweise nicht-flüchtigen Datenträger oder Datenspeicher, der ein Computerprogramm mit elektronisch lesbaren Steuersignalen aufweist, welches in der Lage ist, mit einem programmierbaren Computersystem derart zusammenzuwirken, dass eines der hierin beschriebenen Verfahren durchgeführt wird.
Ausführungsbeispiele der vorliegenden Erfindung können als Computerprogrammprodukt mit einem Computerprogramm implementiert sein, wobei das Computerprogramm dahin gehend wirksam ist, eines der Verfahren durchzuführen, wenn das Computerprogramm auf einem Computer abläuft.
Bezugszeichenliste

1: Karaoke-System
2: Datenschnittstelle
3: Puffer
4: Referenzmelodiebereitsteller
5: Synchronisierstufe
6: Wiedergabeeinrichtung
7: Aufnahmeeinrichtung
8: Bewertungsstufe
9: Textbereitsteller
10: Dämpfungsstufe
11: Datenbankschnittstelle
DS: Mediendatenstream
AS: Audiostream
WN: Weitverkehrsnetz
RM: Referenzmelodie
SAS: synchronisierter Audiostream
SI: Schallsignal
NG: Nutzergesang
DNG: digitalisierter Nutzergesang
BW: Bewertung
BWD: Bewertungsausgabe
VS: Videostream
SVS: synchronisierter Videostream
VD: Videodarstellung
MS: Metadatenstream
GT: Gesangstext
SGT: synchronisierten Gesangstext
TD: Textdarstellung
TDB: Textdatenbank
DBA: Datenbankabfrage
AB: Abfrage
RDB: Referenzmelodiedatenbank
GZ: Gesangszeitraum
AF: Abfrage
GDB: Gesangszeitraumdatenbank
MDB: Meta-Datenbank

Quellen:

[1] Salamon, Justin, and Emilia Gómez. "Melody extraction from polyphonic music signals using pitch contour characteristics." Audio, Speech, and Language Processing, IEEE Transactions on 20.6 (2012): 1759–1770.
[2] Ewert, Sebastian, Meinard Müller, and Peter Grosche. "High resolution audio synchronization using chroma onset features." Acoustics, Speech and Signal Processing, 2009. ICASSP 2009. IEEE International Conference on. IEEE, 2009.
[3] S. Leglaive, R. Hennequin and R. Badeau, "Singing voice detection with deep recurrent neural networks," Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, South Brisbane, QLD, 2015, pp. 121–125.
[4] P. S. Huang, S. D. Chen, P. Smaragdis and M. Hasegawa-Johnson, "Singing-voice separation from monaural recordings using robust principal component analysis," Acoustics, Speech and Signal Processing (ICASSP), 2012 IEEE International Conference on, Kyoto, 2012, pp. 57–60.
[5] T. Prätzlich, R. M. Bittner, A. Liutkus and M. Müller, "Kernel Additive Modeling for interference reduction in multi-channel music recordings," Acoustics, Speech and Signal Processing (ICASSP), 2015 IEEE International Conference on, South Brisbane, QLD, 2015, pp. 584–588.

Claims

Karaoke-System mit: einer Datenschnittstelle (2) zum Empfangen eines Mediendatenstreams (DS), welcher einen Audiostream (AS) mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz (WN); einem Puffer (3) zum Zwischenspeichern des empfangenen Audiostreams (AS); einem Referenzmelodiebereitsteller (4) zum Ermitteln einer digital notierten Referenzmelodie (RM), welche mit dem Audiostream (AS) korrespondiert; einer Synchronisierstufe (5) zum Synchronisieren des zwischengespeicherten Audiostreams (AS) und der Referenzmelodie (RM), um so einen synchronisierten Audiostream (SAS) bereitzustellen; einer Wiedergabeeinrichtung (6) zum Wiedergeben des synchronisierten Audiostreams (SAS) als Schallsignal (SI); einer Aufnahmeeinrichtung (7) zum Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges (NG), um so einen digitalisierten Nutzergesang (DNG) bereitzustellen; und einer Bewertungsstufe (8) zum Erstellen einer Bewertung (BW) des wenigstens einen Nutzergesangs (NG) anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs (DNG) mit der Referenzmelodie (RM), wobei die Bewertung (BW) durch die Wiedereingabeeinrichtung (6) als Bewertungsausgabe (BWD) ausgebbar ist.
Karaoke-System nach vorstehendem Anspruch, wobei der mittels der Datenschnittstelle (2) empfangbare Mediendatenstream (DS) zusätzlich einen mit dem Audiostream (AS) korrespondierenden Videostream (VS) enthält, wobei der Puffer (3) zum Zwischenspeichern des empfangenen Videostreams (VS) ausgebildet ist, wobei die Synchronisierstufe (5) zum Synchronisieren des zwischengespeicherten Videostreams (VS) mit der Referenzmelodie (RM) ausgebildet ist, um so einen synchronisierten Videostream (SVS) bereitzustellen, und wobei die Wiedergabeeinrichtung (6) zum Wiedergeben des synchronisierten Videostreams (SVS) als Videodarstellung (VD) ausgebildet ist.
Karaoke-System nach einem der vorstehenden Ansprüche, wobei das Karaoke-System (1) einen Textbereitsteller (9) umfasst, welcher zum Ermitteln eines mit dem Audiostream (AS) korrespondierenden Gesangstextes (GT) ausgebildet ist, wobei die Synchronisierstufe (5) zum Synchronisieren der Referenzmelodie (RM) und des Gesangstextes (GT) ausgebildet ist, und wobei die Wiedergabeeinrichtung (6) zum Wiedergeben des Gesangstextes (GT) als Textdarstellung (TD) ausgebildet ist.
Karaoke-System nach vorstehendem Anspruch, wobei der Textbereitsteller (9) zum Ermitteln des Gesangstextes (GT) mittels einer Analyse des Audiostreams (AS) ausgebildet ist.
Karaoke-System nach Anspruch 3 oder 4, wobei der mittels der Datenschnittstelle (2) empfangbare Mediendatenstream (DS) zusätzlich einen mit dem Audiostream (AS) korrespondierenden Metadatenstream (MS) enthält, und wobei der Textbereitsteller (9) zum Extrahieren des Gesangstextes (GT) aus dem Metadatenstream (MS) ausgebildet ist.
Karaoke-System nach einem der Ansprüche 3 bis 5, wobei der Textbereitsteller (9) zum Auslesen des Gesangstextes (GT) aus einer Textdatenbank (TDB) mittels einer Datenbankabfrage (DBA) ausgebildet ist.
Karaoke-System nach einem der vorstehenden Ansprüche, wobei der Referenzmelodiebereitsteller (4) zum Ermitteln der Referenzmelodie (RM) mittels einer Analyse des Audiostreams (AS) ausgebildet ist.
Karaoke-System nach einem der vorstehenden Ansprüche, wobei der mittels der Datenschnittstelle (2) empfangbare Mediendatenstream (DS) zusätzlich einen mit dem Audiostream (AS) korrespondierenden Metadatenstream (MS) enthält, und wobei der Referenzmelodiebereitsteller (4) zum Extrahieren der Referenzmelodie (RM) aus dem Metadatenstream (MS) ausgebildet ist.
Karaoke-System nach einem der vorstehenden Ansprüche, wobei der Referenzmelodiebereitsteller (4) zum Ermitteln der Referenzmelodie (RM) mittels einer Abfrage (AB) einer Referenzmelodiedatenbank (RDB) ausgebildet ist.
Karaoke-System nach einem der vorstehenden Ansprüche, wobei der Referenzmelodiebereitsteller (4) zur Ermittlung wenigstens eines Gesangszeitraumes ausgebildet ist, während dessen die Gesangsstimme im Audiostream (AS) aktiv ist, wobei der Referenzmelodiebereitsteller (4) die Referenzmelodie (RM) ausschließlich für den wenigstens einen Gesangszeitraum ermittelt.
Karaoke-System nach vorstehendem Anspruch, wobei der Referenzmelodiebereitsteller (4) zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Analyse des Audiostreams (AS) ausgebildet ist.
Karaoke-System nach Anspruch 10 oder 11, wobei der mittels der Datenschnittstelle (2) empfangbare Mediendatenstream (DS) zusätzlich einen mit dem Audiostream (AS) korrespondierenden Metadatenstream (MS) enthält, und wobei der Referenzmelodiebereitsteller (4) zum Extrahieren des wenigstens einen Gesangszeitraumes aus dem Metadatenstream (MS) ausgebildet ist.
Karaoke-System nach einem der Ansprüche 10 bis 12, wobei der Referenzmelodiebereitsteller (4) zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Analyse des Gesangstextes (GT) ausgebildet ist.
Karaoke-System nach einem der Ansprüche 10 bis 13, wobei der Referenzmelodiebereitsteller (4) zum Ermitteln des wenigstens einen Gesangszeitraumes mittels einer Abfrage (AF) einer Gesangszeitraumdatenbank (GDB) ausgebildet ist.
Karaoke-System nach einem der vorstehenden Ansprüche, wobei eine Dämpfungsstufe (10) zur Dämpfung der Gesangsstimme in dem wiedergegebenen Schallsignal (SI) vorgesehen ist.
Karaoke-System nach einem der vorstehenden Ansprüche, wobei die Wiedergabeeinrichtung (6) zum Wiedergeben des digitalisierten Nutzergesangs (DNG) ausgebildet ist
Karaoke-System nach einem der vorstehenden Ansprüche, wobei eine Datenbankschnittstelle (11) zum Einschreiben von Metadaten (RM, GT, GZ, MS) welche mit dem Audiostream (AS) korrespondieren, in eine Meta-Datenbank (MDB) vorgesehen ist.
Karaoke-System nach einem der Ansprüche 3 bis 17, wobei die Bewertungsstufe (8) zum Erkennen eines Textes in dem wenigstens einen digitalisierten Nutzergesang (DNG) ausgebildet ist und wobei die Bewertungsstufe (8) beim Erstellen der Bewertung (BW) des wenigstens einen digitalisierten Nutzergesangs (DNG) zur zusätzlichen Berücksichtigung eines Vergleichs des erkannten Textes des wenigstens einen digitalisierten Nutzergesangs (DNG) mit dem Gesangstext (GT) des Textbereitstellers (9), welcher mit dem Audiostream (AS) korrespondiert, ausgebildet ist.
Verfahren zum Betreiben eines Karaoke-Systems (1) mit den Schritten: Empfangen eines Mediendatenstreams (DS), welcher einen Audiostream (AS) mit einer Gesangsstimme enthält, aus einem Weitverkehrsnetz (WN) unter Verwendung einer Datenschnittstelle (2); Zwischenspeichern des empfangenen Audiostreams (AS) unter Verwendung eines Puffers (3); Ermitteln einer digital notierten Referenzmelodie (RM), welche mit dem Audiostream (AS) korrespondiert; Synchronisieren deszwischengespeicherten Audiostreams (AS) und der Referenzmelodie (RM), um so einen synchronisierten Audiostream (SAS) bereitzustellen; Wiedergeben des synchronisierten Audiostreams (SAS) unter Verwendung einer Wiedergabeeinrichtung (6) als Schalsignal (SI); Aufnehmen und Digitalisieren wenigstens eines Nutzergesanges (NG), um so einen digitalisierten Nutzergesang (DNG) bereitzustellen; Erstellen einer Bewertung (BW) für den wenigstens einen Nutzergesang (NG) anhand eines Vergleichs des wenigstens einen digitalisierten Nutzergesangs (DNG) mit der Referenzmelodie (RM); und Wiedergeben der Bewertung (BW) als Bewertungsausgabe (BWD).
Computerprogramm, welches ein Verfahren nach vorstehendem Anspruch durchführt, sofern es auf einem Prozessor ausgeführt wird.